АВТОМАТИЧЕСКИЕ МЕТОДЫ ДЕТЕКЦИИ КУЛЬТУРНЫХ СМЕЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ (НА МАТЕРИАЛЕ ДИАЛОГОВ ИЗ TELEGRAM)

Жеребцова Юлия Андреевна; Чижик Анна Владимировна; Садохин Александр Петрович

УДК 519.765, 004.912

DOI 10.25205/1818-7935-2021-19-2-54-72

Автоматические методы детекции культурных смещений в социальных сетях (на материале диалогов из Telegram)

Ю. А. Жеребцова \ А. В. Чижик 1 2, А. П. Садохин 3

1 Национальный исследовательский университет ИТМО

Санкт-Петербург, Россия

2 Санкт-Петербургский государственный университет

Санкт-Петербург, Россия

3 Российский государственный социальный университет

Москва, Россия

Аннотация

Формирование слоя социокультурной жизни человека основано на осознании индивидом себя и окружающего мира, а также переводе результатов этого осмысления в понятийную абстракцию или устойчивый образ. Это неизбежно приводит к появлению в обществе культурных смещений как формы отделения, обособления или подчеркивания своей инаковости одной социальной группы или национальной общности по отношению к другой. Речь идет о формировании неслучайных фундаментальных ошибок в мышлении при составлении картины мира. Укрепляющееся в обществе культурное смещение сохраняется в сознании индивидов и влияет в дальнейшем на возможную интерпретацию и негативное восприятие соседствующей социальной группы (а значит, на общественное настроение), иными словами, на уровень агрессивности или конфликтогенности общества. В числе прочего культурные смещения приводят к социальной стигматизации, стереотипизации и дискриминации. Всё это говорит о том, что проблема выявления культурных смещений является актуальной для научного сообщества. Существует достаточно много методов, основанных на опросах и их последующем анализе для детекции этого феномена.

Отметим, что наиболее активно культурные смещения функционируют в современном медиапространстве, так как оно включает в себя возможности не только получения информации, но и коммуникации (на фоне ее получения) незнакомых между собой людей. Так как обсуждения социально-политических и культурных контекстов в таком случае происходит публично, то участники такого коммуникативного акта стремятся получить одобрение социальной группы, к которой примыкают идейно. Именно этот феномен позволяет достаточно быстро формировать сопоставления типа «свое - чужое», приводящие к неосознанным культурным смещениям. Таким образом, социальные сети (как классические, так и новые форматы, например мессендже-ры с опциями публичных чатов) являются наиболее удобной площадкой для репрезентации этого феномена, поэтому в данной статье мы предлагаем использовать математический аппарат и выделять смещения на основе анализа большого массива текстовых данных, собранных в публичном чате в мессенджере Telegram. На наш взгляд, такой подход может в дальнейшем дополнять стандартную социологическую методологию, в том числе помочь выявить скрытые закономерности социокультурного и межкультурного дистанцирования за счет возможности охватить большой объем данных за несколько лет, а также включить в исследование более широкую выборку исследуемых индивидов.

Ключевые слова

поле культуры, культурный код, культурный процесс, машинное обучение, обработка естественного языка, кластеризация текста, культурные смещения, анализ текста

Для цитирования

Жеребцова Ю. А., Чижик А. В., Садохин А. П. Автоматические методы детекции культурных смещений в социальных сетях (на материале диалогов из Telegram) // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2021. Т. 19, № 2. С. 54-72. DOI 10.25205/1818-7935-2021-19-2-54-72

* Ю. А. Жеребцова, А. В. Чижик - равный вклад в работу.

Automatic Methods for Detecting Cultural Bias in Social Media (Based on Telegram's Dialogs) *

Yulia A. Zherebtsova Anna V. Chizhik 1 2, Aleksandr P. Sadokhin 3

1 ITMO University St. Petersburg, Russian Federation

2 Saint Petersburg State University St. Petersburg, Russian Federation 3 Russian State Social University Moscow, Russian Federation

Abstract

In this paper, we described and tested several ways to use machine learning in order to analyze large collections of text data from social networks (namely, public Telegram chat), retrieve relevant social or cultural information from them, and to visualize the results of the research. The proposed approach has an advantage to reveal hidden patterns of social, political or cultural behavior by being able to cover large amounts of data. It can complement the standard social surveys methodology. Automatic detecting cultural bias on the example of social media requires mastering methods for measuring and visualizing its different kinds, such as cultural shifts, specific national or group refractions, mutations, stereotypes. We argue that cultural bias is a result of nonrandom errors in thinking. It is based, firstly, on a person's understanding of himself and the world around him and, secondly, on the translation of this understanding into abstraction in the form of common misconceptions, ideologemes, narrative, slogans. In society the bias inevitably leads to the separation of one social group or subculture from another. Social networks (both classic and new formats, for example, messengers with public chat options) are the most active ground for the representation of this phenomenon. Since the discussion of socio-political and cultural contexts in the case of chats takes place in public, the participants of such a communicative act tend to get approval of the social group to which they are ideologically close. It is this phenomenon that allows us to form comparisons of the "friend-foe" type, which lead next to unconscious cultural shifts. Thus, mastering methods to identify properly cultural shifts is not only relevant but crucial for the intra- and intercultural communication, for controlling the level of aggressiveness of the society, understanding its mood. As helpful illustrations, readers will find semantic associations elicited by the words "freedom", "democracy", "Internet"; sociocultural analysis of several topical clusters (e.g. Россия, страна, Путин, русский, православный); visualization of semantic associations for the words "freedom", "democracy", "Internet".

Keywords

machine learning, natural language processing, text clustering, cultural bias, text analysis, cultural code, cultural process

For citation

Zherebtsova, Yulia A., Chizhik, Anna V., Sadokhin, Aleksandr P. Automatic Methods for Detecting Cultural Bias in Social Media (Based on Telegram's Dialogs). Vestnik NSU. Series: Linguistics and Intercultural Communication, 2021, vol. 19, no. 2, p. 54-72. DOI 10.25205/1818-7935-2021-19-2-54-72

Постановка проблемы

Исследованиями различных научных направлений достоверно установлено, что формирование картины мира человека происходит при активном участии медиапространства, в которое в настоящее время включены все возможные типы коммуникации (связь «один ко многим», «многие ко многим», «один к одному»). Отметим, что такое обилие информационных транзакций связано с расширением возможных форматов транслирования информационных сообщений: классические медиа и интернет-СМИ дополнились активно функционирующими в этом ключе социальными сетями и мессенджерами. При этом социальные сети аккумулируют в себе всё больший потенциал влияния на сознание индивидов, которое может стать ключевым. За счет их динамичности через них вокруг сложных социальных явлений складывается комплекс устойчивых ассоциаций, мнений и стереотипов. Даже там, где социальные сети не являются источником первичной информации, у коммуникантов возникает

* Yulia A. Zherebtsova, Anna V. Chizhik - equal contribution to the work.

потребность получить внутри их пространства определенный отклик на информационный или социальный повод, сопоставить свое мнение с мнением остальных, тем более что сама сеть очень активно подталкивает пользователей к формированию такой психологической потребности через формат общения. Хотя для социальных сетей (равно как и для СМИ) высокая репрезентативность не характерна, за счет динамичности передвижения информационных потоков внутри горизонтальных коммуникативных конструкций, т. е. через механизм неструктурированной связи типа «многие ко многим», они обретают особую эффективность. В результате тексты внутри социальных сетей не только выстраивают информационную повестку дня, но и, стихийно искажая картину объективной реальности, могут кардинальным образом повлиять на настроения социума.

Другими словами, тексты внутри социальных сетей часто формируют субъективную и пристрастную точку зрения на происходящие события, создавая и закрепляя в сознании потребителя информации определенный образ действительности. Отметим также, что коммуникация в социальной сети отличается своеобразным характером протекания процессов межличностного восприятия информации, исходящей от личности. Как правило, сильное влияние на представление о собеседнике (и его социальной группе) оказывают механизмы стереотипизации и идентификации, когда начальная установка (предчувствие желаемых или не желаемых качеств в партнере по коммуникации) является основной характеристикой, влияющей на успешность коммуникативного акта, на возникновение доверия к принимаемой информации (или, наоборот, на агрессивность поведения внутри коммуникативного акта).

При этом необходимо понимать, что социальные сети не являются платформой для исключительно стихийно формирующихся сообществ и / или изолированных от других каналов взаимодействия общества с медиапространством, поэтому социокультурные тенденции проникают туда из социальной макросреды в ее многогранном понимании (в том числе через традиционные СМИ, лидеров мнений, пропаганду и т. п.).

Цикл комментариев и ответов на них повторяется в зависимости от остроты темы и активности инициаторов ветки беседы и при пике активности развивается, обретая черты рекурсии. Однако оценить эффективность коммуникации представляется затруднительным, так как достаточно сложно проследить наличие рационального вектора в развивающихся диалогах. Поскольку важным стимулом к продолжению коммуникативного акта служит одобрение большинства, то справедливо предположить, что подобного рода диалоги укрепляют сформированные и формирующиеся в рамках своей референтной группы смещения культурных позиций, создавая к тому же почву для формирования агрессивного поля вокруг них, так как социокультурное обособление связано с противоборством мнений и культурных ценностей.

На выбор и содержание текстов могут влиять субъективные и системные предубеждения (bias) акторов. С одной стороны, субъективные предубеждения действуют на уровне индивидуального восприятия информации в контексте текущих событий [Садохин, 2008]. С другой стороны, такие предубеждения могут возникать под влиянием общих ценностей своей социальной группы, культурных предпочтений индивида и информационных перегрузок, вызывая интерпретационные сдвиги (shifts) в социокультурной локализации информации или ее понятийную рефракцию (refraction) 1. С течением времени часть субъективных предпочтений и интерпретационных сдвигов преобразуется в системные, которые действуют уже на другом - мезоскопическом - уровне, создавая групповые закономерности в культурном позиционировании (bias), которые нельзя наблюдать на поверхностном уровне конкретного речевого высказывания или текущего события, но можно наблюдать в более крупных масштабах,

1 Понятийное содержание термина, введенного уже давно, но без формальной дефиниции бельгийским пере-водоведом Андре Лефевром (André Lefevere), подробно раскрывается в интерпретации А. Ф. Фефелова в статьях [2016a; 20166].

когда анализируются большие объемы текстовых данных 2 на временном промежутке в несколько лет. В этих целях нами была предпринята попытка изучения этих коллективных подспудных информационных фильтров общественного мнения математическими методами анализа текстов с целью детекции смещений в культурном позиционировании различных коллективных акторов, действующих в современном российском обществе. На графике, построенном в соответствии с определенной языковой моделью, смещения подобного рода становятся доступными для визуального восприятия.

Методы

Основой математических методов анализа текста служит языковая модель. Языковая модель - это способ вычислить вероятность заданного фрагмента текста (цепочки слов), т. е. речь идет о подсчете функции вероятностного распределения на множестве словарных последовательностей. Зная такую вероятность, можно, в частности, оценить, насколько ожидаемо конкретное слово после заданной последовательности других слов в качестве продолжения текста.

Ранее использовались различные варианты построения языковых моделей на базе подсчета употребления .N-грамм [Jelinek, 1991; Stolcke, Segal, 1994]. В ^-граммных языковых моделях рассматривается вероятность встретить последовательность слов как произведение таких вероятностей слова при условии известности предшествующих ему. Главную роль играют в этом случае только несколько предыдущих слов (т. е. N слов). Затем широкое применение получили языковые модели, в которых используются различные архитектуры, основанные на алгоритмах машинного обучения и искусственных нейронных сетях [Mikolov, 2013; Joulin et al., 2016; Pennington et al., 2014].

Нейросетевые языковые модели можно разбить на две группы: работающие на уровне слов (word-aware NLM) и на уровне символов (character-aware NLM). Хорошая языковая модель должна охватывать два важных уровня (свойства) естественного языка. Первый - правильный синтаксис, тогда для адекватного прогноза следующего слова достаточно «захватить» нескольких предыдущих слов, но для успешности выполнения задачи необходимо помнить, что в этом случае порядок слов в предложении имеет большое значение. Второй уровень - лексико-семантический, и речь идет о таком свойстве текста, как семантическая согласованность.

Чтобы попытаться понять полный смысл предложения или документа, нам часто нужно рассмотреть большое количество слов. В этом случае их порядок обычно имеет гораздо меньшее значение. Поскольку большинство моделей рассматривают контекстное окно фиксированного размера, традиционные .N-граммные и нейронные вероятностные языковые модели имеют трудности с извлечением глобальной семантической информации из текста, поскольку они не учитывают многозначность и контекстно-зависимую природу семантики слов. Отметим в этой связи, что постепенно обретают популярность контекстуализирован-ные языковые модели, пытающиеся учитывать контекст употребления слова [Che et al., 2018; Peters et al., 2018; Artetxe, Schwenk, 2018; Radford et al., 2018].

Обучение любой языковой модели начинается с создания коллекции текстов (дата-сета), содержащего предложения на естественном языке. Обучаемая модель, по сути, рассчитывает вероятность появления слова в окружении других слов на основе примеров из дата-сета. В зависимости от типа модель может работать с текстовыми данными на уровне символов (частей слов), слов или предложений.

Отметим также, что оперирование текстовыми данными при построении языковой модели происходит после их преобразования в некоторое численное векторное представление (word

2 Примерно так же, как проводится контент-анализ политического дискурса с целью извлечения глубинной информации.

embeddings). Это значит, что суждения, например, о семантической близости слов или частотности их совместной встречаемости в рамках моделируемой языковой модели происходят на уровне сравнения расстояний между этими векторами (чаще всего на основе косинусного расстояния). Приведем классический пример такого векторного представления, показывающий аналогии между парами слов «король - мужчина» и «королева - женщина». Как видно из рис. 1, алгебраические операции в этом пространстве соответствуют операциям над смысловыми ассоциациями слов.

1 женщина - мужчина = королева - король

женщина

королева / \

мужчина

Рис. 1. Семантические взаимосвязи слов в языковой модели Fig. 1. Words' semantic relationship in a language model

Воспользовавшись готовой (предобученной) языковой моделью [Panchenko et al., 2013], продемонстрируем более широко, как выглядят семантические ассоциации слов. На рис. 2 представлены 20 (из 257 доступных внутри данной языковой модели) ближайших ассоциативных соседей для слова «женщина».

1 старик

2 ребёнок

3 мужчина

4 спортсмен

5 житель

6 горожанин

7 человек

8 еврей

9 население

10 мусульманин

11 гражданин

12 жена

13 Клеопатра

14 поселенец

15 крепостной

16 лицо

17 молодёжь

18 жертва

19 супермодель

20 выкидыш

мусульманин

Рис. 2. Демонстрация семантической связи слов (корень графа «женщина») Fig. 2. Words' semantic connections for the root of the column "woman"

горожанин

Если распространить ту же логику на целые предложения, с которыми мы имеем дело в случае разработки чат-бота, то правильно работающая языковая модель, способна помочь алгоритму выполнить вычисление следующего вида (рис. 3).

Как твои дела? ^ ^Как дела?

Как ты?

ш Как жизнь?

Какая погода на улице?

Прекрасная погода, не правда ли?

Сегодня хорошая погода

Ф - Фраза, введенная пользователем

- Фразы, содержащиеся в используемом дата-сете

Рис. 3. Сопоставление предложений на основании работы языковой модели Fig. 3. Matching sentences based on how the language model works

Итак, можно сделать вывод, что семантические взаимосвязи пространства слов (или предложений) в векторном пространстве обретают математический смысл. На этом основании можно говорить о том, что основная причина скачков в улучшении производительности языковых моделей заключается в способности модели обнаруживать и обобщать формально -семантическое подобие текстовых данных.

Наиболее продуктивные с точки зрения естественности создаваемых ассоциаций слов в векторном пространстве языковые модели хорошо воспроизводят текстовые последовательности, отражающие характерные для социальных микро- и макрогрупп уровни специфичности культурного позиционирования по отношению (bias) к явлениям и группам-антагонистам, так как обучение модели происходит за счет вычисления совместной встречаемости слов (в идеале речь идет о выделении коллокаций 3, однако иногда актуальными для анализа оказываются и нетривиальные биграммы). Иными словами, языковая модель тем лучше будет знать, что лексемы «свобода» и «слово» образуют коллокацию, чем чаще она будет встречаться в обучающем дата-сете.

Однако это значит, вместе с тем, что некогда понятные каждому, но устаревшие культурно-идеологические штампы, как фраза «Свободу Анджеле Дэвис!», имеют малую вероятность попасть в число частотных ассоциаций к слову «свобода» в языковой модели, обученной на коллекции текстов, состоящих из предложений лишь на разговорном языке наших дней. Отсюда следует, что речевые штампы и штампованные суждения («предвзятости»), встречаемые в дата-сетах и попадающие в языковые модели, в целом представляют собой не что иное, как стереотипные высказывания, приобретшие в той или иной группе или обществе в целом статус актуальных этико-идеологических ориентиров и задающие образцы шаблонного, сугубо «вербального» мышления.

3 Коллокацией в корпусных исследованиях называется сочетание двух слов, имеющее признаки синтаксически и семантически целостной единицы, повышающие их совстречаемость по сравнению со свободными словосочетаниями.

При этом важно понимать, что языковая модель вберет в себя именно те стереотипы и шаблоны мышления 4, которые изначально присутствуют в обучающем текстовом наборе данных. Это значит, что, составив, например, дата-сет из диалогов классической литературы, мы получим в визуальном отображении совершенно иные смещения «культурных» единиц (т. е. культурем), чем на основе корпуса диалогов из любой социальной сети. При этом мы полагаем, что смещения культурем в координатах графика соответствуют наличию сдвигов в культурном позиционировании носителей исследуемого дискурса по тому или иному вопросу, даже если сам носитель этого не осознает.

Типология культурных смещений

В практических целях, понимая, что культурная инаковость может проявляться в виде семантических сдвигов в словесном значении (shifts), рефракции восприятия информации при ее получении из иной этнокультурной среды (refraction), стереотипов (stereotypes), сформировавшихся внутри группы, как фактор ее единения и стабильности, мы выбираем в качестве обобщающего понятийного ориентира термин культурное смещение как наиболее близкий к чрезвычайно амбивалентному английскому термину bias, используемому в теории межкультурной коммуникации.

Можно выделить следующие формы существования культурного смещения:

• национальные идеалы или религиозные догматы;

• социальные мутации национальных скреп;

• гендерные стереотипы;

• защитная реакция в виде агрессивных высказываний и инвектив общего характера.

В естественном языке индикаторы культурных смещений могут присутствовать в латентной форме (лингвистические подсказки, косвенно указывающие на точку зрения) или в виде формулировки прямого отношения к предмету высказывания. Собранные текстовые данные, на основе которых работает языковая модель, демонстрируют положительное или отрицательное отношение к социально-демографическим и ментальным стереотипам, а также к принятым в обществе традициям и шаблонам поведения, поэтому представляется интересным исследование социальных коннотаций и контекстов происходящих культурных смещений. В этой работе мы анализируем предубеждения, актуализируемые в двух типах контекстов: те, которые на описательном уровне отражают социальные настроения [Ядов, 1961; Поршнев, 1979; Узнадзе, 2001] по конкретной теме, и те, которые очерчивают характеристики социальной группы [Шабаев, Садохин, 2012] 5.

Объект исследования

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве объекта исследования нами был выбран Telegram-чат новостного канала Mash -«МАСХ». Он объединяет 1 608 участников, не модерируется; в анализ вошли 556 354 сообщения, первое из которых датировано 2018-07-05, а последние - 2020-12-03.

Пример того, как выглядит исходный объект получения данных, приведен на рис. 4.

Из выкаченных в формате html данных был сформирован набор данных (дата-сет), формат которого показан на рис. 5.

4 Заметим, что термин «культурный стереотип» далеко не всегда трактуется как указание на осуждаемую или просто негативную практику поведения людей своего социума. Как подсказывает Б. Петерс (В. Рее1еге), стереотипы в сопоставительном исследовании межкультурной специфики / коммуникации нужно использовать правильно [Петерс, 2020].

5 Под группой мы понимаем людей с одинаковым идентификационным признаком. В частности, мы изучаем группы по гендерному признаку и по национальности.

,i MTSRUS LTE 20:44 С@40%С

✓ Ha4an МАСХ (Л

> алом 1 608 уцэстников, 307 в сети vJ^J

I Закреплённое сообщение | Приветос! Это чат новостного канала Mas...

изменено 19:17

Сергеи Bodrov Че думаете на счёт референдума ? У нас пол страны бюджетников зашуганных и мусоров gg^ продажных)) править вечно ; " будет царь?

А К вступил(а) в группу

Армянская Овчарка I Сергеи Bodrov

I Че думаете на счёт референдума ? У... Пока не постареет настолько, что совсем пиздец, да 19:19

д. Власть - сладкая штука, тяжело

^ отдать 19:19

ч »

Сергеи Bodrov I Армянская Овчарка | Пока не постареет настолько, что со... А там приёмник двойник

Рис. 4. Скриншот внешнего вида чата Fig. 4. Screenshot of chat appearance

610181 610 81 messagel577972 18:22:50 liannatolevnaiji В медицинском центре в Коммунарке (туда свозят... None 2020-12-03

610182 610 82 messa g e1577974 18:24:50 Alexey Voynov Ну ща начнется message1577973 2020-12-03

610183 610 83 messagel577975 18:24:55 RiCHiftj И ты туда же штоле message1577973 2020-12-03

610184 610 84 messagel577976 18:24:57 Alexey Voynov РЕН-ТВ None 2020-12-03

610185 610 85 messagel577978 18:25:05 RiCHi&i Панику поднимаешь на пустом месте. None 2020-12-03

610186 610 86 messagel577979 18:25:15 Alexey Voynov Подорвать обороноспособность None 2020-12-03

610187 610 87 messagel577980 18:25:29 Dmitry вы все умрете None 2020-12-03

610188 610 88 messagel577982 18:25:34 Фарик Скрепы шатают None 2020-12-03

610189 610 89 messagel577983 18:25:35 Alexey Voynov Саботировать постройку новейших самолетов None 2020-12-03

610190 610 90 messagel577984 18:25:41 liannatolevna^ None None 2020-12-03

610191 610 91 messagel577985 18:25:44 RI^HI&J В 75 лет дед умер, вот так новость конешна. None 2020-12-03

610192 610 92 messagel577986 18:26:04 Dmitry а в загранице же до 90 все живут None 2020-12-03

610193 610 93 messagel577988 18:26:26 Фарик И выглядят как 70 летние m essage1577986 2020-12-03

610194 610 94 messagel577990 18:27:00 Dmitry ты чего наговариваешь на заграницу? ватинкчто... m essage1577988 2020-12-03

610195 610 95 message1577991 18:27:33 Фарик Да вообще как молокососы выглядят messagel577990 2020-12-03

610196 610 96 messagel577992 18:28:05 Енот И у нас наверняка тоже. И пойдет на восьмой срок message1577987 2020-12-03

610197 610 97 messagel577993 18:28:45 Фарик Путин будет жить и править тысячи лет судя по... None 2020-12-03

610198 610 98 messagel577994 18:31:21 Dmitry А потом ещ тысячу None 2020-12-03

610199 610 99 messagel577996 18:32:02 bratko_kem Как одометр на газель некст m essage1577995 2020-12-03

610200 610200 messagel577997 18:32:02 Dmitry самое интересное что по барабану путин там у в... None 2020-12-03

Рис. 5. Внешний вид исследуемой коллекции данных Fig. 5. Display of the data collection under study

Отметим, что данное исследование было сфокусировано только на текстовой части дата-сета, хотя остальная информация, в принципе, также может оказаться полезной на последующих этапах анализа.

На начальном этапе лингвистического анализа дата-сета нами была проведена кластеризация сообщений, что дало первичное представление о наполненности беседы различными темами и позволило сделать вывод об их плотном взаимодействии между собой: как видно на рис. 6, кластеры находятся очень близко друг к другу, и даже иногда пересекаются в пространстве.

Рис. 6. Соотношение кластеров Fig. 6. Cluster relations

Затем были выявлены ассоциативные цепочки терминов. Для этого были взяты пары и тройки слов, для которых модель нашла наиболее семантически близкие термины из исследуемого набора данных (теоретический алгоритм работы модели отображен на рис. 1, 2). Стоит отметить, что в семантические ассоциации попадают как отрицательные, так и положительные контексты. Также необходимо понимать, что модель находит квазисинонимы -совокупности близких по смыслу слов, значения которых могут различаться по нескольким характеристикам (например, по отношению говорящего к предмету обсуждения) и видоизменяться в зависимости от контекста, что может несколько осложнять проводимый анализ. Интерпретировать степень семантической близости слова к термину можно или через отношение равенства («она» = «ее» = «девушка» = «жена» = ...), или через слово, очень тесно ассоциирующееся с термином («она» = «девушка» = «жена» ^ муж). В результате в категорию ассоциаций могут быть отобраны только те слова, которые текстах, раскрывающих культурный код группы, тесно взаимосвязаны. Пример получившихся ассоциаций приведен в табл. 1.

Как видно из приведенного примера, люди, присутствующие в исследуемом чате, ассоциируют термин «демократия» чаще всего с оппозицией. Следующая логическая линия от этого слова ведет к понятию «коммунизм», и это говорит о том, что доказательная база дискуссий вокруг понятия «демократия» содержит представления о предшествующем социально-политическом этапе развития нашей страны. Этот феномен может являться отдельным исследованием в области культурных смещений, так как целевая аудитория социальных сетей - как правило, люди молодые, т. е. родившиеся в последние годы существования Советского Союза (а часто и после его распада), это значит, что их представления о социальных и политических реалиях того времени сформированы вне индивидуального опыта, тем не менее суждения выносятся именно в контексте четко выраженного мнения, которое в последующем вызывает тот или иной отклик социальной группы.

Также интересным фактом является то, что подобное сопоставление демократии и коммунизма характерно исключительно для нашей страны, так как отсылает непосредственно к фактам внутренней истории, поэтому возникающие культурные и социальные контексты подчеркнуто национальны по предметной сути. Кроме того, обращает на себя внимание то, что в разговорах людей на эту тему часто появляются слова «равенство» и «развиваться», которые, вероятно, можно отнести к категории надежды на «светлое будущее». Отметим, наконец, что в семи наиболее близких терминах появляется прилагательное «путинский». Оно фокусирует обсуждение понятия «демократия» на текущей повестке дня, выводя его из области отвлеченных философско-политических рассуждений.

Таблица 1

Семантические ассоциации к словам «свобода», «демократия», «Интернет»

Table 1

Semantic associations elicited by the words "freedom", "democracy", "Internet"

Свобода Демократия Интернет

('признать', ('оппозиция', ('анонимность',

0.9017236232757568), 0.9191081523895264), 0.6254202723503113),

('коррупция', ('коммунизм', ('урп',

0.8983240723609924), 0.9145876169204712), 0.6117355227470398),

('наказание', ('равенство', ('лагаета',

0.8904907703399658), 0.9139655828475952), 0.6087996959686279),

('гражданин', ('развиваться', ('свободный доступ',

0.880867063999176), 0.9133450984954834), 0.5988985300064087),

('преступление', ('путинский', ('телеграм',

0.8789682388305664), 0.9130712747573853), 0.5986903309822083),

('год лишение', ('капитализм', ('ркн',

0.871111273765564), 0.8889749646186829), 0.5934107899665833),

('отношение', ('монархия', ('перебой',

0.8698971271514893), 0.8852110505104065), 0.5892473459243774),

('справедливость', ('социализм', ('простор',

0.7563846111297607), 0.8837734460830688), 0.5862609148025513),

('смертный казнь', ('вертикаль', ('умолчание',

0.7523390054702759), 0.8762210607528687), 0.5862008929252625)

('монархия', ('скреп', 0.8600466251373291),

0.7488603591918945), ('диктатура',

('либерализм', 0.8596632480621338),

0.7421742081642151), ('менталитет',

('действующий власть', 0.8592602610588074)

0.7411474585533142),

('гражданский общество',

0.7408543229103088)

Обратимся к смежному, на наш взгляд, с демократией термину «свобода» и построим цепочку ассоциаций для него. Наиболее близкими семантически словами оказались разнообразные единицы с семантикой «лишение свободы», в то время как «гражданское общество» и «либерализм» как взаимосвязанные слова получили меньший вес. Такой результат вполне логичен, так как исследуемый чат является неформальным полем для дискуссий читателей новостного канала: слово «свобода» употреблялось в контексте обсуждения новостей, а не в идейных дискуссиях.

Кроме того, как показано в [Слесарева и др., 2020. С. 106, 112, 114], антонимы положительно маркированных понятий с культурно-идеологическим наполнением нередко вводятся авторами в текст для того, чтобы таким антипримером укрепить положительный идеал. Концентрация таких негативных «самоидентификаций» в медийном тексте может быть довольно высокой. Положительные качества и оценки утверждаются иногда и с помощью отрицательных конструкций с функцией положительной характеристики типа «не гнобит» об идеале, например, преподавателя [Яковлев, 2019. С. 144]. Сказанное означает, что наш результат кажется неожиданным лишь на первый взгляд.

Второй наш термин, ассоциируемый с современным пониманием демократии, - «Интернет». Он связан с формированием информационного общества как в Европе, так и в России, а также с пониманием того, что информационно-коммуникационные технологии (ИКТ) существенно облегчают взаимодействие власти и граждан. В наиболее близкие связи здесь попали достаточно очевидные слова, такие как «анонимность», «свободный доступ» и «телеграмм»: все они прямо отражают основные интересы и потребности жителей России, связанные с Интернетом.

Далее нами была исследована возможность отражения общественно-политической повестки дня страны через коллокации. По ключевому термину моделью выявлялись самые частотные совстречаемые слова. Их выделение может помочь очертить социальные и политические тенденции макрогруппы. Например, на всём объеме коллекции данных (более 500 тыс. сообщений) слово «Россия» чаще всего соседствует со словом «президент»; в качестве частотных коллокаций проявили себя такие словосочетания, как «русские вперед» и «Путин президент». Ниже приведен пример выявленных коллокаций (табл. 2). Для удобства интерпретации результатов в качестве примера были взяты те же термины, что и выше.

Таблица 2

Примеры выявленных коллокаций

Table 2

Some examples of singled out collocations

Свобода Интернет

'свобода_слово', 'поганый интернет',

'лишение_свобода', 'суверенный интернет',

'ограничение_свобода', 'свобода_интернет',

'выйти свобода', 'свободный интернет',

'право_свобода', 'доступ_интернет',

'свобода интернет' 'интернет паспорт'

Отметим, что выявление устойчивых совстречаемых слов явным образом дополняет возможность оценить социокультурный ландшафт, представленный в языковом поле усредненного среза граждан. Так, если в построенных семантических взаимосвязях слов термин «свобода» ассоциировался исключительно с уголовной ответственностью и правонарушениями, то при поиске коллокаций были обнаружены темы, интересующие людей скорее в связи с термином «демократия». Заметим также, что никаких устойчивых словосочетаний с термином «демократия» здесь нет, в то время как на предыдущем шаге исследования такие тенденции были выявлены. Также отметим, что исследование этим способом тематических и семантических связей термина «Интернет» дает неплохие результаты, они могут дополнить оценку общественных настроений в радиусе этой темы.

Визуализация векторных представлений слов

Чтобы интерпретировать отношения между векторами слов, стоит прибегнуть к методу визуализации многомерного пространства векторного представления слов. Базовый принцип работы t-SNE заключается в сокращении попарных расстояний между точками при сохранении их относительного расположения. Иными словами, алгоритм отображает многомерные данные на пространство более низкой размерности, при этом сохраняя структуру соседства точек.

Для начала, воспользовавшись алгоритмом машинного обучения для визуализации данных на основе метода нелинейного снижения размерности [Maaten, Hinton, 2008] (T-SNE),

визуализируем только что описанные результаты по ассоциативным цепочкам к словам «свобода», «демократия», «Интернет» (рис. 7).

путинский

раммсгао

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

♦ / • Цалгрьш % ЦтинГпротив .„jjSrUöS •"""•IIMtn .........V В » ГоЯ^й^* '......... '"Ï «.»BCTJJ • """*» pjjj^_________________ „..„„„L »«.л«» •бсуу

..»„J 'if* - "Р ДОАГ>'[ %......Г им ¿«¿¡»»■""«ИГ»

irïijïp. 1 .1 l'l.'IJIW l*rVl»*»TU' • »1Ш ,.. , ..; Hfewas». 1 Т*Т» ограииФниАвобод 1 »светский госуда|*Кпосв»'Рад # 9 • '.'..Ж_____. ... угигтен^

улимИучЬЯвНА.......^ ' рÄWfi'' 1 -*""-"-« ОКОЛЬНЫЙ npUIIWI'HW1*"^ 1 '''

• t -г ЙЖ Hi ^ • глоЬалишЛл м^оцопоспушХй мсро$ -m», ь, "'jo»" iB

деградиш • сво6ода_сло» «fï sejSerS5eitf 'Oaioj) "■"fiSïrt'o, '"¿'«""""I ^di. 1 «ne новостной nSwf^f rf F "рчч^дад pid

вг >•; • свобода интернет • демократия

■100 -50 0 50 100

Рис. 7. Визуализация семантических ассоциаций к словам «свобода», «демократия», «Интернет» Fig. 7. Visualization of semantic associations for the words "freedom", "democracy", "Internet"

Языковая модель всегда вбирает в себя все «предвзятости», стереотипы и культурные клише, которые представлены в текстах, собранных для анализа. Векторные представления слов, в свою очередь, фиксируют семантические отношения между такими категориями, как политический строй страны, гендерные стереотипы, ассоциируют инвективы с объектами выражения недовольства и т. д. Таким образом, визуализируя результат группировки данных в векторном пространстве, мы можем получить наглядное представление о том, какие единицы культурного пространства модель считает связанными по своей контекстуальной (дискурсивной) семантике, а значит, получаем материал, для того чтобы понять особенности их актуальной категоризации, трудно выявляемые логические или псевдологические мотивировки людей, релевантные для оценки общественных настроений.

Дополнительное достоинство такого анализа заключается в том, что оценка культурных конфигураций и смещений в общественном позиционировании проводится на основе мате-магического аппарата, т. е. с точностью на уровне достаточно больших данных и с определенной непредвзятостью, исключающей или крайне затрудняющей манипулирование мнением.

Так, на рис. 8 обозначенные в легенде шесть тем заданы первыми четырьмя по частотности словами из каждого выделенного в дата-сете кластера (см. рис. 6). Программа сформировала достаточно четко сгруппированные смысловые «облака», наличие которых указывает на семантику общественного сознания и его тематическую структуру. В частности, по совокупности сформированных кластеров и их наполнений видны присутствующие в данном коммуникативном поле тенденциозность, связанная с разделением мужских и женских ролей 6,

6 Традиционная ангажированность суждений (т. е. bias) хорошо видна даже в шутливых русских и английских антипословицах с гендерным компонентом, описанных М. А. Кирсановой [2020].

а также отношение коммуникантов и комментаторов к национальным меньшинствам. В то же время видно, что именно людей интересовало при обсуждении эпидемии COVID-19.

Рис. 8. Социокультурный анализ выявленных кластеров Fig. 8. Sociocultural analysis of the identified clusters

С точки зрения математики факт наличия культурного смещения подразумевает сдвиг лексической единицы относительно выбранной отметки влево или вправо по оси координат. Его можно визуализировать, используя линейную проекцию на горизонтальную и вертикальную оси, заданные с помощью меток данных (рис. 9). Проанализируем в качестве примера такого анализа сдвиги между понятиями, выраженными словами «диктатура» и «демократия». Установив ось Х (горизонталь) от лексемы «демократия» к лексеме «диктатура», мы увидели, что слова, близкие по смыслу внутри исследованных текстов к понятию «демократия», оказались слева, а слова, ассоциируемые семантически или эмоционально со словом «диктатура», - справа. В качестве якорного слова нами используется лексема «гражданин» (см. рис. 8).

Слова, которые притягиваются к полюсу слова «демократия» (слева относительно нулевой отметки оси Х), для удобства очерчены зеленым цветом; слова, тяготеющие к понятию «диктатура», - фиолетовым.

Оказалось, что выбор лексемы «гражданин» - весьма удачное решение, так как ее расположение ровно посередине проекции (нулевая отметка оси Х) говорит о нейтральности термина внутри выбранного нами контекста исследования.

Итак, чем ближе слово к левому краю, тем четче оно иллюстрирует отношение людей к демократии как таковой, как принципу политического устройства и его реализации в стране. При этом можно заметить, что, анализируя разброс этих слов относительно оси Y, мы встречаемся с двумя смысловыми группами, характеризующими в общественном сознании это явление. С одной стороны, в массовом сознании явно вырисовывается мнение о том, что демократия устанавливается при активном участии в этом процессе общества: все слова, попавшие в значимую выборку, такие как «человек», «манифест», «активист», можно объединить в категорию «гражданское общество». С другой стороны, можно также выделить дру-

гую ассоциативно связанную группу слов - «искусство», «ученый», «мир» и «свобода», которые являются маркерами плодов демократии, общего представления о том, что приносит или должна бы принести демократия.

гражданин

•прочитать «родиться

»бедность.

•активист

•красный

t> »белорусский

•пи-кав«^ » # «правительство

•идеал ; »справедливость

•человек * ~ " Лсуверенитет

•человек «прогресс ï ■

•peccjrii "f. * • ** # «

•молодежь

•манифест

•свобода» - , • ч •ценность.

• повышение пенсионный

•мир п; -

VV?»" «эь

•ученый-..; .фажданин^

ЩъЪ' убийство •реформа :-------

•искусство

•национальность

•милиция

•внутренний

•Tbl

церковь

•налоги •«.министр *плохой_закон

.V* «цензура

5 Явог • « • «советский

* : «дружина

•олигарх

•пробовать

.увивать

Left

демократия

•боец

Right

диктатура

•фото-ка

#п<*лещение

Рис. 9. Пример социальных и культурных смещений в диалогах чата (теговое слово - «гражданин»; ось 0Х растянута между словами «демократия» и «диктатура») Fig. 9. An example of social and cultural shifts and refractions detected in data collection from chat dialogs (the 0X axis is stretched between the words "democracy" and "dictatorship", point (0,0) is "citizen")

Теперь обратимся к анализу слов, которые тяготеют к правой стороне, т. е. к понятию «диктатура»: «цензура», «церковь», «повышение_пенсионный», «налоги». В ассоциатах прослеживается косвенно выраженное негативное отношение ко всевозможным ограничениям идеологического (цензура, церковь) и экономического (пенсия, налоги) характера.

Удобно становится и прослеживать скрытые смещения культурных смыслов между синонимичными словами, например, «милиция» - «мент» и «реформа» - «закон». Советское понятие «милиция», отсылающее, казалось бы, к недемократическому этапу жизни страны, и замененное в новой России правильным в логико-семантическом отношении понятием «полиция» с его новой символической коннотацией, в чатах трактуется, тем не менее, как атрибут демократического общества. Во многом это можно объяснить, анализируя жаргонный синоним этих понятий. Появившееся в советское время слово «мент» и имевшее в то время роль обыкновенного бытового ругательства (определявшего в локальной ситуации отношение к косности мышления усредненного милиционера), перешло в словарный запас современных россиян как ассоциат «диктатуры», так как в настоящих условиях смысловое наполнение слова «мутировало», теперь оно отражает сложившееся в новой действительно-

сти клише о том, что полиция не охраняет общество, а является латентной силой недемократического характера. Здесь стоит подчеркнуть, что в данном исследовании не ставилась цель проанализировать логические цепочки формирования клише и стереотипов, так как гораздо более существенным является факт возможности оценки текущего градуса общественного настроения, и такие смещения могут в этом помочь, дополнив классические социологические методики, исследующие с этими целями общество в динамике (к примеру, индекс общественного протеста).

Аналогичная эмоциональная «логика» общественных настроений прослеживается и в другой паре: понятие «реформа» связывается в исследуемом срезе массового сознания с демократией, а понятие «закон» в коллокации «плохой закон» становится синонимом диктатуры. В данном случае четко видны идеалистичные и, что важно, теоретические конструкты на тему реформ (так как в исследуемом наборе данных не было детектировано обсуждений реформ, которые происходят в реальности и вызывают положительные эмоции). В то же время очевидно, что появляющиеся время от времени законы вызывают реакцию, при этом наибольшее обсуждение формируется или вокруг действительно неконструктивных законопроектов, или же когда в активную фазу функционирования вступает феномен циркулярных реакций, влияющих на формирование общественного настроения как составной части массового сознания. Иными словами, сопоставляя эту пару антонимов, можно заметить, что беседы, носящие эмоциональный характер, быстро переходят в формат порицания, что, безусловно, является очевидным примером механизма формирования агрессивных культурных смещений.

Разумеется, наряду с релевантными тематическими словами встречаются и единицы, представляющие собой оторванный от контекста дискуссий информационный шум, однако, на наш взгляд, всевозможные идеологические клише и общественные настроения в представленном формате визуализации считываются достаточно хорошо.

Покажем специфику еще одного способа визуализации семантической близости слов -наглядное представление математических параметров их функционирования в чатах с помощью графов.

Для иллюстрации возьмем четыре ключевых лексических маркера: «демократия», «диктатура», «гражданин» и «свобода». Вокруг каждого слова можно строить сеть из его семантических ассоциатов. Показатель их семантической близости к маркеру можно отобразить, например, через длину линии; в этом случае чем теснее семантическая / смысловая связь, тем ближе располагается слово в векторной модели. Его можно также отобразить через толщину линии: связывать слова, оказавшиеся в текстах близкими по контекстуальному смыслу, более жирными линиями, а менее близкие - тонкими. Лингвистическую значимость может приобрести также само присутствие или отсутствие линии на графе. После достижения определенного числового порога визуализация связи теряет исследовательский смысл, поскольку, если довести ситуацию до абсурда, все слова в тексте так или иначе связаны, но извлечь какую-нибудь культурную специфику, следы сдвигов, стереотипов и рефракции, полезные для понимания состояния языкового сознания, невозможно.

Отметим одно важное достоинство сетевой визуализации: она позволяет преодолеть ограничение контекстно-независимых моделей (к семейству которых относится и используемая нами модель word2vec) и отобразить не только самые семантически близкие к маркеру слова, но и степень семантической близости этих слов между собой. Так, вписав маркеры в один граф, мы получили возможность проследить взаимосвязи получающихся смысловых кластеров (рис. 10).

Становится видно, например, что через слова «неравенство» и «силовой» зеленый кластер, образованный словом «гражданин», связан также в речевом поле чатов с красным кластером «диктатуры». Видна и взаимосвязь сиреневого кластера с вершиной в слове «свобода» с кластером «демократия». Она осуществляется через сам маркер, а также через слово

мононациональный

Рис. 10. Контекстные взаимосвязи маркеров Fig. 10. Contextual relationships of marker words

«капитализм». На наш взгляд, такой тип визуального представления статистических данных может существенно дополнить описанный эксперимент по детекции смещений в процессе культурного позиционирования, сделав более доступными ее результат 7.

Заключение

Таким образом, наш анализ метода культурных смещений показывает, что при изучении лингвокультурных ситуаций необходимо учитывать целый ряд факторов, к числу которых относятся: определение предметных и функциональных границ исследуемого объекта, характер исследуемого объекта и возможные лингвокультурные последствия его использования, установление места и роли исследуемого объекта в языковой картине мира, определение его места в системе лингвокультурных универсалий.

Список литературы

Кирсанова М. А. Роль антипословиц с гендерным компонентом в формировании юмористического образа женщины (на материале русского и английского языков) // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 87-102. DOI 10.25205/1818-7935-2020-18-3-87-102

7 В приведенных результатах намеренно не демонстрируются примеры культурных смещений, вызванные фактором агрессивной защиты (хотя они были выявлены), так как, будучи сложным в аналитическом отношении материалом, они ничего не добавляют к описанию самого авторского метода и способов его реализации, - главной цели статьи.

Петерс Б. Прикладная этнолингвистика о правильном использовании стереотипов в курсе французского как иностранного (пер. с фр. А. Ф. Фефелова) // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 1. С. 84-104. DOI 10.25205/ 1818-7935-2020-18-1-84-104

Поршнев Б. Ф. Социальная психология и история. М., 1979. 232 с.

Садохин А. П. Языковая личность и ее структура в межкультурной коммуникации // Библиотечное дело.2008.№ 1. С. 94-98.

Слесарева E. Р., Рыжкина О. А., Фефелов А. Ф. Трактовка темы австралийской идентичности в национальной прессе // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 1. С. 105-119. DOI 10.25205/1818-7935-2020-18-1-105-119

Узнадзе Д. Н. Психология установки. СПб., 2001. 416 с.

Фефелов А. Ф. Этносемантические свойства культурной среды: рефракция и адаптация // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2016a. Т. 14, № 3. С.15-33.

Фефелов А. Ф. Семантика и прагматика взаимодействия британской и китайской культур в поликодовом тексте документального фильма // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2016б. Т. 14, № 4. С. 60-80.

Шабаев Ю. П., Садохин А. П. Культурные границы и маркеры в этническом пространстве современной России. Опыт Case Study // Общественные науки и современность. 2012. № 6. С. 166-173.

Ядов В. А. Идеология как форма духовной деятельности общества. Л., 1961. 122 с.

Яковлев А. А. Системное описание языкового сознания студента: образы идеального преподавателя и идеального студента // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 141-153. DOI 10.25205/1818-7935-2020-18-3-141-153

Artetxe, M., Schwenk, H. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. In: CoRR. arXiv:1812.10464. 2018.

Che, W., Liu, Y., Wang, Y., Zheng, B., Liu, T. Towards better UD parsing: Deep contextualized word embeddings, ensemble, and treebank concatenation. In: CoRR. arXiv:1807.03121. 2018.

Jelinek, F. Computation of the probability of initial substring generation by stochastic context free-grammar. Computational Linguistics, 1991, vol. 17, no. 3, p. 315-323.

Joulin, A., Grave, E., Bojanowski, P., Mikolov, T. Bag of Tricks for Efficient Text Classification. In: arXiv:1607.01759. 2016.

Maaten, L., Hinton, G. Visualizing data using t-SNE. Journal of machine learning research, 2008, vol. 9, p. 2579-2605.

Mikolov, T. Distributed Representations of Words and Phrases and their Compositionality. In: Proceedings of Workshop at ICLR. 2013. URL: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf (accessed: 17.02.2020).

Panchenko, A., Romanov, P., Morozova, O., Naets, H., Philippovich, A., Romanov, A., Fairon, C. Serelex: Search and Visualization of Semantically Related Words. In: Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Springler's Lecture Notes on Computer Science. Moscow, 2013, p. 837-840.

Pennington, J., Socher, R., Manning, C. D. GloVe: Global Vectors for Word Representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. Doha, Qatar, 2014, p. 1532-1543.

Peters, M. E., Neumann, M., Iyyer, M. Deep contextualized word representations. In: arXiv preprint arXiv: 1802.05365. 2018.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. Language Models are Unsupervised Multitask Learners. In: Technical Report OpenAi. 2018. URL: https://d4mucfpksywv. cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

Stolcke, A., Segal, J. Precise n-gram probabilities from stochastic context-free grammars. In: Proceedings of the 32th Annual Meeting of ACL, 1994, p. 74-79.

References

Artetxe, M., Schwenk, H. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. In: CoRR. arXiv:1812.10464. 2018.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Che, W., Liu, Y., Wang, Y., Zheng, B., Liu, T. Towards better UD parsing: Deep contextualized word embeddings, ensemble, and treebank concatenation. In: CoRR. arXiv:1807.03121. 2018.

Fefelov, A. F. Ethnosemantic properties of cultural media: refraction and adaptation. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2016, vol. 14, no. 3, p. 15-33.

Fefelov, A. F. Semantics and pragmatics of British and Chinese cultural interactions in the multimodal text of a documentary. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2016, vol. 14, no. 4, p. 60-80.

Jelinek, F. Computation of the probability of initial substring generation by stochastic context free-grammar. Computational Linguistics, 1991, vol. 17, no. 3, p. 315-323.

Joulin, A., Grave, E., Bojanowski, P., Mikolov, T. Bag of Tricks for Efficient Text Classification. In: arXiv:1607.01759. 2016.

Kirsanova, Maria A. The Role of Anti-Proverbs in Forming Humorous Women's Images (Based on the English and Russian Languages). Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 3, p. 87-102. DOI 10.25205/1818-7935-2020-18-3-87-102

Maaten, L., Hinton, G. Visualizing data using t-SNE. Journal of machine learning research, 2008, vol. 9, p. 2579-2605.

Mikolov, T. Distributed Representations of Words and Phrases and their Compositionality. In: Proceedings of Workshop at ICLR. 2013. URL: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf (accessed: 17.02.2020).

Panchenko, A., Romanov, P., Morozova, O., Naets, H., Philippovich, A., Romanov, A., Fairon, C. Serelex: Search and Visualization of Semantically Related Words. In: Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Springler's Lecture Notes on Computer Science. Moscow, 2013, p. 837-840.

Peeters, B. Making Proper Use of Stereotypes in the L2 French Classroom (translated from French by A. F. Fefelov). Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 1, p. 84-104. (in Russ.) DOI 10.25205/1818-7935-2020-18-1-84-104

Pennington, J., Socher, R., Manning, C. D. GloVe: Global Vectors for Word Representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. Doha, Qatar, 2014, p. 1532-1543.

Peters, M. E., Neumann, M., Iyyer, M. Deep contextualized word representations. In: arXiv preprint arXiv: 1802.05365. 2018.

Porshnev, B. F. Social psychology and history. Moscow, 1979, 232 p. (in Russ.)

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. Language Models are Unsu-pervised Multitask Learners. In: Technical Report OpenAi. 2018. URL: https://d4mucfpksywv. cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

Stolcke, A., Segal, J. Precise n-gram probabilities from stochastic context-free grammars. In: Proceedings of the 32th Annual Meeting of ACL, 1994, p. 74-79.

Sadokhin, A. P. Linguistic personality and its structure in intercultural communication. Librarian, 2008, no. 1, p. 94-98. (in Russ).

Shabaev, Yu. P., Sadokhin, A. P. Cultural boundaries and markers in the ethnic space of modern Russia. Case Study Experience. Social sciences and modernity, 2012, no. 6, p. 166-173.

Slesareva, E. R., Ryzhkina, О. A., Fefelov, A. F. Faces and Visions of the Australian Identity in the Aussie National Press. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 1, p. 105-119. DOI 10.25205/1818-7935-2020-18-1-105-119

Uznadze, D. N. Installation psychology. St. Petersburg, 2001, 416 p. (in Russ.)

Yadov, V. A. Ideology as a form of spiritual activity of society. Leningrad, 1961, 122 p. (in Russ.)

Yakovlev, A. A. Systemic Description of the Student's Language Consciousness: The Ideal Teacher and Student Images. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 3, p. 141-153. DOI 10.25205/1818-7935-2020-18-3-153

Материал поступил в редколлегию Date of submission 29.11.2020

Сведения об авторах / Information about the Authors

Жеребцова Юлия Андреевна, ведущий инженер, Национальный центр когнитивных разработок, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Санкт-Петербург, Россия)

Yulia A. Zherebtsova, Lead Research Engineer, National Center for Cognitive Technologies, ITMO University (St. Petersburg, Russian Federation)

julia.zherebtsova@gmail.com ORCID 0000-0003-4450-2566

Чижик Анна Владимировна, кандидат культурологии, ведущий инженер, Национальный центр когнитивных разработок, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Санкт-Петербург, Россия); старший преподаватель, Санкт-Петербургский государственный университет, факультет искусств, кафедра информационных систем в искусстве и гуманитарных науках (Санкт-Петербург, Россия)

Anna V. Chizhik, Lead Research Engineer, National Center for Cognitive Technologies, ITMO University (St. Petersburg, Russian Federation); Senior Lecturer, Department of Information Systems in Arts and Humanities, Saint Petersburg State University (St. Petersburg, Russian Federation)

afrancuzova@mail.ru ORCID 0000-0002-4523-5167

Садохин Александр Петрович, доктор культурологии, профессор, факультет искусств, Российский государственный социальный университет (Москва, Россия)

Aleksandr P. Sadokhin, Doctor of Cultural Studies, Professor, Faculty of arts, Russian State Social University (Moscow, Russian Federation)

sadalpetr@yandex.ru ORCID 0000-0002-6420-6601

AUTOMATIC METHODS FOR DETECTING CULTURAL BIAS IN SOCIAL MEDIA (BASED ON TELEGRAM’S DIALOGS)

Текст научной работы на тему «АВТОМАТИЧЕСКИЕ МЕТОДЫ ДЕТЕКЦИИ КУЛЬТУРНЫХ СМЕЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ (НА МАТЕРИАЛЕ ДИАЛОГОВ ИЗ TELEGRAM)»