Научная статья на тему 'Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа'

Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
29
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
нейросетевой подход / социальные медиа / восприятие / коннотация / psycholinguistics / neural network approach / social media / perception / connotation / psycholinguistics

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Харламов А.А., Пильгун М.А.

Целью исследования является демонстрация метода автоматизированного определения коннотации языковых единиц, основанного на нейросетевой парадигме использования нейроподобных элементов с временной суммацией сигналов. Материалом для исследования послужили данные социальных медиа, посвященные строительству линии метро «Коммунарская» в г. Москве. В результате были проанализированы реакции социума, отношение пользователей, причины, вызывающие негативное восприятие жителей, выявлены конфликтогенные зоны, уровень социального стресса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF THE SITUATION CONNOTATION ON THE EXAMPLE OF ASSESSING THE REACTION OF SOCIETY: SOCIAL MEDIA DATA

The goal of the study is to demonstrate a method for automated determination of the connotation of linguistic units, based on the neural network paradigm for the use of neural-like elements with temporary summation of signals. Objectives: the analysis of the situation connotation related to the construction of the Kommunarskaya metro line in Moscow using the example of evaluating the reaction of society according to social media data. Methods: the study involved a cross-disciplinary approach using neural network technologies. Findings: the reactions of society and the users’ attitude were analyzed, as well as the reasons for the residents’ negative perception; conflict zones and the level of social stress were revealed. Application: the proposed methodology can be used in predictive analytics.

Текст научной работы на тему «Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа»

84

Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

Харламов А. А., доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, профессор кафедры прикладной и экспериментальной лингвистики МГЛУ, профессор департамента программной инженерии ВШЭ, профессор кафедры интеллектуальных информационных систем и технологии Московского физико-технического института, Москва, kharlamov@analyst.ru

Пильгун М. А., доктор филологических наук, профессор, Российский государственный социальный университет, Москва, pilgunm@yandex.ru

Целью исследования является демонстрация метода автоматизированного определения коннотации языковых единиц, основанного на нейросетевой парадигме использования нейроподобных элементов с временной суммацией сигналов. Материалом для исследования послужили данные социальных медиа, посвященные строительству линии метро «Коммунарская» в г. Москве. В результате были проанализированы реакции социума, отношение пользователей, причины, вызывающие негативное восприятие жителей, выявлены конфликто-генные зоны, уровень социального стресса.

• нейросетевой подход • социальные медиа • восприятие • коннотация

• psycholinguistics •

1. ВВЕДЕНИЕ

Анализ реакции социума на различные ситуации, особенно конфликтные, имеет много примеров реализации в различных научных парадигмах. В социальных медиа предоставляют для решения подобных задач новый тип эмпирических данных, которые позволяют учитывать реакции огромного числа пользователей, проводить исследование на больших данных в реальном времени, анализировать динамику и предсказывать развитие ситуации.

Разработан широкий спектр вычислительных методов, применяемых для исследования динамики конфликтов, разнообразные вычислительные подходы от интеллектуального анализа текста и машинного обучения до агентного моделирования и анализа социальных сетей [1]. Проблемы лингвистических представлений в искусственных нейронных сетях весьма актуальны и уже получили широкое освещение в исследованиях последних лет [2, 3, 4]. Нейросетевые технологии открывают новые возможности для изучения специфики восприятия ситуации на больших объемах текстовых данных. Например, используя преимущества лингвистической информации, доступной через Facebook, исследователи разработанного подхода представляют ценность новых конструктов личности, полученных из повседневного использования человеческого языка [5]. Различные аспекты восприятия, напротив, имеют давнюю традицию изучения (восприятие речи [6], байесовский анализ данных кросс-лингвистических исследований по восприятию цвета и памяти [7] и др.).

Автоматический анализ коннотации ситуации, описанной текстом, в настоящий момент реализуется с помощью системы правил, методами дистрибутивной семантики, и с использованием искусственных нейронных сетей (машинное обучение). Разработка системы правил под конкретную задачу представляет собой достаточно трудоемкий процесс. Методы дистрибутивной семантики сравнительно просты и понятны, но в их основе лежит представление о текстах как о множестве несвязанных между собой слов (модель bag-of-woгds), что при анализе материала языков синтетического типологического класса (например, русского), в котором преобладают синтетические формы выражения грамматических значений, создаёт существенные ограничения для анализа. Применение большинства искусственных нейронных сетей требует для своего обучения большой по объему обучающей выборки, формирование которой не всегда может быть осуществлено автоматически (например, в области медицины), и потому стоит очень дорого.

Альтернативой существующим подходам к анализу коннотации языковых единиц может служить подход, основанный на нейросетевой парадигме использования ней-роподобных элементов с временной суммацией сигналов [8, 9], который, с одной стороны, работает с текстовой моделью, отличной от «мешка слов», а с другой — не требует большой обучающей выборки для формирования этой модели. Дополнительным преимуществом подхода является включение в цикл анализа эксперта (группы экспертов), который привносит в анализ (хоть и субъективные, но) квалифицированные знания (в отличие от неграмотных аутсорсеров, которых обычно привлекают для формирования обучающих выборок).

Использование этого подхода позволяет сформировать гибкую методику анализа коннотации текстов (корпусов текстов), основанную на мнении экспертного сообщества, позволяющую анализировать практически неограниченные по объёму корпуса текстов на различных европейских языках (русском, английском, немецком).

Анализ коннотации текста основан на использовании лексических меток [9], характеризующих коннотацию текста на шкале «(-) — (+)», или на шкале «(0) — (+)», позволяющих характеризовать не только тональность текста, но и любую коннота-ционную принадлежность текста на заданной шкале. Заданные экспертом метки, взвешенные им на принятой шкале, автоматически (в зависимости от их смыслового положения в тексте) ранжируются на шкале «0-100 %». Тогда произведение

85

IllIfF

ZT

Харламов А. А., Пильгун М. А. Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

автоматически полученного ранга на вес, заданный экспертно, характеризует вклад этой метки в коннотацию анализируемого текста. И тогда можно оценивать текст с точки зрения конкретных меток, или оценивать суммарный вклад всех меток в коннотацию этого текста, то есть решить задачу автоматического коннотационного мониторинга текстового пространства.

Автоматическое смысловое ранжирование текста (корпуса текстов) осуществляется с использованием двух алгоритмов:(1) алгоритма формирования однородной частотной сети текста с помощью искусственной нейронной сети на основе нейроподобных элементов с временной суммацией сигналов [10, 11], и (2) итеративного хопфилдоподобного алгоритма ранжирования вершин сети на шкале «0-100 %» [12].

Частотная сеть текста строится как множество пар слов, встречающихся в предложениях текста. Вершины сети взвешиваются их частотой встречаемости в тексте. Вес связи пары вершин в сети соответствует частоте встречаемости пар слов в предложениях текста.

В отличие от дистрибутивного (векторного — «мешок слов») представления текста, где вес вершины определяется суммарным нормированным весом соседних вершин, а вес связей пар слов в сети вычисляется на основе расстояний им соответствующих векторов в векторном пространстве [13, 14], n-граммное на сети представление формируется итеративным перевзвешиванием на заданном числе шагов, или на основе критерия сходимости процесса ранжирования [12]. То есть слова текста рассматриваются в рамках синтагм заданной (п) длины на семантической сети, сформированной на основе анализа текста.

Первичная обработка текста [12], удаляющая часть слов из процесса анализа, не дискредитирует n-граммности подхода, так как удаление этой информации не является принципиальной частью алгоритма (алгоритм прекрасно работает и на полном тексте), но в результате первичной обработки лишь уменьшает информационный шум, увеличивая робастность подхода. Удаление первичной обработки из процесса анализа упрощает процедуру анализа, что позволяет использовать инструментарий для анализа (технология TextAnalyst [9]) для анализа текстов на других (не представленных в технологии) европейских языках. Так, тексты на чешском языке с удаленными диакритическими значками прекрасно анализируются технологией TextAnalyst, настроенной на английский язык.

В предлагаемой работе представлено применение предлагаемой методики на примере анализа реакции социума на строительство Коммунарской линии метрополитена в г. Москве.

Целью исследования является анализ коннотации ситуации (с использованием нейросетевых технологий), связанной со строительством Коммунарской линии метрополитена на примере оценки реакции социума по данным социальных медиа.

86

Data

Материалом для исследования послужили данные социальных сетей, микроблогов, блогов, мессенджеров, видеоресурсов, форумов и обзоров, посвященные строительству линии метро «Коммунарская» в Москве. Дата сбора: 01.01.19-31.03.20 (см. Таблицу 1; Рис. 1).

Таблица 1

Количественные параметры данных

Параметр Value

Сообщения 14 072

Акторы 5 717

Лояльность 2,0

Вовлеченность 203 675

Аудитория 54 609 7

Рис. 1. Динамика активности авторов

Method

Социальное напряжение по данным социальных медиа с учетом цифровой агрессии анализировалось с помощью подхода, основанного на нейросетевой парадигме использования нейроподобных элементов с временной суммацией сигналов [9, 10].

В рамках данного исследования цифровая агрессия рассматривалась как показатель социального конфликта [16, 17, 18]. Алгоритм выявления показателей степени агрессивности представлен в [8].

87

Для эффективного анализа было выделено четыре этапа строительства:

1-й этап (01.01.2019-5.04.2019): утверждение проекта на Градостроительной

земельной комиссии.

2-й этап (03.04.2019-09.06.2019): проведение публичных слушаний.

3-й этап (10.06.2019-31.12.2019): этап строительства.

4-й этап (01.01.2020-30.04.2020): актуальная повестка.

Анализ информации проводился в два этапа. На первом этапе анализировался весь корпус текстов, выявлялись конфликтогенные сегменты, которые локализовались и детально исследовались на втором этапе.

Tools

The Brand Analytics social media monitoring system was used to collect the material.

TextAnalyst 2.0 — A system for automatic semantic text analysis.

Tableau is flexible end-to-end analytics platform for data mining, analytics and, visualization

2. RESULTS AND DISCUSSION

2.1. Общая характеристика контента

Наибольшей популярностью для размещения контента данной тематики пользовались ВКонтакте и Ютуб (Рис. 2).

Рис. 2. Распределенность контента по типам источников

88

Количество акторов, которые размещают контент, характеризующий строительство Коммунарской линии метрополитена с 01.01.19 по 31.03.20, постепенно увеличивается (Рис. 3).

Рис. 3. Рост упоминаний активных авторов

Акторы, которые генерируют контент, посвящённый строительству Коммунарской линии метро, живут в самых разных местах, география крайне разнообразна (среди акторов, у которых возможно определить место пребывания). Хотя, разумеется, наибольшее количество акторов — москвичи, обозначают местом проживания Москву — 54 893 529. Второе место по численности занимают акторы из Санкт-Петербурга — 1 745 293.

2.2. Выявление наличия/отсутствия социального стресса в районах строительства

Динамика восприятия реализации проекта показывает следующие тенденции:

2.2.1. Пик интереса пользователей приходится на рубеж перехода от 1-го этапа ко 2-му, когда наблюдается скачок негативных и положительных реакций. Также при переходе от 1-го этапа ко 2-му появляется сильная агрессия, которая в дальнейшем нарастает (Рис. 4, 5).

iikiii..^......

Харламов А. А., Пильгун М. А. Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

90

Staca 1

Stage 3

Ji i

1

1

iH

ш

%

1 at

I w:

ah

гп Nn

1Я1Ч iOiit233?

£

□ >JUV

aw 75<ШЗ lOiiil

cf iso.-; ими 16JJ5I

iti

«

Stzoe 2

К*-1 TM ЙЧЧ 41*

I J

J... t*;

|

£

£

i

. Irti

AiR'u 4oiq Чгслц

Stage 4

MM

¡WJ

Й41Н

? -1

■BK Bfe

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

дж OK

■Чага-NO эя-

Рис. 4. Характеристика контента по наличию агрессии

Stage 1

Stage 2

Stage 3

Stage 4

Positive Neutral

I iz 1 за Ftiiiui Ntubral А51ЭН 336 Neutfal 1? WS2s

3» S39 TEUtT^i Poi'tijQ il os&ig^ Positive 5119 ЗИ

74 hiSitjlfi Negative 16 B50 99i Negative J512S01

Рис. 5. Тональность контента по кластерам на разных этапах строительства

91

iHk

Харламов А. А., Пильгун М. А. Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

92

4-й этап отличается резким снижением интереса к тематике, поскольку внимание общества переключилось на пандемию. Между тем фиксируется рост негативных реакций пользователей при общем снижении активности. Подобное положение свидетельствует об устойчивом, закрепившемся негативном отношении, по крайней мере, к конкретному участку проекта. Индекс социального благополучия может объясняться ростом количества нейтрального контента (Рис. 6).

Рис. 6. Тональность контента по типам сообщений на разных этапах

строительства

Вычисление индексов социального стресса и социального благополучия позволило выявить следующие данные (Таблица 2).

Харламов А. А., Пильгун М. А.

Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

Таблица 2

Индексы социального стресса и социального благополучия

Наименование объекта Индекс социального стресса Индекс социального благополучия

1-й этап 0,8 4,3

2-й этап 5,5 3,9

3-й этап 4,05 3,4

4-й этап 2,05 3,1

2.3. Формирование рейтинга социальной напряженности

Сводная база контента характеризуется преобладанием нейтрально окрашенного контента, позитивный кластер количественно почти вдвое превышает негативный. Между тем следует учитывать, что большое количество контента сгенерировано официальными источниками, аффилированными журналистскими, пиаровскими, медийными и пр. структурами. Именно этот контент преимущественно и составляет нейтральный и позитивный кластеры. Кроме того, конфликтная цифровая зона возникает только вокруг одного участка проекта. Результаты негативного восприятия жителями данного сюжета оказываются размытыми в большом количестве цифрового материала, посвящённого строительству ветки в целом (Рис. 7).

Negative

Neutral _ Positive 36 № 1 Ш

± 0-193.9 630

Рис. 7. Тональность сводной базы данных

93

Акш

Jrfr

ц......

Харламов А. А., Пильгун М. А. Анализ коннотации ситуации на примере оценки реакции социума: данные социальных медиа

Негативная тональность характеризует контент социальных сетей, форумов, видео и блогов, отражающих восприятие жителей (Рис. 8).

Eliqs f^mni; Miiianjtiri i^iiroble-,1 Ист™ San-.i'r'-rii.i Viitol

Neutral : :!■::■■ 15W 0 О "КШО

Negative 16 396 0 D I №4

P«.tiw Ч 1Й 0 9 OiH 1?D

Рис. 8. Тональность цифровых следов в соответствии с типом

сообщения

Между тем следует отметить, что комментарии — тип сообщений, который наиболее четко выражает отношение жителей к ситуации вокруг строительства, содержат высокий уровень агрессии (Рис. 9).

1004

I

Jj

;ом гечзь Mr1

OM a 33i JSti J 04913? ItSfciSi 3Sii u«iis шэ

lBlGTS

i E 1 n '■Г01

E tl>

DK SB 0 2 * m 1 7A7 7 в i

te П1Г1. Repeat п«т Conns. Ri(HKt Rips!. f^V. Cwn'i REPC1T

Рис. 9. Выражение агрессии в цифровых следах в соответствии с типом сообщения

94

И таким образом, свидетельствуют о достаточно высокой степени социальной напряженности. Результаты исследования позволяют говорить, что если бы не вмешательство пандемии, то, очевидно, произошла бы эскалация протеста против строительства участка от станции «Улица Новаторов» до станции «Севастопольский проспект», расширение протестных действий как в виртуальном, так и в реальном городском пространстве. Подобное развитие событий, разумеется, не исключается в будущем.

3. ЗАКЛЮЧЕНИЕ

Приведенный пример использования методики анализа коннотации текста (корпуса текстов) для выявления социальной напряженности как следствия строительной деятельности наглядно показывает как актуальность, так и эффективность подхода. Автоматический анализ больших корпусов текстов, предпринятый в разных масштабах детальности представления данных, позволяет как локализовать остро очерченные коннотационные характеристики во всем корпусе, так и проанализировать их детально в конкретной локации корпуса.

Вычисление индекса социального стресса и индекса социального благополучия проводилось по всему массиву данных. В данном примере большая часть контента характеризуется нейтральным и позитивным отношением акторов к строительству Ком-мунарской линии метрополитена. Между тем следует учитывать, что конфликтной зоной является только один участок проекта. Конфликтогенной зоной в цифровом коммуникативном пространстве оказывается сектор, посвященный новой ветке от станции «Улица Новаторов» до станции «Севастопольский проспект». Результаты анализа восприятия жителями проблемы, степени напряжённости оказываются размытыми в общей базе данных, что не снимает остроты проблемы. Напротив, наличие фиксации проблемы на участке от станции «Улица Новаторов» до станции «Севастопольский проспект» в большом массиве данных показывает ее остроту.

Анализ данных позволил сделать обобщение для применения подобного метода в дальнейшем: поскольку представление информации различных сенсорных модальностей в сознании человека похоже на представление текстов естественного языка (кодовые последовательности различных модальностей фактически являются ква-зи-текстами — это осмысленные последовательности с повторяющимися уров-необразующими элементами разных уровней соответствующего квази-языка), подобный подход может быть использован для выявления коннотации не только вербальных средств, но и информации, представленной в других модальностях (например, видеорядов), задача в настоящий момент еще нерешенная даже для хорошо изученной области анализа изображений.

Литература

1. Deutschmann, E., Lorenz, J., Nardin, L. G., Natalini, D., Wilhelm, A. F. X. (Eds.): Computational Conflict Research. Springer, Heidelberg (2020).

2. Brandon, Prickett, Traylor, Aaron & Pater, Joe (2019). Learning Reduplication with a Neural Network without Explicit Variables. Available at: http://works.bepress.com/joe_pater/38 /

3. Linzen, Tal (2019). What can linguistics and deep learning contribute to each other? Response to Pater. Language 95 (1), e98 - e108.

4. J. Pater, Language. 95, 1 (2019).

95

5. V. Kullkarni, M. L. Kern, D. Stillwell, M. Kosinski, S. Matz, L. Ungar, S. Skiena, and H. A. Schwartz, PLoS ONE. November 28, 13, 11 (2018).

6. K. Demuth, Applied Psycholinguistics. 39 (4), 735 (2018).

7. M. Lowry and J. Bryant, J. Psycholinguist Res. 48, 163 (2019).

8. A. Kharlamov, B. Vasin and M. Pilgun, in Neuroinformatics and Semantic Representations. Theory and Applications, Edited A. Kharlamov and M. Pilgun, Cambridge Scholars Publishing, Newcastle upon Tyne (2020), pp. 168-186.

9. A. Kharlamov, in Neuroinformatics and Semantic Representations. Theory and Applications, Edited A. Kharlamov and M. Pilgun, Cambridge Scholars Publishing, Newcastle upon Tyne (2020), pp. 156-167.

10. A. Kharlamov, in Neuroinformatics and Semantic Representations. Theory and Applications, Edited A. Kharlamov and M. Pilgun, Cambridge Scholars Publishing, Newcastle upon Tyne (2020), pp. 19-28.

11. A. Kharlamov, in Neuroinformatics and Semantic Representations. Theory and Applications, Edited A. Kharlamov and M. Pilgun, Cambridge Scholars Publishing, Newcastle upon Tyne (2020), pp 29-54.

12. A. Kharlamov, in Neuroinformatics and Semantic Representations. Theory and Applications, Edited A. Kharlamov and M. Pilgun, Cambridge Scholars Publishing, Newcastle upon Tyne (2020), pp 114-126.

13. G. Erkan and D. R. Radev, J. of Artificial Intelligence Research. 22, 457 (2004).

14. R. Mihalcea and P. Tarau, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (2004).

15. Angelis M. Keynesianism, Social Conflict and Political Economy, Palgrave Mac-millan UK, London (2020).

16. A. Estevez, Human Rights, Migration, and Social Conflict. Towards a Decolonized Global Justice, Palgrave Macmillan US, London (2012).

17. C. M. Lemos, Agent-Based Modeling of Social Conflict. From Mechanisms to Complex Behavior. Springer International Publishing, Cham (2018).

18. Kharlamov A. A., Pilgun M. Analysis of the situation connotation on the example of assessing the reaction of society: social media data. International journal of future generation communication and networking. (IJFGCN), ISSN: 2233-7857 (PRINT); 2207-9645 (ONLINE), NADIA, (2020), VOL. 13, NO. 3, PP. 37-44.

ANALYSIS OF THE SITUATION CONNOTATION ON THE

EXAMPLE OF ASSESSING THE REACTION OF SOCIETY: SOCIAL

MEDIA DATA

Kharlamov A. A., Doctor of Technical Sciences, Senior Researcher at the Institute of Higher Nervous Activity and Neurophysiology of the Russian Academy of Sciences, Professor of the Department of Applied and Experimental Linguistics of MGLU, Professor of the HSE Department of Software Engineering, Professor of the Department of Intelligent Information Systems and Technology of the Moscow Institute of Physics and Technology, Moscow, kharlamov@analyst.ru

96

Pilgun M. A., Doctor of Philology, Professor, Russian State Social University, Moscow, pilgunm@yandex.ru

The goal of the study is to demonstrate a method for automated determination of the connotation of linguistic units, based on the neural network paradigm for the use of neural-like elements with temporary summation of signals. Objectives: the analysis of the situation connotation related to the construction of the Kommunarskaya metro line in Moscow using the example of evaluating the reaction of society according to social media data. Methods: the study involved a cross-disciplinary approach using neural network technologies. Findings: the reactions of society and the users' attitude were analyzed, as well as the reasons for the residents' negative perception; conflict zones and the level of social stress were revealed. Application: the proposed methodology can be used in predictive analytics.

• neural network approach • social media • perception • connotation • psycholinguistics

97

i Надоели баннеры? Вы всегда можете отключить рекламу.