Научная статья на тему 'Семантические сети: потенциал для интерпретации данных социальных медиа (часть 1)'

Семантические сети: потенциал для интерпретации данных социальных медиа (часть 1) Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
89
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
семантические сети / данные социальных медиа / нейросетевые технологии / TextAnalyst 2.3 / semantic networks / social media data / neural network technologies / TextAnalyst 2.3

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Пильгун М.А.

В статье представлен нейросетевой подход к интерпретации больших объемов текстовых данных с использованием семантических сетей. В ходе исследования были проанализированы возможности использования семантической сети в интерпретации данных социальных медиа. В частности, на материале данных социальных медиа был проведен анализ уровня эмоциональной реакции жителей Москвы и социального напряжения вокруг проекта ТПУ «Электрозаводская». Использование семантической сети, сформированной с помощью нейросетевой технологии TextAnalyst 2.3, позволило решать многочисленные задачи: проанализировать наиболее значимые, ключевые темы контента, связанные с проектом, выявить рейтинг контента, определить отношение жителей к строительству ТПУ «Электрозаводская», оценить потребность горожан в изменении транспортной ситуации в связи с реализацией проекта, уточнить результаты анализа тональности релевантных сообщений, выявить наличие / отсутствие социального стресса в районах строительства и Москвы в целом, сформировать рейтинг социальной напряжённости, вычислить рейтинг индексов социального стресса и благополучия, составить рейтинг ключевых негативных акцентов, связанных с реализацией проекта или одноименной станцией метро, а также сформулировать рекомендации по текущему информационному сопровождению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEMANTIC NETWORKS: INTERPRETATION SOCIAL MEDIA DATA

The article presents a neural network approach to interpreting large volumes of textual data using a semantic network. The study analyzed the possibilities of using the semantic network in the interpretation of social media data. In particular, on the basis of social media data, an analysis was made of the level of emotional reaction of Moscow residents and social tension around the Elektrozavodskaya transport hub project. Using a semantic network formed using the neural network technology TextAnalyst 2.3 made it possible to solve numerous tasks: to analyze the most significant, key content topics related to the Project, to identify the content rating, to determine the attitude of residents to the construction of the Elektrozavodskaya transfer hub, to assess the need of citizens to change the transport situation in connection with the implementation of the Project, to clarify the results, to analyze the tone of relevant messages, identify the presence / absence of social stress in construction areas and the city of Moscow as a whole, form a rating of social tension, calculate the rating of social stress and wellbeing indices, rank key negative accents associated with the implementation of the Project or the metro station of the same name, and also formulate recommendations on the current information support.

Текст научной работы на тему «Семантические сети: потенциал для интерпретации данных социальных медиа (часть 1)»

38

Семантические сети: потенциал для интерпретации данных социальных медиа (часть 1)

Пильгун М. А., доктор филологических наук, профессор, Российский государственный социальный университет, Москва, pilgunm@yandex.ru

В статье представлен нейросетевой подход к интерпретации больших объемов текстовых данных с использованием семантических сетей. В ходе исследования были проанализированы возможности использования семантической сети в интерпретации данных социальных медиа. В частности, на материале данных социальных медиа был проведен анализ уровня эмоциональной реакции жителей Москвы и социального напряжения вокруг проекта ТПУ «Электрозаводская». Использование семантической сети, сформированной с помощью нейросетевой технологии TextAnalyst 2.3, позволило решать многочисленные задачи: проанализировать наиболее значимые, ключевые темы контента, связанные с проектом, выявить рейтинг контента, определить отношение жителей к строительству ТПУ «Электрозаводская», оценить потребность горожан в изменении транспортной ситуации в связи с реализацией проекта, уточнить результаты анализа тональности релевантных сообщений, выявить наличие/отсутствие социального стресса в районах строительства и Москвы в целом, сформировать рейтинг социальной напряжённости, вычислить рейтинг индексов социального стресса и благополучия, составить рейтинг ключевых негативных акцентов, связанных с реализацией проекта или одноименной станцией метро, а также сформулировать рекомендации по текущему информационному сопровождению.

• семантические сети • данные социальных медиа • нейросетевые технологии • TextAnalyst 2.3 •

1. ВВЕДЕНИЕ

Значимость семантического анализа больших объёмов вербальных материалов возросла, поскольку фокус внимания сместился со способов сбора данных на их обработку. Успехи в автоматической обработке данных естественного языка (Natural language processing, NLP) стали зависеть от использования искусственных нейронных сетей. Появление больших языковых моделей (Large Language Model, LLM, примерно с 2018 г.) и их дальнейшая конкурентная гонка принципиально изменили ситуацию в индустрии и академических исследованиях.

В частности, исследовательская группа BigScience выпустила большую многоязычную нейросетевую модель BLOOM, обученную на огромных объемах текстовых данных и 176 млрд параметров с использованием вычислительных ресурсов промышленного масштаба, которая способна генерировать текст на 46 языках и 13 языках программирования.

Google представила LaMDA и BERT (архитектура модели transformer), которая изменила ландшафт технологических семантических решений.Модель Multilingual T5 (Google) была обучена на новом общем наборе данных на основе Crawl, охватывающем 101 язык, и ознаменовала новый этап в развитии NLP (Xue et al., 2020).

Для решения многих задач понимания естественного языка (NLU) используются многозадачное обучение и предварительное обучение языковой модели. Исследователи Microsoft соединили оба указанных популярных подхода в многозадачной глубокой нейронной сети (MT-DNN) (Geng, 2019). MT-DNN была основана на модели, предложенной Microsoft в 2015 г., и интегрировала сетевую архитектуру BERT, предварительно обученной языковой модели двунаправленного преобразователя, предложенной Google ранее (Liu et al., 2015). Причем MT-DNN превосходила Google BERT в девяти из одиннадцати тестовых задач NLP. Авторы из Microsoft Research и Microsoft Dynamics показали обучающие представления MT-DNN для нескольких задач понимания естественного языка (NLU): MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations to help adapt to new tasks and domains (Liu et al., 2019).

бедует особо остановиться на OpenAI (https://openai.com/about) — компании, которая занимается разработкой и лицензированием технологий на основе машинного обучения, исследованиями и внедрением искусственного интеллекта, основанной в 2015 г. Илоном Маском и Сэмом Олтменом (президент венчурного фонда Y Combinator). В 2019 г. OpenAI представила модель GPT-2 c 1,5 млрд параметров. 28 мая 2020 группа исследователей из OpenAI под руководством Дарио Амодея опубликовала описание алгоритма GPT-3 — авторегрессивной языковой модели уже со 175 млрд параметров, которая achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic (Brown et al., 2020). В январе 2022 г. была презентована модель GPT-3.5, а в ноябре этого же года — ChatGpt (https://openai.com/blog/chatgpt), который ознаменовал переход от конкурентной гонки больших языковых моделей по количественным параметрам к качественному этапу развития. В 2023 г. появилась GPT-4, обученная с использованием беспрецедентного масштаба вычислений и данных. Помимо языковых компетенций GPT-4 обладает широкими возможностями решать новые сложные задачи в области математики, кодирования, зрения, медицины, юриспруденции, психологии и др., не требуя особых подсказок. Более того, во всех этих задачах производительность GPT-4 поразительно близка к производительности на уровне человека и часто значительно превосходит предыдущие модели, такие как ChatGPT (Bubeck et al., 2023).

Создаётся впечатление, что традиции изучения лингвистической семантики, семантический анализ в лингвистическом понимании в определённой степени были заменены технологическими аналогами, соответствующими задачам анализа Больших данных и развития технологий искусственного интеллекта. Очевидно, подобное

39

40

положение определяется тем, что большая часть лингвистов не включает новые технологические решения в свой инструментарий, а также растущим разрывом между технологическими и лингвистическими парадигмами и низкой степенью адаптивности большинства лингвистических направлений. Позиции лингвистов по большей части сместились с лидирующих, ведущих в понимании строения языковой системы и ее функционирования на вспомогательную для облуживания периферийных функций стремительно развивающихся генеративных систем.

Среди большого количества программного обеспечения для интеллектуального анализа текста и проведения контент-анализа можно выделить Jfreq от разработчиков Мангеймского университета, Yoshikoder — крос-сплатформенную многоязычную программу анализа контента, разработанную Уиллом Лоу в рамках проекта Identity в Центре международных отношений Weatherhead Гарвардского университета, Automap (а также ORA), разработанные исследователями Центра CASOS в Carnegie Mellon University. AutoMap как инструмент для интеллектуальнго анализа текста позволяет извлекать информацию с помощью методов сетевого текстового анализа, поддерживает извлечение нескольких типов данных из неструктурированных документов. AutoMap позволяет извлечь разные типы информации: данные анализа контента (слова и частоты), данные семантической сети (сеть понятий), данные метасети (перекрестная классификация понятий по их онтологическим категориям), связи между понятиями, а также данные о настроениях (отношении, убеждениях) (AutoMap, 2023). Среди инструментов для обработка текста можно назвать также Tesuck, TextMF, Content Analyzer, AskNet, Семантическое зеркало, Extended Abstract АОТ, Lemmatizer, FreeLing, Greeb, Solarix, tokenizer, AskNet и др.

Между тем экспертное тестирование показало, что для анализа русскоязычных баз данных наибольшим преимуществом обладает нейросетевая технология TextAnalyst 2.3 (http://www.analyst.ru/index. php?lang=eng&dir=content/products/&id=ta), разработанная в качестве инструмента для анализа содержания текстов, смыслового поиска информации и формирования электронных архивов. Нейросетевой механизм образования однородной семантической сети формируется как искусственная нейронная сеть (кортикоморфная ассоциативная память), составляющая частотный словарь текста, на основе которого путем сравнения частотных характеристик слов формируемого словаря собираются пары слов, в дальнейшем используемые для построения частотной сети. Автоматическое формирование частотного словаря анализируемого текста осуществляется программно реализованной иерархической структурой из блоков ассоциативной памяти. Число уровней в иерархической структуре определяет априорно заданную максимально допустимую длину понятия предметной области и равняется двадцати в конкретном случае реализации технологии TextAnalyst (Харламов, 2017).

Цель данного исследования: проанализировать возможности использования семантической сети в интерпретации больших объемов текстовых

данных. В частности, на материале данных социальных медиа провести анализ уровня эмоциональной реакции жителей Москвы и социального напряжения вокруг проекта ТПУ «Электрозаводская».

1.1. Метод

Использование семантичекой сети, которая формируется для интерпретации данных социальных медиа с помощью TextAnalyst 2.3, позволяет решать многочисленные задачи, связанные с выделением семантических акцентов, отражающих наиболее важные нюансы отношения акторов к определённым персонам, событиям, явлениям и т. д. В частности, формировать рейтинги претензий определённых групп общества, выявлять конфликты (эксплицитные и имплицитные), проводить пре-диктивную аналитику.

Дизайн исследования, представленный на блок-схеме, апробирован в ходе многочисленных проектов, которые нашли отображение в публикациях (КЬтКат^, РКдип 2020 (а, б, в); РКдип, КЬтКат^, 2022; КЬтКат^, РКдип 2023 и др.]

Блок-схема «Дизайн исследования с помощью нейросетевой технологии TextAnalyst 2.3»

41

1.2. Данные

Данные социальных медиа, связанные с реализацией проекта ТПУ «Электрозаводская» в Москве, дата сбора: 1 января 2020-19 декабря 2021.

Количественные характеристики базы данных

Количество сообщений: Изменение к предыдущему периоду: Максимум сообщений в сутки: Количество авторов: Активность (постов на автора): Количество источников: Количество токенов:

3 085

+3 085 (100%]

189

295

10,46

118

1 16 266 767

2. РЕЗУЛЬТАТЫ

2.1. Общая характеристика коммуникативной ситуации

Динамика общего числа сообщений (рис. 1) имеет незначительные показатели, что позволяет выделить два пика роста: 31 декабря 2020 г. (189] и 20 июля 2020 г. (60).

42

Рис. 1. Динамика общего числа сообщений

Динамика числа уникальных сообщений имеет только один пик 20 июля 2020 г. (51), также фиксируется увеличение общего числа сообщений 31 декабря 2020 г. (31) (рис. 2).

Рис. 2. Динамика уникальных сообщений

Пик 20 июля 2020 г. связан с информацией о том, что «Станция БКЛ "Электрозаводская" готова на 70%.<br>0на станет крупным ТПУ между Арбатско-Покровской линией метро и третьим диаметром», а пик роста 31 декабря 2020 г. связан с информацией о том, что «Собянин открыл станцию "Электрозаводская" Большой кольцевой линии метро».

Динамика просмотров также имеет пик роста 20 июля 2020 г. (1 399 888), связанный с информацией о том, что станция БКЛ «Электрозаводская» готова на 70 % и что она станет крупным ТПУ между Арбатско-Покровской линией метро и третьим диаметром (рис. 3).

Рис. 3. Динамика просмотров

43

Динамика активности акторов аналогичным образом позволяет выделить два пика роста 31 декабря 2020 г. (42) и 20 июля 2020 г. (29) (рис. 4).

Рис. 4. Динамика активности акторов

Рейтинг акторов, генерирующих релевантный контент, возглавляют официальные ресурсы и аффилированные акторы (Mossobyanin (1 351 874); infomoscow24 (1 050 372); MosSobyanin (487 349) (рис. 5).

44

Рис. 5. Рейтинг акторов

Между тем анализ рейтинга различных типов акторов, генерирующих контент, посвященный реализации проекта, показал, что преобладают личные аккаунты (рис. 6).

Рис. 6. Рейтинг различных типов акторов

Анализ геолокации акторов, генерирующих контент, посвященный реализации проекта ТПУ «Электрозаводская», показывает, что рейтинг регионов возглавляет Центральный округ РФ (рис. 7).

Рис. 7. Рейтинг регионов акторов, генерирующих контент

Составление и изучение рейтинга различных типов акторов с обозначением населенных пунктов закономерно показали лидирующие позиции Москвы (рис. 8).

Тип автора г Населенный пункт

личный Null

Москва

Казань Краснодар Санкт-Петербург Ярославль Химки 1026 338 0

группа Null Москва Одинцово -"402 804

канал Null 1

OK 500К 1000К 1500К 2000К 2500К

Рейтинг

Рис. 8. Рейтинг различных типов акторов с обозначением населенных пунктов

Большая часть контента, посвящённая проекту, генерировалась в микроблогах (2 940 397). Кроме того, релевантный контент представлен в социальных сетях (470 313) и мессенджерах (131 667) (рис. 9).

45

Рис. 9. Типы источников по охвату аудитории

Реакции пользователей, которые позволяют проанализировать наиболее значимые, ключевые темы контента, связанные с проектом, наиболее полно отражаются в цифровых следах, которые акторы оставляют на различных цифровых платформах (комментарии (рис. 10), лайки (рис. 11), дубли (рис. 12), перепосты (рис. 13).

Социальные сети

Тип источника г 1

Социальные сети

Микроблоги 14

Видео 9

Блоги 0

Другое 0

Интернет СМИ 0

Магазины 0

Мессенджеры 0

Тематические порталы 0

Форумы 0

Рис. 10. Цифровые следы (комментарии) на различных цифровых платформах

46

Рис. 11. Цифровые следы (лайки) на различных цифровых платформах

Интернет СМИ

Социальные сети

Рис. 12. Цифровые следы (дубли) на различных цифровых платформах

Рис. 13. Цифровые следы (перепосты) на различных цифровых платформах

Охват аудитории на различных цифровых платформах подтверждает лидирующие позиции микроблогов. Социальные сети и мессенджеры значительно уступают в популярности у акторов, генерирующих контент, посвященный реализации проекта (рис. 14).

Млкроблоги Социальные сети

Микроблоги 2 940 397

Социальные сети 470 131

Мессенджеры 131667

Блоги 103 061

Интернет СМИ 947 Мессенджеры

Другое 518

Видео 239

Тематические порталы 113

Магазины 2

Форумы 2

Рис. 14. Охват аудитории на различных цифровых платформах

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

47

2.2. Ключевые темы контента, связанные с реализацией проекта

2.2.1. Анализ семантической сети

Результаты анализа семантической сети позволили выделить ключевые темы. Выявление и анализ рейтинга контента помогли определить отношение (одобрения/не одобрения жителей) к строительству ТПУ «Электрозаводская», оценить потребность жителей в изменении транспортной ситуации в связи с реализацией проекта.

jgj Tableau Public - Bookl

Анализ данных показал, что рейтинг контента возглавляет блог «Эхо Москвы» с темой, посвящённой тому, какие станции метро будут построены (155 942) (рис. 15).

Clusters Текст

Cluster [<Ьг>Эхо

1 <Ьг>Арг^ В этом гс ^Экскл! Заверша Строите/ ВБЛИЗИ Панно "Е SHOBOCTI <Ьг>^П На 6; Внеочер <Ьг>Квар Уважаем Пешеход 1-23 мая #Проект Пешеход Жители В 2020 г #Авиамс На 6: © Пускс Москомг Вообще <br>CTAI Ката ком! Московс ^ Экск/ Это сс Сергей G Готовнос Ну что, гт Как за по Станцию

Sheet 1 Sheet 2

•у Keep Only х Exclude ■

<Ьг>Эхо Москвы<Ьг>вчера в 10:01<Ьг>Какие станции метро будут построены в 2020 году? — Блоги — Эхо Москвы, 03.01.2020<br>08:19, 03 января 2020 <Ьг>2020-й год начинается в Москве с новостей о строительстве метро. Сегодня мы провели технический пуск второго участка Некрасовской линии и примыкающих к ней участков Большой кольцевой линии метро. <Ьг>Через несколько месяцев поезда пойдут от «Лефортово» до «Косино» и далее в Некрасовку. <Ьг>В этом посте рассказываю об итогах реализации программы развития Московского метрополитена и планах на 2020 г. <Ьг>Начиная с 2011 года мы построили 155 км новых линий и 81 станцию метро и МЦК. В планах - еще 185 км линий и 76 станций. <br>B результате Московское метро станет в 2 раза больше, чем было в 2010 г. 95% москвичей будут проживать рядом со станциями метрополитена. <Ьг>Практически все будущие участки метро находятся на разных стадиях строительства, проектирования или разработки градостроительной документации. <br>B 2020 году планируем завершить строительство 9 станций метро. <Ьг>1. От «Лефортово» до «Косино»: Некрасовская линия и примыкающие к ней участки Большой кольцевой линии метро (14,5 км, 6 станций). <br>Ha Некрасовской линии метро и примыкающих к ней участках БКЛ для пассажиров откроется 6 новых станций. <Ьг>«Лефортово». <Ьг>Выходы со станции будут расположены у кинотеатра «Спутник», вблизи Солдатской и Наличной улиц. Источником вдохновения для дизайнеров станции стала история старинного московского района. <Ьг>«Авиамоторная». <Ьг>Расположена на пересечении шоссе Энтузиастов и путей Рязанского направления МЖД. <Ьг>В будущем «Авиамоторная» станет крупным ТПУ - пересадка на наземный транспорт, Калининскую линию и платформу «Новая» Рязанского направления МЖД (МЦД-3). <Ьг>В оформлении станции преобладают лаконичные и сдержанные черные, серые и белые тона. <Ьг>«Нижегородская». <Ьг>Расположена на пересечении Рязанского проспекта, Нижегородской улицы и путей МЦК. <Ьг>Между двумя островными платформами станции проложены пути Некрасовской линии, а по бокам пройдут пути Большой кольцевой. При движении в одном направлении пересесть с одной ветки на другую можно будет на той же платформе. Чтобы ехать в обратную сторону, нужно будет перейти на соседнюю платформу (аналогичная кросс-платформенная пересадка действует, например, на «Китай-городе»). <Ьг>На «Нижегородской» будет работать один из крупнейших ТПУ Москвы - пересадка между двумя линиями метро, МЦК и поездами Горьковского направления железной дороги (МЦД-4). <Ьг>Рядом с ТПУ пройдет новая городская магистраль - Юго-Восточная хорда, что обеспечит хорошую доступность

,~03.01.2020<Ьг>08:19,03 я

я.2020_<Ьг>2020-й год начинается в Москв.

рам ориентироваться<Ьг>Необычное оформление станции «Нижегородская, унцевская" (бедные туристы) <Ьг>В наступившем году схема московского м.. овскую и Рубцовскую набережные. Мост строят из легких современных мат.. тве станции «Электрозаводская» Большой кольцевой линии столичного ме.. Работы выполнены на 70%.<Ьг>Станция входит в северо-восточный участок., рядом со станцией «Электрозаводская» Большой кольцевой линии метро со. |руют открыть уже к концу года. Здесь же будет крупный ТПУ и мост через Яу. и области. Поэтому давайте подведем их краткие итоги с 13 ноября по 2 де.. районе #Басманный.<Ьг>Новый мост будет длиной около 86 метров и шир.. транспортно-пересадочный узел (ТПУ), сообщил заместитель мэра Москвы .. объектов городской недвижимости, по которым в настоящее время ведется . >ль на Таганке в рамках роуд-шоу<Ьг>Архитектурный ансамбль в Таганском . инии для строительства тоннеля БКЛ<Ьг>Мы понимаем, что большинство п.. )водская" в Москве, сообщили в понедельник в пресс-службе столичного ст.. ннеля БКЛ<Ьг>Мы понимаем, что большинство пассажиров закрытого участ.. 1ить в этом году, сообщил Мэр Москвы Сергей Собянин.<Ьг>Новая станция р.. соединит Рубцовскую и Семёновскую набережные. Транспортный хаб стро.. ;дутТПУ Люберцы-1. Станция РЖД даёт возможность воспользоваться ПЯТЬ., ь станций метро, которые расположены на участках Некрасовской и Большо.. упность#пассажиры#Москва

транспортно-пересадочный узел (ТПУ), сообщил заместитель мэра Москвы .. Завершается благоустройство вдоль д. 3 по Семеновской набережной.<Ьг>.. 1Водская» Большой кольцевой линии (БКЛ) метро, <Ьг>Об этом заявил главн. с. Неизвестно когда я окажусь в том районе снова. Короче, проехала по всем. Басманный уже в этом году построят станцию метро «Электрозаводская» Б., одскую клиническую больницу №6, находящуюся в Басманном районе Моск. ктов недвижимости, по которым в настоящее время ведется заявочная кам.. >вскую и Рубцовскую набережные. Мост строят из легких современных мате., годах прошлого века канализационный коллектор продолжает исправно е.. :Ьг>Сейчас на станции ведутся отделочные работы. Пол и лестницы вылож.. /ю станцию Арбатско-Покровской линии составляет 61%. Об этом сообщил з.. >Это будет полноценный ТПУ - объединятся метро, Большое кольцо и одно.. :Ьг>- реконструировали южный и северный вестибюли метро "Черкизовска. чи метро и БКЛ.<Ьг> <Ьг>А рядом построили пешеходный мост через Яузу,..

148 689 132 240 80165

Рис. 15. Топ 1 рейтинга контента

Анализ семантических сетей негативного, нейтрального и позитивного контента (рис. 16-18) помог сформировать список ключевых тем, которые будут представлены в п. 2.2.2 во второй части проведенного исследования1.

48

1 Вторая часть исследования публикуется в № 2

РТ/2023 - Ред.

70 ЭЭ метро А <АЬ 78 99 сг ¿Ь <Д11>

76 99 ТПУ £Ь <АН>

05 9ЭЭлектрозаводская й, <А1>

61 99 ТПУ «Электрозаводская & <АН>

68 99 коммер & <АН>

69 99ЖК «Интеллигент <5Ь <АП>

100 99 ЖК ¿Ь <АИ> 100 99 Интеллигент А <АИ> 74 99 асти А) <АН>

73 99 рамках 57 99 пределах Камер-Коллежского вала й>

Х4р.|| 92 99 грунтах ¿о <АИ>

68 99 Высотное & <АН>

70 99 случае

60 99 строительство £> <АИ>

75 99 застройки 61 99 набережной

72 99 станции

69 99 Москвы

Рис. 16. Семантическая сеть негативного контента

99 Ы (25215| & <АИ> I 36 99 на

¿ь <А11> 1<#1|. 84 99 По

& <А11>

€5 99 метро А <А11>

83 39 станции Л <А11>

33 99 линии Л <АН>

85 99 БКЛ & <АН> Х4ЙВ.1) 74 99 будет й> <АН> > 80 99 Большой Д> <АН>

95 99 Большой кольцевой ¿Ь <А11> ■¿4Щ& 88 93 кольцевой линии А <АН> Л96 99 Большой кольцевой линии Л <А11> -ЧЦ*, 88 99 линии метро л4Ш> 64 99 станция 73 39 станций & <А11>

88 33 новых 35 33 кольцевой 74 99 ТПУ

79 99 до

Рис. 17. Семантическая сеть позитивного контента

49

50

100 на (3054Б1

Й, <ди>

37 100 Ы ¿Ь <АИ>

93100 станции £Ь <А1>

92100 линии £Ь <АЬ

92100 метро «¡Р., 36 100 до £Ь <АН>

88100 стад 100 БКЛ А <АИ>

82100 кольцевой â, <AII> ■héfb 98 100 Большой

98 100 Большой кольцевой

^¡^ШИВЯ

& <аь

79100 Строительство 70100 Э лектрозавсщскэя

77100 из fh <АН>

Рис. 18. Семантическая сеть нейтрального кластера

Список использованных источников

1. Харламов А. А. (2017) Ассоциативная память — среда для формирования пространства знаний. От биологии к приложениям. Академическое издательство Palmarium, Дюссельдорф.

2. Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Pra-fulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger,Tom Henighan, Rewon Child, Aditya Ramesh,Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. «Language Models are Few-Shot Learners.» arXiv:2005.14165v2 [cs. CL] 1.06 (2020): 1-74.

3. Bubeck Sébastien, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang.Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712v4 [cs.CL] https:// doi.org/10.48550 /arXiv.2303.12712

4. Geng, Jessie Microsoft's New MT-DNN Outperforms Google BERT, 2019 https:// medium.com/syncedreview/microsofts-new-mt-dnn-outperforms-google-bert-b5fa15b1a03e (Feb 15, 2019)

5. Kharlamov A. A., Pilgun M. Dynamics of the Perception of Semantic Representations of Power: Diachronic and Comparative Aspects // Речевые технологии, 2020. N 1-2. C. 97-13. (В).

6. Kharlamov A. A., Pilgun M. (2020) Hierarchies in Inter-personal and Intergroup Communication in Social Media: Case 'Smart Voting'. In: Chellappan S., Choo KK.R., Phan N. (eds) Computational Data and Social Networks. CSoNet 2020. Lecture Notes in Computer Science, vol 12575. Springer, Cham. Рр. 127-138 (a)

7. Kharlamov A. A., Raskhodchikov A. N., PiLgun M. (2021). Smart City Data Sensing during CO-VID-19: Public Reaction to Accelerating Digital Transformation. Sensors 2021, 21 (12), 3965; https://doi.org/10.3390 /s21123965

8. KharLamov, A. A., PiLgun M. (Eds). (2020). Neuroinformatics and semantic representations. Theory and Applications. Newcastle upon Tyne: Cambridge Scholars Publishing. 317 p. (б)

9. KharLamov, A. A., PiLgun, M. Perception of the Situation: Social Stress and WeLL-Being Indices. Lecture Notes in Networks and Systems, 2023, 544 LNNS, стр. 778-790.

10. Liu Xiaodong, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. 2015. Representation Learning using muLti-task deep neuraL networks for semantic cLassification and information retrievaL. In Proceedings of the 2015 Conference of the North American Chapter of the Association for ComputationaL Linguistics: Human Language TechnoLogies, pages 912-921.

11. Liu Xiaodong, Pengcheng He, Weizhu Chen, Jianfeng Gao (20191 Multi-Task Deep Neural Networks for Natural Language Understanding. ACL 20191 June 2019 (https://arxiv.org/pdf/1901.11504.pdf)

12. PiLgun M., KharLamov A. A. (2022). Information RetrievaL and AnaLysis of DigitaL Conflictogenic Zones by SociaL Media Data. Proceedings of Sixth InternationaL Congress on Information and Communication TechnoLogy ICICT 2021, London, VoLume 2. Editors: Yang, X.-S., Sherratt, S., Dey, N., Joshi, A. (Eds.). Lecture Notes in Networks and Systems. VoL. 236. Pages 677-685.

13. Xue, Linting, Noah Constant, Adam Roberts,Mihir KaLe, Rami AL-Rfou, Aditya Siddhant, Aditya Barua, and CoLin RaffeL. «mT5: A massiveLy muLtiLinguaL pre-trained text-to-text transformer.» arXiv:2010.11934v1 [cs.CL] 22.10 (2020): 1-13.

SEMANTIC NETWORKS: INTERPRETATION SOCIAL MEDIA DATA

Pilgun M. A., Doctor of Philology, Professor, Russian State Social University, Moscow, pilgunm@yandex.ru

The article presents a neural network approach to interpreting large volumes of textual data using a semantic network. The study analyzed the possibilities of using the semantic network in the interpretation of social media data. In particular, on the basis of social media data, an analysis was made of the level of emotional reaction of Moscow residents and social tension around the Elektrozavodskaya transport hub project. Using a semantic network formed using the neural network technology TextAnalyst 2.3 made it possible to solve numerous tasks: to analyze the most significant, key content topics related to the Project, to identify the content rating, to determine the attitude of residents to the construction of the Elektrozavodskaya transfer hub, to assess the need of citizens to change the transport situation in connection with the implementation of the Project, to clarify the results, to analyze the tone of relevant messages, identify the presence/absence of social stress in construction areas and the city of Moscow as a whole, form a rating of social tension, calculate the rating of social stress and well-being indices, rank key negative accents associated with the implementation of the Project or the metro station of the same name, and also formulate recommendations on the current information support.

• semantic networks • social media data • neural network technologies • TextAnalyst 2.3 •

51

i Надоели баннеры? Вы всегда можете отключить рекламу.