Научная статья на тему 'МЕТОД ВЫДЕЛЕНИЯ СЕМАНТИЧЕСКИ СОГЛАСОВАННЫХ ГРУПП ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ МЕДИА-ПЛАТФОРМ'

МЕТОД ВЫДЕЛЕНИЯ СЕМАНТИЧЕСКИ СОГЛАСОВАННЫХ ГРУПП ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ МЕДИА-ПЛАТФОРМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
225
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНЫЕ СЕТИ / МЕССЕНДЖЕРЫ / МЕТОД ВЫДЕЛЕНИЯ СЕМАНТИЧЕСКИ-СОГЛАСОВАННЫХ ГРУПП / ОЦЕНКА ТОНАЛЬНОСТИ ТЕКСТОВЫХ СООБЩЕНИЙ / ВЫЯВЛЕНИЕ ТЕМАТИК КОРОТКИХ ТЕКСТОВЫХ СООБЩЕНИЙ / ЗНАКОВЫЕ ГРАФЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лебедев Д. В., Васильев Н. В.

Социальные медиа платформы (социальные сети, мессенджеры) стали одной из важнейших инфокоммуникационных средств современного человека. Наряду с обеспечением оперативного взаимодействия пользователей, социальные медиа-платформы могут быть инструментом ведения гибридной войны. За счет большого охвата аудитории и слабого контроля за содержанием, социальные медиа-платформы удобны для распространения идей, связанных с дестабилизацией социально-политической ситуации. Кроме этого, через социальные медиа-платформы часто осуществляется взаимодействие международных террористических организаций и распространение наркотиков. Не стоит забывать и про такое удручающее явление как детские и подростковые «группы смерти», распространяющие суицидальные идеи. Социальные медиа-платформы могут быть использованы и для организации утечек важной для компании информации, а также для подрыва ее репутации. Такую атаку могут провести внутренние сотрудники компании, которые недовольны руководством, или специально внедренные инсайдеры. Целью настоящей статьи является разработка метода выявления семантически-согласованных групп пользователей социальных медиа-платформ на основе анализа публикуемых ими сообщений. Для достижения указанной цели в работе решаются следующие научные задачи: формирование схемы обработки данных, выбор метода оценки тональности текстовых сообщений, выбор метода выявления тематики коротких текстовых сообщений, моделирование диалога пользователей по заданной тематике знаковыми графами, выявление семантически согласованной группы пользователей. В работе используется научно-методический аппарат обработки естественного языка, дискретной математики, теории графов, машинного обучения. Научная новизна предложенного в работе метода состоит в обеспечении совместной интерпретации данных о взаимодействиях пользователей социальных медиа-платформ и оценкой смысла публикуемых сообщений, что позволяет повысить точность выявления схемы реальных контактов. Практическая значимость разработанного метода состоит в возможности его применения в специализированных комплексах мониторинга открытых источников информации, которые стали частью современных автоматизированных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лебедев Д. В., Васильев Н. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD FOR IDENTIFYING SEMANTICALLY CONSISTENT GROUPS OF USERS OF SOCIAL MEDIA PLATFORMS

Social media platforms (social networks, instant messengers) have become one of the most important infocommunication means of modern man. Along with providing instant user interaction, social media platforms can be a tool for hybrid warfare. Due to the large audience coverage and weak content control, social media platforms are convenient for disseminating ideas related to the destabilization of the socio-political situation. In addition, interaction between international terrorist organizations and the spread of drugs is often carried out through social media platforms. Do not forget about such a depressing phenomenon as children's and adolescent "death groups" that spread suicidal ideas. Social media platforms can also be used to organize leaks of information important to the company, as well as to undermine its reputation. Such an attack can be carried out by internal employees of the company who are dissatisfied with the management, or specially embedded insiders.The purpose of this study is to develop a method for identifying semantically consistent groups of users of social media platforms based on the analysis of the messages they publish.To achieve this goal, the following scientific tasks are solved in the work: the formation of a data processing scheme, the choice of a method for assessing the sentiment of text messages, the choice of a method for identifying the subject of short text messages, modeling the user dialogue on a given subject with sign graphs, and identifying a semantically consistent group of users. The work uses the scientific and methodological apparatus of natural language processing, discrete mathematics, graph theory, machine learning. The scientific novelty of the method proposed in the work is to provide a joint interpretation of data on the interactions of users of social media platforms and an assessment of the meaning of the published messages, which makes it possible to increase the accuracy of identifying the scheme of real contacts. The practical significance of the developed method lies in the possibility of its application in specialized complexes for monitoring open sources of information, which have become part of modern automated systems.

Текст научной работы на тему «МЕТОД ВЫДЕЛЕНИЯ СЕМАНТИЧЕСКИ СОГЛАСОВАННЫХ ГРУПП ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ МЕДИА-ПЛАТФОРМ»

УДК 004.896

Метод выделения семантически согласованных групп пользователей

социальных медиа-платформ

Лебедев Д.В., Васильев Н.В.

Аннотация. Социальные медиа платформы (социальные сети, мессенджеры) стали одной из важнейших инфокоммуникационных средств современного человека. Наряду с обеспечением оперативного взаимодействия пользователей, социальные медиа-платформы могут быть инструментом ведения гибридной войны. За счет большого охвата аудитории и слабого контроля за содержанием, социальные медиа-платформы удобны для распространения идей, связанных с дестабилизацией социально-политической ситуации. Кроме этого, через социальные медиа-платформы часто осуществляется взаимодействие международных террористических организаций и распространение наркотиков. Не стоит забывать и про такое удручающее явление как детские и подростковые «группы смерти», распространяющие суицидальные идеи. Социальные медиа-платформы могут быть использованы и для организации утечек важной для компании информации, а также для подрыва ее репутации. Такую атаку могут провести внутренние сотрудники компании, которые недовольны руководством, или специально внедренные инсайдеры. Целью настоящей статьи является разработка метода выявления семантически-согласованных групп пользователей социальных медиа-платформ на основе анализа публикуемых ими сообщений. Для достижения указанной цели в работе решаются следующие научные задачи: формирование схемы обработки данных, выбор метода оценки тональности текстовых сообщений, выбор метода выявления тематики коротких текстовых сообщений, моделирование диалога пользователей по заданной тематике знаковыми графами, выявление семантически согласованной группы пользователей. В работе используется научно-методический аппарат обработки естественного языка, дискретной математики, теории графов, машинного обучения. Научная новизна предложенного в работе метода состоит в обеспечении совместной интерпретации данных о взаимодействиях пользователей социальных медиа-платформ и оценкой смысла публикуемых сообщений, что позволяет повысить точность выявления схемы реальных контактов. Практическая значимость разработанного метода состоит в возможности его применения в специализированных комплексах мониторинга открытых источников информации, которые стали частью современных автоматизированных систем.

Ключевые слова: социальные сети, мессенджеры, метод выделения семантически-согласованных групп, оценка тональности текстовых сообщений, выявление тематик коротких текстовых сообщений, знаковые графы.

Введение

В настоящее время социальные медиа-платформы (социальные сети, мессенджеры) стали одним из важнейших источников взаимодействия людей. На базе медиа-платформ существует большое количество пользовательских групп по интересам (социальных групп). Подавляющее большинство таких групп существует недолго, поскольку создаются под конкретное мероприятие (например, праздник или иное совместное времяпровождение). Наиболее устойчивыми являются группы, созданные вокруг различных продуктов: форумы игроманов, клиентов, последователей звезд интернета. Необходимо отметить, что часто группы служат для координации действий участников в виртуальном и реальном пространстве. Эффективность действий зависит от свойств группы, межличностных отношений между участниками и отстаиваемых точек зрения по ключевым вопросам, имеющим в том числе важное социальное значение. Примером может послужить распространение информации о вреде вакцинации [1] или агитация суицидального поведения детей и подростков [2]. При этом отсутствует механизм эффективной регуляции этих явлений со стороны законодательства РФ. Как следствие единственный метод

противодействия распространения деструктивных идей в социальных медиа - оперативное выявление источников распространения (ядра группы) и его изоляция средствами социальной медиа-платформы с последующим подключением правоохранительных органов. Проблема осложняется тем, что существующий аппарат аналитики социальных сетей (Social-mining) достаточно поверхностны и не позволяют эффективно выявить структуру группы за счёт того, что слабо учитывают семантику сообщений пользователя, делая акцент на устойчивые связи в модели социальной сети («друзья» пользователя, списки групп пользователя).

Указанные соображения определяют актуальность разработки методов выделения групп социальных медиа-платформ.

Обзор существующих подходов к анализу социальных медиа (социальных сетей)

Для комплексного анализа работы виртуальной социальной сети используются алгоритмы Data Mining. Общая схема обработки данных [3] приведена на рис. 1.

Рис. 1. Схема обработки данных социальных сетей

В настоящее время анализ социальных сетей решает следующие задачи:

- анализ информационных потоков, с помощью которого можно выявить лидеров мнений, найти утечки информации, осуществить управление /^-акциями. Применяется в таких сферах, как маркетинг, реклама, безопасность, оптимизация сетей и корпоративная технология;

- персонификация предложений, что позволяет сделать социальную сеть более эффективной и привлекательной для конечного пользователя путём выделения его реальных потребностей;

- поиск аномалий, «ботов» и мошенников, для выявления и применения специальных мер к пользователям, ведущим «вирусную» активность.

Для решения указанных задач применяются методы, основанные на моделировании связей пользователей (друзья, группы) в виде графа с последующим анализом его структуры (клики, компоненты сильной связности, топологический анализ [4]), а также методы обработки естественного языка - главным образом оценка тональности высказываний на специализированных социальных площадках IMDB, Twitter. Эти два подхода показали свою полезность, хотя совместно используются редко.

В работе предлагается подход, использующий методологический аппарат исследования устойчивости социальных групп (сбалансированные знаковые графы) совместно с методами обработки естественного языка для выявления групп взаимодействующих пользователей по признаку согласованных мнений по ключевым

вопросам обсуждений. В качестве экспериментального исследования проведена апробация на данных группы «Коронавирус-Санкт-Петербург» сети «ВКонтакте».

Метод семантически согласованных групп

Предлагаемый в работе метод можно разбить на 6 основных этапов (рис. 2):

- сбор данных. На данном этапе производится формирование исходного набора данных;

- определение тональности (эмоциональной окраски) текстовых сообщений. Ставится одна из трёх меток - нейтральное, позитивное или негативное сообщение;

- выделение тематик текстовых сообщений;

- построение знаковых графов групп взаимодействующих пользователей. В качестве вершин графа выступают идентификаторы пользователей, а в качестве ребер - отношения взаимодействия в процессе общения. Веса рёбер графа могут принимать в зависимости от тональности общения значения [-1, 0, 1], что означает [антипатия, нейтральное отношение, симпатия];

- выделение максимальных сбалансированных подграфов, соответствующих устойчивой группе пользователей;

- визуализация полученных данных и последующая интерпретация.

Рис. 2. Схема метода выделения семантически согласованных групп пользователей

Рассматриваемый метод позволяет достоверно получить список поляризованных групп в онлайн-дебатах, что позволит применять его в различных социальных медиа. Рассмотрим каждый этап более детально.

Этап 1 - сбор данных. На данном этапе производится формирование исходного набора данных. Данные должны включать в себя автора сообщения, кому автор отвечает либо чьё сообщение комментирует (опционально) и само текстовое сообщение. Набор данных имеет смысл сохранять в виде кортежа для удобства дальнейшей обработки. Как правило, для сбора данных разрабатываются поисковые роботы-пауки (веб-краулеры), что позволяет избежать неопределенности при формировании исходного набора данных. С учетом большого объема данных социальных сетей, роботы-пауки могут иметь распределенный характер.

Этап 2 - определение тональности текстовых сообщений. На данном этапе каждому текстовому сообщению ставится одна из трёх эмоциональных меток: нейтральное, позитивное или негативное.

Существующие методы оценки тональности основаны на представлении текста в числовом (векторизованном) виде. В настоящем исследовании было произведено сравнение следующих методов векторизации для обучения регрессионного классификатора данными RuSentiment [5]:

- BoW (Bag of Words - «мешок слов») - метод, учитывающий частоту слова в документе без учета взаимного расположения слов. Разновидностью данной модели является мера TF-IDF, отражающие отношение частоты слова в конкретном документе к частоте слова в известном корпусе документов [6];

- Word2Vec (инструментарий от Google) - нейросетевой метод, учитывающий частоту совместного использования слов в текстах. В работе исследована разновидность данной модели, обученная на двух алгоритмах: BoW и Skip-gram. На выходе обученная однослойная сеть позволяет по слову получить числовые векторы, позволяющие использовать косинусное расстояние между словами как меру их близости [6];

- FastText - контекстуальный нейросетевой метод, концептуально схожий с word2vec, использующий для обучения части слов [6];

- BERT (Bidirectional Encoder Representations from Transformers) - языковая модель, основанная на глубокой нейросетевой архитектуре типа трансформер [6]. Метод заключается в присваивании каждому слову числа, обозначающего порядковый номер слова в словаре, упорядоченном по критерию смысловой близости терминов. На выходе каждому тексту сопоставляется вектор из 512 символов. При подаче текста на вход сети первоначально выполняется его токенизация. Токенами служат слова, доступные в словаре, или их составные части. В самой нейронной сети токены кодируются своими векторными представлениями, а именно, соединяются представления самого токена, номера его предложения, а также позиции токена внутри своего предложения. Данные поступают на вход и обрабатываются сетью параллельно, а не последовательно, но информация о взаимном расположении слов в исходном предложении сохраняется, будучи включённой в позиционную часть вектора, соответствующего токена [7].

Эксперимент по оценке качества векторизации сводился к оценке точности по критерию Fl-меры различных классификаторов тональности, использующих указанные методы. Используемый для обучения тестовый корпус, сформированный на основе русскоязычных сообщений из Twitter, разбивался на тренировочные и тестовые данные. Тренировочные данные применялись соответственно для обучения моделей, а тестовые для оценки их точности и полноты.

Используемая для оценки Fl-мера представляет собой гармоническое среднее между точностью и полнотой, как показано в (1). При нулевой полноте или точности она стремится к нулю.

_ ТочностьхПолнота

Fl = 2-. (1)

Точность+Полнота

Исходя из полученных данных, приведенных в табл. 1, следует выбирать предобученную модель BERT «bert-base-multilingual-cased» [8], так как она имеет наибольшую оценку Fl-меры при решении задачи анализа тональности русскоязычных коротких текстов.

Таблица 1 - Сравнение моделей по к ритерию Fl-меры

BoW Word2Vec FastText BERT

Оценка F1 0.61 0.53 0.71 0.76

Этап 3 - выделение тематик текстовых сообщений. На данном этапе сообщению присваивается соответствующая набор соответствующих ему тематик.

Для решения указанной задачи целесообразно использовать технологию тематического моделирования, заключающуюся в статистическом анализе корпусов текстов. Тематическая модель определяет, к каким темам относится каждый документ, и какими словами описывается каждая тема. Преимуществом подхода является отсутствие необходимости ручной разметки корпуса текстов. Обучение тематической модели происходит без учителя. В отличие от схожей кластеризации, тематическое моделирование допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы есть у этих текстов». Для наглядности отличие задачи классификации текста от тематической классификации приведён рис. 3.

Рис. 3. Отличие задачи классификации текста от тематической классификации

В рамках поставленной задачи были проанализированы следующие методы тематической классификации:

- PLSA (Probabilistic latent semantic analysis) [9]. По сравнению с обычным латентно-семантическим анализом (LSA), который сводится к SVD - разложению матрицы «документ-термин», PLSA состоит в нахождении вероятностной модели со скрытыми темами с использованием в качестве целевой функции поиска логарифма правдоподобия;

- ARTM (Additive regularization for topic modeling) [9] - это многокритериальный подход, в котором к целевой функции логарифма правдоподобия добавляется взвешенная сумма функций-регуляризаторов, обеспечивая более точное решение задачи. ARTM позволяет комбинировать тематические модели, суммируя регуляризаторы. Благодаря свойству аддитивности, оптимизация любых моделей и их комбинаций производится одним и тем же итерационным процессом на основе ЕМ-алгоритма. Для добавления регуляризатора в модель достаточно знать его частные производные по параметрам модели. EM-алгоритм хорошо масштабируется, поскольку каждая его итерация - это один линейный проход по коллекции, а число итераций, требуемых для сходимости процесса, как правило, невелико.

- LDA (Latent Dirichlet Allocation) [9] - это байесовская версия модели PLSA. В частности, модель использует априорные значения Дирихле для распределения темы документа и слова. Распределение Дирихле позволяет порождать разреженные векторы на основе параметров, которые позволяют управлять степенью разреженности. В то же время, применение распределений Дирихле не имеет убедительных лингвистических обоснований. Его широкое распространение в тематическом моделировании объясняется скорее популярностью байесовского обучения, чем стремлением к адекватному моделированию значимых особенностей текстовых коллекций или явлений естественного языка.

Был проведён анализ вышеупомянутых методов тематической по критериям разреженности тематических векторов (интерпретируемости) и перплексии. Показатель разреженности позволяет более чётко разграничить тематики, а показатель перплексии

указывает насколько сильно модель преобразуется при появлении новых данных. Результаты анализа представлены в табл. 2. Сравнение моделей показало, что наименьшая перплексия и наибольшая разреженность матриц достигается в модели ARTM, соответственно, для тематической классификации коротких текстовых сообщений была выбрана библиотека BigAR^M [10].

Таблица 2 - Сравнение методов тематической классификации

LDA pLSA ARTM

Разреженность матрицы ф 0.0 0.69 0.86

Разреженность матрицы 0 0.0 0.04 0.79

Перплексия 784.44 770.34 719.67

Этап 4 - построение знаковых графов. На данном этапе строятся знаковые графы для каждой из тематик.

Традиционно социальные сети моделируются в виде графов [3], например, вершины могут обозначать пользователей и группы, а их отношение (дружба, принадлежность группе) - ребрами между ними. Такое представление позволяет провести при помощи базовых алгоритмов теории графов группы единомышленников (сильно связанные компоненты графа), оценить динамику связей во времени (на базе расстояния редактирования графа) и пр. Однако существующие в настоящее время методы мало учитывают семантику сообщений между пользователями в процессе взаимодействия. Для моделирования и исследования устойчивости социальных групп в настоящее время используется аппарат знаковых графов. В знаковых графах каждое ребро помечено либо положительным, либо отрицательным знаком. Если граф представляет социальные взаимодействия, то можно использовать знаки, чтобы определить, являются ли эти взаимодействия дружественными или нет. Таким образом, подписанные графы представляют собой хорошее представление для выявления поляризованных групп в онлайн-дебатах.

Знаковым графом С = (К, Я+, Я-) называется граф у которого все ребра имеют вес +1 или -1. Где К = {1, ..,п} - набор вершин графа, а Я+(Я-) набор положительных (отрицательных) ребер [11].

В качестве вершин знакового графа выступают идентификаторы пользователей, а в качестве ребер - отношения взаимодействия в процессе, то есть ответы на сообщения пользователей. Причём рёбра графа знаковые и могут принимать значения [-1, 0, 1], что означает [антипатия, нейтральное отношение, симпатия].

Вначале, выявляются вершины графа в качестве которых выступают пользователи, затем формируются рёбра отношений между пользователями, на основе тональностей сообщений между ними. Если преобладают положительные тональности сообщений, то ребру ставится положительный знак, иначе отрицательный, в остальных случаях нейтральный. Вес вершины определяется по количеству входящих (исходящих) рёбер в эту вершину.

Таким образом, строится матрица отношений между пользователями, и уже на её основе строится знаковый граф.

Знаковые графы строятся на основе матриц отношений между пользователями. Если вершина имеет взаимодействие с другой вершиной, то между ими формируется ребро со значением [-1, 0, 1] и заносится в массив для дальнейшей обработки.

Этап 5 - выделение максимальных сбалансированных подграфов. Задачи, приводящие к знаковым графам, возникли впервые в социологии при изучении проблемы

сбалансированности малых групп, т. е. того, насколько группа, состоящая из нескольких участников, может эффективно работать. Таким образом, при выделении максимальных сбалансированных подграфов можно выявлять наиболее бесконфликтные группы взаимодействующих участников.

Знаковый граф G = (V,E+,E-) сбалансирован, если существует такое разбиение множества вершин V = V1 U V2 , V1 ^V2 = 0, при котором каждое ребро как между вершинами в Уъ так и между вершинами в V2 положительно, а ребра между V1 и V2 отрицательны [12].

В дополнение к простому переборному алгоритму, следующему из определения сбалансированности, существует связь этого свойства со спектром графа [13].

Теорема. Пусть собственные числа ^i(L) < ••• < hn(L) принадлежат спектру L знакового графа G = (V,E+,E-). Тогда

^i(L) < min{An(L(G )) -VG' QV,G \ VG' сбалансирован}.

Здесь VG' обозначает множество вершин графа G . Иными словами, наименьшее собственное число спектра знакового графа не больше наименьшего собственного числа спектра любой его сбалансированной компоненты.

Графы, используемые в практических приложениях, обычно не сбалансированы. Таким образом, возникает естественный вопрос, можно ли эффективно найти максимальный сбалансированный подграф данного знакового графа. Применительно к социальным медиа-платформам, такой подграф будет соответствовать группе единомышленников. Соответственно, задача для знакового графа G = (V,E+,E-) сводится к нахождению графа G приведённому к V Q V, так чтобы G был сбалансирован, а количество вершин V было максимально.

На рис. 4 представлен псевдокод алгоритма выделения максимального сбалансированного подграфа в знаковом графе, он функционирует в 2 этапа:

- на первом этапе (строки 3-9) последовательно удаляются вершины из графа до момента получения сбалансированного подграфа;

- на втором этапе (строки 10-14) при помощи процедуры Timbal (Trimming Iteratively to Maximize Balance - итеративная обрезка для максимизации баланса) последовательно ищутся вершины из удалённых, которые не будут нарушать этот баланс.

Вход: знаковый граф G

1: R 0

2: Опционально; R *- Подвыборка(С|), G 3: while G не сбалансирован do А: Вычисление L, спектра G.

5: Вычисление вектора г.

6: Вычисление набора вершин для удаления 5, основанных на г

7: G <- G/s;R <- R и 5.

8: С подграф с наибольшим количеством связей в G

9: end white 10; for V € R do

11: i/fiU {у} сбалансирован then

G<- G U { v}

end if end for

12:

15: Вывод G

Рис. 4. Псевдокод алгоритма выделения максимального сбалансированного подграфа

Таким образом, применив данный алгоритм можно найти набор максимально сбалансированных подграфов для каждой из тематик.

Этап 6 - визуализация полученных данных. В рассматриваемой методике нет каких-либо ограничений в представлении полученных данных. В качестве рекомендации

можно сказать, что набор обработанных данных можно хранить в виде текстового CSV (Comma-Separated Values) файла, который легко можно визуализировать в виде таблицы, а визуализацию знаковых графов, а также максимально сбалансированных подграфов можно реализовать при помощи библиотеки IGraph [14] для лучшей интерпретации результатов.

Апробация предложенного метода

В данном разделе приводится пример реализации предложенного метода на основе данных существующей группы социальной сети. Методика реализована на языке программирования Python, с использованием библиотек Pandas, PyTorch, Transformers, Artm, Numpy, Nltk, PyMorphy2, IGraph.

Этап 1 - сбор данных. В качестве исходных данных будет выступать группа ВКонтакте «Санкт-Петербург | Коронавирус | COVID-19» [15]. Для сбора данных был разработан сборщик сообщений (краулер) на основе API ВКонтакте версии 5.131 [16]. Краулером собираются данные постов, комментариев, времени размещения сообщений и авторов. Каждый пост представляется в виде сущности, содержащей следующие поля: datetime - время размещения сообщения, author - идентификатор пользователя кем размещено сообщение, reply to - идентификатор пользователя на чьё сообщение было отвечено и text - непосредственно само сообщение. Полученная информация записывается в файл CSV. На рис. 5 показан срез итогового файла.

1 2 3 4

1 datetime author reply_to text

2 28.65.2020 19:52 -174628792 Коронавирус. Оперштаб Петербург С 1 июня в Петербурге ослабят ограничения, связанные с коронавирусом

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 28.05.2020 19:56 12590355 17462Э792 Что с непродовольственными магазинами??? Открывайте как вся Россия до 400 кв. м.

4 29.05.2020 13:53 59S302534 Названы способы не заразиться коронавирусом в общественных местах

5 08.08.2020 13:39 440034490 253а Названы противопоказания к вакцине от коронавируса Источник:

6 28.08.2020 14:57 599097287 ¿415034490 4 829 новых случаев C0VID-19 выявлено в России Источник:

7 28.05.2020 20:05 731112 -174620792 Что с фитнес клубами?

S 10.11.2020 07:14 236051417 731112 Статистика коронавируса з Санкт-Петербурге на 10 ноября 2020 года

9 11.11.2020 07:00 609971731 -1- Обновлена статистика коронавируса в России на 11 ноября

10 28.05.2026 20:46 939852 --74623792 что с поликлиниками?

Рис. 5. Срез данных файла CSV, полученных краулером ВКонтакте

Этап 2 - определение тональности текстовых сообщений. В качестве нейронной сети для машинного обучения была использована предобученная модель BERT «bert-base-multilingual-cased» [8], а для её дообучения использовались заранее размеченные текстовые данные из корпуса русскоязычных постов RuSentiment dataset for sentiment analysis of Russian social media [5].

На выходе получается тональный словарь, который представляет из себя набор слов или биграмм, которым задаётся определённый вес принадлежности к позитивному, негативному или нейтральному классу. После векторизации сообщений, каждое слово сообщения ищется в тональном словаре, и его вес записывается. Затем, после получения всех весов, высчитывается принадлежность данного текстового сообщения к определённому классу тональности. Таким образом каждому сообщению из набора присваивается тональность. Исходный набор данных дополняется двумя столбцами: predictedlabel -тональность в виде метки иpredicted_name - интерпретированная метка тональности.

Этап 3 - выделение тематик текстовых сообщений. Прежде чем применялась библиотека BigARTM проводилась предобработка каждого сообщения - токенизация, удаление знаков препинания, приведение к нижнему регистру, лемматизация, удаление стоп слов и преобразование в Уомра1 ШаЪЪИ формат с которым работает рассматриваемая библиотека. Исходный набор данных дополняется столбцом устра1^аЪЪИ с результатами преобразований, а также формируется основной словарь.

После всех необходимых преобразований BigARTM выделяет основные значимые слова по тематикам, и присваивает каждому сообщению подходящую тематику. В векторах тематик сообщений тематика включается в результирующий вектор при наибольшей значимости. Исходный набор данных дополняется двумя столбцами: Ъigartm -идентификационный номер тематики и Ъigartm_topics - интерпретация идентификационного номера тематики.

На рис. 6 выведен результат обработки библиотекой BigARTM набора текстовых сообщений и распределения основных значимых слов по тематикам.

Q: ['случай', 'выздороветь', 'начало', 'умереть', 'обследовать', 'коронавирусный', 'зарегистрировать', 'вызов', 'экстренный', 'зафиксировать']

1: ['память', 'светлый', 'работодатель', 'час', 'царствие', 'ноябрь', 'небесный', 'пусть', 'опасность', 'ноль']

2: ['поликлиника', 'приехать', 'кашель', 'короновирус', 'вакцинация', 'звонить', 'регистратура', 'вызвать', 'сходить', 'оме']

3: ['головоломка', 'стена", 'выход', 'снять', 'показать', 'отопление', 'репостите', 'the', 'обнаружить', 'video']

4: ['беглов', 'действительно', 'тотальный', 'реальный', 'опасаться", 'дополнение', 'нефть', 'привлекаться', 'запрет', 'Госдума']

5: ['фильм', 'подборка', 'держаться', 'карантинец', 'ти', 'храм', 'варсонофий', 'ладожский', 'страх', 'обеспечивать']

6: ['гарри', 'дик', 'мозг1, 'содержать1, 'правильно', 'гепатит', 'рнк1, 'мировой', 'пятёрочка', 'вич']

7: ['согласный', 'бессимптомный', 'карта', 'инвалид', 'мвф', 'отменить', 'удалить', 'льгота', 'ресурс', 'таки']

8: ['умирать', 'рецепт', 'сосна', 'капля', 'дышать', 'сода', 'паром', 'пищевой', 'лечить', 'антиковидный']

9: ['здравствуйте', 'объявить', 'подробный', 'дело', 'получение', 'заявка', 'спрогнозировать', 'dm', 'frfr', 'грант']

Рис. 6. Распределение основных значимых слов по тематикам

На рис. 7 показан срез CSV файла после всех необходимых шагов подготовки данных, применённых к исходному корпусу текстовых сообщений.

2 3 4 5 б 7 8

1 datetime author гер!у_1:о text predicted_l abel predicted_n aire vowpal_wabb it bigartm Ь±даг^_1ор1сэ

28.05.2020 19:52 -174620792 Коронавир ус. Оперштаб ПртргЯчпг 1 neutral Itext коронавиру с 9 ['здравствуйте', 'объявить', 'подробный', 'дело', 'получение', 'заявка', 'спрогнозировать', 'йт'.

28.05.2020 19:56 12590355 -174620792 Что с непродово льственны neutral Itext непродовол ьственный 0 ['случай', 'выздороветь', 'начало', 'умереть', "обследовать', 'коронавирусный', 'зарегистрировать',

4 29.05.2020 13:53 598302534 12590355 Названы способы не 1 neutral Itext назвать способ 9 ['здравствуйте', "объявить", 'подробный', "дело", "получение", "заявка", "спрогнозировать", "йт".

5 08.Q8.2020 13:39 440034490 5983Э2534 Названы противопо казания 1 neutral Itext назвать противопок 7 ['согласный', "бессимптомный", "карта", 'инвалид', 'мвф', 'отменить', 'удалить', 'льгота', "ресурс", 'таки']

6 28.Q8.2020 14:57 599097287 440034490 4 829 новых случаев 1 neutral Itext новый случай 9 ['здравствуйте', "объявить", "подробный", "дело", "получение", "заявка", "спрогнозировать", "йт".

7 28.05.2020 20:05 731112 -174620792 Что с фитнес клубами? 1 neutral Itext фитнес клуб 5 ["фильм", "подборка", 'держаться', 'карантинец', 'дистанционный', 'храм', 'варсонофий', 'ладожский', 'страх'.

8 1В.11.2020 07:14 236051417 СтатистикГ а коронавир 1 neutral Itext статистик а 2 ["поликлиника", "приехать", 'кашель", "короновирус", 'звонить', 'вакцинация', 'регистратура', 'вызвать1, 'сходить',

9 11.11.2020 07:00 609971731 Обновлена статистик 1 neutral Itext обновить статистик 2 ["поликлиника", "приехать", 'кашель", "короновирус", 'звонить', 'вакцинация', 'регистратура', 'вызвать', 'сходить',

10 28.Q5.2020 20:46 939852 -17462Э792 что с поликлиника ми? 1 neutral Itext поликлиника 9 ['здравствуйте', "объявить", "подробный", "дело", "получение", "заявка", "спрогнозировать", "йпГ,

11 29.05.2020 01:04 29575530 пока ничего 1 neutral Itext пока 0 ['случай', 'выздороветь', 'начало', 'умереть', 'обследовать',

Рис. 7. Срез обработанных данных

Этап 4 - построение знаковых графов. Из полученных данных для каждой тематики строится матрица связей между пользователями. Названия колонок и строк соответствуют идентификационным номерам пользователей ВКонтакте. Отрицательный идентификационный номер обозначает группу от имени которой размещались сообщения.

На рис. 8 приведена визуализация построенного знакового графа для конкретной тематической группы, где красным обозначены ребра антипатии, синим симпатии и серым нейтральные. Вершины графа обозначены и соответствуют идентификационным номерам пользователей. Внизу изображения выведены основные данные по графу - это количество вершин, рёбер, а также мощность 4-х вершин. Под мощностью вершины здесь понимается количество связей с другими пользователями.

Этап 5 - выделение максимальных сбалансированных подграфов. На этом этапе выделяются максимально сбалансированные подграфы при помощи алгоритма Timbal, который был рассмотрен в предыдущем разделе.

На рис. 9 показаны интерпретируемые результаты выделения максимальных сбалансированных подграфов из исходного графа, изображённого на рис. 9 а, для первого топика. На рис. 9 б показан первый подграф и очевидно, что максимально активным участником беседы является пользователь с идентификатором 3657242, но с ним, в основном другие участники беседы не согласны (ребро красного цвета). Далее первый подграф удаляется из основного графа, см. рис. 9 в, и выделяется следующий максимально сбалансированный подграф - второй, см. рис. 9 г. На втором подграфе сильно выделяется пользователь с идентификатором 174620792 - это группа, от имени которой размещаются сообщения на стене. У него соответственно больше всего связей с остальными пользователями, что логично.

Рис. 8. Визуализация построенного знакового графа

а)

Topics: ('случай*, выздороветь', начало', умереть', обследовать", коромавирусныи'. 'зарегистрировать', 'вызов', зафиксировать', экстренный']

тШш

у,^ пИЦТ"1"* г -_ , --— — пжшп

V

б)

У ^tlttv,

„.¿f»' . V\ - лет«.

_ / Г-

• ;

iirtlti

"•Ч1" I

я**»-»

...♦.«'•. ...-.»и»»- '' __'uakiu

lOTffrrtf l' to*>|i

nrftajj

{'vertices 147. edges 146. max_pow verticies' {'66775604' 2. '3214061' 2. 7944447 2. -174620792' 93))

в)

г)

Рис. 9. Выделение максимальных сбалансированных подграфов: а) исходный знаковый граф; б) выделенный максимальный сбалансированный подграф на первой итерации; в) знаковый граф после удаления первого выделенного подграфа; г) выделенный максимальный

сбалансированный подграф на второй итерации

Этап 6 - визуализация полученных данных. Примеры визуализации полученных данных были уже приведены на рис. 7 и рис. 9. Для полноты картины можно ещё выводить данные в виде текстового результата для дальнейшего использования, пример текстового результата при первом проходе цикла алгоритма показан на рис. 10, где в колонке source_graph выводятся основные параметры обрабатываемого графа, а в колонке тах_Ьа1апсеё_§ггарк выводятся основные параметры выделенного максимального сбалансированного подграфа.

topics source_graph max.balanceci.graph 1

['случай', 'выздороветь', 'начало", "упереть", "обследовать", 2 'коронавирусный', 1 зарегистрировать", вызов', ('зафиксировать', 'экстренный'] -[ " 8492946 " : "-174620792' 152, "edges": 162 , "13068711': 3, 97» 3657142": 4,

['память', 'светлый', "работодатель", 'час', 'царствие', 3 'ноябрь', "небесный", 'пусть', опасность', ноль'] -[■4573898' : '-174628792' 72, 'edges': 65, , '437626259': 1, 52» '14273469': 1, 'max.poiv.verticies' : -['8588129': 0, '88210780': Q,

['поликлиника', 'приехать', 'кашель', 'короновирус Н" звонить', "вакцинация", 'регистратура', 'вызвать' И'оис"]_ ■[•88218780' : "-174628792" 96, 'edges": 84, 2, '4573896': 2, 54» 141335863': 3, 'max.poiv.verticies ': {'524721562'; 0, '66775604': 0, _ '7306185': 8, '-174620792': 11»_

Н головоломка , стена , выход , снять , показа! -["283654289' '-1746207921 77, 'edges': 67, 1, '455188157': 38» , '3657142': 2, 'max.poiv.verticies': -['97663530': 0, '275519084': 1, '298449422': 1, "-174620792': 10»

['беглов', 'действительно', 'тотальный', 'реальный 6 "опасаться', 'дополнение', 'нефть г "привлекаться Н"Госдума'] '1 запрет1, -["3657142" : '-174628792' 48, 'edges': 43, , "387184857': 1, 28» ■1435235": 1, 'max.poiv.verticies ' : -['3657142': 8, '437626259': 0,

['фильм', "подборка", "держаться", 1карантинец", ■ 'дистанционный', 'храм', ' варсонофий', 'ладожский' Д'обеспечивать']_ ■['437026259' "-174628792" 77, 'edges': 70, 2, '-193083391': 39» 3, '66775604': 4, 'max.poiv.verticies': {'594082774'; 0, '69277531': 0,

гепатит , к'455188157' ■-174620792' 66, 'edges': 52, 1, '589978879': 31» , '2925988': 2, 'max.poiv.verticies': {'55785659': 0, '8588129': 0, '395685596': 1, '-174620792': 9»

Н ['согласный', 'бессимптомный', 'карта", 'инвалид', МВФ", ■['vertices' : -['7944447' : '-174628792' 81, 'edges': 73, , '275519084': 2, 47»_ max.pow.verticies': {'balanced': True, 'vertices': 15, 'edges': 14, •8492946': 2, 'max.poiv.verticies' : {'482364': Э, '586760582': Q,

['умирать', "рецепт", "сосна", "лечить", 'капля'. дышать', {"140377879" '-174628792' 67, 'edges': 55, 1, '141335863': 31» , "556683159': 2, 'max.poiv.verticies': {'585065609'; 0, '66775604': 0,

['здравствуйте', 'объявить', 'подробный', 'дело'. получение' -i'1859781' : 73, 'edges': 64, , "437626259": 2, '1811539': 2, 'max.poiv.verticies': {'180427458': 0, '40814462': 0,

Рис. 10. Итоговые данные первого цикла в текстовом формате

Выводы

В работе был предложен метод выделения семантически согласованных групп пользователей социальных медиа-платформ, состоящий из шести этапов.

При этом на втором этапе проведена экспериментальная оценка эффективности библиотек оценки тональностей BoW, Word2Vec, FastText, BERT по критерию F1 - меры. Результаты представлены в табл. 1.

При формировании третьего этапа проведена экспериментальная оценка эффективности библиотек тематической классификации LDA, PLSA, ARTM по критериям перплексии и разреженности матриц. Результаты представлены в табл. 2.

Рассмотрен принцип работы алгоритма выделения максимальных сбалансированных подграфов применительно к анализу знаковых графов социальных сетей.

Предложенный метод был апробирован на группе ВКонтакте «Санкт-Петербург | Коронавирус I COVID-19».

Экспериментальная оценка показала возможность выявления поляризованных групп в онлайн-дебатах, что позволит применять его в разных социальных медиа-платформах для дальнейшего анализа структуры и взаимодействия в группе.

Литература

1. 70% сведений о вреде прививок в мире распространяют 12 человек // Коммерсантъ [Электронный ресурс]. URL: https://news.mail.ru/society/49718901/ (дата обращения: 15.12.2021).

2. "Синий кит": почему ужесточение закона не останавливает "группы смерти" // РИА-Новости [Электронный ресурс]. URL: https://ria.ru/20200620/1573186152.html (дата обращения: 15.12.2021).

3. Введение в Social Mining / Технологии анализа данных [Электронный ресурс]. URL: https://basegroup.ru/community/articles/introduction-social-mining (дата обращения: 11.12.2021).

4. Almgren K., Kim M. and Lee J. Mining Social Media Data Using Topological Data Analysis. 2017 IEEE International Conference on Information Reuse and Integration (IRI), 2017, pp. 144-153, doi: 10.1109/IRI.2017.41.

5. Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. RuSentiment: An Enriched Sentiment Analysis Dataset for Social Media in Russian [Электронный ресурс]. URL: https://text-machine.cs.uml.edu/projects/rusentiment/ (дата обращения: 15.12.2021).

6. Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы, 2020, № 4, с. 20-30. doi:10.31799/1684-8853-2020-4-20-30.

7. BERT (языковая модель) / Университет ИТМО [Электронный ресурс]. URL: https://neerc.ifmo.ru/wiki/index.php?title=BERT_(языковая_модель) (дата обращения: 09.12.2021).

8. bert-base-multilingual-cased. Hugging Face [Электронный ресурс]. URL: https://huggingface.co/bert-base-multilingual-cased (дата обращения: 15.12.2021).

9. Воронцов К.В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM / Воронцов К.В. - 2021 - URL: http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf (дата обращения: 06.04.2021).

10. BigARTM's documentation. BigARTM [Электронный ресурс]. URL: https://bigartm.readthedocs.io/en/stable/ (дата обращения: 06.04.2021).

11. Алексеров Ф.Т. Бинарные отношения, графы и коллективные решения / Алексеров Ф.Т., Хабина Э.Л., Шварц Д.А. - Москва: Издательский дом ГУ ВШЭ, 2005. 300 с.

12. Finding large balanced subgraphs in signed networks / Bruno Ordozgoiti [Электронный ресурс]. URL: https://arxiv.org/pdf/2002.00775.pdf (дата обращения: 27.09.2021).

13. Лебедев Д. В. Исследование и выбор алгоритма выделения максимального сбалансированного подграфа в знаковом графе / Университет ИТМО [Электронный ресурс]. URL: https://isu.ifmo.ru/pls/apex/f?p=2147:0:100291208052263:DWNLD_F:NO::FILE:16F0E9B563C62BFE586A84 A1C5C1F4F6 (дата обращения: 10.12.2021).

14. IGraph in Python Documentation. IGraph [Электронный ресурс]. URL: https://igraph.org/python/tfdocs (дата обращения: 13.12.2021).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. Группа ВКонтакте «Санкт-Петербург | Коронавирус | COVID-19» / ВКонтакте [Электронный ресурс]. URL: https://vk.com/public174620792 (дата обращения: 09.10.2021).

16. API ВКонтакте версия 5.131 / ВКонтакте [Электронный ресурс]. URL: https://dev.vk.com/reference/version/5.131 (дата обращения: 10.12.2021).

References

1. 70% svedenii o vredeprviviok v mire rasprostranyaut 12 chelovek. Kommersant [Electronic resource]. URL: https://news.mail.ru/society/49718901/ (access date: 15.12.2021) (in Russian).

2. "Siniy kit": pochemu ujestochebie zakona ne ostanavlivaet "gruppy smerti". RIA-Novosti [Electronic resource]. URL: https://ria.ru/20200620/1573186152.html (access date: 15.12.2021) (in Russian).

3. Vvedenie v Social Mining. Tehnologii analiza dannyh [Electronic resource]. URL: https://basegroup.ru/community/articles/introduction-social-mining (access date: 11.12.2021) (in Russian).

4. Almgren K., Kim M. and Lee J. Mining Social Media Data Using Topological Data Analysis. 2017 IEEE International Conference on Information Reuse and Integration (IRI), 2017, pp. 144-153, doi: 10.1109/IRI.2017.41.

5. Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. RuSentiment: An Enriched Sentiment Analysis Dataset for Social Media in Russian [Electronic resource]. URL: https://text-machine.cs.uml.edu/projects/rusentiment/ (access date: 15.12.2021).

6. Dvoynikova A.A, Karpov A.A. Analiticheskiy obzor podhodov k raspoznavaniu tonalnosti russkoyazychnyh tekstovyh dannyh. Inforacionno-upravlaushie sistemy, 2020, № 4, с. 20-30. doi:10.31799/1684-8853-2020-4-20-30 (in Russian).

7. BERT (language model). ITMO University [Electronic resource]. URL: https://neerc.ifmo.ru/wiki/index.php?title=BERT_(языковая_модель) (access date: 09.12.2021) (in Russian).

8. bert-base-multilingual-cased. Hugging Face [Electronic resource]. URL: https://huggingface.co/bert-base-multilingual-cased (access date: 15.12.2021).

9. Voroncov K.V. Veroyatnostnoe tematicheskoe modelirovanie: teoriya, modeli, algoritmy i project BigARTM. Voroncov K.V. 2021. URL: http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf (access date: 06.04.2021) (in Russian).

10. BigARTM's documentation. BigARTM [Electronic resource]. URL: https://bigartm.readthedocs.io/en/stable/ (access date: 06.04.2021).

11. Alexerov F.T. Binarnye otnosheniya, grafy i kollectivnye resheniya. Alexerov F.T., Habina E.L., Schwartz D.A. - Moscow: Ph GU VSE, 2005. - 300 с. (in Russian).

12. Finding large balanced subgraphs in signed networks. Bruno Ordozgoiti [Electronic resource]. URL: https://arxiv.org/pdf/2002.00775.pdf (access date: 27.09.2021).

13. Lebedev D.V. Issledovanie i vybor algoritma vydeleniya maximalnogo sbalansirovannogo podgrafa v zakovom grafe. ITMO University [Electronic resource]. URL: https://isu.ifmo.ru/pls/apex/f?p=2147:0:100291208052263:DWNLD_F:N0::FILE:16F0E9B563C62BFE586A84 A1C5C1F4F6 (access date: 10.12.2021) (in Russian).

14. IGraph in Python Documentation. IGraph [Electronic resource]. URL: https://igraph.org/python/#docs (access date: 13.12.2021).

15. Group VK «Sankt-Peterburg | Coronavirus | COVID-19» / VKontakte [Electronic resource]. URL: https://vk.com/public174620792 (access date: 09.10.2021) (in Russian).

16. API VK version 5.131. VKontakte [Electronic resource]. URL: https://dev.vk.com/reference/version/5.131 (access date: 10.12.2021) (in Russian).

Статья поступила 12 октября 2021 г.

Информация об авторах

Лебедев Дмитрий Владимирович - Инженер 1 категории ПАО «Интелтех». Тел.: +7 (812) 295-50-69. E-mail: [email protected].

Васильев Николай Владимирович - Кандидат технических наук. Начальник сектора ПАО «Интелтех». Тел.: +7 (812) 295-50-69. E-mail: [email protected].

Адрес: 197342, г. Санкт-Петербург, Кантемировская ул., д. 8.

Method for identifying semantically consistent groups of users of social media platforms

D.V. Lebedev, N.V. Vasiliev

Annotation. Social media platforms (social networks, instant messengers) have become one of the most important infocommunication means of modern man. Along with providing instant user interaction, social media platforms can be a tool for hybrid warfare. Due to the large audience coverage and weak content control, social media platforms are convenient for disseminating ideas related to the destabilization of the socio-political situation. In addition, interaction between international terrorist organizations and the spread of drugs is often carried out through social media platforms. Do not forget about such a depressing phenomenon as children's and adolescent "death groups" that spread suicidal ideas. Social media platforms can also be used to organize leaks of information important to the company, as well as to undermine its reputation. Such an attack can be carried out by internal employees of the company who are dissatisfied with the management, or specially embedded insiders. The purpose of this study is to develop a methodfor identifying semantically consistent groups of users of social media platforms based on the analysis of the messages they publish. To achieve this goal, the following scientific tasks are solved in the work: the formation of a data processing scheme, the choice of a method for assessing the sentiment of text messages, the choice of a method for identifying the subject of short text messages, modeling the user dialogue on a given subject with sign graphs, and identifying a semantically consistent group of users. The work uses the scientific and methodological apparatus of natural language processing, discrete mathematics, graph theory, machine learning. The scientific novelty of the method proposed in the work is to provide a joint interpretation of data on the interactions of users of social media platforms and an assessment of the meaning of the published messages, which makes it possible to increase the accuracy of identifying the scheme of real contacts. The practical significance of the developed method lies in the possibility of its application in specialized complexes for monitoring open sources of information, which have become part of modern automated systems.

Keywords: social networks, instant messengers, semantically consistent groups selection method, assessment of the sentiment of text messages, identification of topics for short text messages, sign graphs.

Information about Authors

Dmitriy Vladimirovich Lebedev - Engineer of PJSC «Inteltech». Tel: +7 (812) 295-50-69. E-mail: [email protected].

Nikolay Vladimirovich Vasiliev - PhD. Sector leader of PJSC «Inteltech». Tel: +7 (812) 295-50-69. E-mail: [email protected].

Address: Russia, 197342, Saint-Petersburg, Kantemirovskaya street 8.

Для цитирования: Лебедев Д.В., Васильев Н.В. Метод выделения семантически согласованных групп пользователей социальных медиа-платформ // Техника средств связи. 2021. № 4 (156). С. 20-33.

For citation: Lebedev D.V., Vasiliev N.V. Method for identifying semantically consistent groups of users of social media platforms. Means of communication equipment. 2021. No 4 (156). Pp. 20-33 (in Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.