Научная статья на тему 'ОБНАРУЖЕНИЕ ИНТЕРНЕТ-БОТА ПО СТРУКТУРНО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ЭЛЕКТРОННОГО СООБЩЕНИЯ'

ОБНАРУЖЕНИЕ ИНТЕРНЕТ-БОТА ПО СТРУКТУРНО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ЭЛЕКТРОННОГО СООБЩЕНИЯ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
86
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНЫЙ ИНТЕРНЕТ-БОТ / ЭЛЕКТРОННОЕ СООБЩЕНИЕ БОТА / СТРУКТУРНО-ВЕРОЯТ-НОСТНАЯ МОДЕЛЬ ЭЛЕКТРОННОГО СООБЩЕНИЯ / ОБНАРУЖЕНИЕ ИНТЕРНЕТ-БОТА

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Логинова Алина Олеговна

В данной статье приведены результаты сравнительного лингвистического анализа электронных сообщений социальных интернет-ботов в социальной сети Twitter и других текстов, публикуемых в сети Интернет; выявлены демаскирующие признаки электронных сообщений, генерируемых ботами; разработана структурно-вероятностная модель сообщения бота; предложена концепция обнаружения интернет-бота по лингвистическим характеристикам генерируемых им электронных сообщений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Логинова Алина Олеговна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTING INTERNET BOT BY A STRUCTURAL PROBABILISTIC MODEL OF ITS ELECTRONIC MESSAGE

This article promotes the results of comparative linguistic analysis of electronic messages of social Internet bots on the social network Twitter and other texts published on the Internet social media; provides features of electronic messages generated by bots; presents a structural-probabilistic model of a bot message; suggests the concept of detecting an Internet bot by the linguistic characteristics of its electronic.

Текст научной работы на тему «ОБНАРУЖЕНИЕ ИНТЕРНЕТ-БОТА ПО СТРУКТУРНО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ЭЛЕКТРОННОГО СООБЩЕНИЯ»

А. О. Логинова

ОБНАРУЖЕНИЕ ИНТЕРНЕТ-БОТА ПО СТРУКТУРНО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ЭЛЕКТРОННОГО СООБЩЕНИЯ

DETECTING INTERNET BOT BY A STRUCTURAL PROBABILISTIC MODEL OF ITS ELECTRONIC MESSAGE

В данной статье приведены результаты сравнительного лингвистического анализа электронных сообщений социальных интернет-ботов в социальной сети Twitter и других текстов, публикуемых в сети Интернет; выявлены демаскирующие признаки электронных сообщений, генерируемых ботами; разработана структурно-вероятностная модель сообщения бота; предложена концепция обнаружения интернет-бота по лингвистическим характеристикам генерируемых им электронных сообщений.

This article promotes the results of comparative linguistic analysis of electronic messages of social Internet bots on the social network Twitter and other texts published on the Internet social media; provides features of electronic messages generated by bots; presents a structural-probabilistic model of a bot message; suggests the concept of detecting an Internet bot by the linguistic characteristics of its electronic.

Статья подготовлена при поддержке Министерства науки и высшего образования Российской Федерации в рамках выполнения государственного задания в сфере науки № FSFU-2020-0020.

Введение. Сегодня практика информационного воздействия приобретает новое значение. Эксперты отмечают глобальные изменения в методах ведения боевых действий в целом: основные действия разворачиваются в киберпространстве, подчёркивается роль дезинформации в конфликте [1].

В данной статье социальные интернет-боты рассматриваются как один из инструментов дезинформации, дискредитации соперников политической гонки или конфликта. В результате их работы смещаются смысловые и идеологические акценты, тем самым создаются угрозы киберустойчивости и цифровому суверенитету государства.

Актуальность решения задачи обнаружения интернет-бота как автоматизированного социального актора обусловлена, в частности, потребностью разработки государственной системы защиты информации, о чём президент России Владимир Путин заявил на заседании Совета безопасности РФ 20 мая 2022 г. [2]

Материалом для исследования послужили тексты англоязычных информационных источников, освещавших ход президентской гонки между Хиллари Клинтон и Дональдом Трампом, проходившей в США с 16 июня 2015 г. по 8 ноября 2016 г.

Такой выбор материала для исследования был обусловлен рядом аргументов:

- для продвижения своей избирательной кампании в качестве основного канала связи с электоратом штабы участников президентской гонки использовали интернет-средства массовой коммуникации [3, 4];

- на сегодняшний день в открытых источниках находится достаточно большой объём текстовой информации, относящийся к периоду президентской гонки в США 2015—2016 годов, который может быть использован для анализа;

- существуют неопровержимые доказательства того, что во время президентской гонки в США 2015—2016 годов для реализации политической пропаганды использовались интернет-боты [5, 6].

Материалы для исследования организованы в четыре корпуса текстов на естественном языке (английский), состоящие из:

- 10 текстов стенограмм предвыборных дебатов, отдельных интервью и выступлений Хиллари Клинтон и Дональда Трампа: 70 305 слов, 383 822 знаков с пробелами (далее — Корпус I);

- 37 текстов статей интернет-изданий: 45 464 слов, 303 240 знаков с пробелами (далее — Корпус II);

- более 1 000 текстов постов Дональда Трампа в социальной сети Twitter: 62 261 слов, 448 289 знаков с пробелами (далее — Корпус III);

- более 100 текстов постов социальных ботов, релевантных теме предвыборной гонки и относящихся к периоду с 16 июня 2015 г. по 8 ноября 2016 г.: 2 562 слов, 23 007 знаков с пробелами (далее — Корпус IV).

Все исследуемые корпусы составлены из текстовых данных, взятых из открытых источников.

Объём корпусов текстов является крайне малым; для сравнения: корпус текстов объёмом 400 000 словоупотреблений считается небольшим для формирования частотного словаря [7]. Использование корпусов текстов такого объёма в рамках данного исследование мотивировано их ограниченной тематикой (предвыборная гонка кандидатов в президенты), также отсутствием задачи составления словаря политического дискурса.

Корпус I состоит из текстов предвыборных дебатов, интервью и монологов.

Отбор текстов, составивших Корпус II, Корпус III, Корпус IV, происходил по следующим критериям:

- текст статьи интернет-издания или поста опубликован в течение недели после публикации стенограммы одного из выступлений (Корпус I);

- тема статьи интернет-издания или поста в Twitter близка к теме, затронутой в одном из публичных выступлений кандидата в президенты (Корпус I).

В Корпус II вошли тексты статей форумов или интернет-изданий, опубликованные после выступлений участников президентской гонки. Такие тексты содержат комментарии, оценку действий оппонентов, предположения о дальнейшем развитии событий, сопоставление масштабов президентских кампаний и другую информацию.

В связи с тем, что с 9 января 2021 г. официальный аккаунт в социальной сети действующего на тот момент президента США Дональда Трампа заблокирован владельцами социальной сети Twitter [8], корпус текстов постов Дональда Трампа (Корпус III), составлен из постов, имеющихся в «архиве Интернета» [9].

Корпус IV составлен из сообщений пользователей социальной сети Twitter, которые были идентифицированы исследователями как аккаунты, используемые ботами.

Корпуса текстов, подготовленные для анализа, представляют собой неразрывное полотно текстовых данных: отсутствуют знаки абзаца и табуляции.

Лингвистический анализ электронных текстовых сообщений интернет-ботов. Существует достаточно большое количество подходов к обнаружению интернет-ботов [10]. В данной статье представлена качественно новая концепция обнаруже-

ния активности бота по структурно-вероятностной модели генерируемых им электронных сообщений.

Решение задачи построения структурно-вероятностной модели представления электронных сообщений социальных ботов основывается на результатах количественного и статистического лингвистического анализа. Лингвистический анализ в данном исследовании представлен несколькими уровнями. Каждый уровень анализа отличается набором токенов (табл. 1).

Проведение количественного анализа на всех уровнях в данной работе осуществляется посредством утилит программы PolyAnalyst [11], программного обеспечения для анализа структурированных и неструктурированных данных. Данное программное обеспечение, разработанное компанией Megaputer, представляет широкий спектр утилит для текстовой аналитики.

Значения параметров вычисляются посредством программного обеспечения PolyAnalyst путём добавления узлов в скрипт и выполнения цепочек этих узлов. Узел в данном программном продукте — отдельное действие по обработке данных, например, идентификация языков, на которых составлены тексты корпуса, подвергающегося анализу. Узел также содержит результаты выполнения над корпусом представляемого им действия. Полное описание процедуры составления цепочек узлов представлено в руководстве пользователя PolyAnalyst [11].

Фрагмент данных количественного анализа Корпусов I—IV, полученных в результате эксперимента, представлен в таблице 1. Результаты количественного анализа, не являющиеся показательными, в таблице 1 отсутствуют.

Таблица 1 Фрагмент данных количественного анализа Корпусов ИУ

Уровень анализа Наименование токена количество заданных токенов, ед.

Корпус I Корпус II Корпус III Корпус IV

Графематический уровень Графема-тический уровень Среднее количество слов в предложении 14,16 25,49 19,6 16,6

Лексический уровень Общее число слов 69 171 49 341 62 561 2 562

Аббревиатуры 1 3 5 50

Символы без пробелов 314 385 253 564 357 528 20 353

Символов, включая пробелы 383 822 303 240 448 289 23 007

Заглавные буквы A 1262 726 1411 222

B 522 532 420 99

C 550 1374 876 141

D 301 405 3053 91

E 110 242 716 119

F 165 284 378 102

G 128 215 585 111

H 417 474 597 194

I 2533 740 859 117

J 108 189 1565 43

K 52 103 1267 34

L 207 174 920 112

M 416 566 1551 127

N 330 370 931 135

0 299 377 605 152

Р 265 363 505 186

8 14 25 26

я 211 394 1834 150

8 1067 851 899 163

Т 1112 1016 4477 383

и 108 175 329 146

V 50 54 372 88

W 947 421 509 81

X 2 4 41 26

У 281 81 198 51

ъ 0 4 26 29

Буквенные символы (Ла-Ъъ) Ла 24959 20242 14869 1409

ВЬ 5196 3477 2081 262

Сс 7828 8516 3850 669

Ба 11001 9315 9571 478

Ее 36007 28907 20540 1570

Ff 4989 4858 1925 260

Ой 6550 4771 3272 308

ИИ 14913 11010 5292 771

п 21298 18398 10069 1136

л 630 379 1937 95

Кк 2708 1686 3789 214

Ь1 12255 10538 11354 969

Мш 6989 6864 7656 643

Nn 21115 18534 11240 991

0о 24365 18182 13196 1216

Рр 5556 5710 6649 764

324 198 67 54

Яг 17038 15148 14749 1297

17856 16161 8458 995

тг 29053 22206 16203 1744

Ии 9519 6259 6962 589

Vv 3508 2507 1854 263

Ww 7301 4022 4264 270

Хх 442 421 229 72

Уу 7160 3990 3353 356

Ъъ 162 198 309 74

Специальные символы ([]@#$%*&ашр;*()=+{}&аро8;&11; 3036 2837 8995 1098

Специальные символы ([] @#$%*&ашр;*()=+{ }&аро8;&1г;7я1;/|~') [] 55 19 0 0

@ 13 13 3389 246

# 1 4 962 559

$ 108 49 40 12

% 61 32 61 3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

&ашр; 0 0 0 0

* 121 718 658 42

() 17 71 89 2

= 0 0 19 0

/ 11 46 2337 146

1 121 718 661 42

~ 0 0 3 0

2526 1166 583 39

& 2 0 190 7

Сущности, из них: 551 802 764 163

юридические лица: 211 463 205 21

представители 134 329 158 17

компании 17 34 15 1

организации 60 100 32 3

локации (места размещения, нахождения и др.): 127 122 200 14

административные единицы 112 114 181 13

формы рельефа 2 3 2 0

объекты 13 5 17 1

контактные данные: 3 11 213 123

почтовый адрес 1 0 0 0

интернет-адрес 2 8 213 122

адрес электронной почты 0 3 0 0

телефонный номер 0 0 0 1

дата 110 140 117 5

обозначение количества: 100 66 29 0

валюта 54 39 6 0

единица измерения 46 27 23 0

идентификатор 0 0 0 0

Темы, освещаемые в текстах по 31 28 71 4

значимости:

Л к экономика 13 7 3 0

« о политика 10 13 23 4

а право 3 2 0 0

« о <и военное дело 2 0 2 0

административные вопросы 1 1 1 0

искусство 1 1 32 0

н о « ч а медицина 0 1 0 0

компьютерные науки (технологии) 0 2 2 0

¿3 телекоммуникации 1 1 1 0

игра 0 0 3 0

спорт 0 0 4 0

Расчёт относительной частоты встречаемости токенов производится по формуле (1):

а

о=~, (1)

где о — относительная частота; а — количество заданных токенов; А — общее количество токенов.

Представим в графическом виде полученное распределение относительной частоты встречаемости букв латинского алфавита для Корпусов I—IV и действительной частоты использования букв в английском алфавите (рис. 1). Для удобства записи используем процентное представление значений частоты.

Рис. 1. Распределение частоты встречаемости букв латинского алфавита

На рисунке 1 видно, что полученные графики представляют собой проекции друг друга. Это подтверждает гипотезу о том, что анализируемые корпуса текстов имеют необходимый и достаточный размер для составления общей структурно -вероятностной модели электронного сообщения социального интернет-бота.

Далее в графическом виде представим распределение относительной частоты токенов разных уровней анализа, которая принимала максимальные значение в Корпусе IV (рис. 2—5).

Лексический анализ. Относительная частота заглавных букв

2,00% 1,50%

'Корпус I Корпус II -Ф- Корпус III Корпус IV

Рис. 2. Распределение относительной частоты встречаемости заглавных букв

латинского алфавита

Рис. 3. Распределение относительной частоты встречаемости специальных символов

Лексический анализ. Относительная частота упоминания сущностей

'Корпус I ^^^ Корпус II Корпус III Корпус IV

Рис. 4. Распределение относительной частоты упоминания сущностей

Стилистический анализ. Значимость (относительная частота упоминания) тем

120%

Рис. 5. Распределение относительной частоты употребления слов, принадлежащих различным темам

В таблице 2 представлены результаты сравнительного синтаксического анализа Корпусов I—III с Корпусом IV: в каждом корпусе посредством скрипта [12] выявляются словосочетания длиной от трёх до пяти слов. Значение доли совпадений множеств словосочетаний корпусов при заданной длине словосочетания является результатом анализа.

Поиск словосочетаний длиной в 2 слова нецелесообразен в данном исследовании, поскольку словосочетания такой длины характерны для английского языка и количество их совпадений нельзя считать признаком совпадения контента корпусов.

Таблица 2 Результаты синтаксического анализа корпусов текста

Доля совпадений множеств словосочетаний при заданной длине словосочетаний Корпус 4. Сообщения социальных ботов в Twitter

3 слова 4 слова 5 слов

Корпус I. Дебаты и тексты предвыборных выступлений 20% 4,04% 0,65%

Корпус II. Статьи в интернет-изданиях 9,11% 1,86% 0,73%

Корпус III. Тексы постов Д. Трампа в Twitter 25,97% 10,90% 4,44%

Корпус IV. Сообщения социальных ботов в Twitter -

Графическое представление отличий в распределении относительных частот то-кенов Корпуса IV, а также результаты синтаксического анализа корпусов позволяют сформировать пул демаскирующих признаков сообщения интернет-бота1.

Опираясь на результаты лингвистического анализа корпусов, представим в общем виде структурно-вероятностную модель электронного сообщения бота в Twitter (рис. 6).

Рис. 6. Структурно-вероятностная модель электронного сообщения интернет-бота

в Twitter

Стоит подчеркнуть, что демаскирующие признаки бота в социальной сети Twitter не будут полностью совпадать с признаками другого интернет-средства массовой коммуникации (далее — интернет-СМК). Это обусловлено тем, что социальные сети имеют различные макеты сообщений. К примеру, используются разные наборы символов для выделения репоста. Так в Twitter пост, скопированный у другого пользователя и перенесённый на свою страницу, будет начинаться с комбинации «RT @ ник пользователя, у которого скопировано сообщение:».

В остальном логика составленной структурно-вероятностной модели справедлива для всех интернет-СМК.

Заключение. В данной статье приведены результаты сравнительного лингвистического анализа электронных сообщений интернет-ботов в социальной сети Twitter на английском языке и текстов других интернет-СМК. На основе данных, полученных в результате эксперимента, была сформирована структурно-вероятностная модель электронного сообщения бота.

Полученная модель может быть заложена в основу качественно новой методики обнаружения интернет-бота по лингвистическим характеристикам генерируемого им сообщения. Применение модели электронного сообщения бота в перспективе позволит сократить объём анализируемых текстовых данных интернет-СМК для обнаружения активности автоматического или автоматизированного социального актора, что в свою очередь сократит временные затраты на сбор информации для проведения анализа.

1 Распределение относительной частоты встречаемости аббревиатур, отмеченной в таблице 1, не представлено в графическом виде, но также является демаскирующим признаком сообщения бота.

ЛИТЕРАТУРА

1. Киберпространство стало новым местом ведения боевых действий — глава Microsoft // SecurityLab.ru. — URL: https://www.securitylab.ru/news/531785 (дата обращения: 24.05.2022).

2. Путин предложил обсудить создание государственной системы защиты информации // ТАСС. — URL: https://tass.ru/politika/14686227 (дата обращения: 21.05.2022).

3. Авзалова Э. И. Интернет-коммуникации в избирательной кампании США // Известия Иркутского государственного университета. Серия : Политология. Религиоведение. — 2017. — Т. 22. — С. 185—194.

4. Почепцов Г. Новая коммуникативная среда выборов и big data [Электронный ресурс]. — URL: https://ms.detector.media/mediaanalitika/post/18419/2017-02-19 (дата обращения: 26.03.2022).

5. 3 times bots have impacted major world events. — URL: https://www.netacea.com/ blog (дата обращения: 26.03.2022).

6. Caldarelli, G., De Nicola, R., Del Vigna, F., Petrocchi, M., Saracco, F. The role of bot squads in the political propaganda on Twitter Published By: Communication PHYSICS — (2020) 3:81. — PP. 1—15. /doi.org/10.1038/s42005-020-0340-4.

7. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) : словарь / О. Н. Ляшевская, С. А. Шаров. — М. : Азбуковник, 2009.

8. Трампа заблокировали в соцсетях. Законно ли это. — URL: https://www.rbc.ru/ technology_and_media/11/01/2021/5ffc13cb9a794777cf0cbb13 (дата обращения: 25.03.2021).

9. Internet Archive. WayBackMachine. — URL: https://web.archive.org/.

10. Логинова А. О. Подходы к обнаружению социальных интернет-ботов // Информация и безопасность. — 2022. — Т. 22. — № 2.

11. Megaputer — your knowledge partner. Date Views 01.03.2022. — URL: www.megaputer.com/ru/polyanalyst/.

12. Горожанов А. И., Гусейнова И. А. Прикладные аспекты анализа и интерпретации текстов (на материале немецкого и русского языков) : монография. — Казань : Бук, 2021. — 208 с.

REFERENCES

1. Kiberprostranstvo stalo novym mestom vedeniya boevyh dejstvij — glava Microsoft // SecurityLab.ru. — URL: https://www.securitylab.ru/news/531785 (data obra-shcheniya: 24.05.2022).

2. Putin predlozhil obsudit' sozdanie gosudarstvennoj sistemy zashchity informacii // TASS. — URL: https://tass.ru/politika/14686227 (data obrashcheniya: 21.05.2022).

3. Avzalova E. I. Internet-kommunikacii v izbiratel'noj kampanii SSHA // Izvestiya Ir-kutskogo gosudarstvennogo universiteta. Seriya : Politologiya. Religiovedenie. — 2017. — T. 22. — S. 185—194.

4. Pochepcov G. Novaya kommunikativnaya sreda vyborov i big data [Elektronnyj resurs]. — URL: https://ms.detector.media/mediaanalitika/post/18419/2017-02-19 (data obrashcheniya: 26.03.2022).

5. 3 times bots have impacted major world events. — URL: https://www.netacea.com/ blog (data obrashcheniya: 26.03.2022).

6. Caldarelli, G., De Nicola, R., Del Vigna, F., Petrocchi, M., Saracco, F. The role of

113

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

bot squads in the political propaganda on Twitter Published By: Communication PHYSICS — (2020) 3:81. — PP. 1—15. /doi.org/10.1038/s42005-020-0340-4.

7. CHastotnyj slovar' sovremennogo russkogo yazyka (na materialah Nacional'nogo korpusa russkogo yazyka) : slovar' / O. N. Lyashevskaya, S. A. SHarov. — M. : Azbukovnik, 2009.

8. Trampa zablokirovali v socsetyah. Zakonno li eto. — URL: https://www.rbc.ru/ technology_and_media/11/01/2021/5ffc13cb9a794777cf0cbb13 (data obrashcheniya: 25.03.2021).

9. Internet Archive. WayBackMachine. — URL: https://web.archive.org/.

10. Loginova A. O. Podhody k obnaruzheniyu social'nyh internet-botov // Informaciya i bezopasnost'. — 2022. — T. 22. — № 2.

11. Megaputer — your knowledge partner. Date Views 01.03.2022. — URL: www.megaputer.com/ru/polyanalyst/.

12. Gorozhanov A. I., Gusejnova I. A. Prikladnye aspekty analiza i interpretacii tekstov (na materiale nemeckogo i russkogo yazykov) : monografiya. — Kazan' : Buk, 2021. — 208 s.

СВЕДЕНИЯ ОБ АВТОРЕ

Логинова Алина Олеговна. Эксперт отдела научного менеджмента и наукометрии. Аспирант кафедры международной информационной безопасности.

Московский государственный лингвистический университет.

E-mail: [email protected].

Россия, 119034, Москва, ул. Остоженка, д. 38, стр. 1. Тел. (499) 255-28-16.

Loginova Alina Olegovna. Expert of the Department of Scientific Management and Scientometrics. Postgraduate student of the chair of International Information Security.

Moscow State Linguistic University.

E-mail: [email protected].

Work address: Russia, 119034, Moscow, Ostozhenka Str., 38/1. Tel. (499) 255-28-16.

Ключевые слова: социальный интернет-бот; электронное сообщение бота; структурно-вероятностная модель электронного сообщения; обнаружение интернет-бота.

Key words: social Internet-bot; electronic message of a bot; structural-probabilistic model of an electronic message; detection of an Internet-bot.

УДК 056+002:004.056

i Надоели баннеры? Вы всегда можете отключить рекламу.