УДК 004.891.3
А. О. Евсеева, Р. И. Гумерова, А. С. Катасёв, А. П. Кирпичников
ИДЕНТИФИКАЦИЯ БОТОВ В СОЦИАЛЬНЫХ СЕТЯХ НА БАЗЕ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Ключевые слова: бот, твит, репост, нейронная сеть, дерево решений, логистическая регрессия.
Данная статья посвящена анализу проблемы распространения ботов в социальных сетях. В работе описываются и сравниваются технологии применения нейронных сетей, дерева решений и логистической регрессии для решения задач фильтрации ботов в социальных сетях. Оцениваются адекватность и эффективность классификации пользователей информационной системы с помощью представленных моделей.
Keywords: boat, tweet, repost, neural network, decision tree, logistic regression.
This article analyzes the problem of the proliferation of bots in social networks. The paper describes and compares the technology of application of neural networks, decision trees, and logistic regression to solve the problems offiltration bots in social networks. Assess the adequacy and effectiveness of the classification of the information system users with the help of the models.
Введение
С каждым годом растет экономическая и социальная значимость социальных сетей. В 2015 году средний россиян проводил 2,5 часа в день за использованием различных социальных сетей, при среднемировой показателе в 2,4. Социальные сети стали площадкой для быстрого и эффективного распространения большого объема информации. Все ведущие компании мира представлены в социальных сетях в виде блогов и рекламы для продвижения товаров и услуг. СМИ публикуют новости в социальных сетях для максимального и быстрого распространения [18].
Информация в социальных сетях распространяется от человека к человеку, пользователь, ознакомившись с постом, выражает свое мнение или делится этой информацией с другими пользователями. Как правило, распространение постов в социальной сети имеет лавинообразный эффект - чем больший отклик он вызвал у пользователей, тем большее распространение. Эту особенность социальных сетей при помощи ботов эксплуатируют для недобросовестного продвижения товаров и услуг, популяризации определенных людей, насаждения точек зрения, пропаганды идей.
Постановка проблемы
Бот (англ. Bot, сокращенно от robot) [1, 19] - это программа, автоматически или автоматизировано выполняющая определенные действия в социальных сетях вместо пользователя-человека. Например, ставить отметки "Мне нравится", делиться информацией в своем блоге, и тому подобное. Бот не является аккаунтом сам по себе, но за поддельными аккаунтами закрепилось именно такое название. Были созданы миллионы пользовательских аккаунтов, управляемых подобными программами, неотличимых от аккаунтов обычных пользователей. Все социальные сети в сети Интернет оказались наводнены ботами, которые в некоторых случаях составляют до трети всех активных пользователей.
Для каких бы целей не служила использование ботов основная ее особенность в том, что она дискредитируют сеть Интернет как средство для свободных коммуникаций, распространения актуальной и подлинной информации [1], площадку для ведения коммерческой и некоммерческой деятельности, и подрывает принцип взаимного доверия всех участников взаимодействия.
Проблема выявления ботов с социальных сетях связана с двумя особенностями: для выявления ботов необходимо работать только с открытой общедоступной информации об аккаунтах пользователей, вероятность ошибочных определений должна быть на допустимо низком уровне.
В данной работе проводится анализ эффективности применения различных методов машинного обучения, а именно: нейронных сетей, дерева решений и логистической регрессии. Все три метода показывают высокую точность для задач классификации [4].
Для всех вышеперечисленных методов машинного обучения необходимо провести обучение. Для чего требуется выработка набора признаков, определяющих ботов, формирование обучающей выборки, состоящей из значений выявленных признаков и последующего обучения моделей.
В качестве примера рассмотрим социальную сеть Твиттер. Большая часть признаков ботов в других социальных сетях аналогичны ботам в других социальных сетях, остальные - отличаются в той или иной степени.
Поскольку страницы пользователей представляют собой совокупность данных в электронном виде, необходимо эти данные описать системой числовых параметров и их значений. Значения выбранных параметров, характеризующих ботов, составят обучающую выборку для построения модели. Нейронной сети, дерева решений, логистической регрессии.
Выделяют две основные группы признаков ботов: статические и поведенческие [6]. К первой группе признаков относят особенности оформления аккаунта - степень заполненности и сами данные:
- Корректное написание имени;
- Наличие и содержание фотографии;
- Соответствие друг другу разных данных аккаута;
- Дата создания аккаунта;
- Число подписчиков;
- Общая заполненность аккаунта и др.
Ко второй группе признаков относят особенности, которые характерны для действий изучаемого аккаунта:
- Участие в искусственном продвижении материалов;
- Скорость комментирования;
- Действия с различных аккаунтов с одного 1Р адреса за короткий промежуток времени;
- Число подписок;
- Наличие и число публикаций.
В данной работе для идентификации ботов в социальной сети Твиттер предлагается следующий набор признаков:
1. Количество твитов - число твитов на страницу пользователя;
2. Количество подписок - число пользователей, на страницу которых подписан пользователь;
3. Количество подписавшихся - число пользователей, которые подписаны на страницу пользователя;
4. Избранное - число твитов, занесенных в закладки;
5. Количество ретвитов - количество сообщений, которые были скопированы у других пользователей на свою страницу;
6. Количество сообщений, которые были написаны самим пользователем на своей странице;
7. Количество ответов на сообщения других пользователей;
8. Количество рекламы, которые пользователь размещает у себя на странице;
9. Заполненное поле и информацией о пользователе;
10. Дата регистрации - количество дней, которое пользователей зарегистрирован в социальной сети.
Для формирования исходных данных использована собственная база, состоящая из 200 пользователей, из которых 50 процентов содержат характерные признаки ботов. На основании вектора входных признаков, характеризующего распределение значений параметров пользователя, решается задача, к какому классу отнести определенного пользователя социальной сети.
Нейронные сети
Использование нейронных сетей для решения задачи классификации состоит в указании принадлежности входного образа, представленного вектором признаков, одному или нескольким предварительно определенным классам (рис. 1). Поскольку нейронная сеть способна решать задачу классификации, то на этом принципе основано ее применение к решению задачи идентификации ботов в социальных сетях [13, 15, 17].
Решение данной задачи с помощью нейронной сети сводится к отнесению пользователя в одну из двух категорий (классификация «бот» / «не бот») по представленному вектору признаков, которыми обладает пользователь [12, 14].
Рис. 1 - Модель нейронной сети Дерево решений
Деревья решений - это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение [5]. Цель всего процесса построения дерева принятия решений -создать модель, по которой можно было бы классифицировать случаи и решать, какие значения может принимать целевая функция, имея на входе несколько переменных [3,8].
Корень
Узел
| Узел
Рис. 2 - Модель дерева решений
Логическая конструкция, которая представлена в виде "если ... то ..." принимается за правило. Дерево решений, подобно его прототипу из живой природы, состоит из «ветвей» и «листьев». Ветви (ребра графа) хранят в себе значения атрибутов, от которых зависит целевая функция; на листьях же записывается значение целевой функции. Существуют также и другие узлы - родительские и потомки - по которым происходит разветвление, и можно различить случаи (рис.2). Деревья решений позволяют классифицировать новые, поступающие извне данные, и создавать достаточно экономичные конструкции.
Логистическая регрессия
Алгоритмы регрессии вычисляют зависимости между численными значениями. Модель линейной регрессии применяет лучшую линейную аппроксимацию для представления полученных данных. Найденная аппроксимация позволяет предсказывать значения зависимых переменных для любых значений независимых переменных.
Результатом этого алгоритма является уравнением линии регрессии (рис. 3).
пользовались следующие численные значения параметров:
N = ы2 = 100
Таблица 1 - Процент ошибок
Рис. 3 - Логистическая и линейная регрессии
Выход линейной регрессии по алгоритму должны располагаться, таким образом, обеспечивая минимальную сумму расстояний между линией и расположением данных.
Логистическая регрессия схожа с линейной регрессией и превосходно подходит для классификации. Главная разница между этими типами регрессий в том, что линейная регрессия на выходе дает численные значения, логистическая - номинальные.
При помощи логистической регрессии вычисляется вероятность определнных событий, в случаи с линейной регрессией - предсказывается значение переменной. Первый тип регрессии предсказывает значения между [0 ,1], второй - может предсказать любое численное значение.
Сравнение рассмотренных методов идентификации ботов в социальных сетях
Тестирование проводилось с помощью подачи тестовой выборки на вход моделей. Оценка эффективности осуществлялась путем анализа результатов тестирования.
Для оценки качества разработанной технологии идентификации ботов и точности построенной на ее основе модели были проведены эксперименты с обученной моделью на тестовой выборке данных, по результатам которых вычислены коэффициенты ошибок двух типов [9]:
- ошибка первого рода, когда пользователь является ботом, но не классифицируется нейронной сетью как бот;
- ошибка второго рода, когда пользователь не является ботом, но ошибочно классифицируется нейронной сетью как бот.
Расчет коэффициента ошибки первого рода осуществлялся по следующей формуле [7]:
Е = ^ 1
где п1 - количество пользователей-ботов, классифицированных как «не бот»; N1 - общее количество пользователей-ботов в тестовой выборке.
Расчет коэффициента ошибки второго рода осуществлялся по следующей формуле:
Е = ^
2
где п2 - количество обычных пользователей, классифицированных как «бот»; Ы2 - общее количество обычных пользователей в тестовой выборке.
В таблице представлены результаты расчетов коэффициентов ошибок I и II рода. При расчетах ис-
Ошибки, % Модель Первого рода Второго рода Всего
Нейронная сеть 0 3,12 3,12
Дерево решений 6,25 3,12 9,37
Логистическая регрессия 0 6,25 6,25
Сравнение моделей показывает, что наиболее эффективной моделью распознавания ботов в социальных сетях является нейросетевая модель [2, 16], так как она полностью исключает ошибки первого рода и у нее самое малое количество ошибок второго рода (табл.2). На втором месте по эффективности модель линейной регрессии. Она так же исключает ошибки первого рода, но имеет большее количество ошибок второго рода, чем у нейросетевой модели. Модель дерева решений имеет ошибки и первого и второго рода [10, 11].
Литература
1. Автоопределение ботов [Электронный ресурс] // Безопасность: [сайт], 2014. - URL: http://www.ci2b.info/3-texnologii-iw/3-analiz-informacii/ avtoopredelenie-botov/ (Дата обращения: 18.04.2015).
2. Глова В.И., Аникин И.В., Катасёв А.С. Система предупреждения аварий оборудования в процессах поддержания пластового давления // Вестник Казанского государственного технического университета им. А.Н. Туполева. - 2006. - № 2. - С. 4649.
3. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Семёнов Я.Е. Спам-фильтрация электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей // Вестник технологического университета. -
2015. - Т. 18. - № 15. - С. 217-220.
4. Гончаров Н.О. Современные угрозы бот-сетей // Молодежный научно-технический вестник. - 2014. - № 10. - С. 34-37.
5. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Евсеева А.О. Нейросетевая модель идентификации ботов в социальных сетях // Вестник технологического университета - 2015. Т. 18. №16. - С. 252-256.
6. Зегжда Д.П., Степанова Т.В. Оценка эффективности использования средств защиты для нейтрализации и устранения бот-сетей // Проблемы информационной безопасности. Компьютерные системы. - 2012. - № 2. -С. 21-27.
7. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Распознавание рукописных символов на базе искусственной нейронной сети // Вестник технологического университета. - 2015. - Т.18. - № 11. - С. 173-176.
8. Евсеева А.О., Катасёв А.С., Катасёва Д.В. Идентификация ботов в социальных сетях на основе нейросетевой модели // Информация и безопасность. -
2016. - Т. 19. - № 4 (4). - С. 535-538.
9. Катасёв А.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений // Научно-технический вестник Поволжья. - 2013. - № 5. -С. 191-194.
10. Катасёв А.С., Ахатова Ч.Ф. Нейронечеткая система обнаружения продукционных зависимостей в базах данных // Программные продукты и системы. - 2011. -№ 3.С. 26-32.
11. Катасёв А.С., Газимова Д.Р. Инвариантная нечетко-продукционная модель представления знаний в экспертных системах // Вестник КГТУ им. А.Н. Туполева. - 2011. - № 1. - С. 142-148.
12. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 68-78.
13. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -2015. - Т. 18. № 6. - С. 163-167.
14. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных
почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
15. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. -С. 215-218.
16. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма // Вестник технологического университета. - 2015. - Т. 18. № 7. - С. 255-259.
17. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Костюжов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник технологического университета. - 2015. - Т. 18. № 13. - С. 160-163.
© А. О. Евсеева - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; Р. И. Гумерова - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. С. Катасёв - канд. техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. П. Кирпичников - д-р физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected].
© A. O. Evseeva - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; R. I. Gumerova - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; A. S. Katasev - PhD, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: [email protected].