УДК 004.942
А. С. Катасёв, А. П. Кирпичников, Р. И. Рамазанова МЕТОДИКА АНАЛИЗА ЗАЩИЩЕННОСТИ АККАУНТОВ СОЦИАЛЬНЫХ СЕТЕЙ
ОТ ВРЕДОНОСНОГО КОНТЕНТА
Ключевые слова: социальная сеть, информационная безопасность, анализ социальных сетей, распространение информации,
вредоносный контент, методика оценки защищенности.
Данная статья посвящена разработке методики оценки защищенности аккаунтов от негативного воздействия Интернет-контента в социальных сетях. Методика основана на моделировании социальной сети в виде графа. Для построения графа использованы данные с сайта VK.com. Их обработка осуществлялась с приме -нением программного обеспечения Gephi.
Keywords: social network, information security, social network analysis, information propagation, badware content, security
assessment methodology.
This paper describes the methodology for assessing the accounts security from the negative impact of Internet content in social networks. The described method is based on the method of modeling the social network as a graph. To construct the graph used data obtained from the site VK.com and program Gephi.
В современном мире понятие «социальная сеть» [10], в первую очередь, вызывает ассоциации с сервисами, предоставляемыми сайтами vk.com, facebook.com, ok.ru др. Однако, этот термин появился задолго до появления данных сайтов. Социальные сети стали объектом для изучения еще в XVIII в. [15]. Ученые-социологи развивали данное направление с точки зрения обществознания. В настоящее время социальные сети используются для моделирования и анализа процессов, протекающих в таких сферах как экономика, география, информатика, менеджмент и др. Интенсивное развитие анализа социальных сетей связано с возможностью использования математических методов [2,3], что дало этой методологии исследования развитые инструменты анализа данных и визуализации результатов.
В общем виде социальную сеть можно определить, как набор социально-релевантных узлов, связанных одним или несколькими отношениями [1]. Сеть представляет собой граф, позволяющий выявлять закономерности: определять группы связанных узлов, ключевые элементы сети и т. д.
Для того, чтобы понять механизмы функционирования социальной сети, в методологии анализа используется ряд параметров, которые позволяют оценить тип и интенсивность отношений в исследуемой среде. К таким параметрам относятся:
- промежуточность - число путей, включающих заданную вершину;
- центральность - степень близости узла к условному центру графа (в современных исследованиях данный показатель рассматривается, как количественный эквивалент уровня влияния узла и мера распределения власти в социальной сети);
- диаметр - наибольшее расстояние между любыми парами узлов графа;
- входная/выходная степень вершины - количество ребер, входящих/выходящих из вершины.
Исходя из анализа этих параметров, можно предположить, по какой траектории будет распространяться информация в социальной сети. В данной статье анализ социальных сетей строится с точки зрения обеспечения информационной безопасно-
сти аккаунтов социальной сети «ВКонтакте», поэтому особое внимание обращено на информацию, которую можно отнести к условной категории «вредоносный контент» [5,7].
Под вредоносным контентом понимается информация, представленная в любом виде (текст, изображение, аудио-, видеозапись и т.д.), которая негативно влияет на пользователя или информацию, принадлежащую пользователю. К нему можно отнести спам, фишинговые сообщения, вирусы и др. [4,6,9]. От того, какими путями распространяется вредоносный контент, зависит скорость и степень поражения узлов социальной сети, т. е. пользовательских страниц. Рассмотрим траектории распространения контента.
В самом простом случае распространяемая информация не дублируется, а передается от одного узла к другому. Для стороннего наблюдателя, не осведомленного об особенностях сети и ее компонентов, такое перемещение будет иметь характер случайного блуждания, т. е. последовательный процесс выбора случайного соседнего узла и перемещение в выбранную позицию. Исследование случайного блуждания на графе может дать ответы на вопросы: как долго нужно «блуждать», чтобы вернуться к начальной точке, чтобы достичь определенной точки или обойти все точки графа [14].
Однако в современных сетях редко можно встретить контент, распространяемый по такой схеме. В большинстве случаев распространение имеет характер эпидемии. При такой траектории распространения вредоносный контент может передаваться не только одному случайно выбранному соседнему узлу, а нескольким (в некоторых случаях - всем) соседям сразу. Эпидемии характеризуются не только высокой скоростью распространения, но и многократным дублированием информации. Знание структуры сети позволяет моделировать распространение эпидемии с целью изучения ее динамики на локальном уровне, а полученные результаты исследований масштабировать [13].
С точки зрения анализа социальных сетей интересно рассмотреть активность распространения ин-
формации посредством приложений [8]. Так, например, в 2013 году сайт VK.com был подвержен атаке «эпидемия репостов» [11]. Пользователь опубликовал у себя на странице запись, ссылка в которой вела на приложение, автоматически публикующее его пост на чужих страницах и сообществах. За полчаса запись набрала более 80 тысяч «репостов». Несмотря на то, что в данном случае пользователи социальной сети не понесли коммерческих, информационных или иных потерь, этот пример характеризует процесс эпидемиологического распространения контента в сети лучшего всего. Заразившись сам, пользователь пытается заразить все свое окружение.
Несмотря на то, что подобные эксперименты ярко иллюстрируют характер распространения информации в сети и позволяют анализировать этот процесс, их нельзя назвать безобидными. Многократное и бесконтрольное дублирование информации засоряет информационное пространство и может негативно влиять на психофизическое состояние пользователей социальной сети. Для изучения и анализа процессов распространения вредоносного контента в социальных сетях предлагается использовать методы моделирования.
Одним из первых этапов моделирования эпидемии в социальных сетях является выбор модели эпидемии, адекватно описывающей процесс распространения вредоносного контента. Рассмотрим основные модели распространения эпидемий [11]:
• SI-модель (Susceptible-Infected model) характеризуется делением всех объектов исследования N на две группы: S - уязвимые (susceptible) и I - зараженные (infected), S+I=N. Данная модель предполагает, что развитие эпидемии будет проходить до тех пор, пока не будут заражены все узлы (справедливо для связного графа);
• SIS-модель (susceptible-Infected- Susceptible model) предполагает возврат из зараженного состояния (infected) в восприимчивое (susceptible);
• SIR-модель (susceptible-Infected- Removed model) предполагает, что после заражения и излечения узел приобретает иммунитет к подобному неблагоприятному воздействию Интернет-контента;
• SEIR-модель (susceptible-Exposed-Infected- Removed model) модификация SIR -модели. Здесь выделяется группа L (latency) - узлы в латентной стадии. Данная группа включает в себя узлы, зараженные, но не распространяющие контент, который способен заразить другие узлы.
Имея социальную сеть в виде графа, можно рассчитать основные характеристики сети (диаметр, среднюю степень узлов) и отдельно взятых узлов (промежуточность, центральность и т.п.). Данные характеристики рассматриваются, как критерии оценки безопасности аккаунтов. Рассмотрим процессы построения графа социальной сети.
В качестве примера рассмотрим граф фрагмента социальной сети «ВКонтакте» (см. рис. 1).
v^sW * * ■
■ * ... .
Рис. 1 - Фрагмент графа социальной сети
На данном рисунке узлами обозначены пользовательские персональные страницы, а ребрами - не скрытые настройками приватности отношения дружбы между пользователями. Данная сеть предоставляет часть информации о зарегистрированных пользователях в открытый доступ вне зависимости от настроек конфиденциальности. К открытым данным относятся указанные при регистрации фамилия и имя, фото профиля, автоматически присваиваемый при регистрации id-параметр и др.
Для сбора информации об открытых отношениях дружбы в социальной сети «ВКонтакте» был написан скрипт, который использовал метод API friends.get. Данный метод позволяет получить сведения о друзьях пользователя по заданному id без предварительной авторизации. В результате работы скрипта получен файл с расширением «.txt», где указываются id-параметры связанных узлов. Формат записи данных в файл выглядит следующим образом: в каждой строке файла записывается сначала id пользователя, со страницы которого берутся данные, а далее через символ «;» записывается id друга, который содержится в выбранном фрагменте социальной сети. Например, запись типа «13374196; 9544609» определяет наличие ребра между узлами.
Сортировка и отбор полученных данных осуществлялись с помощью программного обеспечения Microsoft Excel, которое позволяет импортировать данные из текстового файла в таблицу, а также сохранить данные в том формате, который является доступным для обработки в выбранной среде визуализации, например, «.csv».
По полученным сведениям с помощью программного обеспечения Gephi построен граф. Среда Gephi представляет собой свободно распространяемое программное обеспечение, позиционируемое разработчиками, как платформа для интерактивной визуализации и исследования всех видов сетей и сложных систем, динамических и иерархических графов [12]. Функциональные возможности Gephi позволяют визуализировать граф в том виде, который удобен пользователю: вручную можно настроить размер узлов, алгоритм укладки графа (для получения графа, изображенного на рис. 1, использовался алгоритм «Fruchterman Reingold»), цвет и размер подписей и др. Данная программа также позволяет рассчитать основные характеристики синтезируемого графа, значения которых описаны ниже.
Промежуточность. Распределение промежуточности в графе представлено на рис. 2.
Рис. 2 - Распределение промежуточности в графе
Данный график соответствует степенному распределению. Видно, что большинство узлов графа обладают меньшей промежуточностью, что говорит о том, что при поиске кратчайших путей от одного узла к другому вершина будет минимально задействована. Это положительно сказывается на аккаунте с точки зрения его безопасности. Высокой степенью промежуточности обладает небольшое количество узлов, т.е. в выбранном фрагменте социальной сети нет сложной разветвленной сети.
Центральность. Данное распределение для узлов рассматриваемого графа изображено на рис. 3.
Рис. 3 - Распределение показателя центральности
График распределения характеризуется высокой степенью плотности у начала диапазона центральности, т. е. большая часть узлов обладает низкой степенью центральности. Такое распределение можно интерпретировать, как положительный момент с точки зрения безопасности, т. к. низкий уровень показателя снижает вероятность прохождения негативного контента через заданный узел.
Диаметр. Диаметр рассматриваемого графа равен 7, то есть существуют цепочки коммуникационных взаимодействий между пользователями, расстояние между которыми составляет не более 7 ребер. Принимая во внимание теорию «шести рукопожатий» [16], согласно которой достаточно пройти 5 промежуточных знакомых, чтобы обеспечить движение информации от одного случайно выбранного человека к другому, можно заключить, что в данном фрагменте социальной сети показатель диаметра выше среднего. Из этого следует, что для достижения конечной цели при передаче вредоносного контента, необходимо будет сделать большее количество переходов. Учитывая то, что в каждом отдельном узле существует вероятность прерывания
передачи данных (в связи с неактивностью аккаунта, корректной настройкой спам-фильтра и т. д.), то можно определить прямую зависимость уровня защищенности аккаунта от диаметра социальной сети.
Степени узлов. График зависимости степени вершины от всего количества таких вершин в графе представлен на рис. 4.
1 3 5 7 3 1113151719 2.123 25 27 2.9 31 33 35 37 39 41 43 45 47
Рис. 4 - Распределение степеней вершин графа
Степени узлов графа, т. е. число связей для каждого конкретного узла, указывают на количество источников, из которых пользователь может получить контент негативного характера, предполагая, что контактирует с дружественным субъектом. С точки зрения безопасности большое количество связей влечет за собой большую подверженность удаленным атакам со стороны виртуальных друзей. Средняя степень узла для рассматриваемого графа равна 12, то есть в среднем каждый пользователь связан отношением дружбы с 12 пользователями рассматриваемого фрагмента социальной сети.
Рассматривая полномасштабные социальные сети, стоит исходить из параметра, имеющего название число Данбара, равное 150. По мнению антрополога Робина Данбара, максимальное количество людей, с которыми человек может поддерживать стабильные социальные отношения, равно приблизительно 150. При анализе количества социальных связей стоит иметь ввиду, что показатель, существенно превышающий число Данбара, свидетельствует о высокой активности пользователя в виртуальном пространстве. Как правило, пользователи с большим количеством друзей (публичные личности) подвергаются атакам в социальных сетях чаще, чем пользователи со средними показателями количества дружественных отношений.
Также при анализе защищенности аккаунтов в социальных сетях стоит учитывать параметры, которые не связаны со структурой социальной сети: наполненность анкетных данных, активность пользователя, уровень компьютерной грамотности, осведомленность пользователя в вопросах информационной безопасности и т.п. Однако безопасность ак-каунтов зависит не только от поведения пользователя, но и от среды, в которой он находится.
Таким образом, зная структуру социальной сети, ее основные параметры и характер распространения вредоносного контента, можно провести анализ защищенности ее аккаунтов от негативного воздействия такого контента. Структура сети для последую-
щего анализа представляется в виде графа. Для построенного графа вычисляются его основные параметры, которые оцениваются с точки зрения информационной безопасности. Анализ основных характеристик графа удобно производить с применением средств визуализации, например, с помощью программы Gephi. Данная программа позволяет автоматически рассчитать параметры графа, которые могут быть применены в процессе оценки защищенности пользовательской информации. Подобная методика моделирования социальной сети и процессов, происходящих в ней, позволяет анализировать распространение информации, которая может оказать негативное влияние на пользователей. Моделирование позволит предупредить эпидемии, путем профилактического воздействия на пользователей, которые в результате анализа определены как потенциально опасные с точки зрения безопасности.
Применение описанной методики также может снизить финансовые издержки администраторов веб-сайтов, реализующих социальные сети на Интернет-платформе, поскольку бесконтрольные эпидемии распространения вредоносного контента влекут за собой увеличение нагрузки как на систему, которую необходимо поддерживать в работоспособном состоянии, так и на службу технической поддержки пользователей. Следует отметить, что статистика говорит об увеличении числа инцидентов информационной безопасности в виртуальной среде организаций. Использование описанной методики в рамках социальных сетей внутри компании может обеспечить повышение эффективности информационной безопасности.
Литература
1. Анализ социальных сетей Social Network Analysis: a Review [Электронный ресурс] URL: http://socrel.pstgu.ru/wp-content/uploads/2013/09/ WP_2012-10.pdf (Дата обращения: 20.09.2015).
2. Катасёв А.С. Математическое и программное обеспечение формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов: монография. -Казань: ГБУ «Республиканский центр мониторинга качества образования», 2013. - 200 с., ил.
3. Катасёв А.С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
4. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 6878.
5. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -2015. - Т. 18. № 6. - С. 163-167.
6. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
7. Катасёв А. С., Катасёва Д.В., Кирпичников А. П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. - С. 215-218.
8. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Костю-жов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник технологического университета. - 2015. - Т. 18. № 13. - С. 160-163.
9. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Семенов Я.Е. Спам-фильтрация электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей // Вестник технологического университета. - 2015. - Т. 18. № 15. - С. 217-220.
10. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Евсеева А.О. Нейросетевая модель идентификации ботов в социальных сетях // Вестник технологического университета. - 2015. - Т. 18. № 16. - С. 253-256.
11. Лихачев Н. Хакер устроил эпидемию репостов «ВКон-такте», 2013. [Электронный ресурс] URL: http://tjournal.ru/paper/vk-app-hack (Дата обращения: 30.09.2015).
12. Официальный сайт поддержки программного продукта Gephi [Электронный ресурс] URL: http://gephi.github.io (Дата обращения: 21.09.2015).
13. Рамазанова Р.И., Катасёв А.С. Модели распространения вредоносного контента в социальных сетях // Информационная безопасность и зашита персональных данных. Проблемы и пути их решения: VII Межрегиональная научно-практическая конференция. - Брянск: БГТУ, 2015. -С. 87-89.
14. Lovasz, L. Random walks on graphs: a survey. In Combinatorics, Paul Eidos is eighty. pp. 353 - 397. Budapest: Janos Bolyai Math. Soc., 1993.
15. Mark Newman. The physics of networks. Physics Today, pp.33-38, 2008.
16. Stanley Milgram. The Small-World Problem. Psychology Today, Vol 1, No 1, pp 61-67, 1967.
© А. С. Катасёв - д-р техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: kat_726@mail.ru; А. П. Кирпичников - д-р физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: kirpichnikov@kstu.ru; Р. И. Рамазанова - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: ramramilg@gmail.com.
© A. S. Katasev - Dr. Sci, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: kat_726@mail.ru; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: kirpichnikov@kstu.ru; R. I. Ramazanova - Postgraduate Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: ramramilg@gmail.com.