Научная статья на тему 'Спектральные методы анализа социальных сетей'

Спектральные методы анализа социальных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
841
160
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНАЯ СЕТЬ / БОТ / СПЕКТР ГРАФА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ключарёв П.Г., Басараб М А.

Рассматриваются меры центральности (в частности, центральность по собственному вектору и PageRank), которые отражают степень влияния, оказываемого тем или иным пользователем социальной сети. Большой популярностью пользуется мера PageRank, которая состоит в использовании в качестве меры центральности вершин графа, финальных вероятностей цепи Маркова, матрица переходных вероятностей которой вычисляется на основе матрицы смежности социального графа. Вектор финальных вероятностей является собственным вектором матрицы переходных вероятностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Spectral Analysis Methods of Social Networks

Described measures of centrality (in particular, centrality based on the eigenvector and PageRank), which reflect a degree of impact one or another user of the social network has. A very popular PageRank measure uses, as a measure of centrality, the graph vertices, the final probabilities of the Markov chain, whose matrix of transition probabilities is calculated on the basis of the adjacency matrix of the social graph. The vector of final probabilities is an eigenvector of the matrix of transition probabilities

Текст научной работы на тему «Спектральные методы анализа социальных сетей»

Ссылка на статью:

// Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2017. №5. С. 168-177.

Б01: 10.7463/0517.0001159

Представлена в редакцию: 10.04.2017 © МГТУ им. Н.Э. Баумана

УДК 51.77:519.177

Спектральные методы анализа социальных сетей

Ключарёв П. Г.1'*, Басараб М. А.1 'pk.iu8@yandex.ru

1МГТУ им. Н.Э. Баумана, Москва, Россия

Обзор посвящен методам анализа социальных сетей (прежде всего, онлайновых), основанным на спектральной теории графов. Такие методы используют спектр социального графа, т.е. набор собственных значений его матрицы смежности, а также собственные вектора матрицы смежности. Рассматриваются меры центральности (в частности, центральность по собственному вектору и PageRank), методы выделения сообществ, основанные на максимизации модулярности, и методы детектирования ботов на основе меры неслучайности графа, вычисляемой с помощью спектральных координат.

Ключевые слова: социальная сеть; бот; спектр графа

Введение

В современном обществе большое значение приобрели онлайновые социальные сети, такие как Facebook, Twitter, ВКонтакте и др. Пользователи онлайновых социальных сетей исчисляются сотнями миллионов и миллиардами, они активно используют социальные сети для обмена информацией. Часто социальные сети используются для организации воздействия на общественное сознание в различных целях — от рекламы продуктов или услуг до проведения полномасштабной информационной войны. Все это делает онлайновые социальные сети важным объектом исследований. Проведение анализа социальных сетей необходимо для решения различных задач — от маркетинга до обеспечения национальной безопасности.

На практике используется широкий набор разнообразных методов анализа социальных сетей. Таким методам посвящено большое количество литературы (стоит отметить монографии [13, 1, 10]). Данная работа посвящена обзору методов анализа социальных сетей, основанных на спектральных свойствах графов.

Под социальными сетями будем понимать множество людей, на котором определено бинарное отношение дружбы. Такая сеть моделируется графом (который часто называют социальным графом). Социальный граф является неориентированным, если отношение дружбы симметрично, либо ориентированным — в противном случае. Вершинами этого графа

Наука и Образование

МГТУ им. Н.Э. Баумана

Сетевое научное издание

ISSN 1994-0408

являются профили пользователей, а ребрами — социальные связи между ними («дружба»). Рассматриваемые в данной работе методы не зависят от конкретной социальной сети.

1. Краткие сведения о спектральной теории графов

Теоретической базой теории социальных сетей является теория графов. Поэтому многие методы анализа социальных сетей основаны на теоретико-графовых алгоритмах. Последнее время активно развивается спектральная теория графов, которой посвящено достаточно много литературы (например, [6, 18]). Эта теория имеет большое количество различных приложений как теоретических (например, в теории чисел и математической логике), так и прикладных (в том числе, в криптографии, компьютерных сетях и др.). Многообещающе выглядят ее приложения в области анализа социальных сетей, которым посвящен настоящий обзор.

Основным понятием спектральной теории графов является спектр графа. Пусть граф О, имеющий множество вершин V и множество ребер Е (где V = {^1, ..., уп}, ¡V| = п и |Е| = т) имеет матрицу смежности А = {а^}. Напомним, что элементы матрицы смежности в случае неориентированного графа задаются следующим образом:

{1, если существует ребро между вершинами vi и V;

(1)

0, в противном случае, а в случае ориентированного графа — следующим образом:

{1, если существует ребро из вершины vi в вершину Vj;

(2)

0, в противном случае.

Спектром графа О называется отсортированный по невозрастанию набор собственных значений матрицы смежности: (Л1 ^ Л2 ^ ... ^ Ап). Каждому собственному значению Ai соотвествует левый собственный вектор xi = (я^, ..., яп), такой что:

х*А = Л*А. (3)

2. Спектральные меры центральности

Во многих задачах анализа социальных сетей имеет большое значение информация о том какие пользователи оказывают наибольшее влияние на других пользователей сети — какие вершины социального графа являются более «важными». Понятие «важности» — неформализованное понятие и его можно определять по-разному. Поэтому существуют различные меры «важности» — их называют мерами центральности [4, 13, 8, 2].

Пожалуй самой простой мерой центральности является степень вершины — чем больше друзей у пользователя, тем больше влияния он оказывает. Мера эта является весьма примитивной и далеко не всегда дает адекватную информацию о пользователях, поэтому было

предложено большое количество других мер. Среди них большую популярность приобрели меры, основанные на использовании спектральных характеристик графов. Так, в работе [4] была предложена мера центральности по собственному вектору, в основе которой лежит идея о том, что центральность должна зависеть не только от количества смежных вершин, но и от их центральности — пользователь социальной сети тем более важен, чем более важны его друзья.

Легко видеть, что центральность по собственному вектору вершины vi равна хц, т.е. i-й компоненте собственного вектора, соответствующего первой компоненте спектра графа.

Дальнейшим развитием этого подхода является мера PageRank, изначально предложенная основателями компании Google для ранжирования результатов поиска в сети Интернет [5], а затем успешно использованная и для анализа социальных сетей [9, 7, 17, 11, 12]. Эту меру можно представить следующим образом. Поставим в соответствие исходной сети цепь Маркова, переходные вероятности которой задаются так:

p _ о^в + (1 - )(1 - ß) (4)

Pij _ Li + n ' (4)

где pij — вероятность перехода из i-го состояния в j-е; ß £ [0, 1] — некоторый коэффициент демпфирования (часто используется значение 0.85); Li — степень вершины vi.

Все элементы матрицы переходных вероятностей положительны и, следовательно, у цепи Маркова существуют финальные вероятности, вектор которых является собственным вектором, соответствующим собственному числу А _ 1 матрицы переходных вероятностей. Эти финальные вероятности и служат значениями PageRank-центральности. Интерпретация этого проста — чем чаще происходят посещения данной вершины при случайных блужданиях по социальному графу, тем более важной она считается. При этом, на каждом шаге случайных блужданий, с вероятностью ß производится переход на одну из смежных вершин графа, которая выбирается равновероятно, а с вероятностью 1 — ß — на случайную вершину графа, также выбираемую равновероятно.

Мера PageRank обрела большую популярность. В ряде работ предложены ее модификации [15, 16], не обладающие однако какими-либо принципиально новыми свойствами.

Большая (хотя и полиномиальная) вычислительная сложность не позволяет использовать точные методы линейной алгебры для вычисления собственных векторов в случае достаточно больших социальных графов. Поэтому вычисление производят приближенно, с помощью метода, основанного на итерациях вида

r(t + 1) _ r(t) ■ P, (5)

где r(t) — вектор, элементы которого стремятся к мерам PageRank для вершин графа. Обычно итерационный процесс сходится достаточно быстро.

3. Выделение сообществ

Выделение сообществ в социальных сетях — важная область исследований. Известно большое количество алгоритмов выделения сообществ (см., например, обзор [3]). Один из используемых подходов состоит в максимизации модулярности. Модулярность сети — это функция вычисляемая следующим образом:

Я = £(е« - а2), (6)

i

где в^ — доля ребер, соединяющих сообщества г и ]; ai = ^j .

Среди алгоритмов, основанных на максимизации модулярности, обращает на себя внимание простой алгоритм разделения графа на две группы вершин, базирующийся на использовании спектра графа, предложенный в работе [14]. Вводится матрица модулярности В:

В = А - Р, (7)

где А — матрица смежности, а Р — матрица вероятностей наличия ребер между вершинами. С помощью матрицы модулярности, модулярность сети можно выразить как

Я = вт В в. (8)

Здесь в — вектор, состоящий из п элементов:

+ 1, если вершина г принадлежит к первому сообществу; -1, если вершина г принадлежит ко второму сообществу.

(9)

Алгоритм состоит в том, что находится собственный вектор хх = (я11, ..., х 1п), соответствующий первой компоненте спектра матрицы модулярности. Далее компоненты вектора в выбираются как:

Si = 81§д(хн). (10)

В работе [14] показывается, что на таком векторе достигается приближенный максимум модулярности. В этой же работе предлагается обобщение этого алгоритма, предназначенное для разделения сети на произвольное число групп вершин, кроме того, существует универсальный способ деления сети на большое число групп вершин, состоящий в повторных делениях каждой выделенной группы на две, например с помощью приведенного выше алгоритма. Метод этот весьма хорошо работает на практике.

4. Детектирование ботов

Для выполнения тех или иных автоматических действий, например, распространения рекламы, пропаганды, дезинформации и др. часто используют так называемые боты — учетные записи онлайновых социальных сетей, управляемые автоматически. Возникает задача детектирования ботов.

s

Любопытный алгоритм детектирования ботов предложен в работе [19]. Он основан на понятии неслучайности (non-randomness). Для этого вводится понятие спектральных координат вершины.

Спектральными координатами вершины vi называется набор ai = (хц, x2i, ..., xni). Неслучайность R(vi,Vj) ребра {vi, Vj} определяется как

R(vi,vj) = aiaT = Xki Xkj. (11)

k

Неслучайность R(u) вершины u определяется как

R(u)= ^ R(u,v), (12)

ver(u)

где r(u) — окрестность вершины u.

Неслучайность R(G) графа G определяется как

R(G)= ^ R(u,v). (13)

{u,v}eE

В статье [19] предлагается использовать метрику неслучайности для детектирования ботов. Оказывается, что для вершин социального графа, соответствующих ботам, значение неслучайности значительно меньше, чем для вершин, соответствующих обычным пользователям. Предложенный в этой статье алгоритм определения ботов имеет вычислительную сложность в среднем O(n). Его эффективность подтверждена в статье [19] экспериментально.

Заключение

Существует целый ряд алгоритмов анализа социальных сетей, основанных на спектральной теории графов. Эти алгоритмы показывают весьма хорошие результаты, однако их недостатком является относительно высокая (хотя и полиномиальная) вычислительная сложность для больших графов. В то же время очевидно, что возможность практического применения методов спектральной теории графов все еще недооценена и на ее основе возможна разработка новых методов.

Работа проведена при поддержке гранта РФФИ № 16-29-09517 офи_м.

Список литературы

1. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления, противоборства / Под ред. Д.А. Новикова. М.: Физматлит, 2010. 225 с.

2. БасарабМ.А.,ГлинскаяЕ.В.,ИвановИ.П.,КолесниковА.В.,КузовлевВ.И.Исследование структуры графа научного соавторства методами анализа социальных сетей // Вопросы кибербезопасности. 2017. № 1 (19). С. 31-36. DOI: 10.21581/2311-3456-2017-1-31-36

3. Чесноков В.О., Ключарёв П.Г. Современные методы выделения сообществ в социальных сетях//Наука и образование. МГТУ им. Н.Э. Баумана: электрон. журн. 2017. №4. С. 137— 152. DOI: 10.7463/0417.0001133

4. Bonacich P. Power and centrality: A family of measures // American J. of Sociology. 1987. Vol.92, no. 5. P. 1170—1182.

5. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine // Computer networks and ISDN systems. 1998. Vol. 30, no. 1-7. P. 107—117.

6. Chung F.R.K. Spectral graph theory. Providence: American Mathematical Society Publ., 1997. 207 p.

7. Wang R., Zhang W., Deng H., Wang N., Miao Q., Zhao X. Discover community leader in social network with PageRank // Advances in Swarm Intelligence: 4th Intern. Conf. in Swarm Intelligence: ICSI 2013 (Harbin, China, June 12-15, 2013): Proc. Pt. 2. B.: Springer, 2013. P. 154—162. DOI: 10.1007/978-3-642-38715-9.19

8. Frank O. Using centrality modeling in network surveys // Social networks. 2002. Vol. 24, no. 4. P. 385—394. DOI: 10.1016/S0378-8733(02)00014-X

9. Heidemann J., Klier M., Probst F. Identifying key users in online social networks: A PageRank based approach // Intern. Conf. on Information Systems: ICIS 2010 (Saint Louis, MO, USA, December 12-15, 2010): Proc. Vol. 2. Red Hook: Association for Information Systems (AIS), 2010. P. 1225—1246.

10. Jackson M. Social and Economic Networks. Princeton: Princeton Univ. Press, 2010. 520 p.

11. Kandiah V., Shepelyansky D.L. Pagerank model of opinion formation on social networks // Physica A: Statistical Mechanics and its Applications. 2012. Vol. 391, no. 22. P. 5779—5793. DOI: 10.1016/j.physa.2012.06.047

12. Jin Zh., Shi D., Wu Q., Yan H., Fan H. Lbsnrank: personalized PageRank on location-based social networks // ACM Intern. Conf. on Ubiquitous Computing: UbiComp'2012 (Pittsburgh, USA, September 5-8, 2012): Proc. N.Y.: ACM, 2012. P. 980—0987. DOI: 10.1145/2370216.2370430

13. Newman M.E.J. Networks: An introduction. Oxf.; N.Y.: Oxf. Univ. Press, 2010. 772 p.

14. Newman M.E.J. Finding community structure in networks using the eigenvectors of matrices // Physical review E. 2006. Vol. 74, no. 3. P. 036104. DOI: 10.1103/physreve.74.036104

15. Pedroche F. Ranking nodes in social network sites using biased pagerank // 20 Encuentro de Algebra Lineal Analisis Matricial y Aplicaciones: ALAMA-2010 (Valencia, Spain, June 2-4, 2010): Abstracts. Valencia: Univ. Politecnica de Valencia, 2010. P. 1—7.

16. Qiu L., Liang Y. Finding important nodes in social networks based on modified PageRank // 2nd Intern. Conf. of Advanced Computer Science & Information Technology: ACSIT 2014 (Zurich, Switzerland, June 14-15, 2014): Proc. Zurich: AIRCC, 2014. P. 39—44. DOI: 10.5121/csit.2014.4104

17. Pedroche F. Modelling social network sites with PageRank and social competences // Intern. J. of Complex Systems in Science. 2011. Vol. 1, no. 1. P. 65-68. Режим доступа: http://www.ij-css.org/volume-0b01/ijcss0b01-065.pdf (дата обращения 26.04.2017).

18. van Mieghem P. Graph Spectra for Complex Networks. Camb.; N.Y.: Camb. Univ. Press, 2011. 346 p.

19. Ying X., Wu X., Barbara D. Spectrum based fraud detection in social networks // 27th Intern. Conf. on Data Engineering: ICDE'2011 (Hannover, Germany, April 11-16, 2011): Proc. Wash.: IEEE, 2011. P. 912-923. DOI: 10.1109/ICDE.2011.5767910

Science and Education of the Bauman MSTU,

Science 0 Education „

of the Baumail MSTU Received: 10.04.2017

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Electro TL IC joum dl ® Bauman Moscow State Technical University

Spectral methods of analyzing of social networks

Klyucharev P. G.1'*, Basarab M. A.1 *pk.iu8@yandex.ru

1 Bauman Moscow State Technical University, Russia

Keywords: social network, bot, graph spectrum

Online social networks (such as Facebook, Twitter, VKontakte, etc.) being an important channel for disseminating information are often used to arrange an impact on the social consciousness for various purposes — from advertising products or services to the full-scale information war thereby making them to be a very relevant object of research. The paper reviewed the analysis methods of social networks (primarily, online), based on the spectral theory of graphs. Such methods use the spectrum of the social graph, i.e. a set of eigenvalues of its adjacency matrix, and also the eigenvectors of the adjacency matrix.

Described measures of centrality (in particular, centrality based on the eigenvector and PageRank), which reflect a degree of impact one or another user of the social network has. A very popular PageRank measure uses, as a measure of centrality, the graph vertices, the final probabilities of the Markov chain, whose matrix of transition probabilities is calculated on the basis of the adjacency matrix of the social graph. The vector of final probabilities is an eigenvector of the matrix of transition probabilities.

Presented a method of dividing the graph vertices into two groups. It is based on maximizing the network modularity by computing the eigenvector of the modularity matrix.

Considered a method for detecting bots based on the non-randomness measure of a graph to be computed using the spectral coordinates of vertices - sets of eigenvector components of the adjacency matrix of a social graph.

In general, there are a number of algorithms to analyse social networks based on the spectral theory of graphs. These algorithms show very good results, but their disadvantage is the relatively high (albeit polynomial) computational complexity for large graphs.

At the same time it is obvious that the practical application capacity of the spectral graph theory methods is still underestimated, and it may be used as a basis to develop new methods.

The work was carried out with the support from the RFBR grant No. 16-29-09517.

References

1. Gubanov D.A., Novikov D.A., Chkhartishvili A.G. Sotsial'nye seti: modeli informatsionnogo vliianiia, upravleniia i protivoborstva [Social networks: models of informational influence, control and confrontation] / Ed. by D.A. Novikov. Moscow: Fizmatlit Publ., 2010. 225 p. (in Russian).

2. Basarab M.A., Glinskaia E.V., Ivanov I.P., Kolesnikov A.V., Kuzovlev V.I. Study into the structure of the scientific coathorship graph using social network analysis. Voprosy kiberbezopas-nosti [Cybersecurity issues], 2017, no. 1, pp. 31-36. DOI: 10.21581/2311-3456-2017-1-31-36 (in Russian)

3. Chesnokov V.O., Klyucharev P.G. Modern community detection methods in social networks. Nauka i obrazovanie MGTU im. N.E. Baumana [Science and Education of the Bauman MSTU], 2017, no. 4, pp. 137-152. DOI: 10.7463/0417.0001133 (in Russian)

4. Bonacich P. Power and centrality: A family of measures. American J. of Sociology, 1987, vol.92, no. 5, pp. 1170-1182.

5. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 1998, vol. 30, no. 1-7, pp. 107-117.

6. Chung F.R.K. Spectral graph theory. Providence: American Mathematical Society Publ., 1997. 207 p.

7. Wang R., Zhang W., Deng H., Wang N., Miao Q., Zhao X. Discover community leader in social network with PageRank. Advances in Swarm Intelligence: 4th Intern. Conf. in Swarm Intelligence: ICSI 2013 (Harbin, China, June 12-15, 2013): Proc. Pt. 2. B.: Springer, 2013, pp. 154-162. DOI: 10.1007/978-3-642-38715-9.19

8. Frank O. Using centrality modeling in network surveys. Social Networks, 2002, vol. 24, no. 4, pp. 385-394. DOI: 10.1016/S0378-8733(02)00014-X

9. Heidemann J., Klier M., Probst F. Identifying key users in online social networks: A PageRank based approach. Intern. Conf. on Information Systems: ICIS 2010 (Saint Louis, MO, USA, December 12-15, 2010): Proc. Vol. 2. Red Hook: Association for Information Systems (AIS), 2010, pp. 1225-1246.

10. Jackson M. Social and economic networks. Princeton: Princeton Univ. Press, 2010. 520 p.

11. Kandiah V., Shepelyansky D.L. PageRank model of opinion formation on social networks. Physica A: Statistical Mechanics and its Applications, 2012, vol. 391, no. 22, pp. 5779-5793. DOI: 10.1016/j.physa.2012.06.047

12. Jin Zh., Shi D., Wu Q., Yan H., Fan H. Lbsnrank: personalized PageRank on location-based social networks. ACM Intern. Conf. on Ubiquitous Computing: UbiComp'2012 (Pittsburgh, USA, September 5-8, 2012): Proc. N.Y.: ACM, 2012, pp. 980-987. DOI: 10.1145/2370216.2370430

13. Newman M.E.J. Networks: An introduction. Oxf.; N.Y.: Oxf. Univ. Press, 2010. 772 p.

14. Newman M.E.J. Finding community structure in networks using the eigenvectors of matrices. Physical Review E, 2006, vol. 74, no. 3, pp. 036104. DOI: 10.1103/PhysRevE.74.036104

15. Pedroche F. Ranking nodes in social network sites using biased pagerank // 2o Encuentro de Algebra Lineal Analisis Matricial y Aplicaciones: ALAMA-2010 (Valencia, Spain, June 2-4, 2010): Abstracts. Valencia: Univ. Politecnica de Valencia, 2010. P. 1-7.

16. Qiu L., Liang Y. Finding important nodes in social networks based on modified PageRank. 2nd Intern. Conf. of Advanced Computer Science & Information Technology: ACSIT 2014 (Zurich, Switzerland, June 14-15, 2014): Proc. Zurich: AIRCC, 2014. Pp. 39-44. DOI: 10.5121/csit.2014.4104

17. Pedroche F. Modelling social network sites with PageRank and social competences. Intern. J. of Complex Systems in Science, 2011, vol.1, no. 1, pp. 65-68. Available at: http://www.ij-css.org/volume-01_01/ijcss01_01-065.pdf, accessed 26.04.2017.

18. Van Mieghem P. Graph spectra for complex networks. Camb.; N.Y.: Camb. Univ. Press, 2011. 346 p.

19. Ying X., Wu X., Barbara D. Spectrum based fraud detection in social networks. 27th Intern. Conf. on Data Engineering: ICDE'2011 (Hannover, Germany, April 11-16, 2011): Proc. Wash.: IEEE, 2011. Pp. 912-923. DOI: 10.1109/ICDE.2011.5767910

i Надоели баннеры? Вы всегда можете отключить рекламу.