ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
уДК 5192:004.421.5 004.7 в. Н. ЗАДОРОЖНЫЙ
Е. Б. ЮДИН
Омский государственный технический университет, г. Омск Институт математики им. С. Л. Соболева СО РАН, г. Омск
О НЕОДНОРОДНОЙ СТРУКТУРЕ СОЦИАЛЬНЫХ СЕТЕЙ_
Разрабатываются методы калибровки неоднородных случайных графов для моделирования социальных сетей. Графы калибруются по распределениям степеней связности вершин и ребер. Математическую основу методов составляют теория случайных графов с нелинейным правилом предпочтительного связывания и теория случайных графов Эрдеша—Реньи.
Ключевые слова: случайные графы, распределения степеней связности вершин и ребер (дуг), нелинейное правило предпочтительного связывания. Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-31-60023 мол_а_дк.
1. Введение. Математическая основа науки о сетях — теория случайных графов — в последние два десятилетия обогатилась развитым математическим аппаратом, обеспечивающим возможность построения и исследования разнообразных графовых моделей реальных растущих сетей. Теория [1, 2] случайных графов с нелинейным правилом предпочтительного связывания (НППС) отличается широкими возможностями калибровки графовых моделей по статистическим данным о моделируемых сетях. Тем самым теория графов с НППС позволяет формировать адекватные модели широкого класса сетей и использовать эти модели для прогнозирования хода развития исследуемых сетей и/или для разработки эффективных стратегий управления сетевыми проектами.
Граф с НППС выращивается из небольшого графа-затравки путем добавления к графу в моменты t = I,, ^ ... очередного приращения графа — новой вершины со случайным числом х исходящих из нее дуг. Концы дуг приращения связываются со случайно выбираемыми вершинами графа. Вероятность р. того, что дуга выберет для связи вершину пропорциональна весу / этой вершины, определяемому через ее степень связности к.
Р, =■
/ (к) . £/%)
]=г
где N — число вершин граф а.
При неограниченном добавлении приращений формируется бесконечный граф. Таким образом, случайный граф с НППС задается двумя параметрами — распределением {тк} = [т^, ..., тк} вероятностей случайной величины х (числа дуг у приращения) и весовой функцией /(к) > 0. При этом /(к) > 0 тогда и только тогда, когда в < к < М (где В > 0, М < ю). Функция /(к) может задаваться в виде индексированной переменной /к или в виде последовательности весов { /к}.
В статье выявляется неоднородность структуры социальных сетей и разрабатываются учитывающие эту неоднородность методы комплексной калибровки случайных графов с НППС: графы калибруются одновременно по распределениям степеней связности (РСС) вершин и ребер.
2. Теория. Распределения степеней вершин. При заданном распределении {гк} числа х дуг в приращениях графа и заданных весах {/к} стационарное (при í ^ ю) РСС вершин графа определяется найденной в [1 ] рекуррентной формулой:
а
Яд <f ) + mfk _lQlc_l <f ) + mfk
(f) = +LQQ
k= g
<~) f +kQQ f 2m .
k=g
Q,k =
fk-i Qrßk-! + m2Q^) + f—Ш2lQ1_lk
m« f> + mfk + mf ) 1, k = g, g+1, g + 2.....
ребра инцидент+н вершине со степенью 1, а другой конец рсбрв — ве+шине со степенью к, на, ходим 0рД (Q,k + Qk1)/2. Сеедовательно, матрица 0 = ||0 || РСС ребер графа может быть рсссчи-тана ikо малице Q = || Ql-\\ PQC +уг путf-м преоС-разсвания:
i T
© = ^(Q + QT)
(в=
где T — вдмвол транспониров^ния матрицы.
Зад аоа комплексной калибровки графов с НППС. Постановка задачи: по заданному РСС {f+ верс ин модслируемей сети (возможкс, оглаженному) и известному э мпир иче скнм— ЦС Д 0 = \\&, о || ев ребед трвбуется найт+ bbjcobt+oc—ос Qk— н веса [f^, которые торождсвнт гттссв заданным рсс вершин {Qk} и доставляют минимум втксонения РСС 0 степен ей ребе+ г]зц фа от заданного РСС 0:
я(Н, Н) и
k= g, g+1, g+2, ... (2)
( u V'2
// (И д — в,, )2
v' e rg
^ rein
(7)
где бв — вероятность того, что с луч айно выбранная вершина бесконечного графа будет иметь степень ввязности к; т ь Ь1к(кгк) — среднее число дуг в приращении, а значение (/) среднего веса вершины рассчитывается еиелннно путем решения системы уравнннии (ь) с добаввснным к ней уравнением
(3)
В качестве проверочного равенства используется вытеяающ ее из построения граф а равенство средяей степени {Q у=ввеннод с+сддей етегтеони прира щения:
(4)
В [1] описана иростая процедура быстрего численного решения системы (3), (4) в электр он ных таблицах (например, в Ехсе1).
Распределения степеней дуг / ребер. Задача расчета РСС дуг / ребер для графов с НППС в общем виде вперв ые решена в [3]. При заданных {гк} и (/к} ввфащивается граф со стационарным распределенаем вероятностей дуг, определяемым рекуррентной форнулой
(5)
где И1к — вероятность того, что случайно выбранная дуга исходит из вершины с о степенью } и заходит в вершину со степенью к. Матрица Q = || || рассчитывается по Ыириуле (5) построчно. Вероятности ик определены выше.
Если ораф с НППС используется для моделирования сетей снеериентаровенными связями, то дуги в нем заменяются ребрами. Обозначая через 0,к стационарную вероятность того, что случайно выбранный конец случайно выбранного
Параметр и > g выбирается по графиту РСС ребер моделируемой сети так, чтобы двумерный интервая [g, и]2 оеватие обеасти характерных значений 01к. Варьируемыми параметртми в зсдаче (7) являются вероятности {гк} = т^, ..., тк и последе]са-тельность весов {/} В отличие от способа решения этой задачи, предложенного в [4], здесь мы не обязательно будем использовать веса ук}, оуеспечива-ющие точную реализацию заданного РСС вершин Шк}. Если требуемые РСС {2к} и у можно реализовать приближенно при естественных весах /к = к, то именно такие веса будем считать решением задачи. И если при этом удастся найти подходящее простое определение вероятностей {тк}, то такие ,тк} мы предпочтем оптимальным в смысле задачи (7) вероятностям.
3. Особенности структуры социальных сетей. В статье [4] продемонстрирована комплексная калибровка растущего случайного графа, моделирующего сеть автономных систем (АС), состоящую из 22 963 узлов и 48 436 связей между ними. Качество комплексной калибровки графа, выполненной по данным о сети АС, иллюстрируется графиками на рис. 1. По горизонтальным осям на графиках РСС ребер отложены значения 1 и к, по вертикальной оси — вероятности 01к того, что случайно выбранное ребро графа инцидентно вершинам со степенями 1 и к (0 = 0к1 при любых 1, к). Если речь идет о моделируемой сети, то вместо слов вершина и ребро используются слова узел и связь. Сравнение последних двух графиков на рис. 1 показывает, что при моделировании сети АС алгоритм комплексной калибровки, предложенный в [4], привел к качественному результату. Это свидетельствует о том, что механизм роста сети АС хорошо описывается правилом (1).
Однако при моделировании социальных сетей выясняется, что применение этого алгоритма комплексной калибровки не приводит к столь же хорошим результатам, как при моделировании технической сети АС.
Рассмотрим, например, результат (рис. 2) применения алгоритма при моделировании социальной сети ВпдМкйе по данным [5] о ее топологии. Сеть ВпдМкйе на момент сбора этих данных содержала 58 228 узлов и 214 078 связей. Несходство формы
Рис. 1. РСС ребер случайного графа с НППС (слева — после калибровки по РСС вершин, в центре — после комплексной калибровки) и РСС связей между узлами сети АС (справа)
двух графиков на рис. 2 еще может быть сочтено терпимым. Но диапазон вероятностей 0 (отложенных по вертикали) у РСС ребер графа оказался в два с лишним раза более узким, чем у РСС связей сети ВпдМкйе. Это не позволяет признать полученную калибровку приемлемой.
В ходе дальнейших исследований возникла гипотеза, что сеть ВпдМкйе скомпонована из двух сетей с разной структурой и ее, соответственно, следует моделировать композицией (объединением) двух графов с НППС (двух компонент), изолированных или слабо друг с другом связанных. Такие компоненты естественно называть компонентами с автономной структурой. Мы исследовали различные предположения о двух основных компонентах сети ВпдМкйе. Значительное сближение РСС ребер графа с РСС связей в сети получено при соединении следующих двух компонент. Первая компонента ф икси ро в ана — это дерево Барабаши — Альберт, представляю щее собой частный случай графа с НППС, определяемый параметрами т = g = 1 (т.е. г, = 1) иМ = к (к = 1, 2,.). Вторая компонента — это граф-гомплемент с НППС, композиция которого с деревом минимизирует целевую функцию (7). Пусть композиция содержит N вершин, а входящие в нее дерево и граф-комплемент — N¡ = pN и Ы2 = (1 — р^ вершин соответственно (0 < р < 1). Легко видеть, что РСС {Дк} вершин графа-композиции явдается смесью РСС вершин компонент:
ок =рбя т (1 - та
к = 1, 2,
(8)
где 0д[, Од: — в ероят нося и с д епени к у вершин первой и второр кгмпонрнг сортветственно. В (8) вероятности ая для дерева определяются расчетом по формуле (3), а вероятности Д заданы (это
сглаженное РСС ведшкн сети ВпдМкйе). Поэтому при известном р фярмцла (Я) одморцаанр определяет варогтности ОД степеней к для вершин графа-комплемента. Соответстверно, параметры т, т' и т" этих графов связаны формулой т = рт' + + (1 — р)ла", где м р= 3,6-63 (как I- язамьной секи), т' = 1 (для дерева БА). Отс м дт п е и з пда я ном р находим т" = (г — рю' )/( 1 — р) = (т п р)/(1 — р).
Аналогичнг РС=(Д 3 6Дребер двухкомпонентного графа является амесью РСС ребер его компонент:
ю ,я=й=ч;,ям(г-йеюю, ^ = 1, 2,
(9)
где у графа:
доля рсДер де-ева в числе ребер всего
й = оро / оО = п'с / о = р / о.
(10)
При заданном р задача (7) решается варьированием параметров только графа-комплемента. После этого уточняется р и снова решается задача (7). За две таких итерации величина р определена равной приблизительно 0,225. Полученное распределение {гк} у второй компоненты содержит вероятности {г,, ..., г40}, доставляющие минимум целевой функции (7). Весовая функция второй компоненты линейна:Мк = к (к = 1, 2, ...); это делает модель в целом более естественной. На рис. 3 показан график РСС ребер графа, объединяющего две описанные компоненты с автономной структурой.
По форме этот график расчетного РСС ребер практически совпадает с графиком РСС связей (см. рис. 2 справа) в сети ВпдМкйе (график «зашум-лен» статистическими погрешностями). Более точного совпадения диапазонов на вертикальных осях сравниваемых графиков легко добиться небольшим
Рис. 3. Расчетное РСС ребер калиброванного двухкомпонентного графа
уменьшением параметра р, повышающим также и сходство форм графиков.
Во всех рассмотренных примерах РСС вершиР, калиброванных графов совпадает с РСС узлов моделируемых сетей, и правильность расчетов подтверждена имитационным моделированием (ИМ) графов. я
Резкое повышение точности графовой модели в результате ее «сборки» из двух разных графов с НППС позволяет предположить, что моделируе -мая сеть ВпдМкйе также является композицией сетей с автономными структурами.
Далее в статье рассматривается геосоциальная («геоконтактная», «геолокационная») сеть Gowalla. При комплексной калибровке графа для моделирования этой сети также выявляется ряд специфических особенностей ее структуры, которые не удается объяснить, считая эту структуру однородной.
4. Гипотеза о неоднородности сети Gowalla. Данные об узлах сети Gowalla и связях между ними, собранные за период с февраля 2009 года по о к-тябрь 2010, опубликованы в [6]. По этим даннык нами рассчитаны РСС {Дк} узлов сети и РСС 0 связей между ними (рис. 4).
На этом рисунке (справа) показано также РСС ребер графа с НППС, калиброванного предложенным в [4] методом, который обеспечивает точную реализацию заданного РСС вершин и использует нелинейные веса. Это наилучший результат комплексной калибровки, достигаемый применением данного метода.
Как и в случае с моделированием сети ВпдМкйе, подход к сети Gowalla как к однородной структуре не привел к удовлетворительной калибровке. И, соответственно, возникает предположение, что сеть Gowalla тоже является композицией сетей с автономными структурами.
5. Неожиданные проблемы и неожиданные решения. Попытки получить РСС ребер графа, соответствующее РСС связей в сети Gowalla, путем объединения двух графов с НППС с автономной структурой (по аналогии с моделированием сети ВпдМкйе) не привели к успеху. В результате такой калибровки всегда получаются графики РСС ребер, имеющие плоские или вогнутые скаты поверхности графика и/или явно неподходящие диапазоны значений 0 на вертикальной оси координат (как и на последнем графике на рис. 4). Эта проблема (первая) оказалась весьма неожиданной.
Выпуклый скат поверхности у графика РСС ребер графа (см. первые два изображения на рис. 4) может быть получен в том случае, если одна из компонент графа будет графом Эрдеша —Реньи (графом ЭР) [7], т.е. «классическим» случайным графом. Нообязательно должна присутствовать и компонента, представляющая собой граф с НППС с линейными весами мк — она обеспечит должное медленное (по степенному закону) убывание вероятностей Д1к с ростом 1 и к, наблюдаемое в сети Gowalla.
И еще две неожиданные проблемы возникли при поиске таких компонент (графа ЭР и графа с НППС с линейными весами), композиция которых позволила бы получить РСС ребер, близкое к РСС связей в сети Gowalla. Одна из этих проблем состоит втом,что, хотя ЭР-компонента и позволяет получить весьма близкое сходство форм графиков сравниваемых РСС, она все же формирует слишком крутой скат поверхности на графике РСС ребер (намного более крутой, чем требуется). Компенсировать это подбором подходящей второй компоненты (графа с НППС) не удается.Другая проблема заключается в невозможности получения при калибровке острого пика у поверхности графика РСС ребер (см. последний график на рис. 4).
Нетрудно догадаться, сравнивая пуассоновское РСС вершин в графе ЭР с нормальным распределением, что для получения более пологого ската у поверхности графикаРСС ребер следует увеличить дисперсию РСС вершин. Однако сделать это требуется без изменения математического ожидания (м.о.) РСС. А это невозможно, поскольку у пуассоновского распределения м.о. равно дисперсии. Для решения этой проблемы нами введено понятие автокоррелированного ЭР-графа (АЭР-гра-фа), при построении которого между случайными связываниями пар вершин вводится положительная корреляция.
Использование АЭР-графа в качестве компоненты решило одновременно все три проблемы — поверхность графика РСС ребер получилась при
Рис. 4. Слева и в центре — РСС связей в сети Gowalla (два ракурса трехмерного графика), справа — наилучший результат калибровкии однородного графа с НППС
Рис. 5. Слева расчетное РСС ребер калиброванного двухкомпонентного графа, в центре — РСС ребер калиброванного графа, полученное путем ИМ, справа сравниваются РСС вершин графа и РСС узлов сети
калибровке выпуклой, ее скат — более пологим, пик поверхности получился острым.
6. Описание калиброванного графа. Граф на N вершинах, калиброванный по данным о сети Gowalla, состоит из двух компонент. Первая компонента представляет собой АЭР-граф на N1 = pN вершинах, где р » 0,35. Вторая компонента — это граф с НППС на N2 = (1 — р^ вершинах. Если возьмем N =100 000, то получим N¡ = 35000, N2 = 65 000.
АЭР-компонента строится следующим образом. Берется N¡ изолированных вершин. От вершины I = 1 проводится ребро к вершине у = I + 1 (затем к вершине у = I + 2, у = I + 3, ..., у = N¡) с вероятностью р = (ра + х.)/2, где ра = a/(N¡ — 1); а = 2,75 — средняя степень вершины. Случайная величина = 0, если к вершине у — 1 ребро не проведено, и = 1, если к вершине у — 1 ребро проведено. Далее аналогично разыгрываются ребра, связывающие вершину I = 2 (вершину I = 3, 4, ..., N¡ — 1) с вершинами у = I + 1, I + 2, ..., N¡. После того как граф выращен, из него удаляются все изолированные вершины и изолированные пары вершин, соединенных одним ребром.
Вторая компонента — граф с НППС — выращивается при линейных весах вк = к и простом ограниченном степенном распределении {тк}, определяемом формулой тк и 0,3004С0 - 0,(259)_1,е5бе, к = 1, ..., 50.
График расчетного РСС ребер описанного двухкомпонентного графа показан на рис. 5 слева (удаление изолированных пар связанных вершин при расчете не учитывалось). В центре приведено РСС ребер графа, выращенного путем ИМ. Сравнивая эти графики РСС ребер графа с графиком РСС связей в сети Gowalla (см. рис. 4 в центре) и учитывая ручной способ подбора параметров компонент калиброванного графа, приходим к заключению, что этот граф удовлетворительно воспроизводит структуру сети Gowalla. Последний график на рис. 5 показывает, что РСС { ик} вершин калиброванного графа удовлетворительно описывает РСС узлов сети.
Качество этого полученного «вручную» результата калибровки свидетельствует о возможности значительного ее уточнения путем постановки и решения соответствующим образом сформулированной экстремальной задачи. Отсутствие «искусственных» технического характера настроек (сложных нелинейных весов и «оптимизированных» наборов {тк}), необъяснимых логикой реальных механизмов формирования сети, позволяет предположить, что моделируемая сеть Gowalla действительно состоит из ответствующих подсетей с автономной структурой.
Заметим еще, что естественным представляется и предположение о корреляции успехов при разыгрывании ребер в АЭР-компоненте калиброванного графа, поскольку оно согласуется с применявшимися в сети Gowalla методами стимулирования активности пользователей [8, 9].
7. Заключение. Полученные в исследовании результаты свидетельствуют о неоднородности структуры некоторых социальных сетей.
Социальная сеть ВпдМкйе может быть представлена в виде композиции (объединения) двух крупных компонент с автономными структурами. Обе компоненты хорошо описываются графами предпочтительного связывания.
Геосоциальную сеть Gowalla можно рассматривать как композицию автокоррелированной случайной сети Эрдеша —Реньи и сети, описываемой графом предпочтительного связывания. Соответствующая модификация графа Эрдеша — Реньи — автокоррелированный ЭР-граф, введенный в статье, учитывает автокоррелированное поведение устанавливающих связи пользователей сети, поведение, на которое влияет память о предыдущих успехах и неудачах.
На практике построение хорошо калиброванных графовых моделей сетей и компьютерные эксперименты с этими моделями должны помочь разработчикам (владельцам) сетей правильно прогнозировать их развитие и выбирать эффективные стратегии управления сетевыми проектами. История [9] создания сети Gowalla, неожиданного ее проигрыша конкурирующим сетям и последующей вынужденной продажи владельцам сети Facebook наглядно характеризует актуальность такого моделирования сетей.
Библиографический список
1. Задорожный В. Н. Случайные графы с нелинейным правилом предпочтительного связывания // Проблемы управления. 2010. № 6. С. 2-11.
2. Zadorozhnyi V. N., Yudin E. B. Growing network: models following nonlinear preferential attachment rule // Physica A: Statistical Mechanics and its Applications. 2015. Vol. 428. P. 111 — 132. DOI: 10.1016/j.physa.2015.01.052.
3. Задорожный В. Н. Растущие сети: динамика распределения степеней связности смежных узлов // Омский научный вестник. Сер. Приборы, машины и технологии. 2016. № 2 (146). С. 81 — 86.
4. Задорожный В. Н., Юдин Е. Б. Калибровка случайных графов предпочтительного связывания по распределениям степеней вершин и ребер // Омский научный вестник. Сер. Приборы, машины и технологии. 2017. № 1 (151). С. 114 — 119.
5. Leskovec J. Brightkite. Dataset information. 2011. URL: http://snap.stanford.edu/data/loc-brightkite.html (дата обращения: 19.02.2017).
6. Leskovec J. Gowalla. Dataset information. 2010. URL: http://snap.stanford.edu/data/loc-gowalla.html (дата обращения: 19.02.2017).
7. Erdos P., Renyi A. On the evolution of random graphs // Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5 (1960). P 17 — 61.
8. Финберг А. Геосоциальные сети: Foursquare; Altergeo; Gowalla (презентация). URL: http://keepslide.com/business/2655 (дата обращения: 19.02.2017).
9. Хохлова Д. Смерть стартапа: «Как я выпустил аналог Foursquare в день его запуска». 2015. URL: https://vc.ru/p/ gowalla (дата обращения: 19.02.2017).
ЗАДОРОЖНЫЙ Владимир Николаевич, доктор технических наук, доцент (Россия), профессор кафедры «Автоматизированные системы обработки информации и управления» Омского государственного технического университета. Адрес для переписки: [email protected] ЮДИН Евгений Борисович, кандидат технических наук, старший научный сотрудник Института математики им. С. Л. Соболева СО РАН, Омский филиал.
Адрес для переписки: [email protected]
Статья поступила в редакцию 20.02.2017 г. © В. Н. Задорожный, Е. Б. Юдин