УДК 519.2:004.421.5:004.7
В. Н. ЗАДОРОЖНЫЙ Е. Б. ЮДИН
Омский государственный технический университет, г. Омск
Институт математики им. С. Л. Соболева СО РАН, Омский филиал
КАЛИБРОВКА СЛУЧАЙНЫХ ГРАФОВ ПРЕДПОЧТИТЕЛЬНОГО СВЯЗЫВАНИЯ ПО РАСПРЕДЕЛЕНИЯМ СТЕПЕНЕЙ ВЕРШИН И РЕБЕР
Разрабатываются методы калибровки случайных графов предпочтительного связывания при моделировании больших растущих сетей. Графы калибруются по распределениям степеней с в язности вершин и ребер. М а тематической основой методов я в ляется теория случайных графов с нелинейным правилом предпочтительного связывания. Полученные результаты расширяют возможности адекватного моделирования и исследования реальных р астущих сетей (социальных, телекоммуникационных, транспортных, террористических, финансовых и т.д.).
Ключевые слова: случайные графы, распределения степеней с в язности вершин и ребер (дуг), нелинейное правило предпочтительного связывания.
Исследование выполнено при финансовой поддержке РФФИ в рампах научного проекта № 16-31-60023 мол_а_дк.
1. Введение. В науке о сетях (Network Science) установлено, что свойства широкого класса больших сетей определяются механизмом их роста, называемым правилом предпочтительного связывания. Такие сети моделируют случайными графами, выращиваемыми по правилу предпочтительного связывания, первая версия которого [1] включает следующие два пункта.
1. Граф растет за счет добавления к нему на каждом шаге времени ie{1, 2, ...} новой вершины с x = =m = const ребрами (называемой приращением графа [4]). Исходный небольшой граф (затравка) задается произвольно.
2. Каждое из x ребер новой вершины присоединяется свободным концом к случайно выбираемой вершине графа. Вероятность pt присоединения ребра к вершине i пропорциональна локальной степени связности kj этой вершины:
к
Z k>
j=1
i = 1, ..., N,
(1)
вания, охватывая в качестве частных случаев ряд ее ответвлений (таких как [1, 7]) и решая новые задачи. К ним относится и задача калибровки графов, моделирующих реальные сети. В [4 — 6, 8, 9] предлагаются методы, алгоритмы и программы, позволяющие калибровать графы с НППС по распределениям степеней связности (РСС) вершин. В данной статье впервые решается задача калибровки графов с НППС одновременно и по РСС вершин, и по РСС ребер.
2. Исходные положения. Распределения степеней вершин. В теории случайных графов с НППС [4 — 6, 8, 9] приращения графа в общем случае являются стохастическими и ориентированными, т.е. представляют собой новые вершины со случайным числом х исходящих дуг; Р(х = к)=гк, д<к<Л, гд + ... +гл=1. Здесь д>1 — наименьшая степень приращения.
Конец каждой дуги приращения связывается со случайно выбранной вершиной графа. Вероятность р( связывания с вершиной г пропорциональна некоторой функции (весу) / от степени связности к( этой вершины:
где N — число вершин графа.
Это правило обусловливает тем большую вероятность р1 связывания нового ребра с вершиной г, чем больше ребер с нею уже связано.
В других версиях правила предпочтительного связывания вероятность рг может определяться индивидуальной предпочтительностью вершины [2], зависеть от времени [3] или от иных факторов.
Теория случайных графов с нелинейным правилом предпочтительного связывания (НППС) [4 — 6] развивает теорию графов предпочтительного связы-
Рi =
f (к,)
Zf (kj)
j=1
i, j=1,
N,
(2)
где вес /(к)>0, если д<к<М, иначе /(к) = 0 (здесь М<¥). Для функции /(к) целочисленного аргумента к иногда удобнее использовать обозначение /к.
Обозначим через N0 число вершин в затравке графа. Отсчет времени будем начинать с момента t0 = N0. На шаге времени t=t0+ 1 к графу добавляется первое приращение, дуги которого связываются
p
с вершинами имеющегося графа по правилу (2), и число вершин в графе возрастает на единицу. Далее эта операция повторяется на каждом новом шаге времени t. Поэтому всегда сразу после добавления очередного приращения выполняется равенство N=t.
В статье [4] решены задачи анализа и синтеза (калибровки) графов с НПСС в части финального РСС вершин, достигаемого при N®¥. Решения этих задач даются следующими основными соотношениями.
При заданном распределении {гк} числа х дуг в приращении и заданной весовой функции /(к) стационарное РСС вершин графа определяется формулой:
Ок
Гк </> + ш!к _Ок
< I > + ш!к
к = д, д+1, д+2,
(3)
< I > = £ о
(4)
к=д
<к>= £ кОк = 2т.
(5)
к=д
Ок-1 г + Гк 1I, 1 "Т
Ок
Ок
-1
к = д, д+1, д+2,
М+1 = 0 , < I > = т ,
(6)
0 < г,. < 1
£ г
1
■Л. < к>
т = у 1Г. =-
¿ш^ 1 О ,
.=д 2
£ г >£ о, (
"к = д,Л ).
(7)
Распределения степеней дуг/ребер. Задача анализа РСС дуг/ребер для графов с НППС впервые решена в общем виде в статье [10]. При заданных {гк} и 1(к) выращивается граф с финальным распределением вероятностей дуг, определяемым формулой
4-1№Ок-1 + т2о,к-1) +1-1т2О-1Д т(<1 > + т!к + т!1) 1, к = д, д+1, д+2.....
(8)
где Ок — вероятность того, что случайно выбранная вершина будет иметь степень связности к; т = =5к(кгк) — среднее число дуг в приращении, а значение <1 > среднего веса вершины рассчитывается численно путем решения системы уравнений (3) с добавленным к ней уравнением
При этом вероятности Ок и средний вес <1 > определяются одновременно, а в качестве проверочного равенства используется формула для определения средней степени <к> , которая по построению графа должна быть равна 2т:
где О кк — вероятность того, что случайно выбранная дуга исходит из вершины со степенью 1 и заходит в вершину со степенью к. Матрица 0 = ||О1к|| рассчитывается по формуле (7) построчно. Вероятности Ок определены выше.
При х = т = д имеем гд =1 (приращения графа с НППС становятся постоянными). Формула (8) при этом превращается в формулу для О1к, найденную в [6]. Если еще положить, что 1(к)=к, то граф с НППС становится графом Барабаши — Альберт, и формула (8) превращается в формулу РСС дуг этого графа, найденную в [9].
Если граф с НППС используется для моделирования сетей с неориентированными связями, то дуги в нем заменяются ребрами. Обозначая через ®1к финальную вероятность того, что случайно выбранное ребро, проходимое в случайном направлении, ведет из вершины со степенью 1 в вершину со степенью к, получаем ®1к=(О1к + Ок1)/2. Следовательно, матрица © = ||©1к|| РСС ребер графа может быть рассчитана по матрице 0 = ||01к|| РСС дуг с помощью следующего преобразования:
1 т
© = + от).
(9)
В [4] предложена простая процедура численного решения системы (3), (4).
Задача синтеза (калибровки) графа с НППС по РСС вершин является обратной по отношению к задаче анализа. Задано РСС {Ок}, требуется найти распределение {гк} числа дуг в приращении и функцию 1(к) такие, чтобы выращивался граф с РСС вершин {Ок}. Решение этой задачи, также найденное в [4], дается следующей формулой, вытекающей из формулы (3):
Возможность быстрого точного расчета РСС ребер по формулам (9), (8) позволяет поставить комплексную задачу калибровки графов с НППС одновременно и по РСС вершин, и по РСС ребер.
3. Постановка и решение комплексной задачи калибровки графов с НППС. Постановка задачи: по заданным РСС {Ок} и © = || © 1к || требуется найти распределение {гк} и функцию I, которые обеспечивают РСС вершин {Ок} и доставляют минимум отклонения РСС © степеней ребер от заданного РСС ©:
Щ©,©) = тах | ©ш - ©ш |
(10)
где Од-1 = 0 . При этом вероятности Гд, ..., гл следует задавать так, чтобы среднее число дуг в приращении
т = £к(кгк) было равно <к>/2, а веса I ..., 1Л в (6)
были неотрицательными. В статье [6] эти условия формализованы так:
Целевая функция Щ(©,©) экстремальной задачи (10) представляет собой расстояние Колмогорова между распределением © степеней ребер выращиваемого графа и заданным распределением ©. Варьируемыми переменными являются вероятности Гд, ..., гл. Область допустимых решений (ОДР) определяется ограничениями (7). Как показано в [6], эта ОДР непустая, если Л>Л*, где Л* является наименьшим Л, удовлетворяющим неравенству
£[1 - Ро(1)] > т ,
(11)
Обычно имеется бесконечно много таких наборов Гд, ..., гл. Любой из них при весах (6) обеспечивает требуемое финальное РСС {Ок} вершин графа.
где РО(1) = £ Ок . Далее будем полагать, что выбрано
к=0
значение Л>Л* и исключим из рассмотрения малоинтересный и маловероятный случай, когда ОДР (7) содержит единственную точку.
Таким образом, при заданном РСС вершин {Ок}, определяющем параметр т = <к> / 2 , и заданном РСС
4 =
=0
1=д
.д
д
й, 1 0 1 2 3 4 к 5 6 7 8 9 10
0 0 0 0 0 0 0 0 0 0 0 0 0
0,34145 1 0 0 0,00142 0,00232 0,00231 0,00211 0,00185 0,00153 0,00171 0,00149 0,00148
0,42246 2 0 0,00142 0,0045 0,00415 0,00372 0,00372 0,00303 0,00273 0,00323 0,00246 0,00235
0,09664 3 0 0,00232 0,00415 0,00233 0,00161 0,00114 0,00092 0,00083 0,00093 0,00075 0,00092
0,03874 4 0 0,00231 0,00372 0,00161 0,0012 0,00055 0,00057 0,00032 0,00037 0,00041 0,00046
0,01985 5 0 0,00211 0,00372 0,00114 0,00055 0,00041 0,00032 0,00018 0,00026 0,00013 0,00017
0,01273 6 0 0,00185 0,00303 0,00092 0,00057 0,00032 0,00031 0,00019 0,0001 0,0002 9,3Е-05
0,00941 7 0 0,00153 0,00273 0,00083 0,00032 0,00018 0,00019 0,0001 0,00012 0,00012 0,0001
0,00722 8 0 0,00171 0,00323 0,00093 0,00037 0,00026 0,0001 0,00012 6,2Е-05 8,3Е-05 8,3Е-05
0,00571 9 0 0,00149 0,00246 0,00075 0,00041 0,00013 0,0002 0,00012 8,3Е-05 4,1Е-05 0,0001
0,00462 10 0 0,00148 0,00235 0,00092 0,00046 0,00017 9,3Е-05 0,0001 8,3Е-05 0,0001 0
Рис. 1. РСС {о,} узлов и РСС ©=||0,к|| связей сети АС (фрагмент)
1 0,1 0,01 0,001 0,0001
10
100
к
йк
Рис. 2. Слева эмпирическое распределение о (маркеры) степеней узлов сети АС и сглаженное распределение Ок (линия). Справа выделен график сглаженного распределения Ок
© = || ©,к || имеем задачу выбора в области (7) решения г , ..., гь, определяющего посредством цепочки преобразований (6), (3), (8), (9) распределение © = = ||©к|| степеней ребер выращиваемого графа, которое минимизирует целевую функцию Щ©,@) (10). При этом заданное РСС вершин |Ок| реализуется графом точно, а заданное РСС ребер © = || ©,к || реализуется с минимальной в смысле расстояния Колмогорова погрешностью.
Численные эксперименты показывают, что задача (10), (7) эффективно решается стандартными градиентными методами и что если в ее постановке
заменить расстояние Колмогорова тах | ©к - ©к |
1,к
мерой погрешности (©к - ®к) , то решение задачи практически не изменяется.
4. Пример решения комплексной задачи калибровки. В качестве примера рассмотрим решение поставленной задачи калибровки при моделировании сети автономных систем (АС) Интернета по данным [11]. Сеть содержит 22 963 узла и 48 436 ребер, максимальная степень вершины к =2390. Начальные
^ тах ___
фрагменты РСС |Ок| узлов сети и РСС © = || ©,к || ее связей представлены на рис. 1.
Важно заметить, что РСС узлов моделируемой сети (первый столбец на рис. 1) представляет собой сглаженное распределение (график которого показан на рис. 2 справа) полученное из эмпирического распределения (рис. 2 слева) степеней узлов. Это сглаживание, основанное на тщательном теоретическом исследовании сети АС в статьях [4, 6], минимизирует влияние погрешностей эмпирических оценок вероятностей на результаты решения комплексной задачи калибровки.
Сглаженное распределение {Ок| точно реализуется графом с НППС, калиброванным в [6] по РСС вершин. Этот граф определяется в [6] следующими параметрами: д=1, Л = 5; г1, ..., г5 = 0,34145, 0,42246, 0,09664, 0,0645, 0,07495; т = 2,1093; {/1, ..., /5} = = {0; 0; 0; 0,6329; 3,8769}; /к = 0,8949к при к>5. Взяв это сглаженное РСС {Ок} за основу, мы можем теперь точно воспроизвести его в графе с НППС при любом {гк}, принадлежащем ОДР (7), если веса / определим по формулам (6). Такой расчет весов выполняется на компьютере «мгновенно» и при (/) = т эти веса вместе с использованным {гк} действительно определяют по рекуррентной формуле (3) в точности то же самое РСС {Ок} вершин (сглаженное), которое требуется реализовать. Таким образом, первая часть рассматриваемой комплексной задачи калибровки графа решается без каких-либо вычислительных проблем. Остается решить вторую часть задачи — приблизить РСС ребер графа к заданному РСС © = || ©,к ||.
На рис. 3 слева приведен график рассчитанного по формулам (6), (3), (8), (9) РСС © = ||©Л ребер графа с НППС, калиброванного в [6] только по РСС вершин (параметры для генерации этого графа приведены выше).
Справа на рис. 3 приведен график РСС © = || ©,к || связей в моделируемой сети АС (фрагмент матрицы © см. на рис. 1). Сравнение графиков на рис. 3 показывает, что назвать их близкими можно лишь с большой натяжкой.
Поэтому имеет смысл попытаться сблизить реализуемое РСС © ребер графа с известным РСС © связей в моделируемой сети, решая задачу (10), (7). Из (11) и заданного РСС вершин {Ок} нетрудно определить, что мы можем использовать любое N>5. Поскольку цепочка преобразований (6), (3), (8), (9),
0,0025 0,002 0,0015 0,001 0,0005
0,005 0,0045 0,004 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0
Рис. 3. Слева РСС ребер графа, калиброванного в [6] только по РСС вершин, справа РСС связей в моделируемой сети АС
Рис. 4. РСС ребер графа, калиброванного по РСС ребер при h = 5, 6, 10 и 20
определяющая © через значения варьируемых параметров r1, ..., rh, легко реализуется на одном листе Excel, мы можем при выбранном h быстро минимизировать целевую функцию (10) с помощью сервиса «поиск решения».
На рис. 4 представлены графики РСС ребер графа, реализуемого в результате такой оптимизации распределения {rk] при различных значениях h.
Нетрудно видеть, что РСС ребер графа с ростом h приближаются к РСС связей в моделируемой сети (показанному на рис. 3 справа). При этом заданное сглаженное РСС вершин {Qk} при всех рассмотренных h реализуется точно. Параметры для выращивания графа при h = 20 таковы:
1) {г1Г ..., r20} = {0,37009; 0,45798; 0,106; 0,0331; 0,00214; 0,00819; 0,00384; 0; 0,00386; 0; 0; 0,0038; 0,00173; 0; 0; 0; 0; 0,00093; 0,00047; 0,00788};
2) ..., /20} = {0,08389; 0,15189; 0,76084; 1,75237 2,52761; 3,5848; 4,25984; 4,5506; 5,43441; 5,71515; 5,92737 7,25874; 8,181; 8,51582; 8,806; 9,0512; 9,25108; 10,0695 10,6298; 17,8403};
если ¿>21, то = 0,89202.к.
При таких {гк} и / генерируется граф с т = 2,109055 и (/) = т , с заданным РСС вершин {Ок} и с РСС ребер ©, близким к РСС связей в моделируемой сети АС.
5. Заключение. Постановка комплексной задачи калибровки и разработанный в статье метод ее решения существенно продвигают возможности использования графов с НППС для адекватного моделирования больших растущих сетей. Приведенный пример комплексной калибровки графа, моделирующего сеть АС, демонстрирует эффективность разработанного метода. Точно рассчитанное РСС вершин (см. рис. 2) и все точно рассчитанные
0
0
РСС ребер калиброванного при различных Л графа (см. рис. 4) подтверждены моделированием, т.е. непосредственным выращиванием графов.
В приведенном примере решения комплексной задачи используется сглаженное РСС узлов моделируемой сети. Это позволяет существенно ускорить и упростить решение комплексной задачи в части реализации требуемого РСС вершин и тем самым упрощает и ускоряет ее решение в части реализации требуемого РСС ребер графа. При этом РСС связей в моделируемой сети не сглажено, т.е. содержит существенные стохастические погрешности. Это приводит к следующим двум выводам.
Во-первых, предложенный метод обладает значительной робастностью. Несмотря на погрешности в исходных данных (т.е. в заданном РСС связей сети), метод позволяет достаточно быстро найти параметры для выращивания графа, имеющего РСС ребер, весьма близкое к заданному.
Во-вторых, погрешности в заданном РСС связей очевидным образом сказываются на процессе и результатах комплексной калибровки графа. В процессе оптимизации распределений {гк} градиентным методом (при фиксированных значениях Л) нет оснований полагать, что задача оптимизации выпуклая, и поэтому приходится несколько раз повторять оптимизацию при разных начальных условиях, чтобы убедиться, что процесс не остановился в каком-нибудь неудачном локальном минимуме целевой функции. На результатах калибровки это сказывается таким образом, что мы получаем не просто «хороший» граф, но и, одновременно, граф несколько «перекалиброванный». Так, сравнивая РСС ребер калиброванного графа (последний график на рис. 4) с заданным РСС связей сети АС (рис. 3 справа), нетрудно заметить, что РСС калиброванного графа стремится повторить «неровности» заданного РСС, порожденные стохастическими погрешностями.
Возможность «перекалибровки» графа «под погрешности» в исходных данных ставит задачу минимизации этих погрешностей. Такая минимизация погрешностей может быть достигнута за счет разработки методов сглаживания двумерных РСС связей сетей. Если моделируются сети большего размера (сеть АС содержит лишь 22 963 узла, а не миллионы узлов, как многие реальные сети), то исходные данные имеют меньшие стохастические погрешности, и проблема сглаживания становится не столь острой.
В целом полученные в статье результаты демонстрируют наличие у теории случайных графов с НППС широких возможностей для дальнейшего развития и значительных преимуществ перед частными моделями [1—3, 7], в которых заранее фиксируются вид функции предпочтения / и число дуг в приращении графа. Тонкая и точная комплексная калибровка графов с НППС, как показывает имитационное моделирование, приводит к лучшему соответствию структурных характеристик таких графов характеристикам моделируемых сетей, например, по частоте встречаемости типовых подграфов — мотивов [12]. Вместе с тем комплексная калибровка в об-
щем случае не гарантирует достаточное соответствие выращиваемых графов моделируемым сетям по частоте встречаемости мотивов. Это ставит перед теорией случайных графов с НППС задачу такого расширения числа параметров у приращений графа, которое позволило бы эффективно решать задачу калибровки графов и по встречаемости мотивов.
Библиографический список
1. Barabasi A. L., Albert R. Emergence of scaling in random networks // Science. 1999. 286. P. 509-512.
2. Bianconi G., Barabasi A. L. Competition and multiscaling in evolving networks // Europhys. Lett. 54. 2001. P. 436.
3. Dorogovtsev S. N., Mendes J. F. F. Effect of the accelerated growth of communications networks on their structure // Phys. Rev. E. 63. 2001. 025101.
4. Задорожный В. Н. Случайные графы с нелинейным правилом предпочтительного связывания // Проблемы управления. 2011. № 6. С. 2-11.
5. Zadorozhnyi V. N., Yudin E. B. Growing Network: Nonlinear Extension of the Barabasi-Albert Model, in Communications in Computer and Information Science. 2014. Vol. 487. P. 432-439.
6. Zadorozhnyi V. N., Yudin E. B. Growing network: models following nonlinear preferential attachment rule // Physica A: Statistical Mechanics and its Applications. 2015. Vol. 428. P. 111- 132. DOI: 10.1016/j.physa.2015.01.052.
7. Krapivsky P. L., Redner S. Organization of growing random networks // Phys. Rev. E 63. 2001. 066123.
8. Задорожный В. Н., Юдин Е. Б. Система агентного моделирования «SIMBIGRAPH» // Навигатор в мире науки и образования. 2012. № 4-7 (20-23). - С. 536.
9. Zadorozhnyi V. N., Yudin E. B. Structural properties of the scale-free Barabasi-Albert graph // Automation and Remote Control. 2012. Vol. 73. №. 4. P. 702-716. DOI: 10.1134/ S0005117912040091.
10. Задорожный В. Н. Уравнения динамики концевых степеней дуг в растущих графах // Динамика систем, механизмов и машин. 2016. № 1. Т. 3. С. 327-336.
11. Структура автономных систем сети Интернет, воссозданная на основе BGP таблиц, 2006. URL: http://www-personal. umich.edu/~mejn/netdata/as-22july06.zip (дата обращения: 01.09.2009).
12. Задорожный В. Н., Юдин Е. Б. Расчет числа сетевых мотивов методом случайной выборки каркасов // Омский научный вестник. Сер. Приборы, машины и технологии. 2015. № 2 (140). С. 208-211.
ЗАДОРОЖНЫЙ Владимир Николаевич, доктор технических наук, доцент (Россия), профессор кафедры автоматизированных систем обработки информации и управления Омского государственного технического университета.
Адрес для переписки: [email protected] ЮДИН Евгений Борисович, кандидат технических наук, старший научный сотрудник Института математики им. С. Л. Соболева СО РАН, Омский филиал. Адрес для переписки: [email protected]
Статья поступила в редакцию 20.12.2016 г. © В. Н. Задорожный, Е. Б. Юдин