THE STRUCTURE OF THE CITATION NETWORK OF SCIENTIFIC PUBLICATIONS
S.V. Bredikhin, V.M. Lyapunov, N.G. Shcherbakova
Institute of Computational Mathematics and Mathematical Geophysics of SB RAS
630090, Novosibirsk, Russian Federation
Methods of measurement of the parameters characterizing a structure of the citation network of scientific publications are presented: average distance, density and transitivity. Values of these parameters are calculated based on the citation data extracted from the bibliographic DB RePEc. Clustering analysis of co-citation, bibliographic coupling and summary graphs corresponding to the main network component is made using two algorithms of community detection. The comparison of results was done by computing NMI. Analysing allowed to detect groups of articles, joint by common subject and to characterize them.
Key words: average distance, density, transitivity, clustering coefficient, communities, clustering algorithm, modularity, NMI measure.
References
1. Bredihin S. V., Lyapunov V. M., Sherbakova N. G., Yurgenson A. N. Parametrv "central'nosti" uzlov seti citirovaniva nauchnvh statev // Problemv informatiki. 2016. № 1. S. 30-57.
2. Bredhhx S. V., Lyapunov V. M., Siierbakova N. G. Parametrv par uzlov seti citirovaniva nauchnvh statev // Problemv informatiki. 2016. № 2. S. 30 49.
3. General principles. [Electron, resource], http://repec.org.
4. MlLGRAM S. The small world problem // Psychol. Today. 1967. V. 2. P. 60 67.
5. Fortunato S. Community detection in graphs // Phvs. Reports. 2010. V. 486. P. 75 174.
6. Watts D. J. Small worlds: The dynamics of networks between order and randomness. Princeton: Princeton University Press, 1999.
7. Wassermax S., faust K. Social network analysis: Methods and applications. Cambridge: Cambridge University Press, 1994.
8. Broder A., Kumar R., et al. Graph structure in the web jj 9th International World Wide Web conference, Amsterdam (Netherlands), 2000. V. 33. P. 309 320.
9. Faloutsos M., Faloutsos P., Faloutsos ('. On power-law relationships of the internet topology // ACM conference on applications, technologies, architectures and protocols for computer communications, Cambridge (Engl.), 1999. P. 251 262. [Electron, resource], http:/ / www .cs .emu .edu / ^christos / publications / sigcomm99 .pdf.
10. Watts D. J., Strogatz S. H. Collective dynamics of,,small-world" networks // Nature. 1998. V. 393. P. 440 442.
11. Newman M. E. J. The structure and function of complex networks // SIAM Review. 2003. V. 45. P. 167 256.
12. Euel H., MlELSCll L. I., BORNHOLDT S. Scale-free topology of e-mail networks //Phys. Rev. E. 2002. V. 66, 035103.
13. Albert R., Barabasi A. L. Statistical mechanics of complex networks // Reviews of Modern Physics. 2002. V. 74. P. 47 97.
14. Burt R. S. The social structure of competition. Cambridge, MA: Harvard University Press, 1992.
15. CsARDl G., Nepusz T. The igraph software package for complex network research // InterJournal Complex Systems. 2006. 1695 P. [Electron, resource], http://igraph.0rg/r/d0c/.
16. Network analysis. Methodological Foundations. 2005. Springer, LNCS 3418.
17. mella M., Pentney W. Clustering bv weighted cuts in directed graphs // Proc. of the 2007 SIAM International conference on data mining, 2007. Apr. 26-28. Minneapolis (USA). P. 135-144.
18. Marshakova I. V. Sistema svvazev mezhdu dokumentami, postroennava na osnove ssvlok: po dannvm Science Citation Index // NTI, ser. 2. 1973. № 6. S. 3-8.
19. Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents // J. Amer. Soc. Inform. Sci. 1973. V. 24, iss. 4. P. 265-269.
20. Kessler M. M. Bibliographic coupling between scientific papers // Amer. Documentation. 1963. V. 14, iss. 1. P. 10-25.
21. Satuluri V., Parthasarathy S. Svmmetrizations for clustering directed graphs // Proc. 14th Internat. Conference on extending database technology, Uppsala (Sweden), March 21-25, 2011. P. 343-354. [Electron, resource], http://dblp.uni- trier.de/db/conf/edbt/edbt2011.html.
22. Kleinberg J. M. Authoritative sources in a hvperlinked environment // J. of the ACM. 1999. V. 46, iss. 5. P. 604-632.
23. Zhou D., Schulkopf В., Hopmann T. Semi-supervised learning on directed graphs // Advances in Neural Information Processing Systems Conference, Dec. 5-8, 2005. Vancouver (Canada). P. 1633-1640.
24. Guimera R., Pardo M. S., Amaral L. A. N. Module identification in bipartite and directed networks // Phvs. Rev. E 76 (3) 036102+. 2007.
25. Newman M.E.J., glrvan M. Finding and evaluating community structure in networks // Phvs. Rev. 2004. E 69 (2) 026113.
26. Newman M. E. J. Fast algorithm for detecting community structure in networks // Phvs. Rev. 2003. E 69 066133.
27. Arenas A., Duch J., Fernandez A., Gomez S. Size reduction of complex networks preserving modularity // New J. Phvs. 2007. V. 9, N. 6. P. 176-190.
28. Leskovec J., Lang K. J., Dasgupta A., Mahoney M. W. Statistical properties of community structure in large social and information networks // Proc. of the 17th International Conference on World Wide Web, Beijing (China), April 21-25, 2008. P. 695-704.
29. Yang Y., Leskovec J. Overlapping community detection at scale: A nonnegative matrix factorization approach // Proc. of the 6th ACM International conference on web search and data mining, Rome (Italy). Feb. 6-8, 2013. P. 587-596.
30. Meila M. Comparing clusterings by the variation of information // Proc. of 16th annual conference on learning theory and 7th Kernel workshop, Washington (USA), Aug. 24-27, 2003. P. 173187.
31. Fred A. L. N., Jain A. K. Robust data clustering // Proc. IEEE Computer Society conference on computer vision and pattern recognition, Minneapolis (USA), June 16-22, 2003. P. 128-136.
32. Girvan XL. Newman M. E. J. Community structure in social and biological networks // Proc. Nat. Acad. Sci. USA. 2002. V. 99. P. 7821-7826.
33. Pons P., Latapy M. Computing communities in large networks using random walks // J. Graph Algorithms and Applications. 2006. V. 10, N 2. P. 191-218.
34. Chen J., Yuan B. Detecting functional modules in the yeast protein-protein interaction network // Bioinformatics. 2006. V. 22, iss. 18. P. 2283-2290.
35. Raghavan U. N., Albert R., Kumara S. Near linear time algorithm to detect community structures in large-scale networks // Phvs. Rev. E 76, 036106. 2007.
36. Blondel VD., Guillaume J.L., Lambiotte R., Lefebvre E. Fast unfolding of community hierarchies in large networks // J. Stat. Mech. 2008. P10008.
СТРУКТУРА СЕТИ ЦИТИРОВАНИЯ НАУЧНЫХ СТАТЕЙ
С. В. Бредихин, В. М. Ляпунов, Н. Г. Щербакова
Институт вычислительной математики и математической геофизики СО РАН,
630090, Новосибирск, Россия
УДК 001.12—303.2
Представлены методы измерения параметров, определяющих структуру сети цитирования научных статей: среднее расстояние, плотность и транзитивность. На основе данных о цитировании библиографической базы данных RePEc вычислены их значения. Для главной сетевой компоненты построены графы коцитирования, библишрафическшх) сочетания и выполнен их кластерный анализ с использованием двух а.;п'оритмов. Произведено сравнение алгоритмов с помощью NMI. Результат кластеризации позволил выявить группы публикаций, объединенных общей тематикой, и охарактеризовать их.
Ключевые слова: среднее расстояние, плотность, кластерный коэффициент, сообщества, а.;п'оритм кластеризации, модульность, мера NMI.
Введение. Продолжаем изучение сети цитирования научных статей (СЦС), начатое в работах |1, 2|. Данная работа посвящена анализу структуры СЦС, находящейся в состоянии постоянного роста за счет пополнения и регулярного индексирования информации о цитировании в библиографической базе данных (БД) RePEc |3|. Интерес к сетевым структурам, подобным СЦС, возник в связи с экспериментом С. Милгрэма но изучению распределения длин кратчайших путей между случайно выбранными вершинами связного графа |4|, В результате появилась гипотеза о сетевых объектах, имеющих достаточно короткий путь из любой вершины в любую другую. Такие объекты, как правило, имеют одну (главную) иерархически организованную связную компоненту Z значительного размера и характерные значения следующих параметров: достаточно малое значение диа-
ZZ распределение степеней вершин Z, отвечающее закону x~a. В дальнейшем они получили название,,малый мир".
В работе представлены методы измерения указанных параметров и вычислены их
значения дня СЦС, но которым можно судить, насколько изучаемый объект отвечает
"
определивший группы статей, объединенных общей тематикой. В конечном счете представленная методика позволяет выявить наличие сотрудничества и определить сетевые меры важности научных публикаций. Фундаментальный обзор но этой теме представлен в работе 151,
Напомним, СЦС представлена в виде орграфа G = (V,, E) с матрицей смежности M = [mij],mij = 1, езди ребро (j,i) G E (статья j цитирует статью i) и mij = 0 в
G
слабо-связную компоненту A, состоящую из 131 684 вершин и 514 158 ребер, одну компоненту A16, состоящую из 16 вершин и 31 ребра. Остальные компоненты имеют меньшие
Таблица 1.1
Параметры компонент A и Aie (а — ориентированный, u — неориентированный графы)
Au Ad Au Ai6 Ad Ai6
degavg Lavg Аи Lavg Ad dfiffavg Lavg Au Lavg Ad
(1.1) (1.3) (1.1) (1.2) (1.1) (1.3) (1.1) (1.2)
7,8 16,7 0,000059 19,7 0,000029 3,9 1,4 0,258333 2,0 0,129167
значения параметров и не рассматриваются. Количество ребер обозначаем m, количество вершин — п. Анализ главной компоненты выполнен с учетом ориентации ребер Ad и без учета — Au. Аналогичные обозначения примем для компоненты A16, которая используется для примеров. В зависимости от применяемого алгоритма значения ряда параметров приводятся в двух вариантах. Граф цитирования компоненты A16 и таблица связей меток вершин с библиографическими данными статей определены в работе [2].
1. Параметры „среднее расстояние'" и,, плотность". Согласно [6], среднее расстояние между вершинами графа G определяется как
Lavg (G) = ПП^Т) £ £ d(i,J ), (1.1)
( ) iev j=iev
где d(i,j ) — расстояние от вер шины i до вершины j; для орграфа d(i,j ) = 0, если нет пути от i до j.
G
IE |
EEm.
Ad(G) = lumui'-V = it ллтл-V, (!.2)
IV |(|V I- 1) |V |(|V I- 1)'
для неориентированного графа
2|E I
2EE m
ji
AU(G)- |v|(|V1)= |V|(|V|-1)• (1-3)
Разреженным считается граф, у которого |E| << |V|2.
Для графов Au и AU6 вычиодены параметры среднее р асстоянпе Lavg и плот нос ть A, а также среднее значение степени вершины degavg-, значения приведены в табл. 1.1. Вывод: компоненты и представляют разреженные графы со сравнительно небольшим средним расстоянием между вершинами, что характерно для многих социальных сетей (всегда меньше 20, обычно меньше 10). Примером могут служить Всемирная паутина ( World Wide Web) [8] и топология Интернет [9].
2. Параметр„кластерный коэффициент". Локальный кластерный коэффициент Ci для неориентированного графа определяется в работе [10] как отношение количества существующих ребер Ei между соседями узла i к максимально возможному числу таких ребер. Максимум связей между соседями выражается отношением ki(ki — 1)/2, где ki — количество соседей вершины i (степень вершины). Таким образом, локальный кластерный коэффициент для вершины i неориентированного графа определяется как
2Ег
Сг = к^скТ—Г) • (2Л)
В большинстве случаев ориентация ребер при вычислении кластерного коэффициента для орграфа игнорируется. Среднее значение коэффициента Са,од для вершин определяет степень кластеризации графа:
Саид "У ] Сг. (2-2)
г
В работе [10] представлена модель динамических систем, которым свойственен эффект„малого мира". Они характеризуются малым значением Ьаьд и большим значением Са,од\ при росте числа вершин Ьа,од растет медлен но, а Са,од быстро.
Альтернативное определение кластерного коэффициента графа О дано в книге [7]. Это — доля замкнутых путей длины два в сети, т, е, подечитываютея все пути длины два, и рассматривается, какая часть из них является замкнутыми:
(количество замкнутых путей длины два)
С (О) = -—7-------, (2.3)
(количество всех путей длины два)
Заметим, что все пути длины два можно представить с помощью матрицы М2, Путь из г в ] замкнут, если при выполнении неравенства т2 > 1 имеет место т^- = 1 (или т^ = 1, когда отношение несимметрично). Значение кластерного коэффициента графа варьируется от нуля до единицы. Если С = 1, то имеет место полная транзитивность, т.е. граф представляет собой клику (все вершины связаны со всеми). Равенство С = 0 означает, что в графе нет замкнутых путей длины два; такая структура характерна, например, для дерева, Анализ социальных сетей показывает, что многие из них имеют достаточно высокое
значение кластерного коэффициента (см, [11-13]), Заметим, что здесь термин„кластериза-
""
так как исследуется, насколько часто из того, что узел г связан отношением с узлом а ] связан с к, следует, что г связан с к.
Сг
Сг
добей центральности по посредничеству [1], отражающей интенсивность потока, цирку-
Сг "
мационный поток, которым обмениваются непосредственные соседи актора. Корреляция коэффициентов центральность по посредничеству и локального кластерного коэффициента отмечена в работе [14], Для многих сетей эмпирически выявлена обратная зависимость локального кластерного коэффициента от степени вершин, т, е, вершины с большей степенью в среднем имеют меньший локальный кластерный коэффициент.
Локальный кластерный коэффициент СЦС определяет, как часто пары статей, находящихся в отношении цитирования с рассматриваемой статьей, находятся в отношении цитирования друг с другом. Приведем результаты вычисления значений Сг (2.1) и Саьд (2,2) для графа Ли. Для этого воспользуемся пакетом гдгарк [15]. Гистограмма значений Сг представлена на рте, 2.1. Компонента Ли содержит 10,9% вершин, имеющих меньше двух соседей, они не включены в гистограмму. Также исключены 27,5 % вершин, имею-
Сг
ординат — соответствующее число вершин N. Из множества вершин, имеющих больше
7000
ОД 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Рис. 2.1. Гистограмма локальных кластерных коэффициентов Ci граф a Au
Таблица 2.1
Кластерные коэффициенты графов Au и Au
16
Au A u 16
Cavg1 Cavg2 Crand C (Au) Cavg1 Cavg2 Crand C (AU6)
0,144807 0,128781 0,000059 0,067497 0,319728 0,279762 0,242187 0,247706
одного соседа, примерно 11% имеют двух соседей, из них у 18% вершин соседи связаны ребром. Они имеют максимальное значение локального кластерного коэффициента, равное единице, и составляют 91 % всех вершин, имеющих максимальное значение. Дня проверки зависимости Ci от степени вершины i вычислены коэффициенты корреляции Пирсона и Спирмена: r = —0,042049, р =0,436959. Отрицательное значение коэффициента r указывает на обратную зависимость, т. е. большие значения Ci соответствуют небольшим значениям deg(i).
Вычисление коэффициента Cavg выполнено в двух вариантах: а) без учета вершин, имеющих менее двух соседей; б) с учетом, при этом локальный коэффициент таких вершин считается равным нулю. Среднее значение коэффициента в первом случае обозначим Cavgb во втором — Cavg2. Для сравнения приведем среднее значение кластерного коэффициента случайного графа Crand = degavg/n [10]. Вычислен также кластерный коэффициент C графа согласно (2.3). Результаты вычисления коэффициентов для компоненты Au приведены в табл. 2.1.
Пример 2.1. Результаты вычисления значений кластерных коэффициентов дня графа A"l6 также приведены в табл. 2.1. Отметим, что максимальное значение локального кластерного коэффициента имеет одна вершина: C2 = 1. При этом ее степень deg(2) = 2, в то время как среднее значение степени degavg = 39 (см. табл. 1.1). Следующей по рангу идет вершина 16, Ci6 =0,6. Ее степень deg(16) = 3. Видно отсутствие зависи-
мости между значением локального кластерного коэффициента и степенью вершины (г = -0074860, р = 0138235),
3. Кластерный анализ СЦС. По определению, приведенному в книге [16], процессом
"
определение допускает наличие неединственного способа декомпозиции исходных данных, исполняемой рекурсивно.
Полученные в результате кластеризации сетевых акторов группы рассматриваются как функциональные блоки сети и несут информацию о процессе построения сети и динамике ее роста. Решение задачи кластеризации состоит из двух этапов: а) выполнения алгоритма разбиения; б) определения качества разбиения. Результат кластеризации представляется в
виде разложения множества исходных данных на подмножества. Мерой качества принято
"
"
Итак, задача выявления сообществ акторов заключается в разбиении множества V графа О = (V, Е) на непересекающиеся непустые подмножеетва (кластеры) С/1 ,С12, ..., С/&,
"
торам из других кластеров.
Понятие близости базируется на подобии, которое может быть основано на топологии графа, в этом случае его называют структурным. Обозначим Е(С/г) множество ребер, ориентированных из С1г в С1г [16], Тогда Е(С) := игЕ(С/г)(г = 1,...к) является множеством внутриклаетерных ребер, а 1-Е (С/) := Е\Е (С/) множеством внеклаетерных ребер. Кластеризация называется тривиальной, если к = 1; одиночной, еели к = щ разрезом, если к = 2
Отметим, что проблема кластеризации лучше изучена для неориентированных графов, в первую очередь это касается реализационных алгоритмов [5], Поскольку СЦС представляет собой орграф, задача кластеризации таких объектов в интересах библио-метрического анализа значительно усложняется. Существуют несколько способов применения имеющихся методик к орграфам: игнорировать ориентацию ребер; преобразовать граф в неориентированный, сохраняя информацию об ориентации, например, с помощью введения веса ребер или преобразования в двудольный граф, В работе [17] задача кластеризации формулируется как проблема минимизации суммарного веса разрезов между кластерами с целью получения кластеров сбалансированного размера. Подход позволяет применять алгоритмы кластеризации неориентированных графов для орграфов.
Простой способ игнорирования ориентации ребер мало подходит для графов цитирования, так как одновременно игнорируются семантика и приемы установления подобия согласно отношениям коцитирования или библиографического сочетания [18-20], Примером подхода в библиометрии, заключающегося в преобразовании орграфа цитирования
М
коцитирования с матрицей смежности Мсос = ММт или библиографического сочетания с матрицей смежности МЬЬс = МтМ, В работе [21] предлагается учесть одновременно оба отношения, рассматривая в качестве матрицы смежности графа симметричную матрицу Мсос+ььс = ММт + МтМ, При таком подходе результирующий граф несет больше информации об исходном графе. Применима также технология преобразования орграфа в
""
ющей кластеризацией каждой доли [23, 24],
3,1, Параметр модульность. Совершенствование механизмов кластеризации требует развития алгоритмов оценки качества их выполнения. Общепринятым приемом является вычисление параметра модульность (molularity), определенного в работе [25], В его основе лежит гипотеза о том, что структура графа, содержащего тематические сообщества, как правило, будет отклоняться от структуры случайного графа. Оценивается, насколько доля ребер между вершинами одного типа (т, е, попавших в один кластер) отличается от ожидаемой доли таких ребер в том случае, если ребра располагаются случайно, независимо от типа вершин. Для неориентированного графа параметр модульность вычисляется по формуле
Q = 2m ^ ('"«- 2m) (3Л)
где -i — степень вершины ц 5(i,j) = 1, если i и j принадлежат одному кластеру, и 5(i,j) = 0 в противном случае. Параметр модульность не подходит для сравнения результатов кластеризации графов, существенно отличающихся по размерам, он используется при принятии решений в рамках работы алгоритма кластеризации. Оптимизация модульности также используется и как метод выявления сообществ [26], Определение модульности было расширено для орграфа в работе [27]:
1 _ / -out -inУ
Qd = - V mij - -i—L] 5(i,j), (3.2)
, . ij mi—' \ m
i,j \
где -°ut — исходящая степень вершины i; -j — входящая степень вершпны j. Q
меры качества кластера, учитывающей не только количество связей между двумя группами, но и связность каждой группы со всеми вершинами графа, является мера „проводимость кластера", определенная в работе [28].
3.2. Мера согласованности алгоритмов кластеризации. Для оценки результатов работы алгоритмов кластеризации используются меры эффективности, выявляющие, насколько полученные в результате работы алгоритма кластеры похожи на истинные (конечно, в предположении, что таковые известны). Такие меры, например, могут быть основаны на точности, определяющей процент акторов, правильно приписанных к кластеру, по отношению ко всем акторам или полноте, определяющей процент правильно приписанных акторов к кластеру по отношению к мощности кластера [29]. Для сравнения результатов кластеризации одного и того же множества данных различными алгоритмами также разработан ряд мер. Например, в работе [30] представлена мера VI (variation of information), определяющая количество потерянной и приобретенной информации при переходе от одного способа кластеризации к другому.
В работе [31] представлена мера NMI (normalized mutual information), определяющая степень согласованности двух делений на кластеры. Рассмотрим ее подробнее. Пусть имеются n объектов и два способа разделения на кластеры: A с кластерами C2,...CA и В с кластерами Cf, C<f ,...,Cf. Мера NMI основана на матрице NAB размерноети - х l,
A
стеров разделения В элемент NAAJB = |CA П Cf | равен количеству объектов, общих для кластеров CA и Cf.
А Л AR (NAB Х П
- 2 S S ^ Ц NAfNf
NM1 (AB) = 1--j (3-3)
SNA 4 ^ + S j log( N-
где NA — сумма по строке, NB — сумма то столбцу матрицы NAB.
4. Вычислительный эксперимент.
4.1. Выявление сообществ на основе мер центральности,. Эта методика предложена в работе [32]. Алгоритм СЕВ (community edge betweenness, пакет igraph) основан на вычислении индекса центральности по посредничеству применительно к ребрам графа. Индекс учитывает долю кратчайших путей между парой вершин, проходящих через данное ребро:
п ( \ V^ aj(е) Cb(e) = -'
i=jey an
где Сту- — количество кратчайших путей от вершины i до вершины j графа, a Сту (е) —
количество кратчайших путей от i до j, проходящих через ребро е. Предполагается, что ребра между сообществами имеют большое значение индекса. Алгоритм СЕВ находит ребро с наивысшим значением индекса и удаляет его. Значение индекса для оставшихся ребер изменится. Снова вычисляется индекс и удаляется ребро с наивысшим значением. Таким образом, строится иерархический разделяющий алгоритм, который можно представить в виде дендрограммы. Для оценки качества деления на каждом уровне вычисляется параметр модульность Q (3.1, 3.2). Лучшим считается уровень, соответствующий наибольшему значению Q. Алгоритм пригоден как для неориентированных, так и для орграфов, сложность вычисления для невзвешенных графов оценивается как O(|V||E|2),
Пример 4.1. Принимая во внимание высокую сложность алгоритма СЕВ, продемонстрируем два результата его работы на компоненте Л16. Обозначим граф, в котором ориентация ребер игнорируется, A^6, а орграф — Af6. В результате работы алгоритма для Л^6 получились 5 кластеров. Модульность Qu = 022. Результаты работы СЕВ для A^6 сравнивались с работой алгоритма cluster _walktrap [33], основанного на понятии свободного блуждания по графу в предположении, что сообщества представляют собой своего рода ловушки, в которых блуждание задерживается. Одним из параметров этого алгоритма является количество шагов, соответствующее глубине блуждания. На каждом шаге вычисляется модульность. В данном случае алгоритм показал одинаковое значение Q = 0,26 на шагах 2-4. Состав кластеров шага 2 практически совпадает с результатами работы алгоритма СЕВ, что соответствует NMI = 084.
Рис. 4.2. Деидрограмма процесса кластеризации графа алгоритмом СЕВ
Результаты кластеризации графа А^6 алгоритмом СЕВ представлены на рис. 4.1, 4.2. Рис. 4.1 отражает разделение на кластеры. Получен один большой кластер С и четыре одиночных кластера. Заметим, что С не имеет связей, идущих вовне, т. е. содержит статьи, цитирующие только друг друга. Несмотря па то что получились кластеры таких разных размеров (замечание по поводу максимизации модульности, приведенное в работе |34|), в данном случае это выглядит естественно, так как отделились кластеры без
С2
имеющий много внешних связей. На депдрограмме (рис. 4.2) представлен процесс кластеризации, пунктиром отмечен уровень 11, соответствующий максимальному значению Qd =0,04. Согласованность результатов кластеризации графов Аиб и А^6 алгоритмом СЕВ соответствует ]УМ/=0,47.
4.2. Двухэтажная кластеризация, СЦС. К орграфам, представляющим компоненты СЦС, применен следующий метод выявления сообществ: сначала орграф преобразуется во взвешенный неориентированный, а затем используется алгоритм кластеризации, предназначенный дня неориентированного графа. Рассмотрим преобразование орграфа во
взвешенные графы коцитнровання Acoc, библиографического сочетания Abbc и граф, учитывающий одновременно коцитирование и библиографическое сочетание Acoc+bbc, будем называть его суммарным. Кластеризации неориентированных графов Acoc, Abbc и Acoc+bbc была выполнена с помощью алгоритмов CLP и CMLO с линейной вычислительной сложностью, что позволяет применять их для больших сетевых объектов,
В работе [35] предложен алгоритм кластеризации, основанный на распространении меток вершин. На стадии инициации алгоритм присваивает всем вершинам уникальные метки. На каждой итерации узел получает метку, которую имеет большинство смежных вершин. Если имеется несколько таких меток, то выбирается произвольная, В конце работы алгоритма вершины, имеющие одинаковые метки, считаются принадлежащими одному кластеру, В идеале процесс длится до тех пор, пока находятся вершины, способные поменять метку. Реально алгоритм продолжает работу, пока каждая вершина не будет иметь такую же метку, как большинство соседей. Критерий остановки является условием, а не мерой, которую нужно максимизировать или минимизировать, В пакете igraph алгоритм community_label_propagation (CLP) был расширен для применения к взвешенным графам, Его сложность составляет O(|V| + |E|),
Алгоритм кластеризации взвешенного неориентированного графа, предложенный в работе [36], основан на оптимизации модульности за счет локальных изменений в кластерах. Он состоит из итерации двух фаз. На начальном этапе все вершины рассматриваются
i
j
ij
i,
ется. Если соседей, при перемещении к которым имеет место положительная модульность, i
цесс последовательно повторяется для всех вершин, пока не будет достигнута наибольшая модульность. Первая фаза алгоритма закончена. Вторая фаза состоит в построении нового графа, вершинами которого являются группы, полученные во время первой фазы. Связь между двумя группами получает вес, равный сумме весов взаимных связей между вершинами групп, а сумма весов внутренних связей в группе рассматривается в качестве веса петли, замыкающейся на группу. Процесс повторяется до тех пор, пока модульность увеличивается. Алгоритм community_multi-level_ optimization (CMLO) реализован в пакете igraph, его сложность линейна для разреженных графов,
4,3, Результат кластеризации компоненты А. Компонента имеет 32238 (24,5%) изолированных вершин, не связанных отношением коцитнровання, 26273 (20 %) вершин, не связанных отношением библиографического сочетания, и 2045 (1,6%) вершин, не связанных ни одним из этих отношений. Эти вершины при кластеризации соответствующих
графов алгоритмами С LP и CMLO попадают в одиночные кластеры и не учитываются
A
графы Acoc, Abbc, Acoc+bbc, Параметры этих графов представлены в табл. 4,1, где Ncomp — количество компонент размером больше единицы; птаж — размер максимальной компоненты; Д^аж _ ее плотность. Кластеризация выполнена с помощью алгоритмов CLP и CMLO. Результаты представлены в табл. 4,2, где N — количество кластеров, /avg — средний размер кластера. Согласованность результатов, полученных с помощью алгоритмов С LP и CMLO для Acoc, соответствует NMI=0,81; NMI= 0,77 для Abbc; NMI=0,65 для Acoc+bbc, Эти значения получены с учетом одиночных кластеров. Заметим, что если при вычиеле-
Таблица 4.1
Параметры графов Acoc, Abbc, Acoc+bbc
Acoc Abbc Acoc+bbc
Ncomp nmax Ди "max Ncomp nmax Ди Ncomp nmax Ди max
622 97868 0,000357 525 104066 0,001129 219 129131 0,000916
Таблица 4.2
Кластеризация графов Acoc, Abbc, Acoc+bbc алгоритмами CLP и CMLO
Acoc Abbc Acoc+bbc
N Q (3.1) N Q (3.1) N Q (3.1)
CLP 1991 49,95 0,66 2137 45,65 0,66 905 104,72 0,65
CMLO 666 128,46 0,71 560 160,11 0,71 253 452,85 0,69
Таблица 4.3
Распределение размеров кластеров графов Acoc, Abbc, Acoc+bbc.
Алгоритм CMLO
Acoc Abbc Acoc+bbc
N S N S N S
1 14 022 1 15 908 1 15 527
1 9689 1 9882 1 13 888
2 8291 < S < 8607 6 7168 < S < 9488 7 7395 < S < 12 675
7 5015 < S < 7052 6 2334 < S < 6044 5 4254 < S < 6199
4 1100 < S <4575 3 1028 < S < 1548 2 2031 < S < 2580
4 627 < S < 976 2 514 < S < 529 1 1728
2 159 < S < 243 1 211 1 833
8 26 < S <55 3 44 < S <72 9 20 < S <57
83 4< S <18 68 4 < S <18 21 4 < S <16
102 3 95 3 25 3
452 2 374 2 180 2
нии параметра Л Л// исключить одиночные кластеры, соответствующие изолированным вершинам, то согласованность алгоритмов будет ниже.
Отдельно рассмотрим результаты работы алгоритма CLMO. Распределение размеров кластеров представлено в табл. 4.3, где N — количество кластеров, S — размер кластера. Отметим, что для всех вариантов преобразования Acoc, Abbc, Acoc+bbc количество кластеров размера 2 и 3 в точности совпадает с количеством компонент связности этого размера для соответствующих графов. Анализ 14 кластеров графа Acoc с размерами 12 < S < 55 показал, что статьи, объединенные в кластеры,относятся к определенной тематике, причем в небольших кластерах более 70 % работ опубликованы в одном и том же журнале. В кластере размером 14022 максимальное число статей, опубликованных в одном журнале, составляет 4,5 %. Тематика определена по наиболее цитируемым статьям. Характеристики выборочных кластеров представлены в табл. 4.4, где Sc1 — число статей в кластере; Subject — темы, объединяющие статьи; %J — наибольший процент статей, опубликованных в одном журнале; Cit — число цитирований наиболее популярной статьи; Y — Ye — год публикации самой ранней и самой поздней статей.
Пример 4.2. Рассмотрим компоненту Ai6. Граф коцитирования Al6c состоит из 13 вершин, связанных 35 ребрами, и трех изолированных вершин, A(Al6c) =0,29. Граф библиографического сочетания Al6c состоит из 13 вершин, связанных 31 ребром, и четырех
изолированных вершин, А(ЛЬ1Ь^) =0,26. Суммарный граф ЛЬ6с+ЬЬс состоит из 16 вершин, связанных 60 ребрами, Д(ЛЬ°6с+ЬЬс) =0,5. Кластеризация этих графов выполнена с помощью алгоритмов СЕВ и СЬМО. Результаты работы алгоритма СЕВ для графов ЛЬ6с и ЛЬЬ6с представлены на рис. 4.3, 4.4. В табл. 4.5 приведены результаты кластеризации. Согласованность результатов, полученных с помощью алгоритмов СЕВ и СЬМО: ММ1=0,63 для графа ЛЬ6с; ЖМ/=0,79 для ЛЬЬс; ЖМ/=0,74 для ЛЬ6с+ЬЬс. Оценка согласованности достаточно высока.
Таблица 4.4
Характеристики выборочных кластеров графов Ас°с, АЬЬс
ßcoc
Scl Subject %J Cit Y, - Ye
1 2 3 4 5
12 Проблемы здравоохранения (healthcare problems) 83,3%, Social Science k, Medicine (Elsevier) 2 2000- -2012
13 Меры продуктивности научного труда (measures of researcher's scientific output) 84,6%, J. Informetrics (Elsevier) 8 2007- -2012
14 Проблемы персонала исправительных заведений (correctional staff problems) 85,7%, J. Criminal Justice (Elsevier) 6 1996 -2008
14 Методы оценки исследований (judging research quality) 100%, Omega (Elsevier) 10 1995 -2002
14 Теория распространения слухов (theory of rumor spreading) 85,7%, Fhvsica A: Statistical Mechanics and its Application (Elsevier) 12 2005- -2013
18 Механизмы предсказания стихийных бедствий (disaster management mechanisms) 100%, Natural Hazards (Springer) 5 2010- -2013
26 Исследование экономики Греции (analysis of Greece economics) 88,4%, Economic Bulletin (Bank of Greece) 13 1998- -2012
27 Динамика рыночных цен (dynamics of market prices) 33,3%, J. Agricultural and Resource Economics (Wiley) 9 1982- -2008
28 Теория дискретных игр (theory of discontinuous games) 21,4%, Economic Theory (Springer); 21,4%, J. Math. Economics (Elsevier) 8 1995- -2011
Продолжение таблицы 4.4
1 2 3 4 5
31 Анализ статистических распре- 77,4%, Annals Institute 16 1989-2006
делений (analysis of statistical Statist. Mathem. (Springer)
distributions)
32 Анализ комплексных сетей 100%, Fhvsica A: Stat. 11 2007-2013
(complex networks analysis) Mechanics and its Applicaion
(Elsevier)
36 Контрольные карты для мониторинга экон. процессов (control charts for econ. processes monitoring) 55,5%, Intern. J. Production Economics (Elsevier) 5 1995 -2014
37 Экономическое развитие в стране и за рубежом (на опыте Германии) (die wirtschaftliche entwicklung in Imland und Ausland) 32,4, RWI Konjunkturberichte (EconStor); 27% RWI Konjunkturbericht (Rheinisch Inst.) 11 2007- -2014
55 Иисследование рынка произведений искусства (art market analysis) 40%, J. Cultural Economics (Kluwer) 19 1991- -2013
627 Методы прогнозирования в экономике (automatic forecasting methods in economics) 40,4%, J. Forecasting (Elsevier) 114 1973 -2015
8607 Кредитно-денежная политика и модели (monetary policy and models) 7,8%, J. Monetary Economics (Elsevier) 328 1994- -2015
9689 Экономические модели (economic models) 7,7% J. Banking k Finance (Elsevier) 709 1969- -2015
14022 Экономические модели и эмпирические исследования (economic models and empirical investigations) 4,5% J. Public Economics (Elsevier) 814 1960- -2015
Abbc
10 Случайное блуждание с непрерывным временем (continuous-time random walks) 50 % Statistics k Probability Letters (Elsevier) 50 % Stochastic Processes and their Applications (Elsevier) 4 2006- -2013
10 Меры продуктивности научного труда (scientific impact indices) 90%, J. Informetrics (Elsevier) 5 2008- -2014
11 Анализ сейсмичности (analysis of seismicitv) 100% Phvsica A: Stat. Mechanics and its Applicaion (Elsevier) 5 2008- -2013
11 Механизмы предсказания стихийных бедствий (natural disaster management mechanisms) 100 % Natural Hazards (Springer) 5 2011- -2013
12 Анализ критических точек (change points analysis) 45,4 % Computational Statistics k Data Analysis; 36,3% J. Multivariate Analysis (Elsevier) 2 2002- -2013
Окончание таблицы 4.4
1 2 3 4 5
12 Исследование экономики Греции 100%, Economic Bulletin 9 2009-2012
(Greece economics analysis) (Bank of Greece)
14 Выполнимость центральной пре- 64,3 % Statistics k Probability 9 1998-2013
дельной теоремы (almost sureness of Letters (Elsevier)
max-limit theorem)
Максимальные страховые выплаты и анализ точечных процессов (near-maximum insurance claims and point processes)
Статиети чеекие распределения и их применение (statistical distributions and applications) Моделирование процессов горения каменного угля (coal combustion processes modeling) Моделирование работы топливных элементов (modeling of fuel cells performance)
50 % Atatistics & Probability Letters (Elsevier)
63,3% Annals Inst. Math. (Springer)
68 % Applied Energy (Springer)
65,3%; Applied Energy (Springer)
15
1998 2012
1994 2012
2011 2015
2009 2015
Рис. 4.3. Кластеризация графа Рис. 4.4. Кластеризация графа АЦ^6
алгоритмом СЕВ алгоритмом СЕВ
Таблица 4.5
Параметры кластеризации графов А??с, А16с, А?6с+ЬЬс алгоритмами СЕВ и СМЬО
Алгоритм СЕВ
Алгоритм CLMO
лсос A16 лЬЬс A16 л coc+bbc A16 лсос A16 лЬЬс A16 л coc+bbc A16
N Q N Q N Q N Q NMI N Q NMI N Q NMI
6 0,09 7 0,06 9 0,06 6 0,19 0,63 6 0,23 0,79 3 0,23 0,74
Заключение. Главная компонента СЦС является разреженным слабо-связным орграфом, среднее расстояние между вершинами составляет 19,7; без учета ориентации ребер составляет 16,7. Среднее значение локального кластерного коэффициента вершин значительно выше, чем у случайного графа с тем же количеством вершин (см. табл. 2.1), причем значение дня вершины не зависит от ее степени. Эти параметры отражают сходство СЦС с сетевыми структурами „малого мира", характерными для многих социальных сетей.
Выявление тематических сообществ выполнено с применением двух алгоритмов кластеризации, результаты работы которых оказались достаточно близкими но составу кластеров. Исходными данными дня работы алгоритмов являлись неориентированные графы
"
ходпого орграфа.
Полученные результаты кластерного анализа позволяют аргументированно судить о направлениях научной деятельности, отраженных в статьях БД RePEc, периодах их публикации и цитируемоети.
Список литературы
1. Бредихин С. В., Ляпунов В. \!.. Щербакова Н. Г., Юргенсон А. Н. Параметры "центральности" узлов сети цитирования научных статей // Проблемы информатики. 2016. Л*8 1. С. 30-57.
2. Бредихин С. В., Ляпунов В. \!.. Щербакова Н. Г. Параметры пар узлов сети цитирования научных статей // Проблемы информатики. 2016. № 2. С. 30-49.
3. General principles. [Electron, resource], http://repec.org.
4. Milgram S. The small world problem // Psychol. Today. 1967. V. 2. P. 60-67.
5. Fortunato S. Community detection in graphs // Phvs. Reports. 2010. V. 486. P. 75-174.
6. Watts D.J. Small worlds: The dynamics of networks between order and randomness. Princeton: Princeton University Press, 1999.
7. Wasserman S., Faust K. Social network analysis: Methods and applications. Cambridge: Cambridge University Press, 1994.
8. Broder A., Kumar R., et al. Graph structure in the web // 9th International World WTide Web conference, Amsterdam (Netherlands), 2000. V. 33. P. 309-320.
9. Faloutsos M., Faloutsos P., Faloutsos C. On power-law relationships of the internet topology // ACM conference on applications, technologies, architectures and protocols for computer communications, Cambridge (Engl.), 1999. P. 251-262. [Electron, resource], http:/ / www .cs .emu .edu / ^christos / publications / sigcomm99 .pdf.
10. Watts D. J., Strogatz S. H. Collective dynamics of,,small-world" networks // Nature. 1998. V. 393. P. 440-442.
11. Newman M. E. J. The structure and function of complex networks // SIAM Review. 2003. V. 45. P. 167-256.
12. Ebel H., Mielsch L. I., Bornholdt S. Scale-free topology of e-mail networks //Phvs. Rev. E. 2002. V. 66, 035103.
13. Albert R., Barabasi A. L. Statistical mechanics of complex networks // Reviews of Modern Physics. 2002. V. 74. P. 47-97.
14. Burt R. S. The social structure of competition. Cambridge, MA: Harvard University Press, 1992.
15. CsARDl G., Nepusz T. The igraph software package for complex network research // InterJournal Complex Systems. 2006. 1695 P. [Electron, resource], http://igraph.0rg/r/d0c/.
16. Network analysis. Methodological Foundations. 2005. Springer, LNCS 3418.
17. MElLa M., Pentney W. Clustering bv weighted cuts in directed graphs // Proc. of the 2007 SIAM International conference on data mining, 2007. Apr. 26-28. Minneapolis (USA). P. 135-144.
18. Маршакова И. В. Система связей между документами, построенная на основе ссылок: по данным Science Citation Index // НТИ, сер. 2. 1973. № 6. С. 3-8.
19. Small Н. Co-citation in the scientific literature: A new measure of the relationship between two documents // J. Amer. Soc. Inform. Sci. 1973. V. 24, iss. 4. P. 265-269.
20. Kessler M. M. Bibliographic coupling between scientific papers // Amer. Documentation. 1963. V. 14, iss. 1. P. 10-25.
21. Satuluri V., Parthasarathy S. Svmmetrizations for clustering directed graphs // Proc. 14th Internat. Conference on extending database technology, Uppsala (Sweden), March 21-25, 2011. P. 343-354. [Electron, resource], http://dblp.uni- trier.de/db/conf/edbt/edbt2011.html.
22. Kleexberg J. M. Authoritative sources in a hvperlinked environment /7 .J. of the ACM. 1999. V. 46, iss. 5. P. 604 632.
23. zllol" D., ScilL'lkopf B., Hoemann t. Semi-supervised learning on directed graphs /7 Advances in Neural Information Processing Systems Conference, Dec. 5 8, 2005. Vancouver (Canada). P. 1633 1640.
24. Geimera R., Pardo M. S., Amaral L. A. N. Module identification in bipartite and directed networks /7 Phvs. Rev. E 76 (3) 036102+. 2007.
25. newman M.E.J., Girvax M. Finding and evaluating community structure in networks /7 Phvs. Rev. 2004. E 69 (2) 026113.
26. Newman M. E. J. Fast algorithm for detecting community structure in networks /7 Phvs. Rev. 2003. E 69 066133.
27. Arenas A., Ducn J., Fernandez A., Gomez S. Size reduction of complex networks preserving modularity /7 New .J. Phvs. 2007. V. 9, N. 6. P. 176 190.
28. Leskovec J., Lang K. J., Dasgepta A., Maiioxey M. W. Statistical properties of community structure in large social and information networks /7 Proc. of the 17th International Conference on World Wide Web, Beijing (China), April 21-25, 2008. P. 695 704.
29. Yang Y., leskovec J. Overlapping community detection at scale: A nonnegative matrix factorization approach /7 Proc. of the 6th ACM International conference on web search and data mining, Rome (Italy). Feb. 6 8, 2013. P. 587 596.
30. Meila M. Comparing clusterings by the variation of information /7 Proc. of 16th annual conference on learning theory and 7th Kernel workshop, Washington (USA), Aug. 24 27, 2003. P. 173 187.
31. Fred A. L. N., Jae\ A. K. Robust data clustering /7 Proc. IEEE Computer Society conference on computer vision and pattern recognition, Minneapolis (USA), .June 16 22, 2003. P. 128 136.
32. Girvax M., Newman M. E. J. Community structure in social and biological networks /7 Proc. Nat. Acad. Sri. USA. 2002. V. 99. P. 7821 7826.
33. Pons P., Latapy M. Computing communities in large networks using random walks /7 J. Graph Algorithms and Applications. 2006. V. 10, N 2. P. 191 218.
34. cllen J., Yean B. Detecting functional modules in the yeast protein-protein interaction network /7 Bioinformatics. 2006. V. 22, iss. 18. P. 2283 2290.
35. Raghavan U. N., Albert R., Kemara S. Near linear time algorithm to detect community structures in large-scale networks /7 Phvs. Rev. E 76, 036106. 2007.
36. Blondel VD., Geillaeme J.L., Lambiotte R., Leeebvre E. Fast unfolding of community hierarchies in large networks /7 J. Stat. Meeh. 2008. P10008.
Бредихин Сергей Всеволодович канд. техн. наук, зав. .лабораторией Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: bred@nsc.ru;
Сергей Бредихин окончил механико-математи ческий факультет Новосибирского государственного университета в 1968 году. С 1968 года сотрудник Института автоматики и электрометрии СО РАН. Кандидат технических наук с 1983 года. С 1988 года заведующий Лабора-
торией прикладных систем Института вычислительной математики и математической геофизики СО РАН. Являлся техническим директором проекта "Сеть Интернет Новосибирского Научного Центра". Лауреат государственной премии но науке и технике 2012 года. В сфере его научных интересов измерение и анализ сетей распределенных информационных структур. Автор и соавтор более 110 работ и двух монографий: "Методы библиометрии и рынок электронной научной периодики", "Анализ цитирования в библиометрии".
Sergey Bredikhin graduated from Novosibirsk State University in 1968 (faculty of Mechanics and Mathematics). In 1968 he became an employee of Institute of Automation and Electrometry SB RAS. In 1983 he received PhD degree in Engineering Science. Since 1988 he is the head of Applied Systems laboratory of Institute of Computational Mathematics and Mathematical Geophysics SB RAS. He was the
technical manager of „Akademgorodok Internet "
and engineering (2012). Sphere of his scientific interests - the measurement and analysis of networks of the distributed information structures. He is the author and co-author of more than 110 works and two monographs: "Metodv bibliomctrii
i rvnok electronnoj nauchnov periodiki ", „Ansliz
"
Ляпунов Виктор Михайлович ведущий инженер Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: vic@nsc.ru;
Виктор Ляпунов окончил механико-математический факультет Новосибирского государственного университета в 1978 году. В 1978 года стал сотрудником Вычислительного Центра СО АН СССР, а с 1990 года сотрудником Института систем информатики СО АН СССР. С 2004 года ведущий инженер Института вычислительной математики и математической геофизики СО РАН. Занимается вопросами извлечения информации из баз данных и обработкой больших массивов данных. Соавтор более 10 работ в этой области.
Victor Lyapunov graduated from Novosibirsk State University in 1978 (faculty of Mechanics and Mathematics). In 1978, he became an employee of Computing Center of SB AS USSR, since 1990 an employee of Institute of Informatics Systems SB RAS. Since 2004 he works as software engineer in Institute of Computational Mathematics and Mathematical Geophysics SB RAS. His current research interests
include methods of information extracting from databases and processing of large data sets. He is the co-author of more than 10 works in that area.
Щербакова Наталья Григорьевна ст. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: nata@nsc.ru.
Наталия Щербакова окончила Новосибирский государственный университет но специальности " Математическая лингвистика" в 1967 году. С 1967 i'. работала в Институте математики СО РАН, затем в Институте автоматики и электрометрии СО РАН в области создания программного обеспечения систем передачи данных. С 2000 года сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 занимает должность старших) научного сотрудника. Являлась участником проекта "Сеть Интернет Новосибирского Научного Центра", занималась вопросами мониторинга и анализа IP-сетей. Автор и соавтор более 40 работ, соавтор монографии "Анализ цитирования в библиометрии". Текущие интересы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.
Natalia Shcherbakova graduated from Novosibirsk State University in 1967 (mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometry SB RAS in the field of software design for data transmission systems. In 2000 the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002 works as senior researcher. She is a member of "Akademgorodok Internet Project dealt with software of monitoring and the analysis of IP networks. She is the author and co-author of more than 40 works, the co-author of the monograph "Ansliz tsitirovaniva v bibliomctrii". The current research interests lie in the field of bibliometrics: methods of measuring of scientific
Дата поступления, 09.07.2016