Научная статья на тему 'Спектральный анализ сети цитирования научных журналов'

Спектральный анализ сети цитирования научных журналов Текст научной статьи по специальности «Математика»

CC BY
187
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
СЕТЬ ЦИТИРОВАНИЯ ЖУРНАЛОВ / СЕТЬ КОЦИТИРОВАНИЯ / СЕТЬ БИБЛИОГРАФИЧЕСКОГО СОЧЕТАНИЯ / ВЗВЕШЕННЫЙ ОРИЕНТИРОВАННЫЙ ГРАФ / РАЗБИЕНИЕ ГРАФА / СПЕКТРАЛЬНАЯ КЛАСТЕРИЗАЦИЯ

Аннотация научной статьи по математике, автор научной работы — Бредихин Сергей Всеволодович, Ляпунов Виктор Михайлович, Щербакова Наталья Григорьевна

Исследуются спектральные методы анализа сети научных публикаций, организованной на отношении цитирования и представленной орграфом GD = (V,E). Сравниваются результаты работы двух спектральных алгоритмов кластеризации. Орграф GD преобразуется в три неориентированных графа: A + AT (граф Gu), A х AT (граф Gbib) и AT х A (граф Gcoc); здесь A матрица смежности GD. Кластеризации графов Gu, Gbib и Gcoc выполнены с помощью алгоритмов WTR и LEV. Агломеративный алгоритм WTR основан на матрице случайного блуждания P = D-1A, алгоритм бикластеризации LEV на матрице модульности. Для сравнения результатов разбиения используются индексы NMI, RAND, ADJUSTED_RAND. В результате исследования выявлена зависимость результатов кластеризации от способа приведения GD к неориентированному виду; кластеры журналов, построенные с помощью алгоритма WTR, могут быть проинтерпретированы в терминах принадлежности к тематическим областям. Результаты представлены в виде таблиц.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бредихин Сергей Всеволодович, Ляпунов Виктор Михайлович, Щербакова Наталья Григорьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Спектральный анализ сети цитирования научных журналов»

SPECTRAL ANALYSIS OF THE JOURNAL CITATION

NETWORK

S. V. Bredikhin, V. M. Lyapunov, N. G. Shcherbakova

Institute of Computational Mathematics and Mathematical Geophysics SB EAS,

630090, Novosibirsk, Russia

In this paper we investigate methods of spectral clustering for analysis of the journal citation networks. Clustering problem is reduced to min-cut graph partitioning: to find a partition of the graph such that the edges between different groups have very low weights and the edges within a group have high weights. That means that objects in different clusters are dissimilar from each other and objects within the same cluster are similar to each other, see C. J. Alpert, S.-Z.Yao (1995). Graph partitioning problems can be solved exactly in polynomial time, so for practical applications approximate solution methods have been developed. One of the widely used is the spectral partitioning method. The spectral methods usually involve taking the eigenvectors of some matrix based on relations between data elements. Most spectral clustering algorithms cluster the data with the help of eigenvectors of graph Laplacian matrices.

We study two major versions of spectral clustering, so called "unnormalized" and "normalized" spectral clustering that reveal the relationship of the object function formulation and the matrix used in the eigenvalue equation. Unnormalized spectral bi-clustering algorithms use the Laplacian matrix L = D — A to solving the problem Lv = Av and assigning vertices to clusters according to the signs of elements of the eigenvector v corresponding to the second smallest eigenvalue. The simplified versions of the unnormalized spectral bi-clustering method is presented as the techniques of the consistency confirmation of the approach. As shown in M.E.J. Newman, M.Girvan (2004) this class of spectral clustering is only consistent under strong additional assumptions, which are not always satisfied in real data. Most of normalized spectral bi-clustering algorithms use the symmetric normalized Laplacian matrix Lsym = D-1/2LD-1/2 for these purposes, see J.Shi, J.Malik (2000). As shown in M.Meila, J. Shi (2001) the same results can be obtained bv using the largest eigenvector of the matrix P = D-1A. Spectral fc-wav clustering uses not only the second but also the next few eigenvectors to construct a partition.

The journal citation network on study is built on the basis of the bibliographic information extracted from the DB RePEc. The main component of the corresponding weighted digraph G has 1729 vertices (journals) and 135702 arcs (citations) .We analyze the work of two spectral clustering algorithms in the

G

graphs represented by matrices A + AT (graph Gu), AAT (graph Gbib) and ATA (graph Gcoc), where A

is the journal-journal citation matrix. Algorithm WTR P. Pons, M. Latapv (2005) is the agglomerative

algorithm based on random walk matrix P = D-1A. Algorithm LEV M.E.J. Newman (2006) is

the bi-clustering algorithm based on the modularity matrix. The algorithms are implemented with

use of the igraph packet (C library). We use NMI,RAND,ADJUSTED_RAND indexes as the

Gu

ADJUSTED^RAND = 0,07. The most similarity is reached for graph Gbib. WTR clusters of small size (less than 200) can be interpreted in terms of thematic fields. The results are presented in the tables (1-6). We can see that results strongly depend on the digraph transformation and the algorithm used.

(c) S. V. Bredikhin, V. M. Lyapunov, N. G. Shcherbakova, 2018

Key words: journal citation network, co-citation network, bibliographic coupling network, weighted directed graph, graph partitioning, spectral clustering.

References

1. Brandes U., Gaertler XL. Wagner D. Experiments on graph clustering algorithms // Proc. of the 11th Annual European Symposium on Algorithms (ESA'03). 2003. P. 568-579.

2. Alpert C. J., Yao S.-Z. Spectral partitioning: The more eigenvectors, the better // Proc. of the 32nd annual ACM/IEEE Design Automation Conference. 1995. P. 195-200.

3. Garey R. R., Johnson D. S. Computers and intractability: A guide to the theory of NP-completeness. 1990. NY: W. H. Freeman k, Co.

4. Gould P. The Geographical Interpretation of Eigenvalues // Institute of British Geographers Transactions. 1967. Y. 12. P. 53-85.

5. Donath W. E., Hoffman A. Algorithms for partitioning of graphs and computer logic based on eigenvectors of connection matrices // IBM Technical Disclosure Bulletin. 1972. V. 15, iss.3. P. 938-944.

6. Barnes E. An Algorithm for Partitioning the Nodes of a Graph // SIAM J. Alg. Disc. Math. 1982. V. 3, iss.4. P. 541-550.

7. Sarkar S., Boyer K. L. Quantitative measures of change based on feature organization: Eigenvalues and eigenvectors // Computer Vision and Image Understanding. 1998. V. 71, N1. P. 110-136.

8. Hall K. M. An r-dimensional Quadratic Placement Algorithm // Management Science. 1970. V. 17. P. 219-229.

9. Mohar B. The Laplacian Spectrum of Graphs. Graph Theory k, Application. Wiley, 1991. P. 871-898.

10. Newman M. E. J. Finding community structure using the eigenvectors of matrices // Phvs. Rev. E 74, 036104 (2006).

11. West D. B. Introduction to Graph Theory. Prentice Hall, 1996.

12. Donetti L., Muñoz A. Detecting network communities: a new systematic and efficient algorithm // J. of Statistical Mechanics. 2004. P. 10012.

13. Barnard S., Pothen A., Simon H. A spectral algorithm for envelope reduction of sparse matrices // Numer. Linear Algebra Appl. 1995. V. 2. P. 317-334.

14. Guattery S., Miller G. On the quality of spectral separators // SIAM J. Matrix Anal. Appl. 1998. V. 19. P. 701-719.

15. Wei Y.-C., Cheng C.-K. Toward efficient hierarchical designs by ratio cut partitioning // Proc. of the IEEE International Conference on Computer Aided Design. 1989. P. 298-301.

16. Shi J., Malik J. Normalized cut and image segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. V. 22, iss.8. P. 888-905.

17. Meila XL. Shi J. A random walks view of spectral segmentation // Proc. International Workshop on AI and Statistics (AISTAT) 2001. [Electron, resource], https://dblpl.uni-trier.de/ db/conf/aistats/aistats2001.html.

18. Rosvall XL. Bergstrom C. T. Maps of random walks on complex networks reveal community structure // Proc. Natl. Acad. Sci. USA. 2008. V. 105, N4. P. 1118-1123.

19. Pons P., Latapy M. Computing communities in large networks using random walks // J. of Graph Algorithms and Applications. 2006. V. 10, N2. P. 191-218.

20. Ward J. H. Hierarchical grouping to optimize an objective function // J. of the American Statistical Association. 1963. V.58, N301. P. 236-244.

21. Newman M.E. J., Girvan M. Finding and evaluating community structure in networks // Phvs. Rev. 2004. E 69 (2) 026113.

22. Raghavan U. N., Albert R., Kumara S. Near linear time algorithm to detect community structures in large-scale networks // Phvs. Rev. E 76, 036106.

23. Brandes 1'.. Delling I).. Gaertler XL. Gorke R., Hoefer M., Nikoloski /.. Wagner D. On Modularity Clustering // IEEE Transactions on Knowledge and Data Engineering. 2008. V. 20, iss.2. P. 172-188.

24. Blondel V., Guillaume J., Lambiotte J., Lefebvre E. Fast unfolding of communities in large networks // J. Stat. Mech. 2008, P10008.

25. Chung F., Lu L. Connected components in random graphs with given degree sequences // Annals of Combinatorics. 2002. V. 6. P. 125-145.

26. Luczak T. Sparse random graphs with a given degree sequence // Proc. of the Symposium on Random Graphs. Poznac, 1989. NY: John Wiley, 1992. P. 165-182.

27. Molloy XL. Reed B. A critical point for random graphs with a given degree sequence // Random Structures and Algorithms. 1995. V. 6. P. 161-179.

28. RePEc. General principles. [Electron, resource], http://repec.org/.

29. Bredikhin S. V., Lyapunov V. XL. Scherbakova N. G. Cluster Analysis of the Citation Network of Scientific Journals // Problemv informatiki. 2017. N3. P. 38-52.

30. igraph - The network analysis package. [Electron, resource], http://igraph.0rg/c/d0c/ ix01.html.

31. Fred A. L. N., Jain A. K. Robust data clustering // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR, Minneapolis (USA), June 16-22, 2003. P. 128-136.

32. Rand W. M. Objective criteria for the evaluation of clustering methods // J. Amer. Statistical Association. 1971. V.66, N336. P. 846-850.

33. Hubert L., Arabie P. Comparing partitions // J. Classification. 1985. V. 2, iss. 1. P. 193-218.

34. Jel classification system / EconLit Subject Descriptors. 2016. [Electron, resource]. https://www.aeaweb.org/econlit/jelCodes.php?view=jel.

СПЕКТРАЛЬНЫЙ АНАЛИЗ СЕТИ ЦИТИРОВАНИЯ НАУЧНЫХ ЖУРНАЛОВ

С. В. Бредихин, В. М. Ляпунов, Н. Г. Щербакова

Институт вычислительной математики и математической геофизики СО РАН,

630090, Новосибирск, Россия

УДК 001.12+303.2

Исследуются спектральные методы анализа сети научных публикаций, организованной на отношении цитирования и представленной орграфом GD = (V,E). Сравниваются результаты работы двух спектральных алгоритмов кластеризации. Орграф GD преобразуется в три неориентированных графа: A + AT (граф GU), A х AT (граф Gbib) и AT х A (граф Gcoc); здесь A — матрица смежности GD. Кластеризации графов GU, Gbib и Gcoc выполнены с помощью алгоритмов WTR и LEV. Агломеративный алгоритм WTR основан на матрице случайного блуждания P = D-1A, алгоритм бикластеризации LEV — на матрице модульности. Для сравнения

результатов разбиения используются индексы NMI, RAND, ADJUSTED_RAND. В результа-

GD

к неориентированному виду; кластеры журналов, построенные с помощью алгоритма WTR, могут быть проинтерпретированы в терминах принадлежности к тематическим областям. Результаты представлены в виде таблиц.

Ключевые слова: сеть цитирования журналов, сеть коцитирования, сеть библиографического сочетания, взвешенный ориентированный граф, разбиение графа, спектральная кластеризация.

Введение. Рассматривается задача разбиения множества вершин неориентированного связного графа G = (V,E) на непересекающиеся подмножества (кластеры) Ck = {C1,... ,Ck}, такие что число ребер внутри кластеров велико по сравнению с числом ребер между кластерами. Кластер Ch можно отождествлять с индуцированным подграфом G[Ch] = (Ch,E(Ch)), где E(Ch) := {(u,v) e E | u,v e Ch}. Toгда E(C) := Uh E(Ch) (h = 1,... ,k) множеством ^еттрикластерных ребер, а —E(C) := E — E(C) —

множеством межкластерных ребер. Разбиение на два кластера C2 = {C1,C2}, C2 = V — C1 называется разрезом, а число межкластерных ребер Cut(C1,C2) — размером разреза. Разрез с минимальным значением Cut называется минимальным разрезом [1]. Если граф взвешенный, то Cut определяется как сумма весов межкластерных ребер. Разбиение на два

k

kk

G

определения минимального разреза, то решение будет тривиальным, поскольку Cut минимально, если поместить все вершины в один кластер. Отсюда вытекает требование к числу кластеров. Кроме того, нежелательно сокращать размер разреза за счет деления на небольшие кластеры. Поэтому предлагаемые алгоритмы разбиения должны балансировать между размером разреза и числом кластеров.

(с) С. В. Бредихин, В. М, Ляпунов, Н. Г. Щербакова, 2018

Решение подобных задач опирается на результаты анализа матрицы смежности С, для изучения структурных свойств которой, как правило, используются спектральные методы. Пусть А = (А^) — матрица смежности неориентироваиного графа С = (У,Е), IV| = п (вершины занумерованы), |Е| = т. Заданы желаемое число кластеров к и верхняя и нижняя границы размеров кластеров: V(к,1 < к < к) Еи < |Си| < Wh, Требуется найти сбалансированное разбиение Ск, при котором размеры кластеров находятся в нужных границах и которое минимизирует функцию

т.е. Еи — сумма весов ребер разреза, соответствующих кластеру Си [2] (множитель 1/2 возникает из-за того, что каждое ребро учитывается дважды). Задача нахождения сбалансированного разбиения является МР-полной [3], Использование алгоритмов полиномиальной сложности неприемлемо для больших сетей, поэтому рассматриваются приближенные методы решения задачи,

К задаче (1) для неориентированного графа может быть сведена любая задача кластеризации множества объектов х\,..., хп, для которых установлена мер а подобия = з(хг, Х), согласно некоторой функции подобия, являющаяся симметричной и неотрицательной, Соответствующая матрица подобия S = (%), Представление данных в форме "графа подобия": объекту х^ соответствует вер шина V (считаем, что вершины занумерованы и далее пользуемся номерами вершин), если > 0, то ребро (г,з) имеет в ее ВзвешенА

задачу кластеризации как задачу разбиения графа. Аналогично, к задаче (1) для орграфа может быть сведена задача кластеризации объектов Х1,... ,хп, для которых установлено несимметричное отношение,

1. Кластеризация на основе матрицы Лапласа. Существуют различные варианты спектральной кластеризации, основанные на вычислении собственных векторов матрицы смежности [4-7], Использование матрицы Лапласа обусловлено рядом ее важных свойств, отражающих структурные особенности графа [8, 9],

Рассмотрим задачу кластеризации С2 = {С1,С2} вершин неориентированного невзве-шенного связного графа С = (^Е) с (0, 1) матрицей смежности А, Воспользуемся рассуждениями, приведенными в работе [10]. Здесь и далее предполагаем, что граф не имеет кратных ребер и петель. Разбиение можно представить с помощью индикаторного вектора (индекс-вектора) 8 с элементами

к

(1)

Н=1

+1, если г е С1 — 1, если г е С2.

Заметим, что зтз=п. Тогда

(г е С2 апё 3 е С1),

(2)

Таким образом, (1) можно представить в виде

г

degi = ^ Aij.

HJ-j

Представим сумму элементов матрицы с учетом того, что s? =1, как

^Т Aij = Y degi = s2degi = siSJdegi6ij,

i,j i i i,j

где 6ij = 1, если i = j и 6j = 0 в противном случае. Тогда

Cut =4 E SiSj (degi6ij — Aij). i,j

Отсюда

Cut = 1 sTLs, (4)

4 w

где L — симметричная матрица с элементами Lij = degi6ij — Aij, т.е.

( degi, i =

Lij = < —1 i = j и Aij = 1, (5)

0

Таким образом, L — матрица Лапласа (L = D — A, гДе D — диагональная матрица, Du = degi).

iL

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

n

aw,

i=1

E'

где ai = vTs, так как sTs=и, имеем:

Y a2 = и (6)

i=1

Отсюда

Cut = Y1 a^TL Jj = Y1 aiaJAJ6iJ = Y1^ (7)

j i,j

где Ai — собственное значение матрицы L, соответствующее собственному вектору vi с учетом того, что vtvj = 6ij (если векторы нормализованы, то vTvi = 1), Будем считать, что собственные значения упорядочены по неубыванию:

Ai < А? < ... < An; (8)

1n

Теперь задача минимизации Cut (1) может быть сформулирована как задача выбора неотрицательных величин a2 (см, (7)) так, чтобы "большие" значения соответствовали "малым" собственным значениям, а "малые" — "большим", и в то же время выполнялось (6),

L

У^ Lij = ^^(degi8ij — Aj) = degi — degi = 0.

Таким образом, вектор v= (1,1,... ,1) является собственным вектором матрицы L, соответствующим собственному значению ноль, У матрицы L все собственные значения неотрицательны, поэтому значение ноль является минимальным, Ai = 0, Такой выбор эквивалентен помещению всех вершин в один кластер, но это решение не представляет интереса.

Рассмотрим вариант разделения на два кластера размеров щи n2, тогда:

2 , т (ni - n2)2

ai = (v is) =-.

n

Поскольку нет возможности варьировать этот коэффициент, то обращаем внимание на другие элементы суммы (7), Если нет другого ограничения на s, кроме sTs = n, то Cut может быть минимизирован выбором s, пропорциональным второму минимальному соб-

2 L A2

кратноеть значения ноль соответствует числу связных компонент [11]). Тогда (7) зависит A2

векторов L. Согласно (2) элементы s paвны либо +1 либо —1, т. е, вектор s может быть не 2 2

|v Ts I

^v2(i)si

<

E |v2(i)l, (9)

где ^2(г) — элемент г вектора лг2. Неравенство (9) следует из неравенства треугольника, равенство достигается, если все члены первой суммы имеют одинаковый знак. Другими словами, максимум ^| достигается, когда у2(г)вг > 0 для всех г, что эквивалентно тому, что сомножители имеют один знак:

+ 1, если у2(г) > 0, — 1, если г>2(г) < 0.

В случае произвольного размера кластеров разделение производится на основании зна-

2 п1 п2

2

раепределить согласно размерам.

Базовую схему спектральной биклаетеризации 51 можно представить в виде: Шаг 1 Построить матрицу Лапласа Е (см, (5)),

Шаг 2 51, Найти второй минимальный собственный вектор, являющийся решением уравнения Елг = Ау.

Шаг 3 С1 = {г; ^2(2) > 0}; С2 = {г; ^2(2) < 0}.

Увеличения числа кластеров можно достичь итерационным процессом.

Схему 52 спектральной к-кластеризации можно представить следующим образом:

Шаг 1 52. Построить матрицу Л апласа Е,

Шаг 2 52, Вычисли ть к первых собственных век торов у1,... ,лг к матрицы Е, Шаг 3 Построить матрицу М е Кпхк, в качестве столбцов которой выступают 1, . . . , к

Шаг 4 $2- Постройть уг € (г = 1,... ,п) — вектор, соответствующий г-й строке матрицы М, Применить алгоритм кластеризации (например, к-средних) к точкам уг (соответствующим вершинам) в пространстве для получения кластеров С\,... ,Ск. Подобная схема использовалась, например, в работах [12, 13].

2. Нормализованная кластеризация. Нормализация разреза является одним из способов предотвратить тенденцию разделения графа на небольшие изолированные кластеры. Существуют несколько приемов нормализации, например, в работе [14] представ-

СпЬ(СъС2) СпЬ(СъС2) , ,

лено отношение -, .., в работе 15 — отношение ——-ггтт- В работе 16 пред-

Ш1П(|С1|,|С2|) |СХ | х | С21

ложен нормализованный разрез:

Мепг(С1,С2) = ( I СпЬ(СъС2),

\ Ь01 (С 1) Ь01(С2) I

где ьо1(С) = <1едг,С С V. Разрез ИсЫ оценивает доли размера разреза относительно гес

всех связей каждого кластера.

Кластеризация производится на основании второго минимального вектора, являющегося решением обобщенного уравнения:

= АБлг. (10)

Уравнение (10) приводится к стандартному виду = Ау, матрица

Ьзут = Б-1/2ЬБ-1/2 называется симметрично-нормализованной матрицей Лапласа. В работе [16] утверждается, что если Аь — второе минимальное (8) собственное значение Ьяут, а Vй — соответствующий ему собственный вектор и существует разбиение С2 = {С1,С2}, такое что

ь = Г а, если г € С1,

г | в, если г € С2,

то разбиение оптимальное и Nеп1(С1,С2) = Аь. Таким образом, схема нормализованной бикластеризацни совпадает со схемой за тем исключением, что вместо матрицы Ь используется матрица Ьзут.

Схема 5з нормализован пой к-клаетеризации аналогична схеме Б2 и отличается тем, что к минимальных собственных векторов являются решением обобщенного уравнения (10).

В работе [17] рассматривается интерпретация нормализованной спектральной кластеризации с точки зрения дискретного случайного блуждания. Если нормализовать взвешенную матрицу А по строкам, то получим стохастическую матрицу:

Р = Б-1 А, (11)

которая характеризует Марковский процесс случайного блуждания, Р^ — вероятность перехода из вершины г в вершину ] за один шаг. Предполагается, что все вершины имеют ненулевые взвешенные степени. Пусть

А1 > А2 > ... > А„ (12)

упорядоченные по невозрастанию собственные значения матрицы Р, а у^!., у2, ..., уп — соответствующие им собственные векторы, т. е. решения уравнения

Рлг = Ау. (13)

В работе [17] показано, что если А, V являются решением (13) и Р = то пара

((1 — А), V) является решением (10), Другими словами, спектральная проблема, сформулированная алгоритмом МсЫ, и проблема собственных значений/векторов стохастической Р

мальному вектору (13), Там же приведена схема £4 нормализован ной к-клаетеризации на основе матрицы случайного блуждания:

Шаг 1 £4. Построить матрицу Р.

Шаг 2 £4, Вычислить к наибольших собственных векторов ,, матрицы Р.

Шаг 3 £4, Построить мат рицу М е Кпхк, в качестве столбцов которой выступают 1к

Шаг 4 £4, Построить у^ е (г = 1,... ,п) — вектор, соответствующий г-й строке М

Шаг 5 £4. Применить алгоритм кластеризации, например ^^^^дах, к у^ для получения кластеров С1,..., Ск,

Спектральная кластеризация способна группировать вершины согласно подобию вероятностей переходов между подмножествами вершин, Т. е, если множество V разделено на две части, то случайное блуждание, начавшееся в одной из частей, имеет тенденцию остаться в ней. Связь стационарного распределения с кластеризацией используется в работе [18], Стационарное распределение рассматривается как показатель частоты посещения каждой вершины графа,

Рк статье [19], Определяется расстояние между вершинами графа:

Гц

\

(Р5 — р«)2

1=1

^ degl

где р* — вероятность перехода из вершины г в вершину / за ¿шагов, ёед1 — степень вершины /, Показано, что если собственные значения матрицы Р упорядочены согласно (12), а ,,, ,лгп — соответствующие им собственные векторы, то для достаточно больших ¿

имеет место равенство

Гц(¿) = Е А2* (^1 (г) — VIШГ

— /

1=2

где VI (г) — элемент г вектора Затем определяется гс — расстояние между вершиной г и кластером С, Строится иерархический объединяющий алгоритм, основанный на методе Уорда [20], рассматривающем в качестве кандидатов на объединение С3 = С1 и С2 "близко" расположенные кластеры, В данном случае на каждом шаге в качестве таких кандидатов рассматриваются пары смежных кластеров. Минимизируется выражение

П ( Е г2сз — Е г2с1 — Е г2с2

\г€Сз геС2

Алгоритм И' /'А'. применяемый в нашей работе, использует эту технику.

3. Кластеризация на основе матрицы модульности. В работе [21] задача оптимального разбиения графа рассматривается как максимизация числа ребер внутри кластеров, Понятие "модульности" базируется на предположении, что структура изучаемого графа, как правило, отличается от структуры случайного графа. Определяется функция

Я = N - N2, (14)

где N1 — число ребер внутри кластеров, N2 — ожидаемое число таких ребер. Функция Я

ри кластеров. Вычисление модульности де-факто является способом проверки качества разбиения вершин графа, см, [19, 22-24],

Ожидаемое число ребер N вычисляется согласно "нуль-модели" графа, который имеет то же число вершин и может быть разделен на то же число кластеров, что и анализируемый граф. Вероятность наличия ребра (%,]) в модели обозначим Рц. Формула (14) может быть представлена в виде:

я = 2т - же с), (15)

г,3

где Сг — кластер, в который попадает вершина г, 6(т,в) = 1, если г = з, Выбор Рц ограничен по следующим причинам: во-первых, поскольку рассматривается неориентированный граф, то Рц = Рцг; во-вторых, предполагавтея, что Я = 0; если все вершины попадают в один кластер, т, е,

£(Аз - Рг3) = 0.

г,3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отсюда

Е Ри = Е Аи = 2т. (16)

г,3 г,3

Ожидаемая степень вершины г задается выражением Рц', в предположении, что ожи-

з

даемая степень вершины приближается к реальной, имеем:

Е Ргз = (едг

гз з

Далее в качестве нуль-модели рассматривается модель случайного графа с фиксированной степенной последовательностью (см, [25-27]):

р = (едг(едц гз = 2т .

Рассмотрим задачу бикластеризации. Согласно (2), (3) имеем:

т,Сз ) = !(* зц + 1). Теперь (15) можно представить в виде:

Я = - Ргз + ^ = 4т - ^ )8г8>■

г,з гц

Второе равенство вытекает из (16), В матричной форме:

Я = ^ тВз, (17)

где В — симметричная матрица с элементами:

Вгц Лгц Ргц ■

В

В

матрица Лапласа: уравнение (17) соответствует (4), Показано, что на основе собственного вектора, соответствующего наибольшему положительному собственному значению В

вектора,

4. Вычислительный эксперимент. Выше была представлена методика спектрального анализа, послужившая основой для алгоритмов кластеризации И' /'А' и ЬЕУ. Цель эксперимента состояла в сравнении результатов работы указанных алгоритмов по выявлению сообществ в множестве научных журналов, размещенных в одной библиографической базе данных,

В качестве исходных данных выступает сеть цитирования журналов, построенная на основе информации о цитировании, извлеченной из БД ЯеРЕс [28], Сеть представляется взвешенным орграфом без кратных ребер и петель. Анализируется главная компонента С = (У,Е), IV| = 1729, |Е| = 135702, с взвешенной матрицей смежности Л, Поскольку алгоритмы предназначены для неориентированных графов, преобразуем орграф С в неориентированный тремя способами (см, [29]), В результате были получены три неориентированных графа, которые были использованы в эксперименте:

а) граф Си, представлен матрицей смежности Л + Лт, |Е(Си)| = 116190 (пары разнонаправленных дуг заменяются одним ребром с суммарным весом);

б) граф СЬгЬ, соответствующий "сети библиографического сочетания", представлен нормализованной матрицей ЛЛт, без учета одиночных вершин IV(СЬгЬ)| = 1432, |Е(СЬгЬ)| = 844476;

в) граф Ссос, соответствующий "сети коцитирования", представлен нормализованной матрицей ЛтЛ, без учета одиночных вершин IV(Ссос)| = 1582, |Е(Ссос)| = 820982,

Алгоритм ШТН"реализует метод, предложенный в статье [19]. Работа начинается с разбиения Я1 = € V}, каждая вершина является кластером. Вычисляются все

расстояния между всеми смежными вершинами. На шаге к:

1, Выбираются два кластера С1, С2, слияние которых приводит к минимальному увеличению целевой функции (27);

2, Образуется новый кластер С3 = С1иС2 и новое разбиение Як+1 = (Як\{С1,С2})и{С3};

3, Обновляются расстояния между смежными кластерами.

На шаге п — 1 алгоритм заканчивает работу, при этом Яп = {V}, На каждом шаге вычисляется Я (15). Лучшим считается разбиение с максимальным значением Я Сложность вычислений оценивается как 0(|Е|2), для разреженного графа — |2IV|),

Таблица, 1 Таблица, 2

Размеры кластеров графа Си Тематика кластеров графа Си, алгоритм \¥ТН

WTR LEV #J Тематика Коды J el

ф а ф а #j 183 Сельское хозяйство, Q

1 692 1 1549 ресурсы, экология

1 280 1 180 76 Здравоохранение, соц. обеспечение I

1 270 62 Транспортная экономика, R

1 183 администрирование

1 76 44 Эконометрические и статистические CI

1 62 методы

1 о 44 с 8 Образование A2, 12

Z 1 о 4

1 2

Алгоритм LEV является реализацией метода, предложенного в статье [10]. Это итерационный процесс деления множества вершин на две части. На шаге к:

1. Для графа/выбранного подграфа строится матрица модульности B;

2. Вычисляется вектор, соответствующий наибольшему по абсолютной величине собственному значению; если это значение ßn положительно, то собственный вектор искомый; если отрицательно, то повторяем вычисление для матрицы B — ßnI (где I — единичная матрица);

3. Кластер делится на две части соответственно знакам элементов найденного собственного вектора.

4. Проверяется, увеличилось ли значение модульности исходного графа; если да, то считаем разделение правомерным и переходим к шагу 1.

Алгоритм LEV закапчивает работу, если значение Q не увеличивается или ни один кластер невозможно разделить на две части. Кластер невозможно разделить на части, если все собственные значения, кроме нулевого, отрицательны. Сложность LEV оценивается как O(|E| + |V|2xsfeps); Где steps — число шагов деления на два сообщества. Алгоритмы WTR и LEV реализованы с помощью библиотеки C пакета igraph [30].

4.1. Кластеризация GU. В табл. 1 приведены размеры кластеров, полученных в результате исполнения алгоритмов WTR и LEV в применении к графу GU. Здесь и далее одновершинные кластеры не включаются в таблицы, так, при кластеризации И'77t' число одновершинных кластеров равно ста; фС1 — число кластеров размера Для сравнения результатов кластеризации использовались три индекса согласованности: NMI [31], RAND [32] и AD JUSTED_RAND (ARI) [33]. Индексы согласованности выглядят так: NMI =0,12; RAND =0,38; ARI =0,07. Очевидно, что сходство минимальное.

При кластеризации с помощью алгоритма LEV 89,6% журналов (1549) попали в один кластер, что не позволяет интерпретировать результаты. Однако с помощью алгоритма WTR были выделены тематические области (табл. 2.) на основе ключевых слов в названиях журналов и классификатора J el [34]. Интерпретируемым результатом будем считать

Таблица 3

Размеры кластеров графа СЬгЬ

WTR LEV

jipi 7/ #J JA pi 7/ #J

1 718 1 486

1 369 1 339

1 288 1 316

1 30 1 291

1 25

Таблица 4

Тематика кластеров графа СЬгЬ, алгоритм WTR

#J Тематика Коды J el

369 Математические методы, бизнес- С, М,

экономика, экономическое развитие, О, Q, R

ресурсы, транспортная экономика

288 Общая экономика, математические А, С, G

методы, финансовая экономика

30 Математические методы с

25 Математические методы, С, L

организация производства

кластеризацию, которая позволяет соотнести кластер с 1-2 тематическими областями. Несмотря на различные результаты, 69 % журналов, входящих в И'77t' кластер, имеющий размер 183 (см, табл. 1, столбец 2, строка 4) входят в LEV кластер, имеющий размер 180 (см, табл. 1, столбец 4, строка 2), Если сравнивать алгоритмы по размеру разреза графа GU, то в результате разбиения LEV размер разреза меньше. Такое соотношение сохраняется для нормализованных разрезов, определенных согласно [14, 16]. Нормализация согласно [15] дает меньшее значение для разбиения WTR.

4.2, Кластеризация Gbib. Размеры кластеров, полученных в результате кластеризации Gbib алгоритмами WTR и LEV, представлены в табл. 3, Индексы согласованности имеют вид: NMI =0,77; RAND =0,84; ARI =0,53, Если сравнивать алгоритмы WTR и LEV по размеру разреза графа Gbib, то в результате разбиения WTR размер разреза меньше. Такое соотношение сохраняется для нормализованного разреза, определенного согласно [15], Нормализация согласно [14] и [16] дает меньшее значение для разбиения LEV. Тематика WTR кластеров представлена в табл. 4,

4.3, Кластеризация Gcoc. Размеры кластеров, полученных в результате кластеризации Gcoc представлены в табл. 5. Индексы согласованности имеют вид: NMI =0,57; RAND = ARI

фа Gm.

Заключение. Цель работы состояла в сравнении спектральных методов кластеризации коллекции научных журналов БД RePEc, связанных отношением цитирования. Задача кластеризации представлена как задача минимизации сбалансированного разреза соответствующего графа. Проанализирована связь определения целевой функции и матрицы, на основе собственных векторов которой достигается оптимизация, а именно, обоснованность применения матриц Лапласа, случайного блуждания и модульности.

Реализованы алгоритмы спектральной кластеризации WTR и LEV. Исследованы результаты их работы для графов GU, Gbib и Gcoc. Проведенное исследование позволяет заключить, что для рассматриваемой сети цитирования журналов больше подходит спектральная кластеризация алгоритмом WTR на основе матрицы случайного блуждания. Приемлемую согласованность рассматриваемые алгоритмы достигли при кластеризации графа Gbib. В свою очередь, граф GU лучше поддается кластеризации, чем два других варианта преобразования исходного орграфа. Анализ показал, что кластеры большого

Таблица 5

Размеры кластеров графа Gcoc

WTR LEV

Ф CI #J Ф CI #J

1 517 1 675

1 350 1 459

1 255 1 448

1 235

1 118

1 32

1 30

1 9

9 < 9

Таблица 6

Gcoc

фЗ Тематика Коды Jel

350 Финансовая экономика, бизнес- Е, G,

экономика, транспортная экономика М, R

255 Транспортная экономика, R, М

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

бизнес-экономика

235 Математические методы, организация С, L,

производства, экономическое О, Q

развитие, ресурсы

118 Восточная Европа А, М

32 Румыния

30 Математические методы С

9 Восточная Европа

размера (|Ci| > 200) не удается классифицировать согласно 1-2 тематикам. При кластеризации графа коцитирования алгоритмом WTR, кроме тематических сообществ, выделены сообщества журналов, связанных по территориальному признаку издательств. Отметим, что большинство кластеров, кроме журналов основных тематик, содержат журналы, относящиеся к "математическим методам" (J el код С), Выявлена зависимость результатов кластеризации от применяемого алгоритма, способа преобразования орграфа в неориентированный граф и способа нормализации размера разреза.

Список литературы

1. Brandes U., Gaertler М., Wagner D. Experiments on graph clustering algorithms // Proc. of the 11th Annual European Symposium on Algorithms (ESA'03). 2003. P. 568-579.

2. Alpert C. J., Yao S.-Z. Spectral partitioning: The more eigenvectors, the better // Proc. of the 32nd annual ACM/IEEE Design Automation Conference. 1995. P. 195-200.

3. Garev R. R., Johnson D. S. Computers and intractability: A guide to the theory of NP-completeness. 1990. NY: W. H. Freeman к Co.

4. Gould P. The Geographical Interpretation of Eigenvalues // Institute of British Geographers Transactions. 1967. Y. 12. P. 53-85.

5. Donath W. E., Hoffman A. Algorithms for partitioning of graphs and computer logic based on eigenvectors of connection matrices // IBM Technical Disclosure Bulletin. 1972. V. 15, iss. 3. P. 938-944.

6. Barnes E. An Algorithm for Partitioning the Nodes of a Graph // SIAM J. Alg. Disc. Math. 1982. V. 3, iss. 4. P. 541-550.

7. Sarkar S., Bover K. L. Quantitative measures of change based on feature organization: Eigenvalues and eigenvectors // Computer Vision and Image Understanding. 1998. V. 71, N1. P. 110-136.

8. Hall К. M. An r-dimensional Quadratic Placement Algorithm // Management Science. 1970. V. 17. P. 219-229.

9. Mohar B. The Laplacian Spectrum of Graphs. Graph Theory к Application. Wiley, 1991. P. 871-898.

10. Newman М. Е. J. Finding community structure using the eigenvectors of matrices // Phvs. Rev. E 74, 036104 (2006).

11. West D. B. Introduction to Graph Theory. Prentice Hall, 1996.

12. Donetti L., Muñoz A. Detecting network communities: a new systematic and efficient algorithm // J. of Statistical Mechanics. 2004. P. 10012.

13. Barnard S., Pothen A., Simon H. A spectral algorithm for envelope reduction of sparse matrices // Numer. Linear Algebra Appl. 1995. V.2. P. 317-334.

14. Guatterv S., Miller G. On the quality of spectral separators // SIAM J. Matrix Anal. Appl. 1998. V. 19. P. 701-719.

15. Wei Y.-C., Cheng C.-K. Toward efficient hierarchical designs by ratio cut partitioning // Proc. of the IEEE International Conference on Computer Aided Design. 1989. P. 298-301.

16. Shi J., Malik J. Normalized cut and image segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. V. 22, iss.8. P. 888-905.

17. Meila M., Shi J. A random walks view of spectral segmentation // Proc. International Workshop on AI and Statistics (AISTAT) 2001. [Electron, resource], https://dblpl.uni-trier.de/ db/conf/aistats/aistats2001.html.

18. Rosvall M., Bergstrom С. T. Maps of random walks on complex networks reveal community structure // Proc. Natl. Acad. Sci. USA. 2008. V. 105, N4. P. 1118-1123.

19. Pons P., Latapv M. Computing communities in large networks using random walks // J. of Graph Algorithms and Applications. 2006. V. 10, N2. P. 191-218.

20. Ward J. H. Hierarchical grouping to optimize an objective function // J. of the American Statistical Association. 1963. V.58, N301. P. 236-244.

21. Newman M. E. J., Girvan M. Finding and evaluating community structure in networks // Phvs. Rev. 2004. E 69 (2) 026113.

22. Raghavan U.N., Albert R., Kumara S. Near linear time algorithm to detect community structures in large-scale networks // Phvs. Rev. E 76, 036106.

23. Brandes U., Delling D., Gaertler M., Gorke R., Hoefer M., Nikoloski Z., Wagner D. On Modularity Clustering // IEEE Transactions on Knowledge and Data Engineering. 2008. V. 20, iss.2. P. 172-188.

24. Blondel V., Guillaume J., Lambiotte J., Lefebvre E. Fast unfolding of communities in large networks // J. Stat. Mech. 2008, P10008.

25. Chung F., Lu L. Connected components in random graphs with given degree sequences // Annals of Combinatorics. 2002. V. 6. P. 125-145.

26. Luczak T. Sparse random graphs with a given degree sequence // Proc. of the Symposium on Random Graphs. Poznac, 1989. NY: John Wiley, 1992. P. 165-182.

27. Mollov M., Reed B. A critical point for random graphs with a given degree sequence // Random Structures and Algorithms. 1995. V. 6. P. 161-179.

28. RePEc. General principles. [Electron, resource], http://repec.org/.

29. Бредихин С. В., Ляпунов В. \!.. Щербакова Н. Г. Кластерный анализ сети цитирования журналов // Проблемы информатики. 2017. № 3. С. 38-52.

30. igraph - The network analysis package. [Electron, resource], http://igraph.0rg/c/d0c/ ix01.html.

31. Fred A. L. N., Jain A. K. Robust data clustering // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR, Minneapolis (USA), June 16-22, 2003. P. 128-136.

32. Rand W. M. Objective criteria for the evaluation of clustering methods // J. Amer. Statistical Association. 1971. V.66, N336. P. 846-850.

33. Hubert L., Arabie P. Comparing partitions // J. Classification. 1985. V. 2, iss. 1. P. 193-218.

34. Jel classification system / EconLit Subject Descriptors. 2016. [Electron, resource]. https://www.aeaweb.org/econlit/jelCodes.php?view=jel.

Бредихин Сергей Всеволодович — канд. техн. наук, ведущий научный сотрудник Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected];

Сергей Бредихин окончил механико-математический факультет Новосибирского государственного университета в 1968 г. С 1968 г. — сотрудник Института автоматики и электрометрии СОАН СССР. Кандидат технических наук с 1983 г. В период 1988-2017 гг. руководил лабораторией ИВМиМГ СО РАН. Исполнял обязанности технического директора проекта „Сеть Интернет Новосибирского научного центра". Лауреат государственной премии РФ по науке и технике 2012 г. Сфера научных интересов: анализ и измерение распределенных информационных сетей. Автор и соавтор более ста научных работ и двух монографий: "Методы библиометрии и рынок электронной научной периодики", "Анализ цитирования в библиометрии".

Sergey Bredikhin — Ph.D. of Engineering Sciences, Leading Researcher, Institute of Computational Mathematics and Mathematical Geophysics SBRAS, e-mail: [email protected].

Sergey Bredikhin graduated from Novosibirsk State University in 1968, faculty of Mechanics and Mathematics, and became an employee of Institute of Automation and Electrometry SBRAS. In 1983 he receivedPh.Ddegree in Engineering Science. Since 1988 he was the head of the laboratory of Computing Center (now ICM&MG) SB RAS. He was the technical manager of „Akademgorodok Internet Project". He is the state prize winner in science and engineering RF at 2012. Since 2017 he is the leading researcher of ICM&MG. Sphere of his scientific interests — analysis and measurement of the distributed information networks. He is the author and co-author of more than hundred scientific works and two monographs: "Metody bibliometrii i rynok electronnoy nauchnoy periodiki "Analiz tsitirovaniya v bibliometrii".

Ляпунов Виктор Михайлович — ведущий инженер Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected];

Виктор Ляпунов окончил механико-математический факультет Новосибирского государственного университета в 1978 г. В1978 г. стал сотрудником Вычислительного центра СОАН СССР, а с 1990 г. — сотрудником Института систем информатики СО АН СССР. С 2004 г. - ведущий инженер Института вычислительной математики и математической геофизики СО РАН. Занимается вопросами извлечения информации из баз данных и обработкой больших массивов данных. Соавтор более 10 работ в этой области.

Victor Lyapunov — Leading Software Engineer, Institute of Computational Mathematics and Mathematical Geophysics SBRAS, e-mail: [email protected].

Victor Lyapunov graduated from Novosibirsk State University in 1978 (faculty of Mechanics and Mathematics). In 1978, he became an employee of Computing Center of SB AS USSR, since 1990 — an employee of Institute of Informatics Systems SBRAS. Since 2004 he works as software engineer in Institute of Computational Mathematics and Mathematical Geophysics SBRAS. His current research interests include methods of information extracting from databases and processing of large data sets. He is the co-author of more than 10 works in that area.

Щербакова Наталья Григорьевна — старш. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; е-mail: [email protected].

Наталия Щерба-

кова окончила Новосибирский государственный университет по специальности Математическая лингвистика в 1967 г. С 1967 г. работала в Институте математики СО АН СССР, затем— в Институте автоматики и электрометрии СО АН СССР в области создания программного обеспечения систем пе-

редачи данных. С 2000 г. — сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 г. занимает должность старшего научного сотрудника. Являлась участником проекта "Сеть Интернет Новосибирского научного центра", занималась вопросами мониторинга и анализа IP-сетей. Автор и соавтор более 40 работ, соавтор монографии "Анализ цитирования в библиометрии". Научные интересы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.

Natalia Scherbakova — Senior Researcher, Institute of Computational Mathematics and Mathematical Geophysics SB RAS, e-mail: [email protected].

Natalia Shcherbakova graduated from Novosibirsk State University in 1967 (mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometrv SB RAS in the field of software design for data transmission systems. In 2000 — the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002 works as senior researcher. She is a member of "Akademgorodok Internet Project", dealt with software of monitoring and the analysis of IP networks. She is the author and co-author of more than 40 works, the co-author of the monograph "Ansliz tsitirovaniva v bibliometrii". The current research interests lie in the field of bibliometrics: methods of measuring of scientific.

Дата поступления — 30.03.2018

i Надоели баннеры? Вы всегда можете отключить рекламу.