Научная статья на тему 'СПЕКТРАЛЬНЫЙ АНАЛИЗ СЕТИ ЦИТИРОВАНИЯ ЖУРНАЛОВ. ЧАСТЬ II'

СПЕКТРАЛЬНЫЙ АНАЛИЗ СЕТИ ЦИТИРОВАНИЯ ЖУРНАЛОВ. ЧАСТЬ II Текст научной статьи по специальности «Математика»

CC BY
51
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
СПЕКТРАЛЬНАЯ КЛАСТЕРИЗАЦИЯ / НОРМАЛИЗОВАННЫЙ РАЗРЕЗ / УНИВЕРСАЛЬНЫЙ ВЗВЕШЕННЫЙ РАЗРЕЗ / ЕСТЬ ЦИТИРОВАНИЯ НАУЧНЫХ ЖУРНАЛОВ

Аннотация научной статьи по математике, автор научной работы — Бредихин Сергей Всеволодович, Ляпунов Виктор Михайлович, Щербакова Наталья Григорьевна

Представлены два спектральных алгоритма разбиения, основанные на минимизации нормализованного разреза графа. Выполнен кластерный анализ сети цитирования научных журналов БД RePEe и приведены его результаты.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бредихин Сергей Всеволодович, Ляпунов Виктор Михайлович, Щербакова Наталья Григорьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СПЕКТРАЛЬНЫЙ АНАЛИЗ СЕТИ ЦИТИРОВАНИЯ ЖУРНАЛОВ. ЧАСТЬ II»

SPECTRAL ANALYSIS OF THE JOURNAL CITATION NETWORK. PART II

S. V. Bredikhin, V. M. Lyapunov, N. G. Shcherbakova

Institute of Computational Mathematics and Mathematical Geophysics SB EAS,

630090, Novosibirsk, Russia

The cluster analysis of a finite set of data points allows to obtain its partitioning C into uniform groups on the basis of similarity between points. The similarity relation between points form a basis for creation of a matrix of similarity A = (aj) where aj - a similarity measure. The matrix can be considered as the adjacency matrix of the weighed network, and the problem can be formulated as an optimizing problem of finding the minimum cut size of the graph that can be solved by methods of the spectral analysis and linear algebra. In most cases, depending on a formulation of the objective function, which formalizes the idea of grouping, eigenvectors of the Laplacian or adjacency matrix are investigated.

Algorithms of a spectral clustering can be divided into two types. The recursive method starts with a division of graph vertices into two subsets (bi-clustering), with the subsequent application of the algorithm to induced subgraphs. The corresponding spectral problem is solved and then is found the partitioning of the components of the eigenvector (usually the second smallest eigenvector of a Laplacian matrix) into two sets containing nearly equal values. Herewith the data point i is projected onto the component i of the vector.

In case of k-way clustering the algorithm finds k segments in one pass. It uses k eigenvectors of the consistent matrix. Segments are extracted by finding the approximately equal components in selected

ii kk

algorithm. It should be noted that the majority of the developed algorithms are designed for undirected graphs. To apply such algorithm to the directed graph, it must be transformed to undirected. Typical ways to obtain the symmetrical matrix A' from the original adjacency matrix A include A' = A + AT, A' = AAT A' = ATA.

This work follows Bredikhin, etc. (2017, 2018) that are focused on spectral clustering algorithms and their applicability to identify categories in the set of scientific journals. We build the citation network on the basis of the asymmetric relation R(i, j) between scientific journals i and j which means

i

j

considered. The approach Meila, Pentnev (2007) based on the minimization of the general weighed cut, WCut(), is used for partitioning of the directed graph. For comparison of the results of clustering of the original citation network and the undirected network obtained bv transformation A' = A + AT we implemented the algorithm based on minimization of the normalized cut MNCut() Shi, Malik (2000).

The implemented algorithms were applied to clustering of the citation network of the scholarly journals in the field of economics. We consider a group "natural" if the journals included relate to one or two scientific disciplines. We use Jel Classification System as a standard. The analysis of the results revealed their dependence on a number of factors: the used algorithm; either original directed graph is examined or transformed undirected graph; the way of svmmetrization; is the strength of the relationship between data points taken in account (weighted /unweighted graph); the measure of the similarity of two partitions used (consistency index).

(c) S. V. Bredikhin, V. M. Lyapunov, N. G. Shcherbakova, 2019

Key words: spectral clustering, normalized cut, generalized weighted cut, citation network.

References

1. Bredikhin s. v., Lyapunov v. m., Scherbakova n. g. Cluster analysis of the citation network of scientific journals // Problemv Informatiki. 2017. № 3. P. 38-52.

2. Bredikhin S. V., Lyapunov V. XL. Scherbakova N. G. Spectral analysis of the journal citation network // Problemv Informatiki. 2018. № 8. P. 24-40.

3. Meila M., Pentney W. Clustering by weighted cuts in directed graphs // Proc. of the 2007 SIAM Intern, conf. on Data Mining in directed cuts, Minneapolis (USA), Apr. 26-28, 2007. P. 135-144. [Electron, resource]. https://epubs.siam.org/doi/abs/10.1137/1.9781611972771.13.

4. Shi J., Malik J. Normalized cut and image segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. V. 22, iss. 8. P. 888-905.

5. Meila XL. Shi J. A random walks view of spectral segmentation // Proc. Intern, workshop on AI and statistics (AISTAT) 2001. [Electron, resource], https://dblpl.uni-trier.de/db/conf/ aistats/aistats2001.html.

6. Voevodin V. v., Voevodin Vl. V. E'ncziklopediva linejnoj algebrv'. SPb.: BXV-Peterburg. 2006.

7. Lankaster P. Teoriva matricz. XL: Nauka. Glavnava redakcziva fiziko-matematicheskoj literaturv'. 1973.

8. RePEc. General principles. [Electron, resource], http://repec.org/.

9. Jel classification system / EconLit Subject Descriptors. 2016. [Electron, resource], https: //www.aeaweb.org/econlit/j elCodes.php?view=j el.

10. Lapack: Linear algebra PACKage. [Electron, resource], http://www.netlib.org/lapack/ explore-html/index.html.

11. Arthur D., Vassilvitskii S. fc-means++: The advantage of careful seeding // Proc. of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia. PA, USA, 2007. P. 1027-1035. [Electron, resource] http://ilpubs. Stanford.edu:8090/778/1/2006-13.pdf.

СПЕКТРАЛЬНЫЙ АНАЛИЗ СЕТИ ЦИТИРОВАНИЯ

ЖУРНАЛОВ. ЧАСТЬ II

С. В. Бредихин, В. М. Ляпунов, Н. Г. Щербакова

Институт вычислительной математики и математической геофизики СО РАН,

630090, Новосибирск, Россия

УДК 001.12+303.2

Представлены два спектральных алгоритма разбиения, основанные на минимизации нормализованного разреза графа. Выполнен кластерный анализ сети цитирования научных журналов БД ЫеРЕс и приведены его результаты.

Ключевые слова: спектральная кластеризация, нормализованный разрез, универсальный взвешенный разрез, сеть цитирования научных журналов.

Введение. Кластерный анализ конечного множества объектов позволяет осуществить его разбиение на сравнительно однородные группы на основе сходства объектов. Отношение подобия между парой объектов служит основой для построения матрицы сходства А = (ац), где ац — мера сходства между гну. Матрицу можно рассматривать как матрицу смежности взвешенного графа, а задачу кластеризации формулировать как оптимизационную задачу нахождения минимального размера разреза графа. Для решения этой задачи привлекаются методы спектрального анализа и линейной алгебры. Обычно исследуются собственные векторы матрицы смежности или матрицы Лапласа (возможно предварительно нормализованной).

Алгоритмы спектральной кластеризации (СК) можно разделить на два типа. При использовании рекурсивного метода сначала происходит деление вершин графа на два подмножества (бикластеризация) с последующим применением алгоритма к индуцированным подграфам. Вычисляется собственный вектор, обычно второй наименьший собственный вектор матрицы Лапласа. Далее происходит разбиение вектора на два множества прибли-

гг

При К-кластеризацин разбиение множества объектов производится за один проход па основании вычисления К собственных векторов соответствующей матрицы. Обычно объект г отображается на кортеж размерности К с последующей кластеризацией кортежей, которые можно рассматривать как точки пространства или векторы. Отметим, что большинство разработанных алгоритмов предназначены для неориентированных графов. Чтобы применить такой алгоритм к орграфу необходимо привести орграф к неориентированному виду. Это можно выполнить с помощью одного из способов преобразования исходной матрицы смежности: А = А + Ат, А' = ААТ, А' = АТА.

Данная работа является продолжением исследования применения алгоритмов СК к выявлению тематических групп в сети цитирования научных журналов (см. [1, 2]). Сеть основана на асимметричном отношении цитирования К(г,]) между научными журналами г и у, которое означает, что журнал у содержит минимум одну статью, которая цитиру-

г

(с) С. В. Бредихин, В. М, Ляпунов, Н. Г. Щербакова, 2019

кластеризации вершин орграфа в терминах нормализованного разреза. Использован подход, основанный на минимизации универсального взвешенного разреза WCut(C) [3], Для сравнения результатов кластеризации реальной сети цитирования и сети, приведенной к неориентированному виду, реализован метод кластеризации неориентированного графа на основе минимизации нормализованного разреза MNCut(C), приведенный в работе [4],

1. Нормализованный разрез. Пусть A = (aij) - матрица смежности взвешенного связного неориентированного графа без кратных ребер и петель GWU = (V,E); |V| = n (вершины занумерованы); |E| = m; C = [C\,... ,CK} - разбиение вершин графа на K непересекающихся кластеров. Будем отождествлять вершины с их индексами. Ребра, соединяющие вершины в рамках одного кластера, считаем впутрикластерпыми; ребра, соединяющие вершины разных кластеров — внекластерными. Таким образом, можно счи-

GWU

Определим размер разреза Cut(C) для разбиения C:

к

Cut (C ) = YY Cut(Ck, Ck'), к=1 к'=к

где

Cut (Ck,Ck' )= Y Y ieok jeok'

aij.

Таким образом, ОпЬ(О) является суммой весов внекластерных ребер относительно всех пар кластеров. Далее наряду с термином "размер разреза" будем употреблять термин "разрез".

В результате кластеризации графа желательно получить такое разбиение вершин Оши, при котором сумма весов внекластерных ребер мала, а сумма весов внутрикластерных ребер велика. Нормализация разреза позволяет получить минимальный размер разреза при сбалансированном размере кластеров, В работе [4] разбиение множества вершин графа на два подмножества рассматривается как задача минимизации нормализованного разреза ЫспЬ(О).

Пусть Сед(г) = ^ а^ — степень вершины г, которую можно рассматривать как вес з

узла г. Сумма степеней вершин кластера к обоз тачается БОк и называется размером кластера:

°Ск = 5^ Сед(г)-

геОк

Нормализованный разрез ЫОиЬ(О) определяется как:

NопЬ(С1,О2) = ) + Опй{°2°1).

бо1 бо2

Бпкластернзацпя Оши проводится па основе второго минимального собственного вектора симметрично нормализованной матрицы Лапласа Ьяут = Б-Б-1/2АБ-1/2, где Б — диагональная матрица, Бгг = сСед(г), Ь = Б — А.

В работе [5] определение ЫОпЬ(О) расширено до множественного нормализованного к

МЫСЫ{С) = £ £ Сиг(Ск,Ск').

к=1 к'=к Ск

Задача кластеризации рассматривается в рамках модели случайного блуждания с матрицей переходных вероятностей Р = Б-1 А. Показано, что для решения задачи К-клаетеризации на основе минимизации ММСЫ(С) достаточно вычислить К + 1 наибольших собственных векторов матрицы Р, Наличие п независимых собственных векторов обеспечивается симметричностью матрицы А и обратимостью матрицы Б. Схема Б1 кластеризации Сши: 51,1, Построение стохастической матрицы Р.

Б1.2. Вычисление К собственных векторов х1,х2,... ,хК матрицы P, соответствующих собственным числам А1 > Л2 • • • > АК-

51,3, Нахождение "приблизительно" равных элементов в собственных векторах и соотнесение их с кластерами. Например, построение п х (К — 1) матрицы, столбцами которой являются векторы х2,... ,хК (пара (1, 1) в вычислениях не участвует). Строка г соответствует вершине г графа и рассматривается как точка проетранетва К точкам пространства применяется алгоритм кластеризации, например, к-средних,

2. Универсальный взвешенный разрез. Метод нахождения минимума универсального взвешенного разреза, приведенный в работе [3], применим к задаче кластеризации вершин орграфа Пусть С = {С1,... ,СК} — разбиение вершин орграфа на К непе-

г

виЬ_ deg(г) = ^^ ац.

Степень кластера Ск определяется как

Бск = £ °и£_deg(г).

геСк

Узлам сети сопоставим дополнительные веса, обозначим их Тг и Т'. Ассоциированные диагональные матрицы обозначим Т, Т', так, Тгг = Тг. Определим соответствующие веса кластеров:

Тс к = £ Тг.

геСк

ТС'

Универсальный взвешенный разрез определяется как

WCut(C) = ££ СЫ(С,Ск'), к к'=к Ск

где

Си1(Ск Ск') = £ £ Т'агз.

геСк зеСу

ТСк ТСк'

лизации матрицы А по строкам. WCut(C) является обобщением ММСЫ(С), который

можно выразить через ШСЫ(С), если в качестве матрицы А будет выступать Р = Б 1А, аТ = Т' = Б.

В работе [3] показано, что задача кластеризации на основе минимизации ШСЫ(С) может быть сведена к нахождению собственных чисел и векторов симметричной матрицы, Исключаем из дальнейшего рассмотрения матрицу Тпредполагаем, что Т' = I или переопределяем А = Т'А; Б = Т'Б.

Разбиение С представим в виде матрицы X размером (п х К), в которой к-й столбец хк является индикаторным вектором кластера Ск, т, е, хк(г) = 1 если г € Ск. Показано, что

к

ШСп1(С) = ^ УкВук, к=1

где

Хк

B = T-1/2 (D - A) T-1/2, ук = T1/2-

\/Гс~к

Матрица У = (ук)кк=1 имеет ортонормированные столбцы [6],

Оценка ШСпЬ(С) выражена через собственные числа эрмитовой части [7] матрицы В, Для вещественной матрицы В эрмитова часть определяется как Н(В) = 1/2(В + Вт). Таким образом, вместо симметрично нормализованной матрицы Лапласа Ьяут = как в случае Оши, используется Н(В), Эрмитова матрица симметричная и В

к

WCut(C) > Y хк

к=1

— собственные числа матрицы H (B ), вде А1 < \2 < ■ ■ ■ < Ак. ^^и этом если Y — матрица размером (n х K), сформированная из соответствующих собственных векторов,

T1/2Y

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у

C, если yi = yj в том случае, когда г и j принадлежат одному кластеру). Схема S2 кластеризацнп GWD:

52.1. ^^строенпе A = T'A; D = diag{out_degi}.

52.2, Вычисле ние H (B ) = 1/2T-1/2(2D - A - AT)T-1/2. S2 n х K Y

H(B)

неубыванию: А1 < А2 < ■ ■ ■ < Ак.

S2Â. Кластеризация строк матрицы X = T-1/2Y (или нормализованных строк матрицы Y, норма 1) как точек пространетва RK,

В модели "случайного блуждания" вместо матрицы A используется матрица P = D-1A, а в качестве дополнительного параметра вершин графа — элементы вектора стационарного распределения п. Единственность стационарного распределения достигается заменой матрицы P на матрицу P\ = АР + (1 — X)PU. При этом Pu — это матрица унифицированных вероятностей перехода между вершинами, В этой модели A = P\, T = T' = П, где П -диагональная матрица с элементами Пii = П^ Тогда H (B ) имеет вид:

H (B) = I - {U1/2PП-1/2 + П-1/2PTП1/2) /2.

Таблица 1

Индексы согласованности MNC при кластеризации графа GWU

LEV (a) LEV (б) MLO WTR

NMI

0,436773 0,383462 0,501123 0,570284

0,880785 0,817032 0,793441 0,809519

0,634219 0,517780 0,339958 0,253134

RAND

ARI

Можно также использовать формулу

H (B)

(П1/2РП-1/2 + П-1/2 РТП1/2)

2

и рассматривать собственные векторы H(B), соответствующие собственным числам, упорядоченным по невозрастанию: А1 > Л2 > • • • > Ак.

3. Вычислительный эксперимент. Для исследования сети цитирования журналов (СЦЖ), построенной на основе информации, извлеченной из БД RePEc [8], реализованы алгоритмы кластеризации MNC и WNC. Процедура подготовки данных (извлечения, фильтрации) и построения сети представлена в работе [1], Анализируем главную компоненту взвешенного орграфа без кратных ребер и петель GWD = (V,EWD) с параметрами IV| = 1729, |EWD| = 135 702.

MNC

му S1 Орграф GWD с матрицей емежноети A преобразуем в неориентированный граф GWU = (V,EWU) с матрицей смежности A = A + АТ. В результате |EWU| = 116 190, так как пары разнонаправленных дуг заменяются одним ребром с суммарным весом.

На шаге S1.3 применяем ал го ритм fc-ередних для K = 2, 9,111, чтобы сравнить результат работы MNC с соответствующими результатами LEV(K = 2),MLO(K = 9) и WTR(K = 111) (см. работы [1, 2]), для которых размеры кластеров выбираются автоматически. Вычисляем индексы согласованности соответствующих разбиений: NMI, RAND и ADJUSTED_RAND (ARI), Значения индексов приведены в табл. 1, здесь и далее раз-

MLO

MNC

Для K = 2 па шаre Si-З рассмотрено два варианта: а) разбиение элементов собственного вектора x2 на два множества с применением алгоритма fc-средних (размеры кластеров 1509 и 220) и б) разбиение с учетом положительных и отрицательных значений элементов x2 (1401 и 328). Заметим, что для варианта (а) размер нормализованного разреза меньше, чем для варианта (б). Также значения индексов согласованности результатов работы алгоритмов LEV a MNC варианта (а) имеют большие значения, чем для LEV a MNC варианта (б). Это же можно утверждать о согласованности распределения размеров кла-

LEV

Для K = 9 в табл. 2 приведены размеры кластеров. Проведен анализ тематики журналов, входящих в один кластер, на основе ключевых слов в названиях журналов и категорий классификатора Jel (стандартный метод классификации научных журналов в

K=9

Таблица 2

Размеры кластеров и степеней вершин для K = 9

MNC MLO

ФЗ degavg (.) degavg (.)

468 1315,9 585 1743,2

459 1588,4 395 617,6

216 661,2 226 2354,7

195 2090,4 178 2254,0

138 3112,4 104 1664,2

89 1114,1 100 1862,0

72 2042,8 85 1211,5

47 1495,3 54 1014,1

45 1616,8 2 4,5

Таблица 3

Тематика кластеров, алгоритм MNC, K = 9

J Тематика Коды Jel

138 Экономика сельского хозяйства и ресурсов, экономика транспорта, организация производства, математические методы Q, R, L, С

89 Экономика бизнеса, математические методы М, С

72 Экономика транспорта, экономическая демография, математические методы Л, С

47 Математические методы (статистика) с

45 Здоровье и образование, народонаселение, экономические системы, экономическая демография I, р, J

области экономики [9]), Заметим, что даже один журнал может иметь несколько кодов J el. Здесь ^ J означает число журналов в кластере, degavg (.) — среднюю степень вершин в кластере,

В табл. 3 приведены выборочные результаты классификации кластеров согласно тематикам, к которым относится наибольшая доля журналов (более 50%),

Отметим, что при кластеризации с помощью алгоритма MNC значение нормализованного разреза соответствующего разбиения меньше, чем с помощью алгоритмов LEV и WTR. Исключение состав ил алгоритм MLO.

3,2, Кластеризация орграфа, СЦЖ, Алгоритм WNC реализует схему S2 и используется для кластеризации GWD.

Индексы согласованности WNC и MNC

Таблица 4

Таблица 5 WNC

при кластеризации графа GWD

2(a)

9

111

BTW IMP

NMI

0,083465 0,307437 0,486886 NMI 0,355641 0,703563 0,817692 RAND -0,006179 0,004772 0,007779 ARI

0,424679 0,412021 0,488390 0,750073 0,004393 0,016199

RAND

ARI

^N^,1, Нормализуем ассиметричную матрицу А (г цитирует ]) по строкам, т.е. строим матрицу случайного блуждания Р = Б-1 А. Для построения матрицы Ри унифицированных вероятностей перехода строим вектор публикаций V, уг — нормированное число

г Ри

строки которой одинаковы и совпадают с вектором ут . Строим Р\ = ХР + (1 — Х)Ри, (X = 0,85^^ Для Р\ вычисляем вектор стационарного распределения п, который является нормированным (норма 1) собственным вектором, соответствующим собственному значению, равному единице. Неотрицательная неразложимая и апериодическая матрица Р\ является примитивной, поэтому стационарный вектор единственный. Полагаем А = Р\, Т = Т = П.

^N^,2, Вычисляем симметричную матрицу Н(Б):

WNC.3, Вычисляем собственные векторы матрицы H(B) и строим матрицу Y.

WNCA. С помощью алгоритма fc-средних выполняем кластеризацию точек, коорди-

Y

Для сравнения результатов кластеризации графов GWD и GWU параметр K алгоритма fc-средних устанавливается равным K = 2,9,111.

В случае K = 2 рассматриваем два варианта: а) разбиение элементов собственного вектора на два множества с применением алгоритма fc-средпих (размеры кластеров 1715 и 14) и б) разбиение с учетом положительных и отрицательных значений элементов (размеры кластеров 1519 и 210), Заметим, что кластер из 14 элементов варианта (а) состоит из журналов, относящихся к математическим методам (JelC), и целиком входит в кластер из 210 элементов варианта (б), который расширен журналами, относящимся к финансовой экономике (Jel G), Индексы согласованности для вариантов (а) и (б): NMI = 0,083063, RAND = 0,798864, ARI = 0,097005.

Влияние приведения орграфа к неориентированному виду прослеживается в табл. 4, в

GWD

WNC GWU MNC

более приемлемыми оказались результаты для K = 111.

Результаты сравнения WNC с алгоритмами BTW (K = 484) и IMP (K = 117), рассмотренными в работе [1], представлены в табл.5. Значения, приведенные в табл. 4, 5,

GWD

H (B) = I

(П1/2РхП-1/2 + П-1/2Р^П1/2)

2

алгоритмов WNC, BTW, IMP и результатов кластеризации GWD и GWU с помощью алгоритмов WNC и MNC.

Заключение. В работе предложены два алгоритма спектральной кластеризации на

MNC WNC

разбиения неориентированного и ориентированного графов, соответственно, и применены к сети цитирования научных журналов БД RePEc. Проанализирована тематика журналов, отнесенных к одному кластеру, выявлены разделы экономики, связанные научными интересами. Подтвердилось, что журналы, относящиеся к методам математической статистики, входят в один кластер.

Значения индексов согласованности результатов кластеризации с помощью алгоритма MNC и алгоритмов LEV, WTR MLO при соответствующем выборе K достаточно высоки. Наибольшая согласованность наблюдается между M NC и MLO. Это же можно сказать о распределении размеров кластеров и выявленных тематических областях, составляющих наибольшую долю в кластере. Во всех рассмотренных случаях наибольшая согласованность достигается относительно индекса RAND, учитывающего число пар объектов, попавших в один кластер и в разные кластеры при двух разделениях (доля согласованных пар по отношению ко всем парам).

Выявлена зависимость результатов кластеризации от ряда факторов: применения алгоритма с учетом и без учета направления ребер (ориентированный/неориентированный) и силы связи (взвешенный/невзвешенный) ; способа приведения орграфа к неориентированному виду (A + AT, AAT, ATA); используемого алгоритма; метода сравнения результатов (индексы согласованности),

MNC WNC C

ния собственных чисел и векторов соответствующих матриц использован пакет программ LAPACK [10], Алгоритм fc-средних реализован в версии &-средних++, приведенной в работе [11].

Список литературы

1. Бредихин С. В., Ляпунов В. \!.. Щербакова Н. Г. Кластерный анализ сети цитирования журналов // Проблемы информатики. 2017. № 3. С. 38-52.

2. Бредихин С. В., Ляпунов В. \!.. Щербакова Н. Г. Спектральный анализ сети цитирования журналов // Там же. 2018. № 2. С. 24-40.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Meila M., Pentney W. Clustering by weighted cuts in directed graphs // Proc. of the 2007 SIAM International Conference on Data Mining in directed cuts. 2007. P. 135-144. Apr. 2628, 2007. Minneapolis, Minnesota. [Electron, resource] https://epubs.siam.org/doi/abs/10.1137/ 1.9781611972771.13.

4. Shi J., Malik J. Normalized cut and image segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. V. 22, iss. 8. P. 888-905.

5. Meila M.. Shi J. A random walks view of spectral segmentation // Proc. International Workshop on AI and Statistics (AISTAT) 2001. [Electron, resource] https://dblpl.uni-trier.de/ db/conf/ai stat s/ai stat s2001.html.

6. Воеводин В. В., Воеводин Вл. В. Энциклопедия линейной алгебры. СПб: БХВ-Петербург. 2006.

7. Ланкастер П. Теория матриц. М.: Наука, Главная редакция физико-математической литературы, 1973. С. 74-79.

8. RePEc. General principles. [Electron, resource], http://repec.org/.

9. Jel classification system / EconLit Subject Descriptors. 2016. [Electron, resource], https://www.aeaweb.org/econlit/j elCodes.php?view=j el.

10. LAPACK: Linear Algebra PACKage. [Electron, resource] http://www.netlib.org/lapack/ explore-html/index.html.

11. Arthur D., Vassilvitskii S. fc-means++: The advantage of careful seeding // Proc. of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia. PA, USA, 2007. P. 1027-1035. [Electron, resource] http://ilpubs. Stanford.edu:8090/778/1/2006-13.pdf.

Бредихин Сергей Все- state prize winner in science and engineering

володович — канд. техн. на- RF at 2012. Since 2017 he is the leading re-

ук, ведущий научный сотруд- searcher of ICM&MG. Sphere of his scientific

ник Ин-та вычислительной ма- interests — analysis and measurement of the

тематики и математической distributed information networks. He is the author

геофизики CO PAH; e-mail: and co-author of more than hundred scientific

bred@nsc.ru; works and two monographs: "Metody bibliometrii

Сергей Бредихин окончил механико-ма- i rynok electronnoy nauchnoy periodiki "Analiz

тематический факультет Новосибирского rocy- tsitirovaniya v bibliometrii". дарственного университета в 1968 г. С 1968 г. —

сотрудник Института автоматики и электро- Ляпунов Виктор Ми-

метрии СОАН СССР. Кандидат технических хайлович — ведущий инже-

наук с 1983 г. В период 1988-2017 гг. руково- , неР Ин-та вычислительной ма-

дил лабораторией ИВМиМГ СО РАН. Испол- JHЩШ тематики и математической

нял обязанности технического директора про- геофизики СО РАН; e-mail:

екта "Сеть Интернет Новосибирского научного vic@nsc.ru;

центра". Лауреат государственной премии РФ j / Виктор Ляпунов окончил по науке и технике 2012 г. Сфера научных инте- механико-математический фа-ресов: анализ и измерение распределенных ин- культет Новосибирского государственного уни-формационных сетей. Автор и соавтор более верситета в 1978 г. В1978 г. стал сотрудни-ста научных работ и двух монографий: "Мето- ком Вычислительного центра СОАН СССР, а ды библиометрии и рынок электронной науч- с 1990 г. — сотрудником Института систем инной периодики", "Анализ цитирования в библио- форматики СО АН СССР. С 2004 г. — веду-метрии". щий инженер Института вычислительной мате-

Sergey Bredikhin — Ph.D. of Engineering матики и математической геофизики СО РАН.

Sciences, Leading Researcher, Institute of Com- Занимается вопросами извлечения информации

putational Mathematics and Mathematical из баз данных и обработкой больших массивов

Geophysics SBRAS, e-mail: bred@nsc.ru. данных. Соавтор более 10 работ в этой области.

Sergey Bredikhin graduated from Novo- Victor Lyapunov — Leading Software

sibirsk State University in 1968, faculty of Mecha- Engineer, Institute of Computational Mathematics

nics and Mathematics, and became an employee and Mathematical Geophysics SBRAS, e-mail:

of Institute of Automation and Electrometry vic@nsc.ru.

SBRAS. In 1983 he received Ph.D degree in En- Victor Lyapunov graduated from Novo-

gineering Science. Since 1988 he was the head sibirsk State University in 1978 (faculty of Me-

of the laboratory of Computing Center (now chanics and Mathematics). In 1978, he became

ICM&MG) SBRAS. He was the technical manager an employee of Computing Center of SB AS

of „Akademgorodok Internet Project". He is the USSR, since 1990 — an employee of Institute

of Informatics Systems SBRAS. Since 2004

lie works as software engineer in Institute of Computational Mathematics and Mathematical Geophysics SBRAS. His current research interests include methods of information extracting from databases and processing of large data sets. He is the co-author of more than 10 works in that area.

Щербакова Наталья Григорьевна — ст. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: nata@nsc.ru.

Наталия Щерба-

кова окончила Новосибирский государственный университет по специальности Математическая лингвистика в 1967 г. С1967 г. работала в Институте математики СОАНСССР, затем— в Институте автоматики и электрометрии СОАН СССР в области создания программного обеспечения систем передачи данных. С 2000 г. — сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 г. занимает должность старшего научного сотрудника. Являлась участником проекта "Сеть Интернет Новосибирского научного центра", занималась

вопросами мониторинга и анализа IP-сетей. Автор и соавтор более 40 работ, соавтор монографии "Анализ цитирования в библиометрии". Научные интересы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.

Natalia Scherbakova — Senior Researcher, Institute of Computational Mathematics and Mathematical Geophysics SB RAS, e-mail: nata@nsc.ru.

Natalia Shcherbakova graduated from Novosibirsk State University in 1967 (mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometry SBRAS in the field of software design for data transmission systems. In 2000 — the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002 works as senior researcher. She is a member of "Akademgorodok Internet Project", dealt with software of monitoring and the analysis of IP networks. She is the author and co-author of more than 40 works, the co-author of the monograph "Ansliz tsitirovaniya v bibliometrii". The current research interests lie in the field of bibliometrics: methods of measuring of scientific.

Дата поступления — 30.03.2018

i Надоели баннеры? Вы всегда можете отключить рекламу.