МЕРА „ЦЕНТРАЛЬНОСТИ" ДЛЯ РАНЖИРОВАНИЯ
НАУЧНЫХ СТАТЕЙ
C.B. Бредихин, В.М. Ляпунов, Н.Г. Щербакова
Институт вычислительной математики и математической геофизики СО РАН,
630090, Новосибирск, Россия
УДК 001.12+303.2
Предметом изучения является сеть цитирования, отражающая взаимосвязь журнальных статей из коллекции базы данных RePEc. Изучены характеристики множества публикаций и вычислена мера „центральность по посредничеству" вершин взвешенного графа коцитирова-ния для нормированного и ненормированного случаев. Выполнено ранжирование коллекции статей на основе этой меры.
Ключевые слова: сети цитирования и коцитирования, мера „центральность по посред-"
Subject of studying is the citation network reflecting the structure of interrelations between journal articles of the database RePEc collection. Characteristics of a publication set are studied and betweenness centralities for vertices of the weighted cocitation graph are finded for normalized and unnormalized cases. The journal articles ranking based on that measure is executed.
Key words: citation and cocitation networks, betweenness centralitv measure, Brandes algorithm.
1. Определения. „Центральность актора" является ключевой концепцией сетевого анализа, предназначенной для определения значимости позиции актора в топологии сети. Интуитивные подходы к определению центральности применительно к социальным сетям исследованы в работе [1]. Ряд важных мер центральности, рассмотренных с точки зрения прохождения потоков трафика через сеть, представлен в работе [2]. А именно, траекторий прохождения (кратчайшие пути, цепи или маршруты) и способа передачи информации (широкое вещание, копирование или трансляция по выбранному маршруту).
"
далее CB) основана на идее передачи сообщений между вершинами информационной сети по кратчайшему пути, выбранному случайным образом [3].
Как показано в работе [4], на основании данных о цитировании документов можно построить сеть цитирования и представить ее в виде ориентированного графа. Рассмотрим множество D, состоящее из n документов, на котором задано отношение R С D х D
diRd2 = di цитирует d2,
которое определяет сеть цитирования N(D, R). Здесь под термином „цитирует" будем понимать наличие цитируемого документа в списке ссылок цитирующего. В графе G = (V, E), представляющем сеть цитирования, акторы (вершины) соответствуют документам, а множество E состоит го направленных ребер (дуг), таких что дуга (di,d2) G E тогда и
только тогда, когда выполняется отношение diRd2. Этот ориентированный ациклический
""
Матрица смежности графа С, квадратная матрица С размерности п, такая, что элемент этой матрицы е^ = 1, если документ di процитировал документ dj•, названа „матрицей цитирования".
На основе данного графа С может быть построено несколько графов путем наложения ограничений на множество О (например, только документы, относящиеся к определенному временному периоду) и па отношение Я (например, цитирования только между документами определенного типа), Преобразование графа путем объединения нескольких вершин в одну (например, по принципу принадлежности к одному периодическому изданию) дает сеть цитирования новых акторов. На множестве О можно также определить новое отношение.
Построим отношение Я1, такое что
d1Я1d2 = (Зd3)d3Яd1&d3Яd2.
"
кумента находятся в отношении коцитирования, если существует хотя бы один документ, цитирующий оба эти документа. Частота появления пары документов в списках
литературы различных документов характеризует степень взаимосвязи между ними. Согласно [7], будем называть" эту частоту коэффициентом коцитирования (ККЦ). Таким образом, ККЦ документов d1 и d2 — это мощность пересечения множеств П1П П2, гДе ^ и П2 _ множества документов, цитирующих документы d1 и d2 соответственно. Отношение Я1
Отношение Я1 определяет сеть коцитирован ия (СКЦ) N (О, Я1). В представлении сети в виде неориентированного графа отношению d1Я1d2 соответствует ребро Если
сила связи между документами не учитывается, граф будет невзвешенным, в противном случае в качестве веса может выступать ККЦ (т = ККЦ), Формула вычисления ККЦ для документов di и dj, (г = ]):
п
еkiеkj = (С ТС) ij.
к=1
Матрица смежности взвешенного графа коцитирования СС может быть получена из матрицы смежности С графа цитирования:
С С' = Ст С
с последующим обнулением главной диагонали матрицы СС' (так как (СС^^ — это количество цитирований документа di), На рис, 1 приведен пример сети цитирования и сети коцитирования, построенных на одних и тех же данных о цитировании: документ d1 цитирует документы d2 и dз, документ d4 цитирует документы d2 и d5.J докумепт d6 также цитирует документы d2 и d5.
2. Центральность по посредничеству. Пусть С = (V, Е) — связный неориентированный граф и т — функция взвешивания ребер, такая что т(е) > 0 (е € Е) для взвешенных графов и т(е) = 1 для невзвешенных графов. Определим путь от вершины 5 € V до вершины £ € V как последовательность несовпадающих вершин и ребер (у1; е1, у2, e2, ,,,, еп-1, уп), начинающуюся в в (в = и заканчивающуюся в £ (£ = уп), такую что каждое ребро соединяет предшествующую вершину с последующей. Если в графе нет кратных ребер, то путь можно представлять в виде последовательности вершин. Длина пути р — это сумма весов его ребер:
Бредихин, C.B., Ляпунов В. M., Щербакова H. Г.
57
n— 1
w(p) = w(ei)-
i=1
Расстояние между вершинами s и t,dG(s,t) — это минимум среди длин путей, соединяющих s и t. По определению dG(s, s) = 0, dG(s, t) = dG(t, s). Путь между вершинами s и t, длина которого равна расстоянию между s и t, называется кратчайшим.
Пусть ast — количество кратчайших путей от вершины s G V до вершины t G V, Поскольку граф неориентированный, ast = ats. Для неориентированного случая через ast будем обозначать количество путей между s и t ((tf"st + o"ts)/2). Пусть ast(v) — количество кратчайших путей между s и t, проходящих через v G V. Тогда индекс CB (v) [3] для вершины v определяется следующим образом:
Cb (v)= V .
ast
s=t=vev
Обозначим через
^st (v)
Mv)
^st
долю кратчайших путей между в и ¿, проходящих через V, Эту величину, которую назовем парной зависимостью (в и ¿от V), можно также интерпретировать как вероятность того, что случайно выбранная связь между в и £ проходит через V, Для адаптации определения в случае, когда не существует пути между в и £ (числитель о^^) и знаменатель а3г равны нулю), принято соглашение: (V) = 0,
3. Метод. С использованием определения парной зависимости меру „центральности" вершины V можно представить следующим образом:
Cb (v) = 6st(v).
s=t=vev
Процедура вычисления традиционно состоит из двух шагов: а) найти все кратчайшие пути между всеми парами вершин; б) просуммировать все парные зависимости,
В работе [8] предложен подход, в котором техника аккумулирования значений центральности интегрирована с поиском кратчайших путей. Подход основан на рекурсивной формуле, устанавливающей связь между зависимостями вершин и их предшественников. Зависимость (dependency) единичной вершины s G V от вершины v G V определяется
как
6s.(v) = £ 6st(v). (1)
(v
tev
Тогда Сь(у) можно представить в виде:
С в (у) = £ Му). (2)
веУ
Обозначим через Рэ(у) множество предшественников (ргеЛесеввогв) вершины V € V на кратчайших путях из в € V:
(у) = {и € V : (и,у) € Е, dG(в,v) = dG(в,и) + т(иу)} .
Связь количества кратчайших путей от в до V (в = V € V) с количеством путей до предшественников:
6/ J @эй.
Для вычисления значения зависимости вершины в € V от любой вершины V € V можно применять следующую ключевую рекурсивную формулу:
Ш= £ ^ (1 + 6э-(т)). (4)
Алгоритм вычисления центральности всех вершин основывается на вычислении для любой вершины в € V зависимостей от остальных вершин. Для этого выполняются два шага:
а) производится подсчет длин и количества кратчайших путей от в € V до всех остальных вершин и запоминается состав путей;
в
и суммируются со значением центральности, согласно (2),
В результате итерации будут рассмотрены все пары вершин и просуммированы парные зависимости. Граф неориентированный, поэтому значение делится на два, так как кратчайшие пути между парой вершин рассматриваются дважды, С деталями можно
Св
графов.
Бредихин, С. В., Ляпунов В.М., Щербакова Н.Г.
59
Рис. 2. Зависимость между значенном ККЦ и количеством пар. коцитируомых с данной частотой
4. Задача и данные. Задачей настоящей работы является вычисление значения меры CB для вершин графа, представляющего СКЦ, построенную на информации о цитировании, извлеченной из распределенной базы библиографических данных (далее РББД) Re.PEc. |10|. Целью является ранжирование (установление отношения линейного порядка) множества статей из научных журналов па основе этой меры. В РББД па момент извлечения насчитывалось 5811 коллекций документов по экономике, из них 1708 журналов. Общее число статей в журналах — 435 026; из них состоящих в отношении коцитировапия — 323 159. Число пар статей, состоящих в отношении коцитировапия — 13 875 461, максимальный ККЦ = 687 имеет одна пара статей: Arellano М., BondS, Some tests of specification for panel data: Monte Carlo evidence and an application to employment equations // Review of Economic Studies. 1991. Blundell R,, Bond S, Initial conditions and moment restrictions in dynamic panel data models // Journal of Econometrics, 1998,
На рис, 2 представлена зависимость между значением ККЦ и количеством пар статей, коцитируемых с данной частотой. По оси x — значение ККЦ, по оси y — количество пар статей в логарифмическом масштабе. Дня аппроксимации точечных значений в предположении, что зависимость имеет степенной характер (f (x) = ax-x), использовался метод наименьших квадратов, В данном случае Л = 3,171,
5. Вычислительный эксперимент. Дня сокращения времени вычислительного эксперимента рассмотрим несколько вариантов редуцирования данных,
5,1, Порог по цитированию. В начале эксперимента был введен порог па цитируе-мость, равный 58, В результате количество рассматриваемых статей сократилось до 4008, Считаем это множество исходным и нем рассматриваем отношения цитирования и коци-
Таблица 1
Статьи множества P\, получившие наивысший ранг
Ранг Cb Статья
1 595 563 La Porta R., Lopez-de-Silanes F., Shleifer A., Vishnv R.W. Law and Finance // J. of Political Economy. 1998
2 472 148 Newev W.K., West K.D. A Simple, Positive Semi-definite, Heteroskedasticitv and Autocorrelation Consistent Covariance Matrix // Econometrica. 1987
3 334 876 Hansen L. P. Large Sample Properties of Generalized Method of Moments Estimators // Econometrica. 1982
4 285 395 Bollerslev T. Generalized autoregressive conditional heteroskedasticitv // J. of Econometrics. 1986
5 282 655 WThite H. A Heteroskedasticitv-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticitv // Econometrica. 1980
6 214 823 Arellano M.. Bond S. Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations // Review of Economic Studies. 1991
7 213 099 Levine R., Zervos S. Stock Markets, Banks, and Economic Growth // American Economic Review. 1998
8 199 276 Jensen M.C. Agency Costs of Free Cash Flow, Corporate Finance, and Takeovers // American Economic Review. 1986
9 172 694 Fama E.F., MacBeth J.D. Risk, Return, and Equilibrium: Empirical Tests // // J. of Political Economy. 1973
10 165942 Fama E. F., French K. R. Common risk factors in the returns on stocks and bonds // J. of Financial Economics. 1993
11 163 688 Lucas R. Jr. On the mechanics of economic development // J. of Monetary Economics. 1988
12 148 304 Mehra R., Prescott E.C. The equity premium: A puzzle // J. of Monetary Economics. 1985
тирования, В рамках этого множества 2512 статей состоят в отношении коцитирования. Количество коцитируемых пар — 45 214, максимальный ККЦ 17 имеет одна пара статей: Levin Е,, ZervosS, Stock markets, banks, and economic growth // American Economic Rev, 1998, La PortaR,, Lopez-de-Silanes F,, Shleifer A,, VishnyR. W. Law and Finance // J, of Political Economy, 1998,
Рассматривается ненаправленный взвешенный граф G с 2512 вершинами. Этот граф распадается на несколько связных компонент, первая из которых содержит 2479 вершин, остальные — не более пяти вершин. Обозначим первую компоненту через Gi, а множество статей, соответствующих вершинам графа, через P1. Вычислим значения центральности по посредничеству для вершин этого графа. Нас интересуют пути с большой суммой коцитирования, а при вычислении центральности по посредничеству рассматриваются кратчайшие пути, поэтому в качестве веса ребра используется значение 1 ККЦ. Статьи с наивысшим значением CB приведены в табл. 1,
5,2, Порог по коцитированию. Введем порог по коцитированию для всего множества журнальных статей, равный 30, Количество статей, для которых ККЦ >
30, равно 2976, количество пар — 6533, Введение порога на коцитирование привело к тому, что связный граф распался на ряд компонент, В работе [11] эти компоненты интерпретируются как научные специальности или разделы специальностей, В нашем случае получилось множество небольших компонент и одна компонента, состоящая из 1981 вершины. Обозначим эту компоненту через С2, а множество статей, соответствующих вершинам графа, через P2, Вычислим значения С в для вершин гр афа 02. Статьи с наивысшим значением меры приведены в табл. 2,
Таблица 2
Статьи множества P2, получившие наивысший ранг
Ранг Cb Статья
1 535 937 Fama Е. F., French К. R. Common risk factors in the returns on stocks and bonds // J. of Financial Economics. 1993
2 454 085 Jensen M.C., Meckling W.H. Theory of the firm: Managerial behavior, agency costs and ownership structure // J. of Financial Economics/ 1976
3 442 380 Arellano M., Bond S. Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations // Review of Economic Studies. 1991
4 388 977 La Porta R., Lopez-de-Silanes F., Shleifer A., Vishnv R. W. Law and Finance // J. of Political Economy. 1998
5 345 607 Newev W.K., West K.D. A Simple, Positive Semi-definite, Heteroskedasticitv and Autocorrelation Consistent Covariance Matrix // Econometrica. 1987
6 322 555 Bollerslev T. Generalized autoregressive conditional heteroskedasticitv // J. of Econometrics. 1986
7 311038 Mankiw N.G., Romer D., Weil David. N.A Contribution to the Empirics of Economic Growth // The Quarterly J. of Economics. 1992
8 277 215 Johansen S. Statistical analysis of cointegration vectors //J. of Economic Dynamics and Control. 1988
9 271734 Hansen L. P. Large Sample Properties of Generalized Method of Moments Estimators // Econometrica. 1982
10 242100 Black F., Scholes, M.S. The Pricing of Options and Corporate Liabilities // J. of Political Economy. 1973
11 193 761 Im K.S. Pesaran M.H., Shin Y. Testing for unit roots in heterogeneous panels // J. of Econometrics; Elsevier; 2003
12 185 934 Kahneman D., Tverskv A. Prospect Theory: An Analysis of Decision under Risk // Econometrica. 1979
При сравнение таблиц 1 и 2 видно, что 7 из 12 статей присутствуют в обеих таблицах,
Св
обе таблицы,
5,3, Нормирование при вычислении ККЦ. На значение ККЦ влияет количество цитирований, так как вероятность иметь большее значение коэффициента выше у пары с большим количеством цитирований. При рассмотрении отношения подобия объектов принято нормировать сырые данные [12] и [13], Существует ряд приемов нормирования, от
Таблица 3
Статьи, получившие наивысший ранг в нормированном случае
Ранг Cb Статья
1 425 380 Loughran Т., Ritter J. R. The New Issues Puzzle // J. of Finance. 1995
2 395 680 Gompers P., Ishii J., Metrick A. Corporate Governance And Equity Prices // The Quarterly J. of Economics, 2003
3 391108 Geert В., Campbell R. H. Foreign Speculators and Emerging Equity Markets //J. of Finance. 2000 *
4 381992 Rajan R. G., Zingales L. Financial Dependence and Growth // American Economic Review. 1998
5 380188 La Porta R., Lopez-de-Silanes F., Shleifer A., Vishny R. W. Law and Finance // J. of Political Economy. 1998
6 378300 Merton R. C. An Intertemporal Capital Asset Pricing Model // Econometrica. 1973
7 378 218 Mehra R., Prescott E.C. The equity premium: A puzzle // J. of Monetary Economics. 1985
8 370 688 Bekaert G., Harvey C. R., Lundblad Ch. Does financial liberalization spur growth? // J. of Financial Economics. 2005
9 322 224 Calvo G. A. Staggered prices in a utility-maximizing framework // J. of Monetary Economics. 1983
10 304130 Breeden D.T. An intertemporal asset pricing model with stochastic consumption and investment opportunities // J. of Financial Economics. 1979
11 303 456 Havne E.L. Agency Costs, Risk Management, and Capital Structure // J. of Finance. 1998
12 299186 Ferson W.E., Harvey C.R. The Risk and Predictability of International Equity Returns // Review of Financial Studies. 1993
выбора которых зависит результат исследования, В работе [14] проведен анализ четырех часто используемых методов нормирования: а) коэффициент ассоциативности
) = —, (5)
б) „косинусная" мера
sisj
Ci
SC(cij ,si,sj)
в) индекс включаемости
SI (cij ,si,sj )
cij
min(si,sj) г) индекс Жаккара
SJ (cij ,si,sj ) ,
si + sj cij
где si — встречаемость объекта i (в данном — случае количество цитирований), cij — совместная встречаемость объектов i и j (в данном случае — коэффициент коцитирования), Показано, что имеется существенное различие между коэффициентом ассоциативности и остальными мерами. Коэффициент ассоциативности лучше корректирует эффект размера, Поэтому для нормирования наших данных используется метод (5),
При сравнение таблиц 2 и 3 видно, что только одна из 12 статей присутствует в обеих
CB
цы. Пересечение трех таблиц — это статья La Porta R,, Lopez-de-Silanes F,, Shleifer A,, Vishnv R, W, Law and Finance // J, of Political Economy, 1998, имеющая ранги 1, 4 и 5 соответственно. Для сравнения значений CB статей коллекции P2 в нормированном и ненормированном случаях вычислен коэффициент корреляции Пирсона (0,315), а также коэффициент ранговой корреляции Спирмена (0,868),
Заключение. В работе приведен опыт ранжирования журнальных статей на основе данных об их цитировании с учетом структурных особенностей сети коцитирования, а именно, „центральности" ее вершин. Используется мера „центральность по посредничеству", для вычисления которой применен метод Брандеса, Показано влияние способов фильтрации данных на результаты ранжирования.
Список литературы
1. Freeman L.C. Centralitv in social networks. Conceptual clarification // Social networks. 1978/79. V. 1. R 215-239.
2. borgatti S.P. Centralitv and Network Flow // Social Networks. 2005. V. 27. P. 55-71.
3. Freeman L. C. A set of measures of centralitv based upon betweenness // Sociometrv. 1977. V. 40. P. 35-41.
4. Price D. A general theory of bibliometric and other cumulative advantage process //J. Amer. Soc. Inform. Sci. 1976, N 27. P. 292-306.
5. Маршакова И. В. Система связей между документами, построенная на основе ссылок: по данным Science Citation Index // НТИ. Сер. 2. 1973. № 6. С. 3-8.
6. Small Н. Co-citation in the scientific literature: A new measure of the relationship between two documents //J. Amer. Soc. Inform. Sci. 1973. V. 24, iss. 4. P. 265-269.
7. Бредихин С. В., Кузнецов А. Ю. Методы библиометрии и рынок электронной научной периодики. Новосибирск, Москва: ИВМиМГ СО РАН, НЭИКОН, 2012. 254 с.
8. Brandes U. A faster algorithm for betweenness centralitv // J. of Mathematical Sociology. 2001. V. 25, iss. 2. P. 163-177.
9. Бредихин С. В., Ляпунов В.М., Щербакова Н.Г. Мера важности научной периодики — „центральность по посредничеству" // Пробл. информ. 2014. Л*8 3. С. 53-63.
10. RePEc. General principles. [Electron. Resource], http://repec.org/.
11. Small H., Griffith В. C. The structure of scientific literatures. 1: Identifying and graphing specialties // Sci. Studies. 1974. V. 4. P. 17-40.
12. Leydesdorpp L. On the normalization and visualization of author co-citation data: Salton's Cosine versus the Jaccard index //J. Amer. Soc. Inform. Sci.Tech. 2008. V. 59, iss. 1. P. 77-85.
13. Upham S. P., Small H. Emerging research fronts in science and technology: patterns of new knowledge development // Scientometrics. 2010. V. 83, iss. 1. P. 15-38.
14. Van Еск N. J., Waltman L. How to normalize cooccurrence data? An analysis of some well-known similarity measures //J. Amer. Soc. Inform. Sci. Tech. 2009. V. 60, iss. 8. P. 1635-1651.
Бредихин Сергей Всеволодович — канд. техн. наук, зав. лабораторией Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected];
Ляпунов Виктор Михайлович — ведущий инженер Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected];
Щербакова Наталья Григорьевна — ст. научн. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected].
Дата, поступления — 30.01.2015