Научная статья на тему 'DYNAMICS OF THE CITATION NETWORK OF SCIENTIFIC ARTICLES'

DYNAMICS OF THE CITATION NETWORK OF SCIENTIFIC ARTICLES Текст научной статьи по специальности «Математика»

CC BY
42
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
citation network / power law / preferential attachment / initial attractiveness / aging / сеть цитирования статей / степенной закон / процесс предпочтительного присоединения / первоначальная привлекательность узла / процесс старения узла

Аннотация научной статьи по математике, автор научной работы — Sergey Bredikhin, Victor Lyapunov, Natalia Shcherbakova

Many complex networks are scale-free, namely their degree distribution follows a power law for large k. The graphs corresponding to the citation networks (CN) of scientific articles are included in this set. The vertices of citation network correspond to scientific articles, and directed edges to citations. Almost each new article contains some number of references (citations) to previously published ones. The number of references to a cited vertex is its in-degree. The appearance of new connects between old vertices is impossible. The question is how growing networks self-organize into a scale-free structure. H. Simon (1955) assumes that the principle of “having much gets more” has effect. The study of this mechanism as applied to CN was performed in Price (1976). D. Price called the strategy, in which success breeds success, a cumulative advantage. For CN, the citation strategy is formulated as follows: the speed with which articles receive new citations is proportional to the citations already received. Thanks to a series of works, the beginning of which was laid by the work Barabasi, Albert (1999), the mechanism of cumulative advantage was called the preferred attachment, hereafter PA-mechanism. In Barabasi Albert model the probability П that a new node connects tо a node i depends on the degree k of i as n(ki) EV 3 A generalization of the PA-mechanism was presented in Krapiviskv, et al (2000) as n(kj) ka ki Ek 3 C (t) k?, C(t) is a normalization constant. S.Dorogovtsev and J. Mendes (2000) proposed that in some real networks the probability П also depends от an age of node i, decaying as (t — ti)-V where ti is a timestep a node i was added to the network, t — a timestep a new node is added, v is a tunable parameter. So, П (kj, tj) a kjf (tj), where f (ti) is an aging function. In real networks П(0) = 0, which means there is a nonzero probability that a new node attaches to a node i, such that ki = 0. So Dorogovtsev, et al. (2000) presented the model of a directed network such that where kjn is the number of incoming links, k0 is the initial attractiveness of the node i. So the likelihood that a newly added node will join node i after a time t has elapsed after the addition of node i to the directed network may be proportional to the following characteristics: П (kf,t) « (kin + ko)fi (t). The aim of this work is to study the dynamical properties of the citation network of scientific articles based on data provided by the bibliographic database RePEc. We find that the distribution of incoming links follows the power law with parameters 7 = 2,89, xmin = 207. So we want to prove the preferential attachment hypothesis that in this case states that the rate n(km) with which a node with k incoming links acquires new links is a monotonicallv increasing function of km, hereinafter we use the denotation k instead of km. To investigate the attachment mechanisms separately from aging we use the method presented in Jeong, et al. (2003). To avoid the influence of C(t) and an aging effect we study the attachment kernel Ak within a relatively short window time AT. The functional form of Ak can be determined by measuring how many citations an article with k citation collected during some previous period T0 receives within period AT. We plotted the function of attachment rate using different previous periods and found the linear fit. The results of approximation with a linear functions show that Ak has a form k + k0, where k0 can be considered as the initial attractiveness. It should be noted that we have different estimations of Ak depending on T0. When investigating an aging process we ignore the preferential attachment and explore age characteristics of nodes with the same degree. We study two distributions, S(t) and D(t). S(t) is the distribution of ages of citation from citing article to cited articles. D(t) is the distribution of ages to a cited article from citing articles. The numerical calculations show that S(t) increases during 23 years and then decays exponentially during approximately 25 years (irrespective of the selected t0), then decreases slower. So it can be assumed that the aging function f (t) = (expat), а < 0. The distribution D(t) shows the linear growth for 20 years and then the exponential decay. Our experiment shows that the citation process can be described by the linear preferential attachment, but given the process of aging is consistent with the attachment kernel only for the first 20 years after publication. It should be noted that fluctuations in the distributions and the dependence on selected time windows are observed which may be due to incomplete data.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Динамика роста сети цитирования научных статей

Приведены результаты эмпирического исследования параметров процессов, обеспечивающих динамику развития сети цитирования статей: предпочтительное присоединение, старение информации и начальная привлекательность статей. Измерена скорость, с которой статьи получают новые цитирования, и показана ее линейная зависимость от числа уже имеющихся цитирований. Также измерена скорость ``старения'' статей, влияющая на процесс получения цитирований. Приведена оценка параметра ``начальная привлекательность'' узлов.

Текст научной работы на тему «DYNAMICS OF THE CITATION NETWORK OF SCIENTIFIC ARTICLES»

DYNAMICS OF THE CITATION NETWORK OF SCIENTIFIC

ARTICLES

S.V. Bredikhin, V.M. Lyapunov, N.G. Shcherbakova

Institute of Computational Mathematics and Mathematical Geophysics SB EAS,

630090, Novosibirsk, Russia

DOI: 10.24411/2073-0667-2020-10001

Many complex networks are scale-free, namely their degree distribution follows a power law for large The graphs corresponding to the citation networks (CN) of scientific articles are included in this set. The vertices of citation network correspond to scientific articles, and directed edges to citations. Almost each new article contains some number of references (citations) to previously published ones. The number of references to a cited vertex is its in-degree. The appearance of new connects between old vertices is impossible.

The question is how growing networks self-organize into a scale-free structure. H. Simon (1955) assumes that the principle of "having much gets more" has effect. The study of this mechanism as CN

CN

which articles receive new citations is proportional to the citations already received.

Thanks to a series of works, the beginning of which was laid by the work Barabasi, Albert (1999), the mechanism of cumulative advantage was called the preferred attachment, hereafter PA-mechanism. In Barabasi - Albert model the probability n that a new node connects to a node i depends on the degree k of i as

n (ki)= ki

£ kj

j

A generalization of the PA-mechanism was presented in Krapiviskv, et al (2000) as

k

a

a

n (ki) = Yja = C (t) ki' j j

C(t) is a normalization constant. S.Dorogovtsev and J. Mendes (2000) proposed that in some real networks the probability n also depends on an age of node i, decaying as (t — ti)-^, where ti is a timestep a node i was added to the network, t — a timestep a new node is added, v is a tunable parameter. So,

n (ki, ti) a kif (ti),

where f (ti) is an aging function.

In real networks n(0) = 0, which means there is a nonzero probability that a new node attaches to a node i, such that ki = 0. So Dorogovtsev, et al. (2000) presented the model of a directed network such that

(c) S. V. Bredikhin, V. M. Lyapunov, N. G. Shcherbakova, 2020

n (hin\ — ki" + ko

n Vki) E (kjn + a)' j

where kin is the number of incoming links, k0 is the initial attractiveness of the node i.

So the likelihood that a newly added node will join node i after a time t has elapsed after the i

n (kin,t) « (kin + ko)fi (t).

The aim of this work is to study the dynamical properties of the citation network of scientific articles based on data provided by the bibliographic database RePEc. We find that the distribution of incoming links follows the power law with parameters 7 — 2,89, xmin — 207. So we want to prove the preferential attachment hypothesis that in this case states that the rate n(kin) with which a node with k incoming links acquires new links is a monotonicallv increasing function of kin, hereinafter we use the denotation k instead of kin. To investigate the attachment mechanisms separately from aging we use the method presented in Jeong, et al. (2003). To avoid the influence of C(t) and an aging effect we study the attachment kernel Ak within a relatively short window time AT. The functional form of Ak can be determined by measuring how many citations an article with k citation collected during some previous period T0 receives within period AT. We plotted the function of attachment rate using different previous periods and found the linear fit. The results of approximation with a linear functions show that Ak has a form k + k0, where k0 can be considered as the initial attractiveness. It should be noted that we have different estimations of Ak depending on T0.

WThen investigating an aging process we ignore the preferential attachment and explore age characteristics of nodes with the same degree. We study two distributions, S(t) and D(t). S(t) is the distribution of ages of citation from citing article to cited articles. D(t) is the distribution of ages

S(t)

t0

then decreases slower. So it can be assumed that the aging function f(t) — (expat), a < 0. The D(t)

Our experiment shows that the citation process can be described by the linear preferential attachment, but given the process of aging is consistent with the attachment kernel only for the first 20 years after publication. It should be noted that fluctuations in the distributions and the dependence on selected time windows are observed which may be due to incomplete data.

Key words: citation network, power law, preferential attachment, initial attractiveness, aging.

References

1. Lotka A. J. The frequency distribution of scientific productivity // J. of the Washington Academy of Science. 1926, V. 16. P. 675-682.

2. Simon H. A. On a class of skew distribution functions // Biometrika. 1955. V. 42. P. 425-440.

3. Price D. J. de Solla. Networks of Scientific Papers // Science. 1965. V. 149. P. 510-515.

4. Merton R. K. The Matthew Effect in Science // Science. 1968. V. 159, iss. 3810. P. 56-63.

5. Cole J. R., Cole S. Social stratification in science. Chicago, IL: University of Chicago. 1973.

6. Price D. J. de Solla. A general theory of bibliometric and other cumulative advantage processes // J. of the American Society for Information Science. 1976. V. 27(5-5). P. 292-306.

7. Tsallis C., de Albuquerque M. P. Are citations of scientific papers a case of nonextensivitv? // Eur. Phvs. J. B. 2000. V. 13, iss. 4. P. 777-780.

8. Redner S. How popular is your paper? An empirical study of the citation distribution // Eur. Phvs. J. B. 1998. V. 4, iss. 2. P. 131-134.

C. B. Bpeduxun, B. M. Jlsmynoe, H. R. Rfep6a,Koea,

7

9. Peterson G. J., Presse S., Dill K. A. Nonunivessal power law scaling in the probability distribution of scientific citations // in Proc. Natl. Acad. Sei. USA. 2010. V. 107, iss. 37. P. 16023-16027.

10. Barabäsi A.-L., Albert R. Emergence of scaling in random networks // Science. 1999. V. 286. P. 509-512.

11. RePEc. General principles. [Electron. Resource], http://repec.org/.

12. Krapivisky P. L., Redner S., Leyvraz F. Connectivity of growing random networks // Phvs. Rev. Lett. 2000. V. 85. P. 4629-4632.

13. Scherbakova N. G. Preferential attachment models // Problemi informatiki. 2019. N 3. P. 46-61 (in Russian).

14. Barabasi A.-L., Albert R., Jeong H. Mean-field theory for scale-free random networks // Phvsica A. 1999. V. 272. P. 173-187.

15. Dorogovtsev S. N., Mendes J. F. F., Samukhin A.N. Structure of growing network with preferential linking // Phvs. Rev. Lett. 2000. V. 85. P. 4633-4636.

16. Barabasi A. L., Jeong H., Neda Z., Ravasz E., Schubert A.,Vicsek T. Evolution of the social network of scientific collaborations // Phvsica A. 2002. V. 311. P. 590-614.

17. Jeong H., Neda Z., Barabasi A. L. Measuring preferential attachment for evolving networks // EuroPhvsics Letters. 2003. V. 61. P. 567-572.

18. Lehmann S., Lautrup B., Jackson A. D. Citation networks in high energy physics // Phvs. Rev. E. 2003. V. 68, 026113.

19. Redner S. Citation statistics from more than the century of physical review // arXiv:phvsics/0407137.

20. Wang XL. Yu G., Yu D. Measuring the preferential attachment mechanism in citation networks // Phvsica A. 2008. V. 387. P. 4692-4698.

21. Dorogovtsev S. N., Mendes J. F. F. Evolution of reference networks with aging // Phvs. Rev. E. 2000. V. 62. P. 1842-1845.

22. Zhu H., Wang X., Zur J-Y. Effect of aging on network structure// Phvs. Rev. E. 2003. V. 68, 056121.

23. Hajra K.B., Sen P. Modelling aging characteristics in citation networks // Phvsica A. 2006. V. 368. P. 575-582.

24. Clauset A., Shalizi C. R., Newman M. E. J. Power-law distributions in empirical data // SIAM Review V. 51. 2009. P. 661-703.

25. igraph - The network analysis package [Electron. Resource], https://igraph.org/.

26. Pollmann T. Forgetting and the ageing of scientific publications // Scientometrics. 2000. V. 47, N 1. P. 43-54.

27. Lehmann S., Jackson A. D., Lautrup B. Life, death and preferential attachment// EuroPhvsics Letters. 2005. V. 69. P. 298-303.

МОДЕЛИ СЕТЕЙ С ПРЕДПОЧТИТЕЛЬНЫМ ПРИСОЕДИНЕНИЕМ

C.B. Бредихин, В.М. Ляпунов, Н.Г. Щербакова

Институт вычислительной математики и математической геофизики СО РАН,

630090, Новосибирск, Россия

УДК 001.12+303.2

DOI: 10.24411/2073-0667-2020-10001

Приведены результаты эмпирического исследования параметров процессов, обеспечивающих динамику развития сети цитирования статей: предпочтительное присоединение, старение информации и начальная привлекательность статей. Измерена скорость, с которой статьи получают новые цитирования, и показана ее линейная зависимость от числа уже имеющихся цитирований. Также измерена скорость "старения" статей, влияющая на процесс получения цитирований. Приведена оценка параметра "начальная привлекательность" узлов.

Ключевые слова: сеть цитирования статей, степенной закон, процесс предпочтительного присоединения, первоначальная привлекательность узла, процесс старения узла.

Введение. Комплексные сети охватывают обширное семейство сетей, представляющих различные области деятельности: социальные сети, WWW, электронная почта и т. п. Графы этого семейства характеризуются большим числом вершин и невысокой плотностью ребер. Наиболее изученные классы комплексных сетей - это сети „малого мира", которым свойственны небольшое среднее расстояние между связными узлами и высокий коэффициент кластеризации, а также безмасштабные сети, с распределением степеней узлов, следующим степенному закону. Сети цитирования научных статей (далее СЦС)

входят в класс безмасштабных сетей. Они обладают важным свойством роста: добавление

" " "

""

узлы и ребра не удаляются.

Анализ степенных распределений в библиометрии начат в работе [1], в которой было построено распределение авторов химических рефератов за период 1907-1916 гг. и эмпирическим путем получен вывод о том, что число авторов, опубликовавших n статей,

пропорционально l/n2. Значительно позже автор работы [2] показал, что хвосты асим-п

вида f (x) = (a/xk)bx, где a,b,k — константы, зависящие от типа данных. В работе [3] установлено, что доля статей, получивших k цитирований (для достаточно больших k), уменьшается пропорционально k-1, где 2 < 7 < 3. То есть вероятность того, что узел имеет входящую степень, равную k, подчиняется степенному закону P(x) ~ х-7, где 7 > l,

х > xmin-

Было замечено, что степенной закон возникает, когда выполняется принцип "имеющий много получает больше". В социологии этот принцип называется "эффектом Матфея" (термин предложен Р. Мертоном в работе [4] и основан на библейском изречении). Влиянию

(с) C.B. Бредихин, В.М. Ляпунов, Н.Г. Щербакова, 2020

этого процесса на распределение ресурсов и социальное расслоение общества посвящена монография [5]. В библиометрии этот процесс выглядит следующим образом: авторитетный ученый, имеющий существенный кредит доверия, получает на свои статьи большее число цитирований, нежели менее авторитетный, что повышает его статус.

Исследование этого процесса применительно к СЦС выполнено в работе [6]. Автор представил процесс цитирования, при котором успех порождает успех и назвал его кумулятивным преимуществом. Для СЦС стратегия цитирования формулируется так: скорость, с которой статьи получают новые цитирования, пропорциональна уже полученным цитированиям, В качестве подтверждения того, что такая стратегия ведет к степенному закону распределения входящих цитирований, рассмотрена модель ориентированной сети — модель Прайса, Рост сети обеспечивается добавлением новых узлов не обязательно с постоянной частотой. Новые узлы имеют различную исходящую степень (число цитируемых статей), но средняя исходящая степень является константой в рассматриваемый временной период и обозначается т. Соответственно, средняя входящая степень узла также равна т. Доля узлов с входящей степенью к обозначается рк, а рк,п — доля таких узлов в сети, имеющей п узлов. На старте каждый узел имеет нулевую степень, поэтому предполагалось, что вероятность присоединения к узлу пропорциональна к + к0 (в модели Прайса к0 = 1). Показано, что рк ~ к-(2+1/т\ значен не 7 изменяется в интервале (2, 3),

В работах [7-9] приведены результаты анализа распределения степеней узлов реальных сетей цитирования, подтверждающие следование степенному закону. Сети с распределением степеней узлов, подчиняющихся степенному закону, в работе [10] получили название безмасштабные.

Значительная часть работы посвящена вычислительному эксперименту, направленному на измерение параметров роста библиографической БД, В результате оценена вероятность появления новых узлов и ребер, исследован процесс "старения" (потери интереса к содержанию статьи). Эксперимент выполнен на данных, извлеченных из БД ЕеРЕс [И].

1. Процесс предпочтительного присоединения. Благодаря серии работ, начало которой положено работой [10], процесс, позволяющий объяснить топологические свойства комплексных сетей, получил название предпочтительное присоединение (далее РА), В работе [10] представлена модель (далее В А-модель), позволяющая строить безмасштабные неориентированные сети. На старте имеется т0 произвольно связанных узлов, каждый из которых имеет хотя бы единичную степень. Алгоритм развития сети включает два этапа. На первом (этап роста) в каждый момент времени к сети добавляется новый узел, имеющий т < т0 ребер для присоединения к т различным уже имеющимся узлам. На втором этапе благодаря РА добавленный узел присоединяется к узлу г с вероятностью

И(,) = ^, (1)

з

здесь кг — степень у зла г.

Согласно ВА-модели, после £ шагов сеть будет иметь п = Ь + т0 узлов и т0 + тЬ ребер,

кг

кг г

§ = тП (кг). (2)

Построенная сеть имеет распределение степеней узлов, следующее степенному закону с экспонентой 7 =3,

Обобщение РА представлено в работе [12]

ка

= = С (*)к?, (3)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ка

где С(¿) — нормализующая константа, зависящая от времени, а вид функции распределения степеней узлов зависит от значения а. Для а < 1 распределение имеет вид Р (к) ~ ек 7; для а > 1 возникает феномен "застывания", когда один узел оказывается связанным почти со всеми остальными. Только в случае линейной зависимости, а = 1 (см, (1)), сеть становится безмасштабной. Обзор процессов, определяющих структуру комплексных сетей, представлен в работе [13].

Для анализа ВА-модели и ее расширений, представленных в работах [12, 14, 15], предложены аналитические методы, позволяющие характеризовать динамику развития сети. Эти методы также применяются при проведении измерений в реальных сетях. Измерения в безмасштабных сетях подтверждают гипотезу о том, что плотно связанные узлы наращивают связность быстрее, чем менее связанные. Результаты соответствующих статистических исследований приведены в работах [16-20],

Для извлечения функциональной формы П(к^) на основе реальных данных в работе [17] представлена следующая методика, С учетом (2), (3) вероятность П(к) рассматривается как скорость, с которой существующий узел г степени к приобретает новые ребра в процессе роста сети. То есть следует определить число приобретенных ребер как функцию от степени узла. Поскольку константа С(¿) в (3) зависит от времени присоединения к сети г

соединение новых узлов. Рассматривается сеть, для которой известен порядок появления узлов и ребер, например библиометрическая сеть. Множество узлов, присутствующих на момент То, назовем То-узламн, Множество Т!-узлов — это узлы, добавленные в интервал времени < = рьТ + ДТ], |Т\| > |ТоДТ ^ Т^, Когда к сети добавляется Т-узел, вычисляем, какова степень То-узла, с которым соедипяется узел. Гистограмма, отображающая число ребер, приобретенных То-узлами, имеющими степень к, после нормализации (Дкг/ДТ), задает скорость П(к) на интервале 1, Если сеть развивается стационарно, т.е. П^(к) зависит те от выбора интервала, а только от к, то П^(к) соответствует функции предпочтительного присоединения, В работах [16, 17] с целью сглаживания колебания в рамках разных временных отрезков исследуется кумулятивная функция:

к

с (к) = у П(к) 1к.

о

Если П(к) следует (3), то с (к) а ка+

2. Процесс старения узла. Для СЦС возраст статьи является важным фактором, влияющим на эволюцию сети. Влияние проявляется в затухании интереса к ранним статьям, которые перестают получать цитирования. Для этого есть несколько причин, например, представленные в них идеи могут быть развиты в более поздних работах, которые и получают цитирования. Кроме того, число статей неуклонно растет, отнимая внимание у более ранних, "Большинство цитирований относится к свежим статьям, так как большинство статей являются свежими" [6]. Конечно, это не касается выдающихся статей, имеющих стабильно высокий уровень цитирования. Аналитические исследования показали, что вид функции старения существенно влияет на распределение степеней узлов, В

работе [21] рассмотрена модель, являющаяся расширением ВА-модели, в которой вероятность присоединения нового узла к узлу г зависит не только от степени узла k%, но и от возраста. Если t% — момент присоединения к сети узла г, t — текущий момент, то

n(ki,ti) « k%f (t%), (4)

где f (ti) — функция старения. Функция старения определена как степенная функция f (ti) = т-v, т = (t — tj) — возраст статъи, v — параметр затухания. Показано, что это изменение ВА-модели является критичным: если v > 1, распределение степеней экспоненциальное, а если v < 1 — степенное и параметр 7 зависит от значения v.

Экспоненциальный вид функции f (ti) рассматривается в работах [22, 23], В первой из них изучается влияние затухания вида е-вт на параметры сети — кластерный коэффициент и среднее расстояние между узлами. Во второй работе рассматриваются две модели, для которых вероятность присоединения определяется как П (k, t) ~ keta и П (k, t) ~ ke exp (at) и исследуется, при каких значениях параметров в и а сеть является безмасштабной,

3. Параметр „начальная привлекательность". Расширение ВА-модели для ориентированных сетей приведено в работе [15], В каждый момент к сети добавляется новый узел j имеющий m ориентированных ребер, который присоединится к узлу г (в сети появится дуга j, г)) с вероятностью

kin + kr,

П (k%n) = kj; + k0 . , (5)

У%) E (kjn + a) v ;

j

где k%n — входящая степейь узла г, k0 > 0 — одинаковая для всех узлов константа, называ-

k0

новые ребра. Для модели, приведенной в работе [15], исходящая степень всех узлов одинакова и равна т. Степень узла k = k%n + m, т. е., если k0 = m, то модель совпадает с ВА-моделью, Интерес представляет распределение входящих степеней узлов, В работе [15] показано, что функция распределения входящих степеней следует степенному закону, а экспонента 7 зависит от k0.

Принимая во внимания (1), (4), (5), предполагаем, что вероятность присоединения к

узлу г вновь добавляемого узла по прошествии времени t после появления в сети узла г

()

П (k%n,t) « (k%n + k0)f% (t). (6)

4. Вычислительный эксперимент. Узлами СЦС являются статьи, а упорядоченные пары статей, связанные отношением цитирования — ориентированными ребрами. Далее обсуждаются результаты анализа реальной сети цитирования, проведенного с целью определить, как факторы, указанные в (6), влияют на динамику развития сети. Заметим, что эти факторы не исчерпывают все предпосылки, влияющие на получение цитирований, такие как нормы цитирования, обоснованность ссылок, личные предпочтения и т, д.

Особое внимание уделяется РА, являющемуся ядром процесса аккумулирования цитирований. Необходимо выяснить, зависит ли вероятность получения новых цитирований от количества уже полученных и какова функциональная форма этой зависимости, В ходе изложения будем пользоваться следующей терминологией. Если цитирующая статья в списке литературы содержит указание на какую-либо статью, то такая

Таблица 1

Средний возраст цитирования статей

Число цитирований

Число цитируемых статей

<Age>

> 500

> 200 > 100

> 50

> 20 < 10 <5

1

301 1677 5311 15412 53 265 501287 388 583 183145

22,87 19,65 17,41

15.47

13.48 7,52 7,23 7,18

ссылка с точки зрения цитирующей статьи называется исходящим цитированием, а с точки зрения цитируемой статьи — входящим цитированием. Пусть статья j цитирует статью г. Обозначим tj и ¿j — годы публикации статей j и г. Возраст цитирования Age статьи г статьей j определяется разностью т = tj — tj.

4.1. Исходные данные. Данные о цитировании журнальных статей за период с 1874 г. по 30 июня 2019 г. извлечены из библиографической БД RePEc. Всего статей 1404431. Отсеяны статьи, в идентификаторе которых отсутствует явное указание года, имеются ссылки на неправильный год и самоцитирования. Исследуется максимальная компонента Nrep = (V,E) ориентированной СЦС, содержащая | V| = 819 207 узлов и |E| = 5 538 043 ребер. Учитываются только внутренние цитирования, т. е. цитирования между статьями,

V

цитированных хотя бы один раз, — 627739. Среднее число входящих цитирований для

V

8,82. Табл. 1 позволяет оценить средний возраст цитирования статей в соответствии с определенными диапазонами числа цитирований.

Средний возраст цитирования < Age >= 11,02. Наиболее цитируемые статьи имеют возраст цитирования значительно выше среднего. Для статей, имеющих более 500 цитирований, средний возраст цитирования <Age>= 22,87.

Для Nrep характерен экспоненциальный рост числа статей и, соответственно, новых исходящих цитирований. Например, в 2000 г. БД пополнилась на 15 445 статей и 57086 исходящих цитирований (3,69 ссылки на одну статью), а в 2010 г. — на 35406 статей и 249 324 новых цитирований (7,04 ссылки на статью). Увеличилось и число входящих цитирований, относящихся к статьям, опубликованным за эти годы: 175 578 и 242 655 соответственно.

На рис. 1 представлено распределение входящих и исходящих цитирований по годам с 1937-го по 2019-й. По оси абсцисс указаны годы с шагом 10 лет, а по оси ординат — число (степени десятки) входящих (синий цвет) и исходящих (красный цвет) цитирований. Кривые имеют одинаковую тенденцию роста. К ранним годам относится незначительное число статей и, соответственно, исходящих цитирования. Близость кривых показывает, что в основном цитируются недавно вышедшие статьи. Отметим, что множество содержит всего 433 статьи, опубликованных до 1936 г.

V

для статей, относящихся к выбранным годам (см. правый верхний угол). По оси абсцисс показано число входящих цитирований k, а то оси ординат — доля статей, имеющих k

106

1937 1957 1977 1997 2017

Рис. 1. Число цитирований по годам

цитирований. Обе оси имеют логарифмический масштаб. Видно, что графики подобны, за исключением больших значений к, Близость распределений указывает на то, что зависимость от роста числа статей мала.

Метод распознавания наличия степенного закона в эмпирических данных и определения значений параметров предложен в работе [24], С использованием пакета гдгарН [25] установлено, что распределение входящих степеней узлов следует степенному закону с параметрами 7 = 2,89, хтщ = 207. Таким образом, сеть ^дЕР является безмасштабной,

4,2, Скорость присоединения. Исследуем (6) независимо от ко а /¿(¿), зафиксировав короткое временное окно. Рассмотрим изменение входящей степени узлов сети М^ЕР. Скок

тирована вновь опубликованной, обозначим А(к), это — основа процесса присоединения. Игнорируем константу С(¿) и покажем, что для рассматриваемой сети А(к) а к.

Следуя методике, изложенной в работах [17, 19], определим Т1 = 2018, ДТ = 1 и рассмотрим исходящие цитирования статей, изданных в период [Т1,Т1 + ДТ], т. е. в течение 2018 г. Число исходящих цитирований за этот период составляет 658 415, Пусть То = Т1 — 1, т. е. То = 2017. Для каждой статьи, опубликованной в период = [1874,То], подсчитываем общее число входящих цитирований к, полученных к моменту Т\. Подсчитываем Дк -

к

[Т1,Т1 + ДТ]. Рассматриваем дополнительные окна = [1988,То], т3 = [1998,То], = [2008,То], т. е. меняем начальный год периода, для которого подсчитывается к.

На рис, 3 приведены зависимости Дк от к для окон и>2 — и>4, Представлены значения к < 1400, поскольку доля статей, для которых к >q1400, составляет 0,0064% от общего числа. Видно, что зависимость графиков от рассматриваемого окна пе существенна.

Для аппроксимации функциональной формы А(к) линейной функцией вида у = ах + Ь

к

О 101 102 103

Рис. 2. Распределение входящих степеней узлов

Аппроксимация А(к)

Таблица 2

Окно Функция 1 Функция 2

ш1 У = 0,090066х - 0,404866 У = 0,094525х + 0,369329

■2 У = 0,090105х - 0,405038 У = 0,094847х + 0,365893

■3 У = 0,095328х - 0,959371 У = 0,098202х + 0,345890

Ш4 У = 0,126907х - 0,682570 У = 0,127795х + 0,213792

ность А(к) прослеживается визуально. В качестве примера см. рис. 4, на котором представлен график функции А(к), к < 300, для пери ода т 3. Вид функции, аппроксимирующей А(к) для рассмотренных временных окон, приведен в табл. 2, столбец 2.

Представим выражение ах + Ь в виде х + Ь/а. Тогда А(к) а к + ко, оде к0 можно рассматривать как начальную привлекательность. В нашем случае к0 имеет отрицательное значение для всех окон. Так, к0 ~ -4,495 для т>1 и т2. Аппроксимируем А(к) для к < 50 (см. табл. 2, столбец 3). В этом случае к0 > 0, причем для о кон т1 -т3 имеет близкие значения (3,9-3,5). Поскольку длина периода ДТ мала, оценка нестабильна. Выбор нескольких

к

этом игнорируется изменение нормализующей константы.

4.3. Процесс старения. Рассмотрим влияние эффекта старения па эволюцию сети АдЕР, т. е. исследуем функцию /¿(¿). Так же как в п. 4.2, изучаем эффект, игнорируя РА. Вычисляем, через какой промежуток времени статьи с одним и тем же числом цитирований будут вновь процитированы.

В результате анализа зависимости между средним возрастом цитирования и числом получаемых цитирований выявлена положительная корреляция, которая прослеживается для числа цитирований меньше 50 (аппроксимация у = 0,08882х + 7,3354). Для больших значений наблюдаются значительные флуктуации, причем амплитуда колебаний увели-

Ак 200

150

100

50

0

чивается, "Выдающиеся" (часто цитируемые) статьи имеют большой средний возраст цитирования. То есть процессы увеличения возраста статей и старения различны.

Отметим, что некоторые статьи выделяются из общей картины. Это статьи, окончательно утратившие внимание. Следуя работе |19|, такими будем считать статьи, имеющие к 2019 г. меньше 50 входящих цитирований, у которых средний возраст цитирования меньше, чем 1/3 возраста самих статей, дополнительно включаем только статьи, опубликованные ранее 2000 г. Таких оказалось 3,8% (87047) от всех процитированных хотя бы одип раз, причем большинство из них (62 258, 71,5%) остались неактивными до конца всего периода рассмотрения (и^), На наличие таких статей указывается, например, в работах 119, 26, 27|,

Теперь рассмотрим распределение возрастов цитируемых статей относительно цитирующих. Зафиксируем ¿0 _ год публикации цитирующих статей. Статьи, опубликованные в году ¿0, цитируют п статей, опубликованных в годах ¿1 ,¿2,... ,¿3,... (в прошлом относительно ¿0). Пусть п — число цитируемых статей, опубликованных в году Распределение интервалов в^ = (¿0 — ^) задает 5(¿).

На рис. 5 представлено распределение возрастов цитируемых статей, опубликованных в период [1950, ¿0]. Для более длинного интервала данных о цитировании в Б Д недостаточно, поскольку таких публикаций мало, их исключение влияет незначительно. На оси абсцисс указаны интервалы времени, прошедшего с момента публикации цитируемых статей, а на оси ординат — доля цитируемых статей щ/п, относящихся к этому интервалу (шкала логарифмическая). Независимо от выбора ¿0, графики демонстрируют одни и те же темпы потери интереса к "старым" статьям, а поскольку количество "старых" статей мало, то суммарное распределение также незначительно отличается от приведенных па рисунке. Графики демонстрируют интерес к статьям, опубликованным за 2-3 года до публикации цитирующей статьи, затем идет экспоненциальное падение интереса, соответствующее у =

О 1988 а 1998 □ 2008 * * □ □ □ о □ ° А *

О а » □ П Аф * ■ 8 П О1» п □ 1 * 1 ♦ □ * о„ А □

□ 11 □ в в* в * ■ в=; ч □□стгъйъг* Ф „ = □ о » ^ * Я . □ 1 ♦ ' ♦ г\ 4 * Ч* * * **

и Щь: * я*. * А * о

300 600 900 1200 к

Рис. 3. Скорость получения цитирований Ак

Ak 35

30 25 20 15 10 5

0

exp(Ax), Около 25 лет затухание идет наиболее быстрыми темпами. Так, для 2015 г, в период от 3 до 24 лет A = — 0,093, а в период от 25 до 70 лет A = — 0,118. В целом S(t) имеет экспоненциальное убывание для небольших значений t. Распределение S(t) является аналогом f (t) из (6), т. е. функция затухания имеет вид f (t) = exp(at), а < 0,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В работе |21| показано, что дня модели сети с постоянной скоростью роста экспоненциальное затухание ведет к экспоненциальному распределению степеней узлов. Однако из п. 4,1 следует, что в сети NREP распределение входящих степеней узлов подчиняется степенному закону. Подчеркнем, что эта сеть растет экспоненциально и, как замечено в работе |19|, в этом сну чае па нее в меньшей степени влияет быстрое затухание интереса к "старым" статьям.

Рассмотрим распределение D(t) возрастов цитирующих статей относительно цитируемых, опубликованных в определенном году. Фиксируется t0 — год публикации статей, для которых рассматриваются входящие цитирования, они поступают от n цитирующих статей, опубликованных в годах ti,t2,... ,tj,... (в будущем относительно to). Пусть ni — число цитирующих статей, опубликованных в году ^.Распределение интервалов Qi = (ti — t0) задает D(t).

PacпpeдeлeниeD(t) для разных временных интервалов публикации цитируемых статей представлено па рис, 6, На оси абсцисс указаны интервалы, прошедшие после публикации цитируемых статей до момента цитирования, а на оси ординат — доля цитирующих статей щ/n (шкала логарифмическая). Для t0 = 1968 (также t0 = 1988) наблюдается линейный рост долей щ!n по мере увеличения значения ei. Для агрегированного периода t0 = {1948,1949,..., 1997} первые 21 год наблюдается линейное увеличение, а затем — экспоненциальный спад (A = —0,132), То есть цитирующие авторы забывают о публикациях быстрее, чем это сказывается па цитируемых публикациях. Как результат, распределение входящих степеней следует степенному закону.

- 1998 у=0.0! 18861jc- -9.6616 62

25 50 75 100 125 150 175 200 225 250 к

Рис. 4. Скорость получения цитирований для малых к

S(t) О

101

10~2

10"3

10"

ю-5 10^

Заключение. Исследована сеть цитирования статей БД RePEc. Вычислительный эксперимент подтверди.:: влияние РА па скорость, с которой статьи получают цитирования от новых статей. Для узлов сети NREP вероятность получения нового ребра в момент t пропорциональна входящей степени k и аппроксимируется линейной функцией. Как показывают теоретические исследования, именно линейность приводит к тому, что распределение входящих степеней узлов имеет хвост, следующий степенному закону. В данном случае параметр степенного закона y = 2,89 имеет значение, близкое к 7 = 3, что характерно для БА-модели.

С одной стороны, согласно идеализированному РА, статьи с высокой степенью цитирования наиболее вероятно получают новые цитирования, с другой — экспоненциальный рост числа статей снижает шанс цитирования "старых" статей, причем основной рост числа цитирований приходится на первые два года после публикации. Для сети NREP средний возраст цитирования составляет около 11 лет. Процесс старения может быть представлен экспоненциальной функцией f (t) на промежутке от 2-3 до 20-23 лет, прошедших после публикации. Заметим, что акт цитирования и дата публикации могут существенно отличаться друг от друга. Кроме того, процесс цитирования "молодых" публикаций не завершен. Эти факты могут существенно влиять па статистику. Еще одной особенностью сети цитирования является влияние содержания статей па цитируемость. Популярная в данное время тематика может привлечь цитирования. Утратившие внимание статьи также вносят диссонанс при рассмотрении профилей данных. Как результат — отсутствие монотонности в распределениях S(t) и D(t).

Следует отметить, что данные ограничены цитированиями между отобранными статьями без учета других типов статей, а также статей вне базы, что также может искажать динамическую картину. Однако общие тенденции прослеживаются.

2000 2010 2015

К Г л

\J И

1 А * 1 I

0 10 20 30 40 50 60 70 80 t

Рис. 5. Распределение S(t)

-2007-2019 -2005-2019 -2000-2019 -2048-2019

Y\ \ \ 4

15 30 45 60 75

Рис.6. Распределение D(t)

Список литературы

1. Lotka A. J. The frequency distribution of scientific productivity /7 .J. of the Washington Academy of Science. 1926, V. 16. P. 675 682.

2. SlMOX H. A. On a class of skew distribution functions /7 Biometrika. 1955. V. 42. P. 425 440.

3. Price D. J. de Solla. Networks of Scientific Papers /7 Science. 1965. V. 149. P. 510 515.

4. Mertox R. K. The Matthew Effect in Science /7 Science. 1968. V. 159, iss. 3810. P. 56 63.

5. Cole J. R., Cole S. Social stratification in science. Chicago, IL: University of Chicago. 1973.

6. Price D. J. de Solla. A general theory of bibliomctric and other cumulative advantage processes /7 .J. of the American Society for Information Science. 1976. V. 27(5 5). P. 292 306.

7. Tsallis C., de Albuquerque M. P. Are citations of scientific papers a case of nonextensivitv? /7 Eur. Phvs. .J. B. 2000. V. 13, iss. 4. P. 777 780.

8. Redxer S. How popular is your paper? An empirical study of the citation distribution /7 Eur. Phvs. .J. B. 1998. V. 4, iss. 2. P. 131 134.

9. Petersox G. J., Presse S., Dill K. A. Nonunivessal power law scaling in the probability distribution of scientific citations /7 in Proc. Natl. Acad. Sei. USA. 2010. V. 107, iss. 37. P. 16023 16027.

10. BarabASI A.-L., Albert R. Emergence of scaling in random networks /7 Science. 1999. V. 286. P. 509 512.

11. RePEc. General principles. [Electron. Resource], http://repec.org/.

12. Krapivisky P. L., Redxer S., Leyvraz F. Connectivity of growing random networks /7 Phvs. Rev. Lett. 2000. V. 85. P. 4629 4632.

13. Щербакова H. Г. Модели сетей с предпочтительным присоединением /7 Проблемы информатики. 2019. № 3. С. 46 61.

14. Barabasi A.-L., Albert R., Jeoxg H. Mean-field theory for scale-free random networks /7 Physiea A. 1999. V. 272. P. 173 187.

15. Dorogovtsev S. N., Mexdes J. F. F., Samukiiix A. N. Structure of growing network with preferential linking /7 Phvs. Rev. Lett. 2000. V. 85. P. 4633 4636.

16. Barabäsi A. L., Jeong H., Neda Z., Ravasz E., Schubert A.,Vicsek T. Evolution of the social network of scientific collaborations // Physica A. 2002. V. 311. P. 590-614.

17. Jeong H., Neda Z., Barabäsi A. L. Measuring preferential attachment for evolving networks // EuroPhysics Letters. 2003. V. 61. P. 567-572.

18. Lehmann S., Lautrup B., Jackson A. D. Citation networks in high energy physics // Phys. Rev. E. 2003. V. 68, 026113.

19. Redner S. Citation statistics from more than the century of physical review // arXiv:physics/0407137.

20. Wang M., Yu G., Yu D. Measuring the preferential attachment mechanism in citation networks // Physica A. 2008. V. 387. P. 4692-4698.

21. dorogovtsev S. N., Mendes J. F. F. Evolution of reference networks with aging // Phys. Rev. E. 2000. V. 62. P. 1842-1845.

22. Zhu H., Wang X., Zhu J-Y. Effect of aging on network structure// Phys. Rev. E. 2003. V. 68, 056121.

23. Hajra K.B., Sen P. Modelling aging characteristics in citation networks // Physica A. 2006. V. 368. P. 575-582.

24. Clauset A., Shalizi C. R., Newman M. E. J. Power-law distributions in empirical data // SIAM Review V. 51. 2009. P. 661-703.

25. igraph - The network analysis package [Electron. Resource], https://igraph.org/.

26. Pollmann T. Forgetting and the ageing of scientific publications // Scientometrics. 2000. V. 47, N 1. P. 43-54.

27. Lehmann S., Jackson A. D., Lautrup B. Life, death and preferential attachment// EuroPhysics Letters. 2005. V. 69. P. 298-303.

Бредихин Сергей Всеволодович — канд. техн. наук, зав. лабораторией Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: bred@nsc.ru;

Сергей Бредихин окончил механико-математический факультет Новосибирского государственного университета в 1968 году. С 1968 года — сотрудник Института автоматики и электрометрии СО РАН. Кандидат технических наук с 1983 года. С 1988 года — заведующий Лабораторией прикладных систем Института вычислительной математики и математической геофизики СО РАН. Являлся техническим директором проекта „Сеть Интернет Новосибирского Научного Центра". Лауреат государственной премии по науке и технике 2012 года. В сфере его научных интересов — измерение и анализ сетей распределенных информационных структур. Автор и соавтор более 110

работ и двух монографий: „Методы библиомет-

"

"

Sergey Bredikhin graduated from Novosibirsk State University in 1968 (faculty of Mechanics and Mathematics). In 1968 he became an employee of Institute of Automation and Electrometry SB RAS. In 1983 he received PhD degree in Engineering Science. Since 1988 he is the head of Applied Systems laboratory of Institute of Computational Mathematics and Mathematical Geophysics SB RAS. He was the

technical manager of „Akademgorodok Internet "

and engineering (2012). Sphere of his scientific interests - the measurement and analysis of networks of the distributed information structures. He is the author and co-author of more than 110

works and two monographs: „Metody bibliometrii

"

"

Ляпунов Виктор Михайлович — ведущий инженер Ин-та вычислительной математики и математической геофизики СО РАН; е-mail: vic@nsc.ru;

Виктор Ляпунов окончил механико-математический факультет Новосибирского го-

сударственного университета в 1978 году. В 1978 года стал сотрудником Вычислительного Центра СО АН СССР, а с 1990 года - сотрудником Института систем информатики СО АН СССР. С 2004 года — ведущий инженер Института вычислительной математики и математической геофизики СО РАН. Занимается вопросами извлечения информации из баз данных и обработкой больших массивов данных. Соавтор более 10 работ в этой области.

Victor Lyapunov graduated from Novosibirsk State University in 1978 (faculty of Mechanics and Mathematics). In 1978, he became an employee of Computing Center of SB AS USSR, since 1990 — an employee of Institute of Informatics Systems SB RAS. Since 2004 he works as software engineer in Institute of Computational Mathematics and Mathematical Geophysics SB RAS. His current research interests include methods of information extracting from databases and processing of large data sets. He is the co-author of more than 10 works in that area.

Щербакова Наталья Григорьевна — ст. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: nata@nsc.ru.

Наталия Щербакова окончила Новосибирский государственный университет по специальности

„Математическая лингвистика" в 1967 году. С 1967 г. работала в Институте математики СО РАН, затем в Институте автоматики и электрометрии СО РАН в области создания программного обеспечения систем передачи данных. С 2000 года — сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 занимает должность старшего научного сотрудника. Являлась участником проекта „Сеть Интернет Новосибирского "

ниторинга и анализа IP-сетей. Автор и соавтор

более 40 работ, соавтор монографии „Анализ

"

ресы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.

Natalia Shcherbakova graduated from Novosibirsk State University in 1967 (mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometry SB RAS in the field of software design for data transmission systems. In 2000 — the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002

works as senior researcher. She is a member of

"

software of monitoring and the analysis of IP networks. She is the author and co-author of more

than 40 works, the co-author of the monograph

"

research interests lie in the field of bibliometrics: methods of measuring of scientific.

Дата поступления — 16.12.2019

i Надоели баннеры? Вы всегда можете отключить рекламу.