Научная статья на тему 'ТОПОЛОГИЯ ГРАФА СОАВТОРСТВА В ОБЛАСТИ ФИЗИКИ В РОССИИ'

ТОПОЛОГИЯ ГРАФА СОАВТОРСТВА В ОБЛАСТИ ФИЗИКИ В РОССИИ Текст научной статьи по специальности «Математика»

CC BY
30
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАФ СОАВТОРСТВА / ФИЗИЧЕСКИЕ НАУКИ / ТОПОЛОГИЯ / PAGERANK

Аннотация научной статьи по математике, автор научной работы — Иванов О.В., Коваленко А.М., Колобов А.В., Королева В.В., Леонидов А.В.

В представленной работе рассматриваются топологические свойства графа соавторства применительно к исследованиям по физическим наукам в России за 2012-2018 годы. Предметом изучения являются два различных взвешенных графа - в первом веса ребер соответствуют количеству совместных статей двух исследователей, а во втором веса рассчитываются по методике, учитывающей качество журналов, в которых опубликованы совместные статьи. На основе анализа вектора центральности PageRank показано, что ранжирование авторов в данных двух графах значительно отличается. Однако в обоих графах лидерами ежегодно становятся преимущественно регулярно публикующиеся исследователи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ТОПОЛОГИЯ ГРАФА СОАВТОРСТВА В ОБЛАСТИ ФИЗИКИ В РОССИИ»

УДК 501

ТОПОЛОГИЯ ГРАФА СОАВТОРСТВА В ОБЛАСТИ ФИЗИКИ В РОССИИ

О. В. Иванов1, А. М. Коваленко1, А. В. Колобов1, В. В. Королева1, А. В. Леонидов1'2, Е. Е. Серебрянникова1'2

В представленной работе рассматриваются топологические свойства графа соавторства применительно к исследованиям по физическим наукам в России за 2012 — 2018 годы. Предметом изучения являются два различных взвешенных графа - в первом веса ребер соответствуют количеству совместных статей двух исследователей, а во втором веса рассчитываются по методике, учитывающей качество журналов, в которых опубликованы совместные статьи. На основе анализа вектора центральности PageRank показано, что ранжирование авторов в данных двух графах значительно отличается. Однако в обоих графах лидерами ежегодно становятся преимущественно регулярно публикующиеся исследователи.

Ключевые слова: граф соавторства, физические науки, топология, PageRank.

В представленной работе рассматриваются топологические свойства графа соавторства применительно к исследованиям по физическим наукам в России за 2012-2018 годы, построенного на основе информации о публикационной активности российских исследователей из базы данных WebOfScience. Исследования графа соавторства являются одной из важных точек приложения теории сложных сетей к количественному анализу различных явлений социально-экономической реальности, см. напр. [1]. Начало масштабным исследованиям графа соавторства с привлечением объемных баз данных было положено в работе [2] и с тех пор активно продолжается [3]. Свойства графа соавторства отражают особенности одного из важнейших составных элементов процесса генерации научного знания - объединения усилий индивидуальных исследователей

1 ФИАН, 119991 Россия, Москва, Ленинский пр-т, 53; e-mail: leonidovav@lebedev.ru.

2 МФТИ, 141701 Россия, Московская область, г. Долгопрудный, Институтский пер., 9.

для осуществления совместной работы, результатом которой является публикация в реферируемом научном издании.

Определим граф соавторства как граф, вершинами которого являются индивидуальные исследователи1, а ребра между вершинами возникают при наличии совместных публикаций у соответствующих пар исследователей за некоторый рассматриваемый период времени, например, год, с индексом Существенный интерес представляет также анализ модификаций исходного графа О, учитывающих интенсивность и/или качество сотрудничества авторов совместных публикаций, отвечающих соответствующим определенным ниже взвешенным графам.

Ниже будут использованы следующие обозначения:

1. £ - год, за который рассматривается граф (в данных £ = 2012,... , 2018);

2. Яг - количество вершин графа , т.е. количество исследователей, являющихся соавторами хотя бы одной статьи за год

3. = ,..., } - множество вершин графа Ог;

4. - невзвешенный граф соавторства, ребро в котором демонстрирует наличие хотя бы одной совместной публикации у исследователей в году

5. = (Кг, ЕЬ), где Ег - множество ребер графа Ог;

6. матрица Ог = }, г,] = 1,..., Яг, - матрица смежности графа соавторства Ог, в ней д - = 1, если исследователи и имели хотя бы одну общую публикацию в году

и = 0, если это не так;

7. N - взешенный граф соавторства, в котором вес ребра равен количеству совместных статей соединяемых им узлов в году

8. матрица N = {п\^}, г,] = 1,..., Яг, - матрица весов графа А^, для которой п^ равно количеству совместных публикаций в году £ у исследователей и ;

9. - взешенный граф соавторства, в котором вес ребра равен сумме фракционных баллов совместных статей в году

10. матрица Wt = {и-},г,] = 1,..., Яг, - матрица весов графа , для которой и-рассчитывается по следующей формуле:

^А к

к=1 к

ХВ граф входят только те исследователи, у которых были работы в соавторстве с другими исследователями. Если исследователь публиковал статьи только в одиночку, то он не появится в графе и эти статьи никак не будут учтены.

где Qk - это вес статьи k (зависящий от качества журнала, в котором опубликована данная статья, см. табл. 1), а Vk - это количество авторов у статьи k. Отметим, что взвешенный граф с весами ребер вида (1) ранее не изучался.

Таблица 1

Таблица весов статей в формуле (1). В таблице использованы следующие обозначения для изданий: Q1-Q4 - индексируемые Web of Science (WoS), Q — без квартиля из Web of Science Core Collection (WoSCC), S - индексируемые в Scopus, но не в WoS и WoSCC, R - индексируемые в RSCI WoS, но не в WoSCC, V - входящие в список ВАК, B - зарегистрированные в Российской книжной палате

Q1 Q2 Q3 Q4 Q S R V B

19.7 7.3 2.7 1 1 1 0.75 0.5 1

Начнем наш анализ графа соавторства с самых общих характеристик. Динамика количества вершин графа, количества его ребер и плотности

р = 2|Et|/Rt(Rt - 1),

т. е. доли имеющихся ребер по сравнению с полным графом с тем же числом вершин (здесь и далее под | • | понимается мощность соответствующего множества), представлена в табл. 2. Из данных величин следует, что при существенном росте числа вершин и ребер графа его плотность упала за рассматриваемый период в 2.7 раза.

Таблица 2

Эволюция количества вершин количества ребер |Еь|, плотности рь, а также абсолютного и относительного размера ЬСС графа за 2012-2018 гг.

год Rt |Et|,x10-4 Плотность (pt) | LCC | |LCC |/Rt

2012 18638 130729 7.5 9208 49%

2013 19097 112717 6.2 9292 49%

2014 21711 120967 5.1 11961 55%

2015 27461 171515 4.5 16738 61%

2016 32013 204563 4.0 20246 63%

2017 36135 213651 3.3 21009 58%

2018 34390 202475 3.4 20354 59%

Важнейшей характеристикой графа соавторства является размер наибольшего связного кластера (LCC, Large Connected Cluster). Данные по эволюции размера LCC также приведены в табл. 2. Из данных результатов мы видим, что за рассматриваемый период рос не только абсолютный, но и, что еще более важно, относительный размер LCC, который за рассматриваемый период вырос в 1.2 раза. Тем самым, объем научного сотрудничества, приводящий к подготовке совместных публикаций, за рассматриваемый период существенно вырос. Стоит отметить, что размер второго по величине связного кластера во всех периодах составляет доли процента от размера LCC.

Отметим также, что общими для всех семи графов {Qt, t = 2012,... , 2018} являются 3469 вершин, т. е. на протяжении семи лет только 3469 авторов ежегодно публиковали статью в соавторстве. При этом, если учитывать только статьи с не более чем 20-ю авторами, то таких "регулярно печатающихся" авторов будет 2678. На рис. 1 приведена диаграмма, демонстрирующая распределение числа авторов по количеству лет, в которых у них имеются публикации в соавторстве за период 2012-2018 гг. Из данной диаграммы следует, что большая часть авторов (56%) имеют публикации лишь в одном

1 год: 50211 авторов

2 года: 15613 авторов

3 года: 8371 авторов

4 года: 5391 авторов

5 лет: 3764 автора

6 лет: 3038 авторов

7 лет: 3669 авторов

Рис. 1: Доли авторов, имеющих статьи в соавторстве в п годах за период с 2012 по 2018 гг., где п = 1,..., 7. На рис. 1 также справочно приведены соответствующие количества авторов.

Ранжирование узлов по их важности с точки зрения роли в совместном написании статей и обеспечении их качества можно осуществить с использованием вектора

из семи рассматриваемых годовых периоде.

центральности2 PageRank [4] х = {хг}, который определен уравнением

_ . _

хг = & ^ ^ 3 х3 + в = & ^ 1гз хз + в, (2)

3 ^ 3

или эквивалентно

х = в(I - &Г)-11, (3)

где I - это единичная матрица, 1 - вектор, состоящий из единиц, Г = {73}, г,] = 1,... , N, - это стохастическая слева матрица3, построенная на основе исходной матрицы весов X графа (в рассматриваемом случае матрицы и Уравнение (3) определяет центральность PageRank с параметрами в и &. Отметим, что из соотношения (3) следует, что значение параметра в не влияет на ранжирование, данный параметр является нормировочным. При вычислениях параметр & был выбран, как и в работе [4], равным 0.85.

Существенный интерес представляет сравнительный анализ результатов ранжирования по фракционному счету и числу совместных статей. Удобный способ такого сравнения дает вычисление коэффициента ранговой корреляции Кендалла4 Ск, результаты которого приведены в табл. 3.

Т а б л и ц а 3

Величина коэффициента ранговой корреляции Кендалла ск векторов РадеЯапк графов

N и Щ, £ = 2012,..., 2018.

Год 2012 2013 2014 2015 2016 2017 2018

ск 0.41 0.42 0.38 0.37 0.28 0.25 0.28

Мы видим, что отличие в ранжировании для графов N и за рассматриваемый период существенно выросло.

Графами на регулярных вершинах будем называть графы N и г =

2012,... , 2018, являющиеся подграфами исходных графов N и на 3469-ти вершинах, отвечающих регулярно печатающимся авторам.

2Центральностью графа называют некоторый способ ранжирования узлов по тому или иному критерию важности.

3Стохастической слева называют матрицу, сумма элементов каждого столбца которой равна единице.

4Коэффициент ранговой корреляции Кендалла для двух векторов ранжирования отражает степень схожести соответствующих иерархий их компонент.

Если рассматривать только лидеров по PageRank, например ТОР-20, то оказывается, что порядка половины лидеров являются одновременно лидерами и в графе и в графе £ = 2012,... , 2018 (см. табл. 4). При этом 90% (31 из 34) авторов, являющихся лидерами в обоих графах, оказываются регулярно публикующимися, то есть относящимися к графам на регулярных вершинах.

Таблица 4

Мощность пересечения ТОР-20 векторов РадеЯапк графов N и £ = 2012,..., 2018 (графы на всех вершинах) и графов N и НЬ, £ = 2012,..., 2018

(графы на регулярных вершинах)

Год

2012 2013 2014 2015 2016 2017 2018

Графы на всех вершинах 9 9 11 8 7 8 11

Графы на регулярных вершинах 9 8 9 7 7 8 11

Интересно, что если рассматривать ТОР-10 лидеров по PageRank, то оказывается, что почти все авторы, входящие в Т0Р-10 в течение рассматриваемых 7 лет являются регулярно печатающимися. Для графа £ = 2012,..., 2018 38 из 42 авторов, входивших хотя бы раз в Т0Р-10, являются регулярно печатающимися, а для для графа N £ = 2012,..., 2018 - 36 из 40.

Существенный интерес представляет анализ структуры списков Т0Р-10 с точки специализации авторов по областям физики. С этой целью каждому автору в списке Т0Р-10 за рассматриваемый год сопоставляется соответствующий список статей, по которому формируется список журналов (тем самым, журнал может входить в такой список несколько раз). Каждому журналу сопоставляется список относящихся к нему областей физики. Объединение таких списков за 2012-2018 гг. и стало предметом нашего изучения. Как уже упоминалось ранее, в работе изучались два способа ранжирования авторов - по числу статей и по фракционному баллу. На рис. 2 приведено распределение по количеству упоминаний в этом списке 20 наиболее упоминаемых областей физики, отвечающих обоим упомянутым способам ранжирования. Помимо ожидаемого лидерства междисциплинарной тематики, отметим лидирующие позиции физики твердого тела, оптики и физики нанотехнологий.

В заключение перечислим основные результаты, описанные в настоящей работе. При рассмотрении графа соавторства работ в области физики в России за 2012-2018 гг. нами были изучены следующие его характеристики:

80

■ Фракционный счет □ Количество статей

70 60

50 1 40

Рис. 2: Т0П-20 наиболее часто упоминаемых областей физики, отвечающих работам Т0Р-10 лидеров по РадеЯапк за 2012-2018 гг.

- размер наибольшего связного кластера, который за рассматриваемый период существенно вырос;

- ранжирование узлов по PageRank и изучение устойчивости такого ранжирования по годам, продемонстрировавшего сильные ежегодные изменения;

- степень представленности в публикациях, отвечающих спискам Т0Р-10 по PageRank, различных областей физики.

Работа поддержана грантом Министерства науки и высшего образования № 05.601.21.0020 (уникальный идентификатор соглашения RFMEFI60119X0020) "Исследование механизмов адаптивного формирования кадрового потенциала для проведения разномасштабных программ исследований по приоритетным направлениям научно-технологического развития Российской Федерации".

ЛИТЕРАТУРА [1] M. E. J. Newman, Networks. An Introduction (Oxford University Press, 2010).

[2] M. E. J. Newman, Coauthorship networks and patterns of scientific collaboration. Proceedings of the national academy of sciences 101(1), 5200 (2004). DOI: 10.10T3/pnas.030T545100.

[3] S. Kumar, Aslib Journal of Information Management 67(1), 55 (2015). DOI:10.110S/AJIM-09-2014-0116.

[4] S. Brin and L. Page, Computer Networks and ISDN Systems 30(1-T), 10T (199S). DOI: 10.1016/S0169-T552(9S)00110-X.

Поступила в редакцию 15 июня 2020 г.

После доработки 20 июня 2020 г. Принята к публикации 21 июня 2020 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.