SCIENTIFIC JOURNAL CO-AUTHORSHIP NETWORK MODEL
S.V. Bredikhin, N.G. Scherbakova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS,
630090, Novosibirsk, Russia
DOI: 10.24412/2073-0667-2023-3-5-18 EDX: QADKBW
The traditional representation of a complex system (CS) in the form of a network or a graph makes it possible to identify many aspects of the system's behavior, see [2 4]. The network is based on pairwise relationships between network objects. In this case, the nodes of the co-authorship network correspond to the authors, and the edge between the nodes is constructed if there is at least one publication in which both authors participated, see the fundamental works [5, 6]. Such a model is able to express many complex properties of CS, its advantage lies in its simplicity and the ability to use graph theory in the analysis. The model has been studied quite well in terms of the distribution of degrees of network nodes [5], ranking of authors [6], dynamics of evolution [7, 8], identification of communities [9], and prediction of new co-author relations [10, 11].
However, this CS modeling does not reveal all the information that can be extracted directly from the list of articles and their authors, for example, does not reflect the total number of articles prepared by co-authors. To overcome this shortcoming, several methods for constructing networks of co-authorship, extending the traditional approach, were considered, see [6, 12]. But fixing only binary relations between system objects excludes interaction involving groups of network objects. A possible solution to the problem is to generalize the pair interaction to the interaction of an arbitrary set of nodes. In this case, the networks are called hvpernetworks. The main mathematical structures used as a CS model include bipartite graphs, hvpergraphs, and simplieial complexes [13].
The concept of a hvpergraph [20] was proposed in [21] as applied to the analysis of CSs and providing a computationally feasible tool that can be adapted to many analytical situations. In the study of co-authorship, as a rule, the nodes corresponding to the authors form a hvperedge in the case of a joint publication [22, 23].
This paper presents a co-authorship network model that takes into account group relationships that arise between co-authors. The network is modeled using a hvpergraph whose vertices correspond to authors and whose edges correspond to scientific articles (SA). The data we analyze is extracted from the electronic archive (https://www.dia-endojournals.ru/jour/issue/archive) of the quarterly scientific and practical medical peer-reviewed journal Diabetes Mellitus (ISSN 2072-0378), published since 1998. The journal is indexed in the international abstract and full-text databases. The hvpergraph Hca, built on the basis of the selected archive data, has size m(Hca) = 991 and order n(Hca) = 1694. Since only those SAs that have two or more authors are considered, there are no loops in the constructed hvpergraph. The hvpergraph Hca is not connected, it consists of 97 components, of which 68 components have one edge, the maximum component includes about 64.75 % vertices (authors) and 67.4% edges (articles).
The parameters of the hvpergraph (and its components) are measured and its topological properties (simple, star, strong star, conformal, Hellv) are revealed. The use of the hvpergraph language allows to
This work was earned out under state contract with ICMMG SB RAS (0251-2021-0005).
© S. V. Bredikhin, X. G. Scherbakova, 2023
get an idea of the shape of cooperation in the system under consideration. Most of the authors of the co-authored journal articles are indirectly related to each other due to the presence of joint works. The vertex degree distributions (the maximal component) have a long tail, i.e. most authors have a small number of joint SAs. The same can be said about the distribution of edge degrees, indicating that most SAs have a small number of co-authors. All components, except for the maximal, have one or another considered property. Moreover, the properties of conformity and Hellv are common to all components, regardless of size and order. The property of simplicity is more characteristic of components with a small number of edges, the same can be said about the probability of being a star. Two components have all the considered properties.
It should be noted that based on the incidence matrix of a hvpergraph, a traditional network of co-authorship can be built, in which two authors are connected if they have at least one joint work. The associated multigraph G(Hca) is one of the models of such a network in which the weight of an edge between two authors is equal to the number of joint works. This work continues the study and approbation of methods for analyzing networks of co-authorship, see [1].
Key words: complex network, hvpergraph, co-authorship, archive of scientific articles, bibliometrv.
References
1. Bredikhin S. V., Lyapunov V. M., Scherbakova N. G. The hvpernetwork of scientifc co-authorship. DB RePEc data analysis // Problemv informatiki. 2022. №4. S. 70-83. DOI: 10.24412/20730667-2022-4-70-83.
2. Newman M. E. J. Networks: An introduction. Oxford Univ. Press, 2010. ISBN: 9780199206650.
3. Estrada E. The structure of complex network: Theory and applications. Oxford Univ. Press, 2011. ISBN: 9780199591756.
4. Latora V., Nicosia v., Russo G. Complex networks: Principles, methods and applications. Cambridge Univ. Press, 2017. ISBN: 9781316216002.
5. Newman, M. E. J. Scientific collaboration networks. I. Network construction and fundamental results // Phvs. Rev. 2001. E 64, 016131. DOI: 10.1103/PhvsRevE.64.016131.
6. Newman, M. E. J. Scientific collaboration networks. II. Shortest paths, weighted networks, and centralitv // Phvs. Rev. 2001. E 64, 016132. DOI: 10.1103/PhvsRevE.64.016132.
7. Barabasi A. L., Jeong H., Neda Z., Ravasz E., Schubert A., Vicsek T. Evolution of the social network of scientific collaborations // Phvsica A. 2002. V. 311. P. 590-614. DOI: 10.1016/S0378-4371(02)00736-7.
8. Uddin S., Hossain L., Abbasi A., Rasmussen K. Trend and efficiency analysis of co-authorship network // Scientometrics. 2012. V. 90, No 2. P. 687-699. DOI: 10.1007/slll92-011-0511-x.
9. Savic XL. I van o vic XL. Radovanovic XL. Ogn janovic Z., Pejovic A. Exploratory analysis of communities in co-authorship networks: A case study // Intern. Conf. on ICT Innovations. Springer, 2019. P. 55-64. ISBN 978-3-319-91194-6.
10. Cho H., Yu Y. Link prediction for interdisciplinary collaboration via co-authorship network // Soc. Network Analysis and Mining. 2018. 8, 25. DOI: 10.1007/sl3278-018-0501-6.
11. Chuan P.M., Son L.H., Ali M. et al. Link prediction in co-authorship networks based on hybrid content similarity metric // Appl. Intell. 2018. V. 48. P. 2470-2486. DOI: 10.1007/sl0489-017-1086-x.
12. Yoshikane F., Nozawa T., Tsuji K. Comparative analysis of co-authorship networks considering authors' roles in collaboration: Differences between the theoretical and application areas// Scientometrics. 2006. V. 68, iss. 3. P. 643-655. DOI: 10.1007/slll92-006-0113-l.
13. Scherbakova N. G. Modeling group interactions of complex systems. Review // Problemv informatiki. 2022. №. 3. S. 24-45. DOI: 10.24412/2073-0667-2022-3-24-45.'
14. Wilson T. P. Relational networks: An extension of sociometric concepts // Soc. Networks. 1982. V. 4, iss. 2. P. 105-116. DOI: 10.1016/0378-8733(82)90028-4.
15. Borgatti S. P., Everett M. G. Network analysis of 2-mode data // Soc. networks. 1997. V. 19. P. 243-269. DOI: 10.1016/S0378-8733(96)00301-2.
16. Faust K. Centralitv in affiliation networks // Soc. Networks. 1997. V. 19. P. 157-191. DOI: 10.1016/S0378-8733(96)00300-0.
17. Wasserman S., Faust K. Social network analysis. Cambridge Univ. Press, 1984. ISBN 9780511815478.
18. Benko G., Flamm C., Stadler P. F. Generic properties of chemical networks: Artificial chemistry based on graph rewriting // Lect. Notes Comput. Sci. 2003. V. 2801, 10. DOI: 10.1007/978-3-540-39432-7^2.
19. Banerjee S., Jenamani M., Prathar D. K. Properties of a projected network of a bipartite network // arXiv:1707.00912vl. DOI: 10.48550/arXiv.l707.00912.
20. Berge C. Graphs and hvpergraphs. Amsterdam: North-Holland, 1976. ISBN 10.0444103996.
21. Seidman S. Structures induced by collections of subsets: A hvpergraph approach // Math. Soc. Sci. 1981. V. 1, iss. 4. P. 381-396. DOI: 10.1016/0165-4896(81)90016-0.
22. Estrada E., Rodriguez-Velazquez J. A. Complex networks as hvpergraphs // arXiv: physics/0505137, 2005. DOI: 10.1016/j.phvsa.2005.12.002.
23. Han Y., Zhou B., Pei J., jla Y. Understanding importance of collaborations in coauthorship networks: A supportiveness analysis approach // Proc. 2009 SIAM Internat. Conf. on Data Mining. 2009. P. 1112-1123. DOI: 10.1137/1.9781611972795.95.
24. Lung R. I., Gasco N., Suciu M. A. A hvpergraph model for representing scientific output // Scientometrics. 2018. V. 117. P. 1361-1379. DOli 10.1007/slll92-018-2908-2.
25. Atkin R. H. From cohomologv in physics to q-connectivitv in social science // Intern. J. Man-Machine Studies. 1972. V. 4, iss. 2. P. 139-167. DOI: 10.1016/S0020-7373(72)80029-4.
26. Atkin R. H. An algebra for patterns on a complex, I // Intern. J. Man-Machine Studies. 1974. V. 6, iss. 3. P. 285-307. DOI: 10.1016/S0020-7373(74)80024-6.
27. Atkin R. H. An algebra for patterns on a complex, II // Intern. J. Man-Machine Stud. 1976. V. 8, iss. 5. P. 483-498. DOI: 10.1016/S0020-7373(76)80015-6.
28. Patania A., Petri G., Vaccarino F. The shape of collaborations // EPJ Data Science. 2017. V. 6, 18. DOI 10.1140/epjds/sl3688-017-0114-8.
29. Zhou D., Orshanskiy S. A., Zha H., Giles C. L. Co-ranking authors and documents in a heterogeneous network // 7th IEEE International Conference on Data Mining (ICDM 2007), Omaha (USA), 2007. P. 739-744. DOI: 10.1109/ICDM.2007.57.
30. Voloshin V. I. Introduction to graph and hvpergraph theory. NY: Nova Science Publ., 2009. ISBN: 978-1-60692372-6.
31. Bretto A. Hvpergraph theory. Springer, 2013. ISBN 978-3-319-00079-4.
32. Cormen T. H., Leiserson C., Rivest R. L. Algoritmv: postroenie i analiz. M.: MTSNMO, 2002. ISBN: 978-5-907114-11-1.
МОДЕЛЬ СЕТИ СОАВТОРСТВА НАУЧНОГО ЖУРНАЛА
C.B. Бредихин, Н. Г. Щербакова
Институт вычислительной математики и математической геофизики СО РАН,
630090, Новосибирск, Россия
УДК 519.177
DOI: 10.24412/2073-0667-2023-3-5-18 EDX: QADKBW
Традиционный подход к изучению сети иаучших) соавторства основан на бинарных отношениях, возникающих между авторами, создавшими но крайней мере одну совместную публикацию. В работе представлена модель сети соавторства, учитывающая групповые отношения, возникающие между соавторами. Сеть моделируется с помощью гииерграфа, вершины которохх) соответствуют авторам, а ребра публикациям. Представлен метод построения гииерграфа сети соавторства, основанный на данных, извлеченных из архива журнала. Измерены параметры гииерграфа и выявлены ei'o топологические свойства. Данная работа продолжает изучение и апробацию методов анализа сетей соавторства (см. [1]).
Ключевые слова: комплексная сеть, гииерграф, соавторство, архив научных статей, библиометрия.
Введение. Представление комплексной системы (КС) в виде сети позволяет выявить многие аспекты поведения системы |2-4|. Сеть базируется на парных отношениях между сетевыми объектами. В этом случае узлам сети соавторства соответствуют авторы, а ребро между узлами строится в случае наличия хотя бы одной публикации, в которой участвовали оба автора (см. основополагающие работы |5, 6|), Такая модель способна выразить многие сложные структуры и динамические свойства представленной системы, ее преимущество заключается в простоте и возможности использовать при анализе теорию графов. Модель достаточно хорошо изучена с точки зрения распределения степеней узлов сети |5|, ранжирования авторов |6|, динамики развития |7, 8|, выявления сообществ |9|, прогнозирования новых соавторских связей 110, 111. Однако структура сети не раскрывает всей информации, которую мы можем извлечь непосредственно из списка статей и их авторов, например, не отражает общее число статей, подготовленных соавторами.
Дня преодоления этого недостатка было рассмотрено несколько методов построения сетей соавторства, расширяющих традиционный подход. Наиболее простой - построение взвешенной сети путем присвоения ребру веса, равного числу статей, написанных двумя исследователями совместно, это так называемый полный вес. Частичный вес устанавливается с учетом числа авторов каждой совместной статьи |6|, Рассматривались также ориентированные сети соавторства, например учитывающие порядок авторов в заголовке статьи 1121, Однако моделирование комплексной сети графом не обеспечивает полного описания исследуемой системы. Фиксация исключительно бинарных отношений между объектами системы исключает взаимодействие с участием груш: сетевых объектов. В случае
Исследования выполнены в рамках государственного задания ИВМиМГ СО РАН (0251-2021-0005). (с) C.B. Бредихин, Н. Г. Щербакова, 2023
соавторства мы имеем дело с группой соавторов одной публикации, взаимодействующими одновременно. Кроме того, если несколько авторов образуют клику в графе соавторства, это не значит, что у них есть совместная публикация.
Возможным решением проблемы является обобщение парного взаимодействия до взаимодействия произвольного множества узлов, В этом случае сети принято называть гиперсетями. К основным математическим структурам, используемым в качестве модели КС, можно отнести двудольные графы, гиперграфы и симплициальпые комплексы [13],
Моделирование КС двудольным графом, предложенное в работе [14], широко принято в социальных сетях [15-17], В этом случае имеются два непересекающихся множества узлов, одно соответствует публикациям, другое - авторам. Такая неоднородность узлов осложняет исследование центральности, связности и кластеризации [15, 18], Следует заметить, что большинство методов анализа двудольных сетей основано на использовании проекций [19],
Концепция гиперграфа [20] в применении к анализу КС предложена в работе [21] как предоставляющая вычислительно выполнимый инструмент, который можно адаптировать ко многим аналитическим ситуациям. При исследовании соавторства, как правило, узлы, соответствующие авторам, объединяются гиперребром в случае наличия совместной публикации [22, 23], Иной подход применен в работе [24], при котором узлы соответствуют публикациям, узлы объединяются гиперребром, соответствующим автору, принявшему участие в публикациях,
В цикле работ [25-27] социальные отношения представляются и-мерными многогранниками - симплексами. Разница с подходом, приведенным в работе [21], заключается в том, что гиперребро, состоящее из р +1 вершины, представляется геометрической структурой, ^симплексом а =< уо,у\,...,ур >, а КС - множеством симплексов, замкнутым относительно включения всех подспмплексов всех симплексов, т. е, если а входит в комплекс, то все а' С а входят в комплекс, В случае соавторства можно считать, что каждая публикация - это симплекс, определяемый множеством соавторов, В отличие от гиперграфа симплекс образует максимальная группа авторов, не являющаяся подгруппой авторов других публикаций [28], Топологическое описание данных о сотрудничестве позволяет выявить связь между формами отношений между сетевыми сообществами и структурой ассоциированного топологического объекта.
Выбор метода моделирования множественных отношений зависит от решаемой задачи. Так, в работе [29] проблема оценки научных публикаций и авторов решается путем исследования трех сетей: социальной сети, объединяющей авторов посредством соавторства, сети цитирования, объединяющей публикации, и двудольной сети соавторства, объединяющей авторов с публикациями. Наличие топологических пустот рассматривается в работе [28] как важная информация при выявлении форм сотрудничества, и этот метод лучше всего подходит для симплициальпых симплексов, В то же время если при исследовании системы мы задаемся вопросом, работала ли именно данная группа авторов над публикацией и какой именно автор принимал участие в большем числе проектов, то следует опираться на гиперграф. Понятие гиперграфа включает как частные случаи широкий спектр других математических структур, которые подходят для изучения сложных сетей [22],
В данной работе система соавторства представлена в виде гиперсети, в которой узлы соответствуют авторам, а ребра - публикациям. Соавторы одной публикации объединяются в ребро. Исследуются характеристики сети, позволяющие расширить ин-
формацию о системе соавторства в сравнении с методикой представления на основе графа.
1. Метод исследования 1,1, Гиперграф. Определения и утверждения. Приведем формальные сведения, необходимые далее для исследования соавторства, почерпнутые из монографий [20,30,31],
Гиперграф Н = (У,Е) на конечном множестве V = {у1,у2, ... ,уп} определяется семейством Е = (Е1, Е2,..., Ет) подмножеств множества V, таких что: а) Е^ = 0,
т
г = 1,2,... ,т; б) Ег = V. Элементы у1,у2, ... ,ьп называются верили,нами Я, а
г=1
Е1,Е2 ,..., Ет - ребрами или гиперребрами. Число вершин Н называется порядком гиперграфа и обозначается п, а число ребер называется размером и обозначается т. Ганг
гиперграфа г(Н) определяется как г (Н) = тах |EjВершины Уг,Ук & V называются
з
смежными, если существует ребро Е^ & Е, такое что у г & ^ и у к & Е^ Есл и у г & Е то ребро и вершина инцидентны. Обозначим Е(Уг) множество всех ребер, содержащих вершину Ьг, назовем это множество звездой с центром у
Е (уг) = Щ & Е : уг & Е3} .
Число 1Е (г^)| называется степенью вершины у^ обозначается с1е§ (Уг), Число 1Е^ называют степенью (размером, мощностью) ребра, Е
Матрицей инцидентности гиперграфа Н называется (0, 1)-матрица С(Н) = (с^) с п строками и т столбцами, определенная как:
К
0, если Vi & Еу ;
1, если Vi & Е^
В терминах С(Н) степенью вершины является сумма элементов соответствующей строки матрицы инцидентности. Матрицей смежности гиперграфа А(Н) = (а^) называется квадратная матрица, элемент а^ - это число ребер, содержащих одновременно вершины ^ и V], диагональные элементы матрицы А равны нулю:
(УУг & V)ац = 0; (Уу^, У^ & У,1 = ])ац = 1Ек & Е : {и^} С Ек|.
Матрица А(Н) может быть получена из матрицы С(Н) следующим образом:
А (Н) = С • СТ - ,
где СТ - транспонированная матрица инцидентности, - матрица, диагональные элементы которой равны степеням соответствующих вершин гиперграфа: ¿ц = с^^), Матрицу А(Н) можно рассматривать как матрицу смежности мультиграфа С(Н) (т. е, взвешенного графа), называемого ассоциированным графом, гиперграфа Н = (У,Е), Заметим, что в монографии [30] матрица смежности - это (0, 1)-матрица:
а.
гз,г=з = 1, если Е (Уг) П Е (у^) = 0.
Двойственным гиперграфу Н = (У,Е) называется гиперграф Н* = (V*,Е*), такой что его вершины V* = е1, е2,..., ет соответствуют ребрам в Я, а ребра Н* соответствуют вершинам Н с отношением инцидентности, связывающим каждую вершину с ребрами Н, в
которые вершина входит: Е1* = {е^ : € Е^ъ Н} . Матрица инцидентности С * гиперграфа Н* может быть вычислена как С* = Ст, таким образом (Н*)* = Н. Двойственный гиперграфу Н без повторяющихся ребер гиперграф Н* может иметь повторяющиеся ребра, а также оказаться обыкновенным графом (примеры см, [30, 31]),
Реберным графом Ь(Н) гиперграфа Н называется граф, множество вершин которого совпадает с множеством ребер Н, а две вершины являются смежными тогда и только тогда, когда соответствующие ребра Н пересекаются:
Ь(Н) = (У,Е'), где V' = Е; {Е,Е^} € Е' & Е1 П Е^ = 0.
Здесь и далее для простоты Е^ используется как обозначение ребра и как множество вершин, входящих в ребро.
Для гиперграфа Н = (У,Е) 2-секция [30] - это граф, обозначаемый как [Н]2, множество вершин которого совпадает с множеством вершин гиперграфа Н, а две различные вершины являются смежными тогда и только тогда, когда в Н существует ребро, которому принадлежат обе вершины:
[Н]2 = (У,Е2), где {уг,У3}€ Е2 & Е (ьг) П Е (у3) = 0. Для любого гиперграфа Н выполняются соотношения [30]:
[Н]2 = Ь (н*); Ь (Н) = [Н*]2.
Матрицу смежности гиперграфа в определении [30] можно рассматривать как матрицу смежности графа [Н]2, В монографии [31] приведено расширение понятия 2-еекции гиперграфа: Н = (V, Е) - это мультиграф с помеченными ребрами, в котором множество вершин совпадает с множеством вершин гиперграфа Н, а вершины ^ и связаны ребром, помеченным е, если Vi,Vj С е € Е.
В гиперграфе Н чередующаяся последовательность р = у0Е0.. .У1-\Е1-\У1 различных вершин зд, ..., ^1, ^ и различных ребер Е0,Е\,Е2 ,...,Е[-\, удовлетворяющая условию (Уг,Уг+\) € Ег, г = 0,1,...,/ — 1, называется путем, или (ь0,Ь1 )-путем, связывающим вершины ,У[, и называется циклом,, если у0 = VI. Величина I называется длиной пути. Дистанция между вершинами - это длина кратчайшего пути между ними.
Гиперграф Н называется связным, если для каждой пары вершин существует связывающий их путь. Если гиперграф несвязный, то существуют две или более связные компоненты, каждая из которых представляет собой гиперграф. Изолированная вершина, а также вершина, инцидентная только одной петле, также являются связными компонентами.
Подсемейство Ех,... Ек ребер гиперграфа Н = (V, Е) является пересекающимся семейством.., если каждая пара ребер этого подсемейства имеет непустое пересечение:
Уъ,] € [к] Еъ П Еу = 0.
Гиперграф называется пересекающимся семейством, если все его ребра попарно пересекаются, Гиперграф Н = (V, Е) называется звездой, если существует вершина, принадлежащая всем его ребрам:
Эь^УЕ^щ Уг € Еу ,
т, е, гиперграф является пересекающимся семейством с непустым пересечением всех ребер. Гиперграф звезда является строгой звездой, если только вершины, общие для любой пары пересекающихся ребер, составляют пересечение всех ребер.
Гиперграф обладает свойством Хелли (является Хелли), если каждое его пересекающееся семейство ребер имеет непустое пересечение, т.е, для каждого семейства Ех,... ,Ек из к ребер выполняется условие
Уъ,] € [к] Ег П Еу = 0 ^ Е1 П Е2 П ... П Ек = 0.
Кликой [32] в неориентированном графе называется подмножество вершин, каждые две из которых соединены ребром графа. Клика максимальная {по включению), если ее нельзя расширить добавлением в нее вершин. Гиперграф Н, в котором ребра являются максимальными кликами [Н]2, называется конформным. Если гиперграф не конформный, то при переходе от гиперграфа к графу парных отношений не все структуры графа возникают на основании структуры гиперграфа.
Приведем два утверждения из монографии [30], позволяющие выявлять конформность без перехода к 2-еекции,
Утверждение 1 (теорема Гилмора), Гиперграф Н = (V, Е) конформный тогда и только тогда, когда для любых попарно пересекающихся трех ребер Е1,Е2, Е3 существует ребро такое что выполняется (Ех П Е2) и (Ех П Е3) и (Е2 П Е3) С ЕА.
Утверждение 2, Гиперграф Н конформный тогда и только тогда, когда двойственный граф Н* является Хелли,
1,2, Моделирование сети соавторства. Исходные данные о соавторстве содержатся в научных статьях (НС), хранящихся в архиве со свободным доступом. Обозначим Р = {р1,р2,... ,рт} множество НС, 5 = {^1, $2,..., зга} - множество их авторов. Предполагаем, что Р содержит только те НС, которые имеют двух и более авторов, т. е, в конструируемом гиперграфе отсутствуют петли. Далее не будем различать термины гиперсеть и гиперграф. Построим гиперграф Н = (У,Е), такой что множество Б отображается на множество вершин V, а множество Р - на множество ребер Е, причем все авторы одной публикации образуют ребро, соответствующее публикации: если НС Рг подготовлена именно авторами в1,в2,..., то Е^ = {у1,у2, ..., } является ребром, Е^ € Е (см, [22]),
Исследуем параметры и свойства гиперграфа Ни/или его компонент. Для максимальной компоненты рассмотрен ряд свойств двойственного гиперграфа Н*, Параметры:
Размер. При таком подходе гиперграф будет иметь размер т(Н) = |Р| и порядок п(Н) = 1 .
Ранг. Ранг указывает на максимальное число соавторов у НС архива. Средняя степень ребра. Это среднее число соавторов у НС,
Распределение степеней вершин. Это распределение числа совместных НС, в которых участвовал соответствующий автор. Свойства:
Связность. Число, размер и состав компонент. Размеры максимальной компоненты свидетельствуют об опосредованной связи между авторами, а также между НС на основе соавторства.
Простота. Если гиперграф не является простым, то наличие кратных ребер указывает на то, что имеются конкретные группы авторов, подготовившие совместно несколько
публикаций, а наличие вложенных ребер - что в группе авторов имеются подгруппы, подготовившие работы в более узком составе.
Петли. В гиперграфе Н пет петель, так как рассматриваются только НС, имеющие более одного автора, но они могут быть у двойственного гиперграфа. Звезда. Все публикации имеют хотя бы одного общего автора. Строгая звезда. Все публикации имеют одну общую группу соавторов. Конформность. В этом случае тесные группы авторов (клики графа парных отношений соавторства, обычно попадающих в одно сообщество при кластеризации) входят в число соавторов хотя бы одной НС,
Хелли. Для любого множества НС, такого что каждая пара НС имеет общих авторов, выполняется: все НС множества имеют хотя бы одного общего автора (входят в звезду),
2. Исходные данные. Данные, которые мы анализируем, извлечены из электронного архива ежеквартального научно-практического медицинского рецензируемого журнала «Сахарный диабет» (ISSN 2072-0378), издаваемого с 1998 г. Журнал индексируется в международных реферативных и полнотекстовых базах данных (Web of Science, Scopus, Google Scholar, включен в Перечень ВАК), Архив журнала (https://www.dia-endojournals.ru/ jour/issue/archive) содержит XML массив научных статей, опубликованных за период с 2007 (том 10, JVS 1) по 2023 годы (том 26, JVS 1), и находится в свободном доступе.
Каждой НС соответствует размеченный текстовый файл, состоящий из записей вида (фрагмент):
<article-title>#a3ea«ue статьи</article-title> ccontrib contrib-type="author-n">Автор-п </contrib> <aff ±й-"в.И-ш">Аффилиация-т </aff> <abstract>^HHomo^M^</abstract> <kwd-group>Ключевые слова</kwd-group> <body> Текст статьи</body> <ref-list>Список литературы,</ref-list> Здесь n - порядковый номер автора в приетатейном списке авторов НС, т - помер его аффил нации,
В январе 2023 г, из архива журнала было извлечено 1067 XML файлов, соответствующих НС, опубликованным за период 2007-2023 гг. Предварительная обработка «сырых» данных состояла в следующем: во-первых, были удалены НС, имеющие одного автора, во-вторых, введен единообразный порядок следования фамилии, имени и отчества автора, В результате было отсеяно менее двух процентов НС,
3. Результат. Гиперграф Нса, построенный на основе отобранных данных архива,
имеет размер т(Нса) = 991 и порядок п(Нса) = 1694 Нса не является связным, он состоит из 97 компонент, из них 68 имеют одно ребро, максимальная компонента включает около 64,75% вершин (авторов) и 67,4% ребер (НС),
Измерим параметры и определим свойства компонент с числом ребер не менее трех, рассмотренных как отдельные гиперграфы. При этом максимальную компоненту обозначим Нс\ для нее приведем параметры и свойства двойственного гиперграфа Н*, остальные компоненты пронумерованы. Значения параметров и свойства гиперграфов приведены в таблице. Распределение степеней вершин Нса представлено на рис, 1 (ось х - степени вершин, ось у - плотность; шкалы логарифмические). Из графика распределения можно заключить, что большинство авторов имеют небольшое число совместных НС, Распре-
Таблица 1
Параметры и свойства компонент
Компонента Параметры Свойства
имя/номер Размер Порядок Ранг ауд_ с1е g(•) Про- Звезда Строгая Конфор- Хелли
гп(-) Ч) г(.) стой звезда мный
Нса 668 1097 38 4,8 - - - - -
Н * 1097 668 157 2,9 - - - - -
3 19 60 8 5,7 - - - + +
4 9 33 10 5,4 - - - + +
5 5 20 9 6,2 - - - + +
6 6 15 7 4,3 - - - + +
7 5 15 8 4,4 - + - + +
8 3 15 8 5,6 + - - + +
9 3 13 6 5,6 + + - + +
10 3 13 6 5,3 + - - + +
11 3 12 6 4,7 + + + + +
12 4 9 6 3,5 + + - + +
13 4 9 4 3,3 - + - + +
14 3 8 5 4 - + - + +
15 3 8 4 3,7 + + - + +
16 4 7 4 2,8 - + - + +
17 3 7 4 3 + + + + +
18 3 7 5 4,3 - + - + +
19 4 5 4 3 - + - + +
20 3 4 2 2 + - - + +
Примечание: ауд _deg(•) - среднее значение степени ребра; знак "+" означает, что гиперграф
обладает указанным свойством, знак "-", что не обладает
деление степеней вершин Н* также является распределением с длинным хвостом, что свидетельствует о том, что большинство НС имеет небольшое число соавторов.
Выводы, Все компоненты не имеют петель, так как рассматривались НС, имеющие более одного автора, однако гиперграф Н*, двойственный Нса, имеет петли (то же для двойственного гиперграфа компоненты 3, следующей по размерам за максимальной), а значит существуют авторы, которые имеют только одну НС, подготовленную в соавторстве, Как видно из таблицы, гиперграф Нса, соответствующий максимальной компоненте, и двойственный гиперграф Н* не обладают ни одним из перечисленных в таблице свойств, в то время как гиперграф, соответствующий компоненте 3, обладает свойствами конформности и Хелли, Две компоненты (11 и 17) обладают всеми свойствами. Они являются строгими звездами с тремя ребрами, ребра имеют в пересечении точно одну вершину, т, е, состоят из НС, объединенных одним автором. Компонента 17 представлена на рис, 2, Более половины компонент являются звездами, т, е, все ребра (НС) имеют в пересечении хотя бы одну вершину. Все компоненты, кроме максимальной, являются конформными, это означает, что при переходе к ассоциированному графу не будет клик, которые ошибочно могут считаться тесными сообществами.
Заключение. В статье приведены результаты анализа топологической структуры данных о соавторстве, извлеченных из архива, находящегося в свободном доступе, В качестве формализма для кодирования комплексной системы соавторства, отражающего множественные отношения между авторами, используется концепция гиперграфа. Применение
Рис. 1. Распределение степеней вершин гиперграфа Нс
Рис. 2. Компонента 17
языка гиперграфов позволяет получить представление о шаблонах сотрудничества в рассматриваемой системе. Большинство авторов рассматриваемой системы соавторства опосредованно связаны между собой благодаря наличию совместных работ. Распределения степеней вершин максимальной компоненты имеет длинный хвост, т. е. большинство авторов имеют небольшое число совместных НС. То же можно утверждать о распределении степеней ребер, следовательно, большинство НС имеют небольшое число соавторов. Все компоненты, кроме максимальной, обладают тем или иным заявленным свойством. Причем свойство конформности и Хелли присущи всем компонентам вне зависимости от размера и порядка. Свойство простоты более характерно для компонент с небольшим числом ребер, это относится и к вероятности быть звездой. Две компоненты обладают всеми рассматриваемыми свойствами.
Следует заметить, что на основе матрицы инцидентности гиперграфа может быть построена традиционная сеть соавторства, в которой два автора связаны, если у них имеется хотя бы одна совместная работа. Ассоциированный мультиграф граф 0(Нса) является одной из моделей такой сети, в которой вес ребра между двумя авторами равен числу совместных работ.
Благодарности. Авторы благодарят А. В. Феофанова за помощь в парсинге исходных данных.
Список литературы
1. Бредихин С. В., Ляпунов В. М., Щербакова Н. Г. Гиперсеть научного соавторства. Анализ данных БД Repec // Пробл. информ. 2022. № 4. С. 70-83. DOI: 10.24412/2073-0667-20224-70-83.
2. Newman М. Е. J. Networks: An introduction. Oxford Univ. Press, 2010. ISBN: 9780199206650.
3. Estrada е. The structure of complex network: Theory and applications. Oxford Univ. Press, 2011. ISBN: 9780199591756.
4. Latora V., Nicosia v., Russo G. Complex networks: Principles, methods and applications. Cambridge Univ. Press, 2017. ISBN: 9781316216002.
5. Newman, M. E. J. Scientific collaboration networks. I. Network construction and fundamental results // Phvs. Rev. 2001. E 64, 016131. DOI: 10.1103/PhvsRevE.64.016131.
6. Newman, M. E. J. Scientific collaboration networks. II. Shortest paths, weighted networks, and centralitv // Phvs. Rev. 2001. E 64, 016132. DOI: 10.1103/PhvsRevE.64.016132.
7. Barabasi A. L., Jeong H., Neda Z., Ravasz E., Schubert A., Vicsek T. Evolution of the social network of scientific collaborations // Phvsica A. 2002. V. 311. P. 590-614. DOI: 10.1016/S0378-4371(02)00736-7.
8. Uddin S., Hossain L., Abbasi A., Rasmussen K. Trend and efficiency analysis of co-authorship network // Scientometrics. 2012. V. 90, No 2. P. 687-699. DOI: 10.1007/slll92-011-0511-x.
9. Savic XL. I van о viс XL. Radovanovic XL. Ogn janovic Z., Pejovic A. Exploratory analysis of communities in co-authorship networks: A case study // Intern. Conf. on ICT Innovations. Springer, 2019. P. 55-64. ISBN 978-3-319-91194-6.
10. Сно H., Yu Y. Link prediction for interdisciplinary collaboration via co-authorship network // Soc. Network Analysis and Mining. 2018. 8, 25. DOI: 10.1007/sl3278-018-0501-6.
11. Chuan P.M., Son L.H., Ali M. et al. Link prediction in co-authorship networks based on hybrid content similarity metric // Appl. Intell. 2018. V. 48. P. 2470-2486. DOI: 10.1007/sl0489-017-1086-x.
12. Yoshikane F., Nozawa Т., Tsuji K. Comparative analysis of co-authorship networks considering authors' roles in collaboration: Differences between the theoretical and application areas// Scientometrics. 2006. V. 68, iss. 3. P. 643-655. DOI: 10.1007/slll92-006-0113-l.
13. Щербакова H. Г. Моделирование групповых взаимодействий комплексных систем. Обзор // Пробл. информ. 2022. № 3. С. 24-45. DOI: 10.24412/2073-0667-2022-3-24-45.
14. Wilson Т. P. Relational networks: An extension of sociometric concepts // Soc. Networks. 1982. V. 4, iss. 2. P. 105-116. DOI: 10.1016/0378-8733(82)90028-4.
15. Borgatti S. P., Everett M. G. Network analysis of 2-mode data // Soc. networks. 1997. V. 19. P. 243-269. DOI: 10.1016/S0378-8733(96)00301-2.
16. Faust K. Centralitv in affiliation networks // Soc. Networks. 1997. V. 19. P. 157-191. DOI: 10.1016/S0378-8733(96)00300-0.
17. Wasserman S., Faust K. Social network analysis. Cambridge Univ. Press, 1984. ISBN 9780511815478.
18. Bexk<> G., Flamm C., Stadler P. F. Generic properties of chemical networks: Artificial chemistry based on graph rewriting // Lect. Notes Comput. Sci. 2003. V. 2801, 10. DOI: 10.1007/978-3-540-39432-7^2.
19. Banerjee S., Jenamani XL. Prathar D. K. Properties of a projected network of a bipartite network // arXiv:1707.00912vl. DOI: 10.48550/arXiv.l707.00912.
20. Berge C. Graphs and hvpergraphs. Amsterdam: North-Holland, 1976. ISBN 10.0444103996.
21. Seidman S. Structures induced by collections of subsets: A hvpergraph approach // Math. Soc. Sci. 1981. V. 1, iss. 4. P. 381-396. DOI: 10.1016/0165-4896(81)90016-0.
22. Estrada E., Rodriguez-Velazquez J. A. Complex networks as hvpergraphs // arXiv: physics/0505137, 2005. DOI: 10.1016/j.phvsa.2005.12.002.
23. Han Y., Zhou В., Pei J., jla Y. Understanding importance of collaborations in coauthorship networks: A supportiveness analysis approach // Proc. 2009 SIAM Internat. Conf. on Data Mining. 2009. P. 1112-1123. DOI: 10.1137/1.9781611972795.95.
24. Lung R. I., Gasco N., Suciu M. A. A hvpergraph model for representing scientific output // Scientometrics. 2018. V. 117. P. 1361-1379. DOL 10.1007/slll92-018-2908-2.
25. Atkin R. Н. From cohomology in physics to q-connectivity in social science // Intern. J. Man-Machine Studies. 1972. V. 4, iss. 2. P. 139-167. DOI: 10.1016/S0020-7373(72)80029-4.
26. Atkin R. H. An algebra for patterns on a complex, I // Intern. J. Man-Machine Studies. 1974. V. 6, iss. 3. R 285-307. DOI: 10.1016/S0020-7373(74)80024-6.
27. Atkin R. H. An algebra for patterns on a complex, II // Intern. J. Man-Machine Stud. 1976. V. 8, iss. 5. R 483-498. DOI: 10.1016/S0020-7373(76)80015-6.
28. Patania A., Petri G., Vaccarino F. The shape of collaborations // EPJ Data Science. 2017. V. 6, 18. DOI 10.1140/epjds/sl3688-017-0114-8.
29. Zhou D., Orshanskiy S. A., Zha H., Giles C. L. Co-ranking authors and documents in a heterogeneous network // 7th IEEE International Conference on Data Mining (ICDM 2007), Omaha (USA), 2007. P. 739-744. DOI: 10.1109/ICDM.2007.57.
30. voloshin v. I. Introduction to graph and hypergraph theory NY: Nova Science Publ., 2009. ISBN: 978-1-60692372-6.
31. Bretto A. Hypergraph theory Springer, 2013. ISBN 978-3-319-00079-4.
32. Кормен Т., лейзерсон Ч., Ривест Т. Алгоритмы: построение и анализ. М.: МЦНМО. 2002. ISBN: 978-5-907114-11-1.
Бредихин Сергей Всеволодович — канд. техн. наук, зав. лабораторией Ий-та вычислительной математики и математической геофизики СО РАН; e-mail: bred@nsc.ru;
Сергей Бредихин окончил механико-математический факультет Новосибирского государственного университета в 1968 г. С 1968 г. — сотрудник Института автоматики и электрометрии СО РАН. Кандидат технических наук с 1983 г. С 1988 г. — заведующий Лабораторией прикладных систем Института вычислительной математики и математической геофизики СО РАН. Являлся техническим директором проекта «Сеть Интернет Новосибирского Научного Центра». Лауреат государственной премии по науке и технике 2012 г. В сфере его научных интересов — измерение и анализ сетей распределенных информационных структур. Автор и соавтор более 110 работ и двух монографий: «Методы библиометрии и рынок электронной научной периодики», «Анализ цитирования в библиометрии».
Sergey Bredikhin graduated from Novosibirsk State University in 1968 (faculty of Mechanics and Mathematics). In 1968 he became an employee of Institute of Automation and Electrometry SB RAS. In 1983 he received PhD degree in Engineering Science. Since 1988 he is the head of Applied Systems laboratory of Institute of Computational Mathematics and Mathematical
Geophysics SB RAS. He was the technical manager of "Akademgorodok Internet Project". He is the state prize winner in science and engineering (2012). Sphere of his scientific interests — the measurement and analysis of networks of the distributed information structures. He is the author and co-author of more than 110 works and two monographs: "Metody bibliometrii i rynok electronnoj nauchnoy periodiki", "Ansliz tsitirovaniya v bibliometrii".
Щербакова Наталья Григорьевна — ст. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: nata@nsc.ru.
Наталия Щербакова окончила Новосибирский государственный университет по специальности «Математическая лингвистика» в 1967 г. С 1967 г. работала в Институте математики СО РАН, затем в Институте автоматики и электрометрии СО РАН в области создания программного обеспечения систем передачи данных. С 2000 г. — сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 г. занимает должность старшего научного сотрудника. Являлась участником проекта «Сеть Интернет Новосибирского Научного Центра», занималась вопросами мониторинга и анализа IP-сетей. Ав-
тор и соавтор более 40 работ, соавтор монографии «Анализ цитирования в библиометрии». Текущие интересы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.
Natalia Shcherbakova graduated from Novosibirsk State University in 1967 (mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometrv SB RAS in the field of software design for data
transmission systems. In 2000 — the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002 works as senior researcher. She is a member of "Akademgorodok Internet Project", dealt with software of monitoring and the analysis of IP networks. She is the author and co-author of more than 40 works, the co-author of the monograph "Ansliz tsitirovaniva v bibliometrii". The current research interests lie in the field of bibliometrics: methods of measuring of scientific activity on the base of citations.
Дата поступления — 28.08.2023