Научная статья на тему 'Исследование научного веб-пространства Сибирского отделения Российской академии наук'

Исследование научного веб-пространства Сибирского отделения Российской академии наук Текст научной статьи по специальности «Математика»

CC BY
332
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ВЕБОМЕТРИКА / ТЕОРИЯ ГРАФОВ / WEBOMETRICS / GRAPH THEORY

Аннотация научной статьи по математике, автор научной работы — Шокин Юрий Иванович, Веснин Андрей Юрьевич, Добрынин Андрей Алексеевич, Клименко Ольга Анатольевна, Рычкова Елена Владимировна

Представлен анализ веб-пространства Сибирского отделения Российской академии наук методами вебометрики и теории графов. Рассматривается более 90 сайтов научных организаций СО РАН. Содержание сайтов и связи между ними анализируются с помощью сервисов поисковых систем и специальных программ. Описаны критерии, использованные для составления рейтинга сайтов ведущих институтов СО РАН. Выделены сайты, на которые особенно много ссылаются российские и международные научные организации. Исследуются структурные и метрические свойства веб-графа сайтов Сибирского отделения и его фрагментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Шокин Юрий Иванович, Веснин Андрей Юрьевич, Добрынин Андрей Алексеевич, Клименко Ольга Анатольевна, Рычкова Елена Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Investigation of the academic Web space of the Siberian Branch of the Russian Academy of Sciences

This article provides a detailed analysis of Web space of the Siberian Branch of the Russian Academy of Sciences (SB RAS) using methods of webometrics and graph theory. Many sites of SB RAS scientific organizations are considered. The content of sites and links between them are analyzed by search engine services and special programs. Criteria used for ranking SB RAS sites are described. We mark the sites which are mostly cited by Russian and international scientific organizations. The structural and metric properties of web-graph of SB RAS sites and its fragments are investigated.

Текст научной работы на тему «Исследование научного веб-пространства Сибирского отделения Российской академии наук»

Вычислительные технологии

Том 17, № 6, 2012

Исследование научного веб-пространства Сибирского отделения Российской академии наук*

Ю.И. Шокин1, А. Ю. Веснин2, А. А. Добрынин2, О. А. Клименко1, Е.В. Рычковл1, И. С. Петров1 1 Институт вычислительных технологий СО РАН, 2Институт математики им. С. Л. Соболева СО РАН, Новосибирск, Россия e-mail: vesnin@math.nsc.ru, helen@ict.nsc.ru

Представлен анализ веб-пространства Сибирского отделения Российской академии наук методами вебометрики и теории графов. Рассматривается более 90 сайтов научных организаций СО РАН. Содержание сайтов и связи между ними анализируются с помощью сервисов поисковых систем и специальных программ. Описаны критерии, использованные для составления рейтинга сайтов ведущих институтов СО РАН. Выделены сайты, на которые особенно много ссылаются российские и международные научные организации. Исследуются структурные и метрические свойства веб-графа сайтов Сибирского отделения и его фрагментов.

Ключевые слова: вебометрика, теория графов.

Введение

В современных подходах к изучению информационных процессов в World Wide Web (веб-пространстве) активно используются методы вебометрики. Термин вебометрика (webometrics) обозначает раздел информатики, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к веб-пространству. Развитие этого направления началось в 1997 г. после работы Т. Алминда и П. Ингверсена [1]. Методы вебометрики носят статистический характер и не претендуют на описание всего разнообразия информационных процессов, происходящих в веб-пространстве. Поэтому, используя только данные методы, невозможно построить математическую модель веб-пространства и математически обосновать критерии оценки информационных ресурсов в интернете. В настоящей работе для анализа структуры веб-пространства привлечены методы теории графов.

Анализ свойств веб-пространства как математического объекта впервые был начат в работах Р. Алберта и А.-Л. Барабаши [2]. Возникающая проблематика включает поиск адекватных представлений веб-пространства в виде сложной сетевой структуры, исследование её свойств, нахождение математических параметров, характеризующих такую сеть, определение и предсказание изменений этих параметров при эволюции сети. Для изучения содержательных и логических связей между объектами веб-пространства удобно использовать их представление в виде веб-графа. В настоящей

* Работа выполнена при финансовой поддержке Президиума СО РАН (Междисциплинарный интеграционный проект № 21, 2012-2014 гг.) и РФФИ (грант № 12-01-00631).

работе под веб-графом понимается ориентированный граф, вершины которого соответствуют веб-сайтам. Отношение между сайтами определяется наличием ссылок с одного сайта на другой.

1. Анализ веб-пространства СО РАН методами вебометрики

Регулярные исследования университетского и академического веб-пространства ведутся в лаборатории Cybermetrics Lab исследовательского центра CSIC (Consejio Superior Investigaciones Cienthficas) в Испании. В рамках этих исследований реализуется проект "Ranking Web of World Research Centers" [3], в котором определяется рейтинг сайтов университетов и научных организаций для отдельных стран и всего мира. Для некоторых стран количество организаций, представленных в рейтинге, существенно меньше, чем реальное количество организаций, имеющих сайты. В частности, в выборке для России [4] в этом рейтинге фигурируют только 20 из более чем 90 сайтов организаций СО РАН. В табл. 1 приведены позиции сайтов организаций Сибирского отделения РАН в мировом рейтинге сайтов научных организаций по данным на июль 2012 г. (названия организаций и адреса сайтов взяты из [4]). Всего в рейтинг включены 182 сайта научных организаций России.

Начиная c 2008 г. в Институте вычислительных технологий СО РАН строятся рейтинги сайтов научных организаций Сибирского отделения РАН [5, 6]. При формиро-

Таблица 1. Сайты организаций СО РАН в мировом рейтинге сайтов

Научная организация Адрес сайта Место в мировом рейтинге

Russian Academy of Sciences Siberian Branch www.nsc.ru 42

Boreskov Institute of Catalysis RAS www.catalysis.ru 574

Institute of Cytology and Genetics RAS www.bionet.nsc.ru 763

Institute of Computational Technologies RAS www.ict.nsc.ru 840

Sobolev Institute of Mathematics RAS www.math.nsc.ru 912

Institute of Computational Mathematics www.sscc.ru 1024

and Mathematical Geophysics RAS

Budker Institute of Nuclear Physics RAS www.inp.nsk.su 1324

Ershov Institute of Informatics Systems RAS www.iis.nsk.su 1680

Institute of Solar-Terrestrial Physics RAS www.iszf.irk.ru 1823

Kirensky Institute of Physics RAS www.kirensky.ru 1829

Institute of High Current Electronics RAS www.hcei.tsc.ru 2037

Institute of Computational Modelling RAS icm.krasn.ru 2679

Institute of Automation and Electrometry RAS www.iae.nsk.su 2756

Lavrentyev Institute of Hydrodynamics RAS hydro.nsc.ru 3059

Institute of Strength Physics and Materials Science RAS www.ispms.ru 3202

Institute of Chemical Kinetics and Combustion RAS www.kinetics.nsc.ru 3209

Energy Systems Institute www.sei.irk.ru 3433

Institute of Semiconductor Physics RAS www.isp.nsc.ru 3868

Institute of System Dynamics and Control Theory RAS www.idstu.irk.ru 5141

International Tomography Center RAS www.tomo.nsc.ru 6339

вании рейтингов используется методика из [3]. В данной работе для оценки сайтов использовались следующие параметры.

Параметр V — видимость сайта. Его значение равно количеству внешних ссылок с других сайтов на данный ресурс. Этот параметр вычислялся посредством усреднения количества внешних ссылок, найденных с помощью поисковых систем Яндекс [7], Google [8] и Bing [9]:

V = (Индекс + VGoogle + VBing)/3.

Параметр S — размер сайта. Значение S равно количеству веб-страниц сайта, определяемому поисковыми системами. Важно отметить, что поисковые системы не всегда корректно определяют количество веб-страниц, поэтому значение данного параметра может отличаться от реального размера сайта. Параметр S вычислялся посредством усреднения значений размера сайта, полученных с помощью указанных выше поисковых систем:

S (^Яндекс + SGoogle + SBing)/3.

Параметр R — насыщенность сайта — определялся как суммарное количество файлов форматов Adobe Acrobat (pdf), Microsoft Word (doc) и Microsoft Powerpoint (ppt), размещенных на сайте. Предполагается, что популярность сайта выше, если на нём размещены в свободном доступе документы, статьи, презентации и т. п., представленные в удобном для читателя виде. Информацию о наличии на сайте файлов указанных выше форматов позволяют получать поисковые системы Яндекс и Google. Значение параметра насыщенности вычислялось путём усреднения данных, полученных с помощью этих систем:

R = ^Яндекс + RGoogle)/2.

Параметр Ic — индекс цитирования сайта. Этот параметр является мерой значимости сайта. Участники проекта [3] использовали сведения из системы Google Scholar [10]. В данном исследовании применялся также индекс цитирования Яндекса [11], который определяет "авторитетность" интернет-ресурсов с учётом не просто количества ссылок на них с других сайтов, но и качественных характеристик этих ссылок.

Определение рейтинга сайтов научных организаций СО РАН включало следующие этапы.

1. Вычисление значений параметров видимости V, размера S и насыщенности R для каждого исследуемого сайта.

2. Ранжирование значений параметров V, S, R. Массив значений параметра V для всех сайтов упорядочивался по убыванию. Сайту, имеющему максимальное значение V, был присвоен ранг Vr = 1. Сайтам с одинаковыми значениями V присваивались одинаковые ранги. Таким образом, сайт с минимальным значением V будет иметь ранг не более 93 (количество организаций, участвующих в исследовании).

Аналогичным образом вычислялись ранги Sr и Rr параметров S и R.

3. Вычисление ранга Icr индекса цитирования Ic. Сначала были независимо вычислены ранги для 1сяндекс и IcGoogie. Затем для каждого сайта полученные ранги суммировались и величина Icr строилась ранжированием этих сумм. Сайт с наименьшей суммой получил ранг Icr = 1 .

4. Суммирование определённых выше рангов для каждого исследуемого сайта

W = Vr + Sr + Rr + Ic

5. Формирование рейтинга сайтов упорядочением значений Ш по возрастанию. Таким образом, итоговый ранг (позиция в текущем рейтинге) будет тем выше, чем меньше значение Ш. Сайтам с одинаковыми значениями Ш присваивались одинаковые рейтинги.

В табл. 2 представлены значения параметров V, Б, Я и индекса цитирования /сооо^1е для сайтов, занимающих первые 20 мест в рейтинге (данные на 10 августа 2012 г.).

Таблица 2. Рейтинг сайтов научных организаций СО РАН

Научная организация, адрес сайта V 5 К 1с Место в рейтинге

Портал СО РАН, www.sbras.ru 54863.3 73363.3 10438.0 620 1

Институт вычислительных технологий СО РАН, 68066.7 107935.0 794.5 154 2

www.ict.nsc.ru

Институт цитологии и генетики СО РАН, 6045.7 9196.7 1653.0 258 2

www.bionet.nsc.ru

Институт ядерной физики им. Г. И. Будкера 23608.3 5850.0 2354.5 149 4

СО РАН, www.inp.nsk.su

Институт математики им. С. Л. Соболева 4226.3 7233.3 1336.5 182 5

СО РАН, www.math.nsc.ru

Институт вычислительного моделирования 4914.7 5742.7 5750.5 474 5

СО РАН, icm.krasn.ru

Государственная публичная научно-техническая 5110.0 7653.3 417.5 136 7

библиотека СО РАН, www.spsl.nsc.ru

Институт систем информатики 2352.0 13562.3 591.5 105 8

им. А.П. Ершова СО РАН, www.iis.nsk.su

Отделение ГПНТБ СО РАН, 4896.7 12370.0 241.0 94 9

www.prometeus.nsc.ru

Институт автоматики и электрометрии СО РАН, 2815.0 3982.7 3392.5 24 10

www.iae.nsk.su

Институт проблем освоения Севера СО РАН, 3637.3 9320.0 1540.5 57 11

www.ipdn.ru

Институт неорганической химии 1788.7 4733.3 2384.0 16 12

им. А. В. Николаева СО РАН, www.nioch.nsc.ru

Институт катализа им. Г. К. Борескова СО РАН, 13441.3 178713.0 153.0 12 13

www.catalysis.ru

Президиум СО РАН, www.sbras.nsc.ru 5346.7 11826.7 1489.0 0 14

Институт физики им. Л. В. Киренского СО РАН, 1424.3 3263.7 835.0 31 15

www.kirensky.ru

Институт теоретической и прикладной 1535.0 5241.0 350.0 42 16

механики им. С. А. Христиановича СО РАН,

www.itam.nsc.ru

Институт философии и права СО РАН, 4806.0 2043.3 350.5 96 17

www.philosophy.nsc.ru

Институт химической кинетики и горения 710.7 2002.0 1056.5 24 18

СО РАН, www.kinetics.nsc.ru

Институт вычислительной математики и мате- 386.7 5843.7 209.0 33 19

матической геофизики СО РАН, www.sscc.ru

Институт криосферы Земли СО РАН, 2001.0 3150.0 369.0 60 20

www.ikz.ru

Полный рейтинг сайтов организаций СО РАН представлен в [6]. Приведённые в [6] данные позволяют проанализировать принимаемые значения параметров V, S, R. Для 44 организаций значение параметра V (количество внешних ссылок на сайт) превышает 100, для 23 организаций V > 1000 (рис. 1, а). Таким образом, 72 % сайтов имеют достаточно много внешних ссылок. Для сравнения, в 2008 г. порог 1000 ссылок на сайт преодолели только 13 организаций [5].

Размер сайтов S варьируется от нескольких десятков до ста тысяч страниц, при этом у 39 организаций сайты имеют более 1000 страниц. В 2008 г. таких сайтов было только 19. 41 организация (40 %) имеет сайты с достаточно большим числом страниц — от 100 до 1000, остальные — менее 100 страниц.

Насыщенность сайтов R (количество загруженных файлов) больше у тех организаций, которые предоставляют свободный доступ к полным текстам документов (ста-

t_* ♦♦ u \ О 1 *-*

тей, докладов, отчётов, инструкций и т. п.). 31 организация имеет сайты с количеством загруженных файлов более 100 (рис. 2, а), у восьми организаций на сайтах размещены более 1000 файлов форматов Adobe Acrobat (pdf), Microsoft Word (doc) и Microsoft Powerpoint (ppt). В 2008 г. таких сайтов было 5. Значение индекса цитирования IcGoogie > 100 зафиксировано у 11 сайтов (рис. 2, б).

Анализируя положения сайтов в рейтинге за достаточно большой период, можно увидеть, что одни сайты стабильно занимают высокие позиции, а другие постепенно

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 1. Количество сайтов в зависимости от числа внешних ссылок (а) и веб-страниц (б)

Рис. 2. Количество сайтов в зависимости от количества загруженных файлов (а) и величины индекса цитирования (б)

1 2

3

4

5

6

7

8

0 9 Я 10

1 11 12

« 13 § 14 « 15

5 16

С 17 18

19

20 21 22

23

24

25

-•-Портал СО РАН -■-ИЦиГ СО РАН -*-ИВТ СО РАН -*-ИЯФ СО РАН -* -ИВМ СО РАН -•- ИМ СО РАН -ГПНТБ СО РАН

-ИСИ СО РАН

-•-Отд. ГПНТБ СО РАН -•»- ИАиЭ СО РАН

21.12.09 01.06.10 20.09.10 01.08.11 Дата рейтинга

10.01.12

10.08.12

Рис. 3. Топ 10 рейтинга сайтов СО РАН с 2009 по 2012 гг.

улучшают свои характеристики. На рис. 3 приведен тренд положения в рейтинге (начиная с 2009 г.) сайтов, занимающих первые 10 позиций по состоянию на 10 августа 2012 г.

2. Анализ веб-графа научных организаций СО РАН

Рассматривается веб-граф О, вершинам которого соответствуют сайты научных организаций СО РАН, а отношение между сайтами определяется наличием ссылок с одного сайта на другой. Дуга графа выходит из вершины V и заходит в вершину и, если сайт, соответствующий вершине V, содержит хотя бы одну ссылку на сайт, соответствующий вершине и. Таким образом, полученный веб-граф является ориентированным графом, любая пара вершин которого может быть соединена одной дугой или двумя противоположно направленными дугами. Веб-граф О организаций СО РАН содержит 88 вершин и 863 дуги. В этот граф были включены научные организации из Информационной системы "Организации и сотрудники СО РАН" [12], имеющие сайты на 10 января 2012 г. (к моменту построения рейтинга 10 августа 2012 г. сайтов стало 93). Диаграмма графа представлена в [13].

Так как в граф включены сайты институтов из разных областей науки, то его структура далека от графа, в котором любые две вершины соединены двумя дугами. Для оценки степени участия вершин и дуг в формировании структуры графа будем использовать численные параметры.

Первый параметр оценивает число вершин, еще не включённых в информационное взаимодействие. Индекс вершин в графе с.„ (О) определяется как отношение числа вершин к, имеющих хотя бы одну исходящую или входящую дугу, к числу п всех вершин графа, о€ (О) = к/п. Близость о€ (О) к нулю указывает на большую долю изолированных вершин в О, не связанных с другими вершинами графа. При максимальном значении с.„(О) = 1 все сайты институтов, хотя бы попарно, вовлечены во взаимодействие друг с другом. Для рассматриваемого графа О организаций СО РАН (О) = 1.

Второй параметр характеризует глобальную интенсивность взаимодействия сайтов друг с другом. Индекс дуг графа О с п вершинами и £ дугами задается отношением са(О) = £/(п(п — 1)) (плотность сети [14]). Максимальное значение са(О) = 1 достигается на полном графе, любые две вершины которого соединены парой противоположно ориентированных дуг. В этом случае все сайты ссылаются друг на друга. Для графа сайтов организаций СО РАН выполняется са(О) = 0.11.

Третий параметр характеризует локальную интенсивность взаимодействия сайтов. Под окрестностью вершины V будем понимать множество вершин графа, соединённых с V дугами без учёта их ориентации. Коэффициент кластеризации вершины V определяется как са(Оь), где О^ — подграф, порождённый окрестностью вершины V [15]. Для графа О коэффициент кластеризации сс(О) есть среднее значение по множеству вершин и, для каждой из которых общее число входящих в неё и исходящих из неё дуг не

менее 2, сс(О) = ^ са(О у)/|и|. Таким образом, этот параметр показывает, как в средни

нем заполнена дугами окрестность вершины. Для графа сайтов организаций СО РАН коэффициент кластеризации сс(О) = 0.06.

2.1. Характеристики связей вершин графа

Под расстоянием между парой вершин в графе понимается число дуг в кратчайшем ориентированном пути, соединяющем эти вершины. Естественными характеристиками вершины V ориентированного графа являются число исходящих из неё дуг deg+(v) (полустепень исхода) и число входящих в неё дуг deg-(v) (полустепень захода). Увеличение полустепеней вершин графа вызывает в общем случае возрастание его компактности, под которой понимается уменьшение расстояний между вершинами и, как следствие, уменьшение диаметра графа (максимального расстояния между его вершинами). Если в графе не учитывается ориентация дуг (неориентированный граф), то последнее справедливо в ещё большей степени. Исходящие и входящие дуги вместе с вершиной образуют легко распознаваемые локальные фрагменты, которые могут быть использованы в качестве классификационных признаков вершин. В неориентированном графе степень deg(v) вершины V равна сумме её полустепеней исхода и захода:

Таблица 3. Распределение вершин графа О по полустепеням исхода

¿ед+ 0 1 2 3 4 5 6, 7 8, 9 10 11 12 13, 15, 16, 18, 25 26 43, 77, 82 83 87

N 17 13 11 4 7 2 4 2 3 4 2 1 2 1 2 1

Таблица 4. Распределение вершин графа О по полустепеням захода

йед- 1 4 5 6 7 8 9 10 11 12, 13 14 15, 17, 18, 19, 27, 29, 38, 48

N 3 4 9 7 15 6 7 10 7 5 2 1

Таблица 5. Распределение вершин графа О по сумме полустепеней

¿вд 1 3,4 5 6 7 8, 9, 10 11 12 14 15 16 17 18 19

N 2 1 7 5 10 4 5 4 3 4 3 2 3 1

¿вд 20 22, 24 25 26 27, 36, 41, 42 72, 101, 102, 109, 115, 135

N 6 3 2 1

^ед(г') = + В табл. 3-5 приводятся данные о степенях вершин веб-

графа О сайтов организаций СО РАН. В верхней строке таблиц указаны значения степеней, нижняя строка содержит количество вершин N с соответствующими степенями.

Минимальная и максимальная степени исхода и захода вершин равны 0, 87 и 1, 48 соответственно. Средние полустепени исхода/захода вершин равны 9.8 (сумма полустепеней исхода всегда равна сумме полустепеней захода). Если граф рассматривается как неориентированный, то минимальная степень вершин равна 1, максимальная 135, а средняя 7.6. Число вершин, из которых нет ни одной исходящей дуги, составляет около 19 % от всех вершин графа. Входящие дуги имеются у всех вершин графа. В графе есть единственная вершина, соответствующая Порталу СО РАН, из которой дуги ведут во все остальные вершины графа. В эту вершину входят дуги из 48 других вершин графа. Также большое число исходящих дуг имеют четыре вершины, соответствующие сайтам ОУС СО РАН по НИТ (83), ИВТ СО РАН (83), Отделения ГПНТБ СО РАН (82) и Президиума СО РАН (77).

2.2. Классификация типов вершин

При анализе веб-графа представляет интерес соотношение между полустепенями исхода и захода вершин. На рис. 4 приводятся три варианта возможного распределения входящих и исходящих дуг. Вершины первого типа называют индукторами (мало входящих дуг, много исходящих), второго — коллекторами (много входящих дуг, мало исходящих), третьего — посредниками (много и входящих, и исходящих дуг). Эти типы вершин образуют множество веб-коммуникаторов графа.

Коллекторы могут соответствовать организациям, в которых происходит накопление, хранение и обработка данных. Это — библиотеки, банки данных, центры коллективного пользования, справочные ресурсы. Посредниками могут быть вершины, соответствующие головным сайтам, порталам научных центров, сайтам институтов с высокой степенью научной кооперации, индукторами — сайты недавно созданных организаций или новые сайты для существующих институтов. Визуальный анализ вершин с большими степенями показывает, что в веб-графе организаций СО РАН индукторами можно назвать сайты ОУС СО РАН по НИТ (83, 19) и ИВТ СО РАН (83, 18), а по-

Рис. 4. Веб-коммуникаторы: индуктор, коллектор и посредник

Таблица 6. Число индукторов и коллекторов в графе О

ге1 2 3

шй 2 3 4 5 6 7 8 10 11 19 20 29 39 2 3 4 19 20 28

Индуктор 7 7 7 7 7 7 6 5 4 3 2 1 0 3 3 3 2 1 0

Коллектор 21 11 7 3 2 0 0 0 0 0 0 0 0 9 2 0 0 0 0

Таблица 7. Число посредников в графе О

ге1 1.2 1.4 1.6 1.9

шй 10 11 12 10 11 12 10 11 12 17 29 10 11 12 15 17 29 48

Посредник 2 3 2 3 4 2 4 4 2 1 1 4 4 2 1 1 1 1

средниками — Портал СО РАН (87, 48), сайты Президиума СО РАН (77, 38), ГПНТБ СО РАН (43, 29) и Отделения ГПНТБ СО РАН (82, 27) (в скобках указаны полустепени исхода и захода вершин). Отнесение вершин графа к веб-коммуникаторам того или иного типа зависит от соотношения между полустепенями. Будем характеризовать индукторы (коллекторы) двумя параметрами (md,rel), где md означает полустепень захода (исхода), а rel — отношение полустепени исхода (захода) к md. Например, если задано (md,rel) = (5, 3), то индукторами будут вершины V, в которые входят deg-(v) > 5 дуг и выходят deg+(v) > deg-(v) ■ rel дуг, а коллекторы будут определяться значениями deg+(v) > 5 и deg-(v) > deg+(v) ■ rel. В табл. 6 показано, как изменяется количество вершин указанных типов при rel = 2 и 3 в веб-графе О (приведены значения md, на которых происходит изменение числа индукторов или коллекторов).

Для поиска значимых веб-коммуникаторов при выборе значения md можно учитывать средние полустепени вершин.

Для посредников значение md задает наименьшую полустепень, а rel — отношение между полустепенями. Например, параметры (md, rel) = (15,1.1) определяют вершины-посредники, в которых меньшая полустепень составляет не менее 15, а большая полустепень превышает её не более, чем на 10 %. В табл. 7 приводятся данные по числу посредников в рассматриваемом графе, указаны значения степени md, на которых происходит изменение числа посредников.

С течением времени структура веб-графа может меняться. Вершины с малой степенью могут соответствовать, например, сайтам недавно созданных институтов. Степень таких вершин будет возрастать при установлении новых связей с сайтами других институтов.

2.3. Сильно связная компонента

Для описания больших веб-графов используется представление их структуры в виде схемы галстука-бабочки [16]. В этой модели в графе выделяется максимальная сильно связная компонента, по отношению к которой классифицируются остальные вершины графа. В подграфе, называемом сильно связной компонентой графа, существует ориентированный путь между любой парой вершин. Поэтому, проходя по ссылкам соответствующих сайтов, можно обойти все вершины компоненты. Центральную часть бабочки образует максимальная сильно связная компонента. Левая часть бабочки состоит из вершин, пути из которых ведут в эту компоненту. Правую часть образуют

Рис. 5. Сильно связная компонента графа и её окружение

вершины, в которые ведут пути из компоненты (рис. 5). В сложных веб-графах имеются подмножества вершин, не попадающих в эти части бабочки. Для веб-графа О сайтов организаций СО РАН единственная максимальная сильно связная компонента имеет большой размер и содержит 70 вершин (всего в графе 88 вершин), левая часть бабочки не содержит вершин, а оставшиеся 18 вершин входят в правую часть.

Максимальное расстояние между вершинами графа О равно 4 (диаметр графа). Малый диаметр обеспечивается вершиной, соответствующей Порталу СО РАН, которая имеет максимально возможное для данного графа число исходящих (87) и большое число входящих дуг (48). Все диаметральные цепи графа начинаются в вершинах, соответствующих сайтам ИЛФ и ИрИХ СО РАН. Вторые концевые вершины этих цепей лежат как в сильно связной компоненте, так и вне её. Через вершину, соответствующую сайту ИНЦ СО РАН, проходят все диаметральные цепи.

3. Анализ веб-подграфов

При анализе веб-графа институтов авторы исходят из предположения о том, что его статическая структура, зафиксированная в какой-то момент времени, отражает текущие информационные связи между институтами. Поэтому представляется интересным исследовать веб-подграфы, соответствующие институтам по отдельным наукам, парам наук и т. д. Принадлежность института к конкретной науке определялась его вхождением в соответствующий Объединённый ученый совет СО РАН [12].

3.1. Веб-подграф химических институтов

Веб-граф О(Х) сайтов химических институтов СО РАН содержит 11 вершин и 20 дуг. Структура графа изображена на рис. 6, в подрисуночной подписи приведены сокращённые названия институтов. В скобках после названия института указан размер его сайта (количество страниц). Вершины большего диаметра соответствуют сайтам большего размера. Если между двумя институтами есть контур длины 2, то такая пара противоположно направленных дуг будет для удобства изображаться одной двунаправленной дугой (например, дуга между вершинами 3 и 8).

Согласно классификации веб-коммуникаторов сайт ИК СО РАН соответствует коллектору (вершина 4, входящих 7 дуг и исходящих 3 дуги), сайт НИОХ СО РАН — посреднику (вершина 1, входящих 3 и исходящих 4 дуги), а сайты ИХКГ СО РАН и МТЦ СО РАН можно отнести как к индукторам, так и к посредникам (вершины 3 и 8, входящих 2 и исходящих 4 дуги). Вершины сайтов ИрИХ СО РАН и ИППУ СО РАН являются в этом веб-подграфе изолированными, т. е. не имеют никаких связей с другими вершинами. Единственная сильно связная компонента графа О(Х) содержит все вершины, за исключением вершин 6, 7, 9, 10 и 11. Вершина 7 образует левую часть бабочки, а вершины 6 и 10 — её правую часть. Диаметр графа О(Х) равен 2, что обес-

Рис. 6. Веб-подграф С(Х) сайтов химических институтов СО РАН. 1 — НИОХ (3195), 2 — ИНХ (34821), 3 — ИХКГ (2478), 4 — ИК (18331), 5 — ИХТТМ (1517), 6 — ИХН (273), 7 — ИХХТ (1818), 8 — МТЦ (347), 9 — ИрИХ (1426), 10 — ИПХЭТ (276), 11 — ИППУ (106)

печивается наличием вершин с большими степенями. Минимальная и максимальная полустепени исхода и захода вершин графа равны 0, 7 и 0, 4 соответственно. Средние полустепени захода и исхода вершин равны 1.82. Для неориентированного графа О(Х) минимальная степень вершин равна 0, максимальная — 8, средняя — 1.36. Индексы вершин и дуг графа принимают значения оу(С(Х)) = 0.82 и еа(С(Х)) = 0.18, коэффициент кластеризации ее(С(Х)) = 0.17. К самому заметному нарушению коммуникаций в веб-графе приводит прекращение работы сайта ИК СО РАН (вершина 4). Удаление этой вершины приводит к декомпозиции графа на большее число не связанных друг с другом подграфов, чем удаление любой другой вершины.

3.2. Веб-подграф научных центров

Веб-подграф О(Ц) головных сайтов научных центров СО РАН содержит 10 вершин и 25 дуг. Структура графа и наименования центров приводятся на рис. 7. Величина вершины отражает размер соответствующего сайта (число страниц указано в скобках).

Рис. 7. Веб-подграф С(Ц) сайтов научных центров СО РАН. 1 — Портал СО РАН (143729), 2 — Президиум СО РАН (26304), 3 — ТНЦ (562), 4 — КНЦ (103), 5 — КемНЦ (47), 6 — ИНЦ (181), 7 — ТюмНЦ (308), 8 — ОНЦ (23), 9 — БНЦ (312), 10 — ЯНЦ (397)

Из диаграммы графа видно, что только Портал СО РАН и сайт Президиума СО РАН (вершины 1 и 2) объединяют сайты научных центров в связную структуру, так как между другими вершинами непосредственные связи отсутствуют. На Портал СО РАН есть ссылки почти из всех центров (7 из 8), в то время как на сайт Президиума СО РАН есть ссылки только из двух центров. По классификации веб-коммуникаторов Портал СО РАН является посредником (8 входящих и 9 исходящих дуг), а сайт Президиума СО РАН можно отнести скорее к индукторам (3 входящих и 7 исходящих дуг).

Сайт Президиума СО РАН не имеет ссылок на сайты БНЦ и ЯНЦ СО РАН. В графе есть единственная сильно связная компонента, которая содержит все вершины графа, за исключением вершины 6, т. е. с сайта ИНЦ СО РАН нельзя попасть ни на один сайт научных центров. Вершина 6 образует правую часть бабочки. Диаметр графа О(Ц) равен 2 из-за двух вершин с большими полустепенями. Минимальная и максимальная полустепени исхода и захода вершин равны 0, 9 и 1, 8 соответственно. Средние полустепени вершин равны 2.5. Если граф рассматривается как неориентированный, то эти степени равны 1, 9 и 1.6. Индексы вершин и дуг в графе равны а€(О(Ц)) = 1 и са(С(Ц)) = 0.28, значение коэффициента корреляции сс(О(Ц)) = 0.07. К полному нарушению коммуникаций в веб-графе научных центров приведёт прекращение работы сайтов Портала и Президиума СО РАН (вершины 1 и 2).

3.3. Анализ веб-графов институтов из разных областей науки

Если полагать, что идеальной структурой взаимодействия институтов в одной области науки является сильно связная компонента, между любой парой вершин которой есть контур длины 2, то для институтов из нескольких областей такая структура взаимодействия представляется нереальной. Как правило, некоторая часть институтов одного профиля связана с какими-то институтами другого профиля. Далее нас не будут интересовать связи между институтами внутри одной области науки. Поэтому в общем случае будет рассматриваться многодольный подграф, в котором все вершины согласно числу рассматриваемых областей науки разделены на несколько непересекающихся подмножеств (долей). Дуги могут соединять вершины только из разных долей. Пусть подграф С1 имеет п вершин, а подграф С2 — п2 вершин. Тогда индекс вершин для двудольного подграфа С = С1 и С2 определим как еь(С) = к/(п1 + п2), где к равно числу вершин, в которые входит или из которых выходит хотя бы одна дуга. Для индекса дуг графа положим са(С) = ¿/2п1 п2, где знаменатель равен максимально возможному числу дуг между долями размеров п1 и п2. Для многодольного графа С параметры определяются аналогично. Например, для графа с тремя долями размеров п1, п2 и п3 (три группы институтов) еу(С) = к/(п1 + п2 + п3) и са(С) = ¿/2(п1п2 + п1п3 + п2п3).

3.4. Веб-подграф химических и физических институтов

Веб-подграф О(Х, Ф) институтов СО РАН, проводящих исследования в областях химии и физики, содержит 21 вершину и 18 дуг. Структура графа, наименования институтов и их принадлежность к долям (Х или Ф) приводятся на рис. 8. Величина вершины отражает размер соответствующего сайта (число страниц указано в скобках). Вершины физических институтов для наглядности располагаются только в центральном ряду диаграммы графа.

Вершины 7 и 9 сайтов химических институтов ИК и ИХТТМ СО РАН являются в этом графе индукторами (1 входящая дуга и 4 исходящих дуги). Изолированными

13) Í5 ) ( 4 ) í18) i9

\ ^-г^ /Ж / /Ж

Рис. 8. Веб-граф G(X, Ф) институтов СО РАН в областях химии (Х) и физики (Ф). 1 — ИЯФ (Ф, 14448), 2 — НИОХ (Х, 3195), 3 — ИФ (Ф, 1954), 4 — ИНХ (Х, 34821), 5 — ИХКГ(Х, 2478), 6 — ИАиЭ (Ф, 3448), 7 — ИК (Х, 18331), 8 — ИСЗФ (Ф, 0), 9 — ИХТТМ (Х, 1517), 10 — ИКФИА (Ф, 0), 11 — ИФП (Ф, 1114), 12 — ИСЭ (Ф, 941), 13 — ИХН (Х, 273), 14 — ИХХТ(Х, 1818), 15 — КТИ НП (Ф, 380), 16 — ИОА (Ф, 297171), 17 — ИЛФ (Ф, 61), 18 — МТЦ (Х, 347), 19 — ИрИХ (Х, 1426), 20 — ИПХЭТ (Х, 276), 21 — ИППУ (Х, 106)

являются 7 вершин. Максимальная сильно связная компонента содержит всего три вершины: 3, 7 и 14. Остальные не изолированные вершины, кроме вершин 4 и 13, образуют правую часть бабочки. Из вершин 4 и 13, образующих "отростки" в модели бабочка, пути ведут в правую часть.

Диаметр графа G(X, Ф) равен 5. Минимальная и максимальная полустепени исхода и захода совпадают и равны 0 и 4. Средние полустепени вершин равны 0.86. Если граф рассматривается как неориентированный, то эти степени равны 0, 5 и 0.76. Индексы вершин и дуг в графе cv(G(X, Ф)) = 0.67 и ca(G(X, Ф)) = 0.16. По построению графа G(X, Ф) коэффициент корреляции будет всегда равен нулю, так как окрестность любой вершины целиком лежит в одной из долей и не содержит дуг. К сильному нарушению коммуникаций в веб-графе G(X, Ф) приведёт удаление вершин 7, 9 и 11, т.е. сайтов ИК, ИХТТМ и ИФП СО РАН.

Таким образом, среди всех рассмотренных сайтов научных организаций СО РАН наиболее развитыми в плане информационного взаимодействия являются сайты Портала СО РАН, ИВТ, ИК, ИМ, ИЦиГ и ИХБФМ СО РАН. Сайты, на которые ссылаются большое число российских и международных научных организаций, следующие — Портал СО РАН, ИВТ, ИЯФ, ГПНТБ и ИК СО РАН. Сайтами с высоким индексом цитирования являются Портал СО РАН, ИВМ, ИКФИА, ИЛ, ИЦиГ, ИМ, ИВТ, ИЯФ и ГПНТБ СО РАН.

Проведённый анализ показывает современное состояние информационной структуры взаимодействия институтов СО РАН на уровне сайтов и может способствовать дальнейшему развитию веб-пространства СО РАН.

Список литературы

[1] Almind T., Ingwersen P. Infometric analyses on the World Wide Web: Methodological approaches to 'webometrics' // J. of Document. 1997. Vol. 53, No 4. Р. 404-426.

[2] Albert R., Barabási A.-L. Statistical mechanics of complex networks // Rev. of Modern Phys. 2002. Vol. 74, No 1. P. 47-97.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] Проект Ranking Web of World Research Centers. http://research.webometrics.info/

(дата доступа - 10.0B.2012).

[4] Проект Ranking Web of World Research Centers, выборка данных по стране Россия. http://research.webometrics.info/en/Europe/Russian%20Federation

(дата доступа — 10.11.2012).

[5] Шокин Ю. И., Клименко О. А., Рычкова Е. В., Шабальников И. В. Рейтинг сайтов научных организаций СО РАН // Вычисл. технологии. 200B. Т. 13, № 3. С. 12B-135.

[6] Рейтинг сайтов научных организаций СО РАН. http://www.ict.nsc.ru/ranking/

(дата доступа — 10.0B.2012).

[7] Поисковая система Яндекс. http://www.yandex.ru/ (дата доступа — 10.0B.2012). [B] Поисковая система Google. http://www.google.ru/ (дата доступа — 10.0B.2012). [9] Поисковая система Bing. http://www.bing.com/ (дата доступа — 10.0B.2012).

[10] Система определения индекса цитирования в веб-пространстве Google Scholar. http://scholar.google.com/ (дата доступа — 10.0B.2012).

[11] Индекс цитирования каталога Яндекс. http://help.yandex.ru/catalogue/?id=873431

(дата доступа — 10.0B.2012).

[12] Информационная система "Организации и сотрудники СО РАН". http://www.sbras.ru/sbras/db/ (дата доступа — 10.0B.2012).

[13] Веб-граф организаций СО РАН.

http://www.ict.nsc.ru/ranking/graph_sbras_2012.jpg

(дата доступа — 10.01.2012).

[14] Hage P., Harary F. Structural Models in Anthropology. Cambridge Univ. Press, 19B3.

[15] Watts D., Strogatz S. Collective dynamics of 'small world' networks // Nature. 199B. Vol. 393. P. 440-442.

[16] Broder A., Kumar R., Maghoul F. et al. Graph structure in the Web // Comput. Networks. 2000. Vol. 33, No 1-б. Р. 309-320.

Поступила в редакцию 5 октября 2012 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.