Методы и средства визуализации информационного наполнения больших научных порталов

Апанович Зинаида Владимировна; Винокуров Павел Сергеевич; Кислицина Тамара Андреевна

УДК 004.9, 004.89

3. В. Апанович 1, П. С. Винокуров 1, Т. А. Кислицина 2

1 Институт систем информатики им. А. П. Ершова СО РАН пр. Акад. Лаврентьева, 6, Новосибирск, 630090, Россия

2 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090,Россия

E-mail: [email protected]

МЕТОДЫ И СРЕДСТВА ВИЗУАЛИЗАЦИИ ИНФОРМАЦИОННОГО НАПОЛНЕНИЯ БОЛЬШИХ НАУЧНЫХ ПОРТАЛОВ *

Благодаря быстрому развитию направления Semantic Web и его новой ветви Linked Open Data в Интернете становятся доступными большие объемы структурированной информации, размещенной на научных порталах, посвященных различным научным направлениям. Наиболее достоверным источником информации, посвященной любому научному направлению, являются собственно научные публикации, составляющие основное наполнение таких порталов. Эти данные нуждаются в средствах анализа, которые могли бы способствовать упрощению их понимания и оптимизации научного менеджмента. В данной работе описываются новые алгоритмы визуализации графов, реализованные в ИСИ СО РАН, и демонстрируется применение этих алгоритмов для визуализации сетей соавторства и сетей цитирования, извлеченных из научных порталов, входящих в облако Linked Open Data.

Ключевые слова: онтология, информационное наполнение, методы визуализации информации, силовой алгоритм, радиальный алгоритм, иерархические жгуты ребер, поуровневое изображение ориентированного графа, сети цитирования, Open Linked Data.

Введение

В связи с бурно развивающимся направлением Semantic Web и его новой ветвью Linked Open Data в Интернете становятся доступными большие объемы информации по различным научным направлениям. В число таких ресурсов входят информационные системы, цифровые библиотеки и специализированные порталы. Наиболее достоверным источником информации, посвященной любому научному направлению, являются собственно научные публикации, составляющие основное наполнение научных порталов и цифровых библиотек. Информация о самых активных и влиятельных исследователях, организациях, в которых они работают, и местах, в которых расположены научные организации, становится доступной в формате rdf/xml. Важно также отметить, что эта информация эволюционирует во времени и стремительно увеличивается в объеме. Исследование и анализ этих данных необходимы для оптимизации процессов управления научными исследованиями. Чтобы понимать эти стремительно расширяющиеся данные, нужны новые инструменты.

Одним из таких общепризнанных инструментов является визуализация информации с применением графовых моделей. Следует заметить, что осмысленные множества данных имеют разную структуру и требуют существенно различных стратегий при визуализации.

* Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (гранты № 09-07-00400 и 11-07-00388) и проекта РАН 2/12 «Формальные языки и методы спецификации, анализа и синтеза информационных систем».

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2011. Том 9, выпуск 3 © 3. В. Апанович, П. С. Винокуров, Т. А. Кислицина, 201 1

Ранее мы рассмотрели методы визуализации информации о научном сотрудничестве, пред-ставимой при помощи сетей соавторства, извлекаемых из небольших русскоязычных информационных порталов, посвященных таким научным направлениям, как археология и компьютерная лингвистика [1; 2]. Но эти данные имели достаточно локальный характер и обладали сравнительно небольшим объемом. Для того, чтобы опробовать наши алгоритмы визуализации на общеизвестных данных большего объема, мы воспользовались общеизвестными данными порталов, входящих в облако Open Linked Data [3; 4]. В процессе экспериментов с этими данными были реализованы новые алгоритмы визуализации, описанные ниже.

Построение сетей соавторства и сетей цитирования

на основе Linked Open Data

Прежде чем решать проблему анализа библиографических данных, необходимо решить проблему их получения. Задача сбора данных весьма трудоемка и ресурсозатратна. В настоящее время функционирует большое количество электронных библиотек и информационных порталов. Эти библиотеки и порталы имеют различную структуру, основаны на разных онтологиях, что затрудняет доступ к ним. Последнее время наметились большие сдвиги в унификации доступа к библиографической информации благодаря новому проекту сообщества Semantic Web, который называется Linked Open Data (LOD) [3]. В рамках этого проекта проделана большая работа по объединению разрозненных наборов данных в единое целое и обеспечению единого механизма доступа 1. В частности, в рамках этого проекта предоставляется доступ к большому объему структурированной библиографической информации. Множества структурированных данных, посвященных научным исследованиям, предоставлены такими известными порталами, как DBLP, Citeseer, CORDIS, NSF, EPSRC, ACM, IEEE и др. Данные предоставляются в формате RDF и имеют весьма внушительные объемы. Например, RDF-данные, предоставленные порталом CiteSeer, содержат 8 146 852 троек RDF 2, данные портала ACM насчитывают 12 402 336 троек RDF 3, портал DBLP предоставил 28 384 790 троек RDF 4. Пользователь может либо скачивать файлы в формате RDF, либо генерировать данные при помощи запросов sparql.

Важно также отметить, что за последнее время LOD-сообществом проделана огромная работа по переводу всех этих множеств данных на единую онтологию AKT Reference Ontology 5, представляющую собой объединение нескольких онтологий, таких как Support Ontology, Portal Ontology, Extensions Ontology и RDF Compatibility Ontology. Онтология Portal Ontology является основной среди этих онтологий, она описывает такие понятия, как организации, персоны, проекты, публикации, географические данные и т. д. Онтология AKT представляет собой весьма глубокую иерархическую структуру (рис. 1).

На этом рисунке показано также одно их окон пользовательского интерфейса программы визуализации. Меню «File» позволяет выбрать файл для визуализации и указать формат входных данных, меню «View» - выбрать один из алгоритмов визуализации, имеющихся в системе. В данном случае для визуализации используется радиальный алгоритм. Также указано общее количество вершин изображаемой структуры. В данном случае в иерархии имеется 158 вершин.

Следует заметить, что размеры исследуемой структуры могут быть весьма значительными, и, хотя в системе визуализации имеется режим подписи всех вершин («Show all names»), полученное изображение будет слишком загроможденным. Поэтому мы реализовали много возможностей взаимодействия с изображением, позволяющих пользователю пошагово изучать исследуемую структуру. Хорошо себя зарекомендовал режим «Fix name of node»,

1 См.: http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets

2 Описание онтологии AKT: http://www.aktors.org/ontology

3 Данные портала CiteSeer: http://citeseer.rkbexplorer.com/

4 Данные портала DBLP: http://dblp.rkbexplorer.com/

5 Данные портала ACM: http://acm.rkbexplorer.com/

Рис. 1. Основные классы онтологии АКТ

в котором все надписи являются всплывающими, но при выборе мышью интересующей пользователя вершины ее название фиксируется на экране. Этот режим позволяет пользователю в интерактивном режиме проставить надписи только интересующих его вершин. Также на панели «Selected entity class» пользователю выдается список всех вершин изображаемой структуры и при выборе нужной вершины на экране высвечиваются связи этой вершины. В связи с большим объемом изображаемых далее структур, авторы не имеют возможности вывести названия всех их вершин (изображение было бы черным от надписей), но пользователь системы имеет возможность в интерактивном режиме увидеть названия всех интересующих его вершин.

Что касается AKT-онтологии, для описания публикаций имеется два корневых класса: «Information-Bearing-Object» и «Abstract-Information». Подклассами класса «Information-Bearing-Object» являются также классы «Recorded-Audio», «Recorded-Video», «Publication», «Edited-Book», «Composite-Publication», «Serial-Publication», «Periodical-Publication», «Book». Все элементы этого класса имеют отношение «has-publication-reference», указывающее на объекты класса «Publication-Reference», который является подклассом класса «Abstract-Information». В свою очередь класс «Publication-Reference» имеет в качестве подклассов классы «Web-Reference», «Book-Reference», «Edited-Book-Reference», «Conference-Proceed-ings-Reference», «Workshop-Proceedings-Reference», «Book-Section-Reference», «Article-Reference», «Proceedings-Paper-Reference», «Thesis-Reference» и «Technical-Report-Reference». Эти объекты имеют такие отношения, как: «has-date», «has-title», «has-place-of-publication», «cites-publication-reference» и др. Для описания организаций имеется класс «Organization», который является подклассом класса «Legal-Agent», а класс «Legal-Agent» является подклассом клас-

ca «Generic-Agent». Точно так же класс «Person» является подклассом класса «GenericAgent».

Несмотря на то, что все хранилища библиографических данных облака LOD приведены к единому словарю, данные, доступные в этих хранилищах, очень разнородны и опираются на очень узкие подмножества большого словаря. Для описания реальных объектов используются, как правило, классы самого верхнего уровня иерархии.

Так, например, для описания публикаций самыми ходовыми классами являются «Publication-Reference» и «Article-Reference», при этом совсем не используются такие классы, как «Proceedings-Paper-Reference», что затрудняет извлечение из базы данных публикаций по одной заданной теме. Также многие поля, имеющиеся в этой богатой онтологии, остаются незаполненными при описании реальных данных. Тем не менее единый механизм доступа открывает большие возможности для работы с этими данными. Достаточно просто извлечь из любого репозитория облака LOD данные для построения сетей соавторства. Любая публикация, описанная в этих репозиториях, имеет название публикации (отношение «has-title») и авторов (отношение «has-author»). Поэтому сеть соавторства для любого из перечисленных выше порталов можно сгенерировать с помощью sprql-запроса следующего вида:

CONSTRUCT{?y :co_author ?z}

WHERE{

?x akt:has-author ?y ; akt:has-author ?z ; a ?type .

FILTER(?y != ?z &&(?type = akt :Publication-Reference ) }.

Для выбора данных нужного объема используется модификатор запроса LIMIT N. В настоящее время мы сравнительно легко извлекаем сети соавторства объемом 20-30 тысяч вершин. Следует сказать, что при таком способе генерации сетей соавторства их связность и плотность напрямую связаны с объемом. Например, для портала DBLP [5] при установке лимита на количество ребер в сети соавторства, равном десяти тысячам, наибольшая связная компонента этой сети имеет всего 140 вершин и 191 ребро. Изображение этой небольшой компоненты связности показано на рис. 2, а.

При возрастании лимита на объем сети до 50 000 ребер наибольшая связная компонента имеет уже 3 001 вершину и 4 983 ребра. Для анализа таких компонент связности необходимы специальные алгоритмы.

Рис. 2. Изображение связных компонент сетей соавторства, сгенерированных по данным портала ЭВЬР

Кластеризация и визуализация больших сетей соавторства

В предыдущих работах [1; 2] был представлен алгоритм выделения сообществ (кластеризации) из сетей соавторства на основе принципа модулярности [4]. На рис. 2, а показаны семь сообществ, выделенных прежним алгоритмом. Вершины, принадлежащие одному кластеру, раскрашены в один цвет, что позволяет визуально оценить качество кластеризации. Рис. 2, б показывает размещение большой компоненты связности сети соавторства, имеющей 3 001 вершину и 4 983 ребра, до и после работы старого алгоритма кластеризации. Визуально на нем не так просто выделить сообщества. В настоящий момент реализована многоуровневая версия алгоритма выделения сообществ, которая повышает качество кластеризации. Для описания алгоритма напомним определение модулярности.

Определим симметричную матрицу e размерности к X к . Элемент et j этой матрицы равен отношению количества ребер, соединяющих два сообщества i и j, к общему количеству ребер в сети. Также можно определить суммы по столбцам (или по строкам ) at = ¿je^, которые соответствуют отношению ребер, соединяющих вершины в сообществе i, к общему количеству ребер. Модулярность (modularity) выражается через at и ej

Q = I e - a).

i

Экспериментально показано [4], что значение модулярности, превышающее 0,3, является указателем на реальное наличие сообществ в сети.

Новая реализация алгоритма выделения сообществ состоит из грубой кластеризации и итеративного улучшения. На этапе грубой кластеризации первоначально сеть соавторства разбивается на кластеры, каждый из которых состоит из одной вершины. Затем кластеры, дающие наилучшее увеличение модулярности, попарно объединяются в кластеры большего размера до тех пор, пока еще возможно увеличение значения модулярности. Промежуточные результаты попарного объединения кластеров хранятся в виде бинарного дерева. Заметим, что получившийся в результате первого шага набор кластеров не является оптимальным вследствие того, что на начальных этапах работы алгоритма возможно объединение вершин из разных сильно связанных сообществ. Поэтому на втором этапе применяется алгоритм итеративного улучшения, идея которого заимствована у [5].

Определим величину AQv^D как число, на которое увеличится модулярность, если переместить вершину v из ее текущего кластера в кластер D. Тогда алгоритм итеративного улучшения кластеризации работает следующим образом.

Шаг 1. Для каждой вершины v ищется кластер с максимальным значением AQv^D. Если AQv^D > 0, вершина v перемещается в кластер D.

Шаг 2. Шаг 1 повторяется до тех пор, пока существует хотя бы одно перемещение, улучшающее значение модулярности.

Этот алгоритм перемещает по одной вершине и не может переместить сразу группу сильно связанных вершин. Поэтому лучше всего этот алгоритм применять для улучшения промежуточных результатов грубой кластеризации. Для этого в бинарном дереве объединения кластеров выделяются уровни, между которыми количество кластеров сократилось в два раза. Для каждого такого уровня имеется набор текущих кластеров, а в качестве перемещаемых вершин используются кластеры, полученные на предыдущем уровне грубой кластеризации. Для каждого такого уровня запускается алгоритм итеративного улучшения, что позволяет еще немного улучшить значение модулярности, а вместе с ней и качество кластеризации.

После выделения научных сообществ необходимо построить изображение сети соавторства с найденными научными сообществами. Мы хотим построить такое изображение, чтобы в нем легко просматривались найденные сообщества, а также и связи между этими сообществами. Для построения такого изображения используется трехуровневый алгоритм разме-

Рис. 3. Пример разбиения на сообщества сети соавторства, имеющей 5 625 вершин и 10 103 ребра

щения. Сначала осуществляется глобальное размещение графа, вершинами которого являются найденные компоненты. На этом этапе используется стандартный силовой алгоритм [6]. В процессе размещения считается, что идеальная длина ребра, соединяющего компоненты i и j, пропорциональна величине eij, количеству ребер между ними.

Детальное изображение каждого сообщества строится тоже при помощи силового алгоритма. Но на этом этапе все вершины одной группы располагаются примерно на одинаковом расстоянии друг от друга. Это идеальное расстояние существенно меньше того, что используется при глобальном размещении. Оно обратно пропорционально количеству вершин в каждом кластере. Наконец, детальное изображение каждой компоненты подставляется в глобальное размещение компонент и заново отрисовываются все межкомпонентные ребра.

На рис. 3, а показан пример изображения сети соавторства, полученной прежним алгоритмом кластеризации (количество вершин 5 625, ребер 10 103, модулярность 0,922, 197 сообществ). На рис. 3, б показано разбиение на сообщества той же самой сети многоуровневым алгоритмом (48 сообществ, модулярность 0,948). Заметим, что данные рисунки сильно уменьшены, для того чтобы показать всю сеть соавторства, и поэтому на изображении названия вершин не проставлены, но в режиме интерактивной визуализации пользователь имеет возможность получить всю информацию о каждой вершине, входящей в тот или иной кластер.

Методы визуализации сетей цитирования

Если для любого портала облака LOD не составляет большого труда сгенерировать сеть соавторства любого заданного объема, ситуация с сетями цитирования обстоит существенно сложнее. Во-первых, построение списков цитируемой литературы требует гораздо больших технических усилий, поэтому в открытом доступе эта информация предоставляется только небольшим количеством порталов. Среди порталов облака LOD такими порталами являются Citeseer и ACM.

Во-вторых, для генерации информативных сетей цитирования нужны дополнительные усилия. В случае портала Citeseer применяли двухуровневую схему генерации сетей цитирования, а в случае портала ACM дополнительно использовали собственную онтологию этого портала, позволяющую выбирать публикации, относящиеся к определенному разделу науки. Для этого использовалась собственная классификация разделов науки портала АСМ, которая может рассматриваться как информационное наполнение по отношению к онтологии АКТ.

Рис. 4. Классификация разделов науки ACM

Общий план классификации показан на рис. 4. Она содержит 1 471 вершину. Подписаны несколько вершин верхнего уровня, а также вершины поддерева «Object» ^ «Re-search_Interest» ^ «G.Matematics of Computing» «G.2 Discrete Matematics» ^ « G.2.2 Graph Theory» ^ « G.2.2.0 Graph algorithms».

Наконец, следует отметить, что методы, применяемые при визуализации сетей соавторства, оказались малопригодными в случае сетей цитирования. Прежде всего, сеть цитирования является ориентированным графом, поэтому для понятного изображения этой сети желательно, чтобы все ребра были направлены в одну сторону.

Направление ребер может соответствовать хронологическому порядку публикаций. Для того чтобы сделать возможным просмотр и анализ изменения сетей соавторства на больших промежутках времени, был реализован метод поуровневого размещения ориентированного графа с минимизацией пересечений ребер [7]. Суть данного метода состоит в том, что вершины-публикации разбиваются на слои, соответствующие различным годам. Индекс цитирования публикации, т. е. ее значимость, отображается площадью вершины и интенсивностью ее цвета, что позволяет сразу увидеть самые важные публикации.

На рис. 5 показано изображение сети цитирования, полученное при помощи поуровневого метода размещения. Вершины этой сети, соответствующие отдельным публикациям, упорядочены хронологически по годам публикаций. Годы публикаций показаны прямоугольниками разного цвета в верхней части изображения. Все публикации, появившиеся в одном году, располагаются в вертикальном столбце, соответствующем этому году. Ребра этой сети соответствуют отношению цитирования. Каждое ребро сети цитирования соответствует отношению akt:cites-publication-reference и ориентировано справа налево. Чем больше ссылок в сети цитирования имеется на некоторую публикацию, тем больше входных ребер имеет соответствующая вершина и тем больше ее радиус. Цвет каждого ребра соответствует цвету года

Рис. 5. Изображение сети цитирования поуровневым методом

Рис. 6. Изменение сети цитирования к 2002 г.

Рис. 7. Применение идеологии жгутов ребер к методу поуровневого размещения вершин

цитирующей публикации. В программе также реализована возможность отслеживания динамики цитирования по годам. Для этого в верхней части экрана расположены кнопки, позволяющие перемещаться по изображению с заданными интервалами времени. В данный момент размер минимального интервала равен одному году. При нажатии кнопки «>>» изображается вся имеющаяся сеть цитирования, а при нажатии «<<» происходит очистка изображения.

Перемещение по изображению осуществляется при помощи кнопок «<» и «>», что позволяет наблюдать изменение сети цитирования во времени. Рис. 5 показывает фрагмент сети цитирования для публикаций по теории графов в период с 1965 по 1989 г. и пользовательский интерфейс, позволяющий получать дополнительную информацию. Можно видеть, что в этой выборке среди публикаций по теории графов доминирует «Linear-time algorithm for isomorphism of planar graphs». На это указывает большой радиус и яркость соответствующей вершины. Дополнительную информацию о вершине можно получить благодаря пользовательскому интерфейсу. Малозаметна в этот период публикация «A linear-time heuristic for improving network partition». Радиус этой вершины мал, потому что на нее имеется мало ссылок. Для сравнения на рис. 6 показано, как выглядит эта же сеть цитирования к 2002 г. Размер вершины, соответствующей публикации «A linear-time heuristic for improving network partition», существенно возрастает, как и размер шлейфа публикаций, ссылающихся на нее. Помимо всего прочего такой способ визуализации позволяет обнаруживать ошибки и неточности в библиографических данных.

Следует также отметить, что данный алгоритм изображения сетей цитирования находится в процессе развития. В настоящий момент реализуется модификация этого алгоритма, позволяющая осуществлять кластеризацию параллельно идущих ребер для их объединения в жгуты, как это показано на рис. 7. Новый алгоритм визуализации существенно уменьшает загруженность изображения и, предположительно, должен лучше демонстрировать тенденции развития научного направления.

Заключение

В данной работе рассмотрены методы извлечения сетей соавторства и сетей цитирования большого объема из баз данных, созданных в рамках проекта Linked Open Data, а также продемонстрированы новый метод кластеризации для сетей соавторства и новый метод динамической визуализации сетей цитирования. Генерируемые при помощи нашего метода изображения наглядно представляют информацию по цитированию публикаций, позволяют анализировать и оценивать научный уровень работ, продуктивность исследователей и показатели значимости отдельных публикаций. В настоящий момент ведется разработка метода геометрического группирования ребер, благодаря которому удастся уменьшить визуальную перегруженность в графе и работать с большими объемами данных.

Список литературы

1. Апанович 3. В., Кислицына Т. A. Расширение подсистемы визуализации наполнения информационного портала средствами визуальной аналитики // Проблемы управления и моделирования в сложных системах: Тр. XII Междунар. конф. Самара, 2010. С. 518-525.

2. Apanovich Z. V., Vinokurov P. S. Ontology Based Portals and Visual Analysis of Scientific Communities // First Russia and Pacific Conference on Computer Technology and Applications, 69 September, 2010. Vladivostok, 2010. P. 7-11.

3. Bizer C., Heath T., Berners-Lee T. Linked Data - The Story so Far // Int. J. Semantic Web Inf. Syst. 2009. Vol. 5 (3). P. 1-22.

4. Newman M. E. J., Girvan M. Finding and Evaluating Community Structure in Networks // Physical Review E. 2004. Vol. 69.

5. Fruchterman T. M. J., Reingold E. M. Graph Drawing by Force-Directed Placement // Software - Practice and Experience. 1991. Vol. 21. No. 11. P. 1129-1164.

6. Sugiyama K., Tagawa S., Toda M. Methods for Visual Understanding of Hierarchical System Structures // IEEE Trans. Systems, Man, and Cybernetics. 1981. P. 109-125.

7. Lin Shen, Kernighan B. W. An Effective Heuristic Algorithm for the Traveling-Salesman Problem // Operations Research. 1973. Vol. 21 (2). P. 498-516.

Материал поступил в редколлегию 20.06.2011

Z. V. Apanovich, T. A. Kislicina, P. S. Vinokurov VISUALIZATION TOOLS FOR LARGE SCIENTIFIC PORTALS CONTENT

Due to the fast development of Semantic Web and its new branch of Linked Open Data, large amounts of structured information on various scientific areas become available. Digital libraries, information systems and portals based on ontologies are the most reliable sources of this information that need careful investigation in order to optimize science management. A generally accepted way to facilitate understanding of such large and complex data sets is graph visualization. This paper is devoted to newly developed visualization algorithms of co-authorship and citation networks extracted from information portals and digital libraries of the Linked Open Data cloud.

Keywords: scientific portal, ontology, content, information visualization, layered graph drawing, citation networks, modularity, Open Linked Data.

Методы и средства визуализации информационного наполнения больших научных порталов Текст научной статьи по специальности «Компьютерные и информационные науки»

VISUALIZATION TOOLS FOR LARGE SCIENTIFIC PORTALS CONTENT

Текст научной работы на тему «Методы и средства визуализации информационного наполнения больших научных порталов»