Научная статья на тему 'Интеграция информационных систем на основе технологии связанных данных'

Интеграция информационных систем на основе технологии связанных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1175
216
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕГРАЦИЯ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ / RELATIONAL DATABASE INTEGRATION / ИНТЕРОПЕРАБЕЛЬНОСТЬ / INTEROPERABILITY / RDF / OWL / RDFS / СВЯЗАННЫЕ ДАННЫЕ / LINKED DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Семерханов Илья Александрович, Муромцев Дмитрий Ильич

Рассматривается способ интеграции компьютерных систем, использующих традиционные реляционные хранилища данных, на основе технологии связанных данных, затрагивается вопрос интероперабельности таких систем и проблемы ее обеспечения. Для реализации семантической интероперабельности предлагается использовать семантические технологии, в частности, модели данных RDF и RDF Schema, язык описания онтологий OWL, язык запросов SPARQL и общий подход открытых связанных данных. Рассматривается разрабатываемый авторами программный инструмент R2RMapper, предназначенный для извлечения информации, хранящейся в реляционных базах данных, в семантические форматы. Представлен алгоритм, позволяющий преобразовать такую информацию в единое информационное поле, доступное всем интегрируемым системам.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION SYSTEMS INTEGRATION ON THE BASE OF LINKED DATA TECHNOLOGY

The article deals with the method of computer systems integration using traditional relational data warehouse, based on technology of linked data. The issue of interoperability of these systems and the problems of their security are touched upon. For implementation of semantic interoperability it is proposed to use semantic technologies, in particular, RDF and RDF Schema data models, ontology description language OWL, query language SPARQL and a common approach for open linked data. R2RMapper software tool developed by the authors is considered intended for retrieval of information, stored in the relational database, into the semantic formats. The algorithm is represented which makes it possible to convert such information into a single information field accessible to all integrable systems.

Текст научной работы на тему «Интеграция информационных систем на основе технологии связанных данных»

12. Немолочнов О.Ф., Зыков А.Г., Поляков В.И., Петров К.В. Учебно-исследовательская САПР верификации и тестирования вычислительных процессов программ // Научно-технический вестник СПбГУ ИТМО. - 2006. - № 9 (32). - С. 127-128.

13. Зыков А.Г., Безруков А.В., Немолочнов О.Ф., Поляков В.И., Андронов А.В. Графо-аналитические модели вычислительных процессов в САПР // Научно-технический вестник СПбГУ ИТМО. - 2011. -№ 4 (74). - С. 116-120.

14. Немолочнов О.Ф., Зыков А.Г., Поляков В.И., Македонский А.А. Параллельные структуры управления вычислительными процессами в САПР / Научно-технический вестник СПбГУ ИТМО. - 2011. -№ 4 (74). - С. 121-124.

Гедич Андрей Алексеевич - Санкт-Петербургский национальный исследовательский университет инфор-

мационных технологий, механики и оптики, аспирант, [email protected]

Зыков Анатолий Геннадьевич - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кандидат технических наук, доцент, [email protected]

Лаздин Артур Вячеславович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кандидат технических наук, доцент, [email protected]

УДК 004.42

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ТЕХНОЛОГИИ

СВЯЗАННЫХ ДАННЫХ И.А. Семерханов, Д.И. Муромцев

Рассматривается способ интеграции компьютерных систем, использующих традиционные реляционные хранилища данных, на основе технологии связанных данных, затрагивается вопрос интероперабельности таких систем и проблемы ее обеспечения. Для реализации семантической интероперабельности предлагается использовать семантические технологии, в частности, модели данных RDF и RDF Schema, язык описания онтологий OWL, язык запросов SPARQL и общий подход открытых связанных данных. Рассматривается разрабатываемый авторами программный инструмент R2RMapper, предназначенный для извлечения информации, хранящейся в реляционных базах данных, в семантические форматы. Представлен алгоритм, позволяющий преобразовать такую информацию в единое информационное поле, доступное всем интегрируемым системам.

Ключевые слова: интеграция реляционных баз данных, интероперабельность, RDF, OWL, RDFS, связанные данные.

Введение

Одной из актуальных проблем при построении информационных систем (ИС) является обеспечение их интеграции в единое информационное пространство. Проблематика решения этой задачи обусловлена тем, что информационные системы в большинстве случаев являются распределенными. Помимо этого они строятся на различных технологиях с применением множества протоколов обмена данными. Эти факторы препятствуют построению единого унифицированного информационного хранилища.

В решении задачи интеграции ключевым элементом является обеспечение интероперабельности -способности информационной системы к взаимодействию с другими системами [1]. Такое взаимодействие может выражаться в виде обмена данными, распределенного выполнения поисковых запросов и согласованного изменения базы данных (БД). Проблема обеспечения интероперабельности информационных систем имеет фундаментальный характер. Она актуальна как для унаследованных систем, которые требуется связывать с вновь создаваемыми, так и для вновь проектируемых хранилищ данных, в которых необходимо предусмотреть возможности для реализации будущего взаимодействия с другими системами.

Можно выделить два вида интероперабельности - структурный и семантический. Структурный вид предполагает согласование внутренних структур сущностей систем. Семантический вид означает возможность установления соответствия между смысловыми единицами информационных систем. Существующие методы решения проблемы интеграции в основном направлены на решениеи проблемы структурной интероперабельности. Такие методы чаще всего основаны на ручном построении связей и правил обмена данными между системами, однако они не отвечают современным потребностям и уровню развития технологий [2].

К сожалению, на данный момент также отсутствуют четко сформулированные методы решения проблемы семантической интероперабельности, но есть некоторые проекты, которые так или иначе пытаются реализовать такой подход, например, eCulture, IPISAR, SWHi, AMA и др. [3].

Один из подходов к интеграции информационных систем заключается в использовании метаданных для описания информационных ресурсов. Однако в том виде, в котором данный подход в основном используется, он обеспечивает лишь описание структур информационных единиц без анализа их смысла и назначения. На основании такого описания невозможно делать корректные выводы о соответствии информационных единиц и их связей в различных системах, функционирующих в одной предметной об-

ласти. Для формирования заключений необходимо оперировать не только структурными характеристиками объектов информационных систем, но и оценивать их смысловое назначение, погруженное в единое информационное пространство определенной предметной области.

Семантические технологии для интеграции ИС

В качестве одного из глобальных подходов к решению проблемы интеграции информационных систем можно рассматривать так называемые связанные данные (Linked Data) [4]. Linked Data - это метод публикации открытых данных в сети Интернет таким образом, что сторонним пользователям становятся доступны не только сами данные, но и сопутствующее семантическое описание, позволяющее устанавливать связи между различными массивами данных, и организовать их единообразную обработку. При таком подходе метаданные публикуются в сети при помощи формата RDF с использованием унифицированного идентификатора ресурсов URI для идентификации элементов, которые они содержат. Для интеграции информационных систем необходимо в первую очередь преобразовать данные, хранящиеся в системах к формату, необходимому для связывания данных. Поскольку сейчас подавляющее большинство информационных систем используют реляционные БД для хранения информации, проблема сводится к извлечению нужной для связывания информации из реляционных баз, поддержанию ее в актуальном состоянии и публикации в открытом формате.

Второй обязательной составляющей описываемого подхода, помимо RDF и URI, является использование так называемых онтологий для моделирования сущностей предметной области в явном и формализованном виде, что позволяет осуществлять автоматический поиск и обработку данных на основании семантических запросов. С некоторыми оговорками можно сказать, что аналогом онтологий в реляционных БД являются ER-диаграммы. Однако последние недоступны для машинной обработки и служат лишь в качестве справочной информации для разработчика. Важной особенностью онтологического подхода является возможность использования уже существующих верхнеуровневых онтологий, описывающих основные абстракции) для извлечения метаданных. Такие онтологии охватывают различные информационные области. Некоторые из самых распространенных перечислены ниже.

- Dublin Core [5]. RDFS словарь для описания общих свойств;

- FOAF (Friend Of A Friend) [6]. Онтология для описания людей и их отношений с другими субъектами;

- BIBO (The Bibliographie Ontology) [7]. Онтология для описания любого вида документов в RDF;

- AIISO (The Academic Institution Internai Structure Ontology) [8]. Онтология внутренней структуры академических институтов.

Описание метаданных

Язык RDF основан на технологии XML. Однако XML в чистом виде не позволяет связывать данные из разных областей. Основной его недостаток заключается в том, что XML описывает грамматику и структуру документов в формате, удобном для машин, но представить с его помощью какое-либо смысловое описание объектов, составляющих информационное пространство различных областей, представляется практически невозможным. Другой проблемой является возможность структурирования данных при помощи XML различными способами, что увеличивает неоднородность и усложняет связывание. Для решения этих проблем консорциумом W3C была разработана модель данных RDF специально для описания семантики информационных объектов.

Модель данных основана на использовании простейших логических утверждений, состоящих из трех элементов и именуемых триплетом. Этими элементами являются ресурс, свойство и значение или, другими словами, субъект, предикат и объект. Модель данных в RDF является графом, где вершины -это объекты и субъекты, а ребра - свойства. Ввиду того, что модель данных не зависит от способа описания RDF-документа, утверждения могут быть выражены различными способами, например, как XML-документ в формате RDF/XML, в формате Turtle [9], в формате N3 или с помощью внедряемых метаданных RDF. Существуют также и другие, менее популярные форматы описания, однако сама концепция связанных данных не требует использования определенного формата описания, достаточно, чтобы ресурс обладал уникальным идентификатором. Данные RDF хранятся в RDF-хранилище, а доступ к ним осуществляется при помощи языка структурированных запросов SPARQL, который является рекомендацией консорциума W3C и одной из технологий семантического веба.

RDF предоставляет формализм для аннотирования данных, но не содержит средств для полноценного описания отношений между ними. Для этих целей используются онтологические модели, описываемые на языках RDFS, или язык OWL. RDFS добавляет такие термины, как rdfs:Class (класс), rdf:Property (свойство), rdf:type (тип), rdfs:subClassOf (подкласс), rdfs:subPropertyOf (производное свойство), rdfs:range (область значений), rdfs:domain (область определения). Эти термины используются как строительные блоки для создания отношений между ресурсами [10].

В задаче интеграции информационных систем, использующих реляционные БД, в единое информационное пространство связанных данных нужно отобразить таблицы на классы, а поля таблиц - на

свойства. Описать отношения и связи в получившейся модели данных можно при помощи верхнеуровне-вых онтологий, таких как FOAF или SKOS. Например, если таблица в ИС, хранящая информацию о пользователях, будет отображаться на класс s:usr, то их отношения с классом Agent и классом Person из верхнеуровневой онтологии FOAF могут описываться следующими правилами:

Vi, s : usr, foaf : personT(i,rdf : type, s : usr) л T(s : usr, rdfs : subClassOf, foaf : person ^

^ T(i, rdf : type, foaf : person);

Vs : usr, foaf : person, foaf : agentT(s : usr, rdfs : subClassOf, foaf : person) л

лT(foaf : person, rdfs; subClassOf, foaf : agent) ^ T(s : usr, rdfs : subClassOf, foaf : agent).

Здесь T(s,p,o) - это логический предикат, а i - информационная единица, содержащая информацию о пользователе Для описания свойств можно также использовать правило транзитивности. Если поле таблицы name будет отображаться на свойство как s:name, а свойство Name онтологии FOAF будет foaf:name, то справедливы следующие правила:

Vs, s : name, o, foaf : nameT(s, s : name, o) л T(s : name, rdfs : sub Pr opertyOf, foaf : name ^

^ T(s, foaf : name, o).

Используя такие правила и средства RDFS, можно связать ресурсы из разных доменных пространств в единую сеть связанных данных. Однако, чтобы использовать такие возможности, ресурсы необходимо сначала извлечь из БД и преобразовать к нужному формату.

Извлечение метаданных в процессе интеграции ИС

Традиционно в современных информационных ресурсах для хранения информации используются реляционные БД, поэтому наиболее актуальной является проблема извлечения метаданных именно из таких хранилищ. На данный момент нет общепринятого, единого решения, но ведется разработка различных программных средств, а также делаются шаги к стандартизации этой процедуры.

Сейчас существует несколько проектов, направленных на решение этой проблемы, например D2RQ-сервер [11]. D2RQ представляет собой систему для доступа к данным в реляционных базах как к виртуальному RDF-графу, работает напрямую с БД через различные адаптеры. Другим проектом является Virtuoso [12] - мощная платформа для работы с RDF. Система позволяет преобразовывать данные, хранящиеся в реляционных хранилищах, в RDF-формат и предоставляет средства для создания сервера связанных данных. Существуют также и другие проекты, призванные решить проблему извлечения данных из хранилищ.

Однако на данный момент не существует полноценного решения, которое позволило бы извлекать данные, используя при этом онтологическую модель предметной области. Такой подход упростил бы процесс опубликования данных из информационных систем в виде облака связанных данных и, следовательно, позволил бы частично решить проблему интеграции ИС. В связи с этим авторами было принято решение разработать программный продукт R2RMapper, который решал бы эти задачи.

Программная реализация

Программа R2RMapper представляет собой приложение, написанное на языке Java и использующее такие технологии, как Apache Jena, Apache Jena TDB, Redis, Apache Jena Fuseki. Приложение преобразует данные, хранящиеся в реляционных базах данных, таких как Oracle, MySQL и других, в данные в формате RDF/XML или RDF/Turtle. Во время преобразования система автоматического логического вывода Pellet добавляет связи и отношения между классами и свойствами, используя правила, описанные в онтологической модели предметной области на языке OWL2. На рис. 1 изображена архитектура программы R2RMapper.

Приложение получает на вход конфигурационный файл, содержащий информацию об интегрируемых информационных системах: название, таблицы с данными, информацию для подключения. Вторым входным параметром является онтология предметной области, на основе которой встроенным механизмом логического вывода осуществляется наложение ограничений. Важным компонентом системы является хранилище связей между сущностями в традиционных БД и сущностями в RDF-модели -Matching БД. Хранилище реализовано на основе системы Redis и хранит всю информацию в оперативной памяти, что делает его чрезвычайно производительным. Полученные в результате извлечения и наложения онтологии данные публикуются в сети при помощи сервера Fuseki, который предоставляет SPARQL точку доступа для других систем. Алгоритм работы программы состоит из трех этапов и изображен на рис. 2.

Таким образом, данные, которые изначально хранились как структурированная, но закрытая информация, становятся доступными в сети и описываются в семантических терминах. В дальнейшем эти данные могут быть использованы как существующими системами, интегрируемыми в общую инфраструктуру, так и новыми приложениями, которые будут создаваться на их основе.

Рис. 1. Архитектура R2RMapper

Рис. 2. Алгоритм работы Заключение

Задача интеграции информационных систем на данный момент является одной из самых актуальных. Существует много факторов, мешающих объединению информации из разных систем в единое информационное поле, однако подход, основанный на использовании технологии связанных данных, частично решает эту задачу. Данные, открытые и имеющие семантические связи с другими данными, могут быть использованы в любых системах, как существующих, так и разрабатываемых.

На базе НИУ ИТМО авторами сейчас ведется исследование, которое решит некоторые из существующих проблем интеграции данных и позволит опубликовать ресурсы НИУ ИТМО как связанные данные. В ходе исследовательской работы авторами разработан программный продукт, отличающийся от других схожих программ возможностью использования онтологий для реализации правил и ограничений, а также скоростью работы за счет использования хранилища Redis. На данный момент приложение находится в стадии апробации и тестирования.

Литература

1. Батоврин В.К., Гуляев Ю.В., Олейников А.Я. Обеспечение интероперабельности - основная тенденция в развитии открытых систем // Информационные технологии и вычислительные системы. - 2009. - № 5. - С. 7-15.

2. Муратов И.Н. Обеспечение структурной интероперабельности информационных систем на основе метамоделей. Диссертация. - НИУ МЭИ, 2003 [Электронный ресурс]. - Режим доступа: http://www.dissercat.com/content/issledovanie-i-razrabotka-metoda-obespecheniya-strukturnoi-interoperabelnosti-informatsionny, закрытый. Яз. рус. (дата обращения 25.07.2013).

3. Новицкий А.В. Обзор некоторых направлений интеграции гетерогенных ресурсов в электронных библиотеках // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - RCDL'2009. - Петрозаводск, Россия, 2009. - С. 350-356.

4. Linked data W3C [Электронный ресурс]. - Режим доступа: http://www.w3.org/standards/semanticweb/data, свободный. Яз. англ. (дата обращения 15.06.2013).

5. Dublin Core Dublin Core Metadata Initiative [Электронный ресурс]. - Режим доступа: http://dublincore.org/, свободный. Яз. англ. (дата обращения 15.06.2013).

6. FOAF Friend of a friend project [Электронный ресурс]. - Режим доступа: http://www.foaf-project.org/, свободный. Яз. англ. (дата обращения 15.06.2013).

7. BIBO The bibliographic ontology [Электронный ресурс]. - Режим доступа: http://bibliontology.com/, свободный. Яз. англ. (дата обращения 15.06.2013).

8. AIISO Academic Institution Internal Structure Ontology [Электронный ресурс]. - Режим доступа: http://vocab.org/aiiso/schema, свободный. Яз. англ. (дата обращения 15.06.2013).

9. Turtle - Terse RDF Triple Language W3C [Электронный ресурс]. - Режим доступа: http://www.w3.org/TeamSubmission/turtle/, свободный. Яз.англ. (дата обращения 15.06.2013).

10. Татарский Ф.Е., Князева А.А. Введение в технологии World Wide Web. - Томск: ТПУ, 2009. - 160 с.

11. D2RQ The D2RQ Platform [Электронный ресурс]. - Режим доступа: http://d2rq.org/, свободный. Яз.англ. (дата обращения 28.07.2013).

12. Virtuoso Universal Server [Электронный ресурс]. - Режим доступа: http://virtuoso.openlinksw.com/, свободный. Яз. англ. (дата обращения 28.07.2013).

Семерханов Илья Александрович

Муромцев Дмитрий Ильич

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, [email protected]

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доцент, [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.