Научная статья на тему 'Некоторые особенности реализации платформы для построения информационно-аналитических интернет-ресурсов'

Некоторые особенности реализации платформы для построения информационно-аналитических интернет-ресурсов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
60
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
SEMANTIC WEB / ОНТОЛОГИЯ / ИНФОРМАЦИОННАЯ СИСТЕМА / СППР
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ахмадеева Ирина Равильевна, Серый Алексей Сергеевич, Шестаков Владимир Константинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Некоторые особенности реализации платформы для построения информационно-аналитических интернет-ресурсов»

УДК 004.822:004.89

НЕКОТОРЫЕ ОСОБЕННОСТИ РЕАЛИЗАЦИИ ПЛАТФОРМЫ ДЛЯ ПОСТРОЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ

ИНТЕРНЕТ-РЕСУРСОВ Ахмадеева Ирина Равильевна

Аспирант, e-mail: [email protected] Серый Алексей Сергеевич М.н.с., e-mail: [email protected] Шестаков Владимир Константинович

М.н.с., e-mail: [email protected] Институт систем информатики им. А.П. Ершова СО РАН, 630090, г. Новосибирск, пр. Лаврентьева 6

Аннотация. В работе обсуждаются возможности и области применения платформы для построения информационно-аналитических интернет-ресурсов (ИАИР), основанных на технологиях Semantic Web, а также проблемы, возникающие при ее разработке. Исследуются пути совместного использования метода Linked Data и логического вывода для создания информационных ресурсов различного назначения, приводится пример применения данной платформы для создания ИАИР по поддержке принятия решений.

Ключевые слова: Semantic Web, онтология, информационная система, СППР.

Введение. Современная практика научных исследований предусматривает взаимодействие ученых, работающих в одной или смежных областях науки, обмен данными и результатами исследований. Для нужд крупных исследовательских проектов создаются информационные системы, где аккумулируется информация, относящаяся к работе над проектом, и получаемые результаты. Создание и обслуживание подобной системы само по себе достаточно трудоемко. В данной работе обсуждаются возможность и перспективы использования платформы для построения информационно-аналитических интернет-ресурсов (ИАИР) на базе технологий Semantic Web, исследуются возможности расширения ресурсов, создаваемых на базе платформы, дополнительными функциональными модулями для решения специализированных задач и способы настройки отображения онтологий и данных для наиболее удобного представления информации. В

первом разделе статьи приведено описание концепции предлагаемой платформы, обосновано применение технологий Semantic Web, рассмотрены особенности разработки веб-интерфейса и возможности расширения систем, построенных на основе данной платформы. Во втором разделе приведены примеры конкретных информационных систем, построенных с помощью платформы.

1. Концепция платформы. Для создания информационно-аналитических интернет-ресурсов предлагается платформа, включающая набор методов и средств, поддерживающих и облегчающих этот процесс. Платформа задает архитектуру ИАИР, реализует базовую функциональность, которая, в зависимости от требований, предъявляемых к разрабатываемому ресурсу, может быть расширена, а также предоставляет базовые онтологии научной деятельности и научного знания и RDF-хранилище для хранения онтологий и сети знаний и данных. Планируется включить в базовую комплектацию редактор онтологии, который предоставит возможность редактировать онтологию с учетом используемых в ней паттернов (подробнее будут рассмотрены ниже).

Предлагаемая архитектура включает три уровня: уровень представления информации, уровень обработки информации, уровень хранения и доступа к информации. Базовая функциональность включает навигацию в информационном пространстве ИАИР (сети знаний и данных), поиск информации в контенте ИАИР (в том числе расширенный — в терминах онтологии) и редактирование контента ИАИР. Для хранения онтологии и данных используется широко распространенное хранилище Jena Fuseki [4, 7], однако может использоваться и другое RDF-хранилище.

Подобная платформа призвана объединить в себе возможности строгого формального описания предметной области исследований и логического вывода с возможностями навигации и представления информации, обычно обеспечиваемыми информационными системами. Выполнение сформулированных таким образом требований обеспечивается технологиями Semantic Web с одной стороны, и веб-интерфейсом — с другой.

1.1. Semantic Web. Как уже было указано в [2], применение технологий Semantic Web обусловлено, в первую очередь, наличием стандартизированных языков описания знаний и данных и возможностью логического вывода на них. Описание на языке OWL дает возможность использовать хранилища RDF-триплетов, многие из которых имеют встроенные машины вывода. Для получения данных при этом используется стандартный язык запросов SPARQL [12]. Все это позволяет, во-первых, помимо целостности данных, контролировать непротиворечивость онтологической модели предметной области, во-вторых — использовать при описании предметной области готовые онтологии, находящиеся в свободном доступе, в-третьих — работать со стандартным описанием онтологий стандартными средствами, что означает совместимость с другими онтологиями без дополнительных преобразований.

Развивающиеся в настоящее время алгоритмы выделения непротиворечивых онтологий-подмножеств исходной онтологии [8, 10] в будущем, вероятно, позволят сконструировать базовую онтологию для разрабатываемого ресурса лишь из требуемых понятий, набранных из разных онтологий.

В целом, платформа позиционируется как средство построения информационных систем, посвященных научной деятельности и, соответственно, включает базовые онтологии научной деятельности и научного знания. Они содержат такие понятия, как «Деятельность», «Предмет исследования», «Результат исследования», «Публикация» и др. Описание научной деятельности потребовало представления сущностей, непредставимых стандартными конструкциями OWL, в частности, атрибутированных связей и доменных значений. Для их представления использовались специальные паттерны, такие, как, например, паттерн атрибутированного отношения и паттерн доменного значения. Первый представляет собой паттерн qualified relation [6], модифицированный таким образом, чтобы сохранить направление связи [2]. В качестве паттерна для представления доменного значения был взят один из вариантов, предлагаемых W3C для описания специфических значений [11].

Домен необходим для искусственного ограничения области значений атрибута, чтобы при создании или редактировании пользователь системы не мог указать произвольное значение. Например, пол человека может принимать одно из двух возможных значений: мужской или женский. Пример паттерна в том виде, в котором он предлагается W3C, приведен на рис. 1.

Рис. 1. Паттерн доменного значения

Как можно видеть, атрибуты, имеющие доменные значения, описываются как отношения, связывающие класс онтологии со специальным классом, описывающим нужный домен. В нашем случае все классы, представляющие домены, наследуются от вспомогательного класса «Домен». Доменные значения описываются как экземпляры класса, представляющего домен. Стоит отметить, что имеет смысл ограничивать доменом только свойства с достаточно узкой областью значений, такие, как, например, уже упомянутый пол человека или тип научной публикации: «автореферат», «журнал», «статья», «монография» и пр.

1.2. Интерфейс пользователя ИАИР. При разработке интерфейса конечного пользователя для представления информации были созданы шаблоны визуализации классов, объектов и ссылок на них, встраиваемые в базовые онтологии и в онтологию предметной области. С помощью шаблонов визуализации задаются набор и порядок расположения свойств, входящих в описание сущности или ссылки. Более подробно виды и структура шаблонов описаны в [2].

Шаблоны визуализации были введены для отображения информации удобным образом: чтобы атрибуты и связи объектов отображались в нужном порядке, а ссылки давали представление об объекте или классе, на который указывают и при этом не были слишком длинными. К примеру, ссылка на объект класса «Публикация» включает последовательно перечень авторов, название публикации, дату выхода и тип. Очевидно, не каждого пользователя устроит тот или иной вид ссылки, определенный заранее, поэтому в рамках работ по реализации платформы планируется вынесение настроек шаблонов визуализации на пользовательский уровень, что даст пользователю возможность самостоятельно настроить вид объектов и ссылок.

Также очевидно, что на базе платформы может быть создан ресурс произвольной направленности, с произвольной онтологией, не имеющей никаких шаблонов визуализации. В этом случае формируются ссылки и представления по умолчанию. Несмотря на то, что платформа рассчитана на построение ресурсов, предоставляющих доступ к информации в виде сети знаний и данных, и онтология здесь служит как средством описания предметной области, так и средством навигации, визуальные средства позволяют корректно отобразить практически любую онтологию, даже если она не включает ни объектов, ни свойств. На рис. 2 представлен фрагмент отображения взятой из репозитория Вюрог!а1 онтологии протеинов [5, 9], почти не содержащей экземпляров и свойств, при этом включающей более 2000 классов.

Рис. 2. Отображение онтологии протеинов в пользовательском интерфейсе

1.3. Расширения. По умолчанию информационно-аналитический ресурс, создаваемый на базе платформы, включает только функции навигации, редактор данных и два вида поиска: простой и расширенный. Построение специализированных ресурсов требует включения в платформу дополнительных возможностей, реализуемых в виде пакетов расширений. Создание библиотеки таких пакетов — одна из задач при разработке платформы. Расширения могут предоставлять дополнительные функции ввода и редактирования данных, визуализации данных в виде графов [1], поиска в сети Интернет в терминах онтологии, а также, в перспективе, функции анализа интернет-ресурсов и пополнения онтологии данными из сети Интернет.

Редактор данных в ИАИР позволяет редактировать значения атрибутов с учетом их типов. По умолчанию предлагаются средства для редактирования атрибутов следующих стандартных типов: xsd:integer, xsd:date, xsd:string, xsd:anyURI, а также, как упоминалось ранее, доменных типов. Эти средства позволяют удобным образом вводить данные (числа, даты, указывать язык) и проверять введенные пользователем данные на корректность. Редактирование атрибутов остальных типов (в том числе пользовательских) и атрибутов, у которых тип не указан, никак не ограничивается.

Добавление в редактор поддержки новых типов и расширение возможностей по редактированию уже существующих достигается установкой расширений, реализующих эти функции. Например, если возникает необходимость описывать большое количество документов и предоставлять к ним доступ, полезным оказывается расширение для работы с файлами. На примере научной деятельности такими документами могут быть научные статьи, информационные письма конференций, патенты и авторские свидетельства. Базовые функции позволяют в качестве значения атрибута типа xsd:anyURI указать веб-ссылку на любой файл в Сети. Расширение для работы с файлами позволяет загружать файлы в систему, автоматически заполняя значение атрибута ссылкой на загруженный файл.

До сих пор мы говорили о том, что стандартизация языка OWL дает возможность использования других онтологий при создании информационной системы на основе предлагаемой платформы. Однако возможно и обратное: повторное использование получившихся онтологий в других проектах. При наличии в системе загруженных файлов они останутся доступны после переноса онтологии. Другими словами, отдавая в свободный доступ онтологию построенной системы, разработчик также делится ресурсами, накопленными в системе на тот момент.

Инструментарий библиотеки пакетов расширения будет уточняться по мере развития платформы, опыта ее использования и анализа потребностей пользователей. Среди перспективных направлений можно предложить разработку метапоискового модуля, позволяющего составлять или уточнять запросы к поисковым системам Интернета на основе онтологии, или вопросно-ответного модуля, отвечающего на вопросы на естественном языке.

2. Создание ИАИР на базе платформы. При апробации разрабатываемой платформы с ее помощью были построены две информационные системы, посвященные системным исследованиям в энергетике и поддержке принятия решений в слабоформализованных областях.

Первая предоставляет структурированную информацию о системных исследованиях в энергетике, решаемых в рамках данной области задачах и методах их решения. В процессе разработки данного ресурса была создана онтология исследований в энергетике, описывающая специфические для данной предметной области понятия: виды и отрасли энергетики, типы теплоэнергоресурсов, задачи и проблемы. Данный ресурс разработан с использованием только базовых функций платформы, позднее планируется расширить функционал ресурса, в частности, возможностью работы с файлами. В работе [2] приведено

описание данного ресурса, а также механизма шаблонных запросов, реализованного в платформе.

Другой ресурс посвящен разработке интеллектуальных систем поддержки принятия решений (ИСППР) [3]. В качестве целевой аудитории такого рода ресурса рассматриваются не только непосредственно разработчики ИСППР, но и исследователи, занимающиеся разработкой методов принятия решений, а также лица, принимающие решения. Онтология данного ресурса, как и онтология исследований в энергетике, включает базовые онтологии, описывающие научную деятельность: онтологию научного знания, онтологию научной деятельности и онтологию научных информационных ресурсов. Предметная онтология задач и методов принятия решений описывает взаимосвязь понятий «Задача ППР» и «Метод ППР». При разработке данного ресурса была начата работа над расширением, позволяющим получать статистическую информацию из общедоступных баз данных и отображать ее на страницах ресурса.

Заключение. В данной работе дается общее представление о платформе для построения информационно-аналитических интернет-ресурсов, возможных областях ее применения, а также методах и подходах, лежащих в ее основе. Среди направлений дальнейших исследований поиск новых областей применения, испытания базовых возможностей при создании информационных систем различного назначения и, как следствие, разработка новых расширений для решения специфических задач.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 16-07-00569).

СПИСОК ЛИТЕРАТУРЫ

1. Апанович З.В., Булгаков С.В., Винокуров П.С., Загорулько Ю.А. Использование методов визуализации графов для анализа информационного наполнения археологического портала знаний // Информационные технологии в гуманитарных исследованиях. 2009. №°13. С. 59-64.

2. Загорулько Ю.А., Ахмадеева И.Р., Серый А.С., Шестаков В.К. Построение тематических интеллектуальных научных интернет-ресурсов средствами Semantic Web // Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016 г., г. Смоленск, Россия). Труды конференции. В 3-х томах. Т 2. Смоленск: Универсум. 2016. С. 47-55.

3. Загорулько Ю.А., Загорулько Г.Б., Шестаков В.К. Подход к разработке информационно-аналитического интернет-ресурса по поддержке принятия решений // Информационные технологии и системы: тр. Шестой Междунар. науч. конф., Челябинск, Россия, 1-5 марта 2017 г. (ИТиС -2017). 2017. С. 113-116.

4. Портал DB-Engines. Режим доступа: https://db-engines.com/en/ranking/rdf+store (дата обращения 14.04.2017).

5. Bioportal. Режим доступа: https://bioportal.bioontology.org/ontologies/PSIMOD (дата обращения 13.04.2017).

6. Dodds L., Davis I. Linked data patterns. Online: http://patterns.dataincubator.org/book. 2011.

7. Fuseki: serving RDF data over HTTP. Режим доступа: http://jena.apache.org/documentation/serving_data/ (дата обращения 13.04.2017).

8. Kang D. et al. Extracting sub-ontology from multiple ontologies // OTM Confederated International Conferences "On the Move to Meaningful Internet Systems". Springer Berlin Heidelberg. 2004. С. 731-740.

9. Protein standard initiative. Режим доступа: http://www.psidev.info/MOD (дата обращения 13.04.2017).

10.Ranwez V., Ranwez S., Janaqi S. Subontology extraction using hyponym and hypernym closure on is-a directed acyclic graphs // IEEE Transactions on Knowledge and Data Engineering. 2012. Т. 24. №. 12. С. 2288-2300.

11. Representing Specified Values in OWL: "value partitions" and "value sets". Режим доступа: https://www.w3.org/TR/swbp-specified-values/ (дата обращения 11.04.2017).

12. SPARQL Query Language for RDF. W3C Recommendation 15 January 2008. Режим доступа: http://www.w3.org/TR/rdf-sparql-query (дата обращения 10.04.2017).

UDK 004.822:004.89

SOME FEATURES IN IMPLEMENTING A PLATFORM FOR CREATING INFORMATION-ANALYTICAL INTERNET RESOURCES

Irina R. Akhmadeeva

Graduate student, e-mail: [email protected] Alexey S. Sery Junior researcher, e-mail: [email protected]

Ахмадееeа H.P., Cepuü A.C., ^ecmaKoe B.K.

Vladimir K. Shestakov

Junior researcher, e-mail: [email protected] A.P. Ershov Institute of Informatics Systems, 6, Acad. Lavrentjev pr., Novosibirsk 630090, Russia

Abstract. In this article we discuss opportunities and application areas of a platform for creating Information-Analytical Internet Resources (IAIR) based on the Semantic Web technologies as well as difficulties arising upon its development. The ways to use the Linked Data method along with logical reasoning for building up information resources for various purposes are researched, and an example of the proposed platform's application to build up Information-Analytical Internet Resource on decision support is described.

Keywords: Semantic Web, ontology, information system, decision support system.

References

1. Apanovich Z.V., Bulgakov S.V., Vinokurov P.S., Zagorulko Yu. A. Ispol'zovanie metodov vizualizacii grafov dlja analiza informacionnogo napolnenija arheologicheskogo portala znanij [Use of Visualization of Diagrams Methods for Analysis of Information Filling of Archaeological Portal of Knowledge] // Informacionnye tehnologii v gumanitarnyh issledovanijah = Information technologies in humanitarian research. 2009. № 13. Pp. 59-64. (in Russian)

2. Zagorulko Yu.A., Akhmadeeva I.R., Sery A.S., Shestakov V.K. Postroenie tematicheskih intellektual'nyh nauchnyh internet-resursov sredstvami Semantic Web [Building subject-based intelligent Internet resources by means of semantic web technologies] // Pjatnadcataja nacional'naja konferencija po iskusstvennomu intellektu s mezhdunarodnym uchastiem KII-2016 (3-7 oktjabrja 2016. Smolensk, Rossija). Trudy konferencii. V 3-h tomah. = Fifteenth National Conference on Artificial Intelligence with International Participation (CAI 2016) (3-7 October 2016. Smolensk, Russia). Proceedings. Vol. 2. Smolensk: Universum. 2016. Pp. 47-55. (in Russian)

3. Zagorulko Yu.A., Zagorulko G.B., Shestakov V.K. Podhod k razrabotke informacionno-analiticheskogo internet-resursa po podderzhke prinjatija reshenij [Approach to the development of information-analytical internet resource on decision support] // Informacionnye tehnologii i sistemy: tr. Shestoj Mezhdunar. nauch. konf., Rossija, 1-5 marta

2017. = Information technologies and systems: proceedings of sixth international scientific conference. (1-5 March 2017, Chelyabinsk, Russia). Pp. 113-116. (in Russian)

4. DB-Engines portal. Available at: https://db-engines.com/en/ranking/rdf+store (last accessed 14.04.2017).

5. Bioportal. Available at: https://bioportal.bioontology.org/ontologies/PSIMOD (last accessed 13.04.2017).

6. Dodds L., Davis I. Linked data patterns // Online: http://patterns.dataincubator.org/book. — 2011.

7. Fuseki: serving RDF data over HTTP. Available at: http://jena.apache.org/documentation/serving_data/ (last accessed 13.04.2017).

8. Kang D. et al. Extracting sub-ontology from multiple ontologies // OTM Confederated International Conferences "On the Move to Meaningful Internet Systems". Springer Berlin Heidelberg. 2004. Pp. 731-740.

9. Protein standard initiative. Available at: http://www.psidev.info/MOD (last accessed 13.04.2017).

10. Ranwez V., Ranwez S., Janaqi S. Subontology extraction using hyponym and hypernym closure on is-a directed acyclic graphs // IEEE Transactions on Knowledge and Data Engineering. 2012. Vol. 24. №. 12. Pp. 2288-2300.

11. Representing Specified Values in OWL: "value partitions" and "value sets". Available at: https://www.w3.org/TR/swbp-specified-values/ (last accessed 11.04.2017).

12. SPARQL Query Language for RDF. W3C Recommendation 15 January 2008. Available at: http://www.w3.org/TR/rdf-sparql-query (last accessed 10.04.2017).

i Надоели баннеры? Вы всегда можете отключить рекламу.