Научная статья на тему 'Семантическая информационная система для представления научной деятельности в сети Интернет'

Семантическая информационная система для представления научной деятельности в сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1489
115
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ / SEMANTIC INFORMATION SYSTEMS / ОНТОЛОГИИ / ONTOLOGIES / WEB-СИСТЕМЫ / ПОДДЕРЖКА НАУЧНОЙ ДЕЯТЕЛЬНОСТИ / SUPPORT OF RESEARCH / WEB-SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копайгородский Алексей Николаевич, Семичева Оксана Анатольевна

Рассмотрены семантические технологии и их применение при построении информационных систем. Представлен методический подход, позволяющий достаточно быстро и относительно просто разрабатывать семантические информационные системы на основе Репозитария ИТ-инфраструктуры исследований энергетики. Продемонстрировано его применение при проектировании и реализации семантической информационной системы для представления научно-исследовательской деятельности НИ ИрГТУ в сети Интернет.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Копайгородский Алексей Николаевич, Семичева Оксана Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEMANTIC INFORMATION SYSTEM FOR SCIENTIFIC ACTIVITY PRESENTATION ON THE INTERNET

The article considers semantic technologies and their application in the construction of information systems. It introduces a methodical approach that allows rather quick and relatively easy development of semantic information systems based on the Repository of IT infrastructure of researches in power engineering. It is shown that the proposed methodical approach can be used in designing and implementation of semantic information system for ISTU research activity representation on the Internet.

Текст научной работы на тему «Семантическая информационная система для представления научной деятельности в сети Интернет»

УДК 004.822:004.55

СЕМАНТИЧЕСКАЯ ИНФОРМАЦИОННАЯ СИСТЕМА ДЛЯ ПРЕДСТАВЛЕНИЯ НАУЧНОЙ ДЕЯТЕЛЬНОСТИ В СЕТИ ИНТЕРНЕТ

© А.Н. Копайгородский1, О.А. Семичева2

Иркутский государственный технический университет, 664074, Россия, г. Иркутск, ул. Лермонтова, 83.

Рассмотрены семантические технологии и их применение при построении информационных систем. Представлен методический подход, позволяющий достаточно быстро и относительно просто разрабатывать семантические информационные системы на основе Репозитария ИТ-инфраструктуры исследований энергетики. Продемонстрировано его применение при проектировании и реализации семантической информационной системы для представления научно-исследовательской деятельности НИ ИрГТУ в сети Интернет. Ил. 6. Библиогр. 12 назв.

Ключевые слова: семантические информационные системы; онтологии; Web-системы; поддержка научной деятельности.

SEMANTIC INFORMATION SYSTEM FOR SCIENTIFIC ACTIVITY PRESENTATION ON THE INTERNET A.N. Kopaigorodskiy, O.A. Semicheva

Irkutsk State Technical University, 83 Lermontov St., Irkutsk, 664074, Russia.

The article considers semantic technologies and their application in the construction of information systems. It introduces a methodical approach that allows rather quick and relatively easy development of semantic information systems based on the Repository of IT infrastructure of researches in power engineering. It is shown that the proposed methodical approach can be used in designing and implementation of semantic information system for ISTU research activity representation on the Internet. 6 figures. 12 sources.

Key words: semantic information systems; ontologies; Web-systems; support of research.

Введение. В современном обществе информационные системы сопровождают нас повсюду: очень трудно найти сферу человеческой жизнедеятельности, в которой они не используются. Научные достижения последних лет в областях представления и управления знаниями, искусственного интеллекта активно применяются в информационных системах, делая их интуитивно понятными и значительно расширяя круг пользователей. Одной из немаловажных задач является подача информации в сети Интернет, в том числе и для организаций, занимающихся научной деятельностью, с целью как продвижения своих разработок, так и достойного представления себя на информационном рынке. Для эффективного управления, обработки и использования информации требуется применение современных технологий, методов и средств, которые позволяют преодолеть экспоненциальный рост объемов содержащихся в корпоративных базах данных.

Семантические технологии и информационные системы. Под информационной системой понимается совокупность информации, содержащейся в базах данных, и информационных технологий и технических средств, обеспечивающих ее обработку [1]. Семантические технологии достаточно давно применяются при

проектировании и реализации информационных систем, они нашли свое отражение в различных подходах и методиках. Семантика - это раздел лингвистики, устанавливающий отношения между символами и объектами, которые они обозначают. Другими словами, под семантикой понимают науку, определяющую смысл знаков [2]. Отличительной особенностью семантических информационных систем является возможность обработки (изменение формы представления, поиск и др.) семантической информации (выраженной знаками сведений о выделенных сторонах объектов) [3]. Семантической сетью обычно называют «смысловую сеть», представленную в виде ориентированного графа, вершинами которого являются объекты предметной области, а дугами - отношения между ними. Объектами выступают понятия, события, свойства, процессы и др. Семантическая сеть - информационная модель, которая представляет знания определенной предметной области. В общем случае количество типов отношений между понятиями в семантической сети достаточно большое и может стремиться к бесконечности, однако авторы, руководствуясь конкретными целями создания сетей, сознательно их ограничивают. Чаще всего используются следующие классы отношений [4]:

1 Копайгородский Алексей Николаевич, кандидат технических наук, доцент кафедры автоматизированных систем, тел.: (3952) 405757, e-mail: [email protected]

Kopaigorodskiy Aleksei, Candidate of technical sciences, Associate Professor of the Department of the Automated Systems, tel.: (3952) 405757, e-mail: [email protected]

2Семичева Оксана Анатольевна, магистрант, тел.: (3952) 405040, e-mail: [email protected] Semicheva Oksana, Master's Degree Student, tel.: (3952) 405040, e-mail: [email protected]

• связи «часть - целое» / «is - а» (например, «элемент - класс»);

• функциональные связи (определяются глаголами «производит», «влияет» и т.д.);

• количественные отношения («больше», «меньше», «равно» и т.д.);

• пространственные отношения («далеко от», «близко от» и т.д.);

• временные отношения («раньше», «позже», «в течение» и т.д.);

• атрибутивные связи («имеет свойство», «имеет значение» и т.д.);

• логические связи (И, ИЛИ, НЕ);

• лингвистические связи.

В методических подходах, связанных с проектированием информационных систем, используются семантические сети, построенные по определенным правилам. Эти правила выражаются в строгом использовании графических элементов и построении связей между ними. Примерами таких подходов являются UML и IDEF. В методологии IDEF1x, в частности, описывается моделирование данных на основе модели «сущность - связь», определены правила для описания сущностей, атрибутов и отношений.

Достаточно часто при создании особенно простых проектов этап моделирования отсутствует, хотя неформальные методы, такие как рисование квадратиков на доске или бумаге, разработчики все же применяют. Правильно построенные модели позволяют разрешить множество потенциальных проблем в будущей информационной системе еще до написания ее первых строк кода. Модели, построенные на этапе проектирования, часто имеют большую ценность, чем конкретная реализация: создание моделей сложной системы иногда требует много месяцев обследования и анализа предметной области, консультаций с экспертами и обработки тысяч страниц документации. После их построения они могут быть воплощены в виде программного продукта на каком-либо языке программирования. Если понадобится реализовать этот продукт, например, в виде Web-сервиса или выполнить его модернизацию, то построенные ранее модели позволят значительно сэкономить время и упростить реализацию новой системы.

В последние годы ведутся активные исследования по развитию модельно-ориентированной разработки программного обеспечения (MDA - Model Driven Architecture) с использованием онтологического подхода (ODSE - Ontology-Driven Software Engineering). В научном сообществе не сложилось единого мнения по применению термина ODSE, данное понятие объединяет различные методы применения онтологий. Усилиями международных консорциумов W3C и OMG создан ряд спецификаций, открывающий путь к использованию онтологий в процессе построения программного обеспечения.

В работах Гавриловой Т.А. и Хорошевского Ф.В. [5] онтология формально определена как

O = < С, R, F >, где С - конечное множество концептов (понятий) предметной области;

- конечное множество отношений между концептами;

F - конечное множество функций интерпретации, заданных на концептах и/или отношениях.

Онтологии используют предопределенный зарезервированный словарь терминов для дефиниции концептов отношений между ними в конкретной предметной области. С помощью онтологий можно автоматизировать обработку семантики данных с целью ее эффективного использования (представления, преобразования, поиска). Соответствующий принцип обработки данных базируется на представлении описания предметной области как базы знаний, содержащей понятия и взаимосвязи, и ориентирован, в первую очередь, не на осмысление информации человеком, а на автоматизированную интерпретацию и обработку информации. Применение онтологий в информационных системах позволяет отразить реальную картину мира в виде понятий, отношений и выполнять различную интерпретацию [6, 7].

Информационные системы, созданные на основе семантических технологий, должны обладать новыми свойствами, которые, в первую очередь, будут проявляться в возможности быстрой их адаптации к изменяющимся условиям внешней среды: возможности модификации как моделей функционирования системы, представления и обработки данных, так и моделей взаимодействия со смежными системами.

Семантическая Web-система на базе компонентов ИТ-инфраструктуры исследований энергетики. Разработанная в Институте систем энергетики им. Л.А. Мелентьева СО РАН ИТ-инфраструктура, являясь интеграционной информационной и вычислительной средой для поддержки проведения исследований в области энергетики, облегчает построение распределенных баз данных и программных комплексов, создание Web-ориентированных программных комплексов и оказание информационных услуг на основе наукоемких информационных и программных продуктов. ИТ-инфраструктура включает: интеллектуальную, интеграционную информационную, распределенную вычислительную и телекоммуникационную инфраструктуры [8, 9].

Одним из основных компонентов ИТ-инфраструктуры исследований энергетики является реализованный в рамках информационной инфраструктуры Репозитарий, который содержит информацию обо всех других компонентах, их местоположении и о способах доступа к ним [8]. Информационная инфраструктура интегрирует как информационно-вычислительные, так и интеллектуальные ресурсы. В информационной инфраструктуре выделяются три уровня (слоя): уровень модели метаданных информационной инфраструктуры, уровень метаданных и данных ИТ-инфраструктуры. В архитектуру Репози-тария введена легко изменяемая «вариативная часть», определяющая специфику предметной области, методов и задач, и представленная в виде онтологии. В процессе своей работы Репозитарий использует набор правил и интерпретирует семантическую сеть (онтологию) для ввода, обработки, хранения и

выдачи информации пользователям [6, 8]. В Репози-тарии ИТ-инфраструктуры также представлены онтологии предметных областей (исследований энергетики), онтологии задач, онтологии хранилищ данных (описания баз данных). Основываясь на этой системе онтологий, можно достаточно легко находить «родственные данные» (морфологически близкие данные) в смежных программных системах, а онтологии использовать для автоматизации доступа к ним. Описания информационных ресурсов (метаданные) в Репо-зитарии представлены в виде онтологии экземпляров, связанной с описывающей модель онтологией. Физически они хранятся во внутреннем представлении Ре-позитария и могут быть преобразованы в XML, RDF и

др. [10, 11].

Технологию использования информационной инфраструктуры можно разбить на четыре этапа:

1) построение модели метаданных: на этом этапе определяются «правила хранения» метаданных;

2) внесение метаданных: производится описание информационных ресурсов в информационной инфраструктуре;

3) извлечение метаданных;

4) извлечение данных: использование инфраструктуры для поддержки проведения исследований как интегрированного источника получения информации.

Доступ к представленной в Репозитарии информации может осуществляться через Web-интерфейс или с помощью программного интерфейса (API), позволяющего получить как модель хранения, так и данные, связанные с ней. Web-интерфейс также строится на основе модели метаданных, что позволяет достаточно легко адаптировать Репозитарий к специфике предметной области.

Представление информации о научной деятельности в сети Интернет. Согласно представленной выше технологии использования информационной инфраструктуры, на первом этапе необходимо построение модели метаданных для представления информации в Репозитарии. Для моделирования метаданных разрабатываемой семантической информационной системы может быть использована среда построения онтологий GrM OntoMap, разработанная на основе ядра системы графического моделирования GrModeling [12]. Моделирование структуры хранения и представления информации на первом этапе значительно упрощает построение моделей преобразования данных из СУБД в XML-документы. Построенная онтология, лежащая в основе рассматриваемой семантической Web-системы, приведена на рис. 1. Выделены основные понятия предметной области и отношения между ними.

Обобщенная архитектура семантической информационной системы на основе Репозитария представлена на рис. 2. Данные обрабатываются и загружаются компонентом, на вход которого поступают XML-документы, описывающие атрибуты, объекты и связи между ними. Ввиду того, что большая часть накопленной информации содержится в разработанной в ИрГТУ корпоративной информационной системе АИС

«Университет», была выполнена реализация компонента преобразования и выгрузки данных из СУБД. XML-документы, подлежащие загрузке, должны быть построены в соответствии с определенными правилами, которые могут быть выражены в виде модели создания таких документов.

Для автоматизации построения XML-документов был реализован компонент преобразования и выгрузки данных, интерфейс которого показан на рис. 3. Основное назначение этого компонента: преобразование данных, полученных посредством SQL-запроса, в один или несколько связанных объектов с атрибутами, представленных в виде документа XML, в соответствии с моделью. Модель результирующего XML-документа описывается с помощью правил формирования его элементов.

В общем случае загрузка любых XML-документов в Репозитарий допустима, однако их структура должна соответствовать «ожиданиям» компонента загрузки. Для преобразования структуры документов целесообразно использовать технологию XSL Transformations (XSLT). Преобразование, выраженное через XSLT, описывает правила построения конечного дерева XML-документа на основе другого исходного XML-дерева.

Таким образом, для разработки семантической информационной системы на основе Репозитария необходимо:

1. Выполнить моделирование структуры хранения и представления семантической информации будущей системы.

2. Определить источники данных для загрузки (СУБД и пр.).

3. Определить модели преобразования данных СУБД в XML-документы.

4. Для загрузки XML-данных из других источников необходимо выполнить XSLT-преобразование.

5. Выполнить загрузку сформированных XML-документов в Репозитарий.

После окончания загрузки пользователи получают доступ через Web-интерфейс к представленным в Репозитарии данным. Предложенная технология и программные средства были применены на практике для извлечения информации из АИС «Университет» (рис. 4). С помощью онтологий в семантической информационной системе задаются элементы пользовательского интерфейса (структуры меню), модель данных (16 концептов и 22 отношения) и данные (более 50 000 концептов и более 250 000 отношений). При выборе определенной категории пользователь получает доступ к перечню связанных с ней элементов (рис. 5); если элементов достаточно много, они будут упорядочены и разбиты на страницы. При выборе из категории некоторого элемента отображается детальная информация о нем, содержащая не только атрибутивную информацию, но и связи с другими элементами семантической сети (рис. 6). Весь интерфейс Web-системы создается на основе онтологии, описывающей данные, и, в случае ее изменения, будет перестроен автоматически.

Рис. 1. Онтология семантической информационной системы для представления научной

деятельности в сети Интернет

XML-документ с данными из другого источника

а

] Компонент загрузки данных из ХМЬ-документов

Компонент преобразования и выгрузки данных из СУБД

о

Web-

интерфейс ->

Программный интерфейс JAPI)

Репозитарий

Рис. 2. Архитектура семантической информационной системы на основе Репозитария

И

Рис. 3. Компонент преобразования и выгрузки данных из СУБД

ИрГТУ в лицах

НАЦИОНАЛЬНЫЙ И ССЛЕДО ВАТЕЛЬ С КИЙ ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

NATIONAL RESEARCH IRKUTSK STATE TECHNICAL UNIVERSITY

Модель метаданных

Подразделения

Сотрудники

Научные труды

Институты НИ ИрГТУ

Инновации

Объекты интеллектуальной собственности

Направления

Приоритетные направления развития РФ

Заочно-вечерний факультет Институт авиамашиностроения и транспорта Институт архитектуры и строительства

Институт изоВразительных искусств и социально-гуманитарных наук Институт кибернетики им. Е.И.Попова

Институт металлургии и химической технологии им. С.Б.Леонова

Институт недропользования

Институт пищевой инженерии и Виотехнологии

Рис. 4.1УеЬ-интерфейс информационной системы для представления информации о научной деятельности НИ ИрГТУ

Построение семантической информационной системы на основе Репозитария имеет два основных преимущества: во-первых, пользователи и другое программное обеспечение получают доступ к семантически связанным и описанным данным; во-вторых, данные могут быть относительно легко получены из раз-

личных источников, в том числе из СУБД, и описаны с помощью моделей. Кроме того, создание семантического описания данных и их привязка к онтологиям упрощает процесс интеграции и повышает используемость данных в различных информационных системах [11].

Вероятностный распределитель импульсов

Рис. 5. Представление категории «Инновации» в I¥еЬ-интерфейсе

Валец дорожного катка

Номер патента 2379407

Дата выдачи патента 05.02.2010

относится к

• СДМ и гидравлические системы

• Институт авиамашиностроения и транспорта Направление

• Технологические машины и оОорудование

Тип ОИС

• изоВретение

разработан

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Захаренко Анатолий Владимирович

Рис. 6. Детальная информация об объекте интеллектуальной собственности

Заключение

Применение семантических технологий дает неоспоримое преимущество на всех основных этапах анализа, проектирования, реализации, тестирования и сопровождения информационных систем, в том числе описание семантики предметной области с использованием онтологий как вариативной части информационной системы. Представленный в статье методический подход позволяет достаточно быстро и относительно просто разрабатывать семантические информационные системы на основе Репозитария ИТ-инфраструктуры исследований энергетики. Создаваемая Web-система позволяет не только достойно представить результаты инновационной и научно-

исследовательской деятельности ИрГТУ в мировом информационном пространстве, но и обеспечивает привлечение партнеров к коллективной научной работе.

Созданный методический подход, технологии и инструментальные средства применяются в работах, выполняемых по грантам РФФИ № 14-07-00116, № 13-07-00422, № 13-07-00140, № 12-07-00359, гранту программы Президиума РАН № 229, а также в трудах, осуществляемых в рамках интеграционного проекта СО РАН № 131. Авторы выражают признательность этим организациям за частичную финансовую поддержку исследований.

Статья поступила 28.11.2014 г.

Библиографический список

1. Федеральный Закон РФ от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации» [Электронный ресурс]. URL: www.sudact.ru/

2. Люггер Д.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. 4-е изд. / пер. с англ. М.: Издательский дом «Вильямс», 2003. 864 с.

3. Перспективы развития вычислительной техники: справ.

пособие. В 11 кн. / под ред. Ю.М. Смирнова. Кн. 1: Информационные семантические системы / Н.М. Соломатин. М.: Высш. шк., 1989. 127 с.

4. Тузовский А.Ф., Чириков С.В., Ямпольский В.З. Системы управления знаниями (методы и технологии). Томск: Изд-во НТЛ, 2005. 260 с.

5. Гаврилова Т.А., Хорошевский Ф.В. Базы знаний интел-

лектуальных систем. СПб.: Питер, 2001. 384 с.

6. Копайгородский А.Н. Методы, модели и программные средства построения информационной инфраструктуры исследований в энергетике: авторефер. дис. ... канд. техн. наук. Иркутск: ИСЭМ СО РАН, 2008. 25 с.

7. Рубашкин В.Ш. Онтологическая семантика: Знания. Онтологии. Онтологически ориентированные методы информационного анализа текстов. М.: ФИЗМАТЛИТ, 2012. 346 с.

8. Копайгородский А.Н., Массель Л.В. Разработка и интеграция основных компонентов информационной инфраструктуры научных исследований // Вестник ИрГТУ. 2006. № 2 (26). С. 20-24.

9. Воропай Н.И., Массель Л.В. ИТ-инфраструктура системных исследований в энергетике и предоставление ИТ-

услуг // Известия АН - Энергетика. 2006. № 3. С. 86-93.

10. Массель Л.В., Копайгородский А.Н. Технологии и система хранения данных и знаний для исследований в энергетике: мат-лы Всерос. конф. «Современные информационные технологии для научных исследований». Магадан: СВНЦ ДВО РАН, 2008. С. 64-66.

11. Копайгородский А.Н. Интеграция данных в исследованиях энергетики на основе онтологий: труды XVII Байкальской Всерос. конф. Иркутск: ИСЭМ СО РАН, 2012. Т. III. С. 62-68.

12. Копайгородский А.Н. Проектирование и реализация системы графического моделирования: труды XV Байкальской Всерос. конф. Иркутск: ИСЭМ СО РАН, 2010. Ч. 3. С. 22-28.

УДК 621.311.1

СМЕШАННЫЕ АВТОРЕГРЕССИОННЫЕ МОДЕЛИ И ПРОГНОЗИРОВАНИЕ ПРОЦЕССА ВЫРАБОТКИ ПАРА

© В.Г. Хапусов1, А.В. Баев2

Иркутский государственный технический университет, 664074, Россия, г. Иркутск, ул. Лермонтова, 83.

Рассматривается применение известной методики Бокса Д.Ж. и Дженкинса Г. для идентификации процесса выработки пара, который носит нестандартный характер. Поэтому к нему была подобрана модель авторегрессии проинтегрированного скользящего среднего (АРПСС) порядка (1 1 1). Построенные для различных характеристик процесса модели имеют не только самостоятельное значение, но и могут быть использованы для краткосрочного прогноза, а следовательно, и для оперативного управления производством. Ил. 2. Табл. 2. Библиогр. 1 назв.

Ключевые слова: идентификации; оценивание; диагностическая проверка; прогнозирование.

MIXED AUTOREGRESSIVE MODELS AND STEAM PRODUCTION FORECAST V.G. Khapusov, A.V. Baev

Irkutsk State Technical University, 83 Lermontov St., Irkutsk, 664074, Russia.

The article deals with the application of a well-known Box-Jenkins Forecasting technique to identify the non-standard process of steam generation. For this reason an autoregressive integrated moving average model (ARIMA) of (1 1 1) order has been chosen. Models built for various characteristics of the process are self-sufficient, but also can be used for short-term forecasting, and consequently, for operating production management. 2 figures. 2 tables. 1 source.

Key words: identification; evaluation; diagnostic test; forecasting.

Вопрос обеспечения выработки пара, при котором получалось бы его максимальное количество при минимальном расходе топлива, является актуальным как для технологов, так и для специалистов, работающих в области автоматизации управления технологическим процессом. Важной особенностью при этом является невозможность "складирования" готовой продукции (пара), и потому система контроля и регулирования должна обеспечить выработку такого количества пара, которое необходимо потребителю в данный момент. Особенно жесткие требования предъявляют-

ся к точности поддержания температуры и давления пара.

Технологический процесс производства пара по природе своей нестационарен: неконтролируемые качественные показатели топлива; присутствие случайных примесей в котловой воде; особенности топочного устройства вследствие износа и тепловой "предыстории" и др., поэтому временные ряды процесса лучше всего описываются нестационарными моделями, в которых тренды и другие псевдоустойчивые характеристики рассматриваются скорее как ста-

1Хапусов Владимир Георгиевич, доктор технических наук, профессор кафедры автоматизации производственных процессов, тел.: 9148883081, e-mail: [email protected]

Khapusov Vladimir, Doctor of technical sciences, Professor of the Department of Automation of Production Processes, tel.: 9148883081, e-mail: [email protected]

2Баев Анатолий Васильевич, кандидат технических наук, зав. кафедрой автоматизации производственных процессов, тел.: (3952) 405243, e-mail: [email protected]

Baev Anatoliy, Candidate of technical sciences, Head of the Department of Automation of Production Processes, tel.: (3952) 405243, e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.