Научная статья на тему 'Технологии и операции управления онтологическими ресурсами на примере нефтедобывающей области'

Технологии и операции управления онтологическими ресурсами на примере нефтедобывающей области Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
261
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА ЗНАНИЙ / ОНТОЛОГИЯ / НЕФТЕДОБЫЧА / ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мартынов В. В., Скуратов А. К., Филосова Е. И., Фандрова Л. П., Шаронова Ю. В.

Рассмотрены технологии и операции разработки и управления онтологическими ресурсами. Приведены практические примеры создания и использования онтологических баз знаний в области недропользования на примере нефтедобывающей отрасли. Представлена технология поэтапного создания онтологии и применения полученных результатов для решения задачи структурирования комплекса научных, технических и технологических знаний для эффективного поиска информации по указанному направлению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Технологии и операции управления онтологическими ресурсами на примере нефтедобывающей области»

Наука к Образование

МГТУ им. Н.Э. Баумана

Сетевое научное издание

ISSN 1994-0408

УДК 378, 004.4:665.6 Технологии и операции управления онтологическими ресурсами на примере нефтедобывающей области

Мартынов В. В.1'*, Скуратов А. К.2, [email protected]

Филосова Е. И.1, Фандрова Л. П.1, Шаронова Ю. В.1

1 Уфимский государственный авиационный технический

университет , Уфа, Россия 2 ФГБНУ «Дирекция научно-технических программ»,

Москва, Россия

В рамках международного научного конгресса "Наука и инженерное образование. SEE-2016", II международная научно-методическая конференция «Управление качеством инженерного образования. Возможности вузов и потребности промышленности» (23-25 июня 2016 г., МГТУ им. Н.Э. Баумана, Москва, Россия).

Рассмотрены технологии и операции разработки и управления онтологическими ресурсами. Приведены практические примеры создания и использования онтологических баз знаний в области недропользования на примере нефтедобывающей отрасли. Представлена технология поэтапного создания онтологии и применения полученных результатов для решения задачи структурирования комплекса научных, технических и технологических знаний для эффективного поиска информации по указанному направлению.

Ключевые слова: база знаний, онтология, нефтедобыча, информационная технология

Введение

Процесс построения и использования онтологий в компьютерных и технических науках развивается уже около трех десятилетий. Онтология - это система, элементами которой являются понятия (концепты) и набор утверждений об этих понятиях, связывающих их в семантический сетевой граф [1]. Главной задачей моделей, построенных на основе онтологий, является дальнейшее развитие процедуры навигации по информационным ресурсам. На протяжении всего немалого для информационных технологий срока становится все яснее понимание эффективности усилий разработчиков этих систем. Эффект от внедрения и использования онтологических баз знаний (БЗ) уже не вызывает сомнения, и сферы их применения ежегодно расширяются. Например, в больших корпоративных информационных системах онтологии могут использоваться в целях унификации документов и нормативно-справочной информации корпорации [2, 3]. На основе онтологического

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2016. № 07. С. 151-159.

Представлена в редакцию: 27.07.2016 Исправлена: 07.09.2016

© МГТУ им. Н.Э. Баумана

подхода к организации терминов происходит сбор информации для ввода в базу и хранилище данных корпорации с целью экономического анализа данных работы корпорации и особенно важен для подготовки специалистов инженерного профиля. Онтологии создаются для того, чтобы различные люди использовали общий язык, который позволяет достичь общего понимания по тому или иному вопросу. Она описывает концепты области, а также взаимосвязи между ними. Онтологическая система как продукт интеллектуальной деятельности экспертов предметной области (ПрО) и разработчиков программного обеспечения создается для решения широкого круга задач пользователей на всех уровнях иерархии управления организацией.

Несмотря на все успехи, процесс развития и внедрения онтотехнологий проходит с явным замедлением по сравнению с другими информационными технологиями [4]. Причины такого замедления кроются в сложности объединения знаний эксперта ПрО и специалиста по проектированию онтологий в одном лице. Действительно, онтология, адекватная ПрО, создается на основе знаний эксперта, владеющего ее терминологией и понимающего взаимосвязи и взаимозависимости описываемых явлений, процессов, понятий, событий, сущностей этой ПрО. Однако технически реализовать данный проект под силу специалистам в области проектирования, программирования и информационных технологий, владеющим соответствующими методами, приемами и языками.

Целью данной статьи является публикация некоторых результатов проделанной работы по структуризации, анализу и представлению в виде онтологии комплекса научных, технических и технологических знаний в области недропользования на примере нефтедобычи для популяризации данного направления и расширения представлений читателей о технологиях создания онтологических баз знаний.

Методика управления онтологическими ресурсами

Несомненно, вопросы управления БЗ концептуально относятся к вопросам развития и управления информационными технологиями. В процессе управления онтологическими ресурсами выделяются следующие технологии:

- технология анализа данных, включаемых в онтологию;

- технология описания объектной модели ресурсов;

- технология построения онтологии;

- технология хранения;

- технология изменения и развития;

- технология использования.

Рассмотрим описание онтологий с точки зрения выполняемых над ними операций и получаемых результатов [5]. К операциям по редактированию онтологических ресурсов относятся следующие: создание новой онтологии, ее расширение, редактирование, поддержка, изменение, просмотр, сохранение и выпуск. Остановимся на рассмотрении некоторых из них.

Изменение - целью является определение того, что должно быть изменено при внесении изменений в часть онтологии. Данная операция, как и поддержка, требует наличия средств поддержки целостности и версионности онтологий при изменениях и постепенном накоплении онтологий. Желание ускорить разработку и сосредоточиться только на актуальных вопросах реализации зачастую приводят к ряду допущений, которые вкупе с изменениями во внутренней или внешней среде предприятия делают со временем БЗ ПрО неактуальной. Проблемы появления неполноты и неадекватности данных решаются за счет дальнейшего расширения, поддержки и изменения системы.

Выпуск - предоставление свободного доступа к онтологии.

Алгебра онтологий включает ряд операций интеграции онтологий, основанных на принципах алгебры множеств. Результаты алгебраических операций могут потребовать редактирования полученных онтологий. Их цели: пересечение - создание онтологии-подмножества, состоящей из совместно используемых компонент; объединение - создание непротиворечивой новой онтологии на основе объединения исходных терминов, для которых не было найдено пересечения, и списков терминов, являющихся результатом операции пересечения; отличие - создание несимметричных подмножеств, содержащих список терминов, которые не вошли в онтологию в результате операций «пересечение» и «объединение»; отображение - преобразования внутри онтологии, позволяющие проверять большее количество терминов на совпадение и использовать их для определения целесообразных пересечений.

Операции по созданию новой онтологии из существующих позволяют, используя модульный принцип, формировать сложные онтологии. Поддержка многоверсионности, тестирования и отладка онтологий - основные принципы коллективной работы по созданию сложных онтологий. В онтологиях представляются некоторые части многогранного в своих проявлениях и ситуациях мира. Кроме того, онтология строится с точки зрения интересов и понимания данного фрагмента экспертами ПрО. Все эти объективные причины часто приводят к несовместимости между собой онтологий из одной проблемной области, собранных в одной библиотеке.

Для создания новой онтологии из существующих используются операции:

- отсечение - удаление терминов, которые не являются необходимыми для данной области;

- выборка - отбор части исходной онтологии с целью применения ее в новой;

- извлечение - включение в текущую модель терминов, выбранных из более широкой исходной онтологии;

- приращение - извлечение и включение отобранных частей из независимо разработанных онтологий;

- соединение - слияние двух независимо разработанных баз знаний с учетом конфликтов между именами понятий и структурным представлением;

- выравнивание - установка связей между онтологиями;

- интеграция - построение родовой онтологии путем объединения имеющихся онто-логий или их частей.

Операции агрегирования/декомпозиции онтологических ресурсов преследуют цели модуляризации или декомпозиции, сбора и составления. Целями этих операций являются:

- модуляризация или декомпозиция - создание основы для разработки базы знаний и логического вывода через разбиение онтологии на понятийные разделы;

- сбор - возможность составить собрать из существующих в библиотеке онтологий (или их частей) новую;

- составление - процесс создания и соединения БЗ Про путем выбора подходящих моделей из библиотеки онтологий.

К операциям проверки онтологий можно отнести ее оценку (проверку на соответствие назначению), сравнение (позволяет установить степень соответствия: совпадающие, соответствующие, конфликтующие или противоречивые) и проверку (на полноту и непротиворечивость).

Операции, выполняемые интеллектуальными агентами, связаны с определением терминологии, поиском онтологии для совместного использования, поиском и проверкой эквивалентности онтологий и переводом терминологии, определенной для одной онтологии, в термины другой.

Операция Запрос имеет целью формирование запросов к данной онтологии из удаленных приложений. В общем случае может использоваться либо специальный язык для формирования новых запросов, либо комплект заранее сформированных и представленных пользователям запросов. На скорость выполнения операции влияет размер онтологии и частота ее выполнения в приложении, что, в свою очередь, отражается на скорости работы программы, в которой хранится онтологическая база данных.

Операции по преобразованию обеспечивают перестройку отношений в функции, перевод онтологий для других языков и формализмов, создание таксономии.

Пример построения онтологии ПрО «Нефтедобыча»

Разработка онтологии предполагает поэтапную работу над контентом исследуемой ПрО. Реализация БЗ выполнена в редакторе онтологий Protege 4.3, являющемся инструментом для построения (создания, редактирования и просмотра) онтологий прикладной области.

Приведем простейший алгоритм онтологического инжиниринга:

- определяются термины домена и отношения между ними;

- выделяются концепты домена - базовые понятия данной предметной области, определяется "высота дерева онтологий" - количество уровней абстракции;

- выделенные концепты распределяются по уровням;

- строятся связи между концептами - определяются отношения и взаимодействия базовых понятий, атрибуты и свойства классов (подкласс-суперкласс), задаются ограничения на их значения. Затем происходит определение индивидов или экземпляров и придание значений атрибутам и свойствам;

- проводятся консультации с различными специалистами для исключения противоречий и неточностей.

Начальным этапом проекта является определение границ рассматриваемой ПрО, которые в дальнейшем повлияют на круг задач, решаемых с помощью создаваемой БЗ. Для этого стоит определить цели разработки и ее потенциальных пользователей. Для онтоло-гий характерна следующая особенность: существуют онтологии верхнего уровня, понимаемые как самые общие онтологии для всех (или нескольких) областей знаний. Например, отрасль промышленности «Нефтедобыча» наряду с некоторыми другими, указанными на рис. 1, относится к процессам добычи полезных ископаемых.

При этом для этих отраслей характерны схожесть технологий и методов добычи, что приводит к общей или близкой терминологии. Очевидно, что концепты подотраслей "Добыча полезных ископаемых", "Геология, палеонтология, минералогия" и "Строительство подземных сооружений", приведенных для примера на рис. 1, и их общих онтологий также будут пересекаться, т.к. они относятся к понятиям единой отрасли "Недропользование".

Рис. 1. Демонстрация многоуровневости онтологических ресурсов

Процесс нефтедобычи является достаточно сложным технологическим процессом. Соответственно его понятийный аппарат и терминология включают обширный информационный ресурс. Следующим этапом построения онтологии является выявление источников терминов и их определений. В первую очередь был выявлен список открытых источников контента, соответствующего рассматриваемой тематике. К ним была отнесена фундаментальная литература, наиболее часто используемая при обучении студентов нефтяных специальностей вузов и техникумов, специальная литература, справочники и стан-

дарты в области нефтедобычи, а также статьи в популярных периодических изданиях и доклады на конференциях. На данном этапе развития информационных технологий существуют методы и средства, позволяющие аннотировать информацию из разных источников. Это ручные и автоматические методики обработки контента на естественном языке с учетом различных особенностей обрабатываемых текстов [6, 7 и др.]. Известно также применение специализированных информационных систем и комплексов, предназначенных для автоматического сбора, структурирования и первичной обработки информации из файлов различных форматов [8, 9 и др.]. Применяется метод построения семантической сети, содержащей все полнозначные слова и словосочетания, упоминавшийся в тексте -наименования объектов, действий и признаков, связанные различными типами синтакти-ко-семантических связей.

Технология построения онтологии, с одной стороны, является иерархической вследствие существования определенной соподчиненности этапов и операций, использующих результаты предыдущих. С другой стороны - относится к спиральной модели разработки программных продуктов, где результатом полного оборота спирали является очередная версия онтологии. Каждый оборот включает ряд операций, также носящих итерационный характер. На каждом локальном витке происходит проверка результативности выполняемых процессов на полноту рассматриваемой ПрО и возможное развитие предыдущих шагов на следующем витке спирали.

Для поиска концептов в области нефтедобычи и отбора базисных понятий произведен анализ структуры ПрО и его понятийного аппарата. Далее проходит систематизация и группировка отобранных терминов и создается иерархическая структура выделенных предметных знаний области нефтедобычи в виде многоуровневого каталогизатора.

Данная онтология, как база знаний, основана на дескриптивной логике DL и представляет собой следующее множество: Odl = < P, S, OG, A, PR, T, I >, где P - множество понятий онтологии, S - множество свойств, OG - множество ограничений, А - множество аксиом, PR - множество правил вывода, T - множество теорем, I - множество экземпляров онтологии [10].

Пересечение разных методологий, технологий и инструментария при формировании онтологического ресурса породило и разнообразную терминологию. Онтология на языке OWL состоит из Экземпляров, Свойств и Классов, которые приблизительно соответствуют для фреймового Protege Индивидуумам, Слотам и Классам [11]. Понятия (концепты) предметной области оформляются в редакторе онтологий Protege 4.3 как Классы. В рамках данной разработки классами являются основные сущности и процессы области нефтедобычи: "Поиск или разведка нефти", "Способы добычи нефти", "Параметры нефтяных месторождений" и др. Классы могут включать в себя нижнеуровневые компоненты онтологии - экземпляры. К примеру, в данной разработке класс "Год открытия месторождения" имеет экземпляры, которые реализованы как конкретные годы открытия месторождений.

Помимо классов, в онтологиях определяются их свойства и ограничения, накладываемые на свойства. Понятие "свойства" приблизительно равно по значению слоту в Protege.

Оно также известно как roles (роли) в описании логики и relations (отношения) в UML и в других предметно-ориентированных представлениях. В GRAIL и в некоторых других формализмах они называются attributes (атрибуты) [12]. Для класса "Список месторождений", например, характерны следующие свойства: имеет глубину залегания (hasGlubinsZalegania); имеет год открытия (hasGodOtkritia); имеет округ (hasOkrug); имеет оператора разработки (hasOperator) и т.д. Ограничения свойств (их также называют фасетами или фацетами) описывают число значений (мощность), тип значения и другие характеристики значений, которые может принимать свойство. Например, hasGodOtkritia является свойством единичной мощности (месторождение может иметь только один год открытия).

Следующий этап разработки онтологии - это ввод утверждений ПрО в редакторе в виде аксиом. Утверждения, выделенные в предметной области, соединяют два класса или экземпляра вместе и образуют отношение объектов. В OWL есть богатый набор операторов - например, пересечение, объединение и отрицание. Составной концепт может быть постепенно создан из определений более простых концептов. Кроме того, логическая модель делает возможным использование механизма "reasoner", который может проверять, являются ли все утверждения и определения в онтологии взаимно согласующимися и также распознавать, под какие определения подходят концепты. Пример отношений предметной области нефтедобыча: "Приобское месторождение относится к месторождениям нефтегазоносного бассейна Западная Сибирь"; "Месторождение Дацин открыто в 1959 году" и др. На рисунке 2 показаны вхождения концепта "Самотлорское" в онтологию (верхняя часть рисунка) и аксиомы, связывающие его с концептами "Глубина залегания", "Нефтегазоносный бассейн", "Запасы нефти", "Год открытия".

Рис. 2. Развернутая информация о Самотлорском месторождении нефти

В Protege 4.3 существует возможность определения нескольких видов ограничений со служебными словами max, min, some, value, exactly, only, self, позволяющими строить разнообразные аксиомы. Например, утверждение "Южно-Ляминское месторождение имеет максимальную глубину залегания 2930 м и минимальную глубину 2895 м" формируется с помощью ограничений "max" и "min" на свойство "hasGlubinsZalegania".

Важнейшей задачей управления данными является быстрый и эффективный поиск нужного контента. В разработанной в редакторе Protege 4.3 онтологии она решается с помощью построения онтологических графов (OntoGraf), созданием DL и SparQL запросов. Разработанные элементы онтологии (введенные концепты, их связи, заданные свойства и аксиомы) позволяют получать из совокупности введенной информации т.н. "неявные" знания. Выявление "неявных" знаний означает, что пользователь может не "догадываться" о наличии тех или иных связей между элементами контента базы знаний. По сути, этот факт определяет основное отличие поиска данных в заранее заданных структурах данных, таких как база данных, от поиска в базах знаний.

Заключение

В статье приведены некоторые теоретические концепции и практические примеры создания и использования онтологических БЗ на примере области нефтедобычи. Сформированные алгоритмы формализации и представления знаний позволяют расширить представления разработчиков о моделировании онтологии, основанной на представлении концептов и зависимостей между ними, на базе онторедактора Protege 4.3. Начиная с создания онтологии на примере нефтедобычи в дальнейшем подобная база знаний может стать ориентиром при построении знаний в предметной области недропользование, а для заинтересованных лиц «потребителей» инженерных и научно-технических кадров - принципиально новым с точки зрения своих возможностей источником информации. Использование рассмотренных информационных технологий расширяет возможности подготовки инженеров к будущей профессиональной деятельности.

Список литературы

[1]. Gruber T.R. A Translation Approach to Portable Ontology Specifications. // Knowledge Acquisition. 1993. Vol. 5. Is. 2. P. 199-220. Режим доступа: http://tomgruber.org/writing/ontolingua-kaj- 1993.htm (дата обращения: 16.06.16)

[2]. Бениаминов Е.М. Некоторые проблемы широкого внедрения онтологий в IT и направления их решений. // Труды Симпозиума "Онтологическое моделирование". М.: ИПИ РАН. 2008. С. 71-82. Режим доступа: http://www.nsu.ru/xmlui/handle/nsu/8963 (дата обращения: 16.06.16)

[3]. Martynov V.V., Filosova E.I., Sharonova J.V., Shiryaev O.V. The technology of ontolog-ical analysis in educational activities. // Proceedings of the 17th International Workshop on Computer Science and Information Technologies (CSIT'2015). (September 22 - 26, 2015 Rome, Italy). 2015. Vol.1. P. 173-178.

[4]. Martynov V.V., Shiryaev O.V. The ontological approach to the development of the training undergraduate's information support system. // Proceedings of the 16th International Workshop on Computer Science and Information Technologies (CSIT'2014). (September 17-22, 2014, Sheffield, England). 2014. Vol. 1. P. 190-194.

[5]. Chaudhri V.K., Farquhar A., Fikes R., Karp P.D., Rice J.P. Open Knowledge Base Connectivity 2.0.3. Research Gate. 1998. Режим доступа: https://www.researchgate.net/publication/237792259_Open_Knowledge_Base_Connectivity _2031_-_Proposed (дата обращения: 16.06.16)

[6]. Токмаков Д.И. Использование средств языка RDF в аннотировании интернет-ресурсов. // Информационные ресурсы России. 2007. № 5 (99). С. 62-68.

[7]. Ле Хоай, Тузовский А.Ф. Семантическое аннотирование документов в электронных библиотеках. // Известия Томского политехнического университета. 2013. Том 322. № 5. С. 157-164.

[8]. Андреев А.М., Березкин Д.В., Симаков К.В. Модель извлечения фактов из естественно-языковых текстов и метод ее обучения. // Труды Восьмой Всероссийской научной конференции (RCDL'2006). Ярославский государственный университет им. П.Г. Демидова. 2006. (Суздаль, 17-19 октября 2006 г.). // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. 2006. С. 252- 261.

[9]. Овдей О.М., Проскудина Г.Ю., Обзор инструментов инженерии онтологий. // Труды Шестой Всероссийской научной конференции (RCDL'2004). (Пущино, Россия, ПНЦ РАН, 29 сентября - 1 октября, 2004). // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. 2004. Том. 7. № 4. С. 1-16. Режим доступа: http://www.elbib.ru/content/journal/2004/200404/op/op.ru.html (дата обращения 24.04.2014).

[10]. Мартынов В.В., Шаронова Ю.В., Фандрова Л.П., Филосова Е.И. Разработка технологии онтологического анализа для описания процессов нефтедобычи. // Вестник УГАТУ. 2013. Том. 17. № 5 (58). С. 188-194.

[11]. Web Ontology Language (OWL) Guide Version 1.0. // W3C. 2002. Режим доступа: https://www.w3.org/TR/2002/WD-owl-guide-20021104/ (дата обращения 24.04.2014).

[12]. Horridge M., Jupp S., Moulton G., Rector A., Stevens R., Wroe C. A Practical Guide To Building OWL Ontologies Using Protege 4 and CO-ODE Tools Edition 1.2. // The University Of Manchester. 2009. P. 10-33.

i Надоели баннеры? Вы всегда можете отключить рекламу.