Онтологический подход к представлению семантики в информационных системах

Федотов Владислав Харитонович; Новожилова Нина Васильевна

В условиях массового проведения химической прополки существенно возрастет роль повышения культуры земледелия и фитосанитарной функции севооборота в борьбе сорняками. Гербициды не могут заменить севооборот.

Борьба с сорной растительностью - это важнейший резерв повышения эффективности производственного и экономического потенциала земледелия. Поэтому в целях уменьшения размера упущенной выгоды необходимо:

- повышать культуру земледелия;

- освоить введенные в хозяйствах севообороты не менее чем на 89-94%;

- мотивировать производство экологически чистой продукции на основе применения стимулирующих реализационных рыночных (закупочных) цен;

- через информационно-консультационные службы способствовать внедрению в практику земледелия опыта передовых предприятий в области производства экологически чистой сельскохозяйственной продукции.

Все это позволило бы на 10-15% сократить объемы проведения химической прополки посевов, расширить производство качественной продукции, гарантирующей экологическую и генетическую безопасность каждого жителя нашей страны.

Литература

1. Захаренко В. А. Химическая защита растений в России в конце XX - начале XXI века / В. А. Захаренко И Защита и карантин растений. 2007. № 12. С. 6-10.

2. Инновационная деятельность в аграрном секторе экономики России / под ред. И.Г. Ушачева, И.Т. Трубили-на, Е.С. Оглоблина, И.С. Санду. М.: КолосС, 2007. С. 636.

3. Энгельс Ф. Диалектика природы / Ф. Энгельс. М.: Политиздат, 1987. С. 153.

ФЕДОРОВА НАТАЛИЯ ВАЛЕНТИНОВНА - доцент, докторант, Всероссийский научно-исследователь-ский институт экономики, труда и управления в сельском хозяйстве, Россия, Москва (vrietush @ ccas.ru).

FEDOROVA NATALIA VALENTINOVNA - assistant professor, doctoral candidate, All-Russian Research Scientist Institute of Economics, Labor and Management in Agriculture, Russia, Moscow.

УДК 004.9:33

B.X. ФЕДОТОВ, H.B. НОВОЖИЛОВА

ОНТОЛОГИЧЕСКИЙ ПОДХОД К ПРЕДСТАВЛЕНИЮ СЕМАНТИКИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ*

Ключевые слова: экономические информационные системы, моделирование знаний, сетевые модели представления знаний, онтологические системы, семантические отношения.

Онтологический анализ вошел в стандарт IDEF5, который сегодня является основным средством моделирования бизнес-процессов. Онтологическая система является для онтологии своеобразной внешней средой в пространстве онтологических структур. Онтологическая система способна к большей упорядоченности и интеллектуальности. Модели представления знаний в виде сетей объектов обладают высокой семантической выразительностью и могут применяться в качестве основы при конструировании баз знаний для интеллектуальных информационных систем.

V.Kh. FEDOTOV, N.V. NOVOZHILOVA THE ONTOLOGICAL APPROACH TO SEMANTICS REPRESENTATION IN INFORMATION SYSTEMS

Key words: economic information systems, modelling of knowledge, network models of knowledge representation, ontologie systems, semantic relations.

The ontologie analysis was Included Into standard IDEF5 which is the basic simular of business processes today. The ontologie system is an original environment In epy space of ontologie structures for Ontology. The ontologie system is capable for bigger orderliness and intelfoctuality. The model of knowledge representation in the form of object network possess high semantic expressiveness and can be applied as a basis in knowfodge bases designing for intellectual Informathn systems.

Разновидностями сетевых моделей являются модели «сущность-связь» (ER), семантические сети (СС), фреймы (СФ), онтологии (СО) и др.

’ Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований (проект № 08-07-97009р_Поволжье_а «Исследование и оптимизация подходов к разработке масштабируемых, настраиваемых и адаптивных прикладных производственных информационных систем»).

Простейшая семантическая сеть представляет знания в виде тройки «объект-атрибут-значение», выражающей тернарное отношение или пару связанных бинарных отношений «объект-атрибут» и «атрибут-значение». На практике для моделирования знаний даже об одном объекте предметной области необходимо хранить значительное число «троек».

Реализация СС предполагает использование универсальных типов отношений - «класс-объект класса», «атрибут-значение атрибута» и др. Такие отношения позволяют структурировать знания.

Классификация объектов СС в литературе понимается очень широко - абстрактные понятия, физические предметы, свойства предметов, процессы и др. Такой подход обладает высокой общностью, но, на наш взгляд, нецелесообразен. Более естественно считать объектами только физические или абстрактные понятия, свойства объектов рассматривать как отношения, а процессы как динамические сети.

В литературе встречаются любые типы отношений разной размерности -лингвистические, теоретико-множественные, логические и др. Они подразделяются на множественные («множество-подмножество», «целое-часть»), количественные (больше, меньше, равно), пространственные (дальше, ближе, над, под), временные (раньше, позже), атрибутивные (иметь атрибут, иметь значение), логические (и, или, не), лингвистические (сказуемое, подлежащее,... ) и функциональные (двигаться, влиять,...) отношения (являться элементом класса) и др. Огромное число типов отношений, несомненно, присутствует в окружающем нас мире. Общим недостатком приводимых классификаций является неполнота, обусловленная выбором наиболее распространенных отношений. Для обеспечения приемлемой полноты описания предметной области, по-видимому, требуются сотни и тысячи типов отношений и эффективные классификационные признаки.

Наиболее общей моделью «здравого смысла» являются семантические сети или в общем случае - сетевые модели представления знаний (МПЗ). Они применяются при разработке систем понимания естественного языка, экспертных и поисковых систем, новых технологий Интернет и конструирования интеллектуальных кибернетических устройств следующего поколения. В работе [3] нами развит формализованный теоретико-множественный подход к построению сетевых МПЗ. Сетевая МПЗ сконструирована в виде сетей объектов (СО) и именованных сетей объектов (ИСО), представляющих собой формальные модели семантических сетей. Исследованы некоторые общие свойства этих сетей. Введены операции над сетями, доказано, что сети объектов образуют полукольцо относительно операций сложения и умножения сетей. Показано, что базы знаний на основе сетевых МПЗ обладают достаточной общностью для описания естественных объектов и позволяют интерпретировать омонимическую и синонимическую неоднозначность. Сети объектов позволяют оперировать со знаниями как с формальной системой. Это позволяет внести в базу правил важное дополнительное общее правило, предназначенное для контроля корректности других правил и базы знаний в целом. Рассмотрены вопросы представления нечетких знаний и полноты сетевых МПЗ. Введена конструктивная мера полноты модели и доказан ряд утверждений о неполноте сетевых МПЗ. Дана классификация бинарных отношений с точки зрения семантического наполнения и реализации в ИС.

Понятие онтологии лежит в основе познания, и часто его понимают как учение о наиболее общих законах бытия. Качественное отличие онтологической системы от онтологии состоит в том, что онтологическая система является информационной структурой более высокого порядка. Онтологическая система является для онтологии своеобразной внешней средой в пространстве онтологических структур. В соответствии с эвристическими принципами (свойствами энтропии и др.) онтологическая система способна к большей упорядоченности и интеллектуальности.

Под определение онтологии подпадают многие понятия: семантические сети, логико-лингвистическое и ситуационное управление, иерархия классов в объект-но-ориентированном проектировании и др. Однако это определение не является достаточно конструктивным. Наибольший интерес представляет собой третья компонента онтологии - операции над терминами и отношениями, или функции интерпретации. Будем называть такие функции онтологическими (семантическими, именованными), так как именно они несут основную нагрузку по семантике конкретной предметной области. Исследование этих функций проведено нами в работах [3 и др.]. В нотации сети объектов мы обозначали их через ЦМ,Я). Рассмотрим, как они соотносятся с понятием сети объектов и в чем состоит качественное отличие онтологической сети от семантической. Начнем с примеров.

Примеры. 1. Пусть множество объектов состоит из четырех слов М = {т1, /772, /773, /774} = {Город, Организация, Чебоксары, Университет}. Единственный тип отношений Я? = {г1} = {«иметь значение»} и онтологическая функция ЦМ,И): /771 —> г1 —>/773, /772—> г1 —>/7?4 - задает интерпретацию элементов М с помощью выбранного отношения. Построим сеть объектов 5 = <Город «имеет значение» Чебоксары, Организация «имеет значение» Университет>. Формальная запись этой сети 5=5(М,Р!,ЦМ,И)) = <М = {т/\,т2,тЗ,т4}, Я? = {г1}, I. = {|/13(г1) | = |/24(г1) | = 1>. В ее составе присутствует стандартная семантическая тройка «объект-атрибут-значение», в данном случае «Организация-название-Университет». Можно ли такую сеть рассматривать как онтологию?

2. Рассмотрим вновь предметную область - экономику. Атрибуты экономических объектов - форма собственности, численность, юридический адрес и т.д. Типичные атрибуты являются специфическим отношением (обладать свойством). Значения атрибутов - акционерный, частный, малый, крупный и т.д. Пусть в состав крупного акционерного Предприятия_1 (Москва, Ленинский проспект, 1) входит два дочерних -Предприятие_2 (Чебоксары, Ленина, 15) и Предприятие_3 (адрес неизвестен). Другой информации нет. Выберем объекты М = {Предприятие_1, Предприятие_2, Предпри-ятие_3, Москва, Чебоксары, Ленинский проспект, улица Ленина, дом_1, дом_15}, атрибуты Р = {акционерный, дочерний, малое, среднее, крупное} и типы отношений Я? = {включает, иметь форму собственности, иметь численность, иметь юридический адрес}, /. = {Предприятие_1 «включает» {Предприятие_2, Предприятие_3}, «имеет форму собственности» акционерное, «имеет численность» крупное, «имеет юридический адрес» Москва, «находится на» Ленинском проспекте, «находиться в» дом_1, Предприятие_2 «имеет форму собственности» дочернее, «имеет численность» малое, «имеет юридический адрес» Чебоксары, «находится на» улице Ленина, «находиться в» дом_15))}. Получим сеть объектов Б = <М,И,1> с иерархической структурой.

В приведенных примерах имеется иерархическая составляющая, свойственная онтологическим структурам. Однако нет идентифицирующей компоненты, соответствующей представлениям о иерархическом тезаурусе. Еще одна проблема связана с однозначностью представления информации в базе знаний ИС. Для интерпретации этих важных онтологических свойств мы вводим понятие именованной сети объектов. Оно опирается на следующие гипотезы.

1. Объекты М={тЦ, где ¡=/\,...,п в соответствии с теоретико-множе-ственной концепцией предполагаются различными, т.е. в сети не допускаются одинаковые объекты. Если на столе находятся две ложки, то они рассматриваются в сети как разные - ложка-1 и ложка-2. Такой подход соответствует физическим и философским представлениям о том, что двух абсолютно одинаковых объектов в реальном мире не существует.

2. Зачастую различные объекты реального мира имеют одинаковые имена (омонимия, полисемия). Так, имя Иванов Иван Иванович может принадлежать разным людям, т.е. относится к некоторой группе объектов. Соответственно, базы знаний также должны допускать появление неоднозначных элементов и правильно классифицировать их.

3. Для некоторых объектов реального мира используются различные обозначения (синонимия). Так слова «ребенок», «малыш», «дитя» и др. близки по смыслу - обладают одинаковой семантикой. Базы знаний должны идентифицировать объекты-синонимы.

Какими свойствами должны обладать сетевые МПЗ, и, в частности, объекты и сети объектов, для адекватного отражения семантических неоднозначностей? Возможным решением этой проблемы является дальнейшая семантическая детализация понятия объекта.

Детализация объекта в рамках МПЗ предполагает учет присущих ему дополнительных отношений и конструирование необходимых для этого структур. Представим объект в виде сети, включающей главное имя объекта, альтернативные имена и связи между главным именем и альтернативными именами. Назовем такие объекты именованными.

Именованный объект - это сеть объектов SU = (MU, Ru, Lu), где Ми = uuWu, здесь ueU - главное имя именованного объекта, Wu= W\U, Lu - множество отношений типов Ru между и и остальными элементами множества Wu. Здесь А - конечное множество символов (алфавит); W- множество всех слов на А\ U - конечное множество главных имен (LZ-имен) на А.

В именованном объекте присутствуют одно главное имя и все его отношения с остальными объектами сети. Он имеет структуру одноуровневой сети - дерева, корнем которого является главное имя объекта. Использование модели именованной сети позволяет однозначно представить различные неоднозначности окружающего нас мира. Под именованной сетью объектов будем понимать SU = uSu, где Su- именованный объект, и = 1, ..., | и\.

Пример. Пусть имеются два Ивановых Ивана Ивановича, один из которых проживает в Москве, а другой - в Чебоксарах. Предположим, что допускается и латинская запись в виде Ivanov Ivan Ivanovich. В приведенных данных имеется семантическая неоднозначность. Омонимия присутствует в виде одинаковых фамилии, имени и отчества у двух различных объектов. Синонимия присутствует в виде возможности написания одной и той же фамилии на кириллице или латинице.

Представим эту информацию в виде именованной сети SU из 2 именованных объектов Si и S2: алфавит А = {A-Я, a-я, A-Z, a-z, 0-9}, здесь A-Я означает от А до Я и т.д.; множество уникальных имен U = { 1,2}; множество слов И/ = {1, 2, Иванов Иван Иванович, Ivanov Ivan Ivanovich, Москва, Чебоксары}; Wu= {Иванов Иван Иванович, Ivanov Ivan Ivanovich, Москва, Чебоксары}. Тогда ¿1 = {M-i, R1, Ц}, где Mi = {1, Иванов Иван Иванович, Ivanov Ivan Ivanovich, Москва, Чебоксары}, R-i == {«иметь ФИО», «жить в городе»}, Ц = {1 «иметь ФИО» Иванов Иван Иванович, 1 «иметь ФИО» Ivanov Ivan Ivanovich, 1 «жить в городе» Москва}. И S2 = {М2, R2, L2}, где М2 = {2, Иванов Иван Иванович, Ivanov Ivan Ivanovich, Москва, Чебоксары}, R2 == {«иметь ФИО», «жить в городе»}, /_2 = {2 «иметь ФИО» Иванов Иван Иванович, 2 «иметь ФИО» Ivanov Ivan Ivanovich, 2 «жить в городе» Чебоксары}.

Тогда вся именованная сеть: SU = SiuS2 = (М, R, L), где М = {1, 2, Иванов Иван Иванович, Ivanov Ivan Ivanovich, Москва, Чебоксары}, R = {«иметь ФИО», «жить в городе»}, L = {1 «иметь ФИО» Иванов Иван Иванович, 1 «иметь ФИО» Ivanov Ivan Ivanovich, 1 «жить в городе» Москва, 2 «иметь ФИО» Иванов Иван Иванович, 2 «иметь ФИО» Ivanov Ivan Ivanovich, 2 «жить в городе» Чебоксары}.

Из приведенного примера видно, что детализация объектов с помощью механизма именованной сети позволяет корректно различать синонимы и омонимы, преодолеть возможную семантическую неоднозначность и адекватно представить информацию об объектах реального мира в базе знаний информационной системы.

На основе приведенного примера можно сформулируем следующее утверждение - МПЗ в виде именованной сети объектов позволяет однозначно представить любое конечное число неоднозначностей (омонимов и синонимов) в информации.

Как уже отмечалось, основная проблема онтологии - разработка семантических отношений, позволяющих разработать адекватную онтологическую структуру для любой предметной области. Рассмотрим некоторые подходы к ее решению и наше видение этого вопроса.

Концепция семантического \Л/еЬ (www.semanticweb.org) представляет набор новых технологий, структурирующих и классифицирующих хранимые в сети Интернет данные. Основой этих технологий является понятие отношения как одного из наиболее общих средств описания связей между объектами. Число типов отношений в реальном мире неизвестно, но вполне вероятно, что очень велико. Можно только попытаться классифицировать их. Рассмотрим возможную классификацию отношений с точки зрения их реализации в искусственных системах и семантической нагрузки. Отношение можно представить набором слов некоторого языка.

По способу машинного анализа (вычисления) выделим отношения предикативные (вычисляются через встроенные предикаты, значения 0 или 1), лингвистические (вычисляются синтаксическим анализом предложения, значения 0 или 1), функциональные (вычисляются программно, значения 0 или 1). В зависимости от семантики выделим отношения вхождения (е, с, быть представителем класса, входить в множество, являться членом...), порядка (= ,<, >, >=, больше, меньше, больше равно,...), логические (л, V, и, или, не,...), свойства-атрибуты (быть синим, быть большим, иметь свойство X,...), пространственные (близко, над, за, ...), временные (раньше, позже ...), операционные (строить, делать, следить, ...). Их взаимосвязь представлена в табл. 1.

Таблица 1

Типы Виды отношений

отношении предикативные лингвистические функциональные

Вхождения (пример 5еА/) принадлежит, является членом Принадлежит(л1, А/)

Порядка < > >= = больше, меньше, ... Больше(х1 ,х2)

(пример 7>5) (семь больше пяти) (Болыие(7,5))

Логические лу,-1 и, или, не ЛогическоеИ(г1 ,г2)

Свойства-атрибуты ... быть синим, быть большим Синий(х1)

Пространственные ... близко, над,за Близко(х1 ,х2), Далеко(х1 ,х2)

Временные ... раньше, позже Раньше(Б1 ,в2), Позже($1 ,в2)

Операционные ... строить, делать, следить ВыполнятьРаботуО, Ждать(с?1 ,ц2)

В табл. 1 показано, что отношение одного типа может быть реализовано в разных видах: предикативном (7 > 5) , лингвистическом (семь больше пяти), функциональном - Больше(7, 5). Бинарные отношения можно записать в общей форме Р(тI, т} = {0, 1}, где Р - предикат или программа синтаксического разбора предложения или программно реализованная функция. В зависимости от значений предиката разделим отношения на: строго направленные, если Р(т,; т) = 1 и Р(т;, т,) = 0 , Р(т,; т,) = 0; нестрого направленные, если Р(т,, т]) = 1 и Р(т;, т,) = 0 , Р(т„ т,) = 1; ненаправленные, если Р(т,, т) = 1 и Р(т;, т,) = 1. Детали представлены в табл. 2.

Таблица 2

Тип отношения Р(т,, т/) Р(т„ т;) Р(т/, т;) к Пример

Строго направленное 1 0 0 гт —> т/ >

0 1 0 т/<— т/ <

Нестрого направленное 1 0 1 гт=->т1 >=

0 1 1 т/<—=т/ <=

Ненаправленное 1 1 1 гт—т/ =

1 1 0 гщ—* т/ находиться рядом

В сети объектов предполагаются только бинарные отношения. Отношения более высокого порядка (л-арные) могут быть выражены через бинарные. Попытаемся дать общую характеристику семантического отношения в рамках модели сетей объектов. Семантическое отношение - это отношение между объектами именованной мягкой сети объектов, задаваемое базовой тройкой онтологии «именованный ресурс-именованный атрибут-значение».

Таким образом, модель представления знаний в виде сетей объектов обладает высокой семантической выразительностью и может применяться в качестве основы при конструировании баз знаний для интеллектуальных информационных систем.

Классическая семантическая тройка «объект-атрибут-значение» в онтологическом варианте может быть записана как «именованный объект-именованный атрибут-значение». С точки зрения предикатных моделей такая конструкция представляет собой логическое утверждение «субъект-пред и кат-объект». Именованные элементы обеспечивают решение проблемы неоднозначности, о которой говорилось выше.

Основные задачи, которые могут успешно решаться на базе онтологий, включают: предоставление знаний для вывода информации, которая адекватна запросу пользователя; фильтрацию и классификацию информации; индексирование собранной информации; организацию общей терминологии, которой могут пользоваться для коммуникации программные агенты и пользователи.

Существующие сегодня онтологии созданы на основе общего описания понятий предметной области. На практике для каждого пользователя может понадобиться свой контекст представления терминов.

Идея семантического \Л/еЬ, суть которой сводится к дополнению \Л/еЬ-ресурсов некоторой классифицирующей информацией, пока еще не реализуема на практике. Для ее воплощения требуется разработка стандартного словаря терминов, процедур автоматической модификация документов, единых стандартов форматов данных и протоколов взаимодействия онтологий. Этот процесс только начался и потребуется, по-видимому, не менее десятка лет для достижения следующего рубежа на этом пути.

Литература

1. Новожилова Н.В. Интеллектуальные информационные системы / Н.В. Новожилова, В.Х. Федотов. Чебоксары: Изд-во Чуваш, ун-та, 2006,124 с.

2. Новожилова Н.В. Оценка интеллектуальной составляющей социально-экономических систем / Н.В. Новожилова, В.Х. Федотов И Открытое образование. 2009. № 6. С. 65-69.

3. Федотов В.Х. Стратегия конструирования интеллектуальных информационных систем / В.Х. Федотов, Н.В. Новожилова. Чебоксары: Изд-во Чуваш, ун-та, 2008. 216 с.

4. Федотов В.Х. О формализации моделей представления знаний в интеллектуальных информационных системах / В.Х. Федотов, Ю.В. Будников И Вестник Чувашского университета. 2006. № 2. С. 303-315.

ФЕДОТОВ ВЛАДИСЛАВ ХАРИТОНОВИЧ - кандидат химических наук, доцент кафедры информационных систем, Чувашский государственный университет, Россия, Чебоксары (fvh@inbox.ru).

FEDOTOV VLADISLAV KHARITONOVICH - candidate of chemical sciences, assistant professor, Chuvash State University, Russia, Cheboksary.

НОВОЖИЛОВА НИНА ВАСИЛЬЕВНА - кандидат экономических наук, доцент, заместитель руководителя Центра дополнительного образования, Чувашский государственный университет, Россия, Чебоксары (mallin@mail.ru).

NOVOZHILOVA NINA VASILYEVNA - candidate of economics sciences, assistant professor, deputy head of the Center of additional education, Chuvash State University, Russia, Cheboksary.

Онтологический подход к представлению семантики в информационных системах Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федотов Владислав Харитонович, Новожилова Нина Васильевна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федотов Владислав Харитонович, Новожилова Нина Васильевна

THE ONTOLOGICAL APPROACH TO SEMANTICS REPRESENTATION IN INFORMATION SYSTEMS

Текст научной работы на тему «Онтологический подход к представлению семантики в информационных системах»