Научная статья на тему 'Автоматизированное пополнение онтологии на основе знаний, извлеченных в процессе кластеризации'

Автоматизированное пополнение онтологии на основе знаний, извлеченных в процессе кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
74
25
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Минаков И. А.

В статье рассматривается задача автоматизированного пополнения онтологии новыми знаниями, дается обзор существующих методов, анализируются их сильные и слабые стороны и предлагается новый подход, основанный на кластеризации семантических дескрипторов текстовых документов. Обсуждаются особенности предлагаемого подхода, преимущества и перспективы развития

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматизированное пополнение онтологии на основе знаний, извлеченных в процессе кластеризации»

3. Использование при идентификации моделей безразмерных приведенных данных позволило получить более достоверные значимые коэффициенты масштабной эффективности А по сравнению с моделями, идентифицированными по натуральным показателям функционирования энергосистемы.

4. Установлен нерациональный ресурсозатратный характер функционирования энергопредприятий в исследуемый период.

В рассмотренных моделях не учитывался топливный ресурс, который является для энергопроизводства одним из основных. В дальнейшем для повышения эффективности моделирования предполагается усложнить структуру производственной функции, синтезировать и идентифицировать трехфакторные производственные функции.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1 Иванилов Ю Г!, Лотов А.В. Математические модели в экономике. М.: Наука, 1979. 304 с.

2 КяейнерГ.Б. Производственные функции: теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.

3 Лотов А. В. Введение в экономико-математическое моделирование. М.: Наука, 1984. 392 с.

4 Дшигенскцй Н.В., Ефимов А,П., Цапенко М.В., Гаврилова А.А. Системный анализ устойчивости и надежности функционирования энергетических систем в условиях структурной перестройки экономики И Надежность, энергетика и транспорт: Между нар, конф. Самара, 2003. С. 235-240.

УДК 004.382 И.А. Минаков

Институт проблем управления сложными системами РАН, г. Самара

АВТОМАТИЗИРОВАННОЕ ПОПОЛНЕНИЕ ОНТОЛОГИИ НА ОСНОВЕ ЗНАНИЙ, ИЗВЛЕЧЕННЫХ В ПРОЦЕССЕ КЛАСТЕРИЗАЦИИ

В статье рассматривается задача автоматизированного пополнения онтологии новыми знаниями, дается обзор существующих методов, анализируются их сильные и слабые стороны и предлагается новый подход, основанный на кластеризации семантических дескрипторов текстовых документов. Обсуждаются особенности предлагаемого подхода, преимущества и перспективы развития.

The paper discuss new approach to the task of ontology enrichment, basing on clustering ofsemantic desaiptors of text documents. It includes overview of existing methods, their advantages and disadvantages, discuss new approach, its features and potential.

Введение в проблему

В последние годы задача извлечения знаний стала одним из критических факторов успеха современных предприятий. Возрастающий уровень сложности систем, глобализация, виртуальные организации и ориентация на индивидуальных клиентов потребовали более оперативной, качественной и систематической работы со знанием - как внутри предприятия, так и при взаимодействии между корпорациями в режиме В2В.

Предлагаемые на рынке решения состоят в организации корпоративных знаний в единое пространство, позволяя интегрировать формальное и неформальное знания множества экспертов и обеспечивая механизмы доступа, поиска и одновременного использования различными экспертами для совместной и индивидуальной работы. Использование механизмов онтологий явилось удачным решением, позволяющим структурировать и формализовать знание и ориентированным на совместное использование и распространение знаний как внутри, так и между предприятиями. На сегодняшний день концепция онтологий являются основой большинства алгоритмов и методов в области извлечения знаний.

На текущий момент существуют два основных класса задач в рамках работы с онтологиями, которые необходимо решить для продуктивной работы с ними:

- как автоматизировать и тем самым упростить и ускорить процесс конструирования онтологий, используя различные методы искусственного интеллекта и data mining;

- как автоматизировать процесс проверки, пополнения и поддержки онтологии, чтобы она корректно отображала возникающие изменения в предметной области.

Проблемы и возможные пути решения для задач первого класса мы рассмотрели в статье

[I], в данной же статье рассмотрим основные проблемы в задачах поддержки онтологии, а точнее, в самой сложной и малоизученной их части - в задачах автоматизированного пополнения онтологии новыми знаниями.

Предыдущие исследования в области разработки и пополнения онтологий (ontology acquisition) сумели предложить множество различных методик и рекомендаций для разработки онтологии экспертом по инженерии знаний (см. [2] для детального обзора), но они очень мало фокусировались на автоматизации этого процесса. Эксперты вынуждены вырабатывать знание сами, основываясь на своем опыте и прошлых примерах, но не имея возможности использовать инструментальные средства для облегчения этой задачи. И только сейчас, в связи с развитием концепции Semantic Web, начали появляться первые работы в области автоматизации процесса приобретения знаний и автоматизированного пополнения онтологии.

Существует ряд типовых методов, обычно применяемых в задачах пополнения онтологии (включая кластеризацию, итеративные методы пополнения, ассоциативные правила, пополнение на основе шаблонов и пр.) [3-7], но, к сожалению, многие существующие методы машинного обучения плохо применимы в таких задачах из-за основного требования к самому представлению онтологии. Так как онтология, в конечном итоге, ориентирована на человека, то методы и результаты должны быть объяснимыми, понятными человеку и выражаться в символьном виде. Поэтому область применения таких известных методов, как С4.5, нейронные сети, генетические алгоритмы и ряд других эвристических методов (см. [8] для более подробного обзора подобных алгоритмов) весьма ограниченна.

Российские исследования в этой области в большинстве своем сосредоточены на этапе построения онтологии, поэтому в рамках задачи пополнения онтологии можно привести работы только несколько авторов, в том числе Г.С. Осипова [9], Н.Н. Леонтьевой [10], В.А. Тузова

[II], А.С. Нариньяни [12], где потенциально описываются возможности пополнения онтологии.

На текущий момент большинство методов пополнения онтологии находятся на ранних стадиях научного исследования, когда возможности применения и сценарии тестирования весьма ограниченны. Поэтому имеющиеся алгоритмы не лишены ряда недостатков, среди которых можно назвать следующие:

- большинство алгоритмов сосредоточено на нахождении новых терминов, неучтенных при построении онтологии. Другим типам изменения онтологии уделяется незаслуженно мало внимания;

- практически не решается задача проверки, уточнения и изменения онтологии по мере поступления новой информации, поскольку классические методы работают в предположении, что имеющиеся онтология корректна, непротиворечива и утверждена пользователем, что в реальной жизни далеко не всегда справедливо (данная задача обычно решается отдельно на этапе построения онтологии, но это не во всех случаях правильно, поскольку формально корректная онтология зачастую неверна по смыслу, что можно определить только на основе анализа семантики и вновь поступающих документов);

- корректность методов существенно зависит от «чистоты» тем предлагаемых документов. Возможности разделения на семантические группы и проведения независимого анализа для построения раздельных онтологий практически отсутствуют или задача возложена на человека-эксперта;

- многие алгоритмы, хотя формально их следует приписывать к разделу пополнения онтологии, по сути своей относятся все же к этапу начального построения онтологии, так как ориентированы исключительно на появление в новых документах незнакомых слов, которые надо распознать и дополнить в онтологии. В нашей терминологии это - задача построения онтологии, поскольку используются совершенно те же механизмы, что и на начальном этапе;

- в процессе анализа и пополнения онтологии мало учитывается семантика, большое внимание уделяется статистическим и эвристическим процедурам и набору шаблонов, при этом уже построенная онтология не всегда используется для анализа семантической корректности предлагаемых изменений. -

Для решения указанных проблем нами был предложен метод автоматизированного пополнения онтологии, позволяющий в интерактивном режиме анализировать, пополнять и уточнять онтологию на основе анализа поступающих текстов предметной области.

Отдельно следует отметить, что хотя идея кластеризации встречается достаточно часто в рассмотренных методах, она в основном фокусируется на проверке или уточнении иерархии объектов в онтологии и в незначительном числе случаев - для установления связи между объектами. Нам не встретилось алгоритмов, которые бы позволяли анализировать все зависимости в онтологии и универсальным образом обрабатывали все типы концептов, как это делается в предлагаемом в данной статье подходе. По нашему мнению, одной из основных причин этого является неспособность существующих методов кластеризации к анализу семантических сетей на основе онтологий [13].

Общая схема алгоритма автоматизированного пополнения онтологии

Модуль автоматизированного пополнения онтологии позволяет на основе найденных групп семантически близких дескрипторов «выращивать» новые связи между существующими в онтологии квантами знаний.

Пополнение и уточнение онтологии основано на гипотезе взаимодействия: «если концепты онтологии всегда встречаются вместе в определенной ситуации, значит, они семантически связаны между собой, причем характер связи определяется ситуацией». Методы модуля позволяют проанализировать получившуюся структуру и дескрипторы кластеров и выделить необнаруженные ранее зависимости между концептами онтологии (например, что два объекта в онтологии должны быть связаны неизвестным отношением, так как всегда встречаются вместе, или что два атрибута на самом деле являются дублем одного и того же свойства). Данный процесс может проходить как автономно, так и в интерактивном диалоге с пользователем.

Ниже мы приведем основные типы возможных комбинаций встречающихся в процессе кластеризации документов по семантическим дескрипторам, сейчас же опишем общую схему работы алгоритма.

Процедура нахождения подобных комбинаций следующая (см. рисунок).

Процедура автоматизированного пополнения онтологии

После того как документы получили семантические дескрипторы [14] и кластеризованы по семантической близости [13], наступает второй этап - происходит процесс кластеризации созданных ранее кластеров. Теперь мы анализируем те зависимости, по которым были объединены документы в различных группах. Подобный процесс позволяет подняться над уровнем документов и исследовать уже саму предметную область, анализируя те концепты, которые встречаются в различных семантически близких группах, и установить возможные взаимосвязи между ними. Естественно, что для корректных гипотез требуется большая выборка документов

исследуемой предметной области (простое эвристическое правило - анализируемых документов должно быть больше, чем концептов в исследуемой онтологии).

В результате по итогам анализа семантики кластеров для каждой группы (кластера кластеров) определяется ряд возможных пополнений \ изменений онтологии. При этом для каждого из вариантов изменения онтологии считается степень его корректности путем временного изменения онтологии и анализа числа корректных \ некорректных использований измененной части онтологии на имеющемся наборе документов. Все варианты и их степень корректности предлагаются пользователю, и в интерактивном режиме можно изменить и уточнить предложенные гипотезы для окончательного утверждения и пополнения онтологии.

Типы пополняемых знаний

Все комбинации, приведенные ниже, представляют собой часть семантического дескриптора кластеров. При этом отметим, что все комбинации определяются для текущей версии онтологии, на основе которой и были построены семантические дескрипторы документов. И именно наличие этих комбинаций позволяет уточнять и дополнять онтологию новыми знаниями.

Также следует отметить, что в процессе проверки выдвигаемых гипотез используется ряд механизмов, предложенных и используемых и на этапе начального построения онтологии (подробнее см. [1]), например, определение термина, проверка иерархии \ наследования объектов или определение отношений. Но здесь они уже применяются с позиции существующей онтологии и направлены на целевую проверку конкретной гипотезы, что позволяет улучшить качество результатов за счет сужения исследуемой области.

Возможные комбинации концептов онтологии, найденные в семантических дескрипторах кластеров, включают в себя:

- два несвязанных объекта;

- два объекта, связанные определенным отношением;

- два объекта, всегда связанные двумя конкретными отношениями;

- объект плюс другой объект, связанный определенным отношением с различными третьими объектами;

- объект связан отношениями одного и того же типа с двумя объектами разных типов;

- объект плюс атрибут, встречаемый у других различных объектов;

- объект плюс атрибут, всегда наличествующий у другого объекта;

- объект плюс отношение, не связанные ни с каким объектом;

- два атрибута, встречающиеся у одного и того же объекта;

- один атрибут, встречающийся одновременно у нескольких разных объектов (в случае устойчивой комбинации).

Для каждой из комбинаций существует список вариантов пополнения онтологии (такие, как слияние\разделение концептов онтологии, удаление дублей, введение новых концептов, из менение\у становление связей и пр.). После оценки корректности каждого из предлагаемых изменений путем применения его на всем наборе тестовых документов в процессе построения семантических дескрипторов и оценки их правильности [15] определяется его степень корректности, и наилучший вариант либо применяется автоматически, либо предлагается пользователю для окончательного утверждения.

Выводы и перспективы развития

Предлагаемый подход к автоматизированному пополнению онтологии по сравнению с существующими методами позволяет добиться следующих основных преимуществ:

- процесс пополнения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены;

- в процессе анализа и пополнения онтологии в полной мере учитывается семантика, построенная онтология является основой для анализа семантической корректности предлагаемых изменений;

- алгоритм ориентирован на пополнение всех существующих типов связей в онтологии, включая принадлежность атрибутов и корректность отношений;

- поддерживается возможность уточнения имеющейся онтологии с учетом ее потенциальной начальной некорректности;

- поддерживается возможность работы с множеством документов из нескольких слабосвязанных предметных областей;

- алгоритм может работать как автономно, так и в интерактивном режиме, причем пользователь имеет возможность влиять на формирование решения на каждом из этапов работы.

Предлагаемый подход позволяет полностью замкнуть цикл познания и обеспечить процесс пополнения онтологии предметной области как на основе имеющейся информации, так и с учетом вновь поступающих документов. Он ориентирован на совместное использование с разработанными системами понимания текста на естественном языке [14], где позволяет повысить качество результатов за счет более полного понимания предметной области; применим в задачах интеграции знаний и данных, позволяя разработчикам в удаленных местах согласованно работать над одной онтологией [16]; используется в системах генерализации знаний, где обеспечивается систематизация и обобщение корпоративных знаний предприятия и т.д.

К ближайшим планам по улучшению качества работы модуля можно отнести следующие шаги:

- использование в процессе работы в качестве справочника множества существующих онтологий, причем с возможностью экспорта онтологий, созданных вручную экспертами;

- создание параллельной версии для одновременной работы на многих компьютерах, позволяя одновременно проверять множество гипотез или все варианты исследуемой гипотезы;

- использование истории изменений и сбор статистики по типам изменений с тем, чтобы для каждой исследуемой предметной области индивидуально подстраивать правила, предлагающие варианты изменения онтологии, и уточнять степень корректности каждого из вариантов;

- обучение на основе действий эксперта с целью пополнения набора эвристических правил изменения онтологии, как универсальных, так и ориентированных на определенную предметную область.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1 Минаков И. А. Разработка автоматизированной системы построения онтологии предметной области на основе анализа текстов на естественном языке II Вести. Самар, гос. техн. ун-та. Сер, Технические науки. Вып. 20. Самара; СамГТУ, 2004, С. 44-48,

2 Lopez F. Overview of Methodologies for Building Ontologies. In: Proceedings of the JJCAI-99 workshop on Ontologies and Problem-Solving Methods, Stockholm, Sweden, August 2, 1999.

3 Guarino N.. Masolo C. and Velere G. OntoSeek; content-based access to the Web. IEEE Intelligent Systems (May/June 1999). P. 70-80.

4 Gruninger M. and Fox M.S., Methodology for the design and evaluation of ontologies. In: IJCAI95 Workshop on Basic Ontological Issues in Knowledge Sharing. Montreal, Canada (19-20 August 1995).

5 Roux C., Proux D., Rechenmann F. and Julliard L. An ontology enrichment method for a pragmatic information extraction system gathering data on genetic interactions, in: Proceedings of the First Workshop on Ontology Learning (OL-2GOO) in conjunction with the 14th European Conference on Artificial Intelligence {ECAI 2000), Berlin, Germany (August 2000).

6 Stojanovic L. Methods and Tools for Ontology Evolution. PhD thesis, University of Karlsruhe, 2004.

7 Klein M. Change Management for Distributed Ontologies. PhD thesis, Vrije Universiteit Amsterdam, 2004.

8 Mitchell T. Machine Learning. McGraw Hill, 1997.

9 Осипов Г.С. Приобретение знаний интеллектуальными системами. М.: Наука, 1997.

10 Леонтьева Н.Н. Строение семантического компонента в информационной модели автоматического понимания текста: Автореф. и дис, ... д-ра техн. наук. М., 1990.

11 Тузов В. А. Языки представления знаний. Л.: Изд-во ЛГУ, 1990.

12 Нариньяни А.С. Лингвистические процессоры ЗАПСИБ (Ч. 1, 2). Препринт ВЦ СО АН СССР, Кк 199. 1979.

13 Андреев В.. Вольман С., Ивкушкин К., КарягинД, Минаков И., Пименов А.. Скобелев П., Томин М, Разработка м у льти агентной системы интеллектуальной обработки и классификации документов // Тр. 5-й Между нар. конф. по проблемам управления и моделирования сложных систем, Самара, 17-21 июня 2003. Самара: СНЦ РАН, 2003,

14 Андреев В В., Ивкушкин К.В., Карягин Д.В,, Минаков И.А., Ржевский Г.А., Скобелев П.О, Томин МС. Разработка мультиагентной системы понимания текста // Тр. 3-й Междунар. конф. по проблемам управления и моделирования сложных систем. Самара, 4-9 сентября 2001. Самара: СНЦ РАН, 2001.

15 В. Андреев, М.Гельфанд. К. Ивкушкин. А. Казаков, П. Новичков, М. Томин, С. Вольман, И.Минаков, П.Скобелев. Мультиагектная система для интеллектуального поиска рефератов статей по молекулярной биологии, И Тр. 4-

ой Межяунар. конф. по проблемам управления и моделирования сложных систем, Самара, 17-24 июня 2002. Самара: СНЦ РАН, 2002. С. 338-345.

16 Андреев В. В.. Волхонцев Д.В., Ивкушкин К В., Карягин Д.В,, Минаков И.А., Ржевский Г.А., Скобелев П.О.

Му льти агентная система извлечения знаний. // Тр. 3-й Междунар, конф. по проблемам управления и моделирования сложных систем. Самара, 4-9 сентября 2001. Самара: СНЦ РАН, 2001. С. 206-212.

УДК 621.892 В.В. Морозов

СИСТЕМНО-ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ АКТИВНЫХ СИСТЕМ УПРАВЛЕНИЯ

Проведён анализ информационного управления организационно-технических систем. В рамках общего подхода к описанию организационно-технических систем, выделяющего такие понятия, как организованность, информация и цель, рассмотрены общие и частные вопросы информационного описания этих систем и информационных процессов в них. Приведены результаты исследований организационно-технической системы с учётом её информирования.

В рамках развития современной теории организационно-технических систем на первый план выходят вопросы объективных и точных определений качества информации.

Таким образом, проблема качества информации, как и поиски её меры, где могут соединяться количественные и качественные определения, по сути дела, связана с вопросами о собственности её структурности, а в силу коррелятивности понятий структуры и системы - также с понятием системности информации.

Отметим далее, что для объективных оценок качества информации возможно и необходимо использовать не только её внутренние структурно-функциональные признаки, но также и те, которые проявляются в их внешней деятельности. Поэтому надо учитывать также эффективность её организаторской работы в соответствующих узлах организационно-технических систем (ОТС).

Внешние проявления любой активности зависят более всего от собственной организации ОТС, обладающих данной формой активности. Кроме того, системность информации при определённых условиях может повышать эффективность и внутренней её организаторской функции.

Управление данной системой связано с выполнением четырёх главных функций, которые устанавливаются только эмпирически:

- оценка изменений, происходящих в среде и в самой управляющей системе, с точки зрения их соответствия данной частной задаче как определённого этапа в рамках процесса, направленного на достижение данной общей цели, а также необходимых для этого ресурсов;

- принятие решения в результате выбора из некоторого множества возможных;

- формирование и передача вытекающих из него посланий, распоряжений исполнителям;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- приём данных об успешности выполнения действий, а также сопоставление полученных результатов с прежними целями и задачами с целью определения степени приближения получаемых результатов к имеющимся планам-моделям и целям.

Для высших форм управления, характерных для ОТС, нельзя было бы найти однозначные формулировки их сути, так как им соответствуют действия, операции, совершаемые не на одном, а на нескольких уровнях, ярусах организации, в том числе и на комплексных уровнях систем.

Обязательным этапом развитого управления должно быть формирование операционной программы действий как обязательной части процесса управления, которая отличается от цели будущей деятельности и соответствует информационной части активного центра ОТС, моделирующего структуру процесса. Составление программы действий производится на основе информационной модели, отражающей результат данного процесса управления.

Активную систему управления невозможно представить одной моделью - необходима целая иерархия моделей, которые следует различать по уровню отображаемых явлений. Применение графов позволяет достаточно полно отображать его вершинами состояния, события, дей-326

i Надоели баннеры? Вы всегда можете отключить рекламу.