УДК 004.04
И. А. Корсун \ Д. Е. Пальчунов 1 2
1 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия
2 Институт математики им. С. Л. Соболева СО РАН пр. Академика Коптюга, 4, Новосибирск, 630090, Россия
[email protected], [email protected]
ТЕОРЕТИКО-МОДЕЛЬНЫЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ О СМЫСЛЕ ПОНЯТИЙ ИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА *
Статья посвящена разработке теоретико-модельных методов извлечения знаний из текстов естественного языка, а также методов извлечения из текстов определений понятий, полных относительно фиксированного контекста. Контекст задаётся либо объемлющей онтологией, либо набором прецедентов предметной области; при этом полнота определения рассматривается относительно множества «интересующих» предложений. Извлечённые из текстов знания представляются в виде фрагментов атомарных диаграмм алгебраических систем. Разработаны и программно реализованы алгоритмы отображения бескванторных предложений логики предикатов в логику описаний (DL), а также их дальнейшего отображения в OWL. Это даёт возможность порождения новых знаний исходя из имеющихся знаний, уже содержащихся в онтологии, при помощи использования автоматических средств логического вывода.
Ключевые слова: онтология, теоретико-модельные методы, фрагменты атомарных диаграмм, определения понятий, извлечение знаний, порождение знаний, средства логического вывода.
Введение
Статья посвящена разработке теоретико-модельных методов извлечения знаний из текстов естественного языка, а именно, знаний о смысле ключевых понятий заданной предметной области. Разрабатываются методы извлечения определений понятий, полных относительно некоторого фиксированного контекста. Исследованы разные способы определения относительной полноты данного определения понятия. Знания о смысле понятий извлекаются из набора текстов, написанных на естественном языке. Для этого используются разработанные ранее методы представления знаний, извлечённых из текстов, в виде набора конечных фрагментов атомарных диаграмм алгебраических систем, методы интеграции атомарных диаграмм и порождения таким способом нового онтологического знания, ранее в явном виде не сформулированного.
В настоящее время большое количество работ посвящено использованию логического вывода для работы с онтологиями. В [1] описана программная система, предназначенная для автоматизированной проверки согласованности онтологии экспертами предметной области.
* Исследование выполнено при частичной финансовой поддержке РФФИ в рамках научного проекта № 14-0700903 а.
Корсун И. А., Пальчунов Д. Е. Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 3. С. 34-48.
ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2016. Том 14, № 3 © И. А. Корсун, Д. Е. Пальчунов, 2016
Система использует логический вывод как основу для выявления конфликтов. В [2] предложен подход для кризисного управления и реагирования, в котором используется онтология на языке OWL DL и машина логического вывода для построения цепочек рассуждений. В [3] представлена онтология, которая используется при разработке алгоритмов сравнения и анализа генома.
Одним из популярных современных средств сбора и хранения информации являются Wiki-системы [4]. На основе Wiki-систем разработаны программные системы для построения онтологий верхнего уровня (general-purpose ontology) [5], онтологий персоналий [6], программные системы, предоставляющие интерфейс на естественном языке для редактирования онтологий [7]. Wiki-системы используются в качестве среды для разработки онтологий [8], а также для создания корпуса текстов для построения онтологии конкретной предметной области [9]. Среди недостатков данного подхода следует отметить обеспечение лишь структурной целостности информации, без проверки ее семантической согласованности. Кроме того, используемые онтологии обладают достаточно низкой выразительностью.
Одним из важных направлений исследований является автоматизация построения онтологий из текстов, написанных на естественном языке. При этом используются подходы на основе лексико-синтаксических шаблонов [10], подходы на основе систем продукций [11], подходы на основе статистической информации [12].
Ряд работ посвящён использованию логик описаний (Description Logics, DL) и средств логического вывода для работы онтологическими моделями знаний [13]. В [14] логический вывод используется для обнаружения смысловых ошибок в текстах, представленных в Интернете. В [15] логический вывод используется для проверки наличия противоречий в онтологической модели.
Ранее в [16] нами был разработан теоретико-модельный подход к извлечению знаний из текстов естественного языка. В основе него лежит представление знаний при помощи конечных фрагментов атомарных диаграмм моделей. Были разработаны методы интерпретации различных частей речи и синтаксических связей с целью автоматического порождения сигнатуры модели. Были реализованы в виде программной системы методы автоматического построения атомарных предложений данной сигнатуры по тексту естественного языка [17].
В данной работе предложены алгоритмы отображения бескванторных предложений логики предикатов первого порядка сигнатуры, не содержащей функциональных символов, в логику описаний (DL), а также дальнейшего отображения множеств таких предложений в OWL. Это дало возможность порождения новых знаний исходя из имеющихся знаний, уже содержащихся в онтологии, при помощи использования автоматических средств логического вывода - ризонеров для логик описаний.
Алгоритмы трансляции бескванторных предложений логики предикатов в логику описаний (DL) и в OWL реализованы в виде программной системы. Эта система является модулем разрабатываемой информационной системы, осуществляющей порождение онтологии из фрагментов атомарных диаграмм, порождение новых знаний с помощью машины логического вывода, извлечение определений используемых в онтологии понятий в рамках данного контекста.
Теоретико-модельные методы извлечения
и представления знаний
Для представления знаний, извлечённых из текстов естественного языка, в качестве базовой конструкции мы используем атомарные предложения. Далее мы рассматриваем множества предложений логики предикатов первого порядка, каждое из которых является, дизъюнкцией атомарных предложений и отрицаний атомарных предложений. При этом сигнатура рассматриваемых предложений не содержит символов функций, а состоит только из символов предикатов и констант.
Дадим необходимые определения и обозначения. Сведения по теории моделей можно найти в [18].
Модели = <А; о> = <А; Р1,...,Рп,с1,...,с1> рассматриваются в сигнатуре а = < P1,..,Pn,c1,..,Ci >, где А - основное множество модели, Р1,.,Рп - символы предикатов
и с1,_,сг - символы констант. обозначает множество всех предложений сигнатуры а, т.е. формул без свободных переменных. Запись означает, что на модели ЭД истинно
предложение Запись А I- ^ означает, что из множества формул А выводима формула
Для модели ЭД сигнатуры а мы обозначаем аА= а и {са | а 6 А}; при этом считаем, что са£о при аеА. Через ЭДА мы обозначаем модель сигнатуры оА, обеднение которой до сигнатуры а совпадает с ЭД и значения констант са в обогащённой модели совпадает с самими элементами а, т.е. СдЛ = а при яей.
Предложение <р назовем атомарным, если <р = (сг = с2) или ^ = Р(с1,..,сп ), где Р,с1,^,сп ЕОа.
В рамках данного подхода мы несколько изменим понятие атомарной диаграммы модели. А именно, атомарной диаграммой модели ЭД сигнатуры а назовем множество предложений
АОСЖ) = { ф е 5(оа) | 1= хр, ф = <р или ф = -1 (р, а предложение ^ - атомарное}.
Обычно в атомарную диаграмму модели включают только атомарные предложения, истинные на этой модели. При этом, если атомарное предложение не входит в атомарную диаграмму модели, то оно, очевидно, является ложным на этой модели. Поэтому включать в атомарную диаграмму отрицания атомарных предложений, истинные на модели, в этом случае не имеет смысла.
Мы же включаем как атомарные предложения, так и их отрицания, истинные на модели. Это связано с тем, что мы рассматриваем не всю атомарную диаграмму целиком, а только её конечные подмножества - конечные фрагменты атомарной диаграммы. С практической точки зрения всю атомарную диаграмму модели невозможно рассматривать хотя бы потому, что она бесконечна (если сама модель не является конечной). Кроме того, извлекая знания из текстов естественного языка, мы практически никогда не имеем полную информацию о рассматриваемых объектах. Поэтому нам удобно рассматривать конечные фрагменты атомарной диаграммы, считая саму модель потенциально бесконечной: не ограничиваясь каким-то числом количество входящих в неё объектов.
Заметим, что такой подход даёт нам ряд дополнительных возможностей. Это связано, в частности, с тем, что в сигнатуре, содержащей только символы предикатов, любое подмножество основного множества модели образует её подмодель. И обратно, объединение основных множеств двух моделей одной и той же чисто предикатной сигнатуры (при условии, что эти множества не пересекаются) порождает новую модель данной сигнатуры, у которой две данные модели будут подмоделями. Если же основные множества этих двух моделей имеют непустое пересечение, для вложения их в общую надмодель необходимо и достаточно выполнение условия: подмодели этих двух моделей, образованные пересечением, совпадают.
Кроме того, мы можем заранее не фиксировать сигнатуру алгебраической системы, атомарную диаграмму которой собираем из фрагментов. Это позволяет нам добавлять фрагменты атомарной диаграммы, содержащие новые сигнатурные символы: новые предикаты и константы. При интеграции фрагментов атомарной диаграммы необходимо только контролировать непротиворечивость полученного фрагмента. Противоречие может возникнуть, поскольку фрагмента содержат не только атомарные предложения, но и их отрицания.
Для извлечения знаний из текстов естественного языка мы используем результаты наших исследований, начатых в [16]. В этой работе предложен теоретико-модельный подход к извлечению знаний из текстов, основанный на представлении знаний при помощи конечных фрагментов атомарных диаграмм моделей. В [16] разработаны методы интерпретации различных частей речи и различных синтаксических связей при помощи многоместных предикатов. Разработаны методы автоматического построения атомарных предложений на основе обработки предложений естественного языка. Для этого были использованы словарь номи-нализаций, содержащий более 8000 понятий и словарь валентностей для 2300 глаголов, созданные в рамках выполнения исследования.
Была разработана программная система [17], предназначенная для порождения фрагментов атомарных диаграмм моделей по текстам естественного языка. Программная система реализует разработанные методы и алгоритмы. Программная система может использоваться как в автоматическом, так и в автоматизированном режиме: автоматически построенный
фрагмент атомарной диаграммы модели может быть визуализирован, пользователь может его редактировать.
Фрагмент И атомарной диаграммы по существу является описанием некоторой ситуации, причём описанием частичным, а не полным. Описание ситуации - это элементы, представляемые константами сигнатуры аА: объекты, предметы, люди и т. д., а также свойства элементов, представляемые одноместными предикатами сигнатуры а, и «-местные отношения, представляемые п-местными предикатами сигнатуры а. Если известно, что данный набор элементов находится (или не находится) в данном отношении, фрагмент И содержит атомарное предложение - соответствующий предикат от констант, соответствующих этим элементам (или отрицание данного атомарного предложения).
Конечный фрагмент И атомарной диаграммы, являющийся конечным множеством атомарных предложений и отрицаний атомарных предложений, может быть представлен одним предложением тв - конъюнкцией всех предложений, входящих в И. Мы можем рассмотреть несколько фрагментов Ог, ... , Ип описывающих знания о ситуациях, извлечённых из разных текстов естественного языка. Если ситуации различны, но относятся к одной предметной области, мы можем их рассматривать как различные прецеденты данной предметной области. В таком случае знание, представленное этим набором прецедентов, формализуется дизъюнкцией (Тдг V ... V Тдп) соответствующих конъюнкций, формализующих знания о прецедентах. Любое бескванторное предложение сигнатуры аА может быть с точностью до эквивалентности представлено такой дизъюнкцией (тВ1 V ... V тВп); это показывает следующее утверждение.
Предложение 1. Для любого бескванторного предложения ^ сигнатуры аА существует набор фрагментов атомарных диаграмм алгебраических систем Ог, ... , Ип такой, что формулы ^ и (тдг V ... V тВп) эквивалентны.
Доказательство непосредственно вытекает из известного факта, что для любой формулы логики высказываний существует эквивалентная ей формула, находящаяся в дизъюнктивной нормальной форме.
Таким образом, язык конечных фрагментов атомарных диаграмм является достаточно выразительным. Любое знание, извлечённое из текстов, сформулировать которое можно без использования кванторов всеобщности и существования, может быть выражено на языке конечных фрагментов атомарных диаграмм.
Более того, на языке конечных фрагментов атомарных диаграмм может быть выражено и любое знание, имеющее универсальную квантификацию - универсальные предложения, или У-предложения. Напомним, что предложение ^ называется У-предложением если (р = Ух-^ ...Ухп,ф(х1,..,хп), где ф - бескванторная формула. У-предложение можно преобразовать в бескванторное предложение расширенной сигнатуры, заменив переменные, по которым идёт универсальная квантификация, на специальные новые константы, обозначающие «произвольный» объект.
В данной работе мы применим представленные выше теоретико-модельные методы для извлечения из текстов естественного языка знаний о смысле ключевых понятий предметной области, то есть извлечение из текстов частей определений понятий и интеграция извлечённых частей определений. Другими словами, речь идёт об извлечении из текстов естественного языка онтологических знаний, относящихся к заданной предметной области.
Полнота определений понятий
относительно заданного контекста
Для корректного извлечения знаний из текстов естественного языка необходимо решать проблему точного определения смысла, в котором в данном тексте используются понятия. Здесь возникает проблема полисемии или многозначности понятий, - в каком конкретно смысле понятие употребляется в данном тексте (в данном контексте).
Решение этой проблемы мы разделяем на две составляющие части, две подпроблемы.
1. Выделение набора различных определений данного понятия.
2. Определение по тексту / контексту того определения данного понятия, которое соответствует его употреблению в указанном месте.
При этом методы решения этих двух проблем взаимосвязаны.
Для выяснения точной семантики данного фрагмента текста естественного языка (например, точной семантики данного предложения естественного языка) и построения точного формального описания на языке логики предикатов или логики описаний необходимо иметь точные и полные определения входящих в текст понятий. Точность определений понятий обеспечивается тем, что мы формулируем их с помощью предложений логики предикатов или БЬ. Более сложной является проблема полноты определений понятий.
Очевидно, что с практической точки зрения мы почти никогда не можем дать полного определения данного понятия в абсолютном смысле. Тем не менее, для решения практических задач может быть достаточно относительно полного определения понятия, т. е. определения, полного относительно контекста рассмотрения этого понятия.
В этом параграфе мы дадим теоретико-модельную формализацию относительной полноты определений понятий и рассмотрим методы извлечения относительно полных определений понятий из текстов естественного языка.
Рассмотрим понятие РЕ аА (для понятия сЕ аА определения и рассуждения аналогичны). Пусть ^ = ^(Р) - некоторое (возможно неполное) определения понятия Р; запись ^(Р) здесь означает, что символ Р входит в предложение Обозначим ф = {^Е Б(аА) | (р(Р) Ь гр} .
ф - это множество всех следствий ^ определения ^(Р); заметим, что каждое такое следствие ^ является аналитическим предложением [19, 20].
Рассмотрим теперь несколько полисемичных определений (р1,.,ц)п понятия Р, то есть определений, описывающих разные смыслы, в которых понятие Р может употребляться в разных контекстах. Обозначим И =
Кегф) = е Б(аА) | для любого I выполнено Ь^} = П1Щ и Сорф) = {^Е 5(аА) | для некоторого I выполнено Ь^} = Щ . Кегф) назовём ядром множества определений И, а Соуф) - оболочкой множества определений И. Заметим, что Кегф) ^Сорф).
Кегф) - это множество утверждений (свойств понятия Р), которые являются заведомо истинными вне зависимости от контекста и конкретного смысла понятия Р, а Соуф) - это множество утверждений (свойств понятия Р), которые могут быть истинными, если точный (конкретный) смысл понятия нам не известен. В общем случае множество Соуф) может быть противоречивым.
В качестве примера рассмотрим три варианта ф2 и ^з смысла понятия «курица»: живая птица, замороженная тушка и курица-гриль. Во всех трёх случаях это объект материального мира, является видом птицы (соответственно, живой, замороженной и запечённой), имеет грудь, кости, ноги и крылья. Все эти свойства (записанные предложениями логики предикатов) входят во множество Кегф), где И = {^1,^2, <Рз). В то же время множество Соуф) содержит также утверждения, записанные в логике предикатов, что курица является живой, мороженной, запечённой, домашней птицей, полуфабрикатом, готовым блюдом. Каждое из этих утверждений может быть истинно, если контекст не может определить точный смысл данного понятия: например, во фразе «Мама купила курицу». С другой стороны, фраза «Мама купила живую курицу» точно определяет смысл ^ данного понятия. Таким образом, в данном случае множество Соуф), очевидно, является противоречивым. Заметим также, что во втором случае фраза «Мама купила живую курицу», являющаяся контекстом употребления понятия «курица», однозначно задаёт определение этого понятия (по крайней мере, среди определений <р2 и ^3). Далее мы дадим точную формулировку полноты определения понятия относительно фиксированного контекста.
Относительную полноту определения понятия мы будем рассматривать для двух вариантов фиксации контекста:
а) контекст определяется объемлющей онтологией;
б) контекст задаётся фрагментом атомарной диаграммы, построенным по тексту естественного языка, в котором данное понятие было использовано; при этом фиксируется специальное множество «интересующих» нас предложений.
Рассмотрим онтологию некоторой предметной области О. Будем считать, что онтология формально записана на языке логики предикатов первого порядка, т.е., что ^(о^). Пусть имеется набор полисемичных определений , ..., фп понятия Р, пусть И = {ф1,.,фп}.
Определение ^ назовём полным относительно онтологии О (среди определений фъ...,фп), если О и {ф-^} I/ и для любого 1> 1 выполнено О и I--|<рг.
Предложение 2. Для онтологии О и множества определений И = следующие
условия эквивалентны:
а) является полным относительно онтологии О;
б) О и I/ и для любого 1> 1 найдётся предложение ^ЕЩ такое, что О и {ф1,4>} К
в) О и Ч- и О и и Щ К
Определение ^ назовём сильно полным относительно онтологии О (среди определений <рг , ..., Ц)п), если для любого 1> 1 и для любого предложения фЕ Щ такого, что О и I/ тр, выполнено О и I—\Тр.
Определение назовём абсолютно полным относительно онтологии О (среди определений , ..., фп), если для любого предложения ^Е Б{аА) выполнено О и {^1} либо О и Ь-,^.
Замечание 1. Определение является абсолютно полным относительно онтологии О (среди определений , ..., фп) тогда и только тогда, когда множество предложений О и {^1} аксиоматизирует полную теорию сигнатуры аА.
Требования сильной полноты и абсолютной полноты определений понятий являются слишком «сильными» с практической точки зрения; они имеют в первую очередь теоретическое значение. В дальнейшем при разработке методов извлечения определений понятий из текстов естественного языка мы будем основываться на требовании относительной полноты определения. При этом с практической точки зрения полезной будет указанная выше эквивалентность пунктов (а) и (б) Предложения 2.
Рассмотрим теперь относительную полноту определения понятий в случае, когда контекст задаётся фрагментом атомарной диаграммы, построенным по тексту естественного языка, в котором данное понятие было использовано. Рассмотрим сразу общий случай, когда мы имеем несколько фрагментов атомарных диаграмм, извлечённых из текстов естественного языка, относящихся к одной предметной области.
Пусть ... , Рт - фрагменты атомарных диаграмм алгебраических систем сигнатуры аА. Мы не требуем, чтобы ... , Рт были фрагментами атомарной диаграммы некоторой единой алгебраической системы; мы считаем, что ... , Рт представляют разные прецеденты одной и той же предметной области. Заметим, что если ^ и Р2 являются фрагментами атомарной диаграммы одной алгебраической системы, то мы можем заменить их на один фрагмент атомарной диаграммы этой алгебраической системы - их объединение F = F1 UF2. Но поскольку F1, ... , Рт представляют прецеденты одной предметной области, на каждом из них истинна онтология этой предметной области. В частности, смысл принятий является одинаковым для всех фрагментов F1, ... , Рт.
Пусть имеется набор определений <рг , ..., ц)п понятия Р, пусть Б = {(р1,.,ц)п}. Определение фх назовём полным относительно набора прецедентов Р = {Р1,.,Рт}, если:
а) определение ^ согласуется с набором прецедентов Р, а именно, для любого I выполнено F¿ и I/;
б) для любого 1> 1 найдётся I такое, что выполнено F¿ и {^1} I--\(р1 .
Замечание 2. В общем случае два определения <рх и <р2 (или даже более) из некоторого набора И = могут быть полными относительно некоторого набора прецедентов
Это означает, что сами определения являются полными, но какое из них соответствует данной предметной области (данному множеству текстов естественного языка) по набору фрагментов атомарных диаграмм установить невозможно.
Заметим, что если бы вместо набора фрагментов атомарных диаграмм F = {F1,.,Fm} мы рассматривали дизъюнкцию соответствующих конъюнкций
VA*-
i ipEFi
то мы не смогли бы сформулировать предыдущее условие (б). Действительно, из Ft U
{(р1} I—I (pi не следует, что 1--|<Рг; при этом утверждения Ft U I--1 <рг
и ((A^eFj^&^i)1--|<Рг равносильны. Аналогично, мы не смогли бы сформулировать следующее условие (с). Поэтому рассмотрение набора атомарных диаграмм как набора прецедентов предметной области (в рамках онтологии которой мы исследуем определения понятий) является принципиально важным.
Предложение 3. Определение из множества определений D = является
полным относительно набора прецедентов F = {F1,.,Fm} тогда и только тогда, когда определение согласуется с набором прецедентов F и выполнено следующее условие:
с) для любого l> 1 найдётся номер i и предложение Щ такие, что Ft U {^i,^} К
На Предложениях 2 и 3 основаны методы проверки относительной полноты определений понятий, а также разрабатываемые нами теоретико-модельные методы извлечения относительно полных определений понятий из текстов естественного языка.
Заметим, что, с множество предложений S{aA) сигнатуры аА бесконечно, в то время как для данного конечного фрагмента F атомарной диаграммы множество бескванторных предложений сигнатуры c(F) этого фрагмента конечно, с точностью до эквивалентности. С точки зрения практических задач мы не можем обрабатывать бесконечное множество формул. Поэтому необходимо заменить бесконечные множества формул конечными; для этого мы зафиксируем специальное множество «интересующих» нас предложений.
Вместо бесконечного множества предложений S(aA) целесообразно рассматривать его конечное подмножество Д£ S(aA) предложений, которые представляют интерес с точки зрения решаемых задач. В этом случае бесконечное множество предложений ф мы заменим на его конечное подмножество фП Д. Таким образом, задача нахождения определения ^(Р) понятия Р трансформируется в задачу извлечения из текстов естественного языка предложений фП Д. При этом различные предложения фП Д могут извлекаться из разных текстов естественного языка.
При помощи описанных выше методов построения атомарных предложений по текстам естественного языка извлекаются фрагменты определений понятия. Затем атомарные предложения объединяются в единый фрагмент атомарной диаграммы. При этом проверяется непротиворечивость полученного фрагмента и его семантическая согласованность. Непротиворечивость проверяется при помощи трансляции бескванторных предложений логики предикатов в логику описаний ALCI, дальнейшей трансляции в OWL и применении средств логического вывода, как это будет подробно показано ниже. Семантическая согласованность проверяется при помощи эксперта в предметной области.
Далее проверяется относительная полнота полученных определений понятий. Для этого приведённые выше определения относительной полноты мы преобразуем, релятивизируя их к множеству интересующих нас предложений Д.
Рассмотрим набор определений <рх , ..., <рп понятия Р, пусть D = {<р1,.,(рп}. Для каждого 1<п обозначим Дг= Щ П Д; множество Дг является конечным.
Для онтологии О релятивизируем пункт (б) Предложения 2 относительно множества предложений Д.
Определение ^ будем считать полным относительно онтологии О, если О U I/ и для любого 1> 1 найдётся предложение бДг такое, что О U К Из этого следует,
что OU Ы I--\ifji. Предложения ^ , ..., назовём предложениями, отделяющими
смысл понятия Р от других смыслов , ..., фп этого понятия.
Таким образом, конъюнкция \~фп) по существу является полным явным
определением понятия Р, которое теперь можно включить в онтологии О.
Метод построения определения понятия Р, полного относительно онтологии О, таким образом, заключается в нахождении предложений бДг, принадлежащих конечным множествам Дг. Проверка противоречивости О U Ь производится при помощи описанных
ниже методов трансляции таких предложений логики предикатов в логику описаний ALCI, дальнейшей трансляции в OWL и использовании ризонера Hermit.
Рассмотрим теперь набор прецедентов F = {F1,.,Fm}. Пусть определение согласуется с набором прецедентов F, т.е., для любого i выполнено Fi U {^1} I/. Непротиворечивость проверяем указанным выше способом.
Релятивизируем пункт (с) Предложения 3 относительно множества предложений Д. Определение <рг будем считать полным относительно набора прецедентов F = {F1,...,Fm}, если для любого l> 1 найдётся предложение ^ бДг и номер i такие, что F^ U {фг, К Это означает, в частности, что Ft U I--\ifJi.
Как и для описанного выше случая онтологии О, предложения , ..., отделяют смысл понятия Р от других смыслов , ..., фп этого понятия. При этом конъюнкция
(ф1&—\'ф1&.&—\'фп) является полным явным определением понятия Р в контексте множества прецедентов F = {F1,.,Fm}. Аналогично описанному выше, метод построения определения понятия Р, полного относительно набора прецедентов F, заключается в нахождении указанного набора предложений бДг, принадлежащих конечным множествам Дг.
Трансляция фрагментов атомарных диаграмм в DL и OWL
В данном параграфе описан алгоритм порождения онтологии из фрагментов атомарных диаграмм. Разработанная программная система способна проверять готовую онтологию на непротиворечивость, а также обеспечивает порождение новых знаний посредством применения логического вывода, что позволяет пополнять онтологию новыми аксиомами.
Пользователь программной системы имеет возможность работать со знаниями, представленными в различных форматах: в виде бескванторных предложений логики предикатов, в виде формул логики описаний ALCI или SROIQ, а также на языке OWL.
Обрабатываемые системой файлы могут содержать:
1) фрагменты атомарных диаграмм, построенных по тексту на естественном языке;
2) выражения на языке логики описаний;
3) готовые онтологии в формате OWL 2.
Непосредственно порождение онтологии из фрагментов атомарных диаграмм осуществляется в три этапа:
1) трансляция фрагментов атомарной диаграммы модели в логику описаний;
2) переход из предложений на языке логики описаний в онтологию на языке OWL;
3) проверка полученной онтологии машиной логического вывода для поиска противоречий и пополнения новыми аксиомами.
Этап 1. Обработка атомарной диаграммы модели. Трансляция в DL
На первом этапе происходит трансляция бескванторных предложений логики предикатов в логику описаний. Рассматриваются предложения сигнатуры, содержащей только символы предикатов и констант (т. е. не содержащей функциональных символов).
Перед началом формализации выберем необходимый профиль DL. Для возможности дальнейшего расширения функционала, подходящим является логика описаний SROIQ, на которой основан язык OWL 2. Для целей данной работы нам достаточно использовать только фрагмент логики SROIQ - логику ALCI, не содержащую символа импликации, иерархии ролей и ограничений мощности.
При трансляции бескванторных предложений логики предикатов в логику описаний ALCI логические связки обрабатываются естественным образом; импликация выражается через дизъюнкцию и отрицание.
Нетривиальной является обработка многоместных предикатов. Для работы с такими предикатами мы используем технику представления многоместных предикатов через двухместные. А именно, -местный предикат Р{х1,.,хп) преобразуется в набор, содержащий п + 1 двухместный предикат. С помощью этого алгоритма мы решаем вопросы формализации ситуаций, в которых необходимо описать дополнительные уточняющие экземпляры отношений, а также представления отношений между тремя и более концептами.
ALCI
Axiom ::= C с C | C(IName) | P(IName, IName) C ::= CName | 1 | 0 | C о C | C u C | -C | VP.C | 3P.C P :: = PName | PName'
Рис. 1. Профиль логики описаний - ALCI
Этап 2. Трансляция из DL в OWL
При выполнении второго этапа вначале осуществим отображение синтаксиса логики описаний ALCI на синтаксис OWL (табл. 1).
Таблица 1
Соответствие синтаксиса OWL 2 и логики описаний ALCI
Синтаксис логики описаний ALCI OWL синтаксис
C е D SubClassOf(C D)
C (a ) ClassAssertion(C a)
P (a, b ) ObjectPropertyAssertion(P a b)
C о D ObjectIntersectionOf(C D)
C u D ObjectUnionOf(C D)
-.C ObjectComplementOf (С)
1 Owl:Thing
0 Owl:Nothing
3P.C ObjectSomeValuesFrom(P C)
VP.C ObjectAllValuesFrom(P C)
P ObjectInverseOf(P)
Далее для работы с выражениями языка логики описаний ЛЬС1 запускается соответствующий транслятор.
Первая составляющая транслятора - лексер. Задача лексера заключается в аналитическом разборе входной последовательности символов для получения на выходе последовательности символов, называемых лексемами языка. Лексемами языка называются те его понятия, которые определяются регулярной грамматикой, а также конечная совокупность служебных слов и символов языка.
Далее работу лексера принимает парсер (иначе - синтаксический анализатор). В ходе анализа исходный текст преобразуется в набор особых структур данных - деревьев, состоящих из соответствующих предикатов и констант. Такой способ представления хорошо подходит для дальнейшей обработки с последующей генерацией фрагмента онтологии.
Этап 3. Использование машины логического вывода
После получения фрагмента онтологии ее необходимо обработать с помощью машины логического вывода для выявления наличия противоречий, а также для пополнения новыми аксиомами. Для осуществления данного этапа мы можем использовать любой ризонер,
имеющий возможность работать с логикой SROIQ - основой языка OWL 2. Исходя из произведенных исследований, а также результатов конкурса [21] для ситуаций, когда нам требуется высокая производительность, мы можем использовать Konclude [22], так как он занимает лидирующую позицию по скорости выполнения задач. Однако на начальных этапах разработки системы с точки зрения использования при реализации, удобной и также не уступающей в производительности является машина Hermit [23].
Приведем пример работы логического вывода для обработки онтологий в реальных ситуациях. Рассмотрим постановление правительства некоторых регионов, устанавливающее полный запрет на розничную продажу алкогольной продукции - слабоалкогольных напитков специального назначения - тонизирующих, в том числе энергетических. Мы имеем онтологию, содержащую следующие основные понятия: покупатель, продавец, нарушитель, напитки, содержащие тонизирующие компоненты - безалкогольные и слабоалкогольные напитки, а кроме этого включающую в себя информацию о продавцах данных товаров.
Дополним онтологию новыми аксиомами, после чего проверим ее ризонером (рис. 2, 3). Как результат его работы мы увидим расширение онтологии информацией о том, какие граждане являются нарушителями, а как следствие, увеличение значения некоторых метрик. А именно, появилось 10 новых аксиом.
▼ •
ЗапрещенныеКПродаже Напитки Т Слабоалкогольные Тонизирующие ТонизирующиеВещества Человек
Покупатель Нарушитель Продавец
v.y е ТопизирующиЖСлабоатоаолъные) :
3у е ТонизирующиеВещества\(х,у)еСодержит СодержитЭтиловыйСпирп < 9 V.Yе Нарушитель :Эг еЗапрещении еТоеары\(х,у)еПродает
Рис. 2. Дополнение исходного фрагмента онтологии дополнительными аксиомами
Description: Петя
швнн! property assertions: Пета
Types Q
©Продавец ф®00
Нарушитель
Object property assertions ^ ■ Продает Напиток_2
Data property assertions
Рис. 3. Вывод информации о нарушителях после обработки ризонером
Благодаря интеграции информационной системы с машиной логического вывода загружаемая онтология проверяется на наличие противоречий с последующим информированием пользователя о наличии ошибок. Это также дает возможность увидеть неточности в формулировках документов.
Программная реализация
Архитектуру системы и ее основные функции можно представить с помощью схем (рис. 4, 5).
Use-case диаграмма системы (рис. 6) демонстрирует реализованные на данный момент возможности пользователя.
Рис. 4. Схема взаимодействия клиента и WEB-контейнера
Рис. 5. Схема взаимодействия компонентов системы
Рис. 6. Use-case диаграмма
В системе используются программные платформы OWL API [24] и JENA [25], которые позволяют работать не только с онтологиями, но и с машинами логического вывода, в частности с машиной Hermit.
Заключение
В настоящей работе решается задача извлечения знаний о смысле понятий из текстов естественного языка. Исследована проблема полноты определений понятий относительно фиксированного контекста. Разработаны алгоритмы извлечения относительно полных определений понятий из текстов естественного языка.
Разработаны и программно реализованы алгоритмы отображения бескванторных предложений логики предикатов первого порядка, в частности, фрагментов атомарных диаграмм, на логики описаний.
Разработаны и реализованы в программной системе алгоритмы порождения онтологических знаний из фрагментов атомарных диаграмм алгебраических систем. Используемые программные платформы OWL API и JENA дают возможность работать не только с онтологиями, но и с машинами логического вывода. Благодаря этому программная система позволяет проверять онтологию на непротиворечивость, а также реализует порождение новых знаний посредством применения автоматических средств логического вывода. В частности, это даёт возможность автоматически пополнять онтологию новыми аксиомами.
Разработанная программная система может быть использована при создании систем поддержки принятия решений.
Список литературы
1. Meilicke C., Stuckenschmidt H. A Reasoning-Based Support Tool for Ontology Mapping Evaluation. University of Mannheim, 2008.
2. Shen H., Hu J., Zhao J., Dong J. Ontology-based Modeling of Emergency Incidents and Crisis Management. Shanghai Jiao Tong University, Shanghai, 2010.
3. Flanagan K., Stevens R., PocockM., Lee P., Wipat A. Ontology for genome comparison and genomic rearrangements. University of Newcastle upon Tyne, 2004.
4. Leuf B., Cunningham W. The Wiki Way: Quick Collaboration on the Web. Addison-Wesley Professional, 2001. 464 p.
5. Suchanek F.M., Kasneci G., Weikum G. YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia // Proceedings of the 16th International Conference on World Wide Web (Banff, Alberta, Canada, May 8-12, 2007). WWW '07. N. Y.: ACM Press, 2007. P. 697-706.
6. Shibaki Y., Nagata M., Yamamoto K. Constructing Large-Scale Person Ontology from Wikipedia // Proceedings of the 2nd Workshop on «Collaboratively Constructed Semantic Resources». Coling, 2010. P. 1-9.
7. Jie Bao, Paul R. Smart, Nigel R. Shadbolt, Dave Braines. A Controlled Natural Language Interface for Semantic Media Wiki Using the Rabbit Language // Workshop on Controlled Natural Language, 2009.
8. Hepp M., Bachlechner D., Siorpaes K. Harvesting Wiki Consensus - Using Wikipedia Entries as Ontology Elements // Proceedings of the First Workshop on Semantic Wikis - From Wiki to Semantics, Annual European Semantic Web Conference (ESWC 2006). 2006. P. 124-138.
9. Cui G. Y., Lu Q., Li W. J., Chen Y. R. Corpus Exploitation from Wikipedia for Ontology Construction // Proceedings of the Sixth International Language Resources and Evaluation (LREC 2008). Marrakech, 2008. P. 2125-2132.
10. Рабчевский Е. А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска. // Тр. 11-й Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 69-77.
11. Найханова Л. В. Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования: Автореф. дис. ... д-ра техн. наук. Красноярск, 2008. 36 с.
12. Мозжерина Е. С. Автоматическое построение онтологии по коллекции текстовых документов. СПб., 2011.
13. Тузовский А. Ф. Работа с онтологической моделью организации на основе дескриптивной логики // Изв. Том. политехн. ун-та. 2006. Т. 309, № 7. С. 134-137.
14. Gutiererz F., Dou D., Fickas S., Griffiths G. Online Reasoning for Ontology-Based Error Detection in Text. University of Oregon, 2014.
15. Hoehndorf R., DumontierM. A common layer of interoperability for biomedical ontologies based on OWL EL // Bioinformatics. 2011.
16. Махасоева О. Г., Пальчунов Д. Е. Автоматизированные методы построения атомарной диаграммы модели по тексту естественного языка // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2014. Т. 12, вып. 2. С. 64-73.
17. Махасоева О. Г., Пальчунов Д. Е. Программная система построения атомарной диаграммы модели по тексту естественного языка. Свидетельство о государственной регистрации программы для ЭВМ № 2014619198, зарегистрировано 10.09.2014.
18. КейслерГ., Чэн Ч. Ч. Теория моделей. М.: Мир, 1977. 615 c.
19. Пальчунов Д. Е. Моделирование мышления и формализация рефлексии I: Теоретико-модельная формализация онтологии и рефлексии // Философия науки. 2006. № 4 (31). С. 86114.
20. Palchunov D. E. Virtual catalog: the ontology-based technology for information retrieval // Knowledge Processing and Data Analysis. Lecture Notes in Artificial Intelligence (LNAI). Springer-Verlag Berlin Heidelberg, 2011. Vol. 6581. Р. 164-183.
21. ORE Live Competition. URL: http://dl.kr.org/ore2015/vip.cs.man.ac.uk_8008/live.html.
22. Steigmiller A., Liebig T., Glimm B. Konclude: system description. Web Semantics: Science, Services and Agents on the World Wide Web, 27:78-85, 2014.
23. Glimm B., Horrocks I., Motik B., Shearer R., Stoilos G. A novel approach to ontology classification. J. of Web Semantics, 2011.
24. Horridge M., Bechhofer S. The OWL API: A Java API for OWL Ontologies // School of Computer Science. 2009.
25. Carroll J. J., Dickinson I. Jena: Implementing the Semantic Web Recommendations, 2004.
Материал поступил в редколлегию 03.08.2016
I. A. Korsun 1, D. E. Palchunov 1 2
1 Novosibirsk State University 1 Pirogov Str., Novosibirsk, 630090, Russian Federation
2 Institute of Mathematics SB RAS 4 Academician Koptyug Ave., Novosibirsk, 630090, Russian Federation
[email protected], [email protected]
MODEL-THEORETIC METHODS OF EXTRACTION OF KNOWLEDGE ON THE MEANING OF CONCEPTS FROM THE NATURAL LANGUAGE TEXTS
The paper is devoted to the development of model-theoretic methods of knowledge extraction from the natural language texts and, in particular, methods of extraction of concept definitions which are complete relative to the fixed context. The context may be determined by ambient ontology as well as by a set of precedents. The completeness of definitions is considered modulo a special set of "interesting" sentences. The extracted knowledge is represented in the form of fragments of atomic diagrams of algebraic systems. Algorithms of mapping some quantifier-free sentences of predicate logic onto Description Logics (DL) as well as of their further mapping onto OWL are developed and implemented. It gives a possibility to generate new knowledge based on existing knowledge that already contained in the ontology by using automated logical reasoning.
Keywords: domain ontology, model-theoretic methods, fragments of atomic diagrams, concept definitions, knowledge extraction, knowledge generation, automated logical reasoning.
References
1. Meilicke C., Stuckenschmidt H. - A Reasoning-Based Support Tool for Ontology Mapping Evaluation//University of Mannheim, 2008.
2. Shen H., Hu J., Zhao J., Dong J. - Ontology-based Modeling of Emergency Incidents and Crisis Management // Department of Management Information Systems, Shanghai Jiao Tong University, Shanghai, 2010.
3. Flanagan K., Stevens R., Pocock M., Lee P., Wipat A. - Ontology for genome comparison and genomic rearrangements // School of Computing Science, University of Newcastle upon Tyne, 2004.
4. Leuf B., Cunningham W. The Wiki Way: Quick Collaboration on the Web. - Addison-Wesley Professional, 2001. - 464 p.
5. Suchanek F.M., Kasneci G., Weikum G. YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia // Proceedings of the 16th International Conference on World Wide Web (Banff, Alberta, Canada, May 8-12, 2007). WWW '07. - NY: ACM Press, 2007. - P. 697-706.
6. Shibaki Y., Nagata M., Yamamoto K. Constructing Large-Scale Person Ontology from Wik-ipedia // Proceedings of the 2nd Workshop on «Collaboratively Constructed Semantic Resources». - Coling, 2010. - P. 1-9.
7. Jie Bao, Paul R. Smart, Nigel R. Shadbolt, and Dave Braines. A Controlled Natural Language Interface for Semantic Media Wiki Using the Rabbit Language. In Workshop on Controlled Natural Language, 2009.
8. Hepp M., Bachlechner D., Siorpaes K. Harvesting Wiki Consensus - Using Wikipedia Entries as Ontology Elements // Proceedings of the First Workshop on Semantic Wikis - From Wiki to Semantics, Annual European Semantic Web Conference (ESWC 2006). - 2006. - P. 124-138.
9. Cui G.Y., Lu Q., Li W.J., Chen Y.R. Corpus Exploitation from Wikipedia for Ontology Construction // Proceedings of the Sixth International Language Resources and Evaluation (LREC 2008). - Marrakech, 2008. - P. 2125-2132.
10. Rabchevskii, E.A. Automatic ontology construction based on lexical and syntactic patterns for information retrieval // Proceedings of the 11th Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections" - Petrozavodsk, 2009. - P. 69- 77.
11. Naikhanova, L.V., Methods and models of automatic construction of ontologies based on genetic and automata programming, Extended Abstract of Doctoral (Techn.) Dissertation, Krasnoyarsk, 2008. - 36 p. (in Russian).
12. Mozzherina, E.S., Automatic construction of ontologies from collections of text documents // Saint-Petersburg State University. 2011. (in Russian).
13. Tuzovsky A.F. Work with an ontological model of organization on the basis of Description Logic // Bulletin of the Tomsk Polytechnic University. - 2006. - V. 309. - № 7. - P. 134-137
14. Gutiererz F., Dou D., Fickas S., and Griffiths G. - Online Reasoning for Ontology-Based Error Detection in Text // Computer and Information Science Department University of Oregon, 2014.
15. Hoehndorf, R., Dumontier, M. A common layer of interoperability for biomedical ontologies based on OWL EL // Bioinformatics, 2011.
16. Makhasoeva O.G., Palchunov D.E. Semi-automatic methods of a construction of the atomic diagrams from natural language texts // Vestnik NSU: Information Technologies - 2014. Vol. 12, No. 2, p.64-73. - ISSN 1818-7900 (in Russian).
17. Makhasoeva O.G., Palchunov D.E. Program system for the construction of the atomic diagram of a model from natural language texts. (in Russian). Certificate of the State Registration of the computer program. No. 2014619198, registered 10.09.2014.
18. Keisler G., Cheng C. C. Model theory. - M .: Mir, 1977. - 615 p.
19. Palchunov D. E. Modelirovanie myshleniya i formalizaciya refleksii. I: Teoretiko-model'naya formalizaciya ontologii i refleksii [Modeling of reasoning and formalization of reflec-
tion I: Model theoretical formalization of ontology and reflection]. Filosofiya nauki, 2006, no. 4 (31), p. 86-114. (in Russian).
20. Palchunov D.E. Virtual catalog: the ontology-based technology for information retrieval. // In: Knowledge Processing and Data Analysis. Lecture Notes in Artificial Intelligence (LNAI), Springer-Verlag Berlin Heidelberg, Volume 6581, 2011, p. 164-183.
21. ORE Live Competition. URL: http://dl.kr.org/ore2015/vip.cs.man.ac.uk_8008/live.html.
22. A. Steigmiller, T. Liebig, and B. Glimm. Konclude: system description. Web Semantics: Science, Services and Agents on the World Wide Web, 27:78-85, 2014.
23. Glimm, B., Horrocks, I., Motik, B., Shearer, R., Stoilos, G.: A novel approach to ontology classification. J. of Web Semantics, 2011.
24. Horridge M., Bechhofer S. The OWL API: A Java API for OWL Ontologies //School of Computer Science. 2009.
25. Jeremy J. Jeremy J. Carroll, Dickinson I.: Jena: Implementing the Semantic Web Recommendations, 2004.