Фактографический анализ полнотекстовых баз данных в задачах мониторинга научно-технической информации по физическим наукам

Вохминцев Александр Владиславович; Мельников Андрей Витальевич

Вестник Челябинского государственного университета. 2012. № 14 (268). Физика. Вып. 13. С. 91-97.

методические ЗАМЕТКИ

А. В. Вохминцев, А. В. Мельников

фактографический анализ полнотекстовых баз данных

В задачах МОНИТОРИНГА НАУЧНО-ТЕхНИЧЕСКОЙ ИНФОРМАЦИИ

ПО ФИЗИЧЕСКИМ НАУКАМ

Рассмотрены методы извлечения фактов (объектов, их атрибутов, отношений между объектами) из текстовых документов на естественном языке на основе онтологических моделей знаний

Ключевые слова: базы знаний, полнотекстовые базы данных, дерево синтактико-семантиче-ских зависимостей, тезаурус, извлечение фактов, фактографическая модель данных, семантические сети, онтологии, компьютерная лингвистика, data mining, text mining.

В современном мире значительная часть научно-технической информации является открытой, особенно в стадии формирования идеи, обсуждения и апробации, чем пользуются службы контрразведки государств и коммерческих компаний при промышленном проектировании либо при продвижении наукоемкой продукции на рынке . Источниками информации для экспертов от разведки являются прежде всего электронные ресурсы: Интернет (научные статьи, тезисы докладов конференций, промышленные и бизнес-новости, специализированные информационные ресурсы), проектно-конструкторская документация, офлайн-хранилища статей в научно-технических библиотеках, социальные сети (онлайн-конференции, форумы, блоги) .

Существующие методы и технологии анализа естественных текстов обладают множеством ограничений, связанных с тем, что разработанные на их основе поисковые системы, системы документооборота либо информационно-аналитические системы класса Text Mining, предназначены для решения универсальных задач и практически не способны работать с семантикой текста . Вместе с тем морфологический поиск, тематический поиск или метод поиска. основанные на использовании деревьев синтак-тико-семантических зависимостей, не позволяют осуществлять поиск документов по смыслу В прикладной лингвистике под семантикой понимается информация, связываемая со словом, например, через тезаурус или толковый словарь . Исследования в области семантического анализа полнотекстовых документов ведутся давно, среди которых следует отметить трансформационную грамматику Хомского, предикатно-аргументные структуры Филмора, модель концеп-

тов Шэнка и модель «Смысл—Текст» Мельчука . В работе Хомского реализован подход, связанный с исследованием глубинной синтаксической структуры предложения, построением дерева синтактико-семантических зависимостей и обнаружение семантических аномалий . В работах Филмора и Шэнка впервые введены понятия концепта и фрейма, которые представляют собой структуры типа «предикат—аргумент» с указанными ролями, например, агент, объект, адресат, источник, средство . Большой интерес вызывают работы Мельчука, который создал теорию языка, основанную на многоуровневом преобразовании смысла в текст и обратно . Отличительной особенностью данной теории является использование синтаксиса зависимостей и толково-комбинаторного словаря, прародителя современных тезаурусов и онтологий Модель «Смысл О Текст» лежит у истоков современной семантики

Задача семантического анализа документов на естественном языке является весьма сложной и в общем случае связана с построением систем с искусственным интеллектом, проведением глубинного семантического анализа текста на основе базы знаний предметной области Создание базы знаний о знаниях человечества является одной из фундаментальных проблем прикладной лингвистики и инженерии знаний Кроме трудоемкости данной задачи, возникают проблемы, связанные с изменением во времени объекта исследования и проблемы качества экспертных моделей . На сегодняшний день все работы в области построения баз знаний связаны с ограничением предметной области и выделением прикладных поисковых задач . В рамках поставленной ранее проблемы — анализ

научно-технической информации — возможно описание конкретной специализированной предметной области и построение на основе нее научно-технической базы знаний . Для интеграции профессиональных научно-технических знаний необходимо разработать:

• модель метатекста естественного языка, представляющую текстовую информацию в формализованном виде;

• методы преобразования метатекста в базу знаний [1];

• модель знаний в виде онтологии, описывающей предметную область;

• методы извлечения фактов из базы знаний

Модель метатекста естественного языка.

Модель метатекста построена на основе коммуникативной грамматики русского языка, главным принципом которой является взаимосвязь синтаксиса и семантики: синтаксис должен изучать осмысленную речь, в то время как значения слов должны использоваться при проведении синтаксического анализа текста . В основе модели метатекста лежит понятие факта, в котором заключена минимальная единица смысла высказывания . Фактом назовем элементарную синтактико-семантическую единицу языка, которая соответствует некоторому элементарному смыслу в модели знаний и имеет набор морфологических, фонетических, синтаксических, семантических и функциональных свойств

Факты могут находиться между собой в отношениях: иерархии (HIR), транзитивности (TRA), включения (TAR), объединения (UN), пересече -ния (INSEL), субъекта (SUB) .

Отношения, построенные на множестве фактов, являются отражением их семантических связей, таким образом, семантика предложения определяется множеством входящих в него фактов

Опишем последовательность анализа текстового документа на естественном языке . Для поставленной прикладной задачи необходимо разработать формализованную модель естественного текста, на основе которой будет осуществляться преобразование текстового документа в дерево синтактико-семантических зависимостей с выделением фактов (фактографический анализ текстового документа)

Технология фактографического анализа текста основана на представлении его содержания в форме семантической сети . Семантическая сеть содержит значимые слова или факты, упоминав-

шиеся в тексте, которые соединены друг с другом различными типами синтактико-семанти-ческих связей . При этом элементарная семантическая сеть является результатом синтаксического анализа и семантических (постсинтакси-ческих) преобразований дерева синтаксических зависимостей между словами в отдельном предложении . Полная семантическая сеть текстового документа на естественном языке есть совокупность отдельных семантических сетей, соответствующих предложениям Данное утверждение справедливо для определенной группы языков, к которой можно отнести русский и английский языки

Представление содержания текста в форме семантической сети позволяет абстрагироваться от многих особенностей его коммуникативной организации и сложных смысловых связей, к которым можно отнести анафорические и понятийные связи, основанные на предыстории объектов в тексте Модель факта задается множеством лингвистических описаний — шаблонов, каждый из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому способу описания ситуации в тексте . Основными элементами лингвистических описаний являются:

• ключевые объекты факта;

• дополнительные объекты факта;

• сценарий факта

Поиск факта представляет собой поиск в семантической сети текста такой подсети, которая изоморфна одному из шаблонов . Если подсеть найдена, факт считается установленным, после чего производится извлечение понятий (объектов и их свойств) и их маркировка ролями, заданными в соответствующих узлах лингвистических описаний . Таким образом, результатом поиска является имя (типа) факта и набор указателей на сущности семантической сети с указанием соответствующих им ролей в лингвистическом описании

Приведем пример семантической сети для предложения: In November 2003, charged particles accelerator at PEP-II, Stanford, was invented by Ivanov (рис . 1) .

SUB->A0: Name =”invented” and

SemanticType=”Verb’;

SUB->A1: Name=”transaction” and

SemanticType =”Event”;

EVENT->A2: (Name=”accelerator” or

Name=”accelerator charged particles” or

Рис. 1. Дерево синтактико-семантических зависимостей предложения

Name=”accelerator charged particles in thePEP-II”) and SemanticType=”Event”;

SUB->A3: Name=”Ivanov” and

SemanticType=”Person Name;

SUB->A4: Name=” Stanford” and

SemanticType=”Organization”;

TRA->A5: (Name=”action” or Name=” in thePEP-II”) and SemanticType=”Event”;

UN->A6: Name = “In November 2003” and SemanticType=”Time”;

HIR->A7: Name=” PEP-II” and SemanticType=” Invention”;

HIR->R1: RelationName =”argument” and RelationCase=”V”;

HIR->R2: RelationName=”argument” and

RelationCase= “and” and RelationRole=”subject”;

HIR->R3: RelationName=”circumstance”;

HIR->R4: RelationName=”argument” and

RelationCase=”D” and RelationConnector=”on”;

HIR->R5: RelationName=”argument” and

RelationRole=”subject”;

UN->R6: RelationName = “argument” and RelationCase= “R” and RelationConnector=”by”;

UN->R7: RelationName =”argument” and RelationCase =”R” and RelationRole=”object”;

UN->R8: RelationName=”Accessory” and

RelationCase =”R”

Смысловая связь через глаголы и его формы между именами собственными (местоимениями) имеет место только при отношениях посредством простых предложений, причастных, деепричастных оборотов, сложноподчиненных предложений либо инфинитива и герундия в английском языке. В остальных случаях можно говорить об ассоциативных отношениях между именами собственными (местоимениями) с некоторой степенью силы отношения .

Опишем сценарий определения фактов в тексте и множества отношений на них . Для этого введем следующие определения:

Лексема-----последовательность символов,

представляющая элементарную единицу текста.

Объект — цепочка лексем или объектов, удовлетворяющая заданным ограничениям и обрабатываемая компонентом как единое целое . В состав объекта могут входить другие объекты .

Атрибут объекта — свойство объекта, к которому применимы операции сравнения и присвоения . Атрибуты могут автоматически

связываться с объектом при анализе текста, а также могут определяться пользователем

Описание объекта — набор всех его атрибутов, несущих информацию об особенностях написания объекта, его морфологических, грамматических и семантических характеристиках

Выделение объекта — объединение цепочки лексем, соответствующей распознанному объекту, в новый объект с присвоением ему заданного описания

Правило выделения объекта — пара вида «Образец—Описание», записанная на формальном языке и формирующая заданное описание объекта в случае его выделения в соответствии с образцом

Целевой объект — конечный объект, выделяемый компонентом для задач пользователя в соответствии с заданным правилом обработки

Этап 1 . Морфологический анализ . На этапе морфологического анализа в тексте распознаются слова и разделители, терминалы, стоп-слова . Затем для каждого слова на основании его морфологии определяется список всех возможных грамматических словоформ . Словоформы, соответствующие одной тройке (нормальная форма слова, часть речи, число), объединяются в лексемы

Этап 2 . Синтаксический анализ . Основной задачей синтаксического анализа в нашем случае является установление различных зависимостей между лексемами и выделение объектов На вход синтаксического анализатора подается предложение, которому в соответствие поставлены лексемы, полученные на этапе морфологического анализа В процессе синтаксического анализа строится множество вариантов предложений в виде списка деревьев синтаксического подчинения, а затем на основании эвристического алгоритма выбирается один вариант Результатом выполнения синтаксического анализа является дерево синтактико-семантиче-ских зависимостей предложения

Этап 3 . Фактографический анализ . Основной задачей фактографического анализа является извлечений фактов текста и установление семантических связей между ними . Основной структурой факта является действие, которое в предложении обычно передается посредством глаголов, причастий, деепричастий, но в некоторых случаях с помощью сложных конструкций — анафорических глагольных связей, именных предложений и т. д . Фактографический анализ

состоит из трех основных подэтапов На первом подэтапе производится определение объектов и их свойств, выделяются ключевые и дополнительные объекты факта На втором подэтапе определяется синтаксическая сочетаемость каждого глагола с выделенными объектами, а также устанавливается то, как могут быть связаны между собой объекты, которые соответствуют именным лексемам На третьем подэтапе производится маркировка объектов ролями и выбор сценария фактов

Модель знаний в виде онтологии. Пусть X = {х.}, г = 1, п — конечное множество семантических объектов, где п — количество объектов в модели знаний и Е = {ек}, к = 1, т — множество семантических отношений; А = {а.}, / = 1, р —

множество допустимых атрибутов и ¥ = {уб },5 = 1,1 — множество правил вывода .

Тогда онтологией назовем кортеж Н = 1^X, Е, А, ^ .

Объект онтологии имеет следующие свойства: название, синонимы, классы объекта, матрица отношений, факты [2] . Свойство «название» является уникальным для каждого объекта онтологии и позволяет идентифицировать объект при извлечении ассоциаций из естественного текста Свойство «синонимы» позволяет устанавливать связи между объектами онтологии на основе их принадлежности к одному субъекту в реальном мире, например, Россия, РФ . Свойство «классы» объекта устанавливает принадлежность объекта к определенному классу предметной области в пределах одного документа. Свойство «матрица» отношений содержит информацию об отношениях объекта с другими объектами, при этом в матрице отношений определяются интегральное отношение между объектами Я5- и все существующие дифференциальные отношения между объектами ЯЛ. . Степень связности объектов в отношениях

J

измеряется силой отношения . Свойство «факты» содержит список фактов с данным объектом, полученных в результате извлечения ассоциаций из текста

Объекты онтологии связаны друг с другом семантическими отношениями, которые имеют следующие свойства: тип отношения, сила отно -шения, параметры ассоциации, ссылки

Методы извлечения фактов из базы знаний. В данной работе остановимся на методах извлечения фактов из базы знаний, построенной на основе онтологии [3] . Рассмотрим следующие методы:

Метод «глубина транзитивных отношений» определяет множество объектов, достижимых из объекта х. (объект анализа) при помощи нечетких цепей С~ (х., х ) с максимально допустимой длиной q Ограничение длины нечеткой цепи необходимо, так как большинство семантических объектов являются транзитивно связанными друг с другом через 5-7 отношений в онтологии

Метод «принадлежность объекта к классу» определяет принадлежность классов объектов в описании семантического объекта axJlass object к

классам модели знаний с = {с с ..., см}, c i2 = = 1, M для каждого уровня глубины транзитивных отношений, где M — количество классов в модели знаний

Метод «сила отношения» в общем случае применяется отдельно для каждого отношения R(H )Z-A между семантическими объектами ха, хр .

Метод устанавливает принадлежность силы отношения между объектами

лингвистиче-

height rel =MR(fff-A (xa> xp) к терму

ской переменной (А, В1, ..., Вр), соответствующей данному отношению и имеющей в качестве значений степень связности между объектами . Дополнительно для каждого терма лингвистической переменной может определяться и степень принадлежности, которая преобразует нечеткую сеть отношений в онтологии Н для данного отношения Я (Н )£-А к нечеткой семантиче -ской сети отношений ^-уровня

Н 8 Н>“=( X, £Г>“'

Метод «тип отношения» определяет принадлежность типа отношения а^уре ы между семантическими объектами ха, Хр к одному из типовых отношений в модели знаний

Данные методы могут использоваться как по отдельности, так и в различных комбинациях, которые определяются типом фактов, извлекаемых из текстовой информации На выбор методов извлечения ассоциаций в некоторых случаях влияет знание о предполагаемой структуре отношений в базе знаний

Метод «Глубина транзитивных отношений» [4] основан на определении достижимости семантического объекта х из другого семантического объекта ха(/ = а) при помощи нечетких цепей длины д. Матрица достижимостей Я° определяется следующим образом:

11, если вершина х,■ достижима из ха

I 0, если вершина х, не достижима из ха

Множество семантических объектов, достижимых из х определяется выражением

Я() = К } и Г(Ха ) и иг2( ха ) и ... и Г * -1( ха ) и Г * (ха ).

Для построения матрицы достижимостей Я° определяем множество Я(ха). Тогда, если х. е R(xа), положим г, = 1, иначе г.. = 0 . Таким образом, для последующего анализа по данному методу отбираются семантические объекты х,, которые достижимы из ха . В соответствии с определением подграфа онтологии для дальнейшего анализа отбираются все отношения ек, для которых

выполняется условие:

X/ = 1Ха,х]-}, X./ е Хр, Г> (X./ ) = Г(х./) П Хр .

Пример исключения информации по методу «глубина транзитивных отношений» ^ = 2) приведен на рис . 2 . Метод «принадлежность семантического объекта к классу» выполняется для каждого уровня д — глубины транзитивных отношений . Если класс (классы) не определен для некоторого уровня 0 < / < д, то для последующего анализа отбираются все семантические объекты х\ /-уровня . Иначе необходимо проверить

условие: a^ssobject П c1 ^0,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где с1 = { Сх, с2,..., cs}, сх, i = 1, 5, c1 с {c1, c2, . . . , cM} — множество классов /-уровня, определяемое аналитиком

Если семантический объект х\ принадлежит хотя бы одному из классов во множестве, то данный объект отбирается для дальнейшего анализа, иначе объект исключается из базы знаний При этом в свойстве семантического объекта adass object специальным маркером выделяются

классы, входящие в множество c/

Метод «Сила отношения» применяется отдельно для каждого отношения R(H)Z-A.

Аналитик определяет значение лингвистической переменной, соответствующей данному отношению:

— для интегрального отношения Я(Н)Е: А ;

БІ

щ

Рис. 2. Применение метода «Глубина транзитивных отношений»

1 = (х*а, ц\ Г,()\Г22(

Г? (Ха )*, Л*, Б1*, В2*,..., Бр\ В '*, X

*

где ха — параметр «семантический объект анализа»;

*

д — параметр «длина нечеткой цепи»;

Г1 (х«)* = (С1 >С2* > •••> СГ>х*р) — кортеж пара-

I*

метров, где с^ — параметр «класс /-уровня»;

*

для дифференциального отношения Я( Н ^:

— для дифференциального отношения Я( Н )А.

Если значение лингвистической переменной не определено для отношения Я( Н )Е-Л, то все отношения между семантическими объектами, для которых выполняется условие

~ Н)1~А (X ’х]) > \* ф ^,

исключаются из

дальнейшего анализа . Поэтому для того, чтобы осуществлять анализ информации в базе знаний, хотя бы для одного отношения Я(Н)Е-Л должна быть определена сила отношения . Таким отношением обычно бывает интегральное отношение Я( Н )Е .

Для достижения эффективности работы методов извлечения фактов из базы знаний необходимо первым применять метод «глубина транзитивных отношений», порядок применения остальных методов не регламентируется Методы извлечения фактов управляются соответствующими параметрами извлечения фактов, тогда запрос к базе знаний на основе онтологии можно представить в виде кортежа [5]:

р - параметр «конкретный семантическии объект»;

А ={Ач, О , *¥ — кортеж параметров, где

А* — параметр «значение лингвистической переменной А”; О* — параметр «степень принад-

*

лежности»; ¥ = {=, >, <, >, <} — параметр стратегии отбора по методу «сила отношения»;

вр —

кортеж параметров, где

параметр «значение лингвистической пе-

ременной ВР »; О* — параметр «степень принад-

*

лежности»; ¥ = {=, >, <, >, <} — параметр стратегии отбора по методу «сила отношения»;

Я1 = {Я/ ,Я^ я!2 } R— параметр «типо-

X,, І = 1, У —

вое отношение»; X = {х1, х2,..., .у , ..], параметр «множество объектов, подлежащих исключению из анализа»

Рис. 3. Пример профессионально ориентированной базы знаний на основе онтологии

Список литературы

1 . Вохминцев, А. В. Фактографическая модель данных как основа системы подготовки 1Т-специалистов в рамках концепции «Электронный университет» / А . В . Вохминцев, А . В . Мельников // Интеллектуальные системы управления / под ред . С . Н . Васильева . М . : Машиностроение, 2010. 544 с.

2 . Захарова, И. В. Об одном подходе к реализации семантического поиска документов в электронных библиотеках / И . В . Захарова, А . В . Мельников // Вестн. Уфим . гос. авиац. -техн. ун-та. Сер . Упр . , вычисл . техника и информатика. Уфа, 2010 .

3 . Вохминцев, А. В. Применение онтологических моделей и фактографического анализа естественного текста в задачах конкурентной разведки / А В Вохминцев, А В Мельников // Системный анализ и информационные техно-

логии : сб. науч . тр. Четвертой междунар. конф. (Абзаково, Россия 17-23 авг. 2011 г.) : в 2 .Т. 1 . Челябинск : Изд-во Челяб. гос . ун-та, 2011 . 81-87 с .

4 . Voxmintsev, A . V. Integration of proffessional knowledge bases with the help of factual analysis and ontological models // Компьютерные науки и информационные технологии : сб . тр . 13-й Междунар. науч . конф. , Garmisch-Partenkirchen, Germany (The 13th International Workshop on Computer and Information Technologies — CSIT’2011) . Уфа : Изд-во УГАТУ, 2011 . 61-66 с .

5 . Voxmintsev, A . V. Application of ontological models and factual analysis in the field of business intelligence / A . V. Voxmintsev, A . V. Melnikov // Информационные технологии и системы : сб науч . тр. Первой междунар . конф. (Банное, Россия, 28 февр. — 4 марта 2012 г.) Челябинск : Изд-во Челяб. гос . ун-та, 2012 . 20-26 с .

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вохминцев Александр Владиславович, Мельников Андрей Витальевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вохминцев Александр Владиславович, Мельников Андрей Витальевич

Текст научной работы на тему «Фактографический анализ полнотекстовых баз данных в задачах мониторинга научно-технической информации по физическим наукам»