Научная статья на тему 'Извлечение причинно-следственных закономерностей из естественно-языковых текстов'

Извлечение причинно-следственных закономерностей из естественно-языковых текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Маслов П. П.

В работе рассматриваются методы анализа текстов на естественном языке. Предложены: 1) модель представления причинно-следственных связей текста на русском языке; 2) применение извлекаемых связей в качестве экспертных высказываний в алгоритме предсказания экстремальных ситуации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper considers analysis methods of texts in natural language. It proposes 1) the model of cause-and-effect relations in Russian text; 2) application of derived relations as expert statements in the algorythm of extremal situations forecasting.

Текст научной работы на тему «Извлечение причинно-следственных закономерностей из естественно-языковых текстов»

УДК 004.82

ИЗВЛЕЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ ЗАКОНОМЕРНОСТЕЙ ИЗ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

© Маслов П.П.

Новосибирский государственный технический университет

факультет прикладной математики и информатики

пр-т К. Маркса, 20, г. Новосибирск, 630092, Россия e-mail: mpp84@rambler.ru

Abstract. The paper considers analysis methods of texts in natural language. It proposes 1) the model of cause-and-effect relations in Russian text; 2) application of derived relations as expert statements in the algorythm of extremal situations forecasting.

Введение

Для современного состояния информационных систем и информационных ресурсов характерны всевозрастающие объемы неструктурированной информации, которая представлена различного рода текстовыми документами на естественном языке (ЕЯ).

Эффективность системы обработки естественного языка (ОЕЯ) определяется ее целями и методами, применяемыми для формализации и обработки ЕЯ-информации. Системы ОЕЯ, ориентированные на извлечение определенного смысла из текстов, в той или иной степени используют синтактико-семантические объекты текста. Среди работ в этой области необходимо отметить такие как «Модель извлечения фактов из естественно-языковых текстов и метод ее обучения» [1] ; систему комплексного смыслового анализа <• Text Analyst > [2]; «методы и программные средства для анализа документов на основе модели предметной оболасти» [3]; «Диалинг» [4]. Благодаря свободнораспространяемому семантическому анализатору группы разработчиков aot.ru [5] этот программный компонент был взят за основу предлагаемого подхода.

В работе предлагается способ извлечения и описания причинно-следственных фактов из текстов жанра деловой прозы на русском языке. Актуальность работы в том, что извлекаемые факты, выражающие причинно-следственные связи, могут, например, являться источником экспертных знаний для алгоритмов предсказания экстремальных ситуаций [6].

1. Модель представления причинно-следственных фактов

Деловой прозе свойственны жесткие средства выражения, однозначность передаваемой информации, экономичность языковых средств, четкость функции каждого сообщения и другие полезные свойства. Такой жанр, как правило, содержит информацию об объектах (событиях, явлениях, лицах и т.д.), которая практически не требует дополнительных сведений для их описания и может быть представлена набором фактов содержащихся непосредственно в анализируемом ЕЯ-тексте. Под фактами, описывающими причинно-следственные закономерности, понимаются объекты текста Si G S (множество вершин именных групп (единичных лексем), сказуемых и

60

Маслов П. П.

определений, согласованных синтаксически с подлежащими), семантически связанные отношениями Rc С S х S, R \ С S х S х S и группой отношений RE С S х S. Ниже приведено более подробное описание объектов и связей между ними.

В качестве объектов будем рассматривать конечное множество S = SNV Sv V SD,

где:

1. SN = - множество вершин именных групп (единичных лексем).

2. Sy = Ы......чП - множество сказуемых, для которых выполняется

VsJ G S1', г = 1,1 : 3s f G SN согласованный синтаксически с sj .

3. SD = {sf,.^} - множество определений, для которых выполняется Vsf G SD,i = 1,т : G SN согласованный синтаксически с sf.

Введем конечное множество отношений между объектами

R = {г,. ..../•„} = Ra V Rc V RE = Ra V Rc V RED V RAD V RDC :

1. R \ = ri(sh, 4, sg) С Sv x SN x SN - множество связей, описывающих сказуемые 4, синтаксически согласованные с подлежащими sf2 и дополнениями sfz (4 или sfz по отдельности могут быть пустыми)

2. Rc = sg) С SN х SN - множество причинно-следственных связей, для которых Vs^> G SN, G SN : sf[ является семантической причиной (предпосылкой, условием и т.д.) для 43. Red = rk(si{isi2) SN х SN - множество связей, устанавливаемых между эквивалентными (посредством знаков препинания «-», «:» , таких слов-объектов как "быть", "являться"и т.д.) по тексту объектами G SN.

4. RAd = гг(5д;5й) ^ SN x SN - множество анафорических связей, таких, что s^, 4 ссылаются на один и тот же по тексту объект (в частности 4 С SPN С SN, где SPN - множество именных групп (единичных лексем) с местоимением в качестве главного элемента).

5. Ii in ■ = rm(sf[,sg) С SN х SN - множество связей, таких, что эквивалентны по тексту, при этом 4 принадлежит главному , a 4 придаточному предложениям , связанным посредством таких слов-объектов, как «быть», «являться» и т.д. в сочетании с союзами и союзными словами или без таковых.

Если для объектов Sj G SN, связанных отношением Rc, существуют другие отношения Rc, RE, Ra, то в этом случае возможно выявление дополнительных причинно следственных закономерностей, элементы которых на семантическом уровне связаны иерархически (Rc,Ra), либо эквивалентны RE.

Указание свойств связей осуществляется посредством атрибутов А = а {г. v} С R х V, где V - множество допустимых значений атрибутов. Атрибуты делятся на А а С А для описания свойств симметричности, транзитивности, рефлексивности и т.д. и, Ау С А для указания значении стандартных типов (string, float, integer), например, для указания вероятностных характеристик причинно-следственных связей.

Введем подмножества SfN,...,S^N для которых существуют симметричные, рефлексивные и транзитивные отношения RE. На каждом подмножестве необходимо определить число //,. г = 1, l&f^l, р = l,h вхождений в текст данной лексемы.

«Таврический вестник информатики и математики», №2'2008

Извлечение причинно-следственных закономерностей .

61

В каждом множестве выделяются подмножества <5,fSiV, состоящие из имен собственных (имена, географические названия и т.п.). Множество упорядочивается следующим образом: {sb ..., sg, sg+i,..., Sf}, si,...,sg G S%SN, sg+i,...,sf G S^N\S^SN,

W = ТБШ], w(Si) > w(,St+1). lD/i I

Упорядоченные указанным способом наборы лексем являются аргументами причинно-следственных фактов выводимых из текста, где каждый такой набор эквивалентных объектов помечается уникальным идентификатором. Формирование результата осуществляется за счет поиска всех возможных подстановок в аргументы причинно-следственных связей Rc, с учетом упорядочения объектов. При этом в первую очередь выводятся факты, аргументы которых имеют максимальный вес, затем соответственно по уменьшению весов. Для причинно-следственных связей nis^S^.-Ms^S^), где для аргумента-следствия (результата) 1-й связи и аргумента-причины (предпосылки, условия и т.д.) I + 1-й существую эквивалентные отношения RE, выполняется аналогичный вывод, упорядоченный в соответствии с количеством связей Rc, обладающих указанными условиями. Это позволяет упорядочить факты в зависимости от того является ли объект непосредственной причиной в факте или косвенной (аналогично для результата), а также от весов объектов.

Заключение

В настоящее время предлагаемый подход находится в стадии практической реализации, и выполнен в виде системы логического вывода причинно-следственных закономерностей в среде разработки PDC Visual Prolog 5.2. На данном этапе реализованы отношения Rc, Ra, Red, частично выполнены учет весов объектов и атрибутов первого типа. Помимо указанного выше способа упорядочения объектов в наборах в дальнейшем предполагается использовать метод извлечения доминантных словосочетаний [7].

список литературы

1. Андреев A.M., Березкин Д.В., Симаков К.В. Модель извлечения фактов из естественноязыковых текстов и метод ее обучения // 6-ая Всероссийская научная конференция RCDL'2004.

2. Text Analyst tm, Microsystems, Ltd. http://www.analyst.ru/

3. Сидорова E.A. методы и программные средства для анализа документов на основе модели предметной оболасти: Дисс. ... канд. ф.-м. наук: 05.13.11. - Новосибирск, 2006. - 125 с.

4. Группа разработчиков aot.ru Проект русско-английского машинного перевода «Диалинг» // http: //www.aot.ru.

5. Группа разработчиков aot.ru Пример вызова поверхностной семантики на Delphi // http://www.aot.ru/docs/delphi_seman_test.html.

6. Лбов Г.С., Бериков В.Б. Прогнозирование экстремальных ситуаций на основе анализа многомерных разнотипных временных рядов и экспертных высказываний / / Материалы всероссийской конференция с международным участием "Знания-Онтологии-Теория"(30HT-07), том 1, С. 59-62.

7. Чаныигев О.Г. Автоматическое извлечение доминантных словосочетаний // Материалы всероссийской конференция с международным участием "Знания-Онтологии-Теория"(30HT-07), том 1, С. 236-245.

Статья поступила в редакцию 30,04-2008

«Тавр|йський В1сник ¡нформатики та математики», №2'2008

i Надоели баннеры? Вы всегда можете отключить рекламу.