Но5(17)2008
И. С. Лебедев
Вычисление семантической составляющей
текстовой информации в экономических информационных системах
Формализация естественного языка (ЕЯ) приобретает огромную актуальность в связи с развитием глобальных вычислительных сетей и формированием больших объемов распределенных данных, представленных в виде текстовой информации. Несмотря на то что в экономической деятельности огромную роль играет структурированная информация, представленная в виде различных сводок и графиков, более 80% документооборота, необходимого для принятия решений, представляют собой материалы именно текстового характера.
Существует огромный класс информационных систем в экономической деятельности, где необходим анализ естественно-языковых конструкций. Прикладная область, в которой применяется обработка ЕЯ, накладывает определенные ограничения на представление в них информации.
Цель обработки конструкций ЕЯ состоит в том, чтобы по запросу выдать информацию, адекватную на семантическом уровне. Причем в зависимости от модели диалога, структур, алгоритмов обрабатываемая и выдаваемая информация может быть словом, синтаксической конструкцией, предложением или частью связанного текста.
Развитие глобальных вычислительных сетей, информационно-поисковых систем потребовало реализации моделей представления текстовых документов и алгоритмов поиска информации в них. Наиболее часто используются вероятностные, теоретико-множественные и алгебраические модели. Однако подавляющее большинство этих моделей делает упор в основном на скорость обработки и зачастую осуществляет обработку запросов на естественном языке на самом примитивном уровне. В противовес им существует ряд других моделей, ориентированных на смысловой поиск («Смысл-Текст», GATE). Одной из моделей,
имеющих практическую реализацию, является формализованная модель, предложенная В.А. Тузовым.
В основе этой модели языка лежат следующие утверждения:
1. Язык представляет собой алгебраическую систему{£,, f2,..., ^, M}, где fi( = 1,..., п)— базисные функции на языке; М—структура языка, представляющая собой набор базисных понятий m1,...,mr, количество которых г > 3000, и их иерархию.
2. Каждое предложение языка можно представить в виде суперпозиций базисных функций fj, через которые выражается и каждое слово языка, за исключением базисных понятий.
3. Каждая часть речи играет вполне определенную роль в организации синтаксической структуры предложения.
4. Грамматика неразрывно связана с семантикой языка и представляет собой семантический словарь. Каждое слово описывается в виде семантической формулы, состоящей из базисных функций.
5. Усвоение языка компьютером есть построение и пополнение семантического словаря.
На основе этих утверждений была создана формализованная модель естествен-
81
N95(17)2008
ного языка, содержащая семантический словарь русского языка объемом 120 000 слов, который включает более 15 000 терминов и словарных статей экономической предметной области, и анализатор, который позволяет практически по любому произвольному предложению построить его дерево.
Функционирование системы, обрабатывающей ЕЯ, заключается в том, что на вход анализатора подаются текст и запрос, которые преобразуются анализатором в объекты и семантические формулы. Для сравне-I ния текстовой информации и запроса необ-& ходимо построить сети отношений между £ объектами текста, реализовать правила | сравнения объектов и семантических фор-§ мул. На основании этих сравнений затем
| делают вывод о совпадении. &
§■ Построение
| анализируемых структур
$3 Как было сказано выше, в основе мо-
| дели естественного языка профессора
| В.А. Тузова лежат семантический словарь
<5 русского языка и семантико-синтаксиче-
!| ский анализатор, способный по предложению построить его дерево или граф. В ре-
г
^ зультате анализа текст на русском языке
§■ приобретает вид функциональной записи
>§ на некотором семантическом языке.
<§ Благодаря морфологическому анализу
| можно получить полный морфологический описатель (тип, род, число, падеж, время
Ц и т.д.) произвольной формы слова. Этот
| морфологический описатель является ос-
¡§ новным материалом для построения фор-
о мализованного предложения.
В каждом простом предложении русско-
§ го языка есть слово, как правило, единст-
| венное, на котором держится все предло-
| жение. Если его убрать, то предложение
8 разваливается или превращается в предло-
| жение с другим смыслом. Таким централь-
§ ным словом предложения часто оказывает-
| ся глагол. Но далеко не только глагол.
о§ Предложение Ему нечего финансировать держится на слове нечего. Центром может
82 у
быть и пустое слово. Например, Финансовый кризис в США.
Центром предложения является самая внешняя функция суперпозиции. Если суперпозиция имеет вид ^(4^,..., xn), то выбрасывание центрального слова ^ преобразует исходное предложение в другое —
frL(x 1,..., Xn ).
Одна из первых проблем синтаксического анализа — нахождение центрального слова предложения. В основу построения формулы предложения ложится информация о слове как о части речи. Именно благодаря этой информации определенные информационные единицы в совокупности предложений обладают конкретными связями.
С точки зрения построения естественно-языкового интерфейса огромный интерес представляет формализация связей между элементами предложения. В зависимости от того, какими частями речи являются образующие их слова, можно говорить о вопросах, задаваемых от одного слова к другому. Например, от существительного к прилагательному на основе морфологических признаков может быть поставлен вопрос какой?, а в обратном направлении — кто?(что?).
Вопросительные слова, условно формализующие связи, можно разбить на две группы. Первая группа представляет собой падежные вопросы (кто? что? кого? чего? кому? чему? кем? чем? о ком? о чем?). Эта группа вопросов практически однозначно определяется предложно-падежной формой. Ее формализация зависит только от морфологической информации. Зная, в каком падеже стоит, например, существительное или прилагательное, всегда можно подобрать вопрос падежа и сформулировать вопрос к словоформе или словосочетанию.
Вторая группа — это смысловые вопросы, которые гораздо сложнее анализировать, но именно они дают максимальный объем информации для анализа. Вычисляя их семантику, можно определять, напри-
№5(17)2008
<5
Л
cj SS
Рис. 1. Связи между единицами графа слов текста
мер, пространственные, временные и другие характеристики.
Для формализации смысловых вопросов используется набор классов существительных, рядом с которыми ставятся предлоги [1, 2].
Однако для их быстрого и эффективного вычисления необходимо вычленить элементарные структуры, внутри которых можно описать связи. В данном примере в качестве элементарной единицы рассматривается многоугольник, изображенный на рис. 1.
Вершины этого многоугольника по отношению к предложно-падежной форме существительного PredPS составляют глагол G, прилагательное Pril, предлог Predi, существительные S, наречие Nar. Стрелками показаны направления вопросов, задаваемые от одной части речи к другой. По любому предложению естественного языка можно построить предикат, где в большинстве случаев за его основу берется глагольная функция G2 (xb...,xn), где аргументы x.,,...,xn могут быть различными частями речи [2].
Построение формулы предложения состоит в том, чтобы определить каждый аргумент предложения и каждому слову приписать его семантико-грамматический тип. В случае построения такого предиката каждому аргументу можно задать, с одной стороны, вопрос от глагола, который будет определяться морфологической информаци-
ей, что позволит использовать падежный вопрос, а с другой — смысловой вопрос, находящийся в прямой зависимости от семантики слова.
Описание глагольных функций
В формальном языке глагол идентифицирует собой действие. Формальное определение этого понятия имеет вид:
1(Х1, Х2,..., Хп ) = {Р; 1 /2 ,■■■, т},
где / — символ (идентификатор) действия; х1,х2,...,хп — аргументы, являющиеся именами объектов и действий; Р — последовательность суперпозиций базисных функций или уже описанных функций, выражающая сущность действия;
— признаки этого действия [1].
В работе [1] утверждается, что множество действий и множество объектов, описывающих существительные, имеет иерархию от более общего к более конкретному. Для действия определено около десятка свойств:
• интенсивность;
• скорость;
• продолжительность;
• завершенность;
• совместность;
83
N95(17)2008
• многократность;
• постоянство;
• характеристика;
• направленность;
• полнота объекта;
• расположение объекта.
В формализованных конструкциях естественного языка роль глагольной функции заключается в связке аргументов. Общий шаблон глагольной функции можно представить в следующем виде:
| G(Z1:!Им, 12:!Род, г3:!Дат, г4:!Вин, 15:!Тв, Й Z6:!Пред)
^ Для организации ЕЯ интерфейсов необ-
=§ ходима формализация вопросительных
§ связей для подстановки конструкций пред-
| ложения. Поэтому наибольшую важность
& представляют минимизация глагольного
=§ шаблона, конкретизация его аргументов по
| каждой словоформе.
В любом глагольном предикате обяза-
| тельно должно быть место для потенциаль-
| ного подлежащего — существительного
<5 или объекта на базе существительного
•5 в именительном падеже. В приведенном вы-
<о ше шаблоне — это аргументZ1. Вопрос, за-
^ даваемый к этому аргументу, — кто? или
Ц что? либо перефразировка, включающая
>§ объект абстрактного класса. <э Аргументы Z2-Z6 представляют собой
§ объекты существительных предложения
в различных падежах. =г Следующий вид подставляемых в шаб-
| лон конструкций — это аргументы места
§ и времени, представленные наречиями или
§ предложно-падежными формами существительных (см. раздел «Формализация
^ смысловых вопросов»), отвечающими на
£ вопросы где? когда? откуда? куда? | Использование глагола как основной
ё функции предложения, а также других час-
| тей речи как функций позволяет находить
§ связи между словами внутри предложения. | При анализе семантико-грамматическо-го типа конструкции в предложении приоритет отдается тому смысловому вопросу,
84 у
который генерируется на основании пред-ложно-падежной формы существительного либо на основании морфологических признаков других частей речи.
Описание существительных
Существительные естественного языка обозначают объекты или явления. Согласно [1] любое существительное можно описать следующим образом:
OBJECT=
{
Praobjekt;
Singe Multo (/;,..., fn)
}
где Praobjekt — класс существительного;
Singe Multo (f,,..., fn) — характеристические функции.
Смысловые связи существительного также можно представить в виде предиката:
S(Z1:!Pofl, г2:!Дат, г3:!Вин, Z4:!Tb, Л5:!Пред)
В тексте существительные могут быть связаны между собой и составлять единый информационный объект [3].
Существительное можно сравнить с идентификатором переменной класса в языках программирования. Появление его в тексте подобно выполнению операции создания объекта, свойства которого определяются другими членами предложения.
Класс существительных представляется в виде структуры, состоящей из поля значения, которому присваивается объект текста, и полей характеристик значения, вычисляемых из текста.
КЛАСС <имя>
{
значение:=<объект>
характеристика{=<свойство объекта>/<ка-
чество объекта>
характеристика^ <свойство объекта>/<ка-
чество объекта>
}
Естественно-языковые конструкции описывают объекты и понятия текста, принадлежащие реальной действительности, и создают экземпляры этого класса.
Формализация прилагательных и наречий
Согласно философским воззрениям, каждый объект реального мира обладает своим набором характеристик. Исходя из этого, можно предположить, что каждое существительное обладает определенным набором признаков, которые позволяют идентифицировать его в тексте. Одной из частей речи, характеризующей существительное, является прилагательное. Прилагательное отвечает на вопрос какой?, а в краткой форме — каков? Например:
информация (какая?) важная
Вопрос к прилагательному может быть задан от существительного и от глагола:
приехал (каким?) повзрослевшим
Если прилагательное принадлежит классу СВОЙСТВО, то оно пополняет признак существительного:
информация СВОЙСТВО: важная
Формализация прилагательных других классов происходит по такой же схеме, характеристики признаков зависят от принадлежности к классу. Однако при анализе свойств существительных в большей степени важны атрибуты, описанные прилагательными, а не вопросы типа какой? или каков?
Аналогично прилагательным наречия также можно рассматривать как функции над глаголами. Существуют следующие виды наречий:
• признаковые;
• места;
• времени;
• направления;
• количественные.
Но5(17)2008
Признаковые наречия характеризуются §
аналогично прилагательным. В большинст- ^
ве случаев такое наречие совпадает с крат- с?
кой формой соответствующего прилага- ^ тельного:
тихо разговаривал — тихий разговор
Наречия места отвечают на вопросы где? как? Наречия времени — когда? как долго? как? Наречиям направления соответствуют вопросы куда? откуда? как? Количественные наречия играют ту же роль, что и числительные. Определяющие их вопросы: сколько? как?
Поскольку любое действие (глагольная функция) характеризуется определенным набором признаков, наречие соответствующего типа конкретизирует один из них.
Формализация смысловых вопросов
Основной материал для анализа в естественно-языковом интерфейсе поставляют существительные или объекты на их основе [3]. Если в тексте нет объекта на основе существительного или самого существительного и его синонима, которое встретилось в вопросе к тексту, то маловероятно, что в тексте будет содержаться ответ на вопрос.
Большинство вопросов, заданных в естественном виде, содержат вопросительное слово либо падежного (кто? что? кого? чего? кому? чему? кем? чем? о ком? о чем?), либо смыслового вопроса (где?куда? откуда? почему? и т.д.). Например, на вопрос к тексту, состоящий из одного вопросительного аргумента какой?, могут отвечать не только прилагательные в именительном падеже единственного числа мужского рода, но и существительные в родительном с предлогами от и из, в дательном с предлогами по, в творительном с предлогом с.
В частности, для описания смысловых вопросов необходимо приписать каждому существительному индекс некоторого класса. При описании этих классов с целью
ч 85
N95(17)2008
I й
8
I
0 §
1 и
В *
1
0
со
1
I *
0 со
¡5 £ Й
1
! Е
и
0 и
и
¡5
! и
и !
вычисления смысловых вопросов за основу было использовано описание семантики предлогов русского языка из [4]. Число классов может колебаться в зависимости от объема словаря, точности требуемого описания, но оно всегда недалеко от тридцати. Ниже приведены некоторые из них:
ДАТА, НАПРАВЛЕНИЕ, СВОЙСТВО, СОДЕРЖАНИЕ, ЭЛЕМЕНТ, ДЕЙСТВИЕ, МАТЕРИАЛ, МНОЖЕСТВО, МЕРА, ЧИСЛО, ОБЪЕКТ, ОТНОШЕНИЕ, ЧУВСТВО, ЕМКОСТЬ, РАССТОЯНИЕ, ЗАКОН, ВРЕМЯ, ЧАСТЬ, ИНФ. ИСТОЧНИК.
Каждый смысловой вопрос к существительному независимо от части речи, от которой он задается, можно выразить по формуле:
ПРЕДЛОГ+ПАДЕЖНЫЙ ВОПРОС ® Семантика слова = СМЫСЛОВОЙ ВОПРОС,
где семантика слова определяется классом, к которому принадлежит обозначаемое им понятие.
Существительное с предлогом рассматривается как единое целое. На графе рис. 2 стрелками показаны основные связи, которые необходимо формализовать для вычисления вопроса, заданного в естественной форме.
Однако, несмотря на довольно строгое применение предлога для вычисления смыслового вопроса в предложении, человек, задающий вопрос к неизвестному тексту или даже предложению, может изначально ставить его в неправильной форме, поэтому при анализе необходимо расширять варианты поиска. Исходя из этого, ниже приведен подход к формализации для некоторых смысловых вопросов. Необходимо отметить, что приводимая формализация находится в стадии внесения изменений и не является окончательной. Всего в русском языке существует около 25 вопросительных слов. В приведенном ниже примере (для вопроса почему?) демонстрируются
Существительное
Предлог
Прилагательное
Существительное (прилагательное)
Существительное
Предлог Существительное (прилагательное)
к
Предлог Существительное (прилагательное)
Глагол (Предлог Существительное (прилагательное); „)
Наречие
Рис. 2. Упрощенный алгоритм свертки предложения
смысловой вопрос, предлог с падежным вопросом, формула согласно рис. 2, показывающая часть речи, от которой задается вопрос, и особенности существительных (падеж и класс), к которым вопрос ставится.
1. Вопрос Почему?
1.1. Почему? (от чего? от кого? с чего? из чего? из-за чего?)
1.1.1. с Э образуется связь «Элемент от Э»
серый (почему? от чего? с чего? из чего? из-за чего?) от (из-за) пыли
РгИ ©
Ргэд! = от, с, из, из -за Эрад.пзд е класс «объект»
86
№5(17)2008
1.1.2. с S образуется связь «объект» прекратил (почему? от чего? с чего? из чего? из-за чего?) из-за границы
{Predi = от, с, из, из-за
G ©
SP^rafl е класс «объект»
1.1.3. образуется связь «чувство» прекратил (почему? от чего? с чего? из чего? из-за чего?) из-за неудовлетворенности (проектом)
G ©
Predi = от, с, из, из-за SWrafl е класс_«чувство»
1.2. Почему? (по чему? по кому? как?) 1.2.1. образуется связь «по закону» трактовал (почему? по чему? как?) по закону {Predi = по
л
G©
^дат.пад
е класс_«закон»
1.3. Почему? (на что? на кого?) 1.3.1. образуется связь «действие» закрыли (почему? на что? зачем?) на переучет {Predi = на
л i
е класс_«действие»
G©
|^вин.пад
1.4. Почему? (зачем?)
1.4.1. образуется связь «действие»
прекратил (почему? зачем?) за неимением де-
G©
{Predi = за
|5тв'паД екласс_«действие»
2. Вопрос Откуда?
2.1. Откуда? (от чего? от кого? из чего? из кого? с чего? из-за чего?)
2.1.1. образуется связь «объект»
прекратил (откуда?) из-за границы
{Predi = от, из, с, из-за
G©
Swrafl е класс «объект»
2.1.2. образуется связь «действие» пришел (откуда?) с ремонта {Predi = с
G©
^род.г
е класс _« действие»
Таким образом, рассмотрим два выражения, где подчиненные существительные стоят в родительном падеже:
Прекратил (финансирование) из-за неудовлетворенности
Прекратил (финансирование) из-за границы
Видно, что к первому словосочетанию можно поставить вопрос «Прекратил (финансирование) почему? от чего?» и получить в качестве ответа, например, «из-за неудовлетворенности», «от безысходности» — существительные класса «чувства» в родительном падеже. Второе словосочетание отвечает на вопрос «Прекратил (финансирование) откуда?». Его ответом будут существительные класса «объект» в родительном падеже: «из-за границы», «из банка».
После того как построен граф текста дуги, соединяющие объекты, будут принимать значения либо смысловых вопросов, либо вопросов падежей, в которых находятся объекты.
При таком подходе останется лишь выделить аргументы предложения и подставить их на место абстрактных аргументов ведущей функции.
Вычисление вопросов, которые можно задать к слову или словосочетанию, основывается на формализации и определении конструкций.
Алгоритмы работы системы
В результате обработки анализатором предложение приобретает вид функциональной записи, содержащей структуру и связи между конструкциями. Основной материал для построения формализованного предложения предоставляет семантический словарь. На основании словарной статьи семантического словаря, например, для словоформы кредитам, образованной от слова кредит, анализатором выдается следующая информация:
<5
Л
CJ =S
нег
N95(17)2008
КРЕДИТАМ КРЕДИТ
{Сущ.Муж.Неодуш$1214031~
@!ОНИ$17@Дат}
$1214031 (И:НЕЧТО$1~!Где\!Род,
г2:!Дат,
23:!заВин,
14:!наВин)
Такое представление содержит морфологическую и семантическую составляющие. Состав морфологической информа-* ции:
I
<3 • Часть речи.
£ • Число, род, падеж (зашифровывает-
| ся через конструкции типа !ОНА$17@Дат).
§ Падеж указывается явно после служебного
| символа @, род и число — через иденти-
& фикатор !ОНЪ$17 (мужской род, единст-
"Ц венное число), ОНИ$17 (множественное
| число).
<й • Класс, которому принадлежит часть
Ц речи. Начинается со служебного символа $
| (в данном примере $1214031). ¡8
I Состав семантико-синтаксической информации:
I
§■ • Класс присоединяемой конструкции
| $1214031.
<э • Аргументы 11,12, ...,Лп, которые могут
| быть присоединены.
• Возможные падежи присоединяемых
=г аргументов (!Род) или семантико-граммати-
| ческий тип (!Где), винительный с предлогом
¡§ на (!наВин) и с предлогом за (!заВин).
§ • Число, род, падеж каждого аргумента могут описываться через конструкции типа
§ !ОНЪ$17@Род. ¡5
| Обработка поданного на вход анализа-
8 тора предложения состоит в том, чтобы
| найти аргумент в семантической формуле
§ и подставить на его место нужную конструк-
| цию. Если на одну позицию претендуют несколько конструкций, то выбирается наиболее подходящая.
88 >
Получив морфологическую и семантическую информацию по каждой словоформе предложения, строим дерево (граф предложения). Причем необходимо отметить, что огромное количество одинаковых словоформ может иметь несколько значений, и программа-анализатор должен выбрать правильную альтернативу. Имея множество альтернатив, теоретически возможно осуществить полный перебор всех вариантов и выбрать конструкцию, включающую максимальное количество элементов. Однако такая задача обладает экспоненциальной сложностью, и время выполнения ее алгоритмов существенно возрастает при увеличении количества слов в предложении. Поэтому, для того чтобы избежать подобного эффекта, разработана система приоритетов. Рассмотрим ее в упрощенном виде, не акцентируя внимание на таких частях речи и предложения, как числительные, союзы, частицы, причастия, деепричастия, подчиненные предложения.
Рассмотрим простое распространенное предложение, в котором могут содержаться (или не содержаться) следующие части речи: глаголы, существительные, прилагательные, наречия. На рис. 2 показана последовательность шагов упрощенного алгоритма свертки предложения.
Упрощенный алгоритм состоит из следующих шагов.
1. Присоединение подчиненных прилагательных к существительным. На этом шаге основная информация берется из морфологического описателя словоформы. При первом просмотре предложения слева направо ищутся ближайшие, согласующиеся по падежу, роду и числу, прилагательные и существительные. Так как прилагательное может находиться справа от существительного, то необходим аналогичный второй просмотр справа налево, на котором осуществляется попытка присоединения оставшихся прилагательных, не вошедших в конструкцию.
Ввиду ограниченности объема не будем останавливаться на отдельных ситуациях, когда прилагательные не согласуются по морфологической информации со своими существительными, например:
Поставщик и получатель — надежные.
Подобных ситуаций конечное количество, и они поддаются довольно строгому математическому описанию и формализации.
2. Присоединение предлогов к конструкциям существительных и прилагательных. Особенностью шага является то, что предлог всегда находится слева от конструкции существительного. Основная информация для реализации свертки — это семантический описатель предлога и морфологический описатель конструкции существительного. Информация по предлогу содержит падеж и класс присоединяемого существительного, а также семантико-грамматиче-ский тип (например, где? куда?), вырабатываемый при этом соединении.
3. Присоединение конструкций существительных к другим объектам осуществляется на основании анализа семантического описателя левой конструкции и морфологического и семантического описателей правой конструкции. Производится слева направо. Независимо от описаний объекты существительных в родительном падеже присоединяются к конструкциям, стоящим слева.
4. Все созданные конструкции вставляются в семантический описатель (предикат) глагольной функции на основании своей семантической информации.
5. Наречия и собранные конструкции, не вошедшие в семантический описатель глагола, приписываются к нему со своим семантико-грамматическим типом.
Следует отметить, что русский язык является довольно регулярным, и исключения из правил составляют не более 10%.
Причастные, деепричастные обороты, подчиненные предложения, начинающиеся
Но5(17)2008
со слова который, отделяются перед анали- § зом. Над ними выполняются действия алго- ^ ритма свертки, а затем полученные конст- с? рукции присоединяются к основному ^ предложению.
Составные конструкции типа если ... то, ни ... ни, вложенные предложения, начинающиеся с вопросительных союзов что, где, когда, какой, который и т.п., союзами чтобы, хотя и т.п. анализируются абсолютно так же, как соответствующие конструкции в языках программирования. Например, при анализе конструкций типа если . то слово если управляет сборкой сначала первой части предложения, потом присоединяет ее в качестве своего первого аргумента, после чего повторяет то же самое со второй частью предложения, сохраняя в качестве разделителя союз то [1].
После склейки словоформы участвующие в образовании конструкции удаляются.
В результате обработки предложения
В банке снижают ставки по кредитам
получаем конструкцию, особенностью которой является вычисленный семантико-грамматический тип @Где:
@Глагол снижают
@Им ставки (@Дат по кредитам)
@Где в (@Предл банке)
Использование формализованных конструкций
Эффективность и качество работы систем автоматической обработки текстовой информации зависит от подходов к решению проблемы вычисления объектов документа, связей между ними и отражения анализируемой информации в базу знаний.
В основе конструкции семантического языка находятся объекты, образующие между собой связи. Идентификация объектов и вычисление значения их связей основываются на модели представления естественного языка, на способе представления текстовой информации и являются завися-
ч 89
N95(17)2008
I
0 §
1
I
В *
1
0
со
1
I
I
0 со
¡5 £ е
1
! е
и
0 и
1 £
I
и и
I 1
щими друг от друга. Не вычислив связи, нельзя определить, является ли множество слов семантической конструкцией, и, наоборот, не определив объект, сложно говорить о связях, которые он может образовывать с другими объектами. Формализация связей, способность их вычисления — основная проблема, от решения которой зависит построение как фактов, так и правил работы с ними.
Любую предложно-падежную форму можно рассматривать как связь между двумя словами, где первое слово присоединяет к себе следующее за ним.
Например:
информация (какая? по чему?) по кредитованию
информация (какая? кого?) банка
информация (какая? от чего?) от 5 сентября
В результате в приведенном примере получается некоторая сущность информация, которая обладает набором свойств, или атрибутов:
информация СОДЕРЖАНИЕ:
кредитование
информация ИНФ.ИСТОЧНИК:
банк
информация ВРЕМЯ:
от 5 сентября
Само свойство определяется присоединяемым словом или глаголом, с которым определяемое слово имеет связь. Каждое существительное принадлежит определенному классу, который практически однозначно предписывает ему набор атрибутов. В этом случае можно вычислять не только вопросы типа «Какая информация?», но и, например, «Каково содержание информации?».
Любой класс объектов по-своему уникален, с каждым из них могут встречаться определенные атрибуты. Например, маловероятно встретить атрибут формы у существительных класса газы (например, «квадратный воздух»). Анализаторы, созданные на основе формализованной модели ЕЯ
профессора В.А. Тузова, позволяют оперировать двумя типами связей между объектами. Первый тип показывает отношения между объектами, второй — производит конкретизацию объекта, например:
Счет находится в банке (Восточноевропейской финансовой) корпорации.
находится (@Им Счет @Где в (@Пред банке (@Род Восточно-европейской финансовой корпорации)))
Используя семантический словарь, строим объекты отношений:
НАХОДИТЬСЯ Loc(Z1,МЕСТО:Z2) П:@ОНЪ$17 => СЧЕТ$1614 Z2:$1~@Где => В БАНКЕ $123614
Приведенный объект показывает отношение местонахождения объектов СЧЕТ $1614 и БАНК $123614. Используя базовые функции, подставляя объекты в формулы, вычисляем значения атрибутов.
Второй тип связан с конкретизацией объекта. В приведенном примере объекту БАНК соответствует атрибут КОРПОРАЦИЯ $12443.
БАНК$12443 ^1)
Z1:@Род => КОРПОРАЦИЯ $12443
Первый тип связи определен семанти-ко-грамматическим типом связи (например, @Где), однозначно указывающим на атрибут, которому следует присвоить значение. Второй тип связи может определяться базисными функциями, предложно-падежны-ми формами, поэтому его реализация сводится к построению алгоритмов, вычисляющих значения базисных функций. Областью определения базисных функций и предложно-падежных форм является множество объектов текста. Следует отметить, что, например, родительный падеж можно рассматривать как бинарную функцию, определенную на множестве классов существительных, значением которой является имя атрибута первого аргумента [4]. Аналогичная ситуация возникает с любой пред-ложно-падежной формой.
90
И в первом, и во втором случае происходит присваивание значения атрибуту объекта, и главная проблема здесь — определить имя этого атрибута.
Рассматривая текст, можно определить набор подобных сущностей и их атрибутов. В тексте объект может иметь разные наименования, которые выражаются словом или словосочетанием, на него может указывать местоимение. Решение этих задач основывается на идентификации множества ближайших предложений, внутри которых необходимо производить анализ [5].
Применение подобных систем в предметной области экономики позволяет извлекать информацию из текстовых документов в автоматическом режиме.
Использование смысловой связи пред-ложно-падежной формы сводится к поиску конкретного атрибута присоединяющего слова. На основе анализа связей можно автоматизировать отражение сущностей текста в базы данных предметной области и базы знаний, хотя последние требуют более детальной проработки и дополнительных средств анализа, определяемых предметной областью. Общая структура базы знаний (БЗ) естественного языка описывается классификатором семантического языка [6]. Основу БЗ текста или документа составляют объекты, которые находятся в тех или иных отношениях друг с другом. Поэтому необходимым условием семантического анализа является получение «кадра текста» с описанием каждой сущности, которая встречается в нем, и формализация набора вопросительных выражений.
Вычисленные с помощью подобных систем данные из текстовых документов могут быть использованы при анализе финансовой, биржевой, новостной информации, а также применяться при ведении конкурентной разведки. Автоматический режим может позволить существенно сократить время на поиск и анализ информации. В отличие от существующих методов, предложенный метод в своей основе использует
Но5(17)2008
связи между словами, что позволяет более ig
ч
точно вычислять смысловую составляющую. с?
В заключение отметим, что на основании ^ описанных в статье методов профессором В.А. Тузовым, его учениками и последователями был создан семантический словарь и анализатор, построенный на формализованной модели естественного языка. На сегодняшний день имеются различные модификации этого программного продукта, написанные на языках Форт и С++. Анализатор и семантический словарь успешно применяются в информационно-поисковых системах и системах автоматического составления рефератов по содержимому. Ведутся работы по их адаптации в других областях, связанных с обработкой естественно-языковых конструкций.
Список литературы
1. Лебедев И.С. Способ формализации связей в конструкциях текста при создании естественно-языковых интерфейсов // Информационно-управляющие системы. 2007. № 3.
2. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во СПбГУ, 2004.
3. Кондратьев А.В., Кривцов А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютера // Процессы управления и устойчивость: Труды XXIX научной конференции студентов и аспирантов факультета ПМ-ПУ. СПб.: НИИ Химии СПбГУ, 1998.
4. Комаров И. И., Кривцов А.Н., Лебедев И. С. Принципы построения семантической модели текста и ее применение в системах лингвистического обеспечения // Процессы управления и устойчивость: Труды XXXIII научной конференции студентов и аспирантов факультета ПМ-ПУ. СПб.: НИИ Химии СПбГУ, 2002.
5. Лебедев И.С. Построение семантически связанных информационных объектов текста // Прикладная информатика. 2007. № 5(11).
6. Тузов В.А. Семантический анализатор текстов на русском языке // Информационные технологии в гуманитарных и общественных науках. Вып. 9. СПб.: СПб. Экон.-матем. институт РАН, 2000.
ч 91