Научная статья на тему 'Вычисление семантической составляющей текстовой информации в экономических информационных системах'

Вычисление семантической составляющей текстовой информации в экономических информационных системах Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
334
48
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лебедев Илья Сергеевич

Формализация естественного языка (ЕЯ) приобретает огромную актуальность в связи с развитием глобальных вычислительных сетей и формированием больших объемов распределенных данных, представленных в виде текстовой информации. Несмотря на то что в экономической деятельности огромную роль играет структурированная информация, представленная в виде различных сводок и графиков, более 80% документооборота, необходимого для принятия решений, представляют собой материалы именно текстового характера.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Вычисление семантической составляющей текстовой информации в экономических информационных системах»

Но5(17)2008

И. С. Лебедев

Вычисление семантической составляющей

текстовой информации в экономических информационных системах

Формализация естественного языка (ЕЯ) приобретает огромную актуальность в связи с развитием глобальных вычислительных сетей и формированием больших объемов распределенных данных, представленных в виде текстовой информации. Несмотря на то что в экономической деятельности огромную роль играет структурированная информация, представленная в виде различных сводок и графиков, более 80% документооборота, необходимого для принятия решений, представляют собой материалы именно текстового характера.

Существует огромный класс информационных систем в экономической деятельности, где необходим анализ естественно-языковых конструкций. Прикладная область, в которой применяется обработка ЕЯ, накладывает определенные ограничения на представление в них информации.

Цель обработки конструкций ЕЯ состоит в том, чтобы по запросу выдать информацию, адекватную на семантическом уровне. Причем в зависимости от модели диалога, структур, алгоритмов обрабатываемая и выдаваемая информация может быть словом, синтаксической конструкцией, предложением или частью связанного текста.

Развитие глобальных вычислительных сетей, информационно-поисковых систем потребовало реализации моделей представления текстовых документов и алгоритмов поиска информации в них. Наиболее часто используются вероятностные, теоретико-множественные и алгебраические модели. Однако подавляющее большинство этих моделей делает упор в основном на скорость обработки и зачастую осуществляет обработку запросов на естественном языке на самом примитивном уровне. В противовес им существует ряд других моделей, ориентированных на смысловой поиск («Смысл-Текст», GATE). Одной из моделей,

имеющих практическую реализацию, является формализованная модель, предложенная В.А. Тузовым.

В основе этой модели языка лежат следующие утверждения:

1. Язык представляет собой алгебраическую систему{£,, f2,..., ^, M}, где fi( = 1,..., п)— базисные функции на языке; М—структура языка, представляющая собой набор базисных понятий m1,...,mr, количество которых г > 3000, и их иерархию.

2. Каждое предложение языка можно представить в виде суперпозиций базисных функций fj, через которые выражается и каждое слово языка, за исключением базисных понятий.

3. Каждая часть речи играет вполне определенную роль в организации синтаксической структуры предложения.

4. Грамматика неразрывно связана с семантикой языка и представляет собой семантический словарь. Каждое слово описывается в виде семантической формулы, состоящей из базисных функций.

5. Усвоение языка компьютером есть построение и пополнение семантического словаря.

На основе этих утверждений была создана формализованная модель естествен-

81

N95(17)2008

ного языка, содержащая семантический словарь русского языка объемом 120 000 слов, который включает более 15 000 терминов и словарных статей экономической предметной области, и анализатор, который позволяет практически по любому произвольному предложению построить его дерево.

Функционирование системы, обрабатывающей ЕЯ, заключается в том, что на вход анализатора подаются текст и запрос, которые преобразуются анализатором в объекты и семантические формулы. Для сравне-I ния текстовой информации и запроса необ-& ходимо построить сети отношений между £ объектами текста, реализовать правила | сравнения объектов и семантических фор-§ мул. На основании этих сравнений затем

| делают вывод о совпадении. &

§■ Построение

| анализируемых структур

$3 Как было сказано выше, в основе мо-

| дели естественного языка профессора

| В.А. Тузова лежат семантический словарь

<5 русского языка и семантико-синтаксиче-

!| ский анализатор, способный по предложению построить его дерево или граф. В ре-

г

^ зультате анализа текст на русском языке

§■ приобретает вид функциональной записи

>§ на некотором семантическом языке.

<§ Благодаря морфологическому анализу

| можно получить полный морфологический описатель (тип, род, число, падеж, время

Ц и т.д.) произвольной формы слова. Этот

| морфологический описатель является ос-

¡§ новным материалом для построения фор-

о мализованного предложения.

В каждом простом предложении русско-

§ го языка есть слово, как правило, единст-

| венное, на котором держится все предло-

| жение. Если его убрать, то предложение

8 разваливается или превращается в предло-

| жение с другим смыслом. Таким централь-

§ ным словом предложения часто оказывает-

| ся глагол. Но далеко не только глагол.

о§ Предложение Ему нечего финансировать держится на слове нечего. Центром может

82 у

быть и пустое слово. Например, Финансовый кризис в США.

Центром предложения является самая внешняя функция суперпозиции. Если суперпозиция имеет вид ^(4^,..., xn), то выбрасывание центрального слова ^ преобразует исходное предложение в другое —

frL(x 1,..., Xn ).

Одна из первых проблем синтаксического анализа — нахождение центрального слова предложения. В основу построения формулы предложения ложится информация о слове как о части речи. Именно благодаря этой информации определенные информационные единицы в совокупности предложений обладают конкретными связями.

С точки зрения построения естественно-языкового интерфейса огромный интерес представляет формализация связей между элементами предложения. В зависимости от того, какими частями речи являются образующие их слова, можно говорить о вопросах, задаваемых от одного слова к другому. Например, от существительного к прилагательному на основе морфологических признаков может быть поставлен вопрос какой?, а в обратном направлении — кто?(что?).

Вопросительные слова, условно формализующие связи, можно разбить на две группы. Первая группа представляет собой падежные вопросы (кто? что? кого? чего? кому? чему? кем? чем? о ком? о чем?). Эта группа вопросов практически однозначно определяется предложно-падежной формой. Ее формализация зависит только от морфологической информации. Зная, в каком падеже стоит, например, существительное или прилагательное, всегда можно подобрать вопрос падежа и сформулировать вопрос к словоформе или словосочетанию.

Вторая группа — это смысловые вопросы, которые гораздо сложнее анализировать, но именно они дают максимальный объем информации для анализа. Вычисляя их семантику, можно определять, напри-

№5(17)2008

<5

Л

cj SS

Рис. 1. Связи между единицами графа слов текста

мер, пространственные, временные и другие характеристики.

Для формализации смысловых вопросов используется набор классов существительных, рядом с которыми ставятся предлоги [1, 2].

Однако для их быстрого и эффективного вычисления необходимо вычленить элементарные структуры, внутри которых можно описать связи. В данном примере в качестве элементарной единицы рассматривается многоугольник, изображенный на рис. 1.

Вершины этого многоугольника по отношению к предложно-падежной форме существительного PredPS составляют глагол G, прилагательное Pril, предлог Predi, существительные S, наречие Nar. Стрелками показаны направления вопросов, задаваемые от одной части речи к другой. По любому предложению естественного языка можно построить предикат, где в большинстве случаев за его основу берется глагольная функция G2 (xb...,xn), где аргументы x.,,...,xn могут быть различными частями речи [2].

Построение формулы предложения состоит в том, чтобы определить каждый аргумент предложения и каждому слову приписать его семантико-грамматический тип. В случае построения такого предиката каждому аргументу можно задать, с одной стороны, вопрос от глагола, который будет определяться морфологической информаци-

ей, что позволит использовать падежный вопрос, а с другой — смысловой вопрос, находящийся в прямой зависимости от семантики слова.

Описание глагольных функций

В формальном языке глагол идентифицирует собой действие. Формальное определение этого понятия имеет вид:

1(Х1, Х2,..., Хп ) = {Р; 1 /2 ,■■■, т},

где / — символ (идентификатор) действия; х1,х2,...,хп — аргументы, являющиеся именами объектов и действий; Р — последовательность суперпозиций базисных функций или уже описанных функций, выражающая сущность действия;

— признаки этого действия [1].

В работе [1] утверждается, что множество действий и множество объектов, описывающих существительные, имеет иерархию от более общего к более конкретному. Для действия определено около десятка свойств:

• интенсивность;

• скорость;

• продолжительность;

• завершенность;

• совместность;

83

N95(17)2008

• многократность;

• постоянство;

• характеристика;

• направленность;

• полнота объекта;

• расположение объекта.

В формализованных конструкциях естественного языка роль глагольной функции заключается в связке аргументов. Общий шаблон глагольной функции можно представить в следующем виде:

| G(Z1:!Им, 12:!Род, г3:!Дат, г4:!Вин, 15:!Тв, Й Z6:!Пред)

^ Для организации ЕЯ интерфейсов необ-

=§ ходима формализация вопросительных

§ связей для подстановки конструкций пред-

| ложения. Поэтому наибольшую важность

& представляют минимизация глагольного

=§ шаблона, конкретизация его аргументов по

| каждой словоформе.

В любом глагольном предикате обяза-

| тельно должно быть место для потенциаль-

| ного подлежащего — существительного

<5 или объекта на базе существительного

•5 в именительном падеже. В приведенном вы-

<о ше шаблоне — это аргументZ1. Вопрос, за-

^ даваемый к этому аргументу, — кто? или

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ц что? либо перефразировка, включающая

>§ объект абстрактного класса. <э Аргументы Z2-Z6 представляют собой

§ объекты существительных предложения

в различных падежах. =г Следующий вид подставляемых в шаб-

| лон конструкций — это аргументы места

§ и времени, представленные наречиями или

§ предложно-падежными формами существительных (см. раздел «Формализация

^ смысловых вопросов»), отвечающими на

£ вопросы где? когда? откуда? куда? | Использование глагола как основной

ё функции предложения, а также других час-

| тей речи как функций позволяет находить

§ связи между словами внутри предложения. | При анализе семантико-грамматическо-го типа конструкции в предложении приоритет отдается тому смысловому вопросу,

84 у

который генерируется на основании пред-ложно-падежной формы существительного либо на основании морфологических признаков других частей речи.

Описание существительных

Существительные естественного языка обозначают объекты или явления. Согласно [1] любое существительное можно описать следующим образом:

OBJECT=

{

Praobjekt;

Singe Multo (/;,..., fn)

}

где Praobjekt — класс существительного;

Singe Multo (f,,..., fn) — характеристические функции.

Смысловые связи существительного также можно представить в виде предиката:

S(Z1:!Pofl, г2:!Дат, г3:!Вин, Z4:!Tb, Л5:!Пред)

В тексте существительные могут быть связаны между собой и составлять единый информационный объект [3].

Существительное можно сравнить с идентификатором переменной класса в языках программирования. Появление его в тексте подобно выполнению операции создания объекта, свойства которого определяются другими членами предложения.

Класс существительных представляется в виде структуры, состоящей из поля значения, которому присваивается объект текста, и полей характеристик значения, вычисляемых из текста.

КЛАСС <имя>

{

значение:=<объект>

характеристика{=<свойство объекта>/<ка-

чество объекта>

характеристика^ <свойство объекта>/<ка-

чество объекта>

}

Естественно-языковые конструкции описывают объекты и понятия текста, принадлежащие реальной действительности, и создают экземпляры этого класса.

Формализация прилагательных и наречий

Согласно философским воззрениям, каждый объект реального мира обладает своим набором характеристик. Исходя из этого, можно предположить, что каждое существительное обладает определенным набором признаков, которые позволяют идентифицировать его в тексте. Одной из частей речи, характеризующей существительное, является прилагательное. Прилагательное отвечает на вопрос какой?, а в краткой форме — каков? Например:

информация (какая?) важная

Вопрос к прилагательному может быть задан от существительного и от глагола:

приехал (каким?) повзрослевшим

Если прилагательное принадлежит классу СВОЙСТВО, то оно пополняет признак существительного:

информация СВОЙСТВО: важная

Формализация прилагательных других классов происходит по такой же схеме, характеристики признаков зависят от принадлежности к классу. Однако при анализе свойств существительных в большей степени важны атрибуты, описанные прилагательными, а не вопросы типа какой? или каков?

Аналогично прилагательным наречия также можно рассматривать как функции над глаголами. Существуют следующие виды наречий:

• признаковые;

• места;

• времени;

• направления;

• количественные.

Но5(17)2008

Признаковые наречия характеризуются §

аналогично прилагательным. В большинст- ^

ве случаев такое наречие совпадает с крат- с?

кой формой соответствующего прилага- ^ тельного:

тихо разговаривал — тихий разговор

Наречия места отвечают на вопросы где? как? Наречия времени — когда? как долго? как? Наречиям направления соответствуют вопросы куда? откуда? как? Количественные наречия играют ту же роль, что и числительные. Определяющие их вопросы: сколько? как?

Поскольку любое действие (глагольная функция) характеризуется определенным набором признаков, наречие соответствующего типа конкретизирует один из них.

Формализация смысловых вопросов

Основной материал для анализа в естественно-языковом интерфейсе поставляют существительные или объекты на их основе [3]. Если в тексте нет объекта на основе существительного или самого существительного и его синонима, которое встретилось в вопросе к тексту, то маловероятно, что в тексте будет содержаться ответ на вопрос.

Большинство вопросов, заданных в естественном виде, содержат вопросительное слово либо падежного (кто? что? кого? чего? кому? чему? кем? чем? о ком? о чем?), либо смыслового вопроса (где?куда? откуда? почему? и т.д.). Например, на вопрос к тексту, состоящий из одного вопросительного аргумента какой?, могут отвечать не только прилагательные в именительном падеже единственного числа мужского рода, но и существительные в родительном с предлогами от и из, в дательном с предлогами по, в творительном с предлогом с.

В частности, для описания смысловых вопросов необходимо приписать каждому существительному индекс некоторого класса. При описании этих классов с целью

ч 85

N95(17)2008

I й

8

I

0 §

1 и

В *

1

0

со

1

I *

0 со

¡5 £ Й

1

! Е

и

0 и

и

¡5

! и

и !

вычисления смысловых вопросов за основу было использовано описание семантики предлогов русского языка из [4]. Число классов может колебаться в зависимости от объема словаря, точности требуемого описания, но оно всегда недалеко от тридцати. Ниже приведены некоторые из них:

ДАТА, НАПРАВЛЕНИЕ, СВОЙСТВО, СОДЕРЖАНИЕ, ЭЛЕМЕНТ, ДЕЙСТВИЕ, МАТЕРИАЛ, МНОЖЕСТВО, МЕРА, ЧИСЛО, ОБЪЕКТ, ОТНОШЕНИЕ, ЧУВСТВО, ЕМКОСТЬ, РАССТОЯНИЕ, ЗАКОН, ВРЕМЯ, ЧАСТЬ, ИНФ. ИСТОЧНИК.

Каждый смысловой вопрос к существительному независимо от части речи, от которой он задается, можно выразить по формуле:

ПРЕДЛОГ+ПАДЕЖНЫЙ ВОПРОС ® Семантика слова = СМЫСЛОВОЙ ВОПРОС,

где семантика слова определяется классом, к которому принадлежит обозначаемое им понятие.

Существительное с предлогом рассматривается как единое целое. На графе рис. 2 стрелками показаны основные связи, которые необходимо формализовать для вычисления вопроса, заданного в естественной форме.

Однако, несмотря на довольно строгое применение предлога для вычисления смыслового вопроса в предложении, человек, задающий вопрос к неизвестному тексту или даже предложению, может изначально ставить его в неправильной форме, поэтому при анализе необходимо расширять варианты поиска. Исходя из этого, ниже приведен подход к формализации для некоторых смысловых вопросов. Необходимо отметить, что приводимая формализация находится в стадии внесения изменений и не является окончательной. Всего в русском языке существует около 25 вопросительных слов. В приведенном ниже примере (для вопроса почему?) демонстрируются

Существительное

Предлог

Прилагательное

Существительное (прилагательное)

Существительное

Предлог Существительное (прилагательное)

к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предлог Существительное (прилагательное)

Глагол (Предлог Существительное (прилагательное); „)

Наречие

Рис. 2. Упрощенный алгоритм свертки предложения

смысловой вопрос, предлог с падежным вопросом, формула согласно рис. 2, показывающая часть речи, от которой задается вопрос, и особенности существительных (падеж и класс), к которым вопрос ставится.

1. Вопрос Почему?

1.1. Почему? (от чего? от кого? с чего? из чего? из-за чего?)

1.1.1. с Э образуется связь «Элемент от Э»

серый (почему? от чего? с чего? из чего? из-за чего?) от (из-за) пыли

РгИ ©

Ргэд! = от, с, из, из -за Эрад.пзд е класс «объект»

86

№5(17)2008

1.1.2. с S образуется связь «объект» прекратил (почему? от чего? с чего? из чего? из-за чего?) из-за границы

{Predi = от, с, из, из-за

G ©

SP^rafl е класс «объект»

1.1.3. образуется связь «чувство» прекратил (почему? от чего? с чего? из чего? из-за чего?) из-за неудовлетворенности (проектом)

G ©

Predi = от, с, из, из-за SWrafl е класс_«чувство»

1.2. Почему? (по чему? по кому? как?) 1.2.1. образуется связь «по закону» трактовал (почему? по чему? как?) по закону {Predi = по

л

^дат.пад

е класс_«закон»

1.3. Почему? (на что? на кого?) 1.3.1. образуется связь «действие» закрыли (почему? на что? зачем?) на переучет {Predi = на

л i

е класс_«действие»

|^вин.пад

1.4. Почему? (зачем?)

1.4.1. образуется связь «действие»

прекратил (почему? зачем?) за неимением де-

{Predi = за

|5тв'паД екласс_«действие»

2. Вопрос Откуда?

2.1. Откуда? (от чего? от кого? из чего? из кого? с чего? из-за чего?)

2.1.1. образуется связь «объект»

прекратил (откуда?) из-за границы

{Predi = от, из, с, из-за

Swrafl е класс «объект»

2.1.2. образуется связь «действие» пришел (откуда?) с ремонта {Predi = с

^род.г

е класс _« действие»

Таким образом, рассмотрим два выражения, где подчиненные существительные стоят в родительном падеже:

Прекратил (финансирование) из-за неудовлетворенности

Прекратил (финансирование) из-за границы

Видно, что к первому словосочетанию можно поставить вопрос «Прекратил (финансирование) почему? от чего?» и получить в качестве ответа, например, «из-за неудовлетворенности», «от безысходности» — существительные класса «чувства» в родительном падеже. Второе словосочетание отвечает на вопрос «Прекратил (финансирование) откуда?». Его ответом будут существительные класса «объект» в родительном падеже: «из-за границы», «из банка».

После того как построен граф текста дуги, соединяющие объекты, будут принимать значения либо смысловых вопросов, либо вопросов падежей, в которых находятся объекты.

При таком подходе останется лишь выделить аргументы предложения и подставить их на место абстрактных аргументов ведущей функции.

Вычисление вопросов, которые можно задать к слову или словосочетанию, основывается на формализации и определении конструкций.

Алгоритмы работы системы

В результате обработки анализатором предложение приобретает вид функциональной записи, содержащей структуру и связи между конструкциями. Основной материал для построения формализованного предложения предоставляет семантический словарь. На основании словарной статьи семантического словаря, например, для словоформы кредитам, образованной от слова кредит, анализатором выдается следующая информация:

<5

Л

CJ =S

нег

N95(17)2008

КРЕДИТАМ КРЕДИТ

{Сущ.Муж.Неодуш$1214031~

@!ОНИ$17@Дат}

$1214031 (И:НЕЧТО$1~!Где\!Род,

г2:!Дат,

23:!заВин,

14:!наВин)

Такое представление содержит морфологическую и семантическую составляющие. Состав морфологической информа-* ции:

I

<3 • Часть речи.

£ • Число, род, падеж (зашифровывает-

| ся через конструкции типа !ОНА$17@Дат).

§ Падеж указывается явно после служебного

| символа @, род и число — через иденти-

& фикатор !ОНЪ$17 (мужской род, единст-

"Ц венное число), ОНИ$17 (множественное

| число).

<й • Класс, которому принадлежит часть

Ц речи. Начинается со служебного символа $

| (в данном примере $1214031). ¡8

I Состав семантико-синтаксической информации:

I

§■ • Класс присоединяемой конструкции

| $1214031.

<э • Аргументы 11,12, ...,Лп, которые могут

| быть присоединены.

• Возможные падежи присоединяемых

=г аргументов (!Род) или семантико-граммати-

| ческий тип (!Где), винительный с предлогом

¡§ на (!наВин) и с предлогом за (!заВин).

§ • Число, род, падеж каждого аргумента могут описываться через конструкции типа

§ !ОНЪ$17@Род. ¡5

| Обработка поданного на вход анализа-

8 тора предложения состоит в том, чтобы

| найти аргумент в семантической формуле

§ и подставить на его место нужную конструк-

| цию. Если на одну позицию претендуют несколько конструкций, то выбирается наиболее подходящая.

88 >

Получив морфологическую и семантическую информацию по каждой словоформе предложения, строим дерево (граф предложения). Причем необходимо отметить, что огромное количество одинаковых словоформ может иметь несколько значений, и программа-анализатор должен выбрать правильную альтернативу. Имея множество альтернатив, теоретически возможно осуществить полный перебор всех вариантов и выбрать конструкцию, включающую максимальное количество элементов. Однако такая задача обладает экспоненциальной сложностью, и время выполнения ее алгоритмов существенно возрастает при увеличении количества слов в предложении. Поэтому, для того чтобы избежать подобного эффекта, разработана система приоритетов. Рассмотрим ее в упрощенном виде, не акцентируя внимание на таких частях речи и предложения, как числительные, союзы, частицы, причастия, деепричастия, подчиненные предложения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рассмотрим простое распространенное предложение, в котором могут содержаться (или не содержаться) следующие части речи: глаголы, существительные, прилагательные, наречия. На рис. 2 показана последовательность шагов упрощенного алгоритма свертки предложения.

Упрощенный алгоритм состоит из следующих шагов.

1. Присоединение подчиненных прилагательных к существительным. На этом шаге основная информация берется из морфологического описателя словоформы. При первом просмотре предложения слева направо ищутся ближайшие, согласующиеся по падежу, роду и числу, прилагательные и существительные. Так как прилагательное может находиться справа от существительного, то необходим аналогичный второй просмотр справа налево, на котором осуществляется попытка присоединения оставшихся прилагательных, не вошедших в конструкцию.

Ввиду ограниченности объема не будем останавливаться на отдельных ситуациях, когда прилагательные не согласуются по морфологической информации со своими существительными, например:

Поставщик и получатель — надежные.

Подобных ситуаций конечное количество, и они поддаются довольно строгому математическому описанию и формализации.

2. Присоединение предлогов к конструкциям существительных и прилагательных. Особенностью шага является то, что предлог всегда находится слева от конструкции существительного. Основная информация для реализации свертки — это семантический описатель предлога и морфологический описатель конструкции существительного. Информация по предлогу содержит падеж и класс присоединяемого существительного, а также семантико-грамматиче-ский тип (например, где? куда?), вырабатываемый при этом соединении.

3. Присоединение конструкций существительных к другим объектам осуществляется на основании анализа семантического описателя левой конструкции и морфологического и семантического описателей правой конструкции. Производится слева направо. Независимо от описаний объекты существительных в родительном падеже присоединяются к конструкциям, стоящим слева.

4. Все созданные конструкции вставляются в семантический описатель (предикат) глагольной функции на основании своей семантической информации.

5. Наречия и собранные конструкции, не вошедшие в семантический описатель глагола, приписываются к нему со своим семантико-грамматическим типом.

Следует отметить, что русский язык является довольно регулярным, и исключения из правил составляют не более 10%.

Причастные, деепричастные обороты, подчиненные предложения, начинающиеся

Но5(17)2008

со слова который, отделяются перед анали- § зом. Над ними выполняются действия алго- ^ ритма свертки, а затем полученные конст- с? рукции присоединяются к основному ^ предложению.

Составные конструкции типа если ... то, ни ... ни, вложенные предложения, начинающиеся с вопросительных союзов что, где, когда, какой, который и т.п., союзами чтобы, хотя и т.п. анализируются абсолютно так же, как соответствующие конструкции в языках программирования. Например, при анализе конструкций типа если . то слово если управляет сборкой сначала первой части предложения, потом присоединяет ее в качестве своего первого аргумента, после чего повторяет то же самое со второй частью предложения, сохраняя в качестве разделителя союз то [1].

После склейки словоформы участвующие в образовании конструкции удаляются.

В результате обработки предложения

В банке снижают ставки по кредитам

получаем конструкцию, особенностью которой является вычисленный семантико-грамматический тип @Где:

@Глагол снижают

@Им ставки (@Дат по кредитам)

@Где в (@Предл банке)

Использование формализованных конструкций

Эффективность и качество работы систем автоматической обработки текстовой информации зависит от подходов к решению проблемы вычисления объектов документа, связей между ними и отражения анализируемой информации в базу знаний.

В основе конструкции семантического языка находятся объекты, образующие между собой связи. Идентификация объектов и вычисление значения их связей основываются на модели представления естественного языка, на способе представления текстовой информации и являются завися-

ч 89

N95(17)2008

I

0 §

1

I

В *

1

0

со

1

I

I

0 со

¡5 £ е

1

! е

и

0 и

1 £

I

и и

I 1

щими друг от друга. Не вычислив связи, нельзя определить, является ли множество слов семантической конструкцией, и, наоборот, не определив объект, сложно говорить о связях, которые он может образовывать с другими объектами. Формализация связей, способность их вычисления — основная проблема, от решения которой зависит построение как фактов, так и правил работы с ними.

Любую предложно-падежную форму можно рассматривать как связь между двумя словами, где первое слово присоединяет к себе следующее за ним.

Например:

информация (какая? по чему?) по кредитованию

информация (какая? кого?) банка

информация (какая? от чего?) от 5 сентября

В результате в приведенном примере получается некоторая сущность информация, которая обладает набором свойств, или атрибутов:

информация СОДЕРЖАНИЕ:

кредитование

информация ИНФ.ИСТОЧНИК:

банк

информация ВРЕМЯ:

от 5 сентября

Само свойство определяется присоединяемым словом или глаголом, с которым определяемое слово имеет связь. Каждое существительное принадлежит определенному классу, который практически однозначно предписывает ему набор атрибутов. В этом случае можно вычислять не только вопросы типа «Какая информация?», но и, например, «Каково содержание информации?».

Любой класс объектов по-своему уникален, с каждым из них могут встречаться определенные атрибуты. Например, маловероятно встретить атрибут формы у существительных класса газы (например, «квадратный воздух»). Анализаторы, созданные на основе формализованной модели ЕЯ

профессора В.А. Тузова, позволяют оперировать двумя типами связей между объектами. Первый тип показывает отношения между объектами, второй — производит конкретизацию объекта, например:

Счет находится в банке (Восточноевропейской финансовой) корпорации.

находится (@Им Счет @Где в (@Пред банке (@Род Восточно-европейской финансовой корпорации)))

Используя семантический словарь, строим объекты отношений:

НАХОДИТЬСЯ Loc(Z1,МЕСТО:Z2) П:@ОНЪ$17 => СЧЕТ$1614 Z2:$1~@Где => В БАНКЕ $123614

Приведенный объект показывает отношение местонахождения объектов СЧЕТ $1614 и БАНК $123614. Используя базовые функции, подставляя объекты в формулы, вычисляем значения атрибутов.

Второй тип связан с конкретизацией объекта. В приведенном примере объекту БАНК соответствует атрибут КОРПОРАЦИЯ $12443.

БАНК$12443 ^1)

Z1:@Род => КОРПОРАЦИЯ $12443

Первый тип связи определен семанти-ко-грамматическим типом связи (например, @Где), однозначно указывающим на атрибут, которому следует присвоить значение. Второй тип связи может определяться базисными функциями, предложно-падежны-ми формами, поэтому его реализация сводится к построению алгоритмов, вычисляющих значения базисных функций. Областью определения базисных функций и предложно-падежных форм является множество объектов текста. Следует отметить, что, например, родительный падеж можно рассматривать как бинарную функцию, определенную на множестве классов существительных, значением которой является имя атрибута первого аргумента [4]. Аналогичная ситуация возникает с любой пред-ложно-падежной формой.

90

И в первом, и во втором случае происходит присваивание значения атрибуту объекта, и главная проблема здесь — определить имя этого атрибута.

Рассматривая текст, можно определить набор подобных сущностей и их атрибутов. В тексте объект может иметь разные наименования, которые выражаются словом или словосочетанием, на него может указывать местоимение. Решение этих задач основывается на идентификации множества ближайших предложений, внутри которых необходимо производить анализ [5].

Применение подобных систем в предметной области экономики позволяет извлекать информацию из текстовых документов в автоматическом режиме.

Использование смысловой связи пред-ложно-падежной формы сводится к поиску конкретного атрибута присоединяющего слова. На основе анализа связей можно автоматизировать отражение сущностей текста в базы данных предметной области и базы знаний, хотя последние требуют более детальной проработки и дополнительных средств анализа, определяемых предметной областью. Общая структура базы знаний (БЗ) естественного языка описывается классификатором семантического языка [6]. Основу БЗ текста или документа составляют объекты, которые находятся в тех или иных отношениях друг с другом. Поэтому необходимым условием семантического анализа является получение «кадра текста» с описанием каждой сущности, которая встречается в нем, и формализация набора вопросительных выражений.

Вычисленные с помощью подобных систем данные из текстовых документов могут быть использованы при анализе финансовой, биржевой, новостной информации, а также применяться при ведении конкурентной разведки. Автоматический режим может позволить существенно сократить время на поиск и анализ информации. В отличие от существующих методов, предложенный метод в своей основе использует

Но5(17)2008

связи между словами, что позволяет более ig

ч

точно вычислять смысловую составляющую. с?

В заключение отметим, что на основании ^ описанных в статье методов профессором В.А. Тузовым, его учениками и последователями был создан семантический словарь и анализатор, построенный на формализованной модели естественного языка. На сегодняшний день имеются различные модификации этого программного продукта, написанные на языках Форт и С++. Анализатор и семантический словарь успешно применяются в информационно-поисковых системах и системах автоматического составления рефератов по содержимому. Ведутся работы по их адаптации в других областях, связанных с обработкой естественно-языковых конструкций.

Список литературы

1. Лебедев И.С. Способ формализации связей в конструкциях текста при создании естественно-языковых интерфейсов // Информационно-управляющие системы. 2007. № 3.

2. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во СПбГУ, 2004.

3. Кондратьев А.В., Кривцов А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютера // Процессы управления и устойчивость: Труды XXIX научной конференции студентов и аспирантов факультета ПМ-ПУ. СПб.: НИИ Химии СПбГУ, 1998.

4. Комаров И. И., Кривцов А.Н., Лебедев И. С. Принципы построения семантической модели текста и ее применение в системах лингвистического обеспечения // Процессы управления и устойчивость: Труды XXXIII научной конференции студентов и аспирантов факультета ПМ-ПУ. СПб.: НИИ Химии СПбГУ, 2002.

5. Лебедев И.С. Построение семантически связанных информационных объектов текста // Прикладная информатика. 2007. № 5(11).

6. Тузов В.А. Семантический анализатор текстов на русском языке // Информационные технологии в гуманитарных и общественных науках. Вып. 9. СПб.: СПб. Экон.-матем. институт РАН, 2000.

ч 91

i Надоели баннеры? Вы всегда можете отключить рекламу.