Научная статья на тему 'Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения'

Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
206
20
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лебедев И. С.

В статье показан способ организации естественно-языковых интерфейсов для систем лингвистического обеспечения на основе семантического словаря профессора Тузова В.А. Приводятся структуры различных частей речи русского языка, применяемые для их автоматической обработки и анализа. Особенностью работы является описание применения семантической составляющей при анализе запроса на естественном языке и поиске информации по тексту к которому он задан.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Organization of natural - language interfaces for systems of the lingware

In clause(article) the way of the organization of natural language interfaces is shown for Systems of the lingware on the basis of the semantic dictionary of the professor Tusov V.A. Ways of the description of various parts of speech of Russian language are resulted for their automatic processing and the analysis. Feature of work is the description Applications of a semantic component at the analysis of inquiry on natural Language and the text to which it is given.

Текст научной работы на тему «Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения»

Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения

Лебедев И.С. (181 [email protected]) Санкт-Петербургский государственный университет

С момента возникновения ЭВМ человек пытается приблизить диалог с машиной как можно ближе к естественным формам общения и получить, в идеале, диалог на естественном языке. Такая задача относится к классу трудноформализуемых в описании необходимых условий и правил представления информации о естественном языке в компьютере. Поэтому, для организации полноценного диалога требуется разрешение многих проблем. Сегодня, компьютеризация настолько сильно вошла в жизнь, что невозможно представить работу без применения глобальных вычислительных сетей, специального программного обеспечения, позволяющего быстро и точно производить расчеты, обрабатывать обычную текстовую информацию новыми более совершенными методами, которые используют семантическую составляющую.

В основу построения семантической формулы предложения ложится информация о слове, как о части речи. Поэтому необходимо показать роль существительного, прилагательного, наречия, числительного, глагола.

Существительные - это объекты, над которыми производятся действия. С точки зрения семантики, именно они несут основную нагрузку при решении задачи идентификации информации. Для синтаксиса - это аргументы обычных синтаксических функций, которые отвечают на вопросы КАКОЙ?, КОТОРЫЙ?, ЧЕЙ? , КОГО?, ЧЕГО?, зависящие от падежа, числа, рода, вида, в котором стоит существительное. Таким образом, другие части речи могут приписать аргументу-существительному свойства, выраженные ими. Для примера возьмем выражение:

активные помехи

Подав на вход такое выражение, получим тип КАКИЕ (какой?- множественное число, Именительный падеж.):

КАКИЕ? активные (помехи)

На первые три вопроса для существительных отвечают прилагательные, что касается родительного падежа, то здесь аргументы уточняются такими же существительными, сворачиваясь в одну конструкцию.

Прилагательные представляют функции над существительными, которые уточняют и конкретизируют объекты предложения. Их синтаксическая роль состоит в уточнении аргумента, подставляемого в функцию. При соединении прилагательного с существительным такая связка позволяет сократить неоднозначность морфологических описателей, как прилагательного, так и существительного и отбросить лишние вопросы основных и косвенных падежей в конструкции.

Прилагательные представляют собой свойства объекта. Каждый объект обладает определенным набором характеристик, показывающих КАКОЙ это объект. Эти характеристики

входят в описание существительного. В результате анализа отрывка текста, можно получить на выходе некоторый объект со свойствами.

Свойство ЧЕГО (КОГО) определяет конкретный объект или вводит новый объект текста, о котором можно набирать информацию.

Свойство ЧЕЙ по своей сути лежит между прилагательным и фоновым объектом. Оно подобно неопределенному свойству, на его месте может находиться любое краткое прилагательное.

Свойство СКОЛЬКО определяет количественный состав.

Существительное можно сравнить с идентификатором переменной класса в языках программирования. Появление его в тексте подобно выполнению операции создания объекта. При анализе текста свойства объекта только дополняются и уточняются характеризующими его признаками.

Для организации сравнения информации, содержащейся в запросе, возможно оперировать объектами, представленными в виде структуры:

ИНФОРМАЦИОННЫЙ ОБЪЕКТ {

КАКОЙ F1(X);

СКОЛЬКО F2(X);

ЧЕЙ F3(X);

ЧЕГО F4(X);

КОГО F5(X);

}

Применительно к тексту, на котором проводится поиск, объекты можно условно классифицировать по нескольким типам. Ниже приводится их классификация и описание, полученные из морфологического (в фигурных скобках) и семантического словарей В. А Ту-зова [1]:

1. Простой объект- существительное, стоящее в тексте.

ЦЕЛЬ {Сущ Неодуш $/1~@ОНА$5@Вин} = $/1

2. Составной объект - существительное, уточненное прилагательным.

ф) ПРОШЛЫЙ ГОД {Сущ Неодуш $175~@ОН$5@ПредВ} т AntauT_a1(ВРЕМЯ$175(!Род)

РАДИОЛОКАЦИОННАЯ СТАНЦИЯ {Сущ Неодуш $019118~@@ОНА} т

Caus_a1(Usor(%1,РАДИО, $019118),ОПРЕДЕЛЯТЬСЯ$Gl$Control(Loc_o))

3. Сложный простой объект - группа существительных, уточняющих себя родительным падежом.

СТАНЦИЯ ОБНАРУЖЕНИЯ {Сущ Неодуш $019118~@ОНА} т $019118 (Caus_p(Тв,НАЙТИСЬ$GШomo(Род)))

4. Сложный составной объект - группа существительных, с прикрепленными прилагательными уточняющие сами себя через родительный падеж.

РАДИОЛОКАЦИОННАЯ СТАНЦИЯ ОБНАРУЖЕНИЯ МАЛОВЫСОТНЫХ ЦЕЛЕЙ

Саш_а1(^ог(%о1,РАДИО, $019118(Сат о(Тв, НАЙТИСЬ$01$Ното

(НаЬ_а1(НЕЧТО$1~!%1,Лп^Ма^_а~ВЫСОТА$11/01402) $/1)))), ОПРЕДЕ-

ЛЯТЬСЯ$01$СоМго1(Ьое_о))

Основной функцией, определяющей действие, в предложении является глагол. В формальном синтаксическом языке он представляет сложную функцию многих аргументов. Глагол в личной форме - ключевое звено любой конструкции, как на семантическом, так и на синтаксическом уровне. Инфинитив - неизменяемая форма глагола - отвечает на вопрос ЧТО и определяет только действие. Аргументы глагола - это объекты в данной конструкции предложения. Аргументы глагола фактически носят явный семантический характер, и для синтаксического анализа их описание достаточно абстрактно[2].

Инфинитив глагола в формализованном синтаксисе приравнивается к понятию «аргумента-объекта»:

Самолет прекратил подавать сигнал бедствия. =

прекратил (что?(кто?) - самолет, ЧТО ? —подавать (что?-сигнал(чего?-бедствия))) )

Безличный глагол - функция без аргументов.

Не подавать = - подавать(#).

Во всех глаголах первым аргументом является тот объект (актант), который совершает действие - объект, находящийся в форме именительного падежа. Число аргументов глагольной функции конечно. Многие из них, не относящиеся к зависимым от пред-ложно-падежной формы, в значительной степени зависят от семантики других частей речи.

При использовании глагола для организации сравнения предложений его можно толковать, как функцию языка программирования. Тип аргумента (актанта) предложения указывается в описании семантической формулы глагола. Глагол описывается суперпозицией базисных функций, со своими аргументами. Поставленный анализатором материал из словарей В. А. Тузова для построения семантической формулы предложения, например для глагола «поехать» будет иметь вид:

ПОЕХАТЬ

ЛшВ_РегДпсер_0рег01(^ог(#Мии_о~СЛОВО$15322/2),РЕЧЬ$15211(!Дат\!сТв,!обП

ред\!Про\!?р))

ПОЕХАТЬ

РегДпсер Орег01(#,ПОЕЗДКА$16302(!наПред\!Тв,!поДат,!Откуда,!Куда)),

где РетДпсер_0рет01 и ЛыВ_РегДпсер_0рег01 - суперпозиция базисных функций, (!Дат\!сТв,!обПред\!Про\!?р)) и (!наПред\!Тв,!поДат, !Откуда, !Куда) - аргументы

Такое «двойное» описание возникает из-за неоднозначного толкования смысла глаголов.

На место ! Откуда,! Куда можно ставить только объекты. Наречия, отвечающие на эти вопросы, выносятся за описание глагола. Разделителем аргументов служит «,». Символ «\» равносилен операции «или», но его присутствие означает, что в формуле на месте аргумента будет стоять только один из возможных объектов. Предлог «с», «об», «на», «по» указывает на обязательное наличие у актанта (объекта) этого предлога в семантической связке. В противном случае объект не может быть поставлен на место данного аргумента.

Каждый глагол аналогично существительным может быть также рассмотрен как объект:

ГЛАГОЛЬНЫЙ ОБЪЕКТ = х

{

КАК? N1 (х)

КОГДА? N2 (х)

КАКДОЛГО? Ю(х)

КУДА? т(х)

ГДЕ? Ю(х)

ОТКУДА? Ж(х)

}

Наречия можно рассмотреть как функции над глаголами. Не смотря на огромную роль этих частей речи в семантике, объем синтаксической информации, поставляемой ими для построения конструкций не велик. Синтаксис наречий заключается в присвоении глагольной функции вопросов КОГДА? КАК? КУДА? ОТКУДА? ПОЧЕМУ? ГДЕ?

Предложению, содержащему наречие, практически всегда возможно приписать один из шести вопросов. Если вопросительное слово запроса относится к одному из слов объекта, и наречие в предложении соответствует заданному типу, то ответом может служить вся конструкция глагола.

Как? вблизи располагается (объект)

Когда? Накануне сделана (проверка)

Предлоги служат для определения аргументов и являются средствами сборки конструкций. Различаются простые и сложные предлоги. Простые предлоги постоянны для аргументов, характеризующих физический объект. Их синтаксическая роль состоит в уточнении аргумента вызывающей функции, конкретизации вопросов основных и косвенных падежей.

Принято считать, что шесть падежных форм выражают различные падежные значения. Предлоги, употребляясь вместе с существительными, помогают выразить различные падежные значения, конкретизируют их. Однако видно, что такое многообразие, перекликающихся значений падежей вытекает из семантики слов, которые в них находятся. На синтаксическом уровне эту задачу решить нельзя, но, имея словарь управления, приписав каждому слову его семантический смысл в семантическом словаре, можно получить свертку предложения, т.е. построить его синтаксическое дерево. Согласно концепции Якобсона о стандартных способах кодирования семантической характеристики участни-

ков предложения применительно к русскому языку, именительный, винительный и родительный падежи квалифицируются как полные, сигнализирующие о центральной, магистральной позиции существительного в семантико-синтаксической перспективе высказывания. Дательный, предложный, творительный падежи говорят о периферийности положения относительно основного содержания высказывания. Это говорит о том, что существительные в полных падежах обычно могут подчинять существительные, стоящие в периферийных падежах. Подобные наблюдения могут облегчить построение синтаксического дерева предложения, в случаях его сильного ветвления.

Всегда особую роль в предложении играли предлоги. Классификация этих семан-тико-синтаксических единиц позволяет делить несколько основных групп, распределенных по падежам. Первая группа предлогов, употребляемых только с одним падежом, может однозначно определять падеж существительного или прилагательного, перед которым они стоят. Тоже можно сказать для отдельных предлогов второй группы, в случае, когда определенны для них падежи и падежи, в которых может находиться слово, к которому относится предлог.

Связка типа ПРЕДЛОГ + ПАДЕЖНАЯ ФОРМА позволяет однозначно определить основной падежный вопрос.

Радио (не скл.) - ед. ч Им., Род., Дат., Вин., Твор., Предл. падежи Без радио (без чего?) Родительный падеж

Сложнее с определением вопросов в косвенных падежах. Предлоги передают временные, пространственные, причинные, уступительные и другие отношения в зависимости от семантики существительных, стоящих с ними в связке. Здесь необходимо семантическое описание предлогов либо в явном виде, либо внесение в морфологический заголовок слова конкретизирующей семантической информации о нем.

Такое представление информации позволяет организовывать поиск с возможностью вычисления естественно-языковых запросов к тексту. Для примера возьмем отрывок текста из технического описания:

Строка заголовка находится в верхней части окна и включает несколько элементов. В верхнем левом углу помещается пиктограмма системного меню. По щелчку на ней раскрывается системное меню.

Обработав текст анализатором, использующим семантический словарь Тузова В. А., получаем следующие формулы предложений:

находится(@Им Строка(@Род заголовка),@Где в(@Пред верхней_части(@Род окна)), включает(@Им элементов(@Сколько несколько))).

помещается(@Им пиктограмма(@Род системного _меню),@Где В(@Пред верхнем левом _углу)).

раскрывается(@Им системное_меню,@Как По_щелчку(@Род По щелчку(@Где на(@Пред ней)))).

Используя их, составим таблицу отношений объектов в тексте:

Таблица 1. Отношение объектов в тексте

Объект Вопрос Подчиненный объект

смысловой связи

Строка Чего Заголовка

Находится Что Строка заголовка

Находится В чем В верхней части окна

Находится Где В верхней части окна

Части Чего Окна

Включает Что Элементов

Элементов Сколько Несколько

части Какой Верхней

* * *

Помещается Что Пиктограмма системного меню

Помещается Где в верхнем левом углу

Помещается В чем в верхнем левом углу

Пиктограмма Чего Системного меню

Меню Какого Системного

Углу Каком Верхнем левом

* * *

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Раскрывается Что Системное меню

Раскрывается Как По щелчку

Щелчку Где на ней

Щелчку На чем на ней

* * *

Зададим к тексту запросы:

Где находится строка заголовка?

Слово где является вопросительным. Без использования семантики возможны следующие перефразировки: находится где строка где заголовка где

Из таблицы находим совпадение:

Находится где в верхней части окна

Вторым шагом проверяем на совпадение слова запроса и предложения, где найден ответ. В данном случае слова строка заголовка встречаются как в запросе, так и в предложении, поэтому с достаточно большой вероятностью можно принять решение о правильности ответа. Иначе, если задать запрос:

Где помещается строка заголовка?

Получаем из таблицы:

Помещается где в верхнем левом углу

В предложении откуда получен ответ, словосочетание строка заголовка не встречается. Делается вывод, что полученный ответ не относится к запросу.

Такое представление позволяет охватить множество естественно-языковых запросов, заданных к тексту и приблизить диалог общения с ЭВМ к естественному. Однако следует отметить, что в этом случае поиск ответа на запрос ограничивается только тем множеством слов, которые находятся в предложении и тексте. При анализе предложений используется в основном только морфологическая и синтаксическая информация.

Теперь подставим описание слов из семантического словаря.

Таблица 2. Семантическое описание слов словаря В.А.Тузова_

Слово Семантическое описание

Строка $121501^1: ! Род)

Находится Ы%~НАХОЖДЕНИЕ$121(Е1: !ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2: ДЕЙСТВИЕ$15~!сТв,Е3: !Где\!вПред\!наПред\!При)

Части $1210/08^1: ! Род\! Ото)

Включает Ы%~ВКЛЮЧЕНИЕ$1511(Е1: !ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2: !Вин)

элементов ЭЛЕМЕНТ $1210/08(Е1)

Помещается Ы%~ЕМКОСТЬ$12/016(Е1: !ОНИ$702,Е2: !Куда\!Где)

Пиктограмма $14133(Е1: !Род)

Меню $121504(Е1: !Род)

Углу $122431 ^1: ! Род)

Раскрывается Ы%~ОТКРЫТЫЙ$1100/0507(Е1: !Тв,Е2: !ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е3: !Где,Е4: !Дат\!Для\!Перед)

Щелчку Ы%~ФРАЗА00( Е1: !Род)

Тогда Таблица 1 может быть преобразована и приведена к следующему виду: Таблица 3. Отношение семантических описаний объектов в тексте_

Объект Вопрос смысловой связи Подчиненный объект

$121501(Е1: !Род) Чего Заголовка

Ы%~НАХОЖДЕНИЕ$121(Е1: Что Строка заголовка

!ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2:

ДЕЙСТВИЕ$15~!сТв,Е3:

!Где\!вПред\!наПред\!При)

Ы%~НАХОЖДЕНИЕ$121(Е1: !ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2: ДЕЙСТВИЕ$15~!сТв,Е3: в чем в(@пред верх-ней_части(@род окна))

!Где\!вПред\!наПред\!При)

Ы%~НАХОЖДЕНИЕ$121(Е1: !ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2: ДЕЙСТВИЕ$15~!сТв,Е3: Где в(@пред верх-ней_части(@род окна))

!Где\!вПред\!наПред\!При)

$1210/08(Е1: !Род\!Ото) Чего Окна

Ы%~ВКЛЮЧЕНИЕ$1511(Е1: Что Элементов

!ОНЪ$7 02\!ОНА$7 02\!ОНО$7 02,Е2:

! Вин)

ЭЛЕМЕНТ $1210/08(Е1) Сколько Несколько

$1210/08(Е1: !Род\!Ото) какой Верхней

* * *

Ы%~ЕМКОСТЬ$12/016(Е1: Что Пиктограмма системного

!ОНИ$7 02,Е2: !Куда\!Где) меню

Ы%~ЕМКОСТЬ$12/016(Е1: !ОНИ$7 02,Е2: !Куда\!Где) Где в(@пред верхнем левом углу)

Ы%~ЕМКОСТЬ$12/016(Е1: !ОНИ$7 02,Е2: !Куда\!Где) В чем в(@пред верхнем левом углу)

$14133(Е1: !Род) Чего Системного меню

$121504(Е1: !Род) Какого Системного

$122431(Е1: !Род) Каком Верхнем левом

* * *

Ы%~ОТКРЫТЫЙ$1100/0507(Е1: Что Системное меню

! Тв,Е2:

!0НЪ$7 02\!0НА$7 02\!0Н0$7 02,Е3:

!Где,Е4: !Дат\!Для\!Перед)

Ы%~0ТКРЫТЫЙ$1100/0507(Е1: Как По щелчку

! Тв,Е2:

!0НЪ$7 02\!0НА$7 02\!0Н0$7 02,Е3:

!Где,Е4: !Дат\!Для\!Перед)

Ы%~ФРАЗА00( Е1: !Род) Где на(@пред ней)

Ы%~ФРАЗА00( Е1: !Род) На чем на(@пред ней)

* * *

Зададим запросы:

Где находится строка заголовка? Где помещается строка заголовка?

Обработав их анализатором, получим следующие конструкции:

находится(@Им Строка(@Род заголовка),@Где Х)? НАХОЖДЕНИЕ$121(11: Строка(@Род заголовка),12: 0 ,13: Где?) помещается(@Им Строка(@Род заголовка),@Где Х)? ЕМКОСТЬ$12/016(11: Строка(@Род заголовка),12: Где?)

В данном случае между запросами к тексту возможно поставить приближенное равенство, так как семантические классы глаголов находится и помещается начинаются с $12..., и объекты, поставленные в семантические формулы запросов совпадают.

На следующем шаге производим поиск по таблице 3. В зависимости от требуемой точности ответа на запрос определяются критерии принятия решения совпадении. Например, заранее определить количество совпадающих символов в базовых классах глаголов запроса и ответа.

В отличие от предыдущего способа сравниваются уже не слова, а объекты предложений с объектами запроса. Что позволит отмести запрос:

Где находится строка в заголовке? НАХОЖДЕНИЕ$121(11: Строка,12: 0,13: в(@пред заголовке), Где?)

В тоже время, подставляя вместо объектов их семантические описания, имеется возможность сравнить синонимичные понятия.

Такое преобразование дает некоторые преимущества по сравнению с предыдущим видом. Использование классов, стоящих в семантической формуле, позволяет охватить синонимы, использование связей между отдельными словами предложений дает возможность производить сравнение объектов.

В заключение хочется отметить, что для повышения эффективности обработки документов на естественном языке необходимо, прежде всего, решить вопрос о формализации семантики естественного языка, выделить основные составляющие конструкции этой формализации и на их основе выявить методы построения моделей семантических информационно-поисковых систем.

ЛИТЕРАТУРА

1. Тузов В.А. Семантический анализатор текстов на русском языке. // Информационные технологии в гуманитарных и общественных науках. Вып.9 - СПб.: СПб Экон.-матем. Институт РАН, 2000

2. Комаров И.И., Кривцов А.Н., Лебедев И. С. Принципы построения семантической модели текста и ее применение в системах лингвистического применения. // Тр. XXXIII научной конференции студентов и аспирантов факультета ПМ-ПУ. - СПб.: НИИ Химии СпбГУ, 2002

i Надоели баннеры? Вы всегда можете отключить рекламу.