Научная статья на тему 'Способ формализации связей в тексте при обработке естественно-языковых конструкций'

Способ формализации связей в тексте при обработке естественно-языковых конструкций Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
350
41
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кан Д. А., Лебедев И. С.

Предложен способ вычисления ответов в тексте на вопросы, заданные в естественном виде. Он основан на использовании структур, характеризующих лексические единицы текста. Рассмотрены вопросы разделения текста на семантически связанные единицы. Библиогр. 5 назв. Ил. 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A method of calculating answers in a text for questions put in a natural form is proposed. It is based on the usage of structures characterizing lexical units of a text. Problems of text division into semantically connected units are considered.

Текст научной работы на тему «Способ формализации связей в тексте при обработке естественно-языковых конструкций»

2008 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. Сер. 10. Вып. 2

ИНФОРМАТИКА

УДК 519.688

Д. А. Кан, И. С. Лебедев

СПОСОБ ФОРМАЛИЗАЦИИ СВЯЗЕЙ В ТЕКСТЕ ПРИ ОБРАБОТКЕ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ КОНСТРУКЦИЙ

Введение. Для широкого класса современных компьютерных программ актуальна реализация естественно-языкового (ЕЯ) интерфейса, т. е. ведение диалога с пользователем на естественном языке. Подобный интерфейс полезен информационносправочным, поисковым системам, а также системам помощи для анализа вопроса и поиска точного адекватного ответа в режиме реального времени. Для реализации ЕЯ-интерфейса требуются разбиение текста на смысловые составляющие и определение семантических связей между словами. В предлагаемой работе представлены результаты, на основе которых был создан реально действующий анализатор, позволяющий построить точный граф для большинства русскоязычных предложений. Его демонстрационная версия находится в сети Интернет по адресу www.semlp.com. В основу анализатора была положена семантическая модель естественного языка В. А. Тузова. При реализации были созданы морфологический, синтаксический словари и словарь, содержащий семантическую информацию о 100 000 исходных форм слов. Простейшие системы, использующие аналогичные подходы, могут не содержать никаких словарей или тезаурусов, что позволяет достичь скорости обработки за счет более низкого качества.

Структура семантики предложения. На рис. 1 приведен пример графа текста со словами %1,, гп.

Рис. 1. Граф текста.

© Д. А. Кан, И. С. Лебедев, 2008

Видно, что максимальное количество связей образуют несколько информационных элементов, они определяют тематику текста. Для построения ЕЯ-интерфейса необходимо выявить семантику слов и связи между ними. Роль и значение слова в предложении помогают установить часть речи.

Наиболее сильно предложение характеризуют существительные. Они представляют элементарные аргументы предложения и могут быть записаны в виде структуры, содержащей несколько полей:

N(h,...,kn), (1)

где N (от «поип») - объект на основе существительного, а аргументы kj присоединяются с помощью связей КАКОЙ? СКОЛЬКО? ЧЕЙ? ЧЕГО? КОГО? КЕМ? ЧЕМ?

Применительно к любому тексту на русском языке, по которому проводится поиск ответа на запрос пользователя в системе с ЕЯ-интерфейсом, объекты можно условно классифицировать по нескольким типам:

• существительное: ЗНАНИЯ, ТЕСТИРОВАНИЕ;

• существительное, уточненное прилагательным: МЕРОПРИЯТИЯ КОНТРОЛЬНЫЕ;

• существительные, уточняющие себя другими существительными в родительном или творительном падеже: РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ;

• существительные с прилагательными, уточняющие себя другими существительными в родительном или творительном падеже: ТЕСТИРОВАНИЕ ПУТЕМ ПРОВЕДЕНИЯ МЕРОПРИЯТИЙ КОНТРОЛЬНЫХ.

Если в запросе пользователя выделяются подобные группы на основе какого-то объекта, то релевантный документ в своем тексте должен содержать слова уточняющей группы при нем.

Используя запрос пользователя и выражение (1), подключив словарь синонимов, можно задавать перефразировки. Например, для запроса «результаты тестирования», используя электронный словарь синонимов [1], находим описания:

результат следствие, последствие, след, итог, плод, сумма

тестирование проверка, испытание

Подставив их в выражение (1), получаем следующие перефразировки: результаты тестирования, результаты проверки, результаты испытания, следствия тестирования, следствия проверки, следствия испытания и т. д.

Избыточность и искажение смысла высказывания при перефразировании может быть обойдено подключением словарей в соответствии с основными тематикой, стилем и жанром текста.

Подобные ситуации возникают и в системах автоматического перевода, когда необходимо выбрать наиболее подходящую конструкцию на другом языке. При переводе полученных фраз на другие языки, например, родительный падеж русского языка заменяется соответствующей падежной формой целевого языка. Так, в частности, для английского языка он выражается предлогом of [2]: results of testing (результаты тестирования), results of checking (результаты проверки), consequences of testing (следствия тестирования) и т. п. Во французском языке в этой роли выступает предлог de: resul-tats de verification (результаты проверки) и т. д.

Есть и другая сторона: удобство пользователя заключается в использовании того естественного языка, на котором ему легче всего сформулировать запрос. Наиболее эффективное решение данной проблемы возможно в случае отражения фразы на семантическом языке [3]. Тогда поиск информации может вестись по документам на разных естественных языках, что позволяет существенно расширить область поиска. При переводе запроса на другие естественные языки возникает задача линеаризации (синтеза) фразы на целевом языке.

Главная задача в системах, использующих семантику естественного языка, — это построение дерева предложения. Рассмотрим ее решение по теории [3], где основой конструкции предложения, к которой прикрепляются все его члены, является глагол. Если глагола нет, то его можно заменить «пустым глаголом». Каждый глагол аналогично существительному может быть также представлен в виде

Adv(V(N1(ki,..., кп),..., Nm{ku..., *„))), (2)

где Adv (от «adverb») - наречие, отвечающее на вопрос КАК? КОГДА? КУДА? ГДЕ? ОТКУДА? КАК ДОЛГО?; V (от «verb») - глагольная функция; N- объект на основе существительного.

Аналогичным образом описываются и другие части речи. Более подробно это отражено в работе [4].

Задача формализации смысловых вопросов. Опорный материал для анализа текста предоставляют существительные или объекты на основе их [3, 5]. Если в тексте нет существительного, которое встретилось в вопросе к тексту, или его синонима, то маловероятно, что в тексте будет содержаться конкретный ответ на вопрос.

Каждая стрелка в графе текста (см. рис. 1) определена совокупностью вопросов, которую можно задать от одного объекта к другому. Условно их можно разбить на две группы.

Первая группа основывается на падежных вопросах ( кто? что? кого? чего? кому? чему? кем? чем? о ком? о чем?). Она практически однозначно определяется предложно-падежной формой, и ее формализация зависит только от морфологической информации. Зная, в каком падеже стоит, например, существительное или прилагательное, всегда можно подобрать вопрос падежа и сформулировать вопрос к словоформе или словосочетанию:

Пришел (из чего?) из деревни.

Вторая группа - это смысловые вопросы, которые гораздо сложнее анализировать:

Пришел (откуда?) из деревни.

Пришел (почему?) из вежливости.

Для формализации смысловых вопросов, которые можно задать к тексту, необходимо вычленить элементарные структуры, внутри которых необходимо описать связи. В данном примере в качестве элементарной единицы рассмотрим граф, изображенный на рис. 2.

Вершины этого графа составляют глагол V, прилагательное Adj, предлог Prep, существительное N, наречие Adv.

Создание формулы предложения состоит в том, чтобы определить каждый аргумент предложения и каждому слову приписать его семантико-грамматический тип. В случае построения такого предиката каждому аргументу можно задать вопрос от глагола,

который будет определяться морфологической информацией, что позволит использовать, с одной стороны, падежный вопрос, а с другой - смысловой вопрос, стоящий в прямой зависимости от семантики слова.

Многие вопросы, заданные в естественном виде, будут содержать вопросительное слово либо падежей, либо смыслового вопроса. Например, на вопрос к тексту, состоящий из одного вопросительного аргумента какой?, могут отвечать не только прилагательные в именительном падеже единственного числа мужского рода, но и существительные в родительном с предлогами от и из, дательном с предлогами по, творительном с предлогом с. (Доклад (какой?) от 5 числа.)

Для описания смысловых вопросов необходимо приписать каждому существительному индекс некоторого класса. При описании этих классов с целью вычисления смысловых вопросов за основу было взято описание семантики предлогов русского языка из [3]. Число классов может колебаться в зависимости от объема словаря, точности требуемого описания, но оно всегда недалеко от 30. Приведем некоторые из них:

ДАТА, НАПРАВЛЕНИЕ, СВОЙСТВО, СОДЕРЖАНИЕ, ЭЛЕМЕНТ, ДЕЙСТВИЕ, МАТЕРИАЛ, МНОЖЕСТВО, МЕРА, ЧИСЛО, ОБЪЕКТ, ОТНОШЕНИЕ, ЧУВСТВО, ВРЕМЯ, ЕМКОСТЬ, РАССТОЯНИЕ, ЗАКОН, ЧАСТЬ, ИНФОРМАЦИОННЫЙ ИСТОЧНИК.

Каждый смысловой вопрос к существительному, независимо от какой части речи он задается, можно выразить по формуле

(ПРЕДЛОГ + ПАДЕЖНЫЙ ВОПРОС) 0 Семантика слова =

= СМЫСЛОВОЙ ВОПРОС,

где семантика слова определяется классом, к которому принадлежит обозначаемое им понятие.

Существительное с предлогом рассматривается как единое целое. На рис. 2 стрелками показаны основные связи, которые необходимо формализовать для вычисления ответа на ЕЯ-вопрос.

Пример формализации одного смыслового вопроса. Рассмотрим подход к формализации для некоторых смысловых вопросов. Всего в русском языке существует около 25 вопросительных слов, в приведенном ниже примере (для вопроса почему?)

показываются смысловой вопрос, предлог с падежным вопросом, формула, согласно рис. 2, характеризующая часть речи, от которой задается вопрос, и особенности существительных (падеж и класс), к которым он ставится.

Например:

I. Почему? (от чего? от кого? с чего? из чего? из-за чего?).

1. С S образуется связь «Элемент от S»:

серый (почему? от чего? с чего? из чего? из-за чего?) от (из-за) пыли Adj + (Prep = от, с, из, из-за jYPrep case = класс «объект»),

2. Образуется связь «чувство»:

ушел (почему? от чего? с чего? из чего? из-за чего?) из вежливости

V + (Prep = от, с, из, из-за ]S[Gen-case = класс «чувство»).

II. Почему? (по чему? по кому? как?).

1. Образуется связь «по закону»:

трактовал (почему? по чему? как?) по закону

V + (Prep = по MDat-case = класс «закон»).

III. Почему? (на что? на кого?).

1. Образуется связь «действие»:

закрыли (почему? на что? зачем?) на ремонт

V + (Prep = на ]\[Acc-case = класс «действие»),

IV. Почему? (за чем?).

1. Образуется связь «объект»:

шел (почему? за чем?) за неимением денег

V + (Prep = за jSftnst.r.case _ класс «объект»),

В I-IV

Prep.case Предложный падеж Gen.case Родительный падеж

Dat.case Дательный падеж Acc.case Винительный падеж Instr.case Творительный падеж

Рассмотрим два словосочетания, где подчиненные существительные стоят в родительном падеже:

пришел из вежливости; пришел из деревни.

Анализатор выдает следующие конструкции:

@Глагол Пришел (@Почему из (@Род вежливости)),

@Глагол Пришел (@Откуда из (@Род деревни)).

Видно, что к первому словосочетанию можно поставить вопрос «Пришел почему? От чего?» и получить в качестве ответа «из вежливости», «от безысходности», «от горя» -существительные класса «чувства» в родительном падеже. Второе словосочетание отвечает на вопрос «откуда?». Его ответом будут существительные класса «объект» в родительном падеже: «из деревни», «из дома», «с поля».

После того как построен граф текста, дуги, соединяющие объекты, могут принимать значения либо смысловых вопросов, либо вопросов падежей, в которых находятся объекты.

Семантика ответа на вопрос может быть выражена одним словом, частью предложения или частью текста. Синтаксис вопроса дает портрет взаимосвязанных предложений в тексте.

Заключение. В основе конструкции семантического языка находятся объекты, образующие между собой связи. Идентификация объектов и вычисление значения их связей основываются на модели представления естественного языка и зависят друг от друга. Не вычислив связи, нельзя определить, является ли множество слов семантической конструкцией, и наоборот, не выделив объект, сложно говорить о его связях с другими объектами. Вычисление связей - основная проблема при построении адекватных правил работы с текстом. Связь предложений в тексте дает возможность установить границы множества предложений, которые можно анализировать для ответа на вопрос. Для анализа текста в вопросно-ответных системах необходимо получить наиболее полный и точный граф предложений. При создании ЕЯ-интерфейсов огромная роль принадлежит формализации вопросов, задаваемых на естественном языке. Вычисление смыслового вопроса к предложно-падежной форме сводится к поиску конкретного атрибута присоединяющего слова.

Summary

Кап D. A., Lebedev I. S. Method of formalizing semantical links between objects in a natural language text.

A method of calculating answers in a text for questions put in a natural form is proposed. It is based on the usage of structures characterizing lexical units of a text. Problems of text division into semantically connected units are considered.

Литература

1. Информационный сервер г. Набережные Челны. Электронный словарь синонимов: http://www.chelni.ru/slovari/sinonim.

2. Английские падежи/ Английский язык, падеж/English Case, 2005-2007: http://www. homeenglish.ru/Grammarcase.htm.

3. Тузов В. А. Компьютерная семантика русского языка. СПб: Изд-во С.-Петерб. ун-та, 2004. 400 с.

4. Кондратьев А. В., Кривцов А. И., Лебедев И. С. Анализаторы текстов формальной модели русского языка для компьютера // Процессы управления и устойчивость: Труды XXIX науч. конференции студентов и аспирантов факультета ПМ-ПУ. СПб: НИИ химии С.-Петерб. ун-та, 1998. С. 142-154.

5. Комаров И. И., Кривцов А. И., Лебедев И. С. Принципы построения семантической модели текста и ее применение в системах лингвистического обеспечения // Процессы управления и устойчивость: Труды XXXIII науч. конференции студентов и аспирантов факультета ПМ-ПУ. СПб.: НИИ химии С.-Петерб. ун-та, 2002. С. 373-382.

Статья рекомендована к печати проф. А. Н. Тереховым.

Статья принята к печати 4 декабря 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.