Научная статья на тему 'Математическое моделирование омонимии имени существительного в тексте и снятие омонимии приближенными методами (на материале русского языка)'

Математическое моделирование омонимии имени существительного в тексте и снятие омонимии приближенными методами (на материале русского языка) Текст научной статьи по специальности «Математика»

CC BY
167
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛИРОВАНИЕ ОМОНИМИИ / РАЗРЕШЕНИЕ ОМОНИМИИ / ОМОГРАФ / ОМОФОРМА / МАТЕМАТИЧЕСКИЕ МЕТОДЫ / HOMONYMY / MODELLING / HOMONYMY RESOLVING / HOMOGRAPH / OMOFORM / MATHEMATICAL METHOD

Аннотация научной статьи по математике, автор научной работы — Гашков Александр Владимирович

Статья посвящена математическому моделированию омонимии имени существительного в тексте и ее разрешению приближенными методами в рамках системы автоматизированного анализа текста. Основой данного метода является оценка степени реализации для каждого денотата омонима, что позволяет улучшить точность разбора текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Mathematical modelling of noun homonyms in the text and an approximate approach to homonymy resolving (in Russian texts)

The article considers mathematical modelling of noun homonyms in Russian texts and focuses on an approximate approach towards resolving the homonymy in the system of automatic text analyse. The method is based on estimating the degree of realisation homonymous relation for each denotat, which allows to improve the text analyse.

Текст научной работы на тему «Математическое моделирование омонимии имени существительного в тексте и снятие омонимии приближенными методами (на материале русского языка)»

УДК 81.322 А. В. Гашков

Вестник СПбГУ. Сер. 9. 2012. Вып. 1

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ОМОНИМИИ

ИМЕНИ СУЩЕСТВИТЕЛЬНОГО В ТЕКСТЕ И СНЯТИЕ ОМОНИМИИ

ПРИБЛИЖЕННЫМИ МЕТОДАМИ

(на материале русского языка)

В современном русском языкознании омонимии уделяется значительное внимание. Многие авторы (Ю. Д. Апресян, О. С. Ахманова, Р. А. Будагов, А. Н. Гвоздев, О. С. Гребенкина, Ф. А. Дрейзин, А. А. Зализняк, Л. Н. Иорданская, Н. П. Колесников, И. А. Мельчук, Б. С. Мучник, Е. В. Падучева, П. А. Соболева, Е. В. Урысон, Д. Н. Шмелев и др.) затрагивали вопросы омонимии. Некоторые задачи в этой области, например теоретическое описание омонимии морфем, слов и предложений, можно считать решенными или близкими к решению. Мы, однако, хотели бы обратить внимание на менее изученную проблему: формальное описание омонимии слов и предложений, а также алгоритм ее разрешения.

К проблемам, возникающим при алгоритмизации анализа омонимии, можно отнести:

• описание омонимии знаков (слов) и предложений в русском тексте наиболее формальным способом;

• разработку математической модели;

• определение способов упрощения и решения модели.

Одной из первых значительных работ в данном направлении была разработка алгоритма синтаксического анализа И. А. Мельчуком и Л. Н. Иорданской в 60-е годы XX в. В нем, в частности, решалась проблема омонимов. При возникновении двух или более возможных интерпретаций сегмента1 алгоритм на основе некоторых правил отбрасывал все менее вероятные. При этом учитывались как внутрисегментные, так и межсегментные связи.

Синтаксический анализ, предложенный Ф. А. Дрейзиным, основан на списке двучленных конструкций, представляющих грамматические характеристики слов, которые можно объединить в некоторые «отношения» в качестве управляемого и управляющего. Получить все возможные наборы можно, обрабатывая отдельно группы подлежащего и сказуемого. Сначала из совокупности взаимоисключающих характеристик слова на основе специальных правил выбирается одна, а затем производится синтаксический анализ предложения как последовательности слов с единственными характеристиками [2].

Несомненными достоинствами данных алгоритмов являются вероятностный подход к анализу и учет контекста, однако в определенный момент анализа в алгоритмах остается только один вариант, остальные отбрасываются. Это не позволяет обнаружить намеренной (или ненамеренной) многозначности предложения (термины «намеренная/ненамеренная многозначность» предложены Ю. Д. Апресяном [3, с. 177]).

1 Сегмент — последовательность исходных словоформ, ограниченная знаками препинания (запятой, тире, двоеточием, точкой с запятой) и некоторыми союзами (и, или, либо), если перед ними нет запятой (или другого знака препинания) [1].

© А. В. Гашков, 2012

Ученый объясняет, что возникновение и определение намеренности/ненамеренности многозначности связано с экстралингвистическими знаниями, поэтому в большинстве случаев программа, основанная на синтаксическом анализе, может обнаружить омонимию, но не в состоянии установить ее намеренность или ненамеренность.

К сожалению, идеи, положенные в основу упомянутых алгоритмов, не получили должного развития в некоторых современных системах синтаксического анализа: в них встречаются алгоритмы, не учитывающие не только межсегментные связи, но и внутрисегментные тоже. Так, в системе WORD+, описанной в монографии «Лингвистические ресурсы автоматизированного рабочего места филолога», омонимия разрешается следующим образом: «Например, слово паром (в значении устройство для перевозки) и слово паром (творительный падеж от слова пар) по внешней форме совпадают. В этом случае система отдает предпочтение тому слову, которое стоит в именительном падеже (т. е. слову паром в значении устройство)» [4, с. 106].

Существуют и другие современные подходы, например вероятностный подход к задаче разрешения омонимии слов и словарных пар [5] и метод контекстного разрешения омонимии [6]. Вероятностные методы делают упор на скорость работы, с некоторым ущербом для точности. Таким образом, области применения описываемого и вероятностного методов оказываются различными. Несмотря на это, их совместное применение может оказаться достаточно продуктивным, что требует дополнительного исследования. Метод контекстного разрешения омонимии схож с предлагаемым нами, однако он требует разработки и реализации дополнительных правил, тогда как предлагаемый метод работает с тем же набором правил, который используется при синтаксическом разборе текстов. В данном случае методы также не являются взаимоисключающими, и дополнительные правила контекстного анализа могут быть естественным способом включены в описываемую систему.

Таким образом, в существующих системах анализа текста омонимия часто разрешается достаточно произвольным образом. Например, если знак для одного денотата стоит в именительном падеже, а для второго — в косвенном, то принимается, что знак означает первый денотат. Результатом такого решения может часто оказаться неправильный анализ предложения. Поэтому мы считаем необходимым для каждого денотата, различимого в конкретной системе, определять степень его реализации в контексте языковой ситуации. Для полностью однозначной ситуации степень реализации одного из денотатов должна быть 100%, а для всех остальных — 0%. В случае, если сумма степеней реализации всех денотатов знака окажется больше 100%, мы говорим о многозначности или полисемии. Предлагаемый подход позволяет повысить точность анализа предложений за счет сохранения информации о всех возможных его смыслах.

Важность решения этих проблем связана с тем, что разрешение омонимии в текстах является частью систем взаимодействия программ с пользователем на естественном языке. Без учета омонимии такое взаимодействие оказывается под вопросом или вовсе невозможно.

Необходимо отметить, что мы рассматриваем омонимию двух типов: омонимия разных слов и омонимия словоформ одного слова. Например, анализ омонима «печь» устанавливает, что в данном случае мы имеем дело с двумя типами омонимии:

1. глагол и существительное;

2. существительное в форме единственного числа именительного падежа и существительное в форме единственного числа винительного падежа.

Таким образом, слово «печь» иллюстрирует оба рассматриваемых случая.

Обозначим исследуемый знак (слово) как &о, а денотаты, означаемые им, определим как множество Ао = (а «о-п). Под денотатом мы вслед за Т. В. Булыгиной и С. А. Крыловым понимаем множество различимых объектов реального или вымышленного миров (вещей, свойств, отношений, ситуаций, состояний, процессов, действий и т. д.), которые могут именоваться некоторой языковой единицей [7]. Требуется определить множество B0 = (b1, b2, •.., bn), где b — реальное неотрицательное число, выражающее степень реализации денотата «0-j. Предположим, нам также известны все знаки я1, a2, • .., am, вместе со своими множествами Aj, Bj, которые связаны с исследуемым знаком a0 отношениями подчинения или сочинения. Для решения поставленной задачи нужно определить функцию f («0-j, B1, B2, • .., Bm) = bj.

Для определения функции f введем вспомогательную функцию g. Функция g (а1, а2) = х, где x — частотность сочетания a1 a2 без учета подчинения (т. е. сочетание a1 a2 полагается равным сочетанию a2 a1).

Тогда f (a0-j, ai-j, a2-j, am-j) = K (g (a0-j, ai-i) + g (a0-j, ai-2) + • + g (a0-j, am-n)), где K — постоянный коэффициент.

Хотя функция f определяет степень реализации денотата с точностью до множителя, при ее вычислении возникает ряд проблем:

1. не существует в настоящее время частотных словарей для сочетаний денотатов (из такого словаря мы могли бы получить значения g (а1, а2));

2. поскольку значения B1, B2, •.., Bm на момент вычисления f неизвестны, то для вычисления b0-j потребуется решить систему дифференциальных уравнений f размерностью N, где N — количество всех денотатов всех знаков текста.

Решение подобной задачи при современном уровне развития техники не представляется возможным, если количество слов в анализируемом тексте приближается к тысячам и десяткам тысяч, поэтому требуется упростить вычисления и уменьшить их объем.

Вместо функции g будем использовать ее приближенный вариант g', определенный как частотность сочетания признаков денотатов. Хотя целью данной статьи не является определение конечного набора признаков, на основании проделанной экспериментальной работы можно утверждать, что в такой набор должны входить морфологические признаки словоформы, выражающей конкретный денотат, и некоторые его семантические признаки.

Например, в предложении «У ней особенная стать» омонимия слова «стать» разрешается на уровне сочетаемости морфологических признаков.

Наиболее сложным, требующим использования наибольшего количества признаков, является случай, который мы назвали абсолютным омонимом: два или более денотата, словоформы которых не только совпадают, но и имеют одинаковые морфологические признаки. Например, «лук» — оружие и «лук» — растение, «коса» — вид прически, «коса» — часть берега и «коса» — инструмент. В предложениях вида «Мальчик нашел лук» разрешить омонимию вне контекста невозможно.

Для упрощения вычислений запишем функцию g' как:

g = 1/(1+2A(-Ai-A2---Aj-..))/L ,

где Aj — функция, принимающая значение 1 если условие выполняется и -1 — если не выполняется. Aj можно записать на естественном языке, например:

«Если а1 — существительное, а2 — прилагательное, и при этом их число, род и падеж совпадают, то Я = 1, иначе Я = -1». Правило применяется к паре слов, только если одно из них существительное (или один из его омонимов — существительное), а другое — прилагательное, в противном случае оно не имеет значения для вычисления

Для того чтобы отразить влияние расположения слов, мы вводим делитель Ь, который при отсутствии знаков препинания равен расстоянию между а1 и а2 в тексте. Если а1 и а2 идут друг за другом, то Ь = 1. Слова — не члены предложения при подсчете не учитываются. В случае, если между словами есть знаки препинания, Ь увеличивается на определенное значение для каждого из них. Например, для запятой — на 2, для точки с запятой — на 5, для точки, вопросительного и восклицательного знаков — на 10 и т. д. Введение Ь позволяет, с одной стороны, уменьшить влияние слов из разных предложений друг на друга, а с другой — ограничить объем вычислений. Поскольку функция g' — приближенная, то Ь можно ограничить значением 1/5, где 5 — относительная точность вычисления

Рассмотрим пример разрешения омонимии описанным способом в отдельном предложении.

«Ответов на эти вопросы физики пока дать не могут».

Интересующие нас омонимичные слова — «вопросы» и «физики».

Вопросы, 1 — существительное, неодушевленное, нарицательное, множественное число, именительный падеж.

Вопросы, 2 — существительное, неодушевленное, нарицательное, множественное число, винительный падеж.

Физики, 1 — существительное, одушевленное, нарицательное, множественное число, именительный падеж.

Физики, 2 — существительное, неодушевленное, нарицательное, единственное число, родительный падеж.

Пример нескольких правил, примененных к предложению:

• глагол в личной форме согласуется с существительным, совпадающим с ним в лице, числе, роде;

• прилагательное согласуется с существительным или личным местоимением, совпадающим с ним в числе, роде, падеже;

• предлог относится к ближайшему за ним согласованному лицу, все слова между предлогом и лицом должны быть определениями.

После применения всех правил мы получаем матрицу сочетаемости денотатов. Для упрощения примера мы рассматриваем слитно следующие группы: «пока дать не могут» и «эти вопросы». Таким образом, мы рассматриваем 6 групп:

1. «ответов»

2. «эти вопросы», 1

3. «эти вопросы», 2

4. «физики», 1

5. «физики», 2

6. «пока дать не могут»

Значения Я для всех пар денотатов сведены в таблицу 1.

Таблица 1. Матрица сочетаемости денотатов

Денотаты 1 2 3 4 5 6

1

2 0,66

3 0,80

4 0,17 0,33 0,33

5 0,17 0,20 0,50

6 0,22 0,10 0,17 0,80 0,20

Итог 0,11 0,06 0,20 0,33 0,02 0,20

К сожалению, небольшое количество экспериментальных данных пока не позволяет вычислить абсолютное значение степени реализации денотатов. Поэтому мы вычисляем относительную степень реализации. Как видно из таблицы, степень реализации «вопросы» 1 в 0,2/0,06 = 3,3 раза больше, чем «вопросы» 2. Для «физики» степень реализации значения 1 больше в 16 раз, чем значения 2. Однако, под влиянием окружающих предложений, степени реализаций денотатов могут измениться, обеспечивая необходимую гибкость учета контекста при разрешении омонимии.

Таким образом, мы видим, что предложенный метод позволяет с высокой степенью уверенности разрешить многие случаи омонимии имени существительного в русском тексте, с точностью распознавания в текущей версии не менее 90%.

Литература

1. Автоматический синтаксический анализ: в 2 т. / под общ. ред. А. А. Лупунова, О. С. Кулагиной. Новосибирск: АН СССР, 1964. Т. 1. Общие принципы. Внутрисегментный синтаксический анализ. 357 с.

2. Дрейзин Ф. А. Об одном способе анализа простого предложения // Научные труды Ташкентского государственного университета. 1962. Вып. 208. С. 76-81.

3. Апресян Ю.Д. Лексическая семантика: в 2 т. 2-е изд. М.: Шк. «Языки русской культуры»: Восточная лит-ра, 1995. Т. 1. 472 с.

4. Лингвистические ресурсы автоматизированного рабочего места филолога: коллективная монография / [Беляева Л. Н., Виландеберк А. А., Девель Л. А. и др.]. СПб.: Инфо-Да, 2004. 184 с.

5. Баглей С. Г., Антонов А.В., Мешков В. С., Титов А. В. Вероятностный подход к задаче разрешения омонимии слов и словарных пар [Электронный ресурс] // Тр. междунар. конф. Диа-лог-2004. URL: http://www.dialog-21.ru/digests/dialog2007/materials/html/03.htm (дата обращения: 14.01.2012).

6. Невзорова О. А., Зинькина Н.В., Пяткин Н. В. Метод контекстного разрешения функциональной омонимии: анализ применимости // Тр. междунар. конф. Диалог-2006. М.: Наука, 2006. С. 399-402.

7. Лингвистический энциклопедический словарь / гл. ред. В. Н. Ярцева. М.: Большая Российская Энциклопедия, 2000. 688 с.

Статья поступила в редакцию 19 декабря 2011 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.