Модели управления на основе сочетаний из трёх слов и глагольное управление для поверхностного синтаксического анализа

Литвинов М.И.

Модели управления на основе сочетаний из трёх слов и глагольное управление для поверхностного синтаксического анализа1

Литвинов М.И.

Московский Государственный Институт Электроники и Математики, каф. ИТАС

E-mail:promithias@yandex.ru

В статье рассматривается вопрос построения трёхсловных моделей управления для снижения уровня неоднозначности в тексте на русском языке. Освещается проблема локальной и глобальной оптимизации совокупности лексических признаков в предложении. Предлагается гибридная система для частичного снятия омонимии с помощью связок из трёх слов и итерационного применения триграммных правил. На основании разрешенной неоднозначности строится база сочетаний слов между собой в корпусе общей лексики (и любой направленности). С помощью моделей глагольного управления проводится поверхностный синтаксический анализ предложения.

Введение

Традиционно при разрешении частеречной омонимии применяется N-граммная модель, которая хорошо себя зарекомендовала в практических системах [см. 1,2,3]. N-граммы, как правило, применяются совместно с правилами в составе гибридных систем. HMM (Hidden Markov Models) тэггеры на основе триграмм завоевали широкую популярность потому, что математический аппарат переносится без изменений с одного естественного языка на другой. Рассмотрим в качестве примера чешскую систему [1], в которой омонимия снимается следующими этапами: морфологический анализ, применение вручную составленных правил, триграммный HMM тэггер. Правила могут извлекаться автоматически из размеченного корпуса или составляться вручную. В подавляющем большинстве современных систем применяется автоматизированное или полностью автоматическое обучение на больших текстовых корпусах. К примеру, в системе Эрика Брилла [8] используется получение правил из размеченного корпуса, а у Дэвида Яровского [5] неконтролируемое обучение на «сыром» тексте. Правила могут учитывать как локальные, так и дальнодействующие зависимости между словами [см. 4,5,6].

В данной статье будет предложен многоуровневый подход по снижению неоднозначности в тексте на русском языке и построение поверхностных синтаксических связей в предложении.

Насколько локальны возможности триграммных моделей

Ниже рассмотрим несколько причин, из-за которых триграммные модели заслужили свою популярность в ряде практических и лабораторных систем. В общем виде выражение для вычисления вероятности лексического значения слова можно записать следующим образом:

P(w, ) = argmax P(w, I w,_i)* P(w, I wi-2 ) *...* P(w, I w-N) (1)

1 Данная работа выполнена при частичной финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы.

Чешские исследователи [1] применяют сглаженную вероятность для триграммной модели, чтобы избежать проблемы редких данных:

Psm00th_(wi 1 Wi-2 * W,-1) = Л3 * P(wi 1 Wi_2 * w,J + ^2 * P(wi 1 Wi-1) + A * P(wi ) + A) / 1 V 1 (2) Проблема редких данных - одна из причин, по которой среди N-граммных моделей применяются именно триграммы.

Применение выражения (1) и (2) приводит к тому, что предложение рассматривается как набор слабосвязанных между собой слов (грамматических значений). Для английского языка, имеющего бедную морфологию, это не играет существенной роли. Но для русского языка, имеющего богатую морфологию и свободный порядок слов, применение HMM в порядке только слева направо может не дать такого результата, как для английского языка. Согласно источнику [1] в среднем качество разрешения омонимии для английского языка на уровне 97%, в то время как для чешского только 93%. Кроме того, сама форма записи выражения (1) зачастую заставляет себя применять в чистом виде и предсказывать значение слова только по двум левым соседям. В источнике [8] грамматическое значение слова определяется с помощью триграмм по левому и правому соседу. Беря во внимание тот факт, что в русском языке на слово могут влиять как левые, так и правые соседи (априори неизвестно какие), необходимо расширить окно до 5 слов. В работах [4,12] показывается, что с помощью словосочетаний варьируемой длины можно с точностью 95% определить значение слова. Там же описывались различные эксперименты по изменению центра контекста в 5 слов1. В имеющемся у автора корпусе из 347,5 тыс. триграмм 98,7% однозначны. Можно сказать, что утверждение Яровского «One sense per collocation» справедливо и для русского языка. Если полноценно утилизировать это свойство необходимо составлять базу частот всей связки из 3-х слов, а не отдельно для одного слова и частот для предшественников. Кроме того, окно захватывающее 5 слов - 2-х левых соседей, 2-х правых и неизвестное слово в центре позволит улучшить локальный оптимум грамматических признаков в предложении, приводя в лучшем случае к глобальному.

Оптимизация совокупности лексических признаков в предложении

Прежде, чем оптимизировать что-либо возникает вопрос выбора критерия. Попробуем его определить для предложения. Пусть дано предложение из N слов Wt. Число вероятных значений каждого слова равно kt. Задача машины найти такую

комбинацию лексических признаков, которая будет синтаксически корректна. Относительно английского языка проведено несколько исследований в данном направлении. Например, одна из работ - «Снятие частеречной омонимии методом имитации отжига» [7]. Суть метода состоит в следующем. В качестве отправной точки выбираются наиболее вероятные значения для каждого слова по отдельности, на этой основе составляется конфигурация C. Вычисляется значение энергии E для этого набора. На следующем шаге случайным образом меняется лексическое значение у одного из слов, конфигурация становится C'. Вычисляется изменение энергии AE при переходе из состояния C в C'. Если AE < 0, то C заменяется на C' и следующие случайные изменения делаются уже в конфигурации С'. Если же AE > 0,

1 В работе Яровского [6] приводятся данные, что человеку для анализа текста на английском языке необходима окрестность в 5 слов.

2 One sense per collocation - Одно значение слова для словосочетания

-№

то заменяем исходную конфигурацию на С' с вероятностью Р = е т . В этом выражении Т - константа, изначально равная 1. Если случайное число меньше чем Р, то С заменяется на С', в противном случае работа ведётся с конфигурацией С. Процесс генерации новых конфигураций и проверки продолжается 1000 раз, Т заменяется на 0.9Т и цикл продолжается снова. Если хоть одна итерация цикла закончится без изменений, то процедура заканчивается, итоговые лексические значения слов определяются по последней конфигурации.

Авторы сообщают, что «метод имитации отжига» даёт точность чуть более 70%. Возможно, если применять этот подход в составе гибридных систем, а не в чистом виде как авторы [7], то можно добиться улучшений в разрешении неоднозначности. Учитывая морфологию английского языка, можно предположить, что при снятии омонимии необходимо определить часть речи у слова. В русском языке помимо неизвестной части речи, надо определить еще другие параметры (например, число и падеж), что будет существенно при переводе на другой язык. Таким образом, подход, учитывающий последовательность связей в формате Р(^) = аг§шахР(/г. | /г-1)1 (для всего предложения вероятность

N

Psenten.ce = аг§шахП Р(/г. | /г-1)), пригоден для языков с простой морфологией. Здесь

1=2

стоит отметить, что среди множества публикаций посвященных русскому языку не удалось найти освещение того вопроса, что предложение надо учитывать как непрерывную совокупность лексических признаков слов. Один из подходов к решению этой проблемы представляется следующим образом.

Прежде всего, стоит учитывать, что оптимизация ресурсоёмкий процесс. Во избежание лишних вычислений следует обратить внимание на утверждение «одно значение слова для словосочетания», использовать результаты морфологического процессора и триграммной модели. Такое упрощение позволит нам разбить предложение на неизвестные фрагменты из слов, у которых будут известны правые и/или левые соседи, в зависимости от позиции в предложении. Чтобы учитывать влияние 2-х соседей на неизвестное слово, необходимо учитывать не вероятность следования слова с одним грамматическим признаком за другим Р(/г.) = а^шахР(/г. | /г-1), а связку из трёх слов Р(^) = а^шахР(^ | /г-1, /г-2). Другими

словами, по имеющейся базе словосочетаний из трёх слов строится вероятность появления правил и неизвестные системе триграммы разрешаются с помощью «триграммных правил». В самом худшем случае, когда идёт подряд несколько неопределённых слов, то будет применяться итерационный метод, который будет снимать омонимию от границ, где соседи известны, к центру, где наибольший уровень неоднозначности. Если фрагменты будут длиной более 5-ти слов, то уровень качества, вероятно, будет не очень высоким.

Описание модуля понижения неоднозначности

Учитывая современные тенденции в вычислительной лингвистике, система будет иметь гибридный характер, другими словами, будет применяться статистика совместной сочетаемости сочетаний из трёх слов и правила. Обучение будет производиться по концепции «обучение с учителем» - без ручного ввода правил, хотя,

1 Іі - лексический признак слова.

теоретически такая возможность имеется. Учитывая вышесказанное относительно возможностей триграмм, в базе будут использоваться готовые сочетания из трёх слов (триграммы) и правила из трёх лексических признаков (триграммные правила). В целях повышения эффективности разрешения неоднозначности триграммы и правила имеют следующий вид:

T2L T1L T (I)

T T1R T2R (II)

T1L T T1R (III)

T - определяемое в данный момент слово. T1R и T2R - 1-ый и 2-ой правый сосед соответственно. T1L и T2L - 1-ый и 2-ой левый сосед соответственно.

Ши U 1 и

данный момент в системе реализован простейший графематический процессор, который считает символы «.!?» концом предложения, удаляет все терминальные символы и на выход выдаёт массив слов. Система будет понижать уровень неоднозначности в тексте по следующим основным шагам:

Шаг0. Выход графематического процессора.

Шаг1. Получение возможных грамматических значений от внешнего морфологического процессора.

Шаг2. Устранение неоднозначности для слова с помощью триграмм из базы. Шаг3. Деление входного предложения на фрагменты.

Шаг4. Итерационное устранение неоднозначности с помощью триграммных правил.

Глагольное управление и поверхностный синтаксический анализ

Разработчики АОТ систем описывают явления, происходящее в естественном языке, с помощью контекстно-свободной грамматики (CFG - context free grammar), что связано с относительной простотой реализации. CFG - это четверка, состоящая из (VN, VT, S, R), VN - множество нетерминалов (в нашем случае части речи слов), VT - множество терминалов (знаки препинания), S - начальный символ, начинающий с любого элемента из VN, R(А^а) - конечное число правил (в нашем случаем А,ае VN ). В источнике [9] вероятностная контекстно-свободная грамматика (PCFG) представляется как пятерка (VN, VT, S, R,P), где P - вероятность применения правила R.

Таблица 1. Список нетерминалов (VN)

№ Тэг Описание тэга

1 verb Глагол

2 noun Существительное

3 deepr Деепричастие - форма глагола, т.е. deepr = verb

4 participle Причастие

5 adv Наречие

6 adi Прилагательное

7 sent Простое предложение

8 prep Предлог

Во избежание большого перебора зависимостей между словами, как при обучении, так и при анализе входного предложения введём 5 простых правил, используя эвристические лингвистические соображения. Для построения базы зависимостей между словами будет использоваться расстояние в 5-10 слов, чтобы не

захватывать слова из соседнего предложения1. Как правило, элементы глагольной группы со своими зависимыми словами в предложении разделяются между собой запятыми. Таким образом, правила по своей сути отражают глагольное управление.

Таблица 2. Список правил (R)

№ Правило Описание правила

1 verb + noun* глагол + существительное

2 noun + adj* существительное + прилагательное

3 deepr + noun* Деепричастие + существительное (* заменяется правилом 1)

4 participle + noun причастие + существительное

5 adv + verb наречие + глагол

* Может быть наличие предлога (prep).

В результате применения вышеприведенных правил ко входному предложению получим следующего вида дерево, отражающее наиболее вероятные синтаксические связи в предложении.

^ sent verb nOun ^ adv

ad/

Выводы

Представленный в статье подход выгодно учитывает практически однозначное значение связки из трёх слов при понижении омонимии в тексте. Небольшое отступление от классического HMM метода учитывает влияние 2-х правых и 2-х левых соседей и позволяет, тем самым, модели лучше подстраиваться под свободный порядок слов в предложении. В процессе исследований была обрисована проблема оптимизации совокупности значений слов в предложении и предложены пути её решения. Было показано, что с помощью локальных моделей управления можно получить глобальный оптимум для предложения без полного перебора возможных вариантов.

Система, понижающая уровень неоднозначности позволит обрабатывать большие корпуса любой тематики и получить базу употребления словосочетаний. В самых оптимистических ожиданиях при дообучении модуля снятия омонимии можно получить базу сочетаемости элементов2, используя опыт накопленных отредактированных текстов, которая будет проводить синтаксический разбор предложения, сглаживая ошибки эксперта в области лингвистики.

1 Имеется в виду простое предложение в составе сложного.

2 О том, что такой базы нет в общем доступе написано, например, в источнике [10].

Список литературы:

1. Jan Hajic, Pavel Krbec, Pavel Kveton, Karel Oliva, and Vladimr Petkevic. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. // Computational linguistics, 2001.

2. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Международная конференция «Корпусная лингвистика 2004». Санкт-Петербург, 2004.

3. Зеленков Ю.Г., Сегалович Ю.А., Титов В. А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов. Диалог-2005.

4. Yarowsky David. One Sense Per Collocation. // Computational linguistics 1993.

5. David Yarowsky. Unsupervised word sense disambiguation rivaling supervised methods. // Computational Linguistics, 1995.

6. Yarowsky David. One sense per discourse. // Computational Linguistics, 1992.

7. Jim Cowie, Joe Guthrie, Louise Guthrie. Lexical Disambiguation using Simulated Annealing. // Computational linguistics, 1992.

8. Eric Brill, Jun Wu. Classifier Combination for Improved Lexical Disambiguation. //Computational linguistics, 1998.

9. Mark Johnson. PCFG Models of Linguistic Tree Representations. // Computational linguistics, 1998.

10. М.Г. Мальковский, А.С.Старостин. Модель синтаксиса в системе морфосинтаксического анализа «TREETON». // Труды международной конференции Диалог'2006.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Литвинов М. И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Литвинов М. И.

Текст научной работы на тему «Модели управления на основе сочетаний из трёх слов и глагольное управление для поверхностного синтаксического анализа»