Научная статья на тему 'Автоматическое определение частейречи для русского языка с помощьюобучения трансформаций'

Автоматическое определение частейречи для русского языка с помощьюобучения трансформаций Текст научной статьи по специальности «Математика»

CC BY
113
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОРФОЛОГИЧЕСКАЯ РАЗМЕТКА / МОРФОЛОГИЧЕСКАЯОМОНИМИЯ / РУССКИЙ ЯЗЫК / RUSSIAN LANGUAGE / КОРПУСНАЯ ЛИНГВИСТИКА / CORPUS LINGUISTICS / PART-OF-SPEECHTAGGING / MORPHOLOGYDISAMBIGUATION

Аннотация научной статьи по математике, автор научной работы — Китов В.В.

В работе рассматривается применение известного алгоритма«обучения трансформаций» для генерации правил, автоматическиопределяющих части речи в тексте. Приводятся результаты по точно-сти применения алгоритма к размеченной выборке русского языка,а также демонстрируются правила, обеспечивающие наибольшийприрост точности

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC PART-OF-SPEECH TAGGING FORRUSSIAN LANGUAGE USING TRANSFORMATION-BASED LEARNING

This paper describes the application of well-known «transformation-based learning» algorithm of automatic rule generation for the task of part-of-speech tagging. Algorithm is applied to corpora of annotated Russiantexts and accuracy as well as most significant rules are shown.

Текст научной работы на тему «Автоматическое определение частейречи для русского языка с помощьюобучения трансформаций»

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЧАСТЕЙ РЕЧИ ДЛЯ РУССКОГО ЯЗЫКА С ПОМОЩЬЮ ОБУЧЕНИЯ ТРАНСФОРМАЦИЙ

AUTOMATIC PART-OF-SPEECH TAGGING FOR RUSSIAN LANGUAGE USING TRANSFORMATION-BASED LEARNING.

Китов В.В. — к.ф.— м. н., научный сотрудник. Вычислительный центр им. А.А. Дородницына РАН, НОЦ «Интеллектуальные системы», Москва

Kitov Victor — Cand. Sc. (mathematics), researcher. Dorodnicyn Computing Centre of the Russian Academy of Sciences. REC «Intellectual systems», Moscow

Аннотация

В работе рассматривается применение известного алгоритма «обучения трансформаций» для генерации правил, автоматически определяющих части речи в тексте. Приводятся результаты по точности применения алгоритма к размеченной выборке русского языка, а также демонстрируются правила, обеспечивающие наибольший прирост точности.

Abstract

This paper describes the application of well-known «transformation-based learning» algorithm of automatic rule generation for the task of part-of-speech tagging. Algorithm is applied to corpora of annotated Russian texts and accuracy as well as most significant rules are shown.

Ключевые слова: морфологическая разметка, морфологическая омонимия, русский язык, корпусная лингвистика.

Keywords: part-of-speech tagging, morphology disambiguation, Russian language, corpus linguistics.

Введение

Задача автоматического разрешения частеречной омонимии заключается в реализации алгоритма, позволяющего сопоставлять словам исходного текста их части речи. Определение частей речи

228

необходимо для выделения наиболее информативных участков текста, извлечения ключевых фраз, а также во-многом разрешает лексическую омонимию, когда по некоторой форме слова требуется однозначно восстановить его лемму.

Сопоставление словам их лемм необходимо при векторизации текстов перед их последующей обработкой, например, в задачах поиска, кластеризации и классификации.

Существуют бесплатные программные продукты, такие как PyMorphy2 и Mystem, позволяющие соотносить отдельным словам их леммы и морфологические характеристики с использованием словарей. Для неизвестных слов эти программы используют алгоритмы угадывания морфологических признаков по похожим словам. Однако часто это соответствие оказывается неоднозначным. Например, слову «стекло» может соответствовать как одноименное существительное, так и глагол «стекать». При применении морфологического анализатора PyMorphy2 к национальному корпусу русского языка (НКРЯ), доля слов с неоднозначными частями речи составляет порядка 20%. Для разрешения указанной многозначности уже недостаточно информации о самом слове — необходимо учитывать контекст, в котором слово было использовано.

Исторически, первым подходом к разрешению морфологической омонимии была система правил, разработанная лингвистами. С появлением больших корпусов текстов с морфологической разметкой и развитием вычислительной техники большую популярность стали приобретать статистические методы, в которых алгоритмы разрешения морфологической неоднозначности настраивались автоматически по размеченным данным. Наиболее распространенными статистическими подходами, согласно [7], являются скрытые марковские модели (HMM), марковские модели максимальной энтропии (MaxEnt) и обучение трансформаций (transformation based learning). В работе [2] морфологический анализатор Mystem и алгоритмы HMM и MaxEnt были применены к разрешению морфологической омонимии на корпусе НКРЯ и показали точность 0.949 и 0.952 соответственно. В работе [4] алгоритм HMM дал точность 0.973. В работе [1] решалась задача снятия лексической омонимии, и была получена точность 0.974 с помощью оригинальной вероятностной модели совместной встречаемости признаков. В работе [3] применен вариант алгоритма обучения трансформаций, предложенный в [5], настраиваемый без учителя к неразмеченному

229

корпусу статей издания «Частный корреспондент» и дал точность 0.957 (неоднозначность была снята только для 97 — 98% слов). При этом автору неизвестны работы, в которых бы другой вариант (вариант обучения с учителем) указанного алгоритма, использующий обучение с учителем и изложенный в [6], применялся бы к русскоязычным текстам. Вариант обучения с учителем мог бы потенциально дать более высокую точность, поскольку использует знание об истинных значениях частей речи в обучающем тексте, что и подтверждается в результатах исследования.

В данной работе алгоритм обучения трансформации с учителем применяется к корпусу НКРЯ, приводятся варианты ускорения этого алгоритма, а также точность работы и сгенерированные правила, дающие максимальный вклад в точность.

Описание алгоритма

Будем называть части речи, сопоставленные словам, тэгами этих слов. Алгоритм состоит из двух частей: обучение и применение.

На обучающем этапе к размеченному множеству текстов применяется некоторая естественная простановка тэгов, после чего подбирается оптимальная последовательность правил, уточняющих эту простановку.

На этапе применения алгоритма, к тексту, как и при обучении, вначале применяется естественная простановка тэгов, после чего эта простановка тэгов уточняется правилами, полученными на обучении алгоритма.

В качестве алгоритма естественной начальной простановки тэгов всем словам может сопоставляться тэг «неопределенная часть речи», или проставляться наиболее частотная часть речи, или (как было осуществлено в экспериментах этой статьи) каждому слову сопоставляется его наиболее вероятная часть речи по словарю вместе с наиболее вероятными прочими морфологическими признаками.

В результате применения алгоритма начальной простановки тэгов, имеется текст как последовательность слов и знаков препинания, с расставленными над ним тэгами.

Правила уточняют расстановку тэгов за счет учета контекста вокруг слов, учитывая особенности соседних слов (его значение или окончание), их тэги и морфологические характеристики. Правила имеют следующий вид:

230

ЕСЛИ УСЛОВИЕ=<ЗНАЧЕНИЕ УСЛОВИЯ>, ТО ЗАМЕНИТЬ <ИСХОДНЫЙ ТЭГ> НА <НОВЫЙ ТЭГ>.

Здесь и далее функции будут обозначаться жирным шрифтом, а значения будут обрамляться угловыми скобками. При применении правила к тексту, ищутся все позиции, на которых выставлен <ИСХОДНЫЙ ТЭГ>, и, если функция условия дает значение, равное <ЗНАЧЕНИЕ УСЛОВИЯ>, то <ИСХОДНЫЙ ТЭГ> заменяется на <НОВЫЙ ТЭГ>.

Этап обучения алгоритма осуществляет перебор по всевозможным значениям <ИСХОДНЫЙ ТЭГ>, <НОВЫЙ ТЭГ>, а также по всевозможным функциям условия и значениям этой функции. Это является наиболее трудоемкой частью алгоритма, т.к. подразумевает полный перебор, причем данный перебор необходимо осуществлять для поиска каждого отдельного правила. Для каждого возможного правила вычисляется рейтинг, равный разнице числа случаев, когда применение правила привело к увеличению точности и числа случаев, когда правило привело к ухудшению точности.

В эксперименте данной статьи использовались следующие оптимизации этого алгоритма:

• перебирались не все возможные значения условия, а только те, которые встречались при заданных исходных тэгах [Brill 1995b].

• при расчете рейтингов правил использовать обратную индексацию тэгов.

• рассчитать значения рейтингов для всех правил, а после применения наилучшего правила пересчитывать рейтинги только в области изменений [Ngai, Florian 2001].

Результаты применения алгоритма

В качестве морфологического анализатора использовался PyMorphy2. Из корпуса текстов «Национальный корпус русского языка» со снятой морфологической омонимией были извлечен подкорпус письменной речи. Произведения корпуса были разбиты случайным образом на обучающее и контрольное множество, но так, чтобы сохранилось распределение по жанрам. В итоге обучающее множество состояло из 34467 предложений, а контрольное — из 11845 предложений. Точность оценивалась как доля правильно определенной части речи для всех токенов, включая пунктуацию. Классификация по частям

231

речи была использована такая же, как в НКРЯ, за исключением того, что наречия и местоименные наречия были объединены в один класс.

Точность, после применения начальной естественной разметки, оказалась равной 0.921.

Функция условия представляла собой композицию 1 — 4 позиционных функций условия Р(х) = [Р1 (х, с^),___Р'п (х, ап)], «=1,2,3,4,

х-текущая позиция, относительно которой определяется условие. Каждая позиционная функция условия Е 1к(х, о) извлекала условие для некоторого смещения ок е [-3, -2, .. .3], причем смещения брались так, чтобы образовывать непрерывную цепочку. Функция Е гк(х, ок) извлекала в позиции х + ок значение части речи, бинарный признак однозначной определенности этой части речи по словарю, а также мог браться случайным образом один из признаков, приведенных в табл.1.

Было найдено 635 правил, которые в совокупности повысили точность на контрольном множестве до 0.970.

В табл.1 перечислены признаки, использовавшиеся в функции условия, и приведены вклады каждого признака в совокупное повышение точности.

Таблица 1.

Вклад признаков в точность

Часть речи 0.0481 Род 0.0008 Одушевленность 0.0001

Однозначно опр. 0.0481 Окончание 2 0.0007 Переходность 0.0001

Короткое слово 3 0.0054 Содержит дефис 0.0006 Кр./полн. форма 0.0000

Короткое слово 2 0.0041 Все слово 0.0005 Время 0.0000

Скончание с гласн. 0.0032 Окончание 4 0.0004 Форма глагола 0.0000

Все заглавные 0.0031 Число 0.0003 Лицо 0.0000

Короткое слово 4 0.0021 Наклонение 0.0003 Только числа 0.0000

Первая заглавная 0.0016 Прочие свойства 0.0001 Содержит число 0.0000

Падеж 0.0009 Вид 0.0001 Залог 0.0000

Окончание 3 0.0008 Степень сравнения 0.0001

232

0.98

0.97

0.96

go.95

о x

10.94 0.93 0.92

°"910 100 200 300 400 500 600 700

Число правил

Рис.1. Точность в зависимости от числа правил.

На рис.1 показана зависимость точности алгоритма от числа правил на обучающем и контрольном множестве текстов. Скачки на графике обусловлены переключением между множествами функций условий, в которых производился перебор.

В табл.2 представлены автоматически найденные правила, давшие наибольший индивидуальный вклад в точность. Запись правил имеет следующий формат:

IF (признак_1[смещение_1], ... признак_К[смещение_К]) = = (значение_1, ...

значение_К) THEN REPLACE <исходная часть речи> TO <новая часть речи>,

что означает, что при значении перечисленных K признаков (в позициях, указанных в квадратных скобках относительно текущей позиции) необходимо заменить указанную исходную часть речи (в текущей позиции) на новую часть речи.

233

Таблица 2.

Топ-5 автоматически определенных правил

#

Повышение точности Правило

0.0054 IF (ЧАСТЬ РЕЧИ[0], ОДНОЗНАЧНО 0ПРЕДЕЛЕН0[0])= =(—,True), THEN REPLACE — TO числительное

0.0024 IF (ЧАСТЬ РЕЧИ[0], ОДНОЗНАЧНО 0ПРЕДЕЛЕН0[0], ЧАСТЬ РЕЧИ[1], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[1])==(местоимение-существительное^аке,существительноеДгие), THEN REPLACE местоимение-существительное TO местоимение-прилагательное

0.0017 IF (ЧАСТЬ РЕЧИ[0], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[0], ВСЕ ЗАГЛАВНЫЕВД^^числительноеДгиеДгие), THEN REPLACE числительное TO -

0.0016 IF (ЧАСТЬ РЕЧИ[0], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[0], ЧАСТЬ РЕЧИ[1], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[1])==(существительное, False,существительное,True), THEN REPLACE существительное TO прилагательное

0.0016 IF (ЧАСТЬ РЕЧИ[0], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[0], ЧАСТЬ РЕЧИ[1], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[1], ЧАСТЬ РЕЧИ[2], ОДНОЗНАЧНО ОПРЕДЕЛЕНО[2]) ==(числительноеДгие,числитель-ное,True,числительное,True), THEN REPLACE числительное TO -

#

Выводы

В работе рассматривался алгоритм автоматической генерации правил для простановки частей речи в тексте, основанный на методе «обучения трансформаций». Были приведены результаты применения данного подхода к корпусу НКРЯ со снятой морфологической омонимией. Результаты показывают сравнимую точность алгоритма с альтернативными методами. Указанный подход представляется перспективным, поскольку, в отличие от других статистических методов, дает интерпретируемый результат, который естественным образом может корректироваться и дополняться экспертными правилами.

Работа выполнена при поддержке Российского фонда фундаментальных исследований (проекты 14-07-31176, 14-07-00908).

Библиографический список

1. Зеленков Ю., Сегалович И., Титов В. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов / Компьютерная лингвистика

234

и интеллектуальные технологии: Труды международной конференции «Диалог'2005». — М.: Наука, 2005. 616 с

2. Лакомкин Е.Д., Пузыревский И.В., Рыжова Д.А. Анализ статистических алгоритмов снятия морфологической омонимии в русском языке. / Анализ изображений, сетей и текстов. Труды научной конференции «АИСТ'2014», 2013.

3. Протопопова Е., Бочаров В. Автоматическое извлечение правил для снятия морфологической неоднозначности. / Национальный Открытый Университет «ИНТУИТ», 2012.

4. Сокирко А.В., Толдова С. Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) / Интернет-математика-2005.

5. Brill E. Unsupervised Learning of Disambiguation Rules for Part of Speech Tagging / In Proceedings of the Third Workshop on Very Large Corpora, MIT, Cambridge, Massachusetts, USA, 1995a.

6. Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing: А Case Study in Part of speech Tagging. / In Computational Linguistics. 21:4. 1995b.

7. Jurafsky M. Speech and Language Processing / Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 2009.

8. Ngai G., Florian R. Transformation-based learning in the fast lane, in NAACL '01: Second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies 2001, pp. 1-8 / Association for Computational Linguistics, Morristown, NJ, USA. 2001.

Контактная информация:

e-mail: v.v.kitov@yandex.ru

Contact links:

e-mail: v.v.kitov@yandex.ru

235

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.