Статистические методы снятия омонимии

Рысаков С.В.; Клышинский Э.С.

Рысаков C.B.

МИЭМНИУВШЭ srysakovÇcphse. ru

Клышинский Э.С.

Институт прикладной математики им. М.В. Келдыша РАН

klyshinsky(fpmail. ru

Аннотация. Статья знакомит читателя со статистическими методами устранения морфологической неоднозначности. Описывается процесс насыщения, параметры методов, форматы тегов и n-грамм. Большое внимание уделено методам снятия омонимии, в обзоре которых описания сопровождены практическими оценками и даны алгоритмы их работы. В конце приведено сравнение качества методов дизамбигуации, осуществлённое авторами.

Ключевые слова: омонимия, неоднозначность, дизамбигуация, частеречная разметка, n-граммы, скрытая марковская модель

1 Введение

Одной из проблем, встречающихся при обработке естественного языка, является присутствие в текстах омонимов — слов, имеющих несколько морфологических значений. В текстах на русском языке таких слов примерно половина; более детальные данные, полученные из СинТагРус [НКРЯ], представлены в таблице:

Таблица 9. Неоднозначность в русском языке

Неоднозначность Слова, %

Нет 47,58

Морф, характеристики 25,58

Часть речи 12,40

Лемма и часть речи 11,70

Лемма и морф, характеристики 2,26

Только лемма 0,48

Рассмотренные в статье методы снимают два вида неоднозначностей:

■ по части речи (24,10% слов);

■ по части речи и морфологическим характеристикам (51,94% слов); соответственно, в первом случае тег, присвоенный слову в результате морфологической разметки представляет собой только часть речи (PoS, part-of-speech), а во втором также включает прочие морфологические характеристики {PoS+F,features).

Большинство неоднозначных слов не представляют сложности для человека, поскольку он может узнать верное значение из контекста.

Множество методов частеречной разметки используют информацию об окружающих словах, чаще всего соседних с определяемым словом. Сочетание/последовательность из идущих подряд л элементов называющееся п-граммой1 может содержать:

■ теги;

■ терминальные символы2;

■ знаки препинания, представленные:

о как разделитель между тегами (Т1, Рх, Т2) о наравне с тегами (Т|Рх, Т|Рг) о никак не представленные (Т1, Т2)

Как следует из названия, описанные в статье методы опираются на статистическую информацию — ещё до этапа разметки идёт подсчёт различных сочетаний, представленных в корпусе. По мере обработки корпуса новые п-граммы будут встречаться всё реже и реже, и в какой-то момент перестанут появляться, если до этого не закончится корпус. В первом случае можно считать, что произошло насыщение, и база п-грамм является наиболее полной, во втором же случае скорее всего существуют не встреченные прежде п-граммы, которые ошибочно будут считаться невероятными. Чтобы определить, какие из п-грамм достигли насыщения, были построены графики, показанные на рисунках 10 и 11.

^отя существуют и другие названия, конкретно этот термин отражает количество слов, входящих в последовательность.

2Терминальный символ соответствует началу и концу предложения.

Новые п-граммы на 10 ООО слов (тег = часть речи + морф, характеристики)

Рис. 13. Рост числа n-грамм, в которых тег представлен частью речи и морфологическими характеристиками

Примечания, «тег + пунктуация» означает, что пунктуация играет роль разделителя между тегами, а «тег или пунктуация» — что пунктуация является аналогом тега.

Графики можно интерпретировать следующим образом: чем меньше у какой-либо кривой ненулевых значений, тем ближе к насыщению база соответствующих этой кривой n-грамм. Нетрудно заметить, что п-граммы частей речи, а именно 2- и 3-граммы успели достигнуть насыщения до окончания чтения корпуса, а 4-граммы и учитывающие пунктуацию 2-граммы почти достигли насыщения. Остальные п-граммы оказались настолько многочисленны, что корпус не смог покрыть их разнообразие, поэтому для работы с ними будут более эффективны другие методы [Pascal & Sagot, 2009].

2 Обзор методов

Для оценки работы методов на данных из СинТагРус применялся метод перекрёстной проверки {cross-validation) с разбиением на 10 частей. Для каждого метода рассчитывалась точность работы — процент совпадения предсказанных и реальных тегов и полнота — процент случаев, когда омонимию удалось снять, то есть был присвоен единственный тег. Забегая вперёд, стоит отметить, что полнота всех описанных методов составила 100%.

Методы, основанные на одном алгоритме, могут различаться некоторыми параметрами, среди которых:

■ размер п-граммы;

■ формат представления пунктуации в п-грамме

■ наличие сглаживания3;

■ учёт терминальных символов;

2.1 Частотный метод

Самым быстрым из перечисленных методом снятия омонимии является частотный метод, применяемый на этапе инициализации в методе Брилля. На этапе обучения (сбора статистики) для встреченных слов ведётся подсчёт соответствующих тегов, после чего при разметке каждому слову сопоставляется самый частотный (т.е. встречаемый) тег. Как можно заметить, при разметке не играют роли ни пунктуация, ни соседние слова, поэтому частотный метод можно считать простейшим 1 -граммным методом.

Таблица 10. Точность работы частотного метода

Формат п-граммы Точность снятия омонимии4, %

Ров Ров+Е

(Т) 89,11 76,16

2.2 Метод Байеса

Подавляющее большинство статистических методов основаны на расчёте условной вероятности. Вероятность того, что слово с тегом X будет следовать за словом с тегом А можно вычислить по формуле

С(А,Х) Р(Х\А) = V , , С(Л)

где С(А,Х) — число случаев, когда слова с перечисленными тегами следуют друг за другом в соответствующем порядке. В данной реализации метода находит применение формула, учитывающая последующее слово:

Р\Х\А) =

Результирующая формула вероятности каждого тега х принимает в расчёт как предыдущее, так и последующее слово:

3 Был реализован один из простейших алгоритмов — сглаживание Лапласа.

^Поскольку определение тегов для однозначных слов представляет собой тривиальную задачу, в таблицах приводится точность только для неоднозначных слов. Для удобства читателя в конце статьи приведена сравнительная таблица с абсолютными показателями точности.

Р(х\А, В) = £ Р(х\а) ■ £ Р'(х\Ъ1 (2.2.1)

а€А ЬЕЕ

где А и В — множества допустимых тегов для соседних слов слева и справа соответственно. Для 3-грамм, в свою очередь, используется следующая формула:

РШ, В, Г,Ю = ^ НФ, Ь) ■ ^ Р(х\Ь,у) ■ ^ Р'(х\у, ж)

аЕА ЪЕБ уЕУ К •• )

ЬЕВ уЕ¥

ад ж, у)

Р(х\Ь,у) =

где Ч— множество всех тегов.

2.2.1 Параллельный метод

Для каждого неоднозначного слова составлялся список допустимых тегов, после чего каждый тег получал оценку вероятности по формулам (2.2.1) и (2.2.2). По завершению оценок словам сопоставлялись теги с наибольшей вероятностью.

Таблица 11. Точность работы параллельного метода Байеса

Формат Параметры5 Точность снятия омонимии, %

п-граммы PoS PoS+F

(Т,Т) — 56,21 76,54

сгл. 56,21 75,68

терм. 44,52 77,87

сгл. и терм. 44,10 76,75

(Т,Т,Т) — 43,34 73,94

сгл. 43,16 73,94

терм. 34,34 75,56

сгл. и терм. 28,97 75,56

2.2.2Последовательный метод

Этот метод отличается от предыдущего двумя улучшениями: во-первых, теги присваиваются словам в тот же момент, когда определится наиболее вероятная кандидатура; во-вторых, изменён порядок обработки слов: поскольку у однозначных слов уже известен тег, это упрощает и делает более надёжным расчёт вероятности для соседних слов. Таким образом, первыми выбираются слова, у которых уже есть однозначные соседи.

Таблица 12. Точность работы последовательного метода Байеса

5 Здесь и далее используются сокращения: сгл. — сглаживание Лапласа, терм. — учёт терминальных символов.

Формат п-граммы Параметры Точность снятия омонимии, %

PoS PoS+F

(Т,Т) — 28,82 74,71

сгл. 28,81 74,77

терм. 28,92 76,57

сгл. и терм. 28,92 76,59

(Т,Т,Т) — 50,07 78,05

сгл. 50,10 78,78

терм. 47,20 78,35

сгл. и терм. 47,22 78,86

2.3 Методы динамического программирования

Предыдущие методы снятия омонимии выбирали теги, дающие локальный максимум вероятности. Для нахождения глобального максимума в худшем случае потребуется перебрать порядка Л вариантов, где t — константа, среднее число тегов для каждого слова, & N — число слов в предложении. Очевидно, что метод, использующий такой подход, будет работать за экспоненциальное время, в то время как методы динамического программирования позволяют решить ту же задачу за линейное время.

2.3.1 Алгоритм Витерби

Метод, основанный на одном из самых известных алгоритмов динамического программирования, алгоритме Витерби, на каждом этапе хранит цепочки (последовательности) тегов, соответствующих словам начиная с первого и заканчивая последним разобранным, а также вероятности этих цепочек. В ходе работы метода, находим цепочку с, для которой полная вероятность максимальна:

аг Р(сг\Ci_J, (2.3.1.1)

ъЕМ

где Ц— множество всех цепочек.

Таблица 13. Точность работы алгоритма Витерби

Формат п-граммы Параметры Точность снятия омонимии, %

PoS PoS+F

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(Т,Т) — 50,02 75,72

сгл. 50,02 67,60

терм. 53,76 78,37

сгл. и терм. 53,21 77,93

(Т,Р,Т) — 57,73 77,15

сгл. 57,57 65,29

терм. 62,34 80,00

сгл. и терм. 61,81 78,53

2.3.2 Частотный алгоритм Витерби

Данное усовершенствование алгоритма [Brants, 2000] позволяет использовать преимущество частотного метода, с тем лишь отличием, что для каждого слова хранятся все теги и их частоты, а не только самый встречаемый. В результате модификации функция максимизации (2.3.1.1) принимает следующий вид:

argmax I I P(ct |q_1) ■ П>;,с;) (2.3.2.1)

T(w,t} =

cEC

Ct(w, £}

iFN

С(ш) '

где С((\у, 0 — число слов имеющих тег I

Таблица 14. Точность работы частотного алгоритма Витерби

Формат п-граммы Параметры Точность снятия омонимии, %

PoS PoS+F

(Т,Т) — 88,69 78,98

сгл. 86,99 83,58

терм. 87,79 82,04

сгл. и терм. 87,70 86,79

(Т,Р,Т) — 89,91 79,17

сгл. 88,84 83,04

терм. 89,81 82,28

сгл. и терм. 89,82 87,19

2.3.3 Алгоритм прямого-обратного хода

В отличие от алгоритма Витерби, в этом методе вероятности вычисляются не только при прямом, но и при обратном проходе (от конца предложения к началу). Также при обратном проходе вычисляются сглаженные значения между прямыми и обратными вероятностями. Применяемая в приведённой реализации однопроходная формула максимизации вероятности выглядит следующим образом:

аг§тах I I Р(сг\с1г) ■ Р'(с;|сг+1) (2.3.3.1)

Таблица 15. Точность работы алгоритма прямого-обратного хода

Формат п-граммы Параметры Точность снятия омонимии, %

PoS PoS+F

(Т,Т) — 67,34 72,85

сгл. 67,09 59,17

терм. 67,82 74,22

сгл. и терм. 67,59 60,56

(Т,Р,Т) — 73,26 76,37

сгл. 72,56 59,28

терм. 74,18 77,53

сгл. и терм. 73,45 60,53

(Т|Р,Т|Р) — 73,47 75,12

сгл. 73,03 61,13

терм. 74,07 76,27

сгл. и терм. 73,61 62,31

2.3.4 Частотный алгоритм прямого-обратного хода

По аналогии с алгоритмом Витерби, в формулу (2.3.3.1) вносится частотный коэффициент вследствие чего она принимает вид

этщтш [ ■ ■ Г(игг,сг) (2.3.4.1)

£ЕЦ г€М

Таблица 16. Точность работы частотного алгоритма прямого-обратного хода

Формат Параметры Точность снятия омонимии, %

п-граммы PoS PoS+F

(Т,Т) — 90,31 82,99

сгл. 90,53 83,91

терм. 90,35 83,34

сгл. и терм. 90,57 84,29

(Т,Р,Т) — 90,60 83,11

сгл. 90,77 83,04

терм. 90,61 83,43

сгл. и терм. 90,78 83,36

(Т|Р,Т|Р) — 90,82 87,13

сгл. 90,84 84,49

терм. 90,64 87,58

сгл. и терм. 90,66 84,87

3 Заключение

В качестве подведения итогов обзора была составлена сводная таблица на основе оценок вышеперечисленных методов снятия омонимии.

Таблица 17. Точность работы методов

Точность снятия омонимии, %

Метод Формат PoS PoS+F

п-граммы Омонимы Весь Омонимы Весь

(24,10%) корпус (51,94%) корпус

Частотный метод (Т) 89,11 97,38 76,16 87,62

Параллельный метод (Т,Т) 56,21 89,45 77,87 88,51

Байеса (Т,Т,Т) 43,34 86,34 75,56 87,31

Последовательный (Т,Т) 28,92 82,87 76,59 87,84

метод Байеса (Т,Т,Т) 50,10 87,97 78,86 89,02

Алгоритм Витерби (Т,Т) 53,76 88,85 78,37 88,77

(Т,Р,Т) 62,34 90,92 80,00 89,61

Алгоритм прямого-обратного хода (Т,Т) 67,82 92,24 74,22 86,61

(Т,Р,Т) 74,18 93,78 77,53 88,33

(TP, TP) 74,07 93,75 76,27 87,68

Частотный алгоритм (Т,Т) 88,69 97,27 86,79 93,14

Витерби (Т,Р,Т) 89,91 97,57 87,19 93,35

Частотный алгоритм (Т,Т) 90,57 97,73 84,29 91,84

прямого-обратного (Т,Р,Т) 90,78 97,78 83,43 91,39

хода (ТР,Т|Р) 90,84 97,79 87,58 93,55

Как показала практика, работу частотных модификаций алгоритмов Витерби и прямого-обратного хода можно немного улучшить, если по завершению сбора статистики удалить из частотного словаря теги с процентом встречаемости ниже некоторого порогового значения.

К дальнейшим планам относится поиск других возможных улучшений приведённых методов, поиск и устранение ошибок разметки в СинТагРус и пополнение морфологического словаря.

Благодарности

Данная работа выполнена при финансовой поддержке гранта РГНФ № 15-04-12019

Список литературы

[НКРЯ] Национальный корпус русского языка. Ошибки в корпусе [В Интернете] http://www.шscoфora.гu/instшction-syntax.html.

[Pascal & Sagot, 2009] Denis Pascal, Benoît Sagot. Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort. Paris, France : PACLIC, 2009.

[Brants, 2000] Brants Thorsten. TnT — A Statistical Part-of-Speech Tagger. Saarbrücken, Germany : 6th Applied Natural Language Processing Conference, 2000.

Статистические методы снятия омонимии Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рысаков С. В., Клышинский Э. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рысаков С. В., Клышинский Э. С.

Текст научной работы на тему «Статистические методы снятия омонимии»