Метод построения n-граммной модели адаптированной для славянских языков

Тарануха Владимир Юрьевич

МЕТОД ПОСТРОЕНИЯ N-ГРАММНОЙ МОДЕЛИ АДАПТИРОВАННОЙ

ДЛЯ СЛАВЯНСКИХ ЯЗЫКОВ

Тарануха Владимир Юрьевич

ассистент факультета кибернетики Киевского национального университета

имени Тараса Шевченко, Украина, г. Киев E-mail: taranukha@mail. ru

AVMETHOD FOR CREATING A N-GRAM MODEL ADAPTED FOR SLAVIC

LANGUAGES

Taranukha Volodymyr

assistant, Faculty of Cybernetics, Taras Shevchenko National University of Kyiv,

Ukraine, Kyiv

АННОТАЦИЯ

Построена модель для распознавания речи и текстов, которая работает лучше, чем стандартные n-граммные модели, для славянских языков. Проверена возможность применения эвристического морфологического анализа при построении n-граммной модели.

ABSTRACT

A model for speech and text recognition is built. It works better than standard models for Slavic languages. The heuristic algorithm for morphology was tested as an auxiliary tool.

Ключевые слова: n-граммная модель языка; модель на классах; эвристический морфологический анализ.

Keywords: n-gram language model; class-based model; heuristic morphological analysis.

Значительный рост объемов информации в виде цифровых аудиозаписей и изображений текстов требует эффективных средств, позволяющих переводить данные в текстовую форму. Стандартом де-факто является использование статистической модели на основе n-грамм [4]. Однако при ее использовании для славянских языков проявляется ряд недостатков, связанных со свойствами этих

языков. Предлагается модификация классической модели с опорой на лексические и грамматические классы. Построение и оценка моделей

Модель предполагает, что речь обладает свойствами, позволяющими описать ее как марковскую цепь. Последовательность слов языка wj. .. wn

называется n-граммой длины n и обозначается w". Вероятность

последовательности слов можно оценить как p(w{) = p(wi | wj-1)p(w_11 wj"2)....p(w1), для

C (wi .)

~ / i _1 \ 1 _ n + 1

вероятностей выполняется: p(wi | wl_n+1) = 1_1—-, где C(wi_n+1) — частота

C(wi _n+1)

соответствующей n-граммы.

Характерной чертой славянских языков является сравнительно свободный порядок слов в предложениях, и многие слова имеют большое количество словоформ. В словоформах хранится информация, указывающая на потенциальные синтаксические связи слов. Как следствие, значительное количество n-грамм приобретает малые значения частот, и оценка вероятностей становится чувствительной к шумам, мешая достичь таких же высоких показателей распознавания, как для романо-германских языков.

Для оценки качества модели без необходимости проведения эксперимента с распознаванием используется сравнение двух моделей через кросс-энтропию. Пусть m(ww2 ...wn) — модель для вероятности p(ww2 ...wn), тогда кросс-энтропия в расчете на слово выражается следующим образом:

H(p,m) = lim_1 logm(ww2...wn), для нее известно, что H(p)<H(p,m). Тогда

n n

перплексия задается так: ppw=2h (p'm).

Новый метод повышения качества модели

Предлагается модификация классической модели с опорой на лексические и грамматические классы. Последовательность слов wk дает информацию в две различные частичные модели: на основе канонических форм слов и на основе грамматических классов слов. Затем на основе двух моделей строится общая

модель, исходя из гипотезы, что для слов, о которых известно, что они имеют одинаковое синтаксическое поведение, можно оценить вероятности п-грамм. Обозначим: ь(»\) — совокупность последовательностей канонических

форм , О(»;) — совокупность последовательностей грамматических классов

, Е1(»1) — совокупность последовательностей слов, которые после

приведения к каноническим формам имеют одинаковую запись (совокупность

, таких что, ) = ь(»1),"). Тогда оценка частоты » определяется:

с с»;)=С()) , (!)

ОреО (Е1 (и1))

где с (...) — соответствующие частоты п-грамм.

Условие при котором модель будет корректной после перерасчета (псевдо) частот.

V |

ссп+1) = х сц-1^), (2)

} =о

где с(м>\_ и+1) — частота соответствующей п-граммы.

Вопрос обеспечения достоверности объединенной модели исследован в [3]. Метод сглаживания

Для сглаживания и заполнения пропусков используются различные методы [4], в данной статье рассматривается сглаживание с возвращением Виттена-Белла, поскольку оно включает все необходимые параметры.

Л

рО, сП+1) = \

л «„+1), с (С я+1) > о

и_1 Р(» СП + 2), с(»',_п+1) = 0

(3)

где й Щ_п+1) — соответствующим образом сглаженное значение с(щ'._п+1),ащ_п+1кщ_1— коэффициент вероятностной массы, перераспределенной для построения вероятностей на ^граммах модели меньшего порядка.

а __Ьщ._п_1__(4)

Щ _ п+1 •••№_! л , ' V /

X р (ЩЩ _П+2 )

Щ С(Щ_п+1)=0}

Р*_п1~*_Л = 1 _, Xй(Щ_п+1), (5)

[Щ.:С (Щ.-п+1)>°1

Для метода Виттена-Бела параметр й оценивается следующим образом:

^ _п+1) _ с й ^ .1) ■ (б)

где т (щ._п+1) — количество типов ^грамм, предшествующих слову щ ..

После применения формулы (1) ^граммы получат не частоты, а псевдочастоты. Сглаживание по формуле Виттена-Бела удобно, поскольку не требуется регулировать, от какого значения псевдочастоты необходимо начислять элементы в тЩ_п+1). Метод Катца с возвращением не подходит, поскольку опирается на эвристику Гуда-Тьюринга [4], которая не имеет понятного способа интерпретации, если вместо частот в нее подставить псевдочастоты. Возможно применение других методов, но оно потребует дополнительного анализа.

Вспомогательный инструмент

Применялся расширенный алгоритм определения грамматических свойств неизвестных слов [1]. Он опирается на набор биграмм, полученный из корпуса.

Грамм-код g(щ) — идентификатор, который однозначно описывает всю совокупность грамматических признаков словоформы щ. Тгг () — преобразование щ к грамм-коду g(щ) . Уг — вектор частот ^грам, которые

отвечают комбинациям (Trg ),Trg (w)), где i перебирает все номера слов в словаре.

Расширений алгоритм эвристического анализа(ЭА):

1. Вычислить признаки по базовым алгоритмам ЭА[2] EA(w,i), получить различные множества грамм-кодов. Образуются тройки (i,w,EA(w,i)), где i — номер соответствующих параметров запуска.

2. Для каждой неизвестной словоформы w, для всех значений i, вычисляется элемент, который соответствует грамматическим признакам, полученным от EA(w,i). Обозначим его Sw(w, i).

3. Выбирается Vg (wJ), такой что для w3: g(w;) с g(w) & "k ф j,\ g(wJ) \>\ g(wk) |

4. Вычисляется косинус угла между Vg (wJ) и Sw(w,i).

5. Максимальное значение указывает на лучший результат анализа.

Расширенный алгоритм показывает значение меры F1 =0,9, в сравнении с

F1 =0,87 для базового алгоритма.

Численные эксперименты

Эксперименты были проведены на n-граммах размерности < 3, собранных из корпуса стенограмм Верховной Рады Украины объемом 112,5 МБ. Стенограммы были собраны с сайта http://rada. gov.ua/meeting/stenogr. Оценка качества производилась с кросс-валидацией: для построения модели использовались 75 % от корпуса, для вычисления энтропии и перплексии использовалась остальные 25 %. В корпусе были выделены словари из 10.000 и 6.000 словоформ, остальные слова были заменены на стоп-слово "#". Словари были пропущены через систему лексического анализа, были сформированы словари канонических форм и словари грамматических классов. (Классом называется элемент, который однозначно определяет совокупность признаков части речи и саму часть речи заданной словоформы.) Был использован алгоритм для определения характеристик неизвестных слов [1]. Анализ показал, что не для всех слов получены классы, совместимые с уже наличествующими в системе. Потому он пригоден только в небольшом подмножестве случаев.

В результате словари и метод кодировки грамматических классов были переработаны [4], чтобы уменьшить нарушение условия достоверности (2), с учетом результатов, полученных в работе [2]. В словарь системы подбирались не словоформы с высокой частотой, а группы словоформ с высокой средней частотой, при этом собранные по всему корпусу, а не только по 75 % выделенных строк (но ^граммы в модель отбирались только по заданным 75 % корпуса). При определении кодов была выполнена разбивка грамматических признаков и в код класса внесен номер группы флексий, к которой относится окончание. Все слова, имеющие омонимы в словоформах, не менялись на коды, так же как и служебные слова. Предпринятые меры позволили минимизировать нарушения условия (2), но не ликвидировали нарушение полностью. Фильтрация применялась ограниченно, только для триграмм. Для этого из базы триграмм были изъяты триграммы, которые имели частоту 1 и были построены по формуле 1. Те же триграммы, которые состояли из неизмененных слов, не удалялись. Результаты оценки моделей представлены в Таблице 1.

Таблица 1.

Оценка энтропии и перплексии _

Энтропия Перплексия

Обычное сглаживание 10 тыс. 6.9295 121,89

Перераспределение 10 тыс. 6.906 119,92

Обычное сглаживание 6 тыс. 6.4476 87,28

Перераспределение 6 тыс. 6.4344 86,48

Заметная разница между результатами в Табл. 1 и результатами в [2] обусловлена еще и тем, что словарь в 10 тысяч слов состоит не из самых частотных слов, зато имеющих максимум словоформ.

Также следует отменить уменьшение размера базы ^грамм для больших словарей. Результаты представлены в Таблице 2.

Таблица 2.

Сжатие

Ограничения на построение п-грамм Биграмм ы Триграммы с учётом фильтрации Всего

Словарь 10 тыс. 1185 тыс. 4369 тыс. 5554 тыс.

Словарь 10 тыс., переоценка 1064 тыс. 3345 тыс. 4409 тыс.

Словарь 6 тыс. 816 тыс. 3471 тыс. 4287 тыс.

Словарь 6 тыс., переоценка 887 тыс. 2697 тыс. 3584 тыс.

Структура данных и результаты сжатия позволили разработать и придали смысл алгоритму, который строит перераспределенные псевдочастоты без генерации всех промежуточных форм п-грамм. Выводы

Показано, что перераспределение с помощью разработанного метода улучшает показатели перплексии, что позволяет утверждать об ожидаемом улучшении распознавания. Также такое перераспределение позволяет уменьшить размер модели языка. Показано, что наблюдаемое нарушение условий достоверности [3] оставляет место для дальнейшего прироста качества модели, если указанное нарушение устранить полностью.

Проверена работа эвристического морфологического анализа в задаче сглаживания, и показано, что та небольшая часть слов, для которых он полезен, слабо влияет на эффект сглаживания.

Таким образом, получена адаптированная для славянских языков п-граммная модель, и есть метод ее эффективного использования в системах распознавания речи и изображений.

Список литературы

1. Тарануха В.Ю. Евристичний алгоритм морфолексичного аналiзу для невщомих ^в Пращ дев'ято'' мiжнародноi науково-практично!' конференцп з програмування „УкрПРОГ'2014" , м. Ки'в, 20—22 травня , 2014. — С. 279—285.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Тарануха В.Ю. Застосування клашв, основаних на каношчних формах ^в та на граматичних класах у задачi редукцп п-грамно' моделi мови для розтзнавання украшсько" мови ./Тарануха В.Ю.// Вюник Ки'вського

нацюнального ушверситету iMeHi Тараса Шевченко Серiя: фiзико-математичнi науки. 2013, Спецвипуск. — С. 176—179.

3. Тарануха В.Ю. Модифжащя n-грамно! моделi, засновано! на класах, для розшзнавання слов'янських мов /Тарануха В.Ю.// Вюник Кшвського нацiонального унiверситету iменi Тараса Шевченко Серiя: фiзико-математичш науки. — 2014. — Вип. 1. — С. 193—196.

4. Jurafsky D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition /Daniel Jurafsky, James H. Martin // Prentice Hall PTR Upper Saddle River, NJ, 2000, ISBN:0130950696, — 934 p.

Метод построения n-граммной модели адаптированной для славянских языков Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Тарануха Владимир Юрьевич

Похожие темы научных работ по математике , автор научной работы — Тарануха Владимир Юрьевич

AVMETHOD FOR CREATING A N-GRAM MODEL ADAPTED FOR SLAVIC LANGUAGES

Текст научной работы на тему «Метод построения n-граммной модели адаптированной для славянских языков»