Научная статья на тему 'Метод построения n-граммной модели для распознавания речи и текстов, адаптированной для славянских языков'

Метод построения n-граммной модели для распознавания речи и текстов, адаптированной для славянских языков Текст научной статьи по специальности «Математика»

CC BY
168
135
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
N-ГРАММНАЯ МОДЕЛЬ ЯЗЫКА / МОДЕЛЬ НА КЛАССАХ / ЭВРИСТИЧЕСКИЙ МОРФОЛОГИЧЕСКИЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Тарануха В.Ю.

Построена модель для распознавания речи и текстов, которая будет работать лучше, чем стандартные n-граммные модели для славянских языков. Проверена возможность применения эвристического морфологический анализа при построении n-граммной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод построения n-граммной модели для распознавания речи и текстов, адаптированной для славянских языков»

МЕТОД ПОСТРОЕНИЯ ^ГРАММНОЙ МОДЕЛИ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ И ТЕКСТОВ, АДАПТИРОВАННОЙ для славянских языков

© Тарануха В.Ю.*

Киевский национальный университет им. Тараса Шевченко, Украина, г. Киев

Построена модель для распознавания речи и текстов, которая будет работать лучше, чем стандартные п-граммные модели для славянских языков. Проверена возможность применения эвристического морфологический анализа при построении п-граммной модели.

Ключевые слова п-граммная модель языка, модель на классах, эвристический морфологический анализ.

Значительный рост объемов информации в виде цифровых аудиозаписей и изображений текстов требует эффективных средств, позволяющих переводить данные в текстовую форму для дальнейшей обработки. Стандартом де-факто является использование статистической модели на основе п-грамм [1], и алгоритмов, которые с ней работают. Такая модель в целом хорошо разработана [2], однако при использовании для славянских языков, в том числе для украинского языка, по сравнению с романо-германскими языками проявляется ряд недостатков, связанных со свойствами славянских языков. Предлагались различные подходы к решению этой проблемы: переход к п-граммам со свободным порядком слов [3], использование данных синтаксического анализатора [4], фильтрация на основе эвристик [5]. В работе предлагается модификация классической модели с опорой на лексические и грамматические классы.

Построение и оценка моделей

Вероятностная модель полагает, что речь обладает свойствами, позволяющими описать ее как марковскую цепь[1]. Последовательность слов языка VI,..., называется п-граммой длины я, ее обозначают Последовательность слов можно представить как последовательность я-грамм, а вероятность оценить по формуле р(м\) = р(м 1 | | м'1_2)....р(м1). Оценка вероятностей, опирающихся на частоты соответствующих п-грамм:

р(м, | м,_„+1) = г |_1 , где 1-п+1) - частота соответствующей п-граммы.

Характерной чертой славянских языков является сравнительно свободной порядок слов в предложениях. При этом значимые слова имеют боль-

* Ассистент кафедры Математической информатики.

шое количество словоформ, поскольку в словоформах хранится информация, указывающая на потенциальные синтаксические связи слова. Как следствие, значительное количество n-грамм приобретает малые значения частот, и оценка вероятностей становится чувствительной к выбросам и шумам, мешая достичь таких же высоких показателей распознавания, как те, которые получены для романо-германских языков.

Для оценки качества модели без необходимости проведения эксперимента с распознаванием используется энтропия H (X) = p(x) log2 p(x). Для

сравнения двух моделей используют кросс-энтропию. Пусть m(w1w2^wn) -модель для вероятностиp(w1w2^w„), тогда кросс-энтропия в расчете на слово выражается следующим образом: H (p, m) = lim - ^log m(ww2 ...wn), для

нее известно, что H(p) < H(p, m). Также можно применить перплек-сию: PPW = 2H(p'm).

В реальном тесте может иметь место n-грамма, отсутствующая в корпусе, по которому строилась модель, потому для оценки события, которое не встречалось в корпусе, используют методы сглаживания.

Анализ методов повышения качества модели

Переход к n-граммам с свободным порядком слов [3].

p(wi I wi-n+l) = p(wi I {w,-„+l--w-!})

Фигурные скобки обозначают, что слова, кроме последнего, собираются в произвольном порядке. Численный эксперимент [3] показал непригодность этой модели для распознавания из-за высокой энтропии.

Использование данных синтаксического анализатора [4]. В комплект n-грамм добавляются n-граммы, полученные как корректные словосочетания, полученные анализом дерева синтаксического разбора. Получено повышение качества распознавания. Этот метод предполагает необходимость использования синтаксического анализатора, что не всегда представляется возможным.

Использование декомпозиции модели на две: модель, основанную на грамматических классах, и модель, основанную на канонических формах слов. Согласно приведенных оценок для перплексии [3], при одновременном использовании обеих частичных моделей результирующая перплексия выше, чем перплексия модели, созданной только на словоформах.

Использование оптимизации энтропии или перплексии модели путем оценки и устранения шумов из модели [5]. При этом можно оценивать как модель, собранную на словоформах, так и модель, собранную на канонических формах слов.

Новый метод

Предлагается модификация классической модели с опорой на лексические и грамматические классы. Для этого строятся две модели п-грамм, отдельно на основе канонических форм слов (на леммах) и отдельно на основе грамматических классов слов. То есть, одна последовательность слов w1k дает информацию в две различные частичные модели. Затем на основе двух моделей строится общая модель, использующая информацию из обеих частичных моделей.

Для слов, о которых известно, что они имеют одинаковое синтаксическое поведение можно сделать предположение о вероятностях п-грамм. Пусть для слов: "автомобиль", "автомобиля", "вертолет", "вертолетом", "синий", "синего", "желтый", "желтым" в корпусе наблюдались биграммы: "синий автомобиль", "синего автомобиля", "желтый вертолет", "желтым вертолетом". Тогда можно выполнить свертку леммам ("автомобиль", "вертолет","синий", " желтый "), свертку по грамматическим классам ("ед., м.род., им. падеж", "ед., м.род., род. падеж", "ед., м.род., тв. падеж"). Эти существительные (и прилагательные) имеют одинаковые множества грамматических классов и виды связей, следовательно, можно построить предположение о вероятности появления их в контекстах и даже формах, не наблюдавшиеся в корпусе.

Обозначим: Ь(ук) - совокупность последовательностей канонических

форм для последовательности слов У1к, 0(ук) - совокупность последова-

к

тельностей грамматических классов для последовательности слов w1 , Е1(у1к) - совокупность последовательностей слов, которые после приведения к каноническим формам имеют одинаковую запись, совокупность wi1ik, таких что, Ь(уйй) = Ь(ук), V i.

Тогда оценка частоты w1k определяется:

с(д^))с(0(^))

сом=-ЕОТ^ (1)

врев(Е1 (^))

Для обеспечения достоверности объединенной модели выдвигается предположение: необходимо, чтобы сумма частот канонических форм и сумма частот грамматических классов после перераспределения оставалась неизменной. То есть,

IV IV

0(С(^-1)) = £0(С(м£)) & Ь(С(м>к-1)) = £ВДиА)) (2)

т=1 т=1

где | У\ - размер словаря, а соответствующие частоты С(у1к) могут быть нуле-

к

выми, если для них не существует у1 в корпусе, на котором строится модель.

Метод сглаживания

Для сглаживания и заполнения пропусков используются различные методы [2], в данной статье рассматривается сглаживание с возвращением Витте-Белла, поскольку оно включает все необходимые параметры.

Л [ d(<л+1), С«„+1) > 0

р^^+О Ч л+ , ,_1 , (3)

где d(w'i_n+1) - соответствующим образом сглаженное значение С^^^), - коэффициент, от вероятностной массы, перераспределенную для построения вероятностей на п-граммах модели меньшего порядка.

„ _ -1

Л , ...

Е р -П+2) (4)

= 1 - Е d (^-"+1)

Ь С (У\:„+1)>0!

(5)

Для метода Виттена-Бела параметр ё оценивается следующим образом:

^ = С(^- п+1) „+1) (6)

где Т^1^^) - количество типов п-грамм, предшествующих слову

После применения формулы (1) п-граммы получатся не частоты, а псевдочастоты. Сглаживание по формуле Виттена-Бела очень удобно, поскольку не требует регулировать, от какого значения псевдочастоты необходимо начислять допустимые элементы в Т^\-п+1).

Метод Катца с возвращением не подходит в качестве дополнительного метода сглаживания, поскольку опирается на эвристику Гуда-Тьюринга [1], которая не имеет понятного способа интерпретации, если вместо частот в нее подставить псевдочастоты.

В зависимости от качества модели, определяемой размером энтропии, для данной задачи будет лучше модифицированный метод Кнесера-Нея [1], однако, он потребует дополнительного обучения для определения диапазонов, которые в случае использования псевдочастот заменят фиксированные уровни отбора.

Вспомогательный инструмент

Применялся расширенный алгоритм определения грамматических свойств неизвестных слов. Он опирается на базовые алгоритмы эвристиче-

ского морфологического анализа, изложенные в [6] и набор 2-грамм полученный из корпуса.

Грамм-код g(w) - уникальный идентификатор, который однозначно описывает всю совокупность грамматических признаков словоформы у. Тг^) -преобразование у к грамм-коду g(w). У^у) - вектор частот п-грам, которые отвечают комбинациям (Тг^(у,), Тг^)), где i перебирает все номера слов в словаре.

Расширений алгоритм эвристического анализа (ЭА):

1. Вычислить признаки по базовым алгоритмам ЭА, чтобы получить различные количества грамм-кодов. Ответы системы для словоформ образуют множество А, элементами которого являются тройки (/', у, ЕА(у, /')), где i - номер соответствующих параметров запуска.

2. Для каждой неизвестной словоформы у, для всех значений i, вычисляется элемент, который соответствует грамматическим признакам, полученным от ЕА(у, /'). Обозначим это 5У(у, /').

3. Выбирается У^уУ), такой что для Уу. g(wj) с g(w) & V к Ф у,

> g(Wk)|.

4. Вычисляется косинус угла между ^У) и 5У(у, /').

5. Максимальное значение указывает на лучший результат анализа.

Расширенный алгоритм показывает значение меры ^ = 0,9, в сравнении

с = 0,87 для базового алгоритма.

Численные эксперименты

Эксперименты были проведены на п-граммах размерности < 3, собранных из стенограмм Верховной Рады Украины. Был сформирован корпус объемом 112,5 МБ. Для этого соответствующие стенограммы были собраны с сайта http://rada.gov.ua/meeting/stenogr.

Оценка качества производилась с кросс-валидацией: для построения модели использовались 75 % от корпуса, для вычисления энтропии и пер-плексии использовалась остальные 25 %.

На первом этапе в корпусе был выделены словари системы из 10.000 и 6.000 словоформ, все остальные слова были заменены на стоп-слово "#". Словарь был пропущен через систему лексического анализа, и сформированы словари канонических форм и словари грамматических классов. Классом называется элемент, который однозначно определяет совокупность признаков части речи, и саму часть речи заданной словоформы.

Служебные части речи и слова имеющие единственную форму не получают грамматический класс. Был использован алгоритм для определения характеристик неизвестных слов, описанный выше. Анализ показал, что при таком выделении словаря системы условие (2) не выполняется.

В результате словари и метод кодировки грамматических классов были переработаны специальным алгоритмом, чтобы уменьшить нарушение ус-

ловия (2), с учетом результатов полученных в работах [7,8]. В словарь системы подбирались не отдельные словоформы с высокой частотой, а группы словоформ с высокой средней частотой, и при этом собранные по всему корпусу, а не только по 75 % выделенных строк (но, п-граммы в модель отбирались только по заданным 75 % корпуса). При определении кодов была выполнена не только разбивка грамматических признаков, но и в код класса внесен номер структуры группы флексий, к которой относится окончание. Все слова, которые имели омонимы, не менялись на коды, так же как и служебные слова.

Также был проведен анализ эффективности алгоритма определения характеристик неизвестных слов, в отношении данных задачи сглаживания, при наличии большого действенного словаря. Как оказалось, подавляющее большинство нужных слов оказалось в словаре системы. Почти все неизвестные слова имели сравнительно короткие группы, потому показатели точности являются недостаточными - не удалось избавиться от избыточности в кодах, что эквивалентно наличию омонимов. Таким образом, отказ от эвристического анализа в задаче сглаживания практически не сказывается на результате, следовательно, этот этап можно не выполнять.

Все предпринятые меры позволили минимизировать нарушения условий, описанных в [8], хотя и не ликвидировали нарушение полностью. Фильтрация применялась ограниченно, только для 3-грамм. Для этого из базы 3-грамм были изъяты только те 3-граммы, которые имели частоту 1 и были построены по формуле 1. Те же 3-граммы, которые состояли из неизмененных слов, не удалялись.

Результаты оценки моделей представлены в табл. 1.

Таблица 1

Оценка энтропии и перплексии

Энтропия Перплексия

Обычное сглаживание 10 тыс. 6.9295 121,89

Перераспределение 10 тыс. 6.906 119,92

Обычное сглаживание 6 тыс. 6.4476 87,28

Перераспределение 6 тыс. 6.4344 86,48

Заметная разница между результатами в табл. 1 и результатами в [7] обусловлены кроме прочего тем, что словарь в 10 тысяч слов состоит не из самых частотных слов. Зато для выбранных слов имеется максимум словоформ.

Также следует отменить уменьшение размера базы п-грамм, для больших словарей. Результаты представлены в табл. 2.

Структура данных и результаты сжатия позволили разработать и придали смысл алгоритму, который строит перераспределенные псевдочастоты без генерации всех промежуточных форм п-грамм.

Таблица 2

Сжатие

2-граммы 3-граммы с учётом фильтрации Всего

Словарь 10 тыс. 1185 тыс. 4369 тыс. 5554 тыс.

Словарь 10 тыс. после перекодировки 1064 тыс. 3345 тыс. 4409 тыс.

Словарь 6 тыс. 816 тыс. 3471 тыс. 4287 тыс.

Словарь 6 тыс. после перекодировки 887 тыс. 2697 тыс. 3584 тыс.

Выводы

Показано, что перераспределение с помощью разработанного метода улучшает показатели перплексии, что позволяет утверждать об ожидаемом улучшении распознавания. Также такое перераспределение позволяет уменьшить размер модели языка.

Показано, что наблюдаемое нарушение требования (2) оставляет место для дальнейшего прироста качества модели, если указанное нарушение устранить полностью.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Проверена работа эвристического морфологического анализа в задаче сглаживания, и показано, что та небольшая часть слов, для которых он полезен, практически не влияет на эффект сглаживания.

Таким образом, получена адаптированная для славянских языков n-граммная модель, и есть метод ее эффективного использования в системах распознавания речи и изображений.

Список литературы:

1. D. Jurafsky Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / Daniel Jurafsky, James H. Martin // Prentice Hall PTR Upper Saddle River, NJ, -2000, ISBN:0130950696. - 934 p.

2. S.F. Chen An empirical study of smoothing techniques for language modeling / S.F. Chen, J.T. Goodman // Computer Speech and Language 1999, 13. -p. 448-453.

3. Бабин Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Хо-лоденко // Интеллектуальные системы. - 2004. - Т. 8, Вып. 1-4. - С.45-70.

4. Кипяткова И.С. Применение синтаксического анализа при создании n-граммной модели языка для систем распознавания русской речи / И.С. Кипяткова // Труды 5 междисциплинарного семинара Анализ разговорной русской речи АР3-2011, 25-26 августа 2011 г. - СПб., 2011. - С. 13-18.

5. S. Ostrogonac Language model reduction for practical implementation in LVCSR systems /S. Ostrogonac, B. Popovic, M. Secujski, et al. // Infoteh-Jahori-na Vol. 12, March 2013. - p. 391-394.

6. Анисимов А.В. Эвристические алгоритмы для определения канонических форм и грамматических характеристик слов / А.В. Анисимов, А.Н. Ро-маник, В.Ю. Тарануха //Кибернетика и Системный Анализ. - 2004. - N 2. -С. 3-14.

7. Тарануха В.Ю. Застосування клаав основаних на каношчних формах ^в та на граматичних класах в задачi редукци п-грамно! моделi мови для розтзнавання укра!нсько! мови / В.Ю. Тарануха // Вюник Кй'вського нацю-нального унiверситету iменi Тараса Шевченко Серiя: фiзико-математичнi науки. - 2013. - Спецвипуск. - С. 176-179.

8. Тарануха В.Ю. Модифiкацiя п-грамно! модели засновано! на класах, для розтзнавання слов'янських мов / В.Ю. Тарануха // Вюник Ктвського национального унiверситету iменi Тараса Шевченко Серiя: фiзико-матема-тичнi науки. - 2014. - Вип. 1. - С. 193-196.

МЕТОДИКА НАХОЖДЕНИЯ оптических КОНСТАНТ МЕТАЛЛОВ ПО ИХ СПЕКТРАЛЬНЫМ КОЭФФИЦИЕНТАМ ОТРАЖЕНИЯ

© Трегубов А.В.*, Кравец Б.С.*

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург

Данная работа посвящена нахождению основных оптических констант металла: показатель преломления (п) и показатель поглощения (к) по спектру коэффициента отражения на основании дисперсионных соотношений Крамерса-Кронига с использованием теории Лоренца. Была составлена программа в математическом пакете для реализации данной методики. Результаты хорошо согласуются с теоритиче-скими измерениями.

Ключевые слова коэффициент отражения, дисперсионные соотношения, теория Лоренца.

Запишем соотношение связывающее поляризованность среды, диэлектрическую восприимчивость и напряженность внешнего поля в общем виде:

Р(() = е01 Е(1 М -1 ', (1)

—да

где е0 - диэлектрическая постоянная, х диэлектрическая восприимчивость.

* Инженер-исследователь кафедры Твердотельной оптоэлектроники, магистр-инженер.

* Аспирант кафедры Электроники, магистр-инженер.

i Надоели баннеры? Вы всегда можете отключить рекламу.