Научная статья на тему 'Система автоматического распознавания слитной русской речи на базе HTK'

Система автоматического распознавания слитной русской речи на базе HTK Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
221
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ / СММ / АКУСТИЧЕСКИЕ МОДЕЛИ / ЯЗЫКОВЫЕ МОДЕЛИ / ГАУССОВЫ СМЕСИ / ДИСКРИМИНАТИВНЫЙ ТРЕНИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тананаев Д.Д., Кожевников В.И.

Существующие методы распознавания голосовых команд далеки от уровня распознавания речи человеком. Это обстоятельство определяет актуальность исследований в этом направлении. В данной работе дано описание системы распознавания слитной русской речи на базе Скрытых Марковских моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тананаев Д.Д., Кожевников В.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система автоматического распознавания слитной русской речи на базе HTK»

Кроме того, учет закона динамизации систем позволяет решать очень важные для теории и практики задачи.

Теперь мы знаем, что, степень изменения системы, т.е. её динамизация зависит от глубины проникновения претензии (воздействия) в систему. Но иногда система использует «хитрые» приемы: уходит от внешних воздействий (претензий), чтобы разрушить их или не быть отзывчивой на них, т.е. не быть совместимой с ними. В этом случае можно наблюдать проявление другого механизма диалектики развития технических систем - антидинамизацию. В этом случае гибкий элемент необходимо выполнить жестким или от гибкого элемента перейти к его жесткой структуре и реализовать требуемые функции на уровне кристаллической решетки.

Список литературы:

1. Хачин. В.Н. Память формы. - М.: Знание, 1984. - 64 с.

2. Хачин В.Н. Мартенситная неупругость сплавов // Известия высших учебных заведений. Т. XXVII. Раздел «Физика». - Томск, 1985. - № 5. -С. 88-103.

3. Лихачев В.А. и др. Эффект памяти формы / В.А. Лихачев, С.Л. Кузьмин, З.П. Каменцева. - Л.: Изд-во Ленингр. ун-та, 1987. - 216 с.

4. Сплавы с эффектом памяти формы / К. Ооцука, К. Симдзу, Ю. Судзуки и др. / Под ред. Х. Фунакубо: пер. с японск. - М.: Металлургия, 1990. - 224 с.

5. Кондраков И.М. Разработка и создание мартенситного привода машин для проходки скважин в массиве горных пород: автореф. дисс. ... канд. техн. наук / АН СССР СО ИГД - Новосибирск, 1988. - 23 с.

СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ СЛИТНОЙ РУССКОЙ РЕЧИ НА БАЗЕ НТК

© Тананаев Д.Д.*, Кожевников В.И.*

Университет имени Альберта-Людвига, Германия, г. Фрайбург, Северо-Кавказский федеральный университет, г. Ставрополь

Существующие методы распознавания голосовых команд далеки от уровня распознавания речи человеком. Это обстоятельство определяет актуальность исследований в этом направлении. В данной работе дано описание системы распознавания слитной русской речи на базе Скрытых Марковских моделей.

Ключевые слова Скрытые Марковские модели, СММ, акустические модели, языковые модели, Гауссовы смеси, дискриминативный тренинг.

* Научный сотрудник кафедры Автономных интеллектуальных систем (autonome intelligente system) Университета имени Альберта Людвига, кандидат технических наук.

* Доцент кафедры Технической эксплуатации автомобилей Северо-Кавказского федерального унивеститета, кандидат технических наук, доцент.

Введение

Задача распознавания слитной речи является одной из наиболее сложных и актуальных в наши дни. Основы распознавания речи статистическими методами [1]. Системам распознавания слитной русской речи посвящены работы [2-5].

Цель работы определение возможностей системы распознавания слитной русской речи с большим словарем, построенной при помощи HTK -инструментария для построения Скрытых Марковских Моделей (СММ) (английская аббревиатура HTK означает Hidden Markov Model Toolkit, т.е. «инструментарий на базе скрытых Марковских моделей) [6].

Кодирование данных

В HTK реализована система кодирования данных. Для разрабатываемой системы были заданы следующие параметры: в качестве энергетического компонента используется С0, протяженность кадра 25 мс и шаг смещения 10 мс (HTK использует единицы по 100 нс), результат сохраняется в сжатом виде, также добавляется контрольная сумма. В БПФ используем окно Хеминга, а сигнала предварительно предыскажаем (preemphasis) фильтром первого порядка с коэффициентом 0.97. Гребенка фильтров имеет 26 каналов, а результатом являются 12+1 (С0) коэффициентов MFCC (мел-частотные кепст-ральные коэффициенты).

Каждому состоянию соответствует 39 размерный вектор данных. Число 39 рассчитано из суммы длины параметризованного статического вектора (MFCC_0=13) плюс коэффициенты дельта (+13) и плюс коэффициенты ускорения (+13).

Инициализация системы фонемного распознавания речи

В силу того что данные обучающей выборки имеют разметку по времени, инициализация системы фонемного распознавания производится с помощью функции Hinit, следующим образом:

- определяем параметры переходов матрицы {aj} скрытой части модели посредством критерия максимального правдоподобия (Maximum likelihood). Рассчитываем среднее арифметическое jj и матрицы ковариции Ё. для каждого состояния скрытой части СММ:

jj = \ IL о' (1)

где t - время, с, Ot - 39 размерный вектор обучающих данных.

1 т

Ёj = Y 1*1(0, -j)(0 -j)' (2)

- рассчитываем вероятности наблюдений {bj(Ot)} вектора данных Ot в состоянии j в момент времени t:

Ъ(0') е ■ (3)

- запускаем алгоритм Витерби

ф. (,) = шахДф. (, -1 )а. }Ъ. (О,), (4)

где ф1 (1) = 1, (5)

ф^ (1) = а1 р. (О,), (6)

для 1 <] < Ы, тогда максимальное правдоподобие имеет вид:

фт (Т) = шах{^1 (Т )аы } ■ (7)

Что касается рекуррентного оценивания, прямое вычисление правдоподобия ведет к потере значащих разрядов, поэтому вместо этого вычисляют логарифм правдоподобия. При этом вместо уравнения (4) получаем:

у. (,) = тах{у (,-1) + \о%(а.)} + Ъ&Ъ (О,)). (8)

Функция Hinit повторяет вычисления (2)-(9) пока параметры модели перестают изменяться. Так как полное правдоподобие каждой последовательности наблюдений основывается на суммировании всех возможных последовательностей состояний, каждый вектор наблюдения Ог вносит свой вклад в расчеты значений параметров максимального правдоподобия для каждого состояния / Иными словами, пересчитываем среднее арифметическое М. (9) и матрицу ковариации ítj (10), и подставляем полученные значения в (3) с целью получения более точной вероятности наблюдений {Ь/О,)}:

УТЛ (, )О

М = Хт .() ., (9)

х . 1, (, )(о-м )(о-*)'

Е' = Г. (,) ■ (10)

Параметр Ь() получаем, используя алгоритм «вперед-назад» («йгоа^-backward») более известного как алгоритм Баума-Уэлча:

а, (0А (,)

1(,) = Р=^ ())лД()Л, (11)

. X а. (Щ (,)

где а() - прямая вероятность (а^1) = 1):

a (()=К1 a ((- l)aj ]bj (O),

(12)

а Pj(í) - обратная вероятность (Pj(T) = 1):

P(0 =Zab(O+i)fij(t +1).

(13)

Функция Hinit и HRest производят пересчет параметров для каждой СММ соответствующей отдельной фонеме. Далее объединяем все СММ в одну композитную СММ и пересчитываем её параметры аналогичным образом функцией HERest.

Следующим этапом построения системы является добавление модели коротких пауз между словами «sp» (short pause). За основу можно взять уже рассчитанную модель тишины «sil», уменьшив количество активных состояний модели с трех до одного. Каждый человек говорит с различным темпом с возможными паузами при произнесении слова, что бы учесть это, необходимо добавить дополнительные переходы из состояния 2 в 4 и из состояния 4 в 2 в модели тишины.

В словаре содержатся разные произношения некоторых слов, в особенности функциональных слов (function words). Созданные к настоящему моменту времени модели звуков могут быть использованы для преобразования (realigning) обучающих данных и создания новых транскрипций. Это можно сделать путем вызова инструмента распознавания HVite, в котором реализован алгоритм Витерби, посредством которого модели СММ используются для преобразования входных данных. Система распознавания рассматривает все произношения для каждого слова, и в качестве выходных данных формирует произношения, наилучшим образом соответствующие акустическим данным.

Далее создаем СММ на базе трифонов (групп из трех монофон) следующим образом:

Обозначим фонему стоящую слева «Л», справа - «П», по центру - «Ц», тогда трифоны формируются следующим образом «Л-Ц+П».

Ниже приведен пример конвертации слова один из монофонов в трифоны:

Один [a d' i n]

Один [a+d' a-d'+i d'-i+n i-n]

Создание трифонов делает модель контекстно-зависимой, что значительно повышает эффективность распознавания. Для этого в HTK реализована функция HLEd. При этом трифоны формируются по методу пересекающихся слов (cross word). Допустим у нас есть предложение: один один.

С помощью функции HLEd оно преобразуется в:

a+d' a-d'+i d'-i+n i-n+a sp n-a+d' a-d'+i d'-i+n i-n sp

Подобное представление имеет преимущество перед пословным (word internal) представлением трифонов и монофонов:

sil a+d' a-d'+i d'-i+n i-n sp a+d' a-d'+i d'-i+n i-n sp

Далее созданные на базе трифонов СММ связываются между собой. Связка означает, что одна или более СММ имеют один и тот же набор параметров (матрицы переходов скрытой части модели aj).

Результатом предыдущего этапа является набор СММ трифонов, где трифоны относящиеся к каждому конкретному монофону, совместно используют одни и те же матрицы переходов. При оценивании этих моделей, многие дисперсии в итоговых распределениях округлены из-за недостаточности данных, связанных с многими состояниями. Иными словами если вспомнить случай с монофонами, то мы формировали фонетически сбалансированный словарь, то есть каждая фонема в наших тренировочных данных звучала как минимум в трех разных словах. В случае с трифонами необходимо так же звучание каждого трифона как минимум в трех словах, но для этого потребуется значительно больший объем слов в обучающей выборке.

Что бы не записывать дополнительно огромное количество данных делаем древо решений, которое логически дополняет недостающие трифоны за счет фонетических правил существующих в языке. Данное древо решений позволяет строить дополнительные логические СММ недостающих трифонов.

Следующий этап - разбиение каждого скрытого состояния модели на Гауссовы смеси (Gaussian т1хШге).Для этого набор данных соответствующий каждому состоянию модели разбивается на 2 и более подгруппы:

jj =j+ e1k,

п (14)

j =j- eik,

где e1 - собственный вектор (eigenvector), к - шаг относительно средней арифметической j всей совокупности.

Для каждой новой совокупности находится средняя арифметическая матрица ковариации, а так же отношение этой совокупности относительно всего набора данных.

В разработанной системе каждое состояние модели было разбито на 16 Гауссовых смесей при этом вероятность наблюдений {¿j(Ot)} рассчитывается по формуле:

bj (0 ) = П1=1[Е!=1 CsmNO jjm , j )f , (15)

где Ms - число смешанных компонентов в потоке s, cjsm вес m компонента и N(Ost, jjsm, Ё^т) мультивариационный Гауссиан с вектором средних значений j и матрицей ковариации Ё.

1 -1(0-j),2-1(0-j) N(0"j •j 1e • (16)

где n - размерность векторов O (n = 39). Степень ys - вес потока.

Завершающим этапом обучения акустической модели является дискри-минативный тренинг.

Система была обучена по методу максимальной взаимной информации (Maximum Mutual Information (MMI)), так как показала лучшие результаты в сравнении с системой, обученной по критерию минимальной фонемной ошибки (Minimum Phone Error (MPE)). Цель дискриминативного тренинга уменьшить частоту ошибок акустической модели на данных обучения. Для этого данные тренировочной выборки распознаются с помощью функции HDecode, рассчитываются ошибочные гипотезы, имеющие столь же высокую логарифмическую вероятность что и верная гипотеза. MMI рассчитывается по следующей формуле:

F (К- Vя Wрк)) П7ч

Fmm. (Л) - I '0g( рк (рг | Mrdm) (17)

где M num - акустическая модель числителя содержащая в себе правильно распознанные решетки слов тренировочных данных; Mrden - акустическая модель знаменателя содержащая в себе ошибочные гипотезы; к - масштабирующий коэффициент (к = 0,3). Полный процесс по созданию акустической модели на базе HTK представлен на рисунке 1.

Языковая модель

При создании системы распознавания слитной речи с большим словарем необходимо в дополнение к акустической модели использовать языковую модель. Языковая модель вычисляет вероятность появления определенных последовательностей слов в тексте. Подобная последовательность слов P(w, W W ) может быть найдена:

P(wi, W2,.., W)- П™! P(W 1 W W-Д (18)

При этом условная вероятность появления слова w, для n-грамм рассчитывается следующим образом:

й, , ч COUnt (W1, W2,..., W )

count (w, W,..., wjM )

где count(w1, w2, ..., w) - число появлений последовательности слов w1, w2, ..., Wj в тренировочном тексте, а count(w1, w2, ..., wi-1) - число появлений последовательностей слов w1, w2, ..., wi-1.

В созданной системе распознавания речи использовалась 4-граммная языковая модель (т.е. модель, рассчитывающая вероятности появления последовательностей из четырех слов). Стоит уточнить, что данная модель включает себя триграмм, биграмм и униграмм модели.

HInit

HRest

HERest хЗ

«sp»

HVite (realigning)

HLEd (лист Трифонов)

HHEd (СММс трифоиаыи)

HHEd (древо решений)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

HERest х2

ГАУССОВЫ СМЕСИ

HHEd 1

(разбиение на Р HERest х4 I а В

Гауссовы

смеси) [

I ДИСКРИМИНАТИВНЫЙ |

HDecode/Hdecode. mod/HLRescore (подготовка данных)

к* HMMIRest 1 х8

1

Рис. 1. Схема создания акустической модели в НТК

В случае, когда не найдена искомая последовательность из четырех слов, рассчитываются вероятности последовательностей слов на базе более простых языковых моделей посредством линейной интерполяции. Для че-тыреграмм модели она имеет вид:

(20)

Р{Wt I Wt_3, Wi_2, Wi_1) = \P(W< I Wt_3, Wi_2, Wi_1) + +ЛP(wi 1 wt_2 , wt_i) + ЛP(wt 1 Wt-l) + Л4P(wt)> где Л1 + Л2 + Л3 + Л4 = 1, Л■ ^ 0 параметры веса каждой модели.

Результаты распознавания В табл. 1 приведены результаты распознавания слитной русской речи созданной системой в сравнении с Google speech API.

База данных слитной русской речи для оценки системы распознавания была предоставлена Центром Речевых Технологий (ЦРТ) r. Санкт-Петербург.

Таблица 1

Сравнение систем распознавания

Точность Число верно Число Число Число Всего

Название файла Распознавания распознанных ошибок ошибок ошибок слов

Words (acc), % слов(H) удаления (D) замещения (S) вставки (I) (N)

Google

c10 M15 00008 84.21 (84.21) H=32 D=2 S= 4 I= 0 N= 38

c10 M17 00005 53.23 (52.15) H=198 D=96 S=78 I=4 N=372

c10 M19 00006 62.30 (62.30) H=38 D=7 S=16 I=0 N=61

Итог 56.90 (56.05) H=268 D=105 S=98 I=4 N=471

ASR (финал конкурса «Родная речь 2013»)

c10 M15 00008 65.79 (50.00) H=25 D= 0 S=13 I=6 N= 38

c10 M17 00005 38.71 (32.26) H=144 D=50 S=178 I=24 N=372

c10 M19 00006 65.57 (59.02) H=40 D=2 S= 19 I=4 N=61

Заключение

В результате проведенной работы создана система распознавания слитной русской речи с большим словарем, показавшая хорошие результаты в сравнении с одной из ведущих систем распознавания слитной русской речи от компании Google.

Высокая эффективность системы распознавания была достигнута за счет обучения акустической модели на основе трифонов, со связанными мБежду собой матрицами переходных вероятностей скрытых частей Марковских моделей, шестнадцати Гауссовых смесей (Gaussian mixture) и дискриминатив-ном тренинге. В качестве языковой модели использовалась четыреграмм модель, обученная на текстовых файлах предоставленных данных.

Список литературы:

1. Rabiner L.R. A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. Vol. 77. February 1989. № 2. P. 257-284.

2. Yurkov P. An Improvement of robustness to speech loudness change for an ASR system based on LC-RC features // Proc. of the 14th International conference on Speech and Computer, SPECOM 2011, Kazan, Russia, 2011.

3. Korenevsky M. Unknown Words Modeling in Training and Using Language Models for Russian LVCSR System // Proc. of the 14th International conference on Speech and Computer, SPECOM 2011, Kazan, Russia, 2011.

4. Сапожков М.А. Речевой сигнал в кибернетике и связи. - М.: Радио и связь, 1963. - 452 с.

5. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наук. Думка, 1987. - 264 с.

6. Young S. The HTK Book. - Cambridge: Cambridge University Engineering Department, 2001-2002.

ЧИСЛЕННОЕ РЕШЕНИЕ СВЯЗАННОЙ ДИНАМИЧЕСКОЙ ТЕРМОУПРУГОПЛАСТИЧЕСКОЙ ЗАДАЧИ, ОСНОВАННОЙ НА ДЕФОРМАЦИОННОЙ ТЕОРИИ

© Хасанов К.А.*, Худояров Ш.Ш.*, Худжакулов Ш.А.*

Самаркандский филиал Ташкентского университета информационных технологий, Республика Узбекистан, г. Самарканд

Математическая модель связанной краевой задачи термопластичности состоит из уравнений движения и теплопроводности [1]. В статье

* Магистрант.

i Надоели баннеры? Вы всегда можете отключить рекламу.