Научная статья на тему 'Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования'

Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
25
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION / МЕТОД ОПТИМАЛЬНОГО ОБУЧАЮЩЕГО СЛОВАРЯ / OPTIMUM TAUGHT RECOGNITION VOCABULARY METHOD / СИНТЕЗ АЛГОРИТМА / SYNTHESIS OF THE ALGORITHM / ИНФОРМАЦИОННОЕ РАССОГЛАСОВАНИЕ / ВЕРОЯТНОСТЬ РАСПОЗНАВАНИЯ / INFORMATIVE DIVERGENCE / THE POSSIBLE FALSE CHOICE

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Савченко В.В., Акатьев Д.Ю., Шерстнев С.Н.

Рассмотрена задача повышения эффективности автоматического распознавания речи (АРР) в виде изолированных слов на основе применения метода оптимального обучающего словаря. Для отбора в обучающий словарь наиболее информативных реализаций каждого слова предложен критерий минимума суммы информационных рассогласований по Кульбаку–Лейблеру. На примере распознавания десяти числительных показано, что достигаемый эффект состоит в существенном (в несколько раз) уменьшении вероятности ошибки, причем этот эффект распространяется на самые разные методы АРР.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Савченко В.В., Акатьев Д.Ю., Шерстнев С.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The optimum taught recognition vocabulary for automatic speech recognition with minimum of informative divergence method

The problem of efficiency increasing of automatic speech recognition (ASR) in the form of the isolated words based on application of a method of the optimum training dictionary is considered. The minimum of sum of the informative divergent criterion in Kullback–Leibler metric has been proposed for optimum realization word selection to the training dictionary. The effect of the possibility decreasing of false choice has been illustrated by the example of ten numerals recognition and this effect extends on the most different methods АРР.

Текст научной работы на тему «Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования»

5. Бахвалов Н. С., Жидков Н. П., Кобельков Г. М. Численные методы. М.: Наука, 1987. 598 с.

6. Бари Н. К. Тригонометрические ряды. М.: Физматгиз, 1961. 936 с.

7. Щербаков С. В., Хаймин А. Ю. О подходе к анализу периодических режимов в нелинейных неавтономных электрических цепях на основе взаимосвязи дифференциальных и гармонических спектров // Тр. Псковск. политехн. ин-та. 2003. № 7. 3. С. 310-323.

8. Бычков Ю. А., Хаймин А. Ю., Щербаков С. В. Расчет установившегося периодического режима в нелинейных нестационарных электрических цепях на основе анализа взаимодействия дифференциальных и гармонических спектров реакций // Изв. вузов России. Радиоэлектроника. 2005. № 4. С. 16-28.

Ju. A. Bychkov, A. Ju. Khaimin

Saint-Petersburg state electrotechnical university "LETI"

S. V. Scherbakov

Pskov state polytechnic institute

The estimation of the error of calculation of peak- phase characteristics of periodic reactions of nonlinear on-line electric circuits

The approach to estimation of an error of description of required periodic decisions of the equations of nonlinear nonautonomous electric circuits dynamics by trigonometrically multinomi-nals is offered. The description of decisions is carried out on the basis of the analysis of interrelation of differential and peak-phase spectra of circuit reactions. The analytically-numerical method calculating scheme is put as a computing basis. The example of description estimation is adduced.

Nonlinear nonautonomous electric circuits, dynamical equation, estimation of an error, peak-phase characteristics, calculation step, Taylor series, Fourier series

Статья поступила в редакцию 30 июня 2006 г.

621.372:519.72

В. В. Савченко, Д. Ю. Акатьев, С. Н. Шерстнев

Нижегородский государственный лингвистический университет

Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования

Рассмотрена задача повышения эффективности автоматического распознавания речи (АРР) в виде изолированных слов на основе применения метода оптимального обучающего словаря. Для отбора в обучающий словарь наиболее информативных реализаций каждого слова предложен критерий минимума суммы информационных рассогласований по Кульбаку-Лейблеру. На примере распознавания десяти числительных показано, что достигаемый эффект состоит в существенном (в несколько раз) уменьшении вероятности ошибки, причем этот эффект распространяется на самые разные методы АРР.

Автоматическое распознавание речи, метод оптимального обучающего словаря, синтез алгоритма, информационное рассогласование, вероятность распознавания

На протяжении последних лет распознавание речи относится к числу наиболее актуальных задач теоретической и прикладной информатики, что объясняется закономерно возрастающей потребностью общества в автоматизации различных сфер своей деятельно-

10

© Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н., 2006

сти. Большая сложность и многогранность этой задачи пока не позволяют, к сожалению, однозначно сформулировать ее оптимальное решение. К настоящему времени разработаны несколько различных подходов к распознаванию речи, таких, как методы РЬР, МБСС и другие [1]-[5]. Среди них особый интерес представляет универсальный теоретико-информационный подход, сводящийся к критерию минимума информационного рассогласования (МИР) и реализованный в методе обеляющего фильтра (МОФ) [1]. Ключевым элементом данного метода является процедура обучения системы автоматического распознавания речи, под которой понимается ее настройка на конкретный словарь. Такая настройка предполагает формирование на предварительном этапе обработки информации набора эталонных слов для обучения. Именно от состава обучающего словаря зависит главным образом эффективность МОФ в целом. Нетрудно понять, что и все остальные методы с обучением весьма критичны к составу используемого набора эталонов. Поэтому задаче оптимизации обучающего словаря на основе критерия МИР и посвящена настоящая статья.

Исходным пунктом при обосновании МОФ служит авторегрессионная (АР) модель наблюдений, описывающая анализируемый сигнал X формулой

т-1

X (п +1) = £ А (I) X (п -I) + в (п +1),

I=0

где X (п +1) - значение (п +1) -го отсчета сигнала; А (I) - 1-й АР-коэффициент; т - порядок АР-модели; в (п +1) - порождающий процесс типа "белого" шума или случайная ошибка линейного предсказания (ЛП) для (п +1) -го отсчета с нулевым значением математического ожидания и фиксированной дисперсией. При этом вычисление АР-коэффициентов или настройка АР-модели производятся в расчете на минимизацию дисперсии ошибки ЛП. Получаемые АР-коэффициенты одновременно определяют и соответствующий вектор коэффициентов обеляющего фильтра т-го порядка [2].

Распознавание в соответствии с МОФ ведется по следующему правилу: сначала проводится параллельная фильтрация входного сигнала несколькими настроенными на соответствующие сигналы-эталоны из словаря обеляющими фильтрами, а затем на основе анализа дисперсии отклика принимается решение в пользу одного из этих эталонов. В работе [2] показано, что при применении строгого критерия минимума информационного рассогласования (МИР) по Кульбаку-Лейблеру и при гауссовском распределении каждого сигнала Р (Xr) выражение для оптимальной решающей статистики в частотной области сводится к виду

У Х,Г 1 '

, =1

-1 £

С ( / ) + 1п О ( / )

О ( / ) Сх ()

-1 ^ шт

, (1)

г=7я

где ОХ (/) и Ог (/) - выборочные оценки спектральной плотности мощности (СПМ)

распознаваемого сигнала X и г-го сигнала из словаря эталонов, соответственно, в функции дискретной частоты /; ^ - верхняя граница частотного диапазона сигнала или канала связи; Я - размер или объем рабочего словаря.

Данный алгоритм реализуется в виде набора из Я параллельных каналов вычисления решающей статистики (1). База данных словаря содержит Я (по числу распознаваемых слов)

последовательностей отсчетов СПМ каждого сигнала-эталона Gr (f) . Решение принимается по критерию минимума решающей статистики (1) на выходах R каналов.

Нетрудно понять, что эффективность МОФ зависит прежде всего от матрицы (с размерами R х R) значений величины взаимного информационного рассогласования (ВИР) в пределах используемого обучающего словаря. Чем больше ВИР в каждом отдельном случае, тем меньше вероятность соответствующих ошибок [3]. Проиллюстрируем и одновременно продолжим наши рассуждения на следующем примере из практики автоматического распознавания речи (АРР).

Была поставлена задача автоматического распознавания десяти слов - числительных (от нуля до девяти), причем по каждому слову целиком (без разбиения на фонемы - для подчеркивания проблемы точности распознавания). Для ее решения написана компьютерная программа, использующая специально созданную рабочую базу из множества (до 100) различных реализаций каждого из десяти числительных, наговоренных одним диктором в разных условиях.

Вычисления производились на персональном компьютере с процессором марки Pentium IV. Частота дискретизации речевого сигнала 8 кГц была согласована с полосой пропускания телефонного канала связи. Для оценивания АР-коэффициентов, а по ним и СПМ анализируемых сигналов, применялся алгоритм Берга [4]. Порядок АР-модели, описывающий речевой сигнал был принят равным 20, как дающий наилучший результат. Вся обработка велась по выборкам длиной в целое слово, границы которого сегментировались с помощью звукового редактора. Настройка системы АРР производилась по эталонным реализациям каждого слова, которые выбирались разными способами из упомянутой рабочей базы.

Сначала десять эталонов были выбраны из числа наиболее типичных в визуальном смысле реализаций для каждого из десяти распознаваемых слов. Результаты эксперимента приведены в табл. 1, из которой видно, что в данном случае некоторые из слов распознавались с недостаточной надежностью. Очевидно, такой результат является следствием выбора неоптимальных эталонов. Даже простой перебор эталонов позволяет повысить качество распознавания. Применение же критерия МИР позволяет выбрать оптимальную эталонную реализацию автоматически [3].

В подтверждение этой идеи воспользуемся указанным критерием для выбора эталонов в решаемой задаче. Он состоит в минимизации суммы ВИР в пределах заданного множества реализаций по каждому из десяти анализируемых слов.

Рассмотрим в качестве примера матрицу уxr размером 10 х10 (табл. 2), составленную из ВИР между выборочными оценками СПМ распознаваемого сигнала Gx (представлены по горизонтали) и сигналами из словаря эталонов Gr (представлены по вертикали) для десяти реализаций одного и того же слова "ноль". Используя предложенный подход, согласно правилу из [3] найдем

10

X Yij ^ min, (2)

i=0; i ф j J

Таблица 1

Слово Доля распознанных слов, % Слово Доля распознанных слов, %

Ноль 81 Пять 66

Один 85 Шесть 91

Два 97 Семь 94

тРи 94 Восемь 79

Четыре 77 Девять 29

Таблица 2

0 0.16118 0.11500 0.0315 0.1026 0.1255 0.1143 0.0307 0.0272 0.0275

0.20672 0 0.26751 0.2006 0.3375 0.0962 0.1089 0.1816 0.1551 0.2052

0.14550 0.18452 0 0.0772 0.1175 0.0908 0.2580 0.0737 0.0894 0.0847

0.03002 0.15182 0.06526 0 0.0706 0.0881 0.1047 0.0142 0.0311 0.0283

0.05099 0.20933 0.06803 0.0229 0 0.10444 0.15521 0.04794 0.05605 0.07055

0.15216 0.08453 0.09830 0.1043 0.16007 0 0.09954 0.09953 0.09264 0.11657

0.12744 0.10912 0.23736 0.1262 0.20572 0.09729 0 0.12211 0.1285 0.14801

0.04520 0.15475 0.09266 0.0266 0.09868 0.09876 0.11300 0 0.04235 0.02059

0.03203 0.13696 0.09335 0.0315 0.11538 0.08870 0.11772 0.02885 0 0.02195

0.04673 0.17795 0.11719 0.0451 0.12120 0.10367 0.14075 0.01900 0.03333 0

О

о

величину суммарного информационного рассогласования по столбцам матрицы ВИР, и после чего выберем столбец с минимальной суммой. Для слова "ноль" это седьмой столбец (сумма равна 0.62). Таким образом, в качестве оптимального эталона для данного слова должна быть выбрана его седьмая реализация из заданного множества.

Полученный результат можно графически проиллюстрировать следующим образом.

Отобразим отдельные реализации слов "ноль", "один", ..., "девять" в виде точек на плоскости (рисунок). Тогда точка с минимальной суммой расстояний (2) выступает в роли своеобразного

"центра массы" заданного множества - это и есть признак оптимального эталона.

Применением критерия (2) ко всем словам - числительным и увеличением при этом объемов множеств их реализаций до 100 в рамках поставленного эксперимента был получен оптимальный обучающий словарь и одновременно даны оценки вероятности распознавания каждого слова по критерию МИР (1). Полученные данные представлены в табл. 3. Из нее видно, что благодаря предпринятой оптимизации качество распознавания резко повысилось.

На завершающем этапе эксперимента предложенный алгоритм (2) был применен для нахождения оптимальных эталонных реализаций при распознавании тех же десяти слов -числительных по методу РЬР [5]. Решающая статистика в этом случае имела вид

У X,

(1) - сг (1)]2 + [сх (2) - сг (2)]2 +... + [сх (п) - сг (п)]2

—> Ш1П

г=1, Я

где сх (1) - 1-й кепстральный коэффициент для сигнала х на входе системы распознавания; сг (1) - 1-й кепстральный коэффициент для г-го эталона из обучающего словаря; Я - размер словаря.

На данном этапе исследований все кепстральные коэффициенты при п = 8 вычислялись на основе АР-модели сигналов (1), следуя известной рекуррентной процедуре [5]. При этом использовались полученные ранее по методу Берга оценки АР-коэффициентов для каждого слова. Полученные результаты представлены в табл. 4 в виде оценок вероятностей правильного распознавания всех слов (по выборкам из 100 независимых реализаций) в за-

13

Таблица 3

Таблица 4

Слово Доля распознанных слов, % Слово Доля распознанных слов, %

Ноль 100 Пять 98

Один 97 Шесть 99

Два 100 Семь 93

Три 98 Восемь 100

Четыре 97 Девять 97

висимости от состава обучающего словаря. Из таблицы видно, что оптимизация эталонов и в этом случае сопровождается существенным увеличением качества распознавания.

Таким образом, благодаря проведенному исследованию дано достаточно подробное

обоснование использования критерия МИР в задачах автоматического распознавания речи, причем не только в процессе принятия решения, но и при выборе оптимального состава обучающего словаря.

Слово Эталоны

типичные оптимальные

Вероятность правильного распознавания, %

Ноль 44 83

Один 76 60

Два 95 97

Три 49 87

Четыре 67 88

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пять 25 87

Шесть 89 82

Семь 77 77

Восемь 93 92

Девять 53 84

Библиографический список

1. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра //Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

2. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

3. Савченко В. В., Лукин П. Г. Метод переопределенного словаря в задаче распознавания речевых сигналов // Радиотехника и электроника. 2006. Т. 50, № 2. С. 226-330.

4. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

5. Маркел Дж. Д., Грэй А. Х. Линейное предсказание речи. М.: Связь, 1980. 308 с.

V. V. Savchenko, D. Y. Akatiev, S. N. Sherstnev Nizny Novgorod state linguistic university

The optimum taught recognition vocabulary for automatic speech recognition with minimum of informative divergence method

The problem of efficiency increasing of automatic speech recognition (ASR) in the form of the isolated words based on application of a method of the optimum training dictionary is considered. The minimum of sum of the informative divergent criterion in Kullback-Leibler metric has been proposed for optimum realization word selection to the training dictionary. The effect of the possibility decreasing offalse choice has been illustrated by the example of ten numerals recognition and this effect extends on the most different methods АРР.

Automatic speech recognition, optimum taught recognition vocabulary method, synthesis of the algorithm, informative divergence, the possible false choice

Статья поступила в редакцию 22 мая 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.