Научная статья на тему 'Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи'

Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи Текст научной статьи по специальности «Физика»

CC BY
67
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION / ЭЛЕМЕНТАРНЫЕ РЕЧЕВЫЕ ЕДИНИЦЫ / ELEMENTARY SPEECH UNITS / ПРИНЦИП МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / CRITERIA OF THE MINIMAL INFORMATION MISMATCH

Аннотация научной статьи по физике, автор научной работы — Савченко В. В., Губочкин Губочкин

Рассмотрены авторегрессионная модель элементарных речевых единиц типа отдельных фонем и метод адаптивного обеляющего фильтра. На основе универсального теоретико-информационного подхода поставлена и решена задача оптимизации порядка фильтра. В результате экспериментальных исследований показано, что оптимальным является порядок в интервале значений 20…30, причем этот оптимум практически инвариантен как в отношении объема выборки для обучения (настройки) обеляющего фильтра, так и в отношении конкретного диктора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Autoregressive model optimization in speech recognition problem

The autoregressive model of elementary speech units representing phonemes and whitening filter method are reviewed. It is put and solved the problem of optimization autoregressive model order. Thus the information-theoretic approach is used. It is shown that 20…30 order autoregressive model is optimal. It is ascertained that this optimum does not depend on the speaker and training set size.

Текст научной работы на тему «Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи»

Известия вузов России. Радиоэлектроника. 2008. Вып. 2======================================

УДК 621.372:519.72

В. В. Савченко, И. В. Губочкин

Нижегородский государственный лингвистический университет

Оптимизация авторегрессионной модели сигналов

1

в задаче автоматического распознавания речи

Рассмотрены авторегрессионная модель элементарных речевых единиц типа отдельных фонем и метод адаптивного обеляющего фильтра. На основе универсального теоретико-информационного подхода поставлена и решена задача оптимизации порядка фильтра. В результате экспериментальных исследований показано, что оптимальным является порядок в интервале значений 20... 30, причем этот оптимум практически инвариантен как в отношении объема выборки для обучения (настройки) обеляющего фильтра, так и в отношении конкретного диктора.

Автоматическое распознавание речи, элементарные речевые единицы, принцип минимума информационного рассогласования

Постановка задачи. Большинство современных методов автоматического распознавания речи (АРР) основываются на процедуре предварительного сегментирования сигналов на короткие отрезки данных. В результате задача сводится к поэтапному распознаванию речи. На первом, базовом этапе распознаются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором, заключительном этапе распознаются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. Таким образом, задача распознавания ЭРЕ является ключевой при АРР в общем случае. Соответственно, работа всей системы АРР во многом зависит от эффективности распознавания ЭРЕ.

В рамках универсального байесовского подхода указанная задача обычно формулируется как задача статистической классификации. Ее решению посвящено множество работ. Одним из наиболее перспективных инструментов для решения является принцип минимума информационного рассогласования (МИР) в метрике Кульбака-Лейблера. Это показано, в частности в работе [1], при решении задачи распознавания ЭРЕ методом обеляющего фильтра (МОФ) на основе авторегрессионной модели (АР-модели) речевого сигнала. Оптимизация МОФ сводится главным образом к оптимизации используемой в нем АР-модели. При этом ключевой является проблема выбора оптимального порядка. Настоящая статья посвящена исследованию указанной проблемы для множества ЭРЕ в пределах русского языка. При этом применялся строгий теоретико-информационный критерий на основе принципа МИР.

Метод обеляющего фильтра. Исходным пунктом при обосновании МОФ служит авторегрессионная модель (АР-модель) наблюдений, которая описывает анализируемый сигнал X следующей формулой:

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи.

46 © Савченко В. В., Губочкин И. В., 2008

X(п) = ^ а(т)X(п-ш) + 8(п), п = 1, 2, ..., (1)

т=1

где X (п) - значение п-го отсчета сигнала; р - порядок АР-модели; а(т) -ш-й АР-коэффициент; в (п) - порождающий процесс типа "белого" шума или случайная ошибка линейного предсказания (ЛП) с нулевым значением математического ожидания и фиксированной дисперсией. При этом вычисление АР-коэффициентов (настройка АР-модели) производится в расчете на минимизацию ошибки ЛП по ее дисперсии, а получаемые АР-коэффициенты одновременно определяют и соответствующий вектор коэффициентов обеляющего фильтра р-го порядка.

Каждому конкретному распознаваемому сигналу Хг соответствует собственный г-й

вектор АР-коэффициентов. Словарь из Я речевых сигналов задается в таком случае множеством из Я разных АР-векторов. Распознавание по МОФ сигналов из данного словаря сводится к следующему правилу: сначала производится параллельная обработка входного сигнала в системе из Я настроенных на соответствующие сигналы-эталоны обеляющих фильтров, затем сравниваются их отклики между собой и решение принимается в пользу сигнала с минимальной выборочной дисперсией отклика.

В работе [2] показано, что с применением строгого критерия МИР и при гауссовском

распределении сигнала Р (Хг ) выражение для оптимальной решающей статистики имеет

вид

Р а

1 F

д 1 ^

_ F F f=1

GJJ) + ln Gf

Gr (f) Gx (f )

1 ^ min

(2)

r=1, R

где ^ - верхняя граница частотного диапазона сигнала или используемого канала связи; Ох (/) - выборочная оценка спектральной плотности мощности (СПМ) анализируемого

сигнала Х в функции дискретной частоты/; Ог (/) - СПМ г-го сигнала из словаря эталонов; Я - размер, или объем рабочего словаря.

При нормировке АР-модели ЭРЕ (1) по дисперсии порождающего их шума [1] второе слагаемое в правой части (2) оказывается тождественно равным нулю, а выражение для решающей статистики приобретет вид

2

Р X.j

F

Р

F 1 +1

m=1

f=1 Р

1 +1 m=1

ar Km)

-1.

a

(3)

Это стандартная формулировка выборочной оценки величины информационного рассогласования (ВИР) по Кульбаку-Лейблеру между сигналом Х на входе и г-м сигналом из словаря в частотной области [2].

2

В работе [3] показано, что эффективность МОФ зависит прежде всего от матрицы (с размерами Я х Я) значений ВИР ||ру г|| между разными сигналами в пределах обучающего словаря. При этом вероятность перепутывания у-го и г-го сигналов определяется в первом приближении выражением

_ 1

av,r _ 2

1 -ф

í ~ \ Pv,r - т

<>¡2m 2/т

(4)

где Ф (•) - интеграл вероятности или функция Лапласа, значения которой подробно табулированы; т - математическое ожидание (МО) минимальной решающей статистики (3) при подаче на вход г-го речевого сигнала Хг ; т - некоторая константа (число степеней

свободы исходного распределения х ). Чем больше ВИР между сигналами ру г, тем меньше вероятность соответствующих ошибок их распознавания. Пары сигналов с номерами (V, г), для которых значение ру г минимально, будем называть в дальнейшем проблемными - по признаку максимальной вероятности (4) их перепутывания.

Значение ВИР в каждом случае прямо связано с параметрами применяемой АР-модели ЭРЕ (1) и, в частности, с ее порядком р. В асимптотике при увеличении объема выборки наблюдений Х до бесконечности степень информационных рассогласований между разными сигналами монотонно возрастает пропорционально значению порядка р. Однако характерным для задач АРР является прямо противоположный случай жесткого ограничения сверху на объем наблюдений N по каждой отдельной ЭРЕ. Поэтому будет разумным оптимизировать порядок АР-модели (1) по принципу его минимальной достаточности при условии достижения результирующей ВИР ру г для проблемных пар ЭРЕ некоторой пороговой величины. Именно такая логика оптимизации и реализована при экспериментальных исследованиях МОФ в поставленной задаче.

Основные результаты. Для экспериментальных исследований МОФ в формулировке (2), (3) были выбраны двадцать наиболее распространенных фонем русского языка: "а", "о", "у", "э", "ш", "щ", "р", "с", "в", "з", "ж", "и", "л", " л'", "ф", "х", "ч", "е", "ы", "м". Все они последовательно во времени, многократно (в разных реализациях) проговаривались группой дикторов в режиме продолжительного (наиболее информативного) звучания. Полученные сигналы с помощью стандартной аппаратуры и встроенного АЦП (частота дискретизации 8 кГц) записывались в память компьютера в виде звуковых файлов. При этом объем выборки N по каждой ЭРЕ был установлен заведомо большим - порядка 4.. .8 тысяч.

Для каждого диктора сначала был составлен отдельный экспериментальный (рабочий) словарь (ЭС) X = {хг, г = 1, 20} из двадцати типичных для него реализаций ЭРЕ.

Далее по каждому сигналу ЭРЕ из ЭС были рассчитаны векторы коэффициентов авторегрессии аг (вначале фиксированного (общепринятого) порядка р = 12). Для этого применялась рекуррентная процедура Берга-Левинсона с высокой скорость сходимости [4]:

am (iJ = am-i (iJ + cmam-i (m - iJ ; i = 1, m;

-2 N-1 ( J ( J cm = Sm-i 2 nm-1 (t J vm-i (t - lJ;

t=m

-1 N-1

n - m J

t=m

nm (t J = nm-1 (t J - cmvm-i (t - lJ ;

vm (t) = vm-i (t - lJ - cmnm-i (t), t = 0, 1, N -1;

sm-i = 0.5( n - m J 1 NTi [nm-i (tJ + vm-i (t -1)]; (5)

аш =(1 -сШ)аШ-ь а2 = т =1 р

По векторам аг были настроены на параллельную обработку входного сигнала Х двадцать линейных (трансверсальных) обеляющих фильтров одинакового порядка р. С их помощью при равенстве X = Xv, V = 1, Я, согласно выражению (3) была рассчитана матрица ВИР размером 20*20. Ее фрагмент для первого диктора представлен в виде таблицы, где каждый столбец соответствует обеляющему фильтру, настроенному на сигнал Xг, а каждая строка - входному сигналу Xv . Нулевые значения ВИР в таблице - признак эквивалентности сигналов в теоретико-информационном смысле. Проблемные пары ЭРЕ выделены в таблице полужирным шрифтом.

Входной сигнал Настройка обеляющих фильтров

а ш щ в з л' ф ч

щ 95.72 4.281 0 22.73 6.161 18.90 9.157 G.126

р 2.908 3.787 28.88 0.839 0.812 5.672 0.527 32.57

с 21.09 0.448 2.815 30.58 5.916 38.35 6.888 3.002

в 1.485 4.832 27.23 0 0.745 3.342 0.308 33.86

з 8.092 1.816 8.948 1.198 0 2.539 G.265 9.549

ж 65.76 0.511 2.737 11.81 1.778 8.652 4.788 3.556

и 49.00 6.165 16.49 6.537 4.039 6.970 4.258 26.24

л 1.312 10.85 40.62 0.977 2.598 15.03 1.716 46.59

л' 26.60 3.664 15.65 2.978 1.451 0 1.719 21.64

ф 2.610 2.685 11.95 0.378 G.139 2.661 0 13.88

х 2.177 6.586 31.44 1.017 0.861 5.284 0.597 31.13

ч 106.7 3.491 G.2G7 52.21 12.48 53.12 16.16 0

Напомним, что в рассматриваемом случае порядок АР-модели (1) фиксировался равным 12. В дальнейшем он варьировался в широких пределах. В результате варьировались и значения ВИР. При этом состав

проблемных пар для данного диктора оставался неизменным.

На рис. 1 показаны две экспериментальные зависимости ВИР от переменного порядка р для выделенных проблемных пар ЭРЕ от первого диктора (мужчина 25 лет). Здесь сплошной линией отображается

0.4

0.2

/

/

/

/

/

/

11

17 Рис. l

29

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

p

p

0

5

Р 1.5 1.0 0.5+

_ + + + +++-

+++ + + + + н

+ + + + ++++Н

******

Р

0.075

0.05

0.025 0

5

11

17 23

Рис. 2

29

17

Рис. 3

пара "щ"-"ч", а штриховой - "з"-"ф". Из рисунка следует, что при порядке АР-модели р = 20... 35 наблюдается стабилизация локального максимума величины информационного рассогласования. Оптимальное значение порядка при этом находится где-то в интервале значений 20.25, причем оно практически не зависит от конкретной реализации данных фонемы.

Для иллюстрации изложенного на рис. 2 приведена зависимость ВИР между эталонной реализацией фонемы "з" и четырьмя разными реализациями фонемы "ф", а на рис. 3 показана зависимость ВИР между эталонной реализацией фонемы "з" и другими ее реализациями. На этих рисунках сплошной линией отмечено среднее по реализациям значение ВИР, а символами "+" показаны значения ВИР для отдельных реализаций.

Из сопоставления рис. 2 и 3 можно сделать вывод, что величина ВИР между реализациями одной фонемы зависит от порядка АР-модели в существенно меньшей степени, чем ВИР для разных фонем. Этим еще раз дается обоснование вывода об оптимальном порядке.

Сделанные выводы распространятся и на другие (не обязательно проблемные) фонемы. В подтверждение этого рассмотрим пару гласных фонем "а" и "о" (рис. 4). Все предыдущие выводы об оптимальном порядке сохраняют свою справедливость и здесь.

Исследовано также влияние на ВИР объема выборки наблюдений N. Для этого использовалась АР-модель ЭРЕ (1) оптимального 20-го порядка, а длина выборки наблюдений менялась в широких пределах от 30 до 500 отсчетов с шагом 10. Полученная зависимость ВИР для проблемной пары "щ"-"ч" показана на рис. 5. Резкое увеличение ВИР при объемах выборки менее 120 отсчетов (что соответствует временному интервалу 15 мс) свидетельствует о недопустимо большой погрешности АР-анализа речевого сигнала (5).

Р 2.8 2.1 1.4

0.7

0

17 23

Рис. 4

p 30 130

230 330 430 Рис. 5

======================================Известия вузов России. Радиоэлектроника. 2008. Вып. 2

Отметим, что интервал до 20 мс - это одновременно период приблизительной стационарности сложного речевого сигнала.

На заключительном этапе экспериментальных исследований рассмотрены устойчивость полученных оценок ВИР и справедливость сделанных по ним выводов в отношении трех других дикторов (мужчины 20-30 лет). При этом вычисления проводились по той же схеме (2)-(5), что и для первого диктора. Показано, что зависимости ВИР в каждом случае качественно сохраняют прежний вид (см. рис. 1-5), однако наборы проблемных пар фонем могут меняться от одного диктора к другому. Поэтому остаются справедливыми в общем случае и все предыдущие выводы:

• порядок АР-модели при распознавании ЭРЕ следует выбирать в диапазоне от 20 до 25;

• оптимальное значение порядка практически не зависит ни от самих фонем, ни от их конкретных реализаций;

• минимальный объем выборки из речевого сигнала при стандартной частоте дискретизации 8 кГц должен составлять не менее 120-130 отсчетов или 15...20 мс - это известный интервал приблизительной стационарности сигнала для слитной речи.

Таким образом, благодаря проведенному исследованию получены и строго обоснованы оценки для оптимального значения порядка адаптивного обеляющего фильтра как ключевого звена МОФ в задаче АРР.

Библиографический список

1. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра//Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

2. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

3. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

4. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

V. V. Savchenko, I. V. Gubochkin Nizhny Novgorod state linguistic university

Autoregressive model optimization in speech recognition problem

The autoregressive model of elementary speech units representing phonemes and whitening filter method are reviewed. It is put and solved the problem of optimization autoregressive model order. Thus the information-theoretic approach is used. It is shown that 20... 30 order autoregressive model is optimal. It is ascertained that this optimum does not depend on the speaker and training set size.

Automatic speech recognition, elementary speech units, criteria of the minimal information mismatch

Статья поступила в редакцию 3 декабря 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.