Исследование метода обеляющего фильтра в задаче распознавания речевых
сигналов
Нижегородский государственный лингвистический университет
Введение Расширение области применения информационных технологий вызывает повышенный интерес к проблемам обработки речевых сигналов на основе персональных компьютеров и недорогих микропроцессорных систем. К числу актуальных задач в этом направлении относится задача автоматического распознавания речи в режиме реального времени. Различные методы ее решения чаще всего сводятся к методам корреляционного или спектрального анализа. Однако известные методы характеризуются недостаточной эффективностью, что объясняется большой избыточностью данных в речевых сигналах, а также повышенной сложностью реализации оптимальных алгоритмов. Одним из радикальных средств для преодоления избыточности может служить идея сжатия данных за счет экономного кодирования информации. При этом наибольшее распространение получили линейные коды на основе коэффициентов линейного предсказания (КЛП), отталкивающиеся от авторегрессионной (АР) модели наблюдений [1,2]. К сожалению, до настоящего времени теория и практика применения КЛП в задаче распознавания речи связана с рядом нерешенных вопросов, в частности, при обосновании выбора оптимального решающего правила, хотя в ряде смежных с ней областей достигнуты весьма обнадеживающие результаты. Поэтому несомненный интерес представляет новый метод обеляющего фильтра (ОФ), который в рамках статистического подхода приводит к асимптотически оптимальному решению задачи распознавания [3]. Целью работы является исследование возможностей данного метода при распознавании речевых сигналов.
Решающее правило в методе обеляющего фильтра. В соответствии с общей формулировкой метода ОФ [3] задача формулируется в терминах многоальтернативной проверки статистических гипотез. Проверяется
гипотеза Нг, где г = 1,Я, (Я - число альтернатив) о принадлежности выборки наблюдений Х к г - му виду гауссовского распределения Рг=Ы(Кг), заданному своей автоковариационной матрицей Кг. При этом используется критерий максимального правдоподобия. Полученный в [3] результат определяется в терминах спектральных характеристик исследуемого сигнала: решение принимается в пользу гипотезы Ну, у< Я при условии минимизации функционала
оценка спектральной плотности мощности сигнала по выборке объемом Ь = пМ (М сегментов из п отсчетов каждый); Ог(/) - спектр мощности г - го сигнала в исходной базе данных.
Акатьев Д.Ю. ([email protected]), Пучков С.Н. ([email protected])
(1)
где
2
1 М 1 п
(/) = мм 2 2 хт (о ^рО - -
М т=1 2^П 1=1
Таким образом, при распознавании набора из Я различных сигналов по их спектральным характеристикам выполняется следующая последовательность операций над имеющимися наблюдениями: Сформирование по выборке фиксированного объёма Ь<ю периодограммной оценки спектральной плотности мощности в роли тестового сигнала (2);
2)вычисление для каждой рассматриваемой спектральной оценки соответствующей решающей статистики интегрального вида (1);
3)определение решающей статистики с наименьшим значением и принятие соответствующего решения в пользу наиболее правдоподобного из конкурирующих сигналов в исходной базе данных системы распознавания.
Указанной последовательности операций предшествует этап формирования базы исходных данных по результатам оценивания по предварительной выборке неизвестной спектральной плотности мощности каждого г - го сигнала Ог(/). При этом на каждом этапе вычислений используется либо одна и та же выборка, либо две разные выборки из рассматриваемого вероятностного пространства.
Рассмотренный метод допускает ряд интересных модификаций [3]. Так, для широкого класса спектральных оценок Оу(/) с повышенной
разрешающей способностью, основанных на использовании линейного рекурсивного фильтра с коэффициентами {аг} г=1,..,Я, ]=1,..,Ы, а также
порождающего процесса с независимыми отсчетами } и дисперсией <
м
хг (0 = 2 ап*г Ц - 0 + П(0, 1= 1,2,.. (2)
1=1
в заданной полосе частот [-F;F], получим систему равенств Ог(/) = ^)к?(/), г=1Я, (3)
где Кг(/) - модуль комплексного коэффициента передачи формирующего фильтра (ФФ) для г - го процесса. На множестве физически реализуемых линейных фильтров из выражений (1) и (3) следует алгоритм
F
Н V (X): <2 \ О х (/) К-2( /) а/ + 1п < Т\г ч ^ min (4)
- F
осуществляемый по схеме Я-канальной параллельной фильтрации наблюдений с последующим выбором у-канала по критерию минимума дисперсии его отклика.
F F м
<2(у) = | Ох (/) к;2(/)а/ = | Оу (/)а/=м-1 2 у», (5)
I у / ^ / , У г
-F -F
отнесенной к соответствующей дисперсии порождающего процесса < и смещенной на пропорциональную ей величину 1п < . Здесь Оу (/) - спектральная плотность мощности
процесса на выходе ОФ. При этом в каждом г-ом канале используется фильтр, инверсный формирующему фильтру для г-го сигнала, то есть соответствующий обеляющий фильтр. Набор частотных характеристик всех Я обеляющих фильтров совместно с дисперсиями порождающего шума < для каждого из различаемых сигналов и составляет в рассматриваемом случае содержание базы априорных данных.
Модуль комплексного коэффициента передачи обеляющего фильтра М-го порядка для г-го процесса
м
К;1и/) = 1 -2 а, 0>-; 2/ (6)
г=1
рассчитывается по коэффициентам трансверсального фильтра {а„} г=1,..,Я, ]=1,..,М. Характеристики всех фильтров определяются путём задания набора их коэффициентов {аг} или, что эквивалентно - набора коэффициентов авторегрессии в модели (3), которые в
общем случае заранее неизвестны. В таком случае оптимальная реализация по методу ОФ сводится к выбору оптимальной АР модели анализируемого сигнала Х^}. Из математической статистики известно [4], что оптимальный по критерию максимального правдоподобия вектор (столбец) параметров {ari} = аг, г=1,..,Я, отвечает системе нормальных уравнений вида
К г • аг = К . (7)
Здесь Кг- автокорреляционная матрица размера (МхМ) анализируемого процесса Х(п), а
кг - М-вектор-столбец коэффициентов его автокорреляции. При поступлении V -го сигнала на г -ый канал формируется выходной сигнал в соответствии с рекуррентным выражением
М
Уг,v = X (0 -Е а^ ( - 0 . (8)
i=l
В том случае, когда г^, yгv является белым гауссовким шумом, угг(^) = г/г •
Структурная схема системы распознавания по методу ОФ показана на рисунке 1.
Рисунок 1. Структурная схема системы распознавания
Здесь ОФг - обеляющий фильтр, настроенный на оценку спектральной плотности мощности г-го сигнала; ИДг - измеритель дисперсии, рассчитывающий дисперсию некомпенсированного остатка yгv на выходе соответствующего обеляющего фильтра; РУ
- решающее устройство, определяющее минимальную дисперсию. Эффективность работы такой системы можно охарактеризовать вероятностью правильного различения каждого г -го сигнала из набора Я различных сигналов.
Адаптивный алгоритм распознавания речевых сигналов. Адаптивный подход приводит решение исходной задачи распознавания к той же системе выражений (4,...,8), но при замене в уравнении 7 неизвестной автокорреляционной матрицы Кг её максимально правдоподобным выборочным значениям Кг,ь по выборке объема Ь. При этом в зависимости от конкретного вида корреляционных оценок получим разные варианты адаптивных алгоритмов распознавания речевых сигналов. По-видимому, предпочтение следует отдавать тем вариантам, которые используют сильно -состоятельные корреляционные оценки. Тогда результирующая адаптивная процедура различения сигналов будет обладать свойством асимптотической оптимальности при
Ь^-го. Задача свелась, таким образом, к выбору наиболее эффективного метода корреляционного анализа. Причем в обработке речевых сигналов определяющее значение имеет их скорость сходимости к оптимальному решению. Поэтому представляют интерес адаптивные методы нового класса с высокими динамическими свойствами, разработанные для решения проблемы малых выборок наблюдений в задачах спектрального анализа. К их числу относится, например, известный метод Берга [4], который сводится к системе рекуррентных выражений
е, = ^ I [+,1/, - Л
£=т
Ь-1
1
Рт I Хт-1 (,)Ут-1 - 1)'
(9)
с<2 т—
Лт-1
ат0) = ат-1 (0 + Ртат-1 (М - ' = 1,М
„2 /л „2.2 2 о2 .
<т = (1 -Рт)ат-1 ' <0 = \ '
Хт(,) = Хт-1(,) + РтУт-1 - 1\
Ут(* ) = Ут-1 (,-1) + Рт*т-1((Х * = 1,2,...,Ь, Ш = Ш ¡\
с инициализацией вида х0(,) = у0(,) = х(п -Ь +,),, = 0,1, ...,Ь -1. Финальное значение рекурсии (9) при Ш=М определяет результирующую, то есть адаптированную под
выборку {х(п)} объема Ь>1 в ретроспективе АР-модель наблюдений ам(1}, 1=1,..,М, с
м
порождающим "белым" шумом п(п) на входе. Его дисперсия < = (1 - р2т)с].
ш=1
согласована с выборочной оценкой с, дисперсии наблюдаемого процесса. Чем точнее
модель (9) адаптирована по выборке {х(п)} к процессу Х(п), тем точнее становится и результирующая процедура распознавания
Результаты экспериментальных исследований. Предложенный метод был апробирован в режиме реального времени на персональном компьютере со стандартным программным обеспечением и стандартным набором аппаратных средств. Анализируемые сигналы в виде слов "ноль","один", .. ./'девять", ..."сорок" подвергались процедуре сжатия на основе адаптивного алгоритма (9). При этом использовалась известная вычислительная процедура Берга [4]. Установленный порядок обеляющего фильтра ш равнялся 30, а средний объём анализируемых данных N - 3000 отсчётов при частоте дискретизации 2¥=1/Т=20 кГц. Случайные искажения или разладка наблюдаемого сигнала имитировалась добавлением в сигнал аддитивного белого гауссовского шума с дисперсией <. Решения принимались согласно алгоритму (4) в режиме реального
времени. Полученные результаты иллюстрируются на следующем рисунке графиками зависимости вероятности правильного распознавания Б для ряда сигналов от их отношения сигнал/шум q2 = 2ЕЕ/ <, где Е обозначает энергию каждого сигнала на интервале длиной Т.
Отношение сигнал/шум Дб
Рис. 2. График вероятностей правильного обнаружения слова "ноль" при словаре "ноль" ... "сорок" в зависимости от отношения сигнал/шум
Видно, что при разладках, когда q2 не превышает (30-32)дБ, вероятность правильного распознавания сигнала равна 0,8-0,9 и более, т. е. ошибки перепутывания слов практически отсутствуют. Таким образом, результаты проведённого исследования дают основания рассчитывать на эффективное использование метода обеляющего фильтра в задачах автоматической обработки и распознавания речи.
На 2-ом этапе в режиме реального времени подавался один из раннее введенных тестируемых сигналов нормированной мощности в смеси с белым гауссовским шумом переменной дисперсии. Адитивный шум моделировал собой эффект вариативности устной речи от диктора причем объем словаря менялся от 2 до 41 слов. Полученные результаты иллюстрируются в таблице 1. В данной таблице приведены зависимости вероятностей правильного решения при распознавании слова "0" для словарей различного объема. При этом оценки вероятностей получались по выборке объема 30. Видно, что пороговое отношение сигнал/шум варьируется от 19 до 30 Дб. в зависимости от состава словаря. Полученный результат объясняется различной степенью информационного рассогласования тестируемых слов для каждого конкретного словаря. Приходим к очевидному выводу о связи помехоустойчивости обработки речи с информационным рассогласованием тестируемого набора слов.
Таблица 1
Словарный запас Отношение сигнал/шум
Вероятность 0 Вероятность 1
0и1 21,3 22,2
0и2 29 30,6
0и3 19,6 20,5
0и5 2 5
0и6 22,8 23,6
0и7 19,8 21
0и8 26,5 28
0и9 20,9 22,3
0и10 21,6 22,7
0и11 25,5 26,9
0и21 23,4 24,3
0и25 29,5 31,5
0и31 18,9 20,2
0.5.7 19,5 21,1
0.3.5.7 19,7 21,1
0.1.2 29,1 30,6
0...40 31,43 32
Отсюда можно сделать несколько практических выводов:
1. в общем случае вероятность правильного распознавания зависит от объема словаря, причем при увеличении количества слов вероятность ухудшается;
2. вероятность правильного распознавания всего словаря равна вероятности распознавания наихудшей пары слов из всевозможных пар слов в словаре;
3. существует возможность создания словаря, при увеличении объема которого не происходит ухудшение качества распознавания.
СПИСОК ЛИТЕРАТУРЫ
1. Потапова Р.К. Речь: коммуникация, информация, кибернетика. Изд. 2-е, доп.-- М.: Эдиториал УРСС, 2001.
2. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980 .
3. . Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника, 1997, № 4
4. Марпл С.Л. Цифровой спектральный анализ и его приложения М: Мир, 1990.