Распознавание дикторов по методу обеляющего фильтра
Акатьев Д.Ю. ([email protected]), Бочаров И.В. ([email protected])
Нижегородский государственный лингвистический университет
Введение
В связи с бурным распространением цифровой вычислительной техники вызывает повышенный интерес компьютерная обработка информации, в том числе и речи. К числу центральных задач в этом направлении относится задача автоматического распознавания речевых сигналов от разных дикторов, или задача аудио-аутентификации. Известные методы её решения чаще всего сводятся к методам корреляционного или спектрального анализа. К сожалению, эти методы характеризуются недостаточной эффективностью, что объясняется общеизвестной избыточностью данных в речевых сигналах, а также повышенной сложностью в реализации алгоритмов. Одним из радикальных средств к использованию избыточности может служить идея сжатия данных за счёт экономного кодирования. При этом наибольшее распространение получили линейные коды типа кодов линейного предсказания речи (ЛИР) на основе авторегрессионной (АР) модели наблюдений.
Наиболее перспективным направлением в данных исследованиях является метод распознавания речевых сигналов, основанный на теоретико-информационном подходе и универсальной метрике Кульбака-Лейблера [1]. В применении к АР-модели наблюдения, указанный выше критерий формулируется в терминах обеляющего фильтра. Решение принимается по признаку минимума средней мощности отклика на анализируемый сигнал в системе из Я параллельных обеляющих фильтров.
Актуальность темы связана с возможностью создания звукового канала аутентификации в автоматических системах. В отличии от уже существующих систем, так или иначе использующих технические средства идентификации, например такие как пластиковые карты, системы использующие речевой канал освобождают клиента от необходимости носить с собой технический идентификатор: идентификация производится по голосу. Существующие методы видео-аутентификации, по изображению частей тела: лицо, отпечаток пальца и т. п. требуют применения специальной дорогостоящей аппаратуры и на современном этапе развития техники трудно реализуемы. Звуковая аутентификация в этой области имеет значительные преимущества.
Системы аудио-аутентификации используются в:
• системах доступа к банковскому счёту: банкоматы и РОБ-терминалы;
• системах ограничения доступа в помещения;
• системах автоматического определения языка видеоинтерфейса;
• при распознавании звонящего абонента.
Применяемый здесь метод отличается большим коэффициентом сжатия речевой информации и этим определяется его эффективность в задачах обработки речи.
Действительно, в отличие от традиционных, предложенный метод позволяет преобразовать информацию, содержащуюся в нескольких тысячах отсчётах, в несколько единиц или десятков коэффициентов, причём эти коэффициенты будут содержать полную информацию, необходимую для дальнейшего сравнения сигналов в многомерном пространстве. Кроме того, статистический характер предложенной модели речевого сигнала подразумевает высокую степень адаптации под конкретного диктора и адаптацию к изменяющимся параметрам тракта записи сигналов.
В результате данного исследования разработан и реализован на ЭВМ алгоритм распознавания диктора на основе новых методов спектрального анализа отталкивающихся от авторегрессионной модели наблюдений и теоретико-информационного подхода. Теоретической основой работы послужила статья [1], в которой разработан критерий многоальтернативного различения гауссовских сигналов методом обеляющего фильтра по выборке конечного объёма. Модификация алгоритма, реализующая указанный метод, получена на базе фильтра линейного предсказания решетчатой структуры и гармоническом методе Берга [2,3], который был использован для получения АР-коэффициентов.
В работе [1] поставлена и решена задача оптимального различения случайных гауссовских сигналов на основе предварительно оценивания их спектральных плотностей мощности.
Пусть Хф - центрированный гауссовский процесс, заданный последовательностью своих эквидистантных отсчетов, взятых с периодом дискретизации т= 1г11_1=сот1 в серии из М>1 независимых наблюдений х т = со{т (/)}, т = 1,М . Здесь со1{•} обозначает вектор-столбец размера пх1,
п=1,2,... В ограниченной полосе частот {-¥,¥}, где Б=1/(2т) определён конечный набор различных оценок спектральной плотности мощности Сгф, г=1,К этого случайного
процесса. Необходимо по имеющимся выборочным данным {х т} = X оптимально
различить К гауссовских сигналов, то есть найти Оуф, ч<Я. Таким образом, задача проверки К альтернативных гипотез в терминах классической теории проверки статистических гипотез выглядит так:
сигнала, заданный п-ым вектором средних значений /иг и матрицей Кг=Еп{Огф} автоковариаций, которая полагается неособенной.
Следуя критерию максимального правдоподобия, решение НУ(Х) в пользу одной из гипотез Н\,...,НК, 1<у<К будем принимать из условия:
где рг(Х)- функция правдоподобия для г-ой гипотезы.
В предположении о независимости наблюдений {х т } совокупности имеем систему равенств (набор функций правдоподобия):
Метод обеляющего фильтра
НГ: Р=РГ, Г=1Д Здесь Рг = N {, Кг}
(1)
означает нормальный закон распределения вектора г-го
НУ(Х) : ру(Х)=тах рг(Х)
(2)
Здесь |Кг| - определитель ковариационной матрицы; х т - п-вектор-столбец выборочных данных, соответствующий т-му
наблюдению; Кг'1 - обратная матрица.
Оптимальное по критерию максимального правдоподобия решение задачи различения Я гауссовских сигналов в формулировке (1)-(3) отвечает принципу наименьшего отклонения закона Рх от искомого распределения Р V в метрике Кульбака-Лейблера I[Рx\Рv], г-1,Я. Асимптотически оптимальный алгоритм принятия решений по выборкам конечного объема п<х>. будет соответствовать случаю:
^х (I)
1 F
H(X):2F I
G (f)
+ ln Gr (f)
dfl = min (4)
здесь
2
1 М 1 п *
^х (I) = М Е ^ Е *т (0 ехр() - (5)
М т=1 2^П 1=1
выборочная оценка СПМ с усреднением по М независимым векторным наблюдениям.
Таким образом, для различения набора из Я различных спектральных оценок предполагается следующая совокупность операций над имеющимися наблюдениями:
1. формирование выборочной оценки спектральной плотности мощности;
2. вычисление набора решающих статистик интегрального вида (4);
3. определение решающей статистики наименьшего значения принятие соответствующего решения (4) в пользу наиболее правдоподобной из конкурирующих оценок Оуф.
Предложенный алгоритм для сигналов \г , формируемых из белого гауссовского шума (Пг(1)} путем его линейной фильтрации в заданной полосе частот [-¥,¥] на множестве физически-реализуемых линейных фильтров преобразуется в следующий вид:
Е ( Т ) . 2
(6)
1 F G (f) H (X): — j-ff df\ + ln — L ^ min
— -F К
реализуемый по схеме ^-канальной параллельной фильтрации наблюдений с последующим выбором v-го канала по критерию минимума дисперсии его отклика
F G (f) F 1 м
—r(y) = j^K^ df = j Gy (f)df = — E y2( m); (7)
-F K r -F M m=1
отнесенной к соответствующей дисперсии порождающего процесса —r2 и смещенной на пропорциональную ей величину ln—r .
Для решения задач с нормированным набором спектральных оценок различаемых сигналов по дисперсиям порождающих шумов к некоторому постоянному уровню — =—0 =const , r=l,R алгоритм записывается в более компактном виде: 1 f 2
Hv (X): —2 j Gx (f )K- df\=__v ^ min (8)
—r -F
Описанный алгоритм получил название метода обеляющего фильтра. Его принцип реализуется по схеме, изображенной на рисунке 1.
ОФ1
3(0
ОФ2
о-
ОФ:
ИД1,
ИД.
ИДз
т2
&22
и
ОФк ИДк ак2
Рисунок 1. Обеляющий фильтр
Здесь:
ОФг - обеляющий фильтр, настроенный на ьтую оценку спектральной плотности мощности;
ИДг - измеритель дисперсии, определяющий дисперсию нескомпенсированного
остатка на выходе соответствующего обеляющего фильтра; РУ - решающее устройство, определяющее минимальную дисперсию.
Адаптивный алгоритм нахождения коэффициентов авторегрессии
Получение коэффициентов обеляющих фильтров непосредственно связано с задачами спектрального оценивания. Основной недостаток классических методов спектрального оценивания обусловлен искажающим воздействием просачивания по боковым лепесткам из-за неизбежного взвешивания в них конечных последовательностей данных. Обработка с помощью окна позволяет ослабить влияние боковых лепестков, но лишь за счет ухудшения спектрального разрешения.
Авторегрессионные методы [3] позволяют улучшать или сохранять высокое разрешение без значительного ухудшения устойчивости спектральных оценок. В качестве модели сигнала используется авторегрессионная модель:
= a(1)Xt-1 + ... + a(M)Xt-м +П^ =1,2, ■■■ (9)
Ключевой задачей авторегрессионного спектрального анализа является нахождение коэффициентов авторегрессии из уравнений Юла-Уолкера:
й = -Кг • £
г г г
Одним из способов решения уравнения является метод Берга, с помощью которого непосредственно получаются оценки авторегрессионных параметров а[п], который сводится к системе рекуррентных выражений:
вт,!=27-1—) +vm-l(t -1)1
2(п - m)t=m
1 п-1
Рт = — Х^ОК-^ - 1);
в2
t=m
(10)
= am-1(i) + Рmam-1(m - 0, i = ^
_2 /1 _2 \_2 _2 с2.
= ^-1^ РmVm-1(t - 1);
Vm(t) = Vm-l(t -1)t = 0,1,...,--1, m = 1,М;
Этот алгоритм реализуется на базе фильтра линейного предсказания решетчатой структуры, схема которого представлена на рисунке 2.
Е11[п]
Е/2[п]
Е/Р[п]
-Ч +
Ч +
-к +
г1
еЬ![П] г-1
Еъ2[п]
X
-1
ЕЬр[п]
Рисунок 2. Фильтр решетчатой структуры
Программа экспериментальных исследований
В соответствии с поставленной задачей эксперимент состоит из следующих этапов:
1. Запись одинаковых речевых сигналов произнесённых разными дикторами для эталонной (обучающей) базы данных;
2. По записанным сигналам с помощью гармонического алгоритма Берга с заранее установленными параметрами происходит вычисление коэффициентов авторегрессии (обучение);
3. Запись распознаваемых речевых сигналов;
4. Обработка распознаваемых речевых сигналов набором обеляющих фильтров, настроенными по обучающей выборке;
5. Вывод статистик правильного распознавания сигналов.
В целях упрощения работы с программой было принято решение разбить процесс на две части: создание базы данных эталонных слов - схема обучения, и
собственно распознавание произвольной речи по уже существующей базе данных -схема распознавания.
Структурная схема экспериментальной установки
Целью разработки компьютерной программы является экспериментальное исследование многоальтернативного различения речевых сигналов разных дикторов по методу обеляющего фильтра. Схема эксперимента изображена на рисунке 3.
Рисунок 3. Схема эксперимента
где:
И - источник речевых сигналов, содержит слова из распознаваемого набора, произнесённые разными дикторами. По сигналу ГТИ выдаёт на выход 1 слово, а на выход 2 номер диктора "первый" или "второй";
ОФ - обеляющий фильтр с загруженными из базы данных коэффициентами для распознавания заранее определённого набора слов. Соответственно ОФ1 настраивается по первому диктору, а ОФ2 по второму;
БД - база данных, хранящая наборы коэффициентов авторегрессии для распознаваемых слов: БД1 для первого диктора и БД2 для второго;
СС1- схема сравнения. Сравнивает дисперсии на выходах обеляющих фильтров ОФ1 и ОФ2 и принимает решение в пользу минимальной из них, выдавая на выход номер диктора "первый" или "второй".
СС2- схема сравнения. Сравнивает истинное значение номера диктора ("первый", "второй") с решением, принятым первой схемой сравнения. При совпадении выдаёт на выход "1", в противном случае "0".
ГТИ - генератор тактовых импульсов;
Сч1 - счётчик верно распознанных дикторов; Сч2 - счётчик распознаваемых слов;
Д - делитель. На выходе - вероятность правильного распознавания.
Принцип работы экспериментальной установки
Источник речевых сигналов И выдаёт на первый выход речевые сигналы по команде генератора тактовых импульсов ГТИ. Сигнал может принадлежать как первому, так и второму диктору. Два ОФ, каждый из которых настроен на своего диктора, выдаёт на выход дисперсию остатка. Первая схема сравнения СС1 решает какому из дикторов принадлежит сказанное слово на основе минимума дисперсии остатка.
Схема сравнения №2 сравнивает истинное значение номера диктора и значение, полученное схемой распознавания. В случае совпадения на выходе появляется "1", в противном случае "0".
Таким образом, счётчик Сч1 считает количество верно распознанных дикторов за всё время распознавания, а счётчик Сч2 считает общее число слов, поданных на ОФ. Делитель Д вычисляет отношение правильно распознанных дикторов к общему числу слов, иначе говоря, вычисляет оценку вероятности правильного обнаружения диктора.
Результаты экспериментальных исследований
Эксперимент имитирует задачу аутентификации на малом словаре, стандартную для систем разграничения доступа. В качестве словаря выбран набор цифр "ноль" ... "девять". Количество дикторов - 2. Объём входных слов - 500 для каждого диктора (из словаря).
Оценки спектральной плотности мощности слова "ноль", полученные авторегресионным методом, для разных дикторов при фиксированном порядке АР модели равном 40 (рисунок 4), имеют достаточное различие для их дальнейшего распознавания по методу обеляющего фильтра.
Диктор №1 Диктор №2
Рисунок 4. Оценки спектральной плотности мощности
Основные результаты распознавания двух дикторов отображены в следующих таблицах:
Вероятность правильного Вероятность правильного
распознавания диктора №1 распознавания диктора №2
(база №1) (база №2)
Слово Диктор №1
Ноль 0.96
Один 0.83
Два 0.91
Три 0.97
Четыре 0.93
Пять 0.95
Шесть 0.78
Семь 0.88
Восемь 0.86
Девять 0.93
Слово Диктор №2
Ноль 0.76
Один 0.91
Два 0.77
Три 0.92
Четыре 0.95
Пять 0.90
Шесть 0.88
Семь 0.86
Восемь 0.78
Девять 0.79
Выводы
В результате исследования был реализован и исследован алгоритм распознавания дикторов на основе новых методов спектрального анализа отталкивающихся от авторегрессионной модели наблюдений и теоретико-информационного подхода.
По результатам эксперимента можно однозначно утверждать, что предложенный метод подходит для решения задачи распознавания дикторов. Показаны хорошие результаты распознавания слов из ограниченного словарного набора, что является типовой задачей аутентификации в автоматических системах.
Предложенную здесь реализацию алгоритма распознавания дикторов на основе новых методов спектрального анализа можно применять во многих областях науки и техники, в частности в системах разграничения доступа и в схемах верификации, например, при доступе к банковскому счёту через автоматические устройства.
Список литературы
1. Савченко В.В. Различение случайных сигналов в частотной области
// Радиотехника и электроника, 1997, Т.42, №4, с.426-429
2. Савченко В.В. Экспериментальное исследование метода минимакса энтропии
// Известия ВУЗов - Радиоэлектроника, 1991, №1
3. Марпл С. Л. Цифровой спектральный анализ и его приложения М:Мир,
1990, 300с.