Научная статья на тему 'Распознавание речевых сигналов  на основе корреляционного метода'

Распознавание речевых сигналов на основе корреляционного метода Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
446
64
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бочаров И. В., Акатьев Д. Ю.

Рассмотрена задача распознавания речевых сигналов на основе корреляционного метода по критерию минимума информационного рассогласования при учёте фонемной структуры слов. По приведённому критерию разработан новый алгоритм распознавания и рассчитаны его вычислительные затраты. Приведены практические результаты моделирования на реальных речевых сигналах для двух дикторов. Произведено сравнение с методом распознавания на основе кепстральных коэффициентов тональной частоты (MFCC).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Speech signals recognition based on the correlation method

The article studies the task of automatic speech recognition based on the correlation method and Kullback-Leibler divergence criterion taking into account the phonemic structure of speech signals. It suggests an algorithm implementing the described approach with explanations on the estimated computational workload. The article is illustrated with the results of experimental modeling for two speakers. The suggested method is compared to recognition based on Mel Frequency Cepstral Coefficients (MFCC).

Текст научной работы на тему «Распознавание речевых сигналов на основе корреляционного метода»

Распознавание речевых сигналов на основе корреляционного метода

Бочаров И.В. (ааш [email protected]), Акатьев Д.Ю.

Нижегородский государственный лингвистический университет

Рассмотрена задача распознавания речевых сигналов на основе корреляционного метода по критерию минимума информационного рассогласования при учёте фонемной структуры слов. По приведённому критерию разработан новый алгоритм распознавания и рассчитаны его вычислительные затраты. Приведены практические результаты моделирования на реальных речевых сигналах для двух дикторов. Произведено сравнение с методом распознавания на основе кепстральных коэффициентов тональной частоты (МЕСС).

Введение

Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Исторически первым методом распознавания речи был метод, основанный на авторегрессионной модели голосового сигнала и коэффициентах линейного предсказания [1] не требующий больших вычислительных затрат. С появлением мощных вычислительных машин и разработкой эффективных вычислительных алгоритмов линейной алгебры стали актуальными методы, основанные на корреляционном подходе [2].

Особый интерес вызывает универсальный теоретико-информационный подход, сводящийся к критерию минимума информационного рассогласования (МИР) и реализуемый во временной области с использованием оценок корреляционных матриц [3]. Корреляционный метод непосредственно следует из критерия МИР, производится во временной области и не требует выполнения предельных переходов. Кроме того, он подходит для анализа нестационарных процессов, к которым относятся речевые сигналы. Дальнейшим развитием этого метода применительно к задаче распознавания речи является переход к анализу фонемной структуры слова. Цель работы состоит в разработке нового алгоритма распознавания речи по критерию МИР на основе корреляционного подхода при учёте фонемной структуры слов, а также исследование эффективности и оптимизация его параметров.

Корреляционный подход

Исходным пунктом при обосновании метода ОФ является авторегрессионая (АР) модель речевого сигнала. Такая аппроксимация прочно утвердилась в области анализа и синтеза речи как модель, хорошо описывающая поведение речевого тракта при его описании в виде динамической трубы [4]. Разностное уравнение, описывающее АР процесс, определяется следующей формулой:

Р

х{п )= £ а{г)х(п -1) + ), (1)

г=1

где:

х(п) - массив данных АР сигнала размером п;

а(г) - АР коэффициенты процесса;

Р - порядок процесса;

£(п) - порождающий процесс типа гауссовского белого шума (ГБШ).

Вычисление параметров АР модели речевого сигнала, а именно её вектор АР коэффициентов а(г) г=1 ...Р, производится в расчете на минимизацию ошибки линейного предсказания по ее дисперсии. В частности высокими динамическими характеристиками получаемых оценок отличается метод Берга [5], при этом выбор порядка модели представляет собой оптимизационную задачу, исходя из требуемых качественных характеристик алгоритма и доступного объёма данных.

Решение задачи различения для семейства сигналов, полученных путём линейной фильтрации «белого» гауссовского шума определяется в предположении об АР природе анализируемых сигналов с применением принципа информационного рассогласования. Используя формулировку критерия минимума информационного рассогласования в метрике Кульбака-Лейблера во временной области через матрицы ковариации, определим оптимальный алгоритм для различения сигналов [3]:

Гх,г = * (к х к-1)+ 1п| К г\ ^ шп

г = 1, Я

(2)

здесь:

Кхф - оценка матрицы автоковариаций по выборке конечного объёма для распознаваемого сигнала х;

Кгф - оценка матрицы автоковариаций по выборке конечного объёма для распознаваемого сигнала г;

Я - размер словаря.

Алгоритм реализуется в виде набора из Я параллельных каналов вычисления решающей статистики (2). База данных словаря содержит Я, по числу распознаваемых слов, оценок матриц автоковариаций сигналов. В каждом канале производится вычисление статистики на основе оценки матрицы автоковариации анализируемого сигнала и оценки матрицы автоковариации одного сигнала из словаря. Решение принимается в решающем устройстве по критерию минимума решающей статистики у=тгп на выходах вычислителей статистики в каждом из Я каналов.

При анализе речи обычно используется подход, определяющий любой ограниченный во времени нестационарный сигнал как частную реализацию бесконечно длинного стационарного сигнала. Однако непосредственное применение к речевым сигналам результата (2) не позволяет достичь максимальной эффективности алгоритма в связи с сильной нестационарностью речевых сигналов [6]. На практике можно говорить лишь о кусочно-временной стационарности речевых сигналов, что обусловлено самой физической природой речеобразования связанной с невозможностью мгновенной физиологической артикуляции голосового аппарата человека. Теория и практика анализа голосовых сигналов показывает, что период стационарности речевого тракта человека имеет длительность порядка 20 мсек. [6]. Разделение слов на фонемы как часть фонетического анализа является отдельной сложной задачей практической лингвистики.

Произведём теоретическое обоснование применимости критерия МИР во временной области к фонемной структуре слова. Согласно [7] оценка обратной автокорреляционной матрицы произвольного гауссовского сигнала может быть произведена путём вычисления следующего тройного разложения:

К = АДАТ (3)

где:

А - верхняя треугольная матрица авторегрессии размером п с единичной

диагональю, составленная из коэффициентов авторегрессии порядка от 1 до п-1 включительно;

А - диагональная дисперсионная матрица размером п, диагональными элементами которой являются обратные значения дисперсии нескомпенсированного остатка ГБШ на выходе обеляющего фильтра порядка с п-1 по 0 соответственно номеру строки (столбца) элемента в матрице.

Учитывая кусочно-стационарную структуру речевого сигнала можем утверждать, что вектор АР коэффициентов в этом случае неизменен в пределах участка стационарности, соответственно и матрица автокорреляции сигнала, вычисленная внутри границ этого периода является стационарной. Отсюда следует вывод, что увеличение эффективности распознавания речевых сигналов можно достичь путём разбиения слова на участки со стационарным поведением автоковариационной матрицы и дальнейшего сравнения двух сигналов по критерию минимума усреднённого информационного расстояния по всем сегментам распознаваемого слова. Однако следует отметить, что в случае сильно вариативной базы данных слов в процессе распознавания необходимо дополнительно применять методы временной нормировки сравниваемых слов. Классическим решением этой задачи является метод динамического искажения времени [8].

Наиболее простым и вычислительно-эффективным способом фонетического анализа структуры слова является разделение слова на неперекрывающиеся смежные сегменты фиксированной длинны. При этом априорная база данных словаря будет содержать не одну, а несколько матриц для каждого слова, вычисленных по соответствующим сегментам, а вычисление решающей статистики будет производиться путём усреднения решающих статистик, вычисленных по всем сегментам.

С учётом сказанного решающая статистика (3) требует видоизменения. Окончательно, учитывая фонемную структуру, модифицированная решающая статистика преобразуется к виду:

Ь

к Г)

^ = Ь £ ((к Х° к Г)+ 1п

Ь г=1

т

^ min

г = 1, Я

(4)

здесь:

К (1)хф - выборочная оценка матрицы ковариаций сегмента г распознаваемого сигнала х;

К (1)гф - выборочная оценка матрицы ковариаций сегмента г распознаваемого

сигнала г; Я - размер словаря; Ь - число сегментов обработки.

После такой модификации мы получаем возможность применять метод как целиком к слову, устанавливая количество сегментов обработки Ь равное единице, так и к фонемной структуре слова, усредняя информационное рассогласование сегментов

сигналов по всей его длине L>>1. В соответствии с решающей статистикой (4) синтезируем алгоритм обработки сигналов.

Синтез алгоритма

В соответствии с критерием (4) алгоритм принятия решения по выборке х длиной N отсчетов может быть записан в виде следующей последовательности операций.

Обозначим Xn(t) = (x(1),...,x(N))T- вектор столбец данных сигнала длинной N. Сегментирование производится путём деления сигнала на смежные сегменты одинаковой длины. Пусть длина сегмента обработки равна S, тогда количество сегментов, убирающихся в длину слова равно L=N/S. Порядок матрицы автокорреляции обозначим как P, тогда в один сегмент убирается w=S/P окон обработки. Оценка матрицы автоковариации каждого сегмента производится алгоритмом скользящего окна

-(О T

непосредственно перемножением векторов сигналов xp (t) = (x(i • P),..., x(P(i +1))) в окне

обработки, и записывается как: 1 -W,

к x) =11 xPi)(t) • xPi)T (t) (5)

w i=1 '

здесь:

xP (t) - вектор-столбец данных сегмента сигнала длинной P;

xp (t) - вектор-строка (транспонированный вектор-столбец) данных сегмента сигнала длинной P;

w - число окон обработки, убирающихся в длину сегмента, w=S/P;

P - порядок автокорреляционной матрицы.

Как было сказано выше, применение корреляционных методов связано с большими вычислительными затратами. В частности формула (3) требует нахождения обратной матрицы (требуемая вычислительная мощность алгоритма в общем виде nn!) и вычисления детерминанта (требуемая вычислительная мощность алгоритма в общем виде n!). Для снижения требований к аппаратной части системы распознавания воспользуемся вычислительно-эффективным алгоритмом обращения, реализованным в библиотеке линейной алгебры SIMD [9] инструкций микропроцессоров Pentium IV фирмы Intel, основанным на LU декомпозиции Краута [10], позволяющим обращать матрицу параллельно c нахождением её детерминанта. Этот алгоритм позволяет сократить объём вычислений для матрицы общего вида до ~2n3/3. Оригинальный эффективный алгоритм нахождения обратной корреляционной матрицы для авторегрессионного типа сигналов сводящийся к тройному произведению матриц был предложен в [7]. В связи с тем, что детерминант и обращение матрицы производится одновременно, решающая статистика требует изменения, а именно: замена логарифма детерминанта матрицы на логарифм детерминанта обратной матрицы в минус первой степени взятый с обратным знаком. Следует отметить, что возможно дальнейшее увеличения быстродействия алгоритма путём применения методов обращения для матриц специального вида, т.к. матрицы Kr и Kx являются тёплицевыми.

Решающая статистика для каждого сегмента вычисляется на основе оценок корреляционной матрицы сегмента анализируемого слова и образца из словаря:

^Г = г (к х°к г°)- 1п ^

здесь:

(6)

К хф - выборочная оценка матрицы автоковариаций сегмента г распознаваемого сигнала х;

К (1)-1гф - выборочная оценка обратной матрицы автоковариаций сегмента г распознаваемого сигнала г;

Суммарная решающая статистика для слова целиком вычисляется как среднее значение статистик вычисленных для каждого из сегментов в отдельности:

1 1

у =1 уг(0

I х,г т I х,г , (7)

Ь г=1

ух г(г) - информационное рассогласование между сегментом г сигнала х и

сегментом г сигнала г из словаря; Ь - количество сегментов;

Решающее правило в пользу одного из сигналов словаря определяется по критерию минимума итогового информационного рассогласования между анализируемым сигналом и сигналом из словаря.

г ^ тт

г = 1, Я

(8)

Таким образом, для вычисления результирующей статистики (7) производится вычисление информационного рассогласования (6) между сегментами сравниваемых слов. Оценка корреляционной матрицы для вычисления статистик производится методом скользящего окна (5). Результат распознавания определяется минимумом (8) среднего значения статистик, вычисленным по сегментам распознаваемого слова.

Реализация системы распознавания с предварительным обучением разделяется на две независимых во времени части: создание словаря и собственно распознавание. Во время этапа создания словаря производится формирование базы априорных данных о распознаваемых сигналов в виде набора из Ь обратных матриц корреляций размера Р и Ь детерминантов корреляционных матриц для каждого слова. Важно отметить, что вычислительно-ёмкие операции обращения матрицы и вычисления детерминанта проводится на этапе создания словаря, и в процессе распознавания будет использоваться вычислительно значительно менее затратная операция перемножения матриц. На этапе распознавания производится вычисление решающей статистики используя обратную матрицу корреляции и значения детерминантов из предварительно созданной базы данных для каждого слова словаря. Принятие решения осуществляется по критерию минимума модифицированной решающей статистики (4) во всех каналах обработки.

Проблема вариативности речи, а именно изменчивость длины разных вариантов одного и того же слова или аллофонов этого слова, как было сказано выше, традиционно решается с применением методов динамического искажения времени [8]. В связи с большими требованиями к процессорным ресурсам этого метода был предложен более простой метод нормировки по времени с помощью добавления шумовых фрагментов: если распознаваемый сигнал на входе короче сигнала из словаря, то производится добавление нескольких матриц корреляции шумового сигнала с дисперсией равной 1/10 дисперсии сигнала до взаимного выравнивая количества сегментов в распознаваемом

слове и словаре. Если распознаваемое слово длиннее слова из словаря, то в словарную базу данных добавляется несколько матриц корреляции белого гауссовского шума.

Результаты экспериментальных исследований

В качестве анализируемых использовались речевые сигналы содержащие слова русского языка. Словарь состоял из десяти слов - числительных от нуля до девяти включительно. Задача такого типа носит название задачи голосового управления автоматическими системами, и является актуальной для практического применения прежде всего в телефонии. Частота дискретизации 8КГц и квантование 8бит являются типовыми параметрами в системах передачи хранения и обработки речевой информации.

Для максимального приближения экспериментальных данных к практическим данным речевая база была записана со следующими ограничениями:

1. База данных имеет сильную вариативность длины гласных фонем в составе слова и, как следствие, различие в длине реализаций одного и того же слова до 200%.

2. Реализации слов содержат фонетические ошибки в виде "проглоченных" окончаний слов, оглушения смычных лабиальных согласных типа [п], смягчения нёбно-зубных согласных типа [р], сильной редукции гласных и т.п.

3. Наличие в сигнале аддитивного сильно-нестационарного шума от блоков ЭВМ на уровне -18Дб и маскирующего акустического фона от посторонних источников звука с уровнем -16Дб.

Все введённые ограничения позволяют говорить о наиболее адекватной имитации реальных речевых сигналов для проведения экспериментов и высокой значимости полученных результатов. Для достоверного сравнения эффективности предложенного метода с существующими методами распознавания речи все эксперименты производились на одной базе данных.

Для создания словаря были записаны одним диктором 1 0 слов - числительных от «нуля» до «девяти» включительно. Для создания экспериментальной базы данных были записаны двумя дикторами одного пола (мужской голос) с одной интонацией по 1 00 слов каждого из 10 числительных.

Интересом практических исследований являлось измерение вероятности (относительной частоты) правильного распознавания слов w в зависимости от параметров модели. Параметрами модели являлись длина сегмента анализа и размерность матрицы корреляции Р. Результаты исследования иллюстрируются следующим набором графиков.

На рисунке 1 показана зависимость вероятности (относительной частоты) w правильного распознавания слова «шесть» от размерности матрицы для вариантов при учёте фонемной структуры слова (с применением сегментации, дина сегмента 30мсек.) и без учёта фонем (без сегментации). Вероятность правильного распознавания вычисляется в результате серии испытаний по следующей формуле:

^рав.

w = —-—, ^бщ.

где:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кправ - количество верных распознаваний слов из серии испытаний; Кобщ - общее количество испытаний.

Рисунок 1 Вероятность правильного распознавания слов в зависимости от порядка матрицы автокорреляции

На графике наблюдается рост вероятности правильного распознавания в зависимости от увеличения порядка матрицы, причём график имеет максимум при размере матрицы равной 25, что позволяет говорить об оптимальном для данного конкретного слова значении этого параметра. Учёт фонемной структуры слова путём использования процедуры сегментации позволяет увеличить вероятность правильного распознавания слов при размерностях матрицы находящихся вне оптимального значения. Таким образом сегментирование позволяет повысить качество распознавания при малых размерностях матриц корреляции.

В качестве подтверждения и расширения полученных результатов дополнительно был проведён эксперимент распознавания слов, произнесённых вторым диктором (тоже мужской голос). Вероятность правильного распознавания на уровне 0.9 говорит о хорошей адаптивности алгоритма к различиям спектра разных дикторов.

Зависимость вероятности правильного распознавания слов «два», «четыре», «пять» и «шесть» от размера матрицы корреляции показана на рисунке 3.

Рисунок 2 Вероятность правильного распознавания слов в зависимости от порядка матрицы автокорреляции

На графике видно, что диапазон оптимальных значений порядка матрицы лежит в области 20-30, при этом достигается уровень правильного распознавания не ниже 0.95. Снижение характеристик алгоритма при меньших размерах матрицы связано с недостаточно точно оценкой АКФ по ограниченному набору данных, а уменьшение относительной частоты распознавания при больших значениях порядка матрицы обусловлено влиянием нестационарности речевого сигнала. Преимуществами данного подхода перед спектральным является значительно большая ширина рабочего диапазона оптимальных порядков алгоритма и, как следствие, низкое значение величин перепутывания сигналов при отклонении заданного порядка алгоритма от оптимального для данного конкретного слова.

Зависимость вероятности правильного распознавания слова от длины сегмента обработки для слова "четыре" показана на рисунке 3. Слово "четыре" выбрано как самое фонетически-сложное из представленной базы данных.

Рисунок 3 Вероятность правильного распознавания слова в зависимости от размера длины сегмента обработки

На графике видно, что наблюдается устойчивый максимум вероятности правильного распознавания при выборе длины сегмента длинной порядка 30 мсек., что хорошо согласуется с постоянной голосового тракта порядка 20 мсек. Большой уровень перепутывания сигналов для коротких сегментов обуславливаются непопаданием полного количества периодов основного тона сигнала в окно обработки. Снижение результатов при больших длинах окна обусловлено попаданием более чем одной фонемы в сегмент обработки и, следовательно, некорректным учётом фонем в составе слова.

Вероятность правильного распознавания всех десяти слов базы при порядке матрицы равном 25 показана на рисунке 4.

1.02

0.98 -

0.96 -

0.94 -

0.92

0.9

0.88

4 5 6

Слово (P=25)

w

Рисунок 4 Вероятность правильного распознавания всех слов базы при порядке матрицы равном 25

Видно, что относительная частота распознавания слов для корреляционного метода не ниже 0.92, а в среднем по базе равна 0.96.

Для обоснования значимости полученных результатов был проведён эксперимент по распознаванию слов с использованием одного из существующих и хорошо известных способов. Сравнение производилось с методом банка фильтров в нелинейном частотном масштабе Mel Scale Filter Bank (MSFB), использующим кепстральные коэффициенты тональной частоты [11]. Для преобразования спектральных коэффициентов сигнала в кепстральные ^пользовалось дискретное косинусное преобразование следующего вида [12]:

M r (2i - 1)кп

В таблице 1 показан результат распознавания слова «девять» корреляционным методом и методом MSFB.

Размерность Корреляционный MSFB Порядок

матрицы метод кепстра

5 0,9 0,72 5

10 0,93 0,76 8

15 0,96 0,80 10

20 0,98 0,85 12

25 1,00 0,88 15

30 0,98 0,88 20

40 0,88 0,89 25

Таблица 1 Вероятность правильного распознавания для корреляционного метода и метода MSFB

Из таблицы видно, что предложенный метод распознавания речи на основе корреляционного оценивания обладает более высоким качеством распознавания на всём оптимальном диапазоне порядка матрицы, чем метод, основанный на MSFB.

Заключение

Таким образом, предложена реализация корреляционного подхода к задаче распознавания речевых сигналов на основе критерия минимума информационного рассогласования и проведено её экспериментальное исследование. В результате работы был реализован новый алгоритм распознавания и получены данные, количественно характеризующие метод. Определили, что вероятность правильного распознавания в области малых размеров матриц корреляции возрастает при учёте фонемной структуры слов методом сегментации. Дан ряд рекомендаций и предложений по методике выбора оптимального размера матрицы и влияния этого параметра на процесс распознавания.

Был произведён сравнительный анализ между корреляционным методом и методом MSFB в результате которого корреляционный метод показал более высокую вероятность правильного распознавания. Дополнительным подтверждением эффективности предложенного алгоритма может служить хороший результат распознавания речи второго диктора.

Литература

1. Ivica Rogina Automatic speech recognition, Carnegie Mellon University, 1998

2. Левни Б.Р. Статистическая радиотехника М: Радио и связь, 1967

3. Савченко В.В. Различение случайных сигналов в частотной области

// Радиотехника и электроника, 1997, Т.42, №4, с.426-429

4. J. R. Deller, J. H. L. Hansen, J. G. Proakis, Discrete-Time Processing of Speech

Signals, Piscataway (N.J.), IEEE Press, 2000.

5. Марпл С.Л. Цифровой спектральный анализ и его приложения М:Мир, 1990

6. Потапова Р.К. Речь: коммуникация, информатика, кибернетика М.:Радио и

связь - 1997

7. Савченко ВВ., Акатьев Д.Ю. Оценивание обратных корреляционных матриц

по методу минимакса энтропии \\ Радиоэлектроника. Изв. ВУЗов, 1991

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 1 5 5 7 http://zhurnal.ape.relarn.ru/articles/2003/131.pdf

8. Stuart N Wrigley Speech Recognition by Dynamic Time Warping, University of Sheffield, 1998

9. Streaming SIMD Extensions - LU Decomposition, Intel Corporation, 1999

10. William H. Saul A. Numerical recipes in C, Cambridge University Press, 1992

11. Deller J. R., Jr, Hansen J. H. L., Proakis J. G. Discrete-Time Processing of Speech

Signals. - IEEE Press, USA, 2000.

12. Kazuhito Koishida, Keiichi Tokuday Efficient encoding of Mel-generalized cepstrum

for CELP coders Tokyo Institute of Technology, 1997.

i Надоели баннеры? Вы всегда можете отключить рекламу.