УДК 681.3
И. В. Огнев, П. А. Парамонов
РАСПОЗНАВАНИЕ РЕЧИ МЕТОДАМИ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В АССОЦИАТИВНОЙ ОСЦИЛЛЯТОРНОЙ СРЕДЕ
Аннотация. Актуальность и цели. В основе применения скрытых марковских моделей лежат рекурсивные процедуры, обладающие вычислительной сложностью. При этом от систем автоматического распознавания речи часто требуется, чтобы они работали в режиме реального времени, поэтому повышение быстродействия для таких систем является актуальной задачей. Материалы и методы. Одним из путей решения данной задачи является реализация аппаратной поддержки вычислений в ассоциативной осцилляторной среде. Она обладает малыми аппаратными затратами из-за простоты базовых клеточных ансамблей и выполняемых ими функций и высоким быстродействием, не зависящим от длины наблюдаемой последовательности и количества состояний скрытых марковских моделей, благодаря массовому параллелизму и конвейерному характеру вычислений. Результаты. Предложена аппаратная реализация вычисления функции вероятности прямого распространения в среде. В пакете Matlab составлена программная модель, с помощью которой была экспериментально оценена точность результата вычисления в ассоциативной осцилляторной среде на примере распознавания русских слов. Выводы. Полученная оценка точности результата на примере распознавания русских слов показала эффективность используемой модели.
Ключевые слова: ассоциативная среда, распознавание речи, скрытые марковские модели.
I. V. Ognev, P. A. Paramonov
SPEECH RECOGNITION BY MEANS OF HIDDEN MARKOV MODELS IN ASSOCIATIVE OSCILLOMETRIC MEDIUM
Abstract. Background. Application of hidden Markov models is based on recursive procedures featuring computational complexity. Herewith, the systems of automatic speech recognition are often required to function in real time mode, and therefore the increase of operation speed thereof is a topical problem. Мaterials and methods. One of the approaches to solve the said problem is the realization of hardware support of computing in associative oscillometric medium. The said approach is characterized by low hardware expenditures due to the simplicity of basic cellular assemblies and functions performed thereof, as well as by high operation speed independent of the length of the sequence under analysis and of the number of conditions of hidden Markov models, due to concurrency and conveyor nature of computing. Results. The authors suggest hardware implementation to compute the probability function of direct distribution in the medium. The researchers built a program model via Mathlab package in order to experimentally evaluate the precision of computing results in associative oscillometric medium by the example of Russian words recognition. Conclusions. The obtained precision value of the results by the example of Russian words recognition demonstrates the efficiency of the applied model.
Key words: associative media, speech recognition, hidden markov models.
Введение
На сегодня аппарат скрытых марковских моделей (СММ) является дефакто стандартом в области речевых технологий, используемым как для распознавания речи, так и для ее синтеза [1, 2]. В основе применения СММ лежат рекурсивные процедуры, обладающие вычислительной сложностью
O(T ■ N ) относительно количества состояний модели N и длины наблюдаемой последовательности T. При работе с большим словарем и использовании трифонов в качестве моделей фонем число состояний достигает сотен, а длина наблюдаемой последовательности при распознавании слитной речи может быть, в принципе, неограниченной. При этом от систем автоматического распознавания речи (АРР) часто требуется, чтобы они работали в режиме реального времени, поэтому повышение быстродействия для таких систем является актуальной проблемой. В определенных сферах применения, например в военной отрасли, нет возможности использовать программные комплексы для универсальных ЭВМ и необходима разработка надежных специализированных устройств.
Одним из путей решения данной задачи является реализация аппаратной поддержки вычислений. Например, в [3] было предложено использовать систолические матрицы, реализованные на ПЛИС, что позволило проводить параллельные вычисления по конвейерному принципу. Ассоциативная ос-цилляторная среда, представляющая собой систему с дискретным временем и пространством и состоящая из клеточных ансамблей - ячеек среды, также позволяет организовывать параллельные и конвейерные вычисления. В данной работе предлагается аппаратная реализация вычислительных процедур СММ в ассоциативной осцилляторной среде.
1. Задача распознавания речи
В работе системы АРР выделяют три этапа: выделение признаков, обучение и распознавание (рис. 1). На первом этапе из исходного сигнала получают вектор признаков - сжатое описание речевого сигнала, в котором присутствует только необходимая для распознавания информация. Для этого используются методы, работающие как в частотной области (мел-кепстральные коэффициенты, коэффициенты линейного предсказания), так и во временной (например, на кратковременном значении энергии), при этом проблема представления речи не решена до конца и исследования ведутся в том числе и авторами данной работы [4, 5]. Последовательность векторов признаков длиной T называют акустической или наблюдаемой последовательностью O = (с»1,02,...,Ор). С помощью этой последовательности человек передает цепочку слов Ж = (^1,^2,...,WN). Задача распознавания речи ставится следующим образом: необходимо отыскать цепочку слов Ж, которая соответствует акустической последовательности X [1, 2].
Для решения этой задачи на этапе обучения составляется модель X, которая способна порождать все возможные последовательности О для всех цепочек слов Ж е Ж . Пусть функция Н(Ж, X) возвращает все возможные О только для заданной Ж . Тогда распознаванием будет нахождение такой цепочки слов Ж , которая согласно модели X породит наиболее близкую к рассматриваемой акустическую последовательность:
ГГ — Л!
I I
где й (О , О) - дистанция между О и О .
W = ArgMin,
d (h(W, X), О),
(1)
Речевая
О-------> Обучение ------^ Модель
■О
5 Выделение
” признаков
Рис. 1. Общая схема системы автоматического распознавания речи
Таким образом, нужно проверить все цепочки слов Ж. Для облегчения этой задачи вводят различные ограничения с помощью грамматики языка либо решается более узкая задача, например распознавание только изолированных слов.
За последние 40 лет исследований в области АРР наибольшее распространение получили стохастические модели X речевого сигнала - скрытые марковские модели.
1. Применение скрытых марковских моделей в распознавании речи
СММ определяется как тройка X = (А, В, п), где А - матрица вероятностей переходов, В - матрица вероятностей наблюдений выходных значений, п - вектор вероятностей начальных состояний. Разберем эти понятия подробнее. Матрица А состоит из элементов ау - вероятностей перехода из
состояний 7 в у. Матрица В содержит элементы Ьг- (о^) - вероятность наблюдения в состоянии 7 вектора признаков о^ . Наконец, п состоит из компонент пг- - вероятностей нахождения в 7-м состоянии в начальный момент времени.
С помощью СММ составляют статистические модели фонем, слов и целых фраз. Выбор конкретного языкового объекта зависит от задач, которые должна решать разрабатываемая система распознавания речи. На сегодня можно выделить следующие подходы к составлению СММ (они могут быть как взаимоисключающими, так и взаимодополняющими) [1, 2, 6, 7].
1. На СММ составляют модели фонем - звуковых букв языка, которые можно объединять в слова.
2. Фонемы моделируются с помощью трех состояний - начального, среднего и конечного (рис. 2). Это связано с тем, что речевой тракт не может менять свои характеристики мгновенно, и при переходе от фонемы к фонеме происходит его «переключение» через промежуточные состояния.
3. Известно, что фонемы звучат по-разному в окружении разных фонем. Этот эффект называется коартикуляцией. В зависимости от того, будет ли учитываться или игнорироваться это явление, существует два типа моделей фонем:
1) монофоны - коартикуляция игнорируется, составляются модели отдельно стоящих фонем. Этот подход имеет важное преимущество: фонем в языке совсем немного (например, в русском языке их 43), и из них можно составить любые слова, так что распознавание будет сводиться к определению цепочки произнесенных фонем, и словарь такой системы фактически неограничен. Есть, однако, и серьезный недостаток: такая модель имеет невысокую точность;
2) трифоны - коартикуляция учитывается путем составления отдельных моделей для фонем в окружении других фонем. Рассмотрим слово «назад»: используя Международный фонетический алфавит, его можно описать цепочкой фонем «п-а-2-а-1». Здесь фонема /а/ встречается дважды, но из-за коартикуляции для нее потребуется составить две отдельные модели: «п-а+2» и «2-а+1». Это гораздо более сложный подход, но и точность распознавания выше, чем при использовании монофонов.
4. Составляют отдельные СММ для каждого слова из словаря и при распознавании выбирают «наиболее подходящую». Такой подход подойдет для распознавания отдельно стоящих слов.
5. Составляют одну СММ, склеивая СММ для слов через промежуточные состояния (например, тишину), согласно грамматике языка. Это необходимо для распознавания слитной речи.
Рис. 2. Фрагмент СММ для фонем /п/-/а/, включающих три состояния: начальное, среднее и конечное
Применение СММ для распознавания изолированных слов основывается на вычислении функции прямого распространения вероятности, которая определяется как вероятность наблюдения последовательности О = (01,02,...,о{), находясь в состоянии, в момент времени 7 для модели X = (А, В, п) [5, 6]:
«1(]) = п, • Ь, (о),
at(j) =
Ч
Z at-1 (i ) i=1
bj (°t )•
(2)
Вычисление аг (у) происходит рекурсивно. Дойдя до конца наблюдаемой последовательности, т.е. до ґ = Т , нужно сложить ат (у) для всех состояний, получив вероятность наблюдения последовательности О = (сц,02,...,От) для данной СММ X :
Р (О | X) = £ аТ (,). (3)
,=1
Этой вероятностью можно воспользоваться при распознавании изолированных слов: каждое слово моделируется СММ X£, а при распознавании слова необходимо выбрать ту СММ, которая с наибольшей вероятностью способна породить наблюдаемую последовательности О :
м> = А^МахР(О | X). (4)
к
Описанный способ вычисления Р(О | X) называется алгоритмом прямого прохода и является основой также для процедуры переоценки параметров СММ (алгоритм Баума - Велша). Другой известный алгоритм - Витерби, используемый для нахождения «оптимальной» цепочки состояний СММ Q = (#1,42,.,ЧТ), соответствующей заданной последовательности наблюдений, также работает рекурсивно, только вместо накапливания суммы на каждом шаге 7 движение идет по максимуму. Таким образом, аппаратная поддержка алгоритма прямого хода позволила бы существенно повысить быст-
родействие всей системы распознавания.
2. Ассоциативная осцилляторная среда и ее базовые клеточные ансамбли
Ассоциативная осцилляторная среда (АОС) построена по принципу неоднородных клеточных автоматов, где каждая ячейка имеет свой закон функционирования. В терминах АОС ячейки называются клеточными ансамблями, а закон их функционирования выбирается на этапе разработки алгоритма обработки информации [8].
Основным понятием АОС является спайк - информационное воздействие, передающееся между соседними клетками по локальным связям [8-10]. Спайки никогда не стоят на месте, но все время перемещаются между клеточными ансамблями среды, которые различным образом их обрабатывают. Таким образом, АОС «живет» во времени, в ней постоянно происходит пульсация спайков, которые со временем образуют последовательности.
Время для АОС дискретно, так что спайки перемещаются от клетки к клетке между тактами, и наблюдение за тем, как в АОС обрабатывается информация, осуществляется по тактам. Через каждый клеточный ансамбль среды за промежуток в тактов проходит различное количество спайков #. При этом можно найти интенсивность потока спайков РК на выходе из клеточного ансамбля [8]:
Ъ = N4 (5)
Ч
При достаточно большом количестве рассматриваемых тактов интенсивность РК приближается к вероятности Р прохождения спайка через связь в данном такте:
Р = Нш РК . (6)
N
Таким образом, клеточные ансамбли можно описывать двояко: во-первых, с точки зрения зависимости значения на выходе в (к + 1)-м такте от значений на входе в £-м текущем такте; во-вторых, через зависимость интенсивности потока спайков на выходе от интенсивностей потоков спайков на входах.
Простейшим клеточным ансамблем является проводник, который никак не изменяет входную интенсивность потока спайков. Если выстроить замкнутую цепочку проводников длиной Ч, то получится замкнутый осциллятор. Этот клеточный ансамбль не оказывает никакого влияния на окружающие клетки, а число спайков, курсирующих по его цепочке, называют зарядом осциллятора.
В данной работе использовались следующие клеточные ансамбли (табл. 1).
Таблица 1
Клеточные ансамбли АОС, использованные в данной работе
Имя
Обозначение
Таблица истинности
q(k) s(k) o(k + 1)
0 0 0
0 1 1
1 0 1
1 1 1
q(k) s(k) o(k + 1)
0 0 0
0 1 1
1 0 1
1 1 1
q(k) s(k) o(k + 1)
0 0 0
0 1 0
1 0 0
1 1 1
Уравнение
интенсивностей
Сумматор
P = P + P - P ■ P
1 o * q ' * s q s
Накапливающий
осциллятор
p = p + p - p ■ p
1 o * q ' * s q s
Умножитель
Примечание. Сумматор выполняет дизъюнкцию входных спайков. Накапливающий осциллятор состоит из замкнутого осциллятора и сумматора. Такая комбинация позволяет накапливать заряд осциллятора. Умножитель выполняет конъюнкцию входных спайков.
Накапливающий осциллятор перед началом работы необходимо заполнить цепочкой спайков нужной интенсивности, а в дальнейшем он используется только для ее хранения.
3. Вычисление прямого распространения вероятности в ассоциативной осцилляторной среде
Как было отмечено выше, клеточные ансамбли характеризуются зависимостью интенсивности выходного потока спайков от интенсивностей потоков на входе. В пределе при рассмотрении последовательности бесконечной длины интенсивность /-го входного потока равна вероятности наблюдения
спайка на /-м входе в £-м такте, а интенсивность выходного потока - вероятности наблюдения спайка на выходе в (£ + 1)-м такте. Если с помощью интенсивностей потоков спайков представить вероятности {а/у } • {Ь! (<>£)} и
{пу } , то, используя различные клеточные ансамбли, можно вычислять новые
значения вероятностей.
По описанному принципу были построены блоки, производящие вычисление функции вероятности прямого распространения. При этом для алгоритма прямого хода необходимо реализовать всего две операции над значениями вероятностей - сложение и умножение. Произведение вероятностей можно получить с помощью умножителя, а вот сумматор дает вероятность сложения двух совместных событий (табл. 1). Однако на практике произведение Рд ■ - достаточно малое число, вносящее незначительную погрешность
в сумму.
На рис. 3 изображена схема вычисления очередного у-го значения функции вероятности прямого распространения на шаге 7 по формуле (2).
Рис. 3. Схема вычисления у-го значения функции вероятности прямого распространения на шаге 7
Таких блоков необходимо столько, сколько состояний в СММ. При этом вычисление значений функции вероятности прямого распространения для всех состояний происходит параллельно.
Для хранения элементов матрицы вероятностей переходов А, матрицы вероятностей наблюдения выходных значении В и вектора вероятностей начальных состояний п используются накапливающие осцилляторы. Перед началом работы эти осцилляторы заполняются случайными последовательностями спайков заданной интенсивности. На рис. 4 изображена схема вычисления т значений функции аг (у). Помимо параллельного вычисления аг (у) для каждого состояния, такая схема производит конвейерную обработку по-
токов спайков. Таким образом, время, за которое будет получен результат, не зависит от количества состояний N (из-за параллельности) и длины наблюдаемой последовательности Т (благодаря конвейерности), а определяется только длиной обрабатываемой последовательности спайков, которая постоянна.
S
н
О
О
д
са
Д
о
Д
о
Ё
д
5Д
о
д
са
§
5Д
cd
Д
о
15
о
о
и
Л
5
Й
«
Н
о
о
е
со
S
S
Я
S
и
53
Рис. 4. Схема вычисления т значений функции аг (у)
4. Моделирование и оценка результатов
Для экспериментальной проверки предложенной аппаратной реализации была составлена программная модель среды в системе МаЙаЬ. Использование последовательностей спайков конечной длины неизбежно должно вносить ошибку в вычисление Р(01 X), поэтому за ее эталонное значение был принят результат работы традиционной программной реализации алгоритма прямого прохода, а величина ошибки 5 оценивалась как относительная погрешность Р5 (О | X):
5 =
P(O\X)
(7)
При этом интерес представляет зависимость ошибки вычисления Р(01X) в АОС от следующих параметров:
- длины наблюдаемой последовательности Т;
- выбранной длины потока спайков Ыч.
В качестве исходных данных была составлена дискретная СММ из 20 состояний, моделирующая произношение слова «Вперед» (рис. 5).
Рис. 5. СММ для слова «Вперед»
Для распознавания были записаны тестовые произношения слова «Вперед», не входящие в обучающую выборку. Для того чтобы получить дискретный вектор признаков, применялась процедура векторного квантования с объемом словаря М = 28 = 256. Таким образом, на распознаватель поступала последовательность наблюдений О = (о^,02,...,От), в которой ог - восьмибитный номер кодового слова.
На рис. 6 представлена зависимость ошибки вычисления Р(01X) в АОС от длины наблюдаемой последовательности Т. Эксперимент был проделан для = 1000 (отмечено звездочками) и = 10000 (отмечено квадра-
тами), а Т менялось в пределах от 24 до 36. Как и ожидалось, с ростом Т ошибка накапливается. При этом чем длиннее используется последовательность спайков, тем ближе ее интенсивность приближается к моделируемой вероятности и тем медленнее идет ее вырождение с ростом Т.
Для того чтобы оценить, насколько сильно влияет ошибка вычисления Р(01 X) на распознавание, был проведен эксперимент по распознаванию четырех слов - «Вперед», «Назад», «Влево», «Вправо». Тестовая выборка включала по 20 примеров одного слова и в общей сложности 80 образов. Результат оценивался как доля верных ответов системы и представлен в табл. 2.
Заключение
В работе предложена аппаратная реализация основного алгоритма СММ, используемого в задачах распознавания, на элементах ассоциативной осцилляторной среды. Она обладает малыми аппаратными затратами из-за
простоты базовых клеточных ансамблей и выполняемых ими функций и высоким быстродействием, не зависящим от длины наблюдаемой последовательности и количества состояний СММ, благодаря массовому параллелизму и конвейерному характеру вычислений.
Рис. 6. Зависимость ошибки вычисления Р(01X) от длины наблюдаемой последовательности Т для Ыя = 1000 (отмечено звездочками) и И9 = 10000 (отмечено квадратами)
Таблица 2
Результаты эксперимента по распознаванию изолированных слов на АОС
Точность, %
Программное вычисление P(O | X) Вычисление P(O | X) на АОС, Nq = 1000 Вычисление P(O | X) на АОС, N = 10000
95 79 91
В среде Matlab была составлена программная модель предложенной аппаратной реализации вычисления функции вероятности прямого распространения, с помощью которой была экспериментально оценена точность результата вычисления на АОС на примере распознавания русских слов.
Список литературы
1. Becchetti, C. Speech Recognition. Theory and C++ Implementation / C. Becchetti, L. P. Ricotti. - Wiley, 1999. - 428 p.
2. Huang, X. Spoken language processing: a guide to theory, algorithm, and system development / X. Huang, A. Acero. - Prentice Hall, 2001. - 1008 p.
3. Mosleh, M. FPGA implementation of a linear systolic array for speech recognition based on HMM / M. Mosleh, S. Setayeshi, M. Mehdi Lotfinejad, A. Mirshekari // The
2nd International Conference on Computer and Automation Engineering (ICCAE). -2010. - Vol. 3. - P. 75-78.
4. Огнев, И. В. Предварительная обработка речевого сигнала для построения базы произношений одиночных слов / И. В. Огнев, П. А. Парамонов // Информационные средства и технологии : тр. XX Междунар. науч.-техн. конф. - М. : МЭИ, 2012. - С. 53-58.
5. Ognev, I. V. The use of extrema distribution as a feature vector for speech patterns recognition / I. V. Ognev, A. I. Ognev, P. A. Paramonov, N. A. Sutula // Pattern Recognition and Image Analysis: New Information Technologies : the 11th International Conference. - 2013. - Vol. 1. - P. 114-117.
6. Rabiner, L. Fundamentals of speech recognition / L. Rabiner, B.-H. Juang. - Prentice Hall, 1993. - 507 p.
7. Рабинер, Л. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор / Л. Рабинер // Труды института инженеров по электротехнике и радиоэлектронике. - М. : Мир, 1989. - Т. 77, № 2. -С. 86-120.
8. Комаров, А. Н. Исследование и разработка ассоциативных сред и методов обработки информации : дис. ... канд. техн. наук / Комаров А. Н. - М. : МЭИ(ТУ), 2002. - 194 с.
9. Комаров, А. Н. Базовые клеточные ансамбли ассоциативных осцилляторных сред и возможности их расширения / А. Н. Комаров, И. В. Огнев, П. Б. Подолин // Вычислительные системы и технологии обработки информации : межвуз. сб. научн. тр. - Вып. 5 (30). - Пенза : Инф.-изд. центр ПГУ, 2006. - 200 с.
10. Огнев, И. В. Распознавание символов в ассоциативной осцилляторной среде / И. В. Огнев, П. Б. Подолин // Известия высших учебных заведений. Поволжский регион. Сер. Технические науки. - 2006. - № 6. - С. 55-66.
References
1. Becchetti C., Ricotti L. P. Speech Recognition. Theory and C++ Implementation. Wiley, 1999, 428 p.
2. Huang X., Acero A. Spoken language processing: a guide to theory, algorithm, and system de-velopment. Prentice Hall, 2001, 1008 p.
3. Mosleh M., Setayeshi S., Mehdi Lotfinejad M., Mirshekari A. The 2nd International Conference on Computer and Automation Engineering (ICCAE). 2010, vol. 3, pp. 75-78.
4. Ognev I. V., Paramonov P. A. Informatsionnye sredstva i tekhnologii: tr. XXMezhdu-nar. nauch.-tekhn. konf. [Information devices and technology: Proceedings of XXth International scientific technical conference]. Moscow: MEI, 2012, pp. 53-58.
5. Ognev I. V., Ognev A. I., Paramonov P. A., Sutula N. A. Pattern Recognition and Image Analysis: New Information Technologies: the 11th International Conference. 2013, vol. 1, pp. 114-117.
6. Rabiner L., Juang B.-H. Fundamentals of speech recognition. Prentice Hall, 1993, 507 p.
7. Rabiner L. Trudy instituta inzhenerov po elektrotekhnike i radioelektronike [Proceedings of the Institute of electrical engineering and radio electronics]. Moscow: Mir, 1989, vol. 77, no. 2, pp. 86-120.
8. Komarov A. N. Issledovanie i razrabotka assotsiativnykh sred i metodov obrabotki informatsii: dis. kand. tekhn. nauk [Research and development of associative media and methods of data processing: dissertation to apply for the degree of the candidate of engineering sciences]. Moscow: MEI(TU), 2002, 194 p.
9. Komarov A. N., Ognev I. V., Podolin P. B. Vychislitel’nye sistemy i tekhnologii obrabotki informatsii: mezhvuz. sb. nauchn. tr. Vyp. 5 (30) [Computing systems and
technologies of data processing: interuniversity collected papers. Issue 5 (30)]. Penza: Inf.-izd. tsentr PGU, 2006, 200 p.
10. Ognev I. V., Podolin P. B. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki. [University proceedings. Volga region. Engineering sciences]. 2006, no. 6, pp. 55-67.
Огнев Иван Васильевич
доктор технических наук, профессор, кафедра вычислительной техники, Национальный исследовательский университет «Московский энергетический институт» (Россия, г. Москва, ул. Красноказарменная, 14)
E-mail: OgnevIV@mpei.ru
Парамонов Павел Александрович аспирант, Национальный исследовательский университет «Московский энергетический институт» (Россия, г. Москва, ул. Красноказарменная, 14)
E-mail: pa.pawka@gmail.com
Ognev Ivan Vasil'evich Doctor of engineering sciences, professor, sub-department of computing technology, National Research University "Moscow Power Engineering University"
(14 Krasnokazarmennaya street,
Moscow, Russia)
Paramonov Pavel Aleksandrovich Postgraduate student, National Research University "Moscow Power Engineering University" (14 Krasnokazarmennaya street, Moscow, Russia)
УДК 681.3 Огнев, И. В.
Распознавание речи методами скрытых марковских моделей в ассоциативной осцилляторной среде / И. В. Огнев, П. А. Парамонов // Известия высших учебных заведений. Поволжский регион. Технические науки. -2013. - № 3 (27). - С. 115-126.