МЕТОД ПОВЫШЕНИЯ СКОРОСТИ РАБОТЫ ДЕКОДЕРА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ

Бинеев О.Р.; Зулкарнеев М.Ю.; Салман С.Х.

Метод повышения скорости работы декодера в задаче распознавания речи

Бинеев О.Р. Зулкарнеев М.Ю. Салман С.Х.

ФГНУ НИИ «Спецвузавтоматика»

Россия, г. Ростов-на-Дону, Газетный пер., 51.

Тел. (863) 297-50-84, факс (863) 297-50-84, asni@rnd.runnet.ru

Современные системы автоматического распознавания речи, основанные на скрытых марковских моделях, представляют собой сложные многопараметрические программные комплексы (особенно системы с большим словарём, где количество слов превышает 105), которые требуют тонкой многоэтапной настройки (обучения) и предъявляют высокие требования к используемой компьютерной технике как с точки зрения быстродействия, так и с точки зрения используемой памяти. Несмотря на то, что в настоящее время разработаны эффективные алгоритмы декодирования, добиться работы декодера в реальном масштабе времени с сохранением высокого уровня точности по-прежнему сложно. В этой работе предлагается подход к ускорению работы динамического однопроходного Витерби-подобного декодера с древовидной структурой сети распознавания, который используется при распознавании речи с большим словарём. Основная вычислительная нагрузка при работе декодера приходится на вычисление отклика гауссовых смесей, моделирующих состояния контекстнозависимых фонем. В работе при вычислении откликов предлагается использовать алгоритм «дорожная карта», который позволяет находить l лучших гауссоид (дающих наибольший отклик) для данного наблюдения без вычисления откликов всех гауссоид. Перед выполнением декодирования для каждой гауссоиды находится список наиболее близких гауссоид с использованием в качестве расстояния перекрытия данных гауссоид в пространстве признаков. При декодировании выполняется поиск гауссоид, дающих наилучший отклик для данного наблюдения. Процедура поиска является итерационной и напоминает прокладывание маршрута по карте (отсюда название алгоритма).

ВВЕДЕНИЕ

Технология автоматического распознавания речи, основанная на скрытых марковских моделях (СММ) и n-граммных моделях языка [1], в настоящее время является наиболее популярной при создании систем распознавания речи. С развитием компьютерной техники повышается сложность систем, основанных на этой технологии. Так, если в 70-80-х годах XX века такие системы были способны распознавать раздельные слова со словарём размером 100-1000 слов, то в 90-х годах появились системы распознавания непрерывной речи с размером словаря в десятки тысяч слов.

Сейчас на повестке дня стоит задача создания системы распознавания речи

18

с размером словаря, превышающем 106. Ограничения на увеличение раз-

мера словаря слов устанавливает главным образом декодер. Существуют различные типы декодеров, используемых в системах распознавания речи [2]. В этой работе используется декодер, основанный на алгоритме перемещающегося маркера [3], который является практической реализацией алгоритма Витерби [2]. В нём в качестве оптимального частичного пути используется объект, который называется «маркер», при этом переходы между состояниями заданы явно посредством сети распознавания (рис. 1).

Рис. 1. Пример сети распознавания

Эксперименты показывают [4], что декодер, использующий такую сеть распознавания, со словарем размером больше несколько тысяч. А использование трёхграммной модели языка для такого декодера и вовсе невозможно. В работе [4] используется модифицированная сеть распознвания. В ней одинаковые начальные части фонетических транскрипций различных слов объединены. Пример сжатой сети приведён на рисунке 2. В ней начальная фонема «а» слов «АВГУСТ» и «АВТОР» представлена одним и тем же узлом сети.

Использование сжатой сети распознавания позволяет значительно увеличить скорость декодирования по двум причинам. Во-первых, с уменьшением количества узлов уменьшается количество маркеров. Во-вторых, количество маркеров зависит от номера фонемы в слове. Поскольку для такой сети количество узлов, соответствующих начальным фонемам, гораздо меньше количества узлов конечных фонем, количество маркеров снижается ещё.

В данной работе для ускорения работы декодера предлагается использовать алгоритм «Дорожная карта» [5]. Он позволяет находить наиболее вероятные компоненты гауссовых смесей, без необходимости рассчитывать их все. В следующем разделе даётся более подробное описание метода, а далее приводятся результаты его экспериментальной проверки.

Рис. 2. Сжатая сеть распознавания

ОПИСАНИЕ МЕТОДА

В работе предлагается метод ускорения работы декодера за счёт уменьшения количества вычислений. Далее описание алгоритма «Дорожная карта» ведётся в соответствии с работой [5].

На каждом шаге декодирования требуется вычисление выходной вероятности йДо;.) для всех состояний, в которые есть переходы из состояний, содержащих маркеры. Вычисление

19

XXII сессия Российского акустического общества речи Сессия Научного совета по акустике РАН - Акустика речи

Ь} (о¡О является наиболее ресурсоёмкой частью процедуры декодирования, поскольку для вычисления смеси ЬДо) = 1игутЛг(о|^ требуется вычисление всех её компонент. В работе предлагается не рассчитывать все компоненты всех смесей, имеющихся в системе, а найти I наиболее вероятных компонент, а при вычислении использовать

сывающей Ь; (о), в список не попала. Для нахождения I наиболее вероятных компонент предлагается использовать алгоритм «дорожная карта»,

который позволяет находить I лучших компонент (дающих наибольший отклик) для данного наблюдения без вычисления откликов всех компонент. Пусть Ж — множество всех компонент и для каждой компоненты

известен список ближайших к ней компонент ^(т). Дорожная карта — это граф связей компонент друг с другом, которые задаются списками п(т).

Алгоритм «Дорожная карта» является итерационным и состоит из следующих шагов:

1. Инициализация результирующего списка

2. Выбор I наиболее вероятных компонент из множества ^ и в качестве нового списка /.

3. Если € — /, выбор I наиболее вероятных компонент из множества / и -г(ЛГ) в качестве нового списка , иначе возвращение к шагу 2.

4. Выход, если / = иначе возвращение к шагу 2.

Начальный список может быть задан случайно или в качестве начального списка может быть взят список с предыдущего шага декодирования.

7~(Ж) — случайным образом выбранное подмножество множества Ж.

Инициализация списков наиболее близких к компоненту ш компонент

выполняется похожим образом, только в этом случае в качестве наблюдения о выступает компонента т:

1. Инициализация списков п(ш) для всех ш £ Ж.

2. Выбор в качестве нового списка п(-т) наиболее близких к компоненте ■т компонент из множества 'И.(т) и п (-я(-т)) для всех -т £ Ж.

3. Если -?г(™) = выбор п наиболее близких к компоненте т компонент из множества п (т) и -г (Ж) в качестве нового списка п(-т), иначе возвращение к шагу 2.

4. Выход, если -^(т) = ■■п(1п), иначе возвращение к шагу 2.

В качестве расстояния между двумя компонентами ■т1-1-' и т'-2 ' используется

их перекрытие в пространстве признаков д(т'-1'',ш'---'), для вычисления которого используются выражения:

аппроксимацию

если 1-я компонента попала

в найденный список, и ЬАо) = 0, если ни одна из компонент смеси, опи-

20

о

))

0(ъ= 5 min (m'fbXm^M) do (1),

где О ^m':1") — перекрытие двух одномерных нормальных распределений

N и jV ^jp"'',!/,2"'1 J (см. рисунок 3), /j^E^/j^E^ — компоненты век-

торов средних и ковариационных матриц многомерных нормальных распределений jVf^'-^j S1-1^) и соответствующих компонентам смесей та^ит^со-

ответственно.

0.8

Рис. 3. Перекрытие двух одномерных нормальных распределений

Для вычисления логарифма интеграла (1) используется аппроксимация

где о" — —, № —-. Здесь предполагается, что о- < гт1, в противном случае компоненты меняются местами.

ОПИСАНИЕ ЭКСПЕРИМЕНТОВ

Для проверки предлагаемого метода были проведены эксперименты по полнотекстовому

распознаванию с использованием микрофонной речевой базы русского языка. Речевая база была разбита на две части. Первая часть длительностью 20 часов была использована для обучения трифонных моделей фонем. В результате обучения было получено 16 тыс. связанных трифонных моделей с общим количеством различных компонент смесей около 4000 тыс. В качестве языковой модели использовалась трёхграммная модель языка. Для декодирования использовался декодер с сетью распознавания, пример которой приведен на рисунке 1. Вторая часть речевой базы длительностью 1 час использовалась для тестирования. Все слова из тестирующей выборки содержались в словаре распознавания.

Было проведено два эксперимента: 1) эксперимент, использующий стандартный декодер; 2) эксперимент использующий алгоритм «Дорожная карта».

21

XXII сессия Российского акустического общества речи Сессия Научного совета по акустике РАН - Акустика речи

Результаты экспериментов приведены в таблице. В первом столбце приводится точность распознавания слов — где Лч, — количество правильно рас-

JЛ

¡V - общее количество слов в тестирующей выборке. Во втором столбце приводится время распознавания, нормированное на длительность тестирующей выборки.

Таблица. Результаты экспериментов

Эксперимент Точность распознавания слов, \ :. \, % Время распознавания, RT

Стандартный декодер 74,1 4,7

«Дорожная карта» 73,6 3,2

ЗАКЛЮЧЕНИЕ

Результаты экспериментов показали, что использование алгоритма «Дорожная карта» позволяет увеличить быстродействие в 1,5 раза. Кроме этого, снижение количества откликов, которые надо рассчитать, позволяет надеяться на дальнейшее увеличение скорости обработки. Для этого в дальнейшем планируется выполнить дополнительную оптимизацию алгоритма.

ЛИТЕРАТУРА

1. Рабинер Л. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор 2, февраль 1989 г., ТИИЭР, Т. 77, стр. 86-120.

2. Xuedong Huang, Alex Acero and Hsiao-Wuen Hon Spoken Language Processing, A Guide to Theory, Algorithm and System Development. New Jersey : Prentice Hall Inc., 2001.

3. Young S. J. Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems. 1989 : s.n., CUED Technical Report F INFENG/ TR38 Cambridge University.

4. Odell, J. J. et al. A One Pass Decoder Design for Large Vocabulary Recognition. 1994. Proceedings ARPA Workshop on Human Language Technology. pp. 405410. Merrill Lynch Conference Centre.

5. PoveyD. and WoodlandP.C. Frame discrimination training of HMMs for large vocabulary speech recognition. Cambridge university engineering department. Cambridge : s.n., 2000. Technical report.

22

МЕТОД ПОВЫШЕНИЯ СКОРОСТИ РАБОТЫ ДЕКОДЕРА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х.

Текст научной работы на тему «МЕТОД ПОВЫШЕНИЯ СКОРОСТИ РАБОТЫ ДЕКОДЕРА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ»