Научная статья на тему 'Распознавание слитной речи с использованием рандомизированного алгоритма стохастической аппроксимации'

Распознавание слитной речи с использованием рандомизированного алгоритма стохастической аппроксимации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
951
156
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / СТОХАСТИЧЕСКАЯ ОПТИМИЗАЦИЯ / ОДНОВРЕМЕННОЕ ВОЗМУЩЕНИЕ / CONTINUOUS SPEECH RECOGNITION / SROCHASTIC OPTIMIZATION / SIMULTANEOUS PERTURBATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шалимов Дмитрий Сергеевич

Описан способ распознавания слитной речи, использующий рандомизированный алгоритм стохастической аппроксимации. Способ опирается на методологию распознавания звука на основе кепстральных коэффициентов тоновой частоты. Эффективность способа демонстрируется примерами. Библиогр. 12 назв. Ил. 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шалимов Дмитрий Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Continuous speech recognition using simultaneous perturbation stochastic approximation algorithm

Problems of speech recognition are still important today. Many of modern methods which are used to solve this problem are computationally resource-intensive. The capacity of such resources is often limited. For many algorithms it is impossible to use it in portable devices. This makes researches find more effective methods. This paper represents the usage of the new simultaneous perturbation stochastic approximation algorithm (SPSA) for solving the speech recognition problem. Due to SPSA's simplicity and small number of operations per each iteration, this algorithm can be used as an alternative method for real time speech recognition. The noise robust speech recognition method which is based on mel-frequency cepstral coefficients (MFCC) is briefly described. Each sound-wave that entered the recognition system includes some noise. In case of noisy measurements of loss function SPSA algorithm keeps reliable estimations under almost arbitrary noise. It is very important to the speech recognition problem where the noise often represents the phase or spectrum shifts of a signal, or external environment, or recording device settings, etc. SPSA algorithm is based on trial simultaneous perturbations which provide appropriate estimations under almost arbitrary noise. The main characteristic of SPSA algorithm is that only two measurements of function to approximate loss function gradient are needed for any dimension of an unknown feature vector. Based on this characteristic it is convenient to use SPSA algorithm in a speech recognition problem where feature vectors of large dimensions are used. It is simple to use this kind of algorithm in optimization problems with the large number of variables. In that way we have an opportunity to operate with many words at once. Moreover its realization is simple for understanding and embedding in electronic devices. Effectiveness of proposed method is demonstrated in the end of the paper.

Текст научной работы на тему «Распознавание слитной речи с использованием рандомизированного алгоритма стохастической аппроксимации»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 10. 2009. Вып. 3

УДК 517.977.58 Д. С. Шалымов

РАСПОЗНАВАНИЕ СЛИТНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ РАНДОМИЗИРОВАННОГО АЛГОРИТМА СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ

1. Введение. Несмотря на то, что задачей распознавания речи занимаются уже более 40 лет, данная проблема остается актуальной. Большинство современных методов, используемых для ее решения, требуют больших вычислительных ресурсов, объем которых часто бывает ограничен. Невозможность широкого применения многих алгоритмов сегодня, например, в мобильных устройствах заставляет исследователей искать более эффективные методы. За счет своей простоты и небольшого количества операций на каждой итерации рассматриваемый рандомизированный алгоритм стохастической аппроксимации (РАСА) [1] может быть предложен как альтернатива (или дополнение) существующим подходам для распознавания речи в реальном времени. В частности, РАСА может быть использован в моделях нейронных сетей, которые часто применяются в задачах распознавания изображений и речи. Алгоритм основан на использовании пробных одновременных возмущений, которые являются искусственными воздействиями с заранее определенными статистическими свойствами, обеспечивающими состоятельность оценок алгоритма при почти произвольных помехах [2]. Под почти произвольными помехами подразумеваются любые помехи, не обязательно гауссовы, ограниченные по абсолютной величине. Существенная особенность алгоритма заключается в том, что для аппроксимации градиента функции потерь требуется только два измерения независимо от размерности оперируемых величин. Эта особенность делает рассматриваемый алгоритм удобным для применения в задаче распознавания звука, где используются вектора свойств сигнала больших размерностей, а также обеспечивает относительную легкость представления алгоритма, существенно уменьшая затраты на решение. Появляется возможность работы с большим количеством слов. В случае зашумленных измерений функции потерь (а звуковая волна, поступающая на вход, всегда содержит в себе шум) алгоритм сохраняет состоятельность доставляемых оценок. В задаче распознавания речи такими помехами могут быть фазовые и спектральные сдвиги звукового сигнала, шум окружающей среды, настройки записывающего устройства и т. д. Кроме того, представление алгоритма достаточно просто для понимания и реализации в виде электронного устройства.

В рамках настоящей работы была произведена серия экспериментов, демонстрирующих эффективность использования РАСА в задаче распознавания речи. Была создана система дикторонезависимого распознавания слитной речи. За счет вышеописанных

Шалымов Дмитрий Сергеевич — аспирант кафедры системного программирования математико-механического факультета Санкт-Петербургского государственного университета. Научный руководитель: проф. О. Н. Граничин. Количество опубликованных работ: 8. Научные направления: стохастическая аппроксимация, рандомизированные алгоритмы, адаптивное и оптимальное управление, распознавание образов, системы реального времени. E-mail: shalydim@mail.ru.

© Д. С. Шалымов, 2009

свойств алгоритма удалось достичь высокой точности распознавания речей, начитанных в зашумленных условиях.

2. Задача распознавания речи. Цифровая система обработки звукового сигнала предполагает представление аналогового речевого сигнала в цифровом виде. В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных временных отсчетов, каждый из которых представляет собой число. Это число характеризует сигнал в точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а следовательно, от разрядности АЦП. Процесс извлечения из сигнала численных значений называется квантованием; процесс разбиения сигнала на отсчеты - дискретизацией; число отсчетов в секунду - частотой дискретизации. Процесс обработки звуковой волны схематически показан на рис. 1.

Рис. 1. Этапы обработки звуковой волны

Аналоговый акустический сигнал, поступающий с микрофона, подвергается с помощью АЦП дискретизации и квантованию. Происходит так называемая реализация слова, т. е. цифровая запись произнесения слова (звука) в виде последовательности отсчетов звукового сигнала в к. Реализация слова (звука) в процессе цифровой обработки разбивается на последовательность кадров X^. Кадром X (длины N) назовем последовательность отсчетов звукового сигнала в1 ,в2,..., в N. Длина кадра фиксирована во времени. Например, при N = 100 и частоте дискретизации 8000 Гц она соответствует длительности в 12.5 мс. Кадры часто смещают друг относительно друга для того, чтобы не происходило потери информации на границе кадров. Шаг смещения кадра - количество звуковых отсчетов между началами следующих друг за другом кадров. Шаг смещения меньший, чем N (длина кадра), означает, что кадры идут «внахлест».

Далее в целом ряде задач, таких как распознавание речи или идентификация личности, каждому кадру сопоставляются некоторые данные, характеризующие звук наилучшим образом. Такие данные формируют вектор свойств (или вектор признаков). С математической точки зрения, это может быть как вектор из пространства Ям, так и набор функций или одна функция.

В случае, когда необходимо распознать слитную речь, ее нужно разбить на отдельные слова. Как правило, это осуществляется за счет эмпирического порогового значения интенсивности сигнала, благодаря которому определяются начало и конец слова. Задачей системы является отождествление каждого слова с заранее определенным классом.

К сожалению, существует целое множество различных факторов, которые могут оказывать негативное влияние на точность распознающей системы - настроение и состояние говорящего, шум окружающей среды, скорость произнесения фраз и т. д.

Распознающая система является независимой от диктора, если она распознает слово независимо от того, кто его произносит. На практике реализовать такую систему сложно по той причине, что звуковые сигналы сильно зависят от громкости, тембра голоса, состояния и настроения диктора. Для извлечения информации из этих сигналов нередко используют фильтры тоновых частот (мел-скейл фильтры), которые усредняют спектральные составляющие в определенных диапазонах частот, тем самым делая сигнал менее зависимым от диктора. Данные фильтры являются основой технологии MFCC (Mel-Frequency Cepstral Coefficients) [3], которая применяется в рассматриваемой системе распознавания.

Более широкое распространение в задачах распознавания речи получили коэффициенты линейного предсказания LPC (Linear Predictive Coefficients) [4]. Однако они настроены для более качественной обработки речи и потому требуют больших вычислительных затрат. MFCC являются эффективными в системах распознавания речи [5] при меньших вычислительных затратах, что служит важным фактором при реализации в виде электронного устройства.

3. Обработка речевого сигнала. Предварительная фильтрация. Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания. Часто низкочастотная фильтрация осуществляется на аппаратном уровне, хотя существуют различные математические методы, которые успешно применяются в задачах работы со звуком. Известно, что наиболее информативные частоты человеческого голоса сосредоточены в интервале 100-2000 кГц, поэтому при решении задач распознавания речи уже на начальном этапе в спектрограмме оставляют только гармоники, частоты которых попадают в такой интервал.

Нарезка сигнала перекрывающимися сегментами. Для того чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнить преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка, поскольку он составляется из кепстральных коэффициентов каждого сегмента в отдельности. Кепстральными коэффициентами называют набор чисел, полученных после спектрального анализа участка звукового сигнала. Обычно выбирается длина участка (сегмента), соответствующая временному интервалу в 20-30 мс.

Обработка сигнала в окне. Цель этого этапа обработки - снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал s(n) на оконную функцию w(n):

x(n) = s(n) х w(n).

В качестве функции w(n) часто используется окно Хэмминга, которое задается следующей формулой:

Го.54 - 0.46 cosi^), 0 < п < N,

w(n) = < . N 1

10, otherwise.

Извлечение векторов свойств. Каждый входной звуковой сигнал представляется в виде специального вектора свойств (или вектора признаков), определенным образом характеризующего сигнал. Есть довольно много методов для формирования вектора свойств. В рассматриваемой далее модели используется классический подход кепстральных коэффициентов тональной частоты (MFCC). Рассмотрим основные его этапы.

1. Входной сигнал разбивается на сегменты, к которым применяется функция окна Хемминга и фразового выделения.

2. Pre-emphasis - предварительное выделение фразы (или акцентирование) происходит за счет фильтрации звукового сигнала с помощью FIR (finite impulse response) фильтра. Этот шаг вызван необходимостью спектрального сглаживания сигнала, который становится менее восприимчивым к различным шумам, возникающим в процессе обработки.

3. Далее изучают спектрограмму сигнала. Все множество присутствующих в спектрограмме частот разделяется на пронумерованные интервалы, каждому из которых определяется свой диапазон. Для каждого такого интервала подсчитывается среднее значение интенсивности сигнала в выделенном диапазоне и строится диаграмма, где ось абсцисс состоит из номеров интервалов, а ось ординат - из «усиленных» амплитуд (значения амплитуд возводятся в квадрат, чтобы не было отрицательных величин при дальнейшей операции логарифмирования). Этот процесс называется мел-скейл фильтрацией.

4. Затем амплитуды сигнала сжимаются с помощью применения логарифма, поскольку человеческое ухо воспринимает громкость сигналов по логарифмической шкале, а вектора свойств получают на основе человеческого восприятия звука.

5. Заключительным шагом является применение к спектру обратного преобразования Фурье. Его результат - выделение кепстральных коэффициентов, которые формируют вектор свойств данного сегмента.

Кепстральные коэффициенты математически могут быть описаны следующим образом:

к

cn = ^^(log S(k)) exp(ikn),

fc=i

где S(k) - усредненный спектр сигнала усиленной интенсивности, характерный для k-го частотного интервала (бенда) в мел-скейл фильтре; K - общее количество интервалов, на которые разбивается спектр.

4. Задача самообучения. Пусть имеется некоторая классифицирующая система, которая в состоянии классифицировать любой входной сигнал (стимул) x, относя его к какому-либо определенному множеству. Система, дополненная способом изменения параметров, может подгонять свою классификацию к некоторой требуемой и, тем самым, демонстрировать свойство обучаемости или адаптации. Такая подгонка требует конкретной дополнительной информации о классификации. Обычно данная информация поступает с обучающей последовательностью xi,Х2,...,xn, состоящей из классифицированных требуемым образом входных сигналов. Уточнение характера данной

информации приводит к разным постановкам задачи обучения. Процесс подбора параметров с помощью обучающей последовательности называется процессом обучения.

После его окончания система определяет множества, которые принимаются в качестве требуемого разбиения. Они могут не совпадать с реальным разбиением. Это отличие обусловливает качество работы обученной системы. Если процедуры построения оценок в задачах обучения опираются на использование при обучении указаний учителя о классификации обучающей последовательности, то их называют обучением с учителем. Возможна похожая постановка задачи обучения, в которой указания учителя не используются. Тогда говорят о задаче самообучения, а сам процесс обучения сводится к получению последовательности оценок, минимизирующих функционал специального вида [6].

5. Автоматическая классификация входных сигналов. С содержательной точки зрения, смысл автоматической классификации состоит в построении правила, сопоставляющего каждой точке множества X некоторый образ (класс). Подразумевается, что сопоставленные одному и тому же образу точки обладают некоторым общим свойством, которое и порождает этот образ. Например, таким свойством может быть близость расположения точек к некоторому «центру». Тогда понятие образа (класса) связано с обычным представлением о компактном расположении точек, принадлежащих тому или иному образу (классу).

Всякий способ классификации связан с потерями, которые обычно оцениваются с помощью штрафных функций (стоимости) ^ (х, п), к = 1, 2,..., I, п - набор векторов, характеризующий центры классов.

В типичных случаях, когда X - вещественное векторное пространство, значения штрафных функций цк (х,п) возрастают при удалении х от центра соответствующего образа (класса). Геометрический смысл задачи автоматической классификации заключается в следующем. Пусть X - вещественное векторное пространство. Допустим, что в системе всего I классов: п = (О1, в2,..., в1) и штрафные функции имеют похожий друг на друга вид

дк (х,п) = Ух - вк У2.

Рассмотрим разбиение множества X на I классов X 1(п),X1(п),..., X 1(п) по правилу: к множеству Xк(п) относятся все точки х, которые находятся к центру вк ближе, чем к любому другому. Для однозначности считаем, что в случае равенства расстояний до нескольких центров точка относится к классу, соответствующему центру с меньшим номером. Интеграл

I Ух - вк\\2, к = 1, 2,..., I, хк(п)

определяет рассеяние точек в множестве Xк(п). Вычислим функционал среднего риска

Р(п) = Е I Ух - вк\\2Р(3,х).

к=1Хк(п)

Задача автоматической классификации состоит в выявлении набора центров {вк, к = 1, 2,..., I}, при которых суммарное рассеивание минимально. Заметим, что при перестановке местами векторов внутри набора {вк, к = 1, 2,..., 1} значение полученного выше функционала среднего риска не изменяется. А следовательно, если рассматриваемая задача имеет решение, то оно не обязательно должно быть единственным.

Задача самообучения тесно связана с задачей автоматической классификации и является обобщением последней на случай неизвестного распределения, определяющего статистику показа классифицируемых сигналов. Решение задачи самообучения осложняется тем, что на практике функции дк(•, •), к = 1, 2,..., I, не всегда заданы аналитически, но их значения доступны измерению (может быть с помехами ук):

ук(х, п) = дк(х,п) + ук, к =1, 2,..., I.

Если функционал Г (п) дифференцируем, то искомый набор центров п* должен удовлетворять уравнению ЧГ (п*) = 0. Но при решении рассматриваемой задачи нельзя воспользоваться традиционными градиентными методами, так как из его вида понятно, что он не везде дифференцируем, и, кроме того, не всегда возможно прямое вычисление ЧГ (п).

6. Алгоритмы стохастической аппроксимации. В обобщенной форме они могут быть записаны следующим образом:

1Пк+1 =7Пк~ акЯк^к),

где дк{г\к) - оценка градиента д(г/) = дР/дт] на итерации г]к, полученной на основе предыдущих измерений функции. При необходимых условиях данные алгоритмы сходятся «почти наверняка» к оптимальному значению [7].

Существенной частью алгоритмов является аппроксимация градиента дк(г]к). Для классического алгоритма СА (конечно-разностный алгоритм или процедура Кифера-Вольфовица) любая компонента вектора г]к возмущается по отдельности на каждом шаге и производятся соответствующие измерения функции у(^) для оценки компоненты вектора градиента функции.

Таким образом, г-тая компонента дк(г]к) для конечно-разностной аппроксимации задается так:

- /- ч _ У{Ук+скег) - У (Л к - ск?н) дкА'Пк) — ^ 1

где вг обозначает вектор, у которого на г-м месте стоит единица, а на всех остальных нули; Ск - небольшое положительное число, которое, как правило, убывает с ростом к.

В алгоритме РАСА все компоненты вектора г]к возмущаются одновременно, г-тая компонента оценки градиента

9ы(щ) =

у{г)к + скАк) - у(г)к - скАк)

2скД

кг

здесь Д - определенный пользователем «почти произвольный» вектор, удовлетворяющий условиям, описанным в [8].

Заметим, что необходимое количество измерений целевой функции в алгоритме конечно-разностной СА увеличивается с ростом размерности пространства, в то время как в РАСА требуются только два измерения независимо от размерности. Это обеспечивает большой выигрыш в вычислительной сложности относительно классических подходов. При этом доказано, что при выполнении определенных условий РАСА и конечно-разностный алгоритм СА обеспечивают одинаковую точность за одно и то же количество итераций, хотя РАСА требуется в М (где М - размерность пространства) раз меньше измерений функции.

7. Пробное возмущение и алгоритм оценивания. Пусть распределение вероятностей неизвестно, но известна обучающая последовательность Х1 ,Х2,...,хп,

им порожденная. С помощью РАСА можно построить последовательности оценок г]п набора п*, минимизирующего функционал среднего риска.

РАСА основан на использовании наблюдаемой последовательности серии случайных независимых друг от друга векторов Ап € Нт, п = 1, 2,..., называемых в дальнейшем пробным одновременным возмущением и составленных из независимых бернулли-евских, равных ±1, случайных величин с взаимно независимыми компонентами [1]. Опишем способ формирования последовательности оценок г]п оптимального набора векторов. Зафиксируем некоторый начальный набор гу0 € Нтх1 и выберем последовательности положительных чисел {ап} и {вп}, стремящиеся к нулю. В [1] предложен алгоритм

(г>п = ±/ЗпАп/Т(хп,г]п_1),

\??п = Чп-! ~ г}п_{) А„ч]п_1),

в котором .Т1*(хп,г]п) - /-мерный вектор, составленный из нулей и одной единицы, отвечающей координате с номером к, когда хп располагается ближе всего к множеству Хк(г]п); У(ж„,?т^) = С^(хп,г]п) + У^1 - /-мерные векторы, составленные из измеренных с помехами в соответствующих точках значений функций потерь; Уп± - соответствующие вектора из ошибок наблюдений.

Алгоритм сходится к оптимальному набору центров классов п* при определенных условиях. Доказательство этого факта, а также набор необходимых условий можно найти в статье [1].

8. Практическое применение. На изложенных выше принципах удалось создать дикторонезависимую систему распознавания слитной речи. В качестве средства реализации была выбрана среда МаШЬ 7.0.1. Система была апробирована как на искусственных, так и на реальных данных.

Будем считать, что речь, поступающая на вход в систему распознавания, содержит всего I различных слов. Если I неизвестно заранее, для оценки количества различных слов в речи могут быть использованы алгоритмы устойчивой кластеризации, например [9].

При распознавании речь разбивается на отдельные слова, которые сперва обучают систему, а затем сами же распознаются. Таким образом, система становится самообучающейся. Разбиение по словам осуществляется на основе средней интенсивности сигнала исходя из предположения, что пауза между идущими друг за другом словами составляет не менее 200 мс. Распознавание может быть осуществлено на основе заранее известной статистики вхождения слов. По количеству элементов в классе определяется слово, которому принадлежит этот класс. В случае, когда система выделила классы с равным количеством элементов, может быть потребована информация о том, к какому именно слову отнести конкретный класс.

Для выделения векторов свойств применялась технология MFCC. Речь разбивалась на отдельные слова, далее сигнал каждого слова разбивался на перекрывающиеся фреймы в 30 мс по длительности. Длина фрейма в отсчетах зависит от частоты дискретизации. Например, при частоте 44 100 Гц она составит N = 1320, а при 16 000 Гц всего 480. Использовалось перекрытие фреймов на половину длины (сдвиг на N/2). Для каждого кадра был выделен вектор свойств, состоящий из 24 координат. Общий вектор свойств для слова формировался из векторов свойств всех его кадров: все вектора записывались в одну строку.

Длина слов во входных данных может быть различная. Соответственно размерность векторов свойств каждого слова может получиться своя. Чтобы этого избежать, производилось выравнивание по времени звуковых сигналов каждого слова. Размерность фазового пространства М составляла 2800-8256 в зависимости от частоты дискретизации, а также от длины слов, содержащихся в речи.

Вектора свойств звукового сигнала представляются как точки в многомерном евклидовом пространстве и поступают на вход РАСА, который определяет центры I классов, соответствующие различным словам. Координаты центров являются векторами свойств слов-шаблонов, с которыми сравниваются входные сигналы. Слово отождествляется с конкретным классом мерой близости вектора свойств его сигнала к центру класса. Рассматриваемый алгоритм используется для формирования эталонных слов или центров классов в системе. Для распознавания слов речи применяется традиционный метод сравнения с эталонами с последующим нахождением минимального расстояния до них.

Для обеспечения гарантированной сходимости алгоритма при выбранной штрафной функции д(х,в) = \\х — в\\2 необходимо, чтобы центры классов находились на максимальном расстоянии друг от друга. В качестве первоначальных центров классов в РАСА можно выбрать любые точки пространства Ям, однако при практическом применении это существенно сказывается на эффективности алгоритма. В качестве таких центров были взяты вектора свойств первых слов распознаваемой речи, поскольку в данном случае велика вероятность того, что слова не будут повторяться.

Рис. 2. Сходимость РАСА алгоритма к центру одного класса

Скорость сходимости алгоритма и сходимость его в целом на практике во многом определяются выбором последовательностей {аП} и {вП}, участвующих в работе алгоритма. Важную роль играет также пробное одновременное возмущение, в качестве которого не обязательно брать бернуллиевские ±1 случайные величины. Главное, они должны быть конечны и симметрично распределены. Из эмпирических соображений в качестве последовательности {ап} была взята последовательность 3/п, а как

{/?„} взята 1/Vл/n. Роль пробного одновременного возмущения играли случайные величины, равные ±1/30.

На рис. 2 показана сходимость алгоритма для одного слова. Поскольку размерность пространства велика, на рисунке изображены расстояния D между входным сигналом с номером n и аппроксимированным в ходе работы РАСА алгоритма центром класса. Всего в систему поступило 100 сигналов, которые определили вектор свойств эталонного слова, соответствующего центру класса при n = 100.

В ходе исследований была произведена серия экспериментов, где оценивалась эффективность предлагаемого алгоритма в сравнении с наиболее известными алгоритмами кластеризации. Кластеризацией является разбиение множества данных на группы по схожим признакам. Алгоритмы кластеризации определяют кластеры и их центры. Задача распознавания речи после разбиения на отдельные слова в рассматриваемом случае может быть интерпретирована как задача кластеризации. Несмотря на то, что эти алгоритмы призваны решать одну и ту же задачу, принцип их работы различен.

Алгоритм K-Means [10] на каждой итерации перевычисляет центр масс для каждого кластера, после чего минимизируется среднеквадратичное отклонение от вычисленных центров. Является наиболее популярным методом кластеризации.

В алгоритме Fuzzy C-Means [11] считается, что каждая точка имеет степень принадлежности к конкретному кластеру. Так, например, степень принадлежности точки на краю кластера меньше, чем в центре кластера. Центр кластера определяется как среднее значение всех элементов с учетом их степеней принадлежности. Этот алгоритм часто используется в задачах распознавания образов.

Expectation Maximization (EM) алгоритм [12] вычисляет вероятности принадлежности элементов определенному кластеру. За конечное разбиение принимается то, которое максимизирует общую вероятность. EM-алгоритм применяется в статистике при оценке параметров вероятностных моделей.

Поскольку речевая запись объемных текстов является трудоемкой задачей, были использованы речевые базы данных, с помощью которых искусственно формировались речи для дальнейшего распознавания. Некоторые базы данных были созданы специально для исследователей и содержат дополнительную информацию, позволяющую вычислить координаты фонем в сигнале. Речь разбивалась на отдельные слова на основе такой информации в тех случаях, когда она была доступна, с помощью скриптового языка Python, позволяющего удобно оперировать как с текстовыми, так и со звуковыми данными.

На основе базы данных русского голоса, использующегося для настройки синтезатора речи Festival Эдинбургского университета, была сформирована речь, содержащая 9074 словарных единиц. Объем словаря - 1512 слов. Запись была произведена с частотой дискретизации 16 000 Гц. Размерность фазового пространства - 8256. Точность работы алгоритмов составила соответственно (в %): РАСА - 95, K-Means - 87, Fuzzy C-Means - 92, EM - 76.

Для исследования свойств системы по дикторонезависимому распознаванию речи применялась база данных TIMIT Acoustic-Phonetic Continuous Speech Corpus, которая содержит записи 630 дикторов восьми диалектов американского английского языка. Была составлена речь из 1610 слов, записанная с частотой дискретизации 16 000 Гц. Были выбраны семь дикторов, говорящих на пяти диалектах и имеющих различное образование. Соответственно в систему поступило семь речей. Усредненная по всем дикторам точность составила (в %): РАСА - 93, K-Means - 89, Fuzzy C-Means - 83, EM - 81.

Без использования речевых баз данных с частотой дискретизации 44 100 Гц была записана слитная речь, состоящая из 1640 слов. В эксперименте участвовали 4 русскоговорящих диктора. Эксперимент был проведен аналогично предыдущему. Точность распознавания при этом составила в среднем (в %): РАСА - 96, K-Means - 93, Fuzzy C-Means - 95, EM - 82.

Далее этот же эксперимент был повторен, но речевой сигнал перед распознаванием подвергался воздействию искусственных шумов. Теоретически для состоятельности оценок РАСА помехи в сигнале могут быть почти произвольными, в общем случае даже неслучайными, но неизвестными и ограниченными. В данном эксперименте использовались аддитивные гауссовые помехи. Соотношение сигнал / шум составило в среднем 15 Дб. Чем больше данное соотношение, тем менее заметен шум. Были получены следующие результаты (в %): РАСА - 90, K-Means - 78, Fuzzy C-Means - 74, EM - 59.

Как можно заметить, РАСА оказывается эффективным алгоритмом при применении в задаче распознавания речи. В отдельных случаях удается достичь высокой точности распознавания. Качественные показатели особенно заметны при наличии в сигнале посторонних шумов.

9. Заключение. В статье представлен новый подход для решения задачи распознавания речи, основанный на рандомизированном алгоритме стохастической аппроксимации. Оценки, доставляемые алгоритмом, состоятельны при почти произвольных помехах. Также сохраняется работоспособность алгоритма при росте размерности вектора оцениваемых параметров и увеличении количества классов (распознаваемых слов). Указаны причины, почему вычислительная сложность РАСА на порядок меньше, чем в классических подходах стохастической аппроксимации при больших размерностях фазового пространства.

Описаны основные этапы решения задачи. Вектора свойств сигнала получали с помощью метода MFCC. Рассмотрена система дикторонезависимого распознавания слитной речи, состоящей из ограниченного набора слов. При использовании системы для разных данных была достигнута высокая точность распознавания. Произведен сравнительный анализ эффективности РАСА с общеизвестными алгоритмами кластеризации. В ходе дальнейших исследований система может быть усовершенствована для большего количества слов. Также могут быть применены алгоритмы устойчивой кластеризации, благодаря которым определяется количество различных слов в речи.

Литература

1. Граничин О. Н., Измакова О. А. Рандомизированный алгоритм стохастической аппроксимации в задаче самообучения // Автоматика и телемеханика. 2005. № 8. C. 52—63.

2. Граничин О. Н., Поляк Б. Т. Рандомизированные алгоритмы оптимизации и оценивания при почти произвольных помехах. М.: Наука, 2003. 291 с.

3. Gold B., Morgan N. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. New York: Wiley, 1999. 560 p.

4. Rabiner L. R., Juang B. H. Fundamentals of Speech Recognition. New Jersey: Prentice Hall, 1993. 496 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Yoon J. S., Lee G. H. A MFCC-Based CELP Speech Coder for Server-Based Speech Recognition in Network Environments // IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences. 2007. Vol. E90-A. P. 626-632.

6. Фомин В. Н. Рекуррентное оценивание и адаптивная фильтрация. М.: Наука, 1984. 286 с.

7. Kushner H. J., Yin G. G. Stochastic Approximation Algorithms and Applications. New York: Springer-Verlag, 1997. 474 p.

8. Spall J. C. Introduction to Stochastic Search and Optimization. New York: Wiley, 2003. 595 p.

9. Volkovich Z., Barzily Z., Morozensky L. A statistical model of cluster stability // Pattern Recognition. 2008. Vol. 41. P. 2174-2188.

10. Hartigan J. A., Wong M. A. A K-Means Clustering Algorithm // Applied Statistics. 1979. Vol. 28. P. 100-108.

11. Dunn J. C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // J. of Cybernetics. 1973. Vol. 3. P. 32-57.

12. Hogg R., McKean J., Craig A. Introduction to Mathematical Statistics. New Jersey: Prentice Hall, 2005. 576 p.

Статья рекомендована к печати член-кор. РАН, проф. Г. А. Леоновым. Статья принята к печати 5 марта 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.