Нейронные сети в системах распознавания речи
Гапочкин Артём Владимирович, Северо-Кавказский федеральный университет,
г. Ставрополь
E-mail: [email protected]
Аннотация. Данная статья посвящена вопросам распознавания речи при помощи нейросетевых технологий. Рассмотрены основные виды нейронных сетей для распознавания речи. Затрагиваются аспекты выбора оптимальной структуры сети и увеличение быстродействия распознавания речи.
Ключевые слова: распознавание речи, нейронные сети, нейросетевые технологии.
Задача распознавания речи в последнее время заняла одно из важных мест в системах распознавания. Существующие системы на данный момент еще далеки от совершенства: ограниченный объем словаря, высокий процент ошибок, настройки на конкретного диктора - вот далеко не полный список проблем, которые предстоит решить.
Хорошо известно, что речь человека характеризуется высокой степе-нью изменчивости. Это обусловлено несколькими причинами [1]. Во-первых, даже для одного и того же говорящего, реализации одних и тех же акустических единиц будут отличаться по своему спектральному составу и длительности произношения. Это может быть связано с измене-ниями эмоционального состояния человека, условий, в которых он находится. Во-вторых, наличие коартикуляцион-ных эффектов приводит к тому, что произношение слов и фонем сильно зависит от их контекста. В-третьих, к изменениям в речевом сигнале приводят помехи различного характера. Принимая во внимание все эти факторы, и учитывая ряд других ограничений, следует отметить, что для высококачественного распознавания речи в реальном времени требуются вычислительные средства с высоким быстродействием. Одним из способов снижения этого требования является распараллеливание вычислений, которое естественным образом достигается при использовании искусственных НС, реализованных на нейрокомпьютерах.
SCIENCE TIME
Рассмотрим простейшую схему распознавания отдельно произносимых слов речи (рисунок 1) [1].
Рис. 1 Схема распознавания отдельно произносимых слов речи
Процесс распознавания в этом случае можно разделить на три этапа. На первом этапе акустический препроцессор преобразует входной речевой сигнал в последовательность векторов признаков или акустических векторов, извлекаемых через фиксированные промежутки времени. Как правило, эти векторы содержат спектральные или кепстральные коэффициенты, характеризующие короткие отрезки речевого сигнала.
На втором этапе векторы сравниваются с эталонами, содержащимися в моделях слов, и вычисляются их локальные метрики или меры соответствия (в общем случае сравниваются речевые сегменты, представленные несколькими векторами признаков). На третьем этапе эти метрики используются для временного выравнивания последовательностей векторов признаков с последовательностями эталонов, образующими модели слов, и вычисляются меры соответствия для слов. Временное выравнивание используется для компенсации изменений в скорости произнесения.
После выполнения всех этих операций распознаватель выбирает слово, для которого мера соответствия максимальна. При распознавании слитной речи локальные метрики полученные на втором этапе вычислений, используются для временного выравнивания и определения мер соответствия для отдельных предложений или высказываний.
В схеме распознавания, изображенной на рис.1, НС наиболее успешно используются на второй стадии вычислений при расчете локальных метрик [2]. Для статистических распознавателей с непрерывным наблюдением данные метрики являются монотонными функциями функций правдоподобия векторов признаков.
Распознаватели речи с дискретным наблюдением сначала выполняют векторное квантование и присваивают каждому вектору признаков определенный символ из кодовой книги. Затем на основе этих символов с помощью специальных таблиц, содержащих вероятности наблюдения символов для каждого эталонного вектора, вычисляются локальные метрики. Такие вычисления могут быть выполнены однослойными перцептронами (рисунок 2), состоящими из линейных узлов, число которых равно числу эталонов. Число входов такого перцеп-трона должно быть равным числу возможных символов.
Рис. 2 Однослойный перцептрон
Векторное квантование может быть выполнено с помощью сети, подобной карте признаков Кохонена (рисунок 3). Такая сеть представляет собой двумерный массив узлов кодовой книги, содержащий по одному узлу на каждый возможный символ. Каждый узел вычисляет евклидово расстояние между входным вектором сети и соответствующим эталоном, представленным весами узла, после чего выбирается узел с наименьшим евклидовым расстоянием. Веса дан-
SCIENCE TIME
ной сети вычисляются с помощью алгоритма Кохонена, его модификаций [ 1] или с помощью любого другого традиционного алгоритма векторного квантования, использующего в качестве метрики евклидово расстояние (например, с помощью алгоритма к-средних) [1, 2].
входные выходные
нейроны нейроны
Рис. 3 Нейронная сеть Кохонена
Многослойные нейронные сети (рисунок 4) также могут быть использованы для снижения размерности векторов признаков, извлекаемых препроцессором на начальном этапе распознавания. Такая НС имеет столько же выходов, сколько и входов, и один или более слоев скрытых узлов. При обучении НС ее веса подбираются так, чтобы она могла воспроизводить на выходе любой входной вектор через небольшой слой скрытых узлов. Выходы этих узлов после обучения сети могут быть использованы в качестве входных векторов меньшей размерности для дальнейшей обработки и распознавания речи [4].
В случае использоваться НС для классификации статических образов фонем, слогов и небольших словарей изолированных слов в качестве входного образа может быть выбран вектор признаков, характеризующий стационарный участок ее реализации.
Рис. 4 Структура многослойной нейронной сети для распознавания речи
Особый интерес вызывают динамические нейросетевые классификаторы, разработанные специально для распознавания речи и включающие в свой состав короткие временные задержки и узлы, выполняющие временное интегрирование, или рекуррентные связи. Обычно такие классификаторы мало чувствительны к небольшим временным сдвигам обучающих и контрольных выборок и, следовательно, не требуют для высококачественной работы точной сегментации речевых данных. Использование динамических сетей при распознавании речи позволяет преодолеть основные недостатки, присущие статическим сетям, и, как показывают экспериментальные исследования, приводит к превосходному качеству распознавания для акустически схожих слов, согласных и гласных [1,6].
Нейронная сеть с временными задержками (НСВЗ) представляет собой многослойный перцептрон, узлы которого модифицированы введением временных задержек. Узел, имеющий N задержек т, 2т,.. .,N1 , показан на рис. 5.
Рис. 5 Схема узла нейронной сети с задержками
Он суммирует взятые в N+1 последовательных моментов времени I своих входов, умноженных на соответствующие весовые коэффициенты, вычитает порог и вычисляет нелинейную функцию Б полученного результата.
Архитектура трехслойной НСВЗ, предложенной для распознавания трех фонем (или трех классов фонем), показана на рис. 6 (на нем показаны связи только для одного выходного узла).[6]
На рис.6 показано, что обработка сетью входной последовательности акустических векторов эквивалентна прохождению окон временных задержек над образами узлов нижнего уровня. На самом нижнем уровне эти образы состоят из сенсорного входа, т е акустических векторов Узлы скрытых слоев сети представляют собой движущиеся детекторы признаков и способны обнаруживать требуемые образы в любом месте входных последовательностей. Благодаря тому что выходные узлы имеют равные веса связей со вторым слоем, любые моменты времени для таких детекторов являются равноправными. Это делает сеть инвариантной к временным сдвигам обучающих и контрольных образцов фонем (для случая, когда эти сдвиги не столь велики, чтобы важные ключевые признаки оказывались за пределами входной последовательности сети). Простая структура делает НСВЗ подходящей для стандартизованной СБИС-реализации с загружаемыми извне весами [5].
«
SCIENCE TIME
Рис. 6 Архитектура нейронной сети с временными задержками
Обзор нейросетевых структур, предназначенных для выполнения других функций при распознавании речи можно найти и в другой литературе [3].
В данной статье мы рассмотрели возможности использования различных структур нейронных сетей для распознавания речи. Можно сделать вывод, что нейросетевые методы позволяют повысить скорость распознавания за счет распараллеливания вычислений. Применение многослойных нейронных сетей позволит решить проблему увеличения количества синаптических связей между нейронами, затрат памяти, времени на обучение и функционирование сети при расширении словаря распознаваемых слов. Благодаря этому система распознавания речи может работать в реальном масштабе времени.
Литература:
1. Бовбель Е И , Паршин В В Нейронные сети в системах автоматического распознавания речи - Зарубежная радиоэлектроника Успехи современной радиоэлектроники, 1998, №4, с 49-65.
2. Lippman R P , Review of neural networks for speech recognition, Neural Computation, 1991, vol 1, no 1, p 1 38.
3. Lippman R P, An Introduction to Computing with Neural Nets, IEEE ASSP Magazine, Vol 4, No 2, Apr 1987, pp 4-22.
SCIENCE TIME
4. Юрков П.Ю., Федоров 4. В.М., Бабенко Л.К. Распознавание гласных фонем с помощью нейронных сетей. // Тезисы доклада Всероссийского семинара «Нейроинформатика и ее приложения». - Красноярск, 1999.
5. Richard M D , Lippman R P , Neural network classifiers estimate Bayesian dis cnminant function, Neural Computation Concepts and Theory, 1991, vol 3, pp 461-
6. С. Хайкин. Нейронные сети: полный курс, 2-е изд., испр.: Пер. с англ./ Саймон Хайкин.- М.: ООО «И. Д. Вильямс», 2006. - 1104 с.: ил. - Парал. тит. англ.
483.