Научная статья на тему 'Синтез спектрально-временных параметров модули блока распознавания речи в автоматизированной системе управления'

Синтез спектрально-временных параметров модули блока распознавания речи в автоматизированной системе управления Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
83
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЛОК РОЗПіЗНАВАННЯ МОВИ / СИСТЕМА УПРАВЛіННЯ / АВТОМАТИЗАЦіЯ / БЛОК РАСПОЗНАВАНИЯ РЕЧИ / СИСТЕМА УПРАВЛЕНИЯ / АВТОМАТИЗАЦИЯ / SPEECH RECOGNITION UNIT / CONTROL SYSTEM / AUTOMATION

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Карпов О. Н., Савенкова О. А.

Рассмотрен алгоритм сегментно-слогового синтеза спектрально-временных параметров модели блока распознавания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Карпов О. Н., Савенкова О. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Algorithm of segment-syllabic synthesis of time-spectrum parameters for the model of speech recognition block is introduced.

Текст научной работы на тему «Синтез спектрально-временных параметров модули блока распознавания речи в автоматизированной системе управления»

УДК 004.934

О. Н. КАРПОВ, О. А. САВЕНКОВА (ДНУ)

СИНТЕЗ СПЕКТРАЛЬНО-ВРЕМЕННЫХ ПАРАМЕТРОВ МОДЕЛИ БЛОКА РАСПОЗНАВАНИЯ РЕЧИ В АВТОМАТИЗИРОВАННОЙ СИСТЕМЕ УПРАВЛЕНИЯ

Розглянуто алгоритм сегментно-слогового синтезу спектрально-часових парамет^в моделi блока розт-знавання мови.

Рассмотрен алгоритм сегментно-слогового синтеза спектрально-временных параметров модели блока распознавания речи.

Algorithm of segment-syllabic synthesis of time-spectrum parameters for the model of speech recognition block is introduced.

Построение устройств распознавания речи для современных АСУ состоит из следующих основных задач [1; 5]:

- выбор объектов или типов речевых единиц (фонемы, слоги, слова, морфемы, фразы);

- выбор параметров описания речевых единиц и соответствующих методов интерпретации описаний;

- проектирование программных средств реализации описаний выбранных объектов и распознавания;

- встраивание разработанных проектов и программных реализаций в системные среды.

Структурная схема блока распознавания речи в АСУ, которая позволяет решить вышеперечисленные задачи, представлена на рис. 1.

Рис. 1. Структурная схема блока распознавания речи:

РС - речевой сигнал; СО - спектральный образ

Высокий уровень развития вычислительных средств позволяет решать задачи построения систем распознавания речи (СРР), с использованием большого числа параметров и методов, которые ориентированы на детальное изучение структуры речевого сигнала. Однако по прежнему осталась необходимость разрешения противоречивых требований для СРР: обеспечения высокой надежности распознавания для больших словарей объектов, что требует привлечения большого числа параметров (признаков) и, соответственно, большого времени их обработки; выполнение обработки с минимальными временными затратами [1; 2].

Общие схемы анализа и распознавания

Структурная схема блока анализа и обработки РС в существующих системах распознавания содержит следующие дополнительные этапы обработки параметров РС, которые повышают надежность распознавания: блоки выделения полезного сигнала, блоки фильтрации сигнала и его спектра, блоки сегментации РС [1; 4; 5]. На вход блока распознавания поступает сегментированная последовательность параметров РС или спектральный образ (СО). В сегментированной последовательности спектрально-временных параметров (траектории параметров) предъявленного РС сегменты находятся в некоторой зависимости от параметров предшествующих и последующих сегментов, поэтому необходимо рассматривать непрерывные траектории в терминах параметров и в терминах сегментов для решения задачи на этапе распознавания [1; 4]. Блок распознавания РС в зависимости от типов речевых единиц содержит: блоки выбора метрики и критериев сравнения; блоки выбора методов сравнения и стратегии распознавания, обеспечивающую

минимальные затраты времени на поиск наиболее подходящего эталона с максимальной надежностью в заданной системе параметров. Такая конфигурация может быть усовершенствована благодаря введению дополнительного блока аппроксимации траекторий параметров в терминах речевых единиц (РЕ), которая может быть представлена структурной компоновкой крупных речевых единиц (слов, фраз, предложений) из мелких (фонем, слогов) и выбор их наилучшего соответствия некоторой группе сегментов предъявленной реализации на каждом шаге сопоставления. Процесс укрупнения РЕ продолжается до тех пор, пока не будет найдено наилучшее соответствие для всего речевого высказывания по всей совокупности РЕ словаря для всех сегментов речевого высказывания. Наибольшей надежностью обладает пословное распознавание [1; 5]. Для РЕ, поступающих на блок аппроксимации, необходимым условием является следующий факт: РЕ должны иметь такую длину и быть подобраны в таком количестве, чтобы из них можно было бы построить любые другие слова или предложения. Этим требованиям удовлетворяют РЕ слова-слоги, которые содержат два, три символа-фонемы. Задача нахождения наилучшей траектории для предъявленной реализации РС в терминах РЕ обеспечивается перекрытием накладываемых на траекторию параметров РЕ в соответствии с алгоритмом сегментно-слогового синтеза. Процесс перебора РЕ и нахождения наилучшей траектории параметров требует значительных временных затрат. Для решения этой проблемы предлагается введение блока выбора кандидата для распознавания, который использует формализованные эвристики для исследуемой области.

Описание алгоритмов работы блока аппроксимации на основе решения задачи сегментно-слогового синтеза

Задачу сегментно-слогового синтеза (ССС) формулируем согласно [2]. Пусть задан словарь слогов { БЬк } (к = 1... N), для каждого из которых задана эталонная последовательность параметров или траектория параметров Ук = (Ук1, Ук2,..., Уктк ) , где тк - количество точек траектории параметров для к -го слога. Каждый слог БЬк содержит пк символов-

фонем ак (к = 1... N, j = 1... пк). Каждая траектория параметров Ук содержит тк элементов, объединяемых в пк сегментов 8ОТу' для

соответствующих символов-фонем а^ . Пусть

задана входная последовательность параметров X = ( х1, х2,... х^г ), которая сегментирована на

р сегментов-фонем БОХ (I = 1. р), объединенных в М групп-слогов Х{ (I = 1... М). Необходимо последовательность X наилучшим образом поставить в соответствие эталонным последовательностям параметров {Ук }, вычисляя расстояние

й = Х тш (Хг#Ук ), (1)

I

где Х1 , Ук содержат сегменты-фонемы БОХ, БОТук соответственно; # - операция сопоставления осуществляется с помощью динамического программирования. Таким образом, необходимо найти такую эталонную траекторию параметров X *, для которой достигнута наилучшая близость с траекторией параметров X предъявленного речевого сигнала по всей совокупности слогов, для эталонной траектории параметров результат распознавания строится как синтез соответствующих РЕ. В [3] предложен алгоритм поиска вариантов-комбинаций

X* для эталонной траектории параметров с помощью стратегий поиска в глубину и в ширину X* = (У1, У2, ..,У1,. ,УЯ ), где Я - количество слогов траектории параметров X*, соответствует количеству слогов предъявленной реализации.

Предложенный алгоритм синтеза эталонной траектории параметров может быть дополнен новым уровнем обработки траекторий параметров слогов-эталонов, составляющих данную траекторию. Поскольку последовательности спектрально-временных параметров обычно искажены или зашумлены (нестационарный РС приблизительно описывается существующими ортогональными системами функций), то для получения плавно меняющейся функции параметров предлагается построение квадратичной и кубической моделей сплайн-описания траекторий параметров слогов-эталонов для синтеза спектрально-временных параметров на основе функций, которые обеспечивают непрерывную аппроксимацию значений параметров и сглаживание.

Модели сплайн-описания и сплайн-синтеза эталонных траекторий параметров

Задача настройки параметров одной траектории к другой наилучшим образом - задача

минимизации среднеквадратичного приближения модели преобразования с линейными условиями-равенствами, которые обеспечивают требуемую гладкость в точках склейки траекторий параметров слогов-эталонов (полученные эталонные траектории параметров должны быть непрерывны по нулевой и первой производным на всем временном интервале).

Рассмотрим следующую модель сплайн-описания параметров траекторий эталонов Ук (к = 1...Я ), которые входят в синтезированную

траекторию параметров X*:

~ г, N0 < i < Ni, i, Ni < i < N 2,

X* =

Yki, Nk_i < i < Nk

(2)

УЯI, ^1 < ^,

• квадратичная модель преобразования траекторий эталонов имеет следующий вид

Y = ax ■ X2 + a2 ■ X + a3.

где а1, а2, а3 - параметры квадратичной модели преобразования;

• кубическая модель преобразования траекторий эталонов имеет вид

У = а1 • X3 + а2 • X2 + а3 • X + а4,

где а1, а2, а3, а4 - параметры кубической модели преобразования.

Для нахождения неизвестных коэффициентов/параметров моделей решается задача минимизации среднеквадратичного приближения

( N k

а

=1 S

Y _ Y

ki Âki

^ min

(3)

с линейными условиями-равенствами в точках склейки траекторий параметров слогов-эталонов Tj (j = к -1, к = 1.Я ):

а) равенство значений параметров склеиваемых траекторий

Yk (Tj ) = Yk + (Tj );

(4)

б) равенство значений производных функций параметров траекторий в точке склейки

YUTj )=Y;(Tj ).

(5)

Формализация факторов эвристической функции для поиска оптимальных решений сегментно-слогового синтеза

Для нахождения эталонной траектории (ЭТИ) параметров необходимо сопоставить все возможные комбинации траекторий параметров

(ТИ) X, составленные из ТИ имеющихся в словаре слогов-эталонов, с ТИ X, что требует огромных временных затрат. Сокращение рассматриваемых вариантов, а соответственно временной и пространственной сложности, может быть достигнуто благодаря использованию базовых стратегий поиска в глубину и в ширину. Решения, найденные с помощью базовых стратегий, не всегда оптимальны в смысле наилучшей близости, так как при раскрытии узлов в пространстве поиска не используется информация о данной проблемной области [3]. Использование эвристик предполагает: выявление факторов для оценки состояний и степени значимости каждого фактора; определение эвристических оценок для узлов на графе синтеза ЭТИ, определяющих перспективность рассматриваемого узла с точки зрения достижения целевого состояния.

Оценочная функция (ОФ) сводится к виду, в котором формализованы наиболее значимые характеристики сегментно-слогового представления состояния: вложенность слогов, наличие групповых признаков сегментов (тон, шум, пауза), величина отклонения слогов предъявленной реализации и эталонной. Таким образом, для каждого узла n на графе синтеза ЭТИ определяется ОФ вида

f (n) = g (n ) + h(n),

где g (n) - стоимость пути к узлу n, a h(n) -оценка достижения целевого состояния из узла n . ОФ может быть представлена также в виде логической связки предикатов или факторов выбора. Для оценки качества поиска с помощью ОФ вычисляется величина целенаправленности поиска (показывает, в какой мере поиск идет в направлении к цели) P = L/T, где L - длина найденного пути к цели, T - общее число вершин, раскрытых в процессе поиска.

Экспериментальные исследования

Для проведения исследований была модифицирована система распознавания Speach. Ирограмма работает в реальном времени на компьютере типа IBM PC с процессором Intel Celeron 700 МГц. Основные функции, реали-

2

k=l ^ i=Nk_i

зуемые распознающей системой: система акустического ввода и вывода информации (ввод речевого сигнала с микрофона, wav-файлы; воспроизведение РС и визуальное отображение формы РС во временной области; выделение полезного сигнала от шумов окружающей среды; визуальное отображение спектра РС; блоки распознавания: обучение (создание новых словарей эталонов, дополнение существующих словарей); распознавание речевых команд на основе алгоритма ССС; блок принятия решения и оценки решения о распознавании и формирования управляющего сигнала.

Рассмотрим задачу построения эталонной траектории параметров X , которые представлены в виде системы энергетических спектров {}, распределенных по частотным группам, для РС, который поступает на вход системы распознавания, из некоторого множества слогов-эталонов. Для предъявленного РС определены границы сегментов одним из методов сегментации [1]. Множество доступных слогов

включает словари { Е' } (/ = 2, 3, 4), которые состоят из двух-, трех- и четырехсегментных слогов (содержат два, три символа-фонемы) для заданного набора слов. Для построения словарей слогов были предварительно проанализированы слова - цифры от нуля до ста. Для предъявленной траектории параметров X необходимо найти такую синтезированную эталонную траекторию параметров X , для которой расстояние (1) минимально по всей совокупности слогов. Поиск одного из возможных вариантов-комбинаций для X осуществлен на графе синтеза эталонных траекторий параметров с помощью базовых стратегий поиска (поиск в глубину, поиск в ширину) [3] и использованием эвристической функции для выбора очередного кандидата-эталона. Для нахождения оптимального решения для этого варианта-комбинации решена задача настройки параметров траекторий слогов-эталонов относительно параметров соответствующих слогов предъявленной реализации на основе квадратичной и кубической моделей сплайн-описания спектрально-временных траекторий параметров с одним узлом в точке склеивания смежных слогов-эталонов.

Результат синтеза оптимальных траекторий параметров Y_model2 и Y_model3 в одной из частотных полос на основе квадратичной и кубической моделей для слова «адин» из траекторий параметров двух слогов-эталонов «ад» и «ин» представлены на рис. 2, 3.

0,45 -, Е

0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0

X ^_^

//

У \

У V

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

У в

-У тос1е12

Рис. 2. Эталонная траектория параметров на основе квадратичной модели с одним узлом

0,45

Е

0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05

I

*_

//

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

-Х- У в

-У тоСе13

Рис. 3. Эталонная траектория параметров

на основе кубической модели с одним узлом

Была исследована модификация алгоритма для блока аппроксимации траекторий параметров, которая заключается в следующем: в качестве узлов для сплайн-описания и сплайн-синтеза рассматриваются точки сегментации каждого слога и точки склеивания смежных слогов-эталонов. Траектории параметров в каждой частотной полосе между границами сегментации имеют простой вид, что позволяет их аппроксимировать полиномами невысокой степени на каждом таком интервале. На рис. 4, 5 представлены эталонные траектории параметров Y_model2 и Y_model3, построенные на основе квадратичной и кубической моделей с узлами в точках сегментации и в точках склеивания смежных слогов-эталонов.

0

0,45

0,35

0,25

0,15

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,05

1 1 1 : : х- :

1 * 'у.___ 1

V -

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Y s

-Y model2

Рис. 4. Эталонная траектория параметров на основе квадратичной модели с узлами в точках сегментации и в точках склеивания

0,45 E

0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0

I

I

I

i

/ЧХ!

7 1 Tj

f i \

I

!

i 1

v i i

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

-х- Y s

Y_model3

Рис. 5. Эталонная траектория параметров на основе кубической модели с узлами в точках сегментации и в точках склеивания

Анализ экспериментов по распознаванию эталонных траекторий параметров на тестовом наборе речевых образцов показал, что использование модифицированного алгоритма позволяет получить в среднем на 5 % лучшие результаты распознавания, вследствие уменьшения погрешности аппроксимации.

Выводы

Представленный алгоритм для моделирования блока распознавания речи является развитием алгоритма, предложенного в [3], и добавляет новый уровень обработки траекторий параметров слогов-эталонов, позволяющий повысить надежность распознавания. Достоинства предложенных моделей настройки траекторий параметров: модели зависят от малого числа линейных параметров; построение таких моделей основано на применении стандартных быстродействующих алгоритмов. Применение квадратичной и кубической моделей настройки параметров эталонных траекторий позволило увеличить надежность распознавания на 3 % по сравнению с базовым алгоритмом ССС. Использование эвристической функции выбора кандидата-эталона позволило сократить время распознавания в среднем в 10 раз. Полученные результаты свидетельствуют о том, что добавление блока аппроксимации траекторий параметров в общую схему блока распознавания улучшает характеристики системы распознавания речи в целом.

Дальнейшая работа проводится в направлении исследований модифицированного алгоритма для модели 3-го порядка сплайн-описания и сплайн-синтеза эталонных траекторий параметров.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Карпов О. Н. Технология построения устройств распознавания речи: Моногр. - Д.: Изд-во Днеп-ропетр. ун-та, 2001. - 184 с.

2. Карпов О. Н. Некоторые эксперименты по повышению надежности распознавания слов заданного словаря / О. Н. Карпов, О. А. Савенкова // Системные технологии. Вып. 6 (35), - Д., 2004, С. 60-66.

3. Карпов О. Н. Распознавание речи на основе сег-ментно-слогового синтеза в терминах пространства состояний / О. Н. Карпов, О. А. Савенкова // Искусственный интеллект. - 2006. - № 3. -С. 532-536.

4. Kopecek I. Speech recognition and syllable segments. // http://www.fi.muni.cz/~kopecek/

5. Ronzhin A. L. Survey of Russian Recognition Systems. // R. M. Yusupov, I. V. Li, A. B. Leontieva. In Proc. of Int. Conf. SPEC0M'2006, St. Petersburg, 2006, pp. 54-60.

Поступила в редколлегию 29.03.07.

E

0,4

0,3

0,2

0,1

0

i Надоели баннеры? Вы всегда можете отключить рекламу.