Научная статья на тему 'Модель изменчивости произнесения речевых команд'

Модель изменчивости произнесения речевых команд Текст научной статьи по специальности «Математика»

CC BY
70
15
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Крашенинников Виктор Ростиславович, Армер Андрей Игоревич

Исходя из записи одной исходной команды, произнесённой диктором, производится моделирование вариаций этой команды. Различные её варианты имитируются в виде отсчётов вдоль траекторий на изображении, которое предварительно формируется из исходной команды с помощью авторегрессионной модели

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Крашенинников Виктор Ростиславович, Армер Андрей Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модель изменчивости произнесения речевых команд»

л

с!) для слоя иА: I/х = 0 ; £'//4 = >

I

Ей .х.

J_I

е) для слоя и5: ] 'с = т /7 Х], /, = 7 .

>1

Находясь в рамках структуры, описанной в определении 3, мы можем вычислить выход системы следующим образом:

п

У/ = ~---—, 1 = , при

Х'ЧаЛ

Л II- =е« •

7=1

УДК 621.391

Благодаря замкнутому описанию RBF-Fuzzy сеть может быть оптимизирована без использования back propagation алгоритма.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Fuller, R. Hybrid systems. Tutotium. http:// vv vv \ v .abo.fi/'fuller/

2. Zadeh, L. A. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy sets and systems. - 1997. - Vol. 90. -N.2.

3.Ярушкина, H. Г. Нечёткие нейронные сети (Часть 1 ) // Новости ИИ. -2001. -N 2-3.

4. Ярушкина Н. Г. Нечёткие нейронные сети (Часть2) // Новости ИИ. - 2001. - N 4.

Вельмисов Александр Петрович, аспирант кафедры «Информационные системы» УлГТУ Имеет публикации в области генетических алгоритмов, нейронных сетей, нечёткой логики.

А. И. АРМЕР, В. Р. КРАШЕНИННИКОВ

МОДЕЛЬ ИЗМЕНЧИВОСТИ ПРОИЗНЕСЕНИЯ РЕЧЕВЫХ КОМАНД

Исходя из записи одной исходной команды, произнесённой диктором, производится моделирование вариаций этой команды. Различные её варианты имитируются в виде отсчётов вдоль траекторий на изобра-жении, которое предварительно сформируется из исходной команды с помощью авторегрессионной модели.

Одним из основных мешающих факторов при распознавании речи является высокая изменчивость речевых сигналов (РС). В частности, при распознавании речевых команд (РК) путём сравнения ж с эталонами важным фактором, определяющим качество распознавания, является близость РК к соответствующей ей эталонной РК. Однако одна и та же РК, произнесенная одним и тем же диктором в разное время, имеет значительно отличающиеся характеристики, (длину, уровень, тембр и т. д.). Алгоритмы распознавания РК должны быть устойчивыми к таким изменениям, поэтому при разработке и испытаниях алгоритмов требуется большое количество записей одной и той же РК, получение которых требует большого времени. Поэтому в настоящее время ведётся разработка способов описания и имитации вариативности РС. На сегодняшний день существует ряд моделей речеобразования [1], но всё ещё не найдены удовлетворительные методы описания вариативности РС. В данной статье предлагается подход к моделированию вариаций РК, произнесённых дикто-

© А. И. Армер. В Р. Крашенинников, 2004

ром, с использованием авторегрессионной модели Хабиби [2] двумерного изображения.

При рассмотрении различных вариантов произнесения одинаковых РК одним диктором замечено, что они в основном различаются следующими факторами.

Ф1. Нелинейные искажения уровня РС, зависящие от положения ударения в словах, эмоциональной окраски слов и т. д.

Ф2. Искажения тембра, вызванные эмоциональным состоянием диктора и сопутствующими шумами акустической среды, в которой произносится команда.

ФЗ. Нелинейные временные искажения, связанные с различием в длительности произнесения команды в целом и её частей.

Моделирование изменчивости РС является задачей, близкой к задаче моделирования самих РС. Основные отличия заключаются в том, что в большинстве случаев при моделировании РС задача получать разные варианты сигнала в результате применения одной и той же модели отходит на второй план или вообще не рассматривается. Исключение составляют стохастические модели.

В [2] описана авторегрессионная модель вида

Л*ц = >' л'/-1../ + Р хи-1 ~ Р г *м.,-| +

+ сг^(\-г2)(\-р2) д,,

получаемы!! с её помощью процесс хГ{ задан на прямоугольной сетке с размерами

М х /V (/ = 1 ..Л/,} = 1 ..АО, параметр г - коэффициент корреляции между соседними строками; р - коэффициент корреляции между соседними от-

счётами внутри строки; с' дисперсия порождаемого процесса; - независимые одинаково распределённые стандартные случайные величины. Модель (1)-(3) порождает двумерное стационарное марковское поле (изображение).

Применим модель (1)-(3) для получения команд-вариаций РК и проанализируем их акустические свойства. Для этого возьмём в качестве исходной РК,

произнесённую диктором и состоящую из N дискретных по времени отсчётов. Пусть это будет первая строка сетки в модели (1)-(3). Каждая очередная строка формируется с помощью авторегрессии (2)-(3) и рассматривается как очередной вариант исходной РК (рис. 1).

Если воспроизвести смоделированный процесс как акустический сигнал, то оказывается, что на слух варианты команды похожи друг на друга, но имеют различия в тембре и громкости. Изменением параметра ст можно получать различное нелинейное изменение громкости вариантов команд. Выбором закона распределения величин С]} можно получить

случайные искажения различного характера. Кроме того, так как выбором г и р определяется корреляция между соседними строками и соседними отсчётами моделируемых вариантов команды, то от этих параметров зависит сходство смоделированных вариантов РК и исходной РК по корреляционным свойствам. Естественно, что с увеличением номера строки сигнал в нём становится всё менее похожим на исходную РК, вплоть до неузнаваемости. То есть данная модель выполняет своё предназначение только на переходном процессе. Тем не менее удаётся получить несколько приемлемых вариантов произнесения РК различной степени похожести. Для получения большего количества вариантов следует повторить данную процедуру несколько раз - тогда каждый раз из-

за обновляющихся значений д^ будут получаться

разные варианты РК.

Таким образом, факторы Ф1 и Ф2 отличия вариантов РК в некоторой степени воспроизводятся моделью (1). Однако фактор ФЗ нельзя учесть в этой модели с постоянной длиной (количеством отсчётов)

N строки прямоугольной сетки. Кроме того, при моделировании нежелательно увеличение искажений команд-вариаций с ростом номера строки, когда команды-вариации, соответствующие последним строкам сетки, являются намного более искажёнными по сравнению с первыми командами-вариациями, чьи

искажения малы. Для ликвидации этих недостатков предлагается строить команды-вариации вдоль некоторой траектории на полученном изображении (рис. 1). Это возможно, если недостающие элементы изображения, находящиеся между узлами сетки, получать с помощью оптимальной оценки по элементам,

находящимся в соседних узлах [3]. Элемент с

координатами (£,/?) оценивается по значениям (наблюдениям)

жайших узлах (здесь [«] означает целую часть числа)

как

где Ях, - кросс-ковариационная матрица х,г}] и ъ , - автоковариационная матрица наблюдений ъ .

7

1

Т

9п

9

(начальная РК) у

¡1

п

/

\ П\

Ху

*

/

/

к

Хд^-У

/

/

/

у

/

/

/

Рис, 1. Схема моделирования команд-вариаций вдоль траектории на изображении

Пусть координата gn точки траектории, определяющая временное положение отсчёта, задаётся авторегрессионным процессом

а координата кп , определяющая общую интенсивность искажений - процессом

\ = К = Кл + Л-Уп (« =1 -Ю> (2)

где К и Я - константы, у/п , Сп > 0 - независимые

случайные величины. Получим Ж элементов ,

помеченных крестиками на рис.1. В соответствии с (1), они будут определяться как

п

(с - с!?%а - Ьр)х[?т +(Ъ- ар)х

ШМ+1

I

(}-р2)(]-г2)

+

+

(сг - й%Ър - Фш+т + (ар - Ь)хш+т+]}

(1-р2)(1-г2)

Рис. 2. а) Исходная РК «высота», б) смоделированная вариация РК «высота» (1 вариант), в) смоделированная вариация РК «высота» (2 вариант)

а = г(!'\Ъ = г™,* - р*\<1 = /У™, /? = 1 .Ж, (3)

где (•) означает дробную часть числа. Сигнал, получаемый с помощью (3) вдоль траектории (1)-(2) на изображении, порождённом исходной РК, производит варианты этой РК. Но теперь варианты отличаются ещё и нелинейным изменением масштаба по времени,

соответствующим ФЗ, за счёт координаты . Изменение координаты Ип приводит к тому, что отдельные части команды-вариации более близки к исходной РК (когда кп малы), а другие части (при больших ) отличаются от исходной РК значительнее.

Тем самым может имитироваться различная степень изменчивости частей исходной РК.

На рис. 2 (б, в) изображены смоделированные с помощью вариации РК «высота». При визуальном сравнении их с исходной командой (рис. 2 а) можно заметить, помимо случайных искажений амплитуды и формы сигнала, ещё и временные искажения - растяжения и сжатия внутри каждого варианта РК.

Субъективный слуховой анализ показывает, что с помощью предложенной модели можно получить сколько угодно много вариаций исходной РК, соответствующих различным её произнесением одним диктором.

По результатам работы можно сделать следующие выводы:

- по субъективному слуховому восприятию вариации РК, полученные с помощью предложенной модели похожи на реальные вариации РК, произнесённых одним и тем же диктором в разное время;

- многократным применением модели можно получить из одной РК сколь угодно много её вариантов с различной степенью отличий.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кроме того, предложенную модель можно использовать и для получения вариаций других сигналов, например, специфических шумов, музыкальных тонов и т. д.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Рабинер, JI. Р.. Шафер, Р. В. Цифровая обработка речевых сигналов: Пер. с англ./ J1. Р. Рабинер,

Р. В. Шафер. Под ред. М. В. Назарова, Ю. Н. Прохорова. -М.: Радио и связь, 1981.-495 с.

2. Habibi, A. Two-dimensional Bayesian Estimate of Images /In Proc. IEEE, vol. 60. July 1972. pp. 873-883.

3. Крашенинников, B.P. Основы теории обработки изображений / В. Р. Крашенинников. - Ульяновск: УлГТУ, 2003. - 151 с.

Крашенинников Виктор Ростиславович, доктор технических наук, профессор кафедры САПР УлГТУ. Имеет работы в области статистических, методов обработки случайных сигналов и изображений.

Лрмер Андрей Игоревич, аспирант кафедры САПР УлГТУ. Имеет работы в области статистических, методов обработки речевых сигналов.

i Надоели баннеры? Вы всегда можете отключить рекламу.