Научная статья на тему 'ТЕОРЕТИЧЕСКИЕ ОСНОВЫ НЕПРЕРЫВНЫХ САУНДЛЕТОВ ДЛЯ РАСПОЗНАВАНИЯ ВОКАЛЬНЫХ ЗВУКОВ РЕЧИ'

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ НЕПРЕРЫВНЫХ САУНДЛЕТОВ ДЛЯ РАСПОЗНАВАНИЯ ВОКАЛЬНЫХ ЗВУКОВ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
7
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПРЕРЫВНЫЙ САУНДЛЕТ / МАТЕРИНСКИЙ САУНДЛЕТ / ДОЧЕРНИЙ САУНДЛЕТ / САУНДЛЕТНОЕ ОТОБРАЖЕНИЕ / ЭТАЛОННЫЕ ОБРАЗЦЫ ВОКАЛЬНЫХ ЗВУКОВ / МЕТРИЧЕСКИЙ ПОДХОД / CONTINUOUS SOUNDLET / PARENT SOUNDLET / CHILD SOUNDLET / SOUNDLET MAPPING / REFERENCE PATTERNS OF VOCAL SOUNDS / METRIC APPROACH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фёдоров Евгений Евгениевич, Слесорайтите Эгле

В статье изложены теоретические основы непрерывных саундлетов, которые применяются в метрическом подходе к распознаванию вокальных звуков. Предложены материнский и дочерний непрерывные саундлеты и исследованы свойства саундлетных отображений, которые позволяют учитывать структуру квазипериодического сигнала и сопоставлять образцы вокальных звуков речи разной длины. На основе саундлетов и саундлетных отображений разработаны метод создания образцов, метод формирования эталонных образцов и модель распознавания образцов, которые используются в режимах обучения и распознавания интеллектуальной системы.In article theory continuous soundlets which are applied in the metric approach to recognition of vocal sounds are stated. Are offered parent and child continuous soundlets and properties soundlets mapping which allow to consider structure quasi-periodic a signal are investigated and to compare patterns of vocal sounds of speech of different length. On a basis soundlets and soundlets mapping methods of creation of patterns, a method of formation of reference patterns and model of recognition of patterns which are used in modes of training and recognition of intellectual system are developed.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ТЕОРЕТИЧЕСКИЕ ОСНОВЫ НЕПРЕРЫВНЫХ САУНДЛЕТОВ ДЛЯ РАСПОЗНАВАНИЯ ВОКАЛЬНЫХ ЗВУКОВ РЕЧИ»

24

Теоретические основы непрерывных саундлетов для распознавания вокальных звуков речи

Фёдоров Е.Е., доктор технических наук, доцент Слесорайтите Э., старший преподаватель

В статье изложены теоретические основы непрерывных саундлетов, которые применяются в метрическом подходе к распознаванию вокальных звуков. Предложены материнский и дочерний непрерывные саундлеты и исследованы свойства саундлетных отображений, которые позволяют учитывать структуру квазипериодического сигнала и сопоставлять образцы вокальных звуков речи разной длины. На основе саундлетов и саундлетных отображений разработаны метод создания образцов, метод формирования эталонных образцов и модель распознавания образцов, которые используются в режимах обучения и распознавания интеллектуальной системы.

• непрерывный саундлет • материнский саундлет • дочерний саундлет

• саундлетное отображение • эталонные образцы вокальных звуков

• метрический подход

In article theory continuous soundlets which are applied in the metric approach to recognition of vocal sounds are stated. Are offered parent and child continuous soundlets and properties soundlets mapping which allow to consider structure quasi-periodic a signal are investigated and to compare patterns of vocal sounds of speech of different length. On a basis soundlets and soundlets mapping methods of creation of patterns, a method of formation of reference patterns and model of recognition of patterns which are used in modes of training and recognition of intellectual system are developed.

• continuous soundlet • parent soundlet • child soundlet •soundlet mapping

• reference patterns of vocal sounds • the metric approach.

ОБЩАЯ ПОСТАНОВКА ПРОБЛЕМЫ

На сегодняшний день актуальной является разработка специализированных процессоров компьютерных систем предназначенных для распознавания речи человека, синтеза речи и др., и используемых в интеллектуальных компьютерных системах.

В основе данной задачи лежит проблема построения эффективных методов, обеспечивающих высокую скорость обучения модели распознавания, а также высокую вероятность, адекватность и скорость распознавания речевых сигналов.

Фёдоров Е.Е., Слесорайтите Э. Теоретические основы непрерывных саундлетов для распознавания вокальных звуков речи

АНАЛИЗ ИССЛЕДОВАНИЙ

Современные системы распознавания речевых образов используют следующие подходы: логический, метрический, байесовский, нейросетевой, структурный. Существующие методы и модели распознавания речевых образов обычно основаны на скрытых марковских моделях (СММ) [1-3], алгоритме динамического программирования DTW [1-2], и искусственных нейронных сетях [4-6] и обладают следующими недостатками [7]:

• время обучения несколько месяцев;

• хранение большого количества эталонов звуков или слов, а также весовых коэффициентов;

• большое время распознавания;

• вероятность распознавания меньше 95 %;

• наличие сотен тысяч обучающих образцов/

ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ

Целью работы является разработка теоретических основ непрерывных саундлетов и формируемых на их основе саундлетных отображений для метрического подхода к распознаванию вокальных звуков речи.

РЕШЕНИЕ ЗАДАЧ И РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ

Для достижения поставленной цели необходимо:

1. Разработать метод создания образцов вокальных звуков.

2. Создать теоретические основы формирования семейств материнских и дочерних непрерывных саундлетов, характеризующих образцы вокальных звуков.

3. Формализовать саундлетные отображения, действующие между семействами образцов и саундлетов, результатом которых является образец, находящийся в заданном амплитудно-временном окне.

4. Разработать метод формирования эталонных образцов на основе семейства непрерывных саундлетов и саундлетных отображений.

5. Разработать модель метрического распознавания вокальных звуков на основе семейства непрерывных саундлетов и саундлетных отображений и эталонных образцов.

6. Создать критерии оценки эффективности модели.

7. Формализовать условия распознавания вокального звука по эталонным образцам на основе семейства непрерывных саундлетов и саундлетных отображений для оценивания результатов распознавания

8. Разработать логико-формальные правила для оценивания результатов метрического распознавания по модели.

1. МЕТОД СОЗДАНИЯ ОБРАЗЦОВ ВОКАЛЬНЫХ ЗВУКОВ

Образцом вокального звука речи назовем участок вокального звука в речевом сигнале, расположенный между соседними пиковыми значениями амплитуды, длина которого соответствует квазипериоду сигнала. 25

26

При формировании образца в режиме обучения экспертом вводится левая и правая границы T 1, T r вокального звука в сигнале g, а в режиме распознавания автоматически определяется (на основе энергий последовательно идущих участков сигнала равной длины) левая и правая границы t 1, T r вокальной части сигнала g.

После задания или вычисления границ T 1, T r на интервале [T 1, T r ] сигнала g вычисляется функции автокорреляции, с помощью которой определяется длина периода основного тона T FT вокального звука.

Для формирования образца как структурообразующего элемента вокального звука интервал [Tl, Tr ] сигнала g разбивается на участки на основе вычисленной длины периода основного тона T FT согласно следующему правилу:

T0max = arg max g(t) t g [Tl - 05 . TFT ,Tl + 05 , T FT ]

T.max < Tr ^ = T-l ) Л [ T

t e [T i

= arg max g(t)

min + 0.5 • TFT ,Timin + 1.5 • TFT

На основе этого разбиения формируется конечная совокупность образцов, описываемых множеством вещественнозначных ограниченных финитных непрерывных функций (ф г- | г е {!,•••, I}} в виде

Ф. (t) =

0,

g(T min)

g(t),

g(T max)

0,

^ t - (Tmln -At) Л At

Г (Tmax + At) - f

At

t < Tmin -At

t e[Tmin -At,Tmin]

t e[Tmin,TmaX]

t e[Tmax,Tmax + At]

t > Tmax + At

i e {1,..., I}

min г max

Л IIIIII ^ •„ /,\ . ^ Г rrr Illill rr,

A . = min g (t), t e [Ti , Ti

Aimax = max g (t), г e [T.

min ^ max

], i e {1,..., I}, ], i e {1,..., I},

где параметр Аt е (0,1) задан оператором.

На рис.1. представлен пример разбиения звука «о» слова «со» на образцы, при этом Трт = 5.8, т1 = 214,тг = 396, Аt = 1/22050.

Для дальнейшего сопоставления образцов между собой при формировании эталонных образцов и распознавании по ним тестовых образцов необходимо привести их к единообразию (т.е. к единому прямоугольному амплитудно-временному окну, в которое точно вписана только та часть образца, которая находится на компактном носителе). Для этого в статье разрабатываются теоретические основы материнского и дочернего саундлетов.

]

Рис.1. Разбиение звука «о» слова «со» на образцы

2. СОЗДАНИЕ СЕМЕЙСТВА МАТЕРИНСКИХ НЕПРЕРЫВНЫХ САУНДЛЕТОВ

Материнским непрерывным саундлетом образца вокального звука речи назовем образец, сдвинутый по времени и амплитуде в левый нижний угол положительной плоскости.

Материнский непрерывный саундлет образца вокального звука речи представлен в виде вещественнозначной ограниченной финитной непрерывной функции

Га

'г+Дгл

(t) = (G09)(0 =

(ф(Ь0) - d 0)

^ At + b0) - d 0,

У

(ф(Т + b0) - d 0) 0,

(T + At) -1' At

t < -At t g [-At,0] t g[0,T] t g[T,T + At] t > T + At

b 0 - t min d 0 = A min T = Tmax - Tmin A = Amax - Amin где параметр At g (0,1) задан оператором,

G 0 - преобразование, переводящее образец в материнский саундлет, b 0, d 0 - параметры сдвига функции ф по времени и амплитуде, a mln , a max - минимальное и максимальное значение функции ф на компакте

[T min t max ]

Таким образом, часть материнского саундлета, которая находится на компактном носителе [- A t, T + A t ], точно вписана в амплитудно-временное окно высотой A и шириной T + 2 At.

27

Определим конечное семейство материнских непрерывных саундлетов образцов вокального звука речи как т = {у т}, причем все функции у т ограничены снизу и сверху числами 0 и А соответственно.

На рис.2 представлен образец вокального звука «о» при Тшш = 331.5, Ттах = 339.3, АтЬ = -59, Атах = 54, Дг = 1/22050 на рис. 3 представлен материнский саундлет вокального звука «о» при Т = 7.8, А = 113.

Рис.2. Образец вокального звука «о»

От материнского саундлета породим дочерний саундлет, описывающий образец вокального звука речи, который находится в заданном амплитудно-временном окне.

3. СОЗДАНИЕ СЕМЕЙСТВА ДОЧЕРНИХ НЕПРЕРЫВНЫХ САУНДЛЕТОВ

Дочерним саундлетом назовем сдвинутый и масштабированный по времени и амплитуде материнский саундлет.

Дочерний саундлет представлен в виде вещественнозначной ограниченной финитной непрерывной функции

yc (t) = (G1ym )(t) =

a

ft - b Л

0,

f f rmin ^V

A , m T - lb

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

d + cy d+cy

V a J

i ____ \\

JJV

t - (Tmin -At) At

d + cym

T -b

a

JJV

(Tma+ At) -1 At

0,

t < t min -At t e[Tmin - At,Tmin]

t e [T min ;^max]

t e[Tmax,Tmax + At] t > Tmax + At

28

Рис.3. Материнский саундлет вокального звука «о»

тшах тшш

- T

b = T1

A шах = шах ¥ m

t - b

A ш1п = min ¥ m

A шах — ашш

A шах — A t — b

d = A1

t € [T шт T шах]

где G1 - преобразование, переводящее материнский саундлет в дочерний саундлет,

a, c - параметры масштабирования функции у m по времени и амплитуде,

b, d - параметры сдвига функции у m по времени и амплитуде,

Amax, Amin - заданное минимальное и максимальное значение функции уc на

компакте [Tmin, Tmax]; Таким образом, часть дочернего саундлета, которая находится на компактном

r^min . . ^max Л .-.

носителе [i -At,i +дt], точно вписана в амплитудно-временное окно высотой Amax - Amin и шириной Tmax - Tmin + 2At.

Определим конечное семейство дочерних непрерывных саундлетов образцов вокального звука речи как Yc = {уc}, причем все функции yc имеют одинаковый компактный носитель [T min - A t, T max + At] и одинаковые минина нем.

мальные и максимальные значения A ш1п, A шах ■

На рис. 4 представлен дочерний саундлет вокального звука «о» при a = 0.872, b = 6966, c = 1.268, d = -73.

29

a =

a

a

30

Рис.4. Дочерний саундлет вокального звука «о»

Для преобразования образца с целью приведения его к единообразию (одинаковому амплитудно-временному окну) формализуем отображения между образцами, материнскими саундлетами и дочерними саундлетами.

4. ФОРМАЛИЗАЦИЯ САУНДЛЕТНЫХ ОТОБРАЖЕНИЙ

Саундлетным отображением назовем преобразование, переводящее образец в материнский саундлет, а материнский саундлет в дочерний саундлет путем сдвига и масштабирования по времени и амплитуде.

Преобразование 00, введенное в пункте 2 и осуществляющее сдвиг функции ф, описывающей образец, по времени и амплитуде в левый нижний угол положительной плоскости, для получения материнского саундлета у т, пред-ставимо в виде саундлетного отображения

00 : Ф ^ Т т.

Преобразование 01, введенное в пункте 3 и осуществляющее сдвиг и масштабирование материнского непрерывного саундлета у т по времени и амплитуде для получения дочернего саундлета Тс, представимо в виде саундлетного отображения

0 1: Т т ^ Т с.

Пусть метрика определена в виде

Р

(V .V ) = p 11 V (t) - V (t) |p dt

Если а < 1 и с (или с < 1 и а) фиксировано, то отображение 01 является нерас-тягивающим по времени (или по амплитуде), т.е. удовлетворяет условию

G 1у m ).

V? т, у т ет т Р р (у т, у т ) > Р р ( 0 1 у'

Если а > 1 и с фиксировано (или с > 1 и а фиксировано), то отображение 01 является несжимающим по времени (или по амплитуде), т.е. удовлетворяет условию

V у т, у т е т т Рр (ут ,ут) ^Р р (01ут, 01ут).

Композиция преобразований СО и в1 представлена в виде

в = в1в0.

Таким образом, преобразование, осуществляющее переход от функции ф, описывающей образец, к дочернему непрерывному саундлету тс, представи-мо в виде саундлетного отображения

в : Ф ^ Т с.

На саундлетное отображение в накладываются следующие ограничения:

1. Совпадение компактного носителя у всех дочерних саундлетов

V феФ • Уфе Ф • Бирр вф = Бирр вер

2. Совпадение минимальных и максимальных значений на компактном носителе

у всех дочерних саундлетов

/

VфеФ• Уфе Ф

ш1п _(Gcp)(t) = ш1п (t) л

v tesupp Gtp tesupp Gcp y

л I шах ) G"cp)(t) = шах _(0~ф)(t) te supp Gtp te supp G ф

Ограничения 1-2 обеспечивают единое прямоугольное амплитудно-временное окно для всех полученных дочерних саундлетов, в которое точно вписана только та часть этих саундлетов, которая находится на компактном носителе.

На основе введенных семейств саундлетов и саундлетных отображений сформируем эталонные образцы вокальных звуков речи.

5. МЕТОД ФОРМИРОВАНИЯ ЭТАЛОННЫХ ОБРАЗЦОВ

Пусть дана конечная совокупность обучающих образцов вокального звука, которая описывается множеством вещественных ограниченных финитных непрерывных функций Ф = {фi | i е {1,..., I}}, причем Агшш, Ашах - мини-

г гр ш1п гр шах -.

мальное и максимальное значение функции ф/ на компакте [Ti , Ti J.

Для сопоставления элементов множества Ф между собой для каждой функции ф/, описывающей обучающий образец, формируется соответствующее ему конечное множество дочерних непрерывных саундлетов у С, находящихся в том же самом амплитудно-временном окне, что и эта функция, в виде

Уфi еФ ЗУ c = {уС I r е {1,..., I}} : уС = Gфг.

Вычисляется нормированное расстояние между функцией, описывающей обучающий образец, и дочерним непрерывным саундлетом в виде

V. „ гх , _Рp (фi, УС)_

V i, r е {1,..., I} dir =---1 =

(Ашх — AjaiD )Pj(тiшax — Tlraia )

Р P (ф i, У С ) = p J| ф i (t) — V С (t)IP dt

Осуществляется выбор множества функций Г, описывающих эталонные образцы, из множества функций Ф, описывающих обучающие образцы, на основе матрицы нормированных расстояний [dir J. Для этого в статье предложена следующая процедура.

31

32

6. ПРОЦЕДУРА ВЫБОРА ПОДМНОЖЕСТВА ЭТАЛОННЫХ ОБРАЗЦОВ ИЗ МНОЖЕСТВА ОБУЧАЮЩИХ ОБРАЗЦОВ

Приведем этапы процедуры выбора подмножества эталонных образцов из множества обучающих образцов на основе матрицы [с¡г ]

1. Создать точечно конечное покрытие С множества номеров обучающих образ-

цов В0 = {1,..., I} в виде

1.1. С = {С,}, С, = {г | <б, г е В 0}, I е В 0, 0 <б< 1

1.2. VI е В 0 |С,- |<5^ С = 1 < 5 < I, . причем б, 5 задаются экспертом.

2. Создать множество В1 из номеров элементов покрытия в виде

В1 = {¿||С, |> 1}.

3. Создать множество В2 из элементов множества В1 в виде

B2 =кг'еШ)л a(Q *СтлС{^Cjv

лл

Ci=CmA^diz dm

zeCi zeC,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

myy

4. Создать множество В3 из элементов множества В2 4.1. I = 2, Е1 = 0.

4.2. Если j = 6 2' A Cjc:mUvCm' то E1 = E1 U{ j}, где V = (B2П£1)\{ j}.

4.3. Если I <|В2|, то I = I + 1, переход к шагу 2.4.2, иначе В3 = В2 \ Е1.

5. Создать конечное множество эталонных образцов Г

Г Л

г= {ук|Ук =фг , \еВ4} В4 = В3 и В0\ и С к

т

т е B 3 У

6. Создать подпокрытие С

C = {CklCk = Cik ik е B4}, CcC.

7. Создать вектор весов эталонных образцов

^ = (^1,..., ^к,..., ^к = | Ск \ Е | Ск V к е {1,..., | С |}

/ к=1 .

На основе введенных семейств саундлетов и саундлетных отображений и сформированного множества эталонных образцов создадим модель метрического распознавания вокальных звуков.

7. МОДЕЛЬ МЕТРИЧЕСКОГО РАСПОЗНАВАНИЯ ВОКАЛЬНЫХ ЗВУКОВ

Дадим общую математическую постановку задачи распознавания, которая может служить основой для построения моделей метрического распознавания. Пусть ф - функция, описывающая подлежащий распознаванию образец, у - номер класса образца (номер класса вокального звука речи). Задача заключается в том, чтобы по значению ф определить значение величины у. Тогда построение модели метрического распознавания сводится к определению зависимости между номером класса образцов у от значения х на основе метрики.

Модель метрического распознавания вокальных звуков представлена в виде

in 9 (Ф, Г j), ~ = min 9 (ф, Г,-), j е {1,..., J}, Tj = {у jk } ,

J j

(1 - w jk )P p (Y jk , Gф)

y = arg min „VT,. j

j J

9 ( ф, Г j ) = min

J i-

( A

jk

k E {1,..., Kj }, j E {1,..., J}

t min \ nwrp max T ^^un \ Ajk > i(Tjk - Tjk )

P p ( Y jk , G Ф ) = pi | Y jk ( t ) - ( G ф )( t )|p dt

где y - номер звука,

y - расстояние между тестовым образцом ф и множеством эталонных образцов всех вокальных звуков {Г/},

ф - вещественнозначная ограниченная финитная непрерывная функция, описывающая тестовый образец непрерывного речевого сигнала,

jjk - вещественнозначная ограниченная финитная непрерывная функция, описывающая k-й эталонный образец j-го звука,

а ш1п, а шах - минимальное и максимальное значение функции ф на компакте [T ш1п T шах]

А ™п, А - минимальное и максимальное значение функции уд на компакте [Tjkin T шах J,

J - количество звуков,

Kj - количество эталонных образцов j-го звука,

wjk - вес k-го эталонного образца j-го звука, wjk е [0,1]. Если вес не учитывается, то Wjk = 0.

Для созданной модели сформулируем критерии эффективности.

8. КРИТЕРИИ ОЦЕНКИ ЭФФЕКТИВНОСТИ МОДЕЛИ

1. Критерий скорости распознавания означает выбор из заданного набора ме-

трик такой метрики, которая на стадии обучения модели требует наименьшего количества эталонных образцов

F = T ^ ш1п p .

2. Критерий оценки пороговой вероятности распознавания означает выбор та-

кого множества эталонных образцов на стадии опытной эксплуатации модели, чтобы для тестового образца номер звука, вычисленный по модели, совпадал с тестовым номером звука этого тестового образца , I

17 1 X"1 х t model test \ „ _

F = Jyi ,yi ) ^ шах,

i=1

{Г/

ф( a,b)={о, aa* ь

yfodel = arg min 9 (ф i, T j ), j е {1,..., J },

j

где фг- - i-е тестовые образцы,

yjest - тестовый номер звука для i-го тестового образца, I - количество тестовых образцов.

33

34

3. Для оценки готовности модели к эксплуатации используется критерий адекватности модели, основанный на минимуме среднеквадратичной ошибки

1

^ = j I

model ~ test \ 2

i - yi

i=1

)2

^ mm,

{/}

yi

' model

min е (ф i, Г j), j е {1,..., J },

где фг' - i-е тестовый образец,

yfst - тестовое расстояние для i-го тестового образца, I - количество тестовых образцов.

Для оценивания результатов распознавания вокальных звуков необходимо сформулировать условия их распознавания.

9. УСЛОВИЯ РАСПОЗНАВАНИЯ ТЕСТОВОГО ОБРАЗЦА

ВОКАЛЬНОГО ЗВУКА ПО ЭТАЛОННЫМ ОБРАЗЦАМ

Пусть дан тестовый образец вокального звука, который описывается веществен-нозначной ограниченной финитной непрерывной функцией ф.

Пусть для каждого j-го вокального звука дано множество эталонных образцов Г/, j е {1,..., J}.

Пусть для каждого j-го вокального звука вычислено расстояние е ( ф , Г/) между функцией x, описывающей тестовый образец, и множеством функций г/, описывающих эталонные образцы j-го звука.

Необходимое условие распознавания тестового образца. Тестовый образец распознан, если

Vn е {1,..., J} Vm е {1,..., J} е (Ф, гй) = min е (Ф, г/)j л je(ф,Гт) = min е(ф, г/)j ^ (n = m)л(е(ф, гй) < ~), jе{1,..., J},

где а - заданная точность распознавания, 0 < ' < 1.

Достаточное условие распознавания тестового образца. Тестовый образец распознан, если

Vn е {1,..., J} Vm е{1,..., J} Ф, Гп) = min е(Ф, г/)j л (е(Ф, rm) = min е(Ф, г/)j ^ (n = m) л (е(Ф, Гп) = 0), j е {1,..., J}

На основе полученных условий возможно сформировать логико-формальные правила оценивания результатов распознавания.

10. ЛОГИКО-ФОРМАЛЬНЫЕ ПРАВИЛА ОЦЕНИВАНИЯ РЕЗУЛЬТАТА

МЕТРИЧЕСКОГО РАСПОЗНАВАНИЯ

Для оценивания результатов распознавания формируются следующие логико-формальные правила

Если ~ < ', то q = y,

Если ~ > 's, то q = 0,

где q - номер звука,

' - это численно вычисленное расстояние между множеством функций, описывающих эталонные образцы вокальных звуков, и множеством порожденных непрерывных саундлетов тестовых образцов невокальных звуков.

11. ЧИСЛЕННОЕ ИССЛЕДОВАНИЕ МЕТРИЧЕСКОГО МЕТОДА РАСПОЗНАВАНИЯ ВОКАЛЬНЫХ ЗВУКОВ

В табл. 1 приведено сравнение предложенного метода и существующих метрических методов на основе базы данных Т1М1Т, при этом для авторского метода непрерывный сигнал создавался из дискретного на основе линейного сплайна с равноотстоящими узлами. Распознаванию подлежали все вокальные звуки. В неавторских методах в качестве образцов брались вектора мел-частотные кепстральные коэффициенты (MFCC), вычисленные на участках равной длины, т.е. фреймах. Ошибка распознавания представляет собой отношение количества правильно распознанных образцов, содержащих вокальные звуки, к их общему количеству в процентах, при этом образцы, содержащие конец первого вокальные звука и начало вокальные второго звука, не учитывались. Приведенные в табл.1 стандартные метрические методы были реализованы автором статьи, посредством пакета МаАаЬ. Исследование позволяет сделать вывод, что авторский метод обеспечивает высокую вероятность распознавания.

Таблица 1

Оценка метрических методов распознавания

Методы метрического распознавания Ошибка распознавания (%)

на основе кодовой книги 30

на основе алгоритма DTW 8

авторский метод 5

ВЫВОДЫ

Новизна. В работе впервые излагаются теоретические основы саундлетов и са-ундлетных отображений. Усовершенствован метрический подход к распознаванию вокальных звуков, который отличается тем, что позволяет учитывать квазипериодическую структуру вокальных звуков и обобщать образцы одного звука различной длины и различным размахом амплитуд, что повышает эффективность распознавания вокальных звуков речи. Получил дальнейшее развитие метод создания множества эталонных образцов, который отличается тем, что основан на семейства непрерывных саундлетов и саунд-летных отображений, что повышает эффективность процедуры формирования эталонных образцов. В рамках предложенных саундлетов и саундлетных отображений усовершенствована модель распознавания вокальных звуков, которая отличается тем, что позволяет сопоставлять образцы различной длины и использовать адаптивный нормированный порог в логико-формальных правилах, что повышает вероятность распознавания полезных звуков.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Практическое значение. Разработан метод построения модели метрического распознавания вокальных звуков на основе семейства непрерывных саундлетов и саундлетных отображений, что позволяет сократить количество эталонных образцов. Предложен адаптивный нормированный порог для логико-формальных правил оценивания распознавания речевых сигналов, который позволяет с большей вероятностью выделять полезные звуки. В результате численного исследования было установлено, что алгоритм метрического распознавания вокальных звуков на основе семейства непрерывных саундлетов и саундлет-ных отображений дает вероятность распознавания 0.95. Созданные алгоритмы могут использоваться для решения задач, связанных с распознаванием речи оператора, синтезом речи, анализом вибрационного сигнала.

35

36

СПИСОК ИСПОЛЬЗОВАННОИ ЛИТЕРАТУРЫ

1. Rabiner L.R. Fundamentals of speech recognition / L.R. Rabiner,

B.H. Jang. - Englewood Cliffs, NJ: Prentice Hall PTR, 1993. -507 p.

2. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов /

Т.К. Винцюк. - К.: Наук. думка, 1987. - 261 с.

3. Потапова Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапо-

ва. М.: Радио и Связь, 1997. 528 с.

4. Осовский С. Нейронные сети для обработки информации / С. Осовский. - М.:

Финансы и статистика, 2002. - 344 с.

5. Хайкин С. Нейронные сети: полный курс / С. Хайкин. - М.: Издательский дом

«Вильямс», 2006. - 1104 с.

6. Каллан Р. Основные концепции нейронных сетей / Р. Каллан. - М.: Издатель-

ский дом «Вильямс», 2001. - 288 с.

7. Федоров Е.Е. Методология создания мультиагентной системы речевого

управления: монография / Е.Е. Федоров. - Донецк: изд-во «Ноулидж», 2011. - 356 с.

Сведения об авторах Фёдоров Евгений Евгениевич,

заведующий кафедрой специализированных компьютерных систем Донецкой академии автомобильного транспорта, профессор кафедры автоматизированных систем управления Донецкого национального технического университета, доцент.

В 2012 году защитил докторскую диссертацию в Национальном авиационном университете г. Киева. Автор свыше 110 научных публикаций, в том числе 10 монографий, посвящённых: моделям и методам преобразования и распознавания речевых образов; моделям и методам преобразования и распознавания зрительных образов; моделям и методам анализа и синтеза естественно-языковых объектов; моделям и методам вибрационной, шумовой и медицинской диагностики; интеллектуальным технологиям в логистике, метаэвристикам. Основная область интересов: методы идентификации и верификации диктора; распознавания и синтеза речи; методы анализа и синтеза естественно-языковых объектов; методы распознавания лица человека; методы диагностики состояния электромеханических объектов по вибрационному и шумовому сигналам; методы диагностики состояния пациентов по электрограммам; эвристические и метаэвристические методы решения оптимизационных задач транспортной логистики; метаэвристические методы оценивания значений параметров моделей распознавания, диагностики и прогноза.

Эгле Слесорайтите,

старший преподаватель Вильнюсского университета.

Автор нескольких десятков научных публикаций, посвящённых: моделям и методам преобразования и распознавания речевых образов; моделям и методам преобразования и распознавания зрительных образов; интеллектуальным технологиям в логистике, метаэвристикам.

Основная область интересов: идентификация и верификация диктора, распознавание и синтез речи, распознавание лица человека, интеллектуальные технологии в транспортной логистике (поиск оптимального маршрута и мультиагентное взаимодействие), оптимизация числовых функций и комбинаторная оптимизация на основе метаэвристик.

i Надоели баннеры? Вы всегда можете отключить рекламу.