Научная статья на тему 'Кластеризация авторегрессионных моделей речевых сигналов по критерию минимума информационного рассогласования Кульбака — Лейблера'

Кластеризация авторегрессионных моделей речевых сигналов по критерию минимума информационного рассогласования Кульбака — Лейблера Текст научной статьи по специальности «Математика»

CC BY
517
110
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / АВТОРЕГРЕССИОННАЯ МОДЕЛЬ / ИНФОРМАЦИОННОЕ РАССОГЛАСОВАНИЕ / ЦЕНТРОИД / КЛАСТЕР / AUTOMATIC SPEECH RECOGNITION / AUTOREGRESSIVE MODEL / INFORMATION DIVERGENCE / CENTROID / CLUSTER

Аннотация научной статьи по математике, автор научной работы — Губочкин Иван Вадимович, Карпов Николай Вячеславович

Решается задача кластеризации множества авторегрессионных моделей речевых сигналов в рамках теоретико-информационного подхода. Для этого был разработан алгоритм нахождения оптимальных параметров авторегрессионной модели в смысле минимума информационного рассогласования Кульбака Лейблера. На его основе проведена модификация известного алгоритма кластеризации k-средних. Экспериментально исследована эффективность применения разработанных алгоритмов при дикторонезависимом распознавании изолированных слов с использованием аппарата скрытых марковских моделей с дискретным распределением вероятностей наблюдений. Установлено, что наилучшие результаты по точности распознавания достигаются при использовании коэффициентов линейного предсказания с неравномерным частотным разрешением в качестве вектора признаков и размере кодовой книги векторного квантователя, равном 256.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Губочкин Иван Вадимович, Карпов Николай Вячеславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Clustering of Speech Signal Autoregressive Models by Kullback-Leibler Information Divergence Minimum Criterion

There has been solved the problem of clustering a set of speech signal autoregressive models in the framework of the information-theoretic approach. Therefore, an algorithm to find optimal parameters of the autoregressive model in terms of Kullback-Leibler information divergence minimum was developed. Based on it the well-known k-means clustering algorithm was modified. There have been conducted experimental studies on efficiency of the developed algorithms applied to speaker independent isolated words recognition using discrete hidden Markov models. It has been identified that the best results of recognition accuracy are achieved using warped linear predictive coefficients as a feature vector and a vector quantizer codebook equal to 256.

Текст научной работы на тему «Кластеризация авторегрессионных моделей речевых сигналов по критерию минимума информационного рассогласования Кульбака — Лейблера»

УДК 519.651

кластеризация авторегрессионных моделей речевых сигналов по критерию МИНИМУМА информационного рассогласования кульбака - лейблера

И. В. Губочкин,

канд. техн. наук, доцент Нижегородский государственный лингвистический университет им. Н. А. Добролюбова

Н. В. Карпов,

канд. техн. наук, доцент Национальный исследовательский университет «Высшая школа экономики», г. Нижний Новгород

Решается задача кластеризации множества авторегрессионных моделей речевых сигналов в рамках теоретико-информационного подхода. Для этого был разработан алгоритм нахождения оптимальных параметров авторегрессионной модели в смысле минимума информационного рассогласования Кульбака — Лейблера. На его основе проведена модификация известного алгоритма кластеризации ^средних. Экспериментально исследована эффективность применения разработанных алгоритмов при дикторонезависимом распознавании изолированных слов с использованием аппарата скрытых марковских моделей с дискретным распределением вероятностей наблюдений. Установлено, что наилучшие результаты по точности распознавания достигаются при использовании коэффициентов линейного предсказания с неравномерным частотным разрешением в качестве вектора признаков и размере кодовой книги векторного квантователя, равном 256.

Ключевые слова — автоматическое распознавание речи, авторегрессионная модель, информационное рассогласование, центроид, кластер.

Введение

В исследованиях по информационной теории восприятия речи (ИТВР) [1-5] предложены подходы к решению задач анализа, распознавания и обработки речевых сигналов в рамках теоретикоинформационного подхода. Данная тематика исследований является весьма актуальной по причине широкого распространения в последнее время теоретико-информационного подхода в теории распознавания образов. Так, в работе [6] проводится оценка и дается обоснование возможности применения указанного подхода для кластеризации данных. В работах [7, 8] рассматриваются примеры использования различных видов информационных метрик при решении задач обработки изображений. Работы [9-11] посвящены применению теоретико-информационного подхода и информационной геометрии в различных методах машинного обучения.

В связи с этим вызывает интерес адаптация подходов, представленных в ИТВР, к использованию в уже существующих методах машинного обучения и распознавания образов применительно к задаче кластеризации и обработки речевых сигналов. Для этого рассмотрим вначале основные положения данной теории.

В рамках ИТВР элементарная речевая единица (ЭРЕ) задается некоторым информационным центром-эталоном, в качестве которого выбирается__реализация речевого сигнала хг е {х}г ,

г = 1,R, представленная соответствующей авторегрессионной (АР) моделью и характеризующаяся минимальной суммой информационных рассогласований в метрике Кульбака — Лейблера [1,

5, 12] относительно всех других реализаций данной ЭРЕ:

* ^ ____________________

Хг = агяшт Уре,к ,к = 1,^-, (1)

к 1=1 ’

О

о о

■ Рис. 1. Модель ЭРЕ

где Lr — число реализаций г-й ЭРЕ; р1к — информационное рассогласование по Кульбаку — Лей-блеру между 1-й и й-й ЭРЕ. Иллюстрирует сформулированное выше определение модели ЭРЕ [1] рис. 1.

В приведенной формулировке модели ЭРЕ есть два недостатка. Первый заключается в том, что выбор информационного центра-эталона делается из дискретного множества реализаций. Это значит, что критерий (1) не является в строгом смысле оптимальным. Второй недостаток состоит в переборном характере алгоритма поиска информационного центра-эталона, сложность которого составляет 0(1%), т. е. количество необходимых вычислений будет быстро возрастать с увеличением множества реализаций заданной ЭРЕ. В связи с этим представляется актуальным создание алгоритмов, свободных от указанных недостатков.

Постановка задачи нахождения оптимальной авторегрессионной модели

Согласно работе [2], информационное рассогласование по Кульбаку — Лейблеру между неизвестным сигналом x и эталоном г, заданными их АР-моделями, определяется в спектральной области следующим образом:

рх,г „ X

Ff=1

1+хт=іаг(т у

- \pmfjF

1 + Х т=1 ах (т) 6

- jnmf /F

-1. (2)

Здесь Р — порядок АР-модели; аг(т) и ах(т) — элементы векторов авторегрессии сигналов г и x соответственно; F — верхняя граница частотного диапазона. Можно показать [13], что рх г> 0 для любых АР-моделей аг(т) и ах(т), если их полюсы находятся внутри единичной окружности на комплексной плоскости.

Отметим также, что информационное рассогласование Кульбака — Лейблера является частным случаем рассогласования Брэгмана [14], определяемого между двумя функциями плотности распределения вероятностей р(х) и д(х) как

^ (р||я) = F(Р)-F(Я)--| ^ (я (х)-Р (х)) ах,

(3)

где F(•) — производящая функция, обладающая свойствами выпуклости и дифференцируемости. Собственно само информационное рассогласование Кульбака — Лейблера легко получить из (3), выбрав в качестве производящей функции негэн-тропию Шеннона F(x)=Jxlogxdx. Отсюда следует, что информационное рассогласование (2) также относится к классу рассогласований Брэгмана. Приведенное замечание будет использовано далее при доказательстве сходимости модифицированного алгоритма кластеризации й-средних.

Определим теперь информационное рассогласование Кульбака — Лейблера в случае сравнения эталонного сигнала, заданного его АР-моделью, сразу с множеством реализаций г-й ЭРЕ {x}r как величину среднего искажения:

РМГ ,г

LгF

Lг F

<Х X

^=1 f=1

1+х т=1 аг(т) е

,- jnmfjF

-1,

1 + Хт=1°^ (т)6

,- jnmf|F

(4)

где ах 1(т) — элементы вектора авторегрессии 1-го сигнала из множества Вид данной формулы вытекает из определения центроида множества.

Центроидом множества ={яі , і = 1, L} яв

ляется такой вектор у, среднее искажение:

1, L}

который минимизирует

1 L

у = агяшіп—X Л (q; ,у )

(5)

і=1

где d обозначает некоторую меру расстояния между двумя векторами, называемую также мерой искажений [15]. Формула (5) во многом похожа на критерий (1), за исключением того, что получаемый вектор у не обязан соответствовать какому-либо конкретному элементу множества ^}.

Задача поиска оптимальной АР-модели г-й ЭРЕ состоит в выборе такого вектора АР-коэффициентов аг, при котором величина р{х} г стремится к своему глобальному минимуму: г

р{х

(6)

2

2

2

г

а

Из (5) нетрудно видеть, что решение поставленной задачи в формулировке (4), (6) фактически сводится к поиску АР-модели центроида множества сеп'Ъг ({х}г а*.

Поскольку применяемая в данной работе мера расстояния между векторами (2) с учетом свойств рассогласования Кульбака — Лейблера не является симметричной, то, согласно работе [7], формула (5) определяет «правосторонний» центроид. Выбор центроида данного типа обусловлен возможностью получить эффективный алгоритм его вычисления, описание которого приводится далее.

Синтез алгоритма

Найдем решение задачи (6). Для этого нам необходимо решить относительно ar простую систему дифференциальных уравнений

^{x} ,r ----

г - = 0, m = 1,P.

дar (m )

(7)

ной

Получим выражение для частной производ-

др{х} ,г

г . Для этого определим две функции:

дar (m)

Nr ( f )= 1 + 1 P=1 ar (m 1 е

,- jnmf/F

- jnmf/F

Dx,f. (f )= 1 + 1 m=1axJ (m) Є

Тогда формулу (4) можно переписать следующим образом:

p{

x}r ,r

1 1 1 Nr (f 1 - і

Ir^t1f=1 Dx,i (f ) .

(8)

Выражение (8) легко преобразовать к матричному виду, определив такую матрицу G{x> и

N1 / г,

г, что

Nr =[Nr (f)]; І

G

{x}r ,r

Dx,l (1) 1

Dx,l (F)

__________ 1

_Dx,Lr (1) Dx,Lr (F)

Отсюда получаем

p{x}r ,r = If 1 (G{x}r ,r

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• NT)-1,

(9)

где I — единичный вектор-строка размера 1 xLr.

Можно показать [16], что частная производ-дNr ( f )

ная------т^-т- определяется как

дar (m)

дNr (f )

дar (m)

= 2

ar (m)+ 1 ar (n)S(m, n, f) + cos

n=1

n*m

nmf

(10)

l(m, n, f) = cos|

nmf Л f nnf'

cos ------ +

nmf Л . f nnf +sin I------I sin I------I = cos

F

С n(m - n )f ^

^{x} ,r

Тогда выражение для ------с учетом (8) и

(10) приобретает вид дпт(m)

дp{x}r ,r

Lr F і 1

дNr (f )

даг (т) ^ ^=1 f=1 DxЛ (/)дсіг (т)

Отсюда легко видеть, что уравнение (7) после группировки множителей будет представлено следующим образом:

Lr F 11

Lr F гг

1 an 11-

(m,n,f )

1 f=1 Dx,f, (f 1 n=1, f. =1 f=1 Dx, (f 1

n *m

Lr F

cos

(nmf F )

+11’ D (f)

^=1 f=1 Dx,i \T)

m = 1, P.

= 0,

В этом случае решение уравнения (7) относительно ar может быть представлено как система линейных уравнений вида

Car =-b, (11)

где b — вектор-столбец, элементы которого определяются как

L F cos (nmf IF) ----

Ъш = XX ^ , L , m = 1, P; (12)

b

=1f=1 Dx,i (f 1

C — квадратная матрица размера Р< Р, элементы которой задаются следующим выражением:

1

C = ^m,n

Lr F

11---------------, m = n;

к к Dx,t (f)

I F S(m, n, f)

II D (f) , m *n,

^=1 f=1 Dx,i \T)

m, n = 1, P.

(1З)

2

2

Преобразовав выражения (12) и (13) в матричный вид, получаем

Ьт = I (О

с

К>г .г • ЭШ);

1 (ы .г • е).

1 (О{х}г.г '“ш.п ). ш ^ п.

ш = п;

(14)

где E — матрица размера F xLr, состоящая из единичных элементов, а Sm и Ет п — векторы-строки, которые определяются как

Эш =

008

nшf

; Нш.п =[^(ш.га./)].

Интересной особенностью уравнения (11) является то, что оно по своей структуре сходно с известными уравнениями Юла — Уолкера [17], для которых существует быстрый алгоритм решения. В матричной форме данные уравнения задаются в виде

г1 г2 •” гР а1 -г2

г2 г1 •" гР-1 0> = -г3

Гр Гр-1 ••• г1 _ ар [-ГР+1 _

(15)

где гь — соответствующий элемент некоторого вектора г размерности Р + 1 (в оригинале г — вектор автокорреляции), а обозначение т является операцией комплексного сопряжения. Для того чтобы свести уравнение (11) к виду (15), необходимо задать вектор г в виде г=[^ Ьр], где ^ — первая строка матрицы ^

Для быстрого решения (15) обычно применяется рекуррентный алгоритм Левинсона — Дар-бина [18], шаги которого приведены ниже:

Е(0) = тц

1 < і < Р; (16)

а|1 )= ^; а^)=ауі 1) -^а^1; Е( і) =(і - k2 ) Е(і-1);

аш =а(р). 1 < ш < р.

Результатом его работы является вычисление вектора АР-коэффициентов без необходимости непосредственного обращения автокорреляционной матрицы.

Вычисления по алгоритму (11) — (16) позволяют получить значения коэффициентов АР-модели ЭРЕ аг. которые являются оптимальным

решением задачи (6). Особенностью данного решения является то, что оно всегда будет оптимальным в глобальном смысле, поскольку величина среднего информационного рассогласования в виде (4) является квадратичной формой относительно аr. Также легко видеть, что предложенный алгоритм имеет линейную сложность 0^г), в отличие от критерия (1).

Модифицированный алгоритм й-средних

Наглядным примером практического применения полученного алгоритма (11) — (16) решения задачи (6) может служить использование его при построении алгоритмов кластеризации без учителя. Одним из наиболее известных алгоритмов такого типа является алгоритм ^-средних [19, 20]. В общем виде он может быть задан следующим образом [21].

Пусть мы имеем некоторую случайную величину в пространстве наблюдений К такую, что X: х еК = й^, где ДО1 — 1-мерное евклидово пространство. Нас интересует возможность разбиения пространства К на Г кластеров. Алгоритм ^-средних предполагает, что число кластеров Г заранее известно, и требуется найти такую матрицу параметров Ф, которая бы минимизировала целевую функцию (ошибку квантования), заданную следующим выражением:

Е (Х,Ф)* ЕКМ ({х£ , Ф) =

1 ^ 1 ^ 2 = VXт1пй(х.фу) = VXт1п х-Фу • (17)

ь ^=1 У ь ^=1 1

Здесь {х}^ — множество векторов наблюдений; фу — у-й столбец матрицы Ф, который представляет собой вектор параметров, связанный с кластером у.

При кластеризации по алгоритму ^-средних вектор параметров фу представляет собой обычное среднее значение всех векторов наблюдений, входящих в кластер у. В этом случае мы можем определить матрицу средних значений M, каждый у-й столбец которой является вектором параметров ф^ Отсюда можно записать, что

Фу =Д у; Ф = М,

где — оценка среднего значения элементов у-го кластера.

Для случая, когда наблюдения представлены в виде векторов авторегрессии {а^ в метрике (2), необходимо внести в рассматриваемый алгоритм кластеризации изменения, касающиеся целевой функции (17) и меры искажений 1. Возможность таких изменений связана с тем, что алгоритм ^-средних может использоваться с широким

тров, обозначенных как ф^ J. к = 0. формируется

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

классом мер искажений, включая меры, не являющиеся метрическими [22]. Сходимость рассматриваемого алгоритма гарантируется для любых мер искажений, которые относятся к классу информационных рассогласований Брэгмана [6]. Как было отмечено выше, информационное рассогласование (2) также относится к данному классу. Из сказанного следует, что алгоритм ^-средних сходится при использовании (2) в качестве меры искажений.

Ниже представлены шаги модифицированного алгоритма.

1. Выбрать число кластеров Г, инициализировать оценки центроидов а* , к = 0, по каждому кластеру К(ук), к = 0, используя значения, полученные на основе априорных данных, или случайные значения. Затем на основе этих параме-

,х как ф(к) к = I

матрица Ф(к), к = 0.

2. С учетом текущих определений кластеров Кк) распределить по каждому из них имеющиеся АР-модели векторов наблюдений а, ^ = 1, ^, используя следующую индексную функцию принадлежности:

Уе к =р( а, ф(к)) = агятт р ,у.

Вычисление значений информационного рассогласования р1у в формулировке (2) можно также выполнять в матричном виде аналогично (9) и

(14).

3. Вычислить целевую функцию с учетом распределения наблюдений по кластерам

ЕКМ = ЕКМ ({а}^, ф(к)) =1XРцш • (18)

ь ^=1

4. Вычислить изменение целевой функции

0(к) = е(к) - Е(к-1)

0 = ЕКМ Екм •

Алгоритм завершает свою работу, если выполняется условие ^( к >0 л 0(к )<0т1п ) v(k >1 л|о(к )-^

-d

(*-г

< є I I или k>kmax.

5. На основе нового распределения векторов

наблюдений по кластерам ’ вычислить значения а*^1^ используя алгоритм (11)-(16). Из полученных векторов сформировать матрицу параметров Ф(к +1).

6. Увеличить номер итерации к и повторить вычисления, начиная с шага 2.

Алгоритм к-средних реализует в себе метод наискорейшего спуска вдоль вектора градиента ошибки квантования (18) [23]. Из этого следует,

что на каждой последующей итерации алгоритма значение целевой функции должно уменьшаться. Еще одним свойством данного алгоритма является уменьшение величины ошибки квантования при увеличении числа кластеров.

Разработанные выше алгоритмы могут использоваться в различных областях, в частности, в распознавании речевых сигналов. Результаты такого применения приводятся в следующем разделе.

Результаты экспериментальных исследований

Для проверки эффективности разработанной модификации алгоритма fe-средних были проведены его экспериментальные исследования в рамках задачи распознавания изолированных слов. Эксперимент проводился с использованием речевой базы1, состоящей из R = 11 слов английского языка: «one», «two»,..., «nine», «zero», «о». Каждое слово проговаривалось в среднем по 2 раза группой из 208 дикторов. Представленная в базе речь хранится в виде соответствующих звуковых файлов формата PCM WAVE с частотой дискретизации 8 кГц, 16 бит. Данные файлы разделены на обучающее и тестовое множество. Обучающее множество содержит речь 95 дикторов (38 мужчин и 57 женщин), всего по 188 реализаций каждого слова. Тестовое множество содержит речь 113 дикторов (56 мужчин и 57 женщин), всего по 225 реализаций каждого слова. Следует отметить, что обучающее и тестовое множества не пересекаются друг с другом по дикторам. Несмотря на некоторую несбалансированность обучающего множества по числу мужчин и женщин, можно говорить

о том, что применяемая речевая база в целом является достаточно представительной.

В ходе экспериментальных исследований все реализации слов разбивались на квазистацио-нарные сегменты длительностью 20 мс с перекрытием смежных сегментов в 10 мс. Далее вычислялись векторы признаков размерности Р=12, описывающих соответствующие сегменты. Для сравнения использовались четыре наиболее широко распространенных вида векторов признаков:

1) коэффициенты линейного предсказания (LPC) [24], которые являются эквивалентом рас-

1 Обучающее и тестовое множества речевой базы английских числительных доступны для скачивания в сети Интернет по следующим ссылкам: http:// cronos.rutgers.edu/~lrr/speech%20recognition%20 course/databases/isolated_digits_ti_train_endpt.zip http://cronos.rutgers.edu/~lrr/speech% 20 recognition%20course/databases/isolated_digits_ti_ test_endpt.zip

сматриваемых в данной работе коэффициентов авторегрессии а;

2) кепстральные коэффициенты, вычисленные по рекуррентной формуле из коэффициентов линейного предсказания (СС^РС) [18]:

т-1 /

XIа

k=1 Vm

ckam-k.

І < m < P;

Ш-1| k

сш = XІ — І с—аш-k. ш ^ р; (19)

k=l ^ш)

3) коэффициенты линейного предсказания с неравномерным частотным разрешением (WLPC) [25]. Для их вычисления вектор коэффициентов автокорреляции г пропускается через набор все-пропускающих фильтров первого порядка следующего вида:

D(z) =

z -у

1 -yz_i

Здесь -1<у<1 — коэффициент деформации. Параметр у выбирается таким образом, чтобы получаемая частотная шкала была близка к шкале барк, а сам параметр может быть приближенно рассчитан по следующей формуле:

1,0674 tan-1 (0,06583f /1000) -0,1916,

где fs — частота дискретизации, Гц. В дальнейшем используется автокорреляционный метод расчета коэффициентов линейного предсказания (16);

4) кепстральные коэффициенты, рассчитанные по коэффициентам линейного предсказания с неравномерным частотным разрешением (CC-WLPC). Для этого также применялась формула (19).

В качестве меры расстояния между векторами признаков типа LPC и WLPC использовалось информационное рассогласование в виде (2). Вместе с тем в качестве меры расстояния при использовании СС^РС и CC-WLPC была выбрана евклидова метрика.

На подготовительном этапе из сегментов, полученных из обучающего множества слов, были сформированы кластеры с помощью алгоритма й-средних. При этом производилось несколько запусков алгоритма с различными начальными условиями для нахождения оптимального разбиения. Таким образом, для каждого значения числа кластеров Г от 8 до 1024 было найдено свое разбиение исходного множества по кластерам и их центры, которые будем называть кодовой книгой W = {^1, ..., ^г}. Следует отметить, что построение кодовой книги для признаков LPC и WLPC выполнялось с помощью модифицированного алгоритма ^-средних с использованием алгоритма (11)-(16) для вычисления центров кластеров.

Для иллюстрации свойств получаемой по алгоритму (11)-(16) оптимальной АР-модели на рис. 2, а представлены графики функции Nr(f) для двух реализаций английской фонемы [иЩ] и полученной на их основе оптимальной АР-модели ЭРЕ. Данная функция может рассматриваться как спектральная плотность мощности (СПМ) нерекурсивного фильтра, коэффициенты которого задаются вектором авторегрессии а.

Здесь тонкими сплошными линиями показаны СПМ выбранных реализаций, а полужирная линия соответствует СПМ, найденной с помощью алгоритма (11)-(16) оптимальной АР-модели. Видно, что полученная результирующая модель учитывает особенности обеих реализаций фонемы [иЩ]. Дополнительно на рис. 2, б показан уве-

б)

Относительная частота Рис. 2. График (а) и фрагмент (б) СПМ оптимальной АР-модели ЭРЕ

Относительная частота

в

личенный фрагмент СПМ всех трех моделей в интервале относительной частоты 0,03.0,12.

Как можно видеть, СПМ оптимальной модели в районе 0,06 проходит над СПМ исходных АР-моделей и не является их простой комбинацией.

Для обеспечения возможности применять полученную кодовую книгу в задаче распознавания речи каждому ее элементу был сопоставлен символ из некоторого алфавита V = {«1, и>2, ..., «г). Далее было проведено векторное квантование последовательностей признаков по всем реализациям каждого слова из обучающего множества. При этом для каждого слова было сформировано множество последовательностей наблюдений 0г = {оТ,0^, ..., 0^г}, г = 1, Я, элементы которого представляют собой последовательности символов из алфавита V, полученных в результате выполнения векторного квантования.

Полный набор таких последовательностей образует обучающее множество для настройки скрытой марковской модели (СММ) с дискретной плотностью наблюдений [18]. При этом вычисляются оптимальные параметры СММ X = (А, В, я) для заданной обучающей выборки.

Оптимальными параметрами СММ называются те, которые максимизируют вероятность р(О|Х) по всем возможным последовательностям О = {О1, ..., О_^ из обучающей выборки. Если обозначить qt состояние в момент времени t, то А = {аф = = {Р^ + 1 = Si\qt = Фу)} — матрица вероятностей переходов, содержащая вероятность перехода из состояния I в состояние у; В = {Ь(К)} = {p(ufe\qt = Фу)} — матрица распределения вероятностей наблюдения символа ик в состоянии у в момент времени t, а р = {я;} = {p(ql = Ф;)} — начальное распределение вероятностей состояний.

В приводимом эксперименте использовался набор из лево-правых СММ (или моделей Бакиса) Хг, г = 1, Я с семью состояниями для каждого из Я слов. Выбор указанного числа состояний основывается на ранее проведенных исследованиях (см., например [18, с. 380]), в которых показано, что для систем автоматического распознавания речи с малым словарем хорошие результаты распознавания могут быть получены при числе состояний, находящемся в диапазоне 6 -г- 8 и одина-

ковом для всех СММ. Тем не менее, в настоящее время разработаны различные методы оптимизации структуры СММ (числа состояний и переходов между ними), которые позволяют во многих случаях снизить вероятность ошибок распознавания. Однако рассмотрение указанных методов находится за рамками данной статьи, а заинтересованный читатель может обратиться к работам [26—29] для получения подробной информации.

Найденная кодовая книга W и модели Xr на следующем этапе использовались для распознавания слов из тестового множества. Для этого аналогичным образом слова сегментировались, признаки, выделенные из сегментов, квантовались с использованием кодовой книги W и, исходя из получившейся последовательности наблюдений Ov, при помощи алгоритма Витерби [18, 30] для каждой СММ Xr вычислялись оптимальные последовательности состояний Q = q 1„.qT, максимизирующих правдоподобие Lr=logpr(Q|O, Xr). Решение о том, какое слово распознано, принималось по критерию максимума правдоподобия:

v = arg max Lr.

r

В результате сравнения решения, принятого при распознавании, с априорными данными о классификации слова получаем зависимость величины ошибки распознавания по тестовому набору слов WER (word error rate) от размера кодовой книги для каждого способа выделения признаков:

S

WER = 1 —,

S

где 5прав — число правильно распознанных реализаций слов, а S — общее число реализаций. Результаты проведенного эксперимента приведены в таблице.

Из полученных результатов видно, что практически для всех алгоритмов значение минимальной величины ошибки WER достигается при размере кодовой книги, равном 256. При этом наилучшее значение показал алгоритм, использующий коэффициенты линейного предсказания с неравномерным частотным разрешением и модифицированный алгоритм ^-средних для

■ Величина ошибки распознавания

Вид вектора признаков Размер кодовой книги

8 16 32 64 128 256 512 1024

LPC 0,218 0,106 0,074 0,047 0,045 0,040 0,041 0,051

CC-LPC 0,190 0,108 0,078 0,053 0,047 0,041 0,048 0,060

WLPC 0,201 0,115 0,070 0,049 0,040 0,035 0,039 0,048

CC-WLPC 0,191 0,105 0,066 0,048 0,043 0,039 0,038 0,046

вычисления кодовой книги. Минимальное значение ошибки WER для него составило 0,035.

Заключение

В работе предложен подход для кластеризации множества АР-моделей речевых сигналов. Для этого вначале был разработан алгоритм для расчета коэффициентов оптимальной по критерию минимума информационного рассогласования АР-модели ЭРЕ, заданной множеством одноименных реализаций. Показано, что используемая в представленной работе в качестве расстояния между АР-моделями мера относится к классу рассогласований Брэгмана.

Для решения собственно задачи кластеризации рассмотрена возможность модификации известного алгоритма кластеризации ^-средних, суть которой заключалась в изменении процедуры вычисления центров кластеров в том случае, если они заданы АР-моделями. Дано обоснование сходимости модифицированного алгоритма.

Рассмотренная иллюстрация работы предложенного алгоритма вычисления центроида множества АР-моделей как минимума среднего информационных рассогласований Кульбака — Лей-блера показывает, что результирующая модель не является простой комбинацией исходных.

Литература

1. Савченко В. В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

2. Савченко В. В., Пономарев Д. А. Оптимизация фонетической базы данных по группе дикторов на основе критерия МИР // Информационные технологии. 2009. № 12. С. 7-12.

3. Савченко В. В., Акатьев Д. Ю., Губочкин И. В. Автоматическое распознавание изолированных слов методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника.

2007. Вып. 5. С. 11-18.

4. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

5. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Известия высших учебных заведений России. Радиоэлектроника.

2008. Вып. 4. С. 3-11.

6. Banerjee A., Merugu S., Dhillon I. S., and Ghosh J. Clustering with Bregman Divergences // J. Machine Learning Research. 2005. N 6. P. 1705-1749.

Для оценки эффективности разработанных алгоритмов были проведены их экспериментальные исследования на примере задачи распознавания ограниченного набора слов английского языка с применением аппарата СММ и различных векторов признаков. В результате было показано, что минимальное значение ошибки распознавания достигается при размере кодовой книги (числе кластеров, используемых для представления речевого сигнала в пространстве признаков), равном 256, для большинства рассмотренных векторов признаков. Также показано, что наилучшие результаты достигаются при использовании в качестве признаков коэффициентов линейного предсказания с неравномерным частотным разрешением и соответствующей кодовой книги, найденной при помощи модифицированного алгоритма кластеризации ^-средних. Это позволяет говорить о возможности применения предложенных в данной работе алгоритмов при решении задач обработки и распознавания речи.

Дальнейшее исследование эффективности применения разработанных алгоритмов для распознавания большого набора слов из слитной речи представляется интересной задачей. Ее решение требует большого объема размеченных данных для обработки, чему будет посвящена следующая работа.

7. Nielsen F., Nock R. Sided and Symmetrized Bregman Centroids // IEEE Transactions on Information Theory. June 2009. Vol. 55. N 6. P. 2882-2904.

8. Do M. N., Vetterli M. Wavelet-based texture retrieval using generalized Gaussian density and Kullback-Leibler distance // IEEE Transactions on Image Processing. Feb. 2002. Vol. 11. N 2. P. 146-158.

9. Ding N., Vishwanathan S. V. N., Qi Y. t-divergence Based Approximate Inference / NIPS. 2011. P. 14941502.

10. Schwander O., Schutz A. J., Nielsen F., Berthoumieu Y.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k-MLE for mixtures of generalized Gaussians // 21st Intern. Conf. on Pattern Recognition (ICPR), 11-15 Nov. 2012. P. 2825-2828.

11. Jiang X., Ning L., Georgiou T. T. Distances and Riemannian metrics for multivariate spectral densities // IEEE Transactions on Automatic Control. 2012. Vol. 57. N 7. P. 1723-1735.

12. Kullback S., Leibler R. A. On information and sufficiency // Annals of Mathematical Statistics. 1951. N 22(1). P. 79-86.

13. Georgiou T. T. Distances and Riemannian Metrics for Spectral Density Functions // IEEE Transactions on Signal Processing. Aug. 2007. Vol. 55. N 8. P. 39954003.

14. Брэгман Л. М. Релаксационный метод нахождения общей точки выпуклых множеств и его применение для решения задач выпуклого программирования // Журнал вычислительной математики и математической физики. 1967. Т. 7. № 3. С. 620-631.

15. Макхоул Дж. Векторное квантование при кодировании речи // ТИИЭР. 1985. Т. 73. № 11. С. 19-61.

16. Губочкин И. В. Алгоритм оценки параметров авторегрессионной модели элементарных речевых единиц // Моделирование и анализ информационных систем. 2013. Т. 20. № 2. С. 23-33.

17. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - 584 с.

18. Rabiner L. R., Juang B.-H. Fundamentals of speech recognition. - Englewood Cliffs, NJ: Prentice Hall, 1993. - 507 р.

19. Lloyd S. Least squares quantization in PCM // IEEE Transactions on Information Theory. 1982. N 28(2). P. 129-137.

20. MacQueen J. Some methods for classification and analysis of multivariate observations // Proc. of the Fifth Berkley Symp. on Mathematical Statistics and Probability. 1967. Vol. 1. P. 281-297.

21. Beigi H. Fundamentals of Speaker Recognition. -Springer, 2011. - 1003 p.

22. Linde Y., Buzo A., Gray R. M. An algorithm for vector quantizer design // IEEE Transactions on Communication. Jan. 1980. Vol. COM-28. N 1. P. 84-95.

23. Bottou L., Bengio Y. Convergence Properties of the k-Means Algorithm // Advances in Neural Informa-

tion Processing Systems. Denver: MIT Press, 1995. Vol. 7. P. 585-592.

24. Маркел Д. Д., Грэй А. Х. Линейное предсказание речи. - M.: Связь, 1980. - 308 с.

2б. Harma A. et al. Frequency-warped autoregressive modeling and filtering. - Helsinki University of Technology, 2001. - 149 p.

26. Vasko Jr R. C., El-Jaroudi A., Boston J. R. An algorithm to determine hidden Markov model topology // ICASSP-96: Conf. Proc. IEEE. 1996. Vol. 6. P. 3577-3580.

27. Freitag D., McCallum A. Information extraction with HMM structures learned by stochastic optimization // Proc. of the National Conf. on Artificial Intelligence. - Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press, 2000. P. 584-589.

28. Abou-Moustafa K. T., Cheriet M., Suen C. Y. On the structure of hidden Markov models // Pattern Recognition Letters. 2004. Vol. 25. N 8. P. 923-931.

29. Кушнир Д. А. Алгоритм формирования структуры эталона для пословного дикторонезависимого распознавания команд ограниченного словаря // Штучный інтелект. Київ, 2006. № 3. С. 174-181.

30. Viterbi A. J. Error bounds for convolutional codes and asymptotically optimal decoding algorithm // IEEE Transactions on Information Theory. Apr. 1967. Vol. IT-13. P. 260-269.

УВАЖАЕМЫЕ АВТОРЫ!

Национальная электронная библиотека (НЭБ) продолжает работу по реализации проекта SCIENCE INDEX. После того как Вы зарегистрируетесь на сайте НЭБ (http://elibrary.ru/ defaultx.asp), будет создана Ваша личная страничка, содержание которой составят не только Ваши персональные данные, но и перечень всех Ваших печатных трудов, имеющихся в базе данных НЭБ, включая диссертации, патенты и тезисы к конференциям, а также сравнительные индексы цитирования: РИНЦ (Российский индекс научного цитирования), h (индекс Хирша) от Web of Science и h от Scopus. После создания базового варианта Вашей персональной страницы Вы получите код доступа, который позволит Вам редактировать информацию, помогая создавать максимально объективную картину Вашей научной активности и цитирования Ваших трудов.

i Надоели баннеры? Вы всегда можете отключить рекламу.