Научная статья на тему 'Модификация алгоритма dtw для пофонемного распознавания слов'

Модификация алгоритма dtw для пофонемного распознавания слов Текст научной статьи по специальности «Математика»

CC BY
187
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / SPEECH RECOGNITION / АЛГОРИТМ DTW / ALGORITHM DTW / ПОФОНЕМНОЕ РАСПОЗНАВАНИЕ / PHONEME RECOGNITION

Аннотация научной статьи по математике, автор научной работы — Дорохина Г.В.

Обоснована возможность пофонемной модификации алгоритма DTW. Предложен функционал для вычисления меры расхождения между фонетической транскрипцией слова и распознаваемым сигналом. Разработано представление словаря распознавания. Они составляют основу предложенного метода пофонемного распознавания. В проведенном эксперименте метод пофонемного превзошёл алгоритм DTW по частоте правильного распознавания и показал большую устойчивость к смене звукозаписывающего оборудования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Modification of the Algorithm DTW for Spoken Word Recognition Based on Phoneme Recognition

Article demonstrate the possibility to modify algorithm DTW in order to recognize spoken words phoneme by phoneme. The functional for the calculation of the differences between the phonetic transcription of word and speech signal is proposed. The presentation of recognition vocabulary is developed. The proposed functional and developed presentation of recognition vocabulary form the basis of the proposed method for spoken word recognition speech recognition that uses phoneme recognition. This method surpassed algorithm DTW frequency of correct recognition and showed greater resistance to change recording equipment.

Текст научной работы на тему «Модификация алгоритма dtw для пофонемного распознавания слов»

УДК 004.934+004.8 Г. В. Дорохина

Государственное учреждение «Институт проблем искусственного интеллекта», г. Донецк 83048, г. Донецк, ул. Артёма, 118-б

МОДИФИКАЦИЯ АЛГОРИТМА DTW

ДЛЯ ПОФОНЕМНОГО РАСПОЗНАВАНИЯ СЛОВ

G. V. Dorokhina

Public institution «Institute of Problems of Artificial intelligence», Donetsk 83048, c. Donetsk, 118 "b" Artjoma st.

MODIFICATION OF THE ALGORITHM DTW FOR SPOKEN WORD RECOGNITION BASED ON PHONEME RECOGNITION

Г. В. ДорохЫа

Державна установа «1нститут проблем штучного штелекту», м. Донецьк 83048, м. Донецьк, вул. Артема, 118-б

МОДИФ1КАЦ1Я АЛГОРИТМУ DTW

ДЛЯ ПОФОНЕМНОГО РОЗП1ЗНАВАННЯ СЛ1В

Обоснована возможность пофонемной модификации алгоритма DTW. Предложен функционал для вычисления меры расхождения между фонетической транскрипцией слова и распознаваемым сигналом. Разработано представление словаря распознавания. Они составляют основу предложенного метода пофонемного распознавания. В проведенном эксперименте метод пофонемного превзошёл алгоритм DTW по частоте правильного распознавания и показал большую устойчивость к смене звукозаписывающего оборудования. Ключевые слова: распознавание речи, алгоритм DTW, пофонемное распознавание.

Article demonstrate the possibility to modify algorithm DTW in order to recognize spoken words phoneme by phoneme. The functional for the calculation of the differences between the phonetic transcription of word and speech signal is proposed. The presentation of recognition vocabulary is developed. The proposed functional and developed presentation of recognition vocabulary form the basis of the proposed method for spoken word recognition speech recognition that uses phoneme recognition. This method surpassed algorithm DTW frequency of correct recognition and showed greater resistance to change recording equipment.

Key words: speech recognition, algorithm DTW, phoneme recognition.

Обфунтовано можливють пофонемноТ модифкаци алгоритму DTW. Запропоновано функцюнал для обчислення мiри розбiжностi мiж фонетичною транскрип^ею слова i сигналом, який розтз-нають. Розроблено представлення словника розтзнавання. Вони складають основу запропоно-ваного методу пофонемного розтзнавання. У проведеному експеримент метод пофонемного перевершив алгоритм DTW по частой правильного розтзнавання i показав бтьшу стшкють до змши звукозаписувального обладнання.

Ключовi слова: розп1знавання мовлення, алгоритм DTW, пофонемне розп1знавання.

Важная роль в решении задач распознавания речи принадлежит методу Dynamic Time Warping (DTW), интерпретируемому как нелинейное растяжение-сжатие оси времени. Он являлся доминирующей парадигмой для распознавания изолированных слов с малым словарём распознавания. DTW в своей области применения давал очень хорошие результаты и фактически превосходил скрытые модели Маркова. От DTW по существу отказались из-за следующих проблем: введение модели языка не было естественным; задача построения синтетических эталонов осталась нерешенной; не найдено единой статистической формулировки распознавания, включающей все модули распознавания речи [1 с. 53-54].

Известно также о других проблемах метода распознавания по алгоритму DTW. Проблема большого разброса длин эталонов состоит в следующем. Если длина одного из эталонных сигналов значительно меньше длин остальных, мера расхождения от него до распознаваемого сигнала будет минимальной. Другая проблема метода формулируется так: «корректное временное выравнивание двух произнесений различных слов не является чётко определённой лингвистической концепцией» [2, с. 225].

Настоящая статья является развитием работы [3] и продолжает усилия кол-лек-тива под руководством В. Ю. Шелепова (ГУ «Институт проблем искусственного интеллекта») по решению проблемы синтетических эталонов - обучения небольшого набора базовых речевых единиц, более мелких, чем распознаваемые, и распознавания на их основе речевых единиц заданного словаря. Такой более мелкой единицей может выступать фонема - группа звуков, обладающих определенной артикуляторно-слуховой общностью и функционально друг другу не противопоставленных, т.е. не встречающихся в одинаковом положении в фонетической структуре слова [4].

В ГУ «Институт проблем искусственного интеллекта» успешно развивается метод дифонного распознавания [5-7], где в качестве базовых единиц используются дифоны. К настоящему моменту метод дифонного распознавания позволяет создавать системы распознавания слов со словарём в десятки тысяч слов. В то же время представляет интерес модификация алгоритма DTW, которая позволяла бы использовать образ фонемы целиком, включая и стационарную часть, и межфонемный переход.

Реализации фонемы, её варианты, обусловленные конкретным фонетическим окружением, называют аллофонами. Последовательность аллофонов слова является связующим звеном между звучанием и написанием слова. Символьное обозначение последовательности аллофонов слова называют фонетической транскрипцией.

Целью работы является развитие методов распознавания речи за счёт разработки метода пофонемного распознавания слов на основе алгоритма DTW.

Для достижения цели сформулированы и решены следующие задачи: обоснование возможности пофонемной модификации алгоритма DTW; разработка метода пофо-немного распознавания; численное исследование программно-реализованного метода.

Обоснование возможности пофонемной модификации алгоритма DTW

Алгоритм DTW позволяет вычислить меру расхождения между эталоном E и распознаваемым сигналом R, представленными последовательностями векторов признаков:

E = el, e2,..£1,...en, (1) R = r2,..r] ,..rm . (2)

Вычисление меры расхождения d(E,R) производят путём вычисления матрицы расстояний D между векторами эталона ei и распознаваемого сигнала г

D =

dll du d 21 d 22

d

d„

, dij = d(ehrJ) .

(3)

п1 п2

Далее, по матрице D вычисляют элементы DTW-матрицы К

К =

к^1 к

12

к к

кк

к

(4)

по рекуррентным формулам:

кц = dll, klJ = dlj + к1(,-1), 7е[2; т],

кц = dil + к(г_ 1)1, 1е[2; п],

(5)

ку = d1J + min( к(г-1)(/_1) , к^J , к^) ), 1,7е[2; п].

Меру расхождения между эталоном Е и сигналом R определяют как:

d(E,R) = кпт (6)

Кроме определения меры расходжения между эталоном Е и сигналом R, полученная DTW-матрица К позволяет определить множество М пар номеров (р, ц) соответствующих друг другу векторов е1 и г [4]:

М = {(ръ, дк)}, И е [1Н], (7)

где Н - количество соответствующих друг другу пар векторов. Эти пары определяются итеративно по формулам:

рн = п, цн = т, (Рн-^ = а1Етт(к„'ц),

(р', Ц)еРи

(8)

где

Рн ={(р',ч'): Рн-1 <р'<Ри, Чи-1< Цн, (р'^Ри^ цИ) })

Р1 = 1, Ц1 = 1.

Множество М состоит из пар индексов (рь, ) таких, что элементы к

матрицы К принимают участие в формировании кпт. Если обратиться к рекуррентным формулам (5), использованным для формирования значений матрицы К, видно, что мера расхождения ^(Е, R) представима в виде суммы

d (Е, R) = £ d (ери, гЧк).

(9)

И=1

Покажем, что возможно модифицировать алгоритм DTW таким образом, что станет возможным пофонемное сопоставление двух различных произнесений одного и того же слова без изменения меры расхождения между ними.

Пусть сигналы Е и R - параметрические представления различных произнесений одного и того же слова. Известна фонетическая транскрипция Т = ..., и, ..., и/), обозначающая последовательность аллофонов этого слова. Обозначать аллофоны будем с помощью символов алфавита А. Дан вектор границ В = (Ь1, ..., Ъг, ..., Ь/) аллофонов в эталоне Е, где Ьг - номер первого вектора признаков еЪ в сигнале Е,

который принадлежит г-му аллофону иг. По вектору В и множеству М получим В' -вектор границ аллофонов в сигнале R:

В'=(Ъ'Ь ..., Ъ'ь ..., Ъ'/), (10)

где V/ = 1, / Ъ= qk : р, Хк)е М, pk= Ъ,.

Обозначим через Е[х; у] последовательность векторов признаков ех, ех+1,..., еу, сигнала Е. Будем называть Е[х; у] фрагментом сигнала Е. Аналогично для R[x'; у']. Можем говорить о соответствии фрагментов Е[Ъг; Ъ/+1-1] и R[Ъ'г■; Ъ'г+1-1], представляющих аллофон и в сигналах Е и R. Это даёт возможность говорить о нахождении меры расхождения между Е и R путём сопоставления их фрагментов, соответствующих отдельным аллофонам. Действительно, величина (9) может быть представлена как сумма мер расхождения между участками эталонного и распознаваемого сигнала, соответствующими одному и тому же аллофону:

/ Ъ,+,-1

d (Е К) = d (ерх, Гх ^

(11)

считая, что Ъ/+1 = п+1 и Ъ'/+1 = т+1.

То есть меру расхождения d(E,R) можно вычислять пофонемно, если известен путь выравнивания М. Наличие информации о фрагменте пути выравнивания до конца /-го аллофона без вычисления всей DTW-матрицы позволило бы сократить вычислительные затраты, так как потребовалось бы вычислять не всю матрицу К, а только области, соответствующие границам каждого аллофона в эталонном и распознаваемом сигнале - подобно приведенному на рис. 1, где вычислению подлежат только незаштрихованные ячейки матрицы.

Рисунок 1 - Пример вычисления DTW-матрицы пофонемно

Покажем, что это возможно, разработав алгоритм определения элементов множества M при прямом прохождении DTW-матрицы K.

Наполняя множество M, будем перемещаться от ячейки с индексами (1, 1) к ячейке с индексами (n, m).

Могут возникнуть ситуации, когда в процессе выполнения алгоритма потребуется перестроить фрагмент пути выравнивания путём замены нескольких последних элементов этого множества другими. Для правильной работы алгоритма необходимо потребовать, чтобы элементы во множестве M были перенумерованы таким образом, что пара (pi, qt) е M с большим порядковым номером i соответствовала элементу

kp q с большим значением. То есть:

Hi 4i

V i > j kp, q, > kPj q ,

где (pi, q,) и (pj, qj) - элементы пути выравнивания M, а kp, и kp q, -

элементы DTW-матрицы.

Алгоритм поиска пути выравнивания при прямом проходе DTW-матрицы начинаем с добавления в него пары индексов (1, 1). Для краткости будем называть элемент DTW-матрицы, индексы которого хранятся в элементе множества M с наибольшим порядковым номером h, рабочим элементом, а саму эту пару индексов -индексами рабочего элемента.

Пусть kp qh - рабочий элемент. Исходя из алгоритма вычисления элементов

DTW-матрицы, элемент k(Ph +i) равен DTW-расстоянию между фрагментами эталонного и распознаваемого сигналов E[1,ph +1] и ,К[1,qh +1], соответственно:

k(ph +1) (qh +1) = d (E[1, Ph +1], Д[1, qh + 1]) • В формировании значения k( ph +1) q +1) принимает участие либо рабочий элемент kph qh, либо один из соседних с ним элементов: k(Ph +1) или kph( +1). По отношению k( +1)( +1) элемент, формирующий его значение, принадлежит пути выравнивания фрагментов сигналов E[1, Ph +1] и R[1, qh +1]. Это следует из алгоритма поиска пути выравнивания при обратном проходе DTW-матрицы (8).

Проверив, совпадает ли рабочий элемент kp q с элементом, используемым при

формировании значения k( +1), мы выясняем принадлежит ли рабочий элемент

пути выравнивания фрагментов сигналов E[1, Ph +1] и R[1, qh +1]. Подтвердив принадлежность элемента kp q пути выравнивания, предполагаем принадлежность пути выравнивания элемента k( +1)( +1). Для этого добавляем в путь выравнивания M пару (Ph +1, qh +1), таким образом назначая k( Ph +1) рабочим элементом.

Если же в формировании значения k( Ph +1) принимает участие не рабочий

элемент, то последний не может принадлежать пути выравнивания. Следовательно, путь выравнивания необходимо корректировать. Для этого формируем множество M' - корректирующий фрагмент пути выравнивания. Потребуем такой упорядоченности элементов множества M', чтобы элементы с большим номером являлись индексами элемента DTW-матрицы с меньшим значением.

Строить корректирующий фрагмент пути выравнивания М' будем путём обратного прохода DTW-матрицы от элемента, сформировавшего значение к( +1),

до тех пор, пока очередной найденный элемент (//, j¡) корректирующего фрагмента пути выравнивания М' не окажется принадлежащим пути выравнивания М. Допустим, g -наибольший номер элемента (рё, пути выравнивания М, совпадающий с найденным элементом (/ ^ j)

Корректируем путь выравнивания М, удалив из него элементы с номерами

с = g +1, h и затем добавив элементы корректирующего фрагмента пути выравнивания М'.

Описанные действия с рабочим элементом повторяем итеративно, пока индексами рабочего элемента не станет пара (п, т).

Во всех экспериментах путь выравнивания М, определяемый по приведенному алгоритму (рис. 2) совпадает с получаемым при обратном проходе DTW-матрицы согласно (8).

2. Итерративное определение пары номеров соответствующих друг друеу векторов эталонного и распознаваемого сигнала на (к+\)-омшаге:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2.2.2 иначе Пересчитать путь выравнивания М, от элемента с индекса?ш (р,д), до первого элемента, принадлежащего пути выравнивания М

2.2.2.4

М-.= М\(ре,яс),с = Е + \к

2.2.2.5 М:=МиМ', к=\М\

Условие останова: рь+\ = п, = т.

4. Результат:

№ = {(рИ,дИ)}Ц= 1

Рисунок 2 - Поиск пути выравнивания при прямом проходе DTW-матрицы

Перейдём к разработке алгоритма (рис. 3) вычисления меры расхождения между образом непоследнего аллофона ti слова с транскрипцией T=(t1, ..., ti, ..., ti) и соответствующего ему фрагмента распознаваемого сигнала R[bi, bi+1-1].

Пусть i-й и (i+ 1)-й аллофоны слова принимают значения g и h из алфавита A. Пусть последовательность векторов Egh = e1,e2,...ec. представляет аллофон g, за которым

следует аллофон h. Здесь последовательность векторов e1,e2,...ecc, описывает аллофон g и межфонемный переход между аллофонами g и h, а последовательность векторов ec_c,+1,...ec относятся к аллофону h. Будем также называть Egh эталоном пары аллофонов.

Считаем bi, левую границу i-го аллофона в распознаваемом сигнале R, известной. Левую границу bi+1 следующего за ним (¿+1)-го аллофона в сигнале R получим в процессе вычисления искомой меры расхождения d(Egh, R[bi, bi+1]).

1. Инициализация

1.1 ku :=d(ei. r^ )

1.2 Aji := d(es, rb, ) + A(i-i)l; J€[2: c]

1.3 kn ■=

1.4 fei := d(es, ) + min Afr-Di, fei)- с]

1.5/:= 1 :j := Ььр := 1: q := bh

2. Пока (p < с) л (q <m) выполнять

2.1 если q—j+1 то

2.1.1 friij+i := k\cf+ d\r\

2.1.2 fc^+i :=dS!f+1 + min (Afc-i)^г-о^+оЛч+О? c]

2.2 f-.=p,j:=q

2.3 (p,q):= argmin {kp>q>),

гдеPfJ= {(p'r q '):f<p <f+l,J < q '<j +Lp'< n, q '< m, [p'=f^{q '=;}}

2.4 если (p=f л q=j) то p:=f+l, q: =/+1

3. Если (p < с) л (m - q)

3.1 то

Результат:

hj-\ := т. - номер вектора, соответствующего началу (¡+1)-го аллофона, d(Egk* £[¿4, &м]) :— -1 («отказ от распознавания»)

3.2 иначе

3.2.1 f\=p,j\=q

3.2.2 Пока (р>1) л (q>hi) > (р > с-с') выполнять (p,q) '■- arg min (¿у') .

СП>/

где /={(/'. i'):f-l <f<fj-l<j'<jj>lj'>hf'=f-lvj'=j-l}

3.2.3 Результат;

bh-1 := g + 1 - номер вектора, соответствующего началу (¡+1)-го аллофона. d{Esh. Ä[bf, ^н-l]) '=kPq- искомая мера расховдения

Рисунок 3 - Вычисление меры расхождения между эталоном i-го аллофона слова и фрагментом речевого сигнала

Для этого вычисления нам понадобится DTW-матрица К размерности с*т. Заполнять её, двигаясь вправо и вниз, будем так же как в алгоритме построения пути выравнивания (рис. 2), опираясь на введённое там понятие «рабочего элемента». Заполнение будет происходить, пока рабочим элементом не станет некоторый элемент кс д строки с номером с. При анализе рабочего элемента к^ используются элементы

столбцов и (дН+1). Поэтому алгоритм начнём с вычисления первых двух столбцов и далее при каждом изменении номера столбца рабочего элемента будем вычислять значение ещё одного столбца.

Если на некотором шаге итерации индексы рабочего элемента приняли значение (р, т) и р<с, делаем вывод о несоответствии распознаваемого сигнала R слову с транскрипцией Т, поскольку были достигнуты границы сигнала и не достигли границы непоследнего аллофона. В этом случае присвоим искомой мере расхождения значение -1 и будем говорить, что произошёл «отказ от распознавания».

По достижении индексами рабочего элемента значения (с, д) начинаем обратный проход по DTW-матрице пока текущим элементом обратного прохода не станет элемент к(с-С) . Это и есть искомая мера расхождения, а значение (д1+1) - левая

граница (/+1)-го аллофона в распознанном сигнале.

В экспериментальной части данной работы для константы с' использовано значение 2.

Для обозначения паузы, следующей за последним аллофоном слова, введём в алфавит аллофонов А специальный символ Л . Обозначим через d'(EgX, R[Ъ/, т]) меру расхождения между эталоном последнего аллофона Е^ слова и фрагментом R[Ъ/, т] и будем вычислять её по алгоритму DTW.

Метод пофонемного распознавания

Метод пофонемного распознавания опирается на предлагаемые в данной работе представления словаря распознавания и функционал для вычисления меры расхождения между транскрипцией слова и распознаваемым сигналом. Представление словаря распознавания W:

W(A, Еи, G). (12)

Здесь А - упорядоченное множество транскрипционных символов и символ X, обозначающий паузу, следующую за последним аллофоном слова; Еи = {Еф} -

упорядоченное множество эталонов Ен = еье2,...,ес пар аллофонов g,Н е А; G -

множество написаний слов с ударением, по каждому из которых система распознавания строит фонетическую транскрипцию Т.

Введём функционал для вычисления меры расхождения между словом словаря с транскрипцией Т и распознаваемым сигналом R:

Р (Т, R) =

-1,3 г = 1, / -1: dЩ , R[Ъi, Ъ|Ч1 ]), Ъ|Ч1 > т

/-1 , Ъ1 = 1 (13)

2 d(Еии гм , Щ-Ъг, Ъ/+1]) + d'(Л, Щ-Ъ/, m]), иначе

г=1

Данный функционал позволяет принимать значение -1, если происходит «отказ от распознавания» - описанный выше случай несоответствия распознаваемого сигнала транскрипции.

Результат распознавания будем вычислять по формуле:

res = arg min F (Tj, R) : F (Tj, R) * -1, (14)

j

Для решения проблемы большого разброса длин эталонов автором предложено нормировать меру расхождения между эталонным и распознаваемым сигналом по длине диагонали прямоугольника, длины сторон которого равны длинам эталонного и распознаваемого сигнала. Исследование [5] показало, что этот способ нормировки меры расхождения даёт лучший результат в сравнении с другими способами решения данной проблемы. Применим его к пофонемному распознаванию.

Введем функционал F1(T, R), выполняющий нормировку меры расхождения по длине синтезированного эталона слова (последовательности эталонов аллофонов слова). Алгоритм вычисления меры расхождения d1(Egh, R[bi, bi+1], ui) c сохранением длины ui эталона аллофона Egh, будет отличаться от приведенного на рис. 3 только на этапе получения результата (рис. 3) тем, что на шагах 3.1 и 3.2.3 будет добавлена операция:

Uj := c - c'.

Аналогично поступим и с мерой расхождения последнего аллофона слова и фрагмента сигнала d\(Eg\, R[bi, m], u/).

Функционал F1(T, R), учитывающий нормировку по длине синтезированного эталона слова, примет вид:

F1(T, R) =

l-1

Zd1 (EthtM'R[bi'b+1]'ui) + d1 (Ett,x, R[bi, mlui)

j=1

-1, иначе

l

2 2 n + m

-, Vi = 1, l -1 bi+1 < m

,b1 = 1. (15)

l

Здесь n = Z Ui - сумма длин эталонов ui аллофонов, которые определяются

i=1

при вычислении мер расхождения d1(Egh, R[bi, bi+1], ui) и d\(Egx, R[bl, m], ul).

Результат распознавания, учитывающий нормировку по длине синтезированного эталона, будем вычислять по формуле:

res = argmin F1(Tj, R) : F2(Tj, R) *-1. (16)

j

Численное исследование

В качестве тестового набора, включающего 138 слов (рис. 4), использован речевой материал одного диктора, записанный как 8-битный сигнал с частотой дискретизации 22 050 Гц с помощью двух разных микрофонов (обозначим их «Mic» и «Mic1»), и звуковых карт («SB» и «SB1») при сходном акустическом окружении. Символ «_» в написании слов (рис. 4, 5) обозначает, что следующий за ним гласный является ударным.

Характеристики словаря выбраны так, чтобы продемонстрировать работу алгоритма DTW и предложенного метода в наиболее трудном для распознавания случае. Перечень слов тестового набора выбран исходя из следующего свойства алгоритма DTW. Он имеет тенденцию к пропуску отличающихся элементов и учёту сходных, что при отсутствии ограничений на длительность соответствующих друг другу элементов

речевого сигнала снижает значимость полученной меры расхождения. Исходя из этого наиболее трудными для распознавания по алгоритму DTW будут словари, содержащие большое количество пар фонетически близких слов. В выбранный для эксперимента словарь входят пары слов, отличающихся одним аллофоном (задыш_ать -надыш_ать, затопать - натопать, л_ай - м_ай, нас_едка - сос_едка); некоторые слова являются фрагментом других (дыш_ать - надыш_ать, задышать), другие начинаются или оканчиваются одинаковой последовательностью аллофонов (нас_едка - нас_ест, минов_ать - полинов_ать); длина слов существенно различается.

Для построения множества эталонов пар аллофонов использован набор аудиофайлов, содержащий однократное произнесение диктором слов (рис. 5). В аудиофайлах обучающего набора отмечены границы аллофонов. Этот набор записан с помощью микрофона и звуковой карты, обозначенных как «Mic» и «SB», соответственно.

_унт, алл_ель, б_оль, багат_ель, бал_ет, бал_етки, балаб_олить, балов_ать, вал_ет, воров_ать, г_оголь, г_огот, г_оль, г_опать, гал_ета, гал_етка, гогот_ун, д_ив, дыш_ать, заболев_ать, завод_ила, задыш_атъ, залив_ать, засев_ать, зат_опать, кад_ило, калев_ать, карав_ай, карот_ель, кив_ать, килев_ать, кис_ель, кис_ет, ков_атъ, кол_ено, кол_ет, колт_ун, л_ай, л_ен, л_ента, л_ето, л_етом, л_иф, линов_ать, лод_ыжка, лом_ать, м_ай, м_атъ, м_елево, м_ель, м_ена, м_есто, м_етка, м_етод, мет_елица, мет_ель, мет_ил, минов_ать, на6алов_ать, наворов_ать, надков_ать, надыш_ать, нал_ив, налив_атъ, налинов_ать, налом_ать, нас_едка, нас_ест, насев_ать, нат_опать, од_ышка, однол_етка, ол_ифа, от_ель, отков_ать, пал_етка, паралл_ель, паров_ать, пат_ент, патов_ать, пл_ед, пл_ен, пл_и, плинтов_ать, по6алов_ать, поворов_ать, под_и, подков_ать, подыш_ать, пол_ено, пол_ив, полив_атъ, полинов_ать, полом_ать, пос_етовать, пот_опатъ, продыш_ать, прол_ив, пролив_ать, пролинов_ать, пролом_ать, просев_атъ, прот_ест, прот_опать, с_ель, сено, с_ет, с_етка, с_етоватъ, своров_ать, сел_ен, синаг_ога, сов_ать, сол_ило, сос_ед, сос_едка, ст_оль, став_ать, стогов_ать, т_ент, т_ест, т_есто, т_ет-а-т_ет, т_ога, т_оль, т_опать, т_опливо, т_ополь, т_опот, т_ун, ф_и, ф_ила, ф_ифа, фас_ет, фас_етка, хал_иф, хохот_ун, целов_ать

Рисунок 4 - Слова тестового набора

_ил, -унт, б_оль, бал_етки, г_оголь, дыш_ать, за6алов_ать, завод_ила, задыш_ать, зат_опать, кар_отель, кив_ать, Еилев_ать, кис_ет, кол_ено, кол_ет, колт_ун, л_ай, л_ента, л_етом, л_и, лод_ыжка, лом_атъ, м_ай, м_елево, м_есто, мет_елица, метил, минов_атъ, на6алов_ать, надыш_ать, налинов_ать, налом_ать, нас_едка, нас_ест насев_ать, нат_опать, однол_етка, ол_ифа, паралл_ель, пл_ен, продыш_ать, прот_опать, своров_атъ, сос_едка,

Рисунок 5 - Слова набора для обучения пар аллофонов

Численное исследование проведём путём сравнения частоты правильного распознавания слов: алгоритмом DTW; алгоритмом DTW с нормировкой меры расхождения между эталонным и распознаваемым сигналом по длине диагонали прямоугольника, длины сторон которого равны длинам эталонного и распознаваемого сигнала (в табл. 1 обозначено «DTW_W»); предложенным методом пофонемного распознавания.

В исследовании использованы 4 тестовых набора. Символом «*» в табл. 1 отмечены наборы, в которых использовано то же оборудование (микрофон, звуковая карта), что и в обучающем наборе. Результаты численного исследования приведены в табл. 1.

Таблица 1 - Результаты численного исследования

№ Микрофон Звуковая карта DTW DTW_W Пофонемное распознавание *

1. Mic SB 87 104 119 *

2. Mic1 SB 19 31 104

3. Mic SB1 16 31 95

4. Mic1 SB 20 38 99

В описанном эксперименте предложенный метод пофонемного распознавания по частоте правильного распознавания на тестовых наборах превзошёл алгоритм DTW и алгоритм DTW с нормировкой меры расхождения между эталонным и распознаваемым сигналом по длине диагонали прямоугольника, длины сторон которого равны длинам эталонного и распознаваемого сигнала. Предложенный метод также более устойчив к смене звукозаписывающего оборудования (микрофона и звуковой карты).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выводы

В работе получили дальнейшее развитие методы распознавания речи за счёт разработки метода пофонемного распознавания слов на основе алгоритма DTW. Обоснована возможность пофонемной модификации алгоритма DTW. Метод пофонемного распознавания опирается на предложенный функционал для вычисления меры расхождения между фонетической транскрипцией слова и распознаваемым сигналом, а также представление словаря распознавания, включающее: алфавит аллофонов; множество эталонов пар аллофонов; множество написаний слов, которое система распознавания преобразует во множество фонетических транскрипций слов.

В проведенном эксперименте метод пофонемного превзошёл алгоритм DTW по частоте правильного распознавания и показал большую устойчивость к смене звукозаписывающего оборудования.

К недостаткам работы можно отнести следующее. При обосновании возможности пофонемной модификации алгоритма DTW указано, что путь выравнивания и искомая мера расхождения сигналов не изменятся в сравнении с получаемыми по алгоритму DTW, если выдвинуть некоторые требования к эталонам пар аллофонов. Однако формально эти требования не описаны. Использованный для численного исследования эксперимент выполнен на малом количестве данных. Не рассмотрены результаты работы алгоритма DTW и предложенного метода пофонемного распознавания при использовании техники квантования векторов.

Указанные недостатки не уменьшают значение полученных результатов и являются предметом дальнейших исследований.

Список литературы

1. Jelinec F. Statistical methods for speech recognition / F. Jelinec- The MIT Press, Cambridge, Massachusetts, London, England, 1998. - P. 283.

2. Rabiner L. Fundamentals of speech recognition / L. Rabiner, B.-H. Juang. - New Jersey, 1993. - P. 507.

3. Козлов А. В. Система пофонемного распознавания отдельно произносимых слов / А. В. Козлов, Г. В. Саввина, Шелепов В. Ю. // Искусственный интеллект. - 2003. - № 1. - С. 156-165.

4. Панов М. В. Современный русский язык. Фонетика : учебник для ун-тов / Панов М. В. - М. : Высш. школа, 1979. - 256 с.

5. Шелепов В. Ю. О распознавании речи на основе межфонемных переходов / В. Ю. Шелепов, Г. В. Дорохина, А. В. Ниценко // Искусственный интеллект. - 2012. - № 1. - C.132-140.

6. Шелепов В. Ю. О некоторых вопросах, связанных с дифонным распознаванием и распознаванием слитной речи / В. Ю. Шелепов, А. В. Ниценко, Г. В. Дорохина // Искусственный интеллект. - 2013. -№ 3 - C. 209-216.

7. Бурибаева А. К. Сегментация и дифонное распознавание речевых сигналов / А. К. Бурибаева, Г. В. Дорохина, А. В. Ниценко, В. Ю. Шелепов // Тр. СПИИРАН. - 2013. - Вып. 8(31). - С. 20-42.

8. Шелепов В. Ю. О некоторых подходах к проблеме компьютерного распознавания устной русской речи / В. Ю. Шелепов, О. А. Дорохин, А. В. Засыпкин, Н. А. Червин // Труды Междунар. конф. «Знание - Диалог - Решение». - Том 1. - Ялта, 1997. - С.234-240.

9. Дорохина Г. В. Анализ методов распознавания речевых команд на основе алгоритма DTW / Г. В. Дорохина // Труды шестого междисциплинарного семинара «Анализ разговорной русской речи», АР3-2012, 27-28 августа 2012, г. Санкт-Петербург. - С . 29-34.

References

1. Jelinec F. Statistical methods for speech recognition. - The MIT Press, Cambridge, Massachusetts, London, England, 1998., P. 283.

2. Rabiner L., Juang B.-H. Fundamentals of speech recognition. - New Jersey, 1993. - p. 507

3. Kozlov A.V. Isolated word recognition system based on phoneme recognition / A.V.Kozlov, G.V. Savvina, V.U. Shelepov // Artificial Intelligence. - 2003. - №1. - С. 156-165.

4. Shelepov V.Ju. On Speech Recognition Using Phoneme Transition Base / V.Ju. Shelepov, A.V. Nicenko, G.V. Dorohina // Artificial Intelligence. — 2012. — №1. — C.132-140.

5. Nicenko A.V. On Some Questions of Diphone Recognition and Recognition of Continuous Speech / A.V. Nicenko, V.Ju. Shelepov, G.V. Dorohina // Artificial Intelligence. - 2013. - №3 - C. 209-216.

6. Buribayeva A.K. Segmentation and diphone recognition of speech signals / A.K. Buribayeva, G.V. Dorokhina, A.V. Nitsenko, V.Ju. Shelepov // SPIIRAS Proceedings. - 2013. - Issue 8(31). - P. 20-42.

7. Panov M.V. Modern Russian. Phonetics: a textbook for University. - Higher School, Moscow 1979. - P. 256.

8. Shelepov V.Y. On some approaches to the problem of computer speech recognition of spoken Russian / V.Y. Shelepov, O.A. Dorokhin, A.V. Zasipkin, N.A. Chervin // Proceedings of the Intern. Conf. "Knowledge -Dialogue - Solution". - Volume 1 - Yalta, 1997. - S.234-240.

9. Dorokhina G.V. Analysis of methods for spoken words recognition based on the algorithm DTW // Proceedings of the Sixth Interdisciplinary Seminar "Analysis of Russian spoken speech," AR3-2012, August 27-28, 2012 in St. Petersburg. - p. 29-34.

RESUME

G. V. Dorokhina

Modification of the Algorithm DTW for Spoken Word Recognition Based on Phoneme Recognition

Background: The dominant paradigm for small vocabulary isolated speech recognition was Dynamic Time Warping (DTW). DTW gave very good results, in fact, for its field of application, better ones that HMMs did. DTW was essentially abandoned because of following problems: incorporation of language model was not natural; the problem of construction of synthetic prototypes remained unsolved; a unified recognizer statistical formulation incorporating all speech recognizer modules was never found [1 p. 53-54]. This work addresses the problem of synthetic templates - learning a small set of basic speech units smaller than recognized, and using these basic speech units to recognize units of given dictionary.

Materials and methods: Article demonstrate the possibility to modify algorithm DTW in order to recognize spoken words phoneme by phoneme. The functional for the calculation of the differences between the phonetic transcription of word and speech signal is proposed. The presentation of recognition vocabulary is developed. The proposed functional and developed presentation of recognition vocabulary form the basis of the proposed method for spoken word recognition speech recognition that uses phoneme recognition

Results: The proposed method surpassed algorithm DTW in frequency of correct recognition and showed greater resistance to change recording equipment.

Conclusion: Got the development of methods for isolated spoken word recognition through the use proposed functional for the calculation of the differences between the phonetic transcription of word and speech signal and developed presentation of recognition vocabulary. This method surpassed algorithm DTW in frequency of correct recognition and showed greater resistance to change recording equipment.

Статья поступила в редакцию 14.10.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.