Научная статья на тему 'Распознавание фонем речи'

Распознавание фонем речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
933
182
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пресняков Игорь Николаевич, Омельченко Сергей Васильевич

Рассматриваются алгоритмы распознавания фонем речи на основе результата выбеливания решетчатых фильтров, коэффициентов отражения и логарифмов отношения площадей сечений голосового тракта. Синтез алгоритмов распознавания выполняется с применением различных алгоритмов оценивания признаков и различных решающих правил. Проводятся исследования алгоритмов распознавания фонем речи

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пресняков Игорь Николаевич, Омельченко Сергей Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Recognition of phoneme in speeches

Considered row of recognition algorithms phonemes of speech. Bowed comparative row analysis out of recognition algorithms with use of reverberation coefficients and sections areas relation logarihm of vocal high road.

Текст научной работы на тему «Распознавание фонем речи»

Лысак Владимир Валерьевич, канд. физ.-мат. наук, ст. пр. кафедры ФОЭТ ХНУРЭ. Научные интересы: волоконно — оптические системы передачи данных, фотонные кристаллы, системы формирования сверхкоротких импульсов, методы моделирования динамического поведения полупроводниковых лазеров на основе наноразмерных структур. Член IEEE LEOS с 2002 г. Увлечения: спорт, путешествия. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, [email protected].

Сухоиванов Игорь Александрович, д-р физ.-мат. наук, профессор кафедры ФОЭТ ХНУРЭ. Руководитель международной научно-учебной лаборатории «Фотоника». Почетный член и руководитель Украинского отделения общества лазерной и оптоэлектроноой техники международного института инженеров электронной техники (IEEE LEOS). Научные интересы: волоконно-оптические технологии, полупроводнико-

вые квантоворазмерные лазеры и усилители, фотонные кристаллы и методы их моделирования. Увлечения: путешествия. Адрес: Украина, 61166, Харьков, пр.Ленина, 14, [email protected].

Якушев Сергей Олегович, студент ф-та ЭТ ХНУРЭ. Научные интересы: системы и методы формирования сверхкоротких импульсов, методы их моделирования; полупроводниковые оптические усилители сверхкоротких оптических импульсов. Увлечения: спорт. Адрес: Украина, 61166, Харьков, пр.Ленина, 14.

Шулика Алексей Владимирович, аспирант кафедры ФОЭТ ХНУРЭ. Научные интересы: физика низкоразмерных структур, эффекты переноса носителей заряда в низкоразмерных гетероструктурах, моделирование активных и пассивных фотонных компонентов. Увлечения: путешествия. Адрес: Украина, 61166, Харьков, пр.Ленина, 14, [email protected].

УДК 621.391, 681.327.12

РАСПОЗНАВАНИЕ ФОНЕМ РЕЧИ

ПРЕСНЯКОВ И.Н., ОМЕЛЬЧЕНКО С.В.________

Рассматриваются алгоритмы распознавания фонем речи на основе результата выбеливания решетчатых фильтров, коэффициентов отражения и логарифмов отношения площадей сечений голосового тракта. Синтез алгоритмов распознавания выполняется с применением различных алгоритмов оценивания признаков и различных решающих правил. Проводятся исследования алгоритмов распознавания фонем речи

Введение

Распознавание речи необходимо для решения прикладных задач в связи. Так, в частности, для предоставления пользователю мобильной связи дополнительных услуг рационально перейти от клавишного к простому вводу путем побуквенного произнесения фонем. Поэтому актуальными остаются разработки алгоритмов распознавания речи, работа которых обеспечивает наилучшее соответствие результатов распознавания произнесенным фонемам и буквам. Система должна быть способна автоматически выявлять и корректировать азбучные (т. е. однобуквенные) аномалии при побуквенном произнесении фонем.

Для распознавания речи возможно использование ряда оценок параметров, включая спектральные оценки, измеряемые с помощью набора полосовых фильтров, соответствующих формантным частотам, а также характеристики кодирования на основе линейного предсказания. Такой ряд оценок параметров образован совокупностью измерений в разные моменты времени.

Каждый из приведенных выше наборов признаков обеспечивает хорошее кодирование свойств речи на коротких интервалах времени (отрезках речи), и

временные изменения этих характеристик можно, как правило, использовать при описании образа, предназначенного для сравнения с хранимыми эталонами.

Линейное предсказание на основе решетчатых (лестничных) фильтров является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценках функций площадей сечений голосового тракта. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений. Представление коррелированных случайных сигналов моделями в виде решетчатых фильтров находит широкое практическое применение [4-6]. Так, решетчатые фильтры широко применяются для спектрального оценивания случайных сигналов, сегментации речи [4]. Особое практическое значение модели линейного предсказания имеют при создании эффективных алгоритмов распознавания речи на основе результата выбеливания решетчатых фильтров, коэффициентов отражения и логарифмов отношения площадей сечений голосового тракта.

Целью исследования является разработка алгоритмов автоматического распознавания фонем речи.

1. Математическая постановка задачи распознавания фонем

Полагается, что на вход системы распознавания поступает временная последовательность отсчетов

речевого сигнала s(n), n = 0, N -1, взятых с интервалом дискретизации At.

Для создания алгоритмов распознавания важны априорные сведения о вводимых фонемах и буквах.

Эталоны фонем для каждого из дикторов заданы в виде классифицированных обучающих выборок.

РИ, 2004, № 3

59

Считается, что время предъявления речевых единиц в речевом сигнале априори неизвестно. Положим, что априорные вероятности предъявления для всех структурных речевых единиц одного типа одинаковы.

Необходимо построить алгоритм, который по предъявленной реализации речи выносит решения о конкретной фонеме и обеспечивает максимум средней вероятности правильного распознавания фонем.

Голосовой аппарат человека представляет собой акустическую систему, возбуждаемую квазипериодическими импульсными колебаниями голосовых связок и турбулентным шумом. Турбулентный шум образуется путем проталкивания воздуха через сужения в определенных областях голосового тракта. Голосовой аппарат, возбуждаемый указанными источниками, действует как линейный фильтр с изменяющимися во времени параметрами, на выходе которого формируется речевой сигнал. Устройство распознавания речи разрабатывается на основе модели речеобразования, согласно которой речевой тракт человека от связок до губ представляется в виде многосекционной трубы. Ее секции имеют одинаковую длину, но разные диаметры сечения. Такая труба аппроксимируется последовательно соединенными четырехполюсниками. Воздушный импульсный поток, распространяясь со скоростью звука от голосовых связок до губ, испытывает отражения в многосекционной трубе и начинает двигаться к источнику. Отношение амплитуд падающей и отраженной волн называется коэффициентом отражения.

Решение задачи распознавания речи и ряда других задач во многом связано с успешным проведением сегментации речи на речевые единицы. Вначале для составления хранимых эталонов речевых единиц диктора выполняется сегментация фонем. Подобная сегментация на этапе распознавания речевых единиц позволяет исключить избыточные процедуры принятия решений по сигналам, не несущим речевую информацию либо не являющимся целостными речевыми единицами. Задача сегментации состоит в членении речи на структурные единицы и оценивании их временных границ. Некоторые алгоритмы сегментации описаны и исследованы в

[4].

2. Алгоритмы распознавания речи

Рассмотрим распознавание речевого сигнала, полученного в результате предварительной обработки. После преобразования в цифровую форму речевой сигнал s(n) подвергается предыскажению (для подчеркивания высоких частот, что улучшает распознавание) с помощью цифрового фильтра первого порядка с передаточной функцией

H(z) = 1 -a- z _1,

где а и 0,95 .

Для обучающих выборок эталонов производится оценивание параметров

k ет(j) = (k eTi(j),a ет 2(j)v-,a ет p(j))

обеляющего фильтра для каждого v-го блока речевого сигнала.

Начальные ошибки прямого de0,jn и обратного предсказания be0,jn имеют вид

de0,jn = yenj b°’jn = yenj. (1)

Ошибки прямого dem,jn и обратного предсказания bemj могут быть представлены в виде

dem,jn = dem - kmj • bem “1Jn-1, (2)

bem,jn = bem -j-1 - kmj • dem -j. (3)

Коэффициенты отражения (коэффициенты частной корреляции) могут вычисляться через ошибки

предсказания dmn, bmn в соответствии с выражением

N

V(d m-1,j b m-1,j л)

£ (de n • be ,Jn-1)

kетj ““N'

n=1

N

( £(dem-1,jn)2 •£(bem-1,jn-1)2)1/2

(4)

n=1

n =1

где m=1,...,p

Коэффициенты отражения согласно методу максимальной энтропии Бурга

N

2 • I (d е m “j • b е m“1-jn-1)

k етj

n=1

N і • 2 2

£ (d е m-4o2 + £ (b е m-1,jn-1)2 n=1 n=1

. (5)

На этапе принятия решений для каждого блока производится нормирование распознаваемого речевого сигнала:

yt,u

(k)

yt,u

(k)

/(£yx,u(k)2/T)1/2

Х=1

(6)

Рассмотрим алгоритм оценивания результата фильтрации на этапе распознавания.

Полагается, что начальные ошибки прямого d0t и обратного предсказания b0t имеют вид

d0t,u,v(k,j) = yt,u(k) Ошибки прямого dm сказания bmt u v(k,j)

, b0t,u,v(k,j) = yt,u(k). (7) t u v(k,j) и обратного пред-описываются двумя разно-

стными уравнениями:

60

РИ, 2004, № 3

.m (k, j) .m-1 (k, j)

d t,u,vv ,J’ = d t,u,vv ,J’ -

- k (j) • bm_1t i ,, v(k,j) km v b t—1,u,v 5

bm (k,j) _ bm-1 (k,j)

b t,u,v J - ь t-1,u,v _

k (j) dm-1t (k,j) (8)

-km v 'd t,u,vv J •

Результат работы выбеливающего фильтра имеет вид

nt,u,v(k,j) = dpt,u,v(k,j). (9)

Решение на основе средней меры степени r для к-го сегмента принимается в соответствии с выражением

i(k) = arg min R(k’j), je[1,M]

где мера

R(k,j)

M V H2

ZEE

m=1v=1h=Hj

N л • 4

Z (n,.v+h.v(k,J,m))r

t=1

Логарифм отношений площадей сечений голосового тракта

Ai+Ь

i 1 + k

ln(Si+1) = ln(^±k) =2 ln

j

A1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

j=1 1 - kj

(14)

Принятие решения о наличии заданной фонемы выполняется по правилу

i(k) = arg min D

v,u .

(15)

ve[1,M]

Расстояние как средняя мера для одного эталона имеет вид

Dv,u

Nvs -1

(ZEE

s=1 h=-J j=0

D„S(h,j))'(Nj’iS), (16)

где S — количество эталонов для одной фонемы

XTv,s речи; N бл фонемы.

— количество блоков в s-м эталоне v-й

Локальное расстояние может вычисляться с использованием логарифма отношений площадей сечений голосового тракта:

Решение для к-го сегмента о наличии заданной речевой единицы выносится в соответствии с выражением

Dv,us(h,j) = Z iln(Sm,j+h(u,s)) - (17)

m =1

i(k) = arg max R(k,j) j^[1,M]

здесь усредненная мера

(10)

R(k,j)

M V H2 (kjm)

Z І Z 1/D(ntv+h,v(k5j-m)), („j

m=1v=1 h=H

N . 2

где D(nt,v+h,v(k,j,m)) = Z nt,v+h,v(k,j,m) /N -

t=1

( Znt,v+h,v(k’j’m) / N)2 t=1

— оценка дисперсии сиг-

нала с выхода решетчатого фильтра для одного блока; M — количество эталонов.

Исследования показали, что для алгоритма (10) вероятность правильного распознавания фонем больше, чем для алгоритма на основе средней меры степени г.

Коэффициенты отражения связаны с площадями Aj сечений голосового тракта

ki - (Ai+1 _ Ai)/(Ai+1 + Ai). (12)

Отсюда легко получать, что нормированные площади сечений голосового тракта

или коэффициентами отражения k = (k1,k2,....,kp):

Dv,u(h,j) = f( Z ikm,j+h(u) - kmb(jv) |Г). (18) m=1

Экспериментальные исследования алгоритмов распознавания речи по коэффициентам отражения дали наилучшее качество распознавания речи для f(x)=x и r= 1 /2, r=1, а для согласных f(x)=log(x) с r=1.

Лучшие результаты с использованием логарифма отношений площадей сечений голосового тракта дало использование процедур динамического программирования (ЦП) для распознавания речи.

Рассмотрим решение задачи распознавания речи с использованием процедур ЦП. Процедура ЦП служит для нелинейной временной нормализации.

Решение принимается по максимуму меры сходства эталона и текущей распознаваемой речевой единицы. В качестве меры расхождения между векторами признаков вводится расстояние с использованием логарифма отношений площадей сечений голосового тракта, например в виде

d(u,v)(j2,j1) = £ |ln(Sm,j2(u))-ln(Smb^)ir , (19) m=1 J

или коэффициентами отражения k = (kp k2 ,....,kp ):

Si+1

Ai+1 * 1 + kj

A1 j=V - kj

d(u,v)(j2,j1) = £ i(km,j2(u))-ОіГ . k ' m=1

РИ, 2004, № 3

61

Минимальное значение D(A) достигается при оптимальном согласовании временных расхождений между образами.

Вычисление начинается от концов сегментов фонем и завершается к их началу. Рекуррентное уравнение алгоритма представляется следующим образом:

D(k,n,s)(iJ) = d(k,n,s)(iJ) +

D(kn s)(i -1, j - 2) + 2d(kns) (i, j -1));

D(k’n’s)(i -1, j -1) + d(k n s) (i, j); (20)

D(k,n,s) (i _ 2, j -1) + 2d(k,n,s) (i -1, j).

+ min

Альтернативный рекуррентный алгоритм вычисления уравнения запишем так:

D

(k’n’s)(i,j) = min

D(k,n,s)

D(k,n,s)

D(k,n,s)

(i,j-1) +x-d(k,n,s)(i, j); (i-1,j-1) + d(k,n,s)(i, j); (i-1,j) +x-d(k,n,s)(i,j).

(21)

В экспериментальных исследованиях алгоритмов распознавания по площадям сечений голосового тракта получено, что хорошее качество для % = 2 .

Решение для к-го сегмента о наличии заданной речевой единицы принимается по правилу

i(k) = argmax £ D(k,n,s)(0,0) ne[1,M]s=1

(22)

Исследования показали, что для распознавания согласных звуков необходимо привлечение дополнительной информации о длительности (для взрывных звукав длительность 29-56 мс ), вокализован -ности звуков (сонарные и носовые), их интенсивности. Как видно из рис.1,2, длительность переходного участка для взрывной буквы “б” меньше

по сравнению с буквой “в”.

■ -| Поэтому вначале решается Юк л) / г-*—I задача классификации (разделения) согласных звуков на группы, вокализованные и невокализованные [2,3], а также сегментации на короткие и длинные фонемы по правилу:

т(u) <А1.

Аналогично выполняется

сегментация по длительности Хфр(u) переходного участка фонемы по прави-

t, с —►

б

Рис. 1. Зависимость логарифмов отношения лу: площадей i сечений голосового тракта от Расстояние с использова-времени для: а - нием оценок количества фонемы “б”; б - ноль-пересечений и коэф-

фонемы “в” фициентов отражений

тфр( ) 2 .

d(u,v)(j2,j1)

p

Z | k

m=1

m,

j2

(u)

- k

ob(v) |r m,j1 |

+

+ a'| Nm,j2

(u) _ Nob(v) |r m, j1

Экспериментальные исследования показали, что при этом вероятность правильного распознавание согласных улучшается примерно на 0,1-0,2.

3. Экспериментальные исследования алгоритмов распознавания фонем речи

Для проверки предложенных алгоритмов распознавания речи были проведены экспериментальные исследования. Испытания приведенных выше алгоритмов распознавания фонем речи проводились на основе данных, веденных в ЭВМ с микрофона через звуковой интерфейс с частотой дискретизации рд=8кГц. В качестве фонем речи использовались гласные и согласные фонемы. Качество распознавания сигналов оценивалось средней вероятностью правильного распознавания, которая получалась на контрольных выборках реализаций методом статистических испытаний.

При исследовании алгоритмов распознавания согласных звуков на основе совместного использва-ния результатов классификации на вокализованные и не вокализованные звуки, короткие и длинные фонемы, а также расстояния с использованием оценок количества ноль-пересечений и коэффициентов отражений, получена средняя вероятность правильного распознавания 0,65.

Для алгоритмов распознавания гласных звуков по оценкам коэффициентов отражения при использовании 4 эталонов на каждую фонему получена средняя вероятность правильного распознавания 0,945 (кривая 1, рис.3).

Зависимость вероятности правильного распознавания для алгоритмов распознавания гласных фонем и дифтонгов по признакам логарифмов отношения площадей сечений голосового тракта от количества используемых s эталонов на каждую фонему показана на кривой 2, рис 3. Разные символы распознаются с равным качеством.

Рис. 2. Переходная область: а — фонемы “б”; б — фонемы “в”

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Зависимость средней вероятности правильного распознавания от количества эталонов s алгоритмов: 1 — по оценкам коэффициентов отражения; 2 — по признакам логарифмов отношения площадей сечений голосового тракта

62

РИ, 2004, № 3

В табл. 1 приведены результаты исследования вероятности принятия решений о наличии в выделенных сегментах русско-украинских гласных букв “и, ы, о, ю, я, е, ё, у, а, э, Ї” для алгоритма с 4 эталонами на каждую речевую единицу в случае использования в качестве признаков оценки логарифмов отношения площадей сечений голосового тракта c параметром r=2 и использования методов динамического программирования. В табл.2 приведены результаты исследования вероятности принятия решений о наличии в выделенных сегментах русско-украинских гласных букв “и, ы, о, ю, я, е, ё, у, а, э, Ї” для алгоритма с 4 эталонами на каждую речевую единицу алгоритмов по оценкам коэффициентов отражения со средней мерой c параметром r=1/2.

Таблица 1

p и ы о ю я е ё у а э ї

и 0,73 0,12 0 0 0 0 0 0 0 0 0

ы 0,18 0,84 0 0 0 0 0 0 0 0,01 0

о 0 0 0,99 0 0 0 0 0 0 0 0

ю 0 0 0 1 0 0 0 0 0 0 0

я 0 0 0 0 0,99 0,06 0 0 0 0,03 0

е 0 0 0 0 0,01 0,91 0 0 0 0 0

ё 0 0 0 0 0 0 1 0 0 0 0

у 0 0 0,01 0 0 0 0 1 0 0 0

а 0 0 0 0 0 0 0 0 1 0,08 0

э 0 0,04 0 0 0 0 0 0 0 0,88 0

ї 0,09 0 0 0 0 0,03 0 0 0 0 1

Таблица 2

р И ы о ю я є ё У а э Ї

и 0,7 0,04 0 0 0 0 0 0 0 0 0

ы 0,3 0,96 0 0 0 0 0 0 0 0 0

О 0 0 1 0 0 0 0 0 0 0 0

ю 0 0 0 0,99 0 0 0,27 0 0 0 0

я 0 0 0 0 1 0 0 0 0 0 0

є 0 0 0 0 0 1 0 0 0 0 0

ё 0 0 0 0,01 0 0 0,73 0 0 0 0

У 0 0 0 0 0 0 0 1 0 0 0

а 0 0 0 0 0 0 0 0 1 0 0

э 0 0 0 0 0 0 0 0 0 1 0

Ї 0 0 0 0 0 0 0 0 0 0 1

Выводы

Научная новизна состоит в том, что получены новые алгоритмы распознавания фонем речи на основе результатов выбеливания решетчатых фильтров, коэффициентов отражения и логарифмов отношения площадей сечений голосового тракта с использованием как усредненных мер, так и процедур динамического программирования, выполняющих нелинейную временную нормализацию. Показано, что для распознавания фонем необходимо использовать разнородную информацию, в том числе их вокализованность, длительность.

Сравнение с аналогами доказывает преимущества разработанного устройства распознавания фонем речи. Для алгоритмов распознавания гласных зву-

ков по оценкам коэффициентов отражения и при использовании 4 эталонов на каждую фонему получена средняя вероятность правильного распознавания 0,945, а при отборе лучших 4 эталонов из 11 - средняя вероятность правильного распознавания 0,985, что лучше результатов, полученных при использовании формантных методов распознавания в Варшавском институте автоматики [7], где средняя вероятность правильного распознавания гласных звуков - 0,79-0,96. Такие же средние вероятности правильного распознавания были получены в [4] для алгоритмов распознавания гласных звуков по спектрально-полосным методам и при использовании 4 эталонов на каждую фонему.

Практическая ценность состоит в том, что получены рабочие характеристики созданных алгоритмов распознавания фонем речи на основе результатов выбеливания решетчатых фильтров, коэффициентов отражения и логарифмов отношения площадей сечений голосового тракта. Установлено, что для алгоритмов распознавания фонем речи на основе коэффициентов отражения средняя вероятность правильного распознавания выше в случае использования усредненных мер, а для алгоритмов, построенных на основе логарифмов отношения площадей сечений голосового тракта, — в случае использования процедур динамического программирования.

Следует надеяться, что распознавание фонем сыграет важную роль для ввода речевой информации в ЭВМ.

Литература: 1. Пресняков И.Н., Омельченко А.В., Омельченко С В. Автоматическое распознавание речи в каналах передачи // Радиоэлектроника и информатика.

2002. №1.С. 26-31. 2. Пресняков ИН, Омельченко С.В. Автоматическое распознавание раздельных слов и фонем речи // Радиоэлектроника и информатика.

2003. №2.С. 41-47. 3. Пресняков ИН, Омельченко С.В. Помехоустойчивые алгоритмы сегментации речи в системах обработки // Радиотехника. 2003. №131. С. 165-177. 4. ПресняковИ.Н., Омельченко С.В. Алгоритмы распознавания фонем речи // Радиотехника. 2003. №135.С. 180-189. 5. РабинерЛ. Р, ШаферР.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981. 496 с. 6. Маркел Дж. Д, Грей А.Х. Линейное предсказание речи. М.: Связь, 1980. 308с. 7. Методы автоматического распознавания речи: В двух книгах: Пер. с англ. /Под ред. У. Ли. М.: Мир, 1983. Кн. 1. 328с.

Поступила в редколлегию 17.03.2004

Рецензент: д-р техн. наук, проф. Руденко О. Г.

Пресняков Игорь Николаевич, д-р техн. наук, профессор, зав. кафедрой “Сети связи” ХНУРЭ. Адрес: Украина, 61000, Харьков, пр. Победы, 54-б, кв. 44, тел. 702-14-29.

Омельченко Сергей Васильевич, ассистент кафедры “Сети связи” ХНУРЭ. Научные интересы: цифровая обработка сигналов, математическое моделирование. Адрес: Украина, 61000, Харьков, ул. Кузнецкая, кв. 102а, тел. 702-14-29.

РИ, 2004, № 3

63

i Надоели баннеры? Вы всегда можете отключить рекламу.