Научная статья на тему 'Формантное представление речевого сигнала для решения задач обработки речи'

Формантное представление речевого сигнала для решения задач обработки речи Текст научной статьи по специальности «Математика»

CC BY
146
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Формантное представление речевого сигнала для решения задач обработки речи»

И.И. Турулин, Ю.Б. Верич ДИАЛОГОВЫЙ МЕТОД СИНТЕЗА РЕКУРСИВНЫХ КИХ-ФИЛЬТРОВ

Несмотря на разработку сигнальных процессоров с быстродействием порядка нескольких миллиардов операций в секунду проблема снижения вычислительных затрат (число операций на отсчет сигнала) цифровых фильтров остается актуальной для ряда задач. Существует класс рекурсивных КИХ-фильтров, которые, как и нерекурсивные, могут иметь линейную фазочастотную характеристику при гораздо меньших вычислительных затратах. Существующие методы синтеза таких фильтров обычно требуют кусочно-полиномиальной аппроксимации исходной КИХ, что является наиболее трудоемким этапом синтеза.

В докладе предлагается метод диалогового синтеза рекурсивных КИХ-фильтров, основанный на визуальной кусочно-полиномиальной аппроксимации исходной КИХ ^п) в среде математических программ. Вначале рассчитывают обратную конечную разность (р+1)-го порядка Ур+^(п), где р - степень аппроксимирующего полинома. Далее у Ур+^(п) обнуляют все отсчеты, кроме р+1 первых и р+1 последних, и строят соответствующий нерекурсивный фильтр, к выходу которого каскадно подключают р+1 накапливающих сумматоров. КИХ этой комбинации h (п) аппроксимирует исходную КИХ. Затем строятся графики ^п) и Ь (п) в одних координатах. Далее в структуру фильтра вводят прямые связи, задержки и весовые коэффициенты которых вместе с коэффициентами нерекурсивного фильтра подбирают так, чтобы расхождение ^п) и h (п) было допустимым. В точке окончания ^п) аналогично вводят связи для обнуления h (п), а также сумматоров.

Данный метод проигрывает по вычислительным затратам и погрешностям другим методам синтеза, зато процесс проектирования фильтра идет гораздо быстрее (фильтр с КИХ в виде окна Хэмминга синтезируется в системе Mathcad в течение часа).

А. В. Аграновский, М. Ю. Зулкарнеев, Д. А. Леднов, П. М. Сулима

ФОРМАНТНОЕ ПРЕДСТАВЛЕНИЕ РЕЧЕВОГО СИГНАЛА ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ РЕЧИ

Известно, что способ представления речевого сигнала влияет как на качество, так и на скорость распознавания. Поэтому важно выбрать представление, адекватное поставленной задаче. На практике используются различные представления сигнала [1, 2]: автокорреляционная функция сигнала, различные параметры спектра и кепстра, коэффициенты линейного предсказания (а - параметры), связанные с ними коэффициенты отражения, Ь - параметры. В данной работе предлагается способ представления речевого сигнала. За основу берётся амплитудный спектр речевого окна, который предварительно фильтруется для того, чтобы уменьшить влияние случайных помех. При фильтрации сглаживаются острые пики и ширина этих пиков АО после сглаживания не может быть меньше определённой величины, которая зависит от частоты среза фильтра х0:

АО > АО т;п = .

*0

Действительно, предположим, что спектр имеет локальный пик. Заменим его функцией и найдём его преобразование Фурье:

1 ¥ 1

g(x) = -“/§(ю“ю0 )е_1®^ю = — е 1И°т .

2я 0 2я

Срез по частоте аналогичен конечному верхнему пределу при обратном преобразовании Фурье:

*о , іДи^о , .

Аит

а(и) = — [еіАи^т =—1—е 2 sin 2я 0 рАю

/ л Л

0_

/

-

где Аю = ю-юо . Реальная часть функции а(ю) представляет собой отфильтрованную с частотой среза х0 5-функцию:

sm(Аwт о)

Re(a(w)) = ■

2яАи

Видно, что колокол функции Re(a(w)) имеет ширину АО тіп = —.

хо

Тот факт, что любой пик отфильтрованного спектра не будет шире, чем

—, наводит на мысль разложить спектр на элементарные пики с шириной *0

АО тіп = —. Это может быть любая функция колоколообразной формы. Пусть *0

это будет гауссоида

(ю-юо )2 ^и) = ае 2°2 ,

гДе а = о(АОтіп ).

Для сглаженного спектра £, представленного N гауссоидами с амплитудами а и центрами и,], разложение

(щ-^ )2

ґ = 1 ае- 20

^=і

предлагается искать по следующему алгоритму:

1) Найти пик с максимальной амплитудой, считать этот пик за очередную найденную гауссоиду разложения;

2) Вычесть найденную гауссоиду из спектра;

3) Если амплитуда гауссоиды больше порога, то повторить шаг 1) и 2), если нет - завершить алгоритм.

Таким образом, дискретный спектр, состоящий из N точек, заменяется К парами чисел, где К, как показывает практика, - число порядка пяти. Пара чисел (аі, Юі), представляющая собой амплитуду и частоту і-й гауссоиды, называется

формантой. Формантное представление используется в предобработке речи для различных задач распознавания речи.

Необходимое условие введения нового представления речи - запись выражения для меры близости на языке этого представления. Пусть на интервале [я,Ь] заданы функции и ^^). Запишем меру близости этих функций в виде

ь ь ь ь

А = |(^ -^)2dx = |^х +|фх- 2|f1f2dx . (1)

а а а а

Рассмотрим третий интеграл в правой части этого выражения, при условии, что функции разложены по гауссоидам

К -(х - хч)- К2 -(х-х^

А(х)=Ха11е 2С- , f2(хЬЕа2^е

1=1 j=1

Этот интеграл имеет вид

2с2

(х-х11)2

(х-х^)2

112 = |Е а11е 2с Е^е

^=1

К1К2

1=1

20 ^ = ЕЕ а11а2^ fexP 1=и=1

-^2((х - х11)2 +(х - x2j )2 ) 2о

dx .

(х11 - х21 )2

Интеграл в правой части этого выражения вычисляется и равен Ол/Ре 4°2

Окончательно,

(х11 - х21 )2

4о2

К,К2

112 = Ол/рЕЕ a11a2je 1=1j=1

Аналогично рассчитываются первые два интеграла в выражении для А:

К! К! -(х11 -х^ К2К2 -(х21 -^

11 = Ол/яЕЕ allalje 4о2 , 12 = Ол/яЕЕ a2la2je 4о2 .

1=1j=l l=lj=l

Окончательное выражение для меры близости двух спектров, разложенных на гауссоиды

_К, К,

(ии-Юи )2

А = Ол/ЙЕЕ£

11a1je

4о2

К^

+ О'

^ЕЕ

121^е

4о2

К1К2

- 2^л/ЙЕ Е

l11a2je

4о2

1=1 j=l 1=и=1 1=1 j=l

Интегралы I1 и ^ очевидно имеют смысл энергии. Если нормировать амплитуды гауссоид при расчёте на величины и лj\- для первого и второго

спектров соответственно, то первые два слагаемых в этом выражении будут равны 1, тогда выражение можно переписать:

(ю,1 ^ } Л ' 4о2

А = 2

К,К2

1 -Ол/яЕЕ alla2je 1=и=1

К

К

Множитель Ол/я можно исключить из всех формул, поскольку его наличие не меняет окончательного результата. Итак, выражения для энергий и меры близости двух спектров в формантном представлении имеют вид:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к1 к1 -Ю -Ю1^ к2к2 -(юд ~Ю2^2

11 аНаие 4°2 , 12 = а21а2;|е 4°2 ,

1=1^=1 1=1^=1

2

А = 2

K к2 ~w2j)2

1 ~ZZ a1ia2je 4°2 i=1j=1

Рассмотренное в работе представление, как было показано, естественным образом вытекает из необходимости фильтрации спектра с целью понижения влияния помех. Выражение для нахождения меры близости даёт простой и быстрый способ расчёта меры близости, которая, как видно из (1), аналогична декартову расстоянию.

Недостатком такого представления является нефиксированная размерность пространства признаков, поскольку число формант, представляющих спектр, может быть различным. В этом случае могут быть проблемы, например, с оценкой параметров функций распределений классов в пространстве признаков.

ЛИТЕРАТУРА

1. Rabiner L. R., Schafer R. W. Digital processing of speech signals, Prentice-Hall, Englewood Gliffs, NJ, 1978.

2. Винцюк Т. К.. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наук. думка, 1987.

С.В.Ковтушенко, В.И.Клоков, В.А.Сборщиков

ПОДАВЛЕНИЕ ПОМЕХ В АКТИВНЫХ ЭЛЕКТРОМАГНИТНЫХ СРЕДСТВАХ ОБНАРУЖЕНИЯ МАЛОРАЗМЕРНЫХ ОБЪЕКТОВ В

МОРСКОЙ СРЕДЕ

Активные электромагнитные средства (АЭМС) могут быть использованы в мелководных акваториях со сложной гидрологией для обнаружения мелкоразмерных объектов, таких, например, как подводные пловцы. Принцип действия активных электромагнитных средств заключается в регистрации вторичного электромагнитного поля (ЭМП) объекта обнаружения, возникающего в результате искажения первичного (зондирующего) поля, создаваемого с помощью специальных излучающих антенн. Необходимая дальность обнаружения обеспечивается выбором соответствующего диапазона рабочих частот, величины тока в излучателе и подавлением помех.

Основными источниками помех работе АЭМС являются: естественное электромагнитное поле моря, промышленные помехи, зондирующее (первичное) ЭМП, вторичные ЭМП техногенных объектов (корпуса судов, буи и т.п.), отраженное от взволнованной поверхности электромагнитное поле.

i Надоели баннеры? Вы всегда можете отключить рекламу.