Научная статья на тему 'СУБПОЛОСНАЯ ОБРАБОТКА СИГНАЛОВ: ЭФФЕКТИВНОСТЬ И ПРИМЕНЕНИЕ В РЕЧЕВЫХ ТЕХНОЛОГИЯХ'

СУБПОЛОСНАЯ ОБРАБОТКА СИГНАЛОВ: ЭФФЕКТИВНОСТЬ И ПРИМЕНЕНИЕ В РЕЧЕВЫХ ТЕХНОЛОГИЯХ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
58
19
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Петровский Алексей Александрович

Приводится краткое введение в банки цифровых фильтров, даются основные определения и понятия: полное восстановление или перфективная реконструкция, параунитарный банк, субполосное кодирование, скорость передачи. Рассматривается общий случай схемы субполосного кодера. Выводятся оценки ошибки реконструкции сигнала, а также оптимальное распределение бит по каналам. Доказывается эффективность субполосного кодирования по отношению к полнополосному кодированию. Показано, что если входной сигнал имеет нормальный закон распределения, коэффициенты децимации в каналах равны, банк фильтров - ортогональный, то субполосный кодер обеспечивает равное или лучшее качество по сравнению с полнополосным кодером при любом входном сигнале. Эффективность применения субполосной обработки речи показана на примере системы редактирования шума и кодирования речевого сигнала в вейвлет области.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Петровский Алексей Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СУБПОЛОСНАЯ ОБРАБОТКА СИГНАЛОВ: ЭФФЕКТИВНОСТЬ И ПРИМЕНЕНИЕ В РЕЧЕВЫХ ТЕХНОЛОГИЯХ»

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

А.А. Петровский,

кандидат технических наук, доцент

Приводится краткое введение в банки цифровых фильтров, даются основные определения и понятия: полное восстановление или перфективная реконструкция, параунитарный банк, субполосное кодирование, скорость передачи. Рассматривается общий случай схемы субполосного кодера. Выводятся оценки ошибки реконструкции сигнала, а также оптимальное распределение бит по каналам. Доказывается эффективность субполосного кодирования по отношению к полнополосному кодированию. Показано, что если входной сигнал имеет нормальный закон распределения, коэффициенты децимации в каналах равны, банк фильтров — ортогональный, то субполосный кодер обеспечивает равное или лучшее качество по сравнению с полнополосным кодером при любом входном сигнале. Эффективность применения субполосной обработки речи показана на примере системы редактирования шума и кодирования речевого сигнала в вейвлет области.

1. Введение в банки фильтров

1.1. Определения

Банк фильтров — цифровая система, состоящая из секций анализа и синтеза, называемых банком фильтров анализа и банком фильтров синтеза (рис. 1). Входной сигнал x(n), представленный последовательностью отсчетов, разбивается при помощи фильтров секции анализа Иъ(г)(к.=0,1, ..., М - 1) на М субполосных составляющих, которые в идеальном случае в частотной области не перекрываются. Операции, выполняемые секцией синтеза, являются обратными операциями секции анализа. Подобрав соответствующим образом набор фильтров секции синтеза Fk(z)(k=0,1, ..., M- 1), можно восстановить исходный сигнал у(п) из его субполосных компонент [1].

Банк фильтров относится к классу многоскоростных систем цифровой обработки сигналов [1-4], в которых частота дискретизации различна в разных точках системы.

13

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

х(п)

) Щ2)

хо(п) —N Ха(п)

' Субполосная обработка Ьо

Квантователь

i ад

Х,'(п) ,—N х,(п)

Квангова-

Qa(n)---Pd(n) ф)

Тт,

FM -

_| Хи-!(п)^—хм-, (п)

Ни.,® --/jm„.,J-—

Ьи-1

Квантова-

4u-i(n)—х рм-1<п)

х(п)

ги.,(п) ф)

Рис. 1. Банк фильтров: система анализа/синтеза сигнала

М-1

I — 1-

k=0 к

Значение коэффициента темпа поступления отсчетов в канале (коэффициента децимации mk) задаётся утверждением о дискретизации сигнала в зависимости от ширины частотной полосы канала В, и его положения k

в банке фильтров. Оригинальная частота дискретизации fs сигнала в ,-м канале теоретически может быть уменьшена в mk < раз. Равенство в данном случае означает, что канал максимально децимирован:

(1.1)

Таким образом, в частотно-временном представлении сигнала исключена избыточность, т.е. сумма отсчётов во всех каналах соответствует количеству отсчётов в исходном сигнале. Банк фильтров считается передецимированным,

М-1

если ^ — > 1, т.е. достаточно, чтобы хотя бы в одном канале коэффици-

k = о ть

ент децимации не был равен числу каналов. Более сложные случаи позиционирования субполос каналов в банках фильтров рассмотрены в [4-6].

14

Соотношение между ^-преобразованием сигналов на входе и выходе М-каналь-ного банка фильтров, изображённого на рис. 1, следующее [1]:

м-1

"ifc-i

Y(z) = ^ Fk(z)^- ^ H^zW^MzW^) fc=0 k 1=0

(1.2)

ГДе Щпк

е ~12п/тк , Анализ данного выражения показывает, что в банке возможны искажения входного сигнала: амплитудные, фазовые и отражения частотных характеристик (элайзинг), обусловленные наличием дециматоров и интерполяторов. Величина искажений зависит как от частотных характеристик канальных фильтров, так и выбора коэффициентов децимации т,. Анализ искажений, возникающих в структуре банка фильтров, проще анализировать в максимально децимированном банке фильтров, для которого соотношение (1.2) значительно упрощается:

м-1

Y{z) = Л Tk(z)X{zW*),

(1.3)

к=О

где Т, (г) — передаточная функция ,-го канала:

м-1

1=0

(1.4)

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Выходной сигнал у(п) системы анализа-синтеза банка фильтров будет свободен от элайзинговой составляющей Х(zWM ), к > 0 в случае, если

Тк(г) = 0, для 1<к<М. (1.5)

В банке фильтров, для которого справедливо условие (1.5), остаются только амплитудные и фазовые искажения, которые определяются согласно следующему выражению:

, „ М-1 У (г) 1 V ш== м2., (1.6) 1=0

Очевидно, что для получения перфективной реконструкции входного сигнала х(п) банком фильтров, передаточная функция искажений То^) должна принять форму простого звена задержки с некоторым масштабированием амплитуды:

Г0(г) = сг~ь, с * 0, Д£ Н. (1.7)

Полное восстановление или перфективная реконструкция — свойство банка цифровых фильтров, заключающееся в том, что сигнал, прошедший через схему анализа-синтеза, идентичен входному с точностью до задержки. Для этого фильтры синтеза должны подавлять наложение частотных характеристик (элайзинг) и устранять амплитудные и фазовые искажения [1].

Параунитарный (ортогональный) банк фильтров (ПУБФ) — банк фильтров, у которого передаточные функции анализирующих и синтезирующих фильтров и их соответственно смещенные версии ортогональны друг другу. Фильтры синтеза в парауни-тарных банках являются транспонированными версиями фильтров анализа [1]:

ВД = НЦг-1). (1.8)

При соблюдении этого условия обеспечивается возможность перфективной реконструкции банком фильтров входного сигнала х(п) пусть х[п] = [хо[п]... хМ1 [п]]т будет входным вектором и у[п] = [уо[п]... уМ1 [п]]т будет соответствующим выходным вектором с МхN параунитарной передаточной матрицей Л^). Пусть Бхх(е>т) будет МхМ СПМ-матрица входного вектора х[п]. Заметим, что СПМ г-го входного компонента х. [п] является г-й элемент Б^е3™). Поэтому дисперсия х. [п] составит

Усредненная дисперсия входного сигнала будет

А(110) £=0 71

где &(Б) — след матрицы Б.

СПМ вектора на выходе определяется как

= (1.11) 15

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

16

где Лн — матрица, эрмитово транспонированная к матрице Л. Усредненная дисперсия выхода составит

Так как ^(ЛБ) = ЩБЛ), это упрощает выражение (1.12)

Так как матрица Л— параунитарная, Лн(е->т)Л(е->т) = I, следовательно

или усреднённая дисперсия выхода равна усреднённой дисперсии входа. Этот факт показывает, что в параунитарной системе энергия сохраняется.

Банк фильтров можно представить в полифазной форме, если передаточные функции секций анализа и синтеза записать в виде соответствующих векторов:

H(z) = [ЯоО) tfi(z) ...НМ_1ШГ, F(z) = [F0(z)F1(z)...FM_1(z)]T,

(1.14)

то тогда можно выбрать такие полифазные матрицы анализа Ем- 1,о С2) "' Ем_1м_1(г)

E(z) =

(1.15)

и синтеза

D(z) =

А),О О)

D0,м-i00

dm-i,m-i(.z)

(1.16)

Вектора передаточных функций секций анализа и синтеза можно представить следующим образом [1]:

H(z) = E(zM)[l z1 ...z-(M_i:)]r, F(z) = [z-(M-1) z_(M_2)... l]TD(zM).

(1.17)

Для получения перфективной реконструкции на компоненты полифазных матриц накладывается дополнительное ограничение:

D(z)E(z) = cz"AI,c * 0,Д> 0,

(1.18)

где с — ненулевая константа; А — задержка, выраженная целым числом интервалов дискретизации, вносимая секциями анализа-синтеза; I — единичная матрица. На рис. 2 показана полифазная структура банка фильтров.

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Традиционно банки фильтров разделяют на банки с равнополосны-ми и неравнополосными каналами, ортогональные, биортого-нальные, двухканальные и многоканальные и т.д. Каждый фильтр банка цифровых фильтров образует канал. Поэтому говорят об М-канальном банке фильтров. Сигнал в канале называется субполосой, отсюда название «субполосная фильтрация» или «субполосное кодирование» [3, 4].

х(п)

М

я ■&

S

с о с

я ■&

S

с о с

М

+)

+>

Рис. 2. Полифазная структура банка фильтров

У(п)

1.2. Ошибка реконструкции сигнала

Рассматривается субполосный кодер, представленный на рис. 1.1, состоящий из к= 0, ..., М- 1 каналов. Каждый канал имеет анализирующий фильтр Нк(г), синтезирующий фильтр Рк(г), дециматор/интерполятор с коэффициентом передискретизации шк и ¿^-битный квантователь. Входной сигнал х(п) после фильтрации анализирующими фильтрами на рис. 1.1 обозначен как х'(п), а канальные сигналы — хк(п). Субполосный кодер максимально децимирован, если выполняется условие (1.1).

Пусть входной сигнал х(п) стационарный в широком смысле и имеет среднее значение, равное нулю. Следовательно, все последующие (производные) сигналы (включая шум квантования) также будут иметь среднее значение, равное нулю. Это предположение не является причиной возникновения каких-либо трудностей для применения субполосного кодирования к сигналам со средним значением, отличным от нуля, таких как изображения, так как система в этом случае эквивалентна системе с нулевым средним, полученной путем вычитания среднего значения из входного сигнала [7].

Следовательно, если Бхх(е->т) является спектральной плотностью мощности (СПМ) сигнала х(п), то его дисперсия определяется как [1]

71

до)

, Г ,. .дш

Дисперсия сигнала х'к(п) на выходе анализирующего фильтра Нк(г) будет определяться следующим выражением [1]

дсо

«Ч2= f sUeJaM(eJ-)\2^

для к = 0,1 ..., М - 1. Так как сигнал стационарен в широком смысле, то дисперсия не изменится после децимации [1,7], т.е. дисперсия хк(п) субполосы к равна а^. Квантователь представляется как модель с аддитивным шумом [8], т.е. выходом квантователя является сигнал хк(п) + цк(п), где хк(п) — входной сигнал и цк(п) — шум квантования. Дисперсия шума квантования, как для равномерных квантователей, так и для квантователей, адаптированных под сигнал, определяется как [1,8]

17

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

18

< = ek2

(1.19)

где sk — константа, характеризующая квантователь, которая зависит от функции плотности вероятности k-го субполосного сигнала.

Предположим, используются равномерные (многобитные) квантователи, тогда шумы квантования qk(n) различных каналов некоррелированы между собой и являются «белым» шумом [9]. СПМ шума qk(n) является константой аД, так как это «белый» шум, и имеют нулевое среднее. Сигналы pk(n), полученные после интерполяции qk(n), определяются как

„ /-ПЛ _ (<7й(У гпк), если п mod тк = О ^ } I 0 иначе '

и больше не являются стационарными в широком смысле, но имеют циклическую стационарность с периодом mk [7]. Другими словами, если n modmk = 0, то СПМ сигнала pk(n) равна a2qk, а СПМ оставшихся отсчетов равна нулю. Отсчеты шума pk(n) поступают на вход синтезирующего фильтра Fk(n), на выходе которого получается сигнал rk(n), стационарный в широком смысле с периодом mk. Усредненная на периоде mk дисперсия сигнала rk(n) определяется как

1

тк

где шк - 1 — нули, полученные из нулевых отсчетов сигнала шума рк(п). Ошибка реконструкции г(п) равна сумме всех ошибок гк(п), что обусловлено линейностью секции синтеза банка фильтров. Так как гк(п) во всех каналах некоррелированы, то дисперсия их суммы равна сумме их дисперсий [10]

м-1 ■> „ „

27Г

(1.20)

2 да) 2п

где — дисперсия ошибки реконструкции. Пусть пк = ))) \Fk (е^ ) |

означает нормы синтезирующих фильтров (заметим, что для КИХ-фильтра с коэффициентами импульсной характеристики (ко, к, ..., кь) норма равна (к2 + к +... + к\). Затем, используя уравнение (1.19), выражение (1.20) преобразуется к следующему виду

М-1 к=О

2Ъ*о1пк

тк

(1.21)

Для параунитарных систем [1] свойство отсутствия потерь (или энергетический баланс) говорит о том, что энергия выхода равна энергии входа (1.13). Вследствие этого факта, дисперсия ошибки реконструкции сигнала банком фильтров определяется следующим выражением:

м-1 к=0

(1.22)

™к

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Сравнивая уравнения (1.21) и (1.22) для ортогонального случая можем заметить, что в (1.22) отсутствует норма синтезирующего фильтра пк. Это является следствием свойства отсутствия потерь, подразумевающего фильтры с единичной энергией или пк = 1 для всех к [1]. Следует отметить также, что допущение об ортогональном банке фильтров заменяет допущение о равномерных (многобитных) квантователях и не обязательнод-ля получения данного результата. Поэтому, в смысле квантователя, результат более общий для ортогонального случая.

1.3. Скорость передачи субполосного кодера

Для субполосного кодера на рис. 1 Ьк определяет количество бит на отсчет для к-го квантователя. Однако благодаря коэффициенту децимации тк данным квантователем квантуется один отсчет для каждого из т входных отсчётов. Поэтому скорость передачи квантователя равна Ьк/тк бит на входной отсчёт. Следовательно, усредненная скорость передачи субполосной системы можно определить как М-1

Ъ= У — бит/отсчет. (1.23) тк к=0 к

Полнополосный кодер просто квантует вход х(п), используя Ь-битный квантователь. Поэтому из уравнения (1.22) его дисперсия ошибки квантования (которая также является дисперсией ошибки реконструкции) определяется как

<72 = £2-2Ьсг1 (1.24)

где е определяется как и ранее.

Эффективность субполосного кодирования вычисляется как отношение дисперсии ошибки реконструкции полнополосного кодера (или импульсно-кодовой модуляции — ИКМ) О к дисперсии ошибки реконструкции субполосного кодера О с аналогичной скоростью передачи данных [8].

2. Оценка эффективности субполосного кодирования

2.1. Оптимальное распределение бит по каналам субполосного кодера

Проблема оптимального распределения бит в каналах состоит в нахождении Ьо,ЬМ1, которые минимизируют дисперсию ошибки реконструкции о2 в уравнении (1.21), удовлетворяя ограничению (1.23). Данная минимизация с ограничением (1.23) может быть решена с использованием метода множителей Лагранжа. Для этого определяется целевая функция М-1 ,, , /М-1 , \ с_ у 8к2-2Ь^1пк | /у Ьк Л к тк \ктк У

где X — множитель Лагранжа. Дифференцируя С по Ьк и приравнивая к нулю, (йС/йЬк = 0) или

— £к2-2Ь*<7к2пк(-21п2) +Я— = 0, тп^ тк 19

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

из которого следует, что

Л я _2~2Ьк - _е-21п2Ьк _ _2 1п 2е~2Ы2Ьк дЬк дЬк '

Таким образом, 21п 2ек ТгЬкакпк = Я, или п-2Ь„_ Я (2.1) 21п 2ек <ткпк '

После логарифмирования по основанию 2 обеих частей (1.25) получается, что

Я 2 Ък = 1с^2 2 , 21п2 Ека£пк или 9 ^ = У „, • (2.2)

Данное выражение действительно для всех значений к, = 0, ..., М - 1. Подставляя уравнение (2.2) в ограничение (1.23), получается, что

м-1 212 1 *с=0 к М-1 М-1 „ (23) 1 21п2 V" 1 1 V 9 — = 210ё2 Я й=0 к=0

Первая сумма здесь равна 1 на основании уравнения (1.16). Вторая сумма логарифмов может быть записана как логарифм произведения. Используя эти упрощения, средняя скорость передачи в субполосной системе равна

М-1 „ , 1, 21п 2 1 1 Г 2 .А. 2 ё2 Я +2 ё21 ^^ (2.4) 1=0

или М-1 1, 2|п2 1, "ГТ, , 21082 Я =Ь 210ё211(£^Щ)т- (25) 1=0

Подставляя данный результат в уравнение (2.2), получается следующее распределение бит по каналам:

1 М_1 1 1 Ьк = Ь - -\о%2 ]^[Ог<т+ -1оё2(^кпк) =

, ,1, (2.6)

20 для всех значений к = 0, ..., М - 1.

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Это и есть оптимальное распределение бит по каналам субполосного кодера. Заметим, что для ортогонального случая оптимальное распределение бит получается путем подстановки пк = 1 для всех к. Результирующая скорость передачи — действительная величина и может быть отрицательной.

2.2. Дисперсия минимальной ошибки реконструкции сигнала

На основании оптимального распределения бит (уравнение (2.6)) следует, что

ПЙГоКе^щ)^ £какПк

для всех к, = 0, ..., М- 1. Подставляя это выражение в уравнение (1.22) и принимая во внимание (1.1), получается, что дисперсия минимальной ошибки реконструкции сигнала равна

М-1 М-1 М-1 М-1 * - 2 ГМ-«5*-2-21 I £- к=0 г=0 ¿=0 к=0 М-! г (27) = 2 ¿=0

2.3. Оценки эффективности субполосного кодирования

Эффективность субполосного кодирования можно определить как отношение дисперсии ошибки реконструкции полнополосного кодера С (1.24) к дисперсии ошибки реконструкции субполосного кодера С (1.31) с аналогичной скоростью передачи данных

Е2~2ЪО2 ЕО2 С=---г =---г. (2.8) 2-2* ПГГоЧ^/Ч)^ П^оЧ^/Ч)"1'

Некоторые специальные случаи оценки эффективности субполосного кодирования рассматриваются ниже.

Предположим, что входной сигнал х(п) является гауссовым (отсчеты имеют гауссову функцию плотности вероятности). Тогда известно, что выход линейной системы с гауссовым входом также является гауссовым [10]. Таким образом, все субполосные сигналы будут гауссовыми, что приведет к Б = 8о = 8,1 = ... 8М-1 (при условии многобитного квантователя). Следовательно, эффективность кодирования составит

с _ £0"* _ <*1 (е^ 1 П^О/Ч)"4 П^оЧ^/Ч)"1' 21

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Пусть коэффициенты децимации будут равны то = т1 = ... тМ-1. Из уравнения (1.1) следует, что каждый коэффициент равен М и эффективность субполосного кодирования составит с - Еа1

[ПЛо

В случае ортогонального банка фильтров пк = 1 как было обозначено ранее, эффективность субполосного кодера будет определяться как

г х А. " (2.9) ПЛоЧв^2)™' ( )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее, свойство отсутствия потерь, обозначенное ранее, может быть применено к матрице полифазного анализа (1.15). Так как входом полифазного анализа является х(п), то усреднённая дисперсия входа будет равна с'^. Пусть 0 обозначает дисперсию выхода к = 0,..., М - 1 субполос, тогда на основании свойства отсутствия потерь следует, что

М-1 2 0*2 = У—• (2.10) тк к=о к

Подставляя равенство (2.10) в соотношение (2.9), получаем, что эффективность субполосного кодирования может быть выражена следующим образом:

2 _ у М-1 °£ £^1=0 т. С = \ . (2.11)

Анализ (2.11) показывает, что более простое выражение оценки эффективности субполосного кодирования получается при одновременном рассмотрении следующих допущений [11-15]: входной сигнал имеет нормальный закон распределения, коэффициенты децимации в каналах равны, банк фильтров — ортогональный. При этом эффективность субполосного кодирования определяется отношением среднего арифметического к средне геометрическому неотрицательных величин О:

_1уМ-1 2 С=м11=° (2.12)

22 Так как среднее арифметическое больше или равно среднему геометрическому, следовательно, эффективность субполосного кодирования С -1, т.е. субполосный кодер обеспечивает равное или лучшее качество по сравнению с полнополосным кодером при любом входном сигнале. Величина, обратная выражению (2.12), также известна как мера пологости спектра ^М) [16,17]. Часто в задачах кодирования речи используется взвешенная на порог маскирования величина SFM (перцептуально взвешенная SFM — PSFM) [17, 18].

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/2010

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

3. Применение в речевых технологиях субполосной обработки сигналов

3.1. Структура кодера-редактора шумов речевого сигнала

Предлагается комбинированная система редактирования шумов и кодирования речевого сигнала без специального процессора повышения качества речи на основе критического дерева пакета дискретного вейвлет преобразования (ПДВП) СВ - ШРЭ: (1,п)еЕсх1,1 = 0,5 (рис. 3) и вычисления порога восприятия речевого сигнала человеком. Разработка ориентирована на частоту дискретизации 8кГц и обработка введётся в 17 барках [19].

Предполагается, что чистый речевой сигнал х(£) и окружающий его шум п(¿) статистически независимы и стационарны в широком смысле (где £ обозначает временной индекс). Зашумленный временной сигнал у(£)= х(0+ п(0 преобразуется в вейвлет область на основе ПДВП. Вейвлет коэффициенты зашумленного речевого сигнала определяются следующим образом:

*и(/с) = <у. Фшл)' 0. Л) еЕсв,ке1. (3.1)

где к временной индекса вейвлет коэффициента в субполосе обработки (I, п).

На рис. 4 показана схема обработки речевого сигнала в одной из ветвей СВ - ШРЭ: (1,п)е Есг1,1 = 0,5 (соответствующей ей частотной полосе (рис. 3)) комбинированной системы редактирования шума и кодирования речевого сигнала. Оценка порогов маскирования выполняется в вейвлет области в соответствии с алгоритмом, показанным в [20]. В данной работе используется наиболее общее психоакустически мотивированное правило спектрального взвешивания [21]. Вейвлет коэффициенты Х1п(к), отредактированные от шума входного сигнала, поступают на схему кодирования и квантования и далее формируется пакет данных

= (0,0) (0,0) |

n (1,0) (1,1)'

1 (2,0) 1" (2,1) | (2,2) |'^(ад).

(3,0)

(4,0)

(3,1)

(4,1)

(3,2)

(3,3)4 (3.4)+ ГЦ

(4,2) Ш (4,3) 4

О О (ОЛ ООО

а1йЫ§Ы8 Гц

И о LmJ ото Сю) 8 _

L h — t 2

t 2

9 t 2

Рис. 3. Структура критического дерева ПДВП

Рис. 4. Структура кодера-редактора шумов речевого сигнала на базе ПДВП СВ - WPD: (1,п) еЕ , I = 05

V ' ' си' '

23

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Рис. 5. Структура декодера речевого сигнала на базе ПДВП

24

для передачи в канал. Схема кодирования и квантования реализована в соответствии с [22].

Структура декодера показанална рис. 5, где закодированные вейвлет коэффициенты Х1п(к) декодируются и восстанавливаются в каждой субполосе (I, п). Синтез сигнала выполняется на основе обратного ПДВП в соответствии со структурой дерева ESB

WPD

Ш = Л ^nW'/'wW'

(l,ri)EE,kEZ

(3.2)

где [ц (е):} — множество ортогональных вейвлет функций ПДВП {уп(е):"пе1+}, где [Ц>ы^) = 2 -V2 ц(24-к).

3.2. Эксперимент

Для кодера со скоростью передачи 4-6 кбит/с экспериментальные результаты приведены на рис. 6: (а) чистый речевой сигнал с частотой дискретизации £= 8 кЩ и его спектрограмма, (б) зашумленный речевой сигнал с SNR = 5 дБ и его спектрограмма, (в) отредактированный речевой сигнал от шума и его спектрограмма, (г) реконструированный речевой сигнал декодером и его спектрограмма.

а)

б)

в)

Рис. 6. Результаты обработки речевого сигнала в кодере-редакторе шумов: а) чистый речевой сигнал; б) зашумленный речевой сигнал; в) отредактированный речевой сигнал от шума; г) реконструированный речевой сигнал декодером

г)

Петровский А. А.

Субполосная обработка сигналов: эффективность и применение в речевых технологиях

Достоинством данной системы субполосной обработки речевых сигналов является возможность комбинирования двух процессов перцептуальной обработки в субполосах: редактирование акустического шума в речевом сигнале и последующая его компрессия. Обработка ведётся в области вейвлет коэффициентов, причём порог маскирования расчитывается один раз для обоих процессов.

Литература

1. Vaidynathan P.P. Multirate systems and filter banks, Prentice Hall: Englewood Cliffs, 1993.

2. Crochiere R.E., Rabiner L. Multirate digital signal processing, Prentice-Hall, Engle-wood Cliffs, NJ, USA, 1983.

3. Витязев В.В. Цифровая частотная селекция сигналов // Радио и связь. М., 1993.

4. Piotrowski A., Parfieniuk M. Cyfrowe banki filtrow: analiza, synteza i implementacja dla systemow multimedialnych, Politechnika Bialostocka, Bialystok, 2006.

5. Vaughan R.G., Scott N.L., White D.R. The theory of bandpass sampling, IEEE Trans. Signal processing, 1991. V. 39. №. 9. P. 1973-1984.

6. Parfieniuk M., Petrovsky A. Simple rule of selection of subsampling ratios for warped filter banks, in Proc. VIII Int. conf. «Modern communication systems», Naroch, Belarus, 2003. P. 130-134. Special Issue of Trans. Belarussian Engineer Academy, № 1(15)/3.

7. Sathe V.P., Vaidynathan P.P. Effects of multirate systems on the statistical properties of random signals. IEEE Transactions Signal Processing, 41(1), January 1993. P. 131-146.

8. Jaynt N.S., Noll P. Digital coding of waveforms, Prentice Hall: Englewood Cliffs, 1984.

9. Uzun N., Haddad R.A. Cyclostationary modeling, analysis, and optimal compensation of quantization errors in subband codecs. IEEE Transactions Signal Processing, 43(9), September 1995. P. 2109-2119.

10. Papoulis A. Probability, random variables, and stchastic processs, McGraw-Hill: Tokyo, 1984.

11. Soman A.K., Vaidynathan P.P. Coding gain in paraunitary analysis/synthesis systems. IEEE Transactions Signal Processing, 41(5), May 1993. P. 1824-1835.

12. Djokovic I., Vaidynathan P.P. On optimal analysis/synthesis filters for coding gain maximization. IEEE Transactions Signal Processing, 44(5), May 1996. P. 1276-1279.

13. Calvagno G., Mian G.A., Rinaldo R. Computation of the coding gain for subband coders. IEEE Transactions Communication, 44(4), April 1996. P. 475-487.

14. Kok C.W., Nguyen T.Q. Multirate filter banks and transform coding gain. IEEE Transactions Signal Processing, 46(7), July 1998. P. 2041-2044.

15. Gosse K., Duhamel P. Perfect reconstruction versus MMSE filter banks in source coding. IEEE Transactions Signal Processing, 45(9), September 1997. P. 2188-2202.

16. Spanias A, Painter T., Atti V. Audio signal processing and coding, Wiley-Interscience, NJ, USA, 2007.

17. Bosi M., Goldberg R.E. Introduction to digital audio coding and standards, Springer Science+Business Media, USA, 2003.

18. Петровский А.А., Белявский К., Петровский Ал.А. Перцептуальное кодирование аудио и речевых сигналов: Доклады БГУИР. 2004. № 1(5). С. 73-91.

19. Petrovsky A.A., Bielawski K., Petrovsky Al.A. Combined system for acoustic echo and Noise reduction based on the psychoacousticaly motivated multirate filter bank // Mittweida, Germany: IWKM, 2000, Journal of the University of Applied Sciences Mittweida. P. 33-41.

20. Петровский А. Построение психоакустической модули в области вейвлет-коэффициентов для перцептуальной обработки звуковых и речевых сигналов // Речевые технологии. 2008. № 4. C. 61-71.

21. Петровский Ал.А., Борович А, Парфенюк М. Дискретное преобразование Фурье с неравномерным частотным разрешением в перцептуальных системах редактирования шума в речи // Речевые технологии. 2008. № 3. С. 16-26.

22. Петровский Ал. Перцептуальный кодер звука на базе вейвлет преобразования с динамической трансформацией частотно-временного плана // Цифровая обработка сигналов. 2009. № 4. С. 48-58.

25

Петровский А. А. Субполосная обработка сигналов: эффективность и применение в речевых технологиях

26 Петровский Алексей Александрович — кандидат технических наук, доцент. Работает в учреждении образования «Белорусский государственный университет информатики и радиоэлектроники», кафедра Электронных вычислительных машин. Закончил учреждение образования «Белорусский государственный университет информатики и радиоэлектроники», специальность — «Проектирование и технология электронных вычислительных средств». Сфера интересов — цифровая обработка сигналов: многоскоростная обработка, анализ/синтез банков фильтров, проектирование проблемно-ориентированных средств вычислительной техники реального времени для систем мультимедиа. Член общества AES.

i Надоели баннеры? Вы всегда можете отключить рекламу.