Научная статья на тему 'Согласованное многоканальное разделение сигнала с вейвлет-преобразованием и модифицированной полифазной структурой для спектрального вычитания фона речевого сигнала'

Согласованное многоканальное разделение сигнала с вейвлет-преобразованием и модифицированной полифазной структурой для спектрального вычитания фона речевого сигнала Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
86
16
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Малыхина Г. Ф., Меркушева А. В.

Метод спектрального вычитания используется для улучшения качества речевого сигнала (РС), т. к. этот метод способен существенно уменьшить или уничтожить аддитивный шум, присутствующий в сигнале. В отличие от использованного ранее преобразования с равномерной шириной каналов рассматриваются два варианта структуры, в которых деление полного диапазона частот сигнала осуществлено на полосы возрастающей ширины. Такое деление диапазона частот РС лучше соответствует виртуальной системе фильтров слухового аппарата человека, т. е. так называемой персептуальной модели, отражающей особенности восприятия РС и других звуковых сигналов. Рассмотрены две структуры: одна на основе дискретного вейвлет-преобразования, вторая неоднородная система согласованного многоканального разделения на основе полифазной структуры.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONSISTENT MULTICHANNEL SIGNAL SEPARATION with WAVELET-TRANSFORMATION AND MODIFIED POLYPHASE STRUCTURE FOR spectral SUBTRACTION of SPEECH SIGNAL

The spectral subtraction method is used to improve the speech signal (SS) quality since this method can essentially reduce or even eliminate SS additive noises. On the contrary to the earlier used transformation with a uniform channel width, two variants of structure are considered, in which the total signal frequency band is subdivided into bands with increasing widths. Such a method of the SS total band subdivision is more consistent with the virtual filtering system of the human auditory system, namely, the so-called perceptual model that manifests peculiar features of perception of SS and other acoustic signals. The paper considers two structures: one based on the discrete wavelet-transformation, the other being a nonuniform system of consistent multichannel separation based on the polyphase structure.

Текст научной работы на тему «Согласованное многоканальное разделение сигнала с вейвлет-преобразованием и модифицированной полифазной структурой для спектрального вычитания фона речевого сигнала»

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2008, том 18, № 1, c. 110-118 ОБРАБОТКА И АНАЛИЗ СИГНАЛОВ =

УДК 621.391; 519.21; 519.245 © Г. Ф. Малыхина, А. В. Меркушева

СОГЛАСОВАННОЕ МНОГОКАНАЛЬНОЕ РАЗДЕЛЕНИЕ СИГНАЛА С ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕМ И МОДИФИЦИРОВАННОЙ ПОЛИФАЗНОЙ СТРУКТУРОЙ ДЛЯ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ ФОНА РЕЧЕВОГО СИГНАЛА

Метод спектрального вычитания используется для улучшения качества речевого сигнала (РС), т. к. этот метод способен существенно уменьшить или уничтожить аддитивный шум, присутствующий в сигнале. В отличие от использованного ранее преобразования с равномерной шириной каналов рассматриваются два варианта структуры, в которых деление полного диапазона частот сигнала осуществлено на полосы возрастающей ширины. Такое деление диапазона частот РС лучше соответствует виртуальной системе фильтров слухового аппарата человека, т. е. так называемой персептуальной модели, отражающей особенности восприятия РС и других звуковых сигналов. Рассмотрены две структуры: одна — на основе дискретного вейв-лет-преобразования, вторая — неоднородная система согласованного многоканального разделения на основе полифазной структуры.

ВВЕДЕНИЕ

Обычное спектральное вычитание фона (СВФ)1-1 с аналитической точки зрения сводится к введению спектральных весовых коэффициентов, видоизменяющих частотную форму (преобразование Фурье) зашумленного речевого сигнала (РС). Фактически метод реализует вычитание средней величины спектра шума из спектра РС и используется, когда искажение РС происходит за счет аддитивного шума с медленноменяющимися спектральными характеристиками. При этом выполняются прямое и обратное дискретное преобразование Фурье (ДПФ) в форме кратковременного ДПФ с частичным перекрытием "окна" преобразования. Более совершенным является метод СВФ, основанный на структурах согласованного многоканального разделения (СМР) сигнала [1, 2]. Для равномерной (по спектру) ширины каналов этот метод использовался Смитом, Эдинсом (Smith, Eddins) [3] и Аровудом (Arrowood), Смитом [4]. Метод СВФ с неравномерными по частоте каналами, приспособленными к персептуальной модели 2), которая отражает особенности восприятия

1)1 Иногда используется термин "спектральное выравнивание зашумленного речевого сигнала".

2) Персептуальная модель отражает неравномерное (по частотному спектру РС) распределение ширины каналов, причем последовательность и ширина каналов соответствуют дискретному анализатору звуковых частот, реализованному так называемой улиткой среднего уха человека [5]. Разбиение частотного диапазона РС в соответствии с персептуальной моделью называют

звука человеком, использован в [6]. В этой работе СВФ реализовано на основе вейвлет-преобра-зования и предусмотрена адаптация к изменениям уровня и спектральной структуры фона. СВФ с использованием неравномерных каналов СМР и вейвлет-преобразования выполнено также Лан-гом, Гуо, Одегардом (Lang, Guo, Odegard) [7]. Однако процедура СВФ проведена только для семи каналов, а для коэффициентов вейвлет-преобразо-вания использована только простая "жесткая" пороговая дискриминация. Применение полужесткого порога для вейвлет-коэффициентов в сочетании с СМР было предложено Сеоком и Бае (Seok, Bae) [8].

В статье проанализированы две структуры согласованного многоканального разделения с неравномерной шириной каналов (ориентированных на персептуальную модель РС): структура с использованием дискретного вейвлет-преобразова-ния и полифазная структура [6], которая модифицирована за счет применения широкодиапазонных преобразователей вместо элементов задержки (обычно используемых в системах СМР) между входными сигналами отдельных каналов.

В этих структурах частотные диапазоны каналов организованы так, чтобы получить шкалу в барках (см. сноску 2)) и в области низких частот РС иметь возможность осуществлять более эффективное спектральное вычитание фона. Ширина

шкалой частот в барках. Это разбиение в некоторой степени сходно с логарифмической шкалой, но не совпадает с ней.

полос в низкочастотной области РС (и количество каналов СМР в ней) выбраны таким способом, чтобы компоненты шума в интервале между гармоническими элементами сегментов РС могли быть взвешены по отдельности.

Кроме того, неточность воспроизведения РС на выходе структуры СМР должна быть мала с точки зрения субъективной оценки качества сигнала, переданного через систему СМР. Иначе говоря, РС, прошедший стадии анализа и синтеза в СМР без спектрального взвешивания, должен быть идентичен сигналу, поступившему на вход системы, т. е. по крайней мере не иметь слышимых искажений РС.

В связи с указанными требованиями к системе СМР полное восстановление РС не является безусловно необходимым, также как и прореживание частоты на входных цепях каналов СМР. Это позволяет при построении системы СМР найти рациональный баланс между допустимой ошибкой восстановления РС, частотным разрешением системы, достаточным для спектрального вычитания фона, и вычислительной сложностью алгоритма, который определяет совокупность операций, необходимых для реализации системы.

СПЕКТРАЛЬНОЕ ВЫЧИТАНИЕ ФОНА

При спектральном вычитании фона часто используется модель РС, загрязненного аддитивным гауссовым шумом: х(к) = 8(к) + п(к), где х(к) — регистрируемый РС, 8 (к) — фактический РС, п(к) — шум, к — дискретное время отсчета сигналов. Частотный спектр РС со сниженным уровнем фона £(вт) получается вычитанием оценки

средней величины фона | N(е'а) | из величины спектра | X(в"°) | регистрируемого РС 3):

£(вШ) = (| X(в'а | -| N(е* |)<

(х(а)

(1)

где (рх(а>) — фаза регистрируемого РС; X(е"°),

N(e'w) и £(е"°) — преобразования Фурье (ПФ) регистрируемого РС, шума и сигнала, полученного после спектрального вычитания фона. Средняя

величина спектра шума N(е'а) оценивается на интервалах естественных микропауз РС, которые могут детектироваться с помощью нейронной сети

[9].

Таким образом, модифицируется только вели-

3) Частотный спектр (частотная форма сигнала) представляет преобразование Фурье и обозначается прописной буквой, соответствующей обозначению сигнала.

чина X(е'0>), а фаза сохраняется, какой была до операции спектрального вычитания (СВ). Этот метод СВ основан на том, что ухо человека относительно нечувствительно к возмущению фазы [10], а способ вычитания фазы пока не формализован.

Альтернативный способ оценивания среднего уровня спектра шума (без детектирования пауз) основан на слежении за минимумом сглаженной величины спектра зашумленного РС в некотором временном окне [11, 12]. Длина окна выбирается так, чтобы на нем присутствовали паузы РС. Соотношение (1) можно интерпретировать как спектральное взвешивание зашумленного РС:

£ (е'а) = в(е'а) X (е*)

где

в(еш) =

| X(е"°) | -| N(e'w) | ¡X (е* )|

(2)

(3)

Поэтому оценка спектра РС, свободного от шума, выполняется путем применения взвешивания, зависящего от спектра регистрируемого сигнала.

Получение в (3) отрицательного значения G (ет) трактуется как ошибка оценки уровня фона. Для того чтобы такое G(eт) не входило в схему СВ, вместо (3) используется соотношение (4) [13]:

Л

в(е *) = тах

=тах

1 -

^ (е *)| ^ (е * )|

X (е * )| -| X(е * )|

^ (е * )| ^

о

Л

(4)

Для выполнения этого метода входной РС разделяется на мелкие сегменты по 10-50 мс, и применяется спектральное вычитание в пределах каждого сегмента. Чтобы не было артефактов СВ на границах сегментов, сегментация РС делается с набольшим перекрытием и так же осуществляется восстановление сигнала после процедуры СВ.

Методы СВ в описанной выше форме дают низкоуровневый остаточный шум РС, и для его подавления принимают дополнительные меры:

— частотный спектр входного сигнала может быть немного сглажен для снижения дисперсии компоненты шума;

— используется небольшая переоценка среднего спектра шума умножением его на число, несколько большее единицы, и этот коэффициент может видоизменяться вместе с уровнем шума;

— применяется порог для минимума оцененного спектра сигнала, так что оставшиеся спектральные пики маскируются даже небольшим уровнем широкополосного шума.

Общим для этих подходов к совершенствованию метода СВ является то, что при уменьшении уровня остаточного шума несколько возрастает искажение РС на выходе или становится меньшим снижение дополнительно возникающих шумов на стадии операций СВ.

Более сложная схема метода СВ предложена Капеланом, Страусом и Вари (Kapelan, Straus, Vary) [14]. Определяются апостериорное отношение сигнал/шум

R_____* (e'j) =

IX (eij) |2 \Nb (eij)

-1

апостер.М" / | дг ( )|2

и априорное отношение сигнал/шум

R

'априори V ^ V

\Gb-1(ej) • X* (eij )|2

(5)

априорь (ej ) = (1 -е) • max (R_vb ^ ),0)"

I N* (ej)|2

(6)

Gь—1 означает спектральные веса предыдущего сегмента РС, а Ь — индекс (номер) сегмента. Тогда спектральные веса текущего сегмента РС выражаются соотношением (7):

(в*) = ^ х

1 + R

b (eij)

R (eij) ö

априор.Ь V '

1 + R

(eij) "априори V ' 0

x M

(1 + Rапостер.b ^ ) )

R (eij) ö

априор.Ь V /

1 + R

(eij) априор.Ь V /

(7)

Функция M [ u ] определяется выражением

M [u ]=exp | - -

(1 + u)•10^U2] + u • I1 (

(8)

где функции 10 и 11 — модифицированные функции Бесселя первого и второго порядка.

НЕЛИНЕЙНЫЙ СПЕКТРАЛЬНЫЙ АНАЛИЗ

Вейвлет-преобразование и структура СМР на его основе

Для спектрального анализа нестационарного процесса наиболее часто используется кратковременное преобразование Фурье (КПФ)

^(,,щ) = | х(т) • w(т - Х)ещ. (9) Выбор (постоянной) длины окна этого преобразо-

вания определяется приемлемым компромиссом между величиной разрешения по времени и по частоте, а так называемая "ячейка разрешения" 4) имеет одинаковый размер на всей время-частотной плоскости. Разрешение по частоте у КПФ оказывается одинаковым на всем частотном диапазоне спектра сигнала, и это основной недостаток КПФ.

Лучшими (сравнительно с КПФ) характеристиками разрешения обладает вейвлет-преобразова-ние (ВП). Непрерывное ВП сигнала х(,) определяется с помощью единой функции у со смещением ее по времени и масштабированием 5):

wy (b, a) =| a |-1/2 J x(t)y

t - b

dt.

(10)

Функция у служит прототипом вейвлет-базиса, который получается смещением времени и масштабированием с помощью параметров Ь и а. При больших значениях а базисные функции

Уь а (,) =1 а |—12 У ((, — Ь)/а) становится низкочастотными, при малых а уЬа (,) — высокочастотные, и в разложении (10) они представляют соответствующую область спектра сигнала х(,). Разрешение во время-частотной плоскости не постоянное: в области высоких частот ВП имеет высокое разрешение по времени и небольшое по частоте; в области низких частот — высокое разрешение по частоте и небольшое разрешение по времени.

В частотной области ВП может интерпретироваться как СМР с полосовым пропусканием Ащ., которое возрастает одновременно с возрастанием центральной частоты щ0 этой полосы. При этом величина относительной полосы Q = Ащ/щ0 не зависит от параметра а. В связи с этим использование ВП называют анализом с постоянной величиной относительной разрешающей способности (с постоянным качеством Q). Для речевого сигнала такая форма анализа сходна со структурой частотного анализа, производимого слуховым аппаратом человека.

Избыточность ВП по непрерывным параметрам а и Ь снимается методом их дискретизации: ат = 2т, Ьтп = атпТ, где т, п — целые, Т — интервал дискретизации. При этом (10) приобретает форму (11), которая наиболее часто применяется в ВП:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4) Ячейку разрешения определяет произведение среднеквадратичных рассеяний по времени и по частоте ( а, • аю). Метод оценки ячейки разрешения время-частотных (включая КПФ) и время-масштабных (вейвлет) преобразований рассмотрен в [15, 16].

5) Функция у(,) — прототип вейвлет-базиса обладает определенными свойствами и удовлетворяет некоторым условиям [17, 18].

К (Ьтп,ат) =| а |-т/2 | х(Оу (2-т1 - пТ) (11)

Для повышения разрешающей способности по частоте ВП возможно использовать 1< а0 < 2, однако при этом теряется бинарное свойство масштабирования базисных функций. Другой более эффективный способ повышения частотной разрешающей способности в М раз состоит в использовании

"расщепленной" функции у (прототипа базиса) в виде

у3 (0 = 2-3/2Му (2-3/2М() , у = 0,...,М -1. (12)

Поскольку динамический спектральный анализ РС и других нестационарных сигналов производится с использованием их дискретной формы, для этих условий (11) принимает вид (13):

Рис. 1. Структура преобразований при реализации ВП по методу Малата— Шенсы

х(к)

т

g0(n)

■Л)

ёЫ

В°(и)

-¡9-

2 (Я) -Н

Анализ (НФА)

т

Спектральные веса

Синтез (НФС)

Рис. 2. Структура СМР для вейвлет-преобразования с высоким разрешением по частоте.

Элементы структуры СМР: НФА — набор фильтров анализа и НФС — набор фильтров синтеза описаны в [2] и [4].

Св) и — символы операций прореживания частоты и ее восстановления интерполированием

Wy (2mn,2m) = 2-m/2Xx(k) •y (2-mk - n), (13)

к

где интервал дискретизации Т принят за единицу 6).

Структура преобразований для реализации ВП дискретного сигнала по (13) (т. е. при обычном разрешении по частоте) является своеобразной СМР. Один из видов структуры, отражающий метод Малата—Шенсы (Mallat, Shensa) [19], представлен на рис. 1, где G(z) — z-преобразование прототипа вейвлет-функции; F(z) — передаточная функция фильтра интерполяции.

Для получения более высокого разрешения по частоте методом расщепления прототипа базиса в соотношении (13) вместо функции y(к) следует

использовать yj (к) = 2-j/2Мy (2-j/2M к) , j = 0,

...,M -1 из соотношения (12). Поэтому для дискретного сигнала ВП с увеличенным в М раз разрешением по частоте должно использоваться выражение (14):

WyJ (2mn,2m) = 2-m/2 х

х£x(k) • 2-j/2My (2-j/M (2-mк - n)). (14)

к

При анализе РС с повышенным разрешением по частоте свойство полного восстановления сигнала на выходе структуры СМР позволяет реализовать 2m -кратное прореживание частоты в m-октаве более эффективно (сравнительно с непосредственным вычислением по соотношению (13)). Для этого может служить структура СМР на основе ВП. Эта вейвлет-структура СМР для (p+1)-октавного спектрального разложения сигнала, дополненная М-кратным расщеплением функции у (прототипа базиса), представлена на рис. 2. Для анализируемого сигнала она обеспечивает М-кратное повышение разрешения по частоте.

Функция низкочастотного фильтра fa(n) состоит в снижении эффекта Гиббса — межканального просачивания частот (элайзинга). Прореживание частоты РС на 21 в октаве I позволяет использовать в каждой октаве одинаковые фильтры. В цепях набора фильтров синтеза (НФС) восстанавливается частота в канале каждой октавы на выходе СМР, и сигнал суммируется с выходом следующей октавы НФС. При этом производится компенсация запаздывания сигнала в цепях НФА путем введения

блоков задержки z

,..., z v". Выполнение

синтеза на выходе СМР не обеспечивает 100 %-го полного восстановления сигнала, но качество по-

6) Шаг временного смещения базисной функции при этом меняется по величине в каждой следующей октаве ВП (т. е. при изменении величины параметра т).

лучаемого РС вполне достаточно с точки зрения персептуальной модели. Вместе с тем такая форма спектрального анализа с повышенным частотным разрешением имеет преимущество существенно меньшего объема вычислений (сравнительно с использованием общих аналитических соотношений).

Модифицированная структура СМР с полифазным преобразованием

Получение согласованного многоканального разделения сигнала с неравномерной шириной каналов (требуемой персептуальной моделью для РС) может быть реализовано на основе полифазной структуры, в которой блоки задержки заменены широкополосными преобразователями (так называемыми "всепропускающими" фильтрами).

Аналитическое описание полифазной структуры СМР приводит к выражению для z-преобра-зования передаточной функции j-го канала в виде соотношения [1, 2, 4]

M-1 Lp/M -1 Г

Hj(z) = X X i(pM + р) •[z-1 ]PM+P х

р=о p=о [

х exp

-2к i •\-Р- • j ' M

j = 0,1,...,M -1,

(15)

где использованы широкополосные характеристики для преобразования РС в каждом канале на основе единого прототипа фильтра И(к), к = 0,1,..., Lp -1.

Система СМР на основе модифицированной полифазной структуры с заменой блоков задержки на широкополосные преобразователи показана на рис. 3.

В представленной системе СМР на основе полифазной структуры выполнена замена элементов задержки z-1 на широкополосные преобразователи степени 1, согласно (16):

H (z) =

a z +1 z + a

-1 <a <1.

(16)

Это не изменяет величины передаточной функции (ПФ), но вызывает преобразование частоты ш в частотной форме ПФ [14]. Вид преобразования получается из (16) путем подстановки г ® ет. Это дает взаимосвязь первоначальной частоты ш1 с нелинейно масштабированной частотой ш2 после преобразования:

w2 = 2arctg

1 + a ( w

--tgl ^

1 - a I 2

(17)

При значениях -1 < а < 0 ширина частотных полос фильтров (- широкополосных преобразователей)

Рис. 3. Система СМР с полифазной структурой и высоким частотным разрешением

возрастает вместе с ростом их центральных час- полос уменьшается по мере увеличения их цен-тот. При а = 0 получаются одинаковые ширины, а тральных частот. при значениях а из интервала 0 < а < 1 ширина

Аппроксимация спектра РС при масштабировании частоты в барках

Согласно персептуальной модели, основанной на психоакустических экспериментах [5], частотный диапазон РС разделен на интервалы ("критические полосы") с примерно одинаковой относительной шириной — шириной, отнесенной к средней частоте интервала. Критические полосы ведут к концепции нелинейного преобразования шкалы частот. Результатом такого преобразования является частотная шкала п с единицей 1 барк. Масштаб шкалы выбран таким образом, что каждая критическая полоса имеет одинаковую ширину Ац = 1 барк . Преобразование диапазона частот РС в эту шкалу может быть аппроксимировано соотношением:

Ц [барк] = 13 • агс^ ( 0.76 • / [кГц ]) 7 / [кГцр

-3.5 • агс§

7.5

(18)

С помощью подходящего выбора величины а в соотношении (17) получено приближенное описание каналов СМР, соответствующее виртуальным каналам спектрального преобразования в слуховом аппарате человека. Как отмечено выше, характеристика этих каналов достаточно надежно установлена, отражена в персептуальной модели [5, 6] и выражена частотной шкалой РС в барках. Численное моделирование и анализ системы СМР (рис. 3) показывает, что при значении а = —0.49 положение и ширина каналов в этой модифицированной СМР на основе полифазной структуры практически идеально соответствует характеристикам анализа человеком звукового спектра РС в диапазоне до 11 кГц.

Отметим, что простая СМР на основе ВП соответствует логарифмическому масштабу преобразования частоты и поэтому дает значительные отклонения (особенно в области низких частот РС) от персептуальной модели.

Восстановление РС в системе СМР

Построение рассмотренных систем СМР для речевого сигнала ориентировано на прагматический критерий — отсутствие заметных на слух искажений на выходе СМР сравнительно с сигналом на входе при условии неиспользования в СМР промежуточного преобразования спектра (в СМР без спектральных весов). Требование полного восстановление РС значительно смягчается в задаче улучшения качества сигнала методом спектрального вычитания фона. Это связано с присущими методу небольшими искажениями сигнала и с появлением незначительного остаточного шума. Обе

эти компоненты достаточно хорошо маскируют незначительное искажение РС за счет несовершенного восстановления его в системе СМР. Кроме того, эти небольшие искажения появляются в области высоких частот, а основная часть информационной части РС сосредоточена в пределах 34 кГц. Тесты по прослушиванию РС на выходе СМР подтверждают эти положения.

В связи с этим оказывается возможным строить СМР с прореживанием частоты без использования предельного значения коэффициента снижения эффективной частоты дискретизации (ЭЧД [2]) и тем самым достигать дополнительного снижения элайзинга между каналами. Соотношение коэффициента г снижения ЭЧД при прореживании и величины М повышения частотного разрешения является оптимальным для г = М /4 — это соотношение обеспечивает высокое качество РС на выходе системы СМР.

ЗАКЛЮЧЕНИЕ

Рассмотрены методы улучшения качества речевого сигнала (РС) за счет спектрального вычитания сопутствующего шума. В связи с этой задачей изучены системы согласованного многоканального разделения (СМР), включающие наборы фильтров анализа (НФА) и синтеза (НФС).

■ Проанализированы модифицированные структуры систем СМР, построенные по схеме повышенного частотного разрешения. Метод повышенного частного разрешения описан для дискретного вейвлет-преобразования.

■ Приведена структура СМР на основе вейв-лет-преобразования, имеющая М-кратно повышенное разрешение по частоте и неравномерную ширину каналов.

■ Приведена система СМР с модифицированной полифазной структурой с заменой блоков задержки фильтрами с широкополосным преобразованием РС, с неравномерной шириной каналов и повышенным частотным разрешением.

■ Для этой системы СМР показан нелинейный характер изменения частоты при использовании широкополосного преобразователя 1-го порядка и зависимость его от величины параметра а.

■ Показан способ эмпирического описания положения и ширины каналов слухового аппарата человека по "персептуальной модели", основанной на экспериментальных данных и реализованной масштабированием частотной шкалы РС в барках.

■ Приведено соотношение параметра а и коэффициента М — кратности повышения частотного разрешения (в модифицированной структуре СРМ), которое оптимальным образом соответствует виртуальным каналам частотного анализа РС в слуховом аппарате человека. Для этой структуры

СМР речевого сигнала дана величина параметра а, при которой достигается лучшее преобразование РС по критерию качества восприятия звука.

СПИСОК ЛИТЕРАТУРЫ

1. Vaidyanathan P.P. Orthonormal and Biorthogonal Filter Banks as Convolutional, and Deconvo-lutional Coding Gain // IEEE Transactions on Signal Processing. 1993. V. 41, N 6. P. 2110-2130.

2. Меркушева А.В., Малыхина Г.Ф. Согласованное многоканальное разделение сигнала: фильтрация и мультиплексирование // Здесь. С.98-109.

3. Smith M.J.T., Eddins S.I. Analysis/Synthesis Techniques for Sub-Band Image Coding // IEEE Transactions on Acoustic, Speech and Signal Processing. 1990. V. 38. P. 1446-1456.

4. Arrowood J.L., Smith M.J.T. Exact Reconstruction Analysis/Synthesis Filter Banks with Time-Varying Filters // Proceedings of IEEE Intern. Conference on Acoustic, Speech and Signal Processing (Minneapolis, USA), April 1993. V. III. P. 233-236.

5. Zwicker E. Psychoacoustik. Berlin: SpringerVerlag, 1982.

6. Меркушева А. В. Нейросетевой метод цифровой обработки нестационарного сигнала (речи) в области вейвлет-отображения // Цифровая обработка сигналов. 2006. № 1. C. 18-30.

7. Lang M., Guo H., Odegard J.E., Burrus C.S., Wells R.O. Noise Reduction for Speech Signal Using an Undecimated Discrete Wavelet-Transformation // IEEE Signal Processing Letters. 1996. V. 3, N 1. P.10-12.

8. Seok J.W., Bae K.S. Speech Enhancement with Reduction of Noise Components in Domain // International Congress on Acoustic, Speech and Signal Processing, Aplil 1997, Munich, Germany. V. II. P. 12123-1226.

9. Меркушева А. В. Применение нейронной сети для текущего анализа нестационарного сигнала (речи), представленного его вейвлет-отображением. Основные принципы // Научное приборостроение. 2003. Т. 13, № 1. С. 6471.

10. Vary P. Noise Suppression by Spectral Magnitude Estimation — Mechanism and Theoretical

Limits // Signal Processing. July 1985. V. 8, N 4. P. 387-400.

11. Dobinger G. Computationally Efficient Speech Enhancement by Spectral Minima Tracking in Subbands // Proceedings of EUROSPEECH. 1995. P.1513-1516.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Martin R. Spectral Subtraction Based on Minimum Statistics // Proceedings of EUROSPEECH. Edinburg, 1994. P. 1182-1185.

13. Boll S.F. Suppression of Acoustic Noise Using Spectral Subtraction // IEEE Transactions on Acoustic, Speech and Signal Processing. 1979. V. 27, N 4. P. 113-120.

14. Kappelan M., Straus B., Vary P. Flexible Nonuniform Filter Bank Using Allpass Transfortation of Multiple Order // Proceedings of EUROSPEECH. 1996. P. 1745-1748.

15. Malychina G.F., Mercusheva A.V. Metrological Aspects of Non-Stationary Signal Transthformation for Spectrum Dynamic Analysis // 10th IMEKO TC7 International Symposium on Advances of Measurement Science (June 30-July 2, 2004), Saint-Petersburg, Russia. V. 1. P. 212-216.

16. Малыхина Г.Ф., А.В. Меркушева Метрологические характеристики время-масштабного преобразования для анализа динамического спектра нестационарного сигнала в ИИС // Измерительные информационные технологии. Сб. статей факультета технической кибернетики Санкт-Петербургского политехнического университета. Изд. СПбГПУ, 2005. С. 50-62.

17. Daubechies I. Ten Lectures on Wavelets // Conference Board Sciences, Series on Applied Mathematics N 61. Society of Industrial and Applied Mathematics (SIAM), Philadelphia, 1992. 258 p.

18. Jawerth B., Sweldens W. Wavelet-Based Multiresolution Analysis // SIAM Review. 1994. V. 36, N 3. P. 337-345.

19. Shensa M.J. The Discrete Wavelet Transform: Wedding the a Trous and Mallat algorithms // IEEE Transactions on Signal Processing, 1992. V. 40, N 10. P. 2464-2482.

Санкт-Петербург

Материал поступил в редакцию 20.11.2007.

CONSISTENT MULTICHANNEL SIGNAL SEPARATION WITH WAVELET-TRANSFORMATION AND MODIFIED POLYPHASE STRUCTURE FOR SPECTRAL SUBTRACTION OF SPEECH SIGNAL

G. F. Malychina, A. V. Merkusheva

Saint-Petersburg

The spectral subtraction method is used to improve the speech signal (SS) quality since this method can essentially reduce or even eliminate SS additive noises. On the contrary to the earlier used transformation with a uniform channel width, two variants of structure are considered, in which the total signal frequency band is subdivided into bands with increasing widths. Such a method of the SS total band subdivision is more consistent with the virtual filtering system of the human auditory system, namely, the so-called perceptual model that manifests peculiar features of perception of SS and other acoustic signals. The paper considers two structures: one based on the discrete wavelet-transformation, the other being a nonuniform system of consistent multichannel separation based on the polyphase structure.

i Надоели баннеры? Вы всегда можете отключить рекламу.