ISSN G868-5886
НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2GG3, том ІЗ, № 2, c. 73-87
ОРИГИНАЛЬНЫЕ СТАТЬИ
УДК 621.391; 519.21 © А. В. Меркушева
ФИЛЬТРАЦИЯ НЕСТАЦИОНАРНОГО СИГНАЛА (РЕЧИ) В ВЕЙВЛЕТ-ОБЛАСТИ С АДАПТАЦИЕЙ К ВИДУ И ДИНАМИКЕ ШУМА
Представлен метод фильтрации нестационарного сигнала ИИС в области вейвлет-отображения, основанный на получении статистических закономерностей распределения вейвлет-коэффициентов (ВК) сигнала и шумов различного вида и на динамической адаптации к характеру нестационарности сигнала и шума. Получено описание вероятностного распределения ВК в форме экспоненциально-степенного закона и определены его параметры. Получена аналитическая форма зависимости порога дискриминации ВК от параметров их распределения и от вида и мощности шума, которая уточняет результаты Донохо и Джонстона. Одновременно это выражение для порога дискриминации ВК является обобщением формулы Крамера, ориентированной только на Гауссово распределение. При разработке метода в качестве нестационарного сигнала общей формы использован речевой сигнал и четыре разновидности шума.
ВВЕДЕНИЕ
Фильтрация нестационарного сигнала является важной задачей, возникающей при разработке информационно-измерительных систем (ИИС).
Особенность фильтрации состоит в необходимости удаления внутриполосного шума, поскольку именно такой шум существенно снижает возможности адекватной интерпретации сигнала. Фильтрация в области вейвлет-отображения сигнала (вейвлет-фильтрация) состоит в дискриминации вейвлет-коэффициентов, которая обеспечивает удаление шума внутри и вне спектра сигнала и относится к нелинейным методам фильтрации.
Исследование метода вейвлет-фильтрации целесообразно проводить на нестационарном сигнале самой общей формы, который удобно формировать с сопутствующим шумом различного типа и уровня. Таким требованиям удовлетворяет речевой сигнал, характер нестационарности которого невозможно описать никакими моделями.
Информационная компонента сигналов в ИИС чаще всего спорадически прерывается интервалами отсутствия сигнала, несущими только шумовую составляющую, которая также обычно нестационарна. Эта особенность позволяет динамически адаптировать параметры, определяющие условия фильтрации, к меняющейся со временем компоненте шума, т. е. пороги дискриминации вейвлет-коэффициентов изменяются во времени, адаптируясь к виду и уровню шума. Поскольку процедура дискриминации фактически эквивалентна усечению выборочного вероятностного распределения вейвлет-коэффициентов, выбор порогов дискриминации должен быть основан на подробном статистическом анализе вейвлет-коэф-
фициентов сигнала и основных видов шумов и изучении законов распределения вейвлет-коэффициентов. Предположение о гауссовом распределении сигнала и шума не является вполне обоснованным.
ВЕЙВЛЕТ-ФИЛЬТРАЦИЯ ПРИ ЖЕСТКОМ И ГИБКОМ ПОРОГАХ ДИСКРИМИНАЦИИ
Вейвлет-фильтрация — это нелинейная операция, основанная на обработке сигнала в плоскости время—масштаб (в области вейвлет-преобразования) и предназначенная для удаления шума внутри и вне частотного диапазона сигнала. Использование свойства вейвлет-преобразования, состоящего в эффективной локализации по времени и частоте [1-5], позволяет с помощью фильтрации удалять нестационарные узкополосные шумы. При этом вейвлет-фильтрация свободна от недостатков частотной фильтрации. Она не дает сглаживания особенностей тонкой структуры сигнала и не вносит дополнительных возмущений вследствие явления Гиббса.
Вейвлет-фильтрация позволяет удалять широкополосный шум различного вида, который дает множество малых по величине вейвлет-коэффициентов, приблизительно равномерно представленных на всех уровнях масштаба. В связи с этим используется метод дискриминации коэффициентов на некотором пороговом уровне. Вейвлет-коэффициенты (ВК), значения которых ниже порога, обнуляются.
Вейвлет-фильтрация применима также для удаления локализованного узкополосного шума (спайк-шума). При этом считается, что ВК, значе-
ния которых выше порога, представляют спайк-шум. Такие коэффициенты заменяются новыми значениями, полученными путем интерполяции по соседним коэффициентам [6].
При удалении широкополосного шума различают вейвлет-фильтрацию с жестким и гибким порогами. При вейвлет-фильтрации с жестким порогом коэффициенты Щк} в у-м пространстве разложения сравниваются с порогом дискриминации. Коэффициенты, значения которых ниже порога дискриминации, обнуляются, значения остальных коэффициентов остаются без изменения:
' }к
]к при 0 при
]к
]к
>в.
<в.
(1)
в = а • п
(2)
Схема с гибким порогом дискриминации является субоптимальной процедурой [7, 8] и удовлетворяет условиям:
— получение оценки и (п) сигнала и(п) по критерию наименьшей среднеквадратичной ошибки
п— • Е
|| и —и || ^ ] =п 1 • П-1Е((і/п)—и(і/п))2, ’ і=0
(4)
где d к и djk — коэффициенты на у-м уровне до и
после фильтрации, в — значение порога дискриминации. Схема применяется для белого гауссова шума и удовлетворительно работает для широкополосного окрашенного гауссова шума.
Величина порога дискриминации, определенная в работе [7], зависит от среднеквадратического отклонения шума а, количества отсчетов п сигнала и выражается соотношением
где Е — символ математического ожидания, а норма в пространстве 1„ представляет собой
длину вектора и —и;
— получение оценки сигнала ~(п), не менее гладкой, чем сигнал и(п), что эквивалентно условию
| ~(і)|2 < | и(ґ)|"
(5)
При вейвлет-фильтрации с жестким порогом предполагается, что в тех ячейках время-частотной плоскости, которым соответствуют малые значения коэффициентов, отсутствует полезный сигнал. Шум не удаляется из тех ячеек время-частотной плоскости, в которых присутствует полезный сигнал. Следовательно, для каждой ячейки время-частотной плоскости можно говорить только об удалении шума вне спектрального диапазона сигнала.
При вейвлет-фильтрации с гибким порогом коэффициенты Щк} в у-м пространстве разложения сравниваются с порогом дискриминации. Коэффициенты, значения которых ниже порога дискриминации, обнуляются, значения остальных коэффициентов уменьшаются по модулю на величину порога:
При вейвлет-фильтрации с гибким порогом сохраняется гладкость сигнала. При этом обеспечивается удаление шума во всех ячейках время-частотной плоскости, в том числе и в тех ячейках, в которых присутствует полезный сигнал. Таким образом, имеет место внутридиапазонная фильтрация.
Непосредственное применение описанного метода вейвлет-фильтрации недостаточно в связи с тремя обстоятельствами.
1. В задаче фильтрации сигнала спектр шума в большинстве случаев отличается от спектра белого шума. Поэтому стандартное отклонение а шума, представленное в формуле (2), реально для разных пространств разложения имеет различное значение.
2. При фильтрации сигнала, как правило, помеха является нестационарной, и величина а в соотношении (2) для каждого пространства разложения изменяется во времени.
3. Предположение о гауссовом характере шума не выполняется для коэффициентов вейвлет-разложения шума, поскольку это противоречит свойству компрессии сигнала, характерному для вейвлет-преобразования.
^п( а ^) • (| | —в) при
0 при
а
а
зк
&
> в,
< в.
(3)
Фильтрация с гибким порогом, определяемым по формуле (2), применима для гауссова белого или окрашенного шума.
ВЕРОЯТНОСТНОЕ РАСПРЕДЕЛЕНИЕ ВЕЙВЛЕТ-КОЭФФИЦИЕНТОВ НЕСТАЦИОНАРНОГО ПРОЦЕССА И ШУМА НА ПРИМЕРЕ РЕЧЕВОГО СИГНАЛА
Вейвлет-фильтрация нестационарного сигнала, основанная на пороговой дискриминации ВК, предназначена для удаления как широкополосных локально-стационарных шумов, так и узкополосных кратковременных спайк-шумов типа "выбро-
сов". Как отмечено выше, удаление спайк-шумов встречается, в частности, при коммуникации речевых сигналов, которые приняты за общий прототип нестационарного сигнала. Удаление основано на дискриминации вейвлет-коэффициентов, превышающих уровень порога, и последующей аппроксимации удаленных коэффициентов по предыдущим и последующим значениям.
Снижение уровня широкополосного шума обеспечивается наличием при его вейвлет-разложении множества малых по величине вейвлет-коэффициентов, равномерно представленных на всех уровнях масштаба. В связи с этим в процессе фильтрации выполняется обнуление ВК, значение которых не превышает порогового уровня. Выбор уровней дискриминации определяет качество фильтрации. Уровни дискриминации могут быть определены на основе функции распределения вейвлет-коэффициентов шума и функции распределения их максимальных значений. Поэтому необходимым этапом является статистический анализ вейвлет-коэффициентов шума.
Широко распространенный подход к вейвлет-фильтрации на основе предположения о нормальном распределении ВК сигнала и шума не всегда адекватен задачам фильтрации нестационарных сигналов, в том числе и речевых сигналов. Поэтому необходимым условием разработки алгоритма вейвлет-фильтрации являются статистическое исследование эмпирических распределений вейвлет-коэффициентов сигнала и шума и обоснование использования семейства распределений с широким диапазоном варьирования формы.
СЕМЕЙСТВО
ЭКСПОНЕНПИАЛЬНО-СТЕПЕННЫХ
РАСПРЕДЕЛЕНИЙ
Для описания распределения вейвлет-коэффициентов сигнала и шума предложено использовать класс экспоненциально-степенных распределений [9]. Этот класс составляет семейство плотностей распределений различной формы, которые характеризуются тремя параметрами: математическим ожиданием тх, среднеквадратичным отклонением ах и параметром формы а:
2Я(7х •
Г
• ехр
/ х - тх а ^
ХОх
(6)
Рис. 1. Семейство экспоненциально-степенных распределений
Функция распределения имеет вид
2 Г
7рехР
а
V у
-(
I -1
(7)
Параметром масштаба распределения служит Р=Хох. Множитель X выражается через параметр формы а в соответствии с соотношением
Х =
Г
1
а
Г
а
V у
(8)
где Г(а) = | ха 1 ехр(-х)дх — обычная (т. е. пол-
ная) гамма-функция.
Некоторые типы экспоненциально-степенных распределений при различных значениях параметра формы а и ах=1 представлены на рис. 1.
Семейство экспоненциально-степенных распределений включает распределение Лапласа (при а = 1), нормальное распределение (при а = 2) и равномерное распределение (при а^ж). Ста-
а
х-т
х
1
а
тистическую оценку вида экспоненциальностепенного распределения можно получить на основе вычисления относительного четвертого момента — эксцесса е = -\[^4/о2х (где Ц4 — центральный четвертый момент) или по его обратной
величине — контрэксцессу К = Ох у/ ц4 .
Контрэксцесс изменяется в пределах от нуля до единицы для всех законов распределения. Предельные значения имеют распределение Коши ( К =0) и дискретное двухмодальное распределение (к =1). Для экспоненциально-степенных распределений К изменяется на интервале от 0 до 0.745. Параметр формы а экспоненциальностепенного распределения связан с контрэксцессом (оцениваемым статистически) приближенной эмпирической зависимостью
а~ (1.355 - к2)/1п(5к/9) .
(9)
Переход от параметра а к контрэксцессу К возможен также с использованием соотношения
к =
Г(3/а)ЦГ(5/а)г(1/а). (10)
Простота математического описания, свойственная семейству экспоненциально-степенных распределений, возможность широкого варьирования формы (от островершинной до прямоугольной формы равномерного распределения) и удобство статистического оценивания параметров послужили основанием для использования этого семейства при описании статистического распределения вейвлет-коэффициентов сигнала и шума.
СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ ВЕЙВЛЕТ-КОЭФФИЦИЕНТОВ СИГНАЛА И ШУМА
Экспериментальное изучение характера статистического распределения сигнала и его вейвлет-коэффициентов (ВК) проведено с использованием речевых сигналов в виде набора фонограмм с записью мужского и женского голосов. Исследование статистических распределений шума и его ВК выполнено на наборе фонограмм с записью широкополосного шума (шума пылесоса), окрашенных шумов (шума льющейся воды, шума вентилятора) и музыкального фона.
Запись фонограмм выполнена с частотой дискретизации 22.05 кГц, 16 бит на отсчет. Для каждой фонограммы проанализировано 180 сегментов по 4096 отсчетов. Для уменьшения корреляции между отсчетами выполнена децимация с коэффициентом
10. По полученным данным вычислены оценки математического ожидания, среднеквадратичного отклонения и контрэксцесса. С помощью (9)
а
Р{а)
Normal Probability Plot
Рис. 2. Функция распределения параметра формы речевого сигнала: а — мужской голос, б — женский голос
по контрэксцессу определено значение параметра а, характеризующего форму распределения. Для каждой фонограммы выполнена оценка параметров для 180 распределений. По ним построена функция распределения оценок параметра а, полученных на каждом из сегментов. Представление функции распределения на вероятностной сетке [10] облегчило получение медианы и доверительного интервала для а, отвечающего каждому анализируемому звуковому файлу.
Эмпирически оценена форма распределений сигнала. Вид закона распределения параметра формы а для фонограмм с записью мужского и женского голосов (рис. 2) отличается от нор-
1
2
3
4
5
мального, медиана параметра а равна 1.3. Отдельные распределения изменяются от островершинных (а = 0.4) до равномерных (а = 3 ... 6).
Таким же методом выполнен анализ распределений шумов и получены функции распределения параметра а для широкополосного шума, окрашенных шумов и музыкального фона (рис. 3). Только один из рассмотренных типов шума (широкополосный) имеет распределение, близкое
к нормальному. Параметр формы для него находится в диапазоне а = 1.9 ... 2.2. Окрашенные шумы имеют островершинные распределения с медианой, соответствующей а = 1, и диапазоном значений а от 0.5 до 1.5. Музыкальный фон имеет широкий диапазон формы распределений от островершинного (а = 1) до близкого к равномерному (а = 5 ... 6).
Р(а)
а
Р{а)
б
а
0.5
1.5
2.5
а
2
Р(а)
Р(а)
в
а
а
г
Рис. 3. Функция распределения параметра формы а для шумов: а — широкополосный шум; б, в — два вида окрашенных шумов; г — музыкальный фон
Проведено исследование формы распределения ВК для окрашенного шума, исходное распределение которого близко к распределению Лапласа с а = 1. Анализ функций распределения параметра формы а для окрашенного шума и его ВК в некоторых полосах разложения в соответствии с персептуальной моделью (рис. 4) показывает, что распределение вейвлет-коэффициентов является более островершинным, чем распределение исходного сигнала. Для исходного сигнала медиана параметра формы распределения а = 1; для ВК
в четвертой полосе а = 0.95; в одиннадцатой полосе а = 0.8 и в последней полосе а = 0.6. Возрастание островершинности распределения при вейвлет-разложении является следствием компрессии, свойственной вейвлет-преобразованию. Чем выше гладкость базисных функций, чем больше число исчезающих моментов ([11], [12]), тем больше нулевых коэффициентов в вейвлет-разложении. Увеличение количества близких к нулю вейвлет-коэффициентов изменяет форму распределения и делает ее более островершинной.
а
Р(а)
Р(а)
а
б
а
Р(а)
Р(а)
в
Рис. 4. Распределения параметра формы а для окрашенного шума и его вейвлет-коэффициентов в некоторых полосах разложения: а — исходный шум; б — вейвлет-коэффициенты в 4-й полосе; в — вейвлет-коэффициенты в 11-й полосе; г — вейвлет-коэффициенты в 22-й полосе
Таким образом, уровни дискриминации при вейвлет-фильтрации определяются видом закона распределения вейвлет-коэффициентов сигнала и шума. Как показало исследование, для описания закона распределения вейвлет-коэффициентов целесообразно использовать семейство экспоненциально-степенных распределений с широким диапазоном варьирования формы.
Большинство исследованных локальных распределений сигнала и шума являются островершинными распределениями. Вейвлет-преобразование таких сигналов приводит к увеличению островершинности распределений. При этом выбор вейвлет-базиса более высокого порядка также способствует увеличению островершинности распределений вейвлет-коэффициентов. Поэтому использование нормального распределения неадекватно задаче фильтрации речевого сигнала.
ОПРЕДЕЛЕНИЕ ПОРОГА ДИСКРИМИНАЦИИ ВЕЙВЛЕТ-КОЭФФИЦИЕНТОВ ПРИ ЭКСПОНЕНЦИАЛЬНО-СТЕПЕННОМ РАСПРЕДЕЛЕНИИ
Эффективность вейвлет-фильтрации с жестким и гибким порогами в значительной степени определяется правильным выбором величины порога дискриминации, который зависит от закона распределения коэффициентов в пространствах вейвлет-разложения. Применение порога дискриминации, полученного из предположения о нормальном распределении вейвлет-коэффициентов (ВК), неадекватно задаче фильтрации. Поэтому потребовалось определить порог дискриминации ВК при экспоненциально-степенном распределении.
Для гарантированного удаления шумов из каждого пространства вейвлет-разложения необходимо знать закон распределения максимальных значений ВК шума, содержащихся в выборке заданного объема п. Для нормального закона распределения случайной величины распределение максимальных значений в выборке заданного объема получено Г. Крамером (H. Cramer) [13]. Аналогичное соотношение получено нами для семейства экспоненциально-степенных распределений.
С использованием выражения для плотности распределений этого семейства
f (x) = -
а
2-Ха-Г
а
v
- exp
Г а т
X
Ха
(11)
получена функция распределения р (х) =
х
= 11(х)дх, которая после введения новой пере-
менной Z = /Ха
F (Z) =
X
Ха 1
принимает вид:
Г1 Т
2 Г -
И
ex
p(-Z)-Za -dZ =
I Ха =05 +1
2Г
•exp(-Z)-Za -dZ
(12)
а
в котором учтено, что С, > 0.
Дальнейшие преобразования связаны с введением новой переменной £ = «[1 - р(х)], 0 < £ < п .
Универсальность этой переменной состоит в том, что ее плотность вероятности к(£) и функция распределения Н(£) соответствуют простому экспоненциальному распределению [13] и определяются выражениями:
к(£) = ехр(- £), (13)
£
Н (£)=| ехр(- г )& = 1 - ехр(-£). (14)
0
Уровни дискриминации определены как квантили функции распределения, соответствующие заданной доверительной вероятности Р. Соотношение между доверительными значениями хр
и £р при доверительной вероятности Р имеет вид
lp =n(1 - F (xp)).
(15)
По определению функции распределения вероятностей Н(£) справедливо выражение:
Р = РгоЬ(£ > £ )= 1 - Н(£р )= ехр(- £р). (16)
Поэтому доверительное значение £р определяется
соотношением:
=-ln(P).
Следствием (12) является выражение
£ = 1 - F ( х) =
(17)
1 V 2а) 1-1
1-Г—Т 1 exp(-Z)-Za dZ
2 Г -
а
а
x
1
п
а
2Г
1 ~ — -1
1 exp(-Z)-Z(X dZ.
(18)
а I I 2а
£
2Г
а
v у
= e
а г x \х~а г 1 л -Щ г x т1-2а
Ха
v у
— 1
а
—1 — 2
а а
V У V У
Г1 1Г1 1
—1 — 2
а а
V J
а
Ха
\ J
Ха
— -3|- 1 exp(-Z)Z dZ. (19)
а )* а
2а
£
2Г
а
v у
= e _(у)
(У Г +
Г л \ Г
-(у )а
1
- 1
а
1
-2
а
'1 ll ------1 - e
а
V у
' -frг .(уГа +
(у Га +
V J V
Г1 Л Г1
- e
-1
а
-2
а
X
1 -
X 1 exp(- Z)- Zа dZ.
(у )а
Соотношение (20) представляет собой ряд
£
-2Г
1
а
V J
= e-(T(yT
Т+ТГ 1 1 7 / ч --(п+2)
П— ]|1 ^-0-^ dZ.
J.1|а )0р а
1+ЕП
г'=1 j=1
1
---]
а
\ у 1
(у)-
В качестве первого приближения для порога дискриминации использован первый член ряда
£
- 2Г
Последующее использование процедур преобразования и интегрирования по частям этого интегрального выражения позволяет получить следующее соотношение:
а
\ у
У
1 -О
v Уа 1 V*7 У-1
(22)
Если после логарифмирования (22) оставить основные члены, то это выражение приводится к более простому виду
ln(n) =
У
(23)
В силу сделанной замены переменных это эквивалентно соотношению
X = Ха [п(п)]а .
(24)
В следующих преобразованиях удобно ввести переменную у = х/Хо . С учетом этой замены выражение (19) принимает вид:
Поэтому для экспоненциально-степенного распределения в первом приближении значение порога дискриминации вейвлет-коэффициентов —
в = Ха[1п(п)]а.
Семейство экспоненциально-степенных распределений включает как частный случай нормальное распределение (при а = 2 и Х = V2). При этом приведенное выше приближенное выражение для порога имеет вид: в = а^21п(п).
Именно такая оценка входит в определение уровней дискриминации вейвлет-коэффициентов, полученных Донохо и Джонстоном (Donoho, Johnstone) [7], [8]. Их результат ориентирован только на нормальное (гауссово) распределение.
Полученное нами более общее выражение для уровня дискриминации ВК может быть улучшено включением второго члена ряда (21):
--2г(- | =
(20)
У
,а-1
а
1 +
а
-О
У
,2а
У
(25)
Логарифмирование выражения (25) приводит к соотношению
ln(£)- 1п(п)+ ln
2Г
1
а
V У-1
+ ln Г1 -а^ 1
1 +
а V У - ~Уа-
, (26)
(21)
которое итеративным способом с использованием уже полученного первого приближения
у = [1п(п)] позволяет получить следующее уточненное соотношение:
У
e
п
п
+
+
e
+
п
+
п
+
а
У
1
e
п
а
а
+
+
уа = 1п(п)- 1п(<£)- 1п = 1п(п)- 1п(£)- 1п 2Г|
2Г
1
а
а
V У-
+ 1п 1 + ' 1 -а1 1
а V У • У.
а-1
1п(1п(п)) + 1п
1+
1 -а і 1
а ^ а і 1п(п)
Дальнейшее преобразование сводится к извлечению корня степени а:
(27)
’ = [1п(и)]а
а -1
1-
а
1п(1п(п)) + 1п(£)+ 1п
2Г
1
а
1п
1+
'1 -ал
а
1п(п)
1п(п)
1п(п)
(28)
Выражения для второго и третьего приближения зависят от степени аппроксимации бинома типа (1+х) а и логарифма типа 1п(1+х). Второе приближение величины порога дискриминации для экспо-
ненциально-степенного распределения выражается соотношением:
в = А(г[1п(п)]
1/а
1-
Г 1 1 Г11
(1 -а) )- £ 1п 1п( + а1п 2 Г
1п(п) а V у
а1п(п)
1 /а
+ А(г[1п(п)]
1/а 1п(£)
а 1п(п)
(28*)
В более полной форме представим процедуру преобразований для получения третьего приближения.
После аппроксимации бинома степени — во втором множителе (28) с помощью первых двух членов
а
разложения этого бинома в ряд Маклорена получим
У
= [1п (п )]а
а -1
1п (1п (п ))+ 1п
1 -
2 Г
Г11
1п
1 +
Г1 - а
Л
1
1п (п )
• 1п (п )
• 1п (п )
- [1п (п )]а
1п «) .
г • 1п (п )
(29)
1
+
а
а
а
+
а
а
Таким образом, для экспоненциально-степенного распределения значение порога дискриминации вейвлет-коэффициентов в третьем приближении определяется соотношением
в = Хи<
[п(п)]а
а 11п(1п(п)) + 1п 1 а 2гГ - _ Iа! 1п 1+Г1-а' -Iа; 1 1 а
а^ 1п(п) 1 $ ЇЗ
1п()
а 1п(п)
(30)
Уровень дискриминации (30) включает детерминированную составляющую и случайную, величина которой определяется в зависимости от доверительной вероятности Р согласно соотношению (17).
Если применить выражение (30) к нормальному распределению, положить в соответствии с этим
а = 2; 7 = 1; Г(1/а)= Г(1/2) = 4П; х = 42 • у и дополнительно ввести упрощение, положив равным
нулю третий член в квадратных скобках в выражении (30), то получается формула Крамера (G. Cramer) из [13]:
в = у] 2ln(n) -
ln (ln (n)) + ln (4n) ln (£)
2yj2ln(n) ■y/2ln(n)
(31)
Таким образом, выражение (30) является обобщением соотношения, полученного ранее Крамером, на класс экспоненциально-степенных распределений. В методе вейвлет-фильтрации речевого сигнала с сопутствующим шумом выражение (30) используется для вычисления порогов дискриминации. С использованием формул для первого и второго приближений определены зависимости порога дискриминации вейвлет-коэффициентов от параметра формы экспоненциально-степенного распределения при различных объемах выборки (рис. 5). Зависимости позволяют заключить, что использование первого приближения для вычисления порога дискриминации целесообразно только для плосковершинных экспоненциально-
степенных распределений с параметром формы а > 2. Для островершинных распределений с малым значением параметра (а < 2) следует использовать второе приближение. Для порога 6 получены зависимости погрешности А = = (6(1) -6(2))/6(2) определения порога 6, вызванной использованием первого приближения 6(1) вместо второго 6(2), и погрешности А = (6(а) -6(ы-1)/6(а) , обусловленной использованием порога 6(ы) нормального распределения вместо порога 6(а) экспоненциально-степенного распределения с истинным параметром формы а (рис. 6). Погрешность, связанная с использованием упрощенной формулы для порогов дискриминации, высока для островершинных распределений и уменьшается для плосковершинных. Погрешность, обусловленная отказом от учета формы распределения вейвлет-коэффициентов, значительна по величине. Поэтому величина порога, вычисленная для нормального распределения
в 12 10 8 6 4 2
тг='1'000"' „....4004 _ 200^''
0
в
в
а
6 а
б
в
Рис. 5. Зависимость порогов дискриминации от параметра формы экспоненциально-степенного распределения при различных объемах выборки (п = 200 ... 1000): а — первое приближение; б — второе приближение; в — третье приближение
1
2
3
4
5
по соотношениям Донохо и Джонстона (а по сути, использование формулы Крамера), не является адекватной задаче фильтрации.
МЕТОД ВЕЙВЛЕТ-ФИЛЬТРАЦИИ НЕСТАЦИОНАРНОГО СИГНАЛА С АДАПТИВНЫМ ВЫБОРОМ ПОРОГА
Метод предназначен для удаления помехи с изменяющимися спектральными характеристиками. Характеристики помехи целесообразно измерять во время пауз информационно полезного сигнала, которые почти всегда присутствуют в нестационарном сигнале в ИИС, в том числе в речевом сигнале. На интервалах между паузами спектральные свойства помехи предполагаются постоянными, т.е. решается задача фильтрации сигнала в условиях локально-стационарной помехи.
Согласно результатам изучения распределения пауз в речевом сигнале [14, 15], средняя длительность пауз в дикторской речи составляет 180 мс. Такую длительность имеют паузы хезитации, возникающие при вдохе новой порции воздуха, частота их достаточно стабильна: в одной секунде речи встречается, как правило, две паузы хезита-ции. Более длинные паузы обусловлены ритмической структурой речи и ее смысловым содержанием. Длина паузы зависит от уровня шума. Если в помещении без шумов средняя длина пауз одного диктора составила 194 мс, то в помещении с уровнем шума 70 и 80 дБ она составила 270 и 392 мс соответственно. Короткие паузы, длительность которых не превышает 40 мс, имеют малую вероятность появления. Так, при появлении в речевом сигнале паузы длительностью 14 мс с вероятностью 0.9 можно утверждать, что она продлится более 60 мс. Распределение длительности непрерывных речевых отрезков определяет среднюю длину речевых отрезков, равную 0.3 с при среднеквадратическом отклонении 280 мс. С вероятностью 0.995 длительность речевого участка не превышает 1.5 с. Следовательно, для реализации предложенного метода можно потребовать локальной стационарности помехи на интервале не менее 1.5 с. Метод ориентирован на обнаружение средних и длинных пауз, длительность которых составляет не менее 46 мс.
Алгоритм фильтрации с адаптивным выбором порога включает ряд этапов. На первом этапе выполняется сегментация речевого сигнала путем разделения на фреймы S2, ..., sn}, п = 512, длительностью 23 мс, что составляет 512 отсчетов при частоте дискретизации сигнала 22.05 кГц. Эти сегменты использованы для определения наличия речи или паузы и последующей вейвлет-фильтрации. Для каждого сегмента выполнено вейвлет-разложение {^ь «2 ..., ^22} в соответствии
Дв / в
Дв/ в
б
а
Рис. 6. Зависимость погрешностей определения порога от параметра формы а экпоненци-ально-степенного распределения при объемах выборки п = 200 ... 1000: а — погрешность, обусловленная применением первого приближения; б — погрешность, обусловленная использованием формулы порога для нормального распределения
с персептуальной моделью [16, 17, 18] на основе вейвлет-пакетов [19, 20, 21].
В каждом вейвлет-пространстве вычислена мощность вейвлет-коэффициентов и сформированы входные векторы для нейронной сети
V =
[7й1,7й 22 ]
+^2 + ... + 7
(32)
й 22
Предварительно обученная нейронная сеть — трехслойный персептрон 5-2-1 выполняет классификацию фреймов речевого сигнала, выделяя участки пауз, содержащие только шум [22].
При обнаружении паузы вычисляются характеристики шума: показатель формы экспоненциально-степенного распределения и среднеквадратичное отклонение, необходимые для вычисления порога в каждом пространстве вейвлет-
разложения {91,в2,...,в22 }:
при а > 2: вг- = А • ст • ^Ы^п”) ; (33)
при а< 2: в г- определяется по (30).
Вычисленные пороги используются для выполнения вейвлет-фильтрации сигнала на последующем речевом отрезке по методу гибкого порога (3).
Таким образом, применение разных значений порогов в пространствах вейвлет-разложения позволяет адаптироваться к спектральным характеристикам шума.
Исследование алгоритма вейвлет-фильтрации речевого сигнала с адаптивным выбором порога осуществлено на основе серии фонограмм речево-
го сигнала и различных видов шума. В исследование включены фонограммы окрашенного шума, узкополосного шума и музыкального фона. Зашумленный сигнал представляет собой аддитивную смесь речевого сигнала и шума с различным отношением сигнал/шум. Фильтрация выполнена для речевого сигнала длительностью 30 с, который представлен 1300 фреймами размером по 512 отсчетов. Отношение сигнал/шум определялось по соотношению £ = e{s 2 }/е{п 2 }= а2 /а2 , где E{..} — оператор усреднения по множеству отсчетов сигнала и шума и по множеству фреймов. Отношение сигнал / шум выражено в децибелах: SNR =
= I0lg(£)
В качестве показателя эффективности фильтрации использовано отношение средней мощности шума, не удаленного в результате фильтрации, к общей мощности шума:
n = e{( - ?)2}/е{ 2}, (34)
2 1 0
0 100 200 300 400 500 600 700 800 900 1000
2 1 0
0 100 200 300 400 500 600 700 800 900 1000
Рис. 7. Вейвлет-фильтрация. Удаление окрашенного шума (шума пылесоса): а — зашумленный сигнал; б — отфильтрованный сигнал
б
. 1.. л чГ
V \
где
Г 1 М N мм
-? )2 }= ЕЕ (- )2; е{п 2 }= ЕЕп2;
] =1 ] =1 >=1
М — число фреймов; N — число отсчетов на фрейме.
Результаты, представленные осциллограммами исходного зашумленного сигнала и сигнала, полученного в результате фильтрации для двух последовательных фреймов и различных фонем (рис. 79), и зависимости величины относительного снижения уровня шума от отношения шум/сигнал при вейвлет-фильтрации речевого сигнала с четырьмя видами шума (рис. 10 и рис. 11) показывают, что окрашенный шум фильтруется хуже, чем широкополосный шум и музыкальный фон. Нормальное приближение при определении порога дискриминации шума обеспечивает значительно меньшее снижение шума, чем при использовании экспоненциально-степенного распределения.
Исследования показали, что вейвлет-
фильтрация с адаптивным порогом, выполненная в соответствии с предложенными аналитическим аппаратом и алгоритмом, является достаточно эффективным методом удаления различных видов шумов: широкополосных, окрашенных шумов, узкополосных шумов, музыкального фона и белого шума с гауссовым распределением. Экспериментально установлено, что фильтрация не оказывает существенного влияния на форму речевого сигнала и полностью сохраняет разборчивость речи. Работоспособность алгоритма сохраняется при высокой зашумленности сигнала вплоть до 5 дБ.
Можно утверждать, что отмеченные достоинства вейвлет-фильтрации свойственны процедуре
2
0
-2
0 100 200 300 400 500 600 700 800 900 1000
2 1 0
-2
0 100 200 300 400 500 600 700 800 900 1000
Рис. 8. Вейвлет-фильтрация. Удаление узкополосного шума (шума вентилятора): а — зашумленный сигнал; б — отфильтрованный сигнал
обработки самых различных видов нестационарных сигналов в ИИС в такой же степени, как и для наиболее общей формы исследованного нестационарного процесса, связанного с речевым сигналом.
ВЫВОДЫ
1. Метод и процедура фильтрации в области вейвлет-отображения являются эффективным
средством устранения шумов нестационарного сигнала в ИИС и полностью сохраняют без искажений информационную компоненту сигнала.
б
__ ..... j-
1/п
а
Рис. 9. Вейвлет-фильтрация. Удаление окрашенного шума (шума льющейся воды): а — зашумленный сигнал; б — отфильтрованный сигнал
б
Рис. 10. Зависимость относительной величины снижения шума ( е{п2 }/
(дБ) при вейвлет-
1/ц = 10 • ^
фильтрации от отношения шум/сигнал
1/5= 10 • Ы
• 1оТ Е{
Е{2}
(дБ):
а — удаление узкополосного шума; б — удаление окрашенного шума (1 — пороги дискриминации получены из условия нормального распределения вейвлет-коэффициентов; 2 — из условия экспоненциально-степенного распределения)
1/п
б
✓1 2 у
—V
1/5
Рис. 11. Зависимость относительной величины снижения шума
1/ П = 10 • ^Е{п/}{1? - 5)2}} (дБ) при вейвлет-фильтрации от отношения шум/сигнал
1/5 -10}} (дБ>:
а — удаление окрашенного шума 2-го типа; б — удаление музыкального фона (1 — пороги дискриминации получены из условия нормального распределения вейвлет-коэффициентов; 2 — из условия экспоненциально-степенного распределения)
2. Метод фильтрации в области вейвлет-
отображения (метод вейвлет-фильтрации) основан на процедуре дискриминации вейвлет-коэффициентов с дифференцированным установлением порогов для коэффициентов различного уровня вейвлет-разложения. Метод фильтрации основан также на использовании схемы гибкого порога и на информации о реальном характере статистического распределения вейвлет-пре-
образования шума, сопутствующего сигналу.
3. Методу вейвлет-фильтрации свойственна
динамическая адаптация параметров, определяющих пороги дискриминации вейвлет-коэф-
фициентов, к изменениям нестационарного шума. Условием применения метода являются обычно существующие микропаузы в информационной компоненте сигнала в ИИС.
4. Использование нормального (гауссова) распределения для вейвлет-коэффициентов нестационарного сигнала и шума неадекватно задаче восстановления информационной компоненты сигнала в ИИС методом фильтрации этого сигнала в области вейвлет-отображения.
5. Для описания распределения вейвлет-коэффициентов нестационарного сигнала
15
10
5
0
0
2
4
6
8
и шума целесообразно использовать семейство экспоненциально-степенных распределений, которые позволяют варьировать форму распределения в широком диапазоне от островершинной до прямоугольной (включая гауссово распределение) и имеют удобные практические методы оценивания параметров распределения.
Большинство исследованных распределений вейвлет-коэффициентов сигнала и шума имеют экспоненциально-степенное распределение, что согласуется со свойством сжатия сигнала при выполнении вейвлет-пре-
образования. Пороги дискриминации следует определять на основе предложенных в статье метода и формул. Они являются расширением известных результатов Донохо и Джонстона, которые были ориентированы только на гауссово (нормальное) распределение, и одновременно обобщают формулу Крамера на класс экспоненциальностепенных распределений. Отказ от учета формы распределения приводит к существенным ошибкам (до 60 %) при вычислении порогов дискриминации.
СПИСОК ЛИТЕРАТУРЫ
1. Daubechies I. Orthogonal Basis and Wavelets // SIAM Journal of Mathematical Analysis. 1993. V. 24, N 2. P.499-520.
2. Mallat S.G. Multiresolution Approximations and Wavelet Orthogonal Bases in L2(R) // Transactions of American Mathematical Society. 1989. N 315. P. 69-87.
3. Jawerth B., Sweldens W. Wavelet-Based Multiresolution Analysis // SIAM Review. 1994. V. 36, N 3. P.377-412.
4. Лукашенко Т.П. О свойствах систем разложения, подобных ортогональным // Известия РАН, серия математическая. 1998. Т. 62, № 5. С.187-206.
5. Меркушева А.В. Классы преобразований нестационарного сигнала в информационноизмерительных системах. III. Время-мас-штабные (вейвлет -) преобразования для спектрально-временного анализа // Научное приборостроение. 2002. Т. 12, № 3. С. 68-82.
6. Novak R.D., Baraniuk R.G. Wavelet-Domain Filtering for Photon Imaging Systems // IEEE Transactions on Image Processing. 1997. N 4. P. 1-23.
7. Donoho D.L., Johnstone I.M. Ideal Spatial Adaptation by Wavelet Shrinkage // Biometrika. 1994. V. 81. P.425-455.
8. Donoho D.L. De-noising by Soft-Thresholding // IEEE Transactions on Information Theory. 1995. V. 41, N 3. P. 613-627.
9. Малыхина Г.Ф., Меркушева А.В. Детектирование речевого сигнала и фильтрация с адаптивным порогом // Сборник трудов факультета технической кибернетики СПбГТУ: микропроцессорные средства измерений. СПб., 2001. Вып. 2. С. 26-35.
10. Хастингс Н., Пикок Дж. Справочник по статистическим распределениям (пер. с англ.). М.: Статистика, 1980. 94 с.
11. Mallat S. G. Multifrequency Chanal Decompositions of Image and Wavelet Models // IEEE Transactions on Acoustic, Speech and Signal Processing. 1989. V. 37, N 12. P. 2091-2110.
12. Daubechies I. Orthogonal Bases of Compactly Supported Wavelets // Communications in Pure and Applied Mathematics. 1988. V. 41, N 7. P .909-996.
13. Крамер Г. Математическая статистика. М.: Наука, 1989. 591 с.
14. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов (перевод с англ.). М.: Мир, 1978. 848 с.
15. Sohn I., Kim N.S.,Sung W. A Statistical Model-Based Voice Activity Detection // IEEE Signal Processing Letters. 1999. V. 6, N 1. P. 1-3.
16. Zwicker E., Fastl H. Psychoacoustics, Facts and Models. Berlin: Springler—Verlag , 1984. 420 c.
17. Schroeder M.R., Atlas B.C., Hall J.L. Optimizing Digital Speech Coders by Exploiting Masking Property // Journal of Audio Engineering Society. 1995. V. 43, N 11. P. 914-919.
18. JayantN.S., Shohan Y. Signal Compression Based on Model of Human Perception // Proceedings of IEEE. 1993. V. 81, N 10. P. 1390-1398.
19. Berger J., Coifman R.R., Goldberg M.J. Removing of Noise from Music Using Local Trigonometric Bases and Wavelet-Packets // Journal of Audio Eng. Society. 1994. V. 42, N 9. P. 808815.
20. Chui C.K., Li C. Nonorthogonal Wavelet Packets // SIAM Journal of Mathematical Analysis. 1993. V.24. P.712-738.
21. Coifman R.R., Wickerhauser M.L. Entropy Based Algorithms for Best Bases Selection // IEEE Transactions on Information Theory. 1992. V. 38. P.713-718.
22. Малыхина Г.Ф., Меркушева А.В. Вейвлет-фильтрация нестационарного сигнала с адаптацией на основе нейронной сети // Сб. докладов Международной конференции по мягким вычислениям и измерениям, SCM-2001. СПб, 2001. Т. 1. С. 239-242.
Санкт-Петербург
Материал поступил в редакцию 30.01.2003.
FILTERING OF NONSTATIONARY (SPEECH) SIGNALS IN THE WAVELET DOMAIN ADAPTED TO THE NOISE TYPE AND DYNAMICS
A. V. Merkusheva
Saint-Petersburg
A method is given for nonstationary signal filtering in wavelet-mapping domain for information-measurement systems. The method is based on the statistical wavelet coefficients (WC) distribution for signals and noise of different types and dynamic adaptation to their nonstationary properties. We obtained the WC probability distribution in the form of exponential law and determined its parameters. We also expressed analytically the dependence of the WC discrimination threshold on WC distribution parameters and on the noise type and power. This makes more precise Donoho and Johnstone’s results. At the same time the expression for the WC discrimination threshold is a generalization of Cramer’s formula which assumed a Gauss distribution. A speech signal and four types of noise were used as a general form of nonstationary signal.