В. И. Парфенов, М. М. Жуков,
доктор физико- кандидат технических
математических наук, наук
профессор
Е. А. Кривцов,
Концерн «Созвездие»
ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ШУМОПОДАВЛЕНИЯ ПРИ ВИНЕРОВСКОЙ ФИЛЬТРАЦИИ РЕЧЕВЫХ СИГНАЛОВ
NOISE REDUCTION ENHANCEMENT OF SPEECH SIGNALS
В статье рассматривается новый подход к задаче подавления шума в речевых сигналах на основе метода комплексирования. Проверка работоспособности алгоритма проводится при помощи объективных показателей речи: перцептуального показателя качества речи (PESQ) и активного уровня речи.
Article is devoted to a new approach for speech signal noise reduction using complex algorithm. Algorithm efficiency check was performed using objective speech indexes: perceptual evaluation of speech quality and active speech level.
Введение. Речевые сигналы, с которыми приходится иметь дело на практике, всегда в той или иной степени зашумлены. В тех случаях, когда шум имеет значительную интенсивность, его наличие может существенно исказить результаты обработки, анализа или распознавания речи. К настоящему времени разработано большое количество разнообразных методов цифровой обработки зашумленных речевых сигналов. Можно выделить следующие группы методов [1]:
- методы адаптивной компенсации помех;
- методы, основанные на использовании математических моделей речевых сигналов во временной области;
- методы, основанные на использовании математических моделей речевых сигналов в частотной области;
- методы, основанные на использовании спектральных характеристик шума;
UNDER WIENER FILTERING
- методы, основанные на использовании моделей искусственных нейронных сетей;
- методы, основанные на восприятии речи человеком.
Кроме перечисленных, имеется ряд других методов типа RASTA [2] и др., однако они не носят самостоятельного характера и здесь не приводятся.
Среди вышеописанных методов наибольшее распространение получили методы фильтрации, основанные на использовании спектральных характеристик шума, в частности винеровская фильтрация. В этом случае осуществляется коррекция спектра речевого сигнала с помощью фильтра с частотной характеристикой H (а), рассчитываемой из условия минимизации среднеквадратической ошибки фильтрации и представляемой
в виде H(а) =-P(а)-, где PS(а) и PN(а) — спектральные плотности мощности
Ps (а) + Pn (а)
сигнала и шума соответственно. На практике при обработке речи на достаточно коротких участках функции PS (а) и PN (а) аппроксимируют с помощью усредненных квадратов
кратковременных амплитудных спектров наблюдаемого сигнала и шума. Спектр шума при этом должен оцениваться в моменты пауз.
Обзор алгоритмов шумоподавления, основанных на фильтрации Винера.
Рассмотрим более подробно принципы стандартной винеровской фильтрации и ее модификации. Предполагаем, что наблюдаемый зашумленный речевой сигнал представляет собой аддитивную смесь чистого речевого сигнала и независимого шума. Обработка выполняется последовательно фрейм за фреймом в частотной области. Каждый фрейм содержит M отсчетов. При этом xk (t) = sk (t) + nk (t), где sk (t), nk (t) и xk (t) — временные отсчеты для k-го фрейма соответственно чистого речевого сигнала, шума и зашумлен-ного речевого сигнала (i = 0,1,..M -1). Далее наблюдаемый зашумленный сигнал трансформируется в частотно-временную область с использованием кратковременного преобразования Фурье (STFT) [3] с некоторой оконной функцией (в дальнейшем использовалось окно Хэмминга). В результате получается x(k, l) — амплитудный спектр k-го фрейма зашумленного речевого сигнала. Далее для очистки зашумленного сигнала вводится понятие коэффициента усиления текущего фрейма G(k, l) таким образом, что оценка амплитудного спектра речи s(k, l) находится как произведение этого коэффициента на амплитудный спектр зашумленной речи: s(k, l) = G(k, l) • x(k, l). Для определения коэффициента усиления G (k, l) требуется находить оценку априорного отношения сигнал/шум (ОСШ) [4]. Оценка априорного ОСШ zpr может быть найдена различными способами, наиболее типичными из которых являются метод прямого принятия решения (decision-directed (DD) method) [4], а также двухступенчатый алгоритм подавления шума (Two-Step Noise Reduction (TSNR)) [5] и алгоритм подавления шума с регенерацией гармоник (Harmonic Regeneration Noise Reduction (HRNR)) [6].
В DD-методе оценка априорного ОСШ текущего фрейма находится как взвешенная сумма оцененного ОСШ предыдущего фрейма и ОСШ текущего фрейма: z^0) (k, l) = а • z(pDrD) (k -1, l) + (1 - a)z(k, l). Здесь a — сглаживающий коэффициент
(обычно выбираемый равным 0,98). Однако, так как подобная оценка зависит от оценки на предыдущем фрейме, использование этого метода приводит к появлению задержки, а следовательно, к смещению коэффициента усиления G (k, l) (эффект реверберации). Для уменьшения этих негативных эффектов разработан метод TSNR. При этом алгоритм DD
используется на первом шаге, где определяется коэффициент усиления О( '(к, /), а на
' О(°° '(к, I) • х(к, I )|
втором находится оценка априорного ОСШ: 2рг '(к, I) = ---.-т--, где угловыми
{п(к, I )2)
скобками показано усреднение по ансамблю реализаций, п(к, /) — амплитудный спектр шума. Тогда коэффициент усиления находится как
О(П(к,/) = (1)
1 + z{ir , l )
В результате оценка амплитудного спектра речи для к-го фрейма может быть найдена как
^ )(к, /) = О(Т )(к, /) • х(к, /). (2)
К сожалению, полученная оценка по методу TSNR также не свободна от недостатков. Каждая гармоническая компонента речи в случае ее низкого уровня рассматривается в этом методе как шумовая компонента и поэтому подавляется. Для ослабления этого эффекта был разработан метод НК№К, который восстанавливает гармоники на нужных частотах. С этой целью применяется некоторая нелинейная функция ЫЬ к восстановленному согласно TSNR методу речевому сигналу: $(Н)(к,/) = ЫЬ[$(Т)(к,/)} . Далее
находится оценка априорного ОСШ, как ^Н \к, /) = , где
(п(к, 1)2)
А = О(Т)(к, /) • \$(Т)(к, /)|2, В = [1 - О(Т)(к, /)]• Н)(к, /)|2. Тогда коэффициент усиления
zPH \к, i )
находится аналогично (1): G(H)(k,l) = —p[ H' 7 , а оценка амплитудного спектра речи
1 + Zfr \к, l )
pr
для k-го фрейма аналогично (2), как s(H)(k, l) = G(H )(k, l) • x(k, l) .
Для примера на рис.1 приведены временные зависимости следующих сигналов. На рис. 1, а приведен зашумленный белым гауссовским шумом отрезок речевого сигнала длительностью 3,1 с (частота дискретизации 16 кГц, отношение сигнал/шум (ОСШ) -1,11 dB). На рис. 1, б и 1, в соответственно приведены очищенные с помощью алгоритмов TSNR и HRNR речевые сигналы. Визуально наблюдается существенное очищение от шума при использовании обоих алгоритмов. Однако при воспроизведении таких очищенных сигналов оказывается, что в них явно присутствуют так называемые музыкальные шумы [7], существенно затрудняющие качественное восприятие речи.
Для оценки степени очищения речи от шума целесообразно использовать объективные показатели качества, не требующие привлечения специально обученных людей, субъективно выносящих оценки качеству речи. В качестве таких объективных показателей были выбраны следующие два. Первый — это показатель PESQ (Perceptual Evaluation of Speech Quality) [8]. Оценка PESQ, определенная в рекомендации МСЭ-Т P.862, представляет собой объективный метод оценки качества речевой связи в телефонных системах, который прогнозирует результаты субъективной оценки качества этого вида связи слушателями-экспертами. Для определения качества передачи речи в PESQ предусмотрено сравнение входного, или эталонного, сигнала с его искаженной версией на выходе системы связи.
О 0.5 1
б)
в)
0.1 0.08 0.06 0.04 0.02 О
-0.02 -0.04
О 0.5 1 1.5 2 2.5 3 3.5
1, сек
г)
Рис. 1. Временные диаграммы 140
Результатом сравнения входного и выходного сигналов является оценка качества связи, которая аналогична усредненной субъективной оценке Mean Opinion Score (MOS). Далее полученные результаты оценки PESQ калибруются с использованием огромной базы данных оценок MOS. Перцептуальная оценка качества речи (PESQ) позволяет учитывать особенности слуховой системы человека, поэтому является достаточно сложным с вычислительной точки зрения показателем. Следует отметить, что при его использовании весьма качественная оценка сигнала нивелируется большими вычислительными затратами. Тем не менее среди многих объективных показателей речи PESQ является наиболее информативным. Второй используемый нами объективный показатель качества речи — активный уровень речи (LEV, dB) [9], который определяется как отношение энергии речевого сигнала к длительности речевой активности (чем он меньше, тем лучше сигнал очищен от шума).
3,5 |-1-1-1-1-1-1-1-1-1
3 2,5
оо 2
О
S 1,5 1 0,5 0
-10 -7,77 -5,55 -3,33 -1,11 1,11
Z, dB
3,33
5,55
7,77
Рис. 2. Зависимость MOS от ОСШ
0
-5
-10
-15
B d -20
>
ш _1 -25
-30
-35
-40
-45
-10
-7,77
-5,55
-3,33
-1,11 1,11 Z, dB
3,33
5,55
7,77
Рис. 3. Зависимость LEV от ОСШ
На рис. 2 приведена зависимость показателя MOS от ОСШ z (dB). Причем на этом рисунке штрихпунктирной линией показана зависимость MOS(z) для исходного зашум-ленного сигнала, длинными штрихами — зависимость MOS(z) для алгоритма TSNR и, наконец, короткими штрихами — для алгоритма HRNR. На рис. 3 приведены зависимости показателя LEV (dB) от ОСШ z (dB). Кривые, приведенные на рис. 3, построены при тех же условиях, что и кривые на рис. 2.
Комплексный алгоритм шумоподавления. Рассмотрим теперь, как можно повысить степень очистки речевого сигнала от шума (особенно, музыкального) за счет использования комплексного алгоритма, основанного на алгоритме Калмана [10]. Известно, что алгоритм Калмана позволяет весьма значительно повышать эффективность различных алгоритмов за счет их комплексирования. При этом необходимо задавать адекватные модели наблюдения и сообщения. Учтем, что в рассматриваемой задаче имеются два наблюдаемых дискретных процесса £1v и i;2v, представляющие собой дискретные выходные отсчеты двух используемых алгоритмов шумоподавления —TSNR и HSNR. Учитывая, что никакой алгоритм шумоподавления не может полностью подавить шум, запишем наблюдаемые данные в виде £1v = Mv + n01v, = Mv + n02v, где Mv —
отсчеты очищаемого речевого сигнала, а n01v и n02v — неподавленные отсчеты шума. В матричной форме уравнение наблюдения может быть записано в виде = H • Xv + n0v, где размер и вид матрицы H зависят от модели речевого сигнала (сообщения) Xv, n0v — вектор шума, который в дальнейшем предполагается белым, с нулевым математическим ожиданием и корреляционной матрицей V.
С выбором адекватной модели речевого сообщения дело обстоит значительно сложнее. Можно выбрать более точные, но одновременно более сложные при реализации модели либо остановиться на менее точных, однако более простых и продуктивных алгоритмах. Мы использовали как раз второй подход. При этом модель для сообщения
f\(t) ^
была выбрана в виде трехкомпонентного случайного процесса X (t) =
4(t) 4(t)
[11], опи-
сываемого системой стохастических дифференциальных уравнений вида
ЛА(.)/ Л = А2(.) ЖА1{г)/ Л = А3(.) ЖА3(.) / Ж. = -аА (.) + пА (.), где пА(.) — стационарный гауссовский белый шум.
В дискретной форме подобная модель может быть представлена в виде
(1 А 0 ^
Ху = А • VI + N, где А =0 1 А
, 0 0 1 -аА
V У
А — интервал дискретизации, N — вектор гауссовского белого шума с известной корреляционной матрицей Т. В результате несложно показать, что уравнения для вектора оценок Ху примут вид
Xv = A• Xv_i + Kv ftv -H• A• Xv_!),
Kv = Rv HT • V-1,
R-1 =[ATRv i • A + ¥] 1 + HT V-1H, (3)
где Rv — корреляционная матрица ошибок, K v — матрица коэффициентов усиления.
Сравнение предложенного комплексного алгоритма с рассмотренными выше алгоритмами (TSNT и HRNR) проводилось аналогично, с использованием объективных показателей качества речи PESQ и LEV. На рис. 1, г приведен очищенный с использованием алгоритма (3) отрезок речевого сигнала. На рис. 2—3 сплошными линиями приведены зависимости соответственно MOS(z) и LEV(z) для синтезированного комплексного алгоритма (3). Анализ приведенных результатов свидетельствует о следующем. Во-первых, предложенный алгоритм комплексирования эффективнее удаляет шум, чем алгоритмы-прототипы. Так, в случае белого шума разработанный алгоритм превосходит (по значению показателя MOS) алгоритмы TSNR и HRNR в среднем на 20—25%. Подобный выигрыш представленного алгоритма по сравнению с известными позволяет уменьшить ОСШ в среднем на 5 dB. Во-вторых, представленный комплексный алгоритм остается работоспособным вплоть до очень малых ОСШ (вплоть до -10dB).
Было также проведено исследование синтезированного алгоритма при других видах помех. В частности, было рассмотрено влияние узкополосной помехи, представляющей собой отрезок гармонического сигнала со случайными частотой и начальной фазой. Для количественного описания степени влияния этой помехи на сигнал вводилось понятие отношения помеха/сигнал q = En / Ec, где En и Ec — энергии узкополосной помехи
и сигнала на интервале наблюдения соответственно. Исследовалось влияние параметра q е [0,026;0,26] на показатели качества MOS и LEV для разных рассмотренных выше алгоритмов. Исследования показывают следующее. Для всех рассмотренных алгоритмов объективные показатели качества MOS и LEV слабо зависят от уровня узкополосной помехи (от величины параметра q ). Например, для синтезированного комплексного алгоритма при изменении параметра q от 0,026 до 0,26 (при z = -1,1 dB) величина показателя MOS изменяется от 2,22 до 1,708, а величина показателя LEV вообще изменяется незначительно — от -3,83 до -3,86 dB. Следовательно, при изменении величины q на порядок показатель MOS изменяется на 23%, а показатель LEV всего на 7%. На основании этого можно утверждать о достаточно высокой устойчивости синтезированного алгоритма к узкополосной помехе.
Заключение. В работе представлен метод подавления шума в речевых сигналах. Описанный метод основан на комплексировании известных алгоритмов TSNR и HRNR. Согласно объективным показателям, использованным в данной работе, предложенный алгоритм обладает более высокой эффективностью шумоподавления, чем используемые при его синтезе алгоритмы-прототипы при всех рассматриваемых значениях отношения сигнал/шум. Кроме того, описанный метод обладает достаточно высокой устойчивостью к узкополосным помехам.
ЛИТЕРАТУРА
1. Чучупал В. Я., Чичагов А. С., Маковкин К. А. Цифровая фильтрация зашумлен-ных речевых сигналов. — М. : Вычислительный центр РАН, 1998. — 52 с.
2. Hermansky H., Morgan N. RASTA Processing of Speech // IEEE Trans. on ASSP.
— 1994. — Vol. 2. — P. 578—589.
3. Tokunbo Ogunfunmi, Roberto Togneri, Madihally Narasimha. Speech and Audio Processing for Coding, Enhancement and Recognition. — Springer, 2015. — 345 p.
4. Wantao Zhang, Shifeng Ou, Suojin Shen, Ying Gao. Gain Factor Linear Prediction Based Decision-Directed Method for the a priori SNR Estimation // IEEE 2015. 8th International Congress on Image and Signal Processing (CISP—2015). — 2015. — P. 1199—1203.
5. Pankaj Goel, Prateek Saxena, Mahesh Chandra, V. K. Gupta. Comparative Analysis of Speech Enhancement Methods // IEEE 2013 Tenth International Conference on Wireless and Optical Communications Networks (WOCN-2013). — 2013. — P. 1—5.
6. Kiran H. G., Karan M. M., Kowshik K., Lalith K. M., Nayana D. K. Speech Enhancement using adaptive Wiener Filtering Techniques // International Journal of Scientific Research and Review. — 2019. — V. 7. — № 3. — P. 2493—2498.
7. Zenton Goh, Kah-Chye Tan, B. T. G. Tan. Postprocessing Method for Suppressing Musical Noise Generated by Spectral Subtraction // IEEE Transactions on Speech and Audio Processing. — 1998. — V. 6. — № 3. — P. 287—292.
8. Perceptual Evaluation of Speech Quality (PESQ) ITU-T Recommendations P.862, P.862.1, P.862.2. Version 2.0, October. — 2005.
9. ITU-T. Objective measurement of active speech level. Recommendation P.56, Dec. — 2011.
10. Тихонов В. И., Харисов В. Н. Статистический анализ и синтез радиотехнических устройств и систем. —М. : Радио и связь, 1991. — 608 с.
11. Величкин А. И. Передача аналоговых сообщений по цифровым каналам связи.
— М. : Радио и связь, 1983. — 240 с.
REFERENCES
1. Chuchupal V. Ya., Chichagov A. S., Makovkin K. A. Tsifrovaya filtratsiya zashum-lennyih rechevyih signalov. — M. : Vyichislitelnyiy tsentr RAN, 1998. — 52 s.
2. Hermansky H., Morgan N. RASTA Processing of Speech // IEEE Trans. on ASSP.
— 1994. — Vol. 2. — P. 578—589.
3. Tokunbo Ogunfunmi, Roberto Togneri, Madihally Narasimha. Speech and Audio Processing for Coding, Enhancement and Recognition. — Springer, 2015. — 345 p.
4. Wantao Zhang, Shifeng Ou, Suojin Shen, Ying Gao. Gain Factor Linear Prediction Based Decision-Directed Method for the a priori SNR Estimation // IEEE 2015.
8th International Congress on Image and Signal Processing (CISP—2015). — 2015. — P. 1199—1203.
5. Pankaj Goel, Prateek Saxena, Mahesh Chandra, V. K. Gupta. Comparative Analysis of Speech Enhancement Methods // IEEE 2013 Tenth International Conference on Wireless and Optical Communications Networks (WOCN-2013). — 2013. — P. 1—5.
6. Kiran H. G., Karan M. M., Kowshik K., Lalith K. M., Nayana D. K. Speech Enhancement using adaptive Wiener Filtering Techniques // International Journal of Scientific Research and Review. — 2019. — V. 7. — # 3. — P. 2493—2498.
7. Zenton Goh, Kah-Chye Tan, B. T. G. Tan. Postprocessing Method for Suppressing Musical Noise Generated by Spectral Subtraction // IEEE Transactions on Speech and Audio Processing. — 1998. — V. 6. — # 3. — P. 287—292.
8. Perceptual Evaluation of Speech Quality (PESQ) ITU-T Recommendations P.862, P.862.1, P.862.2. Version 2.0, October. — 2005.
9. ITU-T. Objective measurement of active speech level. Recommendation P.56, Dec. — 2011.
10. Tihonov V. I., Harisov V. N. Statisticheskiy analiz i sintez radiotehnicheskih ustroystv i sistem. —M. : Radio i svyaz, 1991. — 608 s.
11. Velichkin A. I. Peredacha analogovyih soobscheniy po tsifrovyim kanalam svyazi. — M. : Radio i svyaz, 1983. — 240 s.
СВЕДЕНИЯ ОБ АВТОРАХ
Парфенов Владимир Иванович. Профессор кафедры радиотехники и электроники. Доктор физико-математических наук, профессор.
Воронежский институт МВД России.
E-mail: [email protected].
Россия, 394065, г. Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-53.
Жуков Михаил Михайлович. Начальник кафедры радиотехники и электроники. Кандидат технических наук.
Воронежский институт МВД России.
E-mail: [email protected].
Россия, 394065, Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-54.
Кривцов Евгений Алексеевич. Аспирант.
АО «Концерн «Созвездие».
E-mail: [email protected]
Россия, 394018, Воронеж, ул. Плехановская, 14. Тел. (473) 252-12-13.
Parfenov Vladimir Ivanovich. Professor of the chair of Radiotechnics and Electronics. Doctor of Physical and Mathematical Sciences, Professor.
Voronezh Institute of the Ministry of the Interior of Russia.
Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-53.
Zhukov Mikhail Mikhailovich. The chef of the chair of Radiotechnics and Electronics. Candidate of Technical Sciences.
Voronezh Institute of the Ministry of the Interior of Russia.
Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-54.
Krivtsov Evgeny Alekseevich. Post-graduate student.
JSC "Concern"Sozvezdie".
Work address: Russia, 394018, Voronezh, Plehanovskaya Str., 14. Tel. (473) 252-12-13.
Ключевые слова: шумоподавление; винеровская фильтрация; калмановская фильтрация; перцеп-туальная оценка качества речи.
Key words: noise reduction; Viener filtering; Kalman filtering; perceptual evaluation of speech quality.
УДК 004.934.2