НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ январь-февраль 2019 Том 19 № 1 ISSN 2226-1494 http://ntv.i1mo.ru/
SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS January-February 2019 Vol. 19 No 1 ISSN 2226-1494 http://ntv.ifmo.ru/en
УДК 621.391.8
ИССЛЕДОВАНИЕ ДВУХКАНАЛЬНОГО АЛГОРИТМА MVDR ДЛЯ ВЫДЕЛЕНИЯ РЕЧИ ИЗ КОГЕРЕНТНОГО ШУМА М.Б. Столбов, Чонг Тхе Куан
Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация Адрес для переписки: stolbov@speechpro.com Информация о статье
Поступила в редакцию 08.12.18, принята к печати 25.12.18 doi: 10.17586/2226-1494-2019-19-1-180-183 Язык статьи - русский
Ссылка для цитирования: Столбов М.Б., Чонг Тхе Куан. Исследование двухканального алгоритма MVDR для выделения речи из когерентного шума // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 1. С. 180-183. doi: 10.17586/2226-1494-2019-19-1-180-183
Аннотация
Предмет исследования. Рассмотрены особенности реализации двухканального алгоритма минимума дисперсии шума (MVDR) для выделения речи из когерентного шума с использованием двухэлементных микрофонных решеток. Методы. Исследование выполнено с использованием аналитических моделей и записей, сделанных в безэховой камере. Основные результаты. Алгоритм MVDR может быть представлен как комбинация дифференциального алгоритма с адаптивной настройкой нуля в направлении источника когерентной помехи и эквалайзера, выравнивающего пространственно-частотный отклик в направлении целевого источника. Практическая значимость. Полученные результаты могут быть применены при проектировании систем с большим числом микрофонов. Ключевые слова
двухэлементные микрофонные решетки, алгоритм MVDR, подавление когерентных шумов Благодарности
Исследования выполнены за счет стартового финансирования Университета ИТМО в рамках НИР № 618278 «Синтез эмоциональной речи на основе генеративных состязательных сетей».
STUDY OF MVDR DUAL-MICROPHONE ALGORITHM FOR SPEECH ENHANCEMENT IN COHERENT NOISE PRESENCE
M.B. Stolbov, T.The Quan
ITMO University, Saint Petersburg, 197101, Russian Federation Corresponding author: stolbov@speechpro.com Article info
Received 08.12.18, accepted 25.12.18 doi: 10.17586/2226-1494-2019-19-1-180-183 Article in Russian
For citation: Stolbov M.B., T.The Quan. Study of MVDR dual-microphone algorithm for speech enhancement in coherent noise presence.
Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2019, vol. 19, no. 1, pp. 180-183 (in Russian). doi: 10.17586/2226-1494-2019-19-1-180-183
Abstract
Subject of research. This paper considers a dual-channel algorithm implementation, namely, Minimum Variance Distortionless Response (MVDR), for speech enhancement in the presence of coherence noise using dual-microphone arrays. Methods. The study was performed using analytical models and recordings in an anechoic chamber. Main results. It is shown that the MVDR algorithm can be represented as a combination of a differential algorithm with an adaptive null steering adjustment in the directions of the coherent noise sources and an equalizer that equalizes the spatial-frequency response in the direction of the target source. Practical relevance. The advantage of the MVDR algorithm is automatic null steering in the directions of noise sources. The results are applicable in the design of systems with a large number of microphones. Keywords
dual-microphone arrays, MVDR algorithm, coherent noise reduction
Acknowledgements
This work was partially financially supported by the Government of the Russian Federation (Grant 618278) and by the initial funding from the ITMO University.
Двухэлементные микрофонные решетки (МР2) широко применяются благодаря своей простоте и возможности компактного размещения. Вопросы обработки сигналов МР2 рассмотрены, например, в [1-3]. В настоящей работе рассмотрена задача отделения речевых сигналов (РС) от широкополосного когерентного шума с использованием МР2.
Для подавления когерентного шума в МР2 выполняют, в частности, формирование фиксированного нуля диаграммы направленности МР2 в направлении источника шума [4-7]. В работе [5] показана эквивалентность алгоритма формирования нуля алгоритму минимума дисперсии шума (Minimum Variance Distortionless Response, MVDR). В работе [7] сравниваются алгоритмы формирования нуля и алгоритмы обработки сигналов дифференциальных МР2 (ДМР2).
В условиях изменяющейся шумовой обстановки алгоритмы с фиксированным положением нуля неэффективны, поскольку положение источников шума может меняться. Указанную проблему позволяют преодолеть адаптивные алгоритмы формирования нуля, в частности, MVDR [8]. Работа посвящена исследованию адаптивного алгоритма MVDR для МР2 и его взаимосвязи с алгоритмами обработки сигналов ДМР2.
При использовании кратковременного преобразования Фурье сигнал S (f, к) акустического целевого источника с направления 0, (угол от оси МР2) и когерентный широкополосный шум V (f, к) с направлений 0v (f) формирует вектор сигналов:
X(f,к) = S(f,к)D(f,0,) + V(f,к)D(f А (f )) = S(f ,к) + V(f,к) , где f, к - индексы частоты и номера кадра, D (f, 0x ) = Dx (f ) = [e+j>x ,e~Л ] - вектор фазовых сдвигов сигналов микрофонов относительно центральной точки между ними, Ф x (f) - фазовый сдвиг:
Ф x (f) = ndcos (0 x) / X = nfT0cos (0 x) , где d - расстояние между микрофонами; t0 = d / c - время прохождения звука МР2 между микрофонами, c - скорость звука в воздухе; 0x - направление прихода сигнала.
Сигнал на выходе МР2 формируется взвешиванием входных сигналов комплексными весовыми коэффициентами:
Z ( f, к ) = W H ( f ) X ( f, к ),
где W (f) - вектор коэффициентов; ( ) - символ сопряжения Эрмита; Z (f, к) - комплексная
амплитуда сигнала на к-м кадре.
В основе работы алгоритма MVDR лежит условие неискаженного приема сигнала с целевого направления 0, и минимизации мощности шума на выходе МР2. Оптимальные веса МР2 можно найти, решив следующую оптимизационную задачу:
mm E {| Z (f, к)|2 } = min [WH (f) Pw (f) W (f)] при WH (f) D, (f ) = 1,
где Pvv (f) - ковариационная матрица спектров шума на микрофонах; E {.} - символ математического ожидания.
Ковариационная матрица шума оценивается для каждой частоты: Pvv (f ) = E {V (f, к) VH (f, к)} .
Решив оптимизационную задачу, получим следующее соотношение для вектора оптимальных коэффициентов [1]:
W ( f )= PvV' (f) Ds (f)
f = DH (f) p-l (f) D, (f).
В случае помехи, поступающей с направления 0v, МР2 имеет следующий пространственный отклик [5]:
sin (Фx - Ф,)
h mvdr (f, 0* ,0, ,0v) = wh (/а ) d (/а) =
sin (Ф, - Ф„ )
Отклик в направлении источника помехи Hd¡f (f, 0x = 0v ,0v) = 0 , отклик в направлении источника целевого сигнала HMVDR (f, 0, ,0v) = 1.
Пространственно-частотный отклик MVDR можно представить в виде произведения передаточной функции эквалайзера и передаточной функции ДМР2:
HmvDR (f, 0, ,0, ,0v ) = Hq (f ,0, ,0v ) Hdf (f A ,0v ) .
ИССЛЕДОВАНИЕ ДВУХКАНАЛЬНОГО АЛГОРИТМА MVDR
Форма пространственного отклика MVDR совпадает с формой пространственного отклика ДМР2 и достигает максимальной величины в направлении 9 , = 0 (рис. 1).
В адаптивном алгоритме MVDR ковариационная матрица и оптимальные веса оцениваются (в паузах целевого сигнала) по поступающим сигналам микрофонов:
Pv (f, k) = (1 - ß ) Pw ( f, k -1) + ßX ( f, k ) Xя ( f, k), где ß - коэффициент сглаживания.
Весовые коэффициенты фильтра MVDR вычисляются по текущим значениям ковариационной матрицы:
W (fk ) =_P" (f,k) Ds(f)_
(f' )= Df (f)P-(f,k)D, (f) + а '
где а - положительная константа, предохраняющая от деления на нуль.
Сигнал на выходе вычисляется с использованием текущих значений коэффициентов:
Z ( f, k ) = Wf ( f, k ) X ( f, k ) .
Вектор отсчетов сигнала Z (k) на k-м кадре вычисляется с помощью дискретного обратного преобразования Фурье (Inverse Discrete Fourier Transform, IDFT):
Z (k ) = IDFT {Z ( f, k )}.
Последовательность векторов отсчетов {Z (k)} преобразуется в выходную последовательность отсчетов сигнала на основе процедуры пересечения и суммирования (OverLap-and-Add, OLA): z (t) = OLA {Z (k)} .
Адаптивный алгоритм MVDR исследовался на сигналах, записанных в безэховой камере с помощью микрофонов (мик1, мик2), разнесенных на расстояние d =5 см. Широкополосная помеха с акустической колонки поступала с направлений фу (0 - 90°) относительно нормали МР2 с шагом 5°. Каждое положение акустической колонки озвучивалось диктором, находившимся приблизительно в направлении ф, = -30° (рис. 2).
f = 500 Гц, d =20 см, е,=60°, ev=120°
Рис. 1. Пространственный отклик MVDR МР2: 9г = 60°,9v = 120°
Рис. 2. Схема эксперимента в безэховой камере
Обработка проводилась со следующими параметрами: частота дискретизации Fs = 16 кГц, размер кадра N = 512, в = 0,5. Результаты эксперимента представлены на рис. 3.
6 5 4 3 2 1 0
* Щ i f I
л 10 20
2 1
6 5 4 3 2 1
,1- L
[ >
I.....М
30 40 50 60 70 80 t, с
10 20 30
40 50 60
б
70 80 t, с
Рис. 3. Спектрограммы сигнала микрофона (a), сигнала на выходе MVDR (б)
Из эксперимента в безэховой камере можно сделать следующие выводы.
Адаптивный алгоритм MVDR позволяет отслеживать направление источника когерентного шума и подавлять этот шум; степень подавления 20-25 дБ ограничивалась, по всей вероятности, различием характеристик микрофонов. Уровень подавленного когерентного шума с помощью алгоритма MVDR приблизительно равен уровню подавленного шума в ДМР2, в направлении нуля пространственного отклика. Время реакции алгоритма MVDR на изменение шумовой обстановки (в нашем варианте приблизительно 30 мс) регулируется параметром сглаживания.
Основным результатом настоящей работы является представление алгоритма MVDR как алгоритма дифференциальной МР2 с адаптивной настройкой нулей в направлениях источников когерентного шума.
0
а
Литература
1. Microphone Arrays. Signal Processing Techniques and Applications / Eds. M. Brandstein, D. Ward. Springer-Verlag, 2001. 402 p.
2. Benesty J., Chen J. Study and Design of Differential Microphone Arrays. Springer, 2013. 184 p.
3. Benesty J., Chen J., Pan C. Fundamentals of Differential Beamforming. Springer, 2016. 129 p.
4. Монзинго Р.А., Миллер Т.У. Адаптивные антенные решетки. М: Радио и связь, 1986. 448 c.
5. Столбов М.Б., Перелыгин С.В. Алгоритмы двухэлементной микрофонной решетки для выделения речевых сигналов в присутствии когерентных помех // Цифровая обработка сигналов. 2017. № 4. С. 34-39.
6. Buck M., RoBler M. First order differential microphone arrays for automotive applications // Proc. 7th International Workshop on Acoustic Echo and Noise Control, IWAENC. Darmstadt, Germany, 2001. P. 19-22.
7. Столбов М.Б., Тхе К.Ч. Прием речевых сигналов в шумовой обстановке с использованием двухэлементных микрофонных решеток // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. N° 5. С. 850-857. doi: 10.17586/2226-1494-2018-18-5-850-857
8. Lockwood M. et al. Performance of time- and frequency-domain binaural beamformers based on recorded signals from real rooms // The Journal of the Acoustical Society of America. 2004. V. 115. N 1. P. 379-391. doi: 10.1121/1.1624064
References
1. Microphone Arrays. Signal Processing Techniques and Applications / Eds. M. Brandstein, D. Ward. Springer-Verlag, 2001, 402 p.
2. Benesty J., Chen J. Study and Design of Differential Microphone Arrays. Springer, 2013, 184 p.
3. Benesty J., Chen J., Pan C. Fundamentals of Differential Beamforming. Springer, 2016, 129 p.
4. Monzingo R.A., Miller T.W. Introduction to Adaptive Arrays. NY, John Wiley and Sons, 1980.
5. Stolbov M.B., Perelygin S.V. Algorithms of two-element microphone array for speech enhancement in presence of coherent interference. Digital Signal Processing, 2017, no. 4, pp. 34-39. (in Russian)
6. Buck M., RoBler M. First order differential microphone arrays for automotive applications. Proc. 7th International Workshop on Acoustic Echo and Noise Control, IWAENC. Darmstadt, Germany, 2001, pp. 19-22.
7. Stolbov M.B., The Quan Trong. Speech acquisition in noisy environments using dual microphone arrays. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2018, vol. 18, no. 5, pp. 850-857 (in Russian). doi: 10.17586/2226-1494-2018-18-5-850-857
8. Lockwood M. et al. Performance of time- and frequency-domain binaural beamformers based on recorded signals from real rooms. The Journal of the Acoustical Society of America, 2004, vol. 115, no. 1, pp. 379-391. doi: 10.1121/1.1624064
Авторы
Столбов Михаил Борисович - кандидат технических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 56566801600, ORCID ID: 0000-0002-3848-4763, stolbov@speechpro.com Куан Тхе Чонг - аспирант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 57203964397, ORCID ID: 0000-0002-2456-9598, quantrongthe@corp.ifmo.ru
Authors
Mikhail B. Stolbov - PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 56566801600, ORCID ID: 0000-0002-3848-4763, stolbov@speechpro.com
Tchong The Quan - postgraduate, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 57203964397, ORCID ID: 0000-0002-2456-9598, quantrongthe@corp.ifmo.ru