УДК 621.395.92
АЛГОРИТМ ПОДАВЛЕНИЯ ШУМА И АКУСТИЧЕСКОЙ ОБРАТНОЙ СВЯЗИ НА ОСНОВЕ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ В СЛУХОВОМ ПРОТЕЗЕ
НА БАЗЕ СМАРТФОНА
М.И. ВАШКЕВИЧ, И.С. АЗАРОВ, А.А. ПЕТРОВСКИЙ
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 21 ноября 2016
В работе предлагается совмещенный алгоритм подавления шума и акустической обратной связи. Алгоритм основан на спектральном вычитании и является устойчивым к резким изменениям параметров пути распространения акустической обратной связи, что делает его подходящим для использования в слуховых протезах на основе смартфонов.
Ключевые слова: шумоподавление, подавление акустической обратной связи, слуховой аппарат.
Введение
Широкое распространение смартфонов создало основание для развития карманных слуховых аппаратов в новом качестве. В последнее время было выпущено большое количество приложений для портативных мультимедиа устройств, позволяющих выполнять диагностику и коррекцию слуха [1]. Использование смартфона в качестве слухового аппарата имеет множество преимуществ, среди которых гибкость используемых алгоритмов, большой энергетический и вычислительный ресурс, возможность персональной настройки при помощи встроенной аудиометрии без помощи сурдолога, возможность использования произвольной внешней гарнитуры и психологический комфорт.
Известно, что 52 % людей, пользующихся слуховыми аппаратами, имеют необходимость их применения в шумовой обстановке [2]. Исследования показали, что шумоподавление значительно ослабляет вредное воздействие на слух [3]. Кроме окружающего шума крайне нежелательным является эффект акустической обратной связи (АОС), который возникает тогда, когда обработанный сигнал попадает из динамиков в микрофон.
Адаптивная фильтрация на основе метода наименьших квадратов (МНК) на сегодняшний день является наиболее используемой техникой подавления акустической обратной связи [4-9]. Однако, этот подход является неэффективным для реализации на смартфоне, поскольку при использовании внешней гарнитуры путь распространения АОС быстро изменяется. Показано, что акустика помещения вносит значительный вклад в путь распространения [10], однако выполнить моделирование акустики помещения путем адаптивной фильтрации в реальных условиях не представляется возможным. В настоящей работе предлагается оригинальный алгоритм подавления акустической обратной связи, основанный на спектральном вычитании. Алгоритм использует взвешивающее правило, специально выведенное для сигналов обратной связи, и позволяет дополнительно выполнять шумоподавление, которое ослабляет остаток АОС и фоновый шум.
Алгоритм подавления шума и акустической обратной связи
Схема обработки сигнала показана на рис. 1. Для декомпозиции на частотные составляющие используется ДПФ-модулированный банк фильтров, выполненный в виде структуры со сложением с перекрытием [11, 12], имеющий К каналов и коэффициент
децимации М = К /2 . Входной речевой сигнал х(п) разбивается на комплексные субполосные сигналы банком фильтра анализа (БФА).
Рис. 1. Обработка сигнала в слуховом протезе на базе смартфона
Субполосные сигналы прореживаются по времени и формируют последовательность частотно-временных отсчетов X(к, т), где к - частотный индекс, а т - временной индекс.
Отсчеты умножаются на коэффициенты усиления Снь (к, т) , компенсирующие потерю слуха, рассчитываемые в соответствии с выбранным стандартом [3] либо установками пользователя. Обработанный выходной сигнал у(п) восстанавливается из обработанных отсчетов при помощи банка фильтра синтеза (БФС).
На вход попадает окружающий шум и акустическая обратная связь и предполагается,
что субполосный отсчет X(к, т) является суммой чистой речи X(к, т), акустической
обратной связи А(к, т) и фонового шума N (к, т) : X (к, т) = X (к, т) + А(к, т) + N (к, т). Минимальную амплитуду чистого речевого сигнала можно оценить вычитая амплитуду шума и обратной акустической связи из амплитуды входного сигнала. Вычитание эквивалентно умножению на соответствующие коэффициенты Ст (к, т) и (к, т). Обозначим сумму
речевого сигнала и акустической обратной связи X(к, т) + А(к, т) как X(к, т), тогда
GNR (к, т) =
X (к, т)\ + \А(к, т)| X (к, т)\ + \А(к, т)\ + N (к, т)|
X (к, т)
X (к, т)
САр (к, т) =
X (к, т)\ X (к, т)\
X (к, т)\ + \А(к, т)\ {к, т)|
(1)
Амплитуда чистого речевого сигнала может быть восстановлена из зашумленного
следующим образом: (к, т)\ =
X(к, т) (к, т')^АР (к, т). Вычисление
искомых
коэффициентов основано на статистической оценке амплитудного спектра шума и акустической обратной связи.
Алгоритм оценки амплитудного спектра шума основан на рекурсивном усреднении, параметры которого управляются минимальными значениями амплитуды [13]. Оценка
N (к, т)
амплитудного спектра шума
вычисляется путем усреднения амплитуд предыдущих
отсчетов сигнала при помощи следующего выражения: N (к, т) = ~ (к, т -1) N (к, т -1) + (1 -~(к, т - Щ X (к, т)
(2)
где ~¿(к,т) = аа+ (1)р(к,т) изменяющийся параметр сглаживания, который зависит от условной вероятности присутствия речи р(к, т), ай - параметр сглаживания, который определяет время усреднения при отсутствии речи (0 <а < 1). Вероятность присутствия речи оценивается путем рекурсивного усреднения бинарного признака I(к, т) :
р(к, т) = а Р(к, т -1) + (1 - а )1 (к, т), I (к, т) =
1, (к, т) >5 0, 8г (к, т) <5'
(3)
где (к, т) - соотношение между текущей амплитудой кратковременного спектра и
минимальном
амплитудой Sr (к, m) = |Х(к, m)|
Xmin (к, m)
. Значение минимальной амплитуды
X min (к, m)
оценивается следующим образом. Используются две переменные минимума, для
которых устанавливаются начальные значения:
Xmin (к,0) = х (к,0) и Xtmp (к,0) = х (к ,0)
. Для
каждого последующего отсчета текущее значение переменных получается путем сравнения текущей амплитуды и существующего минимума:
X min (к, m)
= min
X min (к, m -1)
X (к, m) }, Xtmp (к, m)
= mm
Xtmp (к, m -1)
X (к, m) |
(4)
Каждые Ь кадров (т.е. когда т кратно Ь) переменные минимума обновляются
следующим образом:
Xmin (кш> m)
= min
Xmp (к- m -1)
X (к,
, m) I},
Xtmp (к, m)
X (к, m)
Параметр Ь определяет разрешение поиска локального минимума. Локальный минимум определяется на окне длинной не менее чем Ь отсчетов, но не более чем 2Ь отсчетов. Хороший практический результат достигается на окне длиной 0,5-1,5 с. Коэффициент Опг(к, т) вычисляется следующим образом:
Gm (к, m) = max<!
X (к, m)
- v
N (к, m)
X (к, m)
,10
-EL /20 I
(5)
где V - коэффициент вычитания (1 < V < 6), ЯЬ - настраиваемый параметр, определяющий желаемый уровень остаточного шума в дБ.
Амплитуда сигнала обратной связи нарастает стремительно и переводит систему в нелинейный режим прежде чем алгоритм шумоподавления успеет отреагировать. Для того, чтобы адекватно оценить амплитудный спектр обратной акустической связи необходимо использовать ее отличительные свойства. В обоих режимах (линейном и нелинейном) акустическая связь проявляется в виде квазипериодического сигнала, который является результатом рекурсивного суммирования выхода с периодом ^. Периодическая природа акустической обратной связи гарантирует, что ее спектральные компоненты равноудалены друг от друга в частотной области с равным шагом f0 = 1/и, следовательно, акустическая обратная связь оказывает влияние только на некоторое подмножество отсчетов полезного сигнала X(к, т) :
X(к, m) = X(к, m) + А(к, m) если min
к -
fov
fjK
< d , иначе X(к, m) = X(к, m) ,
(6)
где v - номер гармоники сигнала обратной связи, fs - частота дискретизации и d - смещение частоты, которое зависит от оконной функции, использованной в банке фильтров анализа. Для чистой речи математическое ожидание амплитудного спектра близких частотных компонент примерно равно £|x(к, m)| ]« X(к ± d, m)|] для любой достаточно малой величины d . Используя (6), и предполагая, что акустическая обратная связь всегда увеличивает среднее значение амплитудного спектра, т.е. (к, m)| ]> ^¡Х (к, m)| ], получим
(к, m)|]« minX(к + i, m)\]|, ^|А(к, m)|] ® ^¡Х(к, m)\]- min |е|Х(к + i, m)\]|. (7)
В соответствии с (6) и (7) ожидаемый коэффициент увеличения амплитуды сигнала за счет обратной связи X (к, m)| ]/ X (к, m)| ] можно оценить из кратковременного
амплитудного спектра в некоторой окрестности отсчета X(к, m) . Предлагается использовать следующую меру оценки коэффициента увеличения амплитуды %(к, m), использующую l предыдущих отсчетов по времени и 2d соседних отсчетов по частоте:
2
2
2
%(к, т) = тт |х (к,
ш +
4
тт
-й <г<й
тах X (к -
-1+1< ] <о'
■г, ш ■
(8)
-1+1<]<01
Чтобы избежать завышения оценки уровня обратной связи в числителе используется минимальный отсчет, а в знаменателе максимальный. В соответствии с полученными экспериментальными данными % > 1 означает присутствие обратной связи с вероятностью 95 %, однако, появление обратной связи не определяется в случае, когда она намного тише речи.
Подавление обратной связи выполняется плавно с использованием сглаживающего параметра а^ (0 < а^ < 1), который определяет время усреднения и изменяемого параметра
ос¿р = а ,,.. + (1 -а11/)(у(к,1п)/у111)1'. где Р - регулировка баланса между реакцией на тихую и громкую обратную связь и - пороговое значение для включения режима сильного подавления. Коэффициент подавления Оар (к,т) вычисляется следующим образом:
(1~СХ^) , %(к,т)<хл тах(%(к, т),1) . (9)
Оар (к, т) = <
1/ %(к,т),
%(к,т) >%
Когда %(к, т) превышает %, алгоритм определяет наличие сильной обратной связи и в этом случае коэффициент подавления обновляется мгновенно, а затем медленно отпускается.
Результаты экспериментов
Предложенные взвешивающие правила реализованы в виде комбинированного алгоритма подавления шума и акустической обратной связи. Для оценки эффективности алгоритма использовалась модель распространения обратной связи, аналогичная приведенной в работе [7]. Путь распространения моделировался в виде фильтра с конечной импульсной характеристикой из 279 коэффициентов. Использовалась частота дискретизации сигнала 44100 Гц, длина окна анализа 512 отсчетов, что соответствует алгоритмической задержке в 5,8 мс. Для всех частотных полос использовался один коэффициент компенсации потери слуха ОнЬ, для подавления обратной акустической связи использовались значения параметров а^ = 0,997 , р = 0,15 , %л = 10, для шумоподавления аа= 0,95 , а = 0,2, Ь = 172 (окно
поиска минимума примерно 1 с), 5 = л/5, V = 2, КЬ = 9 .
В качестве первого эксперимента оценивалась устойчивость системы подавления АОС и качество выходного сигнала. Для этого определялся добавочный к предельному коэффициент усиления АО [8] с применением предложенного алгоритма подавления обратной связи и алгоритма адаптивной фильтрации (279 коэффициентов фильтра) на основе метода наименьших квадратов [4]. Результат работы всей системы оценивался в терминах сегментного соотношения сигнал/шум (СССШ). Шум оценивался путем вычисления разности между выходным сигналом (с обратной акустической связью и включенным подавлением) и выходным сигналом в идеальных условиях (без обратной связи и подавления). Полученные значения СССШ приведены в таблице 1. означает неустойчивость системы.
СССШ для различных добавочных усилений АО
АО, дБ Без подавления, дБ LMS, дБ Предложенный алгоритм подавления АОС, дБ
0 8,12 17,66 12,27
8 Ш 5,35 11,10
16 Ш 1,72 9,25
24 Ш Ш 4,56
Предложенный алгоритм подавления обратной связи обеспечивает значительно более высокие значения СССШ по сравнению с алгоритмом на основе МНК для всех случаев, где присутствует обратная связь и сохраняет устойчивость системы даже для максимального добавочного усиления 24 дБ.
В качестве второго эксперимента выполнялась оценка эффективности алгоритма в шумовой обстановке, для чего использовался речевой сигнал с добавлением розового шума. Реализованный алгоритм шумоподавления заметно улучшает показатели СССШ (для АО = 12 дБ разница составляет примерно 3-5 дБ), подавляя одновременно фоновый шум и остаток АОС, что значительно повышает субъективное качество обработанной речи.
Для того, чтобы оценить работу алгоритма в реальных условиях эксплуатации создан макет на основе персонального компьютера со стандартными наушниками и микрофоном, работающий в реальном масштабе времени. Макет помещен в большую комнату с выраженным эффектом реверберации. Предложенный алгоритм подавления АОС показал на макете хороший результат, сохраняя устойчивость системы при АО > 12 дБ, в то время как алгоритм на основе МНК обеспечил устойчивость при АО < 3 дБ.
Заключение
Предложен алгоритм подавления фонового шума и акустической обратной связи, основанный на спектральном вычитании. В соответствии с результатами экспериментов предложенный алгоритм является устойчивым к быстрому изменению пути распространения акустической обратной связи, обеспечивает значительное добавочное усиление и высокое качество обработанной речи. Благодаря своим свойствам алгоритм может быть использован в слуховых аппаратах на базе смартфонов.
COMBINED NOISE AND ACOUSTIC FEEDBACK REDUCTION ALGORITHM BASED ON SPECTRAL WEIGHTING RULES FOR SMARTPHONE HEARING AID
M.I. VASHKEVICH, E.S. AZAROV, A.A. PETROVSKY
Abstract
The paper presents a combined noise and acoustic feedback reduction algorithm. The algorithm is based on spectral subtraction and is robust to rapid changes in acoustic feedback path which makes it suitable for using in a smartphone-based hearing aid.
Keywords: noise reduction, acoustic feedback reduction, hearing aid.
Список литературы
1. Ismaili J. // Education and Information Technologies. 2016. Vol. 21, iss. 82. P. 1-17.
2. Bertoli S., Staehelin K., Zemp E. et. al. // International journal of audiology. 2009. Vol. 48, № 4. P. 183195.
3. Vonlanthen A., Arndt H. Hearing Instrument Technology for the Hearing Health Care Professional. Delmar Cengage Learning, 2006.
4. Maxwell J.A., Zurek P.M. // IEEE Transactions on Speech and Audio Processing. 1995. Vol. 3, № 4,.P. 304-313.
5. Schepker H., Tran L., Nordholm S. et. al. // IEEE International Conference on Acoustic, Speech, and Signal Processing. Shanghai, China, March 20-25, 2016. P. 231-235.
6. Strasser F., Puder H. // IEEE Signal Processing Letters. 2016. Vol. 23, № 7. P. 979-983.
7. Schepker H., Doclo S. // IEEE/ACM Transactions on Audio, Speech and Language Processing. 2016. Vol. 24, iss. 2, P. 366-377.
8. Vicen-Bueno R., Martinez-Leira A., Gil-Pita R. et. al. // IEEE Transactions on Instrumentation and Measurement. 2009. Vol. 58, № 9. P. 3177-3190.
9. Vashkevich M., Azarov E., Petrovsky A. // European Signal Processing Conference. Bucharest, Romania, August 27-31, 2012. P. 2787-2791.
10. Kates J.M. // Journal Acoust. Soc. Am. 2001. Vol. 109, № 1. P. 367-378.
11. Crochiere R.E., Rabiner L.R. Multirate Digital Signal Processing. Prentice-Hall Inc., 1983.
12. Rosa-Zurera M., Gil-Pita R., Alexandre Cortizo E. et. al. // Materials of 10th international conference on Pattern Recognition and Information Processing «WOLA Filter Bank Design Requirements in Hearing Aids». Minsk, Belarus, May 19-21, 2009. P. 215-218.
13. Cohen I., Berdugo B. // IEEE Signal Processing Letters. 2002. Vol. 9, № 1. P. 12-15.