Научная статья на тему 'Застосування srp-методу для локалізації джерела акустичного сигналу в одновимірній області'

Застосування srp-методу для локалізації джерела акустичного сигналу в одновимірній області Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
71
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
SRP-метод (Steered Response Power) / фазова трансформація / швидке перетворення Фур'є (ШПФ) / взаємна кореляція / частота дискретизації / аудіоінтерфейс / SRP-method (Steered Response Power method) / phase transform / fast Fourier transform / mutual correlation / sampling rate / audio interface

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — П. І. Рожак, Н. О. Семенишин

Локалізація джерела звуку за допомогою цифрового оброблення сигналу потрібна для того, щоб оцінити напрямок, звідки приходить конкретний акустичний сигнал, а це, водночас, важливо для реалізації "hand-free" систем та систем позиціонування, наприклад у відео конференціях. У будь-якому разі потрібен алгоритм, який дає змогу надійно локалізувати розташування акустичного джерела звуку. У ролі такого алгоритму у цій роботі реалізовано SRP-метод із фазовою трансформацією. Перевагами SRP-методу є точність знаходження джерела у середовищах з реверберацією та шумом, а також малий часовий відрізок вхідного сигналу для коректної роботи. Цей алгоритм аналізує потужність звуку, отриманого мікрофонною решіткою, у певній точці просторової сітки деякого приміщення. Тобто замість оцінки набору тимчасових різниць часу прибуття між парами мікрофонів і об'єднанням отриманих оцінок, щоб знайти місце розташування джерела, за непрямими методами пошук розташування джерела працює перебором просторових точок на сітці досліджуваної області. Представлено кілька експериментів із двома мікрофонами для одновимірної задачі локалізації звуку у довгому приміщенні, ширина якого нехтувалась. Ефективність знаходження акустичного джерела досліджено на мовному сигналі та довільному – плеск в долоні. Показано точність цього методу до кількох сантиметрів навіть за наявності деякого шуму та реверберації у вхідному сигналі.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — П. І. Рожак, Н. О. Семенишин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SRP-METHOD FOR LOCATING AN ACOUSTIC SIGNAL SOURCE IN A ONE-DIMENSIONAL REGION

Signal processing for acoustic sound source localization is required in order to find the direction from where a particular sound source signal is coming and it is also important to find a solution for hands free communication. Hand free communications and video conferencing are different applications requiring sound source localization. In this paper we implement such method for locating sound sources. The method employs the proven-robust steered response power using the phase transform (SRP-PHAT) as a functional one. In this algorithm the true source location has the maximum SRP-PHAT value, which can be found by applying some optimization method with respect to one parameter x. The steered response power phase transform (SRP-PHAT) is a beamformer method very attractive in acoustic localization applications due to its robustness in reverberant environments. Therefore sound source localization and speech/non-speech detection techniques have been presented in this work to be used in a multiparticipant environment with a microphone system. Based on the well-known SRP-PHAT method we propose functional which is based on the accumulation of generalized cross-correlations values for each microphone pair in a range that covers the volume surrounding each point of the defined spatial grid. During calculation we made fast Fourier transform and use convolution theorem of discrete Fourier transform to get convolution of two signals in time domain by multiplying these signals in frequency domain and then again returning to time domain by using inverse fast Fourier transform. The results of using algorithm are presented on two plots in one dimensional domain. Two microphones and an audio interface were used as hardware and the Audacity as multi-track audio editor and recorder. It is shown, that the results of acoustic source localization using this method give good evaluation of source position with average deviation with respect to exact source location equal 1-2 %. Also it was shown that recording sound can have different nature like human voice or clapping and environment for experiment may contain some level of noise and reverberation.

Текст научной работы на тему «Застосування srp-методу для локалізації джерела акустичного сигналу в одновимірній області»

НЛТУ

УКРЛ1НИ

Hl/IUB

Науковий BicHMK НЛТУУкраТни Scientific Bulletin of UNFU http://nv.nltu.edu.ua

https://doi.org/10.15421/40270531

Article received 22.06.2017 р. Article accepted 29.06.2017 р.

УДК 004.021

ISSN 1994-7836 (print) ISSN 2519-2477 (online)

[^1 Correspondence author N. O. Semenyshyn xa4abu@ukr.net

П. I. Рожак, Н. О. Семенишин

ЗАСТОСУВАННЯ SRP-МЕТОДУ ДЛЯ ЛОКАЛ1ЗАЦН ДЖЕРЕЛА АКУСТИЧНОГО

СИГНАЛУ В ОДНОВИМ1РН1Й ОБЛАСТ1

Локалiзацiя джерела звуку за допомогою цифрового оброблення сигналу noTpi6Ha для того, щоб оцiнити напрямок, зввд-ки приходить конкретний акустичний сигнал, а це, водночас, важливо для реатзацп "hand-free" систем та систем позицюну-вання, наприклад у вiдео конференцшх. У будь-якому рaзi потрiбен алгоритм, який дае змогу нaдiйно локатзувати розташу-вання акустичного джерела звуку. У ролi такого алгоритму у цш роботi реaлiзовaно SRP-метод i3 фазовою трaнсформaцiею. Перевагами SRP-методу е точшсть знаходження джерела у середовищах з реверберaцiею та шумом, а також малий часовий вiдрiзок вхдаого сигналу для коректно! роботи. Цей алгоритм анатзуе потужнiсть звуку, отриманого мiкрофонною решгг-кою, у певнш точцi просторово! сiтки деякого примщення. Тобто зaмiсть оцiнки набору тимчасових р!зниць часу прибуття мiж парами мжрофошв i об'еднанням отриманих оцшок, щоб знайти мiсце розташування джерела, за непрямими методами пошук розташування джерела працюе перебором просторових точок на сггщ дослщжувано! облaстi. Представлено кшька ек-спериментiв iз двома мiкрофонaми для одновим!рно! зaдaчi локатзацп звуку у довгому примiщеннi, ширина якого нехтува-лась. Ефективнiсть знаходження акустичного джерела дослщжено на мовному сигнал та довiльному - плеск в долош. Показано точшсть цього методу до кiлькох сaнтиметрiв нaвiть за нaявностi деякого шуму та реверберацп у вхiдному сигнал^

Krnuoei слова: SRP-метод (Steered Response Power); фазова трансформащя; швидке перетворення Фур'е (ШПФ); взаемна кореляцiя; частота дискретизацп; aудiоiнтерфейс.

Вступ. Методи локaлiзaцil джерела звуку та поедна-ння мiкрофонних решiток i оброблення сигнaлiв на сьогоднi активно застосовують для отримання високо-як1сного мовного сигналу. Так застосування викорис-товують просторову фiльтрaцiю, що дае змогу тдвищи-ти рiвень сигналу одного мовця, i погасити iншi сигнали.

Тод^ як деяк1 системи признaченi для того, щоб зо-середитися на звуках, яш виходять iз заданого мiсця розташування, бiльшiсть використовуе адаптивш алго-ритми, як1 вiдстежують розташування одного або шль-кох мовщв i регулюють фокус масиву сенсорiв ввдпо-ввдно. Це "електронне керування" усувае необхвдшсть обладнання ручного керування. О^м цього, цi системи мають велик! перспективи у розробленш так званих розумних комнат (smart rooms), яш активно взаемодшть !з людиною за допомогою багатьох сенсорiв.

Зважаючи на широке розмаття сфер застосування системи локaлiзaцil джерела звуку, така програмно-тех-нiчнa система е дуже актуальною та корисною на сьогодш.

Опис SRP-методу. У цш робот використано SRP-метод, який належить до класу непрямих методiв лока-лiзaцil акустичних джерел. Заметь оцшки набору тимчасових р!зниць часу прибуття (time difference of arrival - TDOA) м1ж парами ткрофотв i об'еднанням отриманих оцшок, щоб знайти мюце розташування джерела, за непрямими методами, пошук розташування джерела працюе перебором просторових точок на сгтщ досль

джувано! областi. Метод е стiйким до шуму i реверберацп (ВеИоЛ et а1., 2013).

Для часового штервалу п, SRP, Рп(х), е функцiонал дiйсних значень для просторового вектора X, отриманого змшою фазових затримок вхiдних сигналiв та су-муванням !х для усiх мiкрофонiв. За гшотезою максимум Рп(х) вказуе на мюцезнаходження k джерел звуку х("Хк) навiть за значного шумового фону та реверберацп. Найбiльшi максимуми Рп(х) формують набiр х("Хк). Наприклад, для одиничного джерела звуку, оцшка розташування становить

Х(п)(1) = argmax РИ(Х). (1)

X

Нехай дано сигнал т(), що е виходом мшрофона i у мiкрофоннiй решiтцi розмiром М. Тодi оцiнка SRP для штервалу скшченно! довжини Т визначена

т+1)Т ПТ

£ wmfi - т(Х, i))

i=1

dt,

(2)

де - деякий ваговий коефщент i т(Х,г) - час прохо-дження сигналу з точки X до мшрофона г. Значения SRP може бути точно розраховано сумуванням узагаль-нено! взаемно! кореляцп для всiх можливих пар м^о-фонiв (DiBiase, 2000), а як вщомо, на основi теореми про згортку дискретного перетворення Фур'е (ДПФ), кореляцш двох сигналiв у часовш областi, можна пред-ставити як добуток цих сигналiв у частотнш областi отриманих за допомогою ДПФ (ВаЬак, Khandetskyi, &

2

M

1нформащя про aBTopiB:

Рожак Петро 1горович, acnipaHT, асистент кафедри шформацмних технологiй. Email: petrorozhak@gmail.com Семенишин Назар Олегович, acnipaHT, шженер кафедри шформацмних технологiй. Email: xa4abu@ukr.net Цитування за ДСТУ: Рожак П. I., Семенишин Н. О. Застосування srp-методу для локaлiзaцií джерела акустичного сигналу в

однови/^рый облacтi. Науковий вкник НЛТУ Укpaíни. 2017. Вип. 27(5). С. 160-163. Citation APA: Rozhak, P. I., & Semenyshyn, N. O. (2017). SRP-method for locating an acoustic signal source in a one-dimensional region. Scientific Bulletin of UNFU, 27(5), 160-163. https://doi.org/10.15421/40270531

Shriufer, 1996; Nussbaumer, 1985). При переходi (2) у частотну область, використовуючи зваженi коефiцieнти W*(m) та застосовуючи теорему Парсеваля, отримуемо

M M

Pn(X) = ZZj-LWk(ai)Wi"(m)Mk(a)Ml(m)eJwTdт . (3) k=1l =1

Визначимо вагову функщю як

4k№) - Wk(m)W*(m) . (4)

Перепишемо вираз (3) з урахуванням симетрп еле-ментiв суми

M M

P (x) = Z Z j ^urnWkmyMKmy^^dm . (5) k=1 l=k+1

Фазове перетворення (phase transform - PHAT), особливо ефективне при визначенш взаемно1 кореляцп для знаходження рiзниць часу прибуття з мовного сигналу при шумовому фош та реверберацп (Hoang Do et al., 2007; DiBiase, 2000). Визначимо ваговi значения як обернену величину частотних складових

^ki (т) * , . (6)

|Mk(m)M(m)| Наведемо визначення параметра

Tki(x) =

= ||x-xkl -||x-xi||

(7)

Ця функцiя представляе теоретичне значення зат-римки надходження звуку вщ джерела, розташованого у точщ х, для пари мiкрофонiв (к, I). Коефiцiент с - значення швидкосп звуку у поверь

Отже, розв'язком нашо! задачi е знаходження одного або кшькох значень максимумiв х^Хк) шляхом досль дження поверхнi р (х) по всш дослiджуванiй областi. Розрахунок будь-яко! конкретно! точки х для р (х) на-зивають оцткою функцюналу. Для SRP-PHAT функщ-оналу (5), хочемо визначити точку-джерело мюце в юм-нап, що дае максимальне значення. Для оптимiзащl функцiоналу можемо застосувати метод Контракцп сто-

хастично1 област (stochastic region contraction - SRC) (Hoang Do et al., 2007).

Результата проведених експерименпв. У цш ро-

ботi здiйснено кiлька експериментав iз двома м^офо-нами у вузькому коридорному примщенш довжиною 6 м, де ширина примщення нехтувалась i розрахунки велись тiльки по однш координатi довжини.

Звуки, яю записували, були рiзноl природи: слово "Раз" та плеск в долош. Вимiри здiйснювали на рiзних вуалях вiд мiкрофонiв. У коридорному примщенш при запиа входного сигналу виникало ще невелике ехо та шум з вулищ крiзь вiдчиненi в^а. Для всiх дослiдiв частота дискретизацп дорiвнюе 48000 Герц, а один вщ-лiк звукового сигналу для одного каналу займае 24 бгги.

Для записування звуку використовували звичайш динамiчнi мiкрофони, розташованi за наперед визначе-ними координатами на юнцях примiщення. Величина по координатi x рахуеться злiва направо, вiд лiвого каналу до правого, i при x=6 джерело звуку знаходиться бшя мiкрофона, який вiдповiдае за правий канал.

Для синхронного запису кшькох звукових дорiжок (з мшмальними затримками) використовуемо аудю-ш-терфейс Roland edirol ua-25 iз двома каналами входу. Щоб здiйснити вибiрку фрагмента сигналу для кожно! дорiжки використати вшьне ПЗ Audacity. Розмiр фрагмента вибiрки для формування вхщного сигналу для всiх експериментiв становить 8192 (прибл. 170 мс).

Експеримент 1. Сигналом е плеск в долош. На рис. 1 представлено вже вщбраш фрагменти вхщного сигналу. Розташування джерела звуку по ош x становить 5 м 60 см. Поверхню функцiоналу р (x) iз форму-ли (5) представлено на рис. 2. Максимум ще! поверхш розташований у точщ x=5,54 м, що становить похибку шють сантиметрiв щодо справжнього розташування джерела звуку.

Рис. 1. Плеск в долош. Вигляд звукового сигналу для л1вого (зл1ва) i правого (справа) канал1в

Експеримент 2. Вхiдним звуком цього разу е слово "Раз". Запис здшснюеться безпосередньо у мжрофон ль вого каналу з максимально близько! вщсташ. На рис. 3 рiзним кольором показано двi звуковi дорiжки цього сигналу, з яких буде здшснюватись вибiрка фраг-ментiв для алгоритму локалiзацil. Поверхню функщона-лу р (х) iз формули (5) представлено на рис. 4.

Тут чггко видно, що диктор знаходиться на лiвому юнщ примiщення на дуже близькш вiдстанi до м^о-фону при х=0,04.

c

SU Edil Vim ¡пюп looli >11111, 11 'Hi'" Help

JJJi li % ИЭ X ■: a " E ma

III 1 lllll

1 1 1

Рис. 3. Слово "Раз". Темнший юопр бшьшо! ампттуди - запис з лшого каналу

Ею ЕОП 1« Шип Tool! DnHop Mnoooi ниц 1

|J ¿ Ь \ . -' SV oí- Д О ЬЗ 1 О

ласп

Висновки. У цьому дослвдженш застосовано SRP-метод 1з фазовою трансформащею для задач1 локал1за-цп джерела звуку. Зашсть оцшки набору тимчасових р1зниць часу прибуття м1ж парами мжрофошв i об'еднанням отриманих оцшок, для знаходження м1сця

розташування джерела непрям1 методи, тобто переб1р просторових точок на сищ досл^джувано! обласп.

Алгоритм е менш чутливим до реверберацш та шу-м1в вхвдного звуку за рахунок множення на вагов1 ко-ефщенти, тобто при так званш фазовш трансформаций Також до переваг алгоритму можна ввднести можли-в1сть додавання велико! шлькосп м1крофошв, локал1за-цш к1лькох рухомих об'екпв та адаптовашсть для змь ни оптимiзацiйиого методу, щоб досягнути бшьшо! швидкодп.

Здiйсиеио низку експерименпв 1з двома мжрофона-ми у вузькому коридорному примщенш, де ширина примiщеиия нехтувалась i розрахунки велись тшьки по однш координап довжини. Середня похибка вщхилен-ня реального розташування джерела звуку в1д того, яке ощнюеться функцюналом, становила 1-2 %.

Перелш використаних джерел

Babak, V. P., Khandetskyi, V. S., & Shriufer, E. P. (1996). Obrobka

syhnaliv. Kyiv: Lybid, 390 p. [in Ukrainian]. Belloch, J. A., Gonzalez, A., Vidal, A. M., Cobos, M. (2013). Real-time Sound Source Localization on Graphics Processing Units. Procedia Computer Science, 18, 2549-2552. https://doi.org/10.1016/j.procs.2013.05.438 DiBiase, J. H. (2000). A High Accuracy, Low-Latency Technique for Talker Localization in Reverberant Environments using Microphone Arrays (PDF) (PhD.). Providence, Rhode Island, Brown Univ. Hoang Do, Harvey F. Silverman, Ying Yu (2007). A Real-Time SRP-PHAT Source Location Implementation using Stochastic Region Contraction(SRC) on a Large-Aperture Microphone Array. ICASSP 2007. IEEE International Conference: Acoustics, Speech and Signal Processing. Honolulu, HI, USA. https://doi.org/10.1109/ICASSP.2007.366631 Nussbaumer, G. (1985). Bystroe preobrazovanie Fure i algoritmy vychisleniia svertok Moscow: Radio i sviaz, 248 p. [in Russian].

П. И. Рожак, Н. О. Семенишин

Национальный лесотехнический университет Украины, г. Львов, Украина

ПРИМЕНЕНИЕ SRP-МЕТОДА ДЛЯ ЛОКАЛИЗАЦИИ ИСТОЧНИКА АКУСТИЧЕСКОГО

СИГНАЛА В ОДНОМЕРНОЙ ОБЛАСТИ

Представлен метод определения местонахождения источников звука с использованием сегмента данных из массива микрофонов. Использован надежный метод управления мощностью отклика с использованием фазового преобразования (steered response power using the phase transform - SRP-PHAT). В этом алгоритме истинное местоположение источника имеет максимальное значение функционала SRP-PHAT. Метод очень привлекательный в приложениях акустической локализации из-за его работоспособности в средах с реверберацией. В представленном методе, базируясь на известном алгоритме SRP-PHAT, предложен функционал, основанный на накоплении значений взаимных корреляций для каждой пары микрофонов в диапазоне, который охватывает каждую точку определенной пространственной сетки. Результаты использования алгоритма представлены на двух графиках в одномерной области. В качестве аппаратного обеспечения использованы два микрофона и аудиоинтерфейс, а в качестве программного Audacity - аудиоредактор звуковых файлов, ориентированный на работу с несколькими дорожками. Показано, что результаты локализации акустического источника с использованием этого метода дают хорошую оценку положения источника со средним отклонением относительно точного местоположения источника, равного 1-2 %. Установлено, что записываемый звук может иметь различную природу, например человеческий голос или обычное хлопанье.

Ключевые слова SRP-метод (Steered Response Power); фазовая трансформация; быстрое преобразование Фурье (БПФ); взаимная корреляция; частота дискретизации; аудиоинтерфейс.

P. I. Rozhak, N. O. Semenyshyn

Ukrainian National Forestry University, Lviv, Ukraine

SRP-METHOD FOR LOCATING AN ACOUSTIC SIGNAL SOURCE IN A ONE-DIMENSIONAL REGION

Signal processing for acoustic sound source localization is required in order to find the direction from where a particular sound source signal is coming and it is also important to find a solution for hands free communication. Hand free communications and video conferencing are different applications requiring sound source localization. In this paper we implement such method for locating sound sources. The method employs the proven-robust steered response power using the phase transform (SRP-PHAT) as a functional one. In this algorithm the true source location has the maximum SRP-PHAT value, which can be found by applying some optimization method with respect to one parameter x. The steered response power phase transform (SRP-PHAT) is a beamformer method very attractive in acoustic localization applications due to its robustness in reverberant environments. Therefore sound source locali-

zation and speech/non-speech detection techniques have been presented in this work to be used in a multiparticipant environment with a microphone system. Based on the well-known SRP-PHAT method we propose functional which is based on the accumulation of generalized cross-correlations values for each microphone pair in a range that covers the volume surrounding each point of the defined spatial grid. During calculation we made fast Fourier transform and use convolution theorem of discrete Fourier transform to get convolution of two signals in time domain by multiplying these signals in frequency domain and then again returning to time domain by using inverse fast Fourier transform. The results of using algorithm are presented on two plots in one dimensional domain. Two microphones and an audio interface were used as hardware and the Audacity as multi-track audio editor and recorder. It is shown, that the results of acoustic source localization using this method give good evaluation of source position with average deviation with respect to exact source location equal 1-2 %. Also it was shown that recording sound can have different nature like human voice or clapping and environment for experiment may contain some level of noise and reverberation.

Keywords: SRP-method (Steered Response Power method); phase transform; fast Fourier transform; mutual correlation; sampling rate; audio interface.

i Надоели баннеры? Вы всегда можете отключить рекламу.