Научная статья на тему 'Конструирование подсистемы ввода сигнала на основе массива микрофонов с цифровым интерфейсом'

Конструирование подсистемы ввода сигнала на основе массива микрофонов с цифровым интерфейсом Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
482
98
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАССИВ МИКРОФОНОВ / MICROPHONE ARRAY / ЗАХВАТ МНОГОКАНАЛЬНОГО ЗВУКА / MULTICHANNEL AUDIO CAPTURE / MEMS-МИКРОФОНЫ / MEMS MICROPHONES / PDM-TO-DFSDM-ПРЕОБРАЗОВАНИЕ / ARM CORTEX-M / PDM-TO-DFSDM TRANSFORM

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Жуков Р.А., Суворов Д.А., Тетерюков Д.О., Осеков С.С., Мозговой М.В.

Рассмотрены вопросы создания системы захвата многоканального звука для дальнейшего использования в системе распознавания речи на расстоянии на примере разработки массива из восьми MEMS-микрофонов. Проведен сравнительный анализ подходов к решению задачи захвата звука, в которых применяют массивы аналоговых и цифровых микрофонов. Разработана и изготовлена система захвата звука, основанная на PDM-to-DFSDM-преобразовании, решетке цифровых MEMS-микрофонов с PDM-интерфейсом и новейшей линейке контроллеров фирмы ST архитектуры ARM Cortex-M. Экспериментально проверена работоспособность созданной системы аппаратно-синхронизированного захвата звука с восьмиканального массива микрофонов и ее пригодность для локализации источников звука и формирования диаграммы направленности перед распознаванием речи Работа выполнена при поддержке гранта Фонда содействия инновациям (№ 102ГРНТИС5/26071)

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Designing a Signal Input Subsystem based on a Digitally Interfaced Microphone Array

The article deals with the issues of developing a multichannel audio capture system to be later used in a remote speech recognition system, using an array of eight MEMS microphones as an example. We compared those approaches to solving the audio capture problem that employ arrays of analog and digital microphones. We designed and manufactured a hardware-synchronized eight-channel audio capture system based on a Pulse Density Modulation to Digital Filter for Sigma-Delta Modulation (PDM-to-DFSDM) transform, an array of digital MEMS microphones with a PDM interface and the newest line of ARM Cortex-M controllers by ST. We verified that the system developed works and that it is usable for sound source localization and beamforming before speech recognition occurs The study was supported by Innovation Promotion Fund (grant no. 102GRNTIS5/26071)

Текст научной работы на тему «Конструирование подсистемы ввода сигнала на основе массива микрофонов с цифровым интерфейсом»

УДК 534.6.08

DOI: 10.18698/0236-3933-2018-3-70-82

КОНСТРУИРОВАНИЕ ПОДСИСТЕМЫ ВВОДА СИГНАЛА НА ОСНОВЕ МАССИВА МИКРОФОНОВ С ЦИФРОВЫМ ИНТЕРФЕЙСОМ

Р.А. Жуков1 roman.zhukov@skolkovotech.ru

Д.А. Суворов1 dmitry.suvorov@skolkovotech.ru

Д.О. Тетерюков1 D.Tsetserukou@skoltech.ru

С.С. Осеков2 osekovs@mail.ru

М.В. Мозговой2 mozgovoy@bmstu.ru

А.В. Волков2 avv@bmstu.ru

1 Сколковский институт науки и технологий, Сколково, Москва, Российская Федерация

2 МГТУ им. Н.Э. Баумана, Москва, Российская Федерация

Аннотация Ключевые слова

Рассмотрены вопросы создания системы захвата мно- Массив микрофонов, захват много-гоканального звука для дальнейшего использования в канального звука, MEMS-микрофоны, системе распознавания речи на расстоянии на приме- PDM-to-DFSDM-преобразование, ре разработки массива из восьми MEMS-микрофонов. ARM Cortex-M Проведен сравнительный анализ подходов к решению задачи захвата звука, в которых применяют массивы аналоговых и цифровых микрофонов. Разработана и изготовлена система захвата звука, основанная на PDM-to-DFSDM-преобразовании, решетке цифровых MEMS-микрофонов с PDM-интерфейсом и новейшей линейке контроллеров фирмы ST архитектуры ARM Cortex-M. Экспериментально проверена работоспособность созданной системы аппаратно-синхронизи-рованного захвата звука с восьмиканального массива микрофонов и ее пригодность для локализации источников звука и формирования диаграммы направ- Поступила в редакцию 04.10.2017 ленности перед распознаванием речи © МГТУ им. Н.Э. Баумана, 2018

Работа выполнена при поддержке гранта Фонда содействия инновациям (№ 102ГРНТИС5/26071)

Введение. Шум и реверберация в звуковом сигнале — ключевые проблемы в сфере распознавания речи на расстоянии [1, 2]. В настоящее время архитектура системы распознавания акустического сигнала может быть представлена блок-схемой, приведенной на рис. 1 [2].

Прогресс в области распознавания звука на расстоянии складывается из прогресса в областях разработки алгоритмов распознавания речи, предобработки звука и достижений в развитии техники, которая выступает в качестве аппаратной части для захвата звука. Было установлено, что внедрение массива микрофонов в систему дистанционного распознавания речи повышает суммарную эффективность всего речевого пользовательского интерфейса [3, 4].

Рис. 1. Блок-схема архитектуры системы распознавания акустического сигнала

В настоящей работе описан новый подход к разработке систем захвата на основе массива цифровых микрофонов, необходимых в системах распознавания речи. Представлен обзор существующих систем захвата звука на основе цифровых и аналоговых решеток (массивов) микрофонов. Приведено теоретическое описание разработанной системы, показана аппаратная реализация описываемого решения. Проведен эксперимент, проверяющий синхронность захватываемых данных и пригодность решения для использования в системах локализации источников звука и формирования диаграммы направленности.

Цель настоящей работы — разработка программно-аппаратной системы захвата восьмиканального аппаратно-синхронизованного звука с помощью цифровых MEMS-микрофонов (Microelectromechanical Systems, MEMS) для дальнейшего использования в системах распознавания речи.

Обзор существующих решений. Выделим наиболее существенные качественные показатели систем захвата звука [3]:

- отношение полезный сигнал/шум, где в виде полезного сигнала выступает речь говорящего, а в виде шума — фоновый шум, собственный шум микрофона и звуки от нецелевых источников;

- форма диаграммы направленности и возможности системы по ее изменению в зависимости от окружающей обстановки;

- способность к локализации источника полезного сигнала и параметры точности измерений.

Наиболее распространен способ построения блока захвата сигнала на основе аналоговых массивов микрофонов. Так, в структуре массива микрофонов 8SoundsUSB, описанного в работе [5], каждый канал включает в себя электрет-ный микрофон, предусилитель, усилитель, канал параллельного АЦП и устройство обработки в виде XMOS-контроллера на все каналы. При этом плата 8SoundsUSB в расчете на восемь каналов массива микрофонов состоит из 100 отдельных элементов.

Описание проблем, которые возникают при разработке аналоговых массивов микрофонов, подобных 8SoundsUSB, а также обоснование снижения важности проблемы при использовании цифровых микрофонов в системах захвата звука приведено в табл. 1.

Известны случаи применения массивов цифровых микрофонов в продуктах компаний Amazon Echo, Microsoft Kinect и Huawei Mate 9. Из всех изделий наибольший интерес представляет изделие Alexa фирмы Amazon, так как это пер-

вое масштабное применение решеток цифровых микрофонов в системах полнотекстового распознавания речи. Массив микрофонов Alexa состоит из шести микрофонов, расположенных по кругу, и одного, размещенного в центре. Изделие компании Microsoft состоит из четырех микрофонов, расположенных вдоль линии, а смартфон Huawei Mate 9 включает в себя четыре микрофона, располагающихся в трехмерной конфигурации. Несмотря на то что случаи синтеза устройств захвата, построенных с помощью цифровых массивов микрофонов, уже известны, задача разработки альтернатив до сих пор остается актуальной.

Таблица 1

Проблемы, возникающие при разработке аналоговых массивов микрофонов и обоснование целесообразности разработанного решения

Проблема при создании аналогового массива микрофонов Обоснование целесообразности разработанного решения

Резкое увеличение стоимости Отсутствие большого числа вспомогательных аналоговых компонентов

Снижение выхода годных изделий вследствие большого числа компонентов Снижение общего числа микросхем и топологической сложности приводит к увеличению процента выхода годных изделий в силу общих законов статистики

Увеличение стоимости разработки и отладки Реализация алгоритмов кодом и цифровыми блоками интерфейсов, что позволяет привлекать разработчиков с меньшей квалификацией и опытом работы

Высокая чувствительность к электромагнитному излучению и качеству электропитания Применение цифровых компонентов менее чувствительно к статическим сбоям и ухудшению качества электропитания

Увеличение цикла производства Меньшая топологическая сложность гарантирует возможность производить изделие практически по любым современным технологическим нормам, делая процесс запуска быстрее и дешевле

Увеличение цикла тестирования Цифровая реализация позволяет писать синтетические тесты и таким же образом генерировать входные сигналы. Цифровые генераторы более гибкие и имеют низкую стоимость, а процесс тестирования и отладки сводится к работе с кодом

В качестве альтернативы существующим подходам, имеющим изложенные выше недостатки, авторами настоящей работы было предложено использовать архитектуру, построенную с использованием цифровых МЕМ5-микрофонов, которые получили значительное распространение в последнее время [6-8]. Измеритель этих микрофонов расположен на кристалле, поэтому на его цифровой выход минимально влияют компоненты, которые его окружают. Было разработано наиболее

простое, недорогое и совершенное с точки зрения параметров захвата сигнала решение, которое заключается в использовании цифровых MEMS-микрофонов с выходом PDM (выдающим сигнал с модуляцией плотности импульсов) (Pulse-Density Modulation, PDM), синхронно тактируемым DFSDM-интерфейсом (Digital Filter for Sigma Delta Modulator) контроллера архитектуры Cortex-M4/7.

Модуляция плотности импульсов. Модуляция плотности импульсов (МПИ) представляет собой метод передачи относительного изменения сигнала в расчете на выборку, которое математически может быть описано формулой

[n ]= -Л (-1a[n]),

(1)

где х [n ] содержит в каждом члене относительное изменение сигнала в виде 1 бита со знаком, который задается переходом. Отрицательное приращение — переход от 1 к 0, положительное — от 0 к 1. Повторение единиц увеличивает общую амплитуду сигнала, а повторение нулей уменьшает (рис. 2).

Математическая модель МПИ может Рис. 2. Период синусоидального сигнала быть получена с помощью модели дельта- в расчете на 100 выборок

сигма-модулятора. В дискретной частотной области работа дельта-сигма-модулятора может быть описана формулой

iiiimiiiiiiiiiiii

O ( z ) = I ( z ) + E ( z )(l - z-1),

(2)

где О (г), I (г) — спектры сигналов на входе и выходе модулятора; Е (г) — ошибка дискретизации дельта-сигма-модулятора; 1 - г

высокочастотный

фильтр. В результате преобразования формулы (2) получим O (z ) = E (z ) + [ I (z )-O (z )z-1 J^-1-^.

(3)

Согласно формуле (3), ошибка Е (г) уменьшает значение сигнала на выходе О (г) в области низких частот и увеличивает его в области высоких, вследствие чего спектр шума квантования смещается преимущественно в область высоких частот [9].

Пусть г [п] ¡[п] — выборка сигнала на входе модулятора во временной области, а о [п] — выборка сигнала на выходе, тогда, используя обратное г-преобразование, можно перейти к выражению

i\n ] = i [n 1 + e [n ]- e [n -1],

(4)

где

t[n ] =

1 при x [n]> e [n -1];

-1 при x [n ]< e [n -1]; e [n] = o [n]- i [n] + e [n -1].

(5)

(6)

Сигнал из выборки выходного сигнала о [п], согласно формуле (5), представляется в виде 1 бита и принимает значения ± 1, реализуется так, чтобы значение текущей погрешности квантования е [п] было минимальным. При этом в соответствии с формулой (4) погрешность квантования е [п ] каждой выборки оказывается на входе устройства в течение последующей выборки.

Аппаратная реализация. Созданная плата сбора звука приведена на рис. 3, а, разработанные платы, на которых размещены М£М5-микрофоны в круговом и линейном массивах (платы с помощью шлейфа подключаются к плате сбора звука), — на рис. 3, б, в.

Рис. 3. Плата обработки звука (а), платы кругового (б) и линейного (в) массивов цифровых М£М5-микрофонов

Цифровые MEMS-микрофоны имеют PDM-выход. Каждый выход DATA (канал данных) MEMS-микрофона может посылать сигналы напрямую на вход микроконтроллера, так как их уровни напряжений совместимы. Совместимым является и тип логики (по крайней мере, для моделей чипов, которые были использованы). Измеряемый фактор — направление перехода. Влияние на точность оказывает качество источника тактирования. Как правило, в акустике для оцифровки голоса применяют мегагерцовый диапазон частот в режиме PDM-реализации (2...3 МГц при 16-битном сигнале) и в режиме Turbo 3...5 МГц со снижением уровня отношения сигнал/шум SNR (Signal-to-Noise Ratio). Эту частоту очень легко получить с помощью встроенных в архитектуру ARM-шин

(Advanced RISC Machine) и делителей частоты, при этом с очень хорошим качеством. Для этого используют таймеры или интерфейс I2S.

За синхронно организованный сбор данных одновременно с нескольких каналов отвечает применение интерфейса захвата DFSDM (Digital Filter for Sigma Delta Modulator), который был добавлен в архитектуру ARM в 2012 г. Начиная с архитектуры Cortex-M4, кристалл получил поддержку IP-блока такого типа, т. е. была проведена его интеграция непосредственно на единую подложку и интеграция работы с ним как на уровне библиотек, так и периферии микроконтроллера.

Рассмотрим пример работы указанного блока на основе данных компании ST в отношении выпускаемых ею изделий STM32F4, STM32L4, STM32F7. По сути, этот блок не только выполняет описанные на рис. 4 действия на каждом канале, но и применяет фильтры, что приводит к преобразованию входного сигнала разрядностью 16 бит (определяет внутренний АЦП) в цифровое представление разрядностью 24 бита. Для этого используются Sine-фильтры 3, 4 или 5-го порядка. Внутри IP-блока содержится блок цифровых фильтров, которые могут изменить амплитудно-частотную характеристику (АЧХ) исходного сигнала. Таким образом, рассматриваемый блок позволяет реализовать простейший эквалайзер, что может быть полезно при использовании в условиях зашумленных сред с известными типовыми причинами (низкочастотный гул — производственный шум, шум в салоне автомобиля и пр.) [10]. Работа с блоком дает возможность использовать DMA (Direct Memory Access) на каждом канале, что позволяет по событию от фильтра копировать результат сразу в адрес памяти, на который ссылается дескриптор и незамедлительно предоставить их к доставке по USB-шине (Universal Serial Bus) после очередного запроса. Следует отметить высокую робастность и надежность такого метода, а также возможность на выходе фильтра иметь сигнал разрядностью 32 бита, что соответствует высококачественным изделиям из области акустики. При этом линия CLK всех микрофонов объединена в единую точку, и сигнал тактирования является общим для всех.

Блок-схема системы сбора данных приведена на рис. 4. На каждой линии DATA находится два идентичных PDM-микрофона, на переднем фронте сигнала CLK происходит выдача данных с одного микрофона, на заднем фронте сигнала CLK — с другого. Таким образом, на синхронный сбор данных с восьми микрофонов необходимо всего четыре канала интерфейса DFSDM. В сборе данных также может участвовать интерфейс DFSDM WDG (Watchdog). Свойства этого интерфейса внутри контроллера позволяют программно работать с каждым микрофоном отдельно.

Следует отметить, что кроме сигналов CLK (тактовый) и DATA (сигналы шины данных) для PDM- и MEMS-микрофонов также используется статический сигнал выбора одного из двух микрофонов. Этот сигнал является опорным для внутренней логики MEMS-микрофона и задает левый и правый каналы в системе из двух микрофонов, предотвращая одновременную выдачу данных на шину при смене фронта сигнала CLK.

Рис. 4. Блок-схема системы сбора данных

Тестирование разработанного решения. После разработки и изготовления прототипа аппаратного обеспечения было проведено его тестирование на пригодность использования в системах локализации источников звука и формирования диаграммы направленности. Проверена синхронность сбора данных со всех микрофонов и массива, а также соотношение сигнал/шум при записи звука с массива микрофонов.

Для проверки синхронности сбора данных проведен эксперимент, в котором массив микрофонов принимал узкополосный звуковой сигнал с заранее известного направления. Визуально по графикам оценивалось время прихода фронта звуковой волны на каждый микрофон, после чего все временные задержки пересчитывались в расчетное направление прихода звуковой волны. Источник сигнала — динамик, генерирующий звук на частоте 6 кГц. Поскольку источник звука располагался на расстоянии более 1 м от массива микрофонов при расстоянии между микрофонами 3 см, фронт волны, падающей на массив, можно полагать плоским (рис. 5).

Рис. 5. Схема проведения измерений: 1 — источник звука; 2 — фронт волны

Если источник звука находится под углом (180-а)° к нормали массива (см. рис. 5), то звуковой сигнал придет на микрофоны в разные моменты времени.

Осциллограммы принятых микрофонами сигналов при ориентации источника звука по азимуту на 45° по отношению к нормали приведены на рис. 6. Точками обозначены значения временных выборок. Сигнал приходит на разные каналы с различными задержками в связи с тем, что расстояние от источника до каждого микрофона различно.

| х Звуковая ж 0- Л.

"V w ^

[ X Звуковая 0- ,, ,,, ...... ----, -Г++-. . г** -¿Ыт

1 "V

j X Звуковая т 0- ............. —Г1^ S

.................... ч^

| х Звуковая "V 0-

х Звуковая ~w о-

X Звуковая ▼ о-

........................

I х Звуковая Ш о-

х Звуковая W 0-

Рис. 6. Осциллограммы сигналов, поступающих на микрофоны при ориентации источника звука по азимуту на 45° по отношению к нормали

Расчеты значений азимутального угла проведены по формуле

а \ • тг^ п • 1 п (п\

]1 (а) = а-агсзт-= 0, г = 1, ..., 7, (7)

йг

где а — азимутальный угол, известный заранее; V = 342 м/с — скорость звука в сухом воздухе при температуре 20 °С; пг — время задержки между (г + 1)-м микрофоном и первым микрофоном, выраженное в числе временных выборок; № — период дискретизации (20 мкс при частоте дискретизации 48 кГц); — расстояние от первого микрофона до (г + 1)-го микрофона.

Результаты измерения времени задержки микрофонами, выраженного числом временных выборок при различных азимутальных направлениях источника звука, а также вычислений азимутального угла приведены в табл. 2.

Для расчета азимутального угла по данным из семи каналов был использован алгоритм Ньютона, описанный в работе [11]. Из линейной системы уравнений, составленной с помощью выражений, описываемых формулой (7), был получен якобиан

г Ща) ^

Jf («) =

(1 ^

v1,

V <^7

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 2

Результаты измерения времени задержки между микрофонами

Априорный угол, град Время задержки между (¿+1)-м микрофоном и первым микрофоном, выраженное числом временных выборок для семи микрофонов Расчетный угол, град Относительная погрешность, град

1 2 3 4 5 6 7

45 3 6 9 12 15 18 21 45,6 0,6

90 5 9 13 17 21 26 30 90 1,2722-Ю-14

0 0 0 0 0 0 0 0 0 0

Далее было получено матричное уравнение

(а) = ¡-г (а)5а,

с учетом которого в пакете МАТЪАВ вычислено минимальное значение 5а (с заданной погрешностью).

Заключение. Продемонстрирован подход к созданию цифровых массивов МЯМЗ-микрофонов, позволяющий значительно упростить как процесс разработки, так и финальную сложность изделия, что ведет к более быстрой его разработке и к получению более надежного изделия низкой стоимости в условиях крупносерийного производства. Согласно представленному подходу, был разработан и изготовлен прототип изделия. Экспериментально проверена его работоспособность в системах локализации источников звука. В дальнейшем предполагается продолжить работу над проектом в двух направлениях: 1) увеличение максимального числа каналов захвата звука для более точной локализации; 2) более качественное формирование диаграммы направленности массива на последующих шагах, а также над системой бортовой цифровой обработки сигнала для улучшения соотношения сигнал/шум.

ЛИТЕРАТУРА

1. Woelfel M., McDonough J. Distant speech recognition. Wiley, 2009. 594 p.

2. Kumatani K., McDonough J., Raj B. Microphone array processing for distant speech recognition: from close-talking microphones to far-field sensors // IEEE Signal Processing Magazine. 2012. Vol. 29. No. 6. P. 127-140. DOI: 10.1109/MSP.2012.2205285

3. Tashev I. Beamformer sensitivity to microphone manufacturing tolerances. Microsoft Research. 5 p.

4. Weinstein E., Steele K., Agarwal A., Glass J. LOUD: A 1020-node modular microphone array and beamformer for intelligent computing spaces. MIT Computer Science and Artificial Intelligence Laboratory. 18 p.

5. The ManyEars open framework. Microphone array open software and open hardware system for robotic applications / F. Grondin, D. Létourneau, F. Ferland, V. Rousseau, F. Michaud // Autonomous Robots. 2013. Vol. 34. Iss. 3. P. 217-232.

DOI: 10.1007/s10514-012-9316-x

6. Lewis J., Moss B. MEMS microphones, the future for hearing aids // Analog Dialogue. 2013. Vol. 47.

URL: http://www.analog.com/en/analog-dialogue/articles/ mems-microphones-future-for-hearing-aids.html#author

7. Lewis J. Analog and digital MEMS microphone design considerations // Analog Devices: company website.

URL: http://www.analog.com/media/en/technical-documentation/technical-articles/ Analog-and-Digital-MEMS-Microphone-Design-Considerations-MS-2472.pdf (дата обращения: 15.12.2017).

8. MEMS microphone — a breakthrough innovation in sound sensing // EE Herald. 16.02.2017.

URL: http://www.eeherald.com/section/design-guide/mems-microphone.html

9. Janssen E., Roermund A. Look-ahead based sigma-delta modulation. Springer, 2011. 248 p.

10. Zheng Y.R., Goubran R.A., El-Tanany M., Shi H. A microphone array system for multimedia applications with near-field signal targets // IEEE Sensors Journal. 2005. Vol. 5. No. 6. P. 1395-1406. DOI: 10.1109/JSEN.2005.858936

11. Форсайт Д.А., Понс Ж. Компьютерное зрение. Современный подход. М.: Вильямс, 2004. 928 с.

Жуков Роман Алексеевич — аспирант, Сколковский институт науки и технологий (Российская Федерация, 143026, Москва, Сколково, ул. Нобеля, д. 3).

Суворов Дмитрий Андреевич — аспирант, Сколковский институт науки и технологий (Российская Федерация, 143026, Москва, Сколково, ул. Нобеля, д. 3).

Тетерюков Дмитрий Олегович — канд. техн. наук, старший преподаватель, Сколковский институт науки и технологий (Российская Федерация, 143026, Москва, Сколково, ул. Нобеля, д. 3).

Осеков Семён Сергеевич — студент кафедры «Радиоэлектронные системы и устройства» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).

Мозговой Михаил Владимирович — заместитель директора по методической работе Головного учебно-исследовательского и методического центра профессиональной реабилитации лиц с ограниченными возможностями здоровья (инвалидов) МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).

Волков Алексей Васильевич — директор Ресурсного учебно-методического центра по обучению инвалидов и лиц с ограниченными возможностями здоровья МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).

Просьба ссылаться на эту статью следующим образом:

Конструирование подсистемы ввода сигнала на основе массива микрофонов с цифровым интерфейсом / Р.А. Жуков, Д.А. Суворов, Д.О. Тетерюков и др. // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2018. № 3. C. 70-82. DOI: 10.18698/0236-3933-2018-3-70-82

DESIGNING A SIGNAL INPUT SUBSYSTEM BASED ON A DIGITALLY INTERFACED MICROPHONE ARRAY

R.A. Zhukov1 roman.zhukov@skolkovotech.ru

D.A. Suvorov1 dmitry.suvorov@skolkovotech.ru

D.O. Tsetserukou1 D.Tsetserukou@skoltech.ru

S.S. Osekov2 osekovs@mail.ru

M.V. Mozgovoi2 mozgovoy@bmstu.ru

A.V. Volkov2 avv@bmstu.ru

1 Skolkovo Institute of Science and Technology, Skolkovo, Moscow, Russian Federation

2 Bauman Moscow State Technical University, Moscow, Russian Federation

Abstract Keywords

The article deals with the issues of developing a Microphone array, multichannel audio multichannel audio capture system to be later used in capture, MEMS microphones, PDM-to-a remote speech recognition system, using an array of DFSDM transform, ARM Cortex-M eight MEMS microphones as an example. We compared those approaches to solving the audio capture problem that employ arrays of analog and digital microphones. We designed and manufactured a hardware-synchronized eight-channel audio capture system based on a Pulse Density Modulation to Digital Filter for Sigma-Delta Modulation (PDM-to-DFSDM) transform, an array of digital MEMS microphones with a PDM interface and the newest line of ARM Cortex-M controllers by ST. We verified that the system developed

works and that it is usable for sound source localization Received 04.10.2017 and beamforming before speech recognition occurs © BMSTU, 2018

The study was supported by Innovation Promotion Fund (grant no. 102GRNTIS5/26071)

REFERENCES

[1] Woelfel M., McDonough J. Distant speech recognition. Wiley, 2009. 594 p.

[2] Kumatani K., McDonough J., Raj B. Microphone array processing for distant speech recognition: from close-talking microphones to far-field sensors. IEEE Signal Processing Magazine, 2012, vol. 29, no. 6, pp. 127-140. DOI: 10.1109/MSP.2012.2205285

[3] Tashev I. Beamformer sensitivity to microphone manufacturing tolerances. Microsoft Research. 5 p.

[4] Weinstein E., Steele K., Agarwal A., Glass J. LOUD: A 1020-node modular microphone array and beamformer for intelligent computing spaces. MIT Computer Science and Artificial Intelligence Laboratory. 18 p.

[5] Grondin F., Letourneau D., Ferland F., Rousseau V., Michaud F. The ManyEars open framework. Microphone array open software and open hardware system for robotic applications. Autonomous Robots, 2013, vol. 34, iss. 3, pp. 217-232. DOI: 10.1007/s10514-012-9316-x

[6] Lewis J., Moss B. MEMS microphones, the future for hearing aids. Analog Dialogue, 2013, vol. 47.

Available at: http://www.analog.com/en/analog-dialogue/articles/ mems-microphones-future-for-hearing-aids.html#author

[7] Lewis J. Analog and digital MEMS microphone design considerations. Analog Devices: company website.

Available at: http://www.analog.com/media/en/technical-documentation/ technical-articles/Analog-and-Digital-MEMS-Microphone-Design-Considerations-MS-2472.pdf (accessed: 15.12.2017).

[8] MEMS microphone — a breakthrough innovation in sound sensing. EE Herald, 16.02.2017. Available at: http://www.eeherald.com/section/design-guide/mems-microphone.html

[9] Janssen E., Roermund A. Look-ahead based sigma-delta modulation. Springer, 2011. 248 p.

[10] Zheng Y.R., Goubran R.A., El-Tanany M., Shi H. A microphone array system for multimedia applications with near-field signal targets. IEEE Sensors Journal, 2005, vol. 5, no. 6, pp. 1395-1406. DOI: 10.1109/JSEN.2005.858936

[11] Forsyth D.A., Ponce J. Computer vision: a modern approach. Pearson, 2003. 792 p.

Zhukov R.A. — post-graduate student, Skolkovo Institute of Science and Technology (Nobelya ul. 3, Moscow, Skolkovo, 143026 Russian Federation).

Suvorov D.A. — post-graduate student, Skolkovo Institute of Science and Technology (Nobelya ul. 3, Moscow, Skolkovo, 143026 Russian Federation).

Tsetserukou D.O. — PhD, Assist. Professor, Skolkovo Institute of Science and Technology (Nobelya ul. 3, Moscow, Skolkovo, 143026 Russian Federation).

Osekov S.S. — student, Department of Radio-Electronic Systems and Devices, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).

Mozgovoi M.V. — Deputy Director for Methodological Work, Head Training and Research and Methodological Center of the Disabled, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).

Volkov A.V. — Director of the Resource Training and Methodological Center for the Education of the Disabled, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).

Please cite this article in English as:

Zhukov R.A., Suvorov D.A., Tsetserukou D.O., Osekov S.S., Mozgovoi M.V., Volkov A.V. Designing a Signal Input Subsystem based on a Digitally Interfaced Microphone Array. Vestn. Mosk. Gos. Tekh. Univ. im. N.E. Baumana, Priborostr. [Herald of the Bauman Moscow State Tech. Univ., Instrum. Eng.], 2018, no. 3, pp. 70-82 (in Russ.). DOI: 10.18698/0236-3933-2018-3-70-82

В Издательстве МГТУ им. Н.Э. Баумана вышла в свет монография (2-е издание) авторов

В.В. Кузенова, А.И. Лебо, И.Г. Лебо, С.В. Рыжкова

«Физико-математические модели и методы расчета воздействия мощных

лазерных и плазменных импульсов на конденсированные и газовые среды»

Изучены физические процессы в веществе при взаимодействии с мощными источниками импульсного нагрева. Дан краткий исторический очерк, описана физика лазерного термоядерного синтеза. Основное внимание уделено построению математических моделей и численным исследованиям физических явлений в высокотемпературной плазме для инерционного и магнитно-инер-циального термоядерного синтеза. Приведены различные методы численных решений уравнений магнитно-радиационной плазмодинамики. Для аспирантов физико-технических специальностей университетов, а также научных сотрудников и инженеров, работающих в области астрофизики, систем управляемого термоядерного синтеза и физики газовых разрядов.

По вопросам приобретения обращайтесь:

105005, Москва, 2-я Бауманская ул., д. 5, стр. 1 +7 (499) 263-60-45 press@bmstu.ru www.baumanpress.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.