Научная статья на тему 'ВЫДЕЛЕНИЕ РЕЧИ ПРИ ПОМОЩИ ЧАСТИЧНО АСИНХРОННОЙ МИКРОФОННОЙ РЕШЕТКИ БЕЗ ПОВТОРНОЙ ВЫБОРКИ'

ВЫДЕЛЕНИЕ РЕЧИ ПРИ ПОМОЩИ ЧАСТИЧНО АСИНХРОННОЙ МИКРОФОННОЙ РЕШЕТКИ БЕЗ ПОВТОРНОЙ ВЫБОРКИ Текст научной статьи по специальности «Математика»

CC BY
23
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АСИНХРОННАЯ МИКРОФОННАЯ РЕШЕТКА / СПЕЦИАЛЬНАЯ МИКРОФОННАЯ РЕШЕТКА / РАСПРОСТРАНЯЮЩИЕСЯ МАССИВЫ / СМЕЩЕНИЕ ЧАСТОТЫ ДИСКРЕТИЗАЦИИ / РАЗДЕЛЕНИЕ ИСТОЧНИКОВ ЗВУКА / ПРОСТРАНСТВЕННАЯ ФИЛЬТРАЦИЯ / УЛУЧШЕНИЕ РЕЧИ

Аннотация научной статьи по математике, автор научной работы — Башкиров А.В., Бобылкин И.С., Кузёмкин А.А., Тимошилова В.Р.

Статья рассматривает проблему выделения источников речи, зафиксированных несколькими пространственно разделенными устройствами, каждое из которых имеет несколько микрофонов и обрабатывает сигналы с разной скоростью. Большинство методов асинхронной обработки массива основаны на определении смещения частоты дискретизации и повторной дискретизации. Но эти смещения бывает трудно оценить, если источники и микрофоны смещаются. Мы предлагаем метод разделения источников, который не требует оценки смещения или повторной выборки сигнала. Вместо этого мы распределяем распространяющийся массив на несколько синхронных подмассивов. Все массивы используются совместно для оценки статистики изменяющегося сигнала во времени. Эти статистические данные применяются для разработки отдельных, изменяющихся во времени пространственных фильтров в каждом массиве. Демонстрируется метод для сочетания речи, записанной как на стационарных, так и на движущихся микрофонных датчиках. Подробно рассмотрены эксперименты по разделению речи, в результате которых выяснилось, что предлагаемый метод асинхронного разделения эффективен в разложении источников. Применение данного метода предполагает и ситуации, когда источников больше, чем микрофонов. Также рассмотрен эксперимент с проведением совещания как сценария с движущимися носимыми массивами, в ходе которого проведен анализ эффективности разделения речи

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH EXTRACTION USING A PARTIALLY ASYNCHRONOUS MICROPHONE ARRAY WITHOUT REPEATED SAMPLING

This article examines the problem of identifying speech sources recorded by several spatially separated devices, each of which has several microphones and processes signals at different speeds. Most methods of asynchronous array processing are based on determining the sampling frequency offset and resampling. But these offsets can be difficult to estimate if the sources and microphones are shifting. We propose a source separation method that does not require bias estimation or signal resampling. Instead, we distribute the propagating array into several synchronous subarrays. All arrays are used together to evaluate the statistics of a changing signal over time. These statistics are used to develop separate, time-varying spatial filters in each array. We demonstrate a method for combining speech recorded on both stationary and moving microphone sensors. The article describes in detail experiments on speech separation, as a result of which it turned out that the proposed method of asynchronous separation is effective in decomposing sources. The use of this method also involves situations where there are more sources than microphones. The article also discusses an experiment with holding a meeting as a scenario with moving wearable arrays, during which an analysis of the effectiveness of speech separation was carried out.

Текст научной работы на тему «ВЫДЕЛЕНИЕ РЕЧИ ПРИ ПОМОЩИ ЧАСТИЧНО АСИНХРОННОЙ МИКРОФОННОЙ РЕШЕТКИ БЕЗ ПОВТОРНОЙ ВЫБОРКИ»

DOI 10.36622/VSTU.2022.18.6.012 УДК 621.391.84

ВЫДЕЛЕНИЕ РЕЧИ ПРИ ПОМОЩИ ЧАСТИЧНО АСИНХРОННОЙ МИКРОФОННОЙ РЕШЕТКИ БЕЗ ПОВТОРНОЙ ВЫБОРКИ

А.В. Башкиров, И.С. Бобылкин, А.А. Кузёмкин, В.Р. Тимошилова Воронежский государственный технический университет, г. Воронеж, Россия

Аннотация: статья рассматривает проблему выделения источников речи, зафиксированных несколькими пространственно разделенными устройствами, каждое из которых имеет несколько микрофонов и обрабатывает сигналы с разной скоростью. Большинство методов асинхронной обработки массива основаны на определении смещения частоты дискретизации и повторной дискретизации. Но эти смещения бывает трудно оценить, если источники и микрофоны смещаются. Мы предлагаем метод разделения источников, который не требует оценки смещения или повторной выборки сигнала. Вместо этого мы распределяем распространяющийся массив на несколько синхронных подмассивов. Все массивы используются совместно для оценки статистики изменяющегося сигнала во времени. Эти статистические данные применяются для разработки отдельных, изменяющихся во времени пространственных фильтров в каждом массиве. Демонстрируется метод для сочетания речи, записанной как на стационарных, так и на движущихся микрофонных датчиках. Подробно рассмотрены эксперименты по разделению речи, в результате которых выяснилось, что предлагаемый метод асинхронного разделения эффективен в разложении источников. Применение данного метода предполагает и ситуации, когда источников больше, чем микрофонов. Также рассмотрен эксперимент с проведением совещания как сценария с движущимися носимыми массивами, в ходе которого проведен анализ эффективности разделения речи

Ключевые слова: асинхронная микрофонная решетка, специальная микрофонная решетка, распространяющиеся массивы, смещение частоты дискретизации, разделение источников звука, пространственная фильтрация, улучшение речи

1. Актуальность работы

Микрофонные решетки полезны для разделения и усиления аудиосигналов, поскольку они могут изолировать источники звука, поступающие с разных направлений. За последние несколько лет микрофоны стали использоваться повсюду в бытовой электронной аппаратуре. Они есть в мобильных телефонах, слуховых аппаратах, компьютерах, игровых системах и умных колонках. Если бы множество распределенных микрофонов были объединены в единую специальную матрицу, они обеспечили бы большее пространственное разрешение и, следовательно, лучшую производительность разделения, чем любое из устройств по отдельности.

В зависимости от назначения оборудования, на различных устройствах устанавливаются микрофоны с разной частотой. Хотя в большинстве случаев эти смещения незначительны, они могут иметь решающее значение при обработке массивов, которая зависит от точных фазовых соотношений между микрофонами. В имеющейся информации было предложено несколько методов асинхронной обработки массивов. В источниках системы сначала оцени-

© Башкиров А.В., Бобылкин И.С., Кузёмкин А.А., Тимошилова В.Р., 2022

вают смещения частоты дискретизации и повторно дискретизируют сигналы с общей частотой. Производится повторная выборка сигналов, которые затем могут быть когерентно объединены с использованием обычных методов обработки массива. К сожалению, известно, что существующие алгоритмы оценки частоты дискретизации плохо работают для движущихся источников и часто вообще не работают для движущихся микрофонов, что мы продемонстрируем в следующих разделах. Для разделения источников в самых сложных средах нам нужны новые асинхронные методы разделения источников, не требующие повторной выборки и хорошо масштабируемые для устройств с большим количеством микрофонов.

Рис. 1. Разделение источников с использованием микрофонных решеток, каждая из которых имеет свою собственную частоту дискретизации

В этом материале мы рассматриваем частично асинхронные микрофонные решетки, в

которых некоторые микрофоны используют общую частоту дискретизации, а другие - нет, как показано на рис. 1.

Поскольку микрофоны стали меньше и дешевле, многие устройства теперь содержат в себя по крайней мере два. Мы можем воспользоваться преимуществами этой частичной синхронизации для выполнения разделения источников с несколькими микрофонами без повторной выборки. В предлагаемой нами системе каждое устройство применяет отдельный линейный пространственный фильтр, изменяющийся во времени, к сигналам, собранным его локальной микрофонной решеткой.

Коэффициенты фильтра вычисляются с помощью информации исходных данных из полного распределенного массива. Для речи и других разреженных сигналов эта общая информация может принимать форму вероятностей активности источника, вычисленных с использованием пространственных объектов из каждого массива. Мы демонстрируем предложенный алгоритм на реальных записях, используя до восьми источников речи с применением как стационарных, так и движущихся асинхронных микрофонных решеток.

2. Асинхронная обработка массива

Рассмотрим множество из M распространенных массивов и пусть xcm(t) - вектор непрерывных сигналов, зафиксированных массивом m для m = 1, . . . , M. Массивы не обязательно должны иметь одинаковое количество микрофонов. Если бы массивы имели общий период дискретизации Т, то дискретизирован-ные временные последовательности были бы Xd,m М = xc m(rT) для целых временных индексов т. Вместо этого каждый массив имеет свой собственный период выборки Tm, так что выбранные векторы данных равны х^,т[т] = хс,т(тТт) для m = 1, . . . , M. Принимаемые сигналы соответствуют К независимым источникам звука так, что:

к

xd,m[T] = ^ cd,m,k[T] for m = 1,..., M, (1)

k=l

где cdmk[T] - отклик массива m на источник k, который часто называют исходным изображением.

Источники могут включать в себя как направленные источники звука, так и рассеян-

ный шум. Наша цель состоит в том, чтобы оценить одно или несколько исходных изображений сйтк[т] из множества хйд[т], ...,хйм[т].

Продолжительность быйорки, сек

Рис. 2. Предполагаемые смещения частоты дискретизации между близко расположенными, удаленными и движущимися массивами в сценарии совещания с участием восьми говорящих (см. Раздел 3.2) с использованием портативных самописцев и двухэтапного алгоритма максимизации корреляции

2.1. Модель смещения частоты дискретизации

Пусть ст к[п, А, Хт [п, А, и хт [п, А - векторы кратковременного преобразования Фурье (STFT) соответствующих дискретных последовательностей, где п - коэффициент кадра, а f -коэффициент частоты. Поскольку каждый массив имеет разную частоту дискретизации, коэффициенты [п, ^ каждой последовательности Хт [п, А соответствуют разным непрерывным временным интервалам и частотам. Мы предполагаем, что время выборки грубо синхронизировано, и что смещения частоты дискретизации достаточно малы, чтобы последовательности хй т[т] смещены друг от друга намного меньше, чем на одну длину кадра STFT за интересующий период. Мы можем смоделировать эффект этих смещений как:

хт[п,А = хт[п,А, (2)

где ат [п, А - сдвиг фазы из-за небольшого смещения частоты дискретизации в массиве т. Затем, предполагая, что последовательности являются случайными процессами с нулевым средним значением, корреляции между массивами задаются как:

Е |хт [п, ^х^ [п, А] =

= 4

.КатМ-а^п,^)

хипЛх^пД]],

(3)

где Е обозначает ожидание, а Н - эрмитову транспонировку. Если смещения частоты дискретизации достаточно малы и не зависят от времени в течение интересующего периода, то каждый ат[п, ^ приблизительно пропорционален п^Т"1 - Т"1).

Если хт[п, ^ приблизительно стационарны в течение длительного интервала времени, то относительные смещения частоты дискретизации могут быть оценены на основе этих взаимных корреляций, и последовательности хй,т[т] могут быть повторно выбраны для получения оценок х^,т[т]. Известно, что методы, основанные на корреляции, чувствительны к движению источника. Перемещение самих микрофонов является фатальным, поскольку смещение частоты дискретизации и движение с постоянной скоростью вызывают почти идентичные линейные фазовые сдвиги. На рис. 2 показана производительность алгоритма оценки частоты дискретизации вслепую в сценарии совещания. Он хорошо работает, когда микрофоны неподвижны, даже если они находятся далеко друг от друга, но является неудачным, когда один микрофон перемещается относительно другого. Таким образом, эти алгоритмы плохо подходят для сценариев совещания с микрофонами, которые переносят движущиеся люди.

Рис. 3. Каждое устройство оценивает каждое исходное изображение, используя свои локальные микрофоны. Мощности источника оцениваются с использованием всех М массивов

Здесь мы рассматриваем наихудший сценарий, в котором мы мало знаем о смещениях фаз между массивами. В частности, мы моделируем каждую ат [п, ^ как независимую случайную величину, равномерно распределенную от -п до п. В соответствии с этой моделью

Е[е]"т[п,Ч] = 0, по линейности математического ожидания мы имеем:

Е |хт[п, ^"[п, = 0 для т Ф 1.

(4)

Таким образом, охваченные последовательности не коррелируют с массивами. Предполагая, что исходные изображения некоррели-рованы друг с другом, их линейные оценки минимальной среднеквадратичной ошибки задаются многоканальными фильтрами Винера:

ст,к[п^] =

(5)

= Rm,k [П, А Rm,k [П, f] ) Хт [П, f],

\к=1

для т = 1, . . . , М и к = 1, . . . , К, где каждый Rm,k[n,f] = Е [cm,k[n,f]c",k[n,f]j является изменяющейся во времени ковариационной матрицей исходного изображения. Поскольку изображения получены как от направленных, так и от рассеянных источников, мы предполагаем, что Rm,k[n, f] не является сингулярным для всех т, п и £ Таким образом, линейные оценки для исходных изображений в каждом массиве используют только локальные микрофоны в этом массиве. Если в каждой матрице всего несколько микрофонов, то эти фильтры могут работать довольно плохо по сравнению с фильтрами для синхронной распределенной матрицы.

2.2. Распределенная пространственная фильтрация

Многоканальный фильтр Винера (5) часто реализуется с использованием изменяющихся во времени оценок Rm,k[n, f] нестационарных ковариаций источника. Алгоритмы выделения основываются на хороших оценках ковариации, и именно здесь мы можем воспользоваться преимуществами асинхронных массивов. Хотя последовательности хт [п, А и хг [п, А некорре-лированы при т Ф 1 из-за их предполагаемых случайных фазовых сдвигов, они не являются независимыми: обе генерируются одним и тем же набором источников. Таким образом, мы можем использовать информацию из всех М массивов для оценки, изменяющейся во времени исходной статистики, а затем использовать эту статистику для создания М изменяющихся

во времени пространственных фильтров. Предлагаемая система показана на рис. 3.

Мы применим вариант полноранговой локальной гауссовой модели, в котором мы предполагаем, что каждое исходное изображение ст,к[пД] имеет нулевое среднее значение и условное нормальное распределение с учетом его ковариации.

Rm,k[n,f] = а£[п,^т,к[а

(6)

где ак[п, А - изменяющийся во времени спектр источника, а Rm,k[f] - частотно-зависимая пространственная ковариация, которая зависит от источника, геометрии решетки и акустики помещения. Для простоты мы принимаем, что каждая RmJk[f] является неизменяющейся по времени, и что полноразрядная ковариационная матрица учитывает неопределенность, обусловленную движением массива. Что обычно и выполняется с локальной гауссовой моделью, мы предположим, что ст,к[п, А условно независимы от п^ и к, учитывая спектры источника [п, А,..., ак[п, А]. Далее допускаем условную независимость от т, что отражает некоррелированность сигналов массива из

(4).

Предлагаемый метод оценки заключается в следующем:

1. Оценить пространственные параметры Rm,k[f], используя любой подходящий метод. Мы показываем экспериментальные результаты в разделе 3, используя как слепой метод, так и метод, основанный на обучении.

2. Найти ак[п, А изменяющихся во времени спектров источника ак [п, А] с использованием наблюдений из всех М массивов. Для редких сочетаний оценка предложена в разделе 2.3.

3. Использовать предполагаемые спектры источников и пространственные параметры в

(5) для оценки исходных изображений в каждом массиве:

ст,к[п,А =

= а£[пД]11т,кИ • к -1

(^^[п,^^]) хт[пД].

(7)

Б — !

2.3. Общая спектральная оценка для разреженных источников

На данный момент существует множество методов оценки изменяющихся во времени спектров источников. Такие методы чаще всего основаны на максимизации математического ожидания и неотрицательной факторизации матрицы. Нам интересен источник речи, поэтому продемонстрируем метод классификации, который использует преимущества частотно-временной разреженности речи. Непересекающаяся ортогональная модель используется для одноканальных методов, например, для частотно-временных масок. Однако она также применяется для недетерминированного разделения нескольких микрофонов, что предполагает для каждого [п, А] возможность назначить состояние б[п, А £ {1,..., К}, такое, что а5[п,д[п, А] » ак[п, А] для s[n, А ф к. Чтобы учесть периоды без активных направленных источников, мы включаем в модель один источник рассеянного шума.

Пусть ак|5[А обозначает отклонение источника к при индексе частоты А, когда система находится в состоянии s. Мы моделируем дисперсию как принимающую одно из двух значений для каждого источника, в зависимости от состояния (8).

[А] =

если к = s;

к,1ош

[А],

если к ф s.

(8)

Типичные системы на основе масок выбирают = 0, но поскольку микрофонные массивы могут управлять несколькими нулями одновременно, выгодно включать все источники. В таком случае мы выбираем и ак,ЫйЬ[А, соответственно, на 10 дБ выше и на 10 дБ ниже среднего спектра источника, который, как мы обнаружили, хорошо работает для источников речи. Источник рассеянного шума имеет один и тот же предполагаемый спектр в каждом состоянии, и его величину можно настроить для улучшения обработки матриц в формуле (7). В нашем случае мы используем в качестве эксперимента некоррелированный спектр, аналогичный по мощности спектру направленных источников речи.

В соответствии с локальной моделью Гаусса логарифмическая вероятность наблюдений в состоянии s определеяется по формуле

log Ps [П, f] =

м

=- Zlog

(9)

ak|s(f)Rm,s[f]

m=l

Tun микрофона

НеойраЕшанныи Статический \

k=l

Шторная быВорко Непайторная вьйорка

Варьиррщиеся

2

2x4

К = 3 К =4 II К = 4

30 50 30 50

0.7 0.3 0.7 0.3

8.2 2.9 2.1 0.1

1.3 0.5 1.3 0.5

5.5 2.2 5.5 2.2

Рис. 4. Средняя производительность SDR, в дБ, для нескольких фильтров

Апостериорная вероятность состояния s

г а Ps [n,f]

задается как ys [n, f| = уК n .

Байесовская оценка каждой последовательности мощности источника задается по формуле (10).

a£[n,f] =^ys[n,f]^a^|S[f].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(10)

s=1

3. Эксперименты по разделению речи

В данном разделе продемонстрирована эффективность предложенного метода в двух сценариях с использованием двух различных методов оценки параметров. Мы сообщаем о результатах, используя критерий отношения сигнала к искажению SDR (11).

= 10 log

10

SDRm,k =

Dt lcd,m,k[n] |2 ,m, k[x] - cd ,m,k[x]1

(11)

3.1. Кампания по оценке разделения сигналов (КОР). Асинхронное разделение источников (АРИ)

Чтобы понять производительность предлагаемого метода разделения источников без повторной выборки, мы сначала сравним его с методами, основанными на повторной выборке.

Поскольку источники и микрофоны в этом сценарии фиксированы, можно оценить смещения частоты дискретизации и скорректировать их перед применением обычных технологий синхронного слепого разделения источников. Наша базовая реализация повторной выборки сочетает в себе два подхода: сначала мы используем двухэтапную максимизацию корреля-

ции для оценки смещений частоты дискретизации, затем корректируем их с помощью интерполяции Лагранжа.

Источники разделяются вслепую с помощью автономного независимого векторного анализа, и мы выводим ковариационные матрицы источников первого ранга из результирующих фильтров размешивания. Мы используем эти ковариационные матрицы, рассчитанные вслепую для проектирования четырех разделительных фильтров, сравниваются в строках рис. 4. Каждый фильтр тестируется с повторной дискретизацией сигналов и без нее.

Когда сигналы повторно дискретизируют-ся перед разделением, синхронный восьмика-нальный фильтр превосходит все другие методы. Когда мы ограничиваем фильтры использованием двух микрофонов, проблема разделения недостаточно определена, поэтому изменяющиеся во времени фильтры работают лучше, чем статический фильтр.

Фактически, при использовании других регистраторов для классификации активного источника двухканальный фильтр работает почти так же хорошо, как и статический восьми-канальный фильтр. Далее мы тестируем четыре фильтра без повторной выборки сигналов. На двухканальные фильтры это не влияет, так как два микрофона каждого регистратора настраиваются синхронно.

Восьмиканальный фильтр работает намного хуже, поскольку он полагается на согласованность между массивами. Предлагаемая производительность асинхронного изменяющегося во времени фильтра идентична с повторной дискретизацией или без нее, что позволяет предположить, что он устойчив к смещениям частоты дискретизации.

3.2. Сценарий с движущимися носимыми массивами

Предлагаемый метод работает хуже, чем ранее предложенные методы для набора данных, которые поддаются повторной выборке, но он должен лучше подходить для движущихся массивов, для которых повторная выборка затруднена или невозможна.

Теперь мы рассмотрим эксперимент по улучшению прослушивания, в котором микрофонные решетки прикрепляются к движущимся слушателям-людям в сценарии совещания. В этом сценарии существует до восьми одновременных источников речи. Поскольку существующие методы разделения вслепую плохо

подходят для таких больших смесей и поскольку мы хотим продемонстрировать достижимые производительности асинхронной антенной системы, для этого эксперимента мы используем измеренные, а не оцененные пространственные параметры.

Записи были сделаны в Лаборатории дополненного прослушивания Иллинойского университета в Урбана-Шампейн, время реверберации которых составляет около T = 300 мс.

Сценарий состоит из восьми говорящих, которые были смоделированы с помощью громкоговорителей, воспроизводящих клипы из базы данных, и трех реальных слушателей-людей. Каждый слушатель-человек носил на голове набор из восьми всенаправленных петличных микрофонов: по одному в каждом ухе и шесть прикрепленных к жесткой широкополой шляпе диаметром 60 см.

Слушатели непрерывно двигали головами во время записи, попеременно кивая, оглядывая комнату и поворачиваясь из стороны в сторону. Двадцать четыре сигнала были записаны на одном интерфейсе, дискретизированы на частоте 16 кГц и отфильтрованы в диапазоне высоких частот от 100 Гц для удаления низкочастотных внешних шумов. Искусственные смещения частоты дискретизации ±0,3 Гц были применены к двум массивам с использованием интерполяции Лагранжа. STFT был вычислен с использованием окна фон Ханна длиной 4096 и 75% перекрытия. Матрицы пространственной ковариации Rmk оценивались с использованием 5-секундных обучающих роликов от тех же говорящих и с аналогичными движениями слушателя, что и 15-секундные тестовые клипы. Поскольку фильтры предназначены для устройств бинаурального прослушивания, они дают оценку исходного изображения только для микрофонов в ушах, а не для микрофонов на шляпе. Чтобы измерить исходные изображения, исходные сигналы записывались по отдельности, а затем накладывались друг на друга для формирования микширования. С помощью этой процедуры мы имеем возможность измерить SDR истинности контакта «Ground», но это физически нереально, потому что движение человека отличается в каждой исходной записи.

LO

Рис. 5. Экспериментальные результаты для сценария совещания с подвижными носимыми микрофонными решетками. SDR усредняется по левому и правому ушам всех трех слушателей и по всем источникам

На рис. 5 сравниваются характеристики разделения четырех матриц: статическая матрица из двух микрофонов-вкладышей, статическая матрица из всех восьми микрофонов, изменяющаяся во времени асинхронная матрица из двух микрофонов на слушателя и изменяющаяся во времени асинхронная матрица из восьми микрофонов на слушателя. Примечательно, что распределенная матрица из двух микрофонов на слушателя превосходит статический массив с восемью микрофонами даже при наличии восьми источников. Распределенный классификатор помогает устранить неоднозначности между источниками, которые имеют аналогичные функции передачи для отдельных массивов. Это особенно важно для движущихся массивов: когда слушатель поворачивает голову из стороны в сторону, классификатор может использовать два других массива, чтобы решить, какой источник он слышит. Эта особенность не требует явного моделирования движения головы; это следствие модели пространственной ковариации полного ранга и условной независимости между подмассивами.

Заключение

Экспериментальные результаты из раздела 3 показывают, что предлагаемый метод асинхронного разделения может эффективно разделять речевые смеси, даже когда на каждом устройстве больше источников, чем микрофонов. Результаты КОР показывают, что он работает не так хорошо, как синхронизированный стационарный массив, но он превосходит одно устройство и не требует оценки смещения частоты дискретизации или повторной выборки.

Результаты сценария совещания показывают, что изменяющиеся во времени фильтры и классификатор состояний работают с движущимися микрофонами и хорошо масштабируются для больших массивов.

Распределенный классификатор - это особенно полезно для устранения неоднозначностей, когда массивы перемещаются или когда источники находятся далеко. Изменяющиеся во времени фильтры и классификатор полагаются на точную оценку пространственных ковариа-ций источника. В этой статье не предложен метод оценки этих параметров ни без слепого разделения источников на основе повторной выборки, ни без обучающих данных, и явно не моделируется их изменение с течением времени; асинхронная оценка параметров и отслеживание остаются важными задачами для будущей работы. Предлагаемая система асинхронного разделения источников хорошо подходит для распределенных массивов, в которых отдельные устройства имеют несколько микрофонов, расположенных далеко друг от друга.

Литература

1. Применение сигнала линейной частотной модуляции / Д.Р. Елкин, А.А. Затонский, И.С. Бобылкин и др. // Надежность и качество: тр. междунар. симпозиума. Пенза: Пензенский государственный университет, 2021. Т. 1. С. 220-222.

2. Звуковой микшерский пульт для домашней студии звукозаписи / И.С. Бобылкин, С.П. Юров, А.Г. Безладный, Л.Н. Никитин // Проблемы обеспечения надежности и качества приборов, устройств и систем: сб. науч.

тр. Воронеж: Воронежский государственный технический университет, 2019. С. 14-17.

3. Каграманов Э.Э., Бобылкин И.С., Никитин Л.Н. Мобильная логопериодическая антенна // Проблемы обеспечения надежности и качества приборов, устройств и систем: сб. науч. тр. Воронеж: Воронежский государственный технический университет, 2019. С. 67-70.

4. Помехоустойчивое кодирование в современных форматах связи / А.В. Башкиров, Л.Н. Никитин, И.С. Бобылкин, А.С. Костюков, О.Ю. Макаров // Вестник Воронежского государственного технического университета. 2019. Т. 15. № 2. С. 132-138

5. Пилотная оценка канала радиосвязи в MIMO-OFDM системах / О.Н. Чирков, М.А. Ромащенко, И.С. Бобылкин, Р.Н. Щипелев, А.А. Матвеев // Надежность и качество: тр. междунар. симпозиума. Пенза: Пензенский государственный университет, 2019. Т. 2. С. 87-90.

6. Разработка и анализ модели, имитирующей помехи приема фазоманипулированных сигналов для обеспечения электромагнитной совместимости радиоэлектронных устройств / А.Л. Неклюдов, А.А. Пирогов, Н.В. Ци-пина, И.С. Бобылкин // Вестник Воронежского государственного технического университета. 2018. Т. 14. № 4. С. 113-116.

7. Бобылкин И.С. Структура, основные задачи и математическое обеспечение процесса оптимального теплового проектирования радиоэлектронных средств // Вестник Воронежского государственного технического университета. 2013. Т. 9. № 6.2. С. 81-84.

8. Бобылкин И.С., Макаров О.Ю., Шуваев В.А. Основные методики решения задач оптимального теплового проектирования конструкций радиоэлектронных средств // Вестник Воронежского государственного технического университета. 2014. Т. 10. № 2. С. 47-52.

9. Башкиров А.В., Ситников А.В., Хорошайлова М.В. Оптимизация аппаратной архитектуры LDPC-декодера, применяемого в стандарте радиосвязи IEEE 802.11N // Вестник Воронежского государственного технического университета. 2015. Т. 11. № 6. С. 97-99.

Поступила 05.11.2022; принята к публикации 13.12.2022 Информация об авторах

Башкиров Алексей Викторович - д-р техн. наук, доцент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: fabi7@mail.ru

Бобылкин Игорь Сергеевич - канд. техн. наук, доцент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: bobylkin@bk.ru, ORCID ID: https://orcid.org/0000-0001 -7489-2249 Кузёмкин Андрей Александрович - магистр, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: andreyhillsa@gmail.com, ORCID ID: https://orcid.org/0000-0002-2013-8862 Тимошилова Виктория Романовна - магистр, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: timoshilova.vika@yandex.ru

SPEECH EXTRACTION USING A PARTIALLY ASYNCHRONOUS MICROPHONE ARRAY

WITHOUT REPEATED SAMPLING

A.V. Bashkirov, I.S. Bobylkin, A.A. Kuzyemkin, V.R. Timoshilova

Voronezh State Technical University, Voronezh, Russia

Abstract: this article examines the problem of identifying speech sources recorded by several spatially separated devices, each of which has several microphones and processes signals at different speeds. Most methods of asynchronous array processing are based on determining the sampling frequency offset and resampling. But these offsets can be difficult to estimate if

99

the sources and microphones are shifting. We propose a source separation method that does not require bias estimation or signal resampling. Instead, we distribute the propagating array into several synchronous subarrays. All arrays are used together to evaluate the statistics of a changing signal over time. These statistics are used to develop separate, time-varying spatial filters in each array. We demonstrate a method for combining speech recorded on both stationary and moving microphone sensors. The article describes in detail experiments on speech separation, as a result of which it turned out that the proposed method of asynchronous separation is effective in decomposing sources. The use of this method also involves situations where there are more sources than microphones. The article also discusses an experiment with holding a meeting as a scenario with moving wearable arrays, during which an analysis of the effectiveness of speech separation was carried out.

Key words: asynchronous microphone array, special microphone array, propagating arrays, sampling frequency offset, sound source separation, spatial filtering, speech enhancement

References

1. Elkin D.R., Zatonskiy A.A., Bobylkin I.S. et al. "Application of a linear frequency modulation signal", Proc. of the Int. Symposium: Reliability and Quality (Nadezhnost' i kachestvo), Penza State University, 2021, vol. 1, pp. 220-222.

2. Bobylkin I.S., Yurov S.P., Bezladnyy A.G., Nikitin L.N. "Sound mixing console for home recording studio", Collection of Scientific Papers: Problems of Ensuring Reliability and Quality of Devices and Systems (Problemy obespecheniya nadezhnosti i kachestvapriborov, ustroystv i sistem), Voronezh State Technical University, 2019, pp. 14-17.

3. Kagramanov E.E., Bobylkin I.S., Nikitin L.N. "Mobile logoperiodic antenna", Collection of Scientific Papers: Problems of Ensuring Reliability and Quality of Devices and Systems (Problemy obespecheniya nadezhnosti i kachestva priborov, ustroystv i sistem), Voronezh State Technical University, 2019, pp. 67-70.

4. Bashkirov A.V., Nikitin L.N., Bobylkin I.S., Kostyukov A.S., Makarov O.Yu. "Noise-resistant coding in modern communication formats", Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo univer-siteta), 2019, vol. 15, no. 2, pp. 132-138.

5. Chirkov O.N., Romashchenko M.A., Bobylkin I.S., Shchipelev R.N., Matveev A.A. "Pilot evaluation of the radio communication channel in MIMO-OFDM systems", Proc. of the Int. Symposium: Reliability and Quality (Nadezhnost' i kachestvo), Penza State University, 2019, vol. 2, pp. 87-90.

6. Neklyudov A.L., Pirogov A.A., Tsipina N.V., Bobylkin I.S. "Development and analysis of a model simulating interference of receiving phase-manipulated signals to ensure electromagnetic compatibility of radio-electronic devices", Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2018, vol. 14, no. 4, pp. 113116.

7. Bobylkin I.S. "Structure, main tasks and mathematical support of the process of optimal thermal design of radioelectronic means", Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2013, vol. 9, no. 6-2, pp. 81-84.

8. Bobylkin I.S., Makarov O.Yu., Shuvaev V.A. "Basic methods for solving problems of optimal thermal design of radioelec-tronic means structures", Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2014, vol. 10, no. 2, pp. 47-52.

9. Bashkirov A.V., Sitnikov A.V., Khoroshaylova M.V. "Optimization of the hardware architecture of the LDPC decoder used in the IEEE 802.11N radio communication standard Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2015, vol. 11, no. 6, pp. 97-99.

Submitted 05.11.2022; revised 13.12.2022

Information about the authors

Aleksey V. Bashkirov, Dr. Sci. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: fabi7@mail.ru

Igor' S. Bobylkin, Cand. Sci. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: bobylkin@bk.ru, ORCID ID: https://orcid.org/0000-0001-7489-2249

Andrey A. Kuzyemkin, MA, Voronezh State Technical University (Dr. Sci. (Technical)), e-mail: andreyhillsa@gmail.com, ORCID ID: https://orcid.org/0000-0002-2013-8862

Viktoriya R. Timoshilova, MA, Voronezh State Technical University (Dr. Sci. (Technical)), e-mail: timoshilova.vika@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.