Научная статья на тему 'СИСТЕМА ПРОТОКОЛИРОВАНИЯ ДИКТОРОВ НА БАЗЕ АЛГОРИТМА ОПРЕДЕЛЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ В МНОГОКАНАЛЬНОМ АУДИОПОТОКЕ'

СИСТЕМА ПРОТОКОЛИРОВАНИЯ ДИКТОРОВ НА БАЗЕ АЛГОРИТМА ОПРЕДЕЛЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ В МНОГОКАНАЛЬНОМ АУДИОПОТОКЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
12
5
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ронжин А.Л., Будков В.Ю.

Рассматривается система многоканальной записи и последующего анализа речи участников мероприятий в интеллектуальном зале. Предложен комплекс алгоритмов для выделения границ фраз в многоканальном аудиопотоке, записанном встроенными микрофонами веб-камер, расположенных на конференц-столе перед каждым участником. Выбранный в ходе экспериментов алгоритм позволяет достичь приемлемого качества выделения границ фраз и автоматически выбирать номер камеры текущего активного диктора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СИСТЕМА ПРОТОКОЛИРОВАНИЯ ДИКТОРОВ НА БАЗЕ АЛГОРИТМА ОПРЕДЕЛЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ В МНОГОКАНАЛЬНОМ АУДИОПОТОКЕ»

 XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Система протоколирования

дикторов на базе алгоритма

определения речевой

активности в многоканальном

аудиопотоке

Ронжин А.Л.

Будков В.Ю.

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН. Россия, 199178 Санкт-Петербург, 14 линия, д. 39. Тел.: (812) 328-7081; Факс: (812) 328-7081. E-mail: {ronzhin, budkov}@iias.spb.su

Рассматривается система многоканальной записи и последующего анализа речи участников мероприятий в интеллектуальном зале. Предложен комплекс алгоритмов для выделения границ фраз в многоканальном аудиопотоке, записанном встроенными микрофонами веб-камер, расположенных на конференц-столе перед каждым участником. Выбранный в ходе экспериментов алгоритм позволяет достичь приемлемого качества выделения границ фраз и автоматически выбирать номер камеры текущего активного диктора.

Интернет-приложения для телеконференций и дистанционного обучения, так называемые системы E-meeting и E-lecture, становятся всё более популярными в коммерческих, исследовательских, образовательных и других организациях. Такие системы позволяют сэкономить на транспортных расходах, выбрать индивидуальный способ обучения, а также предоставляют удобные средства поиска и доступа к информации. Тем не менее, большая часть работы по протоколированию, ведению хода мероприятия, подключению отдельных удалённых участников выполняется вручную оператором или секретарём. Задача протоколирования дикторов (speaker diarization (SD)), также известная в зарубежной литературе под названием «Who Spoke When», состоит в сегментации реплик каждого диктора в аудиосигнале и последующей группировке всех сегментов каждого диктора [1]. В процессе протоколирования SD системы выполняют ряд последовательных операций [2]. Вначале определяются границы речи и участки, содержащие паузы или шумы, затем проверяется, изменился ли текущий диктор, определяется пол диктора и наконец производится классификация сегмента речи среди существующих дикторов или создается модель нового диктора.

I 98 Предварительная сегментация сигнала на участки, содержащие тишину или речь, позволяет значительно сократить уровень ошибок распознавания речи, повысить скорость обработки. К сожалению, методы определения речевой активности (voice activity detection (VAD), основанные на оценке уров-

ня энергии сигнала или его спектра, хорошо зарекомендовавшие себя при обработке речи, записанной с помощью одного микрофона, не решают проблем, возникающих при обработке многоканальных аудиозаписей мероприятий с несколькими дикторами [3]. Для решения этой проблемы используются методы, основанные на нормализации энергии многоканального сигнала [4], оценке степени корреляции между каналами [5], а также скрытые макровские модели, содержащие не 2 состояния (речь/тишина), как обычно в VAD методах, а 2K состояний, где K — число дикторов [6]. Их особенностью является необходимый предварительный этап обучения моделей, поэтому на данной стадии исследования для определения речи в многоканальной системе были использованы более простые подходы, выполняющие классификацию без настройки моделей. Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределённых мероприятий и использования независимых устройств записи и обработки аудиосигналов более эффективно применение методов на основе нормализации энергии сигналов в аудиоканалах, расчёта относительной энергии сегмента и его спектра, учёта фонетических закономерностей речи.

В данной работе описаны результаты исследования и разработки системы многоканальной записи и последующего анализа речи участников мероприятий в интеллектуальном зале. Для записи поведения участников и последующего выделения в аудио- и видеосигналах сегментов, содержащих речь, жесты или другую активность, связанную с ходом мероприятия, были использованы веб-камеры Logitech Sphere AF со встроенным микрофоном. Более полное описание оборудования и программных средств, использованных при разработке интеллектуального зала, можно найти в [7].

Обычно участники сидят достаточно близко друг к другу за столом совещаний, поэтому соседние микрофоны могут захватывать речь одного и того же диктора с примерно одинаковой амплитудой сигнала. В итоге определение границ речи по энергии сигнала или его спектра (в каждом канале независимо) часто приводит к ошибочным результатам. Для повышения точности анализа применяют различные способы нормализации [2]. В рабо-

г т-^norm

те [4] рассчитывается относительная энергия сегмента сигнала En в каждом канале:

T7norm

En (i) =

En (i)

M , где E (i) - энергия в канале n для сегмента i, m - число кана-

Z Ek(i)

k=1

лов в системе. Таким образом, нормализованная энергия сегмента для каждого канала будет рассчитана относительно всех каналов в системе, и её значение будет изменяться в диапазоне от нуля до единицы. Для компенсации различий в усилении сигнала по разным каналам в работе [3] было предложено дополнительно учитывать минимальную

1 M

энергию сегмента в каждом канале: Е™™ (i) = logD (En (i) - Em™---Z Ek (i)),

mm M k=l

где Emm — минимальная энергия сегмента, вычисленная для каждого канала в условиях тишины, вычитание которой позволяет учесть различные уровни усиления и внутренние шумы микрофонов. Затем после вычитания средней энергии по каналам производится логарифмирование, чтобы сократить разрядность полученного значения энергии. Для этой же цели используется расчёт коэффициентов усиления по каждому каналу:

1M

E-m (i) = logD (En (i) Кт - — Z KLp ■ Ek (i)) , где K^ — коэффициент уси-

M k=1

ления n канала, который позволяет учесть различные уровни записи микрофонов. Нор-

т~* norm / • \

мализованная энергия En (i) показывает относительное усиление сигнала в каждом канале и позволяет определить наличие речи в текущем сегменте. Последний алгоритм (Relative Energy Estimation (REE)) был экспериментально проверен в ходе исследований.

99

XXII сессия Российского акустического общества речи Сессия Научного совета по акустике РАН - Акустика речи

100

В предложенном алгоритме RESW (Relative Energy estimation in Sliding Window) текущий активный диктор (и соответствующий номер веб-камеры) ö)t в момент времени t определялся путём расчёта относительной энергии канала в скользящем окне, за счёт чего подавлялись случайные всплески энергий в отдельных каналах:

1 N -1 1 M N -1

arg max[logD {— • к"Атр • Еп (t + i)- — • j • Е} (t + i) } , п N i=0 M j =1 i=0 где n — размер скользящего окна (число сегментов), m — число аудиока-налов каналов, Еп (t + i) — кратковременная энергия сегмента речи:

ö

Еп (t + i) = Х

,2

"L(t+i)+j

j=0

Для повышения робастности предложенного алгоритма определения речевой активности для выбранного канала щ был использован дополнительный анализ, в ходе которого оценивался показатель ж, равный числу сегментов в скользящем окне длиной n , значение энергии Ещ которых превышало

х-1 \0,ЕйЦ + г) <Ет1

заданный порог Егй: Ж = £ /(., г) где /(., г)

i=0

1,

Применение пороговой функции /(., г) позволяет предварительно классифицировать аудиосегмент как тишина (/ (., г) = 0) или речь (/ (., г) = 1). Были предложены два варианта оценивания показателя Ж. Решение о наличии речи в текущем скользящем окне в канале ¿Ь( принималось только в том случае, если показатель Ж: а) был больше нуля (алгоритм ЯЕБЖ1), либо б) превышал некоторое значение Ж*г1 (алгоритм ЯЕ&Ж^). Для подавления единичных ложных речевых сегментов учитывалась максимально допустимая пауза 1тах между речевыми сегментами. Если число сегментов тишины между текущим речевым сегментом и ближайшим слева или справа сегментом речи в скользящем окне превышало значение 1тах, то текущий

N-1

сегмент речи классифицировался как тишина: ж*1 = £ [/(., г) а ф(., г)],

г+1ш1х

£ / (. +1, г)

где (f)(t, i) =

l = i-dm

1 > 0

. В данном алгоритме (ЯЕ8Жа +,.)

0,

выполнение условия W sd окне.

> Wsil определяло наличие речи в скользящем

В таблице представлено краткое описание четырёх алгоритмов, которые были использованы при тестировании и выборе оптимального способа определения границ речи в многоканальном аудиопотоке.

Таблица. Алгоритмы определения речевой активности в многоканальном аудиопотоке

Обозначение алгоритма Описание

REE Сравнение относительной энергии сегментов в аудиоканалах с порогом Es|¡.

RESW1 Проверка наличия хотя бы одного сегмента в скользящем окне, значение энергии которого превышает порог Es|¡.

Esl Сравнение числа сегментов в скользящем окне, значения энергий которых превышает порог Es|¡, с максимально допустимым для тишины порогом Ws■|¡.

RESW

sil+dist

Сравнение числа сегментов в скользящем окне, значения энергий которых превышает порог

E .,, с порогом W .. и учет максимально допустимой паузы d между речевыми сегментами.

sil sil max

Точность сегментации аудиопотока по дикторам оценивалась по числу ложных (false alarm (FA)) и пропущенных (miss rate (MS)) сегментов речи. При анализе работы многоканальной системы оценки суммируются по всем каналам M [8]:

M M M M M M ,„.

ms = £t(sms7( £t(S) + £t(MS)), fa = £t(FA7(£t(s) + £t(fa)), где tkS) — число

k=1

k=1

k =1

сегментов речи в канале k, верно определенных системой как речь; Tk — число сегментов речи, пропущенных системой; T{k AA) — число неречевых сегментов, определенных системой как речь. При настройке параметров алгоритма определения границ речи приходится выбирать некоторый компромисс между числом пропущенных и ложных сегментов [1]. Для этой цели служит общепринятая функция DET (detection error trade-off), которая показывает, как зависит уровень пропущенных сегментов речи ms от уровня ложных речевых сегментов fa. С помощью данной зависимости вычисляют коэффициент равных уровней ms и fa (EER — Equal Error Rate) — точка на кривой DET, где значения ms и fa имеют наиболее близкие значения.

Для экспериментальной проверки алгоритмов определения речевой активности была подготовлена тестовая база данных, содержащая пятиканальную аудиозапись с частотой дискретизации отсчетов 16кГц. Длина сегмента речи равнялась 1600 отсчетам. Длина скользящего окна составляла 10 сегментов. Окно сдвигалось с шагом равным одному сегменту. Общая длительность речевого сигнала в базе данных составила 28 минут. В ходе эксперимента пять участников последовательно читали предложения различной длины из одного текста. Распечатанные листы бумаги с текстом лежали на столе перед каждым участником. Таким образом, в данном эксперименте была создана несколько искусственная ситуация: участники не перебивали друг друга, а читали предложения последовательно; между микрофоном и участником не возникали помехи (руки, бумаги, другие предметы), лицо диктора было направлено преимущественно в сторону микрофона на протяжении всей записи.

Рис. Уровень ошибок MS и FA для алгоритмов многоканальной оценки речевой активности

В ходе прослушивания всех записей вручную были выставлены границы фраз в каждом канале с точностью до одного аудиосегмента. Полученная разметка использовалась в качестве эталонной, по которой оценивалось качество автоматической сегментации. На рисунке показано как изменялся уровень ошибок ms и fa при нескольких значениях esil для алгоритмов ree , RESWA, reswsil и reswsil+dist. Характер полученных зависимостей согласуется с результатами аналогичных исследований. В данном экс-

101

XXII сессия Российского акустического общества речи Сессия Научного совета по акустике РАН - Акустика речи

перименте с помощью алгоритма границы фраз участников

были определены наиболее точно (ЕЕЯРЕЯ№ = 9,16%).

Разработка многоканальной системы анализа речевой активности, использующейся при создании мультимедийных отчётов распределённых мероприятий, способствует сокращению трудозатрат при подготовке стенограмм, повышению качества проведения телеконференций и позволяет вести мониторинг и расчёт статистики хода совещания, а также организовать быстрый поиск по мультимедийным архивам. Применение персональных петличных микрофонов в большинстве случаев обеспечивает высокое качество записи, но требует предварительной установки и ограничивает движения диктора. В разработанной системе протоколирования используется набор персональных веб-камер со встроенными микрофонами и алгоритм определения речевой активности в многоканальном аудиопотоке, позволяющих достичь приемлемого качества выделения фраз дикторов и автоматически выбирать камеру участника, активного в текущий момент.

Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» (ГК №П2360) и грантов РФФИ (№ 08-08-00128-а, 08-07-90002-СТ_а).

ЛИТЕРАТУРА

1. NIST, Rich Transcription 2009 Evaluation, http://www.itl.nist.gov/iad/894.01/ tests/rt/2009.

2. Tranter S, Reynolds D. An Overview of Automatic Speaker Diarization Systems. IEEE Trans. ASLP, vol.14, no. 5, 2006. P. 1557-1565.

3. Pfau T., Ellis D., Stolcke D. Multispeaker Speech Activity Detection for the ICSI Meeting Recorder. In: IEEE ASRU Workshop, 2001. P. 107-110.

4. Dines J., Vepa J., Hain T. The segmentation of multi-channel meeting recordings for automatic speech recognition, In: ICSLP-2006. P. 1213-1216.

5. Flego F., Zieger C., Omologo M. Adaptive weighting of microphone arrays for distant-talking F0 and voiced/unvoiced estimation. In: Interspeech-2007, 2007. P. 2961-2964.

6. Laskowski K., Schultz T. Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007. P. 1294-1298.

7. Будков В.Ю., Прищепа М.В., Ронжин АЛ, Марков К. Многоканальная система анализа речевой активности участников совещания. Труды третьего междисциплинарного семинара «Анализ разговорной русской речи» (АР3 -2009). СПб.: ГУАП, 2009. С. 57-62.

8. Laskowski K, Jin Q., Schultz T. Crosscorrelation based multispeaker speech activity detection. In: Interspeech-2004, 2004, Jeju Island, South Korea. P. 973976.

102

i Надоели баннеры? Вы всегда можете отключить рекламу.