Научная статья на тему 'Алгоритм определения речевой активности и генератор комфортного шума высокого быстродействия'

Алгоритм определения речевой активности и генератор комфортного шума высокого быстродействия Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
520
146
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Будько М.Б.

Целью исследования является разработка адаптивной системы кодирования и передачи аудиосигналов в режиме реального времени для пакетных сетей с негарантированным качеством обслуживания. В настоящей статье рассматривается механизм прерывистой передачи речи, описываются разработанные базовые алгоритмы указанного механизма, обладающие низкой вычислительной сложностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритм определения речевой активности и генератор комфортного шума высокого быстродействия»

АЛГОРИТМ ОПРЕДЕЛЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ И ГЕНЕРАТОР КОМФОРТНОГО ШУМА ВЫСОКОГО

БЫСТРОДЕЙСТВИЯ М.Б. Будько

Целью исследования является разработка адаптивной системы кодирования и передачи аудиосигналов в режиме реального времени для пакетных сетей с негарантированным качеством обслуживания. В настоящей статье рассматривается механизм прерывистой передачи речи, описываются разработанные базовые алгоритмы указанного механизма, обладающие низкой вычислительной сложностью.

Введение

Большинство существующих сетей связи имеют достаточно развитую по охвату и содержанию инфраструктуру ввиду доступности для специализирующихся в области телекоммуникаций компаний высокотехнологичных средств. Поэтому для поддержания конкурентоспособности многие уже сейчас строят свою политику на предоставлении дополнительных услуг, что будет главным направлением развития цифровых сетей. К таким услугам относятся: видео и аудио по запросу, приложения электронного бизнеса и др.

Перспективными для передачи аудиоконтента как составляющей указанных услуг являются:

• механизм потоковой передачи;

• механизм управления битовой скоростью потока;

• механизм прерывистой передачи (DTX - Discontinuous Transmission) или кодирование с переменной скоростью.

Потоковая передача аудио позволяет пользователю начать прослушивание без полной загрузки файла, а также выполнять команды управления. Механизм управление битовой скоростью включает:

• модуль мониторинга состояния передающей среды;

• модуль анализа и контроля, осуществляющий динамическое выделение полосы пропускания [1];

• блок, непосредственно связанный с модулем кодирования и определяющий выбор определенного алгоритма сжатия или подбор параметров кодирования в рамках одного алгоритма для динамического изменения скорости битового потока.

Для передачи речи по сетям существуют два метода кодирования:

• с постоянной скоростью;

• с переменной скоростью.

Постоянная скорость кодирования является традиционным подходом, предполагающим использование одной и той же схемы кодирования на всех речевых сегментах. Но даже при использовании алгоритмов многоимпульсного и кодового возбуждения, обеспечивающих высокое качество при относительно невысоких скоростях передачи, при скорости 4 кбит/с и меньше качество речи снижается [1].

Одна из возможностей дальнейшего снижения скорости передачи - переход к переменной скорости кодирования, основанной на том, что информация, необходимая для описания сигнала, изменяется во времени.

В речи, особенно при двустороннем разговоре, существуют паузы между звуками, словами и особенно существенные паузы между предложениями. Средняя длительность пауз может составлять до половины общего времени разговора двух абонентов. В виду различной информационной избыточности в представлении периодов молчания и звуков активной речи, на соответствующих сегментах могут быть применены разные схемы кодирования.

Если одновременно организовано несколько соединений, то экономия полосы пропускания оказывается существенной, что позволяет организовать еще ряд соединений без выделения или прокладки дополнительных каналов связи.

Поскольку в настоящее время существует проблема эффективного использования пропускной способности каналов связи [1], одной из актуальных задач, наряду с комплексным управлением битовой скоростью потока, является разработка алгоритмов кодирования речи с переменной скоростью и модификация существующих алгоритмов для перехода к переменным скоростям передачи.

Основная часть

Существуют следующие способы кодирования речи с переменной скоростью:

• на основе фонетической классификации;

• на основе энергетической классификации;

• обеспечивающие постоянное качество синтезированной речи.

В ходе исследования были проанализированы:

• указанные способы, на примерах конкретных реализаций;

• стандарты ITU-T G729 Annex B и G723.1 Annex A, включающие описания функциональных блоков для определения периодов молчания;

• RFC 3389, описывающий формат полезной нагрузки комфортного шума.

В результате были построены общие схемы кодирования и декодирования с переменной скоростью и выделены характерные для указанных схем функциональные блоки (рис. 1, 2):

• алгоритм определения речевой активности (VAD - Voice Activity Detector);

• генератор комфортного шума (CNG - Comfort Noise Generator).

Фрагмент речи

Кодированный и упакованный фрагмент речи

Рис. 1. Общая схема механизма прерывистой передачи при обработке фрагмента речи

в передатчике

Кодированный и упакованный фрагмент речи

Восстановленный фрагмент речи

Рис. 2. Общая схема механизма прерывистой передачи при обработке фрагмента речи

в приемнике

Механизм УАО нашел широкое применение при обработке речи в таких приложениях, как [2]:

• кодирование речи;

• распознавание речи;

• подавление эхо;

• уменьшение уровня шума;

• синтез речи.

Общая схема УЛБ представлена на рис. 3.

Выборка отсчетов речевого сигнала

Решение УЛБ

Рис. 3. Общая схема механизма определения речевой активности

В ранних УЛВ-алгоритмах параметры сигнала выделялись в результате вычисления:

• кратковременной энергии сигнала;

• скорости переходов через ноль;

• коэффициентов линейного предсказания.

Последние разработки основаны на определении:

• кепстра сигнала;

• формы формант;

• периодичности сигнала.

Следовательно, анализ сигнала может производиться во временной или частотной областях.

Наиболее очевидная характеристика фонового шума - громкость, что справедливо для большинства приложений. Именно этот параметр является обязательным в соответствии с RFC 3389.

VAD может быть реализован двумя способами:

• программно;

• аппаратно.

Аппаратные реализации позволяют использовать более эффективные и, как правило, трудоемкие алгоритмы. Примером может служить цифровой процессор фирмы Texas Instruments, использующий алгоритм быстрого преобразования Фурье для принятия решения о наличии активной речи.

Когда присутствуют короткие паузы между слогами и словами, детектор речевой активности переключается очень быстро, прерывая тем самым предшествующий сглаженный разговор. Для избежания частых переключений в передатчике используется таймер затягивания. Пока таймер запущен, посылаются пакеты, соответствующие активной речи, даже если детектор определил наличие тишины. Такой подход реализован, например, компанией Cisco. Эта же компания на стороне приемника для сглаживания переходов между речевыми и шумовыми последовательностями, а также между двумя шумовыми с разными параметрами использует внедрение белого или розового шума.

Некоторые реализации VAD требуют сохранения в памяти до нескольких десятков миллисекунд информации, чтобы иметь возможность запустить передачу до начала периода активности. Это увеличивает, в некоторой степени, задержку прохождения сигнала, однако ее можно минимизировать или свести к нулю в кодерах, работающих с блоками отсчетов, которые выделяются при разбиении анализируемой выборки, или посредством передачи задержанных пакетов с активной речью с более высоким приоритетом.

Наиболее типичными ошибками работы VAD являются:

• определение речи как шума;

• определение шума как речи.

Необходимость использования CNG диктуется следующим: поскольку отключение фонового шума на выходе приемника в паузах раздражает абонента и снижает разборчивость речи, применение комфортного шума в паузах считается необходимым и является стандартом де-факто.

Механизм DTX в приемнике может включать также модуль обработки ситуаций, связанных с потерей пакетов. Алгоритм работы указанного модуля в настоящей статье не рассматривается.

Основные требования, предъявляемые к алгоритмам VAD и CNG:

• относительно низкие вычислительные затраты, поскольку работа ведется на речевом фрагменте «вместе» с кодированием и другими алгоритмами обработки речи в режиме реального времени;

• быстрая адаптация к изменению уровню шума (фона);

• быстрая реакция на начала звуков после паузы;

• восприятие фрикативных звуков (ч, ш и т.д.) как активной речи, а не фона;

• синтез комфортного шума, близкого по звучанию к естественному;

• высокие показатели работы алгоритма VAD при низком показателе SNR (Signal Noise Ratio - отношение сигнал/шум), т.е. в случае, при котором уровень шума может даже превышать уровень сигнала.

В разработанном программном продукте учтены все пункты, кроме последнего. Стабильность работы алгоритма VAD в случае большой зашумленности сигнала требует работы со спектрами или использования других, достаточно трудоемких для вычислительной техники алгоритмов. Решение этого вопроса требует дополнительного исследования.

Следует отметить, что время обработки не должно превышать интервал времени между последовательными пакетами. То есть, если каждый пакет содержит 20 мс речи, то во избежание дополнительных задержек и потерь пакетов время работы алгоритма на конкретном устройстве не должно превышать 20 мс с учетом кодирования.

Предложенный алгоритм VAD имеет вычислительную сложность менее 300 000 простейших арифметических операций над числами с плавающей точкой при обработке 1 с речи, рассчитанную по максимальной ветви программы, что позволяет, наращивая его функциональность, увеличить вычислительную сложность почти на порядок.

CNG практически не требует процессорного времени, поскольку его работа состоит в интерпретации принятого байта как усредненной амплитуды фона и проигрывании (при необходимости циклически) заранее записанного в файл и считанного при инициализации в буфер шумового сэмпла с учетом принятого значения громкости.

Алгоритм VAD основан на работе с адаптивными уровнями фона и активной речи с фоном. Формулы для расчета соответствующих уровней аналогичны и имеют вид:

ALcur =(1 -a) AL + а ■ Pcur, где ALcur, AL - рассчитанный адаптивный уровень сигнала с учетом текущего и предыдущего отсчетов, соответственно; a (0 < a < 1) - константа, определяющая скорость реакции на текущий отсчет сигнала; Pcur - мощность текущего отсчета сигнала, вычисленная как квадрат его амплитуды. При приходе следующего отсчета ALcur в формулу подставляется как AL.

Кратко один цикл работы VAD можно описать следующим образом:

• запоминаем предыдущий AL1 (адаптивный уровень 1), характеризующий фон;

• считаем AL1;

• считаем AL2 (адаптивный уровень 2), характеризующий активность речи;

• сравниваем отношение AL2 / AL1 с заданным пороговым значением;

• если идет первая секунда разговора или количество превышений порога больше заданного процента от размера пакета, то принимается решение о наличии активной речи. При этом в качестве AL1 подставляется предыдущее сохраненное значение;

• в другом случае принимается решение о наличии только шума. Тогда в начале каждого периода молчания, а затем через каждую секунду формируется уровень комфортного шума, исходя из значения AL1.

Для тестирования применялась схема без использования кодирования. На рис. 4, 5 и 6 представлены графики изменения исходного сигнала, решения VAD и отношения AL2 к AL1 во времени, соответственно. На графиках отображен один и тот же временной интервал. Подписи к осям х и y не приводятся, так как в конкретном случае они не несут смысловой нагрузки, внимание следует уделять изменению графиков.

На рис. 4 приводится пример непрерывной речи. На рис. 5 верхние участки графика являются решениями VAD о наличии периодов молчания. Даже визуально можно определить, насколько механизм VAD позволяет сократить объем передаваемых дан-

ных. Рис. 6 демонстрирует принцип, на основании которого УАО принимает решение. Пунктирной линией на рис. 6 обозначено выбранное значение порога._

Рис. 4. График изменения исходного сигнала во времени

Рис. 5. График изменения решения УДР во времени

Рис. 6. График изменения отношения А1.2 к АЦ во времени

В результате выполнены следующие пункты:

• разработка базовых алгоритмов УЛБ и СКО;

• подбор фонового шума (адаптированный коричневый шум), прокручиваемого циклически (если пауза длится более одной секунды);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• адаптация алгоритма УЛВ для быстрой речи и шумовых звуков (с помощью деления блока данных на подблоки и их дифференциальной оценки; особое внимание уделяется последнему подблоку, который может содержать начало звукового сегмента);

• введение дополнительного параметра: допустимого процента превышений порога, при котором блок данных оценивается еще как шум (защита от импульсных помех,

увеличение параметра улучшает работу VAD, но может «резать» речь - необходима настройка);

• внесение в программу блоков обработки тестовых звуковых файлов вне real time для возможности получения и сравнения графиков:

■ адаптивного уровня для шума;

■ адаптивного уровня для голоса;

■ отношения указанных уровней;

■ решения VAD;

■ итогового звука;

• интерфейс с возможностью настройки всех возможных параметров шума и выводом результата работы VAD в процентах для real time речи и хранимых файлов (для быстрого сравнения результатов работы VAD);

• выбор основного регулируемого параметра для подстройки под различные типы речи (допустимый процент превышений порога, при котором блок данных оценивается еще как шум);

• анализ кода функций VAD и CNG на предмет количества операций с плавающей точкой.

Заключение

В статье рассмотрен механизм прерывистой передачи аудиосигнала и описаны

разработанные базовые алгоритмы указанного механизма.

Литература

1. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. М.: Радио и связь, 2003. С. 94-109.

2. Гольдштейн Б.С., Пинчук А.В., Суховицкий А.Л. IP-телефония. М.: Радио и связь, 2001. С. 67-93.

i Надоели баннеры? Вы всегда можете отключить рекламу.