DOI 10.36622^Ти.2022.18.3.015 УДК 621.391
ИДЕНТИФИКАЦИЯ РЕЧЕВЫХ ПАУЗ В УСЛОВИЯХ СЛОЖНОЙ АКУСТИЧЕСКОЙ ПОМЕХОВОЙ ОБСТАНОВКИ
Р.С. Власов1, И.А. Козлов1, А.А. Афанасьев2, А.В. Питолин3
воронежский институт правительственной связи (филиал) Академии Федеральной службы охраны Российской Федерации, г. Воронеж, Россия 2Академия Федеральной службы охраны Российской Федерации, г. Орел, Россия 3 Воронежский государственный технический университет г. Воронеж, Россия
Аннотация: изложены материалы по исследованию возможностей определения пауз в речевом сигнале при условии акустического зашумления на входе микрофона. Необходимость в таких исследованиях обусловлена некорректной работой детектора голосовой активности при кодировании речи по алгоритму G.729. Данное обстоятельство не позволяет эффективно использовать избыточность РС, связанную с наличием пауз, в задачах повышения качественных показателей систем передачи речи. Причинами некорректной работы существующих детекторов голосовой активности является принятие паузы в речевом сигнале как стационарного случайного процесса. При отсутствии интенсивных помех распределение отсчетов неактивных участков речевого сигнала действительно носит квазистационарный характер. Однако в условиях интенсивных акустических шумов временные интервалы, на которых вероятностные характеристики не претерпевают значительных изменений, существенно меньше, чем средняя протяженность речевых пауз. Это не позволяет считать такие участки речевого сигнала квазистационарными. Тем не менее вероятностные распределения отсчетов, составляющих паузы в условиях ИАВ, и активных участков РС отличаются. Предлагается использовать данные отличия при идентификации пауз в условиях акустических шумов
Ключевые слова: речевой сигнал, акустический шум, последовательная статистика, критерий Вальда, речевая
пауза
Введение
Качественная низкоскоростная передача речевого сигнала (РС) по цифровым системам передачи остается актуальной востребованной задачей. Для передачи по цифровым сетям связи РС подвергается компрессии в соответствии с одним из используемых алгоритмов. Одним из наиболее распространенных является стандарт G.729 и его модификации. В основе его работы лежит разделение (сегментация) последовательности цифровых отсчетов на кадры данных фиксированной длины, для каждого из которых определяются оптимальные параметры линейного предсказателя в условиях заданных ограничений.
Непременным фактором, сопутствующим процессу передачи РС в системах связи, является наличие акустических шумовых воздействий (рис. 1).
• А(1)
Лу А,,(1) II,.,||) иш.гад.(п) lWK.it!
)}] 0 => => сф)
* Л Микрофон Динамик
Шум
Рис. 1. Влияние акустических воздействий (шума) на процесс передачи речи
Большинство речевых кодеков, используемых в современных системах передачи данных, обеспечивают приемлемое качество передачи речи (I либо высший класс качества по ГОСТ Р 50840-95) только при отношении сигнал/шум (ОСШ) на входе кодека более 15 Дб. [1, 2]. Шумы на входе кодеков с ОСШ менее 15 Дб можно отнести к интенсивным акустическим воздействиям (ИАВ). Функционирование речевых кодеков в условиях ИАВ обеспечивает VI - II классы качества по ГОСТ Р 50840-95, что характеризуется заметным нарушением естественности и узнаваемости, а также искажениями речи [1, 3].
Естественный РС по своей природе обладает статистической избыточностью, наиболее ярким проявлением которой является наличие неактивных участков (пауз) между элементами речи. При отсутствии ИАВ на входе речевого кодека статистическая избыточность снижается за счет использования алгоритма обнаружения активности голоса (Voice Active Detector -VAD). Для улучшения качественных показателей функционирования VAD решается обратная задача, связанная с инициализацией наличия пауз в РС.
© Власов Р.С., Козлов И.А., Афанасьев А.А., Питолин А.В., 2022
Постановка задачи
Особенности функционирования современных алгоритмов VAD рассмотрены в [2].
Основными классификационными признаками сегментации служат интервальная оценка от - и1 до и1 пороговой амплитуды или количество пересечений решающей функцией определенного порогового значения.
0.25 0.2 0.015 0.1 0.05 0
- 0.05 - 0.1
- 0.15 - 0.2
- 0.25
4000
12000
16000
0.3 0.2 0.1 0 - 0.1 - 0.2
- 0.3
- 0.4
м £ м £ м
1 . 21 Л £ £¿1
ГЦ ! Т и
тг
0 4000 8000 12000 16000
Рис. 2. Выделение сегментов паузы в существующих детекторах активности речи (пороговое значение мгновенной энергии сегмента)
На рис. 2, а изображен РС в условиях акустического воздействия с ОСШ 20 дБ.
Существуют решения по адаптации порогового значения и2, получаемого путем увеличения и1 для случая сложной помеховой обстановки [2].
На рис. 2, б отражен РС в условиях акустического воздействия - шум вертолета (ОСШ 0 дБ). Значительное увеличение и2 ведет к увеличению участков М, потенциально определя-
емых как пауза, и влечет за собой принятие решения вида - «ложная тревога», когда активные составляющие обрабатываемого РС будут ошибочно идентифицированы как сегменты пауз.
С учетом этого недостатка в [4, 5] предложены решения поиска сегмента паузы, которые основаны на вычислении точных значений долей энергии сегмента, попадающих в заданный частотный интервал.
В этом случае используется процедура обучения на основе анализа особенностей распределения долей энергии по частотным интервалам в паузе. Принадлежность сегмента анализа к паузе определяется на основе решающей функции:
S = тах
(1)
где Рг - доли энергий, попадающих в заданные частотные интервалы; РГП - результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий попадающих в заданный частотный интервал.
Если выполняется неравенство:
5 > к
(2)
где ка - порог, обеспечивающий заданный уровень вероятности ложной тревоги а на обучающей выборке, то основная гипотеза о наличии паузы отвергается, в противном случае принимается решение о наличии паузы.
Данный подход основан на равномерном характере распределения значений отсчетов фоновых шумов РС и допускает принятие решения типа «пропуск цели», т.е. ошибочное принятие решения о голосовой активности на сегменте при ОСШ менее 10 Дб [4]. В реальных условиях РС сложно аппроксимируется каким-либо известным параметрическим законом, что приводит к некорректной работе существующих алгоритмов VAD.
Как видно из рис. 3, в условиях ИАВ детектор активности VAD часто принимает решения о шуме во время голосового сеанса. Существующие технические решения по улучшению качества функционирования при низких ОСШ (<15 дБ) связаны с минимизацией потерь информации об активной речи. С этой целью
0
изменяются условия обновления фонового шума и условия принятия решения о голосовой активности (рис. 4) [2].
Рис. 3. Функционирование детектора активности речи
Таким образом, предпочтение отдается принятию решения вида «пропуск цели». В этом случае наиболее вероятным становится наступление ошибки первого рода.
тенсивных помех распределение отчетов неактивных участков РС действительно носит квазистационарный характер. Однако в условиях ИАВ временные интервалы, на которых вероятностные характеристики не претерпевают значительных изменений, значительно меньше, чем средняя протяженность речевых пауз, что не позволяет считать такие участки РС квазистационарными. Тем не менее вероятностные распределения отсчетов, составляющих паузы в условиях ИАВ, и активных участков РС отличаются. То есть процедура идентификации пауз может быть основана на принципе обнаружения отличий вероятностного описания параметров сегментов активных речевых участков и пауз (рис. 5).
VAD '
Рис. 4. Функционирование детектора активности речи с учетом внесенных изменений
Несмотря на то, что потери голосовой информации минимизированы, имеет место нежелательная производительность VAD на участках зашумленных пауз. При этом средняя длительность пауз РС колеблется в диапазоне от 25 до 600 мс, причем средняя длительность паузы во время телефонного разговора составляет 400 мс [6], что существенно превышает длительность сегмента анализа в кодеках РС. Данное обстоятельство не позволяет эффективно использовать избыточность РС, связанную с наличием пауз, в задачах повышения качественных показателей систем передачи речи (рис. 5).
Причинами некорректной работы существующих детекторов голосовой активности являются принятие паузы в РС как стационарного случайного процесса. При отсутствии ин-
Рис. 5. Выделение паузы на основе вероятностных характеристик речевого сигнала
В режиме реального времени наблюдая за поступающими сегментами РС, необходимо постоянно анализировать принадлежность расширяющегося участка речи к определённой закономерности. При сохранении вероятностных характеристик нужно идентифицировать текущий сегмент как паузу, в противном случае останавливать расширение и начинать новое.
Математическая модель идентификации пауз на основе последовательного статистического анализа
Применительно к анализу РС аналитическое выражение, отражающее процесс идентификации сегментов паузы с учётом возможности ее дальнейшего расширения, показано в (3).
иКу ={{и1Ми^...Чи^...К-1Мик}} (3)
где 1 - порядковый номер неактивного участка РС (паузы), к - порядковый номер сегмента анализа в составе предполагаемой 1 -й паузы,
ик - 1-я пауза, состоящая из К сегментов ана-
1К ^пауз
лиза.
Увеличение значения переменной k в выражении (3) осуществляется последовательно по результатам проверки основной и конкурирующих гипотез, которые описываются выражениями (4) и (5).
Но : ) = Fk = ^
пауз тк
Н! : F(U" ) = Fk ф ^
(4)
(5)
где 3 - функция плотности вероятности фрагмента 1-й паузы, содержащего к сегментов анализа РС.
Отсутствие какой-либо степени периодичности на участках зашумленных пауз приводит к тому, что для принятия решения о характере распределения исследуемого участка необходимо более чем одно наблюдение над поступающими сегментами. Данное обстоятельство существенно осложняет использование классических (двухвариантных) методов проверки статистических гипотез. Количество наблюдаемых сегментов анализа РС, составляющих неактивный участок (паузу), является случайной величиной и зависит от исхода самих наблюдений. Применительно к цифровой обработке РС количество наблюдаемых сегментов для принятия решения должно быть минимально возможным. Это связано с рекомендациями Международного союза электросвязи по задержке РС при его передаче.
Наиболее подходящим математическим аппаратом для решения такого класса задач является последовательная проверка статистических гипотез, принципы которого изложены в [7]. Наиболее оптимальным с точки зрения количества наблюдений для практических целей является последовательный критерий отношения вероятностей (далее - критерий Вальда) [7]. Использование данного критерия предполагает идентификацию параметров вероятностного распределения наблюдаемых сегментов РС. Вероятностному анализу могут быть подвержены как непосредственно значения цифровых отсчетов (анализ во временной области), так и некоторые параметры РС, характеризующие его на длительном сегменте анализа.
В первом случае (анализ во временной области) выражение статистики критерия Вальда будет иметь вид (6):
1п
ииК , 01)
'пауз
КиК ,00)
'пауз
- 1п
- 1п
Жи1 )х/1(и? )х...х/10£ )
'пауз 'пауз 'пауз _
/о(и) ) х/о(и^ ) х...х/о(и] ) (6)
пауз пауз пауз
ГМ )
ъ-л пауз К
k-1 = 1п ]
-пауз
К
Г
k=1
/оО- )
пауз
где 91 - параметр распределения, соответствующего паузе, 9о - параметр распределения, не
k
соответствующего паузе, и- - значение к-го
1псуз
отсчета РС в предполагаемой 1-й паузе, L -функция правдоподобия распределения анализируемых значений по закону с параметром 9, f - плотность распределения анализируемых значений.
В качестве альтернативы значениям отсчетов могут быть использованы результаты мел-кепстрального анализа. Применительно к обработке РС данный подход используется с учетом психоакустической модели слуха, сущность которой заключается в разделении воспринимаемого слухом частотного диапазона на области частот, называемые критическими полосами. Явление разделения при восприятии человеком спектра РС на частотные группы относится к одному из фундаментальных свойств слуха. Для представления интенсивности звука в определенной области частот используются единицы [мел]. Мел - единица высоты звука, основанная на восприятии этого звука нашими органами слуха. Шкала мел является эмпирически подобранными значениями, отражающими особенности слуха человека (рис. 7) [8].
Мел удобно применять в целях анализа речи человека, так как его использование «приближает» алгоритмы обработки данных к человеческим параметрам восприятия, что благотворно сказывается на качестве распознавания. На их основе рассчитываются мел-частотные
кепстральные коэффициенты (MFCC), которые в последнее время получили весьма широкое использование при обработке РС. Последовательность их расчета приведена в [8].
Рис. 6. Преобразование шкалы частот
Совокупность мел-кепстральных коэффициентов, получаемых на каждом этапе расширения предполагаемой речевой паузы, может быть использована в качестве исходных данных для анализа вероятностных характеристик и расчета статистики критерия Вальда. В этом случае статистика критерия Вальда примет следующий вид:
дмсс , е,)
_паУз _
, ео)
= 1п
/1(тЦ )х/^сс2 )Х...ХЛ^сс^ )
(7)
*пауз
*пауз
пауз _
/о^Ц )х/)(т&с2 )х...х)
пауз
пауз
пауз
N
= 1п
ГО^П )
пауз
п=1
= 1п Z[MFCCN ]
гпауз
N
П/о(т?ссП )
пауз
п=1
где 01 - параметр распределения, соответствующего паузе, 0о - параметр распределения, не соответствующего паузе, т^си - значение п-
1пауз
го мел-кепстрального коэффициента предполагаемой ьй паузы, L - функция правдоподобия распределения анализируемых значений по закону с параметром 0, f - плотность распределения анализируемых значений, N - количество мел-кепстральных коэффициентов ^ =сош^).
Натуральный логарифм значения статистики критерия Вальда 2 является основанием для отнесения анализируемых совокупностей (значений отсчетов, либо мел-кепстральных коэффициентов) к одной из трех попарно непе-
ресекающихся областей в соответствии со следующими условиями [7]:
1п В < 1п 2 < 1п А,
1п 2 < В, 1п2 > А.
(8) (9)
(1о)
При выполнении условия (1о) гипотеза Но отвергается, и фрагмент речи принимается активным. Выполнение условия (9) предполагает принятие гипотезы Но, и речевой фрагмент считается паузой. Условие (8) является основанием для продолжения эксперимента и увеличения наблюдаемой совокупности на следующий сегмент анализа РС с повторным вычислением (6) либо (7) и проверкой по условиям (8) - (Ю). Ввиду того, что при выполнении условия (8) имеет место расширение участка предполагаемой паузы, необходимо ввести ограничение на расширение анализируемой совокупности. С учетом рекомендаций Международного союза электросвязи предлагается ввести ограничение на максимальную длину анализируемого участка речи в 8о мс.
Ограничительные константы А и В рассчитываются исходя из величин ошибок первого и второго рода по следующим соотношениям [1]:
А <
1 - Р
В >
а Р
(11)
1 - а
Возникновение ситуации, при которой выполнение условия (8) имеет место при достижении предельного значения анализируемого сегмента, является т.н. «усечением» критерия Вальда. Влияние «усечения» также описано в [7]. В этом случае принимается гипотеза Но.
Заключение
Таким образом, существующие детекторы активности речи некорректно работают в условиях интенсивных акустических воздействий на входе микрофона. Данное обстоятельство объясняется нестационарным характером РС на участках пауз в условиях ИАВ. Использование отличий вероятностных характеристик сегментов активных речевых участков и пауз позволит уменьшить количество решений типа «пропуск цели» в детекторах голосовой активности. Ввиду существенной длительности пауз по отно-
шению к длительности сегмента анализа РС, а также случайного характера их продолжительности и расположения предлагается использовать математический аппарат последовательной проверки статистических гипотез (критерий Вальда) для решения задачи выявления неактивных участков РС в условиях ИАВ. В качестве объекта анализа предлагается использовать либо значения цифровых отсчетов РС (анализ во временной области), либо совокупности мел-кепстральных коэффициентов, вычисленных на сегментах РС. Использование разных подходов обусловит необходимость корректировки исходных данных для расчета ограничительных констант, которые являются границами для принятия решения о соответствии речевого фрагмента паузе.
Литература
1. Дмитриев В.Т., Янак А.Ф. Исследование воздействия акустических шумов на первичные кодеки речевых сигналов // Вестник 38 РГРТУ. 2о16. № 56. С. 38-44.
2. ITU-T Recommendation G.729. Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic Code Excited Linear Prediction (CS-ACELP), 06/2012.
3. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Госстандарт России, 1995. 230 с.
4. Об одном методе обнаружения пауз в речевых сигналах / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко, А.С. Белов // Цифровая обработка сигналов и ее применение: материалы 10-й междунар. конф. М.: ИПУ РАН, 2008. - С. 229-231.
5. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз / Е.Г. Жиляков, С.П. Белов, А.С. Белов, А.А. Фирсова, А.В. Глушак // Научные ведомости Белгородского государственного университета. Сер. Экономика. Информатика. - 2010. № 7 (78). Выпуск 14/1. - С. 187-193
6. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. М.: Радио и связь, 1987. 168 с.
7. Вальд А. Последовательный статистический анализ / под ред. А.Ф. Лапко. М.: Гос. изд. ФИЗМАТ-ЛИТ, 1960. 328 с.
8. Афанасьев А.А., Кирюхин Д.А. Цифровая обработка речевого сигнала с использованием программной среды MATLAB: учеб. пособие. Орел: Академия ФСО России, 2021. 133 с.
Поступила 26.04.2022; принята к публикации 16.06.2022 Информация об авторах
Власов Роман Сергеевич - канд. техн. наук, старший преподаватель кафедры сетей связи и систем коммутации, Воронежский институт правительственной связи (филиал) Академии Федеральной службы охраны Российской Федерации (394042, Россия, г. Воронеж, ул. Минская, д. 2), e-mail: [email protected], тел. 8-473-210-30-09
Козлов Иван Александрович - преподаватель кафедры сетей связи и систем коммутации, Воронежский институт правительственной связи (филиал) Академии Федеральной службы охраны Российской Федерации (394042, Россия, г. Воронеж, ул. Минская, д. 2), e-mail: [email protected], тел. 8-473-210-30-09
Афанасьев Андрей Алексеевич - д-р техн. наук, доцент, профессор кафедры электроники и теории связи, Академия Федеральной службы охраны Российской Федерации (302034, Россия, г. Орёл, ул. Приборостроительная, д. 35), e-mail: [email protected], тел. 8-4862-54-98-90.
Питолин Андрей Владимирович - канд. техн. наук, доцент, доцент кафедры систем автоматизированного проектирования и информационных систем, Воронежский государственный технический университет (394006, Россия, г. Воронеж, 20-летия Октября, 84), e-mail: [email protected], тел. 8-473-243-77-04
IDENTIFICATION OF SPEECH PAUSES IN CONDITIONS DIFFICULT ACOUSTIC INTERFERING SITUATION
R.S. Vlasov1, I.A. Kozlov1, A.A. Afanas'ev 2, A.V. Pitolin3
1 Voronezh Institute of Government Communication, branch of Academies of Federal Guard Service
of the Russian Federation, Voronezh, Russia 2 Academy of Federal Guard Service of the Russian Federation, Oryel, Russia 3 Voronezh State Technical University, Voronezh, Russia
Abatract: we present materials on the study of the possibilities of determining pauses in a speech signal under the condition of acoustic noise at the microphone input. The need for such studies is due to the incorrect operation of the voice activity detector when encoding speech using the G.729 algorithm. This circumstance does not allow efficient use of the SS redundancy associated with the presence of pauses in the tasks of improving the quality indicators of speech transmission systems. The reasons for the incorrect operation of the existing voice activity detectors are taking a pause in the speech signal for a stationary random process. In the absence of intense interference, the distribution of counts of inactive sections of the speech signal is indeed quasi-stationary. However, under conditions of intense acoustic noise, the time intervals at which the probabilistic characteristics do not undergo significant changes are significantly less than the average length of speech pauses. This does not allow us to consider such segments of the speech signal as quasi-stationary. Nevertheless, the probabilistic distributions of
counts that make up pauses under IAI conditions and active parts of the SS differ. We proposed to use these differences in the identification of pauses in acoustic noise conditions
Key words: speech signal, acoustic noise, consecutive statistics, Wald's criterion, speech pause
References
1. Dmitriev V.T., Yanak A.F. "Research of impact of acoustic noise on primary codecs of speech signals", Bulletin 38 RSRTU (Vestnik 38 RGRTU), 2016, no. 5, pp. 38-44.
2. ITU-T Recommendation G.729. Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic Code Excited Linear Prediction (CS-ACELP), 06/2012.
3. GOST P 50840-95 "Speech transmission on paths of communication. Methods of assessment of quality, legibility and recognition", Moscow: Gosstandart of Russia, 1995, 230 p.
4. Zhilyakov E.G., Belov S.P., Prokhorenko E.I., Belov A.S. "About a method of detection of pauses in speech signals", Proc. of the 10th Int. Conf.: Digital Processing of Signals and its Application (Tsifrovaya obrabotka signalov i eye primenenie), Moscow, 2008, pp. 229-231.
5. Zhilyakov E.G., Belov S.P., Belov A.S., Firsova A.A., Glushak A.V. "About efficiency of various approaches to segmentation of speech signals on the basis of detection of pauses", Scientific Papers of Belgorod State University (Nauchnye vedomosti Belgorodskogo gosudarstvennogo universiteta), Belgorod: BelGU publishing house, 2010, no. 7 (78), issue 14/1, pp. 187-193
6. Mikhaylov V.G., Zlatoustova L.V. "Measurement of parameters of the speech" ("Izmerenie parametrov rechi"), Moscow: Radio i svyaz', 1987, 168 p.
7. Wald A. "The consecutive statistical analysis" ("Posledovatel'nyy statisticheskiy analiz"), Moscow: FIZMATLIT, 1960, 328 p.
8. Afanas'ev A.A., Kiryukhin D.A. "Digital processing of a speech signal with use of the program MATLAB environment" ("Tsifrovaya obrabotka rechevogo signala s ispol'zovaniem programmnoy sredy MATLAB"), textbook, Oryol, 2021, 133 p.
Submitted 26.04.2022; revised 16.06.2022
Information about the authors
Roman S. Vlasov, Cand. Sc. (Technical), Assistant Professor, Voronezh Institute of Government Communication, branch of Academy of Federal Guard Service of the Russian Federation (2 Minskaya str. Voronezh 392042, Russia), e-mail: [email protected], tel.: +7-473-210-30-09
Ivan A. Kozlov, Assistant Professor, Voronezh Institute of Government Communication, branch of Academy of Federal Guard Service of the Russian Federation (2 Minskaya str. Voronezh 392042, Russia), e-mail: [email protected], tel.: +7-473-210-30-09 Andrey A. Afanas'ev, Dr. Sc. (Technical), Associate Professor, Professor, Academy of Federal Guard Service of the Russian Federation (35 Priborostroitelnaya str., Oryel 302034, Russia), e-mail: [email protected], tel.: +7-4862-54-98-90. Andrey V. Pitolin, Cand. Sc. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: [email protected], tel. +7-473-243-77-04