Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках
Ключевые слова: в речевой сигнал, шум наблюдения, кодирование речи, оценка параметров, фильтрация, синтез алгоритма совместной оценки - фильтрации, разборчивость речи.
В системах цифровой радиотелефонии при организации речевой связи важной является задача обеспечения эффективной и помехоустойчивой передачи речевых сигналов (РС) по каналу связи. Под эффективной понимают передачу максимального количества полезных или минимально избыточных цифровых данных о РС; под помехоустойчивой — передачу РС в условиях помех и искажений с высокими качественными показателями. Большинство международных и региональных стандартов эффективного (низкоскоростного) кодирования РС принадлежат к клас-су линейного предсказания с анализом через синтез (ЛПАС) и интенсивно исследуются во всем мире. ЛПАС голосовые кодеки обеспечивают высокое качество синтезированной речи при усло-вии, что на их входы поступают РС без шума. Качество синтезированной речи резко падает при наблюдении и обработке зашумленной речи. Поэтому актуальной является задача синтеза ЛПАС кодеков с повышенной помехоустойчивостью к шумам наблюдения. На основе авторегрессион-ных моделей РС и коэффициентов линейного предсказания (КЛП) формируются расширенные уравнения состояния и наблюдения РС в шуме. Путем минимизации эмпирического риска в виде регуляризирующего функционала Тихонова синтезируется рекуррентный алгоритм совместной оценки КЛП и фильтрации РС. Результаты экспериментального оценивания КЛП по зашумленной речи показывают хорошую способность алгоритма подстраиваться к высоким уровням шумов и получать оценки, близкие к истинным. Оптимальная линейная фильтрация зашумленной речи по-зволяет при малых отношениях сигнал/шум ( 0 дБ) повысить слоговую разборчивость на 30 --15 %.
Санников В.Г., Корольков АА, Герасименко Х.В., МТУСИ
Введение
При проектировании различных систем обработки и передачи речевых сигналов (РС), к которым относятся системы: эффективного кодирования (сжатия) РС, голосовой биометрии, распознавания речи и аутентификации личности по голосу, проверки подлинности личности по отрезку речевой волны и др., встает проблема оценки параметров модели речеобразования при наличии шума наблюдения | КЗ]. Во многих случаях уровень сопутствующих шумов довольно значителен, что приводит к смещению оцениваемых параметров РС и к снижению разборчивости речи до величин ниже критических [4]. Для повышения разборчивости зашумленной речи применяют методы шумоочистки или фильтрации П^б].
С нашей точки зрения, в настоящее время методам совместной идентификации (опенки параметров) и фильтрации зашумленных РС уделено незначительное внимание. Поэтому целью настоящей работы является теоретическое и экспериментальное исследование зависимости сред неквадрат и чес ко го смещения (СКС) параметров РС и слоговой разборчивости отфильтрованной речи от отношения сигнал/шум (ОСШ).
Математическую модель речеобразования представим ЛРСС моделью РС в дискретном времени, определяемой разностным уравнением вида [1, 6|:
Р ч
/-1 >0
Оно характеризует РС как отклик х,,! - 0,1,2,..., устойчивой нестационарной динамической линейной системы, характеризующей голосовой тракт модели речеобразования, на вход которой действует случайная последовательность »,,/ = 0,5,2,..., вырабатываемая источником голосового возбуждения. Здесь а1 = [, р, параметры авторегрессии (АР), а
6 , j = о,с/, параметры скользящего среднего (СС).
Уравнения состояния и наблюдения модели речеобразования. При решении задачи оптимальной фильтрации зашумленной речи: у/ = х1 + £, где £ - шум наблюдения, от
скалярной модели РС (!) переходят к векторной модели [6], определяемой уравнением состояния
х, = АХ, | + Ьи,,
И уравнением наолюдения
где введены обозначения (для у = 3, /> = 4)
(2) (3)
а\ I 0 0" ' I"
х2 0 I 0 Ь,
' А = ' ь =
% 0 0 I к
л. г _Й4 0 0 0 л.
ег -[1000];
Оптимальное оценивание состояния модели РС. Ставится задача найти оценку х, вектора состояния х,, оптимальную по критерию минимума среднеквадратической погрешности. Для получения оптимальной оценки х, воспользуемся минимизацией эмпирического риска в форме функционала Тихонова [7]
где - дисперсия шума наблюдения, р
(4)
корреляцион-
ная матрица погрешности экстраполяции на один шаг. Тогда искомая оценка ищется гак
х, = а^тшМДх^х.,,...}' ^
Па основе решения поставленной задачи, получаем рекуррентный алгоритм оценки
% = А,.А., + к „[у, -егА(-.*, = 1,2,..., (6)
к.^м^+^еГ'^е/^Ч'-и^.....УЛ><> (7)
с начальными
(8) (9)
условиями: ¿п = м$хи} = хп, V,, = М{( х0 - хо }(х„ — *о)г} ■ Здесь к,, - векторный коэффициент усиления оптимального фильтра, V, ~ вектор погрешности (фильтрации, и -
корреляционная матрица сигнала возбуждения, Е;, - единичная рхр матрица.
Оценка текущей дисперсии шума наблюдения При
отсутствии РС наблюдению подлежит только шум, т.е. у1 - ¿: ■ Полагаем, что шум наблюдения ~ представляет собой стационарный некоррелированный случайный процесс. Тогда для оценки его дисперсии можно воспользоваться следующим рекуррентным соотношением [1]:
Идентификация модели РС. Идентификация, понимаемая в узком смысле, представляет собой процесс определения вектора параметров = [й!(,...,и;, .]' модели РС
(1) по результатам измерения значений / = 0,1,2,..., при отсутствии шума наблюдения и параметров я, =[а,.,,..„а рлЬ'о.,,...^'^? по результатам измерения оптимальных оценок {5},/ = 0,1,2,..., при наличии шума наблюдения. Здесь важно определить влияние ОСИ! на расхождение этих параметров до и после фильтрации.
Пусть параметры аг .....аг„Ьи.,.....К,}1 модели (1)
неизвестны. Введем расширенный вектор результатов измерений: = [л;л;, г,-и1,...,и1 ]''• При этом для оценки искомого вектора параметров модели (I) воспользуемся рекуррентным алгоритмом метода наименьших квадратов (МНК) со взвешиванием, когда минимизации подвергается взвешенная сумма квадратов «невязки» [б]:
= <П>
И=0
где 1><! - «множитель забывания», характеризующий конечную память алгоритма МПК.
В результате последовательная (рекуррентная) оценка ал = 0,1.2,.«* вектора параметров АРСС модели РС (I) осуществляется следующим образом |6];
-к„ я(хг ,а„ ,), « = 1,2,..., (12)
= + с„ =»'_|Рг,_]я„_1, (13)
(И)
с начальными условиями: Ьа=а+ий = 1, а(1=[0.....0,1,0.....0]7,
Р„ = 200Е^,_5, где Е2 , -единичная (2р - 1)х (2р - I) матрица, кая — вектор коррекции сиг нала голосового возбуждения, р = к | -матрица размера (2р - 1) х (2р - 1), обратная корреляционной матрице к ^ М } случайного вектора |п, М -знак математического ожидания.
Заметим, что вектор в, ...................и,.чГ содержит
ненаблюдаемые величины в . Их оценки находятся
по оценкам параметров АРСС: » 8Г,а(), где
После оптимальной линейной фильтрации применяется аналогичный рекуррентный алгоритм (12)^(14) для получения параметров а* = [я'и,...,а'Р.,,b\u...../>',,.,]7 по оптимальным оценкам {i,},/ = 0,1,2,.... Критерием расхождения
a" = [я" и.....a'P.l,b'o.l<...,b'ci.i]T 07 а, =[аи.....ар„Ьп......b4J
служит величина среднеквадратического смещения (СКС) вида
V^ljttWu-aJ- (15)
где / - число параметров, I. - число выборок каждого параметра на интервале наблюдения речевого сигнала.
Оценка разборчивости речи. Па основе исследования свойств преобразования речи на периферии слуховой системы, в работе [8| предложен метод оперативной автоматизированной оценки разборчивости речи, наблюдаемой в шуме. Аналитическое выражение для оценки слоговой разборчивости речи определяется соотношениями
£ = 100 1 +
11,75635
Ы-UhdB)
L{ht!B) - -
1 + 10'
0,0222-(/)c/S + 30)
1 /
Уехр _——
J i 1 + 10
75635
члЦШВ)
(16) (17)
+[(/к/5+ 30)/97.5]" где 5 — слоговая разборчивость речи, выраженная в процентах, ¿{/к/Я) — обобщенный уровень речи, зависящий от ОС111 ¡К{В = 1/¿V) в дБ, - дисперсия отрезка речевого сигнала, наблюдаемого на интервале Т, = I,-Д/> ДI -интервал дискретизации, д = гг;.
Эксперимент. Результаты проверки работоспособности метода рекуррентной идентификации-фильтрации РС получены с использованием системы МАТЬАВ и иллюстрируются рисунками 1, 2 и таблицей 1. Обработке подвергалась зашумленная стандартная фраза [4]: «Э/ин жирные сазаны ушли под палубу», с различными ОСШ. Экспериментальные данные получены для различного числа АР и СС параметров модели РС и для различных значений «множителя забывания» Уф и г,.„ = Д?/1п(1Л'11;|()> обеспечивающих максимум
ОСШ.
Результаты среднеквадратического смещения (СКС) параметров РС после оптимальной линейной фильтрации (ОЛФ) зашумленной речи от параметров чистой речи приведены на рис, 1, С уменьшением ОСШ и числа параметров РС величины СКС уменьшаются. Следовательно, в голосовых кодеках при увеличении уровня входного шума (уменьшении ОСШ) число передаваемых параметров {в частности, коэффициентов линейного предсказания) следует уменьшать. При ОСШ < 5 дБ СКС практически постоянны и зависят только от числа оцениваемых параметров.
Па рис. 2 приведены графики зависимости слоговой разборчивости русской речи от ОСШ при различном числе оцениваемых параметров РС. Штрих-пунктирная кривая справедлива для оценок разборчивости речи, полученных на входе оптимального линейного фильтра (ОЛФ). Сплошные кривые соответствуют оценкам разборчивости речи, получаемым на выходе ОЛФ. С увеличением параметров модели РС разборчивость речи, при различных ОСШ, увеличивается. Так. например, при ОСШ 0 дБ и р-2, 5 = 55.826%, а при ¿> = 14. 5 = 67.294%. Это, по сравнению с разборчивостью до ОЛФ равной 5 = 38.281%, приводит к повышению разборчивости речи на выходе ОЛФ при р = 2 на 17.545% и,
72
T-Comm #12-2014