Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках

Санников В.Г.; Корольков А.А.; Герасименко Х.В.

Ключевые слова: в речевой сигнал, шум наблюдения, кодирование речи, оценка параметров, фильтрация, синтез алгоритма совместной оценки - фильтрации, разборчивость речи.

В системах цифровой радиотелефонии при организации речевой связи важной является задача обеспечения эффективной и помехоустойчивой передачи речевых сигналов (РС) по каналу связи. Под эффективной понимают передачу максимального количества полезных или минимально избыточных цифровых данных о РС; под помехоустойчивой — передачу РС в условиях помех и искажений с высокими качественными показателями. Большинство международных и региональных стандартов эффективного (низкоскоростного) кодирования РС принадлежат к клас-су линейного предсказания с анализом через синтез (ЛПАС) и интенсивно исследуются во всем мире. ЛПАС голосовые кодеки обеспечивают высокое качество синтезированной речи при усло-вии, что на их входы поступают РС без шума. Качество синтезированной речи резко падает при наблюдении и обработке зашумленной речи. Поэтому актуальной является задача синтеза ЛПАС кодеков с повышенной помехоустойчивостью к шумам наблюдения. На основе авторегрессион-ных моделей РС и коэффициентов линейного предсказания (КЛП) формируются расширенные уравнения состояния и наблюдения РС в шуме. Путем минимизации эмпирического риска в виде регуляризирующего функционала Тихонова синтезируется рекуррентный алгоритм совместной оценки КЛП и фильтрации РС. Результаты экспериментального оценивания КЛП по зашумленной речи показывают хорошую способность алгоритма подстраиваться к высоким уровням шумов и получать оценки, близкие к истинным. Оптимальная линейная фильтрация зашумленной речи по-зволяет при малых отношениях сигнал/шум ( 0 дБ) повысить слоговую разборчивость на 30 --15 %.

Санников В.Г., Корольков АА, Герасименко Х.В., МТУСИ

Введение

При проектировании различных систем обработки и передачи речевых сигналов (РС), к которым относятся системы: эффективного кодирования (сжатия) РС, голосовой биометрии, распознавания речи и аутентификации личности по голосу, проверки подлинности личности по отрезку речевой волны и др., встает проблема оценки параметров модели речеобразования при наличии шума наблюдения | КЗ]. Во многих случаях уровень сопутствующих шумов довольно значителен, что приводит к смещению оцениваемых параметров РС и к снижению разборчивости речи до величин ниже критических [4]. Для повышения разборчивости зашумленной речи применяют методы шумоочистки или фильтрации П^б].

С нашей точки зрения, в настоящее время методам совместной идентификации (опенки параметров) и фильтрации зашумленных РС уделено незначительное внимание. Поэтому целью настоящей работы является теоретическое и экспериментальное исследование зависимости сред неквадрат и чес ко го смещения (СКС) параметров РС и слоговой разборчивости отфильтрованной речи от отношения сигнал/шум (ОСШ).

Математическую модель речеобразования представим ЛРСС моделью РС в дискретном времени, определяемой разностным уравнением вида [1, 6|:

Р ч

/-1 >0

Оно характеризует РС как отклик х,,! - 0,1,2,..., устойчивой нестационарной динамической линейной системы, характеризующей голосовой тракт модели речеобразования, на вход которой действует случайная последовательность »,,/ = 0,5,2,..., вырабатываемая источником голосового возбуждения. Здесь а1 = [, р, параметры авторегрессии (АР), а

6 , j = о,с/, параметры скользящего среднего (СС).

Уравнения состояния и наблюдения модели речеобразования. При решении задачи оптимальной фильтрации зашумленной речи: у/ = х1 + £, где £ - шум наблюдения, от

скалярной модели РС (!) переходят к векторной модели [6], определяемой уравнением состояния

х, = АХ, | + Ьи,,

И уравнением наолюдения

где введены обозначения (для у = 3, /> = 4)

(2) (3)

а\ I 0 0" ' I"

х2 0 I 0 Ь,

' А = ' ь =

% 0 0 I к

л. г _Й4 0 0 0 л.

ег -[1000];

Оптимальное оценивание состояния модели РС. Ставится задача найти оценку х, вектора состояния х,, оптимальную по критерию минимума среднеквадратической погрешности. Для получения оптимальной оценки х, воспользуемся минимизацией эмпирического риска в форме функционала Тихонова [7]

где - дисперсия шума наблюдения, р

(4)

корреляцион-

ная матрица погрешности экстраполяции на один шаг. Тогда искомая оценка ищется гак

х, = а^тшМДх^х.,,...}' ^

Па основе решения поставленной задачи, получаем рекуррентный алгоритм оценки

% = А,.А., + к „[у, -егА(-.*, = 1,2,..., (6)

к.^м^+^еГ'^е/^Ч'-и^.....УЛ><> (7)

с начальными

(8) (9)

условиями: ¿п = м$хи} = хп, V,, = М{( х0 - хо }(х„ — *о)г} ■ Здесь к,, - векторный коэффициент усиления оптимального фильтра, V, ~ вектор погрешности (фильтрации, и -

корреляционная матрица сигнала возбуждения, Е;, - единичная рхр матрица.

Оценка текущей дисперсии шума наблюдения При

отсутствии РС наблюдению подлежит только шум, т.е. у1 - ¿: ■ Полагаем, что шум наблюдения ~ представляет собой стационарный некоррелированный случайный процесс. Тогда для оценки его дисперсии можно воспользоваться следующим рекуррентным соотношением [1]:

Идентификация модели РС. Идентификация, понимаемая в узком смысле, представляет собой процесс определения вектора параметров = [й!(,...,и;, .]' модели РС

(1) по результатам измерения значений / = 0,1,2,..., при отсутствии шума наблюдения и параметров я, =[а,.,,..„а рлЬ'о.,,...^'^? по результатам измерения оптимальных оценок {5},/ = 0,1,2,..., при наличии шума наблюдения. Здесь важно определить влияние ОСИ! на расхождение этих параметров до и после фильтрации.

Пусть параметры аг .....аг„Ьи.,.....К,}1 модели (1)

неизвестны. Введем расширенный вектор результатов измерений: = [л;л;, г,-и1,...,и1 ]''• При этом для оценки искомого вектора параметров модели (I) воспользуемся рекуррентным алгоритмом метода наименьших квадратов (МНК) со взвешиванием, когда минимизации подвергается взвешенная сумма квадратов «невязки» [б]:

= <П>

И=0

где 1><! - «множитель забывания», характеризующий конечную память алгоритма МПК.

В результате последовательная (рекуррентная) оценка ал = 0,1.2,.«* вектора параметров АРСС модели РС (I) осуществляется следующим образом |6];

-к„ я(хг ,а„ ,), « = 1,2,..., (12)

= + с„ =»'_|Рг,_]я„_1, (13)

(И)

с начальными условиями: Ьа=а+ий = 1, а(1=[0.....0,1,0.....0]7,

Р„ = 200Е^,_5, где Е2 , -единичная (2р - 1)х (2р - I) матрица, кая — вектор коррекции сиг нала голосового возбуждения, р = к | -матрица размера (2р - 1) х (2р - 1), обратная корреляционной матрице к ^ М } случайного вектора |п, М -знак математического ожидания.

Заметим, что вектор в, ...................и,.чГ содержит

ненаблюдаемые величины в . Их оценки находятся

по оценкам параметров АРСС: » 8Г,а(), где

После оптимальной линейной фильтрации применяется аналогичный рекуррентный алгоритм (12)^(14) для получения параметров а* = [я'и,...,а'Р.,,b\u...../>',,.,]7 по оптимальным оценкам {i,},/ = 0,1,2,.... Критерием расхождения

a" = [я" и.....a'P.l,b'o.l<...,b'ci.i]T 07 а, =[аи.....ар„Ьп......b4J

служит величина среднеквадратического смещения (СКС) вида

V^ljttWu-aJ- (15)

где / - число параметров, I. - число выборок каждого параметра на интервале наблюдения речевого сигнала.

Оценка разборчивости речи. Па основе исследования свойств преобразования речи на периферии слуховой системы, в работе [8| предложен метод оперативной автоматизированной оценки разборчивости речи, наблюдаемой в шуме. Аналитическое выражение для оценки слоговой разборчивости речи определяется соотношениями

£ = 100 1 +

11,75635

Ы-UhdB)

L{ht!B) - -

1 + 10'

0,0222-(/)c/S + 30)

1 /

Уехр _——

J i 1 + 10

75635

члЦШВ)

(16) (17)

+[(/к/5+ 30)/97.5]" где 5 — слоговая разборчивость речи, выраженная в процентах, ¿{/к/Я) — обобщенный уровень речи, зависящий от ОС111 ¡К{В = 1/¿V) в дБ, - дисперсия отрезка речевого сигнала, наблюдаемого на интервале Т, = I,-Д/> ДI -интервал дискретизации, д = гг;.

Эксперимент. Результаты проверки работоспособности метода рекуррентной идентификации-фильтрации РС получены с использованием системы МАТЬАВ и иллюстрируются рисунками 1, 2 и таблицей 1. Обработке подвергалась зашумленная стандартная фраза [4]: «Э/ин жирные сазаны ушли под палубу», с различными ОСШ. Экспериментальные данные получены для различного числа АР и СС параметров модели РС и для различных значений «множителя забывания» Уф и г,.„ = Д?/1п(1Л'11;|()> обеспечивающих максимум

ОСШ.

Результаты среднеквадратического смещения (СКС) параметров РС после оптимальной линейной фильтрации (ОЛФ) зашумленной речи от параметров чистой речи приведены на рис, 1, С уменьшением ОСШ и числа параметров РС величины СКС уменьшаются. Следовательно, в голосовых кодеках при увеличении уровня входного шума (уменьшении ОСШ) число передаваемых параметров {в частности, коэффициентов линейного предсказания) следует уменьшать. При ОСШ < 5 дБ СКС практически постоянны и зависят только от числа оцениваемых параметров.

Па рис. 2 приведены графики зависимости слоговой разборчивости русской речи от ОСШ при различном числе оцениваемых параметров РС. Штрих-пунктирная кривая справедлива для оценок разборчивости речи, полученных на входе оптимального линейного фильтра (ОЛФ). Сплошные кривые соответствуют оценкам разборчивости речи, получаемым на выходе ОЛФ. С увеличением параметров модели РС разборчивость речи, при различных ОСШ, увеличивается. Так. например, при ОСШ 0 дБ и р-2, 5 = 55.826%, а при ¿> = 14. 5 = 67.294%. Это, по сравнению с разборчивостью до ОЛФ равной 5 = 38.281%, приводит к повышению разборчивости речи на выходе ОЛФ при р = 2 на 17.545% и,

72

T-Comm #12-2014

Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Санников В. Г., Корольков А. А., Герасименко Х. В.

Похожие темы научных работ по математике , автор научной работы — Санников В. Г., Корольков А. А., Герасименко Х. В.

Текст научной работы на тему «Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках»