Научная статья на тему 'Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках'

Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках Текст научной статьи по специальности «Математика»

CC BY
227
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / ШУМ НАБЛЮДЕНИЯ / КОДИРОВАНИЕ РЕЧИ / ОЦЕНКА ПАРАМЕТРОВ / ФИЛЬТРАЦИЯ / СИНТЕЗ АЛГОРИТМА СОВМЕСТНОЙ ОЦЕНКИ ФИЛЬТРАЦИИ / РАЗБОРЧИВОСТЬ РЕЧИ

Аннотация научной статьи по математике, автор научной работы — Санников В. Г., Корольков А. А., Герасименко Х. В.

В системах цифровой радиотелефонии при организации речевой связи важной является задача обеспечения эффективной и помехоустойчивой передачи речевых сигналов (РС) по каналу связи. Под эффективной понимают передачу максимального количества полезных или минимально избыточных цифровых данных о РС; под помехоустойчивой передачу РС в условиях помех и искажений с высокими качественными показателями. Большинство международных и региональных стандартов эффективного (низкоскоростного) кодирования РС принадлежат к клас су линейного предсказания с анализом через синтез (ЛПАС) и интенсивно исследуются во всем мире. ЛПАС голосовые кодеки обеспечивают высокое качество синтезированной речи при усло вии, что на их входы поступают РС без шума. Качество синтезированной речи резко падает при наблюдении и обработке зашумленной речи. Поэтому актуальной является задача синтеза ЛПАС кодеков с повышенной помехоустойчивостью к шумам наблюдения. На основе авторегрессион ных моделей РС и коэффициентов линейного предсказания (КЛП) формируются расширенные уравнения состояния и наблюдения РС в шуме. Путем минимизации эмпирического риска в виде регуляризирующего функционала Тихонова синтезируется рекуррентный алгоритм совместной оценки КЛП и фильтрации РС. Результаты экспериментального оценивания КЛП по зашумленной речи показывают хорошую способность алгоритма подстраиваться к высоким уровням шумов и получать оценки, близкие к истинным. Оптимальная линейная фильтрация зашумленной речи по зволяет при малых отношениях сигнал/шум ( 0 дБ) повысить слоговую разборчивость на 30 15 %.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Санников В. Г., Корольков А. А., Герасименко Х. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках»

Метод совместного оценивания параметров и фильтрации зашумленной речи в голосовых кодеках

Ключевые слова: в речевой сигнал, шум наблюдения, кодирование речи, оценка параметров, фильтрация, синтез алгоритма совместной оценки - фильтрации, разборчивость речи.

В системах цифровой радиотелефонии при организации речевой связи важной является задача обеспечения эффективной и помехоустойчивой передачи речевых сигналов (РС) по каналу связи. Под эффективной понимают передачу максимального количества полезных или минимально избыточных цифровых данных о РС; под помехоустойчивой — передачу РС в условиях помех и искажений с высокими качественными показателями. Большинство международных и региональных стандартов эффективного (низкоскоростного) кодирования РС принадлежат к клас-су линейного предсказания с анализом через синтез (ЛПАС) и интенсивно исследуются во всем мире. ЛПАС голосовые кодеки обеспечивают высокое качество синтезированной речи при усло-вии, что на их входы поступают РС без шума. Качество синтезированной речи резко падает при наблюдении и обработке зашумленной речи. Поэтому актуальной является задача синтеза ЛПАС кодеков с повышенной помехоустойчивостью к шумам наблюдения. На основе авторегрессион-ных моделей РС и коэффициентов линейного предсказания (КЛП) формируются расширенные уравнения состояния и наблюдения РС в шуме. Путем минимизации эмпирического риска в виде регуляризирующего функционала Тихонова синтезируется рекуррентный алгоритм совместной оценки КЛП и фильтрации РС. Результаты экспериментального оценивания КЛП по зашумленной речи показывают хорошую способность алгоритма подстраиваться к высоким уровням шумов и получать оценки, близкие к истинным. Оптимальная линейная фильтрация зашумленной речи по-зволяет при малых отношениях сигнал/шум ( 0 дБ) повысить слоговую разборчивость на 30 --15 %.

Санников В.Г., Корольков АА, Герасименко Х.В., МТУСИ

Введение

При проектировании различных систем обработки и передачи речевых сигналов (РС), к которым относятся системы: эффективного кодирования (сжатия) РС, голосовой биометрии, распознавания речи и аутентификации личности по голосу, проверки подлинности личности по отрезку речевой волны и др., встает проблема оценки параметров модели речеобразования при наличии шума наблюдения | КЗ]. Во многих случаях уровень сопутствующих шумов довольно значителен, что приводит к смещению оцениваемых параметров РС и к снижению разборчивости речи до величин ниже критических [4]. Для повышения разборчивости зашумленной речи применяют методы шумоочистки или фильтрации П^б].

С нашей точки зрения, в настоящее время методам совместной идентификации (опенки параметров) и фильтрации зашумленных РС уделено незначительное внимание. Поэтому целью настоящей работы является теоретическое и экспериментальное исследование зависимости сред неквадрат и чес ко го смещения (СКС) параметров РС и слоговой разборчивости отфильтрованной речи от отношения сигнал/шум (ОСШ).

Математическую модель речеобразования представим ЛРСС моделью РС в дискретном времени, определяемой разностным уравнением вида [1, 6|:

Р ч

/-1 >0

Оно характеризует РС как отклик х,,! - 0,1,2,..., устойчивой нестационарной динамической линейной системы, характеризующей голосовой тракт модели речеобразования, на вход которой действует случайная последовательность »,,/ = 0,5,2,..., вырабатываемая источником голосового возбуждения. Здесь а1 = [, р, параметры авторегрессии (АР), а

6 , j = о,с/, параметры скользящего среднего (СС).

Уравнения состояния и наблюдения модели речеобразования. При решении задачи оптимальной фильтрации зашумленной речи: у/ = х1 + £, где £ - шум наблюдения, от

скалярной модели РС (!) переходят к векторной модели [6], определяемой уравнением состояния

х, = АХ, | + Ьи,,

И уравнением наолюдения

где введены обозначения (для у = 3, /> = 4)

(2) (3)

а\ I 0 0" ' I"

х2 0 I 0 Ь,

' А = ' ь =

% 0 0 I к

л. г _Й4 0 0 0 л.

ег -[1000];

Оптимальное оценивание состояния модели РС. Ставится задача найти оценку х, вектора состояния х,, оптимальную по критерию минимума среднеквадратической погрешности. Для получения оптимальной оценки х, воспользуемся минимизацией эмпирического риска в форме функционала Тихонова [7]

где - дисперсия шума наблюдения, р

(4)

корреляцион-

ная матрица погрешности экстраполяции на один шаг. Тогда искомая оценка ищется гак

х, = а^тшМДх^х.,,...}' ^

Па основе решения поставленной задачи, получаем рекуррентный алгоритм оценки

% = А,.А., + к „[у, -егА(-.*, = 1,2,..., (6)

к.^м^+^еГ'^е/^Ч'-и^.....УЛ><> (7)

с начальными

(8) (9)

условиями: ¿п = м$хи} = хп, V,, = М{( х0 - хо }(х„ — *о)г} ■ Здесь к,, - векторный коэффициент усиления оптимального фильтра, V, ~ вектор погрешности (фильтрации, и -

корреляционная матрица сигнала возбуждения, Е;, - единичная рхр матрица.

Оценка текущей дисперсии шума наблюдения При

отсутствии РС наблюдению подлежит только шум, т.е. у1 - ¿: ■ Полагаем, что шум наблюдения ~ представляет собой стационарный некоррелированный случайный процесс. Тогда для оценки его дисперсии можно воспользоваться следующим рекуррентным соотношением [1]:

Идентификация модели РС. Идентификация, понимаемая в узком смысле, представляет собой процесс определения вектора параметров = [й!(,...,и;, .]' модели РС

(1) по результатам измерения значений / = 0,1,2,..., при отсутствии шума наблюдения и параметров я, =[а,.,,..„а рлЬ'о.,,...^'^? по результатам измерения оптимальных оценок {5},/ = 0,1,2,..., при наличии шума наблюдения. Здесь важно определить влияние ОСИ! на расхождение этих параметров до и после фильтрации.

Пусть параметры аг .....аг„Ьи.,.....К,}1 модели (1)

неизвестны. Введем расширенный вектор результатов измерений: = [л;л;, г,-и1,...,и1 ]''• При этом для оценки искомого вектора параметров модели (I) воспользуемся рекуррентным алгоритмом метода наименьших квадратов (МНК) со взвешиванием, когда минимизации подвергается взвешенная сумма квадратов «невязки» [б]:

= <П>

И=0

где 1><! - «множитель забывания», характеризующий конечную память алгоритма МПК.

В результате последовательная (рекуррентная) оценка ал = 0,1.2,.«* вектора параметров АРСС модели РС (I) осуществляется следующим образом |6];

-к„ я(хг ,а„ ,), « = 1,2,..., (12)

= + с„ =»'_|Рг,_]я„_1, (13)

(И)

с начальными условиями: Ьа=а+ий = 1, а(1=[0.....0,1,0.....0]7,

Р„ = 200Е^,_5, где Е2 , -единичная (2р - 1)х (2р - I) матрица, кая — вектор коррекции сиг нала голосового возбуждения, р = к | -матрица размера (2р - 1) х (2р - 1), обратная корреляционной матрице к ^ М } случайного вектора |п, М -знак математического ожидания.

Заметим, что вектор в, ...................и,.чГ содержит

ненаблюдаемые величины в . Их оценки находятся

по оценкам параметров АРСС: » 8Г,а(), где

После оптимальной линейной фильтрации применяется аналогичный рекуррентный алгоритм (12)^(14) для получения параметров а* = [я'и,...,а'Р.,,b\u...../>',,.,]7 по оптимальным оценкам {i,},/ = 0,1,2,.... Критерием расхождения

a" = [я" и.....a'P.l,b'o.l<...,b'ci.i]T 07 а, =[аи.....ар„Ьп......b4J

служит величина среднеквадратического смещения (СКС) вида

V^ljttWu-aJ- (15)

где / - число параметров, I. - число выборок каждого параметра на интервале наблюдения речевого сигнала.

Оценка разборчивости речи. Па основе исследования свойств преобразования речи на периферии слуховой системы, в работе [8| предложен метод оперативной автоматизированной оценки разборчивости речи, наблюдаемой в шуме. Аналитическое выражение для оценки слоговой разборчивости речи определяется соотношениями

£ = 100 1 +

11,75635

Ы-UhdB)

L{ht!B) - -

1 + 10'

0,0222-(/)c/S + 30)

1 /

Уехр _——

J i 1 + 10

75635

члЦШВ)

(16) (17)

+[(/к/5+ 30)/97.5]" где 5 — слоговая разборчивость речи, выраженная в процентах, ¿{/к/Я) — обобщенный уровень речи, зависящий от ОС111 ¡К{В = 1/¿V) в дБ, - дисперсия отрезка речевого сигнала, наблюдаемого на интервале Т, = I,-Д/> ДI -интервал дискретизации, д = гг;.

Эксперимент. Результаты проверки работоспособности метода рекуррентной идентификации-фильтрации РС получены с использованием системы МАТЬАВ и иллюстрируются рисунками 1, 2 и таблицей 1. Обработке подвергалась зашумленная стандартная фраза [4]: «Э/ин жирные сазаны ушли под палубу», с различными ОСШ. Экспериментальные данные получены для различного числа АР и СС параметров модели РС и для различных значений «множителя забывания» Уф и г,.„ = Д?/1п(1Л'11;|()> обеспечивающих максимум

ОСШ.

Результаты среднеквадратического смещения (СКС) параметров РС после оптимальной линейной фильтрации (ОЛФ) зашумленной речи от параметров чистой речи приведены на рис, 1, С уменьшением ОСШ и числа параметров РС величины СКС уменьшаются. Следовательно, в голосовых кодеках при увеличении уровня входного шума (уменьшении ОСШ) число передаваемых параметров {в частности, коэффициентов линейного предсказания) следует уменьшать. При ОСШ < 5 дБ СКС практически постоянны и зависят только от числа оцениваемых параметров.

Па рис. 2 приведены графики зависимости слоговой разборчивости русской речи от ОСШ при различном числе оцениваемых параметров РС. Штрих-пунктирная кривая справедлива для оценок разборчивости речи, полученных на входе оптимального линейного фильтра (ОЛФ). Сплошные кривые соответствуют оценкам разборчивости речи, получаемым на выходе ОЛФ. С увеличением параметров модели РС разборчивость речи, при различных ОСШ, увеличивается. Так. например, при ОСШ 0 дБ и р-2, 5 = 55.826%, а при ¿> = 14. 5 = 67.294%. Это, по сравнению с разборчивостью до ОЛФ равной 5 = 38.281%, приводит к повышению разборчивости речи на выходе ОЛФ при р = 2 на 17.545% и,

72

T-Comm #12-2014

i Надоели баннеры? Вы всегда можете отключить рекламу.