Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпиричеких мод

Алимурадов Алан Казанферович; Тычков Александр Юрьевич; Чураков Петр Павлович

УДК 621.391; 519.21

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков

ФИЛЬТРАЦИЯ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА МНОЖЕСТВЕННОЙ ДЕКОМПОЗИЦИИ И ОЦЕНКИ ЭНЕРГИИ ЭМПИРИЧЕКИХ МОД

Аннотация. Показано, что эффективность обработки речевых сигналов напрямую зависит от качества устранения помех. Предложено для подавления помех в речевых сигналах использовать метод множественной декомпозиции на эмпирические моды. Разработан алгоритм помехоподавления, основанный на оценке значений энергии отдельных эмпирических мод и их удалении.

Ключевые слова: речевой сигнал, голосовое управление, фильтрация, множественная декомпозиция на эмпирические моды, поверхность энергетической плотности.

Abstract. The article shows that the efficiency of speech signals processing directly depends on the noise eliminating quality. The authors suggest to use a method of empirical mode decomposition for speech signals noise-balancing. The researchers have designed an algorithm of noise reduction based on estimation of energy values of the separate empirical modes and their removing.

Key words: speech signal, voice-activated control, filtering, ensemble empirical mode decomposition, energy density surface.

Введение

В настоящее время системы, работающие с речевыми сигналами, получают все большее распространение в приложениях, где речь является эффективным и удобным средством управления и обмена информацией с техническими устройствами [1]. Разработка системы голосового управления в настоящее время является важной задачей, требующей создания способов и алгоритмов, обеспечивающих высокую достоверность речевых сигналов.

Речевые сигналы являются нестационарными сигналами сложной формы, амплитудные и временные параметры которых индивидуальны для каждого человека. В условиях работы автоматизированных систем голосового управления возникает серьезная проблема регистрации и обработки (фильтрации) сигналов с целью их идентификации и распознавания. Начальные этапы фильтрации речевых сигналов являются важными и определяющими в решении задачи организации системы управления. Ошибки в выделении, а также наличие посторонних шумов приводят к значительному снижению вероятности правильного распознавания речевых сигналов.

Таким образом, проблема разработки новых алгоритмов фильтрации речевых сигналов для систем голосового управления является актуальной и важной.

1. Особенности речевого сигнала

Речевой сигнал - это звук, образуемый артикуляционным аппаратом человека (глоткой, ротовой полостью с языком, легкими, носовой полостью, губами и зубами) с целью языкового общения [2]. Пример речевого сигнала (сонорная фонема глухой согласной) приведен на рис. 1.

мс

Рис. 1. Речевой сигнал

В целом звуки речи подразделяются на вокализованные и невокализованные: вокализованные образуются в результате колебания голосовых связок, невокализованные образуются в результате непериодических колебаний выходящих из легких струй воздуха. Вокализованными являются обычно гласные, почти все глухие согласные относятся к невокализованным. Звонкие согласные образуются путем слияния первых и вторых. Вокализованные и невокализованные звуки исследуются по их высоте, тембру, силе и частотным характеристикам.

Речевой сигнал является переносчиком смысловой информации. Элементарными единицами слуховой информации являются звуки - фонемы, а смысловыми единицами - звучащие слоги, слова и фразы.

Другой важной характеристикой речевого сигнала является частота основного тона - вибрация голосовых связок. Среднее значение этой частоты колеблется у разных людей, и у каждого говорящего имеется отклонение в пределах октавы выше или ниже центральной частоты. Поэтому речевые сигналы не только передают информацию, но и дают сведения о голосовых характеристиках говорящего, что позволяет идентифицировать его по голосу.

2. Обзор существующих методов фильтрации речевых сигналов

Фильтрация речевых сигналов от шумов представляется весьма актуальной задачей. На сегодня представлено большое количество систем и алгоритмов фильтрации речевых сигналов, имеющих определенные преимущества и недостатки, которые обусловлены особенностями речевых сигналов и трудностями адаптации к ним. Сложность адаптации существующих методов и алгоритмов фильтрации объясняется нестационарностью и нелинейностью речевых сигналов.

Технология анализа нестационарных и нелинейных сигналов на сегодня весьма широко используется для решения задач обработки речевых сигналов. К числу таких технологий относятся проведение мультиразрешаю-

щего и мультиполосного анализов, выполняемых с помощью классического Вейвлет-преобразования на основе схемы диадического банка фильтров. Аналогично для решения задачи обработки нестационарных сигналов широкую популярность получил метод скользящего оконного преобразования Фурье [3]. Недостатками этих методов является низкая степень адаптации и сложность реализации математического аппарата (выбор оптимальной базисной функции, ширины скользящего окна и т.д.). Проведенный анализ существующих методов показал перспективность использования нового подхода на основе преобразования Гильберта - Хуанга [4], включающего декомпозицию на эмпирические моды (ДЭМ) и формирование по полученным эмпирическим модам (ЭМ) объемной энергетической поверхности спектра Гильберта.

3. Метод декомпозиции на эмпирические моды

Анализ нестационарных и нелинейных сигналов на основе ДЭМ получил весьма широкое распространение при решении различных задач, в том числе фильтрации речевых сигналов [5]. Основным преимуществом ДЭМ является высокая адаптивность, проявляющаяся в том, что базисные функции, используемые при разложении речевых сигналов, извлекаются непосредственно из самого исходного сигнала и позволяют учитывать только ему свойственные особенности и сложную внутреннюю структуру.

Эмпирические моды, полученные в результате разложения речевого сигнала, могут быть непрерывными, дискретными и должны удовлетворять двум условиям [4]:

1) общее число экстремумов равняется общему числу нулей с точностью до единицы;

2) полусумма верхней огибающей, интерполирующей локальные максимумы, и нижней огибающей, интерполирующей локальные минимумы, близка к нулю.

Данные условия гарантируют симметрию базисных функций (в идеальном случае локальное среднее значение в точности равняется нулю, однако в реальности оно близко к нулю с учетом погрешностей, определяемых точностью вычислений, ошибками округления, видом интерполяции огибающих, а также модификациями алгоритма). При этом процесс извлечения эмпирических мод является итерационным и называется процессом отсеивания [4]. Существуют специальные критерии, используемые для его остановки. Суть алгоритма ДЭМ заключается в выполнении следующих этапов:

1. Определение локальных экстремумов (максимумов и минимумов) сигнала /у (ц):

- значение /-го отсчета /у (ц) является локальным максимумом, если выполняется условие /■ (ti-1) < /■ (() > /у (^+1);

- значение /-го отсчета /■ ) является локальным минимумом, если

выполняется условие /у (ti-1 ) > /у ( ( ) < /у (^+1),

где Ь - дискретные отсчеты времени.

2. Определение верхней в у (^) и нижней gj (^) огибающих сигнала

с помощью кубической сплайн-интерполяции по найденным локальным экстремумам /у ):

в'} (^' ) _ аъ^1 + Ьв^' + св^г + ; (1)

gj ((/) = ан{/3 + Ьн2 + сн{/ + , (2)

где ав, Ьв, св, йв - коэффициенты для каждого значения /-го отсчета верхней огибающей сигнала; ан, Ьн, сн, - коэффициенты для каждого значения /-го

отсчета нижней огибающей сигнала.

3. Вычисление среднего значения огибающих сигнала в соответствии с выражением

в, (^) + g,■ (^)

•V ('*) = ] ] , (3)

2

где Ну (Ц) - среднее значение огибающих сигнала; в у (Ц) и gj (^) - верхняя и

нижняя огибающие исходных сигналов соответственно.

4. Вычисление остатка сигнала по формуле

({1) = /у ({1) - Ну((/^ (4)

где (Ц) - остаток сигнала.

5. Вычисление значения критерия останова. В качестве критерия останова декомпозиции используется значение нормализованной квадратичной разности, определяемое как

(I /у (и) - (и )|)2

/у (и)2

(5)

6. Проверка условия останова. На этом этапе осуществляется сравнение значения остатка сигнала со значением нормализованной квадратичной разности:

- если Ж > Sj (^), то переходят к выполнению действия 1;

- если Ж < (Ц ) и Ну (Ц ) > (Ц), то переходят к выполнению следу-

ющего действия.

7. Вывод мод сигнала. На этом этапе осуществляется вывод мод /■ (^) и

остатка гДО сигнала.

Полученные на первом этапе моды позволяют выполнять эффективное для дальнейшего анализа преобразование Гильберта - Хуанга (ННТ). В результате декомпозиции сигнал представляется в частотно-временной области, что позволяет выявлять скрытые модуляции и области концентрации энергии. Так как декомпозиция основана на данных конкретной локальной временной области сигналов, то она применима и к нестационарным сигналам. С помощью преобразования эмпирических мод можно определить мгновенную частоту как функцию времени, позволяющую получить отчетливое представление о внутренней структуре сигнала. Итоговым результатом является трехмерное представление сигнала в системе координат «энергия - частота - время», построенное в виде 3-мерного спектра Гильберта - Хуанга.

4. Разработка алгоритма фильтрации речевого сигнала

Классический алгоритм ДЭМ при обработке речевых сигналов, включающих в себя кратковременные и низкоуровневые информативные участки, сталкивается с не решаемой для себя проблемой. В процессе отсеивания при наличии кратковременных и низкоуровневых составляющих возникает неоднозначность в построении огибающих, что приводит к смешиванию ЭМ. Решение данной проблемы изложено в публикации [6], в которой представлен новый алгоритм, включающий в себя множественную декомпозицию на эмпирические моды (МДЭМ). Новизна алгоритма отсеивания заключается в многократном добавлении белого шума к сигналу и вычислении среднего значения ЭМ по классическому методу ДЭМ как конечного истинного результата:

где х(0 - сигнал; Wl(f) - белый шум.

Определенный, не бесконечно малый по амплитуде белый шум необходим, чтобы получить множество всевозможных решений в процессе отсеивания. Добавление белого шума создает равномерную картину в частотновременной области, т.е. сопоставляет информативные кратковременные и низкоуровневые участки сигнала в определенном масштабе на протяжении всей длительности сигнала. Данный подход использует преимущество статистических характеристик белого шума в месте его действительного присутствия.

Как отмечалось ранее, итоговым результатом МДЭМ является трехмерное представление сигнала, построенное в системе координат «энергия -частота - время». Отметим важное преимущество представления уровня сигнала в виде энергии, заключающееся в вычислении энергии сигнала по значению амплитуды [7]:

где Е - энергия сигнала; х(0 - сигнал.

Из выражения (6) следует, что низкоуровневое мгновенное значение амплитуды шумовой помехи в определенный момент времени при вычислении энергии автоматически занижается. К примеру, в момент времени ^ функция х(0 принимает значение шумовой составляющей 0,2, энергия при этом принимает значение 0,04, что является отмеченным выше преимуществом.

Принимая во внимание вышеизложенное и учитывая, что метод МДЭМ является наиболее адаптивным в обработке речевых сигналов, авторами представлен алгоритм фильтрации речевых сигналов от шумов путем оценивания энергии эмпирических мод (см. рис. 2).

Для анализа предложенного алгоритма авторами был рассмотрен речевой сигнал - звук согласной звонкой фонемы длительностью 20 мс.

Алгоритм (рис. 3) базируется на анализе энергии спектра Гильберта речевого сигнала (блок 3) и в отдельности каждой его ЭМ (блок 4), определении уровня низкоэнергетических помех (блок 5) и соответствующего вычисления низкоэнергетических ЭМ (блоки 6, 7, 8) [8].

X/ (*) = X(*) + и>1 (*),

(6)

(7)

.д 2______________________I____________________I____________________I_____________________I____________________I____________________I_____________________I____________________

' 0 200 400 600 800 1000 1200 1400 1600

£мс

Рис. 2. Речевой сигнал звука согласной звонкой фонемы

В результате проведенных экспериментов было доказано, что методика разложения МДЭМ [5] позволяет выделить из речевого сигнала низкоэнергетические (компенсирующие, шумовые) и высокоэнергетические (информативные) ЭМ.

Низкоэнергетические компенсирующие ЭМ - это результат несовершенства самого алгоритма, критериев остановки процесса отсеивании и неточностей при вычислениях. Объемная энергетическая поверхность спектра Гильберта компенсирующих мод приведена на рис. 4. Их появление не связано с какими-либо физическими или математическими особенностями рассматриваемых сигналов, а объясняется только лишь несовершенством вычислительной процедуры. Такие компоненты являются причиной избыточности разложения, искажающей его истинную картину.

Появление низкоэнергетических шумовых ЭМ в разложении объясняется наличием в исходном речевом сигнале шума, объемная энергетическая поверхность спектра Гильберта которых приведена на рис. 5.

Другая (альтернативная) категория - высокоэнергетические информативные ЭМ, имеющие четкий физический смысл и отражающие внутреннюю структуру самого речевого сигнала. Объемная энергетическая поверхность спектра Гильберта информативных мод приведена на рис. 6.

Представленный авторами алгоритм позволяет идентифицировать информативные ЭМ путем оценивания их энергии. Основные преимущества данного подхода заключаются в том, что можно определять, впоследствии исключать из рассмотрения шумовые моды и определять в сигналах компенсирующие. В противоположность шумовым модам (высокочастотным), встречающимся на начальных уровнях разложения, компенсирующие обычно принадлежат к числу низкочастотных и в сумме дают значения, близкие к нулю. Таким образом, удаляя компенсирующие и шумовые ЭМ, решается проблема эффективной фильтрации речевых сигналов (рис. 7).

___________Ї____________

'ввод речевого еигнала

Е ПОМЕХАМИ

I ФИЛЬТРАЦИЯ

2 МНОЖЕЕТВЕННАЯ ДЕКОМПОЗИЦИЯ НА ЗМПИРИЧЕЕКИЕ МОДЫ 1МДЭМ)

І

3 ПОЕТРОЕНИЕ ЕПЕКГРА 4 ПОСТРОИМ СГЕКТРА

ГИЛЬБЕРТА ЕИГНАЛА ГИЛЬБЕРТА ДЛЯ КАЖДОЙ ЭМ

і'

5 ОПРЕДЕЛЕНИЕ УРОВНЯ НИЗКОЭНЕГРИТИЧЕСКИХ ПОТЕХ НА СПЕКТРЕ ГИЛЬБЕРТА

/ СРАВНЕНИЕ^-* 1НЕРГИИ ЭМ С УРОВНЕМ і НИЗКОЭНЕГРИТИЧЕСКИХ \ ПОМЕХ /

ВЫДЕЛЕНИЕ 8 ВЫДЕЛЕНИЕ

НИЗКОЭНЕРГИТИЧЕСКИХ ВЫСОКОЭНЕРГИТИЧЕСКИХ

ШУМОВЫХ КОМПЕНСИРУЮЩИХ эм ИНФОРМАТИВНЫХ ЭМ

________I

ВЫВОД РЕЧЕВОГО ЕИГНАЛА БЕЗ ПОМЕХ

( КОНЕЦ )

Рис. 3. Алгоритм фильтрации речевого сигнала

г)

Рис. 4. Объемная поверхность спектра Гильберта компенсирующих ЭМ: а - ЭМ 7; б - ЭМ 8; в - ЭМ 9; г - ЭМ 10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

б)

Рис. 5. Объемная поверхность спектра Гильберта шумовых ЭМ: а - ЭМ 2; б - ЭМ 3

б)

Рис. 6. Объемная поверхность спектра Гильберта информативных ЭМ: а - ЭМ 5; б - ЭМ 6

те

б)

Рис. 7. Результаты фильтрации речевого сигнала: а - объемная поверхность спектра Гильберта речевого сигнала с помехами; б - объемная поверхность спектра Гильберта отфильтрованного сигнала

Для количественной оценки качества фильтрации была использована среднеквадратическая ошибка (СКО) отклонения восстановленного сигнала у/ (на выходе фильтра) от исходного сигнала х/ [9]:

СКО =

х 100%.

(8)

где п - объем выборки.

В табл. 1 приведены значения СКО для двух наиболее распространенных и предложенного авторами алгоритмов при подавлении высокочастотных и низкочастотных помех.

Таблица 1

Алгоритмы Фурье- преобразование Вейвлет- преобразование Предложенный алгоритм

СКО 18,1 13,0 7,8

Заключение

Итогом проведенных в статье исследований являются следующие теоретические и практические результаты:

- разработан адаптивный алгоритм фильтрации речевых сигналов на основе множественной декомпозиции на эмпирические моды;

- предложен метод выделения информативных мод речевого сигнала, основанный на построении спектра Гильберта и измерении энергии эмпирических мод;

- проведено экспериментальное исследование алгоритма на примере речевого сигнала звука сонорной гласной фонемы, результатом которого стало повышение значения СКО на З % по сравнению с известными алгоритмами-аналогами.

Список литературы

1. Новоселова, С. А. Выделение и предобработка сигналов в системах автоматического распознавания речевых команд : дис. ... канд. техн. наук: 05.11.1Т. I Новоселова С. А. - Владимир, 20іі. - П8 с.

2. Фролов, А. В. Синтез и распознавание речи. Современные решения I А. В. Фролов, Г. В. Фролов. - М. : Связь, 2003. - 2іб с.

3. Ермоленко, Т. В. Применение вейвлет-анализа для определения границ речи в зашумленном сигнале I Т. В. Ермоленко, А. В. Лащенко II Штучний інтелект -2009. - № 4. - С. 35-40.

4. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis I N. E. Huang, Z. Shen, S. R. Long II Proc. R.: Soc. Lond. A. - 1998. - V. 454. - P. 903-995.

5. Клионский, Д. М. Алгоритмы очистки от шума нестационарных сигналов на основе декомпозиции на эмпирические моды I Д. М. Клионский II Теория и методы цифровой обработки : докл. і0-й Междунар. конф. цифровой обработки и ее применение. - СПб. : Изд-во ЛЭТИ, 2010. - С. 192-19б.

6. Wu, Z. Ensemble empirical mode decomposition a noise-assisted data analysis method I Z. Wu, N. E. Huang II Calverton, MD 20Т05, USA, NASA Goddard Space Flight Center Greenbelt.

Т. Баскаков, С. И. Радиотехнические цепи и сигналы I С. И. Баскаков. - М. : Высшая школа, 2000. - 4б4 с.

8. Тычков, А. Ю. Применение технологии EMD для повышения точности получения достоверной информации об исследуемом объекте или явлении I А. Ю. Тычков II Модели, системы, сети в экономике, технике, природе и обществе : сб. тр. I Всерос. науч.-техн. конф. студентов и молодых ученых. - Пенза, 2011. - С. 49-5б.

9. Cohen, А. Compression of Multichannel ECG Through Multichannel Long Term Prediction I А. Cohen, Y. Zigel II Proc. R.: IEEE BME magazine. - 1998. - V. П. -P. 109-115.

Алимурадов Алан Казанферович

аспирант, Пензенский государственный университет

E-mail: [email protected]

Alimuradov Alan Kazanferovich Postgraduate student,

Penza State University

Тычков Александр Юрьевич кандидат технических наук, ассистент, кафедра информационно-измерительной техники, Пензенский государственный университет

E-mail: [email protected]

Чураков Петр Павлович

доктор технических наук, профессор, кафедра информационно-измерительной техники, Пензенский государственный университет

E-mail: [email protected]

Tychkov Alexander Yuryevich Candidate of engineering sciences, assistant, sub-department of information-measuring technology, Penza State University

Churakov Petr Pavlovich Doctor of engineering sciences, professor, sub-department of information-measuring technology, Penza State University

УДК 621.391; 519.21 Алимурадов, А. К.

Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2012. - № 2 (22). - С. 50-61.

Текст научной работы на тему «Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпиричеких мод»