Научная статья на тему 'Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов'

Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
649
79
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВЫЕ ТЕХНОЛОГИИ / АДАПТИВНАЯ ОБРАБОТКА / РЕЧЕВЫЕ СИГНАЛЫ / ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ / SPEECH TECHNOLOGIES / ADAPTIVE PROCESSING / VOICE SIGNALS / EMPIRICAL MODE DECOMPOSITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович, Квитка Юрий Сергеевич

Рассмотрены проблемы применения адаптивных методов обработки речевых сигналов. Представлены теоретические исследования методов декомпозиции на эмпирические моды для анализа нелинейных и нестационарных сигналов, обоснование метода комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ) для решения задач обработки речевых сигналов. Приведены результаты экспериментальных исследований, направленных на определение оптимальных параметров работы метода КМДЭМ для речевых сигналов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович, Квитка Юрий Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION COMPLEMENTARY ENSEMBLE EMPIRICAL MODE DECOMPOSITION FOR ANALYSIS OF SPEECH SIGNALS

The paper considers the problem of applying adaptive methods of speech signal processing. Theoretical studies on the decomposition methods for the analysis of the empirical mode of nonlinear and non-stationary signals. The substantiation of the method of complementary ensemble empirical mode decomposition (CEEMD) for solving the problems of speech signal processing. The results of experimental studies aimed at determining the optimal parameters of the method KMDEM for speech signals.

Текст научной работы на тему «Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов»

УДК 621.391; 519.21

2014,. № 4(10)

69

А. К. Алимурадов, Ю. С. Квитка

ПРИМЕНЕНИЕ КОМПЛЕМЕНТАРНОЙ МНОЖЕСТВЕННОЙ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ ДЛЯ АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

A. K. Alimuradov, Yu. S. Kvitka

APPLICATION COMPLEMENTARY ENSEMBLE EMPIRICAL MODE DECOMPOSITION FOR ANALYSIS OF SPEECH SIGNALS

Аннотация. Рассмотрены проблемы применения адаптивных методов обработки речевых сигналов. Представлены теоретические исследования методов декомпозиции на эмпирические моды для анализа нелинейных и нестационарных сигналов, обоснование метода комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ) для решения задач обработки речевых сигналов. Приведены результаты экспериментальных исследований, направленных на определение оптимальных параметров работы метода КМДЭМ для речевых сигналов.

Abstract. The paper considers the problem of applying adaptive methods of speech signal processing. Theoretical studies on the decomposition methods for the analysis of the empirical mode of nonlinear and non-stationary signals. The substantiation of the method of complementary ensemble empirical mode decomposition (CEEMD) for solving the problems of speech signal processing. The results of experimental studies aimed at determining the optimal parameters of the method KMDEM for speech signals.

Ключевые слова: речевые технологии, адаптивная обработка, речевые сигналы, декомпозиция на эмпирические моды.

K e y words: speech technologies, adaptive processing, voice signals, empirical mode decomposition.

В настоящее время понятие «обработка речевых сигналов» имеет достаточно широкое значение, которое включает в себя вид, задачи, способы и методы, алгоритмы, средства и инструменты обработки.

Речевые сигналы представляют собой нестационарные (квазипериодические) и нелинейные сигналы сложной формы, состоящие из звуков, отождествляемых значимые единицы языка - фонемы - в предложения и слова. При обработке речевых сигналов, как правило, оперируют не исходным сигналом, а его параметрами, вычисленными с помощью его цифрового представления. Все информативные параметры можно разделить на три группы: амплитудночастотные, спектрально-временные и кепстральные.

Для инженеров-исследователей и разработчиков наибольший интерес вызывает поиск адаптивных методов анализа и обработки речевых сигналов. На сегодняшний день для их анализа используются временная, частотная и частотно-временная области обработки [1]. Во временной области применяются методы с использованием корреляционной и автокорреляционной функций, в частотной области - методы, основанные на использовании преобразования Фурье и нахождения кепстра. Оба подхода не адаптированы ко всем задачам обработки

70

Измерение. Мониторинг. Управление. Контроль

речевых сигналов. Так, из-за нестационарности они не позволяют фиксировать кратковременные локальные изменения в сигналах, что приводит к некорректному выявлению уникальных свойств и информативных параметров речи. Немного лучше ситуация обстоит в частотновременной области, где применяется метод вейвлет-преобразования. Его особенность - использование базисов, с помощью которых можно обрабатывать нестационарные сигналы [2]. Недостатком вейвлет-преобразования является сложность в подборе адаптированного базиса из-за особенностей, свойственных речевому сигналу: зависимость параметров и характеристик от эмоциональной составляющей, тембра, высоты, громкости и длительности сигнала.

Все вышеперечисленное подчеркивает актуальность выбора нового метода адаптивной обработки и анализа речевых сигналов.

Декомпозиция на эмпирические моды

При обработке нестационарных и нелинейных сигналов, таких как речевые, необходимо проводить кратковременный анализ локальных явлений. Математический аппарат - декомпозиция на эмпирические моды (ДЭМ) - представляет собой итерационную вычислительную процедуру отсеивания, в результате которой сигнал раскладывается на эмпирические моды (ЭМ), или внутренние колебания [3]. Особенность ДЭМ заключается в том, что базисные функции, используемые для разложения в процедуре отсеивания, извлекаются непосредственно из исходного сигнала. Разложение на ЭМ позволяет анализировать кратковременные локальные изменения в сигнале, поэтому данный метод может быть использован при обработке нелинейных и нестационарных сигналов. При декомпозиции модель сигнала не задается заранее - ЭМ вычисляются в ходе процедуры отсеивания: по характерным точкам сигнала, например, по экстремумам, строится функция, называющаяся огибающей сигнала. У каждого сигнала имеются локальные экстремумы: локальные максимумы и минимумы. В результате строятся две огибающие: нижняя, построенная по точкам локального минимума, и верхняя, построенная по точкам локального максимума. При построении огибающих в качестве приближающих функций используются кубические сплайны. Сама же эмпирическая мода обладает двумя свойствами:

1. Количество экстремумов и количество пересечений нуля не должны отличаться более чем на единицу.

2. Среднее значение, которое определяется по двум огибающим, должно быть равно нулю.

В общем виде алгоритм метода выглядит следующим образом [4]:

1. Определение локальных экстремумов (максимумов и минимумов) сигнала fj (t 7):

- значение 7-го отсчета fj (t 7) является локальным максимумом, если выполняется условие f ) < f ( )> fj(t7+i);

- значение 7-го отсчета fj (t7) является локальным минимумом, если выполняется условие fj (t7_1 )> fj (t7 )< fj(t7+1), где t7 - дискретные отсчеты времени.

2. Определение верхней ej (t7) и нижней gj (t7) огибающих сигнала с помощью кубической сплайн-интерполяции по найденным локальным экстремумам fj (t7):

ej (t7) = aBti3 + bBt,2 + CBt7 + dB; (1)

g j (t7) = aHt73 + bHt72 + CHt7 + dH , (2)

где aB , bB , cB , dB - коэффициенты для каждого значения 7-го отсчета верхней огибающей сигнала; aH , bH , cH , dH - коэффициенты для каждого значения 7-го отсчета нижних огибающих сигнала.

3. Вычисление среднего значения огибающих сигнала в соответствии с выражением

hj (t7)

ej(t,) + gj(t,)

2

(3)

71

..........................................................

где hj (tj) - среднее значение огибающих сигнала; ej(t,) и gj (t,)

ющие исходных сигналов соответственно.

4. Вычисление остатка сигнала по формуле

верхняя и нижняя огиба-

sj (t,) = fj (t,) - hj (t,)’

(4)

где Sj (t,) - остаток сигнала.

5. Вычисление значения критерия останова. В качестве критерия останова декомпозиции используется значение нормализованной квадратичной разности, определяемое как

П

SD = Z 1

(\fj (t,) - Sj (t, )|)2

fj (t, )2

(5)

6. Проверка условия останова. На этом этапе осуществляется сравнение значения остатка сигнала со значением нормализованной квадратичной разности. Если SD> Sj (t,), то переходят к выполнению действия 1; если SD<Sj (t,) и hj (t, ) > sj (t,), то переходят к выполнению следующего действия.

7. Вывод мод сигнала. На этом этапе осуществляется вывод мод f (t) и остатка rv(t) сигнала.

Недостатками ДЭМ являются:

- частое смешивание нескольких мод, которые интерпретируются как одна;

- получение ЭМ, состоящих из участков сигнала несоизмеримых масштабов или участков соизмеримых масштабов, но находящихся в различных точках ЭМ.

Данные недостатки являются следствием нестационарности исходного речевого сигнала.

Множественная декомпозиция на эмпирические моды

Для решения обозначенной проблемы предложен новый метод анализа речевых сигналов, основанный на многократном добавлении к сигналу белого шума и вычислении среднего значения ЭМ как конечного истинного результата. Данный метод называется множественной декомпозицией на эмпирические моды (МДЭМ) [5]. Конечный, не бесконечно малый по амплитуде белый шум делает сигналы в ЭМ сопоставимыми со значениями участков сигнала несоизмеримых масштабов и находящихся в различных точках ЭМ для получения всех возможных решений в процессе отсеивания. Таким образом, анализируемый сигнал представляет собой объединение сигнала и шума:

fj(t,) = xj(t,) + nj(t, X (6)

где Xj (t,) - исходный речевой сигнал; nj (t,) - белый шум.

Данный подход в полной мере использует преимущество статистических характеристик белого шума для обнаружения слабых периодических или квазипериодических сигналов. Таким образом, МДЭМ является более точным способом анализа данных, чем ДЭМ, посредством добавления белого шума.

Комплементарная множественная декомпозиция на эмпирические моды

Использование белого шума в МДЭМ для решения проблемы смешивания ЭМ порождает в сигнале новый шумовой остаток, влияющий на реконструкцию исходного сигнала. По этой причине был предложен улучшенный метод МДЭМ с внесением дополнительного белого шума, называющегося комплементарной множественно эмпирической декомпозицией [6]. В этом методе остаток белого шума может быть удален с помощью пар дополнительного множества ЭМ с прямыми и инверсными значениями добавленного белого шума: 7

' М1" "1 1" S

= *

_ М2 _ 1 -1 n

(7)

72

Измерение. Мониторинг. Управление. Контроль

где s - первоначальные данные; n - добавленный белый шум; Ых - сумма первоначальных данных с белым шумом; М2 - сумма первоначальных данных с инверсным белым шумом.

В КМДЭМ множество ЭМ, полученных при добавлении белого шума, порождает ЭМ с прямым остатком добавленных белых шумов, точно так же множество ЭМ, полученных при добавлении инверсного белого шума, порождает ЭМ с инверсным остатком добавленных белых шумов. Таким образом, итоговое множество ЭМ представляет собой ЭМ с прямыми и отрицательными шумами. Сравнивая КМДЭМ с МДЭМ можно заключить, что в первом случае возможна значительная экономия времени, так как парные шумы эффективно ликвидируют остаток белого шума в ЭМ полностью независимо от того, сколько шумов использовалось.

Следует выделить общие правила в МДЭМ и КМДЭМ:

1. Добавление шума в МДЭМ может заставить высокочастотную составляющую быть «замаскированной», если количество циклов не будет достаточно большим.

2. Энергетический уровень добавленного шума должен быть на уровне встроенного шума (если уровень известен), в противном случае добавленный уровень помех не должен быть больше, чем 20 % от исходного сигнала.

Важными исходными параметрами для МДЭМ и КМДЭМ является амплитудный (или энергетический) уровень добавляемого белого шума (є) и количество итераций вычисления

ЭМ (N).

Применение декомпозиции для анализа речевых сигналов

Принимая во внимание преимущества и недостатки вышеизложенных методов декомпозиции, провели экспериментальное исследование метода КМДЭМ как наиболее адаптивного к нестационарным и нелинейным сигналам. Исследование направлено на определение оптимальных значений уровня добавляемого белого шума и количества итераций вычисления ЭМ для последующего эффективного анализа речевых сигналов.

Для исследования авторами рассмотрен речевой сигнал - отрезок звука согласной звонкой фонемы «а» длительностью 30 мс. Длительность одной фонемы варьируется от 10 до 25 мс, поэтому обработка речевых сигналов осуществляется последовательно отрезками в среднем по 10-30 мс. Считается, что речевые сигналы такой длительности сохраняют целостность слуховой информации фонемы. Речевой сигнал зарегистрирован с посторонними шумами с соотношением сигнал/шум 30 дБ, частота дискретизации 8000 Гц, 16 бит [7] (рис. 1).

Рис. 1. Речевой сигнал - звук согласной звонкой фонемы «а»

Исследование проводилось в пакете прикладных программ для решения технических и математических задач - MATLAB 7.0.1 - и состояло из двух частей:

1. Определение оптимального значения добавляемого белого шума проводилось с уровнями шума - 0,25, 0,5, 1,0 и 3,0.

2. Определение количества итераций вычисления ЭМ проводилось со значениями -10, 100, 1000.

На рис. 2-5 приведены результаты исследования.

2014,. № 4(10)

73

а)

б)

яв imc і™ зав не

в)

г)

Рис. 2. Эмпирические моды 3 - 6 при є = 0,25; N = 100: а - ЭМ 3; б - ЭМ 4; в - ЭМ 5; г - ЭМ 6

а)

б)

в) г)

Рис. 3. Спектральное представление эмпирических мод 3 - 6 при є = 0,25; N = 100: а - спектральное представление ЭМ 3; б - спектральное представление ЭМ 4; в - спектральное представление ЭМ 5; г - спектральное представление ЭМ 6

Рис. 4. Эмпирические моды 3 - 6 при є = 0,5; N = 100: а - ЭМ 3; б - ЭМ 4; в - ЭМ 5; г - ЭМ 6

а) б)

в)

г)

Рис. 5. Спектральное представление эмпирических мод 3 - 6 при є = 0,5; N = 100: а - спектральное представление ЭМ 3; б - спектральное представление ЭМ 4; в - спектральное представление ЭМ 5; г - спектральное представление ЭМ 6

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

75

Согласно полученным результатам наиболее оптимальными значениями белого шума и количества итераций являются є = 0,25 -0,5 и N - не более 100. При анализе учитывались только информативные ЭМ 3 - ЭМ 6 [4, 8]. Эффективность декомпозиции метода КМДЭМ оценивалась по качеству выделения частотных составляющих исходного речевого сигнала в отдельные ЭМ, а также по наличию паразитных частотной и амплитудной модуляций в ЭМ.

Заключение

Итогом проведенной работы являются следующие теоретические и практические результаты:

- проведены теоретические исследования адаптивных методов декомпозиции на эмпирические моды для применения в задачах обработки речевых сигналов;

- проведены экспериментальные исследования, направленные на определение наиболее оптимальных значений уровня добавляемого белого шума и количества итераций вычисления ЭМ для эффективного анализа речевых сигналов.

Список литературы

1. Сергиенко, А. Б. Цифровая обработка сигналов / А. Б. Сергиенко. - СПб. : Питер, 2002. -608 с.

2. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер. -М. : Радио и связь, 1981. - 496 с.

3. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang // Proc. R. Soc. Lond. A. - 1998. - Т. 454. -С. 903-995.

4. Алимурадов, А. К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2012. - № 4. - С. 50-61.

5. Wu, Z. Ensemble empirical mode decomposition a noise-assisted data analysis method / Z. Wu, N. E. Huang // Calverton, MD 20705, USA, NASA Goddard Space Flight Center Greenbelt.

6. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, N. E. Huang. Adv. Adapt. Data Anal. - 2010. -№ 2. - P. 135-156.

7. Алимурадов, А. К. Исследование и разработка верифицированной базы звуков речи для анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, Ю. С. Квитка, Д. А. Ярославцева // Современные проблемы компьютерных наук (СПКН-2013) : сб. материалов I Междунар. науч.-практ. конф., посвящ. 70-летию образования Пензенского государственного университета / под ред. Л. Р. Фионовой. - Пенза, 2013. - С. 156-159.

8. Алимурадов, А. К. Интеллектуальная обработка речевых сигналов в системах автоматического управления / А. К. Алимурадов, А. Ю. Тычков // Известия Кабардинобалкарского государственного университета. - 2012. - Т. 2. - № 5. - С. 66-67.

Алимурадов Алан Казанферович

соискатель,

кафедра информационно-измерительной техники,

Пензенский государственный университет E-mail: alansapfir@yandex.ru

Квитка Юрий Сергеевич

аспирант,

Пензенский государственный университет E-mail: aravikfleur@gmail.com

УДК 621.391; 519.21 Алимурадов, А. К.

Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов / А. К. Алимурадов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. - 2014. - № 4 (10). - С. 69-75.

Alimuradov Alan Kazanferovich

applicant,

sub-department of information and measuring equipment,

Penza State University

Kvitka Yuriy Sergeevich

postgraduate student,

Penza State University

i Надоели баннеры? Вы всегда можете отключить рекламу.