УДК 004.934
ИССЛЕДОВАНИЕ ЧАСТОТНО-ИЗБИРАТЕЛЬНЫХ СВОЙСТВ МЕТОДОВ ДЕКОМПОЗИЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ЭМПИРИЧЕСКИЕ МОДЫ
А. К. Алимурадов
RESEARCH OF FREQUENCY-SELECTIVE PROPERTIES OF DECOMPOSITION METHODS FOR OF SPEECH SIGNALS ON EMPIRICAL MODES
A. K. Alimuradov
Аннотация. Актуальность и цели. Объектом исследования является проблема повышения эффективности анализа речевых сигналов на этапе предварительной обработки. Предметом исследования являются методы декомпозиции, применяемые на этапе предварительной обработки. Цель работы - повышение эффективности анализа речевых сигналов за счет применения адаптивных методов декомпозиции. Материалы и методы. Для повышения эффективности анализа на этапе предварительной обработки предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов - метод декомпозиции на эмпирические моды. Результаты. На основании проведенного обзора представлено подробное математическое описание разновидностей методов декомпозиции (множественной декомпозиции на эмпирические моды, комплементарной множественной декомпозиции на эмпирические моды). Приведены результаты исследований частотно-избирательных свойств указанных методов. Выводы. В соответствии с результатами сделан вывод о том, что наиболее адаптивным методом декомпозиции речевых сигналов является метод комплементарной множественной декомпозиции на эмпирические моды, который предпочтительно использовать на этапе предварительной обработки.
Ключевые слова: обработка речевых сигналов, декомпозиция на эмпирические моды, множественная декомпозиция на эмпирические моды, комплементарная множественная декомпозиция на эмпирические моды.
Abstract. Background. The object of this study is to analyze the problem of increasing the effectiveness of the speech signal pre-processing stage. The subject of the study are decomposition methods used at the stage of pre-processing. The aim is to increase the efficiency of the analysis of speech signals through the use of adaptive methods of decomposition. Materials and methods. To improve the efficiency of the analysis at the stage of preprocessing a new method of adaptive decomposition of nonlinear and non-stationary speech signals - a method of empirical mode decomposition (EMD). Results. Based on our review provides a detailed mathematical description of the types of methods of decomposition (Ensemble Empirical Mode Decomposition EEMD, Complementary Ensemble Empirical Mode Decomposition CEEMD). The results of studies of frequency-selective properties of methods EMD, EEMD and CEEMD. Conclusions. In accordance with the results it is concluded that the most adaptive decomposition method is a method of speech signals CEEMD which is preferably used for the stage of pre-processing.
Key words: speech signal processing, Empirical Mode Decomposition EMD, Ensemble Empirical Mode Decomposition EEMD, Complementary Ensemble Empirical Mode Decomposition CEEMD.
Введение
Наиболее популярными среди инфокоммуникационных технологий, обеспечивающих эффективное взаимодействие человек-машина, являются речевые технологии: голосовое управление, распознавание речи, преобразование речи в текст, биометрическая голосовая аутентификация, диагностика состояния организма по голосу и др.
Реализация данных технологий основана на обработке и анализе речевых сигналов с целью определения информативных параметров, отражающих уникальные свойства речи. Алгоритмы оценки основных параметров речевых сигналов представляют собой некоторый компромисс между вычислительной сложностью и устойчивостью к ошибкам [1].
В данной статье рассматривается вопрос использования на этапе предобработки речевого сигнала адаптивного метода разложения - декомпозиции на эмпирические моды (ДЭМ) [2] и анализ частотно-избирательных свойств методов ДЭМ [3, 4]. Статья является развитием ранее опубликованных трудов [5-7].
Применяемые методы декомпозиции
Речевые сигналы представляют собой нелинейные и нестационарные сигналы сложной формы, амплитудные и частотные характеристики которых быстро изменяются во времени. В области обработки речевых сигналов наиболее популярными методами декомпозиции являются преобразование Фурье (ПФ) и вейвлет-преобразование (ВП), обладающие рядом преимуществ и недостатков.
Несмотря на то, что ПФ обладает относительной простотой вычислений и выполняется при довольно общих условиях, существует несколько ограничений, накладываемых на сигналы, для которых вычисляется это преобразование [8]. Сигналы должны быть строго периодическими функциями или содержать так называемые повторяющиеся фрагменты одной обшей природы, при этом не обязательно являющиеся идентичными, так как в противном случае анализ в частотной области является малоэффективным. Также необходимо, чтобы сигналы обладали свойством стационарности по отношению к ряду характеристик (среднее значение, мгновенная частота).
Для повышения эффективности анализа нелинейных и нестационарных сигналов необходим подход, обладающий свойством адаптивности к каждому конкретному сигналу. Требованию адаптивности удовлетворяет дискретное ВП [9]. В силу особенностей материнского вейвлета появляется возможность адаптивно обрабатывать сигналы путем довольно точного учета локальных временных особенностей. Но главная проблема - сложность выбора материнского вейвлета для решения конкретной задачи из их большого многообразия. Можно использовать автоматический подбор вейвлет-функций на основе априорной информации об анализируемом сигнале, однако эта процедура может оказаться затратной по вычислительным ресурсам.
По этой причине актуальным является вопрос применения новых методов декомпозиции, адаптивных к речевым сигналам и позволяющих получить детальное представление о внутренней структуре сигнала.
Описание методов декомпозиции на эмпирические моды
Важным условием эффективной декомпозиции является возможность формирования адаптивного базиса, функционально зависимого от структуры самого сигнала. Такой подход реализуется в математическом аппарате, ДЭМ [2]. В настоящее время технология обработки сигналов на основе ДЭМ широко используется в различных научных приложениях [10, 11], в том числе и при решении задач обработки речевых сигналов [12-14].
ДЭМ представляет собой адаптивную технологию разложения сигнала на внутренние функции, называемые эмпирическими модами (ЭМ). Особенность заключается в том, что базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала. При разложении модель сигнала не задается заранее, ЭМ вычисляются в ходе процедуры отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры каждого конкретного сигнала. Таким образом, ЭМ не имеют строгого аналитического описания, но должны удовлетворять двум условиям, гарантирующим определенную симметрию и узкопо-лосность базисных функций [2]:
2) общее число экстремумов равняется общему числу нулей с точностью до единицы;
3) среднее значение двух огибающих (верхней, интерполирующей локальные максимумы, и нижней, интерполирующей локальные минимумы) должно быть приближенно равно нулю.
Кроме адаптивности метод ДЭМ обладает и другими важными свойствами, такими как:
- локальность - возможность учета локальных особенностей сигнала;
- ортогональность - обеспечение восстановления сигнала с определенной точностью;
- полнота - гарантия конечного числа базисных функций при конечной длительности сигнала.
На рис. 1 представлен алгоритм метода ДЭМ. Алгоритм является классическим и достаточно простым в реализации. Серым цветом выделены блоки, относящиеся к непосредственному процессу декомпозиции. Суть алгоритма заключается в выполнении следующих этапов [2].
Определение локальных экстремумов (максимумов \хтякк} и минимумов {хтЬ к }) сигнала:
- значение к-го отсчета является локальным максимумом, если выполняется условие хк-1 <хк > х+ ;
- значение к-го отсчета является локальным минимумом, если выполняется условие хк-1 >Хк ^ Хк+1 , где к - дискретные отсчеты времени.
Определение верхней Н(х) и нижней I (х) огибающих сигнала с помощью кубической сплайн-интерполяции по найденным локальным экстремумам:
к(х) = ак(х-хк)3 + Рк(х-хк)2 +Ук(х -к) + §к ,
I(х) = «к(х-Хк)3 + Рк(х-хк)2 +Ук(х-Хк) + §к ,
где ^ , Pk , у, 8k - коэффициенты для каждого значения ^го отсчета верхней и нижней огибающих сигнала.
Рис. 1. Алгоритм метода ДЭМ
Вычисление среднего значения огибающих сигнала в соответствии с выражением
)=, mil)=mm.
2 2
Проверка условия равенства среднего значения (m(t) = 0) двух огибающих должно быть приближенно равно нулю. Если условие не выполняется, то осуществляется вычисление локального остатка и использование его в качестве сигнала для дальнейшего отсеивания:
c(t) = x(t) - m(t),
где c(t) - локальный остаток. Если условие выполняется, то локальный остаток используется в качестве ЭМ /-го уровня декомпозиции IMFt (t) = c(t). Вычисление остатка сигнала после удаления ЭМ:
r (t) = x(t) - IMFj (t),
где r (t) - остаток сигнала.
Вычисление значения критерия останова декомпозиции. В качестве критерия останова используется значение нормализованной квадратичной разности:
SD = X """ "r(t,l2
t=i
\lMFt (t) - r(t )|2
r(t )2
где Т - общее число точек в последовательности, (х) и г(х) являются последней ЭМ и остатком соответственно.
Проверка условия останова. На этом этапе осуществляется сравнение значения остатка сигнала с порогом < 8 . Экспериментально порог для речевых сигналов установлен 8 = 0,25 [2]. Если условие не выполняется, то остаток используется в качестве сигнала для дальнейшего уровня декомпозиции. Если условие выполняется, то осуществляется вывод набора ЭМ, полученных на всех уровнях декомпозиции.
В результате декомпозиции из исходного сигнала х(х) извлекаются конечное число ЭМ 1МЕ1 (х) и результирующий остаток:
I -1
x(t) = X IMF, (t) + rj (t).
i = 1
Недостатком метода ДЭМ, важным для его практического применения, является смешивание ЭМ, состоящих из различных частей сигнала и находящихся на разных участках ЭМ.
Для решения данной проблемы предложен метод множественной ДЭМ (МДЭМ) [3], основанный на многократном добавлении к сигналу бесконечно малой амплитуды белого шума и вычислении среднего значения полученных мод как конечного истинного результата:
£ imf}1 (t) £ j (t)
IMF, (t) = -, r, (t) = -,
где IMFjj (t), j (t) - ЭМ и остаток, полученные при различных декомпозициях; j = 1, 2,..., J - количество циклов декомпозиций (добавлений к сигналу белого шума).
Малый по амплитуде белый шум позволяет получить ЭМ, сопоставимые с участками сигнала несоизмеримых масштабов и находящихся в различных частях. Анализируемый сигнал представляет собой сумму сигнала и шума:
yj (t) = x(t) + nj (t),
где x(t) - исходный речевой сигнал; nj(t) - белый шум.
На рис. 2 приведен алгоритм метода МДЭМ. Серым цветом выделен блок, являющийся основой для множественной декомпозиции.
А >
Начало
1
Т
j - Ввод сигнала /
/ х(0, С'КО шума wft). /
/ КОЛ-ВО циклов J 1
▼
-1 Установка номера
цикла леком поя1н и in
j=l
?
4 Добавлен не
к сигналу белого шум
т
5 Декомпозиции на
эмпирически с моды
1,Щ(1),г/0
Да 1_
Определение среднего значения Г)М ¡Mh'fl(t) и остатка r; (i)
f' Вы пол / набора ЭМ IMF, (О
j и остатка г/О
т
0° \
Конец
\ J
Рис. 2. Алгоритм метода МДЭМ 102
Данный подход в полной мере использует преимущество статистических характеристик белого шума для обнаружения слабых периодических или квазипериодических составляющих сигналов.
Использование белого шума в МДЭМ для решения проблемы смешивания ЭМ порождает в сигнале новый шумовой остаток, влияющий на реконструкцию исходного сигнала [4]. По этой причине был разработан метод МДЭМ с добавлением белого шума с прямыми и инверсными значениями -комплементарной множественной ДЭМ (КМДЭМ) [4]:
" У} (п) " "1 1" х(п)
_ у} (п)* _ 1 -1 М} (п)
где (п) - добавленный белый шум; у}- (п) - сумма зашумленного речевого сигнала х(п) с белым шумом; У} (п)* - сумма зашумленного речевого сигнала х(п) с инверсным по знаку белым шумом.
На рис. 3 приведен алгоритм метода КМДЭМ.
Рис. 3. Алгоритм метода КМДЭМ 103
В результате разложения сигнала методом КМДЭМ формируется множество ЭМ, свободных от отмеченных ранее недостатков. Вычисление среднего значения полученных мод как конечного истинного результата обеспечит полное удаление остаточного белого шума за счет пары прямых и инверсных значений, независимо от того, сколько сигналов шума использовалось.
Исследование методов декомпозиции
Для анализа преимуществ и недостатков вышеизложенных методов автором проведено исследование частотно-избирательных свойств методов ДЭМ, МДЭМ и КМДЭМ.
Исследование проводилось в пакете прикладных программ для решения технических и математических задач МЛТЬЛБ 7.0.1 с использованием тестовой выборки, состоящей из 100 речевых сигналов - звуков гласной звонкой фонемы «а» длительностью 100 мс [15]. Сигналы зарегистрированы с посторонними шумами (отношение сигнал/шум - 50 дБ), частота дискретизации 8000 Гц, разрядность квантования 16 бит.
В результате разложения методами ДЭМ для речевого сигнала (рис. 4) получено восемь ЭМ и монотонный остаток. Оценка частотно-избирательных свойств методов ДЭМ заключается в анализе распределения мощности сигнала мод, приходящейся на единичный интервал частоты - спектральной плотности мощности [16-18]. Так как основная информация о сигнале содержится в действительной части частотного спектра и информация о фазе не используется, спектральная плотность мощности определялась по формулам:
1 2
Р (п) = (п )|2,
1 2
Р (п) = ф (п )|2,
где (п), г1 (п) - ЭМ и остаток соответственно; п - дискретный отсчет времени (0< п < N, N - количество дискретных отсчетов в сигнале ЭМ); / - номер ЭМ.
Дискретные отсчеты времени
Рис. 4. Речевой сигнал звука гласной звонкой фонемы «а»
В качестве единицы измерения спектральной плотности мощности выбрана составная величина дБВт/Гц с опорным уровнем в 1 Вт/Гц (мощность,
выделяющаяся в полосе частот шириной в 1 Гц). Единица измерения децибел используется здесь для удобства указания значения физической величины Вт/Гц по отношению к опорному уровню.
Для 100 звуков гласной фонемы «а» на рис. 5-7 представлены усредненные зависимости спектральной плотности мощности от частоты сигналов ЭМ, полученных методами ДЭМ. Кривые зависимости имеют форму колоколообразных импульсов, описывающих частотно-избирательные свойства (амплитудно-частотные характеристики (АЧХ), соответствующие каждой ЭМ).
1 10 100
Частота, Гц
Рис. 5. АЧХ ЭМ, полученных методом ДЭМ
1 10 100
Частота, Гц
Рис. 6. АЧХ ЭМ, полученных методом МДЭМ
На рис. 8-10 представлены примеры разложения на ЭМ методами ДЭМ, МДЭМ и КМДЭМ звука гласной звонкой фонемы «а».
Как видно из рис. 5, АЧХ ЭМ, полученных методом ДЭМ, имеют слишком пологие спады, широкие полосы пропускания и располагаются близко
друг к другу, образуя большие области перекрывания. Это является причиной проявления эффекта смешивания мод, начиная с ЭМ3 по ЭМ6 (рис. 8).
Как видно из рис. 6, по сравнению с методом ДЭМ (рис. 5) АЧХ ЭМ, полученных методом МДЭМ, имеют менее пологие спады, достаточно узкие полосы пропускания и распределены друг к другу, не создавая большие области перекрывания. Исключением является характеристика ЭМ1, на этапе декомпозиции которой фильтруются высокочастотные составляющие. Это является причиной полного отсутствия эффекта смешивания мод, однако в ЭМ1 проявляется другой эффект - просачивание остаточного высокочастотного белого шума, добавляемого при декомпозиции (рис. 9).
Частота, Гц
Рис. 7. АЧХ ЭМ, полученных методом КМДЭМ
Рис. 8. Результат разложения методом ДЭМ 106
Рис. 9. Результат разложения методом МДЭМ
Как видно из рис. 7, по сравнению с методами ДЭМ (рис. 5) и МДЭМ (рис. 6) АЧХ ЭМ, полученных методом КМДЭМ, имеют крутые спады, узкие полосы пропускания и максимально распределены друг к другу, создавая минимальные области перекрывания. Это является причиной полного отсутствия эффектов смешивания мод и просачивания остаточного высокочастотного белого шума (рис. 10).
Рис. 10. Результат разложения методом КМДЭМ Заключение
Проведено исследование частотно-избирательных свойств и возможностей применения методов на этапе предварительной обработки в алгоритме
оценки частоты основного тока. Анализ результатов выявил, что наиболее
адаптивным методом декомпозиции речевых сигналов является метод
КМДЭМ, который может найти практическое применение в алгоритмах
оценки частоты основного тока.
Список литературы
1. Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоусова ; под ред. М. А. Сапожникова. - М. : Радио и связь, 1987. - 168 с.
2. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Zheng Shen, R. L. Steven // Proceedings of the Royal Society of London A. - 1998. - Vol. 454. - P. 903-995.
3. Zhaohua, Wu. Ensemble empirical mode decomposition: A noise - assisted data analysis method / Wu Zhaohua, N. E. Huang // Advances in Adaptive Data Analysis. -2009. - Vol. 1 (1). - P. 1-41.
4. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, N. E. Huang // Advances in Adaptive Data Analysis. - 2010. - Vol. 2 (2). - P. 135-156.
5. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки речевых сигналов для оценки частоты основного тона / А. К. Алимурадов // Проблемы автоматизации и управления в технических системах - 2015 : сб. тр. XXXI Меж-дунар. науч.-техн. конф. (Пенза, 19-21 мая 2015 г.). - Пенза : Изд-во ПГУ, 2015. -С. 103-106.
6. Алимурадов, А. К. Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов / А. К. Алимурадов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. - 2014. -№ 4 (10). - С. 69-75.
7. Алимурадов, А. К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А. К. Алимурадов, П. П. Чураков // Измерение. Мониторинг. Управление. Контроль. - 2015. - № 2 (12). - С. 27-35.
8. Баскаков, С. И. Радиотехнические цепи и сигналы / С. И. Баскаков. - М. : Высшая школа, 2000. - 214 с.
9. Малла, С. Вейвлеты в обработке сигналов : пер. англ. / С. Малла. - М. : Мир, 2005. - 212 с.
10. Huang, N. E. The Hilbert-Huang transform and its applications / N. E. Huang // World Scientific Publishing Co. Pte. Ltd. 5. - Singapore, 2005. - 526 p.
11. Huang, N. E. An Introduction to Hilbert-Huang Transform: A Plea for Adaptive Data Analysis / N. E. Huang // Research Center for Adaptive Data Analysis. - Singapore : National Central University, 2007. - 257 p.
12. Kuo-Hau, Wu. Noise-robust speech feature processing with empirical mode decomposition / Kuo-Hau Wu, Chia-Ping Chen, Bing-Feng Yeh // EURASIP Journal on Audio, Speech, and Music Processing. - 2011. - Р. 9.
13. Speech Enhancement Using EMD Based Adaptive Soft-Thresholding (EMD-ADT) / Md. Ekramul Hamid, Somlal Das, Keikichi Hirose, Md. Khademul Islam Molla // International Journal of Signal Processing, Image Processing and Pattern Recognition. -2012. - Vol. 5 (2). - June. - Р. 16.
14. Speech Enhancement via EMD / Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi, Monia Turki-Hadj Alouane // Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing. - 2008. - Р. 8.
15. Свидетельство о государственной регистрации программ для ЭВМ «Верифицированная база речевых сигналов» / А. Ю. Тычков, А. К. Алимурадов, Ю. С. Квитка, Д. А. Ярославцева. - № 2013621156 ; заявл. 13.09.2013 ; опубл. 06.11.2013.
16. Empirical Mode Decomposition-Based Time-Frequency Analysis of Multivariate Signals: The Power of Adaptive Data Analysis / D. P. Mandic, N. U. Rehman, Wu Zhaohua, N. E. Huang // IEEE Signal Processing Magazine. - 2013. - Vol. 30 (6). - Nov. -P. 74-86.
17. Flandrin, P. Empirical Mode Decomposition as a Filter Bank / Patrick Flandrin, Gabriel Rilling, Paulo Gongalves // Signal Processing Letters. - 2004. - Vol. 11 (2). -Feb. - P. 112-114.
18. Gaston, S. Pathological Voice Analysis and Classification Based on Empirical Mode Decomposition / S. Gaston, Maria T. Eugenia, L. R. Hugo // Development of Multimodal Interfaces: Active Listening and Synchrony Lecture Notes in Computer Science. -2010. - Vol. 5967. - P. 364-381.
Алимурадов Алан Казанферович
инженер-исследователь, научно-исследовательский отдел, Пензенский государственный университет
E-mail: [email protected]
Alimuradov Alan Kazanferovich researcher, research department, Penza State University
УДК 004.934 Алимурадов, А. К.
Исследование частотно-избирательных свойств методов декомпозиции речевых сигналов на эмпирические моды / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. - 2015. - № 3 (15). - C. 97-109.