УДК 004.934
2015, №3(13)
37
А. К. Алимурадов
ОЦЕНКА ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВЫХ СИГНАЛОВ МЕТОДАМИ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ
A. K. Alimuradov
ESTIMATION OF THE PITCH FREQUENCY SPEECH SIGNALS METHODS EMPIRICAL MODE DECOMPOSITION
Аннотация. Для повышения эффективности оценки частоты основного тона (ЧОТ) на этапе предварительной обработки предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов - метод декомпозиции на эмпирические моды (ДЭМ). На основании проведенного обзора представлено подробное математическое описание разновидностей методов декомпозиции (множественной декомпозиции на эмпирические моды (МДЭМ), комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ)). Проведены исследования возможности применения методов ДЭМ, МДЭМ и КМДЭМ в алгоритме оценки ЧОТ на основе анализа энергетических и спектральных характеристик эмпирических мод (ЭМ). В соответствии с результатами сделан вывод, что наиболее адаптивным методом декомпозиции речевых сигналов является метод КМДЭМ, который может найти практическое применение в алгоритмах оценки ЧОТ.
Abstract. In order to enhance the evaluation of pitch frequency estimation in the preprocessing a new method of adaptive decomposition of nonlinear and non-stationary speech signals - a method of empirical mode decomposition (EMD). Based on our review provides a detailed mathematical description of the types of methods of decomposition (Ensemble Empirical Mode Decomposition EEMD, Complementary Ensemble Empirical Mode Decomposition CEEMD). The investigations of the possibility of EMD, and EEMD CEEMD in algorithm of the pitch estimation, based on analysis of the energy and spectral characteristics of the empirical modes. In accordance with the results it is concluded that the most adaptive decomposition method is a method of speech signals CEEMD which may find practical application in algorithms of the pitch frequency estimation.
Ключевые слова: обработка речевых сигналов, декомпозиция на эмпирические моды, множественная декомпозиция на эмпирические моды, комплементарная множественная декомпозиция на эмпирические моды, частота основного тона.
K e y words: speech signal processing, Empirical Mode Decomposition, Ensemble Empirical Mode Decomposition, Complementary Ensemble Empirical Mode Decomposition, pitch frequency.
Введение
Наиболее популярными среди инфокоммуникационных технологий, обеспечивающих эффективное взаимодействия «человек - машина», являются речевые технологии: голосовое управление, распознавание речи, преобразование речи в текст, биометрическая голосовая аутентификация, диагностика состояния организма по голосу и др.
Реализация данных технологий основана на обработке и анализе речевых сигналов с целью определения информативных параметров, отражающих уникальные свойства речи. Од-
38
Изменение. Мониторинг. Управление. Контроль
ним из основных информативных параметров речевого сигнала является частота основного тона [1]. Оценка ЧОТ является одной из наиболее важных задач в обработке, точность которой определяется временным и частотным разрешением анализа. Функционально все алгоритмы оценки ЧОТ включают три этапа [2]: представление сигнала в удобный для дальнейшей оценки вид, выделение контура основного тона и определение значения ЧОТ.
Для повышения точности оценки ЧОТ наибольший интерес представляет этап предварительной обработки, в рамках которого речевой сигнал раскладывается на детерминистические и стохастические составляющие с применением различных методов декомпозиции.
В данной статье рассматривается вопрос использования на этапе предобработки методов адаптивного разложения - декомпозиции на эмпирические моды [3-5], дается анализ возможности его применения для оценки ЧОТ. Статья является развитием ранее опубликованных трудов [6-8].
Применяемые методы декомпозиции
Речевые сигналы представляют собой нелинейные и нестационарные сигналы сложной формы, амплитудные и частотные характеристики которых быстро изменяются во времени. В области обработки речевых сигналов наиболее популярными методами декомпозиции являются преобразование Фурье (ПФ) и вейвлет-преобразование (ВП), обладающие рядом преимуществ и недостатков.
Несмотря на то, что ПФ обладает относительной простотой вычислений и выполняется при довольно общих условиях, существует несколько ограничений, накладываемых на сигналы, для которых вычисляется это преобразование [8]. Сигналы должны быть строго периодическими функциями или содержать так называемые повторяющиеся фрагменты одной общей природы, при этом не обязательно являющиеся идентичными, так как в противном случае анализ в частотной области является малоэффективным. Также необходимо, чтобы сигналы обладали свойством стационарности по отношению к ряду характеристик (среднее значение, мгновенная частота).
Для повышения эффективности анализа нелинейных и нестационарных сигналов необходим подход, обладающий свойством адаптивности к каждому конкретному сигналу. Требованию адаптивности удовлетворяет дискретное ВП [9, 10]. В силу особенностей материнского вейвлета появляется возможность адаптивно обрабатывать сигналы путем довольно точного учета локальных временных особенностей. Но главная проблема - сложность выбора материнского вейвлета для решения конкретной задачи из их большого многообразия. Можно использовать автоматический подбор вейвлет-функций на основе априорной информации об анализируемом сигнале, однако эта процедура может оказаться затратной по вычислительным ресурсам.
В существующих алгоритмах оценки ЧОТ на основе ПФ и ВП при практическом использовании наблюдается ряд существенных недостатков, влияющих на точность оценки. По этой причине актуальным является вопрос применения новых методов декомпозиции, адаптивных к речевым сигналам и позволяющих получить детальное представление о внутренней структуре сигнала.
Описание методов декомпозиции на эмпирические моды
Важным условием эффективной декомпозиции является возможность формирования адаптивного базиса, функционально зависимого от структуры самого сигнала. Такой подход реализуется в математическом аппарате, ДЭМ [3]. В настоящее время технология обработки сигналов на основе ДЭМ широко используется в различных научных приложениях [11, 12], в том числе и при решении задач обработки речевых сигналов [13-15].
ДЭМ представляет собой адаптивную технологию разложения сигнала на внутренние функции, называемые эмпирическими модами. Особенность заключается в том, что базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала. При разложении модель сигнала не задается заранее, ЭМ вычисляются в ходе процедуры отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внут-
39
2015л№3(13)
ренней структуры каждого конкретного сигнала. Таким образом, ЭМ не имеют строгого аналитического описания, но должны удовлетворять двум условиям, гарантирующим определенную симметрию и узкополосность базисных функций [3]:
- общее число экстремумов равняется общему числу нулей с точностью до единицы;
- среднее значение двух огибающих - верхней, интерполирующей локальные максимумы, и нижней, интерполирующей локальные минимумы, - должно быть приближенно равно нулю.
Кроме адаптивности, метод ДЭМ обладает и другими важными свойствами:
- локальность - возможность учета локальных особенностей сигнала;
- ортогональность - обеспечение восстановления сигнала с определенной точностью;
- полнота - гарантия конечного числа базисных функций при конечной длительности
сигнала.
Суть алгоритма заключается в выполнении следующих этапов [3]:
Определение локальных экстремумов (максимумов {xmaxk} и минимумов jxmink}) сиг-
нала:
- значение k-го отсчета является локальным максимумом, если выполняется условие
xk -1 <xk ^ xk+i;
- значение k-го отсчета является локальным минимумом, если выполняется условие Xk-1 > Xk < Xk+1, где k - дискретные отсчеты времени.
Определение верхней h(t) и нижней l(t) огибающих сигнала с помощью кубической
сплайн-интерполяции по найденным локальным экстремумам:
h(t) -«k(t tk) + Pk(t tk) + Yk(t tk) + §k;
l(t) -«k(t tk) + Pk(t tk) + Yk(t tk) + §k ,
где ak , Pk , Yk, §k - коэффициенты для каждого значения k-го отсчета верхней и нижней
огибающих сигнала.
Вычисление среднего значения огибающих сигнала в соответствии с выражением
m(t)
h(t) +1 (t) 2
Проверка условия равенства среднего значения (m(t) — 0) двух огибающих должно быть приближенно равно нулю. Если условие не выполняется, то осуществляются вычисление локального остатка и использование его в качестве сигнала для дальнейшего отсеивания:
c(t) — x(t) -m(t),
где c(t) - локальный остаток. Если условие выполняется, то локальный остаток используется в качестве ЭМ /-го уровня декомпозиции IMFt (t) — c(t).
Вычисление остатка сигнала после удаления ЭМ:
r(t) — x(t)- IMF/ (t),
где r(t) - остаток сигнала.
Вычисление значения критерия останова декомпозиции. В качестве критерия останова используется значение нормализованной квадратичной разности:
т
SD — £
t—1
\!MFt (t)- r(t)|2
r(t)2
где T - общее число точек в последовательности; IMFt (t) и r(t) являются последней ЭМ и остатком соответственно.
40
Изменение. Мониторинг. Управление. Контроль
Проверка условия останова. На этом этапе осуществляется сравнение значения остатка сигнала с порогом SD < 8. Экспериментально порог для речевых сигналов установлен 8 = 0,25 [3]. Если условие не выполняется, то остаток используется в качестве сигнала для дальнейшего уровня декомпозиции. Если условие выполняется, то осуществляется вывод набора ЭМ, полученных на всех уровнях декомпозиции.
В результате декомпозиции из исходного сигнала x (t) извлекаются конечное число ЭМ IMFt (t) и результирующий остаток rI (t):
x(t) = X IMF, (t) + ri (t).
i=1
Недостатком метода ДЭМ, важным для его практического применения, является смешивание ЭМ, состоящих из различных частей сигнала и находящихся на разных участках ЭМ.
Для решения данной проблемы предложен метод МДЭМ [4], основанный на многократном добавлении к сигналу бесконечно малой амплитуды белого шума и вычислении среднего значения полученных мод как конечного истинного результата:
X IMF, (t)
IMF,(t) = 2=L_---;
X гл(t) rI(t)=J,
где IMF,,(t), rj7(t) - ЭМ и остаток, полученные при различных декомпозициях; j = 1, 2,..., J -
количество циклов декомпозиций (добавлений к сигналу белого шума).
Малый по амплитуде белый шум позволяет получить ЭМ, сопоставимые с участками сигнала несоизмеримых масштабов и находящимися в различных частях. Анализируемый сигнал представляет собой сумму сигнала и шума:
Уj (t) = x(t) + n, (t),
где x(t) - исходный речевой сигнал; n, (t) - белый шум.
Данный подход в полное мере использует преимущество статистических характеристик белого шума для обнаружения слабых периодических или квазипериодических составляющих сигналов.
Использование белого шума в МДЭМ для решения проблемы смешивания ЭМ порождает в сигнале новый шумовой остаток, влияющий на реконструкцию исходного сигнала [5]. По этой причине был разработан метод МДЭМ с добавлением белого шума с прямыми и инверсными значениями, называющийся КМДЭМ [5]:
" уj(n)" "1 11 * Г x(n) '
_ у,(n)* _ 1 -1 Wj (n )
где у, (n) - сумма зашумленного речевого сигнала x(n) с белым шумом; y, (n) - сумма зашумленного речевого сигнала x(n) с инверсным по знаку белым шумом; w, (n) - добавленный белый шум.
В результате разложения сигнала методом КМДЭМ формируется множество ЭМ, свободных от отмеченных ранее недостатков. Вычисление среднего значения полученных мод как конечного истинного результата обеспечит полное удаление остаточного белого шума за счет пары прямых и инверсных значений, независимо от того, сколько сигналов шума использовалось.
41
2015л№3(13)
Исследование методов декомпозиции
Для анализа преимуществ и недостатков вышеизложенных методов автором проведено исследование возможности применения методов декомпозиции на этапе предварительной обработки в алгоритме оценки ЧОТ.
Исследование проводилось в пакете прикладных программ для решения технических и математических задач MATLAB 7.0.1, с использованием тестовой выборки, состоящей из 100 речевых сигналов - звуков гласной звонкой фонемы «а» длительностью 100 мс [16]. Сигналы зарегистрированы с посторонними шумами (отношение сигнал/шум - 50 дБ), частота дискретизации 8000 Гц, разрядность квантования 16 бит.
На рис. 1-3 представлены примеры разложения на ЭМ соответственно методами ДЭМ, МДЭМ и КМДЭМ звука гласной звонкой фонемы «а».
Дискретные отсчеты времени
Рис. 1. Результат разложения методом ДЭМ
Рис. 2. Результат разложения методом МДЭМ
42
Измерение. Мониторинг. Управление. Контроль
Рис. 3. Результат разложения методом КМДЭМ
Для исследования возможности применения методов декомпозиции в алгоритме оценки ЧОТ был проведен анализ энергетических и спектральных характеристик ЭМ, направленный на поиск и определение вокализованной моды с основным тоном.
Характер изменения амплитуды ЭМ является важным информативным параметром. В частности амплитуда невокализованных участков мод значительно меньше амплитуды вокализованных участков. Подобные изменения амплитуды хорошо описываются с помощью функции кратковременной энергии сигнала. Логарифмирование энергии обеспечит возможность точной фиксации изменения амплитуды ЭМ. Вычисления энергии ЭМ и ее логарифмирование осуществлялось по формулам
N 2
E = (п)] ;
п=1
N2 Le,i = log2 EM(n)] .
n=1
На рис. 4-6 представлены графики зависимости логарифмов энергии от номера ЭМ, полученных методами декомпозиции.
Рис. 4. Зависимость логарифмов энергии от номера ЭМ, полученных методом ДЭМ
2015, №3(13)
Рис. 5. Зависимость логарифмов энергии от номера ЭМ, полученных методом МДЭМ
Рис. 6. Зависимость логарифмов энергии от номера ЭМ, полученных методом КМДЭМ
Как видно из рис. 4-6, наибольшие амплитудные значения и значения логарифма энергии имеют первые пять информативных вокализованных мод. Учитывая резкий перепад амплитудных значений и значений логарифма энергии с ЭМ5 на ЭМ6, можно предположить, что вокализованная ЭМ5 содержит основной тон [17].
Анализ спектрального распределения «гармонического сита» основного тона первых пяти информативных вокализованных мод подтверждает предположение о том, что ЭМ5 содержит основной тон (рис. 7-9).
43
Рис. 7. Спектральное распределение ЭМ1-ЭМ5, полученных методом ДЭМ
44
Измерение. Мониторинг. Управление. Контроль
Рис. 8. Спектральное распределение ЭМ1-ЭМ5, полученных методом МДЭМ
Рис. 9. Спектральное распределение ЭМ1-ЭМ5, полученных методом КМДЭМ
Сопоставляя результаты спектрального распределения ЭМ5, содержащих основной тон и полученных методами декомпозиции, можно сделать вывод, что наилучшими результатами определения вокализованной ЭМ с основным тоном обладает метод КМДЭМ.
Полный сравнительный анализ результатов исследований частотно-избирательных свойств методов декомпозиции позволяет сделать вывод, что наиболее адаптивным методом разложения речевых сигналов является метод КМДЭМ, который может найти практическое применение в алгоритмах оценки ЧОТ.
45
2015л№3(13)
Заключение
В статье рассмотрена проблема эффективности анализа речевых сигналов на этапе предобработки в алгоритмах оценки ЧОТ. Проведен краткий анализ основных методов декомпозиции, применяемых на этапах предварительной обработки. Предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов - метод декомпозиции на эмпирические моды. Проведено исследование возможности применения методов на этапе предварительной обработки в алгоритме оценки ЧОТ. Анализ результатов выявил, что наиболее адаптивным методом декомпозиции речевых сигналов является метод КМДЭМ, который может найти практическое применение в алгоритмах оценки ЧОТ.
Список литературы
1. Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоусова ; под ред. М. А. Сапожникова. - М. : Радио и связь, 1987. - 168 с.
2. Azarov, E. Instantaneous pitch estimation based on RAPT framework / E. Azarov, M. Vashkevich, A. Petrovsky // Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, 27-31 Aug. - 2012. - P. 2787-2791.
3. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Shen Zheng, R. L. Steven // Proceedings of the Royal Society of London A. - 1998. - Vol. 454. - P. 903-995.
4. Zhaohua, Wu. Ensemble empirical mode decomposition: A noise - assisted data analysis method / Wu Zhaohua, N. E. Huang // Advances in Adaptive Data Analysis. - 2009. - Vol. 1 (1). -P. 1-41.
5. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, N. E. Huang // Advances in Adaptive Data Analysis. - 2010. - Vol. 2 (2). - P. 135-156.
6. Алимурадов, А. К. Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Модели, системы, сети в экономике, технике, природе и обществе. - 2012. - № 1 (2). - С. 121-126.
7. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки речевых сигналов для оценки частоты основного тона / А. К. Алимурадов // Проблемы автоматизации и управления в технических системах - 2015 : сб. тр. XXXI Междунар. науч.-техн. конф. (Пенза, 19-21 мая 2015 г.). - Пенза : Изд-во ПГУ, 2015. - С. 103-106.
8. Алимурадов, А. К. Применение преобразования Гильберта - Хуанга в задаче выделения информативных признаков речевых сигналов / А. К. Алимурадов, А. Ю. Тычков // Международный научно-исследовательский журнал. - 2013. - № 5-1 (12). - С. 57-58.
9. Баскаков, С. И. Радиотехнические цепи и сигналы / С. И. Баскаков. - М. : Высш. шк., 2000. - 214 с.
10. Малла, С. Вейвлеты в обработке сигналов : пер. англ. / С. Малла. - М. : Мир, 2005. -212 с.
11. Huang, N. E. The Hilbert - Huang transform and its applications / N. E. Huang // World Scientific Publishing Co. Pte. Ltd. 5, Singapore, 2005. - 526 p.
12. Huang, N. E. An Introduction to Hilbert - Huang Transform: A Plea for Adaptive Data Analysis / N. E. Huang // Research Center for Adaptive Data Analysis. - Singapore : National Central University, 2007. - 257 p.
13. Kuo-Hau Wu. Noise-robust speech feature processing with empirical mode decomposition / Kuo-Hau Wu, Chia-Ping Chen, Bing-Feng Yeh // EURASIP Journal on Audio, Speech, and Music Processing. - 2011. - Р. 9.
14. Speech Enhancement Using EMD Based Adaptive Soft-Thresholding (EMD-ADT) / Md. Ekramul Hamid, Somlal Das, Keikichi Hirose, Md. Khademul Islam Molla // International Journal of Signal Processing, Image Processing and Pattern Recognition. - 2012. -Vol. 5, № 2. - June. - Р. 16.
15. Speech Enhancement via EMD / Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi, Monia Turki-Hadj Alouane // Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing. - 2008. - Р. 8.
16. Свидетельства о государственной регистрации программ для ЭВМ «Верифицированная база речевых сигналов» / Тычков А. Ю., Алимурадов А. К., Квитка Ю. С., Ярославцева Д. А. - № 2013621156 ; заявл.13.09.2013 ; опубл. 06.11.2013.
46
Изменение. Мониторинг. Управление. Контроль
17. Gaston, S. Pathological Voice Analysis and Classification Based on Empirical Mode Decomposition / S. Gaston, Maria Eugenia T., L. R. Hugo // Development of Multimodal Interfaces: Active Listening and Synchrony Lecture Notes in Computer Science. - 2010. - Vol. 5967. -P. 364-381.
Алимурадов Алан Казанферович Alimuradov Alan Kazanferovich
соискатель, applicant,
кафедра информационно-измерительной техники sub-department of information и метрологии, and measuring equipment and metrology,
инженер-исследователь, researcher,
научно-исследовательский отдел, research department,
Пензенский государственный университет Penza State University
E-mail: alansapfir@yandex.ru
УДК 004.934 Алимурадов, А. К.
Оценка частоты основного тона речевых сигналов методами декомпозиции на эмпирические моды / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. - 2015. - № 3 (13). -С. 37-46.