Научная статья на тему 'Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов'

Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
322
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ / ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ / ДЭМ / МНОЖЕСТВЕННАЯ ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ МДЭМ / КОМПЛЕМЕНТАРНАЯ МНОЖЕСТВЕННАЯ ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ КМДЭМ / ЧАСТОТА ОСНОВНОГО ТОНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов А. К.

Рассмотрена проблема повышения эффективности анализа речевых сигналов на этапе предварительной обработки в алгоритмах оценки частоты основного тона (ЧОТ). Проведен краткий обзор методов декомпозиции, применяемых на этапах предварительной обработки, показаны их достоинства и недостатки. Предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов метод декомпозиции на эмпирические моды (ДЭМ). Представлены блок-схемы разновидностей методов декомпозиции (множественной декомпозиции на эмпирические моды (МДЭМ), комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ)) с подробным описанием математического аппарата. Приведены результаты исследований частотно-избирательных свойств методов ДЭМ, МДЭМ и КМДЭМ. В соответствии с результатами сделан вывод, что наиболее адаптивным методом декомпозиции речевых сигналов является метод КМДЭМ, который предпочтительно использовать в алгоритмах оценки ЧОТ.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов А. К.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов»

56 «Инжиниринг и телекоммуникации 2015» ТРУДЫ МФТИ. — 2015. — Том 7, № 3 УДК 004.934

А. К. Алимурадов

Пензенский государственный университет

Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов

Рассмотрена проблема повышения эффективности анализа речевых сигналов на этапе предварительной обработки в алгоритмах оценки частоты основного тона (ЧОТ). Проведен краткий обзор методов декомпозиции, применяемых на этапах предварительной обработки, показаны их достоинства и недостатки. Предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов - метод декомпозиции на эмпирические моды (ДЭМ). Представлены блок-схемы разновидностей методов декомпозиции (множественной декомпозиции на эмпирические моды (МДЭМ), комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ)) с подробным описанием математического аппарата. Приведены результаты исследований частотно-избирательных свойств методов ДЭМ, МДЭМ и КМДЭМ. В соответствии с результатами сделан вывод, что наиболее адаптивным методом декомпозиции речевых сигналов является метод КМДЭМ, который предпочтительно использовать в алгоритмах оценки ЧОТ.

Ключевые слова: обработка речевых сигналов, декомпозиция на эмпирические моды, ДЭМ, множественная декомпозиция на эмпирические моды МДЭМ, комплементарная множественная декомпозиция на эмпирические моды КМДЭМ, частота основного тона.

A.K. Alimuradov Penza State University

Research of frequency-selective properties of empirical mode decomposition methods for speech signals' pitch

frequency estimation

The problem of the effectiveness of the analysis of speech signals in the preprocessing algorithms of pitch estimation. An overview of decomposition methods used in the preprocessing shows their advantages and disadvantages. A new method of adaptive decomposition of nonlinear and nonstationary speech signals is a method of Empirical Mode Decomposition (EMD). There are flowcharts species decomposition methods: (Ensemble Empirical Mode Decomposition (EEMD), Complementary Ensemble Empirical Mode Decomposition (CEEMD)) with a detailed description of the mathematical system. The results of studies of frequency-selective properties of EMD, EEMD and CEEMD methods. In accordance with the results the conclusion is that the most adaptive decomposition method of speech signals is the CEEMD method which is preferably used in pitch estimation algorithms.

Key words: speech signal processing, Empirical Mode Decomposition EMD, Ensemble Empirical Mode Decomposition EEMD, Complementary Ensemble Empirical Mode Decomposition CEEMD, pitch estimation.

1. Введение

Наиболее популярными среди инфокоммуникационных технологий, обеспечивающих эффективное взаимодействия «человек-машина» являются речевые технологии: голосовое управление, распознавание речи, преобразование речи в текст, биометрическая голосовая аутентификация, диагностика состояния организма по голосу и др.

Реализация данных технологий основана на обработке и анализе речевых сигналов с целью определения информативных параметров, отражающих уникальные свойства речи. Одним из основных информативных параметров речевого сигнала является частота основного тона (ЧОТ) [1]. Оценка ЧОТ является одной из наиболее важных задач в обработке, точность которой определяется временным и частотным разрешением анализа. Выбор определенного алгоритма оценки ЧОТ зависит от назначения и всегда представляет собой некоторый компромисс между вычислительной сложностью и устойчивостью к ошибкам. Функционально все алгоритмы оценки ЧОТ включают в себя три этапа [2]: предобработка (представление сигнала в удобный для дальнейшей оценки вид), выделение контура (периода) основного тона и постобработка (определение значения ЧОТ).

Для повышения точности оценки ЧОТ наибольший интерес представляет этап предварительной обработки, в рамках которого речевой сигнал раскладывается на детерминистические и стохастические составляющие с применением различных методов декомпозиции.

В данной статье рассматривается вопрос использования на этапе предобработки речевого сигнала адаптивного метода разложения - декомпозиции на эмпирические моды (ДЭМ) [3] и анализ частотно-избирательных свойств методов ДЭМ [4, 5]. Статья является развитием ранее опубликованных трудов [6-8].

2. Предварительные замечания

Речевые сигналы представляют собой нелинейные и нестационарные сигналы сложной формы, амплитудные и частотные характеристики которых быстро изменяются во времени. В области обработки речевых сигналов наиболее популярными методами декомпозиции являются преобразование Фурье (ПФ) и вейвлет-преобразования (ВП), обладающие рядом преимуществ и недостатков.

Несмотря на то, что ПФ обладает относительной простотой вычислений и выполняется при довольно общих условиях, существует несколько ограничений, накладываемых на сигналы, для которых вычисляется это преобразование [9]. Сигналы должны быть строго периодическими функциями или содержать так называемые повторяющиеся фрагменты одной обшей природы, при этом не обязательно являющиеся идентичными, так как в противном случае анализ в частотной области является малоэффективным. Также необходимо, чтобы сигналы обладали свойством стационарности по отношению к ряду характеристик (среднее значение, мгновенная частота).

Для повышения эффективности анализа нелинейных и нестационарных сигналов необходим подход, обладающий свойством адаптивности к каждому конкретному сигналу. Требованию адаптивности удовлетворяет дискретное ВП [10]. В силу особенностей материнского вейлета появляется возможность адаптивно обрабатывать сигналы путем довольно точного учета локальных временных особенностей. Но главная проблема - сложность выбора материнского вейвлета для решения конкретной задачи из их большого многообразия. Можно использовать автоматический подбор вейвлет-функций на основе априорной информации об анализируемом сигнале, однако эта процедура может оказаться затратной по вычислительным ресурсам.

В существующих алгоритмах оценки ЧОТ на основе ПФ и ВП при практическом использовании наблюдается ряд существенных недостатков, влияющих на точность оценки. По этой причине актуальным является вопрос применения новых методов декомпозиции, адаптивных к речевым сигналам и позволяющих получить детальное представление о внутренней структуре сигнала.

3. Описание методов декомпозиции на эмпирические моды

Важным условием эффективной декомпозиции является возможность формирования адаптивного базиса, функционально зависимого от структуры самого сигнала. Такой подход реализуется в математическом аппарате ДЭМ [3] (Empirical mode decomposition, EMD).

В настоящее время технология обработки сигналов на основе ДЭМ широко используется в различных научных приложениях [11, 12], в том числе и при решении задач обработки речевых сигналов [13-15].

ДЭМ представляет собой адаптивную технологию разложения сигнала на внутренние функции, называемые эмпирическими модами (ЭМ). Особенность заключается в том, что базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала. При разложении модель сигнала не задаётся заранее, ЭМ вычисляются в ходе процедуры отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры каждого конкретного сигнала. Таким образом, ЭМ не имеют строгого аналитического описания, но должны удовлетворять двум условиям, гарантирующим определенную симметрию и узкополосность базисных функций [3]:

1) общее число экстремумов равняется общему числу нулей с точностью до единицы;

2) среднее значение двух огибающих - верхней, интерполирующей локальные максимумы, и нижней, интерполирующей локальные минимумы, должно быть приближенно равно нулю.

Кроме адаптивности, метод ДЭМ обладает и другими важными свойствами:

1) локальность - возможность учета локальных особенностей сигнала;

2) ортогональность - обеспечение восстановления сигнала с определенной точностью;

3) полнота - гарантия конечного числа базисных функций при конечной длительности сигнала.

Суть алгоритма заключается в выполнении следующих этапов [3]:

Определение локальных экстремумов (максимумов {хтаХ}к} и минимумов {жтт,&}) сигнала:

1) значение Ь-го отсчета является локальным максимумом, если выполняется условие Хк-1 <хк > Хк+Г;

2) значение Ь-го отсчета является локальным минимумом, если выполняется условие хк-1 > хк ^ Хк+1, где к - дискретные отсчеты времени.

Определение верхней Ь(Ь) и нижней 1(£) огибающих сигнала с помощью кубической сплайн-интерполяции по найденным локальным экстремумам:

к(г) = ак(*-4)3 +Рк^-^)2 + 7к^-^)+ 5к= ак(*-4)3 + рк^-^)2+7к^-^) + 6к, (1)

где ак, Рк, 1к, - коэффициенты для каждого значения Ь-го отсчета верхней и нижней огибающих сигнала.

Вычисление среднего значения огибающих сигнала в соответствии с выражением:

т{(> = М±М. (2)

Проверка условия равенства среднего значения (т(Ь)== 0) двух огибающих должно быть приближенно равно нулю. Если условие не выполняется, то осуществляется вычисление локального остатка и использование его в качестве сигнала для дальнейшего отсеивания:

с(г) = х(г) - т(г),

(3)

где ) - локальный остаток. Если условие выполняется, то локальный остаток используется в качестве ЭМ {-го уровня декомпозиции 1МРг(1) = ). Вычисление остатка сигнала после удаления ЭМ:

г(г )=х(Ъ )-1МРг(г), (4)

где г(Ъ) - остаток сигнала.

Вычисление значения критерия останова декомпозиции. В качестве критерия останова используется значение нормализованной квадратичной разности:

т

SD = £

|IMFt(t)- r(t)|2' r(t )2

(5)

I'i I, I2

t= 1

где Т - общее число точек в последовательности, IMFi(t) и r(t) являются последней ЭМ и остатком соответственно.

Проверка условия останова. На этом этапе осуществляется сравнение значения остатка сигнала с порогом SD ^ 5. Экспериментально порог для речевых сигналов установлен 5 = 0, 25 [3]. Если условие не выполняется, то остаток используется в качестве сигнала для дальнейшего уровня декомпозиции. Если условие выполняется, то осуществляется вывод набора ЭМ, полученных на всех уровнях декомпозиции.

В результате декомпозиции из исходного сигнала x(t) извлекается конечное число ЭМ IMFi(t) и результирующий остаток:

1-1

x(t) = ^IMFl(t) + п (t). (6)

=1

Недостатком метода ДЭМ, важным для его практического применения, является смешивание ЭМ, состоящих из различных частей сигнала и находящихся на разных участках ЭМ.

Для решения данной проблемы предложен метод множественной декомпозиции на эмпирические моды (МДЭМ, Ensemble empirical mode decomposition, EEMD) [4], основанный на многократном добавлении к сигналу бесконечно малой амплитуды белого шума и вычислении среднего значения полученных мод, как конечного истинного результата:

Ef-i IMFu(t) Zi= 1 гд(t)

IMFt(t) = j-1 j j( 7, n(t) = j j ( 7, (7)

где IMFji(t), Vji(t) - ЭМ и остаток, полученные при различных декомпозициях j = 1, 2,... J - количество циклов декомпозиций (добавлений к сигналу белого шума).

Малый по амплитуде белый шум позволяет получить ЭМ, сопоставимые с участками сигнала несоизмеримых масштабов и находящихся в различных частях. Анализируемый сигнал представляет собой сумму сигнала и шума:

Vj (t)=x(t) + nj (t), (8)

где x(t) - исходный речевой сигнал, nj (t) - белый шум.

Данный подход в полное мере использует преимущество статистических характеристик белого шума, для обнаружения слабых периодических или квазипериодических составляющих сигналов.

Использование белого шума в МДЭМ для решения проблемы смешивания ЭМ порождает в сигнале новый шумовой остаток, влияющий на реконструкцию исходного сигнала [5]. По этой причине был разработан метод МДЭМ с добавлением белого шума с прямыми и инверсными значениями, называющийся методом множественной декомпозиции на эмпирические моды (КМДЭМ, Complementary Ensemble Empirical Mode Decomposition CEEMD) [5]:

" Уз (п) _ у,(п)* _

где Wj(п) - добавленный белый шум; у^ (п) - сумма зашумленного речевого сигнала х(п) с белым шумом; yj(п)* - сумма зашумленного речевого сигнала х(п) с инверсным по знаку белым шумом.

В результате разложения сигнала методом КМДЭМ формируется множество ЭМ, свободных от отмеченных ранее недостатков. Вычисление среднего значения полученных мод как конечного истинного результата обеспечит полное удаление остаточного белого шума за счет пары прямых и инверсных значений независимо от того, сколько сигналов шума использовалось.

1 1 1 -1

х(п) ™3 (п)

(9)

*

4. Исследование методов декомпозиции

Для анализа преимуществ и недостатков вышеизложенных методов автором проведено исследование, состоящее из двух частей:

1) Исследование частотно-избирательных свойств методов ДЭМ, МДЭМ и КМДЭМ.

2) Исследование возможности применения методов декомпозиции на этапе предварительной обработки в алгоритме оценки ЧОТ.

Исследование проводилось в пакете прикладных программ для решения технических и математических задач МЛТЬЛБ 7.0.1 с использованием тестовой выборки, состоящей из 100 речевых сигналов - звуков гласной звонкой фонемы «а» длительностью 100 мс [16]. Сигналы зарегистрированы с посторонними шумами (отношение сигнал/шум - 50 дБ), частота дискретизации 8000 Гц, разрядность квантования 16 бит.

В результате разложения методами ДЭМ для речевого сигнала (см. рис. 1) получено восемь ЭМ и монотонный остаток. Оценка частотно-избирательных свойств методов ДЭМ заключается в анализе распределения мощности сигнала мод, приходящейся на единичный интервал частоты - спектральной плотности мощности [17, 18]. Так как основная информация о сигнале содержится в действительном части частотного спектра и информация о фазе не используется, спектральная плотность мощности определялась по формулам:

1 2 1 2 Рг(п) = - \1МРг(п)\2 , РТ(п) = - |П(п)\2 , (10)

где 1МРг(п), Г1 (п) - ЭМ и остаток соответственно, п - дискретный отсчет времени (0 < п ^ N, N - количество дискретных отсчетов в сигнале ЭМ), г - номер ЭМ.

Дискретные отсчеты времени

Рис. 1. Речевой сигнал звука гласной звонкой фонемы «а»

В качестве единицы измерения спектральной плотности мощности выбрана составная величина дБВт/Гц с опорным уровнем в 1 Вт/Гц (мощность, выделяющаяся в полосе частот шириной в 1 Гц). Единица измерения децибел используется здесь для удобства указания значения физической величины Вт/Гц по отношению к опорному уровню.

Частота, Гц

Рис. 2. АЧХ ЭМ, полученных методом ДЭМ

Рис. 3. Результат разложения методом ДЭМ

10

£ =Г

-10

с У

§ -20

1 1 1 1 1 1 ЭМ9 ЭМ8 ЭМ7 ЭМб ЭМ5 ЭМ4 эмз ЭМ2 ЭШ-

V-__\- \ \ \ \ N \ \

гО'х \ \ 1 1 1 !

10

100

Частота, Гц

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. АЧХ ЭМ, полученных методом МДЭМ

Для 100 звуков гласной фонемы «а» на рисунках 3, 5, 7 представлены графики усредненных зависимостей спектральной плотности мощности от частоты сигналов ЭМ, полу-

ченных методами ДЭМ. Кривые зависимости имеют форму колоколообразных импульсов, описывающих частотно-избирательные свойства (амплитудно-частотные характеристики АЧХ, соответствующие каждой ЭМ).

Рис. 5. Результат разложения методом МДЭМ

1 1 1 ЭМ9 ЭМ8 ЭМ7 ЭМ6 ЭМ5 ЭМ4 ЭМЗ ЭМ2 ЭМ1

х \ / х /\ /\ /\ [X /\

Л гх \

1

1 10 100

Частота, Гц

Рис. 6. АЧХ ЭМ, полученных методом КМДЭМ

На рисунках 2, 4, 6 представлены примеры разложения на ЭМ соответственно методами ДЭМ, МДЭМ и КМДЭМ звука гласной звонкой фонемы «а».

Как видно из рисунка 2, АЧХ ЭМ, полученных методом ДЭМ, имеют слишком пологие спады, широкие полосы пропускания и располагаются близко друг к другу, образуя большие области перекрывания. Это является причиной проявления эффекта смешивания мод, начиная с ЭМ3 по ЭМ6 (см. рис. 6).

Как видно из рисунка 4, по сравнению с методом ДЭМ (см. рис. 2) АЧХ ЭМ, полученных методом МДЭМ, имеют менее пологие спады, достаточно узкие полосы пропускания и распределены друг к другу, не создавая большие области перекрывания. Исключением является характеристика ЭМ1, на этапе декомпозиции которой фильтруются высокочастотные составляющие. Это является причиной полного отсутствия эффекта смешивания мод, однако в ЭМ1 проявляется другой эффект - просачивание остаточного высокочастотного белого шума, добавляемого при декомпозиции (см. рис. 5).

Рис. 7. Результат разложения методом КМДЭМ

Как видно из рисунка 6, по сравнению с методами ДЭМ (см. рисунок 2) и МДЭМ (см. рисунок 4) АЧХ ЭМ, полученных методом КМДЭМ, имеют крутые спады, узкие полосы пропускания и максимально распределены друг к другу, создавая минимальные области перекрывания. Это является причиной полного отсутствия эффектов смешивания мод и просачивание остаточного высокочастотного белого шума (см. рис. 7).

Для исследования возможности применения методов декомпозиции в алгоритме оценки ЧОТ был проведен анализ энергетических и спектральных характеристик ЭМ, направленный на поиск и определение вокализованной моды с основным тоном.

Характер изменения амплитуды ЭМ является важным информативным параметром. В частности амплитуда невокализованных участков мод значительно меньше амплитуды вокализованных участков. Подобные изменения амплитуды хорошо описываются с помощью функции кратковременной энергии сигнала. Логарифмирование энергии обеспечит возможность точной фиксации изменения амплитуды ЭМ. Вычисления энергии ЭМ и ее логарифмирование осуществлялось по формулам:

N N

Ег = Y, [IMFi(n)]2 , \og2 Ег = \og2 Y, [IMFi(n)]2 . (11)

п=1 п=1

На рисунках 8-10 представлены графики зависимости логарифмов энергии от номера ЭМ, полученных методами декомпозиции.

Номер ЭМ

Рис. 8. Зависимость логарифмов энергии от номера ЭМ, полученных методом ДЭМ

Рис. 9. Зависимость логарифмов энергии от номера ЭМ, полученных методом МДЭМ

Номер ЭМ

Рис. 10. Зависимость логарифмов энергии от номера ЭМ, полученных методом КМДЭМ

Как видно из рисунков 8-10, наибольшие амплитудные значения и значения логарифма энергии имеют первые пять информативных вокализованных мод. Учитывая резкий перепад амплитудных значений и значений логарифма энергии с ЭМ5 на ЭМ6, можно предположить, что вокализованная ЭМ5 содержит основной тон [19].

Анализ спектрального распределения «гармонического сита» основного тона первых пяти информативных вокализованных мод подтверждает предположение о том, что ЭМ 5 содержит основной тон (см. рисунки 11-13).

Рис. 11. Спектральное распределение ЭМ1-ЭМ5, полученных методом ДЭМ

Спектральное распределение ЭМ1-ЭМ5, полученных методом КМДЭМ.

Рис. 12. Спектральное распределение ЭМ1-ЭМ5, полученных методом МДЭМ

Рис. 13. Спектральное распределение ЭМ1-ЭМ5, полученных методом КМДЭМ

Сопоставляя результаты спектрального распределения ЭМ5, содержащих основной тон и полученных методами декомпозиции, можно сделать вывод, что наилучшими частотно-избирательными свойствами обладает метод КМДЭМ.

Полный сравнительный анализ результатов исследований частотно-избирательных свойств методов декомпозиции, позволяет сделать вывод, что наиболее адаптивным методом разложения речевых сигналов является метод КМДЭМ, который может найти практическое применение в алгоритмах оценки ЧОТ.

5. Заключение

В статье рассмотрена проблема эффективности анализа речевых сигналов на этапе предобработки в алгоритмах оценки ЧОТ. Проведен краткий анализ основных методов деком-

позиции, применяемых на этапах предварительной обработки. Предложен новый метод адаптивного разложения нелинейных и нестационарных речевых сигналов - метод декомпозиции на эмпирические моды. Представлены блок схемы разновидностей методов ДЭМ, МДЭМ и КМДЭМ с подробным описанием математического аппарата.

Проведено исследование частотно-избирательных свойств и возможности применения методов на этапе предварительной обработки в алгоритме оценки ЧОТ. Анализ результатов выявил, что наиболее адаптивным методом декомпозиции речевых сигналов является метод КМДЭМ, который может найти практическое применение в алгоритмах оценки ЧОТ.

Литература

1. Михайлов В.Г., Златоусова Л.В. Измерение параметров речи / под ред. М.А. Сапожникова. М.: Радио и связь, 1987. 168 с.

2. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework. Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, 27-31 Aug. 2012. Р. 2787-2791.

3. Huang N.E., Zheng Shen, Steven R.L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceedings of the Royal Society of London A. 1998. V. 454. P. 903-995.

4. Zhaohua Wu, Huang N.E. Ensemble empirical mode decomposition: A noise - assisted data analysis method, Advances in Adaptive Data Analysis. 2009. V. 1(1). P. 1-41.

5. Yeh J.-R., Shieh J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method, Advances in Adaptive Data Analysis. 2010. V. 2(2). P. 135-156.

6. Алимурадов А.К. Применение преобразования Гильберта-Хуанга в задаче выделения информативных признаков речевых сигналов / А. К. Алимурадов, А.Ю. Тычков // Международный научно-исследовательский журнал. 2013. № 5-1(12). С. 57-58.

7. Алимурадов А.К. Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов / А.К. Алимурадов, Ю.С. Квитка // Измерение. Мониторинг. Управление. Контроль. 2014. № 4(10). С. 69-75.

8. Алимурадов А.К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А.К. Алимурадов, П.П. Чураков // Измерение. Мониторинг. Управление. Контроль. 2015. № 2(12). С. 27-35.

9. Баскаков С.И. Радиотехнические цепи и сигналы. М. Высшая школа, 2000. 214 с.

10. Малла С. Вейвлеты в обработке сигналов: пер. англ. М.: Мир, 2005. 212 с.

11. Huang N.E. The Hilbert-Huang transform and its applications / World Scientific Publishing Co. Pte. Ltd. 5, Singapore 596224. 2005. 526 p.

12. Huang N.E. An Introduction to Hilbert-Huang Transform: A Plea for Adaptive Data Analysis // Research Center for Adaptive Data Analysis. National Central University. Singapore. 2007, 257 pages.

13. Kuo-Hau Wu, Chia-Ping Chen, Bing-Feng Yeh Noise-robust speech feature processing with empirical mode decomposition // EURASIP Journal on Audio, Speech, and Music Processing. 2011. 9 p.

14. Md. Ekramul Hamid, Somlal Das, Keikichi Hirose, Md. Khademul Islam Molla Speech Enhancement Using EMD Based Adaptive Soft-Thresholding (EMD-ADT) // International Journal of Signal Processing, Image Processing and Pattern Recognition. June, 2012. V. 5(2). 16 p.

15. Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi, Monia Turki-Hadj Alouane. Speech Enhancement via EMD // Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing. 2008. 8 p.

16. Тычков А.Ю., Алимурадов А.К., Квитка Ю.С., Ярославцева Д.А. Свидетельства о государственной регистрации программ для ЭВМ «Верифицированная база речевых сигналов». № 2013621156; заявл.13.09.2013.; опубл. 06.11.2013.

17. Mandic D.P., Rehman N.U., Zhaohua Wu, Huang N.E. Empirical Mode Decomposition-Based Time-Frequency Analysis of Multivariate Signals: The Power of Adaptive Data Analysis, Signal Processing Magazine // IEEE. Nov. 2013. V. 30(6). P. 74-86.

18. Flandrin P., Rilling G., Goncalvas P. Empirical Mode Decomposition as a Filter Bank // IEEE Signal Processing Letters. Feb. 2004. V. 11(2), P. 112-114.

19. Gaston S., Torres M.E., Hugo L.R. Pathological Voice Analysis and Classification Based on Empirical Mode Decomposition // Development of Multimodal Interfaces: Active Listening and Synchrony Lecture Notes in Computer Science. 2010. V. 5967. P. 364-381.

References

1. Mikhailov V.G., Zlatousova L.V. Speech parameters measurement. M.: Radio and Communication, 1987.

2. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework, Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, 27-31 Aug. 2012, P. 2787-2791.

3. Huang N.E., Zheng Shen, Steven R.L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceedings of the Royal Society of London A. 1988. V. 454. P. 903-995.

4. Zhaohua Wu, Huang N.E. Ensemble empirical mode decomposition: A noise - assisted data analysis method, Advances in Adaptive Data Analysis. 2009. V. 1(1). P. 1-41.

5. Yeh, J.-R., Shieh, J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method, Advances in Adaptive Data Analysis. 2010. V. 2(2). P. 135-156.

6. Alimuradov A.K., Tychkov A.Yu. Applying of Hilbert-Huang transform to the problem of selection of speech signals informative features. International research journal. 2013. № 5-1(12). P. 57-58.

7. Alimuradov A.K., Kvitka Yu.S. The application of complementary ensemble empirical mode decomposition for speech signals analysis. Measurement. Monitoring. Management. Control.

2014. № 4(10). P. 69-75.

8. Alimuradov A.K., Churakov P.P. Review and classification of speech signals processing methods in speech recognition systems. Measurement. Monitoring. Management. Control.

2015. № 2(12). P. 27-35.

9. Baskakov S.I. Radio circuits and signals. M.: Higher school, 2000.

10. Malla S. Wavelets in signal processing. M.: Mir, 2005.

11. Huang N.E. The Hilbert-Huang transform and its applications. World Scientific Publishing Co. Pte. Ltd. 5, Singapore 596224. 2005. 526 p.

12. Huang N.E. An Introduction to Hilbert-Huang Transform: A Plea for Adaptive Data Analysis. Research Center for Adaptive Data Analysis. National Central University. Singapore. 2007. 257 p.

13. Kuo-Hau Wu, Chia-Ping Chen, Bing-Feng Yeh Noise-robust speech feature processing with empirical mode decomposition. EURASIP Journal on Audio, Speech, and Music Processing. 2011. 9 p.

14. Md. Ekramul Hamid, Somlal Das, Keikichi Hirose, Md. Khademul Islam Molla Speech Enhancement Using EMD Based Adaptive Soft-Thresholding (EMD-ADT), International Journal of Signal Processing, Image Processing and Pattern Recognition. June, 2012. V. 5(2). 16 p.

15. Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi, Monia Turki-Hadj Alouane Speech Enhancement via EMD. Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing. 2008. 8 p.

16. Tychkov A.Yu., Alimuradov A.K., Kvitka Yu.S., Yaroslavtseva D.A. Certificate of state registration of the computer program «A verified database of speech signals». № 2013621156 from 06 Nov. 2013.

17. Mandic D.P., Rehma, N.U., Zhaohua Wu, Huang N.E. Empirical Mode Decomposition-Based Time-Frequency Analysis of Multivariate Signals: The Power of Adaptive Data Analysis. Signal Processing Magazine. IEEE. Nov. 2013. V. 30(6). P. 74-86.

18. Flandrin P., Rilling G., Goncalvas P. Empirical Mode Decomposition as a Filter Bank, IEEE Signal Processing Letters. Feb. 2004. V. 11 (2). P. 112-114.

19. Gaston S., Torres M.E., Hugo L.R. Pathological Voice Analysis and Classification Based on Empirical Mode Decomposition, Development of Multimodal Interfaces: Active Listening and Synchrony Lecture Notes in Computer Science. 2010. V. 5967. P. 364-381.

Поступила в редакцию 10.09.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.