Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды

Алимурадов Алан Казанферович; Тычков Александр Юрьевич; Чураков Петр Павлович

- в процессах брожения при производстве напитков и продуктов питания;

- для ингаляции и приема ванн;

- для улучшения среды обитания и повышения продуктивности рыб в прудах и бассейнах.

На данный момент невозможно оценить всю глубину перспективности разработок на основе вихревых технологий. Вихревые технологии открывают новые, ранее неизвестные и неиспользуемые возможности для эффективного решения многих частных вопросов.

Список литературы

1. Абрамов, Н. Н. Водоснабжение : учеб. для вузов / Н. Н. Абрамов. - Изд. 2-е, пере-раб. и доп. - М. : Стройиздат, 1974. - 22 с.

2. Журба, М. Г. Водоснабжение. Проектирование систем и сооружений : учеб. пособие / М. Г. Журба, Л. И. Соколов, Ж. М. Говорова. - Изд. 2-е, перераб. и доп. -М. : АСВ, 2004. - 214 с.

3. Багнюк, В. В. Обоснование параметров устройства для аэрации вод, включая сточные, на основе виброструйного эффекта : дис. ... канд. техн. наук: 03.00.16 / Багнюк В. В. - М., 2003. - 212 с.

4. Воронов, В. Ю. Струйная аэрация / В. Ю. Воронов, В. Д. Казаков, М. Ю. Толстой. -М. : Изд-во Ассоциации строительных вузов, 2007. - 47 с.

5. Попкович, Г. С. Системы аэрации сточных вод / Г. С. Попкович, Б. Н. Репин. -М. : Стройиздат, 1986. - 136 с.

6. Пат. 2046880 Российская Федерация, МПК6 Е 02В 8/08. Способ защиты планктонных организмов от гибели из-за кавитации в гидромашинах и устройство для его осуществления / А. С. Лашков, К. И. Кириллова ; заяв. и патентообл. Лаш-ков А. С. - № 5005379/23 ; заявл. 26.09.1991 ; опубл. 27.10.1995, Бюл. № 23. - 1 с.

УДК 621.391

ОПРЕДЕЛЕНИЕ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ

МЕТОДА МНОЖЕСТВЕННОЙ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков

Представлен алгоритм обнаружения и определения информативного параметра речевого сигнала - частоты основного тона. Предлагаемый алгоритм обеспечивает выполнение таких функций, как множественная декомпозиция на эмпирические моды исходного сигнала, обработка и анализ отдельных эмпирических мод, обнаружение информативных составляющих отдельных эмпирических мод и вывод частоты основного тона речевого сигнала.

This article presents the algorithm of detection and determination of informative parameter of a speech signal - frequencies of the main tone. Offered algorithm

provides performance of the following functions: multiple décomposition on empirical fashions of an initial signal, processing and the analysis of separate empirical fashions, detection of informative making separate empirical fashions and a conclusion offrequency of the main tone of a speech signal.

Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст) и т.д.

Одним из основных параметров устной речи является частота повторения колебаний голосовых связок при произнесении вокализированной речи, называемая основным тоном (ОТ). В мгновенных значениях частоты ОТ переносится значительное количество информации, отличающей устную речь от письменной. Статистические параметры основного тона, диапазон его значений, диапазон скоростей изменения и т.д. в значительной мере определяют структуру и параметры устройств выделения ОТ. Эти устройства входят в состав большинства систем обработки и распознавания речи и относятся к одним из основных и наиболее сложных элементов.

Речевые сигналы являются нестационарными и нелинейными сигналами сложной формы, амплитудные и временные параметры которых индивидуальны для каждого человека. Учитывая данный факт, в устройствах по обработке речи возникает серьезная проблема регистрация информативных параметров с целью их идентификации и распознавания. Ошибки в выделении ОТ приводят к значительному снижению вероятности правильного распознавания речевых сигналов. Методы, используемые в современных устройствах обработки речи, зачастую не справляются с задачей корректного выделения ОТ в условиях работы с нестационарными и нелинейными речевыми сигналами.

Таким образом, разработка алгоритма выделения ОТ, обеспечивающего точную и надежную оценку значений его частоты, работающего с реальными речевыми сигналами, для систем обработки речи является актуальной и важной.

Речевой сигнал образуется артикуляционным аппаратом человека [1], он подразделяется на вокализованные и невокализованные участки: вокализованные образуются в результате колебания голосовых связок; невокализо-ванные образуются в результате непериодических колебаний выходящих из легких струй воздуха. Как отмечалось выше, частота колебаний голосовых связок является важной характеристикой речевого сигнала. Среднее значение этой частоты колеблется у разных людей, и у каждого говорящего имеется отклонение в пределах октавы выше или ниже центральной частоты. Поэтому речевые сигналы не только передают информацию, но и дают сведения о голосовых характеристиках говорящего, что позволяет идентифицировать его по голосу.

Методы определения частоты ОТ на сегодняшний день в грубой интерпретации можно подразделить на два основных: временной и спектральный [2]. Суть временного метода заключается в определении периода ОТ между характерными точками речевого сигнала с последующим вычислением частоты ОТ. С точки зрения технической реализации в качестве характерных точек могут быть выбраны главные максимумы и моменты пересечения нулевой

оси времени функцией речевого сигнала. Главный недостаток временных методов заключается в неоднозначности выделения характерных точек, вызванной шумами и смещениями нулевого уровня. Спектральный метод основан на выделении ОТ речи из спектрального описания речевого сигнала. Гармонические составляющие периодического речевого сигнала располагаются равномерно на расстоянии, равном или кратном частоте ОТ. Информация об основном тоне фактически распределена по всему спектру, что дает возможность определить частоту ОТ по любому диапазону частот речевого сигнала. Для выделения ОТ можно использовать тот факт, что все гармонические составляющие кратны частоте ОТ, даже если они расположены не рядом друг с другом. К недостаткам данного метода относится снижение точности определения частоты ОТ при нерегулярной гармонической структуре сигнала, объясняемой нелинейностью и нестационарностью речевых сигналов.

Из вышеприведенного отметим сложность реализации данных методов для нелинейных и нестационарных сигналов, каковыми и являются речевые, т.е. низкая степень адаптации и сложность реализации математического аппарата.

Проведенный анализ существующих методов показал перспективность использования в выделении и определении частоты ОТ нового подхода на основе преобразования Гильберта-Хуанга [3], включающего метод множественной декомпозицию на эмпирические моды (МДЭМ).

Исходя из вышеизложенного отметим определенные требования к разрабатываемому алгоритму:

- алгоритм выделения частоты ОТ должен определять мгновенные значения частоты ОТ на всем интервале речевого сигнала, включающего участки вокализации;

- алгоритм должен работать с нелинейными и нестационарными сигналами, т.е. с реальными речевыми сигналами;

- алгоритм должен быть достаточно прост и содержать малый объем вычислений.

Принимая во внимание данные требования, авторами представлен алгоритм фильтрации определения частоты основного тона с использованием МДЭМ (рис. 1).

Применение аппарата МДЭМ в обработке речевых сигналов получило весьма широкое распространение [4, 5]. Основным преимуществом МДЭМ является высокая адаптивность, проявляющаяся в том, что базисные функции, используемые при разложении, извлекаются непосредственно из самого исходного сигнала и позволяют учитывать только ему свойственные особенности и сложную внутреннюю структуру. Новизна аппарата МДЭМ заключается в многократном добавлении белого шума к сигналу и вычислении среднего значения выделяемых составляющих по классическому методу декомпозиции как конечного истинного результата. Полученные составляющие - эмпирические моды (ЭМ) - позволяют выполнять эффективное для дальнейшего анализа преобразование Гильберта-Хуанга с построением трехмерного спектра Гильберта в системе координат «энергия-частота-время».

Рис. 1 . Алгоритм определения частоты ОТ речевого сигнала

В результате декомпозиции сигнал представляется в частотно-временной области, что позволяет выявлять скрытые модуляции и области концентрации энергии. Так как декомпозиция основана на данных конкретной локальной временной области сигналов, то она применима и к нестационарным сигналам. С помощью преобразования ЭМ можно определить мгновенную частоту как функцию времени, позволяющую получить отчетливое представление о внутренней структуре сигнала.

Для анализа предложенного алгоритма авторами был рассмотрен речевой сигнал - звук согласной звонкой фонемы длительностью 20 мсек (рис. 2).

0 200 400 600 800 1000 1200 1400 1600

Рис. 2. Речевой сигнал звука согласной звонкой фонемы

Алгоритм базируется на множественной декомпозиции речевого сигнала (блок 2), определении частотных характеристик полученных ЭМ и исходного сигнала (блоки 3, 4); выделении информативных ЭМ сравнением частотных характеристик (блоки 5, 6, 7) и соответствующего анализа и определения частоты основного тона (блоки 8, 9).

В результате исследований было подтверждено, что предложенный алгоритм позволяет эффективно определить частоту ОТ, что проиллюстрировано на рис. 3, 4.

80 100 120 140 0.7 с-с-,-

0.16 с—

0.14 -

0.12 -

0.1 -

0.08 -

0.06 -

0 .04 -

0.02 -

0 — 0

0.2

0.15

0.1

0.05

0.1

0.15

0.2

0.07

0.05

0.03

20 40

60

20

40

60

80

00

120

40

0.6 -

0.5 -

0.4 -

0.3 -

0.2 -

0.1 -

20

40

60

80

00

120

40

Рис. 3. Частотные характеристики информативных ЭМ

Рис. 4. Частотные характеристики исходного речевого сигнала

Определение частоты ОТ осуществляется из информативных эмпирических мод по их частотным характеристикам с применением метода «гармонического сита». В результате проведенных исследований определена частота ОТ исходного речевого сигнала 19,53 Гц.

Итогом проведенных в статье исследований являются следующие теоретические и практические результаты:

- разработан адаптивный алгоритм определения частоты ОТ речевых сигналов на основе множественной декомпозиции на эмпирические моды;

- проведено экспериментальное исследование алгоритма на примере речевого сигнала звука сонорной согласной фонемы, результатом которого является определение значения частоты ОТ 19,53 Гц.

Список литературы

1. Галунов В. И. Механизм работы голосового источника / В. И. Галунов, И. Б. Там-пель // Акустический журнал. - 1981. - Т. 27, вып. 3. - С. 321-334.

2. Лузин, Д. А. Разработка и исследование системы автоматического выделения основного тона речи : дис. ... канд. техн. наук: 05.11.16 / Лузин Д. А. - Ижевск, 2009. - 168 с.

3. Wu, Z. Ensemble empirical mode decomposition a noise-assisted data analysis method / Z. Wu, N. E. Huang. - Calverton, MD 20705, USA, NASA Goddard Space Flight Center Greenbelt.

4. Gaston, S. A new algorithm for instantaneous f0 speech extraction based on ensemble empirical mode decomposition / S. Gaston, Maria Eugenia T., L. R. Hugo // 17th European Signal Processing Conference (EUSIPCO 2009). - Glasgow, Scotland. - August 24-28, 2009. - Р. 2347-2351.

5. Клионский, Д. М. Алгоритмы очистки от шума нестационарных сигналов на основе декомпозиции на эмпирические моды / Д. М. Клионский // Теория и методы цифровой обработки : докл. 10-й Междунар. конф. цифровой обработки и ее применение. - СПб. : Изд-во ЛЭТИ, 2010. - С. 192-196.

УДК 519.246.8

МАТЕМАТИЧЕСКИЕ МОДЕЛИ СЛОЖНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ ВРЕМЕННЫХ РЯДОВ

Е. А. Антонова, Н. Ю. Иващенко

Для прогнозирования поведения исследуемой системы рассматриваются методы построения математических моделей с использованием временных рядов. Показывается, что целью анализа временных рядов является описание и объяснение поведения объекта (системы).

Текст научной работы на тему «Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды»