Научная статья на тему 'Математические методы фонемной классификации речевых команд'

Математические методы фонемной классификации речевых команд Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
124
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИИ РЕЧЕВЫХ КОМАНД / ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / НЕЧЕТКАЯ ЛОГИКА / CLASSIFICATION HUMAN SPEECH / WAVELET TRANSFORM / FUZZY LOGIC

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковалев О. Ф., Беликов И. Ю.

Рассматриваются методы построения классификации речевых команд на основе фонем. Приведен алгоритм ускоренного вычисления вейвлет-преобразований Хаара и способ использования нечеткой логики в задаче классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL METHODS PHONEME CLASSIFICATION OF SPEECH TEAM

The article is devoted to the problem of classification human speech based on phonemes. Also described the algorithm of fast wavelet transform Haar. The paper shows a way for used fuzzy logic for classification one-dimension signal.

Текст научной работы на тему «Математические методы фонемной классификации речевых команд»

УДК 519.6

О.Ф. Ковалев, И.Ю. Беликов МАТЕМАТИЧЕСКИЕ МЕТОДЫ ФОНЕМНОЙ КЛАССИФИКАЦИИ РЕЧЕВЫХ КОМАНД

Рассматриваются методы построения классификации речевых команд на основе фонем. Приведен алгоритм ускоренного вычисления вейвлет-преобразований Хаара и способ использования нечеткой логики в задаче классификации.

Классификации речевых команд, вейвлет-преобразование, нечеткая логика.

O.F. Kovalev, I.U. Belikov MATHEMATICAL METHODS PHONEME CLASSIFICATION OF SPEECH TEAM

The article is devoted to the problem of classification human speech based on phonemes. Also described the algorithm of fast wavelet transform Haar. The paper shows a way for used fuzzy logic for classification one-dimension signal.

Classification human speech, wavelet transform, fuzzy logic.

Особый интерес в задачах классификации речевой информации представляет способ извлечения команд из непрерывной речи. Существует множество проблем, которые связаны как с физиологическими особенностями формирования человеческой речи, так и со способом анализа речевого сигнала. В качестве такого метода широко используется преобразование Фурье [2]. Но они удобны для классификации отдельных команд, сегментированных на определенные участки. Вычисления Фурье дают усредненную оценку частотной области во времени. В качестве анализируемых процессов речи человека выступают гласные фонемы. Поэтому фонемный анализ непрерывной речи является перспективной задачей. Фонемы отличаются друг от друга по отношению частоты основного тона на резонансные частоты фонем [3]. Такой анализ становиться возможным благодаря непрерывному вейвлет-преобразованию [3], которое дает точную оценку частоты в определенный отсчет времени:

C(k,t) = я £ f (y)y(k(y -1))dy, (1)

где C(k,t) - коэффициенты вейвлет-разложения сигнала f(y); W - базисная вейвлет-функция. В качестве базисной функции используется вейвлет Хаара.

Хотя он и не обладает гладкостью, его свойств достаточно для точного определения резонансных частот в речевом сигнале. Выполняя непрерывное вейвлет-преобразование Хаара в области частот от 60 Гц до 3 кГ ц, можно выделять частоту основного тона и резонансные частоты.

Частота основного тона приходится на первый резонанс в фонеме [4]. Для получения полной информации о фонеме достаточно первые три-четыре резонансные частоты.

На рис. 1, приведена частотно-временная зависимость на основе коэффициентов вейвлет-преобразования Хаара. По оси абсцисс откладываются отсчеты времени, по оси ординат - частота, в виде коэффициентов масштабирования вейвлет-функции. В качестве речевого сигнала анализируются фонемы ‘а’ и ‘е’. Области, закрашенные темным цветом, являются максимальными значениями вейвлет-коэффициентов, т.е. областями резонансных частот.

Рис. 1. Вейвлет-преобразование Хаара фонем ‘а’ и ‘е’

Рис. 2. Уровни вейвлет-преобразования Хаара

Функция Хаара определяется следующим выражением [5]:

% 0 < 1 < 1/2

ПО =

1, 1/2 < 1 < 1

(2)

0, 1 < 0,1 > 1.

Для постоянного выполнения вейвлет-преобразования Хаара, при обработке речевого сигнала, формула (1) не является удобной. Это обусловлено ресурсоемкими вычислениями. На рис. 2 представлен вид функции Хаара, для выполнения вейвлет-преобразования по уровням от 1 до т.

В соответствии с формулой (2) и рис. 2 можно записать алгоритм преобразования в виде:

^ = SЯ_1 + f (-п) - f (п),

Sn = Sй - f (-п) + 2 f (0) - f (п),

(3)

(4)

где Sn - значение вейвлет-коэффициента; f (п) - значение функции Хаара на данном отсчете сигнала.

Представленный алгоритм в виде сумм и разностей от предыдущих вычислений (3), позволяет уменьшить время на вычисление вейвлет-коэффициентов. Необходимым условием данного алгоритма в задачах анализа речевых сигналов является наличие первоначального

окна для просчета данных. Затем это окно сдвигается на один шаг, и пересчитываются значения коэффициентов вейвлет-преобразования на границах и середине области определения функции Хаара (4). В процессе выполнения данных преобразований, необходимо искать резонансные колебания в области определения фонемы. Под этой областью следует понимать максимально возможную длину гласной фонемы. После нахождения резонансных частот в области определения высчитываются их отношения по формулам:

АР1 = Р1/Рт; АР2 = Р2/Рт; АР3 = Р3/Рт, (5)

где АРи - отношение соответствующей частоты к частоте основного тона Рт.

Полученные отношения для каждой из гласных фонем могут быть использованы в качестве дикторонезависимых параметров классифицирующей системы [3]. На сегодняшний день, в задачах классификации активно используются нейронные сети и нечеткая логика[1]. Нечеткую логику в задачах фонемной классификации, можно использовать при помощи нечетких правил вхождения в функцию принадлежности. Для данной задачи целесообразно использовать Т-норму функции принадлежности, с небольшой областью вхождения, вычисляемой экспериментально.

Вершины Т-функций принадлежности для каждой из фонемы получаются по формулам (5).

Рис. 3. Т-функции для фонем ‘а’ и ‘е’

Не исключено, что некоторые области для разных фонем могут пересекаться, поэтому используя нечеткую систему правил необходимо вычислять вероятность принадлежности к фонемному классу. Используемая Т-функция имеет вид:

А(и)

0,

u - a Ь - a c - u c -Ь ,

u < a , u > с, a < u < Ь,

Ь < u < с.

(6)

Здесь (а,с) - носитель нечеткого множества, Ь - координата максимума.

Представленные методы и алгоритм быстрого вейвлет-преобразования Хаара, позволяют определить зависимость отношений резонансных частот в фонеме, обеспечить выполнение дикторонезависимой классификации формантных частот на основе гласных фонем в слитной речи. Особый интерес представляет реализация данных методов и алгоритма на программируемых логических интегральных схемах (ПЛИС).

ЛИТЕРАТУРА

1. Штовба С.Б. Проектирование нечетких систем средствами МАТЬАБ / С.Б. Штов-ба// М: Горячая линия-Телеком, 2007. 288 с.

2. Сергиенко А.Б. Цифровая обработка сигналов / А.Б. Сергиенко // СПб: Питер, 2003. 608 с.

3. Рассказова С.И. Метод формантного анализа на основе вейвлет-преобразования в системах распознавания речи/ С.И. Рассказова // Сб.тр. МГТУ им. Н.Э. Баумана. 2007. С. 38-43.

4. Леонов А.С. К анализу резонансных частот речевого тракта / А.С. Леонов, В.Н. Сорокин // Сб.тр. МИФИ. Информационные процессы. Т.7. 2007. С. 386-400

5. Уэлстид С. Фракталы и вейвлеты в действии/ С. Уэлстид//М: Триумф, 2003. 320 с.

6. Беликов И.Ю. Активные агенты и нейронная сеть на базе ПЛИС / И.Ю. Беликов, О.Ф. Ковалев // Математические методы в технике и технологиях : сб трудов международной научной конференции . Т.10. 2010. С. 46-47.

Ковалев Олег Федорович -

доктор технических наук, профессор, заведующий кафедрой «Электронные вычислительные машины» Южно-Российского государственного технического университета

Беликов Иван Юрьевич -

ассистент кафедры «Электронные вычислительные машины» Южно-Российского государственного технического университета

Статья поступила в редакцию 9.07.11, принята к опубликованию 5.10.11

i Надоели баннеры? Вы всегда можете отключить рекламу.