УДК 519.95
ВЕЙВЛЕТ АНАЛИЗ РЕЧИ
© А.П. Зубаков
Ключевые слова: вейвлет-преобразования; речь; распознавание речи.
В настоящей работе предлагается использовать аппарат непрерывных вейвлет-преобразований для анализа речи.
В настоящее время усилия ученых и коллективов исследователей направлены на решение проблемы распознавания речи. Фирмы М1кг080Й и 1ВМ выделяют значительные средства для реализации командных функций по управлению программным обеспечением на естественном языке. Однако практическая реализация диалога с компьютером оказалась весьма сложной задачей. В нашей стране известны программные продукты, реализующие процедуру распознавания вводимой с микрофона речи, такие как «Горыныч», «Комбат», «Говорящая мышь» и др. Однако реальное качество работы этих систем распознавания не выдерживает критики. При этом в реальной жизни мы постоянно сталкиваемся с практической реализацией процесса распознавания в ходе общения живых индивидуумов.
В настоящей работе предлагается использовать аппарат непрерывных вейвлет-преобразований для анализа речи.
В качестве объекта исследования была использована фраза «ну-ка съешь этих следующих вкусных французских булочек да выпей чайку», произносимая через микрофон и оцифрованная в виде дискретных отсчетов в файлы, соответствующие 19 дикторам. Выбор текста был обусловлен большим фонетическим разнообразием (рис.1).
Для преобразования дискретных отсчетов в непрерывную функцию была произведена их квазилинейная и квадратичная интерполяция, в результате чего были получены две функции, представленные на рис. 2.
Как видно на рис. 2, обе функции достаточно близки друг к другу. Поэтому в дальнейшем использовалась квадратичная интерполирующая функция.
Непрерывный вейвлет-анализ данной функции для вейвлета типа «мексиканская шляпа» с 12x12 коэффициентами позволил получить спектрограмму, представленную на рис. 3.
Рис. 1. Оцифрованная реализация тестовой фразы
Рис. 2. Квазилинейная - ,у1(х) и квадратичная - ,у2(х) интерполяция
Рис. 3. Спектрограмма с 12x12 вейвлет-коэффициентами
Рис. 4. Спектрограмма с 11x122 вейвлет-коэффициентами
N := 10000 inf := 1000
Вц-11000 := Ац ХП-11С00 := п
1 ( (t-Ъ
Ф(а,ЬД) := — ■ inhat -------
^а V. \ £
Анализ с 11x122 коэффициентами вейвлет-преобразования дал более развернутую картину, представленную на рис. 4.
В дальнейшем представляется необходимым выполнить обратное вейвлет-преобразование и формирование аудио-файлов, чтобы в интерактивном режиме контролировать процесс анализа.
Поступила в редакцию 12 ноября 2010 г.
С(а,Ь) :=
Ф(а,ЬД) ■ y2(t) dt
Zubakov A.P. Wavelet speech analysis The work offers to use the apparatus of continuous wavelet-transformations for speech analysis.
Key words: wavelet-transformations; speech; speech identification.