Научная статья на тему 'Определение основного тона речи с помощью вейвлет-преобразования и его применение'

Определение основного тона речи с помощью вейвлет-преобразования и его применение Текст научной статьи по специальности «Математика»

CC BY
838
166
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЧЕТКАЯ ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ / ОСНОВНОЙ ТОН РЕЧИ / ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / РЕЧЕВОЙ СИГНАЛ / DIGITAL SIGNAL PROCESSING / THE BASIC TONE OF THE SPEECH / WAVELET TRANSFORM / SPEECH SIGNAL

Аннотация научной статьи по математике, автор научной работы — Гапочкин Артём Владимирович

Данная статья посвящена проблеме оценки частоты и выделения периодов основного тона в речевом сигнале при помощи вейвлет-преобразования. Высота голоса человека определяется периодом основного тона. Информация об основном тоне речевого сигнала очень важна в приложениях анализа и синтеза речи. В статье рассматриваются и анализируются существующие методы определения периода основного тона.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Determination of the main tone of speech using the wavelet transform and its application

This article is devoted to the problem of estimating the frequencies and the allocation of periods of the pitch in speech signal using wavelet transform. The pitch of the voice is determined by the period of the basic tone. Information about the main tone of the speech signal is very important in applications analysis and synthesis of speech. The article considers and analyzes the existing methods of determining the period of the basic tone.

Текст научной работы на тему «Определение основного тона речи с помощью вейвлет-преобразования и его применение»

№ 1/2016 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА ISSN ON-LINE: 2409-6652 © Московский государственный университет печати имени Ивана Федорова_vestnik.mgup.ru

УДК 681.524

ОПРЕДЕЛЕНИЕ ОСНОВНОГО ТОНА РЕЧИ С ПОМОЩЬЮ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ И ЕГО ПРИМЕНЕНИЕ

Гапочкин Артём Владимирович

аспират кафедры информатики и информационных технологий Московский государственный университет печати имени Ивана Федорова 127550 Россия, г. Москва, ул. Прянишникова, д. 2А м>аггюг_555 @уашЬ1ег.гы

Аннотация. Данная статья посвящена проблеме оценки частоты и выделения периодов основного тона в речевом сигнале при помощи вейвлет-преобразования. Высота голоса человека определяется периодом основного тона. Информация об основном тоне речевого сигнала очень важна в приложениях анализа и синтеза речи. В статье рассматриваются и анализируются существующие методы определения периода основного тона.

Ключевые слова: нечеткая цифровая обработка сигналов, основной тон речи, вейвлет-преобразование, речевой сигнал.

Информация об основном тоне речевого сигнала очень важна в приложениях анализа и синтеза речи. Вид этих приложений весьма широк, начиная с задач идентификации дикторов и заканчивая распознаванием речи. Звуки речи делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряженном состоянии [7,9]. Под напором воздуха, идущего из легких, они периодически раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. Соответствующий период повторения импульсов называют периодом основного тона голоса Т0 — а обратную величину 1/Т0 — частотой основного тона. Если связки тонкие и сильно напряжены, то период получается коротким и частота основного тона высокой; для толстых, слабо напряженных связок — низкой. Частота основного тона для всех голосов лежит в пределах 70-450 Гц [1]. При произнесении речи она непрерывно изменяется в соответствии с ударением, подчеркиванием звуков и слов, а также с проявлением эмоций (вопрос, восклицание, удивление и т.д.). Изменение частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона (обычно он бывает немно-

гим более октавы) и своя интонация. Последняя имеет большое значение для узнавания говорящего [2,11].

Поэтому оценивание периода (или частоты) основного тона (ЧОТ) является одной из наиболее важных задач в обработке речи. Для решения проблем, связанных с измерением основного тона, были разработаны самые разнообразные методы и проведено их сравнение [8,11]. В данной работе в первую очередь уделено основное внимание вейвлет-преобразованиям при определении ЧОТ.

Как известно, вейвлет-преобразование имеет много общего с преобразованием Фурье [4]. В то же время имеется ряд существенных отличий [10]. Определим континуальный базис вейвлетов в пространстве L2(R) на основе системы непрерывных преобразований масштаба и переносов:

1

ФА (t )=-П ф #1

t - b

а

а, b е R, ф е L2 (R)

При этом параметры переноса Ь и масштабного преобразования а принимают произвольные значения из непрерывного спектра. Формула интегрального вейвлет-преобразования на его основе записывается в виде

1 if h \ Wф f ](а,b) J f (tф [^ 1 dt =\f (tф (t)dt

(1)

С помощью этого соотношения можно формально выразить коэффициенты дискретного вейвлет-преобразования:

cjk =

w f ]f £

Вейвлет-анализ (1) — позволяет анализировать поведение сигнала во временной области, также хорошо подходит для анализа взрывных согласных, так как базисные функции — вейвлеты представляют со-

бой «всплески», очень похожие на импульсы. В качестве примера был взят текст, прочитанный мужчиной и обработанный в программе МайаЬ [6]. Базовым вейвлетом для анализа являлся вейвлет-Добеши, максимальная длина вейвлетов — 4096, минимальная — 32, размерность вейвлет-вектора — 256. Для каждого рассчитанного вейвлет-вектора определялась максимальная компонента, которая на рис. 1. выделялась белой точкой [5].

Можно заметить, что на рисунке очень хорошо выделяется частота основного тона речи. Данный па-

№ 1/2016 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА ISSN ON-LINE: 2409-6652 © Московский государственный университет печати имени Ивана Федорова_vestnik.mgup.ru

раметр может быть использован при анализе и распознавании интонации речи человека [3].

0.094 8 0.783 8 1.472$ 2.1618 2.8518

Рис. 1. Результат вейвлет-анализа основного тона речи

Рассмотрим пример определения пола диктора. Если проанализировать некоторый участок речи мужчины и женщины, то окажется, что вейвлет-образы речи существенно различаются. В качестве примера были взяты два файла, в одном из которых было записано слово «четыре», произнесённое муж-ским голосом, а в другом — женским. Результаты вейвлет-анализа этих файлов приведены на рис. 2.

к

к* ,

8881218-164S-2233-3G5-

Ш: 11$: Е316: Ш: ДО:

| . га ■ 1

106146-

ям '

2В7-зк-

бй-899138164922333025_:_ь1

0ИЮ1 ПК) 03721 05561 Ш|

Рис. 2. Вейвлет-образ слова «четыре», произнесённого женским голосом и мужским

Из полученных рисунков можно сделать следующие выводы.

Во-первых, самое существенное отличие между этими двумя вейвлет-образами — разный основной тон. Визуально хорошо видно, что справа он выше, чем слева.

Во-вторых, можно заметить, что справа в области над основным тоном присутствует так называемая «гармошка» — части вейвлет-векторов с изменяющейся общей амплитудой. Это тоже характерная черта мужского голоса, так как в нём, как правило, присутствуют «дребезжащие» звуки, в то время как женский голос, как правило, более «гладкий».

В-третьих, при наличии достаточно длинного промежутка речи, можно анализировать интонацию, которая часто у мужчин и женщин различается.

Проанализировав данные диаграммы, можно определить, кому принадлежит речь — мужчине или женщине. У мужчин больше амплитуда голоса и более ярко выражены низкие частоты, в то время как у женщин амплитуда голоса ниже и ярче выражены высокие частоты.

Анализ и обработку речи можно осуществлять с помощью таких программ, входящих в пакет MATLAB, как Simulink, Wavelet toolbox, Signal processing.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Аграновский A.B. Теоритические аспекты алгоритмов и классификации речевых сигналов. — М.: Радио и связь, 2004. — 164 с.

2. Астафьева Н.М.Вейвлет-анализ. Основы теории и применения. Успехи физических наук, т.166, вып. 11, ноябрь 1996 г.

3. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук. Думка, 1987.

4. Гапочкин А.В. Преимущество вейвлет-преобразования в обработке речевых сигналов. // Вестник МГУП имени Ивана Федорова. — 2015. — № 6. — С. 34-36.

5. Ермоленко Т.В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Искусственный интеллект. Украина. — № 3. — 2003. — С. 409-416.

6. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в Matlab — М.: ДМК Пресс, 2005. — 304 с.

7. Попов Д.И. Cети ЭВМ и телекоммуникации. — М.: МГУП, 2009.

8. Попов Д.И. Информационные технологии. Базы данных. — М.: МГУП, 2009.

9. Фант Г. Акустическая теория речеобразования / Г. Фант. — М.: Наука, 1964. — 284 с.

10. Гапочкин А.В., Попов Д.И. Повышение точности вейвлет-анализа звуковых сигналов. В сб.: Информационно-телекоммуникационные системы и технологии. Всероссийская научно-практическая конференция. — 2015. — С. 224.

№ 1/2016 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА

© Московский государственный университет печати имени Ивана Федорова

ISSN ON-LINE: 2409-6652 _vestnik.mgup.ru

Rabiner L., Cheng M.J., Rosenberg A.E., McGonegal detection algorithms // IEEE Trans. on Acoustics, Speech C.A. Acomparative performance study of several pitch and Signal Processing. — 1976. — No 5. — P. 399-417.

DETERMINATION OF THE MAIN TONE OF SPEECH USING THE WAVELET TRANSFORM AND ITS APPLICATION

Annotation. This article is devoted to the problem of estimating the frequencies and the allocation of periods of the pitch in speech signal using wavelet transform. The pitch of the voice is determined by the period of the basic tone. Information about the main tone of the speech signal is very important in applications analysis and synthesis of speech. The article considers and analyzes the existing methods of determining the period of the basic tone.

Keywords: digital signal processing, the basic tone of the speech, wavelet transform, speech signal.

Artem Vladimirovich Gapochkin

Moscow State University of Printing Arts 127550Russia, Moscow, Pryanishnikova st., 2А

i Надоели баннеры? Вы всегда можете отключить рекламу.