Научная статья на тему 'Автоматическая сегментация речевого сигнала на базе дискретного вейвлет-преобразования'

Автоматическая сегментация речевого сигнала на базе дискретного вейвлет-преобразования Текст научной статьи по специальности «Физика»

CC BY
515
144
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИГНАЛ / РЕЧЬ / ВЕЙВЛЕТ / СЕГМЕНТАЦИЯ / КРАТНОМАШТАБНЫЙ АНАЛИЗ / ФОНЕМЫ / ФРЕЙМ / ФОРМАНТА / SIGNAL / SPEECH / WAVELET / SEGMENTATION / PHONEMES / FRAME / FORMANT

Аннотация научной статьи по физике, автор научной работы — Вишнякова Ольга Анатольевна, Лавров Дмитрий Николаевич

В данной статье предложен метод сегментации речевого сигнала, основанный на анализе вариации уровня энергии вейвлет-спектра. Расстановка границ происходит на участках быстрого изменения огибающей энергии сигнала сводно по всем уровням детализации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic segmentation of a voice signal by the discrete wavelet-transform

In the given article the method of segmentation of a voice signal, based on the variation of the level of energy of a wavelet-spectrum is offered. Arrangement of boundaries occurs in sections of fast change of bending energy of a signal on all detail levels.

Текст научной работы на тему «Автоматическая сегментация речевого сигнала на базе дискретного вейвлет-преобразования»

УДК 004.934

АВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧЕВОГО СИГНАЛА НА БАЗЕ ДИСКРЕТНОГО ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

О.А. Вишнякова, Д.Н. Лавров

В данной статье предложен метод сегментации речевого сигнала, основанный на анализе вариации уровня энергии вейвлет-спектра. Расстановка границ происходит на участках быстрого изменения огибающей энергии сигнала сводно по всем уровням детализации.

Введение

Одной из важнейших задач в системах автоматической обработки речи является задача сегментации в соответствии с фонетической транскрипцией языка. Для голосовой верификации характерные признаки голоса должны вычисляться на определённых сегментах речевого сигнала. Так, частота основного тона, присущая диктору, должна вычисляться на гласноподобных участках сигнала, форма речевого тракта характеризуется формантными частотами, измеряемыми на известных гласных звуках, скорость артикуляции определяется по длительностям переходных процессов между артикуляторно-акустическими сегментами. [1] Сегментация необходима при решении обратной задачи — восстановления формы речевого тракта по акустическому сигналу [2], которая может быть использована в следующих областях: системы сжатия и передачи речи в мобильной телефонии [3], синтезаторы речи по произвольному тексту [4], системы автоматического распознавания речи, системы обучения иноязычному произношению.

В исследовательских системах и на этапе предварительной разработки возможно использование ручной сегментации. Однако она требует значительных затрат сил и времени: во-первых, в слитной речи нет пауз между словами, во-вторых, коартикуляция, возникающая и на границе последовательно производимых звуков, которая существенно облегчает правильное восприятие и понимание речи, но затрудняет задачу поиска границ сегментов. Кроме того, практически невозможно точно воспроизвести результаты ручной сегментации вследствие субъективности человеческого слухового и зрительного восприятия.

Copyright © 2011 О.А. Вишнякова, Д.Н. Лавров

Омский государственный университет им. Ф.М. Достоевского E-mail: olga@infotekorg.ru, lavrov@omsu.ru

Подобных проблем не возникает при автоматической сегментации, которая также небезошибочна, но даёт воспроизводимые результаты.

Существует два основных типа алгоритмов сегментации речи. К первому типу относятся алгоритмы, которые производят сегментацию речи при условии, что известна последовательность фонем данной фразы. Другой тип алгоритмов не использует априорной информации о фразе, и при этом границы сегментов определяются по степени изменения акустических характеристик сигнала. При автоматической сегментации желательно использовать только общие характеристики речевого сигнала, поскольку обычно на этом этапе нет конкретной информации о содержании речевого высказывания

1. Сегментация с использованием кратномасштабного анализа

Как известно, речевой сигнал состоит из квазистационарных участков, соответствующих голосовым и шипящим фонемам, перемежаемых участками со сравнительно быстрыми изменениями спектральных характеристик сигнала (межфонемные переходы, взрывные и смычные фонемы, внутрисловные переходы речь-пауза) [5]. В пределах стационарных участков значительную роль для анализа речевого сигнала играют спектральные особенности сигнала, определяемые передаточной характеристикой речевого тракта, изменяющейся в процессе артикуляции. Можно сказать, что речевой сигнал характеризуется нелинейными флуктуациями различных масштабов. Поэтому весьма эффективным для анализа речевого сигнала представляется кратномасштабный анализ и вейвлет-преобразование.

Вейвлет-разложение речевого сигнала длины N отсчётов представляет собой сумму:

ЛГ/2п-1 N ЛГ/2п-1

/(«)= Е Зпк^Рпк Н- Е Е djkфjk 1

к=0 ]=1 к=О

(рпк = 2з/2р(2Ч - к), где j, к е Z Фэк = 2з/2ф(2Н - к), где j, к е Z,

где п - количество уровней декомпозиции, snk,djk - коэффициенты аппроксимации и детализации вейвлет-разложения, кр - скейлинг (масштабная) функция, гф - базисный («материнский») вейвлет.

Так как вейвлет-коэффициенты аппроксимации соответствуют передаточной характеристике фильтра низких частот, а детализации — высокочастотному фильтру, то можем рассматривать поведение речевого сигнала в различных частотных диапазонах.

Частотный диапазон ниже 125Гц не используется, т.к. не содержит информации, важной для задачи сегментации. Это обусловлено природой человеческой речи, охватывающей интервал 150 - 4000 Гц. Таким образом, достаточно 6 уровней разложения.

Таблица 1. Частотные диапазоны

Уровень детализации Частотный диапазон Добеши16 Частотный диапазон Мейера

уровень 1 2000Гц - 4000Гц 2756Гц - 5512Гц

уровень 2 1000Гц - 2000Гц 1378Гц - 2756Гц

уровень 3 500Гц - 1000Гц 689Гц - 1378Гц

уровень 4 250Гц - 500Гц 345Гц - 689Гц

уровень 5 125Гц - 250Гц 172Гц - 345Гц

уровень 6 86Гц - 172Гц

2. Алгоритм сегментации

Сегментация речевого сигнала подразумевает выделение участков сигнала, соответствующим отдельным структурным единицам. Если в качестве таких единиц рассматривать фонемы, то задача сегментации сводится к обнаружению межфонемных переходов. В рамках традиционных подходов решение этой задачи весьма проблематично. Однако вейвлет-преобразование (ОШТ) позволяет решить эту проблему, по крайней мере, для фонем, соответствующих сравнительно протяженным квазистационарным участкам. Дело в том, что на межфонемных переходах сигнал претерпевает значительные изменения сразу на многих масштабах исследования и, соответственно, характеризуется возрастанием вейвлет-коэффициентов для многих уровней детализации, в то время как на стационарных участках фонем вейвлет-коэффициенты оказываются сгруппированными вблизи определённых масштабов [7]. Таким образом, отыскание межфонемных границ может быть сведено к отысканию моментов увеличения вейвлет-коэффициентов на значительном количестве уровней масштабирования. При этом существенным является выбор вейвлетного базиса, который должен позволять описывать стационарный речевой сигнал со сравнительно малым числом ненулевых коэффициентов. Возможно использование нескольких вейвлетных базисов для поиска межфонемных переходов в каждом из них с последующим объединением результатов [6].

Для начала сигнал разбивается на перекрывающиеся участки, к каждому из которых применяется ОШТ. Для каждого фрейма г и уровня декомпозиции п можно определить энергию:

2П —1

Еп(г) = ^2 <£)Я-2»-ч> гДе * = °> •••, 2“МЛ^ - 1. (1)

3 = 1

Энергия сигнала (1) быстро меняется от фрейма к фрейму для каждого уровня из-за неизбежных шумов во время записи речевого сигнала. Для сглаживания определяем Е'п, заменяя значение Еп в окне шириной 3-5 фреймов на максимальное значение Етах в этом окне. Для определения скорости изменения энергии вычисляем производную Д. Межфонемные переходы характеризуются небольшими, но быстрыми изменениями уровня энергии на одном или бо-

лее уровнях детализации. Таким образом, критерием выбора границы фонемы должно быть быстрое изменение производной при невысоком уровне энергии. Иными словами, для каждого уровня детализации мы ищем такие участки, на которых значение производной близко по своим абсолютным значения к уровню энергии на интервале, при этом разница не превышает некоторого порогового значения divopt, а энергия на этом интервале обязательно более чем Emin как гарантия анализа именно речевого сигнала, а не шумового участка:

divopt ^\\Rn(i)\- E'n(i)\

3. Доработки алгоритма

Требуются некоторые доработки алгоритма для более точного определения границ сегментов. Положение границ может различаться между уровнями. Это объяснимо природой вейвлет-преобразования — рассмотрение сигнала на различных частотных диапазонах. Так для части фонем только один из уровней покажет значительное изменение энергии, для остальных — несколько. Таким образом, на каждом уровне определяется только часть межфонемных переходов и необходима группировка результата. При этом межфонемный интервал не может быть менее порогового значения — минимальной длительности фонемы. Порог установлен в 25 мсек. Общий алгоритм сегментации:

1. В качестве предобработки сигнал нормализуется: все отсчёты делятся на максимальное значение, для установки единых пороговых значений для любых входных сигналов.

2. Входной сигнал разбивается на фреймы по 256 отсчётов при частоте дискретизации 16 кГц с перекрытием от 25% до 50%.

3. Каждый фрейм накрывается окном Хэмминга для устранения дефектов на краях.

4. К каждому фрейму применяется вейвлет-преобразование. Используется разложение до 6-го уровня декомпозиции.

5. Для каждого уровня декомпозиции определяется энергия, как сумма квадратов значений коэффициентов детализации Е (1).

6. Так как энергия сильно меняется от фрейма к фрейму из-за неизбежного шума, необходимо сглаживание. Для этого вычисляется усреднённая энергия Е'п для каждого уровня декомпозиции, заменяя значение энергии на максимальное Emax для каждых 3 на первых трёх, и на каждых 5 для последующих уровней детализации.

7. Для определения скорости изменения энергии вычисляется производная R.

8. Критерии выбора границ фонем:

divopt > ||Я„(г)| - Е'п(г)| div0pt < ||Я„(г + 1)| - Е'п(г + 1)|или divopt < ||Я„(г - 1)| - Е'п(г - 1)|

-®»г(0 ^ -Ё'тт

9. Для объединения результатов расстановки границ между уровнями все индексы объединяются в один вектор. Чтобы избежать ложных границ, устанавливается минимальный интервал фонемы — 28 мсек.

4. Результаты экспериментов

х 10'"

100

J= 3

ъ

х 10'"

і і

П „

aAaiIAAa! LJ

liiU.AJlb

О 50 100

Detcil coefficient level 4

Рис. 1. Пример сегментации слова «мама»

Для экспериментов использовано 35 различных дифонов и Трифонов, записанных при частоте дискретизации 16кГц.

На рисунке 1 пунктирными линиями отмечены границы ручной разметки, сплошными — автоматической. Приведены графики энергий и их производных для каждого уровня детализации.

Экспериментально оптимальными пороговыми значения выбраны divapt = = 0.03, Emin = 0.005. При этом с увеличением порогового коэффициента уменьшается чувствительность алгоритма к изменениям речевого сигнала. Так, при значениях 0.01 - 0.02 заметно выделение лишних сегментов для гласных, хорошо разделяются голосовые звуки, стоящие рядом «оа», «аи». При больших значениях порога количество лишних сегментов мало, но перестают разделяться голосовые звуки. Результаты экспериментов показали незначительную разницу в эффективности вейвлетов Майера, Добеши 16, Добеши 8, Симлета 6 порядка. Это говорит о возможности применения всех их в качестве базиса разложения с возможным будущим объединением результата для повышения уровня распознавания границ сегментов.

5. Заключение

Предложенный метод сегментации основан на дискретном вейвлет-преобразовании. Эффективность метода обусловлена природой речевого сигнала — изменения уровня энергии для ряда фонем проявляются только в узком диапазоне частот. Именно поэтому границы вероятнее детектировать, анализируя значения энергий поддиапазонов вейвлет-разложения, а не сигнала в целом как в случае преобразований, основанных на Фурье анализе. В качестве основного параметра определения точной границы сегмента используется скорость изменения энергии при последующем объединении результатов расстановки границ между уровнями детализации.

Литература

1. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. М. : Радио и связь, 1981. 224 с.

2. Макаров К.С. Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач : Диссер. на соиск. степ. к.т.н., ИППИ РАН, 2005.

3. Leonov A.S., Sorokin V. N. Inverse problem for the vocal tract: identification of control forces from articulatory movements // Pattern Recognition and Image Analysis. 2000. V.10, №1. P. 110-126.

4. Сорокин В.К. Синтез речи. М. : Наука, 1992. 392 с.

5. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных // Информационные процессы. 2004. т.4, № 2. с. 202-220.

6. Ziolko В., Manandhar S., Wilson R., Ziolko M. Wavelet method of speech segmentation // Proceedings of 14th European Signal Processing Conference EUSIPCO. 2006.

7. Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования // Статьи, принятые к публикации на сайте международной конференции Диалог’2003. URL: http://www.dialog-21.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.