Алгоритм фонемной сегментации на основе анализа скорости изменения энергии дискретного вейвлет-преобразования

Вишнякова О.А.; Лавров Д.Н.

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Вестн. Ом. ун-та. 2011. № 4. С. 146-152.

УДК 004.934

О.А. Вишнякова, Д.Н. Лавров

АЛГОРИТМ ФОНЕМНОЙ СЕГМЕНТАЦИИ НА ОСНОВЕ АНАЛИЗА СКОРОСТИ ИЗМЕНЕНИЯ ЭНЕРГИИ ДИСКРЕТНОГО ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

Представлен метод фонемной сегментации, основанный на отслеживании изменений энергии вейвлет-спектра речевого сигнала. Для анализа сигнала, энергии сигнала и ее производной применен кратномасштабный анализ. Границы сегментов устанавливаются на участках быстрого изменения энергии. Приведено сравнение с результатами ручной разметки.

Ключевые слова: сегментация, речь, вейвлет.

Введение

В системах автоматической обработки речи одной из важнейших задач является задача сегментации в соответствии с фонетической транскрипцией языка. Так, для задачи голосовой верификации характерные признаки голоса должны вычисляться на определенных сегментах речевого сигнала. Например, частота основного тона, присущая диктору, должна вычисляться на гласноподобных участках сигнала; форма речевого тракта характеризуется формантнымн частотами, измеряемыми на известных гласных звуках; скорость артикуляции определяется по длительностям переходных процессов между артикуляторно-акустическими сегментами [1]. Предварительная сегментация необходима при решении обратной задачи - восстановления формы речевого тракта по акустическому сигналу [2], которая может быть использована в следующих областях: системы сжатия и передачи речи в мобильной телефонии [3], синтезаторы речи по произвольному тексту [4], системы автоматического распознавания речи, системы обучения иноязычному произношению. Точность сегментации в значительной степени определяет надежность автоматического распознавания речи.

В альтернативу автоматической разметке в исследовательских системах и на этапе предварительной разработки возможно использование ручной сегментации. Однако она требует наличия опытных лингвистов, а также значительных затрат сил и времени как из-за отсутствия пауз в слитной речи словами, так и из-за коартикуляции. Процесс коратикуляции возникает на границе последовательно производимых звуков, он существенно облегчает правильное восприятие и понимание речи, но затрудняет задачу поиска границ сегментов. Кроме того, практически невозможно точно воспроизвести результаты ручной сегментации вследствие субъективности человеческого слухового и зрительного восприятия. Подобных проблем не возникает при автоматической сегментации, которая хоть и небезошибочна, но дает воспроизводимые результаты.

Существует два основных типа алгоритмов сегментации речи. К первому типу относятся алгоритмы, которые производят сегментацию речи при условии, что известна последовательность фонем данной фразы [5; 6]. Другой тип алгоритмов не использует априорной информации о фразе, и при этом границы сегментов определяются по степени изменения акустических характеристик сигнала [7; 8]. Существует и другой тип алгоритмов, которые принимают решение как на основе априорной информации, так и на основе изменения акустических характеристик [9].

1. Постановка задачи

Современные задачи в области речевых технологий предъявляют разрабатываемой системе сегментации ряд требований:

- использовать только общие характеристики речевого сигнала, поскольку обычно на этом этапе нет конкретной информации о содержании речевого высказывания;

- работать не только с изолированными словами, но и со слитной речью;

- алгоритм сегментации должен выде-

лять фрагменты, соответствующие элементам алфавита разметки. В табл. 1

приведен алфавит разметки для русского языка, состоящий из 127 артикуляторных и фонетических элементов [10];

- устойчивость к внешним шумам, возникающих при записи речевого сигнала либо присутствующих в каналах связи;

- уровень ошибки первого рода (число пропущенных верных границ по результатам ручной разметки к общему числу границ сегментов) не более 20 %

2. Вейвлет-анализ в задаче сегментации

Речевой сигнал состоит из квазиста-ционарных участков, соответствующих голосовым и шипящим фонемам и участков со сравнительно быстрыми изменениями спектральных характеристик сигнала: межфонемные переходы, взрывные и смычные фонемы, внутрисловные переходы речь-пауза [10].

В пределах стационарных участков значительную роль для анализа речевого сигнала играют спектральные особенности сигнала, определяемые передаточной характеристикой речевого тракта, изменяющейся в процессе артикуляции. Можно сказать, что речевой сигнал характеризуется нелинейными флуктуациями различных масштабов. Поэтому весьма эффективным для анализа речевого сигнала представляется кратномасштабный анализ и вейвлет-преобразование.

Таблица 1

Артикуляторные и фонетические элементы алфавита разметки

Тип сегмента Символ

Гласные ударные: А, Э, О, У, Ы, И

Гласные предударные: а, э, о, у, ы, и

Гласные безударные (редуцированные): ъ, ь, уу

Сегмент последнего безударного гласного: ъ , ь , уу

Сегмент последнего ударного гласного: А , Э , О , У , Ы , И , Я ,Е ,Е ,Ю

Огласованный сегмент: ъ/, ь/, у/

Полугласный язычный звонкий: И

Полугласный язычный глухой: И

Дифтонги ударные: Я, Е, Ё, Ю

Дифтонги безударные: я, е, ё, ю

Согласные твердые: Б, В, Г, Д, Ж, З, К, Л, М, Н, П, Р, С, Т, Ф, Х, Хг, Ц, Ш

Согласные мягкие: Б', В', Г', Д', Ж', З', К', Л', М', Н', П', Р', С', Т', Ф', Х', Ц', Ч, Ш', Хг'

Смычка аспиративная твердая: Бв, Дз, Дж, Пф, Кх, Рш, Тс

Смычка аспиративная мягкая: Бв', Дз', Дж', Пф', Кх', Рш', Тс'

Взрыв твердый: Б!, Д!, Г!, П!, Т!, К!, Л!, Р!, М!, Н!

Взрыв мягкий: Б'!,Д'!,Г'!,П'!,Т'!,К'!, Л'!, Р'!, М'!, Н'!

Взрыв аспиративный твердый: Б!Ьі, Д!Ьі, ™, П!Ьі, т, К!Ьі, Л!ії Р№

Взрыв аспиративный мягкий: Бії, Дії, Гії, Пії, Тії, Кії, Лії, Рії

Короткая пауза (провал после фрикативных, взрывов и т. д. "epenthetic"): V

Фарингальный взрыв: gb; перед начальными гласными

Аспиративный сегмент: vh; придыхание перед началом слова или по окончании слова

Неречевые сегменты:

Не речь (шум канала): h#

Пауза (между раздельными словами): і#

Короткая пауза ("провал") между словами в слитном тексте: ][

Неизвестный: ?

Чмок: Ch

Вейвлет-разложение речевого сигнала длины N отсчетов представляет собой сумму:

N/2"-1 N N/2"-1

f({) = Е рл +Е Е ^л’

к=0 к =1 к=0

Р„л = 21 /2р(2Ь - к), где у, к е Ъ,

/п,к = 21 /2^ - к), где у,к е Ъ, где " - количество уровней декомпозиции; 5ук,- коэффиценты аппроксимации и детализации вейвлет-разложения;

р - скейлинг (масштабная) функция; / - базисный («материнский») вейвлет.

Так как вейвлет-коэффициенты аппроксимации для ортогональных вейвлетов соответствуют передаточной характеристике фильтра низких частот, а детализации -высокочастотному фильтру, то можем рассматривать поведение речевого сигнала в различных частотных диапазонах.

Частотный диапазон ниже 125 Гц не используется, т. к. не содержит информации важной для задачи сегментации. Это обусловлено природой человеческой речи, охватывающий интервал 150-4000 Гц. Таким образом, достаточно 6 уровней разложения.

Таблица 2

Частотные диапазоны

Уровень детализации Частотный диапазон вейвлета

Добеши 16 Мейера

1 2000-4000 Гц 2756-5512 Гц

2 1000-2000 Гц 1378-2756 Гц

3 500-1000 Гц 689-1378 Гц

4 4 250-500 Гц 345-689 Гц

5 5125-250 Гц 172-345 Гц

6 686-172 Гц

2. Основная идея алгоритма сегментации

Задача алгоритма сегментации сводится к обнаружению элементов алфавита разметки. Вейвлет-преобразование (DWT) позволяет решить эту задачу, по крайней мере для фонем, соответствующих сравнительно протяженным квази-стационарным участкам. Дело в том, что на межфонемных переходах сигнал претерпевает значительные изменения сразу на многих масштабах исследования, и, соответственно, характеризуется возрастанием вейвлет-коэффициентов для многих уровней детализации, в то время как на стационарных участках фонем вейвлет-коэффициенты оказываются сгруппированными вблизи определенных масштабов [11]. Таким образом, отыскание

межфонемных границ может быть сведено к отысканию моментов увеличения вейвлет-коэффициентов на значительном количестве уровней масштабирования. При этом существенным является выбор вейвлетного базиса, который должен позволять описывать стационарный речевой сигнал со сравнительно малым числом ненулевых коэффициентов. Возможно использование нескольких вейвлетных базисов для поиска межфонемных переходов в каждом из них с последующим объединением результатов [12].

Для начала сигнал длины N разбивается на перекрывающиеся участки, к каждому из которых применятся DWT с уровнем разложения М. Для каждого фрейма I и уровня декомпозиции п можно определить энергию:

Еп (‘)=Е С*.,, • (1)

1=1

где , = 0,...,2-мN -1.

Энергия сигнала (1) быстро меняется от фрейма к фрейму для каждого уровня из-за неизбежных шумов во время записи речевого сигнала. Для сглаживания определяем Е", заменяя значение Еп в окне шириной 3-5 фреймов на максимальное значение Етах в этом окне. Для определения скорости изменения энергию вычисляем производную Я.

Межфонемные переходы характеризуются небольшими, но быстрыми изменениями уровня энергии на одном или более уровнях детализации. Таким образом, критерием выбора границы фонемы должно быть быстрое изменение производной при невысоком уровне энергии.

Иными словами, для каждого уровня детализации мы ищем такие участки, на которых значение производной близко по своим абсолютным значениям к уровню энергии на интервале, при этом разница не превышает некоторого порогового значения &/орг, а энергия на этом интервале обязательно более, чем Етт, как гарантия анализа именно речевого сигнала, а не шумового участка:

Ж/ой Н\Яп (,)| - Е" (,)|.

3. Реализация алгоритма

При реализации алгоритма следует учитывать, что положение границ может различаться между уровнями. Это объяснимо природой вейвлет-преобразования -рассмотрение сигнала на различных час-

тотных диапазонах. Так, для части фонем только один из уровней покажет значительное изменение энергии, для остальных - несколько. Таким образом, на каждом уровне определяется только часть межфонемных переходов и необходима группировка результата. При этом меж-фонемный интервал не может быть менее порогового значения - минимальной длительности фонемы. При реализации порог установлен в 25 мсек.

Общий алгоритм сегментации:

1. В качестве предобработки сигнал нормализуется: все отсчёты делятся на максимальное значение, для установки единых пороговых значений для любых входных сигналов.

2. Входной сигнал разбивается на фреймы по 32 мсек, что соответствует 512 отсчетам при частоте дискретизации 16 кГц с перекрытием в половину окна.

3. На каждый фрейм накладывается оконная функция Хамминга для устранения дефектов на краях.

4. К каждому обработанному фрейму применяется вейвлет-преобразование. Используется разложение до 6-го уровня декомпозиции.

5. Для каждого уровня декомпозиции определяется энергия, как сумма квадратов значений коэффициентов детализации (1).

6. Так как энергия сильно меняется от фрейма к фрейму из-за неизбежного шума, необходимо сглаживание. Для этого вычисляется усредненная энергия Еп, для каждого уровня декомпозиции, путем замены значения энергии на максимальное Етах для каждых 3 фреймов на первых трех, и на каждых 5 фреймах для последующих уровней детализации.

7. Для определения скорости изменения энергии вычисляется производная Я.

8. Критерии выбора границ фонем:

Ж/оП >||Яп0'^ - Еп^^

<|\Яп(, +1)-Еп(, +1)

или л/ор{ < | |Яп 0'-1) - К 0'-1)^

Еп(,) > Етт.

9. Для объединения результатов расстановки границ между уровнями все индексы объединяются в один вектор. Чтобы избежать ложных границ, устанавливается минимальный интервал фонемы -25 мсек. Все границы, расположенные на расстоянии менее минимального, объединяются в группы, верной границей назначается сегмент по центру группы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Результаты экспериментов

Для экспериментов использовано 35 различных дифонов и трифонов, а также 20 слов и 10 словосочетаний, записанных при частоте дискретизации 16кГц.

Экспериментально были определены оптимальные пороговые значения алгоритма: Ж/ор1 = 0,003, Етш = 0,005. Стоит отметить, что для различных дикторов значение оптимального порога различно, а итоговое значение для алгоритма выбрано по итогам анализа суммарной ошибки первого рода. При этом с увеличением порогового коэффициента уменьшается чувствительность алгоритма к изменениям речевого сигнала и пропуску верных границ, при понижении

- напротив, появлению ложных. Требуется доработка алгоритма либо за счет адаптивности порога, либо за счет предобработки исходного сигнала.

Результаты экспериментов показали незначительную разницу в эффективности вейвлетов Майера, Добеши 16, Добе-ши 8, Симлета 6 порядка. Это говорит о возможности применения всех их в качестве базиса разложения, возможно, с будущим объединением результата для повышения уровня распознавания границ сегментов.

Границы ложно определялись при объединении результатов разметки между уровнями в начале и конце речевого сигнала на аспиративном сегменте.

По результатам экспериментов, ошибка первого рода, т. е. количество пропущенных границ к общему числу верных границ, по сравнению с результатами ручной разметки составили 32 %, ошибка второго рода, т. е. количество ложно поставленных границ к общему числу верных границ составила 41 %. Предполагается, что дополнительная предобработка, адаптивный порог и объединение результатов работы нескольких вейвлетов позволит уменьшить величину ошибок.

На рис. 1 пунктирными линиями отмечены границы ручной разметки, сплошными - автоматической. Приведены графики энергий и их производных для каждого уровня детализации. На рис. 2 приведен результат алгоритма сегментации, также пунктирными линиями отмечены границы ручной разметки, сплошными - автоматической. На рис. 3 приведен результат работы алгоритма для фразы «красная площадь», цветом выделены линии найденных ложных либо пропущенных верных границ.

ь 0,8

1 а6[ | 0,4 \

0,2 |

0^

х 1СГ

/>

а

ИНЬ

о

50

0.1 0,08 0,06 0,04 0,02 О

■/

1Ма

100 О

50

100 О

100

х 10

О 50 100

□е!а1! ооеШегй 1еуе! 4

Рис. 1. Энергии и их производные по уровням детализации трифона «пам»

2000 4000 6000 8000 10000 12000

Рис. 2. Результат автоматической сегментации трифона «пам»

5. Заключение

Предложен алгоритм сегментации речевого сигнала на базе дискретного вейвлет-преобразования. Эффективность метода обусловлена природой речевого сигнала - изменения уровня энергии для ряда фонем проявляются только в узком диапазоне частот. Именно поэтому границы вероятнее детектировать, анализируя значения энергий поддиапазонов вейвлет-разложения, а не сигнала в целом, как в случае преобразований, основанных на Фурье-анализе. В качестве основного параметра определения точной границы сегмента используется скорость изменения энергии при последующем объединении результатов расстановки границ между уровнями детализации.

Эффективность оценена на материале базы речевых данных русского языка для 18 человек с ручной разметкой на 127 типов артикуляторно-акустических сегментов. На имеющейся базе данных алгоритм сегментации верно определил положение 78 % границ сегментов, что соответствует поставленной задаче. При этом было найдено на 41 % больше границ, чем отмечено при ручной разметке, основную часть пропущенных границ составляли слабо выраженные переходы либо переходы между короткими сегментами.

ЛИТЕРАТУРА

[1] Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. М. : Радио и связь, 1981. 224 с.

[2] Макаров К. С. Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач : дис. ... канд. техн. наук, ИППИ РАН, 2005.

[3] Leonov A. S., Sorokin V. N. Inverse problem for the vocal tract: identification of control forces from articulatory movements // Pattern Recognition and Image Analysis. 2000. Vol. 10. № 1. P. 110126.

[4] Сорокин В. К. Синтез речи. М. : Наука, 1992. 392 с.

[5] Rabiner L. R., Rosenberg A. E., Wilpon J. G., Zampini T.M. A bootstrapping training technique for obtaining demisyllable reference patterns // JASA. 1982. Vol. 71, № 6. P. 1588-1595.

[6] Ganapathiraju A, Hamaker J., Picone J., Doddington G. R., Ordowski M. Syllable-Based Large Vocabulary Continuous Speech Recognition // IEEE Transactions on Speech and Audio Processing, 2001. Vol. 9. № 4. P. 358-366.

[7] Wilpon J. G., Juang B-H., Rabiner L. R. An investigation on the use of acoustic sub-word units for automatic speech recognition // Proc. Int. Conf. Acous., Speech, and Sig. Processing, Dallas, TX, 1987. P. 821-824.

[8] Kamakshi Prasad, Nagarajan, Hema Murthy Automatic segmentation of continuous speech using minimum phase group delay functions // Speech Communication, 2004. Vol. 42. P. 429446.

[9] Van Hemert J. P. Automatic segmentation of speech // IEEE Transactions on Signal Processing, 1991. Vol. 39. P. 1008-12.

[10] Сорокин В. Н., Цыплихин А. И. Сегментация и распознавание гласных // Информационные процессы. 2004. Т. 4. № 2. C. 202-220.

[11] Ziolko B., Manandhar S., Wilson R., Ziolko M. Wavelet method of speech segmentation //

Proceedings of 14th European Signal Processing Conference EUSIPCO, 2006.

[12] Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования // Статьи, принятые к публикации на сайте Международной конференции Диа-лог'2003. URL: www.dialog-21.ru.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вишнякова О. А., Лавров Д. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишнякова О. А., Лавров Д. Н.

Phoneme segmentation algorithm based on analysis of the rate of change of DWT-energy

Текст научной работы на тему «Алгоритм фонемной сегментации на основе анализа скорости изменения энергии дискретного вейвлет-преобразования»