Технология синтеза русской речи на основе скрытых марковских моделей

Чистиков Павел Геннадьевич

нальной окраски высказывания позволяют извлечь более полную информацию, содержащуюся в речевом сигнале. Одна из основных проблем в распознавании эмоций заключается в том, что неизвестно, какие именно речевые характеристики и их подмножества отвечают за проявление той или иной эмоции. В связи с этим важным этапом предобработки является процесс извлечения из большого объема тех данных, которые действительно содержат в себе необходимую информацию. Кроме того, наличие шумовых нерелевантных признаков может снизить устойчивость классификатора. Таким образом, из множества всех извлеченных признаков необходимо выбрать подмножество, обучившись на котором, классификатор покажет наилучшую оценку качества распознавания.

Так как количество возможных решений экспоненциально зависит от размерности пространства признаков, было решено использовать генетический алгоритм для поиска оптимального решения. Целевая функция представляла собой оценку вероятности правильного распознавания со слагаемым, штрафующим наборы из большого количества признаков.

Эксперименты проводились на Берлинской базе записей эмоциональной речи EMO-DB [1]. Для каждой аудиозаписи формировались 400-мерные вектора признаков, которые и составили обучающую выборку. В качестве классификатора использовался метод опорных векторов (Support Vector Machine) [2]. В таблице представлены полученные в результате эксперимента оценки вероятности безошибочной классификации эмоций. В левой части ячеек (столбцы 1) показаны оценки для исходного набора признаков, а в правой (столбцы 2) - для отобранных генетическим алгоритмом, количество которых в 10 раз меньше. Значение в каждой ячейке соответствует отдельно обученному бинарному классификатору. Как видно, в некоторых случаях качество распознавания даже повысилось на сокращенных наборах признаков.

Эмоции Скука Отвращение Страх Радость Грусть Нейтральное

1 2 1 2 1 2 1 2 1 2 1 2

Гнев 0,95 0,96 0,87 0,89 0,89 0,87 0,75 0,79 0,98 0,97 0,98 0,99

Скука - 0,85 0,79 0,86 0,79 0,88 0,88 0,78 0,73 0,72 0,67

Отвращение - - 0,72 0,68 0,76 0,76 0,89 0,91 0,88 0,88

Страх - - - 0,76 0,77 0,90 0,88 0,89 0,85

Радость - - - - 0,94 0,95 0,92 0,88

Грусть - - - - - 0,83 0,84

Таблица. Оценка вероятности безошибочной классификации эмоций для исходного набора речевых признаков (столбцы с индексом 1) и набора признаков, отобранных генетическим алгоритмом

(столбцы с индексом 2)

Эксперименты показали, что генетический алгоритм является эффективным средством для решения задачи выбора подмножества информативных признаков. В дальнейшем планируется исследовать адаптивные генетические алгоритмы, параметры которых могут подстраиваться в ходе работы, тем самым увеличивая скорость поиска решения и увеличивая вероятность выхода из локальных оптимумов.

1. Берлинская база эмоциональной речи [Электронный ресурс]. - Режим доступа: http://pascal.kgw.tu-berlin.de/emodb/, свободный. Яз. англ. (дата обращения 09.02.2012).

2. Cortes C., Vapnik V. Support vector networks // Machine Learning. - 1995. - V. 20. - P. 1-25.

Шолохов Алексей Владимирович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студент, [email protected]

УДК 519.688

ТЕХНОЛОГИЯ СИНТЕЗА РУССКОЙ РЕЧИ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

П.Г. Чистиков

Представлен подход к построению системы синтеза речи на основе скрытых марковских моделей применительно к русскому языку. Для повышения ее гибкости применяется алгоритм кластеризации состояний. Представлен подход моделирования сигнала возбуждения.

Ключевые слова: синтез речи, скрытые марковские модели, параметризация речи, кластеризация данных.

Архитектурно и логически систему синтеза можно разделить на две части - построение модели голоса и непосредственно синтез [1]. Первая часть включает в себя следующие этапы: вычисление акустических, лингвистических и просодических признаков для каждого аллофона из базы данных; обучение контекстно-зависимых HMM (скрытых марковских моделей); кластеризация состояний HMM на основе лингвистических и просодических признаков. Синтезирующая часть представляет собой следующую последовательность действий: транскрибирование входного текста и вычисление лингвистических и просодических характеристик для каждого аллофона; формирование последовательности HMM; генерация акустических параметров на основе полученной модели; вычисление функции возбуждения и ее фильтрация с целью получения итогового речевого сигнала.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 3 (79)

Неотъемлемой составляющей для построения системы синтеза речи является выбор параметров, обеспечивающих генерацию естественного сигнала. Такие параметры могут включать, например, тип предыдущего/следующего аллофона, слога, слова, предложения и т.д. Определение набора таких параметров для определенного языка базируется на лингвистической и просодической информации. Помимо теоретического подхода, применяется также эмпирический анализ с целью выбора наиболее информативных из них. Так, для русского языка было выбрано 7 аллофонных, 13 слоговых, S словных и 3 синтагматических признака, таких как имя фонемы, предшествующей предыдущей, имя предыдущей фонемы, имя текущей фонемы, имя следующей фонемы, имя фонемы, следующей за следующей, позиция текущей фонемы от начала слога, позиция текущей фонемы от конца слога и т.д.

Моделируемые параметры идеологически делятся на две группы - спектральные и временные. В качестве спектральных используются частота основного тона и мел-частотные кепстральные коэффициенты. Расчет данных параметров выполняется по всей фонограмме из базы данных с окном анализа 25 мс и смещением 1G мс. Временные параметры представляют собой длительности соответствующих аллофонов.

Важным этапом для обеспечения качественного синтезированного сигнала является моделирование функции возбуждения. Наиболее качественную работу показывает алгоритм [2], основанный на моделировании формы этой функции при помощи двух фильтров (единичных импульсов - (1) и белого шума - (2)),

M/2

Hv (z) = X h(l)z-l , (1)

l=-M /2

Hu ( z) =-L--, (2)

1 -X g (l ) z-l

l=1

для вокальной и шумовой составляющих соответственно, коэффициенты которых h(l) и g(l) вычисляются на этапе обучения. Порядки фильтров M и L равны 512 и 256 соответственно. Примеры синтеза показывают, не вдаваясь в детали качества воспроизведения аллофонов, что ритмика фразы сохраняется. Данный факт демонстрирует важную характеристику основанного на HMM синтеза речи: возможность имитировать просодические характеристики корпуса, который был использован при построении модели голоса. Также стоит отметить, что для построения модели голоса достаточно небольшого количества материала, однако отсутствие некоторых элементов в базе данных существенно влияет на качество, что делает процесс подготовки звуковой базы данных также очень важным при разработке систем синтеза.

Автором предложен подход к построению системы синтеза русской речи на основе скрытых марковских моделей. Принцип основан на методе, в котором соответствующие параметры извлекаются из скрытых марковских моделей, векторы наблюдений которых содержат спектральные характеристики, значения основного тона и длительности речи. Экспериментальные результаты показывают, что русская речь может быть успешно параметризована и произвольное предложение может быть синтезировано из полученных моделей.

1. Maia R., Zen H., Tokuda K., Kitamura T., Resende F.G. Towards the development of a Brazilian Portuguese text-to-speech system based on HMM // Proceedings of the European Conference on Speech Communication and Technology (EUROSPEECH). - Geneva, Switzerland, 2GG3. - P. 2465-246S.

2. Maia Ranniery, Toda Tomoki, Zen Heiga, Nankaku Yoshihiko, Tokuda Keiichi. An Excitation Model for HMM-Based Speech Synthesis Based on Residual Modeling // 6th ISCA Workshop on Speech Synthesis. -Bonn, Germany, 2GG7. - P. 1315-131S.

Чистиков Павел Геннадьевич - ООО «ЦРТ», научный сотрудник, аспирант, [email protected] УДК 372.862,681.5

АВТОМАТИЗАЦИЯ ОЦЕНКИ И ВВОДА РЕЗУЛЬТАТОВ ВЫПОЛНЕНИЯ ДОМАШНИХ ЗАДАНИЙ В ЛОКАЛЬНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ УСПЕВАЕМОСТИ

Ю.В. Китаев

Рассматривается построение и функционирование процесса автоматизированного сбора и оценки выполнения домашних заданий с использованием интернет-технологий в дистанционном обучении. Ключевые слова: дистанционное обучение, интернет-технологии.

Контрольная проверка знаний может производиться различными способами, в том числе в процессе выполнения домашних заданий. Для дисциплин с преобладанием точных наук нетрудно подготовить пакеты домашних заданий, в которых проверка ответов может быть автоматизирована, сокращая время, затрачиваемое преподавателем, и уменьшая риск неправильной оценки. Один из способов такой автоматизации, разработанный автором, представлен на рисунке. Обучающиеся (студенты) получают варианты домашних заданий с разовыми паролями. Ответы пересылаются на электронный почтовый ящик, который преподаватель открывает для этих целей. Специальная программа на компьютере преподавателя

Научно-технический вестник информационных технологий, механики и оптики,

2012, № 3 (79)

Технология синтеза русской речи на основе скрытых марковских моделей Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чистиков Павел Геннадьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чистиков Павел Геннадьевич

HIDDEN MARKOV MODELS-BASED RUSSIAN SPEECH SYNTHESIS

Текст научной работы на тему «Технология синтеза русской речи на основе скрытых марковских моделей»