Синтез естественной русской речи по тексту
И. В. Опарин,
зам. руководителя проекта по научной части [email protected]
А. О. Таланов,
к. т. н., директор научно-исследовательского департамента, руководитель проекта [email protected]
Ю. Н. Хитрова,
коммерческий директор [email protected]
В. В. Киселев,
системный архитектор
ООО «Центр речевых технологий»
В статье описывается система синтеза русской речи с высоким качеством звучания, разрабатываемая ООО «Центр речевых технологий» в сотрудничестве с кафедрой фонетики Санкт-Петербургского государственного университета. Работа ведется в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» при финансовом содействии Федерального агентства по науке и инновациям. Система реализуется на основании технологии гибридного синтеза, совмещающей аллофонный синтез речи и синтез типа Unit Selection. Данный подход обеспечивает создание синтеза русской речи нового поколения, характеризующегося высокой естественностью синтезированной речи и возможностью масштабирования для использования системы не только на персональных компьютерах и серверных платформах, но и на мобильных устройствах, таких как КПК или смартфоны.
Представленный проект является ярким примером успешного взаимодействия государства и бизнеса, направленного на развитие наукоемких технологий. В статье рассматриваются общие вопросы такого взаимодействия, а также научно-исследовательские и технические аспекты реализации разрабатываемой системы.
This paper outlines the project on the development of a new hybrid unit-selection and
concatenative Russian text-to-speech (TTS) system. The system is being developed by Speech Technology Center Ltd. in collaboration with the department of Phonetics at St.Petersburg State University. Project is held within Federal Research and Development Program in Priority Directions of Development of Scientific and Technological Complex of Russia in 2007-2012 with the financial support of Federal Agency on Science and Innovations. The system is based on the hybrid technology that combines Unit Selection and allophone concatenation approaches. This new generation TTS system produces naturally sounding synthesized speech and can be used both on PCs, server platforms and mobile devices (pocket-PCs, smartphones, etc.).
The project presented in this paper illustrates the successful collaboration of state and business organizations aimed at the development of the hi-tech domain. The paper covers general issues of such collaboration as well as scientific and technical aspects of the new generation Russian TTS system development.
Введение
Система синтеза русской речи с высоким качеством звучания разрабатывается ООО «Центр речевых технологий» в сотрудничестве с кафедрой фонетики Санкт-Петербургского государственного университета в рамках федеральной целевой программы (ФЦП) «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы». Работы ведутся по
теме «Разработка и реализация в виде программного обеспечения технологии синтеза речи на русском языке с учетом синтаксического и семантического анализа русского текста с высоким качеством звучания»1.
Для создания высококачественного синтеза речи необходима большая научно-исследовательская база, а также организованная команда высококлассных специалистов по целому ряду областей, таких как
1 Лот 3, шифр 2007-4-2.4-00-02.
ИННОВАЦИИ № 8 (118), 2008
ИННОВАЦИИ № 8 (118), 2008
фонетика, лингвистика, физика, математика и программирование. Сегодня, при финансовом содействии и контроле таких государственных институтов, как Федеральное агентство по науке и инновациям и государственного учреждения «Государственная дирекция целевой научно-технической программы», российские коммерческие компании способны максимально эффективно организовать процесс разработки и коммерциализации синтеза русской речи.
Представление проекта на многочисленных выставках, участие в международных научных конференциях и опубликование научных достижений помогает укрепить репутацию России как инновационного лидера. Конечный результат проекта — система синтеза речи нового поколения — окажет существенный экономический и социальный эффект в процессе применения в промышленности и сфере услуг.
Качество существующих систем синтеза русской речи является серьезным ограничением на пути их внедрения в промышленность. В связи с этим разработка системы, обеспечивающей высокую естественность синтезированной речи на русском языке, является одной из важнейших задач в области речевых технологий в России.
Разрабатываемая система имеет целый ряд принципиальных отличий от уже существующих. Эти отличия касаются как общей технологии осуществления синтеза речи, так и ее отдельных компонентов. Модульная структура системы, основанная на обмене информацией в XML-формате, значительно расширяет технологические возможности встраивания синтеза в другие приложения (web-приложения, мобильные устройства и т. д.).
Существует несколько подходов к организации автоматического синтеза речи по тексту. К основным можно отнести синтез по правилам (формантный синтез), артикуляторный синтез, компилятивный синтез, синтез на основании статистических моделей (HMM-синтез). До последнего времени наиболее распространенной технологией синтеза являлся компилятивный аллофонный (или дифонный) синтез. Однако на данный момент наилучшие результаты достигаются с использованием другой разновидности компилятивного синтеза — технологии Unit Selection. Синтез на основании статистических моделей хоть и является наиболее молодым и весьма активно развивающимся подходом, по качеству значительно уступает Unit Selection, основанному на корректно отсегментированной на разных уровнях речевой базе данных большого объема.
Анализ публикаций и существующих систем синтеза речи для разных языков позволяет утверждать, что технология Unit Selection является наиболее перспективной в плане достижения максимальной естественности синтезированной речи. Стоит отметить, что в настоящий момент не существует разработанных в России полноценных реализаций данной технологии для синтеза русской речи. Как следствие, в рамках работы по созданию новой системы синтеза русской речи, осуществляемой ООО «Центр речевых технологий», в основу системы было решено положить технологию Unit Selection, совместив ее с аллофонным синтезом.
1. Государство и бизнес в наукоемких технологиях
Выполнение ФЦП направлено на обеспечение ускоренного развития научно-технологического потенциала Российской Федерации путем реализация приоритетных направлений развития науки, технологий и техники на основе крупных проектов коммерциализации технологий. Выполнение проектов в рамках ФЦП имеет еще один немаловажный результат — консолидацию и концентрацию ресурсов на перспективных научно-технологических направлениях на основе расширения применения механизмов государственно-частного партнерства.
Финансирование работы по созданию системы синтеза осуществляется совместно из средств федерального бюджета и собственных средств ООО «Центр речевых технологий». Как следствие, проект направлен не просто на создание новой технологии синтеза речи мирового уровня, но и на ее коммерциализацию. Такой подход позволяет решить сразу несколько важнейших задач.
С одной стороны, государство стимулирует бизнес-инвестирование в крупные инновационные проекты, которые не состоялись бы в виду высоких затрат на их реализацию.
С другой стороны, одновременно происходит привлечение молодых специалистов в сферу исследований и разработок, развитие ведущих научных школ и исследовательской деятельности в высших учебных заведениях. Это заметно и на примере данного направления. Санкт-Петербургский государственный университет является соисполнителем в рамках проекта. Объемное финансирование работ позволяет проводить научно-технические исследования, реализовывать их результаты в виде прикладных программ и совершенствовать материально-техническую базу.
К примеру, в рамках проекта впервые в России была разработана технология многоуровневой сегментации речевых баз данных для синтеза речи и создан аппаратно-программный комплекс для ее осуществления. При этом в работе задействовано уже более тридцати молодых специалистов, а ведь привлечение молодых специалистов в научно-исследовательскую сферу имеет огромное значение для решения общей задачи перехода экономики к модели устойчивого инновационного развития.
Отдельно хотелось бы выделить роль модели, реализуемой в рамках ФЦП в плане формирования рекомендаций к содержанию учебных курсов в высших учебных заведениях. Работа над таким инновационным проектом как создание новой системы синтеза русской речи, связанная с привлечением большого количества молодых специалистов, позволяет оценить, по каким направлениям требуется усовершенствование подготовки студентов для того, чтобы их квалификация была достаточной для работы в определенной области без дополнительного обучения. На начальных фазах проекта в ООО «Центр речевых технологий» пришлось даже организовать полноценный курс обучения теоретичес-
ким и прикладным аспектам различных направлений речевых технологий, начиная от свойств речевого сигнала и основ его обработки до алгоритмов, используемых в области автоматического распознавания слитной речи.
2. Архитектура системы
2.1. Основы
Любая современная система синтеза речи основывается на модульном принципе. Разработчики и алгоритмисты таких систем стараются минимизировать зависимость каждого модуля, расширяя систему таким образом до мультимодальности и мульти-язычности. Этот основополагающий фактор заложен в разработку системы синтеза русской речи, разрабатываемой в компании «Центр речевых технологий». Архитектура комплекса проектировалась с учетом современных требований к системам синтеза речи, работающих в клиент-серверных приложениях.
Разрабатываемая система синтеза речи построена на модульно-независимой архитектуре с XML-нотацией передачи внутренних данных. Целью разработки архитектуры являлись мультимодульность, мультидикторность, мультиязычность и мультиплат-форменность. В основе формирования сигнала находится современный метод Unit Selection, реализация которого в сочетании с элементами аллофонного синтеза позволяет говорить о создании системы синтеза русской речи нового поколения.
Разработанная система синтеза русской речи состоит из нескольких логически объединенных процессоров:
• предварительная обработка входных данных;
• лингвистическая обработка текста;
• просодическая обработка текста;
• акустическая обработка речевого сигнала; Процессоры разработаны так, чтобы они могли
работать параллельно на последовательно поступающих данных.
2.2. Задачи
При разработке архитектуры системы синтеза речи нового поколения были решены следующие задачи:
1. Независимость модулей проекта. Независимость модулей позволяет в течение процесса разработки системы синтеза речи производить простую замену модулей, реализующих определенную функциональность, новыми версиями модулей или другими алгоритмами и выбирать их в зависимости от внешних требований.
2. Независимость от платформы. Перенос разрабатываемой системы на другие платформы (настольные версии Windows, версии Windows для мобильных решений, Unix, Linux) минимален по временным и ресурсным затратам.
3. Максимальное использование ресурсов современных компьютеров. Разрабатываемая система использует возможность организации многопо-
точных процессов на современных компьютерах. Данное решение позволило эффективно распараллелить работу всех модулей системы на любое количество процессов и обеспечить минимальную задержку между поступающим текстовым потоком и сгенерированным речевым сигналом.
4. Полная управляемость процессом разработки.
Для достижения данной цели процесс разработки продукта ведется в соответствии с технологией «Разработка через тестирование» (методика разработки описана далее).
2.3. Процесс разработки системы
В настоящее время в мире применяются следующие три итеративных процесса разработки: RUP — Rational Unified Process, XP — Extremal Programming, Agile. Каждый из этих процессов обладает своими достоинствами и недостатками. Для разработки системы синтеза речи был разработан оригинальный процесс, включающий в себя элементы вышеуказанных процессов.
Одним из важнейших элементов процесса разработки было применение подхода Unit Testing, так называемая разработка через тестирование (англ. test-driven development) — техника программирования, при которой модульные тесты для программы или ее фрагмента пишутся до самой программы и, по существу, управляют ее разработкой. Данный подход позволил внедрить процесс внесения изменений непрерывно на каждой стадии разработки. При этом сборка всего проекта, выполнение юнит-тестов происходит автоматически, ежедневно.
3. Технология Unit Selection
3.1. Классический подход
Для создания естественно звучащей речи по полученной на ранних этапах работы синтезатора фо-нетико-просодической последовательности подбираются наиболее подходящие элементы из большой, размеченной на разных лингвистических уровнях, речевой базы. Для того чтобы определить, насколько тот или иной элемент базы подходит для синтеза данной единицы, вводятся понятия стоимости замены (англ. target cost) и стоимости связи (англ. concatenation cost). Стоимость замены для элемента из базы ui по отношению к искомому элементу ti вычисляется по формуле
где Cjf — расстояние между k-ми характеристиками элементов, wkt — вес для k-й характеристики.
Другими словами, это есть взвешенная сумма различий в признаках между требуемым элементом и конкретным элементом речевой базы. В качестве признаков могут выступать любые уместные, с точки зрения разработчика, просодические и лингвистические характеристики элементов. Используется следующая
ИННОВАЦИИ № 8 (118), 2008
ИННОВАЦИИ № 8 (118), 2008
информация: частота основного тона (ЧОТ), длительность, контекст, позиция элемента в слоге, слове, количество ударных слогов во фразе и т. п.
Выбранные элементы должны не только мало отличаться от целевых, но и хорошо соединяться друг с другом. Функция стоимости связи двух элементов может быть определена как взвешенная сумма различий в признаках между двумя последовательно выбранными элементами
где Ckc — расстояние между k-ми характеристиками элементов, wkc — вес для k-й характеристики.
Общая стоимость для целой последовательности из n элементов есть сумма введенных выше стоимостей
Задача системы синтеза — выбрать такое множество Ыр ы2, ..., un, которое бы минимизировало общую стоимость согласно формуле (3).
3.2. Речевая база и качество синтеза
По своей сути синтез методом Unit Selection зависит от речевой базы. Качественный синтез возможен только на основе полной, сбалансированной и корректно размеченной базы данных. С ростом объема базы возрастает темповая и интонационная вариативность речи диктора. Иными словами, чем больше база, тем больше вероятность того, что в ней найдется элемент в необходимом контексте с необходимой длительностью и контуром ЧОТ. Как следствие, меньше искажения от цифровой модификации сигнала и выше естественность синтезируемой речи.
В процессе подготовки речевой базы на предварительных этапах была проведена запись большого числа дикторов. Наличие относительно широкого круга дикторов на начальном этапе позволяет осуществить осознанный выбор и минимизировать риск того, что голос того или иного диктора окажется малопригодным для использования в системе синтеза речи. Отобранные на предварительном этапе дикторы используются для записи больших звуковых баз данных (по 10 часов речи), которые в дальнейшем сегментируются на различных уровнях анализа.
Для достижения высокого качества синтеза база сегментируется на девяти разных уровнях. В качестве меток используются реальная и каноническая транскрипции, орфографические слова с отметками логического и синтагматического ударения, типы инто-
национных контуров. Также размечаются речевые явления: смех, кашель, причмокивания и др. Сегментирование проводится специалистами кафедры фонетики СПбГУ с использованием специально разработанного для данной цели в «Центре речевых технологий» ПО «SpeechFormat»2.
3.3. Гибридный синтез
Разрабатываемая система синтеза предназначена для использования как на стационарных компьютерах, так и на мобильных устройствах (смартфоны, КПК и т. п.). В связи с ограничениями на доступные вычислительные ресурсы в мобильных устройствах, возникла необходимость разработки гибридного синтеза речи, совмещающего технологии Unit Selection и аллофонного синтеза. Гибридный характер системы позволяет осуществлять масштабирование всей системы синтеза в зависимости от доступных ресурсов. Полноценный синтез Unit Selection, обеспечивающий наилучшее качество синтезированной речи, предполагается использовать на стационарных компьютерах; для мобильных решений возможен компромисс между качеством звучания и используемыми ресурсами памяти при помощи технологии аллофон-ного синтеза.
Заключение
Создание системы синтеза русской речи нового поколения будет завершено в 2009 году. В данный момент реализованы все основные модули системы, получен синтезированный речевой сигнал, уже на данном этапе заметно превосходящий по качеству примеры аллофонного синтеза. Работа ведется над усовершенствованием разработанных модулей, а также продолжается работа по сегментации речевых баз.
В общем, промежуточные результаты, полученные на данном этапе проекта, позволяют утверждать, что данная система будет значительно превосходить существующие аналоги для русского языка как в плане архитектуры и реализации программного обеспечения, так и в плане естественности синтезированной речи. Это в значительной степени облегчит коммерциализацию данной системы и приведет к активному внедрению синтеза речи в промышленности.
Авторы надеются, что данная работа будет способствовать изучению и распространению русского языка как неотъемлемой части мировой культуры и инструмента межнационального общения.
2 Свидетельство регистрации № 2008612666 от 29 мая 2008 года.