О синтезаторе таджикской речи по тексту

Худойбердиев Х.А.

синтезаторе таджикской речи по тексту

Х.А. Худойбердиев Кафедра программное обеспечение и информационных технологии, Худжандский политехнический институт Таджикского технического Университета,

г. Худжанд, Республика Таджикистан

tajlingvo @ gmail.com, www.tailingvo.ti

Аннотация. В настоящем докладе излагается идея синтезатора таджикской речи по тексту, который реализован на основе метода конкатенации слогов. Принцип работы приведена и описана в виде блок-схемы. На основе разработанной модели создан комплекс программ синтезирования таджикской речи Tajik Text-to-Speech. В конце доклада представлена структурная схема программного комплекса и краткое описание полученных результатов.

Ключевые слова: обработка текста; блок-схема; слог-звук; структура текстовой информации; синтезатор; синтез речи.

Текст - это последовательность предложений, построенных согласно правилам данного языка и данной знаковой системы и образующая сообщение.

В свою очередь, предложение будем рассматривать как совокупность упорядоченных элементов 7 типов, называемых словом, числом, символом, пробелом, внутренним знаком препинания (запятая, двоеточие, точка с запятой, тире), внешним знаком препинания (точка, многоточие, знак вопросительный, знак восклицательный) и, наконец, служебным символом окончания абзаца (в письменном тексте его нет, но он присутствует в электронном тексте как непечатаемый знак

Отметим, что смысл, который мы заключаем в названия элементов, следует понимать в общепринятых значениях. Подчеркнем также, что в конкретном предложении некоторые элементы могут отсутствовать (например, числа, символы, внутренние знаки препинания и т.д.) в то время как присутствие других - обязательно (например, внешний знак препинания).

Теперь опишем идею синтезирования речи по тексту в виде принципиальной блок-схемы, (см. рисунок 1).

Работа синтезатора происходит следующим образом. После ввода очередного предложения оно анализируется по составу своих элементов. Если очередной элемент - слово, то в блоке 1 оно разделяется на слоги с указанием ударного слога и затем осуществляется его озвучивание с использованием базы "слог-звук".

Если очередной элемент - число, то оно в блоке 2 преобразуется в текст и затем его озвучивание происходит через блок 1.

Если очередной элемент - символ, то его озвучивание происходит в блоке 3 путем извлечения соответствующего звучания из базы "символ-звук".

Если очередной элемент - пробел, внутренний или внешний знак препинания или же знак окончания абзаца, то для них из соответствующего блока извлекается соответствующая пауза.

Синтезатор речи, представленный в виде блок-схемы, подсказывает, что в его основу закладывается принцип конкатенации озвученных слогов. Поскольку слог выступает в качестве основной звуковой единицы речи, то для реализации синтезатора требуется описать многообразие все слогов соответствующего естественного языка.

Рисунок 1. Принципиальная блок-схема синтеза речи по тексту

Поскольку каждый слог, представленный в виде цепочки букв, нуждается в его звуковом образе, то требуется создание базы "слог-звук". Поскольку синтезатор предусматривает озвучивание чисел и символов, то для реализации синтезатора разработаны соответствующие алгоритмы и программы для трансформирования числа в текст и создания базы "символ-звук".

На основе детальных проработок концептуальной схемы был создан синтезатор Tajik Text-to-Speech, т.е. комплекс программ для синтезирования таджикской речи по тексту. Настройка параметров синтезатора проводилась путем вычислительных экспериментов и установлено удовлетворительные значения длительностей пауз: для

границ абзацев Ра = 900 мс; для границ предложений Ре = 600 мс; для запятыгх р = 400 мс; для межсловной и межслоговой пауз, рк = 200 мс и рв = 20 мс. Структурная схема программного комплекса представлена на рисунке 2.

Блок 1. Подсистема «Интерфейс пользователя» состоит из двух компонентов -«Ввод текста» и «Озвученная речь», которые имеют одностороннюю связь, т.е пользователь имеет возможность ввести текстовую информацию и в результате получить речевой вариант вводимого текста. Для получения результатов блок 1 связывается с блоком 2 по двум направлениям - по предоставлению информации для лингвистического анализа и получению результатов озвучивания. Блок 1 взаимодействует также и с блоком 3 непосредственно для использования необходимые данныгх о настройках системы (выбор мужского или женского голоса, громкость и скорость озвучивания).

Блок 2. Аналитическая подсистема состоит из двух частей - «Лингвистического анализа» и «Модуля озвучивания». Первый из них состоит из подмодулей «Проверка текста», «Кодирование текста» и «Разделение слов на слоги». «Проверка текста» используется для проверки вводимой информации, которая включает в себя такие текстовые элементы, как слова, целые числа, символы и знаки препинания. Данный подмодуль проверяет текстовые элементы, преобразует в тестовый вариант целые числа и символы и затем передает их для кодирования.

Рисунок 2 - Структурная схема Tajik Text-to-Speech

Процесс кодирования осуществляет одноименный подмодуль, который каждое слово W входного текста преобразует в упорядоченную совокупность W^ нулей и

единиц (напомним, что цифрой 1 замещаются гласные буквы, а цифрой 0 -согласные), т.е. все слова представляются своими слоговыми структурами.

Закодированный текст передается подмодулю «Разделение слов на слоги», который работает на основе собственного алгоритма. Разделенные на слоги слова лингвистически анализируются и передаются «Модулю озвучивания».

В указанном модуле происходит формирование звуковой информации с использованием базы "слог-звук" информационной подсистемы, ударных слогов, межслоговых и межсловных пауз, а также пауз, отмечающих такие знаки препинания как запятая и точка.

Модуль озвучивания является заключительной стадией аналитической подсистемы, и звуковой вариант текстовой информации отправляется в интерфейс пользователя.

Блок 3, «Информационная подсистема» содержит базы данных, названные «Настройкой системы» и «Базой слог-звук». Первая из них используется для хранения временных данных настройки системы, вторая база «слог-звук» - для хранения статистических данных о звуковых файлах 3259 слогов таджикского языка. Для работы с этой базой данных используется модуль обеспечения доступа, проверки и выборки необходимых данных.

Для оценки эффективности работы синтезатора были организованы эксперименты по озвучиванию разнообразной текстовой информации (фрагменты из повестей, романов, научных статьей, учебников, газет, журналов, Интернет - сайтов). Оценка полноты множества слогов, использованных для формирования синтетической речи, связывалась с процентом озвученных слов по отношению к общему количеству слов в пределах выбранных фрагментов текста.

Полученные результаты показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста.

Таким образом, комплекс программ Tajik Text-to-Speech, хотя и не решает полностью поставленной проблемы, все же в настоящее время оказывается первым программным продуктом, хорошо осуществляющим компьютерное озвучивание таджикских текстов. На данном уровне разработки комплекс уже сейчас может быть использован людьми с ослабленным зрением.

Другие эксперименты проводились на научных семинарах Института математики АН РТ. Его участники по собственному усмотрению вводили в компьютер таджикские тексты и затем оценивали естественность и разборчивость звучания синтетической речи. Общее мнение семинара - компьютерный синтезатор, построенный по принципу конкатенации 3259 таджикских слогов, вполне успешно выполняет функцию озвучивания таджикских текстов.

Список литературы

1. Советский энциклопедический словарь. -М.: Советская энциклопедия, 1980.1600 с.

2. Л.В.Златоустова, С.В.Кодзасов, О.Ф.Кривнова, И.Г.Фролова. Алгоритмы преобразования русских орфографических текстов в фонетическую запись -М.:МГУ, 1970.

3. Лобанов Б.М. Цирульник Л.И. Жадинец Д.В. Сизонов О.Г. Алгоритмы синтеза просодических характеристик речи по тексту в системе «Мультифон». Объединённый институт проблем информатики НАН Беларуси, Минск. 2007.

4. Лобанов Б.М., Цирульник М.И. Компьютерный синтез и клонирование речи, Минск, Белорусская наука, 2008, - 316 с.

5. Худойбердиев Х.А., О многообразии слогов таджикского языка // Известия АН РТ, № 2 (127), 2007. - с. 31-34.

6. Усманов З.Д., Худойбердиев Х.А. Алгоритм безударного озвучивания таджикского текста // ДАН РТ, Т.50, № 4, 2007. - с. 302-305.

7. Усманов З.Д., Худойбердиев Х.А. Компьютерное озвучивание таджикского текста // Патент (интеллектуальный продукт) зарегистрирован 041TJ 04.09.2007 НПИ центром.

О синтезаторе таджикской речи по тексту Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Худойбердиев Х. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Худойбердиев Х. А.

Текст научной работы на тему «О синтезаторе таджикской речи по тексту»