О синтезаторе таджикской речи по тексту

Усманов З.Д.; Худойбердиев Х.А.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _____________________________________2009, том 52, №4_________________________________

ИНФОРМАТИКА

УДК 410:51+414.7+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев

О СИНТЕЗАТОРЕ ТАДЖИКСКОЙ РЕЧИ ПО ТЕКСТУ

В настоящей статье излагается основная идея реализации синтезатора таджикской речи по тексту.

1. Напомним ряд понятий, используемых в дальнейшем.

Текст - это последовательность предложений, построенных согласно правилам данного языка и данной знаковой системы и образующая сообщение [1].

В свою очередь, предложение будем рассматривать как совокупность упорядоченных элементов 7 типов, называемых словом, числом, символом, пробелом, внутренним знаком препинания (запятая, двоеточие, точка с запятой, тире), внешним знаком препинания (точка, многоточие, знак вопросительный, знак восклицательный) и, наконец, служебным символом окончания абзаца (в письменном тексте его нет, но он присутствует в электронном тексте как непечатаемый знак).

Отметим, что смысл, который мы заключаем в названия элементов, следует понимать в общепринятых значениях. Подчеркнем также, что в конкретном предложении некоторые элементы могут отсутствовать (например, числа, символы, внутренние знаки препинания и т.д.), в то время как присутствие других - обязательно (например, внешний знак препинания).

Нам понадобятся 5 типов пауз, используемых в речи:

Р - пауза между слогами при произношении слова;

р№ - пауза между словами при чтении предложения (соответствует пробелу между словами);

Р - пауза, отмечающая внутренний знак препинания;

ре - пауза, отмечающая внешний знак препинания;

ре - пауза, отмечающая конец абзаца.

2. Теперь опишем идею синтезирования речи по тексту в виде принципиальной блок-схемы, (см. рис).

Рис. Принципиальная блок-схема синтеза речи по тексту.

Работа синтезатора происходит следующим образом. После ввода очередного предложения оно анализируется по составу своих элементов. Если очередной элемент - слово, то в блоке 1 оно разделяется на слоги с указанием ударного слога и затем осуществляется его озвучивание с использованием базы “слог-звук”.

Если очередной элемент - число, то оно в блоке 2 преобразуется в текст и затем его озвучивание происходит через блок 1.

Если очередной элемент - символ, то его озвучивание происходит в блоке 3 путем извлечения соответствующего звучания из базы “символ-звук”.

Если очередной элемент - пробел, внутренний или внешний знак препинания или же знак окончания абзаца, то для них из соответствующего блока извлекается соответствующая пауза.

Синтезатор речи, представленный в виде блок-схемы, подсказывает, что в его основу закладывается принцип конкатенации озвученных слогов.

Поскольку слог выступает в качестве основной звуковой единицы речи, то для реализации синтезатора требуется описать многообразие все слогов соответствующего естественного языка, что и сделано в [2].

Поскольку каждый слог, представленный в виде цепочки букв, нуждается в его звуковом образе, то требуется создание базы “слог-звук ”, что и сделано в [3].

Поскольку синтезатор предусматривает озвучивание чисел и символов, то для реализации синтезатора разработаны соответствующие алгоритмы и программы для трансформирования числа в текст и создания базы “символ-звук”.

И, наконец, требуется настроить длительности пауз ps, pw, pt, pe и pa таким образом, чтобы получить, по-возможности, естественную и разборчивую синтетическую речь.

3. На основе детальных проработок концептуальной схемы был создан синтезатор Tajik Text-to-Speech, то есть комплекс программ для синтезирования таджикской речи по тексту. Настройка параметров синтезатора проводилась путем вычислительных экспериментов. Установлено удовлетворительные значения длительностей пауз:

для границ абзацев pa = 900 мс,

для границ предложений pe = 600 мс,

для запятых внутри предложений p = 400 мс,

для межсловной и межслоговой пауз, соответственно, p = 200 мс и p = 20 мс.

Для оценки эффективности работы синтезатора были организованы эксперименты по озвучиванию разнообразной текстовой информации (фрагменты из повестей, романов, научных статьей, учебников, газет, журналов, интернет-сайтов). Оценка полноты множества слогов, использованных для формирования синтетической речи, связывалась с процентом озву-

ченных слов по отношению к общему количеству слов в пределах выбранных фрагментов текста. Результаты эксперимента показаны в таблице.

Таблица

Коэффициент озвучивания текста для фрагментов текстовой информации

№ Название файла Источник Количество слов Из них озвучено %

1 Гимн^ Учебник 110 110 100,00

2 С AMml.rtf «Ятим», С.Айни 1498 1490 99,47

3 Вестник32.іі£ Газета «Вароруд» 2620 2584 98,63

4 Сино.іі£ Реферат 2679 2649 98,88

5 Ду дилдода^ Интернет сайт www.gazeta.tj 1470 1442 98,10

6 Президент^ Газета «Чархи гардун» 1601 1548 96,69

Итого 9978 9823 98,45

В этой таблице во 2-м столбце приводятся названия файлов, в 3-м столбце - источник, из которого взята информация, в 4-м - количество слов, поступивших для озвучивания, в 5-ом столбце - количество озвученных слов и в 6-ом - доля озвученных слов в процентах по отношению к общему числу слов.

Полученные результаты показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста.

Таким образом, комплекс программ Tajik Text-to-Speech, хотя и не решает полностью поставленной проблемы, все же в настоящее время оказывается первым программным продуктом, удовлетворительно осуществляющим компьютерное озвучивание таджикских текстов. На данном уровне разработки комплекс уже сейчас может быть использован людьми с ослабленным зрением.

Другие эксперименты проводились на научных семинарах Института математики АН Республики Таджикистан. Его участники по собственному усмотрению вводили в компьютер таджикские тексты и затем оценивали естественность и разборчивость звучания синтетической речи. Общее мнение семинара - компьютерный синтезатор, построенный по принципу конкатенации 3259 таджикских слогов, вполне успешно выполняет функцию озвучивания таджикских текстов.

Институт математики АН Республики Таджикистан, Поступило 16.02.2009 г.

*Технологический университет Таджикистана, Худжандский филиал

ЛИТЕРАТУРА

1. Советский энциклопедический словарь. - М.: Советская энциклопедия, 1980, 1600 с.

2. Худойбердиев Х.А., О многообразии слогов таджикского языка. - Известия АН РТ. Отд.физ.-мат., хим. и геол.н., 2007, № 2 (127), с. 31-34.

3. Усманов З.Д., Худойбердиев Х.А. - ДАН РТ, 2007, т.50, № 4, с. 302-305.

З.Д.Усманов, Х.А.Худойбердиев ОИДИ СИНТЕЗАТОРИ НУТЦИ ТОНИКИ АЗ РУИ МАТН

Дар макола блок-схемаи мачмуи барномахо барои амалигардонии синтези нутки точикй аз руи матн шарх дода шудааст. ^имматхои бузиргихое, ки кори каноатбахши синтезаторро таъмин мекунанд, зохир шудаанд.

Z.D.Usmanov, Kh.A.Khudoiberdiev ON A TAJIK SPEECH SYNTHESIZER UNDER A TEXT

In the article a block-scheme of the program complex for realization of a synthesis of Tajik speech under a text is described. Values of parameters providing a satisfactory work of a synthesizer are specified.

О синтезаторе таджикской речи по тексту Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Усманов З. Д., Худойбердиев Х. А.

Текст научной работы на тему «О синтезаторе таджикской речи по тексту»