ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _____________________________________2009, том 52, №4_________________________________
ИНФОРМАТИКА
УДК 410:51+414.7+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев
О СИНТЕЗАТОРЕ ТАДЖИКСКОЙ РЕЧИ ПО ТЕКСТУ
В настоящей статье излагается основная идея реализации синтезатора таджикской речи по тексту.
1. Напомним ряд понятий, используемых в дальнейшем.
Текст - это последовательность предложений, построенных согласно правилам данного языка и данной знаковой системы и образующая сообщение [1].
В свою очередь, предложение будем рассматривать как совокупность упорядоченных элементов 7 типов, называемых словом, числом, символом, пробелом, внутренним знаком препинания (запятая, двоеточие, точка с запятой, тире), внешним знаком препинания (точка, многоточие, знак вопросительный, знак восклицательный) и, наконец, служебным символом окончания абзаца (в письменном тексте его нет, но он присутствует в электронном тексте как непечатаемый знак).
Отметим, что смысл, который мы заключаем в названия элементов, следует понимать в общепринятых значениях. Подчеркнем также, что в конкретном предложении некоторые элементы могут отсутствовать (например, числа, символы, внутренние знаки препинания и т.д.), в то время как присутствие других - обязательно (например, внешний знак препинания).
Нам понадобятся 5 типов пауз, используемых в речи:
Р - пауза между слогами при произношении слова;
р№ - пауза между словами при чтении предложения (соответствует пробелу между словами);
Р - пауза, отмечающая внутренний знак препинания;
ре - пауза, отмечающая внешний знак препинания;
ре - пауза, отмечающая конец абзаца.
2. Теперь опишем идею синтезирования речи по тексту в виде принципиальной блок-схемы, (см. рис).
Рис. Принципиальная блок-схема синтеза речи по тексту.
Работа синтезатора происходит следующим образом. После ввода очередного предложения оно анализируется по составу своих элементов. Если очередной элемент - слово, то в блоке 1 оно разделяется на слоги с указанием ударного слога и затем осуществляется его озвучивание с использованием базы “слог-звук”.
Если очередной элемент - число, то оно в блоке 2 преобразуется в текст и затем его озвучивание происходит через блок 1.
Если очередной элемент - символ, то его озвучивание происходит в блоке 3 путем извлечения соответствующего звучания из базы “символ-звук”.
Если очередной элемент - пробел, внутренний или внешний знак препинания или же знак окончания абзаца, то для них из соответствующего блока извлекается соответствующая пауза.
Синтезатор речи, представленный в виде блок-схемы, подсказывает, что в его основу закладывается принцип конкатенации озвученных слогов.
Поскольку слог выступает в качестве основной звуковой единицы речи, то для реализации синтезатора требуется описать многообразие все слогов соответствующего естественного языка, что и сделано в [2].
Поскольку каждый слог, представленный в виде цепочки букв, нуждается в его звуковом образе, то требуется создание базы “слог-звук ”, что и сделано в [3].
Поскольку синтезатор предусматривает озвучивание чисел и символов, то для реализации синтезатора разработаны соответствующие алгоритмы и программы для трансформирования числа в текст и создания базы “символ-звук”.
И, наконец, требуется настроить длительности пауз ps, pw, pt, pe и pa таким образом, чтобы получить, по-возможности, естественную и разборчивую синтетическую речь.
3. На основе детальных проработок концептуальной схемы был создан синтезатор Tajik Text-to-Speech, то есть комплекс программ для синтезирования таджикской речи по тексту. Настройка параметров синтезатора проводилась путем вычислительных экспериментов. Установлено удовлетворительные значения длительностей пауз:
для границ абзацев pa = 900 мс,
для границ предложений pe = 600 мс,
для запятых внутри предложений p = 400 мс,
для межсловной и межслоговой пауз, соответственно, p = 200 мс и p = 20 мс.
Для оценки эффективности работы синтезатора были организованы эксперименты по озвучиванию разнообразной текстовой информации (фрагменты из повестей, романов, научных статьей, учебников, газет, журналов, интернет-сайтов). Оценка полноты множества слогов, использованных для формирования синтетической речи, связывалась с процентом озву-
ченных слов по отношению к общему количеству слов в пределах выбранных фрагментов текста. Результаты эксперимента показаны в таблице.
Таблица
Коэффициент озвучивания текста для фрагментов текстовой информации
№ Название файла Источник Количество слов Из них озвучено %
1 Гимн^ Учебник 110 110 100,00
2 С AMml.rtf «Ятим», С.Айни 1498 1490 99,47
3 Вестник32.іі£ Газета «Вароруд» 2620 2584 98,63
4 Сино.іі£ Реферат 2679 2649 98,88
5 Ду дилдода^ Интернет сайт www.gazeta.tj 1470 1442 98,10
6 Президент^ Газета «Чархи гардун» 1601 1548 96,69
Итого 9978 9823 98,45
В этой таблице во 2-м столбце приводятся названия файлов, в 3-м столбце - источник, из которого взята информация, в 4-м - количество слов, поступивших для озвучивания, в 5-ом столбце - количество озвученных слов и в 6-ом - доля озвученных слов в процентах по отношению к общему числу слов.
Полученные результаты показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста.
Таким образом, комплекс программ Tajik Text-to-Speech, хотя и не решает полностью поставленной проблемы, все же в настоящее время оказывается первым программным продуктом, удовлетворительно осуществляющим компьютерное озвучивание таджикских текстов. На данном уровне разработки комплекс уже сейчас может быть использован людьми с ослабленным зрением.
Другие эксперименты проводились на научных семинарах Института математики АН Республики Таджикистан. Его участники по собственному усмотрению вводили в компьютер таджикские тексты и затем оценивали естественность и разборчивость звучания синтетической речи. Общее мнение семинара - компьютерный синтезатор, построенный по принципу конкатенации 3259 таджикских слогов, вполне успешно выполняет функцию озвучивания таджикских текстов.
Институт математики АН Республики Таджикистан, Поступило 16.02.2009 г.
*Технологический университет Таджикистана, Худжандский филиал
ЛИТЕРАТУРА
1. Советский энциклопедический словарь. - М.: Советская энциклопедия, 1980, 1600 с.
2. Худойбердиев Х.А., О многообразии слогов таджикского языка. - Известия АН РТ. Отд.физ.-мат., хим. и геол.н., 2007, № 2 (127), с. 31-34.
3. Усманов З.Д., Худойбердиев Х.А. - ДАН РТ, 2007, т.50, № 4, с. 302-305.
З.Д.Усманов, Х.А.Худойбердиев ОИДИ СИНТЕЗАТОРИ НУТЦИ ТОНИКИ АЗ РУИ МАТН
Дар макола блок-схемаи мачмуи барномахо барои амалигардонии синтези нутки точикй аз руи матн шарх дода шудааст. ^имматхои бузиргихое, ки кори каноатбахши синтезаторро таъмин мекунанд, зохир шудаанд.
Z.D.Usmanov, Kh.A.Khudoiberdiev ON A TAJIK SPEECH SYNTHESIZER UNDER A TEXT
In the article a block-scheme of the program complex for realization of a synthesis of Tajik speech under a text is described. Values of parameters providing a satisfactory work of a synthesizer are specified.