ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2007, том 50, №4_________________________________
ИНФОРМАТИКА
УДК 410:51+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев АЛГОРИТМ БЕЗУДАРНОГО ОЗВУЧИВАНИЯ ТАДЖИКСКОГО ТЕКСТА
Работы [1-3], выполненные авторами в соответствии с программой, сформулированной в [3], и посвященные исследованию статистических закономерностей слогового многообразия таджикского языка, являлись необходимой предпосылкой на пути достижения главной цели - решения задачи автоматического преобразования таджикского текста в озвученную человеческую речь с безударным произношением каждого слова. В настоящей статье на уровне блок-схемы описывается алгоритм, реализация которого в виде компьютерной программы позволила осуществить процесс озвучивания текстовой информации.
Напомним, что текст, согласно [4], - это “...последовательность предложений, слов, построенная согласно правилам данного языка, данной знаковой системы и образующее сообщение”. Для целей настоящей статьи нам достаточно будет того, что текст - конечная совокупность слов, разделенных пробелами или же знаками препинания и пробелами.
1. Принципиальная схема озвучивания текста представлена на рисунке. Начало - это запуск программы озвучивания.
В блоке 1 осуществляется проверка наличия текста. Если такового нет, то - конец.
Иначе следовать в блок 2, в котором из текста извлекается очередное слово W для последующего анализа.
В блоке 3 слово W подвергается разделению на слоги с помощью алгоритма, описанного в работе [3].
В блоке 4 из слова W извлекается очередной слог.
В блоке 5 определяется, является ли извлеченный слог последним в слове или нет. И в том и другом случае происходит обращение к базе “слог-звук”. В ней содержится список 3259 слогов, выявленных путем статистической обработки случайной выборки объемом в 3800 страниц, см. [2]. Каждому слогу сопоставлено его звучание.
Отметим, что при создании реальной базы “слог-звук” формирование множества звуков производилось голосом профессионального диктора, озвучившего через микрофон все многообразие различных слогов. В дальнейшем необходимость оперирования со “стандартизованным” (единообразным) звучанием слогов потребовало проведения работ по редактированию звуков с помощью компьютерной программы Cool Edit Pro. Редактирование проводилось по 3 признакам - по тону, определяемому частотой колебания голосовых связок, громкости, зависящей от интенсивности звука и его частоты, и длительности звучания. Отредактированные слоги в звуковом варианте сохранены в файлах формата WAV [5].
Начало
нет
2. Ввод слова Ж
6. База “слог-звук"
1 г
7. Звучание слога
1 Г
8. 5 - пауза
3. Разбиение Ж на слоги
Г
1
4. Ввод слога из Ж
6. База “слог-звук"
7. Звучание слога
9. Ж - пауза
Конец
Рисунок
С учетом сказанного, в блоке 6, то есть в базе “слог-звук”, по заданному слогу выявляется соответствующий ему звук, который и воспроизводится в блоке 7.
Далее в зависимости от того, являлся ли озвученный слог последним в слове Ж или нет, следует пауза - межслоговая (Б- пауза), см. блок 8, или же межсловная (Ж - пауза), см. блок 9. В первом случае интервал времени между моментом окончания звучания предыдущего слога и началом звучания следующего слога оказывается меньше, чем интервал времени между моментом окончания звучания предыдущего слова и началом звучания следующего слова.
Отметим, что экспериментально установленные значения £-раше = 20 мсек и Ж-раше = 200 мсек оказались приемлемыми для восприятия на слух компьютерного озвучивания текстовой информации.
После завершения межслоговой паузы осуществляется возврат к блоку 4, а по завершению межсловной паузы - к блоку 1. Алгоритмические процедуры повторяются до тех пор, пока не завершится обработка всего текста.
2. По данному алгоритму разработана программа для персонального компьютера. Её пригодность к практическому использованию оценивалась по результатам вычислительных экспериментов со случайно выбранными текстами. Эти эксперименты показали, что
• множество, составленное из 3259 выявленных слогов, является статистически полным, то есть с вероятностью, близкой к 1, других слогов в таджикском языке нет;
• указанные ранее временные значения Б-паузы и Ж - паузы, хотя и приемлемы для восприятия текста, озвучиваемого компьютером, все же нуждаются в дальнейших уточнениях с целью уменьшения до минимума дефекта звучания, происходящего из-за безударного произношения слогов.
Институт математики Поступило 04.09.2007
АН Республики Таджикистан,
Технологический университет Таджикистана, Худжандский филиал
ЛИТЕРАТУРА
1. З.Д. Усманов, Х.А. Худойбердиев - ДАН РТ, 2006, т.49, № 6, с.489-492.
2. Х.А. Худойбердиев - Известия АН РТ, 2007, № 2(127) с. 31-34.
3. З.Д. Усманов. Программно-технический комплекс для автоматического безударного озвучивания текстов на таджикском языке. Патент (интеллектуальный продукт) зарегистрирован 007 Т 14 октября 2005 г. Национальным патентно-информационным центром Министерства экономики и торговли РТ.
4. Советский энциклопедический словарь. М., 1980, 1600 с.
5. Тим Кинтцель. Программирование звука на ПК: Пер с англ. М., ДМК Пресс, 2005, 432 с.
З.Ч,.Усманов, Х.А.Худойбердиев АЛГОРИТМИ ТАЛАФФУЗИ БЕЗАДАИ МАТНИ ТОЧ,ИКЙ
Дар мак;ола алгоритми талаффузи автоматикии матни точикй шарх, дода шуда-аст. Дангоми талаффуз овози безадаи инсон истифода шудааст.
Z.D.Usmanov, Kh.A.Khudoiberdiev ALGORITHM TO AN UNACCENTED SOUNDING OF TAJIK TEXTS
In the article the algorithm to an automatic transformation of Tajik texts into a sounding human speech without the accented articulation of words is described.