Научная статья на тему 'Алгоритм безударного озвучивания таджикского текста'

Алгоритм безударного озвучивания таджикского текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
134
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article the algorithm to an automatic transformation of Tajik texts into a sounding human speech without the accented articulation of words is described.

Текст научной работы на тему «Алгоритм безударного озвучивания таджикского текста»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2007, том 50, №4_________________________________

ИНФОРМАТИКА

УДК 410:51+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев АЛГОРИТМ БЕЗУДАРНОГО ОЗВУЧИВАНИЯ ТАДЖИКСКОГО ТЕКСТА

Работы [1-3], выполненные авторами в соответствии с программой, сформулированной в [3], и посвященные исследованию статистических закономерностей слогового многообразия таджикского языка, являлись необходимой предпосылкой на пути достижения главной цели - решения задачи автоматического преобразования таджикского текста в озвученную человеческую речь с безударным произношением каждого слова. В настоящей статье на уровне блок-схемы описывается алгоритм, реализация которого в виде компьютерной программы позволила осуществить процесс озвучивания текстовой информации.

Напомним, что текст, согласно [4], - это “...последовательность предложений, слов, построенная согласно правилам данного языка, данной знаковой системы и образующее сообщение”. Для целей настоящей статьи нам достаточно будет того, что текст - конечная совокупность слов, разделенных пробелами или же знаками препинания и пробелами.

1. Принципиальная схема озвучивания текста представлена на рисунке. Начало - это запуск программы озвучивания.

В блоке 1 осуществляется проверка наличия текста. Если такового нет, то - конец.

Иначе следовать в блок 2, в котором из текста извлекается очередное слово W для последующего анализа.

В блоке 3 слово W подвергается разделению на слоги с помощью алгоритма, описанного в работе [3].

В блоке 4 из слова W извлекается очередной слог.

В блоке 5 определяется, является ли извлеченный слог последним в слове или нет. И в том и другом случае происходит обращение к базе “слог-звук”. В ней содержится список 3259 слогов, выявленных путем статистической обработки случайной выборки объемом в 3800 страниц, см. [2]. Каждому слогу сопоставлено его звучание.

Отметим, что при создании реальной базы “слог-звук” формирование множества звуков производилось голосом профессионального диктора, озвучившего через микрофон все многообразие различных слогов. В дальнейшем необходимость оперирования со “стандартизованным” (единообразным) звучанием слогов потребовало проведения работ по редактированию звуков с помощью компьютерной программы Cool Edit Pro. Редактирование проводилось по 3 признакам - по тону, определяемому частотой колебания голосовых связок, громкости, зависящей от интенсивности звука и его частоты, и длительности звучания. Отредактированные слоги в звуковом варианте сохранены в файлах формата WAV [5].

Начало

нет

2. Ввод слова Ж

6. База “слог-звук"

1 г

7. Звучание слога

1 Г

8. 5 - пауза

3. Разбиение Ж на слоги

Г

1

4. Ввод слога из Ж

6. База “слог-звук"

7. Звучание слога

9. Ж - пауза

Конец

Рисунок

С учетом сказанного, в блоке 6, то есть в базе “слог-звук”, по заданному слогу выявляется соответствующий ему звук, который и воспроизводится в блоке 7.

Далее в зависимости от того, являлся ли озвученный слог последним в слове Ж или нет, следует пауза - межслоговая (Б- пауза), см. блок 8, или же межсловная (Ж - пауза), см. блок 9. В первом случае интервал времени между моментом окончания звучания предыдущего слога и началом звучания следующего слога оказывается меньше, чем интервал времени между моментом окончания звучания предыдущего слова и началом звучания следующего слова.

Отметим, что экспериментально установленные значения £-раше = 20 мсек и Ж-раше = 200 мсек оказались приемлемыми для восприятия на слух компьютерного озвучивания текстовой информации.

После завершения межслоговой паузы осуществляется возврат к блоку 4, а по завершению межсловной паузы - к блоку 1. Алгоритмические процедуры повторяются до тех пор, пока не завершится обработка всего текста.

2. По данному алгоритму разработана программа для персонального компьютера. Её пригодность к практическому использованию оценивалась по результатам вычислительных экспериментов со случайно выбранными текстами. Эти эксперименты показали, что

• множество, составленное из 3259 выявленных слогов, является статистически полным, то есть с вероятностью, близкой к 1, других слогов в таджикском языке нет;

• указанные ранее временные значения Б-паузы и Ж - паузы, хотя и приемлемы для восприятия текста, озвучиваемого компьютером, все же нуждаются в дальнейших уточнениях с целью уменьшения до минимума дефекта звучания, происходящего из-за безударного произношения слогов.

Институт математики Поступило 04.09.2007

АН Республики Таджикистан,

Технологический университет Таджикистана, Худжандский филиал

ЛИТЕРАТУРА

1. З.Д. Усманов, Х.А. Худойбердиев - ДАН РТ, 2006, т.49, № 6, с.489-492.

2. Х.А. Худойбердиев - Известия АН РТ, 2007, № 2(127) с. 31-34.

3. З.Д. Усманов. Программно-технический комплекс для автоматического безударного озвучивания текстов на таджикском языке. Патент (интеллектуальный продукт) зарегистрирован 007 Т 14 октября 2005 г. Национальным патентно-информационным центром Министерства экономики и торговли РТ.

4. Советский энциклопедический словарь. М., 1980, 1600 с.

5. Тим Кинтцель. Программирование звука на ПК: Пер с англ. М., ДМК Пресс, 2005, 432 с.

З.Ч,.Усманов, Х.А.Худойбердиев АЛГОРИТМИ ТАЛАФФУЗИ БЕЗАДАИ МАТНИ ТОЧ,ИКЙ

Дар мак;ола алгоритми талаффузи автоматикии матни точикй шарх, дода шуда-аст. Дангоми талаффуз овози безадаи инсон истифода шудааст.

Z.D.Usmanov, Kh.A.Khudoiberdiev ALGORITHM TO AN UNACCENTED SOUNDING OF TAJIK TEXTS

In the article the algorithm to an automatic transformation of Tajik texts into a sounding human speech without the accented articulation of words is described.

i Надоели баннеры? Вы всегда можете отключить рекламу.