Научная статья на тему 'О синтезе Таджикской речи с русизмами'

О синтезе Таджикской речи с русизмами Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
115
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article a principal possibility of projecting a Tajik speech synthesizer with Russian words is substantiated.

Текст научной работы на тему «О синтезе Таджикской речи с русизмами»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ___________________________________2009, том 52, №5________________________________

ИНФОРМАТИКА

УДК 410:51+414.7+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев

О СИНТЕЗЕ ТАДЖИКСКОЙ РЕЧИ С РУСИЗМАМИ

1. О слоговой структуре русских слов. В настоящее время в таджикском языке присутствует большое количество слов, заимствованных из русского языка, в основном - от имен существительных. Русизмы присутствуют и в других частях речи - глаголах, прилагательных и т.д., однако их образование подчиняется соответствующим правилам образования таджикских частей речи. В этой связи синтезатор речи, настроенный на озвучивание только таджикских слов, см. [1], неизбежно может столкнуться с такой ситуацией, когда послоговое фрагментирование встретившегося по тексту русского слова произвести не удается.

Для того чтобы понять, по каким причинам это может происходить, в данной статье предпринята попытка получить представление о слоговой структуре русских слов. С этой целью, всего лишь ради удобства, из Интернета была извлечена случайная выборка текстов на русском языке из серии "Знаменитые писатели России" объемом около 100 страниц (108 510 слов). Так же, как и в случае текстов на таджикском языке, вначале была осуществлена перекодировка всей выборки с использованием цифр 1 и 0 соответственно для гласных и согласных букв, см. [2]. Затем была выполнена обработка закодированного текста на предмет выявления частоты встречаемости русских слов, представленных в форме слоговых структур.

Установлено, что в рассмотренной случайной выборке общее число различных слов, представленных в форме слоговых структур, равно 2 379. Оказалось, что из этого числа 50% текста покрываются 26 словами (они показаны в табл. 1). Кроме того, 75%, 90% и 95% текста покрываются соответственно 103-мя, 323-мя и 595-ю словами в форме слоговых структур.

Таблица 1

Частота встречаемости русских слов в форме слоговых структур

№ Структура Частота, %

1 0 5.52

2 01 4.85

3 1 3.80

4 0101 3.21

5 01010 2.97

6 001 2.68

7 010101 2.51

8 01001 2.49

9 010010 2.26

10 010 2.11

11 0100101 2.02

12 101 1.93

13 00101 1.63

№ Структура Частота, %

14 0101010 1.60

15 10 1.22

16 001010 1.21

17 001001 1.03

18 0101011 0.93

19 0010101 0.92

20 0100 0.89

21 01001010 0.86

22 0101001 0.83

23 010001 0.80

24 1001 0.78

25 101001 0.69

26 01010101 0.67

Каждая из 595 обнаруженных слоговых структур русских слов, осуществлявших 95%-ое покрытие текста. разделялась на слоги “вручную” (в согласии с разделением на слоги тех русских слов. которые подпадали под те или иные структуры).

Таблица 2

Слоговые структуры русских слов

№ Слог Пример

11 1000 есть

12 00010 стряп

13 00100 смысл

14 01000 текст

15 001000 власть

16 000010 взгляд

17 000100 вплоть

18 001000 спасть

19 0010000 свойств

20 0000100 всплеск

№ Слог Пример

1 0 в

2 1 я

3 01 ты

4 10 он

5 010 как

6 100 аст

7 0100 курс

8 001 кру

9 0010 слад

10 0001 стро

В результате разбиения на слоги 2 379 русских слов, выявленных в исследуемой случайной выборке и представленных в форме слоговых структур, было обнаружено 20 слоговых структур. см. табл. 2. Под номерами 2-7 (в таблице они закрашены серым цветом) отмечены 6 слоговых структур таджикского языка.

Таким образом, даже предварительные исследования показывают, что русский язык обладает большим разнообразием слоговых структур, нежели таджикский язык (по крайней мере, на 14 структур больше). Следовательно, при желании создать синтезатор таджикско-русских текстов на основе конкатенации слогов потребуется существенным образом расширить слоговую базу таджикского языка за счет добавления к ней не встречающихся русских слогов.

2. Об алгоритме озвучивания таджикского текста с русизмами. В связи с присутствием в таджикских текстах большого количества слов, заимствованных из русского языка, возникает естественная задача об озвучивании смешанных текстов. Если, по возможности, охватить из них наиболее часто встречающиеся и затем осуществить их фрагментирование на слоги, дополняя последними таджикскую базу “слог-звук”, мы получим реальную возможность синтезировать таджикские тексты с включениями русских слов.

Алгоритм, о котором идет речь в данном пункте, по существу не отличается от алгоритмов безударного озвучивания таджикского текста [3]. Однако, первое, что надобно было бы предусмотреть, так это дополнить таджикскую базу “слог-звук” озвученными русскими слогами.

3. Результаты вычислительных экспериментов. В этом пункте дано описание результатов экспериментов с озвучиванием таджикского текста с русскими заимствованиями. Соответствующая база русизмов, использованная для озвучивания, включала в себя имена,

географические названия, научные и компьютерные термины, интернациональные слова. При этом в базу включались такие слова, которые содержали, по крайней мере, один слог, не присущий таджикскому языку.,см. табл. 3.

Таблица 3

Русские слова. использованные в экспериментах по озвучиванию

№ Слово Закодированный вариант Слоговая структура Разбиение на слоги

1 Владимир 00101010 001-01-010 Вла-ди-мир

2 Дмитрий 0010010 0010-010 Дмит-рий

3 Свердловск 0010001000 00100-01000 Сверд-ловск

4 Курск 01000 01000 Курск

5 Владивосток 00101010010 001-01-010-010 Вла-ди-вос-ток

6 президент 001010100 001-01-0100 пре-зи-дент

7 профессор 001010010 001-010-010 про-фес-сор

8 квадрат 0010010 0010-010 квад-рат

9 трактор 0010010 0010-010 трак-тор

10 троллейбус 0010010010 0010-010-010 трол-лей-бус

11 кроссворд 001000100 00100-0100 кросс-ворд

12 бригадир 00101010 001-01-010 бри-га-дир

13 клавиатура 0010110101 001-01-1-01-01 кла-ви-а-ту-ра

14 принтер 0010010 0010-010 прин-тер

15 сканер 001010 001-010 ска-нер

16 спирт 00100 00100 спирт

17 скрепка 0001001 00010-01 скреп-ка

В этой таблице во второй колонке записаны русские слова, в третьей - их представления в форме слоговой структуры, в четвертой - результат разбиения слов на слоги (структуры слогов, отличные от таджикских, закрашены в серый цвет), в пятой - те же слова, но уже разделенные на слоги.

Экспериментально установлено, что компьютерный синтезатор, основанный на по-слоговой конкатенации и содержащий в таджикской базе “слог-звук” необходимые русские слоги, в частности из табл. 3, вполне успешно справляется со смешанным текстом, поддерживая естественность звучания и разборчивость синтетической речи. По результатам эксперимента сделан вывод о реальности создания русско-таджикского компьютерного синтезатора для чтения смешанных текстов.

Институт математики АН Республики Таджикистан, Поступило 15.04.2009 г.

Технологический университет Таджикистана, Худжандский филиал

ЛИТЕРАТУРА

1. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2009, т.52, № 4, с. 267-271.

2. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2006, т.49, № 6, с. 489-492.

3. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2007, т.50, № 4, с. 302-305.

З.Ч,.Усмонов. Х.А.Худойбердиев

ОИДИ СИНТЕЗИ НУТЦИ ТОНИКИ БО КАЛИМАХ,ОИ РУСИ

Дар мак;ола имконияти лоихдкашии синтезатори нутк;и точикй аз руи матн бо ис-тифодаи калимах,ои русй исбот карда шудааст.

Z.D.Usmanov, Kh.A.Khudoiberdiev ON SINTHEZING TAJIK-RUSSIAN SPEECH

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

In the article a principal possibility of projecting a Tajik speech synthesizer with Russian words is substantiated.

i Надоели баннеры? Вы всегда можете отключить рекламу.