Научная статья на тему 'О слоговой структуре слов шугнанского языка'

О слоговой структуре слов шугнанского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
119
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article concepts of the shugnan word structure and shugnan syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various shugnan texts, 92 different syllable structures of shugnan words and 10 different structures of shugnan syllables are brought to light.

Текст научной работы на тему «О слоговой структуре слов шугнанского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ___________________________________2009, том 52, №9________________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.592

Академик АН Республики Таджикистан З.Д.Усманов, А.Г.Гуломсафдаров

О СЛОГОВОЙ СТРУКТУРЕ СЛОВ ШУГНАНСКОГО ЯЗЫКА

В настоящей работе на основе понятия слоговой структуры слова, введенного в [1], излагаются результаты статистических исследований слоговых структур слов шугнанского языка.

Пусть Ж - какое-либо слово шугнанского языка, состоящее из определенной последовательности букв. Произведем его кодирование, заменяя гласные буквы цифрой 1, а согласные - цифрой 0 (буква «й» считается согласной). Таким образом, слово Ж преобразуется в упорядоченную совокупность нулей и единиц Ж0\. Последовательность Ж* называется слоговой структурой или же слоговым шаблоном слова Ж .

Как и в [1], размерность структуры Ж* - это количество букв, входящих в Ж, или же

количество символов (нулей и единиц) в Ж*. Структуры двух слогов считаются одинаковыми, когда закодированные последовательности этих слов тождественно равны, в противном случае структуры слов различны. Очевидно, что любому слову Ж соответствует один и только один шаблон Ж*, а любому Ж* может соответствовать несколько слов Ж . Следовательно, разные слова с одинаковым количеством букв могут обладать одинаковой слоговой структурой. Например, словам «тойдам» и «зохтам» соответствует одна и та же структура «010010».

Далее изложены результаты статистической обработки выборки, использованной в статье [2].

Анализ полученных результатов

1. На 135 страницах выборки оказалось 35854 слов. Преобразованные в форму слоговой структуры эти слова составили множество { Ж* }. Установлено, что в этом множестве

имеется 92 различные слоговые структуры, при этом 1 - размерность минимальной и 14 -размерность максимальной структуры шугнанских слов.

2.Установлено соответствие между слоговыми структурами слов и частотами их встречаемости в указанных шугнанских текстах. Обнаружено, что 3 первые структуры покрывают 52.4125% текста, а 8 первых структур покрывают 76.9954% текста. Эти данные представлены в табл. 1.

Таблица 1

№ Ж * п 0,1 %

1 010 23.6124%

2 01 18.3187%

3 01010 10.4814%

4 0100 8.4844%

5 0101 5.1821%

6 010010 4.0302%

7 10 3.7206%

8 01001 3.1656%

В этой таблице в первом столбце приведены порядковые номера шаблонов шугнан-ских слов, во втором столбце представлены их структуры и в третьем - процент встречаемости шаблонов в текстах.

З.Остальные шаблоны шугнанских слов приводятся далее:

Продолжение таблицы 1

№ Ж * ’’ 0,1 % № Ж * ’’ 0,1 % № Ж * Ж0,1 %

9 010100 2.6301 37 1001001 0.1841 65 101010100 0.0418

10 0101010 2.3373 38 0101001010 0.1646 66 01101 0.0418

11 010101 1.6818 39 1010100 0.1590 67 0101010101 0.0390

12 1010 1.4252 40 010100101 0.1590 68 01010010010 0.0390

13 01001010 1.0766 41 0100010 0.1562 69 01010010100 0.0363

14 0100101 1.0292 42 100 0.1562 70 01001010101 0.0335

15 01010010 0.9511 43 0100101010 0.1339 71 010100101010 0.0307

16 101 0.8116 44 10101 0.1283 72 01010101010 0.0307

17 10010 0.6275 45 10010010 0.1032 73 0010 0.0251

18 10010 0.6275 46 0100110 0.0976 74 10100101 0.0223

19 0100100 0.6192 47 010110 0.0976 75 0101100 0.0195

20 01010100 0.5997 48 10101010 0.0948 76 01010010101 0.0195

21 0101001 0.5829 49 101001 0.0920 77 0100101010100 0.0167

22 010010010 0.4463 50 010100100 0.0920 78 010010101001 0.0139

23 100100 0.4184 51 0100100101 0.0893 79 00100 0.0139

24 101010 0.3961 52 01001010010 0.0893 80 011001 0.0139

25 1 0.3905 53 01001001010 0.0893 81 100010 0.0139

26 1001 0.3458 54 0110010 0.0893 82 0100010010 0.0139

27 010010100 0.3403 55 010101001 0.0865 83 010101101 0.0112

28 010101010 0.3319 56 0101010100 0.0865 84 0100101001010 0.0056

29 01010101 0.3068 57 0101010010 0.0809 85 01100 0.0056

30 010001 0.2873 58 011 0.0753 86 010010100101 0.0028

31 010010101 0.2789 59 011010 0.0641 87 001001 0.0028

32 1001010 0.2510 60 01001010100 0.0641 88 1100101 0.0028

33 01000 0.2427 61 1010101 0.0530 89 0100101101 0.0028

34 0110 0.2203 62 01000101 0.0530 90 100101001 0.0028

35 01001001 0.2036 63 010001010 0.0446 91 01010010110 0.0028

36 100101 0.2008 64 0100101001 0.0446 92 01011001000101 0.0028

В дополнение к п.2 укажем, что 18 первых шаблонов совместно покрывают 90.19%

шугнанских текстов.

Замечание 1. Интересно отметить, что в шугнанском языке различных слоговых шаблонов слов оказалось значительно меньше, чем в таджикском, соответственно 92 и 2978, [1]. Причина столь существенного различия нуждается в специальном исследовании.

В дальнейшем все шаблоны шугнанских слов были разбиты на слоги «вручную» (согласно разделению на слоги тех слов, которые подпадали под те или иные структуры). В результате было обнаружено всего лишь 10 различных слоговых структур:

01, 010, 0100, 10, 1, 100, 01000, 0010, 001, 00100 В табл. 2 показана частота встречаемости указанных структур среди 59063 слогов, полученных при разделении на слоги 35854 шугнанских слов.

Таблица 2

№ Слоги в символьной записи Частота встречаемости в %

1 01 45.1941%

2 010 38.9618%

3 0100 8.8583%

4 10 4.2040%

5 1 2.0893%

6 01000 0.1845%

7 100 0.1456%

8 0010 0.0372%

9 001 0.0186%

10 00100 0.0085%

Из таблицы видно, что двухбуквенные слоги типа ху, ди, йи, wи, зи, та, йу, на, ри, ба (в закодированном виде 01) встречаются чаще всего, а пятибуквенные слоги типа чруу ч, врухч (в закодированном виде 00100) являются очень редкими. Минимальная длина шугнан-ского слога равна 1, а максимальная - 5 буквам. Кроме того, 2.55 - средняя размерность слогов в шугнанском слове.

Замечание 2. Отметим, что 6 первых слоговых структур шугнанского языка совпадают с 6 слоговыми структурами таджикского языка, причем и в обоих языках слоговые структуры вида 01 и 010 являются самыми часто встречающимися, [1]. Вместе с тем, 4 специфические слоговые структуры 01000, 0010, 001 и 00100 шугнанского языка, хотя и составляют лишь 0.2488 % встречаемости от общего числа всех слогов, могут выполнять заметную роль в автоматическом распознавании языковой принадлежности текстов.

Замечание 3. Заметим, что полученные результаты нуждаются в дальнейшем уточнении за счет увеличения объема обрабатываемой выборки.

Институт математики Поступило 20.07.2009 г.

АН Республики Таджикистан,

Н«

Хорогский государственный университет им. М. Назаршоева

ЛИТЕРАТУРА

1. Усманов З.Д., Худойбердиев Х.А. - ДАН РТ, 2006, т.49, № 6, с.489-492.

2. Усманов З.Д., Гуломсафдаров А.Г. - ДАН РТ, 2009, т.52, № 3, с.187-191.

З.Ч,.Усмонов, А.Г.Гуломсафдаров ДАР БОРАИ СОХТИ ХИ^ОГИИ КАЛИМА^ОИ ШУГНОНЙ

Дар мак;ола мафх,уми сохти калимах,ои шугнонй ва хичох,ои шугнонй оварда шу-даанд. Дар асоси коркарди омории интихобе, ки аз матнх,ои гуногуни бо забони шугнонй навишта шуда иборатанд, 92 намуди гуногуни сохти хичогии калимах,ои шугнонй ва 10 намуди сохти хичои калимах,ои шугнонй дарёфт карда шуданд.

Z.D.Usmanov, A.G.Gulomsafdarov ON A SYLLABLE STRUCTURE OF SHUGNAN WORDS

In the article concepts of the shugnan word structure and shugnan syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various shugnan texts, 92 different syllable structures of shugnan words and 10 different structures of shugnan syllables are brought to light.

i Надоели баннеры? Вы всегда можете отключить рекламу.