ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2006, том 49, №6
ИНФОРМАТИКА
УДК 410:51+414.7+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев
О СЛОГОВОЙ СТРУКТУРЕ СЛОВ ТАДЖИКСКОГО ЯЗЫКА
Введение
Слогом, согласно определению, называется минимальная произносительная единица речи, состоящая из одного или нескольких звуков, которые образуют тесное фонетическое единство [1]. В соответствии с несколько иной эквивалентной интерпретацией, слог - это звук или сочетание звуков в слове, произносимые одним толчком выдыхаемого воздуха [2].
Для изучения закономерностей таджикского языка, связанных с понятием слога, введем дополнительно понятие слоговой структуры слова.
Пусть Ж - какое-либо слово, представляющее собой определенную последовательность букв. Замещая в ней гласные буквы цифрой 1, а согласные - цифрой 0 (букву “й” считаем согласной), мы, тем самым, преобразуем слово Ж в упорядоченную совокупность Ж^\ нулей и единиц. Такое преобразование назовем кодированием слова Ж, а получаемый результат, т.е. запись Ж*, - слоговой структурой слова Ж .
Размерностью структуры Ж* будем называть число букв, составляющих слово Ж, или же число символов (двоичных знаков), которые используются в записи Ж(*х . Структуры
двух слов назовем одинаковыми, если их представления в двоичной записи тождественны, в противном случае - различными. Вполне понятно, что структуры могут быть одинаковыми только при условии, что они обладают одинаковой размерностью. Очевидно также, что всякому слову Ж ставится в соответствие один и только один образ Ж* . В свою очередь, по
существу для любого естественного языка всякому Ж0\ соответствует одновременно несколько слов Ж . Это значит, что различные слова с одинаковым числом букв могут обладать одинаковой слоговой структурой. Например, словам “дилшод”, “кардам” и т.п. соответствует одна и та же структура “010010”.
Результаты, формулируемые в дальнейшем, основаны на статистической обработке репрезентативной выборки, составленной из фрагментов произведений С.Айни («Ёддоштх,о», «Ятим», «Ках,рамони халк;и точик Темурмалик» - всего 30 стр.), Б.Гафурова («Точикон» - 10 стр.), С.Улугзода («Пири хакимони Машрикзамин» - 10 стр.), Ф.Мухаммадиева («Куллиёт» - 10 стр.), Дж.Икроми («Асарх,ои мунтахаб» - 10 стр.), А.Бахори («Бозгашт» - 10 стр.), Р.Джалила («Одамони човид» - 10 стр. и «Чор дарвеш» - 10 стр.), «МБ^огё» М.Г.Ганиева (54 стр.), «Оила ва оиладори» Хакими Ра-
химзода, 30 стр. из газет «Ч,умхурият», «Сугд», «Садои мардум», «Чархи гардун», а также «Фархднги забони точикй».
Объем репрезентативной выборки составил 458628 слов. В дальнейшем образы этих слов, т.е. соответствующие им слоговые структуры, представленные множеством {Ж*}, стали объектом статистического анализа.
Обсуждение результатов
1. На множестве {Ж*} обнаружено 2978 различных слоговых структур таджикских
слов, при этом 1 и 14 - размерности минимальной и максимальной структур слов, соответственно.
2. Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке.
3. Обнаружено, что 17 структур осуществляют 50%-е, а 34 структуры -75%-е покрытия таджикских текстов. Эти данные представлены в табл. 1. В первой колонке дается номер структуры (в порядке убывания частоты её встречаемости), во второй - запись самой структуры и в третьей - процент её встречаемости в текстах. Отметим, что первые 17 наиболее часто встречающиеся структуры закрашены серым цветом.
Таблица 1
№ Ж * "0,1 %
25 1 0.807
26 010010101 0.795
27 01010100 0.793
28 01010010 0.779
29 100101 0.775
30 10101 0.688
31 0110 0.617
32 01101 0.553
33 010100101 0.546
34 01001001 0.526
№ Ж * " 0,1 %
1 01 10.053
2 010 7.990
3 01010 5.811
4 10 4.900
5 01001 4.486
6 010101 3.727
7 0101 3.585
8 010010 3.363
9 0100101 3.081
10 0100 3.015
11 0101010 2.947
12 010100 1.794
№ Ж * " 0,1 %
13 01010101 1.702
14 01011 1.559
15 010011 1.294
16 0100100 1.148
17 1001 1.101
18 01001011 1.061
19 1010 0.976
20 0101001 0.961
21 0101011 0.954
22 01001010 0.949
23 100 0.946
24 10010 0.910
4. Обнаружено, что 89 структур осуществляют 90%-е покрытие таджикских текстов. Эти данные представлены в продолжении таблицы. Кроме того, 170 структур встретились 429 843 раз и составили 95%-е покрытие текстов.
35 010101010 0.505
36 010110 0.498
37 0101101 0.491
38 0100110 0.468
39 01010011 0.449
40 010101011 0.445
41 0101100 0.420
42 1001010 0.416
43 101 0.403
44 10010101 0.385
45 010100100 0.337
46 010010011 0.335
47 0101010010 0.332
48 101010 0.324
49 101011 0.317
50 011 0.309
51 10100 0.299
52 0100101011 0.271
55 010010100 0.269
54 010111 0.254
55 011010 0.252
56 0100100101 0.245
57 0101010101 0.243
58 010010010 0.232
59 1010101 0.230
60 01001100 0.212
61 10011 0.210
62 01010110 0.205
63 0101010100 0.196
64 0110101 0.193
65 0100011 0.193
66 010101001 0.189
67 110 0.182
68 01010010101 0.174
69 0101001010 0.167
70 10101101 0.162
71 0100110 0.159
72 0101001011 0.157
73 01001101 0.156
74 1001011 0.154
75 100100 0.152
76 010101101 0.148
77 010001 0.143
78 101001 0.141
79 0101000 0.141
80 010101100 0.139
81 1001001 0.139
82 011011 0.138
83 0110010 0.134
84 0100101001 0.123
85 0100101010 0.123
86 01001010101 0.122
87 0101001100 0.114
88 100101011 0.099
89 01010100101 0.099
5. Каждая из 170 структур разделялась на слоги “вручную” (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Выявлено всего лишь шесть различных структур слогов - 1, 10, 01, 010, 100 и 0100.
6. Частота встречаемости упомянутых структур среди 985 768 слогов, полученных при разбиении на слоги 429 843 слов, принадлежавших 170 различным слоговым структурам таджикских слов, указана в табл. 2.
Таблица 2
Слоги в символьной записи Частота встречаемости, в % Частота встречаемости, абс. величина
1 7.958 78 452
10 5.802 57 199
01 55.463 546 732
010 25.964 255 945
100 0.943 9 292
0100 3.870 38 148
Из представленных статистических данных видно, что двухбуквенные слоги типа да, ба, ро, на, ни,та, ме, ва ки (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа абр, ашк, акл, исм, умр, афт, асп (в символьной записи - 100) и т.п. - особо редкими.
7. Отметим также, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка. Кроме того, 2,3 - средняя размерность слогов в таджикском слове.
Институт математики АН Республики Таджикистан, Поступило 15.10.2006 г.
Худжандский филиал
Технологического университета Таджикистана.
ЛИТЕРАТУРА
1. Советский энциклопедический словарь. М.: Советская энциклопедия, 1980, 1600 с.
2. С.И.Ожегов. Словарь русского языка. М.: Русский язык, 1984, 816 с.
З.Ч,.Усмонов, Х.А.Худойбердиев ДАР БОРАИ СОХТИ ХИ^ОГИИ КАЛИМА^ОИ ТОЧ,ИКЙ
Дар мак;ола мафхуми сохти калимах,ои точикй ва хичох,ои точикй оварда шуда-анд. Дар асоси коркарди омории интихобе, ки аз матнх,ои гуногуни бо забони точикй навишта шуда иборатанд, 2978 намуди гуногуни сохти хичогии калимах,ои точикй ва 6 намуди сохти хичои калимах,ои точикй дарёфт карда шуданд.
Z.D.Usmanov, Kh.A.Khudoiberdiev ON A SYLLABLE STRUCTURE OF TAJIK WORDS
In the article concepts of tajik word structure and tajik syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various tajik texts, 2978 different syllable structures of tajik words and 6 different structures of tajik syllables are brought to light.