Научная статья на тему 'Статистические закономерности рушанского языка, извлекаемые из структурного представления слов'

Статистические закономерности рушанского языка, извлекаемые из структурного представления слов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
93
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article the concept of the rushan word structure and rushan syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various rushan texts, 96 different syllable structures of rushan words and 12 different structures of rushan syllables are brought to light.

Текст научной работы на тему «Статистические закономерности рушанского языка, извлекаемые из структурного представления слов»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2009, том 52, №12________________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.552

Академик АН Республики Таджикистан З.Д.Усманов, Н.У.Кадамшоев

СТАТИСТИЧЕСКИЕ ЗАКОНОМЕРНОСТИ РУШАНСКОГО ЯЗЫКА, ИЗВЛЕКАЕМЫЕ ИЗ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ СЛОВ

Исходным статистическим материалом, использованным для выявления соответствующих закономерностей рушанского языка, послужили те же самые произведения различных авторов, написанные на рушанском языке, что и в статье [1].

Общий объем использованной выборки составлял 100 страниц, включавших в себя 30988 слов.

В настоящей статье мы изучаем закономерности рушанского языка, связанные с понятием слоговой структуры слов.

1. Как известно, слово - это совокупность букв между двумя служебными символами. Если Ж - какое-либо слово, то следуя [2], преобразуем его в упорядоченную последовательность Ж^\ нулей и единиц, замещая в слове гласные буквы цифрой 1, а согласные - цифрой 0 ( буква “й” считается согласной). Такое преобразование назовем кодированием слова Ж, а получаемый результат Ж0\ - слоговой структурой или же паттерном (образец, шаблон) слова Ж.

Слоговые структуры (паттерны) двух слов являются одинаковыми, если представления слов в двоичной записи тождественны, в противном случае - различными.

Вполне понятно, что паттерны могут быть одинаковыми только при условии, что они обладают одинаковой размерностью. Очевидно также, что всякому слову Ж ставится в соответствие один и только один паттерн Ж^. В свою очередь, для любого естественного языка

всякому Ж0\ соответствует одновременно несколько слов Ж. Это означает, что различные

слова с одинаковым количеством букв могут обладать одинаковой слоговой структурой. Например, словам “ьалдаи”, “навруз” и т.п. соответствует одна и та же структура “010010”.

В дальнейшим объектом статистического анализа является множество паттернов { Ж^ } рушанского языка из упомянутой ранее выборки.

2. Паттерны слов. На множестве { Ж^ } обнаружено 96 различных паттернов рушан-

ского языка. Эти паттерны представлены в табл. 1 и в ее продолжении на последующих страницах.

Таблица 1

№ Ж * п 0,1 % № Ж * п 0,1 % № Ж * п 0,1 %

1 010 25.0452 13 10010 1.1230 25 0110 0.3388

2 01 14.6702 14 0100101 0.9584 26 010010010 0.3292

3 01010 10.8720 15 01001010 0.8681 27 010101010 0.3227

4 0100 8.6679 16 101 0.7325 28 01010100 0.2808

5 10 6.9511 17 1 0.7132 29 100 0.2582

6 0101 4.7341 18 01010010 0.7035 30 01010101 0.2517

7 010010 3.5465 19 100100 0.6293 31 010001 0.2259

8 01001 2.9076 20 0100100 0.5776 32 01001001 0.2130

9 0101010 2.4042 21 0101001 0.4324 33 0100101010 0.2098

10 1010 1.7910 22 101010 0.4002 34 10101 0.1646

11 010100 1.7555 23 1001010 0.3905

12 010101 1.5038 24 1001 0.3517

Отметим, что в первой колонке таблицы даются номера первых 34-х паттернов (в порядке убывания их частоты встречаемости), во второй - записи самих паттернов и в третьей -их процент встречаемости в обработанных текстах.

Из табл. 1 видно, что 3 первых паттерна, отмеченные серым цветом, покрывают -50.58%, а 7 первых - 74.49% рушанских текстов. Обнаружено также, что 19 паттернов осуществляют - 90%-е покрытие и 33 паттерна - 95%-е покрытие рушанских текстов.

Продолжение таблицы 1

77 01010010010 0.0161

78 01100100 0.0129

79 01001010 0.0129

80 01010100101 0.0065

81 01010001010 0.0065

82 100100010 0.0065

83 11001 0.0065

84 01001000 0.0065

85 01001010101 0.0065

86 01010100010 0.0065

87 0100101 0.0065

88 0101101 0.0065

89 01100101010 0.0032

90 010101010010 0.0032

91 0100100110 0.0032

92 101001 0.0032

93 010101101 0.0032

94 1010 0.0032

95 1101 0.0032

96 01 0.0032

35 010010101 0.1614 56 0101010010 0.0549

36 10010010 0.1452 57 010011 0.0549

37 01000 0.1388 58 0010110 0.0516

38 010100101 0.1226 59 0100101001 0.0484

39 0100110 0.1226 60 01101 0.0452

40 101001 0.1226 61 01000100 0.0452

41 0101001010 0.1033 62 0101010100 0.0452

42 1001001 0.1000 63 010001010 0.0355

43 0100010 0.1000 64 0100101001010 0.0323

44 01 0.1000 65 010010110 0.0323

45 01011 0.0904 66 010100100 0.0323

46 010110 0.0871 67 001 0.0290

47 10101010 0.0774 68 0100 0.0290

48 101001010 0.0710 69 0101010101 0.0258

49 01010110 0.0710 70 01100 0.0258

50 0010 0.0678 71 101010010 0.0226

51 10100 0.0645 72 01000101 0.0226

52 000101 0.0645 73 0101110 0.0194

53 1010100 0.0613 74 1101 0.0194

54 010101001 0.0581 75 101010101 0.0194

55 010010100 0.0581 76 1010101 0.0194

Отметим, что, как ясно из таблицы, 1 и 13 являются соответственно минимальной и максимальной размерностями рушанских слов.

3. Паттерны слогов. В дальнейшем каждая из 96 структур разделялась на слоги “вручную” (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Результаты разделения 30988 слов на 48818 слогов представлены в табл. 2. В этой таблице 12 различных структур слогов - 1, 10, 01, 010, 100, 0100,

101,0101,01000,1010,01010,10100 - записаны в порядке убывание их частоты встречаемости.

Отметим, что шесть первых слоговых структур рушанского языка совпадают с соответствующими паттернами таджикского и шугнанского языков.

Таблица 2

Слоги в символьной записи Частота встречаемости, %

010 40.4564

01 38.7419

0100 7.9090

10 7.6160

1 3.2549

101 0.4199

100 0.3298

0101 0.1803

01000 0.1147

01010 0.0737

1010 0.0512

10100 0.0061

Из представленных статистических данных видно, что двухбуквенные слоги типа ху, аз, та, на, му, са, ца, ва ум (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа тар, рах, йид, тер, чап, сит (в символьной записи -100) и т.п. - самыми редкими.

Подчеркнем также, что двухбуквенные слоги 10 и 01 совместно с трехбуквенным слогом 010 составляют - 87.56% от общего числа слогов рушанского языка. Кроме того, 2.5 -средняя размерность слогов в рушанском слове.

Институт математики Поступило 12.10.2009 г.

АН Республики Таджикистан,

Хорогский государственный университет им. М.Назаршоева

ЛИТЕРАТУРА :

1. Усманов З.Д., Кадамшоев Н.У. - ДАН РТ, 2009, т.52, № 2, с.106-110.

2. Усманов З.Д., Худойбердиев Х.А. - ДАН РТ, 2006, т.49, № 6, с.489-492.

З.Ч,.Усмонов, Н.УДадамшоев СОХТИ КАЛИМА^О ВА ^И^О^ОИ РУШОНЙ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Дар мак;ола мафхуми сохти калимахои рушонй ва хичохои рушонй оварда шуда-анд. Дар асоси коркарди омории интихобе, ки аз матнхои гуногуни бо забони рушонй навишта шуда иборатанд, 96 намуди гуногуни сохти хичогии калимахои рушонй ва 12 намуди сохти хичои калимахои рушонй дарёфт карда шуданд.

Z.D.Usmanov, H.U.Qadamshoev ON A SYLLABLE STRUCTURE OF RUSHAN WORDS

In the article the concept of the rushan word structure and rushan syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various rushan texts, 96 different syllable structures of rushan words and 12 different structures of rushan syllables are brought to light.

i Надоели баннеры? Вы всегда можете отключить рекламу.