Статистическое распределение частот встречаемости букв в шугнанском языке

Усманов З.Д.; Гуломсафдаров А.Г.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН __________________________________2009, том 52, №3_______________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.592

Академик АН Республики Таджикистан З.Д.Усманов, А.Г.Гуломсафдаров

СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ ВСТРЕЧАЕМОСТИ БУКВ В ШУГНАНСКОМ ЯЗЫКЕ

В статье приведены статистические закономерности, свойственные распределению частот встречаемости букв в шугнанских текстах. Эти результаты получены путём исследования репрезентативной выборки общим объёмом 130 страниц [1-3].

1. Обсуждения результатов. На 130 обработанных страницах оказалось 159910 букв, в среднем 1230 букв на 1 страницу

1.1. Для целей исследования исходные данные были предварительно распределены по 13-и “пакетам” Р\, Р2, Р\ъ, вложенным друг в друга (Р\ а Р2 с...с Рн) в следующем смысле. Пакет Р1 укомплектован 10 страницами, случайным образом извлеченными из общего числа в 130 страниц. В пакет Рк, к = 2, .. .,13, включены 10к страниц, из которых 10(к - 1) -те же, что и в пакете Рк-1, и еще 10 дополнительных извлечены случайным образом из числа оставшихся 130 - 10(к - 1) страниц. Последний пакет Р13 включил в себя все подготовленные к обработке экспериментальные данные, то есть 130 страниц.

Для каждого пакета Рк, к = 2, .,13, путем обработки всех страниц, входящих в его состав, получено статистическое распределение Вк частот встречаемости букв алфавита шуг-нанского языка, а затем и усредненное статистическое распределение В°р, представленное в табл. 1. В этой таблице буквы выписаны в порядке убывания их относительных частот V, выраженных в процентах.

Таблица 1

п Буквы V п Буквы V п Буквы V

1 а 11.1001% 14 с 2.5865% 27 Ч 1.1395%

2 и 8.3321% 15 х 2.4309% 28 У 0.9640%

3 д 7.4880% 16 л 2.0731% 29 ц 0.9410%

4 т 5.6896% 17 к 1.9788% 30 г 0.9136%

5 н 5.4754% 18 з 1.8141% 31 К 0.7375%

6 р 4.9705% 19 в 1.7947% 32 ш 0.6997%

7 у 4.7483% 20 б 1.7452% 33 ф 0.5890%

8 о 4.3102% 21 У 1.6675% 34 г 0.4889%

9 й 3.7270% 22 5 1.4595% 35 и 0.4789%

10 м 3.6640% 23 ч 1.4557% 36 У 0.4140%

11 е 3.1027% 24 X 1.3757% 37 е 0.2542%

12 а 2.8112% 25 п 1.3080% 38 3 0.1634%

13 w 2.6579% 26 й 1.3040% 39 ж 0.0854%

1.2. Обнаружено, что 8 первых букв а, и, д, т, н, р, у, о осуществляют 52.11% покрытие шугнанских текстов.

1.3. Установлено также, что 75 и 90-процентные уровни покрытия текстов осуществляются соответственно 16 и 26 буквами.

1.4. Установлено, что специфические буквы шугнанского языка (а, ', у, 5, х, и, у, е, 3) покрывают всего 11.2824% текста, из которых частота встречаемости четырех последних букв в сумме составляют 1.3105%. Из сказанного следует, что в случае возникновения необходимости уменьшения числа букв шугнанского алфавита можно будет рассматривать вопрос

о целесообразности сохранения последних четырех редко встречающихся букв.

1.5. Статистическое распределение букв аппроксимировано теоретической кривой

у а

в которой а = 0.3008 и Ь = 1.0739. Отметим что, эти значения подсчитаны методом наименьших квадратов по распределению частот встречаемости букв в табл. 1.

1.6. Подсчёт коэффициентов г у (г < j ) парной корреляции статистических распределений букв при обработке текстов объёмами в Рг и Pj (ij=1,2,....13; Р1=10, Р2=20,..., Р13=130) страниц выявил следующие закономерности:

- все коэффициенты гц положительны, их значения близки к 1;

- Гу при фиксированном г и переменном j монотонно убывают с ростом j, а при фиксированном j и переменном г монотонно возрастают с ростом г ( г < j );

- имеют место соотношения:

0.9767 < гц < 0.9948; 0.9887 < г2] < 0.9976; 0.9947 < г3] < 0.9985;

0.9971 < г4]< 0.9992; 0.9977 < г5] < 0.9994; 0.9983 < г6] < 0.9997;

0.9986 < Г77 < 0.9998; 0.9989 < < 0.9997; 0.9990 < г% < 0.9998 и т. д.

Из этих данных видно, что г = 0.9767 является минимальным коэффициентом корреляции. Он характеризует тесноту связи двух распределений частот встречаемости букв в Р1 и Р6 , то есть в текстах объемом в 10 и 60 страниц.

Вычисляемое значение критерия Стьюдента Т по формуле

Т=г^/К-2

1-г2

при N = 39 иг = 0.9767 даёт Т = 27.6816, что намного превосходит значения t = ¿(а ,к) = 3.57, извлекаемое из таблицы критических точек распределения Стьюдента, см. [4] даже для заданного уровня значимости а = 0.001 (число степеней свободы здесь к = N - 2 = 37). Этот результат позволяет сделать вывод о существенности всех без исключения указанных выше корреляционных связей, то есть высокой коррелируемости не только распределений частот

встречаемости шугнанских букв в Р1 и Р6 , но также и частот встречаемости букв в любых двух случайных выборках Pi и Pj (i, j=1,2,....13). Из этого следует

Утверждение 1. Распределение частот встречаемости букв шугнанского языка является статистическим инвариантом случайных выборок объемом не менее 10 страниц.

Таким образом, 10-страничные случайные выборки из шугнанкских текстов являются выборками минимального объема, которые несут в себе закономерности о распределении частот встречаемости букв, свойственные генеральной совокупности. Они объявляются репрезентативными (R -текстами) в том смысле, что значимо коррелируют между собой, более того они статистически неразличимы.

2. Блочное группирование букв. На основе обработки текстов больших объемов впервые получено статистическое распределение частот встречаемости букв в шугнанском языке. Установлено, что ранжирование букв, порождаемое относительными частотами, является неустойчивым (неинвариантным) по отношению к R -текстам. Иными словами, для различных R - текстов равных объемов ранжирование букв оказывается различными.

Статистические исследования показывают, что справедливо

Утверждение 2. Буквы алфавита шугнанского языка не удается ранжировать однозначным образом по частоте их встречаемости в текстах одинаковых объемов.

При более детальном анализе удалось обнаружить новый нетривиальный инвариант, характеризующий устойчивость ранжирования буквенных блоков.

Поясним суть этого явления. Пусть, к примеру, из текстов на каком-либо естественном языке извлечено некоторое количество случайных выборок P,Р2, Рп равного объема. В

пределах каждой выборки подсчитаем частоты встречаемости всех букв и затем произведем их ранжирование в порядке убывания их частот. Далее сравним результаты ранжирования. Оказывается, что одни буквы независимо от рассматриваемой выборки сохраняют за собой одни и те же порядковые номера в общем ранжире. Другие же буквы “собираются” в группы, которые для любых выборок располагаются на одних и тех же порядковых номерах общего ранжира, то есть буквы проявляют тенденцию блочного группирования. Для шугнанского языка неподвижными оказываются 21 буква - а, и, д, т, н, р, у, о, е, й, х, л, к, п, ц , ш, ф, у, ё, J ж (будем говорить, что эти буквы образуют 21 однобуквенных блоков), а проявляющие тенденцию к группированию - 18 букв: й, м, w, с, з, в, б, ч, у, х, п, й, ц, у, ц, г г, и.

Блочное группирование букв характеризуется следующими свойствами:

- в пределах одного блока относительные частоты букв достаточно близки (отличаются во втором, третьем или же в четвертом знаках после запятой);

- блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

- для различных текстов равных объемов порядок следования блоков (с одними и теми же наборами букв) остается неизменным; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Неоднозначность возникает из-за тех букв, которые попадают в один блок и имеют, по-существу, одинаковые частоты встречаемости. По этой причине вместо понятия ранжирования букв приходится пользоваться более общим понятием - ранжированием буквенных блоков.

Соответствующие результаты для шугнанского языка, полученные при обработке случайных выборок Рг, (г=1,2...13), показаны в табл. 2. В ней буквенные блоки отмечены рамками (для однобуквенных блоков рамки не используются). Кроме того, числами сверху указывается ранжирование букв по убыванию их частоты встречаемости в текстах.

Таблица 2

Блочное группирование шугнанских букв в Рг выборках

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

аид т нруоійміе а х л к І з в б

21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

у|5 ч х I п I и ч У Ц г |к ш ф I г и|у е 3 ж

Из этой таблицы видно, что шугнанские буквы проявляют тенденцию группирования в 27 блоков, в их числе 1 блок - пятибуквенный, 1 - четырехбуквенный, 1 - трехбуквенный, 3 - двухбуквенных и 21 - однобуквенных.

Отметим, что при переходе от одной выборки к другой буквенный состав блоков остается неизменным и лишь буквы внутри них могут обмениваться своими порядковыми номерами.

Таким образом, имеет место следующее статистическое

Утверждение 3. Порядок ранжирования буквенных блоков шугнанского языка, представленный в табл. 2, является инвариантом Я - текстов.

Институт математики Поступило 12.01.2009 г.

АН Республики Таджикистан,

Н«

Хорогский государственный университет им. М. Назаршоева

ЛИТЕРАТУРА

1. Зарубин И.И. Шугнанские тексты и словарь. - М.-Л.: АН СССРД960, 387 с.

2. Шакармамадов Н. Фольклор Памира. - Душанбе, 2005, 431 с.

3. Пахалина Т.Х. Памирские языки. - М., 1969.

4. Гмурман В. Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2005, 480 с.

З.Ч,.Усмонов, А.Г.Гуломсафдаров ТАЦСИМОТИ СТАТИСТИКИИ ^АРФ^О ДАР ЗАБОНИ ШУГНОНЙ

Дар макола таксимоти омории зудии вохурии х,арфх,о дар матни Шугнонй муай-ян карда шуда конунияти хдмин таксимот ёфта шудааст.

Z.D.Usmanov, A.G.Gulomsafdarov A STATISTICAL DISTRIBUTION OF LETTERS IN SHUGNAN TEXTS

In the article on the basis of various texts processing a distribution of Shugnan letters is analyzed and its statistical regularities are established.

Статистическое распределение частот встречаемости букв в шугнанском языке Текст научной статьи по специальности «Физика»

Похожие темы научных работ по физике , автор научной работы — Усманов З. Д., Гуломсафдаров А. Г.

Текст научной работы на тему «Статистическое распределение частот встречаемости букв в шугнанском языке»