Статистическое распределение частот встречаемости букв в Рушанском языке

Усманов З.Д.; Кадамшоев Н.У.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН __________________________________2009, том 52, №2_____________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.592

Академик АН Республики Таджикистан З.Д.Усманов, Н.У.Кадамшоев СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ ВСТРЕЧАЕМОСТИ БУКВ В РУШАНСКОМ ЯЗЫКЕ

В статье рассмотрены статистические закономерности, свойственные распределению частот встречаемости букв в рушанских текстах. Эти результаты получены путём исследования репрезентативной выборки общим объёмом в 100 страниц [1-3].

1. Обсуждение результатов. На 100 обработанных страницах оказалось 131499 букв, в среднем 1349 букв на 1 страницу.

1.1. Для целей исследования исходные данные были предварительно распределены по 10-и “пакетам” Р\, Р2, Р10, вложенным друг в друга (Р\ а Р2 с...с Рю) в следующем смысле. Пакет Р1 укомплектован 10 страницами, случайным образом извлеченными из общего числа в 100 страниц. В пакет Рк, к = 2, .. .,10, включены 10к страниц, из которых 10(к - 1) -те же, что и в пакете Рк-1, и еще 10 дополнительных извлечены случайным образом из числа оставшихся 100 - 10(к - 1) страниц. Последний пакет Р1о включил в себя все подготовленные к обработке экспериментальные данные, то есть 100 страниц.

Для каждого пакета Рк, к = 1, .,10, путем обработки всех страниц, входящих в его состав, получено статистическое распределение Вк частот встречаемости букв алфавита рушан-ского языка, а затем и усредненное статистическое распределение В°р, представленное в табл. 1. В этой таблице буквы выписаны в порядке убывания их относительных частот V, выраженных в процентах.

Таблица1

N Буквы V п Буквы V п Буквы V

1 а 14.7792 14 w 2.3567 27 Ч 1.0472

2 д 6.9091 15 з 2.2414 28 й 1.0198

3 и 6.8227 16 л 1.9309 29 ш 0.6602

4 у 5.8433 17 к 1.9174 30 О 0.6435

5 н 5.4368 18 е 1.7987 31 ц 0.6378

6 р 5.3661 19 б 1.7424 32 К 0.5875

7 т 5.0916 20 в 1.6673 33 и 0.5311

8 о 4.5400 21 п 1.5041 34 г 0.2763

9 й 3.9398 22 г 1.4363 35 У 0.2383

10 м 3.8451 23 ч 1.4034 36 О 0.2301

11 а 3.0358 24 X 1.3702 37 ж 0.1657

12 с 2.7383 25 5 1.2511 38 3 0.1463

13 х 2.4404 26 ф 1.2423 39 У 0.1364

40 О У 0.0783

1.2. Обнаружено, что семь первых букв а, д, и, у, н, р, т осуществляют 50% покрытие, а 13 букв (предыдущие семь + о, й, м, а, с, х) - 70% покрытие рушанских текстов.

1.3. Установлено также, что 75- и 90-процентные уровни покрытия текстов осуществляются соответственно 15 и 24 буквами.

1.4. Установлено, что специфические буквы рушанского языка (а, w, 5, о, о, х, и, у, у, 3 ) покрывают всего 9.8814% текста, из которых частота встречаемости шести последних букв в сумме составляют 0.9951%. Из сказанного следует, что в случае возникновения необходимости уменьшения числа букв рушанского алфавита можно будет рассматривать вопрос

о целесообразности сохранения последних шести редко встречающихся букв.

1.5. Статистическое распределение букв аппроксимировано теоретической кривой

у а

в которой а = 0.3572 и Ь = 1.4276.

Отметим, что эти значения подсчитаны методом наименьших квадратов по распределению частот встречаемости букв в табл. 1.

1.6. Подсчёт коэффициентов Гу (г < у ) парной корреляции [3], статистических распределений букв при обработке текстов объёмами в Рг и Pj (i,j=1,2,....10; Р1=10, Р2=20,..., Р10=100) страниц выявил следующие закономерности:

- все коэффициенты Гу положительны, их значения близки к 1;

- Гу при фиксированном г и переменном у монотонно убывают с ростом у, а при фиксированном у и переменном г монотонно возрастают с ростом г (г <у );

- имеют место соотношения:

0.9886< г1} < 0.9978; 0.9909< г2] < 0.9973; 0.9961< г3] < 0.9982;

0.9968< г4]< 0.9994; 0.9973< г5} < 0.9997; 0.9976< г6] < 0.9996;

0.9987< Г77 < 0.9996; 0.9995< < 0.9996 и т.д.

Из этих данных видно, что г = 0.9886 является минимальным коэффициентом корреляции. Он характеризует тесноту связи двух распределений частот встречаемости букв в Р1 и Р9 , то есть в текстах объемом в 10 и 90 страниц.

Вычисляемое значение критерия Стьюдента Т по формуле

т=глШ-2

/I- г2

см [3], при N = 40 иг = 0.9886 даёт Т = 40.4749, что намного превосходит значение t = Ца,к) = 3.47, извлекаемое из таблицы критических точек распределения Стьюдента даже для заданного уровня значимости а = 0.001 (число степеней свободы здесь к = N - 2 = 38). Этот результат позволяет сделать вывод о существенности всех без исключения указанных выше

корреляционных связей, то есть высокой коррелируемости не только распределений частот встречаемости рушанских букв в Р1 и Р9 , но также и частот встречаемости букв в любых двух случайных выборках Рг и Ру (г,у=1,2,....10).

Из этого следует

Утверждение 1. Распределение частот встречаемости букв рушанского языка является статистическим инвариантом случайных выборок объемом не менее 10 страниц.

Таким образом, 10-страничные случайные выборки текстов являются выборками минимального объема, которые несут в себе закономерности распределения частот встречаемости букв, свойственные генеральной совокупности. Они объявляются репрезентативными (Я -текстами) в том смысле, что значимо коррелируют между собой, более того они статистически неразличимы.

2. Блочное группирование букв. Установлено, что ранжирование букв, порождаемое относительными частотами, является неустойчивым (неинвариантным) по отношению к Я -текстам. Иными словами, для различных Я -текстов равных объемов ранжирование букв оказывается различным.

Статистические исследования показывают, что справедливо

Утверждение 2. Буквы алфавита рушанского языка не удается ранжировать однозначным образом по частоте их встречаемости в текстах одинаковых объемов.

При более детальном анализе удалось обнаружить новый нетривиальный инвариант, характеризующий устойчивость ранжирования буквенных блоков.

Поясним суть этого явления. Пусть, к примеру, из текстов на каком-либо естественном языке извлечено некоторое количество случайных выборок р,р, Рп равного объема. В пределах каждой выборки подсчитаем частоты встречаемости всех букв и затем произведем их ранжирование в порядке убывания их частот. Далее сравним результаты ранжирования. Оказывается, что одни буквы независимо от рассматриваемой выборки сохраняют за собой одни и те же порядковые номера в общем ранжире. Другие же буквы “собираются” в группы, которые для любых выборок располагаются на одних и тех же порядковых номерах общего ранжира, то есть буквы проявляют тенденцию блочного группирования. Для рушанского языка неподвижными оказываются 16 букв - а, д, и, у, о, й, м, а, з, п, ф, ч, й, к, и, г (будем говорить, что эти буквы образуют 16 однобуквенных блоков), а проявляющие тенденцию группирования - 24 буквы: н, р, т, с, х, w, л, к, е, б, в, г, ч, х, 5, ш, о, ц, у, О, ж, 3, у, у.

Блочное группирование букв характеризуется следующими свойствами:

- в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

- блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

- для различных текстов равных объемов порядок следования блоков (с одними и теми же наборами букв) остается неизменным; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Неоднозначность возникает из-за тех букв, которые попадают в один блок и имеют, по-существу, одинаковые частоты встречаемости. По этой причине вместо понятия ранжирование букв приходится пользоваться более общим понятием - ранжированием буквенных блоков.

Соответствующие результаты для рушанского языка, полученные при обработке случайных выборок в Рг, показаны в табл. 2. В ней буквенные блоки отмечены рамками (для однобуквенных блоков рамки не используются). Кроме того, числами сверху указывается ранжирование букв по убыванию их частоты встречаемости в текстах.

Таблица 2

Блочное группирование рушанских букв в Рг выборках

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

а д и у І н р т І о й м а I с х її І з I л к е б

21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

п I г ч х 8|ф ч и І ш о ц I к и г I у о ж 3 у у

Нарушение порядка ранжирования проявляется в изменении порядковых номеров 24 букв - н, р, т, с, х, ', л, к, е, б, в, г, ч, х, 5, ш, 0, ц, у, о, ж, 3, у, у, которые, в свою очередь, разделяются на шесть блоков: 3 блока - трехбуквенных, 1 блок - четырехбуквенный, 1 блок -пятибуквенный, 1 блок - шестибуквенный. Остальные 16 букв составляют однобуквенные блоки. При переходе от одного Я-текста к другому буквы в пределах каждого блока могут, в общем случае, обмениваться своими порядковыми номерами вследствие изменения их частот встречаемости, но не выходят за рамки самого блока.

Таким образом, имеет место следующее статистическое

Утверждение 3. Порядок ранжирования буквенных блоков рушанского языка, представленный в табл. 2, является инвариантом Я- текстов.

Институт математики Поступило 17.12.2008 г.

АН Республики Таджикистан,

Хорогский государственный университет им. М. Назаршоева

ЛИТЕРАТУРА

1. Зарубин И.И. Рушанские и бартангские тексты и словарь. - М.-Л., 1937, 96 с.

2. Шакармамадов Н. Фольклор Памира. - Душанбе, 2005, 431 с.

в

3. Файзов М. Язык рушанцев Советского Памира. - Душанбе, 1966, 228 с.

4. Гмурман В. Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2005, 480 с.

З.Ч,.Усмонов, Н.УДадамшоев ТАЦСИМОТИ СТАТИСТИКИИ ^АРФ^О ДАР ЗАБОНИ РУШОНЙ

Дар макола таксимоти омории зудии вохурии хдрфхо дар матни рушонй муайян карда шуда, конунияти х,амин таксимот ёфта шудааст.

Z.D.Usmanov, N.U.Qadamshoev A STATISTICAL DISTRIBUTION OF LETTERS IN RUSHAN TEXTS

In the article on the basis of various texts processing a distribution of rushan letters is analyzed and its statistical regularities are established.

Статистическое распределение частот встречаемости букв в Рушанском языке Текст научной статьи по специальности «Физика»

Похожие темы научных работ по физике , автор научной работы — Усманов З. Д., Кадамшоев Н. У.

Текст научной работы на тему «Статистическое распределение частот встречаемости букв в Рушанском языке»