О статистических инвариантах узбекского литературного языка

Усманов З.Д.; Шарипов Ш.А.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН

2006, том 49, №1

ИНФОРМАТИКА

УДК 410:31+414.7+943.75

Академик АН Республики Таджикистан З.Д.Усманов, Ш.А.Шарипов

О СТАТИСТИЧЕСКИХ ИНВАРИАНТАХ УЗБЕКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА

В статье изучаются статистические закономерности, свойственные распределению частот встречаемости букв в текстах, написанных на узбекском языке. Эти тексты представлены случайной выборкой объёмом в 180 страниц [1].

Узбекский алфавит, основанный на кириллице, содержит 35 букв. На 180 обработанных страницах оказалось 404356 букв, в среднем 2246 букв на одной странице.

1. Для целей исследования исходные данные были предварительно “расфасованы” по 36-и пакетам Р\, Рг, Рзб, “вложенным” друг в друга {Р\(^Р^... сРк,) в следующем смысле. Пакет Р\ составлен из 5 страниц, случайным образом извлеченных из общего числа 180 страниц. В пакет Рк, к = 2,...,35, включены 5к страниц, из которых 5(к-1) - те же, что и в пакете Рк_х, и еще 5 дополнительных страниц, извлеченных случайным

образом из числа оставшихся 180 - 5(к - 1) страниц. Последний пакет Рзб включил в себя все подготовленные к обработке экспериментальные данные, т.е. 180 страниц.

Для каждого пакета Рк, к = 1, ..., 36, путем обработки всех страниц, входящих в

его состав, получено статистическое распределение Ок частот встречаемости букв алфавита узбекского языка, а затем и усредненное (для 180 стр.) статистическое распределение Вср, представленное в таблице 1. В этой таблице буквы выписаны в порядке убывания их относительных частот V, выраженных в процентах.

2. Обнаружено, что 6 первых букв (а, и, н, л, р, о) осуществляют 52,59 % - покрытие, а 12 букв (предыдущие 6 + д, т, б, г, м, у) - 74,86 % - покрытие узбекских текстов.

Таблица 1

п буквы V п буквы V п буквы V

1 а 15,2026 13 к 2,8517 25 ё 0,5625

2 и 13,8129 14 с 2,6229 26 я 0,5580

3 н 7,1204 15 к 2,4698 27 п 0,5431

4 л 6,0719 16 ш 2,0357 28 ж 0,5230

5 р 5,7401 17 У 1,8221 29 э 0,5051

6 о 4,6482 18 е 1,7107 30 ф 0,4443

7 д 4,3215 19 з 1,6272 31 г 0,4350

8 т 4,1042 20 й 1,5638 32 ю 0,2160

9 б 3,6545 21 ч 1,2633 33 ъ 0,1934

10 г 3,4623 22 в 1,2480 34 ц 0,0567

11 м 3,4147 23 X 1,1651 35 ь 0,0192

12 у 3,3062 24 х 0,7039

3. Из этой же таблицы видно, что не менее чем 80, 90 и 95 -процентные уровни покрытия текстов осуществляются соответственно 14, 19 и 23 первыми буквами.

4. Установлено, что специфические буквы узбекского языка (к, у, X, г) покрывают всего лишь 5, 89% текста.

5. Статистическое распределение букв, представленное в таблице 1, аппроксимировано теоретической кривой

у = а/пь, (1)

в которой а = 54,502 и Ь = 1,3948. Отметим, что эти коэффициенты подсчитаны методом

наименьших квадратов. Надежность описания экспериментального распределения посредством (1) характеризуется коэффициентом корреляции г = 0,87344, а вычисляемое по формуле

Г = ф^3, (2)

-./1-г2

наблюдаемое значения критерия значимости для заданного г при N=35 даёт Т=14,10334, что превосходит значение / = / (о., а) = 3,610912, извлекаемое из таблицы критических точек распределения Стьюдента, см.[2], даже для уровня значимости а =

0,001 (здесь число степеней свободы 8 = N - 2 = 33). Это, в свою очередь, служит подтверждением высокой коррелируемости экспериментальной и теоретической кривых распределения узбекских букв в литературных текстах.

.6. При сравнении распределений Бк, к = 1,., 36, между собой, а также с усредненным распределением Вср получен следующий результат.

Теорема 1. Все упомянутые распределения статистически неразличимы.

Этот факт проверяется с помощью критерия согласия Пирсона, см. например [2]. Действительно, для проверки справедливости нулевой гипотезы Н0, т.е. утверждения, высказанного в теореме 1, вычисляются наблюдаемые значения случайной величины X1 по формуле:

35 лУ2

^ = (3)

/=1 К- + К-

где у' и у” - частоты встречаемости (в процентах) /- ой буквы алфавита узбекского языка в сравниваемых распределениях Б' и 1)". в качестве которых выбираются любые из упомянутых ранее распределений Вк, к = 1,..., 36, и 1)'р. N = пх +п2, где /?, = У~Уг

и а?2 = ^ V,. Если исключить из рассмотрения распределение В\. которое построено по данным всего лишь 5-и случайно выбранных страниц, то при сравнении всех прочих распределений между собой мы получаем 0,13593 < %1абл ^ 0,45883 . В случае, если какое-

либо распределение сравнивается с А, то 0,000176 < х1абл - 0,22971

Между тем, определяемая по стандартной таблице критическая точка х1Р{а^)

при уровне значимости а = 0,001 и я = 32 равняется 62,48728. Отметим, что при вычислении значения числа степеней свободы 5 мы от общего количества вариантов (в нашем

11

случае их 35) вычли число 1+ г, где г = 2, ибо рассматриваемые нами распределения Ок,

к = 1,., 36, и Вср достаточно хорошо описываются двухпараметрической кривой вида (1).

Поскольку при сравнении между собой всех без исключения распределений имеет место неравенство

2 2 уСиабл уСкр 5

то этим самым устанавливается справедливость теоремы 1. Если же исключить из рассмотрения распределение А, которое строится по данным всего лишь 5-и случайно выбранных страниц, то теорему 1 удобно переформулировать в несколько ином эквивалентном виде:

Теорема 2. Распределение частот встречаемости букв узбекского языка является статистическим инвариантом случайных выборок объемом не менее 10 страниц.

Отметим, что случайные выборки объемом в 5 страниц исключены из рассмотрения только лишь для повышения надежности результата. Из формулировок теорем 1 и 2 также следует, что случайная выборка объемом не менее 10 страниц является репрезентативной выборкой (Я-текстом), т.е. она несет в себе достаточно полную информацию о распределении частот встречаемости букв в узбекском языке (генеральной совокупности).

Ранжирование букв. Любая выборка из узбекских текстов характеризуется вполне определенным ранжированием 35 букв в порядке убывания их частот встречаемости. Однако, в отличие от распределения частот, оказывается, что порядок букв, устанавливаемый ранжированием, не является статистическим инвариантом Я- текстов (не менее 10 случайно выбранных страниц). Иными словами, для различных Я-текстов ранжирование приводит, вообще говоря, к различным упорядочениям букв. Тем не менее, дополнительные исследования показали, что если в качестве Я-текстов выбирать уже не 10, а 40 случайно извлеченных страниц (будем обозначать их через Я* ), то в этом случае для них существует нетривиальный инвариант. Действительно, при выполнении ранжирования букв для таких Я*-текстов обнаружилось (см. таблицу 2), что 26 из 35 букв сохраняют свои порядковые номера.

Таблица 2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

а и н л р о д т б г м у к с к ш У е

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

з й ч в х ё я п ж э ф г ю ъ ц ь

Нарушение порядка ранжирования проявляется в изменении порядковых номеров всего лишь 9 букв - ч, в, ё, я, п, э, ж, ф, г, которые, в свою очередь, разделяются на два блока: один блок - двухбуквенный (ч, в), покрывающий 2,5114% текста, а другой

12

блок - семибуквенный (ё, я, п, э, ж, ф, г), покрывающий 3,5709% текста. Остальные 26 букв составляют однобуквенные блоки. При переходе от одного Я* - текста к другому буквы в пределах каждого блока могут, в общем случае, обмениваться своими порядковыми номерами вследствие изменения их частот встречаемости.

Следуя [3-4], будем интерпретировать порядок букв, устанавливаемый в таблице 2, как порядок ранжирования буквенных блоков (для однобуквенных блоков рамки не использованы).

Блочное группирование букв характеризуется следующими свойствами:

• в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

• блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

• ранжирования букв для различных Я* - текстов сохраняют неизменным порядок следования блоков; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Таким образом, имеет место следующее статистическое утверждение.

Теорема 3. Порядок ранжирования буквенных блоков узбекского языка, представленный в таблице 2, является инвариантом Я* - текстов.

Замечание. Полученный нами инвариант можно интерпретировать как совокупность конечного числа элементов-упорядоченных последовательностей букв узбекского алфавита, неразличимых с точки зрения ранжирования буквенных блоков. Число таких последовательностей зависит от количества нетривиальных (содержат более одной буквы) буквенных блоков, а также количества букв внутри каждого из блоков. Для узбекского языка нетривиальных блоков всего 2, причем один из блоков содержит 2 буквы, а другой - 7. Следовательно, общее число неразличимых упорядоченных последовательностей узбекских букв равно 2!-7! = 10080.

Институт математики Поступило 25.06.2005 г.

АН Республики Таджикистан Технологический Университет Таджикистана

ЛИТЕРАТУРА

1. Шарипов Ш.А. О слоговом многообразии узбекского и таджикского языков. Электронный журнал “Наука, технологии и интеллектуальная собственность Таджикистана”: www.science.tj

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа. 2005. 480 с.

3. Усманов З. Д., Солиев О.М. Докл. АН РТ, 2003, т.46, № 3-4, с.59-61.

4. Усманов З. Д., Солиев О.М. Программные продукты и системы, М., 2004, № 4, с.38-41.

З.Ч,.Усмонов, Ш.А.Шарипов ДОИР БА ИНВАРИАНТ^ОИ СТАТИСТИКИ ДАР ЗАБОНИ АДАБИИ УЗБЕК

Дар макола дар асоси коркарди статистикии матнх,ои гуногуни узбекй зудии вохурии х,арфх,оро муайян намуда, конунияти таксимоти онх,о дар калимах,о оварда шу-дааст.

Z.D.Usmanov, Sh.A.Sharipov ON STATISTICAL INVARIANTS OF UZBEK LITERARY LANGUAGE

In the paper on the basis of various texts processing a distribution of Uzbek letters is analyzed and its statistical regularities are established.

О статистических инвариантах узбекского литературного языка Текст научной статьи по специальности «Физика»

Похожие темы научных работ по физике , автор научной работы — Усманов З. Д., Шарипов Ш. А.

Текст научной работы на тему «О статистических инвариантах узбекского литературного языка»