ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2006, том 49, №1
ИНФОРМАТИКА
УДК 410:31+414.7+943.75
Академик АН Республики Таджикистан З.Д.Усманов, Ш.А.Шарипов
О СТАТИСТИЧЕСКИХ ИНВАРИАНТАХ УЗБЕКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА
В статье изучаются статистические закономерности, свойственные распределению частот встречаемости букв в текстах, написанных на узбекском языке. Эти тексты представлены случайной выборкой объёмом в 180 страниц [1].
Узбекский алфавит, основанный на кириллице, содержит 35 букв. На 180 обработанных страницах оказалось 404356 букв, в среднем 2246 букв на одной странице.
1. Для целей исследования исходные данные были предварительно “расфасованы” по 36-и пакетам Р\, Рг, Рзб, “вложенным” друг в друга {Р\(^Р^... сРк,) в следующем смысле. Пакет Р\ составлен из 5 страниц, случайным образом извлеченных из общего числа 180 страниц. В пакет Рк, к = 2,...,35, включены 5к страниц, из которых 5(к-1) - те же, что и в пакете Рк_х, и еще 5 дополнительных страниц, извлеченных случайным
образом из числа оставшихся 180 - 5(к - 1) страниц. Последний пакет Рзб включил в себя все подготовленные к обработке экспериментальные данные, т.е. 180 страниц.
Для каждого пакета Рк, к = 1, ..., 36, путем обработки всех страниц, входящих в
его состав, получено статистическое распределение Ок частот встречаемости букв алфавита узбекского языка, а затем и усредненное (для 180 стр.) статистическое распределение Вср, представленное в таблице 1. В этой таблице буквы выписаны в порядке убывания их относительных частот V, выраженных в процентах.
2. Обнаружено, что 6 первых букв (а, и, н, л, р, о) осуществляют 52,59 % - покрытие, а 12 букв (предыдущие 6 + д, т, б, г, м, у) - 74,86 % - покрытие узбекских текстов.
Таблица 1
п буквы V п буквы V п буквы V
1 а 15,2026 13 к 2,8517 25 ё 0,5625
2 и 13,8129 14 с 2,6229 26 я 0,5580
3 н 7,1204 15 к 2,4698 27 п 0,5431
4 л 6,0719 16 ш 2,0357 28 ж 0,5230
5 р 5,7401 17 У 1,8221 29 э 0,5051
6 о 4,6482 18 е 1,7107 30 ф 0,4443
7 д 4,3215 19 з 1,6272 31 г 0,4350
8 т 4,1042 20 й 1,5638 32 ю 0,2160
9 б 3,6545 21 ч 1,2633 33 ъ 0,1934
10 г 3,4623 22 в 1,2480 34 ц 0,0567
11 м 3,4147 23 X 1,1651 35 ь 0,0192
12 у 3,3062 24 х 0,7039
3. Из этой же таблицы видно, что не менее чем 80, 90 и 95 -процентные уровни покрытия текстов осуществляются соответственно 14, 19 и 23 первыми буквами.
4. Установлено, что специфические буквы узбекского языка (к, у, X, г) покрывают всего лишь 5, 89% текста.
5. Статистическое распределение букв, представленное в таблице 1, аппроксимировано теоретической кривой
у = а/пь, (1)
в которой а = 54,502 и Ь = 1,3948. Отметим, что эти коэффициенты подсчитаны методом
наименьших квадратов. Надежность описания экспериментального распределения посредством (1) характеризуется коэффициентом корреляции г = 0,87344, а вычисляемое по формуле
Г = ф^3, (2)
-./1-г2
наблюдаемое значения критерия значимости для заданного г при N=35 даёт Т=14,10334, что превосходит значение / = / (о., а) = 3,610912, извлекаемое из таблицы критических точек распределения Стьюдента, см.[2], даже для уровня значимости а =
0,001 (здесь число степеней свободы 8 = N - 2 = 33). Это, в свою очередь, служит подтверждением высокой коррелируемости экспериментальной и теоретической кривых распределения узбекских букв в литературных текстах.
.6. При сравнении распределений Бк, к = 1,., 36, между собой, а также с усредненным распределением Вср получен следующий результат.
Теорема 1. Все упомянутые распределения статистически неразличимы.
Этот факт проверяется с помощью критерия согласия Пирсона, см. например [2]. Действительно, для проверки справедливости нулевой гипотезы Н0, т.е. утверждения, высказанного в теореме 1, вычисляются наблюдаемые значения случайной величины X1 по формуле:
35 лУ2
^ = (3)
/=1 К- + К-
где у' и у” - частоты встречаемости (в процентах) /- ой буквы алфавита узбекского языка в сравниваемых распределениях Б' и 1)". в качестве которых выбираются любые из упомянутых ранее распределений Вк, к = 1,..., 36, и 1)'р. N = пх +п2, где /?, = У~Уг
и а?2 = ^ V,. Если исключить из рассмотрения распределение В\. которое построено по данным всего лишь 5-и случайно выбранных страниц, то при сравнении всех прочих распределений между собой мы получаем 0,13593 < %1абл ^ 0,45883 . В случае, если какое-
либо распределение сравнивается с А, то 0,000176 < х1абл - 0,22971
Между тем, определяемая по стандартной таблице критическая точка х1Р{а^)
при уровне значимости а = 0,001 и я = 32 равняется 62,48728. Отметим, что при вычислении значения числа степеней свободы 5 мы от общего количества вариантов (в нашем
11
случае их 35) вычли число 1+ г, где г = 2, ибо рассматриваемые нами распределения Ок,
к = 1,., 36, и Вср достаточно хорошо описываются двухпараметрической кривой вида (1).
Поскольку при сравнении между собой всех без исключения распределений имеет место неравенство
2 2 уСиабл уСкр 5
то этим самым устанавливается справедливость теоремы 1. Если же исключить из рассмотрения распределение А, которое строится по данным всего лишь 5-и случайно выбранных страниц, то теорему 1 удобно переформулировать в несколько ином эквивалентном виде:
Теорема 2. Распределение частот встречаемости букв узбекского языка является статистическим инвариантом случайных выборок объемом не менее 10 страниц.
Отметим, что случайные выборки объемом в 5 страниц исключены из рассмотрения только лишь для повышения надежности результата. Из формулировок теорем 1 и 2 также следует, что случайная выборка объемом не менее 10 страниц является репрезентативной выборкой (Я-текстом), т.е. она несет в себе достаточно полную информацию о распределении частот встречаемости букв в узбекском языке (генеральной совокупности).
Ранжирование букв. Любая выборка из узбекских текстов характеризуется вполне определенным ранжированием 35 букв в порядке убывания их частот встречаемости. Однако, в отличие от распределения частот, оказывается, что порядок букв, устанавливаемый ранжированием, не является статистическим инвариантом Я- текстов (не менее 10 случайно выбранных страниц). Иными словами, для различных Я-текстов ранжирование приводит, вообще говоря, к различным упорядочениям букв. Тем не менее, дополнительные исследования показали, что если в качестве Я-текстов выбирать уже не 10, а 40 случайно извлеченных страниц (будем обозначать их через Я* ), то в этом случае для них существует нетривиальный инвариант. Действительно, при выполнении ранжирования букв для таких Я*-текстов обнаружилось (см. таблицу 2), что 26 из 35 букв сохраняют свои порядковые номера.
Таблица 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
а и н л р о д т б г м у к с к ш У е
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
з й ч в х ё я п ж э ф г ю ъ ц ь
Нарушение порядка ранжирования проявляется в изменении порядковых номеров всего лишь 9 букв - ч, в, ё, я, п, э, ж, ф, г, которые, в свою очередь, разделяются на два блока: один блок - двухбуквенный (ч, в), покрывающий 2,5114% текста, а другой
12
блок - семибуквенный (ё, я, п, э, ж, ф, г), покрывающий 3,5709% текста. Остальные 26 букв составляют однобуквенные блоки. При переходе от одного Я* - текста к другому буквы в пределах каждого блока могут, в общем случае, обмениваться своими порядковыми номерами вследствие изменения их частот встречаемости.
Следуя [3-4], будем интерпретировать порядок букв, устанавливаемый в таблице 2, как порядок ранжирования буквенных блоков (для однобуквенных блоков рамки не использованы).
Блочное группирование букв характеризуется следующими свойствами:
• в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);
• блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;
• ранжирования букв для различных Я* - текстов сохраняют неизменным порядок следования блоков; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.
Таким образом, имеет место следующее статистическое утверждение.
Теорема 3. Порядок ранжирования буквенных блоков узбекского языка, представленный в таблице 2, является инвариантом Я* - текстов.
Замечание. Полученный нами инвариант можно интерпретировать как совокупность конечного числа элементов-упорядоченных последовательностей букв узбекского алфавита, неразличимых с точки зрения ранжирования буквенных блоков. Число таких последовательностей зависит от количества нетривиальных (содержат более одной буквы) буквенных блоков, а также количества букв внутри каждого из блоков. Для узбекского языка нетривиальных блоков всего 2, причем один из блоков содержит 2 буквы, а другой - 7. Следовательно, общее число неразличимых упорядоченных последовательностей узбекских букв равно 2!-7! = 10080.
Институт математики Поступило 25.06.2005 г.
АН Республики Таджикистан Технологический Университет Таджикистана
ЛИТЕРАТУРА
1. Шарипов Ш.А. О слоговом многообразии узбекского и таджикского языков. Электронный журнал “Наука, технологии и интеллектуальная собственность Таджикистана”: www.science.tj
2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа. 2005. 480 с.
3. Усманов З. Д., Солиев О.М. Докл. АН РТ, 2003, т.46, № 3-4, с.59-61.
4. Усманов З. Д., Солиев О.М. Программные продукты и системы, М., 2004, № 4, с.38-41.
З.Ч,.Усмонов, Ш.А.Шарипов ДОИР БА ИНВАРИАНТ^ОИ СТАТИСТИКИ ДАР ЗАБОНИ АДАБИИ УЗБЕК
Дар макола дар асоси коркарди статистикии матнх,ои гуногуни узбекй зудии вохурии х,арфх,оро муайян намуда, конунияти таксимоти онх,о дар калимах,о оварда шу-дааст.
Z.D.Usmanov, Sh.A.Sharipov ON STATISTICAL INVARIANTS OF UZBEK LITERARY LANGUAGE
In the paper on the basis of various texts processing a distribution of Uzbek letters is analyzed and its statistical regularities are established.