Научная статья на тему 'О статистических инвариантах узбекского литературного языка'

О статистических инвариантах узбекского литературного языка Текст научной статьи по специальности «Физика»

CC BY
117
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the paper on the basis of various texts processing a distribution of Uzbek letters is analyzed and its statistical regularities are established.

Текст научной работы на тему «О статистических инвариантах узбекского литературного языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН

2006, том 49, №1

ИНФОРМАТИКА

УДК 410:31+414.7+943.75

Академик АН Республики Таджикистан З.Д.Усманов, Ш.А.Шарипов

О СТАТИСТИЧЕСКИХ ИНВАРИАНТАХ УЗБЕКСКОГО ЛИТЕРАТУРНОГО ЯЗЫКА

В статье изучаются статистические закономерности, свойственные распределению частот встречаемости букв в текстах, написанных на узбекском языке. Эти тексты представлены случайной выборкой объёмом в 180 страниц [1].

Узбекский алфавит, основанный на кириллице, содержит 35 букв. На 180 обработанных страницах оказалось 404356 букв, в среднем 2246 букв на одной странице.

1. Для целей исследования исходные данные были предварительно “расфасованы” по 36-и пакетам Р\, Рг, Рзб, “вложенным” друг в друга {Р\(^Р^... сРк,) в следующем смысле. Пакет Р\ составлен из 5 страниц, случайным образом извлеченных из общего числа 180 страниц. В пакет Рк, к = 2,...,35, включены 5к страниц, из которых 5(к-1) - те же, что и в пакете Рк_х, и еще 5 дополнительных страниц, извлеченных случайным

образом из числа оставшихся 180 - 5(к - 1) страниц. Последний пакет Рзб включил в себя все подготовленные к обработке экспериментальные данные, т.е. 180 страниц.

Для каждого пакета Рк, к = 1, ..., 36, путем обработки всех страниц, входящих в

его состав, получено статистическое распределение Ок частот встречаемости букв алфавита узбекского языка, а затем и усредненное (для 180 стр.) статистическое распределение Вср, представленное в таблице 1. В этой таблице буквы выписаны в порядке убывания их относительных частот V, выраженных в процентах.

2. Обнаружено, что 6 первых букв (а, и, н, л, р, о) осуществляют 52,59 % - покрытие, а 12 букв (предыдущие 6 + д, т, б, г, м, у) - 74,86 % - покрытие узбекских текстов.

Таблица 1

п буквы V п буквы V п буквы V

1 а 15,2026 13 к 2,8517 25 ё 0,5625

2 и 13,8129 14 с 2,6229 26 я 0,5580

3 н 7,1204 15 к 2,4698 27 п 0,5431

4 л 6,0719 16 ш 2,0357 28 ж 0,5230

5 р 5,7401 17 У 1,8221 29 э 0,5051

6 о 4,6482 18 е 1,7107 30 ф 0,4443

7 д 4,3215 19 з 1,6272 31 г 0,4350

8 т 4,1042 20 й 1,5638 32 ю 0,2160

9 б 3,6545 21 ч 1,2633 33 ъ 0,1934

10 г 3,4623 22 в 1,2480 34 ц 0,0567

11 м 3,4147 23 X 1,1651 35 ь 0,0192

12 у 3,3062 24 х 0,7039

3. Из этой же таблицы видно, что не менее чем 80, 90 и 95 -процентные уровни покрытия текстов осуществляются соответственно 14, 19 и 23 первыми буквами.

4. Установлено, что специфические буквы узбекского языка (к, у, X, г) покрывают всего лишь 5, 89% текста.

5. Статистическое распределение букв, представленное в таблице 1, аппроксимировано теоретической кривой

у = а/пь, (1)

в которой а = 54,502 и Ь = 1,3948. Отметим, что эти коэффициенты подсчитаны методом

наименьших квадратов. Надежность описания экспериментального распределения посредством (1) характеризуется коэффициентом корреляции г = 0,87344, а вычисляемое по формуле

Г = ф^3, (2)

-./1-г2

наблюдаемое значения критерия значимости для заданного г при N=35 даёт Т=14,10334, что превосходит значение / = / (о., а) = 3,610912, извлекаемое из таблицы критических точек распределения Стьюдента, см.[2], даже для уровня значимости а =

0,001 (здесь число степеней свободы 8 = N - 2 = 33). Это, в свою очередь, служит подтверждением высокой коррелируемости экспериментальной и теоретической кривых распределения узбекских букв в литературных текстах.

.6. При сравнении распределений Бк, к = 1,., 36, между собой, а также с усредненным распределением Вср получен следующий результат.

Теорема 1. Все упомянутые распределения статистически неразличимы.

Этот факт проверяется с помощью критерия согласия Пирсона, см. например [2]. Действительно, для проверки справедливости нулевой гипотезы Н0, т.е. утверждения, высказанного в теореме 1, вычисляются наблюдаемые значения случайной величины X1 по формуле:

35 лУ2

^ = (3)

/=1 К- + К-

где у' и у” - частоты встречаемости (в процентах) /- ой буквы алфавита узбекского языка в сравниваемых распределениях Б' и 1)". в качестве которых выбираются любые из упомянутых ранее распределений Вк, к = 1,..., 36, и 1)'р. N = пх +п2, где /?, = У~Уг

и а?2 = ^ V,. Если исключить из рассмотрения распределение В\. которое построено по данным всего лишь 5-и случайно выбранных страниц, то при сравнении всех прочих распределений между собой мы получаем 0,13593 < %1абл ^ 0,45883 . В случае, если какое-

либо распределение сравнивается с А, то 0,000176 < х1абл - 0,22971

Между тем, определяемая по стандартной таблице критическая точка х1Р{а^)

при уровне значимости а = 0,001 и я = 32 равняется 62,48728. Отметим, что при вычислении значения числа степеней свободы 5 мы от общего количества вариантов (в нашем

11

случае их 35) вычли число 1+ г, где г = 2, ибо рассматриваемые нами распределения Ок,

к = 1,., 36, и Вср достаточно хорошо описываются двухпараметрической кривой вида (1).

Поскольку при сравнении между собой всех без исключения распределений имеет место неравенство

2 2 уСиабл уСкр 5

то этим самым устанавливается справедливость теоремы 1. Если же исключить из рассмотрения распределение А, которое строится по данным всего лишь 5-и случайно выбранных страниц, то теорему 1 удобно переформулировать в несколько ином эквивалентном виде:

Теорема 2. Распределение частот встречаемости букв узбекского языка является статистическим инвариантом случайных выборок объемом не менее 10 страниц.

Отметим, что случайные выборки объемом в 5 страниц исключены из рассмотрения только лишь для повышения надежности результата. Из формулировок теорем 1 и 2 также следует, что случайная выборка объемом не менее 10 страниц является репрезентативной выборкой (Я-текстом), т.е. она несет в себе достаточно полную информацию о распределении частот встречаемости букв в узбекском языке (генеральной совокупности).

Ранжирование букв. Любая выборка из узбекских текстов характеризуется вполне определенным ранжированием 35 букв в порядке убывания их частот встречаемости. Однако, в отличие от распределения частот, оказывается, что порядок букв, устанавливаемый ранжированием, не является статистическим инвариантом Я- текстов (не менее 10 случайно выбранных страниц). Иными словами, для различных Я-текстов ранжирование приводит, вообще говоря, к различным упорядочениям букв. Тем не менее, дополнительные исследования показали, что если в качестве Я-текстов выбирать уже не 10, а 40 случайно извлеченных страниц (будем обозначать их через Я* ), то в этом случае для них существует нетривиальный инвариант. Действительно, при выполнении ранжирования букв для таких Я*-текстов обнаружилось (см. таблицу 2), что 26 из 35 букв сохраняют свои порядковые номера.

Таблица 2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

а и н л р о д т б г м у к с к ш У е

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

з й ч в х ё я п ж э ф г ю ъ ц ь

Нарушение порядка ранжирования проявляется в изменении порядковых номеров всего лишь 9 букв - ч, в, ё, я, п, э, ж, ф, г, которые, в свою очередь, разделяются на два блока: один блок - двухбуквенный (ч, в), покрывающий 2,5114% текста, а другой

12

блок - семибуквенный (ё, я, п, э, ж, ф, г), покрывающий 3,5709% текста. Остальные 26 букв составляют однобуквенные блоки. При переходе от одного Я* - текста к другому буквы в пределах каждого блока могут, в общем случае, обмениваться своими порядковыми номерами вследствие изменения их частот встречаемости.

Следуя [3-4], будем интерпретировать порядок букв, устанавливаемый в таблице 2, как порядок ранжирования буквенных блоков (для однобуквенных блоков рамки не использованы).

Блочное группирование букв характеризуется следующими свойствами:

• в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

• блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

• ранжирования букв для различных Я* - текстов сохраняют неизменным порядок следования блоков; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Таким образом, имеет место следующее статистическое утверждение.

Теорема 3. Порядок ранжирования буквенных блоков узбекского языка, представленный в таблице 2, является инвариантом Я* - текстов.

Замечание. Полученный нами инвариант можно интерпретировать как совокупность конечного числа элементов-упорядоченных последовательностей букв узбекского алфавита, неразличимых с точки зрения ранжирования буквенных блоков. Число таких последовательностей зависит от количества нетривиальных (содержат более одной буквы) буквенных блоков, а также количества букв внутри каждого из блоков. Для узбекского языка нетривиальных блоков всего 2, причем один из блоков содержит 2 буквы, а другой - 7. Следовательно, общее число неразличимых упорядоченных последовательностей узбекских букв равно 2!-7! = 10080.

Институт математики Поступило 25.06.2005 г.

АН Республики Таджикистан Технологический Университет Таджикистана

ЛИТЕРАТУРА

1. Шарипов Ш.А. О слоговом многообразии узбекского и таджикского языков. Электронный журнал “Наука, технологии и интеллектуальная собственность Таджикистана”: www.science.tj

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа. 2005. 480 с.

3. Усманов З. Д., Солиев О.М. Докл. АН РТ, 2003, т.46, № 3-4, с.59-61.

4. Усманов З. Д., Солиев О.М. Программные продукты и системы, М., 2004, № 4, с.38-41.

З.Ч,.Усмонов, Ш.А.Шарипов ДОИР БА ИНВАРИАНТ^ОИ СТАТИСТИКИ ДАР ЗАБОНИ АДАБИИ УЗБЕК

Дар макола дар асоси коркарди статистикии матнх,ои гуногуни узбекй зудии вохурии х,арфх,оро муайян намуда, конунияти таксимоти онх,о дар калимах,о оварда шу-дааст.

Z.D.Usmanov, Sh.A.Sharipov ON STATISTICAL INVARIANTS OF UZBEK LITERARY LANGUAGE

In the paper on the basis of various texts processing a distribution of Uzbek letters is analyzed and its statistical regularities are established.

i Надоели баннеры? Вы всегда можете отключить рекламу.