Научная статья на тему 'О статистических закономерностях языка эсперанто'

О статистических закономерностях языка эсперанто Текст научной статьи по специальности «Физика»

CC BY
170
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article оn the basis of various texts processing а statistical distribution of еsperanto letters is analyzed and its statistical regularities are established.

Текст научной работы на тему «О статистических закономерностях языка эсперанто»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН

2006, том 49, №4

ИНФОРМАТИКА

УДК 410:31+414.7+ 800.892

Академик АН Республики Таджикистан 3.Д.Усманов, С.Ёкубзода

О СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЯХ ЯЗЫКА ЭСПЕРАНТО

В статье изучаются статистические закономерности, свойственные распределению частот встречаемости букв в текстах, написанных на языке эсперанто. Эти результаты получены путем исследования случайной выборки объемом в 401 страницу, представленной фрагментами произведений С.Лема («Осмотр на месте», «Миссионеры» - всего 73 стр.), Don Harlow («Tarzan de la simioj» - 21 стр.), РШварца («Verdkata Testamento», «Завещание Зеленого кота» - 10 стр.), А.Лазарчука («Священный месяц Ринь» - 24 стр.), Б.Колкера («Путешествие в страну Эсперанто» - 34 стр.), Г.Альтшуллера и В.Журавлёвой («Angulo de atako» - 36 стр.), В.Рыбакова («Гравилёт «Цесаревич» - 75 стр.), Н.В.Гоголя («Ревизор» - 62 стр.), Ш.Сатмари («Сатирические рассказы» - 39 стр.), В.Ерошенко («Из жизни чукчей» - 27 стр.).

Частота встречаемости букв. Известно, что алфавит эсперанто состоит из 28 букв [1]. В упомянутой выборке оказалось 857763 буквы, в среднем 2139 букв на одной странице. Для целей исследования исходные данные были предварительно “расфасованы” по 80-и пакетам Р1,Р2,...,Р%0, “вложенным” друг в друга (1\ cz Р2 а ... cz Р80) в следующем смысле. Пакет

P укомплектован 5 страницами, случайным образом извлеченными из общего числа в 401 страницу. В пакет Рк, к = 2,...,79 , включены 5к страниц, из которых 5(к — 1) - те же, что и в пакете Рк_j, и еще 5 дополнительных извлечены случайным образом из числа оставшихся 401 -5(к — 1) страниц. Последний пакет Р80 включил в себя все подготовленные к обработке экспериментальные данные, т.е. 401 страницу

Для каждого пакета Рк, к = 1,...,80, путем обработки всех страниц, входящих в его состав, получено статистическое распределение Dk частот встречаемости букв алфавита эсперанто, а затем и усредненное статистическое распределение Dcp, представленное в таблице

1. В этой таблице буквы выписаны в порядке убывания их относительных частот у, выраженных в процентах.

Как следует из этой таблицы, 6 первых букв (A, I, E, O, N, S) осуществляют 54,1 процентное покрытие, а 10 первых букв (предыдущие 6 с добавлением L, R, T, K) - 75,19 процентное покрытие эсперанто-текстов. Из той же таблицы видно, что не менее чем 80, 90 и 95 процентные уровни покрытия текстов осуществляются соответственно 12, 15 и 20 первыми буквами.

Таблица 1

п п п

1 A 11,71 11 J 3,40 21 С 0,80

2 I 10,40 12 M 3,29 22 в 0,74

3 E 9,26 13 U 3,19 23 и 0,52

4 O 8,44 14 D 2,93 24 ъ 0,48

5 N 8,04 15 P 2,60 25 ъ 0,38

6 S 6,25 16 V 1,86 26 Н 0,35

7 L 5,73 17 G 1,16 27 I 0,12

8 R 5,63 18 B 1,08 28 Н 0,04

9 T 5,51 19 F 1,01

10 K 4,22 20 C 0,86

Интересно также отметить, что четыре самые редко встречающиеся буквы (Ъ, Н, I, Н) покрывают всего лишь 0,89% текста. Более того, две самые последние буквы, т.е. I и Н, настолько эпизодически появляются в текстах (0,16% покрытия), что при необходимости уменьшения алфавита эсперанто, скажем, до 26 букв, как это имеет место для латинского алфавита, именно они могли бы в первую очередь попасть под сокращение.

При сравнении распределений Бк, к- 1,...,80, между собой, а также с усредненным

распределением Вср, получен следующий результат.

Теорема 1. Все упомянутые распределения статистически неразличимы.

Этот факт проверяется с помощью критерия согласия Пирсона (см. например [2]). Действительно, для проверки справедливости нулевой гипотезы И0, т.е. утверждения, высказанного в теореме 1, вычисляются наблюдаемые значения случайной величины по формуле:

28 Г2

-2---100,

где V- и у” - частоты встречаемости (в процентах) / -ой буквы алфавита эсперанто в распределениях Б' и I)", в качестве которых выбираются любые из упомянутых ранее распределений Эк, А; = 1,...,80, и Оср. Если исключить из рассмотрения распределение Д, которое построено по данным всего лишь 5 случайно выбранных страниц, то при сравнении всех прочих распределений между собой мы получаем %1абл < 0,8. В случае, если какое-либо распределение сравнивается с Д, то 6 < %1абл ^ 7.

Между тем определяемая по стандартной таблице критическая точка Х^Р(.а^) ПРИ уровне значимости а - 0,01 и 8=25 равняется 44,3. Отметим, что при вычислении значения

% набл

числа степеней свободы ^ мы от общего количества вариантов (в нашем случае их 28) вычли

число 1+г, где г = 2, т.к. рассматриваемые нами распределения Бк,, к = 1,...,80, и Оср доста*-* *-* —Ъ

точно хорошо описываются двухпараметрическои кривои вида у - ах .

Поскольку при сравнении между собой всех без исключения распределений имеет место неравенство

2 2 УСнабп ^ Ху, 1

то этим самым устанавливается справедливость теоремы 1, которую удобно переформулировать в несколько ином эквивалентном виде:

Теорема 2. Распределение частот встречаемости букв языка эсперанто является статистическим инвариантом случайных выборок объемом не менее 10 страниц.

Отметим, что случайные выборки объемом в 5 страниц исключены из рассмотрения только лишь для повышения надежности результата. Из формулировок теорем 1 и 2 также следует, что случайная выборка объемом не менее 10 страниц является репрезентативной выборкой (Я -текстом), т.е. она несет в себе достаточно полную информацию о распределении частот встречаемости букв в языке эсперанто.

Ранжирование букв. Любая выборка из эсперанто-текстов характеризуется вполне определенным ранжированием 28 букв в порядке убывания их частот встречаемости. Однако, в отличие от распределения частот, оказывается, что порядок букв, устанавливаемый ранжированием, не является статистическим инвариантом Я-текстов. Иными словами, для различных Я-текстов ранжирование приводит, вообще говоря, к различным упорядочениям букв. Тем не менее дополнительные исследования показали, что и в этом случае существует нетривиальный инвариант Я-текстов.

Действительно, при выполнении ранжирования букв разнообразных Я-текстов обнаружилось (табл. 2), что 22 из 28 букв сохраняют свои порядковые номера. Нарушение порядка ранжирования проявляется в изменении порядковых номеров всего лишь 6 букв -Ь, Я, J,М, С и С, которые, в свою очередь, разделяются на три пары (блока) соседствующих

букв - (Ь, Я), (J,М), (С, С). При переходе от одного Я-текста к другому буквы в пределах каждой пары могут, в общем случае, обмениваться своими порядковыми номерами вследствие изменения их частот встречаемости.

Таблица 2

1 2 3 4 5 6 7 8 9 10 11 12 13 14

A

I

E

O

N

S

L

R

T

K

J

M

U

D

15

P

16

V

17

G

18

B

19

F

20

C

21

С

22

6

23

й

24

Z

25

§

26

H

27

3

28

Й

Следуя [3-4], будем интерпретировать порядок букв, устанавливаемый в таблице 2, как порядок ранжирование буквенных блоков, из которых 22 блока - однобуквенных и 3 блока -двухбуквенных (последние показаны в рамках; для однобуквенных блоков рамки не использованы).

Блочное группирование букв характеризуется следующими свойствами:

■ в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

■ блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

■ ранжирование букв для различных Я-текстов сохраняют неизменным порядок следования блоков; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Таким образом, имеет место следующее статистическое утверждение.

Теорема 3. Порядок ранжирования буквенных блоков языка эсперанто, представленный в таблице 2, является инвариантом Я-текстов.

Замечание. Полученный нами инвариант можно интерпретировать как совокупность конечного числа элементов - упорядоченных последовательностей букв алфавита эсперанто, неразличимых с точки зрения ранжирования буквенных блоков. Число таких последовательностей зависит от количества нетривиальных (содержат более одной буквы) буквенных блоков, а также количества букв внутри каждого из блоков. Для языка эсперанто нетривиальных блоков всего 3, причем каждый из них состоит из 2 букв. Следовательно, общее число неразличимых упорядоченных последовательностей эсперанто-букв равно 8.

Институт математики Поступило 20.05.2005 г.

АН Республики Таджикистан,

Технологический университет Таджикистана

ЛИТЕРАТУРА

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Эсперанто-русский словарь, М.: Русский язык, 1982, 488 с.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа. 2005, 480 с.

3. Усманов З.Д., Солиев О.М. - ДАН РТ, 2003, т.46, № 3-4, с.59-61.

4. Усманов З.Д., Солиев О.М. - Программные продукты и системы, М., 2004, № 4, с.38-41.

З.Ч,.Усмонов, С.Ёкубзода ДАР БОРАИ КОНУНИЯТХОИ СТАТИСТИКИ ДАР ЗАБОНИ ЭСПЕРАНТО

Дар макола таксимоти статистикии зудии вохурии харфхо дар матни эсперанто муайян карда мешавад ва конунияти х,амин таксимот ёфта мешавад.

Z.D.Usmanov, S.Yokubzoda ON STATISTICAL REGULARITIES OF ESPERANTO LANGUAGE

In the article оп the basis of various texts processing а statistical distribution of еsperanto letters is analyzed and its statistical regularities are established.

i Надоели баннеры? Вы всегда можете отключить рекламу.