Научная статья на тему 'Диахроническое исследование энтропии графем русского письма'

Диахроническое исследование энтропии графем русского письма Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
146
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОДИРОВАНИЕ ТЕКСТА / ГРАФЕМЫ ЯЗЫКА / ЭНТРОПИЯ / ДИАХРОНИЧЕСКИЙ АНАЛИЗ / CODING OF THE TEXT / A GRAPHEME OF LANGUAGE / ENTROPY / DIACHRONIC THE ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Васильев Е. М., Жданова Д. В.

Проведён диахронический анализ статистических характеристик графем русского письма на художественных текстах, созданных за период с 1861 по 1956 годы. Найденные распределения частот встречаемости и рангов графем, а также значения их энтропии и относительных погрешностей распределений указывают на высокую временную устойчивость рассмотренных характеристик. В ходе исследования выявлена статистически значимая тенденция к образованию групп графем с близкими значениями ранговых вероятностей

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIACHRONIC RESEARCH ENTROPY OF GRAPHEMES THE RUSSIAN SCRIPT

The analysis of statistical characteristics of graphemes of the Russian letter on the art texts for the period with 1861 for 1956 created diachronic. The found distributions of frequencies occurrence and ranks of graphemes, and also entropy and relative errors of distributions specify their values high time stability of the considered characteristics. During research statistically significant tendency to formation of groups graphemes with close values rank probabilities is revealed

Текст научной работы на тему «Диахроническое исследование энтропии графем русского письма»

УДК 621.391.1:519.27

ДИАХРОНИЧЕСКОЕ ИССЛЕДОВАНИЕ ЭНТРОПИИ ГРАФЕМ РУССКОГО ПИСЬМА

Е.М. Васильев, Д.В. Жданова

Проведён диахронический анализ статистических характеристик графем русского письма на художественных текстах, созданных за период с 1861 по 1956 годы. Найденные распределения частот встречаемости и рангов графем, а также значения их энтропии и относительных погрешностей распределений указывают на высокую временную устойчивость рассмотренных характеристик. В ходе исследования выявлена статистически значимая тенденция к образованию групп графем с близкими значениями ранговых вероятностей

Ключевые слова: кодирование текста, графемы языка, энтропия, диахронический анализ

Задача анализа текста как символьного кода восходит в своей постановке к работам К. Шеннона [1,2], в которых указывается на возможность построения эффективных способов кодирования и сжатия текстовой информации на основе известных статистических свойств символов (графем) печатного текста: частоты встречаемости каждого символа и их энтропии. В настоящее время эти показатели широко используются для построения различных шифров замены и разнообразных модификаций кодов Хаффмана, позволяющих получать информационную ёмкость кодовых сообщений близкую к энтропии исходного сообщения [3,4].

В работах [5-8] указанный анализ проводился, главным образом, с целью ранжирования символов письменности по частоте встречаемости и выявления отклонений полученного ряда от закона Ципфа [9]. Большая часть этих исследований носит корпусный характер и направлена на выявление вневременных статистических особенностей подъязыко-вых или конкретных авторских текстов [10]. В то же время в работах Н.Д. Андреева [11] и С.М. Гусейн-Заде [7] высказывались соображения о целесообразности диахронического исследования статистических характеристик элементов письменности, отвечающего идеям Де Соссюра и дающего возможность сделать выводы о степени устойчивости этих элементов [12].

В настоящей статье такое исследование проведено для 32 графем - букв алфавита русского письма - на основе анализа пяти однотипных отрывков художественных текстов, созданных за период, составляющий около ста лет:

Тургенев И.С. “Отцы и дети”, 1861год;

Толстой Л.Н. “Война и мир”, 1863-1869 годы;

Бунин И. А. “Антоновские яблоки”, 1900 год;

Шолохов М. А. “Тихий Дон. Т.1”, 1928 год;

Пастернак Б.Л. “Доктор Живаго”, 1956 год.

Сравнительный анализ этих текстов проводился в современной орфографии и исключает влияние декретных изменений орфографических норм. Кроме указанных, для контрольного сопоставления были использованы результаты статистического анали-

Васильев Евгений Михайлович - ВГТУ, канд. техн. наук, ст. науч. сотрудник, e-mail: vgtu-aits@yandex.ru, тел. 84732437776

Жданова Дина Владимировна - ВГТУ, студент, e-mail: vgtu-aits@yandex.ru, тел. 84732437720

за графем технического текста по радиоэлектронике 1961 года [11].

В табл. 1 приведены результаты расчёта частот встречаемости (ранговых вероятностей) р,, ,=1,...,5 графем алфавита (знаки е и ё не различались) для второго и пятого в указанном выше порядке текстов с объёмами около 3000 символов.

Таблица 1

Ранговое распределение вероятностей графем

1956 год

№ Графема Р5

1 о 0.10881

2 и 0.08609

3 а 0.08569

4 е.ё 0.07573

5 н 0.06536

6 л 0.05580

7 с 0.04862

8 р 0.04583

9 т 0.04344

10 в 0.03786

11 м 0.03747

12 д 0.03468

13 к 0.03388

14 п 0.03149

15 ы 0.03069

16 з 0.02112

17 у 0.02033

18 г 0.01993

19 ь 0.01794

20 б 0.01754

21 я 0.01754

22 ч 0.01236

23 х 0.01076

24 ж 0.00837

25 й 0.00837

26 ю 0.00837

27 ш 0.00638

28 ц 0.00478

29 щ 0.00279

30 ф 0.00159

31 э 0.00040

32 ъ 0

1863-1869 годы

№ Графема Р2

1 о 0.09968

2 а 0.08682

3 е. ё 0.08360

4 и 0.06913

5 н 0.06752

6 л 0.05667

7 с 0.05506

8 р 0.04863

9 в 0.04461

10 т 0.04381

11 к 0.03899

12 м 0.03859

13 д 0.02934

14 у 0.02894

15 ь 0.02371

16 я 0.02251

17 п 0.02010

18 з 0.01809

19 г 0.01768

20 б 0.01688

21 ж 0.01447

22 ы 0.01407

23 х 0.01125

24 ч 0.01045

25 й 0.01045

26 ю 0.00924

27 ш 0.00884

28 ц 0.00482

29 щ 0.00322

30 ф 0.00161

31 э 0.00080

32 ъ 0.00040

Представленный в табл. 1 фрагмент результатов анализа содержит массивы символов, не включающие в себя наиболее редко встречающуюся графему “ъ”, или включающие её только один раз. В связи с этим, для определения статистически

представительного объёма выборки указанный анализ был повторен для всех пяти текстов на массивах из 20-30 тысяч знаков, а также использованы результаты аналогичного анализа на 600 тысячах символов текста “Войны и мира”, любезно предоставленные К.Ю. Гусевым. На рис.1 показаны средние значения вероятностей:

рср ,і

]=1 П

Р] Ф 0; п = 1,5; і = 1,32;

для массивов рсрз,, Рср30і, Рб00, соответственно. 1

Р

0.1

0.01

-з 1 -10 3

1 -10 ,-5

—тР

^Рсрб00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 10 0 10 20 30 ,

Рис. 1. Анализ репрезентативности выборок

Рис. 1 свидетельствует о достаточно высокой репрезентативности малых выборок для большей части графем, за исключением двух-трёх наиболее редко встречающихся: “ф”, “э”, “ъ”. В то же время частоты встречаемости “ъ” в массивах рср30г- и р60ш близки, и можно сделать вывод о достаточной представительности выборок объёмом 20-30 тысяч символов.

Графическое сопоставление вероятностного распределения графем в диахронии дано на рис. 2, наглядно подтверждающем близость этих распределений.

Рис. 2. Сопоставление ранговых распределений вероятностей графем в диахронии

Количественной мерой диахронической устойчивости частоты встречаемости графем может служить относительное отклонение е, от среднего значения вероятности:

Р, - Рср,і

Р,

і = 1,32 :

график распределения которого показан на рис. 3.

Рис. 3. Распределение относительного отклонения ранговых распределений от среднего

Среднее значение относительной ошибки еф=0,069 вычислялось по выражению:

32

!е,

есР - 32 .

Для сопоставления не вероятностной, а порядковой устойчивости графем в диахронии, получены и сведены в табл. 2 ранговые распределения для всех указанных выше текстов.

Таблица 2

Ранги графем в исследуемом диапазоне времени

Графема Ранги графем по годам

1861 1863- 1869 1900 1928 1956 1961 1863- 1869 (600 тыс. зн.)

1 2 3 4 5 6 7 8

а 3 2 3 2 2 3 2

б 21 20 20 22 20 21 21

в 8 9 9 10 9 8 9

г 19 19 18 16 16 19 17

д 13 15 13 14 13 13 12

е,ё 2 3 2 3 3 2 3

ж 24 24 26 24 24 24 24

з 22 18 21 20 19 22 20

и 4 5 4 4 4 4 4

й 23 23 25 21 23 23 23

к 11 11 11 11 11 11 11

л 9 7 10 6 8 9 8

м 12 12 12 15 12 12 13

н 5 4 5 5 5 5 5

о 1 1 1 1 1 1 1

п 14 13 15 13 15 14 15

р 10 10 8 9 10 10 10

с 7 8 7 7 7 7 7

т 6 6 6 8 6 6 6

у 15 14 14 12 14 15 14

ф 31 31 31 31 31 31 31

Бі =

Продолжение табл. 2

1 2 3 4 5 6 7 8

х 26 27 22 26 25 26 26

ц 29 28 29 28 29 29 28

ч 17 22 24 23 22 17 22

ш 25 26 23 25 26 25 25

щ 30 29 28 29 28 30 30

ъ 32 32 32 32 32 32 32

ы 20 21 17 18 17 20 19

ь 18 17 19 19 21 18 18

э 28 30 30 30 30 28 29

ю 27 25 27 27 27 27 27

я 16 16 16 17 18 16 16

Энтро- пия 4,45 4,45 4,47 4,50 4,46 4,45 4,47

Энтропия Н вычислялась по выражению:

32

Н --ЕР, 1о§2 р,.

,-1

Анализ табл. 2 подтверждает статистически высокую устойчивость ранговых распределений, вариации которых обусловлены близкими значениями частот встречаемости ряда графем, образующих, в силу этого, вполне различимые обособленные группы символов. Наличие указанных групп наглядно демонстрируется на рис.4, составленном на основе анализа текста И.С. Тургенева 1861 г.

с близкими частотами встречаемости

В соответствии с рис. 4 можно выделить следующие группы графем: е, а; и, н, т;

Воронежский государственный технический университет

с, в, л, р; к, м, д, п, у; я, ч, ь, г, ы, б, з.

При этом общий вид распределения ранговых вероятностей графем, представленный в логарифмическом масштабе для вероятностей и натуральном масштабе для рангов, в первом приближении может быть принят линейным.

Литература

1. Шеннон К. Математическая теория связи / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 243-332.

2. Шеннон К. Предсказание и энтропия английского печатного текста / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 669-686.

3. Huffman D.A. A method for the construction of mini-mum-redundancy codes / D.A. Huffman // Proc. Inst. Radio Engineers. - 1952. - Vol. 40, № 9. - Pp. 10981101.

4. Сэломон Д. Сжатие данных, изображений и звука / Д. Сэломон. - М.: Техносфера, 2004. - 368 с.

5. Национальный корпус русского языка: 2006-2008 / Отв. ред. В. А. Плунгян. - С-Пб.: Нестор-История, 2009. - 502 с.

6. Корпусные исследования по русской грамматике / Ред.-сост. К.Л. Киселева, В. А. Плунгян и др. - М.: Пробел, 2009. - 516 с.

7. Гусейн-Заде С.М. О распределении букв русского языка по частоте встречаемости / С.М. Гусейн-Заде // Проблемы передачи информации. - 1988. - №4. - С. 102-107.

8. Усманов З.Д. К вопросу о наилучших раскладках английских и русских символов на компьютерной клавиатуре / З. Д. Усманов, О. М. Солиев // Программные продукты и системы. - 2004. - №4. - С. 38-41.

9. Zipf G. K. Human behavior and the principle of least effort / G.K.Zipf - Cambridge, (Mass.): Addison-Wesley, 1949 - 573 p.

10. Андреева Л. Д. Получение первого морфологического типа русского языка в подъязыке радиоэлектроники посредством алгоритма статистико-комбинаторного моделирования / Л.Д. Андреева, Е.Е. Корди, Л.Н. Смирнова и др. // Сб. тр. “Статистико-комбинаторное моделирование языков”. - М.-Л.: Наука, 1965. - С.49-64.

11. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении / Н. Д. Андреев. - Л.: Наука, 1967. - 405 с.

12. Де Соссюр Ф. Курс общей лингвистики / Ф. Де Сос-сюр. - М.: Логос, 1998. - 296 с.

DIACHRONIC RESEARCH ENTROPY OF GRAPHEMES THE RUSSIAN SCRIPT E.M.Vasilyev, D.V. Zhdanova

The analysis of statistical characteristics of graphemes of the Russian letter on the art texts for the period with 1861 for 1956 created diachronic. The found distributions of frequencies occurrence and ranks of graphemes, and also entropy and relative errors of distributions specify their values high time stability of the considered characteristics. During research statistically significant tendency to formation of groups graphemes with close values rank probabilities is revealed

Key words: coding of the text, a grapheme of language, entropy, diachronic the analysis

i Надоели баннеры? Вы всегда можете отключить рекламу.