УДК 621.391.1:519.27
АНАЛИЗ ИЗБЫТОЧНОСТИ РУССКОЯЗЫЧНОГО ТЕКСТА
ЕМ. Васильев, К.Ю. Гусев
Рассматриваются статистические характеристики текста, необходимые для оптимального кодирования содержащейся в нём информации. Определены энтропии различных по сложности элементов русского письма и проведён анализ ранговых распределений вероятностей их встречаемости. Показано неудовлетворительное соответствие известных законов распределений свойствам русскоязычного текста и предложен потоковый подход к описанию этих распределений как обладающих свойствами немарковских процессов
Ключевые слова: кодирование, избыточность текста, энтропия графем, ранговое распределение
1. Постановка задачи
Разработка способов кодирования текста как источника информации предполагает определение статистических характеристик его избыточности и построение моделей рангового распределения в нём элементарных символов письма.
Теоретической предпосылкой возникновения указанной избыточности является осмысленность реального тестового сообщения, представляющего собой в формальном плане не совокупность независимых символов, но систему взаимосвязанных элементов письма [1,2]. Наличие этой взаимосвязи обусловлено не только смысловым содержанием текста, но и внутренней структурой языка и свидетельствует, в более широком смысле, о промежуточной функции текста как символьного кода. Представляя семантическое содержание сообщения некоторой информационной системой Sc, а соответствующий ему текст - информационной системой ST, получаем, что в соответствии с принципом необходимого разнообразия У. Эшби [3], энтропия Н1 символов текста имеет некоторый предел, превышение которого не даёт увеличения смысловой информации, но приводит к появлению избыточности текста. Это обстоятельство, в свою очередь, порождает задачу вторичного кодирования символьного текстового сообщения, например, в двоичный код с минимальной избыточностью уже не по отношению к тексту ST, а по отношению к первичной системе Sc. Очевидно, что в этом случае следует допустить, что энтропия НК вторичного кода может быть меньше энтропии Н1 совокупности независимых символов текста, что может быть записано в виде двухстороннего неравенства:
Нс<Нк<Н 1.
Вторая из упомянутых выше характеристик теста - ранговое распределение вероятностей p(i) его да-грамм является количественной мерой возможного разнообразия системы из n элементов и позволяет вычислить энтропию:
H = -£ P(i)l0g2 p(i).
i=1
Васильев Евгений Михайлович - ВГТУ, канд. техн. наук, ст. науч. сотрудник, е-шаД [email protected], тел. 8(4732) 43-77-76
Гусев Константин Юрьевич - ВГТУ, студент, е-шаД [email protected], тел. 8(4732) 43-77-20
Определение ранговых распределений вероятностей для каждого конкретного текста достаточно трудоёмко и важное практическое значение приобретают типовые модели этих распределений, наиболее известной из которых является модель Ципфа [4]:
k ________
P(i) =—; i = 1,n, (1)
i
где k=p(1); a - показатель, принимаемый в лингвистических приложениях равным единице.
Исследованию этой модели посвящены например, работы [5,6] в которых отмечается неудовлетворительное выполнение этого закона в русскоязычных текстах и указывается на необходимость построения альтернативным моделей.
Предлагаемая ниже работа включает в себя:
анализ энтропии да-грамм для случаев да=1,2,3, а также полных слов русскоязычного текста;
исследование степени соответствия ранговых распределений вероятностей элементов текста закону Ципфа;
построение модели распределения, адекватно описывающей свойства текста на русском языке.
2. Вычисление энтропии элементов текста
В качестве материала исследования был использован корпус прозаического художественного теста первого тома “Войны и мира” Л.Н.Толстого, содержащий 641226 символов русского алфавита вместе с пробелом; символы е и ё не различались. В тексте 103333 слова, средняя длина слова L=6,205 символов (5,205 буквы с двумя “половинами” пробелов перед словом и после него).
Теоретически верхней границей энтропии текста как кода с основанием n=33 является значение Но:
H0 = log2 33 = 5,044 бит .
Фактической верхней границей энтропии является значение Н1, вычисляемое с учётом распределения вероятностей p(i) каждого символа, представленного в табл.1, в которой незаполненные ячейки соответствуют символу “пробел”:
H1 = -£P(i)log2 P(i) = 4,38 бит . i=1
Величина Н1 определяется из предположения о независимости появления в тексте каждого из n
символов. С целью определения взаимосвязанного появления каждого из п символов с другими были определены вероятности р(у) появления всех п2=п2-е2 диграмм, где е2 - количество несуществующих или не встречающихся в тексте редких пар символов, состоящих, например, из двух мягких или твёрдых знаков и их сочетаний с “й” и с впереди стоящим символом, обозначающим гласный звук, из двух шипящих и т.д., п2=786 , см. табл.1.
Таблица 1
Распределение вероятностей отдельных символов и диграмм текста
№ Символ р(0 № Диграмма Р(Ш)
1 0,1612 1 о 0,0206
2 о 0,0955 2 и 0,0179
3 а 0,0707 3 а 0,0170
4 е 0,0657 4 с 0,0158
5 и 0,0557 5 е 0,0155
6 н 0,0549 6 п 0,0151
7 т 0,0473 7 в 0,0149
8 с 0,0446 8 н 0,0145
9 л 0,0423 9 т о 0,0132
10 в 0,0385 10 о 0,0119
11 р 0,0380 11 к 0,0110
12 к 0,0305 12 я 0,0109
13 д 0,0254 13 и 0,0108
14 м 0,0246 14 с т 0,0103
15 у 0,0240 15 ь 0,0102
16 п 0,0215 16 н а 0,0101
17 я 0,0193 17 г о 0,0089
18 г 0,0174 18 а л 0,0088
19 ь 0,0163 19 н о 0,0088
20 ы 0,0158 20 н е 0,0086
21 з 0,0149 21 п о 0,0085
22 б 0,0144 22 р а 0,0083
23 ч 0,0114 23 к о 0,0081
24 й 0,0096 24 о в 0,0080
25 ж 0,0085 25 к а 0,0079
26 ш 0,0079 26 л 0,0078
27 х 0,0071 27 й 0,0075
28 ю 0,0054 28 б 0,0073
29 ц 0,0034 29 м 0,0072
30 э 0,0025 30 в о 0,0069
31 щ 0,0023
32 ф 0,0019 472 г к 0,0001
33 ъ 0,0004
Н1 4,3832 Н2 3,5585
Энтропия системы из п символов с учётом парных взаимосвязей (диграмм) вычислялась по выражению:
НШ = -И Р(Ш) ^2 рШ Р(Ч) > 0 ,
* ш
где Р( Ш) - вероятность появления диграммы, содержащей символы * и ], * = 1, п, Ш = 1, п
Для рассматриваемого текста Н=7,94 бит. Выполнение неравенства Н у<2Н1 (7,94<2-4,38) подтверждает наличие ненулевой условной вероятности
Р (Ш) появления символа при известном символе Ш. В случае полной независимости символов в диграммах наблюдалось бы равенство Н щ=2Н\. При этом:
Р1(ш) = пР(Ш) = -ЦР(ш)!^2 Р(Ч) +
I р(Ш) 1 Ш
Ш=1
+ II Р(Ш) log2 I Р(Ш) =
* Ш Ш=1
= НШ +11 Р(Ш) log2 I Р(Ш) =
* Ш Ш = 1
= НШ +1 Р(Ш)1 РО'^^ Р() =
Ш *
= НШ - Н1.
Тогда, введя в рассмотрение условную энтропию:
Н, (1) = -11 Р(Ч)log2 Р , (Ш) =
* Ш
= -II Р( Ш )^2-Ш,
' Ш Iр(ш)
Ш=1
мы сможем использовать её как степень неопреде-лённости Н2 символа текста в диграммах. Отсюда следует:
Н2=Н1(/)=НШ-Н1=7,94-4,38=3,56 бит.
Определив аналогично энтропию Нук системы триграмм (п3=п3-е3=7097, табл.2):
Ншк = -III р(Ш)log2 р(Ш); р(Ш) > 0 ,
* ] к
можно получить условную энтропию Н3 одного символа в триграммах:
Нз=НШ(к)=НШк-НШ=10,87-7,94=2,89 бит.
Дальнейшее увеличение длины да-грамм становится нецелесообразным ввиду получающейся очень большой доли бессмысленных комбинаций символов, и осуществлён переход к рассмотрению текста как системы слов. В рассматриваемом корпусе из общего числа слов, равного 103333, встретилось только 19505 разных слова. Распределение слов по квантилям: х0,25=24; х0,5=272; х0,75=23 83. В
табл. 2 представлен фрагмент рангового распределения частоты встречаемости рДО слов текста. Значение энтропии полученной системы слов Н„=11,11 бит, что соответствует, с учётом средней длины слова ¿=6,205 символа, средней энтропии Н на один символ:
Н = = _Щ_ = 1,79 бит .
Ь 6,205
Если вычислять среднюю энтропию на одну букву слова, то получим:
тт 111
Н =-^ = ^- = 2,14 бит .
Ь -1 5,205
В табл. 3 представлен ряд найденных значений неопределённостей в сравнении с аналогичным рядом для англоязычного текста [2].
Таблица 2 Распределение вероятностей триграмм и слов текста
№ Триграмма р(і]к) № Слово рЛО
1 и 0.0078 1 и 0.0486
2 п о 0.0071 2 в 0.0228
3 н е 0.0061 3 не 0.0191
4 т о 0.0054 4 он 0.0175
5 н а 0.0051 5 что 0.0158
6 н а 0.0050 6 на 0.0155
7 г о 0.0048 7 с 0.0133
8 п р 0.0046 8 как 0.0103
9 о н 0.0041 9 к 0.0088
10 т ь 0.0039 10 его 0.0082
11 н е 0.0039 11 я 0.0081
12 а л 0.0038 12 князь 0.0060
13 н о 0.0037 13 но 0.0057
14 в 0.0037 14 она 0.0055
15 ч т о 0.0032 15 сказал 0.0055
16 о н 0.0032 16 это 0.0055
17 ч т 0.0031 17 а 0.0054
18 с ь 0.0031 18 было 0.0048
19 о с т 0.0029 19 так 0.0046
20 л и 0.0029 20 то 0.0044
21 б ы 0.0029 21 за 0.0044
22 о й 0.0028 22 всё 0.0038
23 к а 0.0028 23 по 0.0038
24 к о 0.0028 24 ему 0.0038
25 л а 0.0028 25 от 0.0037
26 е г о 0.0028 26 был 0.0036
27 с я 0.0028 27 же 0.0035
28 с к а 0.0026 28 вы 0.0035
29 з а 0.0026 29 её 0.0035
30 о м 0.0026 30 из 0.0032
1470 и х о 0.0001 1116 такою 0.0001
Н3 2,89 Н 1,79
Таблица 3 Изменение энтропии одного символа по мере полноты учитываемых взаимосвязей
Язык текста Значение энтропии, бит
Н0 Н, Н2 Н3 Н
Русский 5,044 4,38 3,56 2,89 1,79(2,14)
Английский 4,75 4,03 3,32 3,10 2,14
Значение Н0 для англоязычного текста вычислялось для 27 символов (26 букв с пробелом).
3. Построение моделей рангового распределения вероятностей
Задача моделирования распределений р(і), необходимых для вычисления рассмотренных выше энтропийных характеристик систем кодирования, сталкивается, в первую очередь с существенными отличиями этих распределений для различных языков [7] и для разных да-грамм одного языка, рис. 1,2.
Р(і)
0.1
0.01
1 -10
-3
1 -10
-4
1
10 і 100
Рис. 1. Ранговые распределения графем русскогорт(і) и вьетнамского ри(і) языков
Рис. 2. Ранговые распределения да-грамм русского языка: графемы Р1О), диграммы Р2О), триграммы р3(г), слова р„(г)
Качественный характер отличий приводит к тому, что использование какого-либо одного закона - закона Ципфа (1) или, например, зависимости, предложенной С.М. Гусейном-Заде :
р(() = — [(п +1) - 1п * ], (2)
п
для описания всего разнообразия ранговых распределений не удаётся (рис. 3,4).
Кроме того, для применения ранговых распределений в системах оптимального кодирования текстовой информации необходимо выполнение условия образования элементами текста полной группы
п
случайных событий: Iр(1) = 1, и точное вычисле-
*=1
ние вероятности Р(1) элемента с первым - наибольшим рангом. Одновременно эти условия в (1) и (2) принципиально недостижимы.
Рис. 3. Применение законов (1) и (2) к распределению слабо взаимосвязанных элементов
Рис. 4. Применение законов (1) и (2) к распределению сильно взаимосвязанных элементов
В качестве альтернативного подхода к моделированию ранговых распределений р(г) предлагается представить последовательность символов потоком событий с последействием, причём вероятность появления события с рангом т=1 определяется смещённым распределением Эрланга [8] с порядком к<1:
^ )к-1
p(r) = -
т_е-х,
(3)
Г(к +1)
где Г(-) - гамма-функция; да - дополнительный свободный параметр, обеспечивающий в совокупности с X и к условия образования элементами текста полной группы событий, а также точное совпадение начальных значений р(г) и р(г) при г=г=1.
Идентификация параметров X, к, да зависимости (3) осуществляется методом наименьших квадратов относительной ошибки:
I
Г = 1
P(i )в
(4)
параметр р которой позволяет выбирать различную степень чувствительности критерия (4) в диапазоне малых значений вероятностей р(г) и р(г). Результаты идентификации представлены в табл. 4 и на рис. 5.
Таблица 4 Параметры потоковых распределений
n X k m в
33 763-10-4 0,61 575-10-4 0,4
786 84,6-10-4 0,78 66,9-10-4 0,5
7097 8,06-10-4 0,63 5,15-10-4 0,5
19505 0,498-10-4 0,15 0,102-10-4 0,4
0.1
0.01
1 10 1 10“
,-3
1 10
г5
1 10
,“6
1 10
-7
v
^P1(r)
p2(r)
P1 or* 'Ps(r)
Pw(i)
P2(i) • Pw(r)
'Ps(i)
3 4 5
100 1 103 1 104 1 105
1 i 10
Рис. 5. Применение потоковой модели (3) для описания различных распределений
Рис. 5 свидетельствует о более высокой адекватности потоковой модели (3) по сравнению с (1) и (2) в широком диапазоне распределений.
Заметим, что повышение адекватности моделей ценой усложнения их аналитической формы указывает на целесообразность перехода к алгоритмическому представлению этой формы, например, в виде нейросетевой структуры.
Литература
1. Шеннон К. Математическая теория связи / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 243-332.
2. Шеннон К. Предсказание и энтропия английского печатного текста / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 669-686.
3. Эшби У.Р. Введение в кибернетику / У.Р. Эшби. - М.: УРСС, 2006. - 432 с.
4. Zipf G. K. Human behavior and the principle of least effort / G.K.Zipf - Cambridge, (Mass.): Addison-Wesley, 1949. - 573 p.
5. Арапов М.В. Квантитативная лингвистика / М.В. Ара-
пов. - М.: Наука, 1988. - 183 с.
6. Гусейн-Заде С.М. О распределении букв русского языка по частоте встречаемости / С.М. Гусейн-Заде // Проблемы передачи информации. - 1988. - №4. - С. 102-107.
7. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении / Н.Д. Андреев. - Л.: Наука, 1967. - 405 с.
8. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. - М.: Высш.шк., 2003. -479 с.
Воронежский государственный технический университет
1
P
THE ANALYSIS OF REDUNDANCY THE RUSSIAN-SPEAKING TEXT E.M. Vasilyev, K.J. Gusev
The statistical characteristics of the text necessary for optimum coding of the information contained in it are considered. Are determined entropy various elements on complexity of the Russian letter and the analysis paHTOBBix distributions of probabilities their occurrence is lead. Unsatisfactory conformity of known laws distributions to properties of the Russian-speaking text is shown and is offered stream the approach to the description of these distributions, as having by properties non-markovian processes
Key words: coding, redundancy of the text, entropy per a symbol, rank characteristic