Научная статья на тему 'Анализ избыточности русскоязычного текста'

Анализ избыточности русскоязычного текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
629
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОДИРОВАНИЕ / ИЗБЫТОЧНОСТЬ ТЕКСТА / ЭНТРОПИЯ ГРАФЕМ / РАНГОВОЕ РАСПРЕДЕЛЕНИЕ / CODING / REDUNDANCY OF THE TEXT / ENTROPY PER A SYMBOL / RANK CHARACTERISTIC

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Васильев Е. М., Гусев К. Ю.

Рассматриваются статистические характеристики текста, необходимые для оптимального кодирования содержащейся в нём информации. Определены энтропии различных по сложности элементов русского письма и проведён анализ ранговых распределений вероятностей их встречаемости. Показано неудовлетворительное соответствие известных законов распределений свойствам русскоязычного текста и предложен потоковый подход к описанию этих распределений как обладающих свойствами немарковских процессов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ANALYSIS OF REDUNDANCY THE RUSSIAN-SPEAKING TEXT

The statistical characteristics of the text necessary for optimum coding of the information contained in it are considered. Are determined entropy various elements on complexity of the Russian letter and the analysis ранговых distributions of probabilities their occurrence is lead. Unsatisfactory conformity of known laws distributions to properties of the Russian-speaking text is shown and is offered stream the approach to the description of these distributions, as having by properties non-markovian processes

Текст научной работы на тему «Анализ избыточности русскоязычного текста»

УДК 621.391.1:519.27

АНАЛИЗ ИЗБЫТОЧНОСТИ РУССКОЯЗЫЧНОГО ТЕКСТА

ЕМ. Васильев, К.Ю. Гусев

Рассматриваются статистические характеристики текста, необходимые для оптимального кодирования содержащейся в нём информации. Определены энтропии различных по сложности элементов русского письма и проведён анализ ранговых распределений вероятностей их встречаемости. Показано неудовлетворительное соответствие известных законов распределений свойствам русскоязычного текста и предложен потоковый подход к описанию этих распределений как обладающих свойствами немарковских процессов

Ключевые слова: кодирование, избыточность текста, энтропия графем, ранговое распределение

1. Постановка задачи

Разработка способов кодирования текста как источника информации предполагает определение статистических характеристик его избыточности и построение моделей рангового распределения в нём элементарных символов письма.

Теоретической предпосылкой возникновения указанной избыточности является осмысленность реального тестового сообщения, представляющего собой в формальном плане не совокупность независимых символов, но систему взаимосвязанных элементов письма [1,2]. Наличие этой взаимосвязи обусловлено не только смысловым содержанием текста, но и внутренней структурой языка и свидетельствует, в более широком смысле, о промежуточной функции текста как символьного кода. Представляя семантическое содержание сообщения некоторой информационной системой Sc, а соответствующий ему текст - информационной системой ST, получаем, что в соответствии с принципом необходимого разнообразия У. Эшби [3], энтропия Н1 символов текста имеет некоторый предел, превышение которого не даёт увеличения смысловой информации, но приводит к появлению избыточности текста. Это обстоятельство, в свою очередь, порождает задачу вторичного кодирования символьного текстового сообщения, например, в двоичный код с минимальной избыточностью уже не по отношению к тексту ST, а по отношению к первичной системе Sc. Очевидно, что в этом случае следует допустить, что энтропия НК вторичного кода может быть меньше энтропии Н1 совокупности независимых символов текста, что может быть записано в виде двухстороннего неравенства:

Нс<Нк<Н 1.

Вторая из упомянутых выше характеристик теста - ранговое распределение вероятностей p(i) его да-грамм является количественной мерой возможного разнообразия системы из n элементов и позволяет вычислить энтропию:

H = -£ P(i)l0g2 p(i).

i=1

Васильев Евгений Михайлович - ВГТУ, канд. техн. наук, ст. науч. сотрудник, е-шаД [email protected], тел. 8(4732) 43-77-76

Гусев Константин Юрьевич - ВГТУ, студент, е-шаД [email protected], тел. 8(4732) 43-77-20

Определение ранговых распределений вероятностей для каждого конкретного текста достаточно трудоёмко и важное практическое значение приобретают типовые модели этих распределений, наиболее известной из которых является модель Ципфа [4]:

k ________

P(i) =—; i = 1,n, (1)

i

где k=p(1); a - показатель, принимаемый в лингвистических приложениях равным единице.

Исследованию этой модели посвящены например, работы [5,6] в которых отмечается неудовлетворительное выполнение этого закона в русскоязычных текстах и указывается на необходимость построения альтернативным моделей.

Предлагаемая ниже работа включает в себя:

анализ энтропии да-грамм для случаев да=1,2,3, а также полных слов русскоязычного текста;

исследование степени соответствия ранговых распределений вероятностей элементов текста закону Ципфа;

построение модели распределения, адекватно описывающей свойства текста на русском языке.

2. Вычисление энтропии элементов текста

В качестве материала исследования был использован корпус прозаического художественного теста первого тома “Войны и мира” Л.Н.Толстого, содержащий 641226 символов русского алфавита вместе с пробелом; символы е и ё не различались. В тексте 103333 слова, средняя длина слова L=6,205 символов (5,205 буквы с двумя “половинами” пробелов перед словом и после него).

Теоретически верхней границей энтропии текста как кода с основанием n=33 является значение Но:

H0 = log2 33 = 5,044 бит .

Фактической верхней границей энтропии является значение Н1, вычисляемое с учётом распределения вероятностей p(i) каждого символа, представленного в табл.1, в которой незаполненные ячейки соответствуют символу “пробел”:

H1 = -£P(i)log2 P(i) = 4,38 бит . i=1

Величина Н1 определяется из предположения о независимости появления в тексте каждого из n

символов. С целью определения взаимосвязанного появления каждого из п символов с другими были определены вероятности р(у) появления всех п2=п2-е2 диграмм, где е2 - количество несуществующих или не встречающихся в тексте редких пар символов, состоящих, например, из двух мягких или твёрдых знаков и их сочетаний с “й” и с впереди стоящим символом, обозначающим гласный звук, из двух шипящих и т.д., п2=786 , см. табл.1.

Таблица 1

Распределение вероятностей отдельных символов и диграмм текста

№ Символ р(0 № Диграмма Р(Ш)

1 0,1612 1 о 0,0206

2 о 0,0955 2 и 0,0179

3 а 0,0707 3 а 0,0170

4 е 0,0657 4 с 0,0158

5 и 0,0557 5 е 0,0155

6 н 0,0549 6 п 0,0151

7 т 0,0473 7 в 0,0149

8 с 0,0446 8 н 0,0145

9 л 0,0423 9 т о 0,0132

10 в 0,0385 10 о 0,0119

11 р 0,0380 11 к 0,0110

12 к 0,0305 12 я 0,0109

13 д 0,0254 13 и 0,0108

14 м 0,0246 14 с т 0,0103

15 у 0,0240 15 ь 0,0102

16 п 0,0215 16 н а 0,0101

17 я 0,0193 17 г о 0,0089

18 г 0,0174 18 а л 0,0088

19 ь 0,0163 19 н о 0,0088

20 ы 0,0158 20 н е 0,0086

21 з 0,0149 21 п о 0,0085

22 б 0,0144 22 р а 0,0083

23 ч 0,0114 23 к о 0,0081

24 й 0,0096 24 о в 0,0080

25 ж 0,0085 25 к а 0,0079

26 ш 0,0079 26 л 0,0078

27 х 0,0071 27 й 0,0075

28 ю 0,0054 28 б 0,0073

29 ц 0,0034 29 м 0,0072

30 э 0,0025 30 в о 0,0069

31 щ 0,0023

32 ф 0,0019 472 г к 0,0001

33 ъ 0,0004

Н1 4,3832 Н2 3,5585

Энтропия системы из п символов с учётом парных взаимосвязей (диграмм) вычислялась по выражению:

НШ = -И Р(Ш) ^2 рШ Р(Ч) > 0 ,

* ш

где Р( Ш) - вероятность появления диграммы, содержащей символы * и ], * = 1, п, Ш = 1, п

Для рассматриваемого текста Н=7,94 бит. Выполнение неравенства Н у<2Н1 (7,94<2-4,38) подтверждает наличие ненулевой условной вероятности

Р (Ш) появления символа при известном символе Ш. В случае полной независимости символов в диграммах наблюдалось бы равенство Н щ=2Н\. При этом:

Р1(ш) = пР(Ш) = -ЦР(ш)!^2 Р(Ч) +

I р(Ш) 1 Ш

Ш=1

+ II Р(Ш) log2 I Р(Ш) =

* Ш Ш=1

= НШ +11 Р(Ш) log2 I Р(Ш) =

* Ш Ш = 1

= НШ +1 Р(Ш)1 РО'^^ Р() =

Ш *

= НШ - Н1.

Тогда, введя в рассмотрение условную энтропию:

Н, (1) = -11 Р(Ч)log2 Р , (Ш) =

* Ш

= -II Р( Ш )^2-Ш,

' Ш Iр(ш)

Ш=1

мы сможем использовать её как степень неопреде-лённости Н2 символа текста в диграммах. Отсюда следует:

Н2=Н1(/)=НШ-Н1=7,94-4,38=3,56 бит.

Определив аналогично энтропию Нук системы триграмм (п3=п3-е3=7097, табл.2):

Ншк = -III р(Ш)log2 р(Ш); р(Ш) > 0 ,

* ] к

можно получить условную энтропию Н3 одного символа в триграммах:

Нз=НШ(к)=НШк-НШ=10,87-7,94=2,89 бит.

Дальнейшее увеличение длины да-грамм становится нецелесообразным ввиду получающейся очень большой доли бессмысленных комбинаций символов, и осуществлён переход к рассмотрению текста как системы слов. В рассматриваемом корпусе из общего числа слов, равного 103333, встретилось только 19505 разных слова. Распределение слов по квантилям: х0,25=24; х0,5=272; х0,75=23 83. В

табл. 2 представлен фрагмент рангового распределения частоты встречаемости рДО слов текста. Значение энтропии полученной системы слов Н„=11,11 бит, что соответствует, с учётом средней длины слова ¿=6,205 символа, средней энтропии Н на один символ:

Н = = _Щ_ = 1,79 бит .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ь 6,205

Если вычислять среднюю энтропию на одну букву слова, то получим:

тт 111

Н =-^ = ^- = 2,14 бит .

Ь -1 5,205

В табл. 3 представлен ряд найденных значений неопределённостей в сравнении с аналогичным рядом для англоязычного текста [2].

Таблица 2 Распределение вероятностей триграмм и слов текста

№ Триграмма р(і]к) № Слово рЛО

1 и 0.0078 1 и 0.0486

2 п о 0.0071 2 в 0.0228

3 н е 0.0061 3 не 0.0191

4 т о 0.0054 4 он 0.0175

5 н а 0.0051 5 что 0.0158

6 н а 0.0050 6 на 0.0155

7 г о 0.0048 7 с 0.0133

8 п р 0.0046 8 как 0.0103

9 о н 0.0041 9 к 0.0088

10 т ь 0.0039 10 его 0.0082

11 н е 0.0039 11 я 0.0081

12 а л 0.0038 12 князь 0.0060

13 н о 0.0037 13 но 0.0057

14 в 0.0037 14 она 0.0055

15 ч т о 0.0032 15 сказал 0.0055

16 о н 0.0032 16 это 0.0055

17 ч т 0.0031 17 а 0.0054

18 с ь 0.0031 18 было 0.0048

19 о с т 0.0029 19 так 0.0046

20 л и 0.0029 20 то 0.0044

21 б ы 0.0029 21 за 0.0044

22 о й 0.0028 22 всё 0.0038

23 к а 0.0028 23 по 0.0038

24 к о 0.0028 24 ему 0.0038

25 л а 0.0028 25 от 0.0037

26 е г о 0.0028 26 был 0.0036

27 с я 0.0028 27 же 0.0035

28 с к а 0.0026 28 вы 0.0035

29 з а 0.0026 29 её 0.0035

30 о м 0.0026 30 из 0.0032

1470 и х о 0.0001 1116 такою 0.0001

Н3 2,89 Н 1,79

Таблица 3 Изменение энтропии одного символа по мере полноты учитываемых взаимосвязей

Язык текста Значение энтропии, бит

Н0 Н, Н2 Н3 Н

Русский 5,044 4,38 3,56 2,89 1,79(2,14)

Английский 4,75 4,03 3,32 3,10 2,14

Значение Н0 для англоязычного текста вычислялось для 27 символов (26 букв с пробелом).

3. Построение моделей рангового распределения вероятностей

Задача моделирования распределений р(і), необходимых для вычисления рассмотренных выше энтропийных характеристик систем кодирования, сталкивается, в первую очередь с существенными отличиями этих распределений для различных языков [7] и для разных да-грамм одного языка, рис. 1,2.

Р(і)

0.1

0.01

1 -10

-3

1 -10

-4

1

10 і 100

Рис. 1. Ранговые распределения графем русскогорт(і) и вьетнамского ри(і) языков

Рис. 2. Ранговые распределения да-грамм русского языка: графемы Р1О), диграммы Р2О), триграммы р3(г), слова р„(г)

Качественный характер отличий приводит к тому, что использование какого-либо одного закона - закона Ципфа (1) или, например, зависимости, предложенной С.М. Гусейном-Заде :

р(() = — [(п +1) - 1п * ], (2)

п

для описания всего разнообразия ранговых распределений не удаётся (рис. 3,4).

Кроме того, для применения ранговых распределений в системах оптимального кодирования текстовой информации необходимо выполнение условия образования элементами текста полной группы

п

случайных событий: Iр(1) = 1, и точное вычисле-

*=1

ние вероятности Р(1) элемента с первым - наибольшим рангом. Одновременно эти условия в (1) и (2) принципиально недостижимы.

Рис. 3. Применение законов (1) и (2) к распределению слабо взаимосвязанных элементов

Рис. 4. Применение законов (1) и (2) к распределению сильно взаимосвязанных элементов

В качестве альтернативного подхода к моделированию ранговых распределений р(г) предлагается представить последовательность символов потоком событий с последействием, причём вероятность появления события с рангом т=1 определяется смещённым распределением Эрланга [8] с порядком к<1:

^ )к-1

p(r) = -

т_е-х,

(3)

Г(к +1)

где Г(-) - гамма-функция; да - дополнительный свободный параметр, обеспечивающий в совокупности с X и к условия образования элементами текста полной группы событий, а также точное совпадение начальных значений р(г) и р(г) при г=г=1.

Идентификация параметров X, к, да зависимости (3) осуществляется методом наименьших квадратов относительной ошибки:

I

Г = 1

P(i )в

(4)

параметр р которой позволяет выбирать различную степень чувствительности критерия (4) в диапазоне малых значений вероятностей р(г) и р(г). Результаты идентификации представлены в табл. 4 и на рис. 5.

Таблица 4 Параметры потоковых распределений

n X k m в

33 763-10-4 0,61 575-10-4 0,4

786 84,6-10-4 0,78 66,9-10-4 0,5

7097 8,06-10-4 0,63 5,15-10-4 0,5

19505 0,498-10-4 0,15 0,102-10-4 0,4

0.1

0.01

1 10 1 10“

,-3

1 10

г5

1 10

,“6

1 10

-7

v

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^P1(r)

p2(r)

P1 or* 'Ps(r)

Pw(i)

P2(i) • Pw(r)

'Ps(i)

3 4 5

100 1 103 1 104 1 105

1 i 10

Рис. 5. Применение потоковой модели (3) для описания различных распределений

Рис. 5 свидетельствует о более высокой адекватности потоковой модели (3) по сравнению с (1) и (2) в широком диапазоне распределений.

Заметим, что повышение адекватности моделей ценой усложнения их аналитической формы указывает на целесообразность перехода к алгоритмическому представлению этой формы, например, в виде нейросетевой структуры.

Литература

1. Шеннон К. Математическая теория связи / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 243-332.

2. Шеннон К. Предсказание и энтропия английского печатного текста / К.Шеннон // Сб. тр. “Работы по теории информации и кибернетике”. - М.: Иностр. литература, 1963. - С. 669-686.

3. Эшби У.Р. Введение в кибернетику / У.Р. Эшби. - М.: УРСС, 2006. - 432 с.

4. Zipf G. K. Human behavior and the principle of least effort / G.K.Zipf - Cambridge, (Mass.): Addison-Wesley, 1949. - 573 p.

5. Арапов М.В. Квантитативная лингвистика / М.В. Ара-

пов. - М.: Наука, 1988. - 183 с.

6. Гусейн-Заде С.М. О распределении букв русского языка по частоте встречаемости / С.М. Гусейн-Заде // Проблемы передачи информации. - 1988. - №4. - С. 102-107.

7. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении / Н.Д. Андреев. - Л.: Наука, 1967. - 405 с.

8. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. - М.: Высш.шк., 2003. -479 с.

Воронежский государственный технический университет

1

P

THE ANALYSIS OF REDUNDANCY THE RUSSIAN-SPEAKING TEXT E.M. Vasilyev, K.J. Gusev

The statistical characteristics of the text necessary for optimum coding of the information contained in it are considered. Are determined entropy various elements on complexity of the Russian letter and the analysis paHTOBBix distributions of probabilities their occurrence is lead. Unsatisfactory conformity of known laws distributions to properties of the Russian-speaking text is shown and is offered stream the approach to the description of these distributions, as having by properties non-markovian processes

Key words: coding, redundancy of the text, entropy per a symbol, rank characteristic

i Надоели баннеры? Вы всегда можете отключить рекламу.