Научная статья на тему 'Сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов'

Сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
556
247
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Поддубный Василий Васильевич, Шевелев Олег Геннадьевич, Фатыхов Айдар Анасович

Рассматривается подход, предложенный Д.В. Хмелевым для распознавания авторства текстов. Предлагается четыре альтернативных меры сравнения матриц частот переходов элементов в тексте, использующихся для определения авторства. Приводятся результаты вычислительных экспериментов на примере распознавания авторов беллетристики и газетных статей. Делается вывод о предпочтительности использования меры хи-квадрат.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов»

В.В. Поддубный, О.Г. Шевелев, А.А. Фатыхов

СРАВНИТЕЛЬНЫЙ анализ эффективности алгоритмов РАСПОЗНАВАНИЯ АВТОРСТВА ТЕКСТОВ ПО ЧАСТОТАМ ПЕРЕХОДОВ

Рассматривается подход, предложенный Д.В. Хмелевым для распознавания авторства текстов. Предлагается четыре альтернативных меры сравнения матриц частот переходов элементов в тексте, использующихся для определения авторства. Приводятся результаты вычислительных экспериментов на примере распознавания авторов беллетристики и газетных статей. Делается вывод о предпочтительности использования меры хи-квадрат.

В мае 1999 г. на сайте русской фантастики появилась статья Д. Хмелева, в которой был предложен новый метод установления авторства текстов [1]. Данный метод позволял с высокой точностью классифицировать тексты по авторству на основе сравнения чисел появления паросочетаний букв. Несмотря на успешную реализацию метода и большую популярность, детальных исследований в этом направлении практически не проводилось.

В данной работе предлагается сравнение метода Д. Хмелева с аналогичными ему методами, используемыми в статистике, по их эффективности, т.е. точности распознавания автора, в зависимости от объемов выборок (размеров текстовых фрагментов) на различных текстовых данных.

МЕТОД И МЕРА ХМЕЛЕВА.

АЛЬТЕРНАТИВНЫЕ МЕРЫ

Ключевой идеей метода Хмелева является подсчет и обработка последовательностей элементов текста (сочетаний букв, но есть также работа [2], где обрабатываются сочетания грамматических классов слов). Распознаванию предшествует обучение системы. Обучение производится на текстах заданного множества авторов. Для каждого автора подсчитывается матрица-эталон употреблений всех пар рассматриваемых элементов в его текстах. При распознавании авторства произвольного текста подсчитывается аналогичная матрица и сравнивается со всеми имеющимися матрицами-эталонами. Автор, обладающий наиболее похожей матрицей-эталоном, будет предположительно автором рассматриваемого текста.

Несмотря на то, что в работе [1] о матрицах переходов говорится как о реализациях цепей Маркова, свойство марковости, определяемое уравнением Чепмена - Колмогорова [3] для вероятностей переходов, нигде не проверяется и не используется. Поэтому распознавание авторства с помощью таких матриц, на наш взгляд, корректнее называть распознаванием по частотам переходов. Методы, работающие на основе матриц частот переходов, могут варьироваться в зависимости о того, какие именно переходы подсчитываются (букв, слов, предложений, любых или с определенными свойствами) и какая мера используется для сравнения матриц. Для оценки эффективности методов зафиксируем элементы подсчета (остановимся на буквах, как в оригинальном методе Хмелева) без предобработки текста и рассмотрим различные меры сравнения матриц переходов. Так как матрицы частот переходов являются двумерными распределениями, то и сравниваются они с помощью мер сравнения двумерных распределений.

В работе [1] в качестве меры сравнения использовалась величина

L =-±±Щ1} • Ini , (1)

i=1 1 =1 ' i %/ П2г )

где Ш\у - число переходов из / элемента в} в анализируемом тексте; пц - общее число переходов из /-го элемента; т2$, п2/ - аналогичные числа для матрицы того автора, с которым производится сравнение; к -число элементов (если подсчитываются буквосочетания, то к = 32). Значение Ь тем меньше по модулю, чем меньше различие между матрицами. Эта величина близка по смыслу к информационной мере расхождения распределений, известной в статистике как направленная дивергенция Кульбака [4, 5]:

к к

i=1 j=1

I = 2

m1j m2j

(2)

где п = £ Пі , п2 = £ п2і . і=1 і=1

Меры, представленные формулами (1) и (2), «направлены» от матрицы анализируемого текста к матрице-эталону (усреднение по анализируемому тексту). Возможны и другие варианты - направленность на анализируемый текст (усреднение по матрице-эталону), симметричная мера (сумма мер в одну и в другую сторону пополам).

Значения логарифмов отношений частот под суммой в формулах (1) и (2) могут быть как положительными, так и отрицательными. Общая сумма может то уменьшаться, то увеличиваться в зависимости от значений строк матрицы. Поэтому различие между матрицами не будет расти постоянно. Для обеспечения более стабильных мер возьмем каждое слагаемое по модулю и получим еще две модификации меры. Назовем их модульными мерами, Хмелева и Кульбака соответственно.

Другим вариантом сравнения матриц является подсчет статистики хи-квадрат, значение которой также может выступать в качестве меры различия распределений [6]:

к к

X2 = n1n2 SS

1

i=1 j=1 m1j + m2 ij У n

m1j m2ij

(3)

Эта мера построена для двумерных распределений частот переходов исследуемых выборок. Мера хи-квадрат, в отличие от рассмотренных мер, является ненаправленной.

ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ

Качество классификатора, как известно [1], определяется тем, какие объемы текстов используются для нахождения частот переходов при обучении и распознавании. В работе [1] минимально необходимым был признан объем в 100 кбайт. Качество оценивалось числом правильных ответов классификатора.

Проведем сравнение эффективности различных мер по тому же критерию. Рассмотрим пять вышеназванных мер: меру Хмелева (1), информационную меру Кульбака (2), статистику хи-квадрат (3), модульную меру Хмелева и модульную меру Кульбака. В качестве материала для классификации воспользуемся двумя массивами текстов - художественными произведениями различных писателей (153 текста, 36 писателей, 55 Мбайт) и статьями из томских газет за 2003 - 2004 годы (4440 статей, 45 журналистов, 22 Мбайта). Беллетристику и статьи будем рассматривать отдельно.

Сравнение проведем по следующей схеме. Перед началом работы объединим все тексты каждого из авторов в один текст (итого 36 текстов для беллетристики, 45 текстов для статей). Выберем число итераций для обучения (Ь) и для тестирования (Т). Зададим размеры фрагментов, которые необходимо исследовать (возьмем от 20 до 200 с шагом 20 кбайт, всего £ = 10 размеров). Выберем произвольные фрагменты первого размера (20 кбайт) из текста каждого из авторов (всего N фрагментов по числу авторов). Получим матрицы-эталоны. Аналогично получим по одной тестовой матрице для каждого из авторов. Найдем для каждой тестовой матрицы наиболее похожую матрицу-эталон. Если авторы, соответствующие тестовой матрице и найденной матрице-эталоне, отличаются, то зафиксируем ошибку. Повторим выбор фрагментов для тестовых матриц Т раз. Затем выберем новые фрагменты для матриц-эталонов. Повторим весь процесс Ь раз. Будем менять размер фрагмента и повторять процедуру обучения и тестирования, пока не

кончится список размеров. Получим £ • Ь • Т • N проверок. Результатом сравнения методов будет общее число ошибок (табл. 1) и число ошибок для каждого размера (рис. 1 и 2).

Эксперименты проводились при Ь = 10, Т = 20 (большее число итераций практически не меняет результатов). Как видно из графиков, с ростом объемов выборок качество классификации заметно улучшается. Так как меры (1) и (2) похожи по виду, а меры (2) и (3) обычно близки по величине и редко принимают заметно различающиеся значения [7], кривые на графиках мало отличаются. Тем не менее, проверка гипотезы о равенстве частот ошибок по критерию хи-квадрат показала статистически значимое отличие вероятностей ошибок по мерам Хмелева и Кульбака от ошибок аналогичных модульных мер и меры хи-квадрат для беллетристики (р < 0,01). Для газетных статей значимо отличается от остальных только мера хи-квадрат (в лучшую сторону, р < 0,001). Наиболее стабильные и точные результаты, полученные по мере хи-квадрат, делают эту меру предпочтительнее других рассмотренных мер.

Примечательно, что авторство газетных статей определяется значительно точнее, чем авторство художественных произведений. Видимо, это связано с богатством языка писателей и, следовательно, более размытыми границами их авторских стилей по сравнению со стилями журналистов. Кроме того, писатель (в отличие от журналиста) работает, как правило, с меньшим дефицитом времени и имеет возможность разнообразить свой стиль.

Общий % (и число) ошибок для разных мер

Вид СМИ Хмелев Кульбак Хи-квадрат Хмелев (модуль) Кульбак (модуль)

Беллетристика 37,1% (26708) 36,8% (26486) 35,5% (25548) 35,4% (25454) 34,7% (24967)

Газетные статьи 18% (16177) 17,9% (16070) 17% (15300) 17,9% (16082) 17,6% (15872)

Рис. 1. Зависимости числа ошибок от размера фрагментов для разных мер (беллетристика)

Рис. 2. Зависимости числа ошибок от размера фрагментов для разных мер (газетные статьи)

1. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9: Филология. 2000. № 2. С. 115 -126.

2. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. Т. 37. Вып. 2. С. 96 - 109.

3. КомениДж., СнеллДж. Конечные цепи Маркова. М.: Наука, 1982.

4. Кульбак С. Теория информации и статистика. М.: Наука, 1967.

5. Закс Л. Статистическое оценивание. М.: Статистика, 1976. 600 с.

6. Крамер Г. Математические методы статистики. М.: Мир, 1976. 648 с.

7. Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. 144 с.

Статья представлена кафедрой прикладной информатики факультета информатики Томского государственного университета, поступила в научную редакцию «Кибернетика» 20 мая 2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.