Научная статья на тему 'Сравнение эффективности методов определения авторства текста программно-вычислительными средствами'

Сравнение эффективности методов определения авторства текста программно-вычислительными средствами Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
282
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АТРИБУЦИЯ ТЕКСТА / ATTRIBUTION OF THE TEXT / МЕРА ХМЕЛЁВА / HMELEV MEASURE / СТАТИСТИКА ХИ-КВАДРАТ / CHI-SQUARE STATISTICS / ДИВЕРГЕНЦИЯ КУЛЬБАКА / KULBAK DIVERGENCE / БЕЛЛЕТРИСТИКА / FICTION / ЖУРНАЛИСТИКА / JOURNALISM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Назаренко Юрий Леонидович

Статья посвящена сравнению эффективности трёх методов определения авторства текста меры Хмелёва, статистики хи-квадрат и дивергенции Кульбака. Приводится описание задачи атрибуции определения авторства текста, проблем, с которыми можно столкнуться при выполнении этой задачи. Даны описания трёх методов атрибуции текста, а также математические формулы, по которым идут расчёты. Исследование эффективности этих методов проведено отдельно для художественной литературы и газетных статей, проведено её сравнение. Также рассмотрены причины того, почему методы дают разную эффективность при работе с разными видами авторских текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение эффективности методов определения авторства текста программно-вычислительными средствами»

TECHNICAL SCIENCES

COMPARISON OF EFFECTIVENESS OF METHODS OF DETERMINING THE AUTHORITY OF TEXT BY SOFTWARE AND COMPUTING FACILITIES Nazarenko Yu.L. (Russian Federation) Email: Nazarenko429@scientifictext.ru

Nazarenko Yuri Leonidovich - Student, DEPARTMENT OF INFORMATICS AND COMPUTER SCIENCE, DON STATE TECHNICAL UNIVERSITY, ROSTOV-ON-DON

Abstract: the article is devoted to the comparison of the effectiveness of the three methods of determining the authorship of the text of Hmelev measure, the chi-square statistics and the Kulbak divergence. The article describes the task of attribution - determining the authorship of the text, the problems that can be encountered in carrying out this task. There are descriptions of three methods of attribution of the text, as well as mathematical formulas, by which calculations are made. A study of the effectiveness of these methods was carried out separately for fiction and newspaper articles, and a comparison was made. Also, the reasons why the methods give different effectiveness when working with different types of author's texts are considered.

Keywords: attribution of the text, Hmelev measure, chi-square statistics, Kulbak divergence, fiction, journalism.

СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ОПРЕДЕЛЕНИЯ АВТОРСТВА ТЕКСТА ПРОГРАММНО-ВЫЧИСЛИТЕЛЬНЫМИ

СРЕДСТВАМИ Назаренко Ю.Л. (Российская Федерация)

Назаренко Юрий Леонидович - студент, факультет информатики и вычислительной техники, Донской государственный технический университет, г. Ростов-на-Дону

Аннотация: статья посвящена сравнению эффективности трёх методов определения авторства текста - меры Хмелёва, статистики хи-квадрат и дивергенции Кульбака. Приводится описание задачи атрибуции - определения авторства текста, проблем, с которыми можно столкнуться при выполнении этой задачи. Даны описания трёх методов атрибуции текста, а также математические формулы, по которым идут расчёты. Исследование эффективности этих методов проведено отдельно для художественной литературы и газетных статей, проведено её сравнение. Также рассмотрены причины того, почему методы дают разную эффективность при работе с разными видами авторских текстов. Ключевые слова: атрибуция текста, мера Хмелёва, статистика хи-квадрат, дивергенция Кульбака, беллетристика, журналистика.

Введение. Вопрос установления автора текста и времени его написания возникает в различных областях и представляет интерес для филологов, литературоведов, юристов, криминалистов, историков.

Среди широко известных примеров спорного авторства можно назвать активно обсуждавшийся роман-эпопею «Тихий Дон».

Долгое время для решения подобных вопросов использовались историко -документальные и филологические методы исследования. Для выявления авторских

особенностей применялась методика, в соответствии с которой субъективно отбирались внешние детали авторского стиля (любимые слова, термины, выражения). Отметим, что такие исследования трудоемки, поэтому встает вопрос о создании формальных методов решения данной задачи. В настоящее время для установления авторства и датирования текстов применяется множество подходов из теории распознавания образов, математической статистики и теории вероятностей. С развитием науки, начиная с 60-70х гг. XX в., определение авторства текста приобрело более точный, научный характер. Были разработаны методики, позволяющие с достаточной точностью определять авторство текста, основываясь на его различных характеристиках. В данной работе рассмотрены такие методы, как метрика Хмелёва, дивергенция Кульбака и статистика хи-квадрат.

Постановка задачи. Атрибуция текста - исследование текста с целью установления авторства или получения каких-либо сведений об авторе и условиях создания текстового документа [1]. Задачи атрибуции можно разделить на идентификационные и диагностические.

Идентификационные задачи позволяют осуществить проверку авторства:

• подтвердить авторство определенного лица;

• исключить авторство определенного лица;

• проверить тот факт, что автором всего текста был один и тот же человек;

• проверить тот факт, что написавший текст является при этом его настоящим автором.

Идентификационные задачи решаются из предположения, что автор текста известен. Диагностические задачи позволяют определить личностные характеристики автора (образовательный уровень, родной язык, знание иностранных языков, происхождение, место постоянного проживания и др.) и факт сознательного искажения письменной речи. Диагностические задачи решаются из предположения, что автор текста неизвестен. В этих случаях обычно невозможно сопоставить исследуемый текст с текстами автора.

Частотный анализ. Так как русский алфавит содержит 32 буквы, то энтропия опыта, содержащегося в приеме одной буквы русского текста, составляет 5 бит. Это при условии, что все буквы считаются равновероятными. Для более точного вычисления информации, содержащейся в одной букве русского текста, надо знать вероятности появления различных букв [3].

Эти вероятности можно приближённо определить, взяв достаточно большой отрывок, написанный по-русски, и рассчитав для него относительные частоты отдельных букв.

Одним из рассмотренных в данной работе методов определения авторства, основанного на частотных характеристиках текста, является Мера Хмелёва.

Метод и мера Хмелёва. В мае 1999 г. на сайте русской фантастики появилась статья Д. Хмелева, в которой был предложен новый метод установления авторства текстов. Данный метод позволял с высокой точностью классифицировать тексты по авторству на основе сравнения чисел появления паросочетаний букв. Несмотря на успешную реализацию метода и большую популярность, детальных исследований в этом направлении практически не проводилось [4].

Ключевой идеей метода Хмелева является подсчет обработка последовательностей элементов текста. Распознаванию предшествует обучение системы. Обучение производится на текстах заданного множества авторов. Для каждого автора подсчитывается матрица-эталон употреблений всех пар рассматриваемых элементов в его текстах. При распознавании авторства произвольного текста подсчитывается аналогичная матрица и сравнивается со всеми имеющимися матрицами-эталонами. Автор, обладающий наиболее похожей матрицей-эталоном, будет предположительно автором рассматриваемого текста.

В качестве меры сравнения используется величина:

1= -2?- .

где mlij - число переходов из i элемента в j в анализируемом тексте; П11 - общее число переходов из ьго элемента; т21> п21 - аналогичные числа для матрицы того автора, с которым производится сравнение; к - число элементов (если подсчитываются буквосочетания, то к = 32). Значение L тем меньше по модулю, чем меньше различие между матрицами.

Альтернативные меры. Дивергенция Кульбака - близка по смыслу к информационной мере расхождения распределений.

где щ = 2 1п1 ь п2 = 2 1п21.

Меры, указанные выше, «направлены» от матрицы анализируемого текста к матрице-эталону (усреднение по анализируемому тексту). Возможны и другие варианты - направленность на анализируемый текст (усреднение по матрице эталону), симметричная мера (сумма мер в одну и в другую сторону пополам).

Значения логарифмов отношений частот под суммой в формулах могут быть как положительными, так и отрицательными. Общая сумма может то уменьшаться, то увеличиваться в зависимости от значений строк матрицы. Поэтому различие между матрицами не будет расти постоянно. Для обеспечения более стабильных мер возьмем каждое слагаемое по модулю и получим еще две модификации меры. Назовем их модульными мерами, Хмелева и Кульбака соответственно. Другим вариантом сравнения матриц является подсчет статистики хи-квадрат, значение которой также может выступать в качестве меры различия распределений

х 2 = п 1-п 2* 21-12?- 1—1— (ра ¡Щ . х с т1у+т2у V Я1 п2 )

Вычислительные эксперименты. Как видно из графиков, с ростом объемов выборок качество классификации заметно улучшается. Тем не менее, проверка гипотезы о равенстве частот ошибок по критерию хи-квадрат показала статистически значимое отличие вероятностей ошибок по мерам Хмелева и Кульбака от ошибок аналогичных модульных мер и меры хи-квадрат для беллетристики (р < 0,01). Для газетных статей значимо отличается от остальных только мера хи-квадрат (в лучшую сторону, р < 0,001). Наиболее стабильные и точные результаты, полученные по мере хи-квадрат, делают эту меру предпочтительнее других рассмотренных мер.

Примечательно, что авторство газетных статей определяется значительно точнее, чем авторство художественных произведений. Видимо, это связано с богатством языка писателей и, следовательно, более размытыми границами их авторских стилей по сравнению со стилями журналистов. Кроме того, писатель (в отличие от журналиста) работает, как правило, с меньшим дефицитом времени и имеет возможность разнообразить свой стиль.

Таблица 1. Общий процент и число ошибок для разных мер

Вид СМИ Хмелев Кульбак Хиквадрат Хмелев (модуль) Кульбак (модуль)

Беллетристика 37.1% (26708) 36.8% (26486) 35.5% (25548) 35.4% (25454) 34.7% (24967)

Газетные статьи 18% (16177) 17.9% (16070) 17% (15300) 17.9% (16082) 17.6% (15872)

#Хмелёв

■ ■■■■■I. » —» —.......— ■■>

20 40 50 во 100 120 140 160 180 200

Рис. 1. Зависимости числа ошибок от размера фрагментов для разных мер (беллетристика)

20 40 60 30 100 120 140 160 180 200

Рис. 2. Зависимости числа ошибок от размера фрагментов для разных мер (газетные статьи)

В дополнение к имеющимся результатам, был проведен ряд вычислительных экспериментов. Их результаты приведены ниже в виде таблиц и графиков. Использовались текстовые файлы разного размера - для режима работы с беллетристикой это были файлы размера 25, 50, 100 и 150 кб, а для журналистики -20, 50, 75 и 100 кб.

Метод, % ошибок

Размер файла, кб Метрика Хмелёва Дивергенция Кульбака Статистика хи-квадрат

25 80 80 70

50 60 50 60

100 30 30 20

150 30 20 10

Рис. 3. Результаты работы программы для беллетристики Таблица 3. Результаты работы программы для журналистики

% ошибок

Размер файла, кб Метрика Хмелёва Дивергенция Кульбака Статистика хи-квадрат

20 80 70 60

50 40 40 30

75 20 10 10

100 10 10 0

90 5 80 I 70

60 50 40 30

к о

& 20 в 10 0

•Метрика Хмелёва •Дивергенция Кульбака •Статистика хи-квадрат

50

100

150

Размер файла, кб

Рис. 4. Результаты работы программы для беллетристики

0

По результатам сравнения полученных результатов с результатами, изложенными в работе Шевелёва О. Г., можно сделать следующие выводы. Графики полученных результатов имеют похожую форму, а сами результаты заметно схожи. Исходя из этого, можно сказать, что проведённые эксперименты подтверждают имеющиеся. Также становится очевидно, что эффективность алгоритмов прямо пропорциональна размеру исследуемого текста, и работает лучше для журналистики, нежели для беллетристики.

Список литературы /References

1. Батура Т.В. Формальные методы определения авторства текстов. // Вестник НГУ. Сер. Информационные технологии, 2012. Июнь.

2. Гоголева В.А. Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии // Вестник Пермского университета, 2014. № 27.

3. Хмелёв Д.В. Распознавание автора текста с использованием цепей АА. // Вестник МГУ, 2000. № 2. 10 мая.

4. Шевелёв О.Г. Сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов // Кибернетика, 2005. 20 мая.

Список литературы на английском языке /References in English

1. Batura T.V. Formal methods for determining the authorship of texts. / Bulletin of NSU. A series of "Information technologies", 2012. June.

2. Gogoleva V.A. A mathematical approach to the establishment of authorship and the time of creation of the text on the basis of research of its entropy // Bulletin of Perm University, 2014. № 27.

3. Hmelev D.V. Recognition of the author of the text using chains AA. // Bulletin of the Moscow State University, 2000. № 2. May 10.

4. Shevelyov O.G. Comparative analysis of the efficiency of algorithms for recognizing authorship of texts on the frequencies of transitions // Cybernetics, 2005. 20 May.

i Надоели баннеры? Вы всегда можете отключить рекламу.