АВТОРСКИЙ ИНВАРИАНТ КАК МЕТОД АТРИБУЦИИ ТЕКСТА Юрганов А.А. Email: [email protected]
Юрганов Александр Александрович - магистр, кафедра дискретной математики и информатики, Новосибирский государственный университет, г. Новосибирск
Аннотация: с давних времен перед человечеством стоит задача определения авторства текста, являясь одной из старейших проблем филологии. Не потеряла она актуальности и в современные дни. Разумеется, за тысячелетия существования проблемы учеными было предложено множество методик атрибуции текстов, но в данной работе была проанализирована гипотеза супругов Фоменко о существовании авторского инварианта, позволяющего довольно точно определять принадлежность текста тому или иному писателю. На основании данного метода было разработано приложение для атрибуции текстов.
Ключевые слова: атрибуция текста, авторский инвариант, служебные слова.
AUTHOR'S INVARIANT AS A METHOD OF A TEXT ATTRIBUTION Yurganov A.A.
Yurganov Alexander Alexandrovich - Master, DEPARTMENT OF DISCRETE MATHEMATICS AND INFORMATICS, NOVOSIBIRSK STATE UNIVERSITY, NOVOSIBIRSK
Abstract: for a long time before humanity is the task of determining the authorship of the text, being one of the oldest problems of philology. It has not lost its relevance in modern times. Of course, over the millennia of the existence of the problem, scientists have proposed a number of methods for attributing texts, but in this paper the hypothesis of the Fomenko spouses on the existence of an author's invariant was analyzed, which makes it possible to fairly accurately determine whether a text belongs to one or another writer. Based on this method, an application for attributing texts was developed. Keywords: text attribution, author's invariant, auxiliary words.
УДК519.68; 681.513.7; 612.8.001.57; 007.51.52
Атрибуцией в филологическом контексте принято называть процесс определения подлинности или подложности произведения, а также установления его автора.
В лингвистике нередки случаи возникновения вопросов об установлении авторства литературных произведений. Данная проблема связана с существованием множества анонимных и псевдонимных текстов и является одной из древнейших задач филологии, уходя корнями в глубь веков. В самом деле, еще перед античными филологами вставала задача атрибуции произведений. Причин, по которым автор не указывал свое имя на принадлежащем ему тексте, могло быть множество. В одних случаях безымянность произведения призвана была защитить автора от нежелательных последствий, в других позволяла паразитировать на имени более знаменитых коллег. В частности, авторы могли писать литературные подделки, подражая стилю имитируемого автора. Кроме того, неизвестные имена не могли придать книге сколь-нибудь значимого веса, тем самым не способствуя увеличению спроса на нее, поэтому у книгопродавцев существовала практика прикрепления ложных ярлыков к свиткам. Также существовала вероятность путаницы ярлыков или их утрата.
Стоит упомянуть и о риторических школах, использующих для тренировки мастерства учеников задания по написанию речей от лица видных политических деятелей, что в дальнейшем привело к ошибочному решению рассматривать данные очерки как подлинные сочинения тех, от чьего лица они были написаны. Помимо того, произведения, принадлежащие определённому религиозному или философскому направлению, могли получить имя его основателя, что тоже не способствовало верной атрибуции данных текстов.
Таковы наиболее частые причины безымянности текстов в эпоху до изобретения печати. Тем не менее, проблема атрибуции сохранилась и после, так как значительная часть литературных произведений либо оставалась неопубликованной при жизни автора, либо была опубликована с неточностями и искажениями, как вследствие небрежности, так и сознательно, например, по условиям цензуры.
Учитывая огромнейший пласт анонимных и псевдонимных произведений, дошедший до наших дней, становится понятно насколько важно создание программы, позволяющей решать задачи атрибуции компьютерными методами, и которая смогла бы освободить исследователей от выполнения трудоемкой и сложной работы.
К сожалению, несмотря на множество различных методов для определения авторства произведений, на настоящий момент не существует какого-либо универсального способа, безоговорочно принимаемого всеми исследователями. Поэтому в данном исследовании был рассмотрен метод выявления авторского инварианта, опубликованный супругами В.П. Фоменко и Т.Г. Фоменко в 1983 г.
Авторским инвариантом будем считать количественную характеристику литературных произведений, которая однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов [1, 134].
Сформулируем параметры, сочетанию которых должен удовлетворять авторский инвариант:
1. Авторский инвариант должен быть «бессознательным», то есть таким, который автор не в состоянии контролировать на сознательном уровне.
2. Найденный инвариант должен хранить постоянное значение для текстов автора, либо незначительно колебаться на протяжении всех его книг.
3. Необходимо существование достаточного числа авторских групп, заметно отличающихся друг от друга значениями инварианта.
Для выявления авторского инварианта в данной работе были проанализированы несколько различных параметров, например, среднее число слогов в тексте, частота употребления частицы «не», процентное содержание служебных слов в каждой выборке и пр. Формально алгоритм выявления авторского инварианта можно описать следующим образом:
Пусть W - множество всех слов натурального языка и всех форм этих слов.
Обозначим следующие отображения:
• fогт ■ W — W' - возвращает начальную форму слова
• рагt■ W — W ",где W ' = {глагол, частица, предлог,.. ,,союз} с W - возвращает название части речи
• - возвращает число слогов в слове,
• isEq ■ W2 — { 0, 1 } - выдает 1, если слова равны, и 0, иначе.
Входной блок текста является конечной последовательностью слов .
Все используемые величины можно посчитать с использованием комбинаций этих формул.
Например:
• среднее число слогов в тексте:
к
mlsyl(ti)
1=1
• процент содержания частицы "не":
к
100 V1
-—г / (isEq(part(ti), w ) * isEq(form(ti), form(w ))),
|т| 4—1
1=1
где (w '' = частица, w ' = не)
• процент содержания служебных слов:
к
100 v1
— ^(isEqCpartCtO.wO + isEq(part(ti),w2) + isEq(part(tj), w3)),
i=l
Оказалось, что большинство проанализированных параметров можно условно поделить на два типа: те, что с ростом объема выборки не стабилизируются, и те, чьи значения для каждого автора «склеиваются», что не позволяет корректно провести атрибуцию. И только параметр, определяющий процентное содержание служебных слов в каждой выборке, ответил поставленным условиям, а, следовательно, может служить для атрибуции произведений.
Список литературы /References
1. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-во МГУ, 1996. С.7 68-820.