УДК 519.25; 004.8 А.О. Шумская
Оценка эффективности метрик расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста
Рассматривается вопрос эффективности применения Евклидовой метрики и расстояния Махаланобиса при определении искусственной генерации текста. Для вычисления метрик используются текстовые характеристики оригинальных авторских текстов и сгенерированных на их основе текстов. В качестве способов генерации используются синонимизация и метод Марковских цепей.
Ключевые слова: расстояние Евклида, расстояние Махаланобиса, текст, авторство, искусственные тексты, идентификация, характеристики текста.
Статистические методы в атрибуции текстовых произведений. Определение авторства является активно изучаемой и расширяемой областью научных знаний. Множество исследований российских и зарубежных ученых проводятся для оценки существующих и разработки новых методов, с помощью которых могут быть решены задачи, связанные с атрибуцией текстовых массивов.
Задачи определения происхождения текста на фоне анонимности и плагиата в компьютерных сетях распространения информационных материалов становятся особенно актуальны. В связи с этим требуются исследования и новые решения, способные дать ответ на вопрос, был ли текст написан человеком (естественный текст) или текст является искусственно созданным. В данном случае искусственными (искусственно созданными) текстами называются текстовые произведения, сгенерированные специальными программами-генераторами.
Методы статистического анализа берут за основу тот факт, что стиль автора можно определить по какому-то определенному параметру или набору таких параметров - так называемый авторский инвариант [1]. Примерами таких параметров могут быть средняя длина слова, частота вхождений некоторого символа, набора символов или определенных слов.
Статистические методы нашли широкое применение в вопросах атрибуции. К их достоинствам можно отнести сравнительно с машинными методами быстрое проведение расчетов, обучения, универсальность. Недостатком является необходимость выделения инварианта, что требует дополнительных статистических расчетов, объем которых зависит и от задач, стоящих перед исследователем, и от выборки текстовых произведений и ее свойств.
Набор данных для проведения эксперимента. Выбор идентифицирующих признаков, которые бы гарантированно разделил двух любых авторов, практически невозможен. Поэтому на практике считается достаточным, чтобы параметр позволял уверенно различать разные группы авторов, т.е. существовало достаточно большое количество групп авторов, для которых средние значения параметра значительно различаются. Параметр в таком случае не поможет различить тексты авторов из одной группы, но позволит различать тексты авторов, попавших в разные группы. Различать тексты авторов одной группы можно за счет использования одновременно достаточно большого вектора различных по характеру параметров.
Проведенные в ходе исследования расчеты позволили выделить характеристики, показательные для таких методов генерации искусственных текстов, как синонимизация и метод Марковских цепей, а также выделить характеристики, слабо проявляющиеся при этих методах генерации. В обоих случаях: для метода синонимизации и метода Марковских цепей - значения характеристик сгенерированных текстов закономерно изменялись относительно своих оригиналов. Кроме того, в случае с синонимизацией изменения проявились соответственно уровню уникальности сгенерированного текста, что говорит о влиянии алгоритма генерации на изменение определенных параметров [2].
Основываясь на полученных при расчетах значениях характеристик, можно выделить ряд признаков, которые изменились в каждом из случаев в большей степени, а также слабо изменяемые в процессе генерации характеристики.
Наиболее изменившиеся характеристики синонимизации:
- количество служебных слов,
- упоминание определенных слов,
- количество коротких слов.
Слабо изменившиеся характеристики синонимизации:
- количество длинных слов,
- средняя длина слова.
Наиболее изменившиеся характеристики метода Марковских цепей:
- количество предложений,
- упоминание определенных слов.
Слабо изменившиеся характеристики метода Марковских цепей:
- количество длинных слов,
- количество коротких слов,
- средняя длина слова,
- количество служебных слов.
Для получения более точной оценки значимости изменения значений текстовых характеристик, полученных в ходе расчетов, может быть использован математический аппарат, а именно критерии согласия.
В работе использовались два способа установления сходства между векторами классов: расстояние Евклида (евклидова метрика) и расстояние Махаланобиса [3]. Целью проведения экспериментальных вычислений является определение применимости статистических методов в задачах определения происхождения текстовых произведений, обнаружения искусственно сгенерированных текстов.
В обоих расчетах присутствуют следующие обозначения: voriginal - вектор средних для оригинального текста, v Symonim - вектор средних для текстов, сгенерированных программой SyMonym, v Article - вектор средних для текстов, сгенерированных программой Article Clone Easy, v Delirium - вектор средних для текстов, сгенерированных программой Delirium.
Эксперимент с расчетом расстояния Евклида. Чтобы проверить степень отличимости текстов на основе рассчитанных параметров, параметры были объединены в некоторый пробный инвариант и была рассчитана метрика Евклида от вектора значений произвольного текста с известным происхождением до вектора средних каждой из выборок.
Евклидова метрика есть геометрическое расстояние между двумя точками в многомерном пространстве. Данная величина применяется в методах таксономии, классификации и систематизации. Расстояние Евклида показывает, как далеко друг от друга находятся два вектора, тем самым характеризуя их причастность к тому или иному классу, определенному вектором средних.
Входными данными для экспериментальных вычислений расстояния Евклида являются
- векторы средних для выборок: авторские тексты, тексты, сгенерированные с помощью программы SyMonim, тексты, сгенерированные с помощью программы Article Clone Easy, тексты, сгенерированные с помощью программы Delirium;
- мощность инварианта (количество исследуемых текстовых характеристик и соответствующих значений);
- некоторый входной текст известного происхождения, который можно отнести к какому-либо из участвующих в экспериментальных расчетах классов текстов. Следует отметить, что в качестве входных текстов в данных расчетах брались текстовые произведения, не используемые для расчета вектора средних.
Расчет метрики Евклида (De) проводится по классической формуле
где k - мощность инварианта (количество характеристик); х, д - сравниваемые векторы.
Алгоритм проведения экспериментальных расчетов в виде блок-схемы приведен на рис. 1.
Результаты расчета метрики для обозначенных выше векторов приведены в табл. 1 (синоними-зация), табл. 2 (метод Марковских цепей).
На основе рассчитанных значений для синонимизации можно заключить, что выделенные параметры действительно являются идентифицирующими, так как, представив текст как многомерный вектор, с помощью метрики Евклида можно сделать вывод о том, к какой из выборок он ближе.
Векторы X, // Мощность инварианта к
Л
De = О
^Z
-►< i-l...k
JZ
De+ = (ц -ці)
De = yj De
X
De
Конец
Рис. 1. Блок-схема алгоритма расчетов расстояния Евклида в работе
Таблица 1 Полученные результаты метрики Евклида для синонимизации
Входной текст (вектор х) Расстояние Евклида до класса (определенного вектором среднего д)
v original v Symonim v Article
Авторский текст 13,124 16,18 34,167
Текст, сгенерированный SyMonym 14,387 14,317 11,11
Текст, сгенерированный Article Clone Easy 17,025 21,115 8,808
Т аблица 2 Полученные результаты метрики Евклида
Входной текст (вектор x) Расстояние Евклида до класса (определенного вектором среднего д)
v original v Delirium
Авторский текст 19,557 20,381
Текст, сгенерированный Delirium 9,072 4,432
В случае с методом Марковских цепей разность рассчитанных расстояний до вектора оригинальных текстов и до вектора искусственных текстов оказалась меньшей, чем в случае с синоними-зацией. Это может быть объяснено тем, что для данного метода изменения текстовых характеристик при программной генерации были существенно ниже, а также меньшее количество текстовых характеристик было отнесено к наиболее изменяющимся.
Эксперимент с расчетом расстояния Махаланобиса. Второй метрикой сходства в работе выступило расстояние Махаланобиса. В математической статистике расстояние Махаланобиса - это мера расстояния между векторами случайных величин, обобщающая понятие расстояния Евклида. Оно отличается от него тем, что учитывает корреляции между переменными и инвариантно к масштабу. Данная величина широко используется в кластерном анализе и методах классификации. Оно тесно связано с распределением T-квадрат Хотеллинга (англ. Hotelling's T-squared distribution), используемым в многомерном статистическом тестировании, и линейным дискриминантным анализом Фишера, используемым в машинном обучении с учителем.
Чтобы использовать расстояние Махаланобиса в задаче определения принадлежности заданной точки классу, нужно найти матрицу ковариации [4]. Как правило, это делается на основе известных выборок. Затем необходимо подсчитать расстояние Махаланобиса от заданной точки до выделенного класса и оценить его.
Входными данными для экспериментальных вычислений расстояния Махаланобиса являются:
- векторы средних для выборок: авторские тексты, тексты, сгенерированные с помощью программы SyMonim, тексты, сгенерированные с помощью программы Article Clone Easy, тексты, сгенерированные с помощью программы Delirium;
- некоторый входной текст известного происхождения, который можно отнести к какому-либо из участвующих в экспериментальных расчетах классов текстов. Следует отметить, что так же, как и для евклидовой метрики, в качестве входных текстов брались текстовые произведения, не используемые для расчета вектора средних.
Формально расстояние Махаланобиса (Dm) от многомерного вектора x = (x1, x2, x3, ..., xN)T до множества с вектором среднего д = (ць ц2, ц3, ..., ^)т и матрицей ковариации S определяется по нижеприведенной формуле:
Dm = л] (х - д)т S-1(x - д),
где х - вектор характеристик входного текста; д - вектор средних для некоторого класса текстов; S -объединенная ковариационная матрица.
Начало
Алгоритм проведения экспериментальных расчетов в виде блок-схемы приведен на рис. 2.
Результаты вычислений расстояния Махаланобиса приведены в табл. 3 (синонимизация), 4 (метод Марковских цепей).
Результаты вычислений сходны с результатами расчета расстояния Евклида. Для синонимизации можно отметить закономерность получения наименьшего расстояния Махаланобиса для текстов, которые принадлежат одному классу, также отмечается наибольшее проявление «отдаленности» от других классов текста с большей уникальностью (Article Clone Easy).
Для метода Марковских цепей результаты идентичны расчетам Евклидовой метрики: текстовые характеристики слабо проявлены в сгенерированных текстах, поэтому разница между расстояниями до двух различных классов у входных текстов не настолько показательна, как у метода синонимизации. Повторение данных наблюдений говорит о том, что для данного метода необходимо изменить набор текстовых характеристик для достижения результатов, имеющих значение в вопросе возможности идентификации текстов, сгенерированных на основе этого алгоритма.
Векторы х,ц
' г
Расчет матрицы ковариации S
' г
Dm =д/(x - д)Т S 1(x - д)
> 1
Dm
Конец
Рис. 2. Блок-схема расчетов расстояния Махаланобиса в работе
Таблица 3
Полученные результаты расстояния Махаланобиса для синонимизации
Входной текст (вектор х) Расстояние Махаланобиса до класса (определенного вектором среднего д)
v original v Symonim v Article
Авторский текст 0,13 0,269 0,416
Текст, сгенерированный SyMonym 0,142 0,134 0,107
Текст, сгенерированный Article Clone Easy 0,259 0,375 0,072
Таблица 4
Полученные результаты расстояния Махаланобиса для метода Марковских цепей____
Входной текст (вектор x) Расстояние Махаланобиса до класса (определенного вектором среднего д)
v original v Delirium
Авторский текст 0,210 0,265
Текст, сгенерированный Delirium 0,062 0,014
Заключение. Результаты экспериментальных вычислений показывают степени схожести случайного входного текста со специально исследуемыми выборками искусственных текстов. Предполагается, что этот и подобные расчеты могут позволить выработать наиболее эффективный способ выявления искусственной генерации текстовых произведений.
На основе представленных в работе результатов можно заключить:
• Расстояние Евклида и расстояние Махаланобиса могут использоваться для выявления искусственной генерации текста, так как на случайных входных данных с известным происхождением оба метода расчетов показывают минимальное расстояние до класса, к которому относится входной текст.
• В качестве вектора среднего для проверяемого класса необходимо использовать вектор выборки с высоким показателем (более 65%) уникальности текста, так как при низком показателе этого параметра идентифицирующие признаки слабо проявлены и не дают возможности произвести оценку метода создания текста.
• Для метода Марковских цепей необходимо изменение инварианта для достижения более существенной разности между численными значениями степени отличимости классов.
• Необходима апробация описанных методов идентификации на различных входных данных и на других методах генерации искусственных текстов.
Литература
1. Романов А. С. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста / А. С. Романов, А.А. Ше-лупанов, РВ. Мещеряков. - Томск: В-Спектр, 2011. - 188 с.
2. Шумская А.О. Выбор параметров для идентификации искусственно созданных текстов // Доклады ТУСУРа. - 2012. - № 2 (28). - С. 126-128.
3. Хачумов М.В. Расстояния, метрики и кластерный анализ // Искусственный интеллект и принятие решений. - 2012. - № 1. - С. 81-89.
4. Амелькин С.А. Обобщенное расстояние Евклида-Махаланобиса и его свойства / С.А. Амелькин, А.В. Захаров, В.М. Хачумов // Информационные технологии и вычислительные системы. -2006. - № 4. - С. 40-44.
Шумская Анастасия Олеговна
Инженер каф. комплексной информационной безопасности электронно-вычислительных систем ТУСУРа
Тел.: 8-952-804-00-69
Эл. почта: [email protected]
Shumskaya A.O.
The effectiveness of Euclidean distance and the Mahalanobis distance in the problems of identification of the text origin
The article presents the effectiveness of Euclidean metric and the Mahalanobis distance in identification of the text origin. To calculate the metrics we used text features of original texts and texts generated on the basis of original texts. As a generation method the synonymy and Markovian chain method were used.
Keywords: Euclidean distance, Mahalanobis distance, text, authorship, automatically generated, identifying, text characteristics.