Опыт автоматизированного анализа повторов
в научных текстах
Гращенко Л. А., Романишин Г.В.
Академия ФСО России ^а$ск,епко@таИ. ги, готат5Ып^. [email protected]. ги
Аннотация.В статье приводятся результаты оценки плотности (избыточности) научных текстов российских авторов за счет поиска внутренних повторов. Описывается разработанный для этой цели инструментарий. Показано, что при сопоставимой плотности текстов авторефератов, плотность текстов гуманитарных диссертаций ниже плотности текстов технических.
Ключевые слова: научный текст, анализ повторов, автоматическая обработка текста, плотность текста, избыточность текста, квалиметрия текста, наукометрия.
1 Введение
В деятельности различных организаций элементом документооборота могут быть объемные (сотни тысяч печатных знаков) документы, отражающие результаты долгосрочной работы отдельных людей и целых коллективов. Хорошими примерами таких объемных документов являются отчеты о научно-исследовательской и опытно-конструкторской работе, пояснительные записки диссертаций, монографии, методики, руководства пользователя и т.д. При этом соответствие текста документа общим требованиям (например, по ГОСТ 2.105-95), а именно краткости, чёткости и однозначности (недопущения различных толкований), является залогом низких удельных затрат на ознакомление, изучение, обработку и сопровождение документа заинтересованными лицами. Напротив, лексико-речевые ошибки в текстах, к которым относятся необоснованные повторы (намеренные или случайные), увеличивают эти затраты.
Поэтому актуальной задачей является автоматизация редакционно-издательских процессов, в частности, реализация предваряющего редакторский анализ этапа автоматической квалиметрии текстов документов, т.е. оценке их качества с точки зрения имеющейся системы требований. Одной из наиболее формализованных является система требований к логико-содержательной и стилистико-речевой стороне текстов научных документов. Содержание диссертации, например, должно отвечать требованиям неповторимости, уникальности и оригинальности приводимых положений [Кузин, 1998]. В этом отношении в научном сообществе постепенно нарастает неудовлетворенность качеством диссертаций, отмечаемая в официальных документах и публицистике, что
связано с заимствованиями текстовых блоков одними авторами из работ других авторов (см., например, проект www.dissernet.org). В то же время, анализ доступных в сети Интернет отзывов на диссертации показал, что не редкими являются необоснованные повторы блоков текста внутри одного и того же документа (за 2014 год найдено 44 таких отзыва). Таким образом, и автор, и редактор и эксперт нуждаются в удобном и эффективном инструментарии, позволяющем оценивать избыточность и визуализировать структуру текстов за счет обнаружения повторяющихся участков.
В настоящей статье предпринята попытка в первом приближении оценить масштаб и возможности оценки статических и динамических характеристик избыточности научных текстов (диссертаций) за счет выявления повторов текстовых блоков на основе разработанного программного стенда.
2 Проведенные исследования
Представления об избыточности научных текстов вследствие внутренних повторов отдельных элементов сложились среди отечественных филологов, по крайней мере, с начала 80-х годов прошлого века. При этом наблюдался переход от рассмотрения текстовых дубликатов (точных повторов) и традиционных повторов (тавтологических и синонимических воспроизведений элементов текста) к нечетким дубликатам. Их разновидности обозначались различными авторами как (рис. 1):
- расширенные повторы, воспроизводящие и расширяющие семантическую структуру оригинала с помощью тех или иных языковых средств, и перифразы (расширенные косвенные повторы) [Давыдова, 2011];
- развернутые вариативные повторы, как всякое дословное или перефразированное повторение оригинальной смысловой единицы научного текста различной протяженности (от словосочетания до нескольких абзацев) [Данилевская, 1992].
Дубликат
>
Повтор
Нечеткий дубликат
[ Вариативный /I повтор
>-
Перифраз
Развернутый
]
вариативныи повтор I
Расширенный повтор
Рис. 1. Отношение различных понятий предметной области (пунктирная линия -синонимия, сплошная линия - отношение общее-частное)
Филологами такие повторы рассматривались как выполняющие в основном функцию связи (средства связности). Но такие повторы могут быть результатом ненамеренного копирования из различных источников блоков текста, имеющих общий прообраз, или намеренного увеличения объема текста для формального выполнения требований к размеру документа («самоповторы»).
Наличие и частота повторов обуславливает значение свойства плотности (компрессии, сжатости) и обратного ему - избыточности текстов. Плотность научного текста проявляется в разной степени в соответствии с глубиной содержания текстов разных жанров и отраслей науки, а также индивидуальностью автора. Она является результатом развертывания и речевого оформления научного знания, а также результатом восприятия адресатом содержания произведения [Гиренко,
2006]. Вследствие требования однозначности к научным текстам, последние обладают максимальной лексической избыточностью - до 55% [Грудева, 2008], то есть до половины слов текста могут быть удалены без потери способности читающего понять содержание документа. Очевидно, что на уровне синтаксических конструкций избыточность ниже.
Методология выявления нечетких дубликатов в текстах активно разрабатывалась с начала 90-х годов прошлого века и в настоящее время включает лексические, синтаксические и шаблонные методы, а также множество процедур установления эквивалентности (метрики и меры близости, весовые и вероятностные функции) [Дербенёв и др., 2014]. Широко используется, по меньшей мере, десяток алгоритмов, реализующих обнаружение нечетких дубликатов [Зеленков и Сегалович,
2007]. При этом, конечно, указанные методы и алгоритмы ориентированы на сравнение между собой множества текстовых документов.
3 Формализация задачи и выбор подхода
Формализация задачи поиска нечетких дубликатов внутри отдельного текста подразумевает:
- определение размера элемента обработки - текстового фрагмента, на которые будет разделен исходный текст, чтобы свести задачу к поиску дубликатов между множеством текстов;
- определение эквивалентности на множестве элементов обработки.
В качестве элементов обработки выбраны абзацы текстового сообщения, т.к. абзацное членение является оптимальным для организации семантического пространства текста [Ичкинеева, 2010].
Эквивалентность элементов устанавливается на основе вычисления расстояния между образами абзацев, представленными в виде матриц частот переходов. Последние неплохо зарекомендовали себя в задачах распознавания авторства, а для использования в представленной задаче в
качестве элементов матрицы выбраны символы алфавита, таким образом, используется нижний уровень рассмотрения текста [Романишин, 2013].
На основе релевантных настоящей задаче работ [Подцубный и др., 2006; Рубель, 2013] в качестве основной меры сравнения выбрана метрика Канберра, наиболее эффективная при работе с частотными признаками:
где х и у - значения частот перехода (одного элемента матрицы) для первого и второго образа абзацев соответственно.
Тогда для вычисления схожести двух отрезков текста производится расчет метрики Канберра (1) для каждого элемента матрицы и вычисляется среднее значение:
где с1у - сравнение переходов из иго элемента ву, п - количество элементов в строке (столбце). Полученное нормированное значение £ лежит в интервале от нуля до единицы, причем 0 - тестовые блоки являются полными дубликатами, 1 - тексты уникальны. Для оценки уникальности абзаца необходимо сравнить его со всеми остальными абзацами и определить среднее значение
4 Текущие разработки
4.1 Инструментарий исследования
Для целей настоящей работы отношение эквивалентности двух текстовых блоков Бу задается их подобием к по эмпирически определенной прогрессивной четырехуровневой шкале, рис. 2.
(2)
Степень подобия
Полное подобие
Г
Подобие -
--0,75
Слабое подобие
0,5
Различие -
-0,25
0,125 0,25
0,5
£
Рис. 2. Шкала измерения подобия текстовых блоков
Для оценки уникальности каждого г'-го абзаца производится попарное сравнение по всему тексту (исключая сравнение с самим собой) и вычисляется среднее значение:
S,.
1
N-1
¿-I
N
\
5Х + 5Х
V-/=1 y='+i ,
(3)
(4)
А плотность текста оценивается величиной:
Здесь множитель к задается по рис. 2 минимальным значением подобия, вычисленным для каждого абзаца.
Для отображения динамики плотности и сравнения структур различных текстов, осуществляется их картирование. Для этого массив абзацев разбивается на 100 смежных блоков, для каждого из которых рассчитывается усредненный показатель уникальности.
Описанное решение реализовано в виде проблемно-ориентированного программного обеспечения - исследовательского стенда, рис. 3.
Антиплагиат v.2.0
Рабочее окно
Оригинал-Дубликат Общая статистика Сравнение двух документов Обработка директории Настройки
Управление Работа с Word
Средняя уникальность каждого абзаца
:
о
38 79%)321:1< Мотибэционный этап направлен мэ создание ' 19%)322: 2, Информационный этап должен быть направлен (20.3%)323:3, Аналитический этап связан с анализом нравсте '38,3%)324:4. Этап актуализации предусматривает вовлечен!. 19.88%}325; 5, Продуктивный зтал предполагает интериори» 19.13%}32б: б. Творческий атаг» наиболее полно реализует и 40,55То}327: 7, Оценочный этап представляет собой оценку ; 5б 98%)328г Предлагаемая модель включает в себя обязате/-38,5б%}329: Предлагаемая система заданий основана на ит 59,84%)33& Разработанная модель также включает 5 себя а 59.48%)331: Ведущими условиями нравственно-зстетическо 1941%}332: - создание специальной образовательной сред 19,88%}333' - ориентация процесса иноязычного образован 18 67%)334; ■ реализация поэтапной системы заданий, пост]; 59,41%)335: ■ проекция функций »искусства ма средства худе 19,бб%)336: - обеспечение субъектно-субъектного взаи^од*
il974%)337 - олзвитжг способности к целостному аослрит
38.67%)338: Основными критериями и показателями зффеет (73,39%)339: ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ 19,67%)340: Средства художественной культуры, как часть д; 38,63%)3411 Основными задачами нравствен но-эстетическо 19.12%)342: Методическая модель нразственно-?стети ческа
SO Глпрпмгяиь'Р мплр!
Отчет
Общая уни^зльносъ текста - 57,01%
Статисгика
Плагиат: 170 строк -16,9%
Подозрение на плагиат; 144 строк -14,31% Средня* уникальность: 530 строк ■ 52,68% Высокая уникальность- 162 строк -16,1%
Строки по категориям Плагиат
15.17,19, 21, 39, 68, 71 В8.115г 116,182 202г 204, 207. 209, 322, 3; Подозрение на плагиат:
9.12,13.14.18. 20,41, 42,43,45,46, 50, 67, 69. 72, 73, 75. 76, 77, 81 Средняя уникальность;
25,26, 27, 2В, 29, 31, 32, 33. 34. 35, 36, 37. 38 44 47, 48 49. 5 L 52, Высокая уникальность:
СтаТиСтиКа строки W337 Плагиат
108: - развитие способности к нелестному восприятию средств худо 375: - развитие способности к целостному восприятию средств худо> , 477; - развитие способности к целостному восприятию средств худо> 744; - развитие способности к целостному восприятию средств худо Подозрение на плагиат
I
Olipulb
Работа с документом
Работа с директорией
Информация
Анализ на плагиат успешно проведен!
Рис. 3. Экранная форма программного стенда исследования плотности текстов
Программный стенд реализован в среде разработки Microsoft Visual Studio 2012 на языке программирования С# при использовании технологии WPF (Windows Presentation Foundation), позволяющей разделить исполнительный код программы и пользовательский интерфейс.
4.2 Статистическая база исследования
Измерения плотности текстовых сообщений проводились на диссертациях и авторефератах русскоязычных авторов, защищенных в период 2012-2014 гг., табл. 1. Тексты были разбиты на три категории по отраслевому признаку: технические, медицинские и гуманитарные, в которые вошли работы по педагогике, экономике, социологии и географии.
Таблица 1. Количественный состав выборки исследования
Категория Количество диссертаций Количество авторефератов
Технические науки 10 15
Медицинские науки 11 27
Гуманитарные науки 13 29
5 Полученные результаты
Перед вычислением плотности текстов производится ранжирование длин абзацев (в символах), типичное эмпирическое распределение которых приведено на рис. 4.
8000 7000 6000 5000 4000 3000 2000 1000 0
■ ^^ ■ ■ ■ 1 1 ■ ■ ■
У > (§> ^ оР ^ ^ гф <£> О^ ^ гр
> ¿> о
V
4
£
лл ль
4
4
4
Рис. 4. Распределение длин абзацев (в символах) научных текстов
Из рисунка видно, что небольшая часть абзацев имеет малую длину. Это абзацы, состоящие из одного предложения - названия разделов, параграфов, подрисуночные подписи, названия таблиц, табличные данные. Все они исключались из дальнейшей обработки.
Средние длины абзацев для авторефератов и диссертаций по выбранным отраслям науки представлены на рис. 5.
50,00
0,00
Диссертации Авторефераты
Гуманитарные Медицинские Технические
Рис. 5. Средние длины абзацев научных работ (в символах)
На рисунке 6 представлены средние значения и разброс (стандартное отклонение) оценок плотности текста авторефератов и диссертаций.
Плотность текста
0,84-0,82-0,80-0,78-0,76
I
I I
I I
Диссертация Автореферат
Гуманитарные Медицинские Технические науки науки науки
Рис. 6 Значения средней плотности текстов диссертаций и авторефератов различных
отраслей науки
На рисунках 7 и 8 на основе картирования документов приведена обобщенная динамика уникальности абзацев, дающая представление о распределении плотности (более плотному тексту соответствуют большие значения).
6 Выводы и предложения
Приведенные результаты носят оценочный характер, а используемая методология не претендует на строгость. При этом представленные графики (4-8) позволяют сделать следующие предварительные выводы:
- ожидаемо тексты технических диссертаций содержат меньше повторов, чем гуманитарных, а средние длины абзацев технических диссертаций практически вдвое ниже, чем гуманитарных. Медицинские тексты занимают промежуточное положение. При этом значения плотности текстов авторефератов выше, чем плотности текстов диссертаций, хотя изменение между отраслями науки менее выражено. Это говорит о намеренном увеличении объемов гуманитарных работ, «размазывании» аргументации, отказе от лаконичности;
- необходимо дополнительно исследовать распределения длин абзацев научных текстов на предмет выявления аномально коротких и аномально длинных («сдвоенных») абзацев, а также провести исследования на других элементах текста, в частности, на уровне предложений (синтагм) для повышения качества анализа повторов;
- вид распределения уникальности абзацев в гуманитарных работах свидетельствует в пользу известного подхода, что «читать надо только введение и заключение»;
- приведенная методология оценки плотности текстов нуждается в существенной переработке и обосновании. Однако показана
перспективность использования рассмотренных показателей с точки зрения квалиметрии текстов и моделирования их сложности.
Список литературы
[Гиренко, 2006] Гиренко, JI.C. Плотность научного текста: комплексный подход к ее изучению: автореф. дис.... канд. фил.наук / JI.C. Гиренко. - Пермь: ПТУ, 2006. - 22 с.
[Грудева, 2008] Груцева, Е.В. Избыточность текста: история вопроса и методика исследования / Е.В. Грудева // Известия Российского государственного педагогического университета им. А.И. Герцена. - 2008. - № 59. - С. 106-114.
[Давыдова, 2011] Давыдова, Е.А. Расширенный повтор и перифраз в современном английском публицистическом тексте: автореф. дис. ... канд. фил.наук / Е.А. Давыдова. - Москва: МПГУ, 2011. - 19 с.
[Данилевская, 1992] Данилевская, Н.В. Вариативные повторы как средство развертывания научного текста / Н.В. Данилевская. - Пермь: Изд-во Пермского университета, 1992. - 144 с.
[Дербенёв и др., 2014] Дербенёв Н. В., Козлюк Д. А., Никитин В. В., Толчеев В. О. Экспериментальное исследование методов выявления нечетких дубликатов научных публикаций // Машинное обучение и анализ данных. 2014. T.l. No 7. С. 875-884.
[Зеленков и Сегалович, 2007] Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г.Зеленков, И.В.Сегалович // Труды 9 Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2007, Переславль-Залесский, Россия, 2007. - [Электронный ресурс]. - Режим доступа: http://rcdl2007.pereslavl.ru/papers/paper_65_vl .pdf
[Ичкинеева, 2010] Ичкинеева, Д.А. Роль абзацного членения в распределении единиц семантического пространства текста (на материале повести A.C. Пушкина «Станционный смотритель») / Д.А. Ичкинеева // Вестник ЧГПУ. - 2010. - №9. - С. 166-174.
[Кузин, 1998] Кузин Ф.А. Кандидатская диссертация. Методика написания, правила оформления и порядок защиты. Практическое пособие для аспирантов и соискателей ученой степени. — 2-е изд. — М.: «Ось-89», 1998. — 208 с.
[Поддубный и др., 2006] Поддубный, В.В. Сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов / В.В. Поддубный, О.Г.Шевелев, A.A. Фатыхов // Вестник Томского государственного университета. -2006,-№290-С.232-234.
[Романишин, 2014] Романишин, Г.В. Многоуровневая модель текстового сообщения, учитывающая его стилистические особенности / Г.В.Романишин // Информация и космос. - 2014. - № 2. - С.54-58.
[Рубель, 2013] Рубель, A.C. Эффективность поиска подобных блоков на изображении с помощью метрик-расстояний / A.C. Рубель, В.В. Лукин // Радиоэлектронные и компьютерные системы. - 2013. -№ 1. - С. 66-75.