ОБ ИСПОЛЬЗОВАНИИ СЛОВАРЕЙ СИНОНИМОВ В АЛГОРИТМЕ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В ТЕКСТЕ
Зиберт Андрей Оскарович
аспирант Хакасского государственного университета,
РФ, г. Абакан E-mail: zib-andrey@inbox. ru
Мирошниченко Виктория Валентиновна
студент Хакасского государственного университета,
РФ, г. Абакан E-mail: mir-pobeda@rambler. ru
ABOUT THE USE OF SYNONYMS DICTIONARIES IN THE DEFINING ALGORITHM OF THE BORROWINGS EXISTANCE
Zibert Audrey
post-graduate student of Khakas State University,
Russia, Abakan
Miroshnichenko Victoria
student of Khakas State University,
Russia, Abakan
АННОТАЦИЯ
В статье рассматривается возможность использования словарей синонимов в алгоритме определения наличия заимствований в тексте. Показана эффективность этого способа, а также описано возможное дальнейшее развитие данного способа при применении указанного алгоритма на иноязычных текстах.
Зиберт А.О., Мирошниченко В.В. Об использовании словарей синонимов в алгоритме определения наличия заимствований в тексте // Universum: Технические науки : электрон. научн. журн. 2014. № 12 (13) . URL: http://7universum.com/ru/tech/archive/item/1834
ABSTRACT
The article deals with the opportunity of the use of synonyms dictionaries in the defining algorithm of the borrowings existence. This method effectiveness is shown and further possible development of this method in applying stated algorithm for foreign texts is described.
Ключевые слова: типы плагиата, алгоритм определения наличия
заимствований, эталонное множество слов, синонимы.
Keywords: plagiarism types, defining algorithm of the borrowings existence, model set of words, synonyms.
Бурное развитие Интернета сделало доступным для ознакомления и изучения огромные объемы информации. И, естественно, среди этого объема информации также присутствуют различные тексты научно-исследовательских работ и статей. Только на сайте научной электронной библиотеки eLIBRARY.RU по состоянию на ноябрь 2014 года доступно более 19000000 публикаций по различным направлениям [3]. Соответственно, возникают ситуации, когда при написании различных учебных (курсовые, рефераты, дипломы) либо научно-исследовательских работ авторы прибегают к заимствованию текста из оригинальных источников без ссылки на них, как следствие, происходит присвоение себе авторства заимствованной части текста, и, соответственно, мы можем говорить о фактах плагиата в работе.
Согласно проведенным ранее исследованиям выделяется 3 формы плагиата [2]:
1. Прямое копирование фрагмента другого источника в собственном тексте без кавычек и полной ссылки на источник. Прямое копирование фрагмента с полной ссылкой, но без кавычек тоже считается плагиатом. В случае дословного плагиата размер заимствованного фрагмента может быть любым. Заимствование отдельной фразы также будет плагиатом, если эта фраза
не является элементом обиходного языка и может быть приписана конкретному автору.
2. Неадекватный пересказ, при котором изложение фрагмента другого источника осуществляется путем замены некоторых слов в исходном тексте с сохранением его структуры, даже если при этом дается полная ссылка на источник.
3. Адекватный пересказ, но не сопровождающийся указанием на источник, заимствования идей.
Случаи прямого копирования фрагментов текста достаточно хорошо определяются существующими антиплагиат-системами с помощью, например, метода шинглов или подобных ему алгоритмов, основанных на сравнении корпусов текста.
Относительно случаев адекватного пересказа следует сделать оговорку. Это связано с тем, что не все подобные случаи являются плагиатом, так как иногда может идти речь о каких-то новых областях научного знания, которые могут быть, которые еще не закреплены в авторитетных источниках, и это позволяет использовать эту информацию для обоснования своих выводов, результатов исследования и т. д. В случае адекватного пересказа решения о плагиате в тексте должны принимать эксперты в этой области.
Наиболее массовый характер имеет форма неадекватного пересказа. Именно к данному способу прибегают авторы, которые хотят скрыть факт плагиата и некорректного заимствования в своих работах. В данном случае при заимствовании текста автор прибегает к различным способам сокрытия фактов заимствования в своих работах. Согласно проведенным Е.В. Шараповой и Р.В. Шараповым исследованиям среди студентов были выявлены основные способы, к которым прибегают авторы для сокрытия фактов плагиата [4]. Результат их исследования приведен в таблице 1.
Таблица 1.
Частота использования подходов к сокрытию плагиатов
Подходы к сокрытию плагиата Доля
Корректировка родов, чисел и времен, входящих в текст слов 32%
Незначительное изменение текста 38%
Сокращение заимствованного текста 44%
Замена букв 4%
Синонимизация текста 2%
В процессе проверки текста на наличие плагиата и некорректных заимствований происходит предварительная подготовка текста, в ходе которой из текста удаляются стоп-слова и все слова приводятся к начальной форме. Данный этап позволяет выявлять факты плагиата и некорректного заимствования в тех случаях, когда автор различным образом изменял формы слова или буквы в словах.
Под способы незначительного изменения текста попадают различные манипуляции с порядком слов в предложении и изменением порядка предложений в абзаце. Данным способом можно обойти проверку на плагиат, основанную на сравнении корпусов текста (например, метод шинглов). Но ранее нами был разработан алгоритм проверки текстов на основе статистического распределения слов в тексте, а путем сравнения определенным образом сформированных выборок из текстов [1]. Таким образом, на результаты проверки уже не влиял порядок слов в тексте.
Одним из основных способов, к которым прибегают авторы, чтоб скрыть факты плагиата и некоренного заимствования, является сокращение заимствованного текста, его синонимизация, а также переводы частей текста с других языков. Как правило, общедоступные системы проверки на плагиат указывают, какие именно части текста признаны плагиатом, и, как следствие, автору необходимо лишь изменять именно эту часть своего текста до тех пор, пока система не сможет определить факт плагиата в данной части текста.
Кроме того, также в публичном доступе есть системы синонимизации текста, которые в автоматическом режиме позволяют практически полностью
изменить очень многие слова в тексте. Ниже приведен пример работы такого сервиса.
Текст до обработки синонимизатором:
«Соответственно, по правилам написания слов первая буква первого слова в предложении должна быть написана с заглавной буквы, но в связи с тем, что символы в информационных системах кодируются в виде целых чисел длинной от 7 до 16 бит, то для кодирования заглавных и строчных символов используются различные коды. Из этого следует, что для информационной системы автоматической обработки текста это будет уже другое слово (за счет отличия первого символа), и, таким образом, система может не зафиксировать факта заимствований в данном случае».
Текст после обработки синонимизатором:
«Поэтому, согласно законам сочинения текстов, 1-ая знак (азбучный) главного фразы в предложении обязана являться сочинена с большей азы, однако в взаимосвязи с для того, что же знаки в информативных режимах шифруются в варианте аж частей длинноватой с 7 вплоть до 16 биг-бит, в таком случае с целью кодировки больших и маленьких знаков применяются разные коды. С данного необходимо, что же с целью информативной организации самодействующей обрабатывания слова данное достаточно ранее прочее термин (из-за расчет различия главного знака), и подобным способом концепция имеет возможность никак не закрепить прецедента заимствований в этом случае».
Как видно из примера, текст по своей сути очень труден для восприятия после синонимизации, но после литературной правки данный текст уже можно будет выдавать как оригинальный, и автор сможет опубликовать его, не опасаясь выявления фактов плагиата или некорректного заимствования автоматизированной системой проверки текста.
Для улучшения показателей работы алгоритма было принято решение модифицировать ранее разработанный алгоритм, основанный на сравнении
выборок слов исследуемых текстов, добавив в него подборку синонимов. Суть работы метода иллюстрируется ниже.
Таблица 2.
Содержание эталонного множества до и после расширения
Содержание эталонного множества до расширения Содержание эталонного множества после добавления синонимов
текст текст запись цитата выдержка легенда слова
исследуемый исследуемый зондируемый изучаемый выясняемый штудируемый прорабатываемый усваиваемый проверяемый верифицируемый досматриваемый
описание описание изображение представление дескрипция изложение
множество множество разнообразие подборка
результат результат следствие итог факт достижение
После работы алгоритмов предварительной подготовки текса и удаления из исследуемых текстов стоп-слов и слов, не несущих смысловой нагрузки, строится эталонное множество слов, с которым и будет производиться сравнение полученных множеств исследуемых слов. Данное эталонное множество строится путем объединения нескольких текстов, близких по тематике к исследуемым текстам и аналогичного удаления из него стоп-слов и слов, не несущих смысловой нагрузки. Таким образом, в эталонное множество попадают слова, которые чаще других встречаются в текстах работ данной тематики. Далее каждое слово в эталонном множестве заменяется подборкой синонимов. Пример части такого эталонного множества до расширения и после расширения приводится в таблице 2. Для расширения используются общедоступные словари синонимов русского языка.
Далее подсчитывается количество пересечений слов, одновременно входящих и в эталонное множество с учетом синонимов и в полученное множество слов исследуемого текста. Далее производится оценка этих значений и сравнение между собой.
Для оценки признака наличия заимствований в одном тексте относительно другого было экспериментально установлено граничные значения (путем
применения данного алгоритма к текстам научных работ, не содержащих в себе элементов заимствований, т. е. к полностью оригинальным работам, а также к работам, содержащим в себе подтвержденные факты некорректного заимствования). В ходе эксперимента установлено, что в случае если разница между количествами пересечений множеств исследуемых текстов с эталонным составляет более 30 на каждые 100 слов множеств слов исследуемого текста, то можно говорить о том, что с помощью данного алгоритма не определяются факты наличия заимствований в одном тексте относительно второго текста. В случае если разница лежит в диапазоне 13—29, то в данном случае можно говорить о частичном заимствование в одном тексте относительно другого, т. е. совместно с оригинальным текстом имеется факт частичного заимствования. В случае если разница составляет 12 и менее, то в данном случае можно говорить о факте практически полного заимствования текста.
Следует отдельно отметить, что в случае использования эталонного множества без использования синонимов, границы разницы между количествами пересечений множеств исследуемых текстов были такими же, но с использованием различных сервисов синонимизации и повторных проверок относительно легко достигался результат в 30 и более, что позволяло получить результат оценки текстов как полностью оригинальных. В случае использования синонимов в эталонном множестве, сокрытие фактов некорректного заимствования и плагиата с помощью синонимизации текста становится более трудоемким.
Для оценки работы алгоритма было выбрано несколько статей по направлению алгоритмы и алгоритмизация в программировании. На основании каждого текста статьи с помощью общедоступных сервисов синонимизации текста и последующей литературной правки текста были созданы тексты, в которых было некорректное заимствование. Далее тексты были сравнены между собой с помощью описанного в данной статье алгоритма, и во всех случая было корректно определено наличие плагиата и некорректного заимствования текста. Кроме того, для проверки корректности результатов
была также проведена проверка оригинальных текстов между собой. Во всех случая тексты были определены как полностью оригинальные.
Таким образом, разработанный алгоритм позволяет выявлять факты плагиата и некорректного заимствования в текстах, при этом алгоритм способен определять данные факты даже в случае использования сервисов синонимизации текста. Тем не менее при работе алгоритма все же присутствует ограничение на объем исследуемого текста: корректная работа алгоритма возможна при объеме теста 1500 слов и более.
Также планируется провести дальнейшее исследование, направленное на возможность расширение эталонного множества не только с помощью словаря синонимов русского языка, но и с использованием иностранных слов. В случае подтверждения данного тезиса, в будущем возможно будет определять факты некорректного заимствования и плагиата даже в том случае, если оригинальный текст был на иностранном языке.
Список литературы:
1. Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов // Universum: Технические науки : электрон. научн. журн. — 2014. — № 3 (4) / [Электронный ресурс]. — Режим доступа: URL: http://7universum.com/ru/tech/archive/item/n39 (дата обращения: 02.12.2014).
2. Корбут А. Плагиат и конститутивный порядок диссертационного текста // Социологическое обозрение. — 2013. — Т. 12, № 2. — С. 145—171.
3. Научная электронная библиотека eLIBRARY.RU.../ [Электронный ресурс]. — Режим доступа: http://elibrary.ru/defaultx.asp? (дата обращения: 25.11.2014).
4. Шарапова Е.В., Шарапов Р.В. Универсальная система проверки текстов на плагиат «Автор.net» // Информатика и её применения. — 2012. — Т. 6. — Вып. 3. — С. 52—58.