Am 7universum.com
UNIVERSUM:
ТЕХНИЧЕСКИЕ НАУКИ
РАЗРАБОТКА СИСТЕМЫ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В РАБОТАХ СТУДЕНТОВ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ. АЛГОРИТМЫ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ
Зиберт Андрей Оскарович
студент Хакасского государственного университета, РФ, г. Абакан
E-mail: Zib-andrey@inbox. ru
Хрусталев Виталий Игоревич
канд. техн. наук, Хакасский государственный университет, РФ, г. Абакан
E-mail: [email protected]
DEVELOPMENT OF A SYSTEM FOR DETERMINING THE EXISTENCE OF ADOPTION IN THE WORKS OF THE STUDENTS.
THE SEARCH ALGORITHMS OF INDISTINCT DUPLICATES
Zibert Audrey
student of Khakas State University, Russia, Abakan
Khrustalev Vitaly
candidate of Technical Science, Khakas State University, Russia, Abakan
АННОТАЦИЯ
В статье рассматриваются существующие проблемы плагиата в высших учебных заведениях. Производится обзор принципов работы современных интернет-сервисов проверки текстов на наличие заимствований. Ставится вопрос о необходимости разработки системы по определению заимствований в работах, выполняемых студентами. Производится тестирование алгоритмов сравнения уникальности текста, и на основании тестирования выбирается алгоритм для использования в системе определения наличия заимствований в документах.
Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов // Universum: Технические науки : электрон. научн. журн. 2014. № 3 (4) .
URL: http://7universum.com/ru/tech/archive/item/1139
ABSTRACT
The article considers the existing problem of plagiarism in the environment of higher school. An overview of the principles of work of modern Internet-services to check texts on the availability of adoption is considered. The question of the need to develop a system for identifying plagiarism in the work performed by the students is put. Compare algorithms of the uniqueness of the text is accomplished and one is chosen for use in the system to detect plagiarism in documents.
Ключевые слова: плагиат, системы определения наличия заимствований в документах, алгоритмы поиска нечетких дубликатов, метод шинглов.
Keywords: plagiarism, the system of determining the adoption in the document, the search algorithms of indistinct duplicate, shingles’s method.
В истории современной России все более актуальным становится вопрос плагиата в научных работах. Наиболее массовый характер носит проблема плагиата у студентов высших учебных заведений, так как в связи с очень быстрым ростом интернет-технологий учащиеся получили доступ к большому объему готовых работ, информация из которых путем прямого заимствования используется при написании рефератов, курсовых и дипломных работ. Проблема приобрела настолько массовый характер, что на федеральном уровне обсуждают меры, которые необходимо применять для борьбы с данным явлением [3].
Одной из мер по борьбе с проблемой плагиата является предварительная проверка защищаемой или публикуемой работы на наличие плагиата с помощью автоматизированных средств. В настоящее время уже существуют интернет-сервисы, предоставляющие услуги по проверки текста на наличие заимствований. Но данные сервисы предоставляют услуги либо на платной основе, либо имеют ограничения (количество символов в проверяемом документе, количество обрабатываемых документов в единицу времени и т. д.). Также следует отметить, что в существующих системах определения плагиата
скрываются принципы реализации алгоритмов проверки. У данного подхода есть и преимущества, и недостатки. Преимущество заключается в том, что крайне трудно придумать эффективный способ обмана алгоритма проверки текста. Несовершенство же состоит в том, что инициаторы проверок не имеют возможности подстраивать алгоритм под специфику проверяемой работы (например, необходимость поиска в определенной языковой зоне интернета). В связи с этим в стенах Хакасского государственного университета было предложено создать систему проверки авторства текста, доступной для студентов и преподавателей учебного заведения и разработать ее с учетом специфики студенческих работ. При этом существенное отличие разрабатываемой системы состоит в том, что она не должна вести себя как экспертная система и предоставлять итоговый результат о степени уникальности текста, а давать лишь оценочные результаты. И на основании этих результатов преподаватели при проверке рефератов или члены комиссий при проверке курсовых или дипломных работ будут выносить решения о степени авторства текста.
В настоящий момент в публичном доступе нет информации о алгоритмах работы существующих сервисов по поиску плагиата, но общий принцип работы подобных сервисов хорошо известен [1]. Блок-схема подобного сервиса приведена на рисунке 1. Процесс проверки на плагиат состоит из двух этапов: предварительная подготовка текста и сравнение с использованием алгоритма поиска нечетких дубликатов подготовленного текста с базой документов. Процесс предварительной подготовки текста включает в себя очистку текста от незначащих знаков, HTML-тегов, знаков препинания и приведение текста в вид, необходимый для последующей работы алгоритма [4].
Цель работы — исследование и реализация существующих алгоритмов поиска нечетких дубликатов, тестирование этих алгоритмов и, на основе полученных данных, выбор одного алгоритма в качестве основного в разрабатываемой системе.
В рамках данного исследования процесс предварительной подготовки текста будет включать в себя следующие операции:
1. Приведение текста к одному регистру.
2. Исключение знаков препинания и специальных символов.
3. Исключение неинформативных слов.
4. Приведение существительных и прилагательных в именительный падеж и единственное лицо.
Пример текста до обработки:
«ИТ-аутсорсинг получил распространение в связи с развитием информационных технологий в конце двадцатого века. Большинству компаний, как мелких, так и крупных, целесообразно поручить дело обеспечения своей работы ИТ-поддержкой специализированным компаниям. Это экономит время и средства. Следует отметить, что ИТ-аутсорсинг наиболее используемый вид аутсорсинга во всем мире в силу высоких темпов развития компьютерных технологий».
Результат предварительной обработки приведенного выше текста:
«ит аутсорсинг получил распространение развитие информационный технология конец двадцатый век большинство компания мелкий крупный целесообразно поручить дело обеспечение работа ит поддержка специализированный компания экономит время средства следует отметить ит аутсорсинг наиболее используемый вид аутсорсинг мир сила высокий темп развитие компьютерный технология».
Сами алгоритмы поиска нечетких дубликатов известны давно, но активное развитие данной области началось в последнее время. Это развитие связано с применением алгоритмов поиска нечетких дубликатов при работе интернетсервисов, предоставляющих услуги по поиску информации в сети [2].
Принципы работы алгоритмов поиска нечетких дубликатов заключается либо в создании некоторой сигнатуры исследуемого документа и поиск этой сигнатуры в имеющейся базе сигнатур, либо в создании некоторых коллекций из слов исследуемого документа и сравнения с такими же коллекциями из базы
документов. В качестве источника такой базы может выступать либо достаточно обширная библиотека документов, либо результаты поисковых запросов. В связи с тем, что разрабатываемая система будет основана на поиске плагиата из источников в сети Интернет, то способы, основанные на использовании заранее заданной библиотеки документов, не рассматривались (так называемые способы, основанные на создании словарей).
Рисунок 1. Принцип функционирования системы.
Далее будут исследованы следующие алгоритмы.
1. Метод шинглов.
2. Метод сравнения подмножеств слов без пересечения.
3. Метод сравнения 30 % наиболее встречающихся слов.
4. Комбинация метода шинглов и метода сравнения 30 % наиболее встречающихся слов.
Ниже приведены описания исследуемых и тестируемых алгоритмов.
Метод шинглов
Шинглы — выделенная из документа последовательность слов. Количество слов в такой последовательности называется длиной шингла, и наиболее оптимальной считается длина шингла, равная 5. Выборка происходит внахлест, а не встык. После разбиения документ на шинглы, количество шинглов получается равным количеству слов в документе плюс один. Далее вычисляются хэши всех шинглов сравниваемых документов. Для проведения сравнения делается случайная выборка подмножества хэшей шинглов сравниваемых работ и сравнение их между собой [5].
Метод сравнения подмножества слов без пересечения
Аналогичен методу шинглов, но коллекции строятся без пересечений. Исследуемые тексты просто разбиваются на части по 5 слов.
Метод сравнения 30 % наиболее встречающихся слов
Метод основан на создании подмножества, включающего в себя 30 % наиболее встречающихся слов для сравниваемых текстов и определение процентного соотношения пересечения полученных подмножеств.
Комбинация метода шинглов и метода сравнения наиболее встречающихся слов
Метод состоит в создании для каждого исследуемого текста подмножества, состоящего из 30 % наиболее встречающихся слов, упорядочивании данного подмножества по алфавиту и сравнения полученных подмножеств с использованием метода шинглов.
В качестве работ для сравнения использовались публикации по теме «Информатика и вычислительная техника», размещенные на сайте научной электронной библиотеки. Были выбраны 30 публикаций, и на основании каждой публикации была создана новая работа с процентом заимствования текста от 10 до 90 процентов.
Время обработки 30 документов, секунд О ю 50 ю 00 ю о ю Os ю 'ил ю -р^ ю U) ю ю ы ю о 40 00 \1 05 ил -р^ U) ы о 40 00 \1 05 ил -р^ U) ы Номер работы
8385 ил U) ю 'ил -р^ о U) ю о ю -р^ 00 50 ил ю о ю ил 05 о ю 'ил U) ю ил ю 05 о 40 ю о 50 U) 00 00 о ы 50 о о 05 05 00 U) ю 00 50 U) 50 о 50 Метод шинглов
3398 - о о о о ы - - о ю 00 00 U) 50 ю ю U) о о U) ю ю о ю £ ю U) U) ю U) о 'ил -р^ 00 -р^ U) -р^ U) ил ы U) -р^ Метод сравнения подмножества слов без пересечения
2655 40 -рь. L/1 ы U) о U) Os U) 00 о\ о о о 05 ю 50 -р^ 50 U) 00 'ил U) ю U) о U) о ил ю о 05 ы о о 05 00 о ю ы 05 о о -р^ 05 о ил -р^ 00 -р^ ю ю ил 00 Метод сравнения 30 % наиболее встречающихся слов
3432 -рь. ил ы U) 00 -р^ о U) ю о ю U) о 05 -р^ 50 05 05 -р^ о 05 U) ы U) ю -р^ 00 ил о о 00 ю о 00 U) U) 00 о U) - 50 о 05 'ил ил о U) 00 05 ю 05 05 05 Комбинация метода шинглов и метода сравнения 30 % наиболее встречающихся слов
1 ы ил о ю -р^ -р^ -р^ о ю о о Os ы 50 U) ил U) о о ил 00 05 ю ю -р^ U) 05 о о ю 50 о U) о 00 00 ил 'ил 00 о ы 00 'ил 00 о о U) о 00 50 -р^ 00 OJ Результат www.antiplagiat.ru
о
Г5
н
=
н
Гб
к
п
н
о
со
та
as
о\
о
н
=
со
та
Гб
2
33
та
а:
о\
о
н
ег
м
as
U
"1
о
та
я
н
2
as
s?
г
л
S3
Результаты работы алгоритмов.
Далее с использованием приведенных выше алгоритмов было произведено попарное сравнение работ: исходной публикации и работы, созданной на ее основе. Также дополнительно измерялось время, необходимое на сравнение всех 30 пар. Результаты работы алгоритмов приведены таблице 1. Кроме того, с использованием системы antiplagiat.ru все работы с заимствованным текстом были также проверены, и результат также приведен в табл. 1.
По итогам проведенной работы наилучший результат имеет алгоритм, основанный на методе шинглов, при этом результаты работы алгоритма совпадают с результатами проверки на сайте antiplagiat.ru. Но при этом данный алгоритм имеет самое большое время выполнения. Метод сравнения подмножества слов без пересечений и метод сравнения 30 % наиболее встречающихся слов показали неудовлетворительные результаты работы и не могут быть использованы при создании системы определения наличия заимствований в текстах. Результаты работы алгоритма, основанного на комбинация метода шинглов и метода сравнения 30 % наиболее встречающихся слов, показывают такой же результат, как и алгоритм, основанный на методе шинглов, но при этом он имеет время работы алгоритма на 60 процентов меньше, и поэтому данный алгоритм выбран как наиболее оптимальный для использования в разрабатываемой системе.
Список литературы:
1. Дягилев В.В., Цхай А.А., Бутаков С.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав (рус.) // Вестник НГУ. Серия: Информационные технологии. — 2011. — С. 23—29.
2. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов
определения нечетких дубликатов для WEB-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции»
RCDL’2007: Сб. работ участников конкурса. — Т. 1. — Переславль-Залесский: «Университет города Переславля», 2007. — С. 166—174.
3. Медведев поручил проверять на плагиат диссертации и дипломы/ [Электронный ресурс]. — Режим доступа: http://lenta.ru/news/2013/02/18/dissers/ (дата обращения: 20.01.2014).
4. Степанов П.А. Системы анализа текстов естественного языка // Альманах современной науки и образования. — Тамбов: Грамота, 2013. — № 6. — С. 159—161.
5. Broder A. On the resemblance and containment of documents // Compression and Complexity of Sequences (SEQUENCES’97). — IEEE Computer Society, 1998. P. 21—29.