Научная статья на тему 'Сравнение информационных систем автоматической проверки оригинальности текстов'

Сравнение информационных систем автоматической проверки оригинальности текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1199
190
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНТИПЛАГИАТ / ИНФОРМАЦИОННАЯ СИСТЕМА / ОНЛАЙН-СЕРВИС / ОРИГИНАЛЬНОСТЬ ТЕКСТА / УНИКАЛЬНОСТЬ / ANTIPLAGIAT / INFORMATION SYSTEM / ONLINE SERVICE / ORIGINAL TEXT / ORIGINALITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Звонникова Екатерина Дмитриевна

В статье представлены проблемы неправомерного заимствования докладов, рефератов, курсовых, дипломных работ в учебных заведениях. Рассмотрены и проанализированы принципы функционирования и примеры систем для проверки оригинальности текстов. На основе специальным образом подготовленных примеров автором было проведено сравнение нескольких систем автоматической проверки текстов на оригинальность.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Звонникова Екатерина Дмитриевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Comparison of information systems automatically check the original text

The paper presents the problem of unauthorized borrowing reports, abstracts, coursework, theses in educational institutions. The author reviews and analyzes the principles of operation and examples of checking system of original texts. Based on a specially prepared examples several automatic check systems of text originality were compared.

Текст научной работы на тему «Сравнение информационных систем автоматической проверки оригинальности текстов»

ISSN 2304-120X

ниепт

научно-методический электронный журнал

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

ART 15282 УДК 004.912

Звонникова Екатерина Дмитриевна,

студентка ФГБОУ ВПО «Волгоградский государственный социальнопедагогический университет», г. Волгоград zvonnikova.katva@vandex. ru

Сравнение информационных систем автоматической проверки оригинальности текстов

Аннотация. В статье представлены проблемы неправомерного заимствования докладов, рефератов, курсовых, дипломных работ в учебных заведениях. Рассмотрены и проанализированы принципы функционирования и примеры систем для проверки оригинальности текстов. На основе специальным образом подготовленных примеров автором было проведено сравнение нескольких систем автоматической проверки текстов на оригинальность.

Ключевые слова: оригинальность текста, информационная система, онлайн-сервис, антиплагиат, уникальность.

Раздел: (03) философия; социология; политология; правоведение; науковедение.

Современное развитие информационных технологий и глобальной сети Интернет предоставило широким кругам пользователей доступ к огромным массивам информации. Появилось большое число онлайн-библиотек, содержащих художественную и научно-техническую литературу, коллекций рефератов, готовых лабораторных работ, курсовых и дипломных проектов и даже диссертаций; стало доступно множество методических указаний, курсов лекций, учебников и т. д. Использование компьютерной техники сильно облегчило задачу поиска и копирования подобной информации. Если раньше для написания реферата или контрольной работы информацию было нужно по крайней мере найти в книгах и переписать, то теперь достаточно ввести название темы в поисковую систему и скопировать найденные материалы.

В связи с этим стал распространяться метод написания работ, заключающийся в простом копировании информации из одного или нескольких источников с минимальным редактированием. Такая ситуация, в частности, наблюдается с подготовкой докладов, рефератов, курсовых, семестровых и дипломных работ в учебных заведениях.

Одним из решений данной проблемы является использование систем автоматической проверки оригинальности текста в целях совершенствования организации и контроля учебного процесса в университете, обеспечения самостоятельности выполнения выпускных квалификационных и курсовых работ, соблюдения обучающимися прав интеллектуальной собственности. Следовательно, весьма важным представляется вопрос о сравнении информационных систем подобного рода. Это и обусловило тему данной статьи.

Рассмотрим примеры систем для автоматической проверки оригинальности текстов, раскроем принципы их функционирования и проведем сравнение результатов работы.

Нами были выбраны системы, позволяющие осуществлять проверку оригинальности текста либо без регистрации, либо в бесплатном аккаунте: Антиплаги-ат.ш, Copyscape.ru, Автор^^ Findcopy.ru.

В системе «Антиплагиат» (http://www.antiplagiat.ru/), согласно официальному описанию системы [1], работа по проверке текста на оригинальность состоит из следующих этапов.

1

ISSN 2Э04-120Х

ниепт

научно-методический электронный журнал

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

1. Сбор информации из различных источников: сайты Интернета, базы научных статей и рефератов и т. д. Загруженные документы проходят процедуру фильтрации, основанную на уникальной технологии очистки текста, в результате которой отбрасывается бесполезная с точки зрения потенциального цитирования информация.

2. Каждый из полученных текстов определенным образом форматируется и заносится в системную базу данных.

Таким образом, на входе система принимает файл, а на выходе по всем тем фрагментам текста, на которые система нашла похожие аналоги в Интернете (этот фрагмент соответственно выделяется), выдается ссылка, где он мог быть скачан. Также подсчитывается вероятность заимствования фрагмента: 100% - фрагмент заимствован в исходном виде, если вероятность меньше - то во фрагменте могут быть переставлены какие-то слова, изменены словоформы, разбито предложение, слова заменены синонимами, произведены прочие манипуляции с текстом.

Зарегистрированные пользователи, имеющие бесплатный доступ, после проверки получают отчет, в котором указан процент оригинальности и список источников заимствования. Пользователи, которые подключили платный аккаунт, получают возможность проверки по дополнительным базам, просмотра полного отчёта с указанием ссылок на источники.

Загружаемые тексты проверяются по следующим базам:

1. Модуль поиска по сети Интернет, включающий коллекции рефератов, научные публикации, русскоязычные статьи Википедии.

2. Коллекции дипломных работ некоторых вузов.

3. Коллекции диссертаций Российской государственной библиотеки (diss.rsl.ru).

4. Коллекции юридических документов LEXPRO.

5. Коллекции научной электронной библиотеки elibrary.ru.

Отметим, что пункты 3-5 доступны пользователям с платными аккаунтами.

Другой онлайн-сервис, Findcopy.ru (http://findcopy.ru/), проверяет текст на уникальность, опираясь в основном на сайты сети Интернет.

Для работы достаточно бесплатно зарегистрироваться на сайте и пройти авторизацию. В среднем проверка текста осуществляется в течение 45 секунд.

Текст, подготовленный для проверки, необходимо разместить в специальном поле на странице ресурса. Альтернативным способом является проверка оригинальности текста веб-страницы, в этом случае достаточно указать ее URL-адрес [2].

Согласно [3], система «Aemop.NET» (http://ceur-ws.org/) осуществляет проверку как по источникам, доступным в сети Интернет так и по собственным источникам (базам статей, курсовых и контрольных работ, дипломных проектов и т. д.). По результатам проверки формируется отчет с подсветкой найденных заимствований и возможностью просмотра найденных источников. Как отмечается в [4], система включает в себя два модуля, функционирующих независимо друг от друга:

1. Первый осуществляет проверку по внутренней базе источников.

2. Второй проводит проверку по источникам сети Интернет. Для этих целей текст проверяемого документа разбивается на информативные фрагменты, число которых зависит от размера документа. Число таких фрагментов зависит от размера документа. Далее с использованием поисковых систем проводится поиск источников, содержащих указанные информативные фрагменты. Для осуществления поиска модуль использует Яндекс.XML, а также доступ к онлайн-поиску систем Google.ru, Rambler.ru, Aport.ru, Поиск.МаН.ш, Nigma.ru и т. д. Полученные таким образом источники проверяются затем на соответствие исходному документу. Для этого определяется формат источника (html-документ, txt-файл, doc- или rtf-документ, pdf-файл). В

2

ISSN 2304-120X

ниепт

научно-методический электронный журнал

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

случае html-документа из источника удаляются теги разметки. Файлы *.doc, *. rtf и *.pdf преобразуются, если это возможно, в обычный текстовый формат без разметки. Далее источники проходят предварительную обработку, и затем проводится оценка их сходства с исходным документом.

Сервис Copyscape (www.copyscape.com) используется для проверки оригинальности контента русскоязычных и англоязычных текстов, опубликованных в сети Интернет. Для проверки необходимо указать URL-адрес проверяемого ресурса.

В этом сервисе количество запросов с одного IP-адреса ограничено, также ограничения распространяются на просмотр результатов поиска совпадений: в бесплатном аккаунте представляются только первые 10 [5].

На основе работ [6-8] и собственного изучения рассматриваемых сервисов можно сформулировать главные принципы функционирования систем проверки текста на оригинальность.

Во-первых, проверяемый исходный текст проходит предварительную обработку, которая включает следующие действия:

1. Исключение из текста знаков препинания и спецсимволов.

2. Преобразование регистра.

3. Преобразование латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке.

4. Удаление стоп-слов (предлоги, наречия и т. д.) и знаков препинания.

5. Фильтрация текста: удаление неинформативных, наиболее распространенных, редко встречающихся слов и т. д.

6. Обработка (отбрасывание) окончаний слов.

Во-вторых, для оригинального или обработанного текста определяется индекс его оригинальности. При этом различные способы индексирования преследуют различные цели - ускорение поиска, сокращение размера поисковой базы, устойчивость к ошибкам или опечаткам, устойчивость к преобразованиям текста и т. д.

Для сравнения работы сервисов при проверке оригинальности текстов нами был проведен следующий эксперимент.

Было подготовлено несколько текстов:

1. Текст, созданный на основе лекции по дисциплине «Теория чисел» со специальной терминологией.

2. Текст, полученный на основе статьи из электронного журнала с заменой некоторых слов на синонимы. В тексте также используются специальные термины.

3. Текст без использования терминов, сложных оборотов, сложносочиненных и сложноподчиненных предложений. Текст является полностью оригинальным, так как был составлен автором статьи.

4. Текст, полученный из диктанта для учеников 5-х классов с заменой некоторых слов на синонимы.

Данные тексты были проверены на системах Антиплагиат.ги и Findcopy.ru.

Выбор систем обусловлен следующими причинами:

1. Система «Антиплагиат» выбрана ФГБОУ ВПО «ВГСПУ» в качестве системы проверки оригинальности текстов курсовых работ, ВКР и магистерских диссертаций. По результатам проверки именной в этой системы указанные работы получают допуск к защите.

2. Данные системы являются весьма известными в Рунете.

3. В обеих системах есть функции по проверке текстов из бесплатных аккаунтов.

По первому проверяемому тексту в бесплатном аккаунте системы «Антиплагиат» были получены следующие результаты:

- оригинальность: 50,44%,

3

о

Huem

научно-методический электронный >курнал

ISSN 2304-12QX

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

- заимствование: 49,56%,

- цитирование: 0%,

- количество источников: 20.

Стоит заметить, что все 20 источников расписаны в подробной информации о данном тексте, указаны ссылка, источник и дата создания документа в сети Интернет.

Проверка этого же текста в версии системы «Антиплагиат» для ФГБОУ ВПО «ВГСПУ» определила сложный индекс читаемости, оригинальность - 53,38% и 6 источников.

Результаты проверки этого же текста на ресурсе Findcopy.ru показали оригинальность текста 58% и 3 источника (Window.edu.ru - 35.1%, Almath.ru - 31.2%, Isu-sibadi.ru - 19.5%)

Второй текст взят из статьи электронного журнала с заменой некоторых слов на синонимы. В этом тексте, так же как и в первом, используется сложная терминология, количество символов 217. В обеих версиях системы «Антиплагиат» получены следующие данные:

- оригинальность: 100%,

- заимствование: 0%,

- цитирование: 0%.

Такой результат может означать то, что в базе системы проверки текста на оригинальность не существует статей из ряда весьма известных электронных журналов. Вопрос о внесении их в базу пока остается открытым.

Проверка второго текста на Findcopy.ru выявила оригинальность текста 16,2%; приведен один источник - lasola.ru (83,8%).

Третий текст специально разработан автором для сравнения рассматриваемых систем, в нем нет заимствований и специальной терминологии, количество символов: 309.

И в свободной версии системы «Антиплагиат», и в версии для ФГБОУ ВПО «ВГСПУ» получены следующие данные:

- оригинальность: 44,56%,

- заимствование: 55,44%,

- цитирование: 0%,

- 8 источников.

Проверка третьего текста на сервисе Findcopy.ru показала стопроцентную оригинальность текста.

Четвертый проверяемый текст взят из сборника диктантов для учеников 5-х классов, при этом некоторые слова были заменены на синонимы. Количество символов: 183.

В свободной версии системы «Антиплагиат» получены следующие данные:

- оригинальность: 34,64%;

- заимствование: 65,36%;

- цитирование: 0%,

- 16 источников.

Проверка этого же текста в версии системы «Антиплагиат» для ФГБОУ ВПО «ВГСПУ» показала 37,15% оригинальных блоков и 2 источника, выделены коллекции поиска «Интернет» и «РГБ, диссертации».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В результате проверки четвертого текста на сервисе Findcopy.ru оригинальность составляет 28,8%, описано 3 источника (www.4egena100.info - 70,7%, Svetlanal.ru - 69,6%, Otbet.ru.com - 36,4%)

4

о

Huem

научно-методический электронный журнал

ISSN 2304-120Х

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

Результаты сравнения показали, что система «Антиплагиат.ги» осуществляет поиск по нескольким коллекциям источников, представленным выше. Она описывает подробно большое количество источников, что является большим плюсом данной системы. Тем не менее система имеет ряд недостатков. Во-первых, система не осуществляет поиск по всем документам, доступным в сети Интернет. Особенно это касается тематических сайтов и новостных порталов: большое число заимствований осуществляется именно с таких источников. Явный пример - проверка второго текста, взятого полностью из электронного издания. Данная система, проверив его, показала 100% уникальности текста. Следовательно, даже при полном дублировании подобной информации система «Антиплагиат» соответствий не обнаружит. Во-вторых, в бесплатной версии присутствует ограничение размера проверяемого текста 3000 или 5000 символами (доступно после регистрации). В-третьих, ограничен просмотр документов, частично соответствующих проверяемому тексту. Кроме того, система ограничивает возможность проверки по базе имеющихся работ.

К достоинствам системы Findcopy.ru можно отнести возможность поиска не по отдельным коллекциям, а по всем документам, доступным в сети Интернет. Примером является проверка второго текста, где данная система показала 16,2% уникальности, а «Антиплагиат.ги» - 100%. Также присутствует ограничение размера проверяемого текста, однако длиной до 10 000 знаков. Основным недостатком Findcopy.ru является то, что она не описывает подробно источники, а только указывает ссылку на него и количество процентов, взятых из данного источника.

В результате данного сравнения можно сделать вывод, что различия в полученных результатах обусловлены в первую очередь отличиями баз систем, где проверяется загруженный текст. Некоторые системы проверяют текст только в Интернете, на определенных сайтах, однако у ряда существует и своя, регулярно пополняющаяся база. Следовательно, для получения наиболее оптимального и объектового результата по заимствованию в тексте можно рекомендовать использовать несколько систем, а не полагаться на результат одной.

Ссылки на источники

1. Антиплагиат. - URL: http://www.antiplagiat.ru/

2. Findcopy. - URL: http://mastersloga.ru/news/novyj_servis_proverki_unikalnosti_findcopy_ru/

3. Обзор Автор^ЕТ. - URL: http://ceur-ws.org/

4. Там же.

5. Обзор copyscape.com. - URL: http://profycopywriting.ru/copyscape.html.

6. Власова М. С., Суханов О. В. Технические средства для борьбы с плагиатом в целях повышения качества учебного процесса // Вестник гражданских инженеров. - 2012. - № 6 (35). - С. 187-192.

7. Хачецуков З. М. Проверка на оригинальность научных текстов: вопросы теории и практики // Гуманитарий Юга России. - 2014. - № 1. - С. 166-179.

8. Чиркин Е. С. Системы автоматизированной проверки на неправомерные заимствования // Вестник Тамбовского университета. Серия: Гуманитарные науки. - 2013. - № 12(128). - С. 164-174.

Ekaterina Zvonnikova,

Student, Volgograd State Social-Pedagogical University, Volgograd zvonnikova. katya @yandex. ru

Comparison of information systems of automatic check of original texts

Abstract. The paper presents the problem of unauthorized borrowing reports, abstracts, coursework, theses in educational institutions. The author reviews and analyzes the principles of operation and examples of checking system of original texts. Based on a specially prepared examples several automatic check systems of text originality were compared.

Key words: original text, information system, online service, antiplagiarism, originality.

References

1. Antiplagiat. Available at: http://www.antiplagiat.ru/ (in Russian).

5

ISSN 2Э04-120Х

ниепт

научно-методический электронный журнал

Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Концепт. - 2015. - № 08 (август). -ART 15282. - 0,4 п. л. - URL: http://e-koncept.ru/2015/15282.htm. - ISSN 2304-120X.

2. Findcopy. Available at: http://mastersloga.ru/news/novyj_servis_proverki_unikalnosti_findcopy_ru/ (in Russian).

3. Obzor Avtor.NET. Available at: http://ceur-ws.org/ (in Russian).

4. Ibid.

5. Obzor copyscape.com. Available at: http://profycopywriting.ru/copyscape.html (in Russian).

6. Vlasova, M. S. & Suhanov, O. V. “Tehnicheskie sredstva dlja bor'by s plagiatom v celjah povyshenija kachestva uchebnogo processa”, Vestnik grazhdanskih inzhenerov, 2012, № 6 (35), pp. 187-192 (in Russian).

7. Hachecukov, Z. M. (2014) “Proverka na original'nost' nauchnyh tekstov: voprosy teorii i praktiki”, Gumanitarij Juga Rossii, № 1, pp. 166-179 (in Russian).

8. Chirkin, E. S. (2013) “Sistemy avtomatizirovannoj proverki na nepravomernye zaimstvovanija”, Vestnik Tambovskogo universiteta. Serija: Gumanitarnye nauki, № 12(128), pp. 164-174 (in Russian).

Рекомендовано к публикации:

Утёмовым В. В., кандидатом педагогических наук; Горевым П. М., кандидатом педагогических наук, главным редактором журнала «Концепт»

Поступила в редакцию 15.05.15 Получена положительная рецензия 17.05.15

Received Received a positive review

Принята к публикации 17.05.15 Опубликована 29.08.15

Accepted for publication Published

© Концепт, научно-методический электронный журнал, 2015 © Звонникова Е. Д., 2015

www.e-koncept.ru

6

i Надоели баннеры? Вы всегда можете отключить рекламу.