Научная статья на тему 'Системы автоматизированной проверки на неправомерные заимствования'

Системы автоматизированной проверки на неправомерные заимствования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
5398
578
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛАГИАТ / АНТИПЛАГИАТ / СИСТЕМЫ АНТИПЛАГИАТА / НЕПРАВОМЕРНОЕ ЗАИМСТВОВАНИЕ / ЗАИМСТВОВАНИЕ / ПЛАГИАТ В ОБРАЗОВАНИИ / PLAGIARISM / ANTI-PLAGIARISM / BORROWING / PLAGIARISM IN EDUCATION / SYSTEMS OF ANTI-ILLEGAL BORROWING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чиркин Евгений Сергеевич

Работа посвящена проблемам применения систем для автоматизированной проверки текстовых документов на наличие в них чужой интеллектуальной собственности. Цель работы – всестороннее рассмотрение данной проблемы. В ходе работы уточнено понятие «плагиат», затронуты проблемы его идентификации, рассмотрены границы применимости юридических норм российского права к заимствованиям в научных работах. Приведен обзор позиций официальных лиц государства по данному вопросу. Особое внимание в работе уделено таким формам плагиата, как парафраз, перевод и замаскированный плагиат, как наиболее влияющим на автоматизированную проверку. В работе рассмотрены основные методы антиплагиата (экспертиза и технические методы), приведен обзор и сравнительный анализ автоматизированных систем для проверки на заимствованияАнтиплагиат», «Advego Plagiatus», «eTxt Antiplagiat», «Диссерорубка», ИС КОП СГУ, ряд метапоисковых систем и др.), детально разобраны принципы их работы (включая этапы извлечения текста, лемматизации, синонимизации, стеммизации, также рассмотрены базовые алгоритмы индексирования) и основные характеристики (размер выборки, длина шингла и др.), влияющие на точность и скорость, рассмотрены уязвимые места при извлечении и преобразовании текста, затронуты вопросы ограниченности поисковой базы и методы противодействия этим системам (технические – замена букв, перекрашивание, замена синонимов, нетехнические – изменение структуры текста, глубокий рерайтинг, заказ работы и др.). Приведена критика систем проверки на плагиат (проверяемыми, проверяющими, приведены позиции глав различных учебных заведений, должностных лиц государства, представителей общественности), рассмотрена разница их применения для случаев проверки учебных (студенческих) работ, научных работ, произвольных текстов. Приведены трактовки значений величин оригинальности текста, используемых в различных учебных заведениях. В заключение работы приведены рекомендации и ограничения внедрения средств автоматизированной проверки на наличие заимствований в учебный процесс, включая: отношение к служебным частям проверяемой работы, самоплагиату авторов, требование использования множества параметров (не только единственного – «процента оригинальности»), требование стилистической и семантической грамотности. Также приведены рекомендации по трактовке результатов и повышению качества учебных и научных работ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATED TEST SYSTEMS FOR ILLEGAL BORROWING

The article is devoted to the problems of systems for automated check of text documents on the presence of plagiarism. The purpose of this document is a comprehensive review of the problem. During the concept of “plagiarism”, the problems of identification, the limits of applicability of legal norms of Russian law to borrow in scientific papers are considered. The overview of the positions of state officials on the issue is given. The special attention is paid to such forms of plagiarism as a paraphrase, translation and masked plagiarism as the most affecting automated check. The paper discusses the basic techniques Antiplagiat (expertise and techniques), an overview and comparative analysis of automated systems to check for borrowingы (“Antiplagiat”, “Advego Plagiatus”, “eTxt Antiplagiat” and some meta-search systems etc.), detailed investigation how they work (including the steps of: extracting text, lemmatization, synonymization, stemming and also describes the basic indexing algorithms) and the basic characteristics (sample size, length of a shingle, etc.) that affect the accuracy and speed, reviewed vulnerabilities when extracting and converting the text to be affected by issues of limited research base and methods to counteract these systems. The comprehensive critique of automatic systems checks for plagiarism is given; the difference of their application for verification of cases of student work, research papers, and other texts is shown. The interpretation of given values of the quantities of the original text used in various educational institutions is considered. In conclusion, the work provides recommendations for the implementation of an automated check for borrowing in the educational process, including: attitude to official pieces of work self-plagiarism, requiring the use of a variety of parameters (not only single – “percentage of originality”), stylistic and semantic check. It also provides recommendations on the interpretation of the results and the increasing quality of educational and scientific work.

Текст научной работы на тему «Системы автоматизированной проверки на неправомерные заимствования»

УДК 004.04

СИСТЕМЫ АВТОМАТИЗИРОВАННОЙ ПРОВЕРКИ НА НЕПРАВОМЕРНЫЕ ЗАИМСТВОВАНИЯ1

© Евгений Сергеевич ЧИРКИН

Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, старший преподаватель кафедры информатики и информационных технологий, программист, e-mail: chirkin@tsu.tmb.ru

Работа посвящена проблемам применения систем для автоматизированной проверки текстовых документов на наличие в них чужой интеллектуальной собственности. Цель работы - всестороннее рассмотрение данной проблемы.

В ходе работы уточнено понятие «плагиат», затронуты проблемы его идентификации, рассмотрены границы применимости юридических норм российского права к заимствованиям в научных работах. Приведен обзор позиций официальных лиц государства по данному вопросу. Особое внимание в работе уделено таким формам плагиата, как парафраз, перевод и замаскированный плагиат, как наиболее влияющим на автоматизированную проверку. В работе рассмотрены основные методы антиплагиата (экспертиза и технические методы), приведен обзор и сравнительный анализ автоматизированных систем для проверки на заимствования («Антиплагиат», «Advego Plagiatus», «eTxt Antiplagiat», «Диссерорубка», ИС КОП СГУ, ряд метапоисковых систем и др.), детально разобраны принципы их работы (включая этапы извлечения текста, лемматизации, синонимизации, стеммизации, также рассмотрены базовые алгоритмы индексирования) и основные характеристики (размер выборки, длина шингла и др.), влияющие на точность и скорость, рассмотрены уязвимые места при извлечении и преобразовании текста, затронуты вопросы ограниченности поисковой базы и методы противодействия этим системам (технические - замена букв, перекрашивание, замена синонимов, нетехнические - изменение структуры текста, глубокий рерайтинг, заказ работы и др.). Приведена критика систем проверки на плагиат (проверяемыми, проверяющими, приведены позиции глав различных учебных заведений, должностных лиц государства, представителей общественности), рассмотрена разница их применения для случаев проверки учебных (студенческих) работ, научных работ, произвольных текстов. Приведены трактовки значений величин оригинальности текста, используемых в различных учебных заведениях.

В заключение работы приведены рекомендации и ограничения внедрения средств автоматизированной проверки на наличие заимствований в учебный процесс, включая: отношение к служебным частям проверяемой работы, самоплагиату авторов, требование использования множества параметров (не только единственного - «процента оригинальности»), требование стилистической и семантической грамотности. Также приведены рекомендации по трактовке результатов и повышению качества учебных и научных работ.

Ключевые слова: плагиат; антиплагиат; системы антиплагиата; неправомерное заимствование; заимствование; плагиат в образовании.

Введение. Мировой тренд последнего десятилетия - борьба с неправомерным использованием чужой интеллектуальной собственности. «Традиционное» в XX в. преследование нарушителей патентов планомерно переросло в преследование «пиратов» аудио-и видеопродукции и продолжает распространяться на прочие виды интеллектуальной собственности, постепенный ввод понятия «авторские и смежные права» трансформировался в постоянное расширение области его действия. Во многом это связано с распространением дешевого широкополосного

1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 12-07-00512).

Интернета, а также ростом количества дистанционных сервисов и услуг, и, самое главное, их востребованностью.

Понятие «плагиат». Плагиат - давно известное понятие [1], под ним обычно подразумевают умышленное присвоение авторства чужой (иногда - собственной!) работы или ее части. В юридической практике данное определение дополняется существенным словосочетанием «с целью извлечения прибыли». Проблема плагиата сложна не собственно плагиатом, а либо его неявной формой -т. н. «неумышленный плагиат» (он хорошо известен по музыкальным произведениям), либо злоупотреблением возможностью правомерного заимствования, что провоцирует-

ся размытостью границы между правомерным и неправомерным заимствованием. Плагиат также может быть вызван стилизацией, заболеваниями [2] или быть простым совпадением.

Правомерное использование чужой интеллектуальной собственности. Правомерное использование чужой интеллектуальной собственности в Российской Федерации без согласия автора и без выплаты ему вознаграждения регулируется Гражданским кодексом РФ, ст. 1274 «Свободное использование произведения в информационных, научных, учебных или культурных целях» [3]. Основные положения этой статьи применительно к сфере образования кратко можно выразить тремя пунктами:

1) цитируемое произведение должно быть правомерно обнародовано и / или введено в гражданский оборот;

2) допускается без согласия автора или иного правообладателя и без выплаты вознаграждения, но с обязательным указанием имени автора, произведение которого используется, и источника заимствования: а) цитирование в объеме, оправданном целью цитирования; б) как иллюстрация в произведениях учебного характера с учетом цели;

3) возможно передавать произведения во временное безвозмездное пользование в библиотеках; произведения в цифровой форме - только в помещениях библиотек при условии исключения возможности создать копии этих произведений.

В законе следует обратить внимание на формулировки «объеме, оправданном целью цитирования» и «с учетом цели» - понятия о «целях» и «объемах» заимствования могут не совпадать у заимствующего, правообладателя и суда.

Ответственность за плагиат в РФ, действующее законодательство. Правовое поле ответственности за плагиат - авторские и смежные права. Ответственность за неправомерное использование чужой интеллектуальной собственности в Российской Федерации регулируется:

- ГК РФ ст. 1250-1253, в т. ч. 1253.1;

- КоАП РФ ст. 7.12 «Нарушение авторских и смежных прав, изобретательских и патентных прав»;

- УК РФ ст. 146 «Нарушение авторских и смежных прав».

Вкратце содержание этих статей можно свести к следующим пунктам:

- по ст. 1251 ГК РФ: в случае нарушения личных неимущественных прав автора их защита осуществляется, в частности, путем признания права, восстановления положения, существовавшего до нарушения права, пресечения действий, нарушающих право или создающих угрозу его нарушения, компенсации морального вреда, публикации решения суда о допущенном нарушении;

- по ст. 7.12 КоАП РФ: нарушение авторских и смежных прав в целях извлечения дохода влечет за собой наложение административного штрафа на граждан в размере от 1,5 до 2 тыс. руб. с конфискацией контрафактных экземпляров произведений и фонограмм;

- по ч. 1 ст. 146 УК РФ: если «присвоение авторства (плагиат) причинило крупный ущерб автору или иному правообладателю, то оно наказывается штрафом в размере до 200 тыс. руб. или в размере заработной платы или иного дохода осужденного за период до 18 месяцев, либо обязательными работами на срок от 180 до 240 часов, либо арестом на срок от 3 до 6 месяцев».

Таким образом, административная ответственность наступает только в том случае, если доказана цель плагиата - извлечение дохода; уголовная ответственность - только если доказано причинение крупного ущерба; считается, что плагиат в научных работах не связан с целью извлечения доходов и не причиняет крупного ущерба.

Вывод: присвоение авторства на научную работу реально влечет только гражданско-правовую ответственность.

Возможная в (ближайшем) будущем ответственность за плагиат. В настоящее время во всех странах мира существует тенденция по ужесточению наказаний за правонарушения в области авторского права. Ниже перечислены факты, говорящие о подобном тренде в России и о возможных наказаниях:

1) «На заседании комиссии по координации деятельности Открытого правительства министр внутренних дел В. Колокольцев выступил с предложением о введении уголовной ответственности за плагиат в научных работах» [4];

2) «Министерство культуры России подготовило новый законопроект о борьбе с

пиратством в Интернете. <...> он распространяется, в отличие от уже вступившего в силу закона, не только на фильмы, но и на остальные объекты авторских и смежных прав - музыку, тексты, фотографии и другое. <...> предполагается распространить и на сайты со ссылками на нелицензионный контент. Мин-культ предлагает также добавить статью «Нарушение порядка ограничения доступа к информации в случае нарушения авторского права и смежных прав» в Кодекс об административных правонарушениях. Эта статья предусматривает штрафы в размере 300 тыс. руб. для граждан, 600 тыс. - для должностных лиц и 1 млн - для юридических» [5].

Плагиат: современное состояние, общественное мнение. В последний год в РФ произошло несколько скандалов, связанных с обнаружением плагиата.

«Российская государственная библиотека (далее - РГБ) проверила диссертации по истории, которые были защищены с 2000 г. <...>. Проверка показала, что примерно 10 % работ почти полностью плагиат. По словам директора РГБ А. Вислого, около полутора тысяч диссертаций по истории, защищенных за последние 13 лет, более чем на 70 % заимствованы из других работ. Каждая работа проверялась на наличие некорректных заимствований из той же базы диссертаций, и если бы ревизоры взяли для сравнения другие тексты, например, монографии и статьи, то объем плагиата был бы значительно больше» [6].

2. «Ректор МПГУ допустил многолетнее функционирование в своем вузе совета Д 212.154.01 - «фабрики фальшивых диссертаций», - отметили в пресс-службе Минобр-науки» [7].

3. Общественное мнение по поводу плагиата в науке и среди должностных лиц: «Москва, 15 августа - АиФ-Москва. Данные опроса, проведенного социологами «Левада-Центра» в конце июля среди 1,6 тыс. человек в 45 регионах России: за обнаружение плагиата в научной работе чиновники и депутаты должны лишаться должностей (83 %), ученые - своих степеней (82 %)» [8].

4. Сетевое сообщество на добровольных началах «Диссернет» [9] осуществляет систематическую проверку на плагиат диссертаций должностных лиц государства, депутатов, чиновников, преподавателей и администрации различных вузов (по их словам, про-

верено намного больше работ, чем в настоящий момент размещено на сайте). Следует отметить высочайшее качество организации проводимых ими экспертиз, а также доступность результатов этих экспертиз, их наглядность и повторяемость любыми заинтересованными лицами.

Борьба с плагиатом в системе образования. В настоящее время борьба с плагиатом в науке и образовании не выходит за рамки отельных случаев, известны лишь события (например, [6]), имеющие определенный общественный резонанс. Началом системной борьбы с плагиатом можно назвать 2013-2015 гг.: «Минобрнауки обяжет все высшие учебные заведения размещать в открытом доступе на своих сайтах квалификационные, курсовые, дипломные, докторские, кандидатские и диссертационные работы каждого студента и аспиранта» [10].

Ключевые этапы создания системного подхода по повышению качества научных и квалификационных работ можно извлечь из статьи «Система открытой публикации» [11] и документа «Стратегия развития системы подготовки рабочих кадров и формирования прикладных квалификаций в Российской Федерации на период до 2020 года» [12]. Согласно им, основными этапами являются:

1) создание базы экземпляров всех работ: квалификационных работ обучающихся, кадров высшей квалификации и современных учебников, ее интеграция с единой информационной системой ВАК (2013 г.);

2) обеспечение доступа частных производителей программного обеспечения к базе контрольных экземпляров работ и их текстам, предоставление образовательным и научным учреждениям доступа к системам контроля заимствований на любых приемлемых, в т. ч. коммерческих условиях, при этом право выбора соответствующих информационных систем должно остаться исключительно за самим учреждением (2014 г.);

3) уточнение правового определения термина «недобросовестное заимствование» (плагиат) в контексте проверки квалификационных работ. Создание организационно-методической базы для построения системы антиплагиата в научных и образовательных учреждениях. Разработка методик установления фактов неправомочного заимствования, регламентов процедур рассмотрения

спорных вопросов неправомочного заимствования, системы моральных и административных санкций (срок - декабрь 2013 г.);

4) изменение требований к промежуточной и итоговой аттестации в образовательных учреждениях. Изменение процедуры регламентированного контроля качества образования в части обязательных требований к использованию систем контроля заимствований (2015 г.), аналогично диссоветы - 2015 г.;

5) реализация возможности открытого опубликования квалификационных работ (6 месяцев с поправок в Гражданском кодексе РФ), распределенных библиотек текстов работ (2014 г.), поисковые системы по ним -2014 г.;

6) создание механизмов заинтересованности обучающихся в самостоятельной работе и развитии творческой активности через интеграцию открытых баз работ с социальными сетями (2014 г.), взаимное цитирование студентов студентами с премированием самых цитируемых авторов (2015 г.).

Всего данный этап развития состоит из 3-х периодов по одному году каждый (20132015 гг.).

Методы плагиата. Основные методы плагиата: полное заимствование (сору&ра81е-плагиат), замаскированный плагиат, пересказ, перевод, плагиат идей. Следует отметить, что упомянутые в начале методы обычно характерны для работ в областях по телекоммуникации и информатике, естественнонаучных, в конце - в основном, гуманитарных. Методы приведены в порядке увеличения сложности их обнаружения.

Методы антиплагиата. Единственный в РФ способ установления плагиата - экспертиза. Как имеющая правовые последствия, для научных работ это должна быть судебно-лингвистическая экспертиза. Данная процедура для заинтересованных лиц является достаточно дорогой (от 20 тыс. руб.) и длительной во времени (от 5 рабочих дней [13]). При экспертизе обычно сравнивают множества используемых слов, последовательности фраз, стилистику текста, особенности речи и другие методы на усмотрение эксперта.

С развитием средств вычислительной техники, Интернета и сетевых поисковых систем появилась возможность установления факта плагиата более простым и техничным способом - посредством поиска соответст-

вующего фрагмента в сети. Данная процедура является сравнительно быстрой и не затратной.

К настоящему времени появились специализированные поисковые системы, направленные на поиск плагиата, т. н. «системы антиплагиата». Слово «антиплагиат» является нарицательным, в русском языке появилось при разработке системы «Антиплагиат» от ЗАО «Форексис» [14].

Принципы работы систем антиплагиата. Все системы, которые можно использовать для целей поиска заимствований, можно разделить на три больших класса:

1) поисковые системы сети Интернет. Не предназначены для поиска заимствований, но: а) с их помощью можно искать заимствования вручную; б) один из представителей - поиск от Google распознает научные работы, опубликованные в мировых научных изданиях, и цитирования в них, в т. ч. и не обозначенные как заимствования;

2) метапоисковые системы и системы антиплагиата, не имеющие значимой собственной базы документов. Работают посредством формирования вызовов на основе проверяемого документа к популярным поисковым машинам сети Интернет, интерпретируют их результаты. Для ускорения работы оперируют стоп-словами и проводят непоследовательную проверку документа (метод выборок) и др.;

3) специализированные системы антиплагиата с собственными алгоритмами поиска совпадений и собственными базами документов.

Особенность метапоисковых систем антиплагиата - их «базы» всегда актуальны, они не имеют доступа к документам, не размещенным в свободном доступе, либо документы в сети могут быть размещены в свободном доступе, но находиться в формате, поиск которого не поддерживается. Скорость работы на клиенте обычно предельно низкая, возможно блокирование по IP поисковой системой (обычно - всегда и быстро блокируется) как неправомерное использование поисковой системы автоматизированными средствами, т. е. проверка будет невозможная или ее результаты будут искажены.

Особенность самодостаточных систем антиплагиата - специализированные алгоритмы поиска, собственные базы с, возможно, уникальным содержимым, не представ-

ленным в свободном доступе, относительно высокая скорость работы по сравнению с ме-тапоисковыми системами.

Принципы работы специализированных систем антиплагиата:

1) преобразование проверяемого документа в текст;

2) индексирование полученного текста. Стадия индексирования включает в себя выделение элементарных фрагментов текста и уменьшение их количества (исключение коротких слов, стоп-слов, слов, которых нет в словаре, приведение слов к базовой форме (например, лемматизация или стеммизация) и др.). На этой стадии может быть проведена нормализация текста относительно синонимов;

3) собственно построение индекса. Индекс может быть пословным, по систематическим фрагментам «внахлест» (метод шинг-лов), либо по некому другому закону (метод пассажей), по семантическим или смысловым единицам. Индекс может строиться, например, по К-граммам для нечеткого сравнения слов (или более длинных конструкций текста). Индекс может создаваться как по оригинальному тексту, так и после его некоторой предварительной обработки (см. предыдущий пункт). Различные способы индексирования преследуют различные цели - например, ускорение поиска, сокращение размера поисковой базы, устойчивость к ошибкам или опечаткам, устойчивость к преобразованиям текста. Поисковый индекс часто является необратимым - по нему нельзя восстановить индексируемый текст, если это кому-нибудь потребуется.

При поиске аналогично преобразовывается проверяемый документ и происходит поиск совпадающих фрагментов по индексу, сортировка результата.

Очевидно, что использование всех видов предварительной обработки текста (лемми-зация, стеммизация, нормализация по синонимам и др.) способно дать ложный результат при автоматизированном сравнении (обычно речь идет о ложно-положительных срабатываниях), также возможны ложные срабатывания на устойчивых речевых оборотах, словосочетаниях, многих именах собственных. Это является осознанным риском использования систем данного типа.

Известные характеристики систем антиплагиата. В общем случае, принципы ра-

боты каждой из систем антиплагиата неизвестны, однако для каждой из них можно сделать обоснованные предположения.

еТХТ Антиплагиат 3.0.8.0. Согласно окну настроек, это метапоисковая система, использующая метод выборок (выборок 20 шт. на каждую тысячу слов, размер выборки -10 слов), выборки проверяются по шинглам (Ь = 3).

Advego 1.3.0.61. Согласно окну

настроек, это метапоисковая система, использующая метод выборок (размер выборки -5 слов), выборки проверяются по шинглам (Ь = 4).

Антиплагиат от ЗАО «Форексис». По опыту использования и декларируемой независимости от языка документа [15], вероятно, использует метод шинглов на основе К-грамм (возможно, триграмм). Согласно их форуму и отчетам, можно предположить, что дополнительно используется нормализация текста по словарю синонимов, и нахождение плагиата локально имеет эффект триггера для защиты от ложных срабатываний.

Поверхностный анализ результатов экспертиз сообщества «Диссернет» и заключений программы поиска фрагментов - т. н. «диссерорубки профессора Ростовцева» [16] показывает, что в них производится поиск по точным совпадениям по шинглам с Ь = 3, используются запросы к поисковым системам и поиск сравнений по своей базе документов. Однако потом каждый результат проверяется вручную. Судя по описанию, функциональность может изменяться с течением времени.

Известные системы антиплагиата.

1. Антиплагиат от ЗАО «Форексис» (http://antiplagiat.ru/). Ключевая особенность системы - единственная, в чьих базах содержатся диссертации из Российской государственной библиотеки.

2. Advego Р^иаШ8 (http://advego.ru/ plagiatus/). Простая метапоисковая система проверки на плагиат. Создана для поддержки биржи текстов Advego.

3. eTXT Антиплагиат (http://etxt.ru/). Более совершенная, по сравнению с Advego Р^ш^, метапоисковая система проверки на плагиат. Создана для поддержки биржи текстов eTXT.

4. Интеллектуальный робот контроля оригинальности и профессионализма Совре-

менной гуманитарной академии (часто встречается сокращение «ИСКОП СГА») (свободного доступа нет), является частью информационной системы вуза [17]. Ключевая особенность - согласно внутренним источникам, между собой интегрированы система проверки на плагиат, обширная электронная библиотека и личный кабинет студента, что в ходе проверки позволяет эффективно отличать самостоятельные работы, основанные на рекомендованном и учебном материале, от посторонних работ.

5. «Диссерорубка профессора Ростовцева» [16] - метапоисковая система, в свободном доступе отсутствует (но можно получить, связавшись с автором), имеет сложный интерфейс в ее использовании на сайте сообщества «Диссернет». Ничто из этого не является недостатком ввиду того, что данный инструмент является вспомогательным, а также имеется качественное описание процедуры работы с ней.

Существуют и иные программы и сервисы, имеющие в своем названии или описании слово «антиплагиат» или «уникальность текста» (например, Praide Unique Content Analyser II, istio.com, miratools.ru, также многие проекты закрылись - Double Content Finder, Find Copy и др.), но все они являются метапоисковыми системами или оболочками к ним, направленными на поисковую оптимизацию, и в целях поиска плагиата в научных работах (курсовых, дипломных, диссертационных) абсолютно бесполезны. Также существует решение Plagiat Inform [18] -продаваемая, но не работающая (внедрения не обнаружены) система антиплагиата.

Применение зарубежных решений (Google Scholar, Copyspace, Vroni Plag [19]) не имеет особенного смысла, т. к. они либо не имеют баз с русскоязычными документами, либо не поддерживают работу с русскоязычными текстами (эти два пункта принципиально важны, т. к. в России получение образования осуществляется преимущественно на русском языке), либо являются метапоис-ковыми системами, не имеющими решающих преимуществ перед уже упомянутыми.

Характеристики системы «Антиплагиат» от ЗАО «Форексис». Самой известной и, вероятно, самой крупной самостоятельной системой проверки на плагиат в России является «Антиплагиат» от ЗАО «Форексис». По

данным на 1 мая 2012 г. [16] их база включает в себя:

- интернет-коллекцию: свыше 40 млн уникальных документов;

- коллекцию полных текстов авторефератов и диссертаций РГБ: свыше 700 тыс. документов, в т. ч. практически все диссертации, защищенные в России с 2000 г.;

- коллекцию нормативных и юридических документов Ьехрго: свыше 7 млн.

Критика систем проверки на плагиат. Все претензии к системам антиплагиата можно свести к следующим основным положениям (приведены по порядку убывания количества претензий по каждому пункту):

1. Явное несовершенство. Не включая в себя последующие претензии, обычно данный пункт подразумевает незначительное наполнение баз, целые темы или даже отрасли не включены в базы системы, дается положительное заключение на работы, целиком списанные по 1-2-5 весьма старым источникам. Также данный пункт включает в себя ложные срабатывания по распространенным стилистическим и речевым оборотам. Особенно сильное возмущение вызывает срабатывание системы по стилевым оборотам, характерным для научной речи.

2. Учитываются служебные части документов. В зависимости от документа, от системы и времени проверки, проверка одного и того же документа, включающего либо не включающего список использованных источников, дает принципиальную разницу (более ±15 % найденных заимствований).

3. Обычно с течением времени «уникальность текста» падает. Чаще всего это связано с пополнением баз системы антиплагиата, однако в некоторых случаях - с изменениями алгоритма проверки.

4. Закрытость алгоритмов проверки. Закрытость алгоритмов работы не является принципиальным недостатком, однако ввиду их явного несовершенства они, скорее, являются проблемой для уникальных творческих и научных работ, чем для списанных, причем при изменении первых для успешной «проверки на плагиат» теряется их уникальность.

5. Закрытость баз. Закрытость баз (пусть даже и неполных) автоматически предполагает злоупотребления со стороны администрации системы антиплагиата или ответственных лиц по работе с ней.

6. Учет правомерных заимствований, учет самоцитирования. Ни одна из существующих в мире систем антиплагиата не учитывает правомерное заимствование, цитирование, самоцитирование (считает их, соответственно, плагиатом), а также следующие важные моменты.

- Законченная научная работа предполагает промежуточные публикации, в которых содержатся ее основные положения, полученные в процессе работы на ней. На практике содержание промежуточных публикаций полностью и неоднократно покрывает основную работу. Строго говоря, это не совсем правильно, но это повсеместная практика.

- При работе ученого над одной темой в течение некоторого промежутка времени появляются, в терминах авторского права, производные произведения, основанные на одном или нескольких произведениях того же автора - возникает проблема самоцитирования и большого количества местами повторяющихся работ. Строго говоря, это, опять же, не совсем правильно, но это - результаты новых итераций работы, все результаты которой и не должны быть новыми.

- Научная работа ведется по определенным принципам, полагающим, что в основе конкретной работы лежит идея, концепция, эксперимент, работа, кем-то когда-то где-то уже высказанная или выполненная, что в обязательном порядке предполагает ее цитату, пересказ или упоминание.

7. Высокие требования к работам. Конкретные цифры - см. ниже. Самый часто называемый минимально допустимый процент «оригинальности» работы - 80 % (для системы «Антиплагиат»). По опыту проверок, это очень высокая величина, достигнутая искусственным путем. Возможно, гуманитарная творческая работа типа школьного сочинения по литературному произведению способна показать столь высокий процент, но большинство уникальных научных работ, например, по информатике, покажет меньшую величину.

8. Некоторые типы учебных работ подразумевают «плагиат» - в технических вузах есть работы, которые можно охарактеризовать как «повторить по образцу» - речь идет, например, о вычислительных задачах и рас-четно-графических работах, суть которых можно свести к «скопировать фрагмент ме-

тодички, подставить числа из своего варианта, посчитать». Другой известный крайний вариант - работы юридической направленности, которые должны включать фрагменты законов. Разумеется, при проверках системами антиплагиата будет обнаружено 95-100 % плагиата.

9. Изменчивость алгоритма. Помимо того, что алгоритм закрыт, он еще и обычно меняется с течением времени, причем изменения могут быть как в сторону ужесточения проверки, так и в сторону смягчения требований. Это порождает определенное недовольство теми, для кого изменение оказалось принципиальным.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В дополнение следует отметить повсеместное использование термина «оригинальность» («процент оригинальности» или «процент уникальности работы»), который подменяет собой изначальное значение данного слова и на самом деле означает лишь «не найдено в базе». Правильно употреблять, по означенной причине, слово «заимствование».

Критика системы «Антиплагиат» от ЗАО «Форексис». Система «Антиплагиат» от ЗАО «Форексис» ввиду систематического (с момента появления в 2005 г. [14]) наличия недостатков и ее известности в России (включая сотрудничество с вузами) удостоена дополнительной критики от общества и должностных лиц государства.

Критика № 1. Об единственном показателе «оригинальности» текста - «проценте оригинальности»: «Но ни в коем случае не должно быть механической стрижки под одну гребенку, тем более с использованием несовершенных систем контроля контента в диссертациях» - премьер-министр РФ Д.А. Медведев о системе «Антиплагиат» [20].

Критика № 2. Претензии по принципам организации работы и доступа Д. Леванова [21]: а) неизвестно, как именно работает «Антиплагиат»; б) «Антиплагиат», будучи закрытой системой, позволяет манипулировать базами данных и исключать из баз диссертации.

Критика № 3. Почему именно «Антиплагиат»? «<...> Генпрокуратура России направила ответ на депутатский запрос Бурматова. «Документ уверил меня в мысли, что те вопросы, которые мы задавали в отношении законности деятельности этого ЗАО, были не напрасны. В частности, в своем ответе пер-

вый замгенпрокурора сообщает, что в ходе проверки, которую проводила прокуратура города Москвы, сотрудники ведомства в принципе не смогли обнаружить ЗАО «Антиплагиат» по месту его регистрации», -прокомментировал ситуацию Бурматов. <...> Бурматов считает, что в ходе судебного процесса станет известно, кто причастен к «лоббированию интересов» ЗАО «Антиплагиат». «Ливанову на суде придется объяснить, кто в минобре слал по вузам письма с требованием подключаться к услугам ЗАО, все встанет на свои места»» [22].

Критика № 4. «На данном этапе идет уже не пересказ учебников своими словами, а тупой перебор различных формулировок одной и той же мысли - какая пройдет. Сейчас студенческие работы представляют собой немыслимый бред, потому что нормальные формулировки на грамотном русском языке уже кто-то однажды использовал» [23].

Борьба с системами антиплагиата. Борьбу с системами антиплагиата можно разделить на два основных подхода - технический и нетехнический.

Технические методы включают в себя: замену букв одного алфавита на букву сходного начертания другого («а» русскую на «а» английскую), перекрашивание в цвет фона пробелов, отдельных букв, точек или других символов. Вставка невидимого текста. Добавление (орфографических) ошибок. Использование синонимайзеров (программ для автоматической или полуавтоматической замены слов на синонимы). Возможно использование уязвимостей в системах антиплагиата, приводящих к требуемому «проценту уникальности» текста (например, программы AntiPlagiatKiller). Более совершенный продукт (на момент своего создания) -AntiPlagiatKiller у2 анализирует текст и выводит рекомендации по изменению текста -такие, как убрать старое слово, добавить новое слово, «следует что-нибудь поменять» и др.

Достоинства технических методов обхода проверок на антиплагиат - их массовость, доступность, высокая скорость работы. Обычно технические методы обхода легко нейтрализуются создателями системы анти-плагита даже без получения в пользование соответствующего продукта. Но, опять же, на это требуется время, за которое получат положительное заключение множество работ.

Нетехнические способы обхода заключаются в переписывании текста. В настоящее время простейшие преобразования текста -соединение / разъединение предложений, перестановка слов местами, замена слов на синонимы, расшифровка сокращений или, наоборот, их использование, переписывание отдельных фрагментов - не оказывают значительного влияния на проверку. Говоря о переписывании, нельзя не упомянуть о поисковой оптимизации.

Поисковая оптимизация (searchengineop-timization) - комплекс мер по изменению формы и содержания (текста, веб-сайта) с целью повышения его позиции в выдаче поисковой системой. Помимо всего прочего включает в себя уникализацию текста и наполнение его ключевыми словами. Рерайтинг (rewriting) - переписывание текста с изменением формы изложения и сохранением оригинального смысла. Копирайтинг (copywriting) -профессиональное написание текстов (часто -рекламных). В SEO часто противопоставляется рерайтингу с точки зрения получения на выходе текста более высокого качества, с заданными наполнением и уникальностью.

Поисковая оптимизация существуют более 15 лет. В настоящее время это целая индустрия, включающая в т. ч. обучение непосвященных. То есть, в настоящее время существуем множество руководств по переписыванию текстов непрофессионалами, по которым любое заинтересованное, никогда ранее не занимавшееся этим лицо, может переписать текст, сделав его «уникальным». Разумеется, в данной индустрии существуют и услуги по «уникализации» текстов курсовых, дипломных и др. работ. Цены - от низких 30100 руб./страница [24] и 200 руб./работа [25] до правдоподобных 5000-7000 руб./работа [25] при ручной обработке текста, скорость выполнения заказа - высокая.

Известные граничные значения проверок текстов через системы антиплагиата. В данном пункте собраны известные граничные значения из разных источников. Помимо этого известна фраза «80 % оригинальности» (в контексте про систему «Антиплагиат»).

- Положение об обеспечении самостоятельности выполнения письменных работ в МГУ им. М.В. Ломоносова на основе системы «Антиплагиат» [26] не содержит ни

одной конкретной величины и отсылок на их существование.

- С форума студентов Современной гуманитарной академии: «скажите. правда что нужно получить не менее 70 % уникальности в антиплагиате? иначе из Москвы придет оценка 2??» [27].

- Декан факультета социологии и политологии Финансового университета при Правительстве РФ А. Шатилов: «Как правило, мы считаем, что когда «Антиплагиат» находит 70 % оригинального текста - это норма. Но учитывая постоянные сбои в работе программы, а также специфику некоторых тем нормой может быть и 50 %» [28].

- «Без специального оформления фрагмента, полной и точной ссылки на источник, обширного объема заимствований (свыше 1500 печатных знаков)» из отчета, опубликованного на официальном сайте Росфиннад-зора (отчет на сайте недоступен) - по статье «В НИОКР обнаружен научный плагиат на 160 млн руб.» от 19 января 2011 г. [29].

Замечание к последнему пункту: на одной странице формата A4 помещается, в зависимости от оформления, 1500-2000 знаков.

Разное.

1. Согласно информационному сообщению по вопросам процедур защиты и проверки текстов диссертаций [30], ВАК РФ не пользуется системами антиплагиата. Оттуда же: «делать выводы о качестве научного исследования только по результатам компьютерной проверки невозможно и неправомерно» и «создание системы проверки использования заимствованного материала без ссылки на автора и (или) источник заимствования относится к полномочиям образовательной (научной) организации, на базе которой действует диссертационный совет, и осуществляется в инициативном порядке».

2. Изучая системы антиплагиата, можно обоснованно сделать вывод, что не все их разработчики подозревают о существовании многобайтовых кодировок, манипулируя отдельными служебными символами которых, в специфичных случаях, возможно создание эффективных технических средств обхода систем антиплагиата.

3. Существует опасность хранения и представления оригинальных файлов контрольных, курсовых, дипломных, диссертаций для целей их использования в автомати-

зированных системах проверки на заимствования - в зависимости от формата файла, возможно создание документов специального формата, имеющих разное видимое (напечатанное) и текстовое (индексируемое) представления. Учитывая поведение программ для распознавания символов [31], вероятно предположить, что этот же специальный текстовый слой и будет использован для проверки документа системой антиплагиата вместо распознавания страницы (выход один -проверять только отсканированные печатные работы либо текст, но с доработкой проблемы из предыдущего пункта).

Заключение. В заключение следует напомнить, что факт плагиата устанавливается судом. Выводы:

1. Каждому заинтересованному лицу необходимо проверять свои работы в какой-либо системе проверки на плагиат (даже со всеми ее недостатками), в т. ч. в целях собственной безопасности. Возможно - в нескольких системах, ориентируясь на худший результат.

2. Методика проверки, при которой единственный «процент» решает судьбу работы - неприменима, необходима выработка более совершенных критериев, включающих в себя отношение к служебному содержимому документов (титульный лист, содержание, введение, выводы, заключение, список источников, приложения), к объему документов, стилистике речи, отрасли науки и др.

3. Регламент проверки работы должен включать в себя отношение к самоцитированию и самоплагиату, а также отношение к работам соавторов в разрезе этих двух повсеместных явлений.

4. Каждая работа должна подвергаться строгому контролю стилистической и семантической грамотности текста преподавателями по причине возможного использования методов по обходу проверок на плагиат, включая глубокий рерайтинг, зачастую значительно искажающий изначальный смысл текста.

5. Каждое внедрение системы автоматизированной проверки на заимствования должно сопровождаться в организации разработкой процедур по апелляции и повторной экспертизе уже экспертом или экспертным советом.

6. С учетом принципов работы и особенностей совершенствования систем анти-

плагиата и наполнения их баз результаты повторных проверок, не связанные с апелляцией оценки или повторной защитой работы, не должны иметь обратной силы.

7. Используемый алгоритм применяемой системы антиплагиата или процедура проверки с помощью данной системы должны учитывать особенности научной отрасли, к которой относится работа, для более адекватного отражения границ правомерного заимствования.

Основные рекомендации по повышению качества работ:

1. Необходимо повышать уникальность учебных и научных работ с точки зрения (научной) новизны и отсутствия аналогов.

2. При проверке самостоятельных учебных работ студентов (например, курсовых) следует придерживаться точки зрения, что синтетическая работа реферативного типа по множеству источников, состоящая из большого количества цитат и, возможно, имеющая небольшую самостоятельную ценность, лучше скомпонованной по одной-двум другим работам (т. к. ценность последней не является ценностью именно этой работы, а переходит в нее из заимствованных источников).

3. Повышение качества учебных работ возможно за счет снижения требований по величине их объема.

4. Необходимо привитие культуры правомерного заимствования: использование соответствующих норм русского языка (помещение текста в кавычки, указание ссылки на источник в квадратных скобках после цитаты) и прикладных технологий (например, использование HTML-тегов q и blockquote везде, где это следует), использование, по возможности, первоисточников. Настоятельно не рекомендуется использовать косвенную речь и не выделенное знаками препинания цитирование.

5. Категорически рекомендуется не использовать ссылки на источники в виде сносок внизу страницы, а также в форме (автор, год) или (автор, страница). Оптимальная форма, если это позволяет формат издания (работы) - в квадратных скобках после упоминания.

1. Плагиат // Словари и энциклопедии на Ака-деме. URL: http://dic.academic.ru/dic.nsf/fin_ enc/16386 (дата обращения: 14.08.2013).

2. Криптомнезия // Словари и энциклопедии на Академе. URL: http://psychiatry.academic.ru/1366 /Криптомнезия (дата обращения: 14.08.2013).

3. Гражданский кодекс Российской Федерации, ч. 4, ст. 1274. Свободное использование произведения в информационных, научных, учебных или культурных целях. URL: http:// base .garant.ru/10164072/71/#block_41274 (дата обращения: 14.08.2013).

4. Сабитова А. Плагиат как уголовщина // «ExpertOnline». 2013. 28 марта. URL: http:// expert.ru/2013/03/28/plagiat-kak-ugolovschina/ (дата обращения: 14.08.2013).

5. Минкульт предложил расширить действие антипиратского закона // Лента.ру. URL: http://lenta.ru/news/2013/08/07/nopiracy/ (дата обращения: 14.08.2013).

6. Ильин В. Каждая десятая диссертация по истории - плагиат // Кемеровский городской сайт Kemlnfo. 2013. 4 сент. URL: http:// keminfo.ru/news/9910/ (дата обращения: 14.08.2013).

7. Виктор Матросов уволен с должности ректора МИГУ // Московский день. 2013. 8 июля. URL: http://mosday.ru/news/item.php7196778 (дата обращения: 14.08.2013).

8. Опрос: россияне предлагают увольнять чиновников за плагиат в диссертациях // Аргументы и факты - Москва. 2013. 15 авг. URL: http://www.aif.ru/society/news/429447 (дата обращения: 14.08.2013).

9. Официальный сайт сообщества «Диссернет». URL: http://www.dissernet.org/ (дата обращения: 14.08.2013).

10. Сивкова А. Дипломные и курсовые работы студентов опубликуют в Интернете // Известия. 2013. 15 янв. URL: http://izvestia.ru/ news/542919 (дата обращения: 14.08.2013).

11. Система открытой публикации // Частный корреспондент. 2012. 29 нояб. URL: http:// www.chaskor.ru/article/sistema_otkrytoj_publik atsii_30260 (дата обращения: 14.08.2013).

12. Стратегия развития системы подготовки рабочих кадров и формирования прикладных квалификаций в Российской Федерации на период до 2020 года // Министерство образования и науки Российской Федерации. URL: http://минобрнауки.рф/media/events/files/41d4 701a6bfda8ac356e.pdf (дата обращения: 14.08.2013).

13. Услуга «Лингвистическая экспертиза» // Компания «Экспертный центр». URL: http:// ceur.ru/services/lingvisticheskaja_jekspertiza/ (дата посещения: 14.08.2013).

14. Инструмент и только // Частный корреспондент. 2013. 13 мая. URL: http://www.chaskor.ru /article/antiplagiat_31963 (дата обращения: 14.08.2013).

15. СМИ о проекте // Антиплагиат.ру. URL: http://www.antiplagiat.ru/index.aspx?doc=mass media (дата обращения: 14.08.2013).

16. Ростовцев А. Робот-антиплаг // Личный блог Андрея Ростовцева. 2013. 26 янв. URL: http:// afrikanbo.livejournal.com/284960.html (дата посещения: 14.08.2013).

17. Электронное обучение, дистанционные и образовательные технологии // НАЧОУ ВПО Современная гуманитарная академия. URL: http://www.muh.ru/teaching/teaching_dot.php (дата обращения: 14.08.2013).

18. Плагиат-Информ // СофтИнформ. URL: http:// www.plagiatinform.ru/ (дата обращения: 14.08.2013).

19. Ростовцев А. Методологическое // Личный блог Андрея Ростовцева. 2013. 18 февр. URL: http://afrikanbo.livej ournal.com/295638.html (дата обращения: 14.08.2013).

20. Медведев назвал систему «Антиплагиат» несовершенной // Деловая газета Взгляд. 2013. 17 апр. URL: http://www.vz.ru/news/2013/4/17/ 629160.print.html (дата обращения: 14.08.2013).

21. Блогер обвинил создателей системы «Антиплагиат» в желании давить на оппонентов // Деловая газета Взгляд. 2013. 21 марта. URL: http: //www.vz.ru/society/2013/3/21/625384.print .html (дата обращения: 14.08.2013).

22. Единая Россия: прокуратура нашла нарушения в ЗАО «Антиплагиат» // Газета^а URL: http://www.gazeta.ru/politics/news/2013/06/20/n _2986757.shtml (дата обращения: 14.08.2013).

23. Система явно изживает себя // Форум Антиплагиат.ру. URL: http://www.antiplagiat.ru/ forum/default.aspx?g=posts&t=793 (дата обращения: 14.08.2013).

24. Беспроигрышный способ обойти антиплагиат // Фактрум. 2012. 6 сент. URL: http://www.

factroom.ru/facts/23751 (дата обращения: 14.08.2013).

25. Плагиата.нет. URL: http://plagiatanet.ru/ceni/ (дата обращения: 14.08.2013).

26. Положение об обеспечении самостоятельности выполнения письменных работ в МГУ имени М.В. Ломоносова на основе системы «Антиплагиат». URL: http://www.msu.ru/projects /antiplagiat/antiplagiat.doc (дата обращения: 14.08.2013).

27. Как обмануть антиплагиат // Форум студентов Современной гуманитарной академии. URL: http ://forum. antimuh. ru/index.php?/topic /26831-как-обмануть-антиплагиат/ (дата обращения: 14.08.2013).

28. Преподаватели вузов: «Антиплагиат» могут использовать в качестве черного пиара // Полит.ру. 2013. 26 марта. URL: http://polit. ru/news/2013/03/26/apl/ (дата обращения: 14.08.2013).

29. В НИОКР обнаружен плагиат на 160 миллионов рублей // Служба информации Copyright.Ru. URL: http://www.copyright.ru/ru/ news/main/2011/1/19/obnarugen_na/ (дата обращения: 14.08.2013).

30. Информационное сообщение по вопросам процедур защиты и проверки текстов диссертаций // Пресс-служба Министерства образования и науки Российской Федерации. 2013. 10 апр. URL: http://минобрнауки.рф/новости/ 3281/ (дата обращения: 14.08.2013).

31. Извлечение текста из pdf в FineReader 10 // Форум компании AbbyyFineReader. 2010. 12-21 окт. URL: http://finereader.abbyy.ru/ forum/actualthread.aspx?tid= 1076&pg=-1 (дата обращения: 14.08.2013).

Поступила в редакцию 5.10.2013 г.

UDC 004.04

AUTOMATED TEST SYSTEMS FOR ILLEGAL BORROWING

The article is devoted to the problems of systems for automated check of text documents on the presence of plagiarism. The purpose of this document is a comprehensive review of the problem.

During the concept of "plagiarism", the problems of identification, the limits of applicability of legal norms of Russian law to borrow in scientific papers are considered. The overview of the positions of state officials on the issue is given. The special attention is paid to such forms of plagiarism as a paraphrase, translation and masked plagiarism as the most affecting automated check. The paper discusses the basic techniques Antiplagiat (expertise and techniques), an overview and comparative analysis of automated systems to check for borrowingbi ("Antiplagiat", "Advego Plagiatus", "eTxt Antiplagiat" and some meta-search systems etc.), detailed investigation how they work (including the steps of: extracting text, lemmatization, synonymization, stemming and also describes the basic indexing algorithms) and the basic characteristics (sample size, length of a shingle, etc.) that affect the accuracy and speed, reviewed vulnerabilities when extracting and converting the text to be affected by issues of limited research base and methods to counteract these systems. The comprehensive critique of automatic systems checks for plagiarism is given; the difference of their application for verification of cases of student work, research papers, and other texts is shown.

The interpretation of given values of the quantities of the original text used in various educational institutions is considered. In conclusion, the work provides recommendations for the implementation of an automated check for borrowing in the educational process, including: attitude to official pieces of work self-plagiarism, requiring the use of a variety of parameters (not only single - "percentage of originality"), stylistic and semantic check. It also provides recommendations on the interpretation of the results and the increasing quality of educational and scientific work.

Ключевые слова: plagiarism; anti-plagiarism; systems of anti-illegal borrowing; borrowing; plagiarism in education.

i Надоели баннеры? Вы всегда можете отключить рекламу.