Научная статья на тему 'Алгоритм определения наличия заимствований в тексте с использованием эталонного множества слов'

Алгоритм определения наличия заимствований в тексте с использованием эталонного множества слов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
354
213
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛАГИАТ / АЛГОРИТМ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ / ЭТАЛОННОЕ МНОЖЕСТВО СЛОВ / PLAGIARISM / ALGORITHM OF DETERMINING THE PRESENCE OF BORROWINGS / SAMPLE SET OF WORDS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зиберт Андрей Оскарович, Мирошниченко Виктория Валентиновна

В статье описывается процесс разработки алгоритма определения наличия заимствований в тексте с использованием эталонного множества слов. Рассматриваются достоинства и недостатки данного алгоритма, а также приводится описания различных методов создания эталонного множества слов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зиберт Андрей Оскарович, Мирошниченко Виктория Валентиновна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM OF DETERMING THE PRESENCE OF BORROWINGS IN THE TEXT WITH THE USE OF SAMPLE SET OF WORDS

The process of algorithm development of determining the presence of borrowings in the text with the use of sample set of words is described. Advantages and disadvantages of such an algorithm are identified as well as the description of different creation methods of sample set of words is presented.

Текст научной работы на тему «Алгоритм определения наличия заимствований в тексте с использованием эталонного множества слов»

АЛГОРИТМ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В ТЕКСТЕ С ИСПОЛЬЗОВАНИЕМ ЭТАЛОННОГО МНОЖЕСТВА СЛОВ

Зиберт Андрей Оскарович

аспирант Хакасского государственного университета,

РФ, г. Абакан E-mail: zib-andrey@inbox. ru

Мирошниченко Виктория Валентиновна

студент Хакасского государственного университета,

РФ, г. Абакан E-mail: mir-pobeda@ram.bler. ru

ALGORITHM OF DETERMING THE PRESENCE OF BORROWINGS IN THE TEXT WITH THE USE OF SAMPLE SET OF WORDS

Zibert Audrey

Post-graduate student of Khakassia State University,

Russia, Abakan

Miroshnichenko Victoria

Student of Khakassia State University,

Russia, Abakan

АННОТАЦИЯ

В статье описывается процесс разработки алгоритма определения наличия заимствований в тексте с использованием эталонного множества слов. Рассматриваются достоинства и недостатки данного алгоритма, а также приводится описания различных методов создания эталонного множества слов

ABSTRACT

The process of algorithm development of determining the presence of borrowings in the text with the use of sample set of words is described. Advantages

Зиберт А.О., Мирошниченко В.В. Алгоритм определения наличия заимствований в тексте с использованием эталонного множества слов // Universum: Технические науки : электрон. научн. журн. 2014. № 12 (13) . URL: http://7universum.com/ru/tech/archive/item/1833

and disadvantages of such an algorithm are identified as well as the description of different creation methods of sample set of words is presented.

Ключевые слова: плагиат, алгоритм определения наличия заимствований, эталонное множество слов.

Keywords: plagiarism, algorithm of determining the presence of borrowings, sample set of words.

В настоящее время проблема выявления плагиата становится все более актуальной. Даже в работах, защищаемых в высшей аттестационной комиссии, выявляются факты плагиата и некорректного заимствования в текстах научных работах и научно-исследовательских работ, а санкции, связанные с этими фактами, распространяются не только на авторов работ, но и на их руководителей и оппонентов [1].

Сейчас многие учебные заведения ввели практику проверки учебных работ на наличие фактов некорректного заимствования с помощью автоматизированных систем. Но в связи с тем, что принципы работы данных сервисов в своем большинстве базируются на одних и тех же методах, учащиеся также имеют доступ к аналогичным системам и, как следствие, получили возможность доведения своих работ до такого состояния перед защитой (с помощью многократных проверок и изменения текста различными способами), что процент оригинальности увеличивается до необходимого минимума (в среднем этот предел лежит в диапазоне 75—90 % в зависимости от учебного заведения).

В связи с этим в процессе разработки системы определения наличия заимствований в тексте стало необходимо разработать алгоритм определения факта заимствований, эффективность которого зависела не от факта сокрытия принципов работы, а базировалось на самом способе измерения процентного соотношения авторского и заимствованного материала в тексте.

Ранее нами было произведено исследование и с точки зрения затрат времени и результата обработки текстов установлен наиболее оптимальный алгоритм сравнения двух текстов и определения наличия заимствований в одном тексте относительного другого [2]. Им стал алгоритм, базирующийся на комбинации метода шинглов и метода сравнения наиболее встречающихся слов.

Суть метода состояла в создании для каждого исследуемого текста подмножества, состоящего из 30 % наиболее встречающихся слов, упорядочивании данного подмножества по алфавиту и сравнения полученных подмножеств с использованием метода шинглов.

Но в дальнейшем был выявлен недостаток метода, связанный с тем, что студенты при написании текста работы будут иметь доступ как к своей работе, так и к оригинальной и смогут изменять текст своей работы до тех пор, пока процент пересечений шинглов не снизится до определенного уровня и, таким образом, система, базирующаяся на данном алгоритме, получит некорректный результат.

В связи с этим был модифицирован алгоритм сравнения двух текстов, который более не базируется на сравнении шинглов, а работает на оценке некоторой числовой характеристике сравниваемых текстов. Для этого было введено так называемое эталонное множество слов и производилось сравнение пересечений множеств слов двух исследуемых текстов с эталонным множеством. Суть работы алгоритма отражена на рисунке 1.

Перед началом сравнения текстов с помощью данного алгоритма происходят некоторые подготовительные мероприятия. Текст предварительно подготавливается с помощью исследованных ранее алгоритмов предварительной обработки текста [3]. Все слова приводятся к одному регистру и к начальной форме, очищаются от стоп-слов и слов, не несущих смысловой нагрузки в тексте. Так образуются рабочие множества слов каждого текста, с помощью которых и будет производиться сравнение.

Далее подсчитывается количество пересечений слов, одновременно входящих и в эталонное множество, и в полученное множество слов исследуемого текста (количества слов, попавших в множества S1 и S2 соответственно). Далее производится оценка этих значений и сравнение между собой.

Для оценки признака наличия заимствований в одном тексте относительно другого было экспериментально установлены граничные значения (путем применения данного алгоритма к текстам научных работ, не содержащих в себе элементов заимствований, т. е. к полностью оригинальным работам, а также к работам, содержащим в себе подтвержденные факты некорректного заимствования). В ходе эксперимента установлено, что в случае если разница между количествами пересечений множеств исследуемых текстов с эталонным

составляет более 30 на каждые 100 слов множеств слов исследуемого текста, то можно говорить о том, что с помощью данного алгоритма не определяются факты наличия заимствований в одном тексте относительно второго текста. В случае если разница лежит в диапазоне 13—29, то в данном случае можно говорить о частичном заимствовании в одном тексте относительно другого, т. е. совместно с оригинальным текстом имеется факт частичного заимствования. В случае если разница составляет 12 и менее, то в данном случае можно говорить о факте практически полном заимствовании текста.

Стоит отметить заранее, что данный алгоритм показывает статистически правильный результат работы только при объемах исследуемых текстов более 1500 слов, так как при меньших объемах текстов результат работы алгоритма не отражает реальных фактов наличия заимствований одного текста относительно другого.

Одном из ключевых элементов правильной работы алгоритмов в данном случае является составление эталонного множества слов. В ходе разработки модифицированного алгоритма было предложено три способа генерации эталонного множества.

1. Статичное множество слов, созданное на основании большого числа текстов научных и научно-исследовательских работ по нескольким направлениям.

2. Статичное множество слов, созданное на основе текстов по направлению, совпадающему с направлением исследуемых текстов.

3. Динамическое формирование эталонного множества для каждого пары исследуемых текстов.

Ниже будет описан каждый из способов, а также приведены результаты исследования каждого из способов.

Статичное множество слов, созданное на основании большого числа текстов научных и научно-исследовательских работ по нескольким направлениям.

Суть способа заключается в формировании достаточно большого начального текста путем объединения большого числа текстов научных статей в один текст. Далее этот текст обрабатывается с помощью алгоритмов предварительной обработки текстов, все слова приводятся в начальную форму, отбрасываются стоп-слова и слова, не несущие смысловой нагрузки. Таким образом, формируется множество, которое будет состоять из слов, входящих практически в любой текст научно-исследовательской работы или статьи. Кроме того, за счет того что данное множество формируется один раз, нет необходимости создавать его несколько раз, но при этом у данного метода есть и ряд недостатков:

1. В скомпилированное множество могут попасть не все слова, специфичные для определенной области.

2. В случае, если принципы работы системы, базирующейся на использовании данного алгоритма, будут в публичном доступе, у автора, который хочет сокрыть факт некоренного заимствования в работе, будет теоретическая возможность создать таким же образом свое эталонное множество (и с очень большой вероятностью эти эталонные множества будут практически полностью совпадать) и изменять свой текст до тех пор, пока система не покажет достаточно малый процент заимствований в тексте.

Статичное множество слов, созданное на основе текстов по направлению, совпадающему с направлением исследуемых текстов.

Этот способ аналогичен предыдущему, но в данном случае эталонное множество слов создается отдельно для каждого направления (информатика, биология и т. д.). Соответственно, у метода нет недостатка, связанного с выпадением из множества специфичных слов, но в данном случае необходимо создавать для каждой предметной области свое эталонное множество, из-за чего будут дополнительные временные затраты на этапе создания системы.

Динамическое формирование эталонного множества для каждой пары исследуемых текстов.

В отличие от предыдущих, в данном способе эталонное множество формируется для каждой пары динамически, таким образом, данное множество будет максимально близко отражать содержание текстов данной тематике. Кроме того, содержание эталонного множества, по которому производится сравнение, будет каждый раз новое, и поэтому у авторов не будет возможности путем изменения текста добиваться того состояния, при котором система будет показывать минимальное количество заимствований. Это связанно с тем, что, добившись минимального показателя процента заимствований на одном эталонном множестве слов, при повторной проверке будет отличное от первого эталонное множество слов, и на этом множестве система все равно покажет реальный факт наличия заимствований в тексте. На этапе тестирования данного способа эталонное множество формировалось вручную (была выбрана тематика алгоритма и алгоритмизация в программировании). В будущем планируется на основе ключевых слов исследуемых текстов подбирать различные научноисследовательские работы и статьи, на основе которых будет генерироваться эталонное множество. При этом планируется использовать не ключевые слова, указанные автором, а использовать приемы автореферирования, например, на основе семантических связей [4].

Для оценки эффективности работы алгоритма с различными способами генерации эталонного множества слов была использована следующая методика:

1. Подготовлен текст, представляющий из себя компиляцию 253 научных статей. Далее с помощью алгоритмов предварительной подготовки текста слова приведены в начальную форму, отброшены стоп-слова и слова, не несущие смысловой нагрузки, и таким образом сформировано эталонное множество слов.

2. Подготовлен текст, представляющий из себя компиляцию 52 текстов статей по информатике. Далее с помощью алгоритмов предварительной подготовки текста слова приведены в начальную форму, отброшены стоп-слова и слова, не несущие смысловой нагрузки, и таким образом сформировано

эталонное множество слов.

3. Подготовлен текст, представляющий из себя компиляцию 10 текстов статей по направлению алгоритмы и алгоритмизация в программировании. Далее с помощью алгоритмов предварительной подготовки текста слова приведены в начальную форму, отброшены стоп-слова и слова, не несущие смысловой нагрузки, и таким образом сформировано эталонное множество слов.

4. Выбраны 5 оригинальных статей по направлению алгоритмы и алгоритмизация в программировании, отличных от текстов статей, выбранных в пункте 3. На основании каждого текста создан еще один текст с процентом заимствования от 30 до 70 в сравнении с оригинальным.

Далее для оценки процента заимствований было произведено попарное сравнение оригинальных текст и текстов с наличием элементов заимствований. Кроме того, для оценки корректности работы алгоритма с текстами, не содержащими элементы заимствований, была произведена попарная проверка первого оригинального текста с остальными оригинальными текстами. Количество пересечений множеств слов исследуемых текстов с эталонными приведена в таблице 1.

Таблица 1.

Количество пересечений множеств слов

Статичное Статичное

множество слов множество слов Динамически

Номер текста на основе работ на основе текстов формируемое

по всем по направлению множество слов

направлениями информатика

1 24 28 32

2 37 36 44

3 8 8 15

4 42 44 47

5 13 12 13

Сравнение

оригинальных

текстов между

собой

1 и 2 12 12 10

1 и 3 19 14 12

1 и 4 6 8 9

1 и 5 18 19 12

Как и ожидалось ранее, статичные методы формирования множеств слов показали худший результат, чем динамически формируемое множество слов, иногда даже давая неправильный результат (как в случае сравнения 1 и 3 текстов, а также 1 и 5 текста). Данный факт объясняется тем, что в таких множествах не учитывается специфика текста, так как, например, в обзорных статьях, не относящихся к узкоспециализированной тематике, встречается много общенаучных терминов, употребление которых в работах не является фактами наличия заимствований. Динамически формируемое множество слов позволяет избегать данного явления.

Несмотря на то, что работа алгоритма совместно с динамически формируемым множеством слов показала достаточно хороший результат определения как текстов с наличием заимствований, так и определения оригинальных текстов, необходима дальнейшая работа по улучшению показателей работы алгоритма на текстах меньшего объема (менее 1500 слов), прежде чем алгоритм можно будет использовать в системе определения наличия заимствований. Кроме того, планируется исследование возможности работы алгоритма не только с учетом количества пересечений множеств слов, но и с учетом веса слов относительно остальных слов в множестве (т. е. вероятности появления слова во множестве). Это позволит еще более объективно определять факты наличия заимствований в исследуемых текстах.

Список литературы:

1. Из экспертных советов ВАК исключили руководителей и оппонентов плагиаторов.../ [Электронный ресурс]. — Режим доступа:

http://lenta.ru/news/2014/11/21/auzan/ (дата обращения: 25. 11.2014).

2. Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов // Universum: Технические науки : электрон. научн. журн. — 2014. — № 3 (4) / [Электронный ресурс]. — Режим доступа: URL: http://7universum.com/ru/tech/archive/item/n39 (дата обращения: 02.12.2014).

3. Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Методы предварительной обработки текста // Universum: Технические науки : электрон. научн. журн. — 2014. — № 4 (5) / [Электронный ресурс]. — Режим доступа: URL: http://7universum.com/ru/tech/archive/item/1258 (дата обращения: 02.12.2014).

4. Симанков В.С., Толкачев Д.М. Выявление семантических связей между предложениями при автореферировании // Наука и бизнес: пути развития. — 2014. — № 7 (37). — И.: Фонд развития науки и культуры (Тамбов). — С. 54—60.

i Надоели баннеры? Вы всегда можете отключить рекламу.