Научная статья на тему 'Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Методы предварительной обработки текста'

Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Методы предварительной обработки текста Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
223
96
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛАГИАТ / СИСТЕМЫ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В ДОКУМЕНТАХ / СТОП-СЛОВА / PLAGIARISM / THE SYSTEM OF DETERMINING THE ADOPTION IN THE DOCUMENT / LIST OF STOP-WORD

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Зиберт Андрей Оскарович, Хрусталев Виталий Игоревич

В статье рассматривается процесс подготовки текста, применяемый в системах автоматического обработки текста в контексте системы по определению наличию заимствований. Приводится исследование методов выявления стоп-слов как одного из самых ключевых моментов подготовки текстов, и на основании эффективности данных методов выбирается один из методов для реализации в разрабатываемой системе системы определения наличия заимствований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Зиберт Андрей Оскарович, Хрусталев Виталий Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A SYSTEM FOR DETERMINING THE EXISTENCE OF ADOPTION IN THE WORKS OF THE STUDENTS. METHODS OF PREPARATION OF AUTOMATIC TEXT PROCESSING

This article discusses the process of preparing the text to use in automatic text processing system in the context to determine the presence of adoption. The research methods to identify the stop-words as one of the important pivotal moments of preparation of texts is describes and on the basis of the effectiveness of these methods is selected one of the methods to be implemented in the developed system of determining the presence of adoption.

Текст научной работы на тему «Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Методы предварительной обработки текста»

Am 7universum.com

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

РАЗРАБОТКА СИСТЕМЫ ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В РАБОТАХ СТУДЕНТОВ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ.

МЕТОДЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ТЕКСТА

Зиберт Андрей Оскарович

студент Хакасского государственного университета, РФ, г. Абакан

E-mail: Zib-andrey@inbox. ru

Хрусталев Виталий Игоревич

кандидат технических наук, Хакасский государственный университет, РФ,

г. Абакан E-mail: nach@khsu.ru

DEVELOPMENT OF A SYSTEM FOR DETERMINING THE EXISTENCE OF ADOPTION IN THE WORKS OF THE STUDENTS.

METHODS OF PREPARATION OF AUTOMATIC TEXT PROCESSING

Zibert Audrey

student of Khakas State University, Russia, Abakan

Khrustalev Vitaly

candidate of Technical Science, Khakas State University, Russia, Abakan

АННОТАЦИЯ

В статье рассматривается процесс подготовки текста, применяемый в системах автоматического обработки текста в контексте системы по определению наличию заимствований. Приводится исследование методов выявления стоп-слов как одного из самых ключевых моментов подготовки текстов, и на основании эффективности данных методов выбирается один

Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Методы предварительной обработки текста // Universum: Технические науки : электрон. научн. журн. 2014. № 4 (5) .

URL: http://7universum.com/ru/tech/archive/item/1258

из методов для реализации в разрабатываемой системе системы определения наличия заимствований.

ABSTRACT

This article discusses the process of preparing the text to use in automatic text processing system in the context to determine the presence of adoption. The research methods to identify the stop-words as one of the important pivotal moments of preparation of texts is describes and on the basis of the effectiveness of these methods is selected one of the methods to be implemented in the developed system of determining the presence of adoption.

Ключевые слова: плагиат, системы определения наличия заимствований в документах, стоп-слова.

Keywords: plagiarism, the system of determining the adoption in the document, list of stop-word.

В современных системах автоматического обработки текста процесс предварительной подготовки текста занимает важное место. Предварительная подготовка текста позволяет сократить время, необходимое на обработку всего текста [4]. Кроме того, процесс подготовки текста позволяет увеличить эффективность работы основных алгоритмов системы автоматизированной обработки текста.

В процесс предварительной подготовки применительно к разрабатываемой системе определения наличия заимствований в работах студентов высших учебных заведений входят следующие этапы [1]:

1. Приведение текста к одному регистру.

2. Исключение неинформативных слов и символов.

3. Приведение слов к нормальной форме.

Пример текста до обработки:

«ИТ-аутсорсинг получил распространение в связи с развитием информационных технологий в конце двадцатого века. Большинству компаний,

как мелких, так и крупных, целесообразно поручить дело обеспечения своей работы ИТ-поддержкой специализированным компаниям. Это экономит время и средства. Следует отметить, что ИТ-аутсорсинг наиболее используемый вид аутсорсинга во всем мире в силу высоких темпов развития компьютерных технологий».

Результат предварительной обработки приведенного выше текста:

«ит аутсорсинг получил распространение развитие информационный технология конец двадцатый век большинство компания мелкий крупный целесообразно поручить дело обеспечение работа ит поддержка специализированный компания экономит время средства следует отметить ит аутсорсинг наиболее используемый вид аутсорсинг мир сила высокий темп развитие компьютерный технология».

Ниже более подробно рассмотрены эти этапы.

Приведение текста к одному регистру.

Процесс приведения текста к одному регистру включает в себя перевод всех букв в тексте в строчный либо в заглавный регистр. Разрабатываемая система не должна делать различия между словами, написанными в строчном регистре, и словами, написанными в иных регистрах. Например, для противодействия работе системы и сокрытия факта наличия заимствований автор может разбивать длинные предложения на части либо объединять нескольких предложений в одно. Соответственно, по правилам написания слов первая буква первого слова в предложении должна быть написана с заглавной буквы, но в связи с тем, что символы в информационных системах кодируются в виде целых чисел длинной от 7 до 16 бит, то для кодирования заглавных и строчных символов используются различные коды. Из этого следует, что для информационной системы автоматической обработки текста это будет уже другое слово (за счет отличия первого символа), и таким образом система может не зафиксировать факта заимствований в данном случае. Приведение текста к одному регистру уменьшит вероятность подобных ситуаций.

Приведение слов к нормальной форме.

Под нормальной формой слова, или леммой, понимается следующее [2]:

«Каноническая форма слова (например, форма единственного числа, именительного падежа для существительных)».

Приведение слов к нормальной форме необходимо для улучшения эффективности работы алгоритмов определения наличия заимствований в тексте. На данный момент существует несколько свободно распространяемых и достаточно эффективных модулей для разрабатываемых программных продуктов, реализующих приведение слова к канонической форме. Авторы модулей разрешают использование своих модулей в некоммерческих проектах, поэтому реализация приведения слова к нормальной форме возможна путем подключения такого модуля и использования его функционала

в разрабатываемой системе.

Исключение неинформативных слов и символов

Процесс исключения неинформативных слов — один из основных процессов предварительной обработки текста. Благодаря ему уменьшается количество слов в обрабатываемом тексте, и тем самым ускоряется время обработки этого текста.

Процесс исключения неинформативных слов и символов включает в себя следующие этапы:

1. Исключение знаков препинания.

2. Исключение специальных символов — удаление из текста различной служебной информации, такой как html тэги, замечания и комментарии (например, в pdf документах) и т. д.

3. Исключение из текста стоп-слов.

Стоп-слова — это слова, которые не несут смысловой нагрузки. Исключение стоп-слов носит важный характер по нескольким причинам:

1. Уменьшение объема текста и, как следствие, ускорение обработки

текста.

2. Улучшение результатов работы алгоритмов по выявление наличию заимствований в текстах.

Для сокрытия факта заимствования текста может применяться такой способ, как добавление в текст незначащих слов и, как следствие, изменение структуры текста. При этом фактически автор таким способом не добавляет новой информации в текст, но за счет изменения структуры текста система определения наличия заимствований может выдавать результаты выше действительных о проценте авторства текста. Процесс исключения стоп-слов позволяет уменьшить вероятность неправильных результатов за счет применения описанного выше способа.

Процесс исключения стоп-слов состоит из 2-х этапов:

1. Создания списка, или словаря, стоп-слов для проверяемого текста.

2. Исключение стоп-слов из словаря текста.

Ниже рассмотрены 2 метода создания словарей стоп-слов и оценена их эффективность.

Статистический метод

Метод заключается в анализе большого количества текстов (более 1000) из предметной области, к которой относится исследуемый текст, и выборка из этих текстов списка наиболее встречающихся слов. Преимущество такого метода в том, что словарь стоп-слов необходимо создать один раз и в дальнейшем не нужно пересоздавать его для каждого текста и тратить на это вычислительное время. Но при этом не учитываются особенности текста. Например, может возникнуть ситуация, при которой из текста будут удалены слова, которые согласно статистике оказались в словаре стоп-слов, но для данного текста эти слова несут смысловую нагрузку и их удаление приведет к изменению смысла текста и, как следствие, неправильным результатам.

Y-интерпретация закона Бредфорда

Y-интерпретация закона Бредфорда — интерпретация, предложенная В.А. Яцко, позволяющая вычислять пороговые уровни при выделении

подмножеств из состава множества на основе методики зонального анализа [3, с. 30].

Применительно к анализу текста суть метода состоит в разделении текста на 3 зоны [3, с. 30]:

1. Зона J0 — зона служебных слов или стоп-слова.

2. Зона J1 — слова, представляющие основное содержание текста.

3. Зона J2 — слова, редко встречающиеся в тексте.

В качестве работ для оценки эффективности работы описанных выше методов формирования словаря стоп-слов использовались публикации по теме «Информатика и вычислительная техника», размещенные на сайте научной электронной библиотеки. Были выбраны 10 публикаций. Далее с использованием приведенных выше методов были получены новые тексты путем формирования словарей стоп-слов и удаления слов из этого словаря в исходном тексте. Также был подсчитан процент уменьшения текста после работы каждого метода. Результаты работы алгоритмов приведены таблице 1.

Таблица 1.

Результаты работы методов создания словарей стоп-слов.

Номер текста Количество слов в тексте Количество слов в тексте после работы по удалению стоп-слов из статистического словаря Процент удаленных слов Количество слов в тексте после работы по удалению стопслов из зоны J0 Y-интерпретация закона Бредфорда Процент удаленных слов

1 1698 1239 27 730 57

2 2034 1505 26 976 52

3 1303 977 25 599 54

4 1402 967 31 574 59

5 1240 843 32 644 48

6 2054 1458 29 883 57

7 1704 1226 28 1107 35

8 1837 1341 27 863 53

9 1901 1482 22 1083 43

10 1956 1584 19 841 57

По итогам проведенной работы наилучший результат имеет метод, основанный на использовании словарей, созданных на основе Y-интерпретации

закона Бредфорда (средний процент удаления стоп-слов составляет 51,5 процента против 26,6 у статистического метода), и поэтому данный алгоритм выбран как наиболее оптимальный алгоритм составления словарей стоп-слов для реализации в разрабатываемой системе.

Список литературы:

1. Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия

заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов // Universum: Технические науки : электрон. научн. журн. 2014. № 3 (4)/ [Электронный ресурс]. — Режим доступа: URL: http://7universum.com/ru/tech/archive/item/n39 (дата

обращения: 26.03.2014).

2. Терминология / [Электронный ресурс]. — Режим доступа:

https: //pymorphy2 .readthedocs. org/en/latest/glossary.html#id5 (дата

обращения: 08.03.2014).

3. Яцко В.А. История вычислительной техники и информатики. — Абакан: Издательство ФГБОУ ВПО «Хакасский Государственный Университет им Н.Ф. Катанова», 2013. — 88 с.

4. Davarpanah M.R., Sanji M., Aramideh M. Farsi lexical analysis and stop word list. — Library Hi Tech., 2009. — V. 27, Iss. 3. — PP. 435—449.

i Надоели баннеры? Вы всегда можете отключить рекламу.