Научная статья на тему 'Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата'

Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1847
270
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ / АНТИПЛАГИАТ / ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ / МЕТОД / ПЛАГИАТ / СЕМАНТИЧЕСКИЙ АНАЛИЗ / СЕРВИС / СИСТЕМА / ANALYSIS / ANTI-PLAGIARISM / LINGUISTIC ANALYSIS / METHOD / PLAGIARISM / SEMANTIC ANALYSIS / SERVICE / SYSTEM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комарницкая О.И., Комарницкая И.И.

В статье проанализированы известные системы анализа текстов на наличие плагиата. Предложен новый метод лингвистического анализа, который определяет латентные ассоциативно-семантические зависимости во множестве документов. Данный метод позволяет: частично устранять омонимию, полисемию и синонимию; исправлять слова, написанные с орфографическими и техническими ошибками; учитывать синтаксические отношения, логику построения терм в контексте предметной сферы. Разработанный алгоритм семантического сравнения нечеткой текстовой информации (исходный текст, представленный для проверки на естественном языке в произвольной форме, с вариантами текстов, имеющихся в локальных базах данных, и контентом Интернета) предусматривает автоматическую конвертацию исходного текста на естественном языке к внутрисистемному виду, экстракцию лексических единиц текста с последующим осуществлением морфологического, синтаксического, семантического и прагматического анализа. Применение разработанного алгоритма позволяет устранять ошибки, которые могут быть в исходном тексте (неправильные окончания, нестандартные сокращения и т.д.), определять принадлежность исходного текста к определенной предметной области, выявлять степень семантического сходства исходного текста, формировать общую оценку степени сходства текстов по комплексному показателю. Применение такого подхода будет повышать достоверность и обоснованность вывода о наличии плагиата в документах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Комарницкая О.И., Комарницкая И.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Famous systems of text analysis on the presence of plagiarism have been analyzed in the article. A new method of linguistic analysis has been proposed, which determines the latent and semantic associative dependencies in the set of documents; partially eliminates homonymy, polysemy and synonymy; corrects the words written with spelling and technical mistakes; takes into account the syntactic relations, logic of the term building in the context of the subjective area. The developed algorithm of the semantic comparison of fuzzy text information (the original text submitted for testing in natural language in any form, with text versions available in the local databases and content on the Internet) assumes automatic conversion of the original natural language text into the intra-system form, extraction of the text lexical units followed by the implementation of morphological, syntactic, semantic and pragmatic analysis. The use of the algorithm makes it possible to eliminate errors that may be in the source text (the wrong endings, unusual shortenings, etc.) to determine the source text belonging to a particular subject area, to identify the degree of semantic similarity of the source text, to form an overall assessment of the degree of similarity of texts by complex indicator. The usage of this approach will increase the conclusion’s reliability and validity on the presence of plagiarism in documents.

Текст научной работы на тему «Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата»

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

127

УДК 81’322.2:004.89

DOI: 10.17726/philIT.2015.10.2.004.89

МЕТОД СЕМАНТИЧЕСКОГО СРАВНЕНИЯ НЕЧЕТКОЙ ИНФОРМАЦИИ ПРИ ПРОВЕРКЕ ТЕКСТОВ НА НАЛИЧИЕ ПЛАГИАТА

Комарницкая Оксана Ивановна,

преподаватель кафедры английского языка,

Национальная академия Государственной пограничной службы Украины, Хмельницкий, Украина

kater_is@mail.ru

Комарницкая Ирина Ивановна,

преподаватель кафедры перевода,

Национальная академия Государственной пограничной службы Украины, Хмельницкий, Украина

kater_is@mail.ru

Аннотация. В статье проанализированы известные системы анализа текстов на наличие плагиата. Предложен новый метод лингвистического анализа, который определяет латентные ассоциативно-семантические зависимости во множестве документов. Данный метод позволяет: частично устранять омонимию, полисемию и синонимию; исправлять слова, написанные с орфографическими и техническими ошибками; учитывать синтаксические отношения, логику построения терм в контексте предметной сферы.

Разработанный алгоритм семантического сравнения нечеткой текстовой информации (исходный текст, представленный для проверки на естественном языке в произвольной форме, с вариантами текстов, имеющихся в локальных базах данных, и контентом Интернета) предусматривает автоматическую конвертацию исходного текста на естественном языке к внутрисистемному виду, экстракцию лексических единиц текста с последующим осуществлением морфологического, синтаксического, семантического и прагматического анализа. Применение разработанного алгоритма позволяет устранять ошибки, которые могут быть в исходном тексте (неправильные окончания, нестандартные сокращения и т.д.), определять принадлежность исходного текста к определенной предмет-

128

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

ной области, выявлять степень семантического сходства исходного текста, формировать общую оценку степени сходства текстов по комплексному показателю. Применение такого подхода будет повышать достоверность и обоснованность вывода о наличии плагиата в документах.

Ключевые слова: анализ; антиплагиат; лингвистический анализ; метод; плагиат; семантический анализ; сервис; система.

METHOD OF THE SEMANTIC COMPARISON OF FUZZY INFORMATION ON TEXT PLAGIARISM

Komarnitskaya Oksana I.,

Senior Lecturer of the English language Department,

The National Academy of the State Border Guard Service of Ukraine, Khmelnytskyi, Ukraine

kater_is@mail.ru

Komarnitskaya Irina I.,

Lecturer of Translation Department,

The National Academy of the State Border Guard Service of Ukraine, Khmelnytskyi, Ukraine

kater_is@mail.ru

Abstract. Famous systems of text analysis on the presence of plagiarism have been analyzed in the article. A new method of linguistic analysis has been proposed, which determines the latent and semantic associative dependencies in the set of documents; partially eliminates homonymy, polysemy and synonymy; corrects the words written with spelling and technical mistakes; takes into account the syntactic relations, logic of the term building in the context of the subjective area.

The developed algorithm of the semantic comparison of fuzzy text information (the original text submitted for testing in natural language in any form, with text versions available in the local databases and content on the Internet) assumes automatic conversion of the original natural language text into the intra-system form, extraction of the text lexical units followed by the implementation of morphological, syntactic, semantic and pragmatic analysis. The use of the algorithm makes it possible to eliminate errors that may be in the source text (the wrong endings, unusual shortenings, etc.) to

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

129

determine the source text belonging to a particular subject area, to identify the degree of semantic similarity of the source text, to form an overall assessment of the degree of similarity of texts by complex indicator. The usage of this approach will increase the conclusion’s reliability and validity on the presence of plagiarism in documents.

Keywords: analysis; anti-plagiarism; linguistic analysis; method; plagiarism; semantic analysis; service; system.

Введение. Одной из проблем прикладной лингвистики является создание инструментальных средств интеллектуальной автоматизированной обработки информации, представляемой на естественном языке, с целью определения совпадения семантики текстов. Такой инструментарий может быть применен в системах обнаружения плагиата. Вопросом исследования и разработки эффективных алгоритмов обнаружения плагиата посвящен широкий круг работ как отечественных, так и зарубежных ученых и специалистов, среди них: И.В. Шостак [1]; Л.А. Лупаренко [2]; Г.В. Шарапов, Е.В. Шарапова [3]; И. Резанова [4]; Н.А. Ширяев [5]; Н.В. Неелова, А.А. Сычугов [6]; В.В. Дягилев, А.А. Цхай, С.В. Бутаков [7]; С.М. Мошенник, М.И. Аристер, А.А. Тедеев [8]; А. Broder [9] и другие. Из анализа указанных и других трудов установлено, что системы проверки корпусов текстов на наличие плагиата необходимо усовершенствовать с целью определения семантического и прагматического совпадения текстов.

Цель работы - разработка метода лингвистического анализа текстов на естественном языке в системе анализа документов на наличие плагиата.

Методы исследования. Общенаучные - методы анализа, синтеза, сравнения, обобщения, описательный метод, дедуктивно-индуктивный метод для анализа и определения проблем, связанных с разработкой моделей лингвистического анализа текста на естественном языке в системах контроля на плагиат, и разработки соответствующей концепции построения таких моделей; лингвистические - структурный метод, в частности методика дистрибутивного анализа для установления характеристик и функциональных свойств языковой единицы на основании его окружения, конструктивный метод для интерпретации значения с помощью

130

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

определения элементарных составляющих и связей между ними, представление информации в автоматизированных системах анализа и распознавания естественного языка; лингвоаналитические (методы графематического, морфологического, синтаксического, семантического анализа), латентно-семантического анализа; математические методы (теории нечетких множеств, формализации, математического моделирования) и методы искусственного интеллекта - для разработки алгоритмов анализа и сравнения текстов.

Результаты исследования. Существует много определений термина «плагиат» [7; 10; 11]. В данной работе предлагается такое определение: плагиат - это присвоение (частичное использование) оригинального или умышленно измененного авторского произведения (текста, изобретения, открытия, художественного труда и т.п.) без ссылки на автора.

С целью уменьшения риска на установление плагиата злоумышленники применяют ряд приемов, вызывающих затруднение работы систем антиплагиата. Среди наиболее распространенных приемов следующие [3; 7]: сокращение или расширение оригинального текста; извлечения из текста знаков препинания и пунктуации; изменение регистра символов; замена символов одного языка другим, которые имеют одинаковый вид; удаление слов, не имеющих достаточной информативности в содержании текста; замена слов синонимами; изменение падежей и окончаний; двух-и более сторонний перевод; замена словосочетаний аббревиатурой или наоборот и другие.

Стремительное развитие Интернета, увеличение ресурсов и расширение доступа к ним породило такое явление, как плагиат. Особенно это касается области образования и науки. Для предотвращения плагиата недостаточно правовых, моральных и этических норм. Решение этой проблемы требует разработки эффективных средств обнаружения и предотвращения плагиата. В настоящее время существует достаточно большое количество методов, систем и сервисов обнаружения плагиата. К наиболее известным следует отнести: eTXT Антиплагиат; Advego Plagiatus; Double Content Finder; Praide Unique Content Analyser; Viper; Пла-гиата.НЕТ; Anti-Plagiarism; DupliChecker; PaperRater; Plagiarisma. net; PlagiarismChecker; Plagium; PlagTracker; SeeSources; PlagScan; Plagiarism Detector; Защита уникальности контента; FindCopy

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

131

(Miratools); Grammarly; Docoloc; Text.ru; Антиплагиат и другие. В основу алгоритмов анализа текста на плагиат положен поиск совпадений слов, строк, группы слов, цитат. В наиболее мощных системах применены методы стилометрии [12]. Результаты сравнения функциональных возможностей сервисов проверки текстов на плагиат приведены в таблице 1 [3]. Более полная сравнительная характеристика сервисов антиплагиата приведена в работе [2].

Таблица 1

Сравнение функциональных возможностей сервисов контроля текстов на плагиат

Система Поиск в Интернете Поиск в локальных базах Применяемые типы файлов Количество языков

eTXT Антиплагиат + - .doc, .txt неограни- ченно

Advego Plagiatus + - .txt неограни- ченно

Anti- Plagiarism + + .rtf, .doc,*.docx, .pdf неограни- ченно

Double Content Finder .txt русский

Viper .doc, .docx, .pdf, .html, .odt, .rtf, .text, .s, .cs, .app, .java, .ptt, .pttx. английский

Плагиата НЕТ + - .doc, .docx, .rtf, .txt неограни- ченно

Anti- Plagiarism + - .rtf, .doc,*.docx, .pdf неограни- ченно

Plagiat-inform + + .doc, .txt неограни- ченно

Praide Unique Content Analyser + - .doc, .txt неограни- ченно

Автор.NET + + .doc, .txt неограни- ченно

132

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

Главным недостатком большинства систем антиплагиата является отсутствие возможности детального лингвистического анализа текстов на естественном языке, который включает морфологический, синтаксический, семантический и прагматический виды анализа.

Одной из главных задач прикладной лингвистики является решение проблемы качественной автоматизированной обработки естественного языка. Это требует привлечения целого ряда научных дисциплин и их методов, в том числе методов компьютерной, когнитивной, математической лингвистики, теории искусственного интеллекта, семантических сетей, нейрокибернетики, логики и т.п. Комплексное применение средств, моделей и методов этих научных отраслей в принципе позволяет создать эффективный инструментарий обработки естественно-языковой текстовой информации. Но поскольку в работе речь идет о системе оценивания степени сходства больших корпусов текста, то на первый план выдвигается семантическая составляющая лингвистического анализа и экстракция знаний с текстов.

Лингвистический анализ текстов на естественном языке в системах анализа документов на наличие плагиата предлагается выполнять в такой последовательности. На первом этапе необходимо осуществить нормализацию текста с применением графематического анализа (токенизации), что предусматривает выполнение следующих процедур: удаление нетекстовых символов, выделение слов, цифр, формул, сокращений, примечаний и других элементов текста, деление текста на предложения, абзацы.

Анализ единиц лексического уровня, то есть слов, является одним из важнейших. К инструментарию данного вида анализа относят различные словари, которые содержат лексический репертуар и морфемную структуру лексических единиц, словоизменяемые парадигмы и т.д., а также внесловарные методы, которые позволяют осуществлять разбиение слова на морфемы по заданным алгоритмам, обеспечивать отнесение слов к словоизменяемым парадигматичным классам, выполнять процедуры лемматизации (редукции текстовых словоформ к начальным, исходным формам и др.).

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

133

Рисунок 1. Обобщенный алгоритм работы систем обнаружения плагиата

На этом же этапе частично осуществляется и грамматический анализ, т.е. идентификация лексико-грамматических классов и значений грамматических категорий текстовых слов. Входными данными процедуры морфологического распознавания является графемная структура текста и эталонные модели, которые состоят из словоизменяемого словаря, словаря морфем (квазиокончаний, суффиксов, префиксов и т.п.), дополнительных словарей, содержащих перечень аббревиатур, сокращений, имен собственных и проч. В разработанной интеллектуальной системе работа морфологического анализатора предусматривает выполнение нескольких процедур. В первую очередь нужно выяснить, есть ли в таблице базы данных «Словоизменяемый словарь» элемент, идентичный входной словоформе. Применение такого словаря позволяет решить проблему грамматической идентификации, что

134

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

предполагает формализацию процессов парадигматизации и лемматизации.

На формальном уровне текст на естественном языке представляется в виде бесконечной последовательности символов из определенного (также конечного) набора, который называется обобщенным алфавитом. В этот алфавит включены не только буквы определенного языка, но и другие символы, которые могут присутствовать в тексте (знаки препинания, цифры, специальные символы и т.д.). Итак, самое общее формальное представление текста выглядит так:

Т = х^*.*^, х, е А, А = Ц, a2, ..., aN},

где * - операция конкатенации.

Формализация текстовой структуры исходного текста предусматривает разработку методов и лингвистических алгоритмов (процедур), позволяющих выделить из такой последовательности лингвистически значимые объекты - морфемного, лексического, синтаксического, семантического и других языковых уровней, которые имплицитно содержатся в формальной последовательности символов из конечного алфавита А. Указанные лингвистические процедуры включают операции графематического, морфологического, предсинтаксического, синтаксического и других разновидностей анализа, в процессе применения которых удается детализировать лингвистическую структуру объекта, подлежащего формализации. Процедура предсинтаксического анализа нужна для выделения единиц текста, дальнейшего морфологического анализа этих элементов, подготовки данных для синтаксического анализа. Осуществляется это следующим образом. На вход системы поступает текст. В первую очередь нужно выделить единицы этого текста: абзацы, предложения, отдельные слова и знаки препинания. Для решения этой задачи применяется графематический анализ. Учитывая тот факт, что в современных редакторах существует разметка на абзацы, этот этап не вызывает затруднений. Несколько иной является ситуация с задачей выделения предложений. Обычно в конце предложения стоит точка, вопросительный знак, восклицательный знак, многоточие. Однако некоторые из этих знаков применяют еще и с другой целью, например, точку часто применяют в сокращениях, вопросительный и восклицательный знаки - для обозначения выразительности в тексте. Итак,

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

135

как видим, знак препинания не всегда является признаком конца предложения. Отдельную проблему составляют также тире и дефис, задача идентификации которых частично решается на уровне синтаксического анализа. Таким образом, сначала графематиче-ский анализ по определенным критериям выделяет абзацы. Далее происходит процедура выделения строки. Если строка состоит только из цифр, то ее обозначают частью языка «числительное» и отправляют в промежуточный массив. На этом этапе также происходит выделение сложных слов и с помощью морфологического словаря разбиения его на простые. Для идентификации значение точки в предложении нужно ввести правила анализа сокращений. После элиминации неоднозначности точек и установления маркеров о возможном конце предложения, можно считать, что все точки, вопросительные знаки, восклицательные знаки или маркеры, после которых стоит слово с большой буквы, означают окончания предложения.

Анализ единиц лексического уровня, то есть слов, является одним из важнейших. В состав этой разновидности анализа могут входить различные словари, содержащие лексический репертуар и морфемную структуру лексических единиц, словоизменительные парадигмы и тому подобное. Применяют и так называемые внесловарные методы, предполагающие разбиение слова на морфемы по заданным алгоритмам и обеспечивающие отнесение слов к предметной области. Эти методы выполняют процедуры лемматизации. На этом же этапе частично осуществляется и грамматический анализ, то есть идентификация лексико-грамматических классов и значений грамматических категорий текстовых слов.

Неотъемлемой составляющей процесса выделения единиц языка является процедура расписания текста на минимальные синтагмы - пару слов, связанных определенным типом синтаксической связи: координации между членами предикативной пары, согласования, управления или примыкания. Для этого, как правило, применяют процедуры метода непосредственных составляющих или анализа контактных слов в предложении, разработанные представителями американской дескриптивной лингвистики, и процедуры грамматики зависимостей, предложенные представителями генеративной лингвистики.

Одной из проблем, возникающих во время осуществления морфологического анализа естественно-язычного текста, являет-

136

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

ся наличие ошибок в словах, которые могут проявляться в виде пропуска, вставки, замены, транспозиции графемы. Для решения вопросов обработки неправильно написанных слов предлагается использовать метрику Левенштейна, усовершенствованный алгоритм которой позволяет осуществить анализ подобных словоформ, исправить их и привести к словарному виду [13]. После выполнения такой процедуры исправленная словоформа получает набор грамматических характеристик идентичной словоформы из словаря базы данных. Наряду с этим, в тексте может быть употреблена аббревиатура, сокращение, название и прочее. Поэтому для идентификации и корректной обработки таких словоформ необходимо иметь соответствующие базы данных. Исходный текст в этом случае подлежит проверке на наличие языковых единиц из вышеупомянутых баз данных, за счет чего устраняются указанные выше недостатки морфологического анализатора и повышается эффективность и объективность анализа. Аналогично решается проблема снятия грамматической омонимии.

Таким образом, результатом осуществления морфологического анализа текста будет набор словоформ, для каждой из которых определены ее частиязычная принадлежность и такие грамматические характеристики, как падеж, число, род, время, наклонение, лицо, т.е. морфологическая информация, с помощью которой устанавливаются синтагматические отношения между словами, необходимыми для осуществления следующего этапа синтаксического анализа. В результате работы лемматизатора у каждого слова во входной информации выделяются основы (проблемы), которые в дальнейшем подлежат обработке с помощью латентно-семантического анализа. Для нечеткого семантического сравнения по содержанию корпусов текста воспользуемся алгоритмом, который был применен в Интеллектуальной системе оценивания знаний студентов [14] (рисунок 2).

Разработанный алгоритм семантического сравнения нечеткой текстовой информации (исходный текст, представленный для проверки на естественном языке в произвольной форме, с вариантами текстов, имеющихся в локальных базах данных, и контентом Интернета) предусматривает автоматическую конвертацию исходного текста на естественном языке к внутрисистемному виду, экстракцию лексических единиц текста с последующим осуществлением морфологического, синтаксического, семантического и

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

137

1. Формирование контрольных баз данных исходной информации: «Словарь»; «Аббревиатура»; «Фреймы»; «Ключ»

i

2. Преобразование ответов к внутрисистемному виду

Т

3. Формирование множества лексических единиц

исходного текста:

XV, = (xvl;xv2;. „XV,;.. .XV,)

xvu;xvl2;. „xv,,;.

xv = xviuxvn;. -,xv2j;. ..,xv2k

xvBl; xvв2;. -xv,.;.

Т

4. Формирование базы данных лингвистических переменных контрольного текста: (матрица ХК):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Код зал. Номер реченн я Значения лзнгщстичних змшних Юль Kici ь змшних

n i XV11 XVn *Vji XV\k kvi

т

I

5. Формирование базы данных лингвистических переменных текста оригинала (матрица УК):

Код зал. Номер предаю жения Значение лингвистических переменных Количе ство зеремеь ных

п i XV,, XV12 xv,. XV] t kvi

____________________I______________________

6. Осуществляется сравнение лексических единиц, содержащихся в матрице XV, с лексемами, содержащимися в базе данных «Словарь»

I

7. Оценка сходства между матрицами XV и VK; поиск количества лингвистических единиц, принадлежащих к обеим матрицам, и количества ключевых слов, которые присутствуют в матрице XV и базе данных «Ключ»; оценка совпадения порядка следования лексических единиц матриц XV и VK (используется метрика Левенштейна)

I

8. Поиск количества фреймов, которые одновременно присутствуют в матрице XV и базе данных «Фрейм» (определение принадлежности исходного текста к предметной области)

9. По результатам полученных оценок принимается решение о степени сходства исходного текста с текстом, размещенным в локальных базах данных предметной области, и текстов из сети «Интернет»

Рисунок 2. Алгоритм метода нечеткого семантического сравнения по содержанию корпусов текста

прагматического анализа. Применение разработанного алгоритма позволяет устранять ошибки, которые могут быть в исходном тексте (неправильные окончания, нестандартные сокращения и т.д.), определять принадлежность исходного текста к определенной предметной области, выявлять степень семантического сходства исходного текста, формировать общую оценку степени сходства текстов по комплексному показателю.

Заключение. Предложенный метод лингвистического анализа предоставляет возможности определять латентные ассоциативно-семантические зависимости во множестве документов; частично устранять омонимию, полисемию и синонимию; исправлять слова, написанные с орфографическими и технически-

138

Философские проблемы информационных технологий и киберпространства Прикладные аспекты информационных технологий

ми ошибками; учитывать синтаксические отношения; логику построения терм в контексте предметной сферы, что будет влиять на качество анализа текстов и обоснованный вывод относительно наличия плагиата.

Литература:

1. Шостак И.В., Груздо И.В. Компьютеризация процесса выявления плагиата в студенческих работах // Сборник научных трудов Военного института Киевского национального университета имени Тараса Шевченко. Киев, 2013. Вып. 41. - С. 99-109. (ShostakI.V, Hruzdo I.V. The computerization of process of plagiarism detection in students’ papers // Collection scientific papers of the Military Institute of Kyiv National University named after Taras Shevchenko. Kyiv, 2013. Publ. 41. - P. 99109.)

2. Лупаренко Л.А. Данные сравнительного анализа инструментов поиска текстового плагиата (сравнительные таблицы) // Информационные технологии и средства обучения. 2014. Т. 40. № 2. (Luparen-ko L.A. Data of comparative analysis of text plagiarism searching tools (comparative table). Information technology and training tools. 2014. Book 40. No. 2.)

3. Шарапов Р.В., Шарапова Е.В. Система проверки текстов на заимствования из других источников // Труды 13-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - RCDL’2011, Воронеж, Россия, 2011. - С. 121-126. (SharapovR.V, Sharapova Ye.V System of texts inspection on borrowing from other sources // Proceedings of the 13 th All-Russian Scientific Conference “Digital Libraries: Advanced Methods and Technologies, Digital collections” - RCDL’2011, Voronezh, Russia, 2011. - P. 121-126.)

4. Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6(26). - С. 38-52. (Rezanova Z.I., Romanov A.S., Meshcheria-kov R.V. About the choice of text attributes that are relevant to author’s expert activity // Messenger of Tomsk State University. Philology. 2013. № 6(26). - P. 38-52.)

5. Ширяев М.А., Мустакимов В. Plagiatinform избавит от плагиата в научных работах // Educational Technology & Society. 2008. № 11(1). -С. 367-374. (ShyriaievM.A., Mustakimov V. Plagiatinform is to rid of plagiarism in academic papers // Educational Technology & Society. 2008. № 11(1). - P. 367-374.)

6. Неелова Н.В., Сычугов А.А. Сравнение результатов детектирования дублей методом шинглов и методом Джаккарда // Вестник РГРТУ 2010. № 4. Вып. 34). - С. 72-78. (Nieielova N.V., Sychugov A.A. Comparison of the results of duplicates’ detection by the method of shingles and Jaccard // Messenger rSrEU. 2010. No. 4. Publ. 34. - P. 72-78.)

№ 2 (10), декабрь 2015 URL: http://cyberspace.pglu.ru

139

7. Дягилев В.В., Цхай А.А., Бутаков С.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав // Вестник НГУ Серия: Информационные технологии. Барнаул, 2011. Том 9. Вып. 3. - С. 26-29. (Diagiliev V.V., TskhaiA.A., ButakovS.V Service architecture of plagiarism definition, which excludes the possibility of copyrighting infringement // Messenger of the NSU. Series: Information technology. Barnaul, 2011. Book 9. Publ. 3. - P. 26-29.)

8. Шахрай С.М., Аристер Н.И., Тедеев О.О. О плагиате в произведениях науки (диссертациях на соискание ученой степени): научно-методическое пособие. М.: МИИ, 2014. - 17б с. (Shakhrai S.M., Arister N.I., Tedeev O.O. About the plagiarism in the scientific works (dissertation on competition of scientific degree): Scientific handbook. M.: MII, 2014. -176 p.)

9. BroderA. On the resemblance and containment of documents // Compression and Complexity of Sequences (SEQUENCES’97). IEEE Computer Society, 1998. - P. 21-29.

10. Большой толковый словарь современного украинского языка. Киев: Ирпень; ВТФ «Перун», 2005. - С. 977. (Great Dictionary of the modern Ukrainian language. Kiyv: Irpen; Perun, 2005. - P. 977.)

11. Stein B., Koppel M. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN’07 (англ.) // ACM SIGIR Forum. 2011. -Р 68-71.

12. МартыненкоГ.Я. Основы стилеметрии. Л.: Изд-во ЛГУ, 1988. - 176 с. (Martynenko G.Ya. Fundamentals stilemetrii. L.: Publishing house of Leningrad State University, 1988. - 176 p.)

13. Комарницкая О.И. Совершенствование алгоритма латентно-семантического анализа нечеткой текстовой информации // Современный научный вестник. 2014. № 29(225). Серия: Филологические науки. Белгород: Руснаучкнига, 2014. - С. 58-62. (Komarnytska O.I. Improvement of latent semantic analysis’ algorithm of fuzzy text information // Contemporary scientific bulletin. 2014. No. 29(225). Series: Philology. Belgorod: Rusnauchkniga, 2014. - P. 58-62).

14. Катеринчук И.С., Кулик В.Н., Комарницкая О.И. Интеллектуальная автоматизированная система контроля знаний: лингвистическая подсистема // Информационные технологии в образовании: сборник научных трудов. Вып. 7. Херсон: Изд-во ХГУ 2010. - С. 33-39. (Kat-erynchukI.S., Kulik V.N., Komarnytska O.I. Intelligent automated system of knowledge control: linguistic subsystem // Information technologies in education: collection of scientific papers. Issue 7. Kherson: Publishing house KSU, 2010. - P. 33-39.)

i Надоели баннеры? Вы всегда можете отключить рекламу.