Применение алгоритма определения наличия заимствований в тексте с использованием эталонного множества слов для сравнения англоязычных текстов и их переводов на русский язык

Зиберт Андрей Оскарович; Мирошниченко Виктория Валентиновна

ПРИМЕНЕНИЕ АЛГОРИТМА ОПРЕДЕЛЕНИЯ НАЛИЧИЯ ЗАИМСТВОВАНИЙ В ТЕКСТЕ С ИСПОЛЬЗОВАНИЕМ ЭТАЛОННОГО МНОЖЕСТВА СЛОВ ДЛЯ СРАВНЕНИЯ АНГЛОЯЗЫЧНЫХ ТЕКСТОВ И ИХ ПЕРЕВОДОВ НА РУССКИЙ ЯЗЫК

Зиберт Андрей Оскарович

аспирант Хакасского государственного университета,

РФ, г. Абакан E-mail: zib-andrey@inbox. ru

Мирошниченко Виктория Валентиновна

студент Хакасского государственного университета,

РФ, г. Абакан E-mail: milzpobeda@rambler.ru

THE APPLICATION OF ALGORITHM OF DETERMINING THE PRESENCE OF BORROWINGS IN THE TEXT USING A STANDARD SET OF WORDS FOR COMPARISON ENGLISH TEXTS WITH THEIR RUSSIAN TRANSLATIONS

Zibert Audrey

Post-graduate student of Khakassia State University,

Russia, Abakan

Miroshnichenko Viktoria

Student of Khakassia State University,

Russia, Abakan

АННОТАЦИЯ

В статье рассматривается возможность использования алгоритма определения наличия заимствований в тексте с использованием эталонного множества слов при сравнении текстов на английском и русском языках.

Зиберт А.О., Мирошниченко В.В. Применение алгоритма определения наличия заимствований в тексте с использованием эталонного множества слов для сравнения англоязычных текстов и их переводов на русский язык // Universum: Технические науки : электрон. научн. журн. 2015. № 1 (14) . URL: http://7universum.com/ru/tech/archive/item/1886

Приведено исследование изменения относительной частоты слов при переводе с английского языка на русский.

ABSTRACT

The article deals with the possibility of using the algorithm for determining the presence of borrowings in the text by using a standard set of words in the comparison of English and Russian texts. The research of word relative frequency changing while translating from English into Russian is conducted.

Ключевые слова: плагиат, эталонное множество слов, англоязычные источники.

Keywords: plagiarism, standard set of words, English resources.

В настоящее время большое число текстов научно-исследовательских работ индексируются с помощью различных международных систем, таких как Scopus и Web of science. При этом зачастую кроме аннотации текста работы также доступны и полные тексты. А для ускорения поиска в этих системах материалы, как правило, разбиты по рубрикам, также доступен поиск по ключевым словам. Таким образом, становится доступным для ознакомления и изучения достаточно большой объем различным материалов и текстов научно-исследовательских работ на иностранных языках, что открывает возможность для плагиата и некорректного заимствования из работ иностранных авторов.

Согласно проведенным ранее исследованиям, выделяется 3 формы плагиата [3]:

1. Прямое копирование фрагмента другого источника в собственном тексте без кавычек и полной ссылки на источник. Прямое копирование фрагмента с полной ссылкой, но без кавычек тоже считается плагиатом. В случае дословного плагиата размер заимствованного фрагмента может быть любым. Заимствование отдельной фразы также будет плагиатом, если эта фраза

не является элементом обиходного языка и может быть приписана конкретному автору.

2. Неадекватный пересказ, при котором изложение фрагмента другого источника осуществляется путем замены некоторых слов в исходном тексте с сохранением его структуры, даже если при этом дается полная ссылка на источник.

3. Адекватный пересказ, но не сопровождающийся указанием на источник заимствования идей.

В данной классификации перевод текста работы с одного языка на другой и выдача этой работы за свою относится к форме адекватного плагиата, так как происходит переработка всего текста полностью. При этом существующие на данный момент системы автоматической проверки текста на плагиат не могут выявить такой способ некорректного заимствования

Ранее нами был рассмотрен способ определения наличия заимствований в тексте с помощью алгоритма сравнения исследуемых текстов с эталонным множеством слов в связке с использованием словарей синонимов [2]. Данный способ показал корректные результаты определения наличия фактов заимствований в сравниваемых текста за счет того, что фактически не учитывается структура обрабатываемых текстов, а результат получается путем сравнения определённым образом сформированной выборки слов из сравниваемых текстов. Данный способ может определить факты наличия заимствования даже в случае перестановки слов и предложений местами, а также при введении незначащих слов в текст и в случае, если автор прибегает к синонимизации для сокрытия факторов некорректного заимствования в тексте.

Для того чтобы определять факты некорректного заимствования из англоязычных источников путем перевода текста на русский язык, было предложено в эталонное множество слов, полученное за счет объединения текстов различных научно-исследовательских работ, близких по тематике к сравниваемым текстам, дополнительно включить переводы этих слов на английский язык. Подобное расширение иллюстрирует таблица 1. Изначально

каждое слово из первоначального эталонного множество дополняется группой синонимов этого слова. Далее каждая группа дополнительно расширяется с помощью общедоступных русско-английских словарей переводами этих слов на английский язык. Полученное таким образом эталонное множество слов может использоваться для сравнения текстов не только на русском языке, но и для сравнения текстов на русском и английском языках.

Но в связи с тем, что работа алгоритма базируется на относительной частоте употребления слов и их синонимов, то предварительно было необходимо проверить, меняется ли данная частота у слов в тексте при переводе с английского языка на русский.

Таблица 1.

Содержание эталонного множества до и после расширения

Содержание эталонного множества до расширения Содержание эталонного множества после добавления синонимом Содержание эталонного множества после добавления синонимом и переводов слов на английский язык

• • • • • • •

текст текст запись цитата выдержка легенда слова текст запись цитата выдержка легенда слова text document record note quote excerption legend words

описание описание изображение представление дескрипция изложение описание изображение представление дескрипция изложение image description view description summary

множество множество разнообразие подборка множество разнообразие подборка variety selection set

результат результат следствие итог факт достижение Результат следствие итог факт достижение result issue effect investigation consequence sum fact achievement

Таблица 2.

Сопоставление частоты употребления слов

Слово в англоязычной статье Количеств о слов в тексте % относительно общего количества слов Слово в русскоязычной статье Количество слов в тексте % относительно общего количества слов

type 86 4,31 тип 89 4,43

conversion 87 4,36 преобразование 87 4,33

class 24 1,20 класс 24 1,19

пример 12 0,60

example 21 1,05 например 9 0,45

method 21 1,05 метод 20 1,00

interface 19 0,95 интерфейс 18 0,90

Для проверки данного факта было выбрано несколько технический статей с сайта сети разработчиков компании «Майкрософт». На данном сайте доступны тексты на английском языке по тематике программирования. Дополнительно для части статей на данном сайте доступны переводы этих текстов на другие тексты, в частности на русский язык. Было выбрано 10 статей, доступных как на русском, так и на английском языке, и произведено сопоставление частоты употребления слов и их переводов. Пример одного из таких сопоставления для статьи по теме «Преобразование типов в .NET Framework» [4] показан в таблице 2.

Как видно из таблицы, частота употребления слов в англоязычной статье и в ее переводе на русский язык в процентном соотношении практически не изменяется. Незначительные отклонения объясняются такими факторами, как, например, необходимость употребления глагола to be для связки в предложениях, а также использованием определенных и неопределённых артиклей. В русском же языке таких требований нет, и при переводе эти слова не учитываются. Отдельно необходимо отметить важность расширения эталонного множества слов с помощью синонимов в данной ситуации. Для этого рассмотрим связку выражений «example» и «for example», и их

перевод на русский язык как «пример» и «например» соответственно. Данные слова имеют схожее значение, но при разборе текста в англоязычном тексте данные слова объединяются вместе и слово «example» составляется 1,05 % от всего текста. В русскоязычном же тексте данные слова будут переведены как различные слова «пример» и «например», составляющие соответственно 0,6 % и 0,45 % от всего текста. Но при расширении синонимами эталонного множества, данные слова будут объединены в одну группу, и суммарно данной группе будет соответствовать 1,05 % от всего текста, как и в оригинальном тексте.

При сопоставлении остальных статей был получен такой же результат, и из этого можно заключить, что при переводе с английского языка на русский относительная частота слов и их синонимов меняется незначительно. Таким образом, мы можем применить алгоритм определения наличия заимствований в тексте с использованием эталонного множества слов, расширенного с помощью синонимов и переводов этих слов на английский язык.

Для проверки корректности работы алгоритма было проведено исследование результатов работы данного алгоритма слов на основе 20 англоязычных статей, взятых с сайта сети разработчиков «Майкрософт», для которых был доступен перевод на русский язык. Было произведено попарное сравнение оригинальных англоязычных текстов и их переводов, а также сравнение несвязанных между собой текстов на английском и русском языках. Как и предполагалось, после предварительной обработки текстов, создания и расширения эталонного множества слов, было выявлено, что оригинальные статьи и их переводы имеют разницу между пересечениями менее 12, что соответствует практически полному заимствованию текста [1]. При сравнении других текстов в некоторых случаях следует отметить приближение разницы между количествами пересечений к граничным значениям, что объясняется близостью тематики статей, но ни разу разница

между количеством пересечений не опустилась ниже порогового значения, после которого можно говорить о фактах заимствования текста.

Данные результаты говорят о том, что алгоритм определения наличия заимствований в текстах с помощью эталонного множества слов можно использовать для определения фактов плагиата в текстах в случаях, когда для этого использовались англоязычные источники. Но при этом данный алгоритм не лишен недостатка базового алгоритма, а именно: корректная работа алгоритма возможно только при объеме исследуемых текстов более 1500 слов, поэтому необходима дальнейшая работа по улучшению показателей работы на текстах меньшего объема.

Список литературы:

1. Зиберт А.О., Мирошниченко В.В. Алгоритм определения наличия

заимствований в тексте с использованием эталонного множества слов // Universum: Технические науки : электрон. научн. журн. — 2014. — № 12 (13) / [Электронный ресурс]. — Режим доступа: URL:

http://7universum.com/ru/tech/archive/item/1833 (дата обращения: 08.01.2015).

2. Зиберт А.О., Мирошниченко В.В. Об использовании словарей синонимов

в алгоритме определения наличия заимствований в тексте // Universum: Технические науки : электрон. научн. журн. — 2014. — № 12 (13) / [Электронный ресурс]. — Режим доступа: URL:

http://7universum.com/ru/tech/archive/item/1834 (дата обращения: 05.01.2015).

3. Корбут А. Плагиат и конститутивный порядок диссертационного текста // Социологическое обозрение. — Т. 12. — № 2. — 2013. — С. 145—171.

4. Преобразование типов в .NET Framework .../ [Электронный ресурс]. —

Режим доступа: http://msdn.microsoft.com/ru-

ru/library/98bbex99(v=vs.110).aspx (дата обращения: 25. 12.2014).

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Зиберт Андрей Оскарович, Мирошниченко Виктория Валентиновна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Зиберт Андрей Оскарович, Мирошниченко Виктория Валентиновна

THE APPLICATION OF ALGORITHM OF DETERMINING THE PRESENCE OF BORROWINGS IN THE TEXT USING A STANDARD SET OF WORDS FOR COMPARISON ENGLISH TEXTS WITH THEIR RUSSIAN TRANSLATIONS