Научная статья на тему 'ОСОБЕННОСТИ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ'

ОСОБЕННОСТИ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
835
176
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
искусственный интеллект / нейросеть / ChatGPT / сгенерированный текст / антиплагиат / artificial intelligence / neural network / ChatGPT / generated text / anti-plagiarism

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Айдагулова Алиса Расиховна

В статье рассмотрена проблема выявления сгенерированных текстов в документах, являющихся результатами учебной и научной деятельности. Обозначены особенности текстов, сгенерированных нейросетью ChatGPT.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF TEXTS GENERATED BY ARTIFICIAL INTELLIGENCE

The article considers the problem of identifying generated texts in documents that are the results of educational and scientific activities. The features of the texts generated by the ChatGPT neural network are indicated.

Текст научной работы на тему «ОСОБЕННОСТИ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ»

Гуманитарные науки

УДК 004.8

Алиса Расиховна Айдагулова

Уфимский юридический институт МВД России, Уфа, Россия, [email protected]

ОСОБЕННОСТИ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ ИСКУССТВЕННЫМ

ИНТЕЛЛЕКТОМ

Аннотация. В статье рассмотрена проблема выявления сгенерированных текстов в документах, являющихся результатами учебной и научной деятельности. Обозначены особенности текстов, сгенерированных нейросетью ChatGPT.

Ключевые слова: искусственный интеллект, нейросеть, ChatGPT, сгенерированный текст, антиплагиат

Alisa R. Aidagulova

Ufa Law Institute of the Ministry of Internal Affairs of Russia, Ufa, [email protected] FEATURES OF TEXTS GENERATED BY ARTIFICIAL INTELLIGENCE

Abstract. The article considers the problem of identifying generated texts in documents that are the results of educational and scientific activities. The features of the texts generated by the ChatGPT neural network are indicated.

Keywords: artificial intelligence, neural network, ChatGPT, generated text, anti-plagiarism

В условиях глобальной информатизации основным источником информации становятся ресурсы сети интернет. При этом широкое распространение получают технологии, позволяющие без использования поисковых веб-служб создать готовый научный продукт. В этой связи в студенческих работах зачастую встречаются тексты, сгенерированные искусственным интеллектом. При проверке сгенерированных текстов на наличие заимствований процент оригинальности может достигать 98-100%, что не позволяет выявить долю текста документа, выполненного автором самостоятельно. В этой связи, соответствующего внимания педагогов требует проблема выявления сгенерированных текстов в документах, являющихся результатами учебной и научной деятельности.

Этому, безусловно, способствуют исследования в области искусственного интеллекта. Так, например, выявлению различий естественных и сгенерированных нейронной сетью текстов посвящены исследования Р.Е. Тельпова, С.В. Ларциной. Возможности и проблемы использование чат-бота «chatgpt» при написании научных работ рассматриваются в трудах В.В. Николаева, М.Е. Рахконен.

В контексте данной статьи научный интерес представляет понятие «искусственный интеллект». Под искусственным интеллектом следует понимать «способность технической системы имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека» [1]. Искусственный интеллект может быть реализован в виде программного обеспечения для выполнения задач, которые требуют человеческого интеллекта. Например, в практике органов внутренних дел используются интеллектуальные системы распознавания автомобильных номеров, анализа траекторий движения и обнаружения оставленных предметов, фиксации нарушений правил дорожного движения и др. Нейросеть следует рассматривать как конкретную технологию искусственного интеллекта.

Нейросеть позволяет заменить слова и фразы в тексте на их синонимы, сохраняя при этом структуру и основной смысл исходного материала; выполнить переформулирование текста, сохранив основную идею первоисточника.

С научной точки зрения интерес представляет технология GPT (от англ. Generative Pre-trained Transformer «генеративный предварительно обученный трансформер»), которая генерирует текст. На основе данной технологии сегодня работают такие нейросети как YandexGPT и Google Bard. Особую популярность приобретает чат-бот ChatGPT с генеративным искусственным интеллектом, способный работать в диалоговом режиме. В отличие от поисковых систем сети интернет чат-бот выдает готовый ответ, который не требует дополнительных временных затрат на поиск, анализ и обработку информации. Для работы с чатом пользователю не требуется специальных знаний, достаточно задать тему или начало текста, и нейросеть предложит готовый материал.

Как известно, при проверке в системе «Антиплагиат» сгенерированные тексты имеют высокий процент (98-100%) оригинальности. Это обусловлено отсутствием первоисточника сгенерированного текста. Тревожным обстоятельством является то, что пользователь чата «получает готовый продукт и присуждает готовому тексту свое авторство, отчуждая при этом собственное творчество, а значит - и личную ответственность» [2, с. 80]. В этой связи требуют проработки вопросы защиты авторских прав на тексты, сгенерированные искусственным интеллектом.

Анализ сгенерированных нейросетью ChatGPT текстов позволил выявить следующие их особенности:

- повторы словосочетаний и слов;

- повторение одной и той же мысли в разных предложениях;

- отсутствие связи сгенерированного фрагмента с остальным текстом;

- поверхностные примеры;

- искажение фактов, наличие недостоверной информации;

- отсутствие цитат.

Тельпов Р.Е., Ларцина С.В., исследуя типовые различия естественных и сгенерированных текстов, отмечают, что в сгенерированных текстах слова, включённые в заголовок, встречаются по тексту значительно чаще, чем в естественных текстах [4]. Сгенерированный текст не раскрывает вопрос в полной мере, включает общую информацию, имеет более простую структура и поверхностные примеры.

Интерес представляет исследование И.А. Туркулец, в котором автор анализирует композиционные особенности текстов, сгенерированных ChatGPT [5]. Автор обращает внимание, что сгенерированный текст включает нумерованный список, конструкция которого имеет вид «Название. Развернутое определение» [5]. Предшествует списку абзац с вводной информацией, подытоживает список короткое резюме.

Важно понимать, что сгенерированный текст не содержит научной новизны, не имеет теоретической и практической значимости. Нелишне отметить, что тексты могут содержать недостоверные факты и литературные источники.

Между тем, существуют различные методы выявления сгенерированного текста [3]: анализ статистических характеристик текста (частота встречаемости слов, длина предложений, распределение слов в предложении), использование алгоритма машинного обучения, анализ структуры текста.

Детектирование сгенерированных текстов является вспомогательным инструментом анализа научных работ. Документ, в котором были обнаружены признаки сгенерированного текста, отмечается в системе «Антиплагиат» как подозрительный документ. В таких случаях необходимо ознакомиться с отчетом о проверке и проанализировать подозрительные фрагменты текста. Следует проверить нет ли в тексте повторяющихся слов и словосочетаний, проверить связан ли по смыслу подозрительный фрагмент с остальным текстом, проверить достоверность фактов и литературных источников.

В заключение следует отметить, что в период широкого распространения технологий искусственного интеллекта современному педагогу необходимо критически мыслить, знать особенности текстов, сгенерированных нейросетью, и уметь выявлять их в научных работах.

СПИСОК ИСТОЧНИКОВ

1. ГОСТ Р 59276-2020. Национальный стандарт Российской Федерации «Системы искусственного интеллекта. Способы обеспечения доверия. Общие положения». М., 2021 г.

2. Николаев В.В., Рахконен М.Е. Применение различных инструментов и использование чат-бота «chatgpt» при написании научных работ, проверяемых в программе «Антиплагиат» // Профессиональное юридическое образование и наука. 2023. № 1(9). С. 7881.

3. Прохоров А.И., Асадчая К.В. Инструментальные средства определения текста, сгенерированного при помощи нейросети // Научный вектор: сборник научных трудов / под научной редакцией Е.Н. Макаренко. Том 9. Ростов-на-Дону: Ростовский государственный экономический университет «РИНХ», 2023. С. 250-253.

4. Тельпов Р.Е., Ларцина С.В. Типовые различия естественных и сгенерированных нейронной сетью текстов в квантитативном аспекте // Научный диалог. 2023. Т.12. № 7. С. 47-65.

5. Туркулец И.А. Композиционные особенности текстов, сгенерированных chatgpt, как маркер несамостоятельности выполнения работ студентами // Правовая реальность в условиях цифровизации общества: материалы Всероссийской научно-практической конференции (г. Хабаровск, 9-11 ноября 2023 г.). Хабаровск: Дальневосточный государственный университет путей сообщения, 2023. С. 59-68.

REFERENCES

1. GOST R 59276-2020. NacionaFny'j standart Rossijskoj Federacii «Sistemy' iskusstvennogo intellekta. Sposoby' obespecheniya doveriya. Obshhie polozheniya». M., 2021 g.

2. Nikolaev V.V., Raxkonen M.E. Primenenie razlichny'x instrumentov i ispolzovanie chat-bota «chatgpt» pri napisanii nauchny'x rabot, proveryaemy'x v programme «Antiplagiat» // Professional'noe yuridicheskoe obrazovanie i nauka. 2023. № 1(9). S. 78-81.

3. Proxorov A.I., Asadchaya K.V. Instrumental'ny'e sredstva opredeleniya teksta, sgenerirovannogo pri pomoshhi nejroseti // Nauchny'j vektor: sbornik nauchny'x trudov / pod nauchnoj redakciej E.N. Makarenko. Tom 9. Rostov-na-Donu: Rostovskij gosudarstvenny'j e konomicheskij universitet «RINX», 2023. S. 250-253.

4. Telpov R.E., Larcina S.V. Tipovy'e razlichiya estestvenny'x i sgenerirovanny'x nejronnoj set'yu tekstov v kvantitativnom aspekte // Nauchny'j dialog. 2023. T.12. № 7. S. 47-65.

5. Turkulecz I.A. Kompozicionnye osobennosti tekstov, sgenerirovanny'x chatgpt, kak marker nesamostoyatel'nosti vy'polneniya rabot studentami // Pravovaya reaFnosf v usloviyax cifrovizacii obshhestva: materialy' Vserossijskoj nauchno-prakticheskoj konferencii (g. Xabarovsk, 9-11 noyabrya 2023 g.). Xabarovsk: Dal'nevostochny'j gosudarstvenny'j universitet putej soobshheniya, 2023. S. 59-68.

Информация об авторе

А.Р. Айдагулова - кандидат педагогических наук, доцент кафедры управления в

органах внутренних дел Уфимского юридического института МВД России.

Information about the author

A.R. Aidagulova - Candidate of Pedagogical Sciences, Associate Professor of the

Department of Management in the Internal Affairs Bodies of the Ufa Law Institute of the

Ministry of Internal Affairs of Russia.

i Надоели баннеры? Вы всегда можете отключить рекламу.