2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
НАУЧНАЯ СТАТЬЯ / ORIGINAL ARTICLE УДК / UDC 070
https://doi.org/10.20310/2587-6953-2024-10-2-452-464 Шифр научной специальности 5.9.9
Структурные и филологические особенности текстовых генеративных нейронных сетей
Никита Дмитриевич Мальцев
Тамбовский государственный университет им. Г.Р. Державина 392000, Российская Федерация, г. Тамбов, ул. Интернациональная, 33 Н [email protected]
Аннотация
ВВЕДЕНИЕ. Исследование особенностей текстовых генеративных нейронных сетей является важным шагом в развитии искусственного интеллекта. Несмотря на то, что модели показали высокую эффективность в решении различных задач в сфере журналистики и медиа-коммуникаций, они имеют ряд недостатков. В процессе работы с нейросетями можно встретить как грубые грамматические, так и смысловые ошибки. Для выявления лидера по максимально продуктивной генерации текстов необходимо проведение сравнительного анализа выдаваемых различными сервисами данных. МАТЕРИАЛЫ И МЕТОДЫ. В российском сегменте наиболее развитыми нейросетевыми сервисами являются GigaChat и YandexGPT. Для проведения сравнительного анализа выбран наиболее обсуждаемый и общепризнанный сервис - GhatGPT. Исследование проводилось на протяжении нескольких месяцев: сентябрь-декабрь 2023 г. В основе методики - филологический анализ сгенерированных текстов и сравнение точности выдачи запросов выбранных моделей. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ. Филологический и грамматический анализ трёх моделей позволяет определить актуальность сервисов для работы в сфере журналистики и медиакоммуникаций, а также программные и технические ограничения нейросетей. Анализ показал наличие определённых паттернов у всех моделей нейросетей. Генерация осуществляется по заранее запрограммированному сценарию. Результат складывается из ряда факторов: наличие имён, аббревиатур и пожеланий, указанных в запросе. Отсутствие какой-либо цензуры показал лишь ChatGPT, остальные же модели отказывались генерировать, если в запросе были указаны запрещённые разработчиком слова или имена. ЗАКЛЮЧЕНИЕ. Полученные выводы могут быть применены на практике в СМИ, блогинге и медиасфере. У всех трёх сервисов есть свои положительные и отрицательные стороны. Согласно результатам проведённого исследования, на данный момент лидером по генерации и обработке текстов является ChatGPT. Лидерство сервису обеспечивается за счёт широкого спектра возможностей и стабильности выдачи ответов на запросы. Однако в связи с наличием в сети Интернет большого количества информации, необходимой для быстрого обучения российских сетей, ситуация может измениться в ближайшее время.
Ключевые слова: журналистика, медиакоммункиации, генеративный, нейронная сеть, текст, структура
Благодарности и финансирование. О финансировании исследования не сообщалось. Конфликт интересов. Автор заявляет об отсутствии конфликта интересов. Для цитирования: Мальцев Н.Д. Структурные и филологические особенности текстовых генеративных нейронных сетей // Неофилология. 2024. Т. 10. № 2. С. 452-464. https://doi.org/10.20310/2587-6953-2024-10-2-452-464
'Щ) Check for updates
452
© Мальцев Н.Д., 2024
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
Structural and philological features of text generative neural networks
Nikita D. Maltsev
Derzhavin Tambov State University 33 Internatsionalnaya St., Tambov, 392000, Russian Federation H [email protected]
Abstract
INTRODUCTION. Studying the features of text generative neural networks is an important step in the development of artificial intelligence. Despite the fact that the models have shown high efficiency in solving various problems in the field of journalism and media communications, they have a number of disadvantages. When working with neural networks, you can encounter both gross grammatical and semantic errors. To identify the leader in the most productive text generation, it is necessary to conduct a comparative analysis of the data produced by various services. MATERIALS AND METHODS. In the Russian segment, the most developed neural network services are GigaChat and YandexGPT. To conduct a comparative analysis, the most discussed and generally recognized service was selected - GhatGPT. The study was carried out over several months: September-December 2023. The methodology is based on philological analysis of generated texts and comparison of the accuracy of query output of selected models. RESULTS AND DISCUSSION. Philological and grammatical analysis of the three models allows us to determine the relevance of services for work in the field of journalism and media communications, as well as the software and technical limitations of neural networks. The analysis showed the presence of certain patterns in all neural network models. Generation is carried out according to a preprogrammed scenario. The result consists of a number of factors: the presence of names, abbreviations and wishes specified in the request. Only ChatGPT showed the absence of any censorship; other models refused to generate if the request contained words or names prohibited by the developer. CONCLUSION. The findings can be applied in practice in the media, blogging and media sphere. All three services have their positive and negative sides. According to the results of the study, ChatGPT is currently the leader in text generation and processing. Leadership of the service is ensured due to a wide range of capabilities and stability in issuing answers to requests. However, due to the availability of a large amount of information on the Internet necessary for rapid training of Russian networks, the situation may change in the near future. Keywords: journalism, media communications, generative, neural network, text, structure Acknowledgements and Funding. No funding was reported for this research. Conflict of Interest. The author declares no conflict of interest.
For citation: Maltsev, N.D. Structural and philological features of text generative neural networks. Neofilologiya = Neophilology, 2024;10(2):452-464 (In Russ., abstract in Eng.) https://doi.org/10.20310/2587-6953-2024-10-2-452-464
ВВЕДЕНИЕ
Нейронные сети являются одним из наиболее активно развивающихся направлений исследований в области искусственного интеллекта. Развитие моделей было вдохновлено биологическими особенностями человеческого мозга и стало главным технологическим прорывом за последние несколько лет. Исследования в области нейронных сетей играют важную роль во многих сферах об-
щества, от компьютерного зрения и речевых технологий до автономных систем и финансовых анализов.
Внедрение нейронных сетей в массовую практику стало возможным благодаря нескольким факторам. Одним из таких факторов является заинтересованность научного сообщества в данной технологии. Исследователи разрабатывают новые алгоритмы обучения и архитектуры нейронных сетей, что позволяет создавать более эффективные и
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
точные модели, а развитие доступных и мощных вычислительных ресурсов, таких как графические процессоры и облачные вычисления, позволяют распространить технологию среди рядовых пользователей.
Уже в 1950 г. А. Тьюринг задавался вопросом об определении интеллекта у машины, представив практический тест на компьютерный интеллект, который теперь известен просто как тест Тьюринга. Основной задачей теста становится выявление мышления у робота. Первый участник теста является своеобразным следователем: задавая вопросы двум другим участникам, испытуемый пытается определить, кто из них является компьютером. Всё общение осуществляется с помощью клавиатуры и экрана дисплея. Следователь может задавать вопросы настолько личные и обширные, насколько ему или ей покажется необходимым. Компьютеру, в свою очередь, разрешается делать всё возможное, чтобы вызвать неправильную идентификацию. В случае, если роботу удаётся обмануть испытуемого, и тот примет его за человека, тест считается успешным. Компьютер можно признать мыслящим, живым существом [1]. В 2014 г. компьютеру впервые удалось обмануть человека. На мероприятии, организованном University of Reading, выиграла российская программа, созданная Е. Веселовым и Е. Демченко. Чат-бот имитировал поведение 13-летнего мальчика и смог обмануть более 30 % судей в ходе пятиминутных диалогов. Всего в тесте принимали участие 30 судей1.
D. O'Leary в 2019 г. провёл анализ ней-росети Google Duplex, которая может общаться с клиентами и выполнять различные поручения, например, заказывать столик в ресторане. В своём исследовании учёный утверждает, что нейросеть общается довольно структурированно и задаёт положительный тон беседы. Однако подобные разработки заставляют задуматься об этической стороне вопроса, так как довольно проблема-
1 Turing Test success marks milestone in computing history // University of Reading. 2014. 08 June. URL: https: //archive.reading.ac.uk/news-events/2014/June/ pr583836.html (accessed: 20.11.2023).
тично отличить машину от собеседника человека [2; 3].
По данным сервиса журналистских запросов Pressfeed, 66 % журналистов и экспертов в области журналистики прибегают к помощи нейросетей. Опрос проводился среди пользователей сервиса. На данный момент им пользуются более 15000 журналистов. Наиболее частыми вариантом ответа были: использование нейросетей для создания иллюстраций, преобразования аудио в текст, подбора формулировок. При этом 13 % опрошенных не отрицают, что в перспективе нейросети могут заменить журналистов, пишущих короткие заметки2. По мнению исследователей, самый частый страх, с которым сталкиваются люди, - потеря работы, так как нейросети всё чаще замещают и упрощают человеческий труд, а потому массовое увольнение сотрудников становится настоящей проблемой. Немаловажным аспектом являются и области правовых отношений. Так, А.С. Кулаков отмечает, что без закрепления законодательных норм процесс выявления истинного владельца генеративного продукта может значительно осложняться [4].
В своём исследовании Г. Аннаев и Г. Ан-наева утверждают, что сегодня нейросети различных типов используются для создания автономных автомобилей, смарт-домов, персонализированных рекомендательных систем, медицинских диагностических инструментов и мн. др. [5]. Наиболее стремительное распространение нейронных сетей, конечно, произошло из-за возможности генерирования любых текстов и изображений, чем активно сейчас пользуются энтузиасты, журналисты и IT-специалисты. Умение нейронных сетей обучаться на больших объёмах данных и выявлять сложные паттерны и зависимости в тексте сделало их удобным инструментом для различного рода задач.
Однако в случае генерации текста структурные и филологические особенности ста-
2 48 % экспертов СМИ и 66 % журналистов используют нейросети при подготовке материалов для СМИ // Pressfeed.ru. 2023. 18 июля. URL: https://pressfeed.ru/releases/7363 (дата обращения: 20.11.2023).
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
новятся важными аспектами для изучения. Вопросы о синтаксической правильности, семантической связности и стилистической уникальности сгенерированных текстов становятся актуальными и требуют более глубокого анализа.
Одной из сложнейших задач является исправления ошибок в тексте. Скорректированный текст должен быть удобочитаем и понятен человеку. Автоматизированное детектирование ошибок и их исправление -важная часть работы систем. Современные модели обучены на большом объёме данных, но работа с русским языком до сих пор является сложной задачей. Необходимо, чтобы в том или ином виде учитывались вероятности различных перестановок, замен, вставок и удалений, иногда в зависимости от контекста, а также фонетические ограничения на начало слова, конец слова, сочетания согласных и гласных, характерные для каждого конкретного языка. В противном случае высока вероятность неэффективности предлагаемого метода. На сегодняшний день для решения этой задачи используют новейшие вычислительные методы, что в первую очередь связано с ростом вычислительных мощностей и доступностью большого объёма текстовых данных [6]. Е.Б. Курганова в своём исследовании отмечает, что и в PR-сфере специалисты сталкиваются с «фантазиями» (ошибочными утверждениями) нейронных сетей, когда компьютер не в состоянии сформулировать чёткий ответ или не обладает полными знаниями по тематике запроса. Сгенерированные тексты требуют проведения дополнительных проверок - фактчекинга. Это является одной из многочисленных проблем современных сетей и создаёт дополнительную нагрузку в работе специалистов [7].
МАТЕРИАЛЫ И МЕТОДЫ
В настоящей работе фокус исследования сосредоточен именно на структурных и филологических особенностях текстовых генеративных нейронных сетей, их преимуществах и ограничениях. Кроме того, необходимо рассмотреть методы структурного и филоло-
гического процесса генерации текстов для более глубокого анализа.
Проанализировав структуру текстов, возможно лучше понять возможности и технические ограничения, которые возникают при работе с генеративными нейронными сетями. Благодаря такому анализу создаются более точные и эффективные шаблоны запросов, которые способствуют увеличению эффективности работы с генеративными нейронными сетями в сфере журналистики и медиакоммуникаций. Действительно ли ней-росети достаточно умны и способны генерировать уникальный контент без привязки к каким-либо событиям и ключевым фразам?
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
1. Выборка генеративных нейросетей и формулировка вопросов. Исследование проводилось на протяжении нескольких месяцев: сентябрь-декабрь 2023 г.
Для работы было выбрано три нейросе-ти: ChatGPT, GigaChat и YandexGPT.
ChatGPT - чат-бот, разработанный компанией OpenAI и действующий в диалоговом режиме. Бот способен работать на нескольких собственных моделях (GPT 3.5, GPT 3.5-Large, GPT4) с большим количеством языков и понимать их синтаксис и семантику, включая русский, английский, китайский и другие языки. В данном исследовании используется модель GPT 3.5 [1].
GigaChat - сервис от компании Сбер, который взаимодействует с пользователем в формате диалога3. Способен работать на русском и английском языке. В основе GigaChat лежит совокупность нейронных моделей Neonka, а именно GPT 3.5, Kandinsky 2.2, ruCLIP и FRED-T5. GigaChat учится во время взаимодействия с пользователем и учитывает оценки своих ответов. При обучении модели оценке использовались диалоговые метрики безопасности, достоверности, грамотности и интересности.
YandexGPT - это нейросеть от компании Yandex, которая умеет решать задачи, свя-
3 Бесплатная нейросетевая модель «GigaChat». URL: https://developers.sber.ru/gigachat/ (дата обращения: 21.11.2023).
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
занные с созданием текстового контента. Нейросеть генерирует описание товаров, статьи, новости, информационные рассылки, посты для блога и многое другое. Качество ответа нейросети напрямую зависит от точности переданной ей инструкции: чем точнее будет описан запрос, тем выше вероятность получить более качественный и ожидаемый результат. На данный момент нейросеть может работать в двух режимах: промт и чат. В первом случае не учитывается контекст предыдущих сообщений, и каждое задание воспринимается, как самостоятельная инструкция. Второй режим близок к методу работы ChatGPT, когда каждое последующее задание воспринимается в контексте всего диалога4.
Все нейросети могут отвечать на вопросы и генерировать тексты по ключевым словам. Для обработки и структурирования информации нейросети используют собственные методы обработки естественного языка (Natural Language Processing, NLP) и алгоритмы глубокого обучения. Каждая из сетей имеет собственную модель, а соответственно, мы получим совершенно различные результаты по одному и тому же запросу.
Для понимания принципов работы всем нейросетям был предложен следующий вопрос.
«Как ты обрабатываешь и структурируешь информацию, чтобы предоставить свои ответы?»
ChatGPT:
«Для обработки и структурирования информации я использую методы обработки естественного языка (Natural Language Processing, NLP) и алгоритмы глубокого обучения. Когда мне задают вопрос, я анализирую его синтаксис, семантику и контекст, чтобы понять суть и предоставить наиболее подходящий ответ».
GigaChat:
«Когда пользователь задаёт вопрос, я сначала проверяю его корректность с помощью правил грамматики и синтаксиса русского языка. Если запрос некорректен, я пы-
4 Бесплатная нейросетевая модель «YandexGPT». URL: https://ya.ru/gpt/2/ (дата обращения 21.11.2023).
таюсь объяснить это пользователю и предложить альтернативный вариант ответа.
В целом, моя цель заключается в том, чтобы предоставлять точные и полезные ответы на запросы пользователей максимально быстро и эффективно».
YandexGPT:
«Я использую нейронные сети для обработки и структурирования информации. Мои ответы основаны на анализе большого количества данных и использовании алгоритмов машинного обучения».
Как видно по результатам, которые предоставили исследуемые нейросети, наиболее развёрнутый ответ дали ChatGPT и GigaChat. YandexGPT привёл лишь общий ответ без уточнений. ChatGPT и GigaChat указали, что при подготовке ответа они опираются не только на анализ данных, но также учитывают грамматические, орфографические и другие особенности языка. Однако все ответы были грамматически правильными. Предложения построены без ошибок и явных повторений. Правильно используются специализированные термины (нейронные сети, алгоритмы машинного обучения). Несмотря на различия в ответах, нейросети верно понимают суть запроса и описанный в запросе контекст. Ответ на запрос в сентябре и декабре идентичен.
Следующим шагом исследования стал анализ структуры ответов. Для этого ботам было предложено создать новость для информационного ресурса на базе описанных условий. За основу запроса была взята новость от 16 июня 2023 г. с новостного портала rbc.ru о лизинге группой «Аэрофлот» двух самолётов Boeing и присвоении им имён основателя ЛДПР В.В. Жириновского и поэта Г.Р. Державина.
Для формирования новости при помощи нейросети были выделены ключевые словосочетания: самолёт Boeing, назвать в честь, Владимир Жириновский, Гавриил Державин.
Исследование от сентября 2023 г.:
Запрос: «Составь новость для новостного портала о том, что будут названы самолеты Boeing компании Аэрофлот в честь
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
Владимира Жириновского и Гавриила Державина».
Результат ChatGPT: «Конечно! Вот новость для новостного портала. Приготовьтесь к взлёту с новыми именами! Национальная авиакомпания России, Аэрофлот, объявляет о том, что самолёты Boeing, принадлежащие компании, будут названы в честь двух выдающихся личностей - Владимира Жириновского и Гавриила Державина.
На протяжении многих лет Владимир Жириновский был одной из самых ярких и разносторонних фигур в российской политике. Его смелость, решительность и патриотические убеждения вдохновили Аэрофлот назвать один из своих самолётов его именем. Это будет знаком отечественного гражданства и силы, который будет летать по небу, несущий на борту пассажиров все эти красивые качества.
Гавриил Державин, великий русский поэт и дипломат 18 века, был известен своими глубокими размышлениями о России, её культуре и прославлении национальной идеи. Назвав самолёт в честь Гавриила Державина, Аэрофлот хочет привнести в каждое полётное путешествие дух культуры, творчества и великого прошлого нашей страны.
Точные детали и даты надписей на самолётах с именами Владимира Жириновского и Гавриила Державина будут объявлены в ближайшее время. Однако, уже сейчас можно сказать, что эта новость привнесёт дополнительную эмоциональную значимость и гордость нашей национальной авиакомпании. Имена двух выдающихся личностей будут пронесены над каждым облаком и будут напоминать о том, что Россия имеет богатое наследие и продолжает продвигаться вперёд.
Этот шаг Аэрофлота подчёркивает его приверженность культуре и истории России, а также создаёт эксклюзивные и запоминающиеся переживания для пассажиров. Мы с нетерпением ждём возможности увидеть эти самолёты в небе, летящими под флагами Владимира Жириновского и Гавриила Державина. Безусловно, это будет очень впечатляющая и беспрецедентная достопримечательность в мире авиации.
Итак, включайтесь в ребрендинг и взгляните с высоты на Россию и её великих деятелей, когда вы летите на борту этих впечатляющих самолётов Boeing Аэрофлота. Россия гордится своими легендами -Владимиром Жириновским и Гавриилом Державиным, и теперь их имена будут летать с Аэрофлотом».
На основании полученного ответа можно сделать вывод о том, что ChatGPT успешно справился с поставленной задачей. Результат соответствует поставленному запросу. В тексте есть заголовок, лид, основная часть и бэкграунд, которые являются основной структурой новостного текста. При создании текста нейросеть привнесла в него эмоциональную окраску посредством завлекающего заголовка, концовки, которая обращена к читателям, и т. д. Однако в тексте есть незначительные грамматические и орфографические ошибки, а также ошибки в согласовании слов в предложении.
Кроме того, в запросе не было развёрнутого описания того, кем были люди, в честь которых названы самолёты. Соответственно, можно сделать вывод, что нейросеть самостоятельно составила описание личностей только на основе их имён и фамилий. Как видно из результата, нейросеть смогла достаточно точно это сделать.
GigaChat и YandexGPT отказались формировать новость с упоминанием известных личностей, однако, если изменить часть запроса и заменить имена на вымышленные, новость формируется, но с искажённым смыслом.
Результат GigaChat: «Компания Аэрофлот объявила о запуске новой программы по присвоению имён своих самолётов великим людям. В рамках этой программы самолёты Boeing 777-300ER будут названы именами выдающихся личностей мировой истории.
Первым самолётом, названным в честь Ивана Ивановича, стал лайнер, который уже готовится к первому полёту. Он будет выполнять рейсы из Москвы в Санкт-Петербург. Следующим шагом станет присвоение имён великих русских писателей другим самолётам компании Аэрофлот.
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
Кроме того, компания также планирует присвоить имена великих учёных, композиторов и художников другим своим самолётам. Это позволит пассажирам получать доступ к культурному наследию России и расширять свой кругозор.
Новая программа по присвоению имён самолётов великим людям является частью стратегии компании Аэрофлот по сохранению культурного наследия страны и повышению её имиджа на международной арене».
Как можно видеть, нейросеть добавила уточняющие обстоятельства по имени человека, в честь которого будет назван самолёт, но придумала его самостоятельно и также добавила маршрут, по которому будет летать самолёт, хотя в изначальном запросе такой информации не было. В тексте присутствуют незначительные грамматические и орфографические ошибки, встречается тавтология, нет чёткой структуры, а абзацы повторяют одну и ту же мысль, но разными словами.
Результат YandexGPT: «Компания Аэрофлот объявила о присвоении имён известных учёных Ивана Ивановича и Петра Петровича двум новым самолётам Boeing 777. Такое решение было принято руководством компании в рамках программы по увековечиванию памяти выдающихся людей России.
Иван Иванович и Пётр Петрович являются известными учёными в области физики и математики. Они внесли значительный вклад в развитие науки и техники, а также в создание новых технологий. Присвоение их имён самолётам будет служить напоминанием о их достижениях и вкладе в развитие мировой науки.
Компания Аэрофлот надеется, что присвоение имён учёных самолётам поможет привлечь внимание молодежи к науке и технологиям, а также повысить интерес к авиаперелетам».
Нейросеть предоставила имена и сферу деятельности для личностей, в честь которых назван самолёт. Но так же, как и с GigaChat, отсутствует структура новостного текста, есть незначительные грамматические и орфографические ошибки, но зато имеется эмоционально окрашенная концовка.
Из первого исследования можно сделать вывод о том, что GigaChat и YandexGPT не могут создавать новостной текст по конкретному запросу, однако, они могут додумать обстоятельства и сформировать текст. В свою очередь ChatGPT смог не только создать текст по конкретному именному запросу, но и добавил информацию, которая соответствует действительности и не была указана в изначальном запросе. Однако во всех текстах присутствуют незначительные грамматические и орфографические ошибки.
В ноябре 2023 г. YandexGPT смог составить текст с оригинальным запросом и именами.
«(Аэрофлоте планируют назвать два самолёта Boeing в честь выдающихся деятелей России - Владимира Жириновского и Гавриила Державина. Об этом сообщили в пресс-службе авиакомпании.
Решение о присвоении имён известных личностей воздушным судам было принято в рамках проекта «Великие имена России». Это инициатива Общероссийского народного фронта, целью которой является присвоение аэропортам России имён великих соотечественников.
Владимир Жириновский - известный политик, лидер партии ЛДПР и человек, внёсший большой вклад в развитие российской политики. Гавриил Державин - поэт, государственный деятель и первый министр юстиции Российской империи. Его творчество оказало огромное влияние на развитие русской литературы.
Таким образом, «Аэрофлот» продолжает традицию присвоения имена выдающихся людей самолётам авиакомпании. Ранее воздушные суда были названы в честь Александра Пушкина, Петра Чайковского, Юрия Гагарина и других великих россиян».
Текст содержит небольшое количество грамматических и смысловых ошибок. Информацию для формирования запроса Yan-dexGPT взял из открытых источников. Так, проект «Великие имена России»5 нацелен на
5 Общенациональный конкурс «Великие имена России» // Российское историческое общество. URL: https: //historyrussia. org/proekty/obshchenatsionalnyj -
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
присваивание имён аэропортам, о чём сеть упоминает в своём тексте, но инициатива не имеет отношения к присваиванию имён самолётам. В последнем предложении более применимо слово «русских» вместо «россиян», так как представленные великие люди из разных эпох.
Запрос был повторён в декабре, но не дал результатов. GigaChat и YandexGPT снова отказывались беседовать на подобные темы.
2. Исследование сервисов на знание правил грамматики. Несмотря на то, что при генерации собственного текста все три исследуемые нейросети выдают результат с незначительными грамматическими и орфографическими ошибками, следующим этапом их изучения становится анализ представленного текста на умение находить и исправлять уже допущенные ошибки. Для анализа сервисам был предложен следующий текст: «В 2023 гаду Учёный савет вуза ут-вирдил новые меры паддержки для талант-ливай маладежи. Так, первакурсники, на-бравшии по ризультатам ЕГЭ 100 баллаф по аднаму или нескальким предметам, в тиче-нии первава семестра будут палучать ежемесячно по 10 тысяч рублей».
Результат GigaChat: «В 2023 году Учёный совет вуза утвердил новые меры поддержки для талантливой молодёжи. Так, первокурсники, набравшие по результатам ЕГЭ 100 баллов по одному или нескольким предметам, в течение первого семестра будут получать ежемесячно по 10 тысяч рублей».
Результат ChatGPT: «В 2023 году Учёный совет вуза утвердил новые меры поддержки для талантливой молодёжи. Так, первокурсники, набравшие по результатам ЕГЭ 100 баллов по одному или нескольким предметам, в течение первого семестра будут получать ежемесячно по 10 тысяч рублей».
Результат YandexGPT: «В 2023 году Учёный совет вуза утвердил новые меры поддержки для талантливой молодёжи. Так, первокурсники, набравшие по результатам ЕГЭ 100 баллов по одному или нескольким предметам, в течение первого семестра бу-
konkurs-velikie-imena-rossii.html (дата обращения: 02.12.2023).
дут получать ежемесячно по 10 тысяч рублей».
Из полученных результатов можно сделать вывод, что все три нейросети смогли определить и исправить орфографические ошибки в тексте.
Стоит отметить, что GigaChat и Yan-dexGPT также отказывались выдавать результаты, если в тексте встречалось большое количество ошибок или слова, связанные с военными действиями, известными личностями или событиями.
3. Исследование нейросетей на способность генерировать уникальный рекламный контент. Для анализа способности генерировать уникальный контент сервисам было предложено придумать рекламу фотоаппарата.
Результат ChatGPT: «Хорошо! Сгенерировал рекламу для фотоаппарата: Погрузись в мир фотографии с новым фотоаппаратом VisionCapture! Этот инновационный фотоаппарат позволит тебе запечатлеть незабываемые моменты и создавать произведения искусства.
С его высококачественным объективом и передовыми технологиями, ты сможешь снимать яркие и чёткие изображения даже в сложных условиях освещения. Большой дисплей с высоким разрешением позволит тебе просматривать и настраивать снимки, а многофункциональные режимы позволят экспериментировать с различными стилями и эффектами.
Создай свою историю с VisionCapture! Запечатли волнение на спортивных событиях, магию природы, важные семейные моменты или свершения в мире искусства. Будь творцом и делай снимки, которые оставят след в сердцах и воспоминаниях.
VisionCapture - фотоаппарат, который поможет воплотить твои самые яркие моменты в жизни. Переживай и запечатливай каждый миг с ним!».
Нейросеть ChatGPT придумала название изделия, описала его преимущества, прописала реплики, которые придают эмоциональную окраску рекламе: «яркие снимки, которые оставят след в сердцах и воспоминаниях», «создать произведения искусства». Так-
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ТББК 2587-6953 (Print), ЙБЫ 2782-5868 (Online) Ш https://neophilology.elpub.ru
же нейросеть предложила вариант слогана. Однако присутствуют незначительные грамматические ошибки, не указана стоимость изделия и технические характеристики, но это не являлось обязательным требованием и не указывалось в запросе. Можно сделать вывод, что нейросеть смогла сгенерировать продающий текст для фотоаппарата.
Результат GigaChat: «Вы хотите сделать красивые фотографии? Тогда вам нужен фотоаппарат! Наш новый цифровой зеркальный фотоаппарат сделает любые ваши снимки незабываемыми. С его помощью можно легко запечатлеть самые яркие моменты жизни, а также создавать профессиональные портреты.
Наш фотоаппарат имеет множество функций, которые позволяют делать качественные снимки даже в условиях низкой освещённости. Кроме того, он очень удобен в использовании благодаря интуитивно понятному интерфейсу.
Купив наш новый цифровой зеркальный фотоаппарат, вы получите не только отличные фотографии, но и массу удовольствия от процесса съёмки. Ведь мы гарантируем высокое качество снимков и быструю обработку фотографий.
Не откладывайте покупку на потом -сделайте свою жизнь ярче с нашим новым цифровым зеркальным фотоаппаратом!»
В данном тексте нейросеть приводит преимущества фотоаппарата, но не указывает точные характеристики. В основе текста лежит эмоциональная составляющая, которая направлена на привлечение внимания покупателя: красивые кадры, качественное изображение, возможность запечатлеть яркие моменты. В тексте также присутствуют грамматические и орфографические ошибки.
Результат YandexGPT: «Если вы ищете идеальный фотоаппарат для съёмки незабываемых моментов, обратите внимание на нашу новинку! Благодаря инновационным технологиям и высококачественной оптике, наш фотоаппарат обеспечивает яркие и чёткие снимки при любых условиях освещения.
Но это ещё не всё! В нашем фотоаппарате также предусмотрена функция стабилизации изображения, которая позволяет
получать чёткие и несмазанные снимки даже при съёмке с рук. А благодаря компактному дизайну и лёгкому весу, вы сможете взять фотоаппарат с собой куда угодно и запечатлеть все самые яркие моменты вашей жизни.
Не откладывайте на завтра то, что можно снять на наш новый фотоаппарат уже сегодня!».
YandexGPT не предложил конкретных характеристик, но смог описать общие сведения о фотоаппарате, которые помогут пользователям создавать качественные снимки. В тексте присутствует эмоциональная окраска посредством таких фраз, как «если вы ищете идеальный фотоаппарат для съёмки незабываемых моментов», «фотоаппарат обеспечивает яркие и чёткие снимки при любых условиях освещения». Нейросеть предложила слоган: «Не откладывайте на завтра то, что можно снять на наш новый фотоаппарат уже сегодня!».
При анализе ответов можно сделать вывод, что все они имеют одинаковые по смыслу фразы или выражения. Наиболее часто говорится о том, что фотоаппарат поможет запечатлеть яркие моменты жизни, преимущества фотоаппарата заключаются в возможности снимать в плохих условиях. Акцентируется хорошее качество снимков при любых условиях. ChatGPT и YandexGPT смогли предложить слоган для продукта, а ChatGPT - и название фотоаппарата.
4. Анализ формирования тестирования при помощи нейросетей. Для анализа умения формировать тесты на различную тематику нейросетям было предложено создать тест с вариантами ответов на тему «Как искусственный интеллект применяется в журналистике ?
Результат ChatGPT: «Вопрос 1: как искусственный интеллект применяется в журналистике?
a) автоматическое написание новостей
b) определение достоверности информации
c) оптимизация процесса редактирования
d) всё вышеперечисленное
Ответ: d) всё вышеперечисленное
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
Вопрос 2: Какой приём/инструмент искусственного интеллекта используется для автоматического написания новостей?
a) генерация текста
b) распознавание речи ^ машинное обучение
d) анализ больших данных Ответ: a) генерация текста Вопрос 3: Как искусственный интеллект помогает определить достоверность информации в журналистике?
a) анализирует источники информации и проверяет их достоверность
b) использует алгоритмы для оценки фактической точности новостей
^ идентифицирует поддельные новости и манипуляции информацией d) всё вышеперечисленное Ответ: d) всё вышеперечисленное Вопрос 4: Как искусственный интеллект оптимизирует процесс редактирования в журналистике?
a) помогает исправить орфографические и грамматические ошибки
b) автоматически проверяет на плагиат ^ анализирует стиль и согласованность
текста
d) всё вышеперечисленное Ответ: d) всё вышеперечисленное» Результат GigaChat:
«1. Какие преимущества искусственного интеллекта могут быть использованы в журналистике?
a) увеличение точности анализа новостей
b) создание более эффективных алгоритмов поиска информации
^ расширение возможностей машинного обучения для создания контента
d) обучение журналистов использованию новых технологий
2. Каковы основные проблемы, связанные с использованием искусственного интеллекта в журналистике?
a) ограничения доступности данных
b) недостаточное понимание этических последствий использования ИИ
^ проблемы с конфиденциальностью данных
d) сложности в интерпретации результатов работы ИИ
3. Что такое нейронная сеть и как она может использоваться в журналистике?
a) модель для автоматического извлечения ключевых слов из текста
b) способ для автоматической классификации новостей
^ модель для автоматического создания заголовков
d) способ для автоматического написания статей
4. Какой подход используется при создании новостей с использованием ИИ?
a) использование алгоритмов машинного обучения для анализа больших объёмов данных
b) создание новостей на основе предварительно обученной модели
^ создание новостей на основе предсказанных результатов работы ии
d) создание новостей на основе интервью с экспертами
5. Каковы преимущества использования ИИ в журналистике по сравнению со старыми методами?
a) большая точность анализа новостей
b) большая скорость обработки новостей
^ большая эффективность создания контента
d) большая доступность данных для журналистов»
К сожалению, GigaChat не выдал ответы к заданному тесту, хотя таковая информация уточнялась в тексте запроса. Даже через дополнительный запрос получить варианты ответов не представилось возможным. Результат дополнительного запроса: «1. Нейронная сеть - это математическая модель, которая имитирует работу человеческого мозга. Она состоит из множества связанных между собой узлов (нейронов), каждый из которых обрабатывает входную информацию и передаёт результаты дальше.
2. Нейронная сеть может использоваться для решения различных задач, таких как классификация изображений, распознавание речи, прогнозирование цен на акции и т. Д.
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
3. Искусственный интеллект может использоваться для создания новостных материалов путём анализа больших объёмов данных и выявления закономерностей.
4. Для создания новостных материалов с использованием искусственного интеллекта используются различные методы, такие как машинное обучение, глубокое обучение и ней-росети.
5. Преимущества использования искусственного интеллекта в журналистике включают большую точность анализа новостей, возможность создания новостного материала на основе заранее подготовленной модели, ускорение процесса создания контента и повышение эффективности работы журналиста».
Результат YandexGPT:
«1. Что такое искусственный интеллект?
a) программа, способная обучаться и принимать решения на основе данных
b) компьютер, способный выполнять задачи, требующие человеческого интеллекта
c) технология, позволяющая создавать человекоподобных роботов
d) способность компьютера имитировать человеческое мышление
2. Какие возможности предоставляет искусственный интеллект для журналистики?
a) улучшение качества контента и ускорение процесса создания статей
b) более эффективное использование ресурсов и времени журналистов
c) автоматизация рутинных задач и анализ больших объёмов данных
d) всё вышеперечисленное
3. Как искусственный интеллект может помочь в анализе данных?
a) предоставлять информацию о предпочтениях аудитории и трендах в социальных сетях
b) анализировать большие объёмы данных для выявления закономерностей и тенденций
c) помогать в создании персонализированного контента для пользователей
d) всё вышеперечисленное
Ответы
1. d) способность компьютера имитировать человеческое мышление
2. d) всё вышеперечисленное
3. d) всё вышеперечисленное»
Из представленной информации можно сделать некоторые выводы. Наиболее удачно с задачей справились ChatGPT и YandexGPT. Обе нейросети предоставили тест с четырьмя вариантами ответов для каждого вопроса. ChatGPT генерирует от пяти различных вопросов, если не указать в запросе необходимое количество. YandexGPT ограничивается всего лишь тремя вопросами с вариантами ответов. По структуре обе нейросети отличаются лишь расположением вариантов ответов на вопросы. YandexGPT дает ответы в конце теста, что может быть удобно при копировании теста на различные носители. ChatGPT, в свою очередь, располагает ответы после каждого вопроса. Изменить данную схему можно в дополнительной инструкции в запросе. GigaChat может правильно генерировать только вопросы к тестовому заданию. Ответы могут предоставляться как набор текста или с неправильными вариантами ответов или нумерацией вопроса.
ЗАКЛЮЧЕНИЕ
На основе полученной информации можно сделать вывод о том, что ChatGPT имеет более широкие возможности для генерации и редактирования текстов. Благодаря отсутствию ограничений, нейросеть может адаптироваться под ключевые слова и запросы. Наиболее часто сервис использует вводные конструкции для формирования начала ответа, например: «Конечно!», «Хороший вопрос!», или «Интересный вопрос!» Для первого абзаца определяется основной аспект или идея вопроса и предоставляется краткий, но содержательный ответ на него. Это помогает структурировать ответ на запрос. В следующих абзацах нейросеть расширяет и детализирует ответ, примеры или аргументы, чтобы поддержать свою точку зрения или объяснение. Чтобы обеспечить гармоничность и связность в ответе, используют переходные слова или фразы, такие как «кроме того», «в более общем смысле» или
Неофилология / Neofilologiya = Neophilology Ш 2024;10(2):452-464 ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
«помимо этого». Они помогают связать идеи и обеспечить плавность перехода между абзацами. В последнем абзаце подводится итог вопросу и ответу, а также может быть предложено дополнительное вступление к другим аспектам или последующим вопросам. Структура формируется таким образом, чтобы быть логичной и понятной пользователю.
Для GigaChat свойственна аналогичная структура, так как основой нейросети является та же модель, что используется в ChatGPT. Отличием от последней является цензура и малообученность сервиса. Эти факторы сужают круг возможностей GigaChat и делают его пригодным лишь для небольшого списка задач: написание аннотаций, рекламы для соцсетей и новостей без использования имён.
YandexGPT для ответа на запросы использует поисковые системы. Если ответ уже
имеется на сайте, который индексируется Яндексом, нейросеть предложит именно его. В ином случае сервис постарается собрать различную информацию по запросу и предложит свой уникальный ответ. YandexGPT имеет ряд недостатков: цензура на известные или схожие имена и фамилии, недостаток в обучении и понимании контекста, а также не понимание предложений с большим количеством ошибок.
У всех трёх сервисов есть свои положительные и отрицательные стороны. На данный момент лидером по генерации и обработке текстов является ChatGPT за счёт широкого спектра возможностей и стабильности выдачи ответов на запросы, но в связи с наличием большого количества информации в сети Интернет ситуация может измениться в ближайшее время.
Список источников
1. Зашихина И.М. Подготовка научной статьи: справится ли ChatGPT? // Высшее образование в России. 2023. Т. 32. № 8-9. С. 24-47. https://doi.org/10.31992/0869-3617-2023-32-8-9-24-47, https://elibrary.ru/jpfyuj
2. O'Leary D. GOOGLE'S Duplex: Pretending to be human // Intelligent Systems in Accounting, Finance and Management. 2019. Vol. 26. Issue 1. P. 46-53. https://doi.org/10.1002/isaf.1443
3. Jones C, Bergen B. Does GPT-4 Pass the Turing Test? // arXiv. 2023. P. 1-25. https://doi.org/10.48550/arXiv.2310.20216
4. Кулаков А.С. О интеллектуальных правах на результат деятельности нейросети // Скиф. Вопросы студенческой науки. 2023. № 4 (80). С. 194-197. https://elibrary.ru/cfngsd
5. Аннаев Г., Аннаева Г. Прикладные возможности нейронной сети // Символ науки: международный научный журнал. 2023. № 4-1. С. 22-24. https://elibrary.ru/cprxjq
6. Ермоленко Т.В. Классификация ошибок в тексте на основе глубокого обучения // Проблемы искусственного интеллекта. 2019. № 3 (14). С. 47-57. https://elibrary.ru/jaesss
7. Курганова Е.Б. Коммуникаторы vs нейросети: перспективы и вызовы // Журналистика в эпоху цифровых трансформаций: ценности и практики: c6. материалов 11 Междунар. науч.-практ. конф. Тамбов: Изд. дом «Державинский», 2023. С. 284-289.
References
1. Zashikhina I.M. Scientific article writing: will ChatGPT help? Vysshee obrazovanie v Rossii = Higher Education in Russia, 2023, vol. 32, no. 8-9, pp. 24-47. (In Russ.) https://doi.org/10.31992/0869-3617-2023-32-8-9-24-47, https://elibrary.ru/jpfyuj
2. O'Leary D. GOOGLE'S Duplex: Pretending to be human. Intelligent Systems in Accounting, Finance and Management, 2019, vol. 26, issue 1, pp. 46-53. https://doi.org/10.1002/isaf.1443
3. Jones C., Bergen B. Does GPT-4 Pass the Turing Test? arXiv, 2023, pp. 1-25. https://doi.org/10.48550/arXiv.2310.20216
4. Kulakov A.S. About intellectual rights to the result of neural network activity. Skif. Voprosy studencheskoi nauki = Sciff. Questions of Students Science, 2023, no. 4 (80), pp. 194-197. (In Russ.) https://elibrary.ru/cfngsd
2024;10(2):452-464 Ш Неофилология / Neofilologiya = Neophilology
ISSN 2587-6953 (Print), ISSN 2782-5868 (Online) Ш https://neophilology.elpub.ru
5. Annaev G., Annaeva G. Prikladnye vozmozhnosti neironnoy seti [Applications of Neural Network]. Simvol nauki: mezhdunarodnyi nauchnyi zhurnal = Symbol of Science: International Scientific Journal, 2023, no. 4-1, pp. 22-24. (In Russ.) https://elibrary.ru/cprxjq
6. Ermolenko T.V. Classification of errors in the text based on deep learning. Problemy iskusstvennogo intel-lekta = Problems of Artificial Intelligence, 2019, no. 3 (14), pp. 47-57. (In Russ.) https://elibrary.ru/jaesss
7. Kurganova E.B. Kommunikatory vs neiroseti: perspektivy i vyzovy [Communicators vs neural networks: prospects and challenges]. Sbornik materialov 11 Mezhdunarodnoi nauchno-prakticheskoi konferentsii «Zhurnalistika v epokhu tsifrovykh transformatsii: tsennosti i praktiki» [Proceedings of the 11th International Scientific and Practical Conference "Journalism in the Era of Digital Transformation: Values and Practices"]. Tambov, "Derzhavinskii" Publishing House, 2023, pp. 284-289. (In Russ.)
Информация об авторе
МАЛЬЦЕВ Никита Дмитриевич, аспирант, ассистент кафедры журналистики, рекламы и связей с общественностью, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, https://orcid.org/0000-0003-0628-2486, [email protected]
Вклад в статью: общая концепция исследования, сбор, систематизация и анализ фактического материала, разработка методологии исследования, разработка теста, анализ обработки данных нейросетями, написание текста статьи.
Поступила в редакцию 15.12.2023 Поступила после рецензирования 04.04.2024 Принята к публикации 19.04.2024
Information about the author
Nikita D. Maltsev, Post-Graduate Student, Assistant of Journalism, Advertising and Public Relations Department, Derzhavin Tambov State University, Tambov, Russian Federation, https://orcid.org/0000-0003-0628-2486, [email protected]
Contribution: main study conception, factual material collection, systematization and analysis, research methodology development, test development, analysis of data processing by neural networks, manuscript text drafting.
Received December 15, 2023 Revised April 4, 2024 Accepted April 19, 2024