Научная статья на тему 'ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ'

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
тональность текста / анализатор / нейронная сеть / машинное обучение / интеллектуальная система / text tonality / analyzer / neural network / machine learning / intelligent system

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бобрышев Р.В.

В статье представлены результаты разработки интеллектуального анализатора тональности отзывов. Описана методика и результаты выбора ИНС для решения поставленной задачи. Пять нейросетевых моделей разработаны и обучены распознаванию тональности отзыва. Выполнена сравнительная оценка качества распознавания обученных моделей. На основе обученных нейросетевых моделей разработан интеллектуальный анализатор.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бобрышев Р.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLIGENT FEEDBACK SENTIMENT ANALYZER

The article presents the results of the development of an intelligent feedback sentiment analyzer. The methodology and results of the choice of INS for solving the task are described. Five neural network models have been developed and trained to recognize the tone of a review. A comparative assessment of the recognition quality of trained models was performed. An intelligent analyzer has been developed based on trained neural network models.

Текст научной работы на тему «ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ»

УДК 004

Бобрышев Р.В.

студент 3 курса Российский университет транспорта (МИИТ) (г. Москва, Россия)

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ

Аннотация: в статье представлены результаты разработки интеллектуального анализатора тональности отзывов. Описана методика и результаты выбора ИНС для решения поставленной задачи. Пять нейросетевых моделей разработаны и обучены распознаванию тональности отзыва. Выполнена сравнительная оценка качества распознавания обученных моделей. На основе обученных нейросетевых моделей разработан интеллектуальный анализатор.

Ключевые слова: тональность текста, анализатор, нейронная сеть, машинное обучение, интеллектуальная система.

Независимая автоматическая оценка тональности отзывов при изучении качества продукции — это актуальная проблема в сфере обработки естественного языка. Существует необходимость в эффективных методах и инструментах для распознавания тональности текстов, поскольку это позволяет как анализировать общественное мнение относительно какого-то продукта, так и сокращать время обработки большого количества информации.

Однако, анализ тональности текстов представляет собой сложную задачу из-за неоднозначности естественного языка, наличия иронии, сарказма, метафор и других лингвистических особенностей. Таким образом, существует потребность в разработке и совершенствовании методов и алгоритмов, способных точно определять эмоциональную окраску текстовых данных.

При разработке интеллектуального анализатора, технического решения для автоматического определения тональности текста, были решены следующие задачи:

Определен перечень слов, которые явно характеризуют тональность текста. Разработаны правила классификации текста по тональности.

Определены пять моделей ИНС с наилучшим качеством для распознавания.

Разработаны пять искусственных нейронных сетей для классификации тональности текста по заданным словам.

Разработано программное обеспечение (на основе обученных моделей и разработанных ИНС) для анализа тональности текста.

При разработке перечня слов (далее - словарь), которые явно характеризовали бы тональность текста, было проанализировано и отобрано свыше 700 слов. Быстро было замечено, что в словаре присутствуют группы слов, которые являются производными от одного корня или вариации одного слова с разными окончаниями. Например, «хороший - хорошенький - хорошая». Все три слова по своей сути несут одну и ту же тональную окраску текста. Тогда было принято решение о стемминге всего словаря, то есть оставить от слов только корни. В таком случае, прошлая последовательность слов сократится до одного «хорош». После преобразований окончательная версия словаря составила 310 слов.

При выборе моделей ИНС для поставленной задачи были рассмотрены 7 наиболее популярных: Bert, ruBert, resNet, FastText, Sequential, Functional Api, word2vec. А также было принято решение о внедрении в анализатор искусственного нейрона - простейшей части любой ИНС. Это решение было обосновано малой сложностью поставленной задачи с точки зрения математических вычислений.

Bert, ruBert - модели обработки естественного языка от Google. Обучены на огромном объеме текста. В особенности, модель ruBert была обучена только

на русском языке. Обе модели хорошо понимают контекст и строят семантические зависимости.

resNet (англ. residual Network - останочная сеть) - это глубокая нейронная сеть, разработанная для решения проблемы затухания градиента. Она использует концепцию «skip connections» или «residual connections», позволяющих передавать информацию непосредственно от одного слоя к другому, минуя промежуточные слои. Это позволяет обучать более глубокие сети с лучшей производительностью. Чаще всего модели типа resNet применяются для анализа изображений. Однако и для анализа текста они подходят.

FastText - это бесплатная библиотека с открытым исходным кодом, которая позволяет пользователям изучать текстовые представления и текстовые классификаторы. Она работает на стандартном, универсальном оборудовании. Впоследствии модели могут быть уменьшены в размерах, чтобы поместиться даже на мобильных устройствах.

Sequential - последовательная модель нейронной сети, где все слои идут один за другим и каждый выход текущего слоя связан с каждым выходом следующего слоя.

Functional API - модель, которая позволяет передавать данные между слоями непоследовательно. Более гибка к построению архитектуры, нежели Sequential. Однако, в меру своей гибкости так же и тонка в настройке. Требует понимания графов вычислений и большой внимательности.

Word2vec - это популярная модель обучения вложений слов, предложенная исследователями Google в 2013 году. Она позволяет преобразовать слова из корпуса текстов в векторы чисел таким образом, что слова с похожими семантическими значениями имеют близкие векторные представления в многомерном пространстве.

В последствии от моделей Bert, ruBert и resNet было принято решение отказаться. Bert и ruBert имеют очень большой объем данных внутри, который оказывается избыточным для задачи анализа тональности и лишь излишне нагрузит систему. Модель resNet проблематично настраивалась для решения

поставленной задачи и время, затраченное на настройку модели было слишком велико.

Перед началом обучения моделей были отобраны обучающая и проверяющая выборки. Обучающая выборка составила 1000 отзывов, а проверяющая - 200. Отзывы выбирались с однозначной тональностью, без шуток, сарказма, иронии и остального что могло бы мешать определению тональности.

В таблице 1 представлены результаты обучения выбранных ранее моделей ИНС. Все обучение проходило на одном и том же компьютере. Характеристики компьютера: видеокарта - RTX 4060ti, процессор - 12th Gen Intel(R) Core(TM) Í5-12400F 2.50 GHz.

Таблица 1. Результаты обучения выбранных моделей ИНС.

Модель Количество эпох Время обучения, с Точность на обучающей выборке Точность на проверяющей выборке

FastText 80 1-3 0,98 0,97

FunctionalApi 42 12-15 0,93 0,89

Искусственный нейрон 200 10-12 0,93 0,92

Word2Vec 100 8-12 0,91 0,91

Sequential 100 3-4 0,96 0,95

Ориентируясь на полученные результаты видно, что все пять моделей ИНС настроены хорошо и получаемая точность на обучающей выборке в среднем больше 0,9. Это предоставило нам возможность использовать все пять моделей при разработке интеллектуального анализатора.

Для принятия решения в интеллектуальной системе было реализовано голосование обученных моделей ИНС. Система принимала решение, за которое проголосовали, как минимум, три модели (рис. 1).

Рисунок 1. Принцип работы анализатора.

Разработка интеллектуальной системы выполнялась с использованием языка программирования Python, графический интерфейс - с использованием библиотеки flet. Хранение текстовых отзывов, используемых для обучения и последующего дообучения ИНС, было организовано в виде таблиц Excel. Система может принимать на вход как одиночный отзыв, введенный вручную, так и целый список отзывов, оформленный в виде таблицы Excel.

СПИСОК ЛИТЕРАТУРЫ:

1. Николенко С., Кадурин А., Архангельская Е. Н63 Глубокое обучение. — СПб.: Питер, 2018. — 480 с.: ил. — (Серия «Библиотека программиста»);

2. Волконский В.Ю. Безопасная реализация языков программирования на базе аппаратной и системной поддержки // Вопросы радиоэлектроники. 2008. Т. 4. № 2. С. 98-141;

3. Феннер, Марк. Машинное обучение с помощью Python для всех: руководство по созданию систем машинного обучения: от основ до мощных инструментов / Марк Феннер, [перевод с английского М. А. Райтмана]. — Москва: Эксмо, 2024. — 672 с;

4. fasttext [сайт]. URL: https://fasttext.cc (дата обращения: 13.03.2024);

5. The Sequential model [сайт]. URL: https://w.tensorflow.org/guide/keras/sequential_model (дата обращения: 13.03.2024);

6. The Functional API [сайт]. URL: https://w.tensorflow.org/guide/keras/functional_api (дата обращения: 24.04.2024)

Bobryshev R.V.

Russian University of Transport (MIIT) (Moscow, Russia)

INTELLIGENT FEEDBACK SENTIMENT ANALYZER

Abstract: the article presents the results of the development of an intelligent feedback sentiment analyzer. The methodology and results of the choice of INS for solving the task are described. Five neural network models have been developed and trained to recognize the tone of a review. A comparative assessment of the recognition quality of trained models was performed. An intelligent analyzer has been developed based on trained neural network models.

Keywords: text tonality, analyzer, neural network, machine learning, intelligent system.

i Надоели баннеры? Вы всегда можете отключить рекламу.