СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБУЧЕНИЯ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ

Нигматулин Г.А.

УДК 004.032.26

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБУЧЕНИЯ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ

Нигматулин Г.А., студент, направление подготовки 01.03.02 Прикладная математика и информатика, Оренбургский государственный университет, Оренбург e-mail: george_nigm@icloud.com

Научный руководитель: Болодурина И.П., доктор технических наук, профессор, заведующий кафедрой прикладной математики, Оренбургский государственный университет, Оренбург

Аннотация. В последнее время невероятную популярность в современном мире набирают технологии машинного обучения. Они заключаются в том, чтобы компьютер не просто использовал заранее написанный алгоритм, а сам обучался решению поставленной задачи. Одной из таких задач является задача классификации - процесс отнесения образца к одному из нескольких попарно не пересекающихся множеств. Примером является классификация рецензий, размещённых в базе данных о кинематографе. Программа, использующая такую технологию, изучает поступающие рецензии и определяет их тональность: является ли она положительной, либо отрицательной.

Ключевые слова: машинное обучение, классификация, рекуррентная нейронная сеть, алгоритм оптимизации, стохастический градиентный спуск.

COMPARATIVE ANALYSIS OF THE METHODS OF TRAINING RECURRENT NEURAL NETWORK

Nigmatulin G.A., student, training direction 01.03.02 Applied mathematics and computer science, Orenburg State

University, Orenburg

e-mail: george_nigm@icloud.com

Scientific adviser: Bolodurina I.P., Doctor of Technical Sciences, Professor, Head of the Department of Applied Mathematics, Orenburg State University, Orenburg

Abstract. Recently, the incredible popularity in the modern world are gaining machine learning technology. They consist in the fact that the computer does not just use a pre-written algorithm, but computer studied to solve the problem himself. One of these tasks is the task of classification - the process of assigning a sample to one of several pairwise non-intersecting sets. An example is the classification of reviews placed in the database of cinema. A program using this technology studies incoming reviews and determines their tone: whether it is positive or negative.

Keywords: machine learning, classification, recurrent neural network, optimization algorithm, stochastic gradient descent.

Для программной реализации классификатора рецензий возможно использование рекуррентной нейронной сети - подкласса нейронных сетей с обратными связями. В таком типе нейронной сети сигнал с выходных нейронов или нейронов скрытого слоя частично передается обратно на входы нейронов входного слоя. В общем случае задача классификации тональности рецензий с помощью рекуррентной нейронной сети сводится к следующей последовательности этапов:

1) сбор данных для обучения;

2) подготовка и нормализация данных;

3) выбор количества слоев (учитывается слой обратной связи рекуррентной нейронной сети);

4) обучение - настройка параметров сети, в основе которой лежит многоэкстремальная невы-

пуклая задача оптимизации функции ошибок;

5) проверка обучения на адекватность поставленной задаче;

6) окончательное обучение и сохранение нейронной сети.

При построении рекуррентной нейронной сети на входном слое будут расположены перцептроны фиксированного количества, в данном случае оно равно 80. Это означает, что отзывы будут приведены к длине 80 слов - слишком длинные сообщения будут укорочены, а короткие - дополнены пропусками. Далее следует скрытый слой, где реализована рекуррентная нейронная сеть, и в конце - выходной слой, представляющий из себя один перцептрон, который сигнализирует о том, что рецензия является положительной или отрицательной. Параметрами

ТЕХНИЧЕСКИЕ НАУКИ

нейронной сети будут являться количество эпох обучения, количество нейронов в скрытом слое и алгоритм оптимизации параметров нейронной сети.

В данной статье на практике рассмотрены пять различных конфигураций рекуррентных нейронных сетей, которые отличаются друг от друга алгоритмами оптимизации функции ошибок. Размеры обучающей и тестовой выборки составляют по 25000 записей каждая. Количество эпох, реализуемых при обучении нейронной сети - 5. Критериями, на основе которых делается вывод о качестве работы алгоритма, являются точность работы на тестовых данных и время обучения рекуррентной нейронной сети.

Наиболее популярный алгоритм оптимизации параметров нейронной сети - метод стохастического градиентного спуска SGD. Его правило пересчета:

где,

Точность работы нейронной сети при использовании SGD метода оптимизации по прошествии 5 эпох составляет 51.19%. Метод адаптивного градиента (AdaGrad) эффективно перемасштабирует шаг обучения для каждого параметра в отдельности, учитывая историю всех прошлых градиентов для этого параметра. Формула для пересчёта имеет вид:

в - параметры сети, З(в) - функция потерь в случае машинного обучения, ] - шаг обучения.

где

д - масштабируемый параметр, £ - сглаживающий параметр, необходимый, чтобы избежать деления на 0, /(в) - целевая функция потерь в случае машинного обучения. Точность работы рекуррентной нейронной сети при использовании AdaGrad метода оптимизации составляет 84.10%.

Метод адаптивного скользящего среднего градиентов (RMSProp) отличается от Adagrad тем, что параметр д - экспоненциальное скользящее среднее вместо кумулятивной суммы. Правило пересчета:

Bt+1 Y9t + (1 гШЖУ, et+1 6t

v X УШ) -Jet+1 + £ '

где Метод адаптивного шага обучения (Adadelta)

у - коэффициент сохранения (0 < у < 1). Точ- использует аналогичное экспоненциальное сколь-

ность работы рекуррентной нейронной сети зящее среднее для оценки второго момента гради-

при использовании RMSProp метода составляет ента д как и RMSprop. Обновление параметров

84.54%. происходит по следующим формулам:

Точность работы рекуррентной нейронной сети каждый из трех предыдущих методов, приведённых при использовании Adadelta метода оптимизации выше (Adagrad, Adadelta, RMSprop). Правило пересоставляет 83,59%. счета следующее: Метод адаптивной инерции (Adam) похож на

Точность работы рекуррентной нейронной сети при использовании Adadelta метода оптимизации составляет 83,61%.

Проведены эксперименты по классификации ре-

цензий, размещённых в базе данных о кинематографе. Эксперименты показали (таблица 1), что предлагаемые алгоритмы Adagrad, RMSProp, Adadelta и Adam обладают высокой эффективностью по

критериям: время обучения и точность, в том числе и в рецензиях большого и малого размера, что особенно важно для их практического использования. Экспериментальные результаты на реальных на-

борах рецензий показали высокую эффективность разработанных систем классификаций тональности рецензий.

Таблица 1. Сравнительный анализ методов оптимизации

Метод оптимизации Точность, % Время, с

SGD 51,19 188

Adagrad 84,10 176

RMSProp 84,54 174

Adadelta 83,59 186

Adam 83,61 171

Как показали результаты, использование метода стохастического градиентного спуска (SGD), в качестве метода оптимизации параметров рекуррентной нейронной сети, показало низкую эффективность по критерию точности - 51,19%, тогда

как эффективными признаются нейронные сети, дающие точность около 85%, каковыми и являются сети, использующие методы AdaGrad, RMSProp, Adadelta, Adam.

Литература

1. Гудфеллоу Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль. - М.: ДМК Пресс, 2018. - 652 с.

2. Каширина И. Л. Нейросетевые и гибридные системы: учебно-методическое пособие для вузов / И. Л. Каширина, Т. В. Азарнова. - Воронеж: Издательский дом ВГУ, 2014. - 80 с.

3. Круглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика. - 2-е изд., стереотип. - М.: Горячая линия-Телеком, 2002. - 382 с.

4. Созыкин А. В. Обзор методов обучения глубоких нейронных сетей // Вестник ЮУрГУ Серия: Вычислительная математика и информатика. - 2017. - Т. 6. - № 3. - С. 28-59.

5. Chetviorkin I., Braslavskiy P., Loukachevich N. «Sentiment Analysis Track at ROMIP 2011», In Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialog 2012». -Bekasovo, 2012. - pp. 1-14.

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБУЧЕНИЯ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нигматулин Г. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нигматулин Г. А.

COMPARATIVE ANALYSIS OF THE METHODS OF TRAINING RECURRENT NEURAL NETWORK

Текст научной работы на тему «СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБУЧЕНИЯ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ»