ИССЛЕДОВАНИЕ ВЛИЯНИЯ ФУНКЦИИ АКТИВАЦИИ НА ЭФФЕКТИВНОСТЬ РАБОТЫ НЕЙРОННОЙ СЕТИ ПРИ РАЗЛИЧНЫХ ПОДХОДАХ К ОБУЧЕНИЮ

И.А. Снопкова; Д.А. Тауснев; Л.В. Липинский

УДК 004.8

ИССЛЕДОВАНИЕ ВЛИЯНИЯ ФУНКЦИИ АКТИВАЦИИ НА ЭФФЕКТИВНОСТЬ

РАБОТЫ НЕЙРОННОЙ СЕТИ ПРИ РАЗЛИЧНЫХ ПОДХОДАХ К ОБУЧЕНИЮ

И. А. Снопкова, Д. А. Тауснев Научный руководитель - Л. В. Липинский

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

E-mail: irishasnopkova1110@mail.ru

Исследуется влияние функции активации на точность и эффективность работы нейронной сети при решении задач классификации. Проводится статистическая оценка результатов работы нейронной сети.

Ключевые слова: нейронные сети, функция активации, обучение нейронных сетей.

THE STUDY OF THE INFLUENCE OF ACTIVATION FUNCTION ON THE EFFICIENCY OF THE NEURAL NETWORK IN VARIOUS LEARNING

APPROACHES

I. A. Snopkova, D. A. Tausnev Scientific supervisor - L. V. Lipinskiy

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: irishasnopkova1110@mail.ru

The influence of the activation function on the accuracy and efficiency of the neural network in solving classification problems is studied. A statistical evaluation of the results of the neural network is presented.

Keywords: neural networks, activation function, learning neural network.

В настоящее время нейронные сети активно используются при решении задач классификации, распознавания образов, регрессии и многих других, поэтому вопрос наиболее эффективной их реализации как никогда актуален. При конструировании и обучении нейронной сети важную роль играет функция активации нейронов. Некоторыми классическими вариантами реализации функции активации являются сигмоид, гиперболический тангенс и линейная функция. Однако они не лишены недостатков. С целью разрешения возникающих проблем в данной работе рассматриваются более современные реализации, такие как ReLU и ELU. Ещё одним важным аспектом обучения нейронной сети является выбор способа настройки весов сети. Классический вариант градиентного спуска может занимать достаточно много времени, что является ощутимым недостатком при настройке глубоких нейронных сетей. В связи с этим были разработаны различные варианты ускорения градиентного спуска. В данной работе были реализованы следующие алгоритмы: RMSprop, Adadelta, Adam и Nadam.

Целью данной работы является исследование влияния функции активации и алгоритма обучения на точность и эффективность решения задач классификации.

Рассмотрим преимущества и недостатки различных функций активации. Важной проблемой классических функций является проблема исчезновения градиентов. Основной

Секция «Математические методы моделирования, управления и анализа данных»

причиной её возникновения является насыщение классических функции активации при больших входных значениях, вследствие чего градиент становится близок к нулю, и обучение сети сильно замедляется. Для решения данной проблемы предлагается использовать функцию ЯеЬи(2) = тах(0,2), она уже не насыщается при больших входных значениях, а также вычисляется намного быстрее, что является её преимуществами перед классическими вариантами. Однако у неё есть два недостатка. Во-первых, возникает проблема известная как угасающие элементы ^еШ,связанная с тем, что в процессе обучения некоторые нейроны отмирают и перестают выдавать что-либо отличное от нуля. Во-вторых, она не является непрерывной, что может замедлить градиентный спуск. Поэтому

данная реализация устранит все выше упомянутые недостатки. Несмотря на то, что вычислительная сложность возрастает, в работе [1] было показано, что это вполне покрывается ускорением сходимости алгоритма.

Рассмотрим некоторые идеи улучшения стандартного градиентного спуска.

Моментная оптимизация - основной идеей данного алгоритма является использование градиентов не как скорости изменения весов, а как ускорения их изменения: во внимание принимаются и предыдущие градиенты, что позволяет ускорить сходимость.

Ускоренный градиент Нестерова - некоторая вариация моментной оптимизации. Основное изменение заключается в том, чтобы измерять градиент функции издержек немного впереди в направлении момента, что в общем случае работает, так как момент указывает в направлении оптимума.

Adagrad - основной идеей данной модернизации является реализация адаптивной скорости обучения: алгоритм постепенно ослабляет скорость обучения, но делает это быстрее в направлении для крутых измерений. Основным недостатком данного алгоритма является то, что градиенты накапливаются за всё время обучения, что приводит к тому, что алгоритм слишком замедляется и не доходит до оптимума.

RMSprop - улучшение алгоритма Adagrad: градиенты более давних шагов экспоненциально ослабляются со временем, что позволяет алгоритму не останавливаться раньше времени.

Adadelta - ещё одно из возможных улучшений Adagrad: при адаптации скорости обучения используются только последние градиенты.

Adam - объединение основных идей RMSprop и моментной оптимизации: с одной стороны в нём реализуется адаптивная скорость обучения аналогично RMSprop, а с другой -использует не только градиент в последней точке но и опыт предыдущих продвижений.

Nadam - алгоритм Adam, использующий ускоренный градиент Нестерова вместо классического варианта моментной оптимизации.

Более подробное описание данных алгоритмов можно посмотреть в работах [2] и [3].

Для достижения поставленной цели были реализованы следующие алгоритмы обучения: стандартный градиентный спуск, Adadelta, RMSprop, Adam и Nadam с функциями активации такими, как линейная функция, сигмоид, гиперболический тангенс, ReLU и ELU. Итого 25 алгоритмов. Для тестирования алгоритмов были выбраны следующие базы данных: классификация сортов вин, постановка диагноза рака молочной железы и распознавание рукописных цифр. Каждый алгоритм был запущен на каждой базе данных 100 раз (на каждую базу давалось фиксированное количество эпох обучения), была посчитана точность на тестовых выборках. Сравнение алгоритмов проводилось с помощью U-критерия Манна Уитни.

На основе результатов были сформированы следующие выводы:

1) На базах данных "wine" и" digits" алгоритм Nadam отрабатывает не хуже аналогичных нейронных сетей с другими алгоритмами обучения, причем он единственный обладает таким

была разработана функция

or(exp(z) -1), если z < 0 z, если z > 0

Предполагается, что

свойством. На базе данных "breast cancer" аналогичным свойством обладает только алгоритм Adadelta.

2) Функция активации sigmoid оказалась не лучшим решением. Если сравнивать с аналогичными алгоритмами, но с другой функцией активации, только в 2-х из 60 случаях sigmoid оказывается лучше, в большинстве случаев он работает хуже согласно статистическому сравнению.

3) Функция активации ELU оказывается очень полезной. Только в 2-х из 60 случаях аналогичный алгоритм с другой функцией активации отрабатывает лучше, в остальных алгоритмы отрабатывают одинаково, или ELU превзошла соперника.

4) Только нейронная сеть с оптимизатором Adadelta и функцией активации гиперболический тангенс ниразу не была превзойдена на всех трёх задачах.

5) Одна из классических комбинаций, которая ранее была очень популярна среди исследователей, sigmoid + классический градиентный спуск оказывается хуже всех остальных алгоритмов, этот результат повторяется на всех трёх задачах.

6) Алгоритм Nadam всегда решет задачи не хуже своего предшественника Adam, однако в 4-х из 15 случаях он оказывается лучше.

Однако это - не все эксперименты, которые хотелось бы провести. В дальнейшем предполагается исследование данных алгоритмов при обучении глубоких нейронных сетей. Предполагается, что на глубоких сетях раскроется истинный потенциал рассмотренных алгоритмов обучения и функций активации. Более того, будет интересным провести новое исследование о влиянии различных параметров обучения не только на эффективность, но и на скорость обучения нейронных сетей.

Библиографические ссылки

1. Djork-Arne Clevert, Thomas Unterthiner & Sepp Hochreiter "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)".

2. Орельон Жерон «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow».

3. M. D. Zeiler, "ADADELTA: An Adaptive Learning Rate Method". arXiv:1212.5701 2012

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — И.А. Снопкова, Д.А. Тауснев, Л.В. Липинский

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — И.А. Снопкова, Д.А. Тауснев, Л.В. Липинский

THE STUDY OF THE INFLUENCE OF ACTIVATION FUNCTION ON THE EFFICIENCY OF THE NEURAL NETWORK IN VARIOUS LEARNING APPROACHES

Текст научной работы на тему «ИССЛЕДОВАНИЕ ВЛИЯНИЯ ФУНКЦИИ АКТИВАЦИИ НА ЭФФЕКТИВНОСТЬ РАБОТЫ НЕЙРОННОЙ СЕТИ ПРИ РАЗЛИЧНЫХ ПОДХОДАХ К ОБУЧЕНИЮ»