АНАЛИЗ МЕТОДОВ ОПТИМИЗАЦИЯ СКОРОСТИ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ

Чепцов М.Н.; Сонина С.Д.

УДК 004.85

ЧЕПЦОВ М.Н., д-р техн. наук, профессор (Донецкий институт железнодорожного транспорта»)

СОНИНА С.Д., аспирант (Донецкий институт железнодорожного транспорта») Анализ методов оптимизация скорости обучения нейронной сети

Cheptsov M.N., Doctor of Technical Science, Professor (DRTI) Sonina S.D., Post-graduate student (DRTI)

Analysis of methods optimization of neural network learning rate

Введение

Искусственные нейронные сети находят свое применение при решении множества сложных задач, таких как обработка изображений, распознавание и воспроизведение звука,

прогнозирование и управление, игровая индустрия, интеллектуальный

транспорт и др. Их основным преимуществом является способность к обучению, которое реализуется с помощью специально разработанных алгоритмов. Как отмечено многими авторами, одним из сложных аспектов нейронной сети является оптимизация скорости ее обучения [1, 2].

Анализ последних исследований и публикаций

В статье [3] представлен циклический метод установки скорости обучения, который вместо монотонного снижения скорости обучения позволяет ей циклически изменяться между минимальным и максимальным граничным значением. Для определения граничных значений автор предлагает выполнить обучение модели в течение нескольких итераций с линейным увеличением значения скорости и построить график зависимости точности

от скорости обучения. По графику можно установить, когда точность увеличивается и замедляется. Полученные показатели являются хорошим выбором для максимального и минимального граничного значения скорости обучения.

По результатам проведенных экспериментов было определено, что количество итераций при обучении с использованием данного подхода уменьшилось практически в три раза, однако в некоторых случаях применение метода никак не повлияло на скорость обучения нейронной сети.

С другой стороны, в работе [4] рассматривается подход, когда отбор примеров в выборку происходит с учетом их влияния на процесс обучения, т.е. обучающие примеры, ошибки по которым оказываются слишком большими, не принимают участие в обучении нейронной сети. При использовании части примеров ошибка выхода будет постепенно уменьшаться, однако существует вероятность остановки обучения сети. Чтобы не возникала ситуация с остановкой обучения автор предлагает выделять два граничных значения ошибки обучения. Из рис. 1 следует, что как только ошибка примера пересекает границу Е1, он получает единичный коэффициент. Если при дальнейшем

обучении ошибка примера превысит Е1, он снова получит усиливающий весовой коэффициент. Если ошибка примера превысила значение Е2, то пример считается выбросом и не участвует в дальнейшем обучении.

Рис. 1. Направления изменений ошибок

выхода в процессе обучения

Таким образом, задача

оптимизации скорости обучения нейронной сети окончательно не решена и является актуальной научной задачей.

Нейронная сеть представляет собой обучаемую систему, состоящую из нейронов, каждый из которых относится к определенному слою (рис. 2). Различают входной слой, скрытый и выходной, причем скрытых слоев в нейронной сети может быть несколько. Все нейроны между собой соединены синапсами. Каждому синапсу устанавливается определенный вес, который определяет насколько важен для каждого конкретного нейрона сигнал, получаемый от другого нейрона. Входные данные последовательно проходят обработку на всех слоях сети. Нейрон выполняет суммирование сигналов от предыдущего слоя, и если полученная сумма отвечает порогу возбуждения нейрона, то сигнал

отправляется на выходной слой, то есть выдается решение.

Параметры каждого нейрона могут изменяться в зависимости от результатов, полученных на

предыдущих наборах входных данных, изменяя таким образом и порядок работы всей системы.

Рис. 2. Модель нейронной сети

В качестве активационной функции нейрона чаще всего выступают четыре самых используемых функций [2]:

сигмоида / (х) = ■ 1

1 + е'

гиперболический тангенс / (х) =

1~е~ 1 + е -

жесткая пороговая

Г0, если х < 0

функция

/ (х) =

1, если х > 1

линейная /(х) = х.

В общем случае для многослойной сети функция возбуждения

рассчитывается следующим образом: при логистической

1

У ■ =-

] 1 +

(1)

х

гиперболическом тангенсе

Ущ = &

щ щ

V 2 ,

(2)

где уп, - выход у-го нейрона п-го слоя сети;

Уп, - его индуцированное локальное

поле (весовая сумма всех синаптических входов и пороговых значений);

snj - значение наклона функции.

Для того чтобы нейронная сеть могла функционировать, ее необходимо обучить. Главная задача обучения нейронной сети состоит в корректировке весовых коэффициентов связей сети. Одним из наиболее распространенных и теоретически обоснованным является алгоритм обратного распространения ошибки, при использовании которого входные сигналы двигаются в прямом направлении, в результате чего определяется выходной сигнал и получается значение ошибки. Величина ошибки двигается в обратном направлении, в результате чего и происходит корректировка весовых коэффициентов связей сети. Алгоритм определяет стратегию подбора весовых коэффициентов с применением метода градиентного спуска. Его основу составляет целевая функция, формулируемая в виде квадратичной суммы разностей между желаемыми значениями ^(п) выходного вектора и полученными значениями уг(п) выходных сигналов [1]:

Е (п) = 1 ^ (п)" У, (п))2,

(3)

■

В основе данного алгоритма лежит метод оптимизации под названием

градиентный спуск. В зависимости от знака, градиент функции определяет направление поиска в пространстве значений. Идея заключается в том, что сеть оценивает целевое значение во время прямого прохода и вычисляет, насколько далеки наши оценки от фактических целей на последнем уровне. Градиент можно представить следующим образом [2]:

дЕ(п) дЕ(п) дв, (п) ду, (п) ду (п)

дмн (п) дв. (п) су, (п) ду. (п) дмн (п)

(4)

Корректировка весовых

коэффициентов производится по формуле

где

+1) = ) + Aw,

Aw = тр^)

(5)

(6)

где т - коэффициент скорости обучения;

р - направление в

многомерном пространстве w.

Цель работы

Модифицировать процедуру

корректировки весовых коэффициентов и параметра наклона функции возбуждения для получения более устойчивых результатов обучения нейронной сети.

Основная часть

Коэффициент скорости обучения определяет порядок корректировки весов с учётом функции потерь в градиентном спуске. Чем ниже величина, тем медленнее скорость движения по наклонной. Однако при

использовании малого коэффициента скорости обучения повышается вероятность не пропустить ни одного локального минимума, но придется затратить много времени на сходимость, особенно если мы попали в область плато.

Коэффициент скорости обучения воздействует на то, как быстро наша модель достигнет локального минимума. Чаще всего коэффициент скорости обучения устанавливается пользователем произвольно.

Эффективность скорости обучения может быть оценена путём тренировки модели с изначально заданной низкой скоростью обучения, которая затем повышается в каждой итерации. При этом обучение сети может являться довольно длительным процессом. Существуют многочисленные вариации метода обратного распространения ошибки, разработанные с целью увеличения скорости протекания процесса обучения.

Поскольку в классическом методе градиентного спуска критерий

Результатом использования

представленных вычислений и увеличения времени выполнения обучения является повышение эффективности модифицированного алгоритма по сравнению с классическим методом обучения.

Выводы

В статье рассмотрен

модифицированный метод обратного распространения ошибки, который позволяет достичь более устойчивых результатов обучения нейронной сети и значительно повысить эффективность

остановки процесса не всегда позволяет достичь глобального минимума, в работе [5] представлен

модифицированный алгоритм обучения, который предусматривает разделение локальной и глобальной процедуры. В глобальной процедуре устанавливается максимальное количество итераций и расчет среднеквадратичной ошибки выполняется по формуле (7)

N ?

ЕГП) =1 (E(te ) ( n )) (7)

k=1

где E<j^r) - общая энергия

среднеквадратичной ошибки нейронов выходного слоя.

В локальной процедуре выполняется контроль локальных градиентов 8j (n). Если 8j(n) ^ 0, т.е.

процесс остановился в локальном минимуме, весовым коэффициентам и переменной s. в выражении (8) присваиваются случайные значения.

(8)

применения метода.

Список литературы:

1. Осовский С. Нейронные сети для обработки информации [пер. с польского И.Д. Рудинского] [Текст] -М.: издательский дом «Финансы и статистика», 2002. - 344 с.

2. Хайкин С. Нейронные сети: полный курс, 2-е изд., испр.: Пер. с англ. - М.: ООО «И.Д. Вильямс», -2006. - 1104 с.

3. Leslie N. Smith. Cyclical Learning Rates for Training Neural

K(n +1) = wki(n)+ aj - 1)J + rjök (n)yk 1 (n)

Networks. - U.S. Naval Research Laboratory, Code 5514, - 2016.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Зуев В.Н., Кемайкин В.К. Модифицированный алгоритм обучения нейронных сетей // Программные продукты и системы. 2019. Т. 32. № 2. С. 258-262. DOI: 10.15827/0236-235X. 126.258-262.

5. Авт. свщоцтво №39465, реестр. 03.08.2011, МОН Украши, Державний департамент штелектуально! власносп. Комп'ютерна програма "Модель динамiчноi нейронно! мережi з модифшованим алгоритмом навчання за методом зворотного поширення помилки" ("Model of Dynamic Neural Network") / М.М. Чепцов, В.С. Блиндюк, ДМ. Кузьменко, О.О. Германенко; заявка вщ 23.05.2011 № 39639.

Аннотации:

Работа посвящена анализу методов оптимизации параметра скорости обучения нейронной сети в алгоритме обратного распространения ошибки. При проведении сравнительного анализа существующих методов установлено, что применение

модифицированного метода оптимизации повышает эффективность обучения.

Ключевые слова: нейронная сеть, оптимизация, обратное распространение, скорость обучения, весовые коэффициенты, алгоритм обучения.

The work is devoted to the analysis of methods for optimizing the parameter of the learning rate of a neural network in the algorithm of error back propagation. When conducting a comparative analysis of existing methods, it was found that the use of a modified optimization method increases the effectiveness of training.

Keywords: neural network, optimization, back propagation, learning rate, weight coefficients, learning algorithm.

УДК 62-83

МИНТУС А.Н., канд. техн. наук, доцент (Донецкий национальный технический университет)

МИТИН Д.А., аспирант (Донецкий национальный технический университет)

Исследование робототехнического комплекса с параллельной кинематикой на базе линейных синхронных приводов

MINTUS A.N., Candidate of Technical Science, Associate Professor (DONNTU) Mitin D.A., Post-graduate student (DONNTU)

Research of a robotic complex with parallel kinematics based on linear synchronous drives

Введение

момент самым видом механизмов последовательной

кинематикой. Это традиционные системы, в которых звенья присоединены последовательно. Однако данные системы имеют относительно маленькую грузоподъемность и суммирование ошибок

На данный распространенным робототехнических являются роботы с

АНАЛИЗ МЕТОДОВ ОПТИМИЗАЦИЯ СКОРОСТИ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чепцов М.Н., Сонина С.Д.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чепцов М.Н., Сонина С.Д.

ANALYSIS OF METHODS OPTIMIZATION OF NEURAL NETWORK LEARNING RATE

Текст научной работы на тему «АНАЛИЗ МЕТОДОВ ОПТИМИЗАЦИЯ СКОРОСТИ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ»