Научная статья на тему 'Модель оптимизации параметра скорости обучения нейронной сети'

Модель оптимизации параметра скорости обучения нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
35
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
нейронная сеть / скорость обучения / выборка / оптимизация / neural network / learning rate / sampling / optimization

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чепцов М.Н., Сонина С.Д.

В статье детально рассмотрена система корректировки весовых коэффициентов слоя нейронной сети при использовании метода обратного распространения ошибки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чепцов М.Н., Сонина С.Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Optimization model of the neural network learning rate parameter

The article discusses in detail the system for adjusting the weight coefficients of the neural network layer when using the backpropagation method.

Текст научной работы на тему «Модель оптимизации параметра скорости обучения нейронной сети»

5. Васьковський Ю.М. Математичне моделювання електромехашчних перетворювачiв енергл. - Ки'1в: НТУУ "КПГ',2003.-164с.

6. Железняков А.В. Эксцентриситет ротора в погружных асинхронных двигателях / А.В. Железняков, И.А. Караван // Сб. науч. тр. Донецкого института железнодорожного транспорта. Выпуск 60 /ДОНИЖТ. -Донецк, 2021. - С. 4-9.

Аннотация:

В статье проведено исследование влияния неравномерности воздушного зазора в асинхронном двигателе на его работоспособность.

Ключевые слова: асинхронный двигатель, воздушный зазор, сила магнитного тяжения, эксцентриситет.

The article studies the influence of the non-uniformity of the air gap in an induction motor on its performance.

Keywords: induction motor, air gap, strength of the magnetic pull, eccentricity.

УДК 004.891

ЧЕПЦОВ М.Н., д.т.н., профессор (Донецкий институт железнодорожного транспорта) СОНИНА С.Д., аспирант (Донецкий институт железнодорожного транспорта)

Модель оптимизации параметра скорости обучения нейронной сети

Cheptsov M.N., Doctor of technical science, professor (DRTI) Sonina S.D., Senior Lecturer (DRTI)

Optimization model of the neural network learning rate parameter

Введение

В современном мире

искусственные нейронные сети находят свое применение в таких направлениях, как обработка изображений,

распознавание и воспроизведение звука, задачах прогнозирования и управления, игровой индустрии, самоуправляемом транспорте и др. Отличительной особенностью нейронной сети является ее способность к обучению, и как результат - самостоятельное принятие решения в определенной ситуации. Алгоритм обратного распространения

ошибки является одним из основных методов обучения нейронных сетей.

Анализ последних исследований и публикаций

При обучении НС в соответствии с классическим методом обратного распространения ошибки на ее вход

подается вектор х. После прямого прохода рассчитываются значения

выходного вектора у. Процесс обучения состоит в том, чтобы за некоторое количество итераций ]

минимизировать общую энергию среднеквадратичной ошибки [1]:

£(«)=1 (я)-у, («))2, (1)

где

желаемое значение

выходного вектора;

У,(п) -

я) - полученное значение;

п - порядковый номер выходного нейрона;

, - номер итерации.

Обучение методом обратного распространения ошибки состоит в последовательной корректировке

весовых коэффициентов

пропорционально частной производной, в соответствии со знаком которой определяется направление поиска в пространстве значений. Так, градиент для нейрона п при логистической функции возбуждения нейронов или гиперболическом тангенсе

рассчитывается следующим образом [1]:

- выходной слой:

- слой к:

8,(п) = а[(1,(п) - о, (п)]о,(п) [1- о,(п)]

8, (п) = ау(п)[1 - у, (я)] ^ 3к (п^ (п)

(2) (3)

где о, (п) - значение на выходе нейрона п на итерации , ; й(п) - его необходимое значение.

к

Корректировка весовых [1].

коэффициентов слоя к выполняется в соответствии с общим дельта-правилом

^ (п +1) = wkJ1 (п)+аЦг (п-1)] + ]* (п)ук 1 (п), (4)

где ] - параметр скорости обучения; а - постоянная момента.

Следует отметить, что выше приведенные выражения (1)-(4) являются дискретными функциями, что обуславливает наличие основного недостатка обучения методом обратного распространения - возможный пропуск глобального минимума поверхности ошибки. С целью уменьшения такой вероятности в выражение (4) введен параметр т], который позволяет уменьшить «шаг» корректировки весовых коэффициентов на каждой

итерации алгоритма, однако при этом возрастает длительность. В качестве компромиссного решения в работе [1] предлагается ввести инварианту т] = 0,1, однако обоснования такого решения не приводится. С другой стороны, в работах [2-4] рассматриваются различные методы оптимизации данного параметра, каждый из которых имеет свои достоинства и недостатки.

Цель работы

Выполнить анализ временных характеристик выполнения процедуры обучения нейронной сети обратного распространения ошибки и рассмотреть модель адаптации значения параметра скорости обучения для минимизации длительности данного процесса.

Основная часть

Рассмотрим полносвязанную нейронную сеть, состоящую из 3-х нейронов, двух входных и одного выходного, с логистической функцией возбуждения. Для выборки,

представленной в таблице 1, проведем процесс обучения со следующими характеристиками:

- критерий останова локального цикла обучения (для одной строки выборки) E{n = 3) < 10"8 или j > 1000;

- критерий останова глобального цикла обучения (по всем примерам выборки) Е(п = 3) < 105 или ] > 100;

- инварианты

исследования: 7 = 0,1, a = 0,1.

первого

Таблица 1. Обучающая выборка

x1 Х2 У

0 0 1

1 0 0

0 1 0

1 1 0

Для накопления статистических данных проведем 100 процессов обучения с измерением времени выполнения глобального цикла, в результате получим выборку

Т = [*(!) ф) ..., г(м)\М = 100 (рис. 1).

Рис. 1. Диаграмма времени выполнения глобального цикла обучения при 7 = 0,1

Выборка T имеет следующие характеристики: максимальное значение

- max (г) = 102,2954 (мс), минимальное

- min (г) = 0,5059 (мс), среднее -

mean(r) = 24,615 (мс), дисперсия -

var (T) = 483,258 (мс).

Следует отметить, что среднее значение времени обучения mean (г) зависит как от эффективности

алгоритма оптимизации ], так и от сложности реализации его в программном обеспечении. После проведенных исследований было принято решение о необходимости корректировки значения ] при каждом изменении значений весовых коэффициентов данного нейрона (4) в соответствии со следующим

выражением:

7 =

0,9 * 77, если ^ \wkß (и) - \wkß(и -1) i=1

W

1,1 * 7, если ^ \wkß (и) - \wkß (n -1)

< P > p

(5)

<

i=1

т.е. при каждой корректировке ^(п) его значение сравнивается с предыдущим м^к (п -1) и если разность

абсолютных значений меньше некоторого порога р , то значение ]

Таблица 2.

Изменение характеристик общей длительности обучения (мс) _в зависимости от значения величины порога р_

P max (г) min(r) mean (г) var (г)

10-1 66.9847 0.474 17.414 278.7683

10-2 62.9742 0.846 11.698 121.944

10-3 46.9968 0.053 7.6619 83.2619

10-4 58.894 0.007 8.0551 87.5156

10-5 52.1853 0.104 7.9202 105.8627

10-6 39.1559 0.117 8.0935 80.3089

10-7 50.3511 0.1506 7.7535 75.2565

10-8 33.9823 0.2648 7.436 59.1864

уменьшается, в противном случае -увеличивается.

Результаты проведенных

исследований по оценке временных характеристик в зависимости от значения р приведены в таблице 2.

Выводы

Анализ результатов исследований временных характеристик

функционирования программного

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

обеспечения, в котором реализована модель оптимизации параметра

скорости обучения нейронной сети (5), показывает, что среднее значение выборки Т уменьшилось более чем в три раза при значениях порога р меньше 103.

К недостаткам модели следует отнести отсутствие обоснования выбора значений 0,9 и 1,1 в выражении (5), а также контроля максимума и минимума ] в процессе обучения нейронной сети.

Список литературы:

1. Хайкин С. Нейронные сети: полный курс, 2-е изд., испр.: Пер. с англ. - М.: ООО «И.Д. Вильямс», -2006. - 1104 с.

2. Y.N. Dauphin, H. de Vries, J. Chung, and Y. Bengio. Rm-sprop and equilibrated adaptive learning rates for non-convex optimization. arXiv preprint arXiv: 1502.04390, 2015.

3. Leslie N. Smith. Cyclical Learning Rates for Training Neural Networks. - U.S. Naval Research Laboratory, Code 5514, - 2016.

4. Arvind Neelakantan, Luke Vilnis, Quoc V. Le, Ilya Sutskever, Lukasz Kaiser, Karol Kurach, James Martens. Adding Gradient Noise Improves Learning for Very Deep Networks. arXiv preprint arXiv: 1511.06807, 2015.

Аннотация:

В статье детально рассмотрена система корректировки весовых коэффициентов слоя нейронной сети при использовании метода обратного распространения ошибки.

Ключевые слова: нейронная сеть, скорость обучения, выборка, оптимизация.

The article discusses in detail the system for adjusting the weight coefficients of the neural network layer when using the backpropagation method.

Keywords: neural network, learning rate, sampling, optimization.

i Надоели баннеры? Вы всегда можете отключить рекламу.