Научная статья на тему 'Сравнение способов вычисления производной активации "выпрямитель" при обучении нейронной сети'

Сравнение способов вычисления производной активации "выпрямитель" при обучении нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
320
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / МАШИННОЕ ОБУЧЕНИЕ / ВЫЧИСЛЕНИЕ ПРОИЗВОДНОЙ / RELU / ЛИНЕЙНЫЙ ВЫПРЯМИТЕЛЬ / ФУНКЦИЯ АКТИВАЦИИ / NEURAL NETWORKS / MACHINE LEARNING / DERIVATIVE CALCULATION / LINEAR RECTIFIER / ACTIVATION FUNCTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Набродова Ирина Николаевна, Иванов Александр Дмитриевич

Рассмотрены три подхода к вычислению производной функции линейного выпрямителя. Подходы реализованы на примере решения задачи классификации рукописных цифр из набора данных MNIST.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Набродова Ирина Николаевна, Иванов Александр Дмитриевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение способов вычисления производной активации "выпрямитель" при обучении нейронной сети»

The analysis of the main methods of adaptive filtering of noise signals and comparative analysis of adaptation algorithms is presented. It is shown that the asymptotic computational complexity, by which adaptive suppression algorithms are described, estimates the order of growth of the algorithm operation time with increasing the size of the input data.

Key words: adaptive filtering, prediction error, noise suppression.

Akinshin Nikolai Stepanovich, doctor of technical sciences, professor, head of department, cdbae@,cdbae. ru, Russia, Tula, JSC «Central Design Bureau of Apparatus Engineering»,

Peteshov Andrey Viktorovich, candidate of technical sciences, professor, head of the department, D-john_post@,mail.ru, Russia, Cherepovets, Cherepovets Higher Military Engineering School of Radio Electronics,

Rumyantsev Vladimir Lvovich, doctor of technical sciences, professor, deputy head of department, cdbaeacdbae. ru, Russia, Tula, JSC «Central Design Bureau of Apparatus Engineering»,

Khomyakov Kirill Alexandrovich, head of sector, cdbae@,cdbae.ru, Russia, Tula, JSC «Central Design Bureau of Apparatus Engineering»

УДК 517.23; 004.032.26

СРАВНЕНИЕ СПОСОБОВ ВЫЧИСЛЕНИЯ ПРОИЗВОДНОЙ АКТИВАЦИИ «ВЫПРЯМИТЕЛЬ» ПРИ ОБУЧЕНИИ НЕЙРОННОЙ

СЕТИ

И.Н. Набродова, А.Д.Иванов

Рассмотрены три подхода к вычислению производной функции линейного выпрямителя. Подходы реализованы на примере решения задачи классификации рукописных цифр из набора данных МЫШТ.

Ключевые слова: нейронные сети, машинное обучение, вычисление производной, ReLU, линейный выпрямитель, функция активации.

Одним из определяющих параметров искусственной нейронной сети (ИНС) является функция активации нейронов. В процессе прямого распространения сигнала по сети выходной сигнал нейронов предыдущего I -1 слоя (или входной сигнал сети для первого слоя) поступает по синапсам в нейроны текущегоьго слоя. Сигналы со всех синапсов умножаются на соответствующие им веса и суммируются. Эта сумма и подается на вход текущему нейрону (рис. 1) [1].

Рис. 1. Схема искусственного нейрона

В общем случае каждый нейрон сети может иметь свою собственную функцию активации, однако, на практике эта функция одинакова либо во всей сети, либо в пределах одного слоя. Среди наиболее часто используемых функций можно отметить:

выпрямитель (англ. rectifier, ReLU) (1); сигмоидальную функцию или сигмоиду (2):

y = max(0, х ), (1)

y = _1_, (2)

1 + exp ( - tx )

где y - значение функции; х -аргумент функции; t - параметр, задающий крутизну функции (задается один раз в течение работы сети).

В настоящее время сигмоидальная функция начинает уступать выпрямительной функции по частоте использования в практических реализациях ИНС.

Для этого есть несколько причин:

градиент, проходящий через сигмоиду «затухает» тем сильнее, чем она ближе к свой асимптоте. Выпрямитель обеспечивает постоянный градиент на положительных аргументах;

выпрямитель обеспечивает разреженность, обнуляя определенные веса в процессе обучения, чем снижает влияние шума во входном сигнале сети;

крайне простые операции и при вычислении значения функции позволяют ускорить работу сети и ее обучение.

В процессе обучения сети градиентными методами первого порядка необходимо вычислять производную функции активации по значению сумматора нейрона [2] :

dE (3)

Э Э у. Э 2. Э

где Е - функция потери; - вес связи нейронов i и у;- - выход нейрона номер - состояние нейрона.

Значение каждой части формулы (3): дБ

--искомая компонента вектора градиента;

дМу

дБ

- ошибка >го нейрона;

дУ]

ду± д2]

- значение производной функции активации для ]-го нейрона;

д1 ;

- выход 1-го нейрона с предыдущего (левого) слоя.

д™и

Из этого следует, что для возможности использования определенной функции / (2) в качестве функции активации для нейрона, она должна

быть дифференцируема на всей области определения.

Одной из проблем выпрямительной функции является неопределенность производной в точке 0. Поскольку выпрямитель, фактически состоит из двух прямых, лежащих на отрезках (-¥>; 0) и (0; + ¥) На первом

отрезке функция принимает значение / (х) = 0, а на втором - f (х) = х. График функции представлен на рис. 2.

Рис. 2. График функции выпрямителя

Как видно из рис. 2, производная выпрямителя

\0,х < 0, //1Ч

f'(х) = и п (4)

[ 1,х > 0.

Однако точка 0 не имеет определенной принадлежности к одной из прямых и поэтому не имеет производной. Определим несколько подходов к вычислению производной в этой точке: производная равна нулю: f '(0) = 0; производная равна единице: f '(0) = 1;

использование производной функции войр1ив, аппроксимирующей функцию выпрямителя (рис. 3) [3]:

войр1ш( х) = 1п(1 + ех) (5)

войр1ш'( х) = 1/(1 + е - х) (6)

Рис. 3. Графики функций выпрямителя и БвАрЬт

Как видно из графика, функция войр1ив дифференцируема и очень точно приближает выпрямитель везде, кроме окрестности точки 0.

Для определения подхода, дающего наилучший результат, поставим задачу классификации рукописных цифр из набора данных М№8Т. Критерием качества обучения является доля неправильно распознанных примеров обученной сети на верификационной выборке, данные которой не содержатся в обучающей выборке. Результаты обучения представлены на рис. 4.

Рис. 4. Доля ошибок различных видов выпрямителя по эпохам обучения

82

Из графика (рис. 4) видно, что конкретное значение (0 или 1) производной в точке 0 никаким образом не влияет на процесс обучения, поскольку доля ошибок на каждой эпохе для каждого из подходов была одинаковой. С другой стороны, использование в качестве производной функции softplus, позволило ускорить обучение на ранних эпохах и получить незначительно лучший результат в конце обучения.

В ходе исследования было установлено, что изменение значения производной выпрямителя в одной точке никак не влияет на обучение нейронной сети, но использование гладкой аппроксимации выпрямителя, функции softplus, позволяет ускорить обучение на ранних этапах ценой некоторого увеличения вычислительных затрат. Такая особенность может оказаться полезной в ситуациях, когда размер обучающей выборки сильно ограничен и требуется получить удовлетворительный результат за минимальное число итераций обучения.

Список литературы

1. Романов Д.Е. Нейронные сети обратного распространения ошибки // ИВД. 2009. №3. С. 19-23.

2. ErbR.J. Introduction to Backpropagation Neural Network Computation// Pharmaceutical Research. 1993. №10. С. 165-170.

3. ZhaoH. Anovel softplus linear unit for deep convolutional neural networks/ H.Zhao [et al.] // Applied Intelligence. 2017. С. 1-14.

Набродова Ирина Николаевна, канд. техн. наук, доцент, ira19 78@tsu. tula. ru, Россия, Тула, Тульский государственный университет,

Иванов Александр Дмитриевич, студент, worn777@gmail.com, Россия, Тула, Тульский государственный университет

COMPARASON OF METHODS OF CALCULATING THE DERIVATIVE OF RELU ACTIVATION IN THE TASK OF TRAINING A NEURAL NETWORK

I.N. Nabrodova, A.D. Ivanov

Three approaches to the calculation of the derivative function of a linear rectifier are considered. The approaches are implemented on the example of the problem of classification of handwritten digits from the MNIST data set. The paper is devoted to a comparison of different approaches to a calculation of the derivative of ReLU activation function. Three approaches to the solution of the problem are presented. Approaches are realized on the example of solving the problem of classification of handwritten figures from the MNIST data set.

Key words: neural networks, machine learning, derivative calculation, ReLU, linear rectifier, activation function.

Nabrodova Irina Nikolaevna, candidate of technical sciences, docent, ira19 78@tsu. tula. ru, Russia, Tula, Tula State University,

83

Ivanov Alexander Dmitrievitch, student, worn777@gmail.com, Russia, Tula, Tula State University

УДК 519.8

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ОПТИМИЗАЦИИ СОСТАВА АППАРАТНЫХ СРЕДСТВ БОРТОВЫХ ИНФОРМАЦИОННЫХ

И УПРАВЛЯЮЩИХ СИСТЕМ

О.В. Есиков, В.В. Сигитов, С.М. Цыбин

Рассмотрены принципы построения бортовых информационных и управляющих систем сложных технических комплексов. Формализованы математические модели оптимизации состава программных и аппаратных средств современных бортовых информационных и управляющих систем

Ключевые слова: бортовые информационные и управляющие системы, дискретная оптимизация.

В основе современных концепций построения бортовых информационных и управляющих систем (БИУС) [1] лежит открытая сетевая архитектура и единая вычислительная платформа. Функции систем комплекса технических средств в этом случае выполняют программные приложения, разделяющие общие вычислительные и информационные ресурсы. Открытость архитектуры БИУС позволяет для их построения использовать компоненты от разных производителей. Это обеспечивает возможность выбора конфигурации аппаратных средств БИУС под решение конкретного круга задач, последующей модернизации системы.

Реализация данного подхода к построению БИУС сложных технических систем (СТС) и комплексов требует решения целого круга задач, в первую очередь связанных с определением конфигурации вычислительных и программных средств, управлением вычислительными ресурсами и процессами обработки данных. От результата решения данных задач зависит эффективность функционирования БИУС и образца СТС.

Задачи, решаемые в области построения БИУС.

1. Определение состава аппаратных средств.

2. Определение состава программных средств.

3. Определение плана распределения программных средств функциональных задач в системе вычислительных средств.

Задача определения состава программных средств БИУС определяет вариант построения ПО обеспечивающий максимальное задействование программных компонентов в реализации функций системы, при наложении ограничений на объемы занимаемой оперативной и долговременной памяти [2]. Решение данной задачи позволит определять составы комплектов унифицированного ПО (как общего, так и специального) для БИУС различного уровня и назначения.

i Надоели баннеры? Вы всегда можете отключить рекламу.