Научная статья на тему 'Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки'

Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки Текст научной статьи по специальности «Математика»

CC BY
131
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
НЕЯВНАЯ РЕГУЛЯРИЗАЦИЯ / ГРАДИЕНТНЫЙ МЕТОД / СКОРОСТЬ СХОДИМОСТИ / ЛИНЕЙНАЯ РАЗДЕЛИМОСТЬ / КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ / IMPLICIT REGULARIZATION / GRADIENT METHOD / CONVERGENCE RATE / LINEAR SEPARABILITY / IMAGE CLASSIFICATION

Аннотация научной статьи по математике, автор научной работы — Куликовских Илона Марковна

Последние исследования в области глубокого обучения показали, что метод градиентного спуска при условии почти идеальной разделимости обучающей выборки сходится к оптимальному решению, обеспечивающему максимальный зазор между классами. Даже без введения явной регуляризации положение разделяющей гиперплоскости продолжает изменяться, несмотря на то, что ошибка классификации на обучении стремится к нулю. Данное свойство так называемой «неявной» регуляризации позволяет использовать градиентный метод с более агрессивным шагом обучения, что гарантирует более низкие вычислительные затраты. Однако, хотя метод градиентного спуска обеспечивает хорошую обобщающую способность при стремлении к оптимальному решению, скорость сходимости к данному решению в условиях почти идеальной линейной разделимости значительно ниже, чем скорость сходимости, определяемая самой функцей потерь с заданным шагом обучения. В данной работе предлагается расширенная логарифмическая функция потерь, оптимизация параметров которой повышает скорость сходимости, обеспечивая границу погрешности, эквивалентную границе метода градиентного спуска. Результаты вычислительных экспериментов при классификации изображений на эталонных наборах MNIST и Fashion MNIST подтвердили эффективность предложенного подхода к снижению вычислительных затрат в условиях почти идеальной линейной разделимости обучающей выборки и обозначили направления дальнейших исследований.Previous research in deep learning indicates that iterations of the gradient descent, over separable data converge toward the L2 maximum margin solution. Even in the absence of explicit regularization, the decision boundary still changes even if the classification error on training is equal to zero. This feature of the so-called “implicit regularization” allows gradient methods to use more aggressive learning rates that result in substantial computational savings. However, even if the gradient descent method generalizes well, going toward the optimal solution, the rate of convergence to this solution is much slower than the rate of convergence of a loss function itself with a fixed step size. The present study puts forward the generalized logistic loss function that involves the optimization of hyperparameters, which results in a faster convergence rate while keeping the same regret bound as the gradient descent method. The results of computational experiments on MNIST and Fashion MNIST benchmark datasets for image classification proved the viability of the proposed approach to reducing computational costs and outlined directions for future research.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Куликовских Илона Марковна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки»

Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки

И.М. Куликовских 12,3

1 Самарский национальный исследовательский университет имени академика С.П. Королёва, 443086, Россия, г. Самара, Московское шоссе 34, 2 Факультет электротехники и вычислительной техники, Загребский университет, 10000, Хорватия, г. Загреб, Унска 3, 3 Институт Руджер Бошкович, 10000, Хорватия, г. Загреб, Биеничка 54

Аннотация

Последние исследования в области глубокого обучения показали, что метод градиентного спуска при условии почти идеальной разделимости обучающей выборки сходится к оптимальному решению, обеспечивающему максимальный зазор между классами. Даже без введения явной регуляризации положение разделяющей гиперплоскости продолжает изменяться, несмотря на то, что ошибка классификации на обучении стремится к нулю. Данное свойство так называемой «неявной» регуляризации позволяет использовать градиентный метод с более агрессивным шагом обучения, что гарантирует более низкие вычислительные затраты. Однако, хотя метод градиентного спуска обеспечивает хорошую обобщающую способность при стремлении к оптимальному решению, скорость сходимости к данному решению в условиях почти идеальной линейной разделимости значительно ниже, чем скорость сходимости, определяемая самой функцей потерь с заданным шагом обучения. В данной работе предлагается расширенная логарифмическая функция потерь, оптимизация параметров которой повышает скорость сходимости, обеспечивая границу погрешности, эквивалентную границе метода градиентного спуска. Результаты вычислительных экспериментов при классификации изображений на эталонных наборах MNIST и Fashion MNIST подтвердили эффективность предложенного подхода к снижению вычислительных затрат в условиях почти идеальной линейной разделимости обучающей выборки и обозначили направления дальнейших исследований.

Ключевые слова: неявная регуляризация, градиентный метод, скорость сходимости, линейная разделимость, классификация изображений.

Цитирование: Куликовских, И.М. Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки / И.М. Куликовских // Компьютерная оптика. - 2020. - Т. 44, № 2. - С. 282-289. - DOI: 10.18287/2412-6179-CO-645.

Citation: Kulikovskikh IM. Reducing computational costs in deep learning on almost linearly separable training data. Computer Optics 2020; 44(2): 282-289. DOI: 10.18287/2412-6179-CO-645.

Введение

В ряде последних исследований обнаружена важная особенность моделей глубокого обучения [1, 2], сводящая к минимуму ошибку обучения на почти идеально линейно разделимых выборках [3 - 9]. Без явной регуляризации модели с большим числом параметров часто демонстрируют хорошую способность к обобщению, поскольку итерации градиентного метода продолжают смещать разделяющую гиперплоскость к оптимальному положению, даже если ошибка классификации на обучении равна нулю [4]. Данное явление получило название «неявной» регуляризации [3, 4, 8, 9]. Свойство «неявной» регуляризации позволяет градиентному спуску проходить траекторию оптимизации более агрессивно, без перерегулирования, что, в свою очередь, приводит к значительной экономии вычислительных затрат.

Несмотря на очевидные преимущества наличия неявной регуляризации, скорость сходимости, определяемая самой функцией потерь с заданным шагом обучения, является линейной O(1/t), тогда как скорость сходимости к оптимальному решению в условиях почти линейной разделимости классов лишь логарифмическая O(1/ln t) [7].

Наиболее часто используемый подход к повышению скорости сходимости заключается в применении методов оптимизации с переменным шагом, таких как Adam [10], Adagrad [11], Adadelta [12] и т. д. [13, 14]. Использование адаптивных шагов обучения снижает смещение, но приводит к ухудшению обобщающей способности [6, 13, 15]. Кроме того, направление оптимизации адаптивных методов менее предсказуемо в сравнении с неадаптивными методами [8].

В работе [7] исследовано влияние различных типов функций потерь на скорость сходимости. Соглас-

но результатам проведённого исследования, функции потерь с экспоненциальными хвостами достигают оптимальной скорости сходимости, равной О(1п //V/). В данной работе предлагается модификация логарифмической функции потерь, которая сводится к экспоненциальной и логистической функции потерь при заданных значениях гиперпараметров. Оптимизация данных параметров приводит к скорости сходимости, близкой к О(1п //V/) и О (1//), гарантируя границу погрешности метода градиентного спуска.

Данная статья изложена следующим образом. Параграф 1 посвящён математической постановке задачи. Параграф 2 описывает предлагаемый в работе подход к снижению вычислительных затрат в условиях почти линейной разделимости обучающей выборки. В параграфе 3 приведены результаты вычислительных экспериментов при классификации изображений. В заключении перечислены основные результаты, рекомендации по практическому использованию и дальнейшие направления исследований.

1. Математическая постановка задачи

Дана совокупность наблюдений

{х,, у }™1,

где х, е М" и у, е {0, 1}. Поставим задачу минимизации эмпирической функции потерь

l (е)=£ i ( eTx,.),

(1)

где 6 е М" задает вектор параметров модели. По аналогии с постановкой задачи в [4], для простоты представления сделаем предположение, что V/ е {1, ..., т} : у, — 1. Рассмотрим случай, когда выборка наблюдений почти идеально разделима, т.е. 36* такое, что V/ : 6*тх,- > 0, где лишь объекты-выбросы классифицируются неверно [16], а функция потерь I является гладкой строго убывающей неотрицательной функцией:

V/ е К : I (/) > 0,1' (/) < 0,1ипI (/) = ИтI' (/) = 0 , (2)

имеющей непрерывный по Липшицу градиент с константой р > 0:

l (t ')< l (t ) + (vl (t), t'-1)

+ P|| t'-t f.

(3)

где lim l' (t) * 0.

Согласно Определению 2 в работе [7], отрицательная производная функция потерь -I '(/) имеет экспоненциальный хвост, если существуют положительные константы с, а, /+, /-, такие, что:

V/ > /+ : I' (/) > с (1 + ехр (-ц+ /)) ехр (-а/), V/ > : I' (/) < с (1 + ехр (-ц-/)) ехр (-а/).

Определения (2) и (3) при различных значениях констант включают множество функций потерь, включая экспоненциальную и логарифмическую функции.

Решение задачи min L (е) может быть найдено на

ееК"

j -й итерации метода градиентного спуска с шагом

m

е j+i = е j -4Vl (е j) = е j - i' j) x. (4)

,=1

В работах [4] было показано, что в условиях идеальной разделимости выборки наблюдений справедливо равенство:

е, =е in t+Pt,

где невязки р t ограничены и

(5)

1 = argmin||

ееЯ"

Tx, >1,

откуда следует, что скорость сходимости в направлении гиперплоскости, максимизирующей зазор

= O

1

in t

(6)

При этом

е/х,

min-

где

J_ in t

Tx, 1

d = maxmin-

е ,

максимальный зазор.

Как видно из постановки задачи, норма весов не минимизируется, т.е. ((б^) ^ да, тогда как V/ : 6/ х , > 0 при / ^ да, что гарантирует I'(6/т х , ) ^ 0, 1(6) ^ 0, а следовательно, сходимость к глобальному минимуму. Соотношение (6) представляет скорость сходимости зазора к максимальному, но не 6^- к 6. Таким образом, оценка скорости сходимости предполагает анализ не нормы весов, а лишь направления, т.е. величины 6/ / ||6/||.

2. Расширенная функция потерь

Для повышения скорости сходимости (6) предложим расширенную функцию потерь вида:

l (t; a, b, r, q) = a +-

b - a

(7)

( (

1 -

1 -

b - a P0 + a

exp (-rt)

для которой

2

,=1

l' (t; a, b, q ) = r (( (t; a, b, q )- a )> q

l (t; a, b, r, q )-b - a

-1

где нижняя а и верхняя Ь асимптоты удовлетворяют 0 < а < Ь < 1, начальное значение нижней асимптоты Р0 удовлетворяет 0 < Р0 < Ь - 2а, скорость роста функции г > 0, обобщающий параметр q > 0, позволяющий регулировать разницу темпов ускорения и замедления роста функции (7). В работах [18, 19] приводится интерпретация предложенной функции потерь через модели динамики популяций в контексте трансдисциплинарных исследований.

Применяя тождество [17]

ln(x) = lim1 (xq -1)

q^» q v '

(8)

к выражению (7), получим следующее определение:

l(t;a,b,r) = a + (b -a)exp(c(a,b)exp(-rt)),

такое, что Vt e К : l (t; a, b, r) > 0,

liml (t; a,b, r) = b - a, lim l (t; a,b,r) = a,

t^» v y t ^-да v ;

c (a, b ) = ln ^ ), c (a, b )< 0. Тогда

l' (t; a, b, r ) = (b - a )c (a, b )r x x exp (-rt - c(a, b)exp (-rt)),

такое, что Vt e К : l '(t; a, b, r) < 0,

lim l' (t; a, b, r) = lim l' (t; a, b, r) = 0.

Если q = 1 и P0 = (b - 3a)/2, то выражение (7) примет вид:

(9)

b - a

l (t; a, b, r ) = a +--г--.

v ' 1 + exp (-rt)

(10)

Заметим, что при а = 0, Ь = 1 и г =1 функция (7) сводится к сигмоидальной, которая является симметричной с темпом ускорения, эквивалентным темпу замедления.

3. Анализ скорости сходимости

Опустив член (Ь - а) с (а, Ь)г < 0, который задаёт знак, представим выражение (7) в виде:

I' (,; с (а, Ь), г ) = - ехр (-/ (( с (а, Ь), г)), (11)

где

f (t; c (a, b), r) = rt - c (a, b )exp (-rt).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(12)

Функция f '(t; a, b, r) является строго возрастающей

при

, , ln(-c (a, b))

И > v v ' "

г

Для /(,*; с (а, Ь), г) > 0 функция является положительной при с (а, Ь) > -ехр (-1). Если с (а, Ь) < -1, то , > 0, и, если с (а, Ь) < -ехр (г), то , > 1.

Метод градиентного спуска (4) с учётом градиента (6), построенного на основе расширенной функции потерь (5), примет вид:

6 j+1 =6 j-"Л^ l' (x; a, b, r )

(13)

Проведём анализ скорости сходимости и покажем, что введение расширенной функции потерь в (9) позволяет получить скорость сходимости на (почти) линейно разделимой выборке, эквивалентную:

= O

lnt + W0 (c(a,b)/1)

(14)

где ^0 задаёт ^-функцию Ламберта.

Ниже кратко представлены основные положения теоретического обоснования справедливости (14), аналогичные обоснованию, представленному в [4] для выражения (6). Данные положения включают:

a) анализ сходимости (13) к гиперплоскости с максимальным зазором;

b) оценку скорости сходимости зазора к максимальному.

1) Пусть I ' (,; а, Ь, г) задана согласно (12) и V/ : 6/ х , ^ да. Если

6tTx, lim-¡¡—¡г-

t^» 6.

то

6t =6gt (c(a,b),r) + Pt (c(a,b),r), где gt (c (a, b), r) ^ », Vi : 6»T x i > 0 и

(15)

1ппкфМ:!=0.

'gt (с(а,Ь),г)

Для компактности представления введём следующие обозначения: gt=gt(с (а, Ь), г), р, = р, (с (а, Ь), г). Представим градиент расширенной эмпирической функции потерь с учётом (15) в виде:

-VI (б,, I' (; а, Ь, г )) =

т , ,

=Х ехр (-/ ( х,.; с (а, Ь), г))х, = (16)

/=1 т

= X ехр (-/ 6„тх + Р,тX; с (а, Ь), г))х,.

i= 1

Функция f (t; a, b, r) является возрастающей. Таким образом, при gt ^ да выражение exp(-f(gi9«T х i + piT x ,■; c (a, b), r)) становится более отрицательным, так как Vi : 6MT х , > 0 и ||pt|| = o(gt). Следовательно, при условии, что f (t; c (a, b), r) растёт достаточно быстро, наблюдения с минимальным зазором arg min,- 8«T х t будут формировать сумму (16). Как результат, 0t, а следовательно, и

A 0t

min I 0„T Xj

являются неотрицательной комбинацией опорных векторов [4], описывающих условия Каруша-Куна-Таккера для метода опорных векторов.

0 = Ха> х-

Vi: (а, > 0, 0Tх = 1) v (а, = 0, 0Tх > 1

Таким образом, 6 да пропорционально 6 . 2) Запишем

6,' = -УЬ (6,,I'(,; а,Ь, г)) =

т , , .

= X ехр (-/ ( х; с (а, Ь), г ))х

/=1

Определим множество индексов

^ Т

Б = а^тш,- 6 х, таких, что

^ т

V/ е Б: 6 х, = 1.

Если /(,; с (а, Ь), г) растёт достаточно быстро, то при , ^ да вклад неопорных векторов в формирование градиента становится незначительным:

m , ,

0t' «Xexp(-f (0tTX;c(a,b),r))x .

(17)

Предположим, что р, сходится в направлении а с вектором, ортогональным опорным векторам Ь. Тогда асимптотическое соотношение (15) примет вид:

= 0gt + ah, + b

(18)

где h, = o (gt).

С учётом (18), выражение (17) может быть преобразовано к виду:

6я,'+ аИ,' *

т . ,

* X ехр (-/ (6 ,т х,я + атх,-И'; с (а, Ь), г) )х.

/еБ

Перепишем последнее соотношение с учётом разложения в ряд Тейлора,

^ 1

И, — о (я,) и 6 х, = 1, V, е Б :

Л т ,

6я' * X ехр (-/ (я; с (а, Ь), г) +

+аТхИ/' (я,; с (а, Ь ), г )) х * * ехр (-/ ((; с (а, Ь), г ))х

т

хХехр(-аТх,И/'((; с (а, Ь), г))х. Положим

я,' = ехр (-У (я,;с (a, Ь ) г))

И' = (/' (я,; с (а, Ь ), г ))-1 и V, е Б : ехр(-аТх , ) — а,.

Для решения уравнения относительно qt воспользуемся 1п( /'(,)) — о (/ (,)) [4], откуда

я,' = ехр (-/ (я,; с (а, Ь), г))- 1п (/' (я,; с (а, Ь), г)), я, = /-1 (1п (, + С)).

Находя обратную функцию с учётом определения

(12)

f 1 (х ) =

х + W0 (c (a, b)exp (-х))

где W0 задаёт W-функцию Ламберта, получим: lnt + W0 (c(a,b)/1)

g, =■

(19)

что позволяет гарантировать скорость сходимости (14).

Проведём анализ скорости сходимости я, (с (а, Ь), г) при различных значениях гиперпараметров с (а, Ь) и г. Оценим, как введение параметров функции я, (с (а, Ь), г) влияет на её скорость роста в сравнении с имеющейся скоростью 1п , и требуемыми скоростями V, и ,.

На рис. 1 представлены кривые 1/я,, пересекающие кривую 1/я(,), где я(,) задаёт требуемую скорость в точках ,*, являющихся решением 5 (,*; с (а, Ь), г) — 0, где

5(;c(a,b),r) = g, -g(),

liim*g(c(a,b^r)=^.

Заметим, что пересечение с кривой 1/ 1п , на обоих рисунках отсутствует, что говорит о более высокой скорости сходимости для предложенной функции потерь. На рис. 1а можно видеть, что на начальном участке диаграммы (3, г) сходится к 1/^, тогда как на рис. 16 наилучшие результаты достигаются для скорости (1, г), которая сходится к 1/,. Из рис. 1 также видно различие во влиянии каждого из

■=1

r

r

гиперпараметров: величина с (а, Ь) изменяет наклон функций роста (с (а, Ь), г), тогда как параметр г задаёт смещение относительно 1/^Г и 1//. Точные решения Г* для различных с (а, Ь) и г представлены в табл. 1. Прочерки в таблице указывают на отсутствие пересечений между (с (а, Ь), г) и 1/g (Г), а следовательно, отсутствие их асимптотической сходимости. Значения для 1/ 1п Г не представлены в таблице ввиду отсутствия пересечений с каждой из анализируемых кривых, что указывает на достоинства предложенного в работе подхода к повышению скорости сходимости.

т)

10°-. \ \ \ N N. 4 4

10-'- HIM! ,<=>4 4

а) 100 im 101 t

10°, \ \ \ N 4 Г—l/lnt — 1/y/t .......1/t — Щ1.Г)

—. '— ■— .__

10-'-.

б)

100

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10'

Рис. 1. Анализ функций роста в сравнении с исходной 1/ 1п Г и требуемыми при с (а, Ь) = {1; 3; 10}: г = 1 (а), г = 0,5 (б)

Табл. 1. Значения решений Г* для заданных с (а, Ь) = {1; 3; 10} и г = {1; 0,5}

t*(r;c) r = 1 r = 0,5

1/Vr 1/t 1/Vt 1/t

1Ш1) - - 0,841 2,298

1/gA.t,3) 2,074 1,094 0,087 3,551

1/gA.t,10) 7,054 2,025 4,714 4,903

Результаты проведённого анализа сходимости представлены для выбранных значений параметров г и с (а, Ь), задающих область определения расширенной функции потерь. В свою очередь, метод градиентного спуска (8) предполагает оптимизацию данных гиперпараметров на каждой итерации ], что даёт лучшую аппроксимацию функции скорости 1/g (Г) с помощью 1/gt (с (а, Ь), г) и приводит к более высокой скорости сходимости, близкой к и 0(1/Г), га-

рантируя границу погрешности метода градиентного спуска.

4. Вычислительные эксперименты

Выше описан общий подход к повышению скорости сходимости градиентного метода с помощью расширенной функции потерь. Данный подход может быть адаптирован на случай более широкого класса градиентных методов при решении задач классификации с целью минимизации вычислительных затрат.

Для наблюдения эффекта неявной регуляризации вычислительные эксперименты предполагали многоклассовую классификацию изображений на наборах MNIST и Fashion MNIST с помощью модели нейронной сети как наиболее широкое приложение глубокого обучения [20]. Модель включала два скрытых слоя с 10 нейронами на каждом из них. Для обучения сети использовался метод стохастического градиента, построенный на основе (13) [19]. Функции активации на скрытых и выходном слоях были построены на основе расширенной функции потерь (10) с оптимальными гиперпараметрами r, a и b.

Целью вычислительной экспериментов являлся анализ влияния «неявного» смещения, задаваемого методом оптимизации, на выход последнего слоя сети в случае, когда последний скрытый слой становится почти линейно разделимым после заданного количества итераций [4, 7, 21]. Обучающие выборки для каждого набора данных были разбиты на подвыбор-ки для обучения и контроля на основе 5-fold CV. Обучение сети выполнялось при питераЧий = 1000 и Ппакетов = 25 для реализации метода стохастического градиента, оптимизация гиперпараметров - с помощью случайного поиска [22] со случайным выбором 15 % возможных сочетаний параметров. Для снижения временных затрат оптимизация параметров r, a и b выполнялась на Питераций = 1, что должно оказать влияние на результат классификации уже на начальном этапе обучения. На рис. 2 и 3 приведены результаты обучения модели на наборах MNIST и Fashion MNIST.

Прежде всего, на представленных рисунках можно наблюдать эффект неявной регуляризации: кривые функции потерь на обучении приближаются к нулю, кривые функции потерь на контроле начали возрастать, но точности классификации на контрольных выборках по-прежнему растут с каждой итерацией.

Из рис. 2 можно видеть, что рост кривой функции потерь на всем интервале обучения от 1 до 1000 итераций для стандартной модели (c (a, b), r)def в сравнении с расширенной моделью (c (a, b), r)opt выше в 88,3 раза (см. рис. 2a). Прирост точности при использовании расширенной модели для 1, 100 и 1000 итераций на 0,54%, 0,53 % и 0,36%, соответственно (рис. 2е). Данный результат указывает на то, что при использовании расширенной модели достаточно меньшего количества итераций для обеспечения приемлемой точ-

ности классификации без существенного прироста, что существенным образом снижает вычислительные результаты.

В случае набора Fashion MNIST (см. рис. 3) рост кривой функции потерь на всем интервале для стандартной модели в сравнении с расширенной моделью выше в 3,4 раза (см. рис. 3а). Прирост точности для 1,

обут

10-2±-

б) 10

чение

0,982 0,981 ■ 0,980 0,979 0,978 0,977 0,976

-(a, b,г) opt

---(a,b,r)def

\ ma'KV

Ч. I

•г

в) 10° 10' 102 итерации

Рис. 2. Результат обучения модели на наборе ММ1БТ: функция потерь на обучении (а); функция потерь на контроле (б), точность классификации на контроле (в)

100 и 1000 итераций достигает 30,8 %, 2,94 % и 1,05 %, соответственно (см. рис. 3е). Данный результат также указывает на достоинства расширенной модели, требующей меньшего количества итераций для значительного прироста точности классификации, что также приводит к снижению вычислительных результатов.

0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50

»да ни. .....

У / -(а,Ъ,г) opt ---(a,b,r)def

/

/ /

/ t

в) 10° 10' 102 итерации

Рис. 3. Результат обучения модели на наборе Fashion MNIST: функция потерь на обучении (а), функция потерь на контроле (б), точность классификации на контроле (в)

Заключение

В данной работе был предложен способ снижения вычислительных затрат в глубоком обучении с помощью расширенной функции потерь с гиперпараметрами. Теоретический анализ показал, что обучение модели с расширенной функцией потерь приводит к более высокой скорости сходимости, близкой к 0(1/^/) и 0(1//), гарантируя границу погрешности ме-

тода градиентного спуска. Эмпирический анализ выявил, что при построении модели обучения на основе расширенной функции потерь достаточно меньшего количества итераций как для получения устойчивого приемлемого значения точности классификации без существенного прироста, так и для обеспечения значительного прироста данного значения, что существенным образом снижает вычислительные результаты.

Дальнейшие направления исследований связаны с более детальным теоретическим анализом и построением асимптотических оценок скоростей сходимости на различных интервалах определения гиперпараметров.

Благодарности

Автор выражает признательность рецензенту за замечания и рекомендации, которые привели к повышению качества представления материалов исследования. Работа выполнена при поддержке грантов Президента РФ (проект № MK-6218.2018.9), Ми-нобрнауки РФ (проект № 074-U01), РФФИ (№ 1837-00219), а также проекта DAT ACROSS Центра Превосходства, финансируемого Правительством Хорватии и Европейским Союзом через Европейский фонд регионального развития - Операционная программа конкурентоспособности и сплочения (KK.01.1.1.01.0009).

Литература

1. LeCun, Y. Deep learning / Y. LeCun, Y. Bengio, G. Hinton // Nature. - 2015. - Vol. 521(7553). - P. 436-444. - DOI: 10.1038/nature14539.

2. Goodfellow, I. Deep learning / I. Goodfellow, Y. Bengio, A. Courville. - Cambridge, London: The MIT Press, 2016.

- 800 p. - ISBN: 978-0-262-03561-3.

3. Neyshabur, B. In search of the real inductive bias: On the role of implicit regularization in deep learning [Electronical Resource] / B. Neyshabur, R. Tomioka, N. Srebro // arXiv preprint. - URL: https://arxiv.org/abs/1412.6614 (request date 5.12.2019).

4. Soudry, D. The implicit bias of gradient descent on separable data / D. Soudry, E. Hoffer, M.S. Nacson, S. Gunasekar, N. Srebro // Journal of Machine Learning Research. - 2018.

- Vol. 19. - P. 1-57.

5. Zhang, C. Understanding deep learning requires rethinking generalization / C. Zhang, S. Bengio, M. Recht, O. Vinyals // arXiv preprint arXiv:1611.03530v2, 2017.

6. Hoffer, E. Train longer, generalize better: closing the generalization gap in large batch training of neural networks [Electronical Resource] / E. Hoffer, I. Hubara, D. Soudry // arXiv preprint. - URL: https://arxiv.org/abs/1705.08741 (request date 5.12.2019).

7. Nacson, M.S. Convergence of gradient descent on separable data / M.S. Nacson, J. Lee, S. Gunasekar, N. Srebro, D. Soudry // 2019 22nd International Conference on Artificial Intelligence and Statistics (AISTATS). - 2019. -Vol. PMLR 89. - P. 3420-3428.

8. Gunasekar, S. Characterizing implicit bias in terms of optimization geometry / S. Gunasekar, J. Lee, D. Soudry, N. Srebro // 2018 35th International Conference on Machine Learning (ICML). - 2018. - Vol. PMLR 80. - P. 1832-1841.

9. Ma, C. Implicit regularization in nonconvex statistical estimation: Gradient descent converges linearly for phase retrieval and matrix completion / C. Ma, K. Wang, Y. Chi,

Y. Chen // 2018 35th International Conference on Machine Learning (ICML). - 2018. - Vol. PMLR 80. - P. 33453354.

10. Kingma, D.P. Adam: A method for stochastic optimization [Electronical Resource] / D.P. Kingma, J.L. Ba // arXiv preprint. - URL: https://arxiv.org/abs/1412.6980 (request date 5.12.2019).

11. Duchi, J. Adaptive subgradient methods for online learning and stochastic optimization / J. Duchi, E. Hazan, Y. Singer // Journal of Machine Learning Research. - 2011. - Vol. 12. - P. 2121-2159.

12. Zeiler, M.D. ADADELTA: An adaptive learning rate method [Electronical Resource] / M.D. Zeiler // arXiv preprint. -URL: https://arxiv.org/abs/1212.5701 (request date 5.12.2019).

13. Kim, H.S. Convergence analysis of optimization algorithms [Electronical Resource] / H.S. Kim, J.H. Kang, W.M. Park, S.H. Ko, Y.H. Cho, D.S. Yu, Y.S. Song, J.W. Choi // arXiv preprint. - URL: https://arxiv.org/abs/1707.01647 (request date 5.12.2019).

14. Ruder, S. An overview of gradient descent optimization algorithms [Electronical Resource] / S. Ruder // arXiv preprint. - URL: https://arxiv.org/abs/1609.04747 (request date 5.12.2019).

15. Wilson, A.C. The marginal value of adaptive gradient methods in machine learning / A.C. Wilson, R. Roelofs, M. Stern, N. Srebro, B. Recht // 2017 31st Conference on Neural Information Processing Systems (NIPS). - 2017. -P. 1-11.

16. Воронцов, К.В. Математические методы обучения по прецедентам (теория обучения машин) [Электронный ресурс] / К.В. Воронцов. - URL: http:// www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения 01.12.19).

17. Castañeda, A.R.S. New formulation of the Gompertz equation to describe the kinetics of untreated tumors / A.R.S. Castañeda, E.R. Torres, N.A.V. Goris, [et al.] // PLoS ONE. - 2019. - Vol. 14, Issue 11. - e0224978.

18. Kulikovskikh, I. BioGD: Bio-inspired robust gradient descent / I. Kulikovskikh, S. Prokhorov, T. Lipic, T. Legovic, T. Smuc // PLoS ONE. - 2019. - Vol. 14, Issue 7. -e0219004.

19. Kulikovskikh, I. An SGD-based meta-learner with "growing" descent / I. Kulikovskikh, S. Prokhorov, T. Legovic, T. Smuc // Journal of Physics: Conference Series. - 2019. -Vol. 1368. - 052008.

20. Савченко, А.В. Метод максимально правдоподобных рассогласований в задаче распознавания изображений на основе глубоких нейронных сетей / А.В. Савченко // Компьютерная оптика. - 2017. - Т. 41, № 3. - С. 422430. - DOI: 10.18287/2412-6179-2017- 41-3-422-430.

21. An, S. How can deep rectifier networks achieve linear separability and preserve distances? / S. An, F. Boussaid, M. Bennamoun // 2015 32nd International Conference on Machine Learning (ICML). - 2015. - Vol. PMLR 375. -P. 514-523.

22. Bergstra, J. Random search for hyperparameter optimization / J. Bergstra, Y. Bengio // Journal of Machine Learning Research. - 2012. - Vol. 13. - P. 281-305.

Сведения об авторе

Куликовских Илона Марковна является постдокторским исследователем на факультете электротехники и вычислительной техники Загребского университета и в Лаборатории машинного обучения и представления знаний в Институте Руджер Бошкович. Работает доцентом на кафедре информационных систем и технологий

Самарского университета. В 2008 году окончила Самарский государственный аэрокосмический университет по специальности «Автоматизированные системы обработки информации и управления». В 2011 году защитила диссертацию на соискание степени кандидата наук по специальности «Математическое моделирование, численные методы и комплексы программ» в Самарском национальном исследовательском университете. Имеет более 100 публикаций, среди которых 6 книг и учебных пособий. Область научных интересов: машинное обучение, анализ сигналов, статистический анализ данных, вычисления на основе принципов организации живых организмов и непрерывное обучение. E-mail: kulikovskikh.i@smail.com .

ГРНТИ: 28.23.25

Поступила в редакцию 13 октября 2019 г. Окончательный вариант - 13 декабря 2019 г.

Reducing computational costs in deep learning on almost linearly separable training data

I.M. Kulikovsvkikh1-2-3 1 Samara National Research University, 443086, Russia, Samara, Moskovskoe Shosse 34, 2 Faculty of Electrical Engineering and Computing, University of Zagreb, 10000, Croatia, Zagreb, Unska 3, 3 Rudjer Boskovic Institute, 10000, Croatia, Zagreb, Bijenicka cesta 54 Abstract

Previous research in deep learning indicates that iterations of the gradient descent, over separable data converge toward the L2 maximum margin solution. Even in the absence of explicit regu-larization, the decision boundary still changes even if the classification error on training is equal to zero. This feature of the so-called "implicit regularization" allows gradient methods to use more aggressive learning rates that result in substantial computational savings. However, even if the gradient descent method generalizes well, going toward the optimal solution, the rate of convergence to this solution is much slower than the rate of convergence of a loss function itself with a fixed step size. The present study puts forward the generalized logistic loss function that involves the optimization of hyperparameters, which results in a faster convergence rate while keeping the same regret bound as the gradient descent method. The results of computational experiments on MNIST and Fashion MNIST benchmark datasets for image classification proved the viability of the proposed approach to reducing computational costs and outlined directions for future research.

Keywords: implicit regularization, gradient method, convergence rate, linear separability, image classification.

Citation: Kulikovskikh IM. Reducing computational costs in deep learning on almost linearly separable training data. Computer Optics 2020; 44(2): 282-289. DOI: 10.18287/2412-6179-CO-645.

Acknowledgements: This work was supported by the Russian Federation President's grant (Project No. MK-6218.2018.9), the Ministry of Education and Science of the Russian Federation (Project No. 074-U01), RFBR (Project No. 18-37-00219), and the Centre of Excellence project "DATACROSS", co-financed by the Croatian Government and the European Union through the European Regional Development Fund - the Competitiveness and Cohesion Operational Programme (KK.01.1.1.01.0009).

References

[1] LeCun Y, Bengio Y. Deep learning. Nature 2015; 521(7553): 436-444. DOI: 10.1038/nature14539.

[2] Goodfellow I, Bengio Y, Courville Y. Deep learning. Cambridge, London: The MIT Press; 2016. ISBN: 978-0262-03561-3.

[3] Neyshabur B, Tomioka R, Srebro N. In search of the real inductive bias: On the role of implicit regularization in deep learning. Source: (https://arxiv.org/abs/1412.6614).

[4] Soudry D, Hoffer E, Nacson MS, Gunasekar S, Srebro N. The implicit bias of gradient descent on separable data. J Mach Learn Res 2018; 19: 1-57.

[5] Zhang C, Bengio S, Recht M, Vinyals O. Understanding deep learning requires rethinking generalization. arXiv preprint arXiv: 1611.03530v2, 2017.

[6] Hoffer E, Hubara I, Soudry D. Train longer, generalize better: closing the generalization gap in large batch training of neural networks. Source: (https://arxiv.org/abs/1705.08741).

[7] Nacson MS, Lee J, Gunasekar S, Srebro N, Soudry D. Convergence of gradient descent on separable data. 2019 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) 2019; PMLR 89: 3420-3428.

[8] Gunasekar S, Lee J, Soudry D, Srebro N. Characterizing implicit bias in terms of optimization geometry. 2018 35th

International Conference on Machine Learning (ICML) 2018; PMLR 80: 1832-1841.

[9] Ma C, Wang K, Chi Y, Chen Y. Implicit regularization in nonconvex statistical estimation: Gradient descent converges linearly for phase retrieval and matrix completion. 2018 35th International Conference on Machine Learning (ICML) 2018; PMLR 80: 3345-3354.

[10] Kingma DP, Ba JL. Adam: A method for stochastic optimization. Source: (https://arxiv.org/abs/1412.6980).

[11] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. J Mach Learn Res 2011; 12: 2121-2159.

[12] Zeiler MD. ADADELTA: An adaptive learning rate method. Source: (https://arxiv.org/abs/1212.5701).

[13] Kim HS, Kang JH, Park WM, Ko SH, Cho YH, Yu DS, Song YS, Choi JW. Convergence analysis of optimization algorithms. Source: (https://arxiv.org/abs/1707.01647).

[14] Ruder S. An overview of gradient descent optimization algorithms. arXiv preprint arXiv:1609.04747, 2016.

[15] Wilson AC, Roelofs R, Stern M, Srebro N, Recht B. The marginal value of adaptive gradient methods in machine learning. 2017 31st Conference on Neural Information Processing Systems (NIPS) 2017: 1-11.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[16] Vorontsov KV. Mathematical methods for supervised learning (machine learning theory) [In Russian]. Source:

(http:// www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf).

[17] Castañeda ARS, Torres ER, Goris NAV, González MM, Reyes JB, González VGS, et al. New formulation of the Gompertz equation to describe the kinetics of untreated tumors. PLoS ONE 2019; 14(11): e0224978.

[18] Kulikovskikh I, Prokhorov S, Lipic T, Legovic T, Smuc T. BioGD: Bio-inspired robust gradient descent. PLoS ONE 2019; 14(7): e0219004.

[19] Kulikovskikh I, Prokhorov S, Legovic T, Smuc T. An SGD-based meta-learner with "growing" descent. J Phys: Conf Ser 2019; 1368: 052008.

[20] Savchenko AV. Maximum-likelihood dissimilarities in image recognition with deep neural networks. Computer Optics 2017; 41(3): 422-430. DOI: 10.18287/2412-61792017-41-3-422-430.

[21] An S, Boussaid F, Bennamoun M. How can deep rectifier networks achieve linear separability and preserve distances? 2015 32nd International Conference on Machine Learning (ICML) 2015; PMLR 375: 514-523.

[22] Bergstra J, Bengio Y. Random search for hyperparameter optimization. J Mach Learn Res 2012; 13: 281-305.

Author's information

Ilona M. Kulikovskikh is a postdoctoral researcher of Electrical Engineering and Computing faculty at the University of Zagreb and the Laboratory for Machine Learning and Knowledge Representation at the Ruder Boskovic Institute. She is an associate professor of Information Systems and Technologies department at Samara National Research University. She defended her graduation work in Computer Science at Samara State Aerospace University with distinction in 2008 and received her PhD in Signal Processing, Data Processing and Automation Control from Samara National Research University in 2011. She is an author of more than 100 refereed scientific papers published in Russian and in English. Among them are six co-authored monographs and study books. Her research interests are in the areas of machine learning, signal processing, statistical data processing, bio-inspired computing, and life-long learning. E-mail: kulikovskikh.i@smail.com .

Received October 13, 2019. The final version - December 13, 2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.