УДК 519.85
А. Д. Агафонов1, Ф. С. Стонякин1'2
1 Московский физико-технический институт (национальный исследовательский университет) 2Крымский федеральный университет им. В. И. Вернадского
Градиентные методы для задач оптимизации, допускающие существование неточной сильно выпуклой модели целевой функции
Введены некоторые аналоги известной концепции (6, L, ^)-оракула Деволдера-Глинера-Нестерова для задач оптимизации. При этом выделены различные типы условий относительной гладкости, а также относительной сильной выпуклости оптимизируемой функции. Приведены примеры задач выпуклой и сильно выпуклой оптимизации, допускающих существование неточных моделей такого типа. В частности, это задачи сильно выпуклой композитной оптимизации, а также решение оптимизационной задачи, возникающей при рассмотрении модели электоральных процессов Ю. Е. Нестерова. Исследуются адаптивный и неадаптивный градиентный методы для задач оптимизации, допускающих неточные модели в рассматриваемом нами смысле. Обоснована линейная скорость сходимости этих методов и показано, что на итерациях не накапливаются погрешности. Приведены некоторые численные эксперименты по сравнению скорости сходимости адаптивного и неадаптивного методов. Предложен подход к проблеме накопления погрешностей для быстрого градиентного метода с помощью специальной техники его рестартов (перезапусков).
Ключевые слова: градиентный спуск, быстрый градиентный спуск, рестарты, модель функции, композитная оптимизация.
A.D. Agafonov1, F. S. Stony akin1'"2
1
2
Gradient methods for optimization problems that allow for the existence of an inexact strongly convex model of
the objective function
In this paper, some analogs of the Devolder-Glineu-Nesterov (S, L, ^)-oracle are introduced for optimization problems.At the same time, various types of conditions of relative smoothness and relative strong convexity of the objective function are highlighted. Examples of convex and strongly convex optimization problems admitting the existence of inexact models of this type, are given. In particular, these are problems of strongly convex composite optimization and the solution of optimization problem arising in the Y. Nesterov's electoral model. The adaptive and nonadaptive gradient methods for optimization problems that allow for the inexact model are studied. The linear rate of convergence of these methods is justified and it is shown that there is no error accumulation on iterations. Some numerical experiments comparing the rate of convergence of adaptive and nonadaptive methods are presented. An approach to the problem of the accumulation of errors for the fast gradient method is proposed using a special technique of its restarts.
Key words: gradient decent, fast gradient descent, restarts, function model, composite optimization.
© Агафонов А. Д., Стонякин Ф. С., 2019
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2019
1. Введение
Многие методы оптимизации в своей основе содержат идею замены оптимизируемой функции на некоторую более простую функцию-модель, которая достаточно хорошо аппроксимирует исходную функцию. После этой замены предлагается решать задачу оптимизации уже не для исходной функции, а для ее модели. Это можно сказать, например, о таких популярных сейчас в приложениях методах, как градиентный метод (ГМ) и быстрый градиентный метод (БГМ). В основу обоих методов положена идея аппроксимации функции в исходной точке (текущем положении метода) мажорирующим ее параболоидом вращения и выбора точки минимума параболоида вращения в качестве нового положения метода.
Недавно О. Деволдером, Ф. Глинером и Ю.Е.Нестеровым в [1] была введена концепция (5, £)-оракула как модели типа параболоида вращения, но с неточной информацией о значениях целевого функционала и градиента. Эта идеология была развита в работе [2], где было предложено обобщение (6, Ь)-оракула — (5, £)-модель целевого функционала. На базе предложенной концепции (5, £)-модели [2] сделана попытка унифицировать подходы к различным, на первый взгляд, классам задач оптимизации.
Данная работа посвящена аналогу концепции (5, £)-модели [2], позволяющую формировать методы градиентного типа линейной скоростью сходимости. Точнее, вводятся две разновидности понятия (S, L, ^)-модели, в некоторой степени описывающие ситуацию, близкую к классу сильно выпуклых задач. Предложенные концепции (ö, L, ^)-модели, по сути, представляют собой обобщение известного (ö, L, ^)-оракула Деволдера-Глинера-Нестерова. При этом предлагаемая концепция аккумулирует идею описания неточной модели функции типа параболоида вращения, а также подобные [3] условия относительной гладкости оптимизируемого функционала.
Мы рассматриваем несколько методов градиентного типа для задач оптимизации целевой функции, допускающей (ö, L, ^)-модель в произвольной запрошенной точке. Первые два из них аналогичны неускоренному градиентному спуску с различными подходами при выборе шага (постоянный и адаптивный). Третий предлагаемый метод построен на базе быстрого градиентного метода и предполагает процедуру его перезапусков, позволяющую учесть условие относительной гладкости целевого функционала, а также параметр неточности 5 модели.
Статья состоит из введения и пяти основных разделов. В разделе 2 вводятся необходимые вспомогательные понятия, а также концепция (5, L, ^)-модели целевого функционала. Разделы 3 и 4 посвящены неускоренным методам типа градиентного спуска, которые используют (5, L, ^)-модель в произвольной запрошенной точке, оценкам их скорости сходимости. В разделе 5 предлагается подход к известной проблеме накопления погрешностей [1] быстрого градиентного метода с помощью специальной техники его рестартов (перезапусков) и сам метод рассмотрен для относительно гладких функционалов. В последнем разделе 6 рассмотрены примеры задач, для которых можно применять рассматриваемые в работе подходы. А именно, это задача композитной оптимизации [6, 7] и модель описания электоральных процессов Ю.Е.Нестерова [6]. Также отдельно выписаны оценки скорости сходимости для случая, когда можно утверждать сильную выпуклость модели функции в рассматриваемой точке.
2. Концепция (ö,L,ß)~модели целевого функционала
В работе мы рассматриваем следующую задачу оптимизации:
f (х) ^ min,
x£Q
где
• Q £ Мга — выпуклое и замкнутое множество,
• f (х) — непрерывная функция,
• f (х) ограничена снизу на Q и достигает своего минимума в ж* £ Q.
Часто для оценивания качества решения в случае неевклидовых норм и расстояний используют так называемую дивергенцию Брэгмана [6]. Напомним это понятие.
Определение 1. Дивергенцией Брэгмана называется равенство
V(х, у) = d(x) - d(y) - (Vd(y),х - у), где d(x) — произвольная выпуклая функция на Q.
Замечание 1. Обычно в определении 1 дополнительно требуется 1-сильная выпуклость функции d. Тогда d называется прокс-функцией.
Далее, введем определение (5, L, ^)-модели функции, аналогичной (5, Ь)-модели функции из работы [2], и являющейся обобщением (5, L, ^)-оракула из работы [4].
Определение 2. Будем говорить, что функция f допускает (5, L, ^)-модель в точке х, если для любого у £ Q верно
ßV(у, х) < f (у) - (fs(х) + ф5(у, х)) < LV(у, х) + 5, (1)
где ф$(у,х) — выпуклая по у функция, ф$(х, х) = 0, 5 > 0.
Напомним определение обычной ^-сильно выпуклой функции:
§ - у\\2 < f (х) - f (у)-(Vf(х),у - х)
и определение (5, Ь)-модели выпуклой функции f в точке х £ Q:
Уу £ Q : f (у) - (fs(X) + Ф&(у, X)) < LV(у, х) + 5. (2)
Замечание 2. Нетрудно заметить, что (ö, L, ^)-модель функции также является (5, L)-моделью.
Замечание 3. Если d(x - у) ^ Cn\\x - у\\2, Cn = 0(logп), тогда V(х,у) ^ Сп\\х - у\\2 и ^Сга-сильная выпуклость
|||Ж - у\\2 < f (х) - f (у) - ф&(х,у) влечет за собой относительную ^-сильную выпуклость:
ßV(х,у) + fs(у) + ф5(х,у) < f (х). Следствие 1. Возьмем в (1) у = х, тогда
fS (х) < f (х) < f (х)+ 6. Рассмотрим концепцию неточного решения задачи, представленную в [2]: Определение 3. Рассмотрим задачу
ф(х) ^ min, xeQ
где ф(х) — выпуклая функция. Тогда Argmin^ф(х) — множество таких ж, что
3h £ дф(х), (h, х - ж) ^ -5Ух £ Q. Произвольный элемент из Argmin^ф(х) будем называть argmin^ф(х).
Рассмотрим следствие: Следствие 2. Пусть ж £ Argmin^ф(х), тогда ж — 5-решение по функции.
Доказательство. Пусть ж £ Argmin^ф(х), тогда то выпуклости ф(х) имеем ф(х) ^ ф(х) + (g,x - ф(х) + 5, где д £ дф(х). Возьмем ж = ж*, тогда ф(х) - ф(х*) ^ 5. Это означает, что ж — 5-решение по функции.
3. Градиентный метод с оракулом, использующий (ö,L,ß)~модель целевого функционала в запрашиваемой точке
Рассмотрим алгоритм градиентного спуска с оракулом, использующим (5, L, ^)-модель
И, [9].
1: Дано: х° £ Q — начальная точка. 2: for к = 0,... do
3: Находим хк+1 следующим образом:
xk+l = arg min < ф&(х, хк) + LV(х, хк) > , (3)
* Г-Т-'I
4: end for
Algorithm 1: Градиентный метод с оракулом, использующий(£, L, ^)-модель.
Замечание 4. Считаем, что задача (2) решается лишь в следующем смысле:
(Vxk+iЩхк+1,хк),хк+1 - х< £
Докажем техническую лемму, которая нам пригодится далее [2]. Лемма 1. Пусть ф(х) выпуклая функция и
у = arg тт{^(ж) + V(х, z)}. 6
Тогда
ф(х) + V(х, z) ^ ф(у) + V(у, z) + V(х, у) - S, Ух £ Q. Доказательство. По определению 3,
Зд £ дф(у), (д + VyV(y,z),x - у) ^ -S, Ух £ Q.
Тогда неравенство
ф(х) - ф(у) ^ (д,х - у) ^ (VyV(у, z),y - х) - И
и равенство
(VyV(у, z),y - х) = (Vd(y) - Vd(z),y - х) = d(y) - d(z) - (Vd(z),y - z)+ +d(x) - d(y) - (Vd(y),x - y) - d(x) + d(z) + (Vd(z),x - z) = = V(y,z) + V(x,y) - V(x,z)
завершают доказательство.
Теорема 1. Пусть функция f допускает (ö, L, ß)-модель в каждой точке х £ Q. Тогда, после к итераций алгоритма, 1 верно следующее неравенство:
f (Ук+1) - f Ы < LV(x*,x°)exp (-(к + 1)+ 5 + 5,
где ук = argmini=1,k(f (хг)).
Доказательство. После к итераций алгоритма 1 по лемме 3 получаем
-5 < ф6(х, хк) - ф&(xk+1, хк) + LV(х, хк) - LV(х, xk+1) - LV(хк+1,хк),
следовательно,
IV(х,хк+1) < 5 + ф6(х,хк) -ф6(хк+1,хк)+ЬУ(х,хк) -IV(хк+1,хк). (4)
По правой части неравенства из определения 2
-IV(хк+1,хк) < 6- ¡(хк+1) + ¡3(хк)+ф6(хк+1,хк). Используя (3), получаем
IV(х, хк+1) < I - ¡(хк+1) + (хк) + ф&(х, хк) + IV(х, хк). (5)
По левой части неравенства из определения 2
(хк)+ф&(х,хк) < ¡(х) -рУ(х,хк). Применим это неравенство к формуле (4):
IV(х, хк+1) < 5 + 5 + }(х) - }(хк+1) + (£ - ^(х, хк). (6)
Положим х = х*. Тогда
V(х*,хк+1) < (/(х*) - /(хк+1) + 5 + £ + (1 - £) V(х*, хк) <
1+11 - £
< (/(х*) - ¡(хк+1) + 5 + 5) £ +
+ (1 - £) ((;(х*) - *(х") +5 + 5) 1+ (1 - £) V(х*,хк-1)) <
т1 . , ■ - ■ - I г ■ у- ^*,хк-1 ^
' £ \ £ /
< ... < (1 - £ Г1 V (х*, х0) + £ £ (1 - £ У (/(х*) - Пхк+1-г) + * + *) .
£ у * ' £ г=0
Следовательно, имеем
£ Е (1 - £ У (¡(хк+1-г) - ¡(х*)) < (1 - £ Г1 V (х*, х0) + £ £ (1 - £ у («+1).
г=0 г=0
Пользуясь определением ук+1 и следующим фактом:
£ Е (1 - £)' = £ (1 - (1 Г) ■
í=0 г 4 7
получаем
(л — Е\к+1 _ к+1
¡(Ук+1) - 1(х*) < £ К , Ь' V(х*,х0) + 6 + 6 ^Ь (1 - V(х*,х0) + 6 + 6
1 _ п _ V и
\к+1
л - (1 - ^ (х*,х0)+^ + 8
и, используя известное неравенство, что е-х ^ 1 - х Ух ^ 0, приходим к итоговой оценке: Кук+1) - Кх*) ^ЬV(х*,х0)ехр (-(к + 1)£) + £ + 5.
1: Дано: х0 — начальная точка, у > 0 L0 ^ и §. 2: Пусть S0 := 0 3: for k ^ 0 do
4: Найти такое наименьшее iк ^ 0, что
1(хк+1) * }(хк) + ф6(хк+1,хк) + Lk+1V(хк+1, хк) + 5, (7)
где Lfc+i = 2lk-1Lk для Lk ^ и Lk+i = 2%kLk для Lk < 2/л, &к+1 := Sk+i := Sk + ak+1-
Vк+1{х):=ф& (х,хк) + L^V^^1"), хк+1 := aargmin5 ^к+1(х). (8)
xeQ
5: end for
Algorithm 2: Адаптивный градиентный метод для концепции ( 5, L, у)-модели целевой функции.
4. Адаптивный градиентный спуск для минимизации функций, допускающих (8,L,y)~модель целевого функционала в запрашиваемой точке
Теперь рассмотрим аналог алгоритма 1 с адаптивным выбором шага (алгоритм 2). Мы оправляемся от [5], где похожий метод был предложен для задач сильно выпуклой композитной оптимизации при условии наличия точной информации о значении целевого функционала и градиента в запрашиваемой точке.
Изначально задается значение Lo ^ Затем на (k + 1)-й (k = 0,1, 2,...) итерации параметр Lk+1 берётся в 2 раза меньше, чем Lk. После этого происходит увеличение Lk+1 в 2 раза и решение вспомогательных задач (8) до тех пор, пока не выполнится критерий выхода из итерации (7). Поскольку (у,х) есть (5, L, у)-модель /, то понятно, что (7) выполнится при Lk+1 ^ L и поэтому в какой-то момент гарантированно произойдёт переход к следующей итерации.
Очевидное преимущество предложенного алгоритма 2 по сравнению с алгоритмом 1 —
L
стоимость итерации за счёт повторения шагов типа (8) на каждой итерации. В то же время предлагаемая процедура подбора Lk+1 в алгоритме 2 позволяет показать, что количество шагов типа (8) не превышает
2L
2N + log2—, Lo
т.е. в среднем стоимость итерации алгоритма 2 сопоставима со стоимостью итерации алгоритма 1.
Перейдём к получению оценки скорости сходимости данного метода. Для этого введем усредняющий параметр L:
i - !='Vi17^-^^7-!) •
Обратим внимание, что по Li ^ у (г = 1, 2,...):
min Li * L * max Li * 2L.
Справедлива следующая Теорема 2. Пусть фg(х, у) — (5, L, у)-модель для f относительно V(у,х). После k итераций алгоритма 2 имеем,:
V (х,.х>+) * ^ (l - (1 - £ Г) + (l - L )Т V (х,.х°). (9)
Н^) - 1Ы < ^^ (1 - (1 - £Г) +2^ 1 - £)^ V(х*,х0). (10)
к
3 для всякого х € Q:
-5 < фй(х, хк) - ф&(хк+1,хк) + (х, хк) - (х, хк+1) - (хк+1,хк).
Это означает, что
-к^(х, хк+1) < 6 + ф6(х, хк) - ф6(хк+1,хк)+ (11)
+Ьk+lV(х,хк) -1^(хк+1,хк). Кроме того, ф^ (х, у) — (5, 1)-модель относительно V (у ,х), и из неравенства
!(хк+1) < !(хк) + фз(хк+1,хк) + 1к+1¥(хк+1,хк) + 5
получаем
-1^(хк+1,хк) < 5- ¡(хк+1) + ¡(хк) + ф&(хк+\хк). Теперь (11) означает
(х, хк+1) < 1 +5 - ¡(хк+1) + /(хк) + фё(х, хк) + (х, хк). (12)
Поскольку фъ(х, у) — (5, 1, ц)-модель для /, имеем
¡(хк) + ф6(х, хк) < ¡(х) - ¿V(х, хк).
Принимая во внимание (12), мы получаем
(х, хк+1) < I + 5 + ¡(х) - ¡(хк+1) + (£к+1 - №(х, хк). (13)
Пусть х = х*. Поскольку —о ^ 21, то -к+1 ^ 21 для каждого к ^ 0. Мы также предполагаем в алгоритме 2, что -к+1 ^ ц. Таким образом, имеем
■1 < 1 (Ук = 0,1,2 ...).
21 Ьк+1 £
Тогда У г € N :г < к имеем
О - 0 - ^-(1 - £) < (1 - 2Ы <">
Таким образом, получаем
V(х*,хк+1) < ;(х*) - + 5 + 5 + (1 V(х*,хк)
Ьк+1
( £к+1)
1(хк+1) /(х*) + V(х*,хк+1) < Ьк+1
+ (1 - 1Е- \ V {х*,х*)<(,+¡) + £-(1 - -и
Ьк+1 \ Ьк+1 / \Ьк+1 Ьк \ Ьк+1
< ^ - ^^ (х*,хк) < (5 + 5)( + £-(1 - ) +
Ьк+1 \ £к+1/ \Ьk+1 £к \ £к+1) )
(1 - 7е-) (1 - ЬL)v(х*.хt) < ... < (« + «) (т~ + т (1 - ~Г~) +
V Ьк+1 / V Ьк / \Ьк+1 Ьк \ Ьк+1/
+ — - ) - Е ) Ьк-1 \ Ьк+1) \ Ьк)
.. ,1 -1&) [1-+ - + + Т1 (1 - ^ )(1 - ^)-(1 - +
+(1 - ^ )(1 - -к) ••• (1 )y
и
Л^Ь/Ы + V(„„И1, < Ш £ (1 - й)' - ^ V(х.,х0) < (15)
Теперь с учетом (14) имеем
к+1
-Т(1 4(1 - ^
у
^ (1 - (1 - &Г) <1 ™
Наконец, имеем
к+1
р^ (1 - (1 - ) + (! -что по (15)—(16) и Ьк+1 ^ 2Ь означает
V(х^.х,, < (г - (1 - £)к+1) + (г -V{х.,х>), (17)
П,к+1) - Дх,) < (1 - (1 - +2^1 - |) Пх..А (18)
Преимущество алгоритма 1 заключается в том, что для работы алгоритма нет необходимости знать параметр сильной выпуклости у. С другой стороны, этот параметр необходим для оценки качества решения, возвращаемого алгоритмом. Преимущество адаптивной версии состоит в том, что она не требует знания значение параметра Ь и адаптивно на него настраивается. Кроме того, параметр Ь может быть разным для модели в разных точках, и алгоритм адаптируется также для локального значения этого параметра.
Рассмотрим пару примеров работы алгоритмов 1 и 2 для минимизации у-сильно выпуклых целевых функционалов N переменных на единичном шаре В 1(0) с центром в нуле относительно стандартной евклидовой нормы. Ясно, что такие функционалы допускают (5, Ь, у)-модель стандартного вида (х, у) = (Ч/(у),х - у), если градиент удовлетворяет условию Липшица. В первом из рассматриваемых примеров легко оценить Ь и у, причем отношение ^ не очень мало, что обеспечивает вполне приемлемую скорость сходимости неадаптивного метода (см. табл. 1). Во втором же примере выбранная задача более нетривиальна и приводит к настолько малому отношению что компьютер считает величину 1 - ^ равной 1 и теорема 3 для неадаптивного алгоритма вообще не позволяет оценить скорость сходимости. При этом использование адаптивного алгоритма 2 приводит к заметным результатам (см. табл. 2 ниже).
Рассмотрим функцию
¡(х) =*1 + 2*2 + 3*3 + ... + Nх2N
на шаре радиуса 1 с центром в нуле ( = В1(0).
Рассмотрим случай N = 100 переменных, а также входные данные: у = 2, Ьо = 2у, Ь = 2N х0 = ||(°'2'"'о'2)|| — начальное приближение.
Результаты сравнения работы алгоритмов 1 и 2 представлены в сравнительной таблице 1, где К — количество итераций работы этих алгоритмов.
Как видим из табл. 1, в предыдущем примере неадаптивный метод сходится не хуже адаптивного. Однако возможна ситуация, когда ^ слишком мало, что при водит к 1 - ^ ~ 1. В таком случае теорема 3 вообще не может позволить оценить скорость сходимости метода. Приведем соответствующий пример для целевого функционала:
N
f(хl,...,XN ) = ^(Н + е-кхк).
к=1
Нетрудно проверить, что для такого функционала можно выбрать у = 2 +1 и Ь = 2N+N2е и программа считает величину 1 - ^ равной 1. Однако использование алгоритма 2 с адап-
Ь
зультаты, которые мы приведем в табл. 2.
Таблица!
Результаты выполнения алгоритмов
Неадаптивный Адаптивный
К Время, Ч:ММ:СС Точность решения Время, Ч:ММ:СС Точность решения
160 0:01:19 0.19827 0:05:25 0.02110
180 0:01:27 0.16220 0:05:55 0.01258
200 0:01:36 0.13264 0:07:11 0.00750
220 0:01:55 0.10849 0:07:19 0.00474
240 0:01:57 0.08873 0:07:56 0.00282
Таблица2
Результаты выполнения алгоритма
Адаптивный
К Время, Ч:ММ:СС Точность решения
50 0:07:37 0.71273
100 0:14:27 0.51241
150 0:23:00 0.372301
200 0:28:07 0.27334
250 0:34:32 0.19699
300 0:43:10 0.14456
Все вычисления были произведены с помощью программного обеспечения CPvthon 3.7 на компьютере с 3-ядерным процессором AMD Athlon II ХЗ 450 с тактовой частотой 803,5 МГц на каждое ядро. ОЗУ компьютера составляло 8 Гб.
5. Об одной схеме рестартов быстрого градиентного метода с оракулом, использующим (5,Ь,ц)~модель целевой функции в запрашиваемой точке
Данный пункт посвящен модификации известного быстрого градиентного метода [2] для случая выполнения некоторого условия относительной сильной выпуклости используемой модели целевого функционала. Мы рассмотрим быстрый градиентный метод (алгоритм 3), использующий (§, L)-модель [2]. В этом случае критерий выхода из итерации будет выглядеть так:
fs(xk+l) < fs(yk+l)+ фб(xk+\yk+1) + ^- /+1||2 + 5k.
Поэтому уже необходима 1-сильная выпуклость дивергенции Брэгмана, т.е. здесь нет возможности говорить об условиях относительной гладкости [3].
В [2] доказана следующая оценка скорости сходимости Алгоритма 3:
/) - Í(**) < d+fp + (19)
В данном разделе работы с использованием техники рестартов (перезапусков) предложен вариант быстрого градиентного метода для минимизации функций, допускающих (§, L, ц)-модель функции в точке.
При этом потребуются некоторые дополнительные предположения. Пусть (х, х*) ^ 0. Заметим, что это естественное допущение к примеру для стандартной модели
1: Дано: х° £ Q — начальная точка, N — количество шагов, 5, 5 и Lo > 0. 2: 0 -шаг:
у0 := х0, и0 := х°, Ll := L, a0 := 0, А0 := a0
3: for k = 1, ... do
4: Находим наибольший корень:
ak+l : Ak + ak+l = Lk+Iak+1
5:
Ak+l : = Ak + ak+l
6:
yk+i .= ak+iuk + Akxk Ak+l
7:
<Pk+l(x) = V(x,uk) +ak+i^s(x, yk+l) uk+l := aigmin6(£>k+l(x)
xeQ 8:
xk+l = ak+luk+l + Ak xk Ak+l
9: if U(xk+l) < fs(yk+l) + ф&(xk+l, yk+l) + ^r\\xk+l -yk+l\? + 5 then 10: Lk+2 := ^rn перейти к следующему шагу 11: 12
13
14
else
Lk+l := 2Lk+l и повторить текущий шаг end if end for
( , L)
фб(x,y) = {Vf (x),y — x)yx,y £ Q. Отметим, что для предполагаемого подхода необходимо несколько модифицировать ранее введенное понятие (5, L, |)-модели.
Определение 4. Будем говорить, что функция f допускает правую (5, L, |)-модель в точке x , если Уу £ Q верно
lV(x, у) < f(y) — (fs(x) + фё(у, x)) < LV(у, x) + 5,
где ф$(у, x) — выпуклая по у функция, (x, x) = 0, 5 > 0.
Замечание 5. Заметим, определения 2 и 4 эквивалентны, когда для проке-функции выполняется
d(x — у) ^CJx — у\\,Сп = O(logn).
Этот случай описан в замечании 2.
( , L, I ) ( , L, I )
N
IV (x*,xN1) < f(xN1) — f(x*) < ^^^ + 8N£ + 2N\5. (20)
Выберем число итераций так, чтобы было верно
N1
N"1
(21)
Потребуем, чтобы V(х*,хМг) ^ У(х*.'х ^. Тогда
9Ь 1 Ь
< -,N1 ^ 6*-6.
4 V р
Выберем
N1 =
6Н! —
(22)
Теперь после итераций перезапускается метод. Аналогично, будем делать второй рестарт после N2 итераций таких, что V(х*,хМ2) ^ ^. Итого итераций после к рестар-
тов:
М = к-
6-
Рассмотрим, сколько итераций требуется для достижения точности е = /(хМк) — £(х*). Из неравенства (8) после к перезапусков: к ^ log4 . Возьмем
к =
Всего итераций:
М =
log4
log4
Ц.К2
Ц.К2
6,,1 -
Теперь рассмотрим точность е, которую мы можем достичь. Мы потребовали, чтобы для каждого к удовлетворяло следующему неравенству:
+ 2Мк5 <
где =
2Ь
6 —
. Таким образом, мы можем достичь следующей точности е:
3
е > 1^ 19«
+ Ь5
Итак, справедлива следующая теорема. Теорема 3. Пусть функция ¡'допускает про, вую (5, Ь, у)-модель в произвольной точке х е и
* > ^ 19«
+ Ь5
Тогда предложенная схема с рестартами алгоритма 3 позволяет гарантированно достичь точности е по функции за
М =
^4
^К2
6А1 -
итерации.
е
е
3
£
6. Некоторые примеры и следствия
В заключительном пункте мы покажем, как можно улучшить оценки скорости сходимости для алгоритма 1 при дополнительном предположении т-сильной выпуклости модели функции в запрашиваемой точке. Ясно, что для т-сильно выпуклой модели похожее усиление оценок будет наблюдаться и для других рассмотренных в работе методов. В завершение мы приводим ряд примеров задач, к которым возможно применить рассмотренные в настоящей работе подходы и методы, причём в модельной общности и для условий относительной гладкости.
6.1. Сравнение результатов для выпуклых и сильно выпуклых функций
Еще раз заметим, что алгоритм 1 работает в рамках как (5,1)-модели, так и (5, Ь, ц)-модели, так как константа сильной выпуклости никаким образом не входит в алгоритм. Сравним оценки скорости сходимости в этих случаях. Оценку скорости сходимости для (5,1)-модели возьмем из [2]:
/(Ук+1) — /(х*) < 1Т1 + 26 + 5.
Нами же была получена следующая оценка для (5, Ь, ^)-модели:
/(Ук+1) — /(х*) < ЬЯехр {-(к + 1)£) + 5 + £
Мы получили, что алгоритм 1 работает быстрее для (5, Ь, ц)- без накопления о шибок 5 и 5 на итерации.
6.2. Уточнение оценок в случае сильно выпуклой модели
Рассмотрим случай т-сильной выпуклости функции ф$ (х, у) по х в определении (5, Ь)-модели и алгоритм 1.
После к итераций алгоритма 1 по лемме 3 с учётом т-сильной выпуклости ф$(х,у) по х получаем
-<5 ^ ф6(х, хк) - ф6(хк+1, хк) - тУ (х, хк+1) + ЬУ (х, хк) - ЬУ (х, хк+1) - ЬУ (хк+1,хк), следовательно,
(Ь + т)У(х, хк+1) < <5 + ф&(х, хк) - ф&(хк+1,хк) + ЬУ(х, хк) - ЬУ(хк+1,хк). (23) По правой части неравенства (2):
-ЬУ (хк+1,хк) < 5 - /(хк+1) + ¡& (хк) + ф& (хк+1,хк). Используя (11), получаем
(т + Ь)У(х, хк+1) < <5 + 5 - }(хк+1) + Д (хк) + ф&(х, хк) + ЬУ(х, хк). (24)
По левой части неравенства (2): (хк) + ф$(х,хк) ^ £(х). Используя (12) получим
V(Х*,хк+1) < (/(х*) - /(хк+1) + ~5 + 5)+ У(х*,хк) < а(х*) - /(хк+1))+
+а(х*) - /(хк) + 6 + 6)—^г+( —У(х*,хк-1) < ... —У(х*,х0)+
Т„К~*, , . ~ . г . . (х*,хк-1) <... +
т + Ь т + Ь \т + Ь) \т + Ь)
+4т е (-+т)г и (х*) - / (хк-г+1)+5+~5)-
т + Ь ^ \т + Ь/
Просуммируем указанные выше неравенства:
Л / _L_V _ 1 (О^) + - ^ 1 - (m++L У+ + ч
т + Ь \т + Ь) т + Ь — 1 т '
г=0 т+Ь
Таким образом, получаем
{-+-Т1 ~
Иук+1) - Их*) < т Кт+Ч V (х*,х°) +5 + 5 <
!-(-ЬЛ
1 \т+Ь]
< (т + Ь)ехр(--^(к + 1)) V(х*,х0)+6 + И.
т + Ь
Теперь рассмотрим уточнение оценок в случае (5, Ь, ц)-мод ел и.
По левой части определения ( 5, Ь, ц)-модели: (хк) + ф$(хк) ^ ¡(х) — цУ (х,хк). По аналогии с предыдущем пунктом тут появится множитель Просуммируем:
L-ßV 1
'¿(ш + L)
((^ Г- 1- (^Г
т + L \т + LI т + L L-iL _ 1 т + ß
г=0 4 7 m+L
Таким образом, получаем
(ь+Лк+1 _
f (ук+1) - f(x*) < (т + ß) ym+Lj хк+1 V(х„ х°) + 6 + 6 <
^ L-LY+1
1 \m+L
< (т + L) exp(-(к + 1)) V(х*,х0) + 5 + 5. \ т + L J
1
1
ТаблицаЗ
Сравнительный анализ оценок скорости сходимости алгоритма 1 для функционалов, допускающих (5, Ь, ц)
(ö, L)-модель (ö, L, ß)-мoдeль
Фё (х,у) — выпукла по х 4L ~к L exp (-(к + 1) L)
Фё(х, у) — т-выпукла по х (т + L) exp ( -(к + 1) т ) V т + L ) (т + L)exp( (к + 1)т + ß) т + L
6.3. Пример задачи: композитная оптимизация
Рассмотрим задачу композитной оптимизации [5]:
f(x) _ д(х) + h(x) ^ min, (25)
где д(х) — ß-сильно выпуклая и гладкая функция с L-липшицевым градиентом, h(z) — выпуклая функция простой структуры (не обязательно гладкая). Согласно липшицевости градиента и сильной выпуклости д(х) имеем
ßV(у, х) < f(y) - f(^) - (Vg(х),у -х) - Цх) + h(y).
Тогда в качестве функции -ф^(у,х) для задачи (10) возьмем
Ф&(У,х) = {Vg(x),y - х) + h(x) - h(y).
Заметим, что (у, х) сильно выпукл а по у, если h(x) сильно выпукла.
Таким образом, все результаты настоящей работы имеют место для указанного класса задач (сильно выпуклой) композитной оптимизации. Примером такой задачи композитной оптимизации с сильной выпуклой моделью может служить следующая задача минимизации [7,9]:
1 п f (х) = öWAx - № + lnxk ^ min •
2 xeSn(Y)
6.4. Об одном примере задачи кластеризации многомерных данных
Рассмотрим пример задачи оптимизации, допускающей (5, L, ^)-модель. Это относится к модели описания электоральных процессов, предложенной Ю.Е.Нестеровым в [6]. В этой модели избиратели (точки данных) выбирают партию (кластер) итеративным способом путем альтернативной минимизации следующей функции:
п
fßi,ß2(х = (Z,P)) = д(х)+ ßi V Zk ln zk + ^\\p\\l ^ min , (26)
k=l
pm
где М™ — неотрицательный ортант и 5П(1) является стандартным п-мерным симплексом в Мга.
Вектор г содержит вероятности, с которыми избиратели выбирают рассматриваемую партию, а вектор р описывает положение партии в пространстве мнений избирателей. Минимизированный потенциал является результатом объединения двух задач оптимизации в одну: избиратели выбирают партию, позиция которой наиболее близка к их личному мнению, а партия корректирует свою позицию, минимизируя дисперсию и стараясь не отходить слишком далеко от своей первоначальной позиции. Ю. Нестеров в [6] использовал последовательный процесс выборов, чтобы показать, что при некоторых естественных допущениях процесс сближается и дает кластеризацию точек данных. Это было сделано для конкретного выбора функции д, которая имеет ограниченную интерпретируемость. В пособии [9] (упражнение 3.6) показано, как рассматриваемая в работе структура неточной модели цели позволяет построить метод градиентного типа для случая общей функции д, которая не обязательно является выпуклой. Предположим, что д(х) (которая, вообще говоря, невыпукла) имеет 1д-липшицев градиент:
\\Ъд(х) -Ъд(у)\\* < Ьд||ж - у\\ Ух,у е Бп(1) х , (27)
и, следуя [6], числа ^ выбраны так, что Ьд ^ ^ и Ьд ^
Норма \\ ■ \\ in 5п(1) х Rm определена как \\(z,p)\\2 = \\z\\f + \\р\\^, гДе \Nb = S zk и
_ k=1
m
\2 = . Pk- действительно норма, так как для х = (zx,px) и у = (zy,ру) имеем V k=1
+у\\ = ф^Х+^Ж+ьХ+^М <
<
< Vi l^x \ \ 2 +\ \ Px \ \ 2 + у/\\Zy \ \ 1 + \ \ Ру \ \ 2 = N1 +
потому что л/(а + Ь)2 + (с + d)2 ^ л/а2 + с2 + л/b2 + d2 для каждого а, b,c,d ^ 0. Можно показать, что
Ф&(х,у) = {^д(у),х - у) - Lg ■ KL(Zx\zy) - \\Px - Ру \\2+
п
+
+MKL() - KL(zy|1)) + f (\\'Px\\2 - \\Vy 112)
есть (0, 2Lg)-модель для f^(x) в x относительно следующей дивергенции Брэгмана:
V(x, у) = KL(zx 1 Zy) + J\\px - py
21
Более того, ф1£п(х, у) есть (0, тах{цх, ц2} + Ьд, тт{ц\, ц2} — Ьд) -модель функции
/м(у) + ф1Г(х,у) + (шт&и^ — Ьд)У[у](х) < (х) (28)
(х) < ¡^ (у)+фЧп(х, у) + (тах{щ, Ц2} + Ьд )У [у](х). (29)
Таким образом, возможно применить наши алгоритмы 1 и 2 к задаче (26).
Авторы выражают признательность Гасникову Александру Владимировичу и Двуреченскому Павлу Евгеньевичу за полезные обсуждения.
Результаты пункта 4 данной работы выполнены при поддержке гранта Российского научного фонда 18-71-00048.
Литература
1. Devolder О., Glineur F., Nesterov Yu. First-order methods of smooth convex optimization with inexact oracle // Mathematical Programming. 2014. V. 146(1-2). P. 37-75.
2. Тюрин A.M., Гасников А.В. Быстрый градиентный спуск для задач выпуклой миними-
( , L)
вычислительной математики и математической физики. 2019. Т. 59, № 7. С. 1137-1150.
3. Lu Н., Freund R.M., Nesterov Y. Relatively smooth convex optimization by Firstorder methods, and applications // SIAM Journal on Optimization. 2018. V. 28(1), P. 333-354.
4. Gupta M.D., Huang T. Bregman distance to 11 regularized logistic regression // ICPR. 2008. Дост. по ссылке: https://arxiv.org/pdf/1004.3814.pdf.
5. Гасников А.В., Камзолов Д.И., Мендель М.А. Основные конструкции над алгоритмами выпуклой оптимизации и их приложения к получению новых оценок для сильно выпуклых задач // Труды МФТИ. 2016. Т. 8, № 3. С. 25-42.
6. Nesterov Yu. Soft clustering by convex electoral model // Core Discussion Paper. 2018. Дост. по ссылке: https://ideas.repec.Org/p/cor/louvco/2018001.html.
7. Devolder O., Glineur F., Nesterov Yu. First-order methods with inexact oracle: the strongly convex case // CORE Discussion Papers. 2013. Дост. по ссылке: https://dial.uclouvain.be/pr/boreal/object/boreal:128723.
8. Nesterov Yu. Gradient methods for minimizing composite functions // Math. Program. 2013. V. 140, N 1. P. 125-161.
9. Гасников А.В. Современные численные методы оптимизации. Метод универсального градиентного спуска. Москва : МФТИ, 2018.
и
References
1. Devolder O., Glineur F., Nesterov Yu. First-order methods of smooth convex optimization with inexact oracle. Mathematical Programming. 2014. V. 146(1-2). P. 37-75.
2. Tyurin A.I., Gasnikov A. V. Fast gradient descent method for convex optimization problems with an oracle that generates a (5, L)-model of a function in a requested point // Computational Mathematics and Mathematical Physics. 2019. V.59, №7. P. 1137-1150.
3. Lu, H., Freund R.M., Nesterov Y. Relatively smooth convex optimization by Firstorder methods, and applications. SIAM Journal on Optimization. 2018. V. 28(1), P. 333-354.
4. Gupta M.D., Huang T. Bregman distance to 11 regularized logistic regression. ICPR. 2008. Available at https://arxiv.org/pdf/1004.3814.pdf.
5. Gasnikov A.V., Kamzolov D.I., Mendel M.A. Basic design of convex optimization algorithms and their application to obtain new estimates for strongly convex problems. Proceedings of MIPT. 2016. V. 8, № 3. P. 25-42.
6. Nesterov Yu. Soft clustering by convex electoral model. Core Discussion Paper. 2018. Available at https://ideas.repec.Org/p/cor/louvco/2018001.html.
7. Devolder O., Glineur F., Nesterov Yu. First-order methods with inexact oracle: the strongly convex case. CORE Discussion Papers. 2013. Available at https: / / dial.uclouvain.be/pr/boreal / object/boreal: 128723.
8. Nesterov Yu. Gradient methods for minimizing composite functions. Math. Program. 2013. V. 140, N 1. P. 125-161.
9. Gasnikov A. V. Modern numerical optimization methods. The method of universal gradient descent. Moscow : MIPT, 2018.
Поступила в редакцию 17.06.2019