УДК: 519.85
MSC2010: 90C25, 90С06, 49J52
О МЕТОДАХ ЗЕРКАЛЬНОГО СПУСКА ДЛЯ НЕКОТОРЫХ ТИПОВ ЗАДАЧ КОМПОЗИТНОЙ ОПТИМИЗАЦИИ С ФУНКЦИОНАЛЬНЫМИ ОГРАНИЧЕНИЯМИ
© С. С. Аблаев1, И. В. Баран2
Крымский ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ ИМ. В. И. ВЕРНАДСКОГО ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ
просп. Академика Вернадского, 4, Симферополь, 295007, Российская Федерация e-mail: 1 [email protected], [email protected]
On mirror descent methods for some types of composite optimization problems with functional constraints.
Ablaev S. S., Baran I. V.
Abstract. The paper is devoted to some methods of mirror descent and theoretical estimates of their rate of convergence for problems of convex composite optimization, where the functionals f and g are convex, and r and v have a simple structure.
On the class of Lipschitz functionals, we propose a modified mirror descent algorithm with adaptively chosen steps and a stopping criterion. The mirror descent operator is defined as standart. In this case, both problems with Lipschitz functionalities and problems with functionalities that satisfy substantially more general Lipschitz «relative Lipschitz property» to some not necessarily strongly convex prox function, which was recently proposed by Y. E. Nesterov and H. Lu.
For example, this condition is applicable to such applied problems as Support Vector Machine, Truss Topology Design, and to the problem of finding a common point for a system of ellipsoids.
For a more general class of relatively Lipschitz problems, a method with constant steps but with an adaptive stopping criterion is proposed. This made it possible to obtain estimates for the rate of convergence of the mirror descent method that are optimal for the class of problems with relatively Lipschitz objective functionals and constraint functionals.
In paper was also considered a generalization of the last result to the case of the assumption that ¿-subgradients of functionals are available instead of ordinary subgradients, and an estimate for the corresponding mirror descent algorithm is obtained.
Keywords: Lipschitz functional, subgradient, composite optimization problems, mirror descent methods
Введение
Работа посвящена некоторым методам зеркального спуска для задач выпуклой композитной оптимизации вида
где /, д, <£>, £, г, V : Ц ^ М, Ц С Мп — выпуклое замкнутое множество, функционалы / и д выпуклы, причем г и V имеют простую структуру (то есть операция проектирования на множество уровня в произвольной точке менее затратна по сравнению с нахождением субградиента в этой точке). Известно, что задачи композитной оптимизации возникают во многих прикладных задачах [1], в том числе при моделировании транспортных потоков.
Работа посвящена развитию исследований [5], [2]-[6] (особенно развитию замечания 4 из [5]). При этом аналогично [5], [6] рассматриваются методы для задач с относительно липшицевыми функционалами. Относительная липшицевость введена недавно в [7], [8]. Напомним это понятие. Для этого нам потребуется ввести вспомогательную прокс-функцию, порождающую расстояние (функция, порождающая расстояние, вводится для оценки качества решения).
Пусть 6 : Ц С Мп ^ М — неотрицательная выпуклая и непрерывно дифференцируемая функция. Тогда далее при анализе алгоритмов для оценки расстояния от текущей точки до решения можно использовать дивергенцию Брэгмана вида
где (■, ■) — скалярное произведение в пространстве Мп.
Условие относительной липшицевости функционала связано с релаксацией условия Липшица, которая предполагает замену ограниченности нормы субградиента ||V/(ж)||* ^ Mf так называемой относительной липшицевостъю (непрерывностью) [7]:
Как отмечено в [7], при подходящем выборе прокс-функции такое условие покрывает существенно больший класс задач по сравнению с классом задач с липшицевой целевой функцией.
Например, такому условию удовлетворяют негладкие и, вообще говоря, нелипши-цевы функционалы, равные максимуму конечного набора функционалов с липшице-вым градиентом. Такие функционалы возникают в таких прикладных задачах, как
f (x) = <£>(x) + r(x) ^ min, g(x) = £(x) + v(x) < 0,
(1)
Vd(y, x) = d(y) - d(x) - (Vd(x), y - x) Vx, y e Q,
(2)
(3)
Truss Topology Design, в задаче нахождения общей точки нескольких эллипсоидов и других.
Отметим, что мы вслед за [7] рассматриваем следующий аналог условия (3):
(V/(x),x - у) < Mf\J2Vd(y,x) Vx,y е Q.
Напомним важное вспомогательное понятие из [5].
Определение 1. Пусть 5 > 0. Будем говорить, что / и g допускают (5, ф, V)-модель в точке у е Q, если
/(x) + ^(у,x) < /(у), (у,x) < v^Vd(y,x) + 5 (4)
g(x) + фд(у, x) < g(y), -фд(y,x) < у/2Vd(y,x) + 5, (5)
где фf (у, x) и фд (у, x) — выпуклые функционалы по у и фf (x,x) = фд (x, x) = 0 для любого x е Q.
Мы далее будем рассматривать случай 5 = 0 и для постановки задачи (1) использовать функции-модели следующего типа:
фf (у, x) = (V<£>(x), у — x) + r(y) — r(x),
(6)
Фд (у, x) = (V (x), у - x) + v (у) - v (x).
Всюду далее через x* будем обозначать точное решение поставленной задачи. Пусть h > 0. Для задач, допускающих в произвольной точке (5, ф, V)-модель, оператор проксимального отображения (шаг зеркального спуска) можно определить следующим образом [5]:
Mirrh(x, ф) = arg min | ф(у, x) + — Vd(y, x) 1 .
yeö ^ h J
Перечислим ключевые результаты настоящей работы.
В первом разделе рассмотрен класс задач композитной оптимизации (1) c лип-шицевыми функционалами. Для этого случая предложен метод с адаптивно подобранными шагами и критерием остановки, приведена оценка скорости сходимости метода.
Во втором разделе рассмотрен уже более общий класс задач с относительно лип-шицевыми функционалами. Для такого класса описан метод зеркального спуска с постоянными шагами, но с адаптивным критерием остановки. Приведены доказанные авторами оценки скорости сходимости метода [5], [6] (при 5 = 0), оптимальные на классе задач с относительно липшицевыми целевыми функционалами и функционалами ограничений.
В третьем разделе рассмотрено обобщение результата пункта 2 на предположение о доступности на итерациях зеркального спуска вместо субградиентов функционалов их 6-субградиентов (см., например главу 5 из [10]) и выведена оценка качества выдаваемого таким алгоритмом решения.
1. Случай липшицевых функционалов. Адаптивный алгоритм
зеркального спуска
Рассмотрим сначала ситуацию, когда функционалы < и £ удовлетворяют обычному условию Липшица и мы используем их субградиенты, ограниченные по норме. В этом случае, если выбрать 1-сильно выпуклую относительно рассматриваемой нормы прокс-функцию то можно адаптивно выбирать шаги по аналогии с [2].
Приведем вспомогательную лемму для задач с функционалами, допускающими (5, <, V)-модель [5] при 6 = 0.
Лемма 1. Пусть функционал / Mf-Липшицев, а простой функционал г Мг -Липшицев и ж+ = Мггг^(ж, ■фf). Тогда V Ь > 0 верны неравенства:
Ь2 2
Н(/(х) - /(у)) < —Ьфf (у, ж) < у (||^(ж)||, + Мг)2 + V*(у, ж) - ^(у,ж+) Vy е Ц.
Для задачи (1) в случае липшицевых функционалов рассмотрим следующий алгоритм. Если д(ж^) < е, то шаг называется продуктивным (шаг по функции), в ином случае, д(жк) > е, шаг называется непродуктивным (шаг по ограничению). Через I и 3 обозначим множество индексов продуктивных и непродуктивных шагов соответственно.
Для алгоритма 1 справедлива следующая
Теорема 1. Пусть е > 0 — фиксированное число и выполнен критерий остановки алгоритма 1, причём функционал / Mf -липшицев, а д — Му -липшицев. Тогда ж есть е-решение задачи (1):
/(Ж) - /(ж*) < е, д(ж) < е.
При этом предложенный алгоритм работает не более N = раций.
Доказательство. По лемме 1 имеем Vж е Ц
(Ь{)
2 ma x{Mj,M2}e;21 2
ите-
hfk (f (xk) - f (x)) < (||V^(xk)||* + Mr)2 + Vd(x,xk) - Vd(x, xk+1), k e I
(h9)2
hk(g(xk) - g(x)) < (||V£(xk)||* + Mv)2 + Vd(x,xk) - Vd(x, xk+1), k e J.
Алгоритм 1 Зеркальный спуск для задач композитной оптимизации, липшицевы функционалы
Require: е > 0, Mr > 0, Mv > 0, e0 : d(x*) < el-
1: x0 = argminxgQ d(x).
2
3
4
5
6
7
8 9
10 11 12
I =: 0 и J =:
N ^ 0
repeat
if g (xN) < е then
h _ _e_
hN = (||V<p(xN)||„+Mr)2 :
N ^ I else
h _ _e_
hN = (l|v?(xN)||„+Mv)2 ,
N ^ J
N ^ n + 1
until < £ +мг)2 + ^ (||vc(*N)||.+Mv)2.
kgi kgj
xN+1 = MirrhN (x, фf) xN+1 = MirrhN (x, фд)
+ E
1
Ensure: ж
Г xk hk kei
E hk
kei
После суммирования последних неравенств, получим при х = х*
£ Ч (/(хк) - /(х*)) + £ Нк (д(хк) - д(х*)) < ке/ ке./
/ ^и . ,,\2 /, о\ 2
< ^ )||. + М,-) (О (ИМ. + Mv) (v,(x>,xk)-Vi(x„x'+1)) <
kg! kg J k
^f^^x')ll* + Mr-f + v (hk)2(||Vflxk)||. + Mv)2 + < ^ 2 + ^ 2 +0 <
kg! kgJ
е 2
< IE hk + С 2k
На всяком непродуктивном шаге имеем д(хк) — д(х*) > £, откуда
£ н{ (/(хк) — /(х*)) < 2 £ Нк + 02 — £ £ н{ = 2 £ н{ — 2 £ н{ + 0*
ке1 к кез ке1 кез
= £ Е н{ — 2 Е н{ — 2 Е Нк+«8 < £ Е н{ ,
ке1 ке1 кез ке1
то есть необходимо выполнение неравенства
2 , £ , ^ £ , о £ , £2 1 £2
e0i < hf+hk = еу hk = -V-1-2+-Y-1-2.
0 <2kg! k 2 J 2Г k 2 kti (iiv^(xk)ii. + Mr)1 2 kjj (nve(xk)ii. + Mv)1
Поэтому критерий остановки имеет вид
24<£„,„ , k! . .2+£
£2 ш (BV^(xk)||, + Mr)2 kJ (||V£(ik)||, + M„)
который заведомо выполнится при
2 max{Mf2, M2}02
N >
£2
□
1
2. Случай относительно липшицЕвых ФУНКЦИОНАЛОВ. Зеркальный спуск с постоянными шагами
В этом пункте рассматривается случай относительно липшицевых функционалов, поэтому сильная выпуклость прокс-функции уже не требуется. Алгоритм 2 и теорема 2 уже были анонсированы в [5] без доказательств (см. [5], Algorithm 3 и Remark 2.4). Здесь мы приводим их с полным обоснованием. Пусть функционалы f и g удовлетворяют соотношениям:
f (x) + (y,x) < f (y), (y,x) < Mf v/2Vd(y,x), (7)
g(x)+ Ф9(y,x) < g(y), -Ф9(y,x) < M9у/2Vd(y,x). (8)
Для случая относительно липшицевых функционалов мы рассмотрим аналог алгоритма 1.
Алгоритм 2 Зеркальный спуск для относительно липшицевых функционалов
Require: £ > 0,Mf > 0,M9 > 0, в0 : d(x*) < 0g.
1 2
3
4
5
6
7
8 9
10
11 12
arg minxgQ d(x).
x0 =
I =: 0 и J =: N ^ 0 repeat
if g (xN) < £ then
hf = Mf , xk+1 = Mirrhf (xN, f, N ^ M else
h9 = M, xN+1 = Mirrh9 (xN, ф9) , N ^ M9 N ^ N + 1
until < § + J.
Ensure: ж :=т! ^ xk.
1 1 kei
Разница между алгоритмами 1 и 2 заключается в выборе шагов (постоянные) и критерия остановки. Для этого алгоритма справедлив следующий результат.
Теорема 2. Пусть / и д — это выпуклые функционалы, удовлетворяющие (7) и (8) при некоторых Mf > 0 и М2 > 0. Пусть е > 0 — фиксированное положительное число. Предположим, что в0 > 0 — известная константа, такая, что 6(ж*) < в^. Тогда после остановки алгоритма 2 выполняются следующие неравенства:
/(Ж) - /(ж*) < е и д(ж) < е.
При этом необходимое число итераций алгоритма 2 не превышает
N =
2М 2 в2
, где М = шях{М2, М2 }.
Доказательство. Имеют место неравенства
, «. ч м2Ь2
% (/(жк) - /(у)) < + ^(у, жк) - V* (у,жк+1),
М 2Ь2
Ь9 (д(жк) - д(у)) < м2ь1 + ^(у,жк) - ^(у,жк+1). После суммирования этих неравенств по к получим при у = ж*
„кл ^ I \ Л г, („(„к
Ьf (/(жк) - /(ж*)) Ь9 (д(жк) - д(ж*))
<
ке!
ке7
М2Н2. _ М2Ь2 ^ . к .
< Е м^ + Е м2_1 + ^ (^(ж*,жк) - ^(ж*, ж )) <
ке! ке7 к
^ М2Н2 М2Ь2 „
<£ м2^ +Е Мт+во2.
ке! ке7
На всяком непродуктивном шаге имеем д(жк) - д(ж*) > е, откуда
V- / к XV- М2Ь2 ^ М2Ь2 2 ^
Ь2 (/(жк) - /(ж*)) < £ Мт2 + ^ м2_! + в02 - е ^ Ь2
ке!
22
ке! ке7
ке7
е2 е2
= II- 131 е
'2М2
2М2
+ в2 < е^ Ь2
ке!
Наконец, имеем
е2 е2 в2 < II+ 131
2М°
2М2'
откуда
2в1< + _И
е2 < М2 + М2.
□
2
£
3. Вариант зеркального спуска для относительно липшицЕвых задич с использованием на итерациях ¿-субградиентов
функционалов
В работе [9] были рассмотрены некоторые варианты метода зеркального спуска на классе липшицевых выпуклых задач в предположении использования на итерациях ¿-субградиентов функций [10] (5 > 0) вместо точных значений субградиентов. В этом разделе мы рассмотрим зеркальный спуск уже для задач композитной оптимизации вида (1) с использованием ¿-субградиентов для случая относительно липшицевых функционалов, допускающих (¿, ф, V)-модель при 5 > 0.
Пусть рассматриваются задачи композитной оптимизации вида:
/(х) = <£>(х) + г(х) ^ шт,
д(х) = £(х) + V(х) < 0,
где г и V — функционалы простой структуры. Для этого случая мы вводим такие обозначения
фf (у, х) = (У<£>(х), у — х) + г(у) — г(х)
фу (у, х) = (У£(х),у — х) + V(у) — V(х).
Покажем, какой вид метода зеркального спуска можно использовать для следующей ситуации. Допустим, что нам доступны не обычные субградиенты V/ и Уд, а ¿-субградиенты У г<£> и У г£, то есть
г(у) > г(х) + (Уг<р(х), у — х) — ¿,
V(у) > V(х) + (Уг£(х),у — х) — ¿,
для любых х, у € Q при фиксированном 5 > 0.
Тогда естественно рассмотреть такие предположения на фf и фу в (4) и (5):
/(х) — /(у) — 5 < —фf (у,х) < Mf \/2Р^(у, х) + ¿, (9)
д(х) — д(у) — 5 < —фу(у, х) < Муч/2Кг(у,х) + ¿. (10)
При указанных предположениях можно сформулировать следующий аналог базовой леммы 1 для зеркальных спусков.
Лемма 2. Пусть / — выпуклый функционал, удовлетворяющий (9), Н > 0 и х+ = Мггг^(х, фf). Тогда
М8Н2
Н(/(х) — /(у) — ¿) < —Нфf (у,х) < + ^(у,х) — Vd(у,х+) + М.
Доказательство. Имеем Уу € Q
(у, ж) - (ж+, ж) + (У^(ж+) - У^(ж), у - ж+) > 0.
Отталкиваясь от этого неравенства и неравенства (9), возможно выписать следующие выкладки:
Л(/(ж) - /(у) - 5) < -Л^(у, ж) < -Л^(ж+, ж) + (У^(ж+) - Уф), у - ж+) =
+ + + М2 +
= (ж+, ж) + V*(у, ж) - ^(у, ж+) - ^(ж+, ж) < 22 + ^(у, ж) - ^(у, ж+) + Л5.
Наконец, получим
М2Л2
Л(/(ж) - /(у) - 5) < (у, ж) < -¿р2 + ^(у, ж) - V*(у, ж+) + Л5.
□
Скажем несколько слов о свойствах 5-субградиентов выпуклого функционала f : Rn ^ R в точке x [10]. Геометрически 5-субградиент соответствует гиперплоскостям в Rn+1, разделяющим надграфик f (x) и точку (f (x) - 5, x). В отличие от субградиента, 5-субградиент при 5 > 0 не определяется локальными свойствами f (x). Правила вычисления 5-субградиентов могут оказаться сложнее, чем в случае обычных субградиентов. Однако необходимость в использовании 5-субградиентов возникает, например, в задачах следующего типа (см. [9] и цитированную там литературу).
Пусть
f (x) = max 0(x,y), yeQ
где x 6 Rn, Q — компактное множество, 0(x,y) непрерывна по y и выпукла по x. В частности, Q может состоять из конечного числа элементов. Очевидно, что f (x) определена на Rn и выпукла. Пусть y — произвольная точка из Q, такая, что 0(x,y) > f (x) - 5. Иначе говоря, y — произвольная точка, в которой приближенно (с точностью до 5) достигается максимум 0(x, y) по y 6 Q. Тогда
dz0(x, y) С dsf (x).
Таким образом, чтобы найти один из 5-субградиентов f (x), достаточно приближённо отыскать максимум по y и взять субградиент соответствующей функции ф. Вычисление же субградиента f (x) требует точной максимизации ф по y. Опишем аналог алгоритма 2 с использованием 5-субградиентов.
Алгоритм 3 Зеркальный спуск для относительно липшицевых функционалов с 5-субградиентами
Require: е > 0, 5 > 0, Mf > 0, Mg > 0, 0О : ) < 02. 1 2
3
4
5
6
7
8 9
10 11 12
= argmrn^gQ d(x). I =: 0 и J =: 0 N ^ 0 repeat
if g ) < е + 25 then
hf —
N ^ I else
hg —
h = M2 ,
N ^ J N ^ N + 1 untn f?- <
xfc+1 — Mirrhf , ф^ ,
+1 — Mirrhg , фд) ,
+ M
+ Mg .
Ensure: ж :—|}| E .
fcei
Из леммы 2 вытекает следующая теорема.
Теорема 3. Пусть / и д — выпуклые функционалы, удовлетворяющие (9) и (10) для некоторых Mf > 0 и Му > 0. Пусть £ > 0, 5 > 0 — фиксированные положительные числа, в0 > 0 — известная константа, такая, что ^(х*) < в^. Тогда после остановки алгоритма 3 справедливы следующие неравенства:
/(х) — /(х*) < £ + 25 и д(ж) < £ + 25.
При этом необходимое число итераций алгоритма 3 не превышает
N—
2M 2 00'
, где M — max{Mf, Mg}.
Доказательство. Выводится из леммы 2 по аналогии с теоремой 2. □
Заключение
В работе рассмотрены методы зеркального спуска для задач композитной оптимизации вида /(х) = <£>(х) + г(х) ^ шт, д(х) = £(х) + V(х) < 0, где функционалы / и д выпуклы, а г и V имеют простую структуру. При этом, исследования проводились в предположении о том, что функционалы / и д допускают (¿, ф, V)-модель
в произвольной точке у € Q.
■02(у, ж) = (У<£>(ж), у - ж) + г(у) - г(ж), ■(у, ж) = (У£(ж), у - ж) + V(у) - V(ж).
На классе липшицевых задач предложен метод с адаптивным подбором шагов и адаптивным критерием остановки. Для этого алгоритма получена теорема, описывающая его сложность и качество выдаваемого решения: е-точность /(ж) - /(ж*) < е, д(ж) < е достигается за N = -—-— итераций.
Для существенно более общей ситуации относительно липшицевых задач исследован предложенный ранее в [5] вариант зеркального спуска с неадаптивными шагами, но с адаптивным правилом остановки. Доказана теорема, отображающая оценку этого алгоритма: для относительно липшицевых функционалов е-точность /(ж) - /(ж*) < е, д(ж) < е приближенного решения задачи (1) достигается за N =
2 max{Mf ,Mg }202 72
итераций алгоритма 2.
Рассмотрено обобщение последнего результата на случай предположения о доступности 5-субградиентов функционалов вместо обычных субградиентов.
Сформулирована и доказана базовая лемма зеркальных спусков в случае 5-субградиентов, и получена теорема, которая показывает влияние параметра 5 на работу соответствующего алгоритма зеркального спуска.
СПИСОК ЛИТЕРАТУРЫ
1. NESTEROV, Y. (2013) Gradient methods for minimizing composite functions. Math. Program. 140. Pp. 125-161.
2. BAYANDINA, A., DVURECHENSKY, P., GASNIKOV, A., STONYAKIN, F., TITOV, A. (2018) Mirror descent and convex optimization problems with non-smooth тедиаШу constraints. In: Giselsson, P., Rantzer, A. (eds.) Large-Scale and Distributed Optimization. LNM, Springer, Cham. 2227. Pp. 181-213.
3. STONYAKIN, F., ALKOUSA, M., STEPANOV, A., TITOV, A. (2019) Adaptive mirror descent algorithms for convex and strongfy convex optimization problems with functional constraints. J. Appl. Ind. Math. 13(3). Pp. 557-574.
4. STONYAKIN, F., STEPANOV, A., GASNIKOV, A., TITOV, A. (2020) Mirror descent for constrained optimization problems with large subgradient values of functional constraints. Comput. Res. Model. 12(2). Pp. 301-317.
5. TITOV, A., STONYAKIN, F., GASNIKOV, A., ALKOUSA, M., ABLAEV, S. (2020) Analogues of Switching Subgradient Schemes for Relatively Lipschitz-Continuous Convex Programming Problems. MOTOR-2020: Mathematical Optimization Theory and Operations Research. Communications in Computer and Information Science. 1275. Pp. 133-149.
6. TITOV, A., STONYAKIN, F., GASNIKOV, A., ALKOUSA, M., ABLAEV, S. (2020) Analogues of Switching Subgradient Schemes for Relatively Lipschitz-Continuous Convex Programming Problems. Library Review. [Online] arXiv . Pp. . Available from: http://arxiv.org/pdf/2003.09147.pdf. [Accessed: 6th May 2021].
7. LU, H. (2019) Relative continuity for Non-Lipschitz nonsmooth convex optimization using stochastic (or deterministic) mirror descent. INFORMS J. Optim.. 1(4). Pp. 288-303.
8. NESTEROV, Y. (2019) Relative smoothness: new paradigm in convex optimization. In: Conference report, EUSIPCO-2019, A Coruna, Spain, 4 September 2019.
9. СТОНЯКИН, Ф. С. Адаптивные зеркальные спуски для задач выпуклого программирования с использованием 5-субградиентов [Электронный ресурс] / Ф. С. Стонякин // Препринт. Режим доступа:
http: //arxiv.org/pdf/2012.12856.pdf
STONYAKIN, F. S. (2023) Adaptive mirror descents for convex programming problems using 5-subgradients. .Preprint
10. ПОЛЯК, Б. Т. Введение в оптимизацию. — М.: Наука, 1983. — 384 с. POLYAK, B. T. (1987) Introduction to optimization. New York: Optimization software inc., Publications division. 438 p.