УДК 519.85
Ф. С. Стонякин
Крымский федеральный университет им. В. И. Вернадского Московский физико-технический институт (национальный исследовательский университет)
Адаптивные градиентные методы для некоторых классов задач негладкой оптимизации
Предложено несколько адаптивных алгоритмических методов, применимых к задачам негладкой выпуклой оптимизации. Первый из них основан на введении специальной искусственной неточности, и для его реализации предложен соответствующий аналог концепции абстрактной неточной модели целевой функции. Для этой концепции предложены аналоги градиентного метода, а также быстрого градиентного метода с адаптивной настройкой некоторых параметров неточной модели, и получена оценка качества найденного решения. Показано, что для негладких задач возможно модифицировать предложенные методы так, чтобы гарантированно выполнялась сходимость по функции со скоростью, близкой к оптимальной. Введена аналогичная концепция неточной модели для оператора поля вариационного неравенства, а также для седловой задачи и приведена оценка скорости сходимости соответствующего адаптивного варианта проксимального зеркального метода. Предложены аналоги субградиентных схем с переключениями для задач выпуклой оптимизации с ограничениями. При этом рассмотрены предположения, связанные с недавно предложенным условием относительной липшицевости. Это позволило выписать оценку качества решения с относительной точностью для задачи минимизации однородного выпуклого функционала при достаточно общих предположениях.
Ключевые слова: градиентный метод, быстрый градиентный метод, адаптивный метод, Липшицев градиент, негладкая оптимизация, зеркальный спуск, относительная липшицевость, относительная точность.
F. S. Stony akin
V. I. Vernadsky Crimean Federal University Moscow Institute of Physics and Technology
Adaptive gradient methods for some classes of nonsmooth
optimization problems
We propose several adaptive algorithmic methods for problems of non-smooth convex optimization. The first method is based on a special artificial inexactness. For its implementation the corresponding analogue of the concept of an abstract inexact model of the objective functional is proposed. For this concept, analogues of gradient and fast gradient methods with adaptive tuning of some parameters of this model are proposed and an assessment of the quality of the solution is obtained. It is shown that it is possible for nonsmooth problems to modify the proposed method to guarantee the convergence in the function with a close to optimal rate. A similar concept of an inexact model is introduced for variational inequalities and saddle point problems. Estimate of the convergence rate of the corresponding adaptive version of the proximal mirror method is presented. Analogues of switching subgradient schemes are proposed for convex programming problems. In this case, assumptions close to the recently proposed condition of the relative Lipschitz continuity are considered, which allows us to obtain an estimate of the quality of the solution with relative accuracy for the problem of minimizing a homogeneous convex functional using fairly general assumptions.
© Стонякин Ф. С., 2020
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2020
Key words: gradient method, fast gradient method, adaptive method, Lipschitz continuous gradient, nonsmooth optimization, mirror descent, relative Lipschitz continuity, relative accuracy.
Введение
Во многих прикладных задачах возникает необходимость подходящих алгоритмических методов для задач негладкой выпуклой оптимизации. Однако оценки эффективности таких процедур в случае большой размерности переменных весьма пессимистичны. Так, к примеру, е-точное решение по функции задачи выпуклой негладкой оптимизации возможно достичь за 0(е-2) обращений к подпрограмме нахождения (суб)градиента, и в общем случае такая оценка не улучшаема [1]. Для гладких задач оценки эффективности выше, что приводит к естественной идее для негладких задач обосновать возможность использования какого-нибудь приближения оптимизационной модели к гладкому случаю. Эту идею, в частности, реализуют так называемые универсальные методы, исследованию которых было положено начало в работе [2]. Универсальные градиентные методы основаны на построении для задач выпуклой оптимизации с гёльдеровым (суб)градиентом целевого функционала аналога стандартной квадратичной интерполяции с искусственно введённой погрешностью. Универсальность метода при этом понимается как возможность адаптивной настройки при работе метода на оптимальный в некотором смысле уровень гладкости задачи и величину, соответствующую константе Гёльдера Ьи (суб)градиента целевого функционала. Оказывается, что возможность такой настройки может позволить экспериментально для некоторых задач улучшить скорость сходимости по сравнению с оптимальными теоретическими оценками [2].
Искусственную неточность для негладких задач можно вводить по-разному [3,4]. При этом естественно возникает проблема описания влияния погрешностей задания целевого функционала и градиента на оценки скорости сходимости методов. Для градиентных методов известен подход к этой проблеме, основанный на недавно предложенной концепции неточного оракула [1,6]. Известно, что для неускоренных градиентных методов в оценках скорости сходимости не происходит накопления величин, связанных с погрешностями. Однако при этом для оптимального при отсутствии погрешностей на классе гладких выпуклых задач быстрого градиентного метода в итоговой оценке скорости сходимости величины погрешностей могут накапливаться. Концепция неточного оракула была обобщена в [2,8], где были введены понятия (5, Ь)-модели и (5, Ь, ^)-модели целевой функции для задач оптимизации. Суть данных обобщений в замене (V/(х),у — х) некоторой абстрактной выпуклой по первой переменной функцией ф(у,х), что позволяет рассматривать более широкий класс задач [8].
Различным методам градиентного типа посвящены все новые современные работы [2,3,8-10]. В частности, недавно в [9] введены условия относительной гладкости оптимизируемого функционала, которые предполагают замену условия липшицевости градиента на ослабленный вариант:
/(У) < /(х) + (Vf (х), у — х) + IV(у, х), (1)
где V(у, х) — широко используемый в оптимизации аналог расстояния между точками х и у, который называют дивергенцией Брэгмана. Обычно дивергенция Брэгмана вводится на базе вспомогательной 1-сильно выпуклой функции й (порождает расстояния), дифференцируемой во всех точках выпуклого замкнутого множества Q:
V(у,х)= й(у) — й(х) — (Vй(х),у — х) Ух,у е Я, (2)
Где (•, •) — скалярное произведение в Мга. В частности, для стандартной евклидовой нормы || • Ц2 и расстояния в Мга можно считать, что V(у,х) = й(у — х) = |\\у — х\\2, для произвольных х,у е Я- Однако часто возникает необходимость использовать и неевклидовы
нормы. Более того, рассмотренное в [3,9] условие относительной гладкости предполагает лишь выпуклость (но не сильную выпуклость) порождающей функции д,. Как показано в [3], концепция относительной гладкости позволяет применить вариант градиентного метода для некоторых задач, которые ранее решались лишь с помощью методов внутренней точки. В частности, речь идет об известной задаче построения оптимального эллипсоида, покрывающего заданный набор точек. Эта задача, в частности, представляет интерес для статистики и анализа данных. Отметим в этой связи также предложенный недавно в [12] подход к задачам негладкой оптимизации, связанный с релаксацией условия Липшица, которая предполагает замену ограниченности нормы субградиента «V/(ж)У* ^ Mf так называемой относительной липшицевостью:
«V/ми.« е Я.У = *■
При этом порождающая функция й не обязательно сильно выпукла. В работе [12] предложены детерминированный и стохастический алгоритмы зеркального спуска для задачи минимизации выпуклого относительно липшицева целевого функционала. Отметим также, что в [13] показана оптимальность зеркального спуска для задач математического программирования с квазивыпуклыми дифференцируемыми гёльдеровыми целевыми функционалами и выпуклыми липшицевыми функционалами ограничений.
Предлагаемая статья посвящена в основном развитию упомянутых выше идей. В первом разделе предложена модификация концепции (6, £)-модели целевой функции с переменной неточностью, которая позволяет учесть возможность неточного задания не только значения целевой функции, но и самой модели. В частности, для стандартной модели ф(у,х) = (V/(х),у — х) описывается ситуация погрешности задания целевого функционала /, а также погрешности задания (суб)градиента V/.
В первых трёх разделах работы мы выделяем (в модельной общности по аналогии с [2]) класс задач, для которых (V/ — возмущённое значение (суб)градиента V/) верно следующее неравенство с параметрами 61,62,7, А ^ 0:
/(х) + (VI(х),у — х) — 62 — 7 «У — я|| < /(У) <
(3)
< /(х) + (V/(х), У — х) + ^ «у — ж||2 + А «у — ж|| + ¿1 Чх, у е д.
Смысл такого обобщения заключается в том, что возможны различные значения параметров 7 и А в (3) и влияние величин 61 ж А на итоговое качество решения может быть уменьшено. Случай ^ > 0 более подробно рассмотрен в [4], а в настоящей работе мы полагаем 7 = 0. Это предположение вполне естественно, если рассматривать А как искусственную
А
/(х) + (V/(х),у — х) < f (у) < /(х) + (V/(х),у — х) + ^ Иу — я||2 + А «у — Ж|| (4)
вполне можно рассматривать как оценку скачков субдифференциалов / вдоль всевозможных векторных отрезков [х; у] [3]. Несложно понять, что если / в (4) удовлетворяет условию Липшица с константой М > 0, то А ^ 2М. Отметим, что возможна ситуация, когда А существенно меньше М [3]. Похожие на (4) условия рассматривались в [6,14] для случая, когда / представим в виде суммы гладкого и негладкого целевого функционала. В настоящей работе рассмотрен более широкий класс целевых функционалов, которые не обязательно представимы в виде суммы гладкого и негладкого слагаемых. В итоге предложена общая концепция неточной модели целевой функции, которая могла бы описать все указанные выше ситуации. Далее в разделе 4 введена аналогичная концепция неточной модели для оператора поля вариационного неравенства, а также для седловой задачи. Выписаны оценки скорости сходимости соответствующего адаптивного варианта проксимального зеркального метода. В последнем разделе статьи рассмотрены аналоги субградиентных схем с переключениями для задач выпуклой оптимизации с ограничениями. При
этом рассмотрены предположения, близкие к недавно предложенному условию относительной липшицевости [12], что позволило получить оценку качества решения с относительной точностью для задачи минимизации однородного выпуклого функционала при достаточно общих предположениях.
Работа состоит из введения, пяти основных разделов и заключения.
В разделе 1 обобщено ранее предложенное понятие (8, £)-модели целевой функции [2] в запрошенной точке и введена концепция (8, А, £)-модели функции (определение 1). Введена также более общая концепция (8, А, Ь, ^)-модели целевой функции, которую можно, в частности, применить на классе гладких сильно выпуклых функционалов. Предложен аналог градиентного метода (алгоритм 1) градиентного типа с адаптивной настройкой параметров неточности этой модели.
В разделе 2 предложен вариант быстрого градиентного метода (алгоритм 2) для задач выпуклой минимизации с адаптивным выбором шага и адаптивной настройкой на величины параметров (8, А, £)-модели и получена оценка качества найденного решения.
Раздел 3 посвящен специальному классу задач выпуклой негладкой оптимизации, к которым применима концепция определения 1 (8 = 0 А > 0). Показано, что для таких задач возможно модифицировать алгоритм 2 так, чтобы гарантированно достигалось е-точное решение задачи минимизации / за
обращений к (суб)градиенту целевого функционала. По сути, получен некоторый аналог результата ([6], п. 4.7.2), однако оптимизируемый функционал уже не обязательно имеет вид суммы гладкого и негладкого слагаемого и рассмотрена модельная общность. Отметим, что при этом для адаптивного ускоренного метода оценка может увеличиться на некоторый логарифмический множитель вида 0(^2(е-3)), для адаптивного неускоренного — на множитель вида 0(log2(£-1)). Отметим также, что параметр А можно понимать и как величину, которая соответствует неточно заданному (суб)градиенту.
Далее в разделе 4 показано, как можно вводить аналог концепции (8, А, £)-модели оптимизируемого функционала, но уже для вариационных неравенств и седловых задач.
Наконец, в последнем разделе 5 обсуждаются альтернативные подходы к алгоритмическим схемам для задач негладкой оптимизации с липшицевыми выпуклыми функциональными ограничениями. Предложен адаптивный метод с заменой обычного условия Липшица на некоторые его аналоги. Рассмотрено условие, близкое к относительной липшицевости [12], которое не предполагает 1-сильной выпуклости дивергенции Брэгмана. Это позволило предложить метод, который гарантирует достижение качества приближённого решения с фиксированной относительной точностью для задачи минимизации выпуклого однородного целевого функционала / в случае, когда субдифференциал / в нулевой точке может не содержать 0 как внутреннюю точку.
Всюду далее через || • || обозначается норма в пространстве Мга, а терез || • || * норма в двойственном пространстве.
1. Концепция (8, А,Ь)-модели функции в запрошенной точке и оценка скорости сходимости для градиентного метода
Введем анонсированный выше аналог понятия (5, А, £)-модели целевой функции, кото-
А
тельно гладкими целевыми функционалами [3].
Определение 1. Будем говорить, что / допускает (5, А,Ь)-модель ф в точке х е Я, если для некоторой выпуклой по первой переменной функции ф (у, х), такой, что при в сяком х ф(х,х) = 0, будет верно неравенство
/(х) + ф(у, х) — 81 < Д(х) + ф(у, х) < /(у) < (х) + ф(у, х) + 82 + А Цу — ж|| + IV(у, х) (5)
для произвольных х,у е Я при фиксированных д, ¿1,82 ^ 0 и /<5(х) е [/(х) — 5, /(ж)] Ух е Я-
Всюду далее будем полагать, что 5 = = 52, а также ¡§(х) е [¡'(х) — 5, f (ж)]. Отметим, что предложенная концепция есть модификация введенного в [4] понятия (5, А, £)-модели целевого функционала в запрашиваемой точке.
Замечание 1. Для неускоренного метода возможно заменить левое неравенство в (5) на ослабленный вариант
/(х*) > /(х)+ ф(х*,х) — 5, (6)
где х* — ближайшее к х решение задачи минимизации / с точки зрения дивергенции Брэгмана V(х*,х). Неравенство (6) будет, в частности, верно для задачи минимизации квазивыпуклой целевой функции при достаточно малой величине погрешности градиента.
Можно также ввести и аналог концепции (5, Ь, ^)-оракула в оптимизации с переменной неточностью. При у > 0 эта концепция позволяет обосновать скорость сходимости предлагаемого нами метода, близкую к линейной.
Определение 2. Будем полагать, что / допускает (5, А, Ь, у)-модель ф(у,х), если для произвольных х,у е Я верно
/(У) < /г(х) + Ф(у, х) + АЦу — ж|| + 5 + IV(у, х), (7)
а также
f (х) — 5 + ф(х*,х) + уУ(х*,х) ^ /г(х) + ф(х*,х) + уУ(х*,х) ^ }(х*), (8)
где х* — ближайшее к х решение задачи минимизации / с точки зрения дивергенции Брэгмана V(х*,х). Неравенство (8) будет, в частности, верно для задачи минимизации сильно квазивыпуклой целевой функции [10] при достаточно малой величине погрешности градиента.
Пример 1. В качестве примера по аналогии с примером 1 из [4] отметим задачу сильно выпуклой композитной оптимизации /(х) = д(х) + к(х) ^ шт, где д — гладкая выпуклая функция, а к — выпуклая не обязательно гладкая функция простой структуры. Если при
этом для градиента Vg задано его приближение Vд: положить
ф(у, х) = (Vд(х),у — х) + к(у) — к(х)
V д(х) — Vg(x)
и в случае усильной выпуклости д или к будет верно (7).
^ А, то можно
Для задачи минимизации функционала, допускающего (5, А, Ь, ^)-модель в произвольной запрошенной точке, предложим такой метод.
Алгоритм 1 Адаптивный градиентный метод для функций, допускающих (5, A, L, ц)-модель в запрошенной точке.
Require: х0 £ Q — начальная точка, V(х*,х°) ^ R2, параметры Lo, Ao, So > 0 : 2ц. < Lo < 2L, Ao < 2A, 5o < 25. 1: Lk+x := Lk/2, Ak+i := 5k+i := 2: xk+l := axgmin^(x,xk) + Lk+lV(x,xk)}.
repeat
xEq
3
4
5
6
7
8 9
Ensure: yk+l := arg min f (xi+l).
i=o,...,k
if fs(xk+l) < fs(xk)+ ф(xk+l,xk)+ Lk+lV(xk+l,xk)+ 5k+l +Ak+l \\xk+l - xk || then
k := k + 1 и выполнение п. 1. else
Lk+l := 2Lk+l 5k+l := 2 ■ 5k+l; Ak+l := 2 ■ Ak+l и выполнение п. 2. end if until k > N
к
Всюду далее условимся полагать, что Л а1 = 1 для некоторой числовой последова-
1=к+1
тельности а1. Справедлива следующая
Теорема 1. Пусть имеет (5, А, Ь, ц)-модель в каждой точке х € Тогда, после к итераций справедливо неравенство
f (yk+l) - f Ы < 1
k k
S ^ п 1 - £
__
i=o Li+1 L
k 7 k 5 + Si+l +A+l \xi+l - xi
* I iiii - & "+£ П i -i
o o = +l
Отметим, что вспомогательная задача п. 2 листинга алгоритма 1 решается не более
2А Ап
С, 2L 25 2A1 2к + maW log2 —, log2 —, log2 д- | (9)
раз.
Доказательство. Введем обозначения: 5к+1 := 5к+1 + Ак+1 ||хк+1 — хк||. Шеле к итераций алгоритма 1 получаем
0 ^ ф(х, хк) — ф(хк+1,хк) + Ьк+1У(х, хк) — Ьк+1 V(х, хк+1) — Ьк+1У(хк+1,хк), откуда
Ьк+1У(х, хк+1) < ф(х, хк) — ф(хк+\ хк) + Ьк+1 V(х, хк) — Ьк+1У(хк+1 ,хк). (10) Согласно неравенству (7):
—Ьк+1У(хк+\хк) < 5к+1 — ¡з(хк+1) + ¡з(хк)+ ф(хк+1 ,хк).
Применяя теперь (10), получаем
Ьк+1У(х, хк+1) < ^+1 — /(хк+1) + (хк) + ф(х, хк) + Ьк+1У(х, хк) + 5. (11)
Пусть х = ж*. Тогда, учитывая (8), имеем fs(xkJ+ ф(x*,xk) ^ f (х*) -^V(x*,xk). Применим это не]; Далее,
это неравенство к (11): Lk+lV(х*, xk+l) ^ S + 5k+l + f (х*) - f (xk+l) + (Lk+l - y)V(x*,xk).
V(x*,xk+l) < f (x*) - f ^ + 5 + 5k+l + (l -JL.) V(x*,xk) <
V Lk+l J
Jk+l ^k+l
X
< (хШ) + (/(х.) - ¡(х*)\ + ЦЪ»+
V Ьк+1/ у ' Ьк+1
Lk+1 Ьк
Л - »Ц + Л - Л - А) у(х.<хк-1) <
Ьк \ Ьк+1/ \ Ьк+1 / V Ьк/
<± п (1 -{-У±п О-Ь^)+п(!-7^у(х'-х0)-
¿=0 ¿+1 .7=»+^ 3 ' ¿=0 ¿+1 ^7 ¿=0 4 ¿+1у
С учетом ук+1 = агдттг=о~к/(хг+1) и У(х*,хк+1) ^ 0 имеем /(ук+1) - /(х*) ^
1§ к / \ к ^ .г* к/
I ТТ / 1 V 0л , ^ ^ + ^¿+1 ТТ Л V
, ,-I п (1 - у(х.,х0)+Е П I1 - ).
£ 1-+Т п (1 - £-) V«4 -=0 ¿+1 ■»='+'4
¿=0 1+1 j=i+1y J '
Оценка (9) обосновывается аналогично п. 2 доказательства теоремы 2.1 из [4].
Замечание 2. Оценка (9) показывает, что в среднем трудоемкость итерации предложенного адаптивного алгоритма превышает трудоемкость неадаптивного метода не более чем в постоянное число раз. Отметим также, что при к = 0,1,2,... Ьк+1 ^ 2СЬ, С = тах 11, Щ, Ц}.
Следствие 1. При V = 0 полученная оценка, качества решения принимает, вид
Л^1) - ! Ы < + (е ^У 'Е *+, + А -х¿п +, ^ (12)
— ^ \г=0 ¿+1 / ¿=0 ¿+1
+1
^ ь1+
=0
< -2СЬУ(х.,х) + (£ У-1 £ + Ai» "х'+' -х'" + Л \<=0 Ь'+Ч ¿0 »'+1
2. Оценка скорости сходимости для варианта быстрого градиентного метода, использующего концепцию (8, А, »-модели целевой функции в запрошенной точке
Оказывается, что концепция (8, А, »-модели оптимизируемого функционала позволяет получить аналог теоремы 1 для адаптивного варианта быстрого градиентного метода Ю. Е. Нестерова (БГМ) [15]. Смысл использования этого метода в том, что при отсутствии погрешностей он даёт оптимальные оценки скорости сходимости на классе задач выпуклой оптимизации с липшицевым градиентом. Мы отправляемся от [2], где предложен адаптивный быстрый градиентный метод с оракулом, использующий ( 8, »-модель целевой функ-
А=0
1-сильная выпуклость проке-функции й(х) относительно нормы.
Замечание 3. Аналогично замечанию 2 для всякого к ^ 0 при некотором С ^ 1 выполнено Ьк ^ 2СЬ. При к = 0 это верно из того, что »0 ^ 2» Для к ^ 1 это следует из того, что мы выйдем из внутреннего цикла, где подбирается Ьк, ранее, чем Ьк станет больше 2СЬ. Выход из цикла гарантируется тем, что согласно предположению существует (8, А, »-модель для /(х) в любой точке х £
По схеме рассуждений [2] можно проверить следующий результат.
Алгоритм 2 Быстрый градиентный метод с оракулом, использующий ( 5, Д,£)-модель в запрошенной точке.
Require: х° £ Q — начальная точка, V(х*,х°) ^ R2, параметры Lo > 0, Д0 > 0, ¿о > 0 (L0 < 2L, До < 2Д, 50 < 25). 1: 0-шаг: у0 := х0, и0 := х0, Li := k0, Д1 := ~20, Si := f-, ао := 0, А0 := ао 2: for к = 1,... do
3: Находим наибольший корень ak+i : Ак + ak+i = Lk+iak+i',
Ак+i := Ак + ak+i, Ук+i := ak+lUA + АкХ , fk+i(х) = V(х, ик) + ак+Жх, ук+1);
Ак+1
k+i / \ k+i ak+iuk+i + Акхк и + := argmm^Qifk+i^), х + :=---;
4: if U (хк+i) < h (yk+i) +Ф(хк+А-, yk+i) + \^k+i - yk+i ||2 + Дк+Лхk+i - yk+i || + 5k+i then
Lk+2 := Lk2+\ Дк+2 := и ^k+2 := и пеРейти к следующему шагу else
Lk+i := 2Lk+i, Дк+i := 2Дk+l и 5k+i := 25k+i и повторить текущий шаг end if end for
Теорема 2. Пусть V (х*,х°) ^ В?, где х0 — начальная точка, ах* ближайшая точка минимума к точке х0 в смысле дивергенции Брэгмана. Для предложенного алгоритма, 2 после к итераций выполнено следующее неравенство:
в2 1 к-1
!(хк) - !(х*) < -- + ^ ^ (Аг+1 ||х*+1 - уг+11| + 5+ + 5)Аг+1.
г=0
Отметим, что вспомогательная задача, пункта 3 листинга алгоритма 2 решается не более
( 2Ь 25 2А1
2к + шах —, ' ^2 д Г (13)
раз.
Полученную оценку можно несколько конкретизировать с использованием следующего вспомогательного утверждения, которое также проверяется по схеме рассуждений [2] (по сути, оно уже доказано в [2] при С = 1).
Лемма 1. Пусть для последовательности ак выполнено
к
ао = 0, Ак = ^2 -к = Ькак,
г=0
где для фиксированного С ^ 1 верно Ьк ^ 2СЬ при всяком к > 0 согласно замечанию 3 выше. Тогда, для, любого к ^ 1 верно следующее неравенство:
-к* > ^• (»)
Поэтому из теоремы 2 вытекает
Следствие 2. Пусть V (х*,х0) ^ В2, где х0 — начальная точка, ах* ближайшая точка х0
выполнено следующее неравенство:
8С г в2 1 к-1
¡(хк) - ¡(х*) < (к+Г^ + А~к ^(Д+1 Цхт - Уг+111 + 8+1 + 8)4+1-
3. О применимости предложенной концепции неточной модели
функции к негладким задачам за счет введения искусственных неточностей
Отметим, что на величину А в (12) можно смотреть и как на характеристику негладкости функционала /. Точнее говоря, А можно понимать, например, как верхнюю оценку
торных отрезков [х; у] из области определения /. Оказывается, в случае известной величины А < возможно несколько модифицировать алгоритм 1, обеспечив уменьшение Аг+1||хг+1 —хг\\ в (12) до любой заданной величины. Это позволит показать оптимальность данного метода в теории нижних оракульных оценок [1] с точностью до логарифмического множителя. Заметим, что в данном пункте мы всюду требуем 1-сильную выпуклость проке-функции в определении 1. Также обозначим всюду далее через /* = /(х*) — искомое
пускает (5, А, »-модель ф.
Пусть на (к+1)-й итерации алгоритма 1 (к = 0,1,...,И — 1) верно неравенство Ь ^ Ь^+1 ^ 2Ь (как показано в п. 2 доказательства теоремы 2.1 из [4], этого можно всегда добиться выполнением не более чем постоянного числа операций п. 2 листинга алгоритма 1). Для каждой итерации алгоритма 1 (к = 0,1,... — 1) предложим такую процедуру:
Повторяем операции п. 2 р раз, увеличивая Ьк+1 в два раза при неизменной Ак+1 ^ 2А.
Процедуру (15) остановим в случае выполнения одного из неравенств:
А
fc+i
xk+1 — x
< -2
или
f(xk+1) < f(xk) + ф(хк+1,хк) + 2P-1L
xk+i xk
(15)
(16) (17)
Отметим, что здесь мы полагаем функционал / точно заданным, то есть = / (5 = 0) и ф(у,х) = (V/{х),у — х), где V/ — некоторый субградиент f. В работе [4] доказано, что р можно выбрать так, чтобы 22Р ^ 1 + ^г^-, и получен следующий результат.
Теорема 3. Пусть ^ = 0. Тогда для выхода ук+1 модифицированного алгоритма 1 с учетом дополнительной процедуры (15) неравенство /(ук+1) — /* ^ е будет гарантированно выполнено не более чем после
4LR2 64A2R2
- + -о—
log2 1 +
16А2 Y
L
-
(18)
Пусть теперь у > 0. Если положить 5i+i = 5 = 0 для всякого г = 0, к и Аг+1 ||хг+1 — хг|| ^ §, то согласно теореме 1
f(yk+1) — fix*) < 2CL (l — 2^L)k+1 V(x*,x0) + 2-.
А
° (1 'og2;)
2
шагов градиентного метода (пункта 2 листинга алгоритма 1). Действительно, если положить 5 = 5 = 0 (то есть = /) и V(х*,х0) ^ В2, то для достижения качества решения
¡(ук+1) - ¡(х*) ^ е
необходимо выполнить не более
2СЬ, 4СЬВ2 -1п-
ц е
1
итераций алгоритма 1. Ввиду оценки (22) с учетом процедуры (15) на каждом шаге итоговое число обращений к (суб)градиенту целевого функционала для алгоритма 1 можно оценить как
(20,Ь 32С А2\ (40>ЬВ2 64СВ2' 1 +- 1п[ -+-
V ц
це ) \ е
) 1оЕ2^ 1 +
16А2\ еЬ )
1.
Покажем, что даст применение похожей схемы для быстрого градиентного метода на классе выпуклых функционалов /, для которых при некоторых Ь > 0 и А > 0 верно
Ь
¡(у) < ¡(х)+ф(у,х) ^11 у-х\\2 + А||у-х\\ Ух,у еЯ-
(19)
В частности, для задач выпуклой негладкой оптимизации ф(у,х) = (V /(х),у - х) для некоторого субградиента V /.
Рассмотрим вариант быстрого градиентного метода (алгоритм 2), который использует ( , А, Ь)
тивный вариант этого метода с постоянным шагом Ьк+1 = 2Р Ь для некоторого ре Ми 5 = ^ для некоторых е > 0 и фиксированной постоянной 7 > 0. Будем при этом считать = / (то есть функционал / задан точно). В таком случае на (к + 1)-й итерации (к = 0, 1, 2, . . .)
¡(хк+1) < ¡(хк)+ф(хк+1,хк) + ^Цхк+1 - хк112 +
2
и после N итераций (это можно проверить аналогично [2])
¡(х1У) - г <
8 ■ 2р ■ ЬВ2 eN
+
(^ + 1)2 27'
А | | хк+1 - ук+1Ц < ^,
| | хк+1 - ук+11|2 ^ АЦхк+1 - ук+11|
(20)
(21)
Если
то
А | | хк+1 - ук+1Ц > —, (2Р - 1)Ь.. к+1 к+1.. (2Р - 1)Ье
2 11 х -ук ^ > 47А •
Тогда второе неравенство альтернативы (21) заведомо выполнится при
47А2
2Р > 1 +
Ь
Поэтому положим
=
Ч1 + 4-7Т )
(22) (23)
Теперь покажем, каким можно выбрать количество итераций N чтобы гарантированно (46) обеспечивало ) — /* ^ е. Для этого потребуем выполнения неравенств
2Р+3ЬК2 е еЖ е
- ^ — и - ^ —
(Ж + 1)2 2 2'
откуда 7 ^ N и (Ж+ 1)2 ^ 2Р+ . Для упрощения выкладок усилим последнее требование: N2 >
2 Р+4ЬК2
, откуда
2 16ЬК2 ( 47А2 Ч 16ЬК2 64ЖА2К2 Ж2 > - 1 + -!— ^ -+-2-.
£ \ Ь£ ) £ £2
Это означает, что Ж можно выбирать как , где N2 — больший корень уравнения
дт2 64А2К2 16ЬК2 п Ж2--Ж--= 0,
32А2К2 [32А2В2\2 16ЬК2
Ж2 = + 1^ —^) +
2
/
Далее, в силу неравенства у/а + Ь > + (а, Ь > 0) имеем
ж ^N2 -^-+-.
2
(й)
итераций быстрого градиентного метода, то есть обоснован некоторый аналог результата о слайдинге [14], но уже целевая функция не обязательно есть сумма гладкого и негладкого слагаемых.
При этом возможно использовать метод с адаптивной настройкой констант Ь, а также Ак+1 ^ А. Тогда оценка числа итераций может измениться в постоянное число раз. Также при этом за счёт р дополнительных процедур адаптивного подбора Ь^+1 (при условии Ь ^ Ь^+1 ^ 2Ь для всякого к = 0,1,... — 1) на каждой итерации метода добавится множитель (23):
р ^
( 4Ж А2\ 1 ( (128 + 64^2)А4К2 ЖА2^2\
Теорема 4. Для выхода хм модифицированного алгоритма 2 с учетом дополнительной процедуры (15) при А^+1 = А на (к+1)-й итерации (к = 0,1,...,Ж — 1) неравенство ¡(хИ) — /* ^ е будет гарантированно выполнено не более чем после
(32 + 16л/2)А2К2 2КУ[21 , ( (128 + 64Л/2)А4 К2 8КА2Л/2\
+-— ■ §2 ( 1 +--+ —I
£2 -ф£
Ь£3 ' у/ъё3 )
(24)
Замечание 4. Если не предполагать, что на (к+1)-й итерации (к = 0,1,..., N — 1) модифицированных алгоритмов 1 и 2 выполнено неравенство Ь ^ Ь^+1 ^ 2Ь и предусмотреть
Ь А
увеличиться не более чем в
* 2Ь 2^"
, А0 /
раз. Отметим также, что логарифмические множители в (18) и (24) можно опустить, если рассматривать неадаптивные варианты методов 1 и 2 с фиксированным параметром Ьк+1 = 2РЬ при подходящем натуральном р.
4. Адаптивная настройка на величину погрешностей для вариационных неравенств и седловых задач
Метод с адаптивной настройкой погрешностей можно предложить и для вариационных неравенств [16], а также седловых задач. В данном пункте мы покажем, как это можно сделать в модельной общности. Мы отправляемся от [17], где введена концепция неточной модели для вариационных неравенств и седловых задач, но с постоянной неточностью и без адаптивной настройки к величинам погрешностей.
Напомним постановку задачи решения вариационного неравенства, а также необходимые понятия и результаты. Для оператора С : Я ^ Мга, заданного на выпуклом компакте Я с Мга под сильным, вариационным, неравенством понимаем неравенство вида
(С(х*), х* -х) < 0. (25)
Отметим, что в (25) требуется найти х* е Я (эт0 х* которого
тах(С(х*), х* - х) ^ 0. (26)
Для монотонного оператора поля С можно рассматривать слабые вариационные неравенства
(С(х), х* -х) < 0. (27)
х* е Я х е Я
Предложен аналог концепции неточной модели целевой функции в оптимизации для вариационных неравенств и седловых задач. Для удобства будем рассматривать задачу
х* е Я
ф(х,х*) ^ 0 Ух еЯ (28)
для некоторого выпуклого компакта Я С Кга, а также функционала ф : Я х Я ^ Если
ф
ф(х, у) + ф(у ,х) < 0 Ух, у еЯ, (29)
то всякое решение (28) будет также и решением двойственной задачи равновесия
ф(х*,х) < 0 Ух еЯ. (30)
х*
ф
Пример 2. Если для некоторого оператора С : В ^ Мга положить
ф(х,у) = (С(у),х -у) Ух,у еЯ, (31)
то (28) и (30) будут равносильны соответственно стандартным сильному и слабому вариа-
С
тах ■
Пример 3. Для некоторого оператора G : Q ^ Мга и выпуклого функционала h : Q ^ Мга простой структуры выбор функционала
ф(х, у) = (G(y),x -у) + h(x) - h(y) (32)
приводит к смешанному вариационном,у неравенству
(G(y),y -х) + h(y) - h(x) < 0, (33)
G
(G(x),y -х) + h(y) - h(x) < 0. (34)
Концепцию ( ö, А, »-модели для выделенного выше класса задач возможно ввести следующим образом.
Определение 3. Будем говорить, что функционал ф допускает (5, А, »-модель ф$(х, у) при некоторых фиксированных значениях параметров L, 5, А > 0 в произвольной точке у относительно дивергенции Брэгмана V(у, х), если для произвольных x,y,z ЕQ верны:
(i) ф(х, у) < ф5 (x,y)+S-,
(ii) ф$(х, у) выпуклый функционал по первой переменной и ф$(х,х) = 0;
фё(х, у)+фб(у, х) < S; (35)
(iv) (обобщённая относительная гладкость)
ф&(х, у) < ф&(х, z) + ф&(z, у) + LV(х, z) + LV(z, у) + 5 + А \\у - z\\ . (36)
Естественно возникает идея обобщить этот метод на абстрактные задачи (28) и (30) в предположениях их разрешимости, а также (i) - (iv). При этом будем учитывать погрешность 5 в (36), а также погрешность 5 решения вспомогательных задач на итерациях согласно одному из достаточно известных в алгоритмической оптимизации подходов:
х := arg m,in,yeQ<f (у), если (V((x),x - у) ^ 6. (37)
По сути, предполагается, что вспомогательные задачи минимизации решаются с некоторой ö
, А, L
аналог проксимального зеркального метода A.C. Немировского с адаптивным выбором шага. Опишем (N + 1)-ю итерацию этого метода (N = 0,1, 2,...), выбрав начальное приближение х0 = arg minX£Qd(x), зафиксировав точность е > 0, а также некоторые константы L0 ^ 2L, ö0 ^ 20 и А0 ^ 2А.
Алгоритм 3 Адаптивный метод для концепции (5, А, £)-модели для ВН.
1. N := N + 1 Ln+1 : = , W := ^, AN+1 : =
2. Вычисляем:
yN+l := argminsX£Q [ф^(x,xN) + LN+1V(x,xN)},
xN+1 := arg minsxeQ [ф^(x, yN+1) + LN+1V(x, xN)} до тех пор, пока не будет выполнено:
ф& (xN+1 ,xN) (yN+1 ,xN )+ф& (xN+1, yN+1) + +Ln+1V (yN+1 ,xN ) + Ln+1V (yN+1,xN+1)+An+1 ||yN+1 -xN+1 II + ÖN+1.
(38)
3. Если (38) не выполнено, то Ln+1 ■= 2Ln+i, $n+i ■= 25n+u Д« +i ■= 2An+1 и повторяем п. 2.
4. Иначе переход к п. 1.
5. Критерий остановки метода:
n -1 maxV (х,х0)
У — > ^-. (39)
Для краткости будем всюду далее обозначать
N-1 1
SN J— ■ (40)
fo Jk+1
Справедлива следующая
х е Я
выполнено неравенство
_ ф^ <£+2„+ + д - ^, (41)
^ Ьк+1 8м Ьк+1
а также
, ^ ~ 1 У— $к+1 + Ак+1 Цук+1 -хк+1Ц , ч
ф(у, х) < г + 25 + 25 + — £ --^ (42)
^ Ьк+1
при
1 N-1 vk+i
^ Е Ь- <43>
Sn Jk+1
Замечание 5. Для обычных слабых вариационных неравенств (27) неравенство (42) можно заменить на
~ , 1 1N-1 5k+1 +^k+1 \\yk+1 -Xk+1\
max {G(x), у - x) ^ e + 25 + 25 + — у ^-z—ü-11. (44)
xeQ sn Jk+1
Аналогично теореме 3 можно сформулировать результат о том, что при j = 5 = 5 = 0
процедурой типа (15) можно добиться выполнения max (G(x), у — х) ^ е за
xeQ
4LR2 64Д2
-+
2
, / 16Д2\
обращения к оракулу для С.
( , А, Ь)
что постановка седловой задачи предполагает, что для выпуклого по и и вогнутого по V функционала £ (и, V) : М™1+™2 ^ М (и Е Q1 С М"1 и V Е Q2 С М"2) требуется найти (и*, V*) такую, что
¡(и*, V) ^ ¡(и*, V*) ^ ¡(и, V*) (45)
для произвольных и Е Ql и V Е Q2■ Мы считаем Ql и Q2 выпуклыми компактами в пространствах М"1 и М"2 и поэтому Q = Ql х Q2 С М™1+™2 также есть выпуклый компакт. Для всякого х = (и, у) Е ^ ^^^^^ ^^агать, что ||х|| = уТМ]2^!!^]]2, где || ■ и || ■ ||2 — нормы в пространствах М"1 и М"2). Условимся обозначать х = (их, их), у = (иу, иу) Е Q.
и
к вариационному неравенству с оператором
cw = ■ (46>
Предложим некоторую вариацию концепции (5, Д, L)-мoдeли для вариационных неравенств, но уже на более узком классе седловых задач.
Определение 4. Будем говорить, что для некоторой постоянной 5 > 0 функция ф&(x, у) (ф : Мга1+га2 х R"-ix"-2 ^ R) есть (ö, Д, L)-мoдeль для седловой задачи (45), если для некоторого функционала фз при произвольпых x,y,z Е Q выполнены предположения (i) - (iv) определения 3, а также справедливо неравенство:
f(uy, vx) — f(ux, vy) ^ —фз(x, y) + S Ух, у eQ. (47)
Из теоремы 5 вытекает
Теорема 6. Если для седловой задачи (45) существует ( ö, Д, L)-M,ode^,ь фз(х, у), то после остановки алгоритма 3 получим точку
1 ^ ук+1
У = (uy, Щ):=(и v):= L-, (48)
N k=0 k+l
для, которой верна оценка, величины-качества решения седловой, задачи:
f(~ ) ■ f( ^ ^ + 2 J-+.+ 1 N- Ök+1 +Дк+1 \\yk+l -xk+l\\
max f(u, v) — mm f(u, v) ^ e + 2d + ö + -7- > -—LJ-11. (49)
veQ2 ueQi On k==0 Lk+i
5. Адаптивные алгоритмы зеркального спуска для негладких задач выпуклой оптимизации с функциональными ограничениями
В данном разделе мы рассмотрим некоторые методы для задачи минимизации выпуклой негладкой функции f(x) ^ min с липшицевым выпуклым функциональным ограничением g(x) ^ 0. Далее будем полагать, что х* — одно из решений такой задачи. Мы будем рассматривать для выделенного класса задач методы, аналогичные схемам с переключениями, которые восходят к пионерским работам [18,19]. Недавно в [20] были предложены методы зеркального спуска такого типа для условных задач с адаптивным выбором шага и адаптивными критериями остановки. Более того, оказалось [13,21], что для указанных процедур
оптимальную на классе выпуклых липшицевых целевых функционалов оценку скорости сходимости 0(е-2) можно распространить и на класс квазивыпуклых гёльдеровых целевых функционалов. Рассмотрены и приложения к задаче оптимизации компьютерной сети для логарифмического целевого функционала [21]. По итогам проведённых экспериментов выяснилось, что, как правило, быстрее всех из рассмотренных схем [13, 20, 21] работает следующий метод.
Алгоритм 4 Адаптивный зеркальный спуск
Require: е > 0, О0 : d(x*) ^ 0% 1: х0 = argminxeQ d(x) I =: 0 k ^ 0 repeat
if g(xk) ^ еЦУд(xk)||* then hk ^
2
3
4
5
6
7
8 9
10
11 12
13
14
||V/(xk )||*
xk+1 ^ Mirrxk(hkVf (xk)) // "продуктивные шаги' k
else
hk ^ ||Vfl(Xk)
i*
xk+1 ^ Mirrxk (hkVg(xk)) // "непродуктивные шаги end if k ^k + 1 until
2a
Где I j| — количество непродуктивных шагов (мы обозначим через |/| количество продуктивных шагов, то есть | I| + | JI = N). Ensure: х = hkXk.
kei kel
Обозначим через e > 0 фиксированную точность, хо — начальное приближение такое, что для некоторого ©о > 0 верно неравенство V(х*,х°) ^ ©0- Пусть
Ь(х) - д(у) < Мд||х -уЦУх,у eQ. (51)
Тогда справедлив следующий результат об оценке качества найденного решения предложенного метода (в [21] имеется полное доказательство в случае евклидовой прокс-структуры, для произвольной прокс-структуры это обоснование аналогично).
Теорема 7. После остановки предложенного алгоритма 4 справедливы, неравенства
f(x) - ¡(х*) ^ е и g (х) ^ еМд.
На базе теоремы 7 в предположении липшицевости целевого функционала
| f(х) - ¡Ш ^Mf Цх -уЦ (52)
можно оценить количество итераций, необходимых для выполнения критерия остановки (1). Ясно, что V kel f (хк)||* ^ Mf, и поэтому
i J i+g ц^^ > i J i + Mf > ^ + ^тщЬп-
Это означает, что при
2&1 max{1,M2f}
N >
£2
критерий остановки (1) заведомо выполнен, то есть искомая точность достигается за О ( итераций.
По аналогии с ([20], теорема 3.2) можно проверить следующий результат, означающий прямо-двойственность алгоритма 4 в случае ограниченного множества Q.
Теорема 8. Пусть Q ограничено и max d(x) < 60. Тогда если применить алгоритм 4 к
xeQ
задаче
<PW = mi,n 1 f(x) + У2 hgi(x) >
xeQ I fi J
^ max , xeQ I " v I ^i'^0, i=i,...,m
\ i=i )
то после остановки для найденной пары (xk ,\k) будет верно:
f(xk) —<р(.Xk) < e, g(xk) ^Mgе.
Похожий на алгоритм 4 метод можно предложить и для задач со следующими релаксациями известного неравенства Коши-Буняковского для субградиентов Vf (х) и Vg(х):
{Vf (х),х — у) ^w \\Vf (х)\\* V—V(У,х) VyeQ (53)
2
и всякого х G Q такого, что V(х*,х) ^ где х* — ближайшее решение к начальной точке хо с точки зрения дивергенции V, w > 0 — некоторая фиксированная постоянная; а также
{V g (х),х — у) <Mg sj2V (у ,х) Ух, у gQ (54)
Mg > 0
12
Ясно, что при V(у,х) ^ 1 \\У — х\\ неравенство (53) верно для w = 1. Неравенство (54),
алгоритм 5.
Тогда из (53) и (54) имеем
hk (Vf х), хk — х*\ <-——2 + V(х*,х,г) — V(х*^^1) Ук G I,
k\ / OWVf (Tk )||2 V V
2 \\Vf )\\*
e2 < hkg^) ^ hk (Vg(хk),хk — х*^ ^ + V(х*, хк) — V(х*^^1) Ук G J. После суммирования указанных неравенств получаем
£ hk (/^) — f(.х*)) < ^ £ hk — £— \J \ + V (х*,х0). kei kei
Теорема 9. После выполнения, критерия остановки (55) справедлива оценка:
/(¡с) — ¡(х*) < ш2е и д(х) < еМд (56)
или V(х*,хк) < ^ для некоторого к.
Замечание 6. Вместо условия (53) можно рассмотреть и неравенство {V/(х),х — у) ^ М^у/2V(у, х), которое верно в случае относительной липшицевости / [12]. Для этого необходимо выбирать в алгоритме 5 продуктивные шаги Ик = а также критерий остановки
2V(х*,х)=2&0 < Mr +£'V\■
о
Алгоритм 5 Адаптивный зеркальный спуск
Require: е > 0, в0 : d(x*) ^ в0
1 2
3
4
5
6
7
8 9
10 11 12
13
14
x0 = argminxeQ d(x) I =: 0 k ^ 0 repeat
if g(xk) ^ eMg then
hf 4__^_
Uk ^ ||Vf(xk)||*
xk+l ^ Mirrxk (hkVf (xk)) k
else
hg i__ihk ^ Mg
xk+1 ^ Mirrxk (hkVg(xk)) end if k ^k + 1 until
"продукт,ивные шаги'
"непродуктивные шаги'
2в2
<
£
kei
ш
\\Vf (xk )||
+ \J\,
(55)
Где ijl — количество непродуктивных шагов (мы обозначим через |/| количество продуктивных шагов, то есть |/| + lJ| = N).
Ensure: ж
£ h
kei
f
k kei
Y1 h{xk
После выполнения этого критерия будет верно неравенство
f(%) - f(x*) ^е и ^ е мд■
(57)
2
1
Полученный результат позволяет применить предложенную алгоритмическую схему для негладких задач выпуклой однородной оптимизации с относительной точностью. Такая постановка восходит к работам Ю.Е.Нестерова (см. главу 6 диссертации [25]). Как показано Ю.Е.Нестеровым, подход к оценке качества решения задачи с точки зрения именно относительной точности вполне оправдан для разных прикладных задач (линейное программирование, проектирование механических конструкций, задача оптимальной эллипсоидальной аппроксимации выпуклого множества и пр.), если желаемая относительная точность не очень мала. Известно, что достаточно широкий класс задач оптимизации с относительной точностью можно сводить к минимизации выпуклой однородной функции. Итак, рассматривается на выпуклом замкнутом множестве Q С Шп задача минимизации выпуклой однородной функции вида
f(x) ^ min (58)
x£Q
с выпуклыми функционалами ограничениями
gp(x) ^ 0, р = 1,т. (59)
Стандартно будем обозначать g(x) := maxi^p^m{gp{x)}.
С использованием рассмотренных вариантов концепции относительной липшицевости покажем, как можно выписать оценки сходимости для зеркальных спусков с переключени-0
Рассмотрен следующий ослабленный вариант этого условия
(0) Cdf (0) QB% (0), (60)
где К * — сопряженный конус к некоторому полунормированному конусу К С Кга с законом сокращения и конус-полунормой || ■ \\к (отличие от обычной полунормы в том, что 11 | ^^ = а||х||к лишь для a ^ 0). Здесь под сопрлэ/семм&ш конусом К * понимается набор функционалов вида фе = max{0,l(x)} для линейных функционалов I : К ^ R : l(x) ^ Ci N^ll ^ ПРИ некотором Се > 0 Ух £ К. Ясно [22,23], что К * будет выпуклым конусом с операциями сложения
ф/Л ®фе2 := Ф : ф(х) = max{0,l\(x) + i2(x)}
и умножения на скаляр Л ^ 0 фхе(х) = Лфе(х) = Л max{0,l(x)} Ух £ К. На К * можно ввести норму ЦфеЦк* = sup\^\\K^ max{0,l(x)} = sup\^\\K^ 1(х) и шар радиуса г В?* (0) = {фе £ К * \\1феЦк * < г}
Из аналога теоремы об опорном функционале в н0рМИр0ванных КОНуСах р2] получаем,
что
\\х\\к = max 1(х). (61)
-Феев** (0)
Для полунормированного конуса при Цх||к = 0 достаточно выбрать I = 0, и (61) будет верно. Приведем некоторый пример пары (К, К*).
Пример 4. Пусть К = {(х, у)\х,у £ R} и \\(х, у)\\к = л/ х2 + у2 +у. Можно проверить, что в таком случае К * = {фе \ I ((х, у)) = Лх + цу : ц + ^ < или Л = ц = 0}, а
0, если Л = ц = 0;
к* = \ц Л2 Л2
— + —, если ц +--< при ц > 0.
2 2ц Ц
Тогда Вк (0) имеет вид круга на плоскости (Л, ц) радиуса 1 с центром в точке Л = 0, ц = 1. Не уменьшая общности рассуждений, будем полагать К = и вк(0), а также X* £ К для
точного решения х* рассматриваемой задачи минимизации f на Q.
Согласно схеме рассуждений ([25], глава 6) для вывода оценок скорости сходимости методов с относительной точностью необходимо знать оценку R величины расстояния от
х0 х*
операция вычитания и поэтому в качестве аналога нормы разности можно использовать метрику йк(х0,х*), где
(х, у)= sup \фе (х) -фе (у)\ Ух, у £ Q. \\к* <л
Некоторые условия, при которых нормированный конус допускает существование метрики такого типа, исследованы автором работы в [22-24].
Получен аналог теоремы 6.1.1 [25] для указанного выше предположения (х°,х* £ К).
Теорема 10. 1) Ух £ К 7°\\х\\к ^ 1(х) ^ Более того,
а/(х0) < Ъ\\х°\\к < ¡(х*) < Дх°) < Ъ\\х0\\к.
2) Для всякого точного решения х* £ К справедливо неравенство
2 2
йк (х°,х*) < \\х°\\к + \\х*\\к < - г < -¡(х°).
7° 7°
Для применимости к поставленной задаче приведенного выше метода зеркального спуска (алгоритм 5) с предложенными вариантами условий относительной липшицевости достаточно выбрать прокс-структуру так, чтобы
V(х*,х°) < ш(1к(х*,х°), (62)
для некоторой постоянной сС > 0. Этого можно добиться, например, такими способами:
1. Если х° = 0, то при d(x) = \\хУк можно положить V(х*, 0) = \\х*\\к = dK(х*, 0).
2. Если х0 = arg minX^Qd(x), то для некоторого субградиента Vd(x°) верно неравенство (yd(x°),x* — х°) ^ 0 и тогда V(х*,х°) ^ d(х*) — d(x0). Если выбрать d(х) = \\х\\к, то согласно теореме об опорном функционале в полунормированных конусах
V(х*,х0) = \\х*\\к — ||х°||к = max [0,£(х*)} — ||х0||к ^ ^ max{0,1(х*)} — max{0,£(х0)} ^ dк(х*,х0),
то есть (62) выполнено при со = 1. Полагаем далее со = 1 (другое значение этой постоянной может привести лишь к изменению в итоговых оценках констант).
циала df(0) для некоторой константы Mf > 0 будет верно \\Vf(х)\\+ ^ Mf. Поэтому критерий остановки модифицированного алгоритма 5 в соответствии с замечанием 6 заведомо будет выполнен после 2Ö0 max|l,M|j е-2 итераций. Будем полагать, что
Öq = dк(х0,х*) ^ V(х*, х0) и для некоторого N (число итераций) выберем е = -—=. f(x) — f(x*) ^ и д(х) ^ —=. Теперь согласно замечанию 6 имеем
в2 2 f(x*) ff ( 2 \ Мд Q0
^^ ^ ', то есть fix) ^ fix* ) 1 +--= и а(х) ^ —.
Vn V 7oVN) ^JN
Поэтому для достижения относительной точности 5 > 0 по функции заведомо достаточно
N > 4
шагов модифицированного алгоритма 5 с постоянными продуктивными шагами согласно замечанию 6. Отметим, что критерий остановки при этом заведомо выполнен при N ^ -¡гш,
То"
поскольку
2в2 тах^1,М2^ 2N тах^1,М2^ 8тах^1,М2^
о
^ ^ = ©0 ^ ^ '
откуда вытекает следующая
замечания 6 и при этом М1 > 0 такова, что IV/(ж)У* ^ М^ Тогда, после N ^ ^2 итераций модифицированного алгоритма 5 с постоянными продукт,иены,м,и, шагами согласно замечанию 6 гарантированно будет верно неравенство
М ©2
/(ж) (х*)(1 + 5)ид(Х) < .
Заключение
В настоящей статье предложены некоторые адаптивные методы градиентного типа, которые применимы к задачам негладкой оптимизации.
В первых трёх разделах рассмотрены подходы, основанные на введении искусственных погрешностей. Погрешности могут быть как естественными (задание целевой функции и градиента), так и искусственными (сведение негладкой задачи к гладкой с некоторой неточностью). При этом одна из основных отличительных особенностей предлагаемых подходов — наличие в оптимизационной модели целевого функционала переменной величины, соответствующей погрешности (суб)градиента или степени негладкости задачи.
Получены оценки скорости сходимости для адаптивного неускоренного градиентного метода с адаптивной настройкой на уровень гладкости задачи, а также величины погрешностей. Рассмотрен также вариант быстрого градиентного метода Ю.Е. Нестерова для соответствующей концепции неточной модели оптимизируемого функционала. Доказано, что для неускоренного метода не накапливаются все типы погрешностей модели. Для ускоренного метода обоснована возможность уменьшения влияния переменной погрешности на оценку качества решения до любой приемлемой величины при накоплении величин, соответствующих постоянным значениям величин погрешностей используемой концепции модели оптимизируемого функционала. При этом адаптивность метода может на практике улучшать качество найденного решения по сравнению с полученными теоретическими оценками. Однако в полученных оценках качества решения реализована адаптивная настройка не всех параметров неточной модели. Полная адаптивная настройка на величины погрешностей возможна для искусственных неточностей, связанных с рассмотрением негладких задач.
Обоснована применимость неускоренных процедур для относительно гладких целевых функционалов. В таком случае полученную оценку скорости сходимости 0(е-1) можно считать оптимальной даже при отсутствии погрешностей [26]. Показано, как можно ввести аналогичную концепцию неточной модели для вариационных неравенств и седловых задач и предложить аналог экстраградиентного метода с адаптивной настройкой на величину детерминированного (как постоянного, так и переменного) шума.
В последнем шестом разделе работы рассмотрены адаптивные алгоритмические схемы с переключениями для негладких задач выпуклой оптимизации с липшицевыми ограничениями, которые достаточно эффективно работают для некоторых задач с целевыми функционалами более низкого уровня гладкости. В частности, речь может идти о задачах с дифференцируемыми гёльдеровыми целевыми функционалами [21] или с относительно липшицевыми целевыми функционалами [12] и функционалами ограничений. Введённые релаксации условия Липшица, в частности, позволяют получать оценки скорости сходимости с относительной точностью для однородных целевых функционалов при достаточно общих предположениях. Однако в отличие от результатов первых разделов работы по методам градиентного типа не удалось предложить методы с адаптивной настройкой на вели-
вместо обычных субградиентов, а также возмущенных с точностью 5 > 0 значений функционалов. В итоговых оценках при этом не происходит накопление величин, соответствующих
ливаются величины, соответствующие погрешностям, возникающим при решении вспомогательных задач на итерациях алгоритма 5. Указанная методика применима к задачам с любым количеством функционалов ограничений. В этом плане интересной задачей может быть сравнение разработанной методики с подходом к негладким задачам выпуклого программирования с одним функционалом ограничения, который основан на переходе к одномерной двойственной задаче. При этом нахождение подходящего значения двойственного множителя может выполняться методом дихотомии [28] при допустимой погрешности значения производной, связанной с неточностью решения вспомогательных подзадач. Для задач с двумя ограничениями можно применять методику [29] с критерием остановки, похожим на критерий остановки алгоритма 1 из [28] и соответствующим подходящему значению возмущенного градиента двойственной задачи. Экспериментально показано, что такие подходы могут приводить к линейной скорости сходимости даже для негладких задач. Если же целевой функционал гладкий и сильно выпуклый, а функционалы ограничений гладкие и выпуклые, то линейную скорость сходимости можно обосновать по схеме рассуждений [28].
Автор благодарит П.Е. Двуреченского и A.B. Гасникова за указание некоторых литературных ссылок и полезные обсуждения.
Работа выполнена при поддержке гранта РФФИ мол-а-вед (разделы 1 и 2), гранта РИФ
18-71-00048 (разделы 3 и 4, теоремы 7 и 8), а также гранта Президента РФ МК-15.2020.1
(теоремы 10 и 11).
Литература
1. Немировский А. С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. Москва : Наука, 1979. 384 с.
2. Nesterov Yu. Universal gradient methods for convex optimization problems // Math. Program. Ser. A. 2015. V. 152, N 1-2. P. 381-404.
3. Стонякин Ф. С. Аналог квадратичной интерполяции для специального класса негладких функционалов и одно его приложение к адаптивному методу зеркального спуска // Динамические системы. 2019. Т. 9(37), № 1. С. 3-16.
4. Стонякин Ф. С. Адаптация к погрешности для некоторых методов градиентного типа // Труды ИММ УрО РАН. 2019. Т. 25, № 4. С. 210-225.
5. Devolder О., Glineur F., Nesterov Yu. First-order methods of smooth convex optimization with inexact oracle // Math. Program. 2014. V. 146, N 1-2. n P. 37-75.
6. Devolder O. Exactness, Inexactness and Stochasticitv in First-Order Methods for Large-Scale Convex Optimization // PhD thesis, 2013. 309 p.
7. Tyurin A.I., Gasnikov A. V. Fast gradient descent method for convex optimization problems with an oracle that generates a (5, L)-model of a function in a requested point // Computational Mathematics and Mathematical Physics. 2019. V.59, N 7. P. 1137-1150.
8. Stonyakin F.S., Dvinskikh D., Dvurechensky P., Kroshnin A., Kuznetsova O., Agafonov A., Gasnikov A., Tyurin A., IJribe C.A., Pasechnyuk D., Artamonov S. Gradient Methods for Problems with Inexact Model of the Objective // In: Khachav M., Kochetov Y., Pardalos P. (eds) Mathematical Optimization Theory and Operations Research. MOTOR 2019. Lecture Notes in Computer Science. 2019. V. 11548. P. 97-114.
9. Bauschke H.H., Bolte J., Teboulle M. A Descent Lemma Beyond Lipschitz Gradient Continuity: First-Order Methods Revisited and Applications // Mathematics of Operations Research. 2017. V. 42, N 2. P. 330-348.
10. Necoara I., Nesterov Y. Glineur F. Linear convergence of first order methods for non-stronglv convex optimization // Math. Program. 2019. V. 175. P. 69-107.
11. Lu H., Freund R.M., Nesterov Y. Relatively smooth convex optimization by Firstorder methods, and applications // SIAM Journal on Optimization. 2018. V. 28, N 1. P. 333-354.
12. Lu H. «Relative-Continuitv»for Non-Lipschitz Non-Smooth Convex Optimization using Stochastic (or Deterministic) Mirror Descent // Arxiv preprint. 2018. 22 p. Available at: https://arxiv.org/abs/1710.04718v3.
13. Stonyakin F., Stepanov A., Titov A., Gasnikov A. Mirror Descent for Constrained Optimization Problems with Large Subgradient Values // Copmuter Research and Modelling. 2020. V. 12, N 2. 23 p. Available at: https://arxiv.org/abs/1908.00218v4.
14. ban G. Gradient sliding for composite optimization // Math. Program. 2016. V. 159, N 1-2. P. 201-235.
15. Нестеров Ю.Е. Метод минимизации выпуклых функций со скоростью сходимости 0(1/к2) // Доклады АН СССР. 1983. Т. 269, № 3. С. 543-547.
16. Stonyakin F., Vorontsova Е., Alkousa М. New Version of Mirror Prox for Variational Inequalities with Adaptation to Inexactness // Communications on Computer and Information Sciences. 2020. V. 1145. P. 427-442.
17. Стонякин Ф.С. Об адаптивном проксимальном методе для некоторого класса вариационных неравенств и смежных задач // Труды ИММ УрО РАН. 2019. Т. 25, № 2. С.185-197.
18. Поляк Б. Т. Один общий метод решения экстремальных задач // Докл. АН СССР. 1967. Т. 174, № 1. С. 33-36.
19. Шор Н.З. Применение обобщённого градиентного спуска в блочном программировании // Кибернетика. 1967. № 3. С. 53-55.
20. Bayandina A., Dvurechensky P., Gasnikov A., Stony akin F., Titov A. Mirror descent and convex optimization problems with non-smooth inequality constraints // Large-Scale and Distributed Optimization. Lecture Notes in Math. 2018. V. 2227. P. 181-213.
21. Ivanova A., Stonyakin F., Pasechnyuk D., Vorontsova E., Gasnikov A. Adaptive Mirror Descent for the Network Utility Maximization Problem // Arxiv preprint. 2019. 7 p. Available at: https://arxiv.org/abs/1911.07354v2.
22. Stonyakin F.S. An analogue of the Hahn-Banach theorem for functional on abstract convex cones 11 Eurasian Math. J. 2016. V.7, N 3. P. 89-99.
23. Стонякин Ф. С. Сублинейный аналог теоремы Банаха-Мазура в отделимых выпуклых конусах с нормой // Матем. заметки. 2018. Т. 104, № 1. С. 118-130.
24. Stonyakin F.S. Hahn-Banach type theorems on functional separation for convex ordered normed cones 11 Eurasian Math. J. 2019. V. 10, N 1. P. 59-79.
25. Нестеров Ю.Е. Алгоритмическая выпуклая оптимизация / Дисс. ...докт. физ.-мат. наук. Москва : МФТИ, 2013. 367 с.
26. Dragomir R.-A., Taylor A., dAspremont A., Bolte J. Optimal Complexity and Certification of Bregman First-Order Methods. Arxiv preprint. 2019. 32 p. Available at: https://arxiv.org/abs/1911.08510.
27. Dvurechensky P., Gasnikov A., Nurminsky E. and Stonyakin F. Advances in Low-Memory Subgradient Optimization. A.M. Bagirov et al. (eds.), Numerical Nonsmooth Optimization, Springer Nature Switzerland AG. 2020. 36 p. Available at: htt ps: // arxiv .org/abs/1902.01572vl.
28. Stonyakin F.S., Alkousa M.S., Titov A.A., Piskunova V. V. On Some Methods for Strongly Convex Optimization Problems with One Functional Constraint. M. Khachav et al. (eds.). Mathematical Optimization Theory and Operations Research. MOTOR 2019. Lecture Notes in Computer Science. 2019. V. 11548. P. 82-96.
29. Пасечнюк Д.А., Стонякин Ф.С. Об одном методе минимизации выпуклой липшицевой функции двух переменных на квадрате // Компьютерные исследования и моделирование. 2019. Т. 11, № 3. С. 379-395.
References
1. Nemirovsky A.S., Yudin D.B. Problem Complexity and Method Efficiency in Optimization. Moskow : Nauka, 1979. 384 p. (in Russian).
2. Nesterov Yu. Universal gradient methods for convex optimization problems. Math. Program. Ser. A. 2015. V. 152, N 1-2. P. 381-404.
3. Stonyakin F.S. An analog of quadratic interpolation for a special class of nonsmooth functional and one of its applications to the adaptive method of mirror descent. Dynamical systems. 2019. V. 9 (37), N 1. P. 3-16. (in Russian).
4. Stonyakin F.S. Adaptation to inexactness for some gradient-type optimization methods. Proceedings of the Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences. 2019. V. 25, N 4. P. 210-225. (in Russian).
5. Devolder O., Glineur F., Nesterov Yu. First-order methods of smooth convex optimization with inexact oracle. Math. Program. 2014. V. 146, N 1-2. P. 37-75.
6. Devolder O. Exactness, Inexactness and Stochasticitv in First-Order Methods for Large-Scale Convex Optimization. PhD thesis, 2013. 309 p.
7. Tyurin A.I., Gasnikov A. V. Fast gradient descent method for convex optimization problems with an oracle that generates a (6, L)-model of a function in a requested point. Computational Mathematics and Mathematical Physics. 2019. V. 59, N 7. P. 11371150.
8. Stonyakin F.S., Dvinskikh D., Dvurechensky P., Kroshnin A., Kuznetsova O., Agafonov A., Gasnikov A., Tyurin A., Uribe C.A., Pasechnyuk D., Artamonov S. Gradient Methods for Problems with Inexact Model of the Objective. Khachav M., Kochetov Y., Pardalos P. (eds) Mathematical Optimization Theory and Operations Research. MOTOR 2019. Lecture Notes in Computer Science. 2019. V. 11548. P. 97-114.
9. Bauschke H.H., Bolte J., Teboulle M. A Descent Lemma Beyond Lipschitz Gradient Continuity: First-Order Methods Revisited and Applications. Mathematics of Operations Research. 2017. V. 42, N 2. P. 330-348.
10. Necoara I., Nesterov Y. Glineur F. Linear convergence of first order methods for non-stronglv convex optimization. Math. Program. 2019. V. 175. P. 69-107.
11. Lu H., Freund R.M., Nesterov Y. Relatively smooth convex optimization by Firstorder methods, and applications. SIAM Journal on Optimization. 2018. V. 28, N 1. P. 333-354.
12. LuH. «Relative-Continuity» for Non-Lipschitz Non-Smooth Convex Optimization using Stochastic (or Deterministic) Mirror Descent. Arxiv preprint. 2018. 22 p. Available at: https: / / arxiv.org/abs / 1710.04718v3.
13. Stonyakin F., Stepanov A., Titov A., Gasnikov A. Mirror Descent for Constrained Optimization Problems with Large Subgradient Values. Cop muter Research and Modelling. 2020. V. 12, N 2. 23 p. Available at: https://arxiv.org/abs/1908.00218v4.
14. Lan G. Gradient sliding for composite optimization. Math. Program. 2016. V. 159, N 1-2. P. 201-235.
15. Nesterov Yu.E. A minimization method for convex functions with a convergence rate 0(1/k2). Dokl. Akad. Nauk SSSR. 1983. V. 269, N 3. P. 543-547. (in Russian).
16. Stonyakin F., Vorontsova E., Alkousa M. New Version of Mirror Prox for Variational Inequalities with Adaptation to Inexactness. Communications on Computer and Information Sciences. 2020. V. 1145. P. 427-442.
17. Stonyakin F.S. On the adaptive proximal method for a class of variational inequalities and related problems. Proceedings of the Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences. 2019. V. 25, N 2. P. 185-197. (in Russian).
18. Polyak B. T. One general method for solving extreme problems. Dokl. Akad. Nauk SSSR. 1967. V.174, N 1. P. 33-36. (in Russian).
19. Shor N.Z. Application of generalized gradient descent in block programming. Cybernetics. 1967. № 3. P. 53-55. (in Russian).
20. Bayandina A., Dvurechensky P., Gasnikov A., Stonyakin F., Titov A. Mirror descent and convex optimization problems with non-smooth inequality constraints. Large-Scale and Distributed Optimization. Lecture Notes in Math. 2018. V. 2227. P. 181-213.
21. Ivanova A., Stonyakin F., Pasechnyuk D., Vorontsova E., Gasnikov A. Adaptive Mirror Descent for the Network Utility Maximization Problem. Arxiv preprint. 2019. 7 p. Available at: https://arxiv.org/abs/1911.07354v2.
22. Stonyakin F.S. An analogue of the Hahn-Banach theorem for functional on abstract convex cones. Eurasian Math. J. 2016. V.7, N 3. P. 89-99.
23. Stonyakin F.S. A sublinear analogue of the Banach-Mazur theorem in separable convex cones with norm. Math. Notes. 2018. V. 104, N 1. P. 118-130.
24. Stonyakin F.S. Hahn-Banach type theorems on functional separation for convex ordered normed cones. Eurasian Math. J. 2019. V.10, N 1. P. 59-79.
25. Nesterov Yu.E. Algorithmic convex optimization. Doctoral thesis. Moscow, MIPT, 2013. 367 p. (in Russian).
26. Dragomir R.-A., Taylor A., dAspremont A., Bolte J. Optimal Complexity and Certification of Bregman First-Order Methods. Arxiv preprint. 2019. 32 p. Available at: https://arxiv.org/abs/1911.08510.
27. Dvurechensky P., Gasnikov A., Nurminsky E. and Stonyakin F. Advances in Low-Memory Subgradient Optimization. In: A. M. Bagirov et al. (eds.), Numerical Nonsmooth Optimization, Springer Nature Switzerland AG. 2020. 36 p. Available at: https: / / arxiv.org/abs / 1902.01572vl.
28. Stonyakin F.S., Alkousa M.S., Titov A.A., Piskunova V. V. On Some Methods for Strongly Convex Optimization Problems with One Functional Constraint. M. Khachav et al. (eds.). Mathematical Optimization Theory and Operations Research. MOTOR 2019. Lecture Notes in Computer Science. 2019. V. 11548. P. 82-96.
29. Pasechnyuk D.A., Stonyakin F.S. One method for minimization a convex Lipschitz-continuous function of two variables on a fixed square. Computer Research and Modeling. 2019. V. 11, N 3. P. 379-395. (in Russian).
Поступила в редакцию 26.12.2019