УДК 519.85
Аналог квадратичной интерполяции для специального класса негладких функционалов и одно его приложение
1
к адаптивному методу зеркального спуска
Ф. С. Стонякин
Крымский федеральный университет им. В.И.Вернадского, Симферополь 295007. E-mail: [email protected]
Аннотация. Теоретические оценки скорости сходимости многих известных методов оптимизации градиентного типа основаны на квадратичной интерполяции при условии выполнения условия Липшица для градиента. В статье обоснована возможность построения аналога такой интерполяции в классе локально липшицевых квазивыпуклых функционалов при выполнении специальных условий негладкости (липшицевость субградиента), введённых в настоящей работе. При этом в качестве аппарата для описания дифференциальных свойств таких функционалов используется субдифференциал Кларка. Приведён пример выпуклой негладкой ограниченной функции со сколь угодно большой константой Липшица, для которой выполнено свойство лип-шицевости субградиента. В качестве приложения получены оценки скорости сходимости ранее предложенного метода адаптивного зеркального спуска для задач минимизации квазивыпуклого локально липшицева функционала с несколькими выпуклыми функциональными ограничениями. Эти оценки указывают на оптимальность рассматриваемого метода зеркального спуска с точки зрения теории нижних оракульных оценок.
Ключевые слова: квадратичная интерполяция, липшицевость градиента, квазивыпуклый функционал, липшицевость субградиента, адаптивный зеркальный спуск, оптимальный метод.
Some Analogue of Quadratic Interpolation for a Special Class of Non-Smooth Functionals and One Application to Adaptive Mirror Descent
F. S. Stonyakin
V. I. Vernadsky Crimean Federal University, Simferopol 295007.
Abstract. Theoretical estimates of the convergence rate of many well-known gradient-type optimization methods are based on quadratic interpolation, provided that the Lipschitz condition for the gradient is satisfied. The article substantiates the possibility of constructing an analogue of such interpolation in the class of locally Lipschitz quasi-convex functionals when the special conditions of non-smoothness (Lipschitz-continuous subgradient) introduced in this paper are fulfilled. In this case, the Clarke subdifferential is used as an apparatus for describing the differential properties of such functionals. An example is given of a convex nonsmooth bounded function with an arbitrarily large
1 Работа выполнена при поддержке гранта Российского фонда фундаментальных исследований, код проекта 18-31-00219
© Ф. С. СТОНЯКИН
Lipschitz constant for which the subgradient Lipschitz property holds. As an application, estimates are obtained for the rate of convergence of the previously proposed adaptive mirror descent method for the problems of minimizing a quasiconvex locally Lipschitz functional with several convex functional constraints. These estimates indicate the optimality of the considered method of mirror descent from the point of view of the theory of lower oracle estimates.
Keywords: quadratic interpolation, Lipshitz-continuous gradient, quasi-convex functional, Lipschitz-continuous subgradient, adaptive mirror descent, optimal method. MSC 2010: 90C25, 90С06, 49J52
1. Введение
Многие численные методы оптимизации основаны на идее подходящей аппроксимации оптимизируемого функционала некоторым функционалом стандартного типа. Например, для гладкого целевого функционала f: Кга ^ К с липшицевым градиентом
\\Vf(х) - Vf (у)\и < ь\\х - у\\ Ух,у е Я (1.1)
на области определения Я С Кга хорошо известно неравенство
и (у) - f (х) - (Vf (х),у - х)\ < Ц\у - х\ (1.2)
для всяких х и у из Я. Здесь под \\ • \\ и \\ • \\* мы понимаем нормы в исходном и сопряжённом пространствах, соответственно. Иными словами,
ф2(х,у) < f (у) < ф1(х,у) Ух,у е Я, (1.3)
где2
Мх,у) = f (х) + (Vf (х),у - х) + Ц\у - х\, а
Ф2(х, у) = f (х) + (^(х),у - х) + Ц\у - х\.
Как известно [12], указанные неравенства (1.2) - (1.3) позволяют обосновать не только глобальную сходимость методов градиентного типа, но и оценивать скорость такой сходимости. Отметим также [12], что похожие на (1.2) - (1.3) неравенства можно выписать для негладкого функционала, равного максимуму конечного числа гладких функционалов с липшицевым градиентом.
Неравенства (1.2) - (1.3) широко используются для обоснования скорости сходимости самых разных методов для задач как условной, так и безусловной оптимизации. Например, недавно в [6] были предложены алгоритмы зеркального спуска как с адаптивным выбором шага, так и с адаптивным критерием остановки. При этом помимо случая липшицевых целевого функционала и функционального ограничения в ([6], п. 3.3) на базе идеологии [12, 13] был предложен оптимальный с точки зрения нижних оракульных оценок [11] метод для условных задач выпуклой минимизации с целевыми функционалами, обладающими свойством липши-цевости градиента. В частности, в задачах с квадратичными функционалами мы
сталкиваемся с ситуацией, когда функционал не удовлетворяет обычному свойству Липшица (или константа Липшица достаточно большая), но градиент удовлетворяет условию Липшица. Для задач такого типа в ([6], п. 3.3) был предложен адаптивный алгоритм зеркального спуска. Модификация метода ([6], п. 3.3) для задач с несколькими ограничениями рассмотрена в [4].
Основной результат настоящей статьи (теорема 1) — обоснование возможности построения аналога неравенств стандартной квадратичной интерполяции (1.2) -(1.3) для специального класса негладких квазивыпуклых функционалов с липши-цевым субградиентом (определение 1). Идея предлагаемой концепции свойства липшицевости субградиента заключается в том, чтобы описать изменение аппроксимации функционала при условии наличия некоторого (не более, чем счётного) набора точек с особенностями. Основной результат работы (теорема 1) показывает, как эти особенности могут приводить к изменению модели функционала, пригодной для построения методов оптимизации. Поскольку локально липшицевы квазивыпуклые функционалы могут не иметь субдифференциала в смысле выпуклого анализа, то для описания дифференциальных свойств мы используем наиболее известное обобщение понятия субдифференциала на невыпуклые функционалы — субдифференциал Кларка [1], а под субградиентами всюду далее понимаем элементы (векторы) субдифференциала Кларка как множества. Отметим, что для выпуклых функционалов субдифференциал Кларка совпадает с обычным субдифференциалом в смысле выпуклого анализа. Построен пример негладкого выпуклого функционала из указанного класса, который может иметь сколь угодно большую константу Липшица при нулевой константе Липшица субградиента (пример 1). Как приложение, обоснована оптимальность метода ([4], п. 4) для условных задач с локально липшицевым целевым функционалом и несколькими выпуклыми лип-шицевыми функциональными ограничениями. Для оценки скорости алгоритма 1 доказан аналог известного утверждения ([12], лемма 3.2.1) в классе непрерывных квазивыпуклых локально липшицевых функционалов с использованием субдиф-ференицала Кларка для описания их дифференциальных свойств (теорема 3).
Всюду далее будем считать, что (Е, || • ||) — конечномерное нормированное векторное пространство и Е* — сопряженное пространство к Е со стандартной нормой:
^^ = тах{(у,х), ||х| < 1},
X
где (у,х) — значение линейного непрерывного функционала у в точке х £ Е, Q С Е — замкнутое выпуклое множество.
2. Об аналоге условия Липшица градиента для специального класса негладких функционалов
В данном разделе мы покажем, как можно обобщить свойство (1.1) и оценки (1.2) - (1.3) на некоторый класс квазивыпуклых локально липшицевых функционалов f: Q ^ К ^ С Кга), не дифференцируемых на некотором счётном подмножестве Qo С Q. Напомним, что функционал f: Q ^ К называют квазивыпуклым,
если:
f ((1 - t)x + ty) < max{f (x),f (y)} Vt E [0; 1] Vx,y E Q. (2.1)
Введем класс негладких квазивыпуклых функционалов, допускающих аналоги оценок (1.2) - (1.3). Будем считать функционал f дифференцируемым во всех точках Q \ Q0 и полагать, что для произвольного x E Q0 существует компактный субдифференциал Кларка dcif (x). Напомним это понятие ([1], § 2.2). Пусть xo E rra — фиксированная точка и h E rra — фиксированное направление. Положим
fa(xo; h) = limsup - [f (x' + ah) — f (x1)] .
x'^xo, «40 a
Величина fCi (x0; h) называется верхней производной Кларка функционала f в точке x0 по направлению h. Как известно, функция fCi(x0; h) субаддитивна и положительно однородна по h ([1], с. 17 - 18). Это обстоятельство позволяет определить субдифференциал функционала f в точке x0 как следующее множество:
dci f (x0) := {v E r I C(x0; g) > vg Vg E r} , (2.2)
то есть как субдифференциал выпуклого по h функционала f^l(x0; h) в точке h = 0 в смысле выпуклого анализа. Таким образом, по определению
fa(x0; h)= Av,h) • (2.3)
v&OQif (xo)
Будем говорить, что функционал f субдифференцируем по Кларку в точке x0, если множество dcif (x0) непусто и компактно. В частности, если функция f локально липшицева, то она является субдифференцируемой по Кларку в любой точке области определения. Отметим, что для выпуклых функций субдифференциал Кларка совпадает с обычным субдифференциалом в смысле выпуклого анализа [1]. В дальнейших рассуждениях для фиксированных x,y E Q при t E [0; 1] будем обозначать yt := (1 — t)x + ty.
Определение 1. Будем говорить, что квазивыпуклый локально липшицев функционал f: Q ^ r (Q С rra) имеет (5, Ь)-липшицев субградиент (f E (Q)), если:
(i) для произвольных x,y E Q f дифференцируем во всех точках множества {yt}0<t<i, за исключением последовательности (возможно, конечной)
{ytkK=i : ti <t2 <t3 <••• и lim tk = 1; (2.4)
(ii) для последовательности точек из (2.4) существуют конечные субдифференциалы Кларка {df (ytk ^^ и
diam dci f (ytk) =: 5k > 0, где ^ 5k =: 5 < (2.5)
k=1
(diam dcif (x) = max{\\y — z\\* | y,z E dcif (x)});
(111) для произвольных х,у £ Q при условии, что У1 £ Q \ Q0 при всяком Ь £ (0,1) (то есть существует градиент Vf (уи)) для некоторой фиксированной константы Ь > 0, не зависящей от выбора х и у, выполняется неравенство:
_ min \\д/(x) - df (y)||* < L\\x -
df (x)edcif (x), df (y)zdcif (y)
(2.6)
Ясно, что всякий локально липшицев квазивыпуклый функционал, удовлетво-
ряющий (1.1), будет входить в класс С1£\при 8 = 0. Приведем пример неглад-
кой вещественной выпуклой функции f £ при 8 > 0.
Пример 1. Зафиксируем некоторое к > 0, величину 8 > 0 и рассмотрим кусочно-линейную функцию f: [0; 1] ^ к (здесь Q = [0; 1] С к):
/(x) := kx при 0 < x < 2,
(2.7)
/ (x)
( ^ ö) ^ ö ( 1А 1 1
:= k + > — x - > — 1--т при 1--< x < 1---
1 Ai 2М ^ 2г \ 2г у 2п ~ 2п+1
/(1) := liin /(x).
x^+l
В этом случае
Qo
j1 2n}
д/Ы
n—l ö n ö
k+ ; k + E
2i
г=1 г=1
при п > 1 (здесь дf (•) — субдифференциал в смысле выпуклого анализа),
д/(qi)
I 5'
k; k + 2
(здесь = 1 — при п = 1, 2, 3,...). Ясно, что дf (цп) = , то есть верно (2.5) для введенной величины 8 > 0. При этом на отрезках (цп; цп+1) и (0; ц1) функция f имеет липшицев градиент с константой Ь = 0. Поэтому для функции f из (2.7)
верно f £ соЦ (Q).
Замечание 1. Ясно, что функцию f из (2.7) нельзя представить в виде максимума конечного набора линейных функций, поскольку f имеет бесконечное число точек недифференцируемости f.
Сформулируем для введенного класса функционалов С^'1 аналог леммы 1.2.3 из [12].
ЭО
Теорема 1. Пусть локально липшицев квазивыпуклый функционал f G C^'l (Q)■ Тогда для произвольных x,y G Q верно неравенство
\f (У) - f (x) - (Of (x),y - x)\< L\\y - x\\2 + S\\y - x\\ (2.8)
для некоторого субградиента df (x) G dCl f (x).
Доказательство■ Для произвольных фиксированных x,y G Q через yt будем обозначать элемент ty + (1 - t)x. Тогда при фиксированных x и y одномерная функция ф: [0;1] ^ R (ф(0) = f (x) и ф(1) = f (y))
V(t) = f (yt) = f ((1 - t)x + ty) (2.9)
будет квазивыпуклой и для некоторого t G [0; 1] отрезки [0; t] и [t; 1] будут промежутками (вообще говоря, нестрогой) монотонности функции ф.
Поскольку для всякой точки yt (t G [0; 1]) существует конечный субдифференциал Кларка dci f (yt), а также функционал f локально липшицев и квазивыпуклый, то для всех t G (0; 1) существуют конечные левосторонняя и правосторонняя производные:
= Xmi ф( + - yit) ф, = ^ *it + - т (2.10)
1 At^-0 At +w At^+0 At
и
y+(t) = . max (dcif (yt),y - x) — (2.11)
df (yt)edctf (yt)
производная f по направлению y - x в точке yt. Ясно, что при yt G Q0 (то есть существует градиент Vf (yt))
y-(t) = y+(t) = (Vf (yt),y - x). (2.12)
Ввиду квазивыпуклости f (и ф) можно полагать, что функция ф абсолютно непрерывна и почти всюду дифференцируема в смысле классической меры Лебега, т.е. имеем равенства:
f (у) = f (x) + i (Vf (yt),y - x) dt = ф(0) + i1 ф++(t) dt,
J [0;1]\Qo J0
откуда для произвольного субградиента df (x) G df (x) имеем:
f (y) = f (x) + (df (x),y - x) +
_ max (df (yt),y - x)-(df (x),y - x)
ßf(vt)€dcif(yt)
dt = 2.13)
f (x) + (df (x),y - x) + i (df (yt) - df (x),y - x) dt
Ю
1
0
для набора субградиентов {дс^(уь)}ге(0;1], на которых достигаются соответствующие максимумы. Если уь £ Q0, то уь = Ци (к > 1) из определения 1.1 (11) и тогда
ф'+(г) - Ф— (t) = (dl/(yt) - д/(yt),y - x) = = (di/(qk) - d2/(Qk),y - x) <
(2.14)
< ||di/(qk) - 02/(Qk)
(2.4)
- x|\ < ök\\y - x|\
для соответствующих субградиентов (векторов-элементов субдифференциалов Кларка) di>2/(qk) Е dci/(qk). Не уменьшая общности рассуждений, будем считать, что
x,y Е Qo С {yt}te[0;1] (2.15)
и всякому qn поставим в соответствие tn Е [0; 1] : qn = (1 - tn)x + tny. Пусть существует последовательность
{tn}n=i : 0 = ti <t2 <...< 1, lim tn = 1.
Тогда Vti,t2 Е (tk; tk+i) при k > 1 верны неравенства:
\\V/(Ут2 ) -V/(Уп )||. < L\T2 - Ti\ • \\y - x\\,
1
(2.16)
ф+(4) - ф— (tk+i)\ < 2L(tk+i - tk) • \\y - x|\ .
(2.17)
Поэтому при выборе в (2.13) подходящего субградиента дf (х) будут выполняться соотношения:
\/(У) - /(x) -Ф/(x),y - x)\
(2.13)
(д/(yt) - д/(x), y - x) dt
(ф+t - Ф+(0)) dt
<
(g(yt) - д/(x),y - x) dt
+ J] ök\\y - x\\,
k=i
причем вектор-функция g такова, что g(x) = g(y0) = д/(x) и
WiKyn) - д(Ут2)\* < Ц\Уп - УТ2 \\ vTi,T2 Е
(2.18)
откуда
(g(yt) - д/(x),y - x) dt
(g(yt) - g(x),y - x) dt
<
fi ri (2.18)
< \(g(yt) - g(x),y - x)\dt < \g(yt) - g(x)\\*dt 4\y - x|\ <
oo < L i \\yt - x|| dt •Wy - x|| = L\\y - xf • i tdt = L\\y - xf,
*
i
o
i
i
o
o
i
i
o
o
то есть
\f (у) - f (x) - (df (x), y - x)\< L\\y - x\\2 + 5\\y - x\l (2.19)
что и требовалось. □
Следствие 1. Если f G C^'l (Q), то для произвольных x,y G Q верны неравенства:
f (y) < f (x) + max \\df (x\ • \\y - x\\ + S\\y - x\\ + L\\y - x\\2 = = f (x) + (max \\df (x)\\* + ¿)\\y - x\\ + L\\у - x\\2.
3. Пример приложения: адаптивный зеркальный спуск для задач минимизации квазивыпуклого целевого функционала рассматриваемого класса гладкости
В качестве приложения покажем возможность получения оценок скорости сходимости для метода из [4] (алгоритм 4) для более широкого класса целевых функционалов. Напомним, что метод [4] (алгоритм 4) мы рассматривали для условных задач выпуклой минимизации при выполнении условия липшицевости градиента целевого функционала. Например, квадратичный целевой функционал может не удовлетворять обычному свойству Липшица (или константа Липшица может быть довольно большой), но его градиент удовлетворяет условию Липшица. Метод [4] (алгоритм 4) применим и для более широкого класса уже негладких выпуклых целевых функционалов
f (x) = max fi(x), (3.1)
1<i<m
где 1
fi(x) = ^(Ax,x) - (bi,x) + ai, i = 1,... ,m, (3.2)
в случае, когда Ai (i = 1,... , m) — положительно определённые матрицы: xTAix > 0 4x G Q.
Начнём с постановки рассматриваемых задач условной оптимизации, а также необходимых вспомогательные понятий. Рассмотрим набор выпуклых субдиффе-ренцируемых функционалов gm: X ^ R для m = 1, M. Также предположим, что все функционалы gm удовлетворяют условию Липшица с некоторой константой
M9:
\gm(x) - gm(y)\< Mg\\x - y\\ Vx, y Е Q, m =1,M. (3.3)
Мы рассматриваем следующий тип задач оптимизации квазивыпуклого локально липшицева целевого функционала / с выпуклыми липшицевыми функциональными ограничениями
/(x) ^ min, (3.4)
x£Q
где _
gm(x) < 0 Уш =1,M. (3.5)
Сделаем предположение о разрешимости задачи (3.4) - (3.5). Задачи минимизации негладкого функционала c ограничениями возникают в широком классе проблем современной large-scale оптимизации и её приложений [10, 14]. Для таких задач имеется множество методов, среди которых можно отметить метод зеркального спуска [8, 11]. Отметим, что в случае негладкого целевого функционала или функциональных ограничений естественно использовать субградиентные методы, восходящие к хорошо известным работам [3, 5]. Метод зеркального спуска возник для безусловных задач в [2, 11] как аналог стандартного субградиентного метода с неевклидовым проектированием. Для условных задач аналог этого метода был предложен в [11] (см. также [7]). Проблема адаптивного выбора шага без использования констант Липшица рассмотрена в [9] для задач без ограничений, а также в [7] для задач с функциональными ограничениями.
Отметим, что всюду далее будем под субградинетом квазивыпуклого (локально липшицева) функционала f понимать любой элемент (вектор) субдифференциала Кларка. Для выпуклых функционалов gm понятие субградиента мы понимаем стандартно.
Для дальнейших рассуждений нам потребуются следующие вспомогательные понятия (см., например, [9]), которые позволяют оценить качество найденного решения. Для оценки расстояния от текущей точки до решения введём так называемую прокс-функцию d: X ^ R, обладающую свойством непрерывной дифферен-цируемости и 1-сильной выпуклости относительно нормы \\-\\, т.е.
(Vd(x) - Vd(y),x - y) > \\x - y\ Vx,y, G Q.
Будем полагать, что имеется некоторая оценка расстояния от точки старта до искомого решения задачи x*, т.е. существует такая константа в0 > 0, что d(x*) < ©0, где x* — точное решение (3.4) - (3.5). Если имеется множество решений X*, то мы предполагаем, что для константы ©0
min d(x*) < ©0-
Для всех x, y G X рассмотрим соответствующую дивергенцию Брэгмана
V(x,y) = d(y) - d(x) - (Vd(x),y - x).
В зависимости от постановки конкретной задачи возможны различные подходы к определению прокс-структуры задачи и соответствующей дивергенции Брэг-мана: евклидова, энтропийная и многие другие (см., например, [9]). Стандартно определим оператор проектирования
Mirrx(p) = arg min {(p, u) + V(x, мП для всяких x G Q и p G E*.
ueQ
Сделаем предположение о том, что оператор Mirrx(p) легко вычислим.
Напомним одно известное утверждение, которое вытекает из обычного неравенства Коши-Буняковского, а также 2ab < a2 + b2. Поскольку функциональные ограничения по-прежнему выпуклы, мы рассмотрим также отдельно оценку в выпуклом случае [9].
Лемма 1. Пусть f: X ^ r — некоторый (функционал. Для произвольного y G X, вектора py G E* и некоторого h > 0 положим z = Mirry(h ■ py). Тогда для произвольного x G Q
h(py, У - x)< h\\py\\* + V(y, x) - V(z, x). (3.6)
Для выпуклого субдифференцируемого в точке y (функционала f предыдущее неравенство для произвольного субградиентл py = V f (y) примет вид
h ■ (f (У) - f (x)) < (Vf (y),y - x) < ^\\Vf (y)\\* + V(y,x) - V(z,x). (3.7)
Аналогично ([4], алгоритм 4) рассмотрим следующий алгоритм адаптивного зеркального спуска для задач (3.4) - (3.5). Отметим, что ввиду предположения локальной липшицевости квазивыпуклого целевого функционала все его субградиенты конечны. Сделаем дополнительное предположение об отсутствии точек перегиба, т.е. градиент f может быть нулевым только в точке x*.
Алгоритм 1. Адаптивный зеркальный спуск, квазивыпуклый негладкий целевой функционал, много ограничений.
REQUIRE £ > 0, ©0 : d(x*) < ©0
1. x0 = argminx€Q d(x)
2. I =: 0
3. N — 0
4. REPEAT
5. IF g(xN) < £
6 hN — \\Vf(xN)iu
7. xN+1 — MirrxN(hNVf (xN)) // "продуктивные шаги" 5. N ^ I
9. ELSE
10. // (gm(N)(xN) > £) для некоторого m(N) G {1,... , M}
11. hN —
\\Vgm(N)(xN \
12. xN+1 — MirrxN(hNVgm(N)(xN)) // "непродуктивные шаги"
13. ENDIF
14. N — N +1
15. UNTIL 0 < 2 (J11 + E
ENSURE XN := argminxkt keI f (xk)
{j1' + fc5 llVam(k:)(xk)\\2^j
Для оценки скорости сходимости этого метода по аналогии с ([12], п. 3.2.2), для всякого ненулевого конечного субградиента (элемента субдифференциала Кларка) V/ (x) целевого квазивыпуклого функционала / введём следующую вспомогательную величину
Vf(x,y) = {Vm,x-y), x e Q- (3.8)
Аналогично ([4], теорема 2) с использованием леммы 1 проверяется следующая
Теорема 2. Пусть £ > 0 — фиксированное число и выполнен критерий остановки алгоритма 1. Тогда
minvf(xk,x*) <£. (3.9)
keiJ
Отметим, что алгоритм 1 работает не более
" 2max{1,M2}02
N
£2
(3.10)
итераций.
Теперь покажем, как можно оценить скорость сходимости предлагаемого метода. Для этого полезно следующее вспомогательное утверждение, которое аналогично лемме 3.2.1 из [12]. Напомним, что под х* мы понимаем точное решение задачи (3.4) - (3.5). Отличительной особенностью данного утверждения является то, что мы рассматриваем не выпуклый, а квазивыпуклый целевой функционал f. Предположение о его локальной липшицевости позволяет в качестве аппарата для исследования дифференциальных свойств использовать субдифференциал Кларка.
Теорема 3. Пусть f: Ц ^ Ега — локально липшицев квазивыпуклый функционал. Введем следующую функцию:
ш(т) = шах^(х) — f (х*) : \\х — х*\\ < т}, (3.11)
X^
где т — положительное число. Тогда для всякого х Е Ц
f (х) — f (х*) < ш(vf (х,х*)). (3.12)
Доказательство. Мы отправляемся от схемы рассуждений ([12], лемма 3.2.1) с тем отличием, что вместо обычного субдифференциала выпуклой функции будет использоваться субдифференциал Кларка. Можно проверить, что
Vf(х,х*) = шт{\\у — х*\\ : (VI'(х),у — х) = 0}.
Действительно, пусть Vf (х,х*) = \\у* — х*\\ для некоторого у*: (Vf (х),у* — х) = 0. Тогда Vf (х) = Хв, где (в, у* — х*) = \\у* — х*\\ для некоторого в такого, что \\в\\* = 1. Поэтому
0 = (Vf (х), у* — х) = Х(в,у* — х*) + (Vf (х), х* — х),
откуда
А = ^^ - Х*} = (х)\\, И V; (Х,Х,) = \У - Х*\\. \\У* Х* \\
Остаётся лишь учесть существование конечной производной по направлению к £ Я у всякого локально липшицева квазивыпуклого функционала f
}(х,к) = Ут f (Х + Ак) - f (Х).
Далее, с использованием свойства квазивыпуклости и (2.2) для локально липшицева квазивыпуклого функционала получаем:
f 1(х, к) = &(х, к) = тах (Vf (х),к).
V; (х)£до1; (х)
Для всякого направления к такого, что (Vf(х),к) > 0 получаем ^(х,к) > 0. Поэтому имеет место f (х + Ак) > f (х) для произвольного направления к такого, что (Vf (х),к) > 0. Неравенство f (у) — f (х) > 0 следует теперь из непрерывности
функционала f для всякого у такого, что (Vf (х),у — х) = 0. Итак, f (х) — f (х*) < f (у) — f (х*) < (х,х^)).
□
На базе теорем 2 и 3 можно оценить скорость сходимости алгоритма для квазивыпуклого локально липшицева целевого функционала f с липшицевым субградиентом. Используя доказанное в теореме 1 неравенство
f(х) < fх) + (\\Vf(х*)\\* + 5)\\х — х*\\ + 1 Ь\\х — х*\\2, мы можем получить, что
min f (xk) - f (x*) < minist (x*)\\* + 5)\\xk - xj + 1 L\\Xk - x*\\2) .
kei kei i 2 1
Далее, по теореме 3 верно неравенство:
f (x) - f X) < £ • (\\Vf (x*)\\* + S) + 1 L£2. Поэтому справедливо
Следствие 2. Пусть локально Липшицев квазивыпуклый функционал f имеет,
Липшицев субградиент,. Тогда после остановки алгоритма верна оценка:
L£2
min f (xk) - f (x*) < £ • (\\Vf (x*)\\* + S) + (3.13)
1<k<N 2
причём для всякого k
gm(xk) < £ Уш = TM- (3.14)
Заключение
Таким образом, остановка алгоритма 1 гарантирует достижение приемлемого качества найденного решения (3.13) - (3.14), а оценка (3.10) указывает на его оптимальность с точки зрения нижних оракульных оценок [11] даже в классе выпуклых (а тем более и квазивыпуклых) целевых функционалов.
Полученные результаты, в частности, позволяют сделать такие выводы. Во-первых, алгоритм 1 применим для задач минимизации не только выпуклых, но и квазивыпуклых целевых функционалов. Во-вторых, особенности поведения целевого функционала в окрестности некоторых отдельных точек могут не сильно усложнять интерполяцию (модель) оптимизируемой функции, что может позволить сохранять при наличии таких особенностей оценки скорости сходимости метода.
Список цитируемых источников
1. Кларк Ф. Оптимизация и негладкий анализ: Пер. с англ. М.: Наука, 1988.
Clarke F. Optimization and non-smooth analysis. New York: John Wiley and Sons, 1983.
2. НемировскийА. С., Юдин Д. Б. Эффективные методы решения задач выпуклого программирования большой размерности. Экономика и математические методы. №2, 135-152 (1979).
Nemirovskii A. and YudinD. Efficient methods for large-scale convex optimization problems // Ekonomika i Matematicheskie Metody, No. 2, 135-152 (1979). (in Russian)
3. Поляк Б. Т. Один общий метод решения экстремальных задач. Докл. АН СССР 174, 33-36 (1967).
PolyakB. A general method of solving extremum problems. Soviet Mathematics Doklady 8, No. 3, 593-597 (1967). (in Russian)
4. Стонякин Ф. С., АлкусаМ. С., Степанов А. Н., Баринов М. А. Адаптивные алгоритмы зеркального спуска в задачах выпуклого программирования с липшицевыми ограничениями. Труды Института математики и механики УрО РАН 24, №2, 266279 (2018).
StonyakinF. S., AlkousaM.S., StepanovA. N., BarinovM.A. Adaptive mirror descent algorithms in convex programming problems with Lipschitz constraints. Trudy Instituta Matematiki i Mekhaniki URO RAN 24, No. 2, 266-279 (2018). (in Russian)
5. ШорН. З. Применение обобщенного градиентного спуска в блочном программировании. Кибернетика 3, №3, 53-55 (1967).
ShorN.Z. Generalized gradient descent with application to block programming, Kibernetika 3, No. 3, 53-55 (1967). (in Russian)
6. BayandinaA, DvurechenskyP., GasnikovA, StonyakinF., TitovA. Mirror descent and convex optimization problems with non-smooth inequality constraints. Lecture Notes in Mathematics 2227. Large-scale and Distributed Optimization, 181-231 (2018).
7. Beck A., Ben-TalA., Guttmann-BeckN., Tetruashvili L. The comirror algorithm for solving nonsmooth constrained convex problems. Operations Research Letters 38, No. 6, 493-498 (2010).
8. Beck A. and TeboulleM. Mirror descent and nonlinear projected subgradient methods for convex optimization. Operations Research Letters 31, No. 3, 167-175 (2003).
9. Ben-TalA. and NemirovskiA. Lectures on Modern Convex Optimization. Philadelphia: Society for Industrial and Applied Mathematics, 2001.
10. Ben-TalA. and Nemirovski A. Robust Truss Topology Design via Semidefinite Programming. SIAM Journal on Optimization 7, No. 4, 991-101 (1997).
11. Nemirovsky A. and YudinD. Problem Complexity and Method Efficiency in Optimization. New York: J. Wiley & Sons, 1983.
12. Nesterov Y. Introductory Lectures on Convex Optimization: a basic course. Kluwer Academic Publishers, Massachusetts, 2004.
13. Nesterov Y. Subgradient methods for convex functions with nonstandard growth properties. https://www.mathnet.ru:8080/PresentFiles/16179/growthbm_nesterov.pdf, [Online; accessed 19-September-2018]
14. ShpirkoS., Nesterov Yu. Primal-dual Subgradient Methods for Huge-scale Linear Conic Problem. SIAM Journal on Optimization 24, No. 3, 1444-1457 (2014).
Получена 19.09.2018