УДК 519.85
С. М. Пучинин1, Ф. С. Стонякин1'2
1 Московский физико-технический институт (национальный исследовательский университет) 2Крымский федеральный университет им. В. И. Вернадского
Градиентные методы для минимизационных задач с условием Поляка - Лоясиевича: относительная погрешность градиента и адаптивный подбор
параметров
Рассматривается класс задач минимизации функций с условиями Липшица градиента и Поляка — Лоясиевича (градиентного доминирования). Оптимизационные задачи с условием Поляка - Лоясиевича актуальны, поскольку встречаются в самых разных важных приложениях, включая нелинейные системы с параметризацией в глубоком обучении. Естественно, возможна ситуация наличия погрешностей доступной методу информации, и возникает вопрос исследования влияния таких погрешностей на качество выдаваемого методом решения. В работе исследуется постановка задачи минимизации в предположении доступности во всякой текущей точке градиента целевой функции с относительной погрешностью. Предлагаются адаптивные (самонастраивающиеся) методы градиентного типа. Если в первом из них адаптивность подбора размеров шагов реализована только по параметру гладкости целевой функции, то во втором методе — ещё и по величине, связанной с относительной погрешностью градиента. Для каждого метода получена теоретическая оценка качества выходной точки. Адаптивность методов позволяет, в частности, применить полученные результаты к задачам с целевыми функциями, которые не удовлетворяют условию Липшица градиента на всём пространстве. Это проиллюстрировано результатами вычислительных экспериментов для функций Розенброка и Нестерова - Скокова.
Ключевые слова: адаптивный метод, градиентный метод, условие Поляка -Лоясиевича, неточный градиент, относительная неточность
S.M. Puchinin1, F. S. Stony akin1'2
1 Moscow Institute of Physics and Technology 2V. Vernadsky Crimean Federal University
Gradient-type method for optimization problems with Polyak - Lojasiewicz condition: relative inexactness in gradient and adaptive parameters setting
In this paper we consider the class of minimization problems with Lipschitz-continuous gradient and the well-known Polyak - Lojasiewicz condition. Optimization problems with the Polyak - Lojasiewicz condition are relevant because they are found in a wide variety of important applications, including non-linear systems with parameterization in deep learning. The presence of an inexactness in information available to a method is naturally possible, and the question of investigating the influence of such an inexactness on the quality of the solution given by the method arises. In the paper we investigate a formulation for the assumption of availability at any current point of the gradient of the target function with a relative inexactness. We propose some adaptive (self-tuning) gradient-type methods. If in the first of them the adaptivity of step size selection is realized only by the smoothness parameter of the target function, in the second method it's also realized by the value related to the
@ Пучинин С. M., Стонякин Ф. С., 2024
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2024
relative inexactness in the gradient. For each method, a theoretical estimate of the quality of the output point is obtained. The adaptive approach makes it possible, in particular, to apply the obtained results to problems with target functions which do not satisfy the Lipschitz condition of the gradient over the whole space. This is illustrated by the results of computational experiments for Rosenbrock and Nesterov - Skokov functions.
Key words: adaptive method, gradient method, Polyak - Lojasiewicz condition, inexact gradient, relative inexactness
1. Введение
С ростом набора прикладных задач, которые сводятся к оптимизационным задачам большой или даже огромной размерности (некоторые из таких приложений возникают в машинном обучении, глубоком обучении, оптимальном управлении, обработке сигналов, статистике и т.д.), исследование различных методов первого порядка привлекает большое внимание научного сообщества [1]. Градиентные методы можно рассматривать как одно из ключевых направлений развития численных методов оптимизации в настоящее время. Преимущественно это связано с малозатратностью их итераций с точки зрения используемой памяти, а также с независимостью оценок скорости сходимости от параметров размерности пространства.
Для задачи минимизации гладкой функции / хорошо известно, что если / сильно выпукла, то метод градиентного спуска имеет глобальную линейную скорость сходимости [2], причём её оценки не зависят от размерности пространства. Однако многие фундаментальные задачи машинного обучения, такие как регрессия методом наименьших квадратов или логистическая регрессия, приводят к задачам минимизации функций, которые не сильно выпуклы и даже не выпуклы. Это привело к исследованию приемлемых для возникающих в такого типа приложениях аналогов свойств выпуклости и сильной выпуклости для целевой функции оптимизационной задачи. Одно из наиболее известных таких свойств — условие градиентного доминирования Поляка - Лоясиевича [3]. Хорошо известно [3], что этого условия достаточно, чтобы показать глобальную линейную скорость сходимости градиентного спуска для достаточно гладких задач без предположений о выпуклости. Недавно в [4] показана оптимальность этого результата.
Как правило, для методов первого порядка делается предположение о доступности в произвольной точке допустимого множества задачи точного оракула первого порядка, т.е. оракул должен выдавать в каждой запрашиваемой точке точные значения целевой функции и её градиента. Но, к сожалению, во многих приложениях нет возможности получить точную информацию о градиенте и/или целевой функции на каждой итерации метода. Это привело исследователей к изучению поведения методов первого порядка, которые могут работать с неточным оракулом. В работе [5] (которую можно считать фундаментальной в этом направлении) авторы вводят понятие неточного opa,кула, первого порядка,, которое естественно возникает во многих ситуациях. При этом вопросы исследования влияния погрешностей доступной информации на гарантии сходимости численных методов, по-видимому, впервые были поставлены в книге [6].
Часто при анализе сходимости метода градиентного спуска подразумевается постоянная величина размера шага, которая зависит от константы Липшица градиента целевой функции (константы гладкости). Однако во многих прикладных задачах эту константу трудно оценить. Например, известная функция Розенброка и ее многомерные аналоги (например, функция Нестерова - Скокова) имеют только локально липшицево-непрерывный градиент. Для того чтобы преодолеть трудности с определением значения константы Липшица градиента, были разработаны различные методы, одним из которых является градиентный спуск с адаптивной политикой размера шага.
Недавно в [7] для рассматриваемого в настоящей работе класса задач (с достаточно гладкой целевой функцией, удовлетворяющей условию Поляка - Лоясиевича) предложены
неадаптивный и адаптивный градиентные методы, использующие понятие неточного градиента. В [7] проанализированы предложенные алгоритмы и влияние помех в градиенте на скорость сходимости. Однако в их работе адаптивность имеет место лишь в отношении константы Липшица градиента; по-прежнему необходимо точно знать оценку величины абсолютной погрешности градиента. В [8] предложен и проанализирован адаптивный алгоритм, который предполагает настройку не только константы гладкости функции L, но и величины абсолютной погрешности градиента А. Но в обеих работах [7,8] рассматривался лишь случай доступности градиента с абсолютной погрешностью. Пример выбора размера шага неадаптивного градиентного метода в случае относительной погрешности задания
L
В настоящей работе продолжаются исследования по адаптивным методам градиентного типа [7, 8] для гладких задач с условием Поляка-Лоясиевича в случае доступности методу в произвольной текущей точке информации о градиенте с относительной погрешностью. Предложены два адаптивных алгоритма (различающихся набором настраиваемых параметров) для задач с целевыми функциями, удовлетворяющими условию Поляка -Лоясиевича, при наличии относительной неточности задания градиента, с подробным анализом их скоростей сходимости и поведения образуемых ими траекторий. Если в первом
L
во втором (алгоритме 2) имеется адаптивность по обоим параметрам: константе Липшица градиента целевой функции L и величине относительной погрешности градиента а. Таким образом, второй из предложенных алгоритмов полностью адаптивен.
2. Постановка задачи и основные понятия
Рассматривается минимизационная задача (в общем случае невыпуклая):
min fix), (1)
L
Определение 1. Дифференцируемая функция f : Rra ^ R называется L-гладкой относительно нормы ||-||, если для некоторой константы L > 0 выполнено
IIV/(у) -V f(x)|| ^L||y-x||. (2)
Норма в данной работе всюду подразумевается евклидовой. Как хорошо известно, условие L
f(y) < f(x) + (V f (x),y - x) + L UV- x||2. (3)
Определение 2. Ь-гладкая функция / удовлетворяет условию Поляка - Лоясиевича (или, для краткости, РЬ-условию), если выполнено следующее неравенство:
Дх) - Г < ^||У/(х)||2 V* е , (4)
где у > 0 — некоторая константа, а /* := /(х*), где х* е X* (X* — множество точных решений рассматриваемой минимизационной задачи).
В литературе условие (4) также иногда называется условием градиентного доминирования.
В данной работе предлагается рассмотреть проблему поведения методов градиентного типа для задачи (1) в случае относительных помех информации о градиенте. Недавно в [7, 8] были детально исследованы адаптивные методы градиентного типа при наличии
абсолютных помех. Мы же рассматриваем ситуацию, когда градиент известен с относительной погрешностью, то есть
||У/(ж) -V/(ж)|| < а||У/(ж)У, (5)
где V/(ж) — неточный градиент (доступен методу), а а € [0, 0.5) — некоторая константа, отвечающая за величину помех в градиенте. Данное условие на неточный градиент было введено и изучено в работах [6,10]. Обычно рассматриваются а из большего полуинтервала [0,1), однако по причинам, описанным в разделе 3, нами рассматривается усеченный полу-[0, 0.5)
приближенного его вычисления, например, в безградиентной оптимизации (см. [11]). Как легко видеть из (5),
(1 - а)0г)|| < ¡V/(®)|| < (1 + а)|^/(®)|, (6)
откуда можно получить условие типа Поляка - Лоясиевича (4) для неточного градиента
/<*)- /* < ^'<т>
3. Градиентный спуск с адаптивной политикой размера шага
Задачу (1) предлагается решать методом градиентного спуска в виде
хк+1 = хк - ПкV/(хк), Пк > 0, (8)
где размер шага может зависеть от Ь и а, а также, в случае, когда точное значение одного из них или их обоих неизвестно, от Ьк+1 и а^+ь
Если при реализации метода (8) градиент доступен с известной относительной погрешностью а € [0,1) и известен параметр Ь > 0, то выбор постоянного размера шага
Ък = Ъ =
1 (1 - а) Т (1 + а)2
приводит к следующему результату (см. параграф 1 из пособия [9] и имеющиеся там ссылки):
Г (ж^1) _ (хк) < _ _ (1 - а)
}(Х ) }(Ж ) < 2Ь (1 + а)2
2 ь 2
V/(хк)
(9)
Пользуясь условием Поляка - Лоясиевича (4), имеем следующую оценку на скорость сходимости по функции:
/(^) - /* < (1 - £(/(-0) - /*).
Однако цель данной работы — предложить аналог алгоритмам 1 и 2 из [8] для случая относительной погрешности градиента с адаптивной настройкой параметров Ь и а. По сути, необходимо предложить критерий выхода из итерации, содержащий норму неточного градиента £(хк)||. Это обстоятельство затрудняет использование подхода с оценками типа (9) для нормы точного градиента. Поэтому рассмотрим альтернативный вариант выбора размера шага для метода (8) с относительной погрешностью задания градиента, который позволит получить приемлемый аналог оценки (9) для квадрата нормы неточного гради-
ента. Используя (5), (6), выпишем следующий аналог неравенства (3):
/(у) (х) + (Vf(х),у -х) + | = /(х) + (V/(х),у -х) + | (х) + &}(х),у -х) + Ь (х) + &}(х),у -х) + Ь < /(х) + (V }(х),у -х) + Ь
У - х112 =
у-х\\2 + (V/(х) -^¡(х),у -х) < 2/-х||2 + IV/(ж)^/(х)||||у-х|| < у-х||2 + а№/(х)ЦЦу-х\\ <
у-х||2 +
а
1 — а
1|У/(х)||||у-х||,
т.е.
/(хк+1) < /(хй) + ^V /(хй), х^1 - х^ + Ь
хк+1 х
+
2
+
а 1 — а
хк+1 х
(10)
На базе неравенства (10) ниже будут предложены критерии выхода из итерации в алгоритмах 1 и 2. Это неравенство гарантирует отсутствие зацикливания (выход из итерации в некоторый момент) соответствующих алгоритмов для Ь-гладких задач.
3.1. Алгоритм с адаптивной настройкой параметра гладкости
Ь
вестном а е [0; 0.5).
Ь
Вход: х0, Ьгаш ^ у > 0, Ь0 ^ Ьтт, а е [0, 0.5).
1. к = 0.
2. Ьк+1 = шах{^т,Ьт1п}-
3.
4. Если
хк+1 =хк - ^ 1 - 2аV7Дхк).
Ь
к+1
1 а
(11)
!(хк+1) < ¡(хк) + (V/(хк),хк+1 - хк) +
Ь
к+1
хк+1 х
+
+
а
1 а
^¡(хк)
хк+1 х
(12)
то переходим на шаг 5. Иначе Ь^+1 := 2Ьк+1 и возвращаемся на шаг 3. 5. Если правило остановки не выполнено, то к := к + 1 и переходим на шаг 2. Выход: хк.
Проведем анализ скорости сходимости и траектории для предложенного алгоритма. Из (8) имеем
х^+1_х^
= ьк
^¡(хк)
(V!(хк),хк+1 -хк) = -Пк \\у/(хк)
2
2
и
2
Объединяя полученные выражения с (12), получаем
/(х^+1) - /(хк) < (-нк + ^^ + аНк
1 — а,
^/(хк)
(13)
Так как Ьк не может быть отрицательным, минимум выражения, стоящего в скобках, достигается при
Ик = тах < 0
Г 1 1 - 2а! I ' Ь+1 1 - а )
Lk+l 1 - а
Если а € [0.5,1) то минимум выражения, стоящего в скобках в (13), равен 0 при Ь>к = 0, что говорит об отсутствии гарантий сходимости метода (8) вне зависимости от выбора Ь>к-Поэтому в (5), как и в алгоритмах 1 и 2, рассматриваются лишь а € [0, 0.5). При а € [0,0.5) и задании размера шага согласно (11) имеем
/(х*+1) - /(хк) < -
1 (1 - 2 а)2 2Ьк+1 (1 -а)2
У/(х*)
Объединив последнее неравенство с (7), получаем
¡(хк+1) - /* < (1 - ^-(1 - 2а)2 ) (/(хк) - г) = (1 - М
к+1
') (/<**>- Г) = (1- ^) (/(х»)- Г)
где
£ := (1 - 2а)2
Можно считать, что Ь ^ Ь, поэтому тахк<м Ь+1 ^ 2Ь. Следовательно, N-1 , . ,
/(хМ) - /* < П (1 - ^ ) (/(х0) - /*) < (1 - АО (/(х0) - Г) '
^ 0 V Ь+1 / V ьтах /
где
Ьтах — 2Ь.
(14)
Получаем сходимость по функции со скоростью геометрической прогрессии. Это означает, что для достижения --точности по функции требуется не более
Ж* =
Ьт
К
^ (/(х0) - /*)'
итераций. С другой стороны, в силу РЬ-условия (7), эта же точность по функции может
быть гарантирована при выполнении следующего правила остановки:
2
V/(хк) < 2е(1 - а)2.
Далее, получим ограничение на траекторию (х^}д!=0> образуемую алгоритмом 1:
1 (1 - 2а)2
2Ь^+1 (1 - а)2
и, следовательно, согласно (11),
V/(хк) < /(хк) - /(х*+1)
хк+1 х
<
Ь
к+1
(ь17Ш И*/^>1Г < Ь2Г (/<**> -/(х"+1>)
(/(х*) - /*) « у^ (1 - у^У (/(х0) - /*) .
V / Ьтт \ Ьтах /
<
2
2
2
2
Наконец,
N-1 Г—2-N-1 , х к/2
- х°II < Е 1И+1 -хк т— и(х°) - /*) Е (1 - ^
, „ 11 V ттт , „ \ ттах
к=° к=°
\1Т^(Кх°) - П1 £тах {1/2 < -Ттх\ 1Т-(№) - п.
V Тт1п 1_ (1__^1/2 V Тт1п
Таким образом, верна следующая
Теорема 1. Пусть функция f удовлетворяет условию Липшица градиента (2) и условию Поляка - Лоясиевича (4). И пусть при работе алгоритма 1 выполнилось одно из следующих двух условий:
1) алгоритм 1 проработал N итераций, где
N =
Ттах,
ттах1оё —;—
2) для, некоторого N < Ж* выполнено правило остановки в виде
2
V f(xN) < -е(1 - а)
2
где Ттах задается формулой (14). Тогда, верны следующие оценки на, выходную точку X алгоритма 1 (X = xN* или X = xN соответственно):
т - г* < -
\х-Х°|I < -Тта^\[Т^(Лх°) - Г).
- тт
Замечание 1. Оценка (15) не зависит ни от N ни от невязки по функции на Ж-м шаге.
т
шаре фиксированного радиуса с центром в х°. Данная особенность позволяет в какой-то мере сохранять полезные свойства начальной точки х°. Также она позволяет расширить область применимости рассматриваемого подхода на другие классы функций. Например, на класс функций, удовлетворяющих РТ-условию лишь локально на некотором множестве. Это продемонстрировано ниже, в вычислительных экспериментах в разделе 4.
и
Замечание 2. Во всех приведённых в настоящем подразделе статьи результатах Ттах, оценивающее максимально возможное значение для Тк+1, может быть заменено на
тахк^ Тк+1 •
Замечание 3. Алгоритм 1 применим и для случая точного градиента при а = 0. В этом случае просто £ = 1.
Алгоритм 2 Градиентный спуск с адаптивной настройкой L и a Вход: x0, Lmin ^ ß > 0, L0 ^ Lmin, amin G [0, 0.5) a0 G [amin, 0.5).
1. k = 0 ßmax = 0.5 - amin ßo = 0.5 - ao.
2. Lfc+i = maxj ^T,Lmin}; ßk+i = min [2ßk,ßmax}; ak+i = 0.5 - ßk+i-
3.
х
^ = xk - / 1- 2ak+iV/(xk). Lk+i 1 - ak+i
4. Если
/(xk+i) < /(xk) + ^/(xk), xk+i - xk) +
Lk+i
2
+
xk+i xk
ak+i
+
V/(xk)
xk+i
x
1 - ак+1
то переходим на шаг 5. Иначе Ьк+1 := 2Ьк+ь 9к+1 := 0.5/9^+^ ак+1 := 0.5 — Рк+1 и возвращаемся на шаг 3.
5. Если правило остановки не выполнено, то к := к + 1 и переходим на шаг 2.
Выход: хк.
2
3.2. Алгоритм с адаптивной настройкой параметра гладкости и величины относительной погрешности градиента
Для реализации адаптивной настройки не только параметра гладкости Ь, но и величины относительной погрешности градиента а введем дополнительный параметр / £ (0, 0.5] следующим образом: / := 0.5 — а. Предлагаемый алгоритм приведен ниже как алгоритм 2. Можно считать, что Ьо ^ Ь и ао ^ а (то есть /о поэтому
т ^т /о 9шах\ ог \л 0.5 — атш\ тахЬк+1 ^ Ь там 2,-- > = 2Ь там 1,-(
к <м к+^ \ , 0.59] \ , 0.5 — а /
и
{ 1 Ьтт 1
^ -^шт J
ß 0.5 - a L
min ßk+i >--^ =-mm < 1, —
k<^nßk+i max (2, ^ 2 l , L
И, следовательно,
0.5 - a Lmin max ak+i = 0.5 - min ßk+i ^ 0.5--min < 1, —-— > .
k<N k+i k<Nyk+^ 2 \ ' L J
Введем соответствующие обозначения:
Lmax := 2L max < 1, 05 _ amin 1 , 0.5 - a
0.5 - a Lmin
amax := 0.5--2-mm<U,—^f. (17)
Проведем анализ получаемой алгоритмом 2 выходной точки в рамках следующего предположения, аналогичного используемому авторами [8] для случая абсолютной погрешности.
Предположение 1. Алгоритм 2 может запрашивать значение градиента в любой текущей
к хк
ак+1
k
xk amin
Это позволяет записать РЬ-условие для неточного градиента в точке х\ замени в а на
ак+1-
Яхк) - Г <
2-(1 - ак+1)2
^/(хк)
(18)
Условие (18), в свою очередь, позволяет, аналогично полученным в предыдущем подразделе результатам, записать следующую оценку скорости сходимости по функции для алгоритма 2:
N-1
N —1 /
) - Г < П (1 - т-"^к+1) (!(х°) - П к=0 ^
Ьк+1
) (/(х°) - /*) < (1 - £тах^ (/(х°) - Г) , (19)
/ \ Ьтах /
где
Ск+1 := (1 - 2ак+1)2 и {тах := (1 - 2атах)2
(20)
а также получить следующий основной результат этого раздела.
Поляка - Лоясиевича (4). И пусть при работе алгоритма 2 выполнилось одно из следующих двух условий:
1) алгоритм 2 проработал Ж** итераций, где
Ж** =
Ьт
т
- (/(Х°) - /*)
(21)
2) для некоторого N < Ж** выполнено правило остановки в виде
V/(х*) < 2е(1 -аN+1)2
1
2
2
где £тах задается формулой (20), а Ьтах и атах задаются, формулами (16) и (17) соответственно. Тогда, верны следующие оценки на выходную точку X алгоритма 2 (X = хN**
или х = хN соответственно)
/(X) - Г < -
х_х
0
<
2ЬГ
- т
V
Ьт
( Дх°) - /*).
(22)
и
2
Замечание 4. Предположение 1 довольно естественно для случая относительной погрешности, так как одной из основных областей её возникновения является безградиентная оптимизация, где зачастую можно регулировать точность вычисления приближенного значения градиента в запрашиваемой точке.
Замечание 5. В силу оценки (22) из теоремы 2 для алгоритма 2 справедливы все выводы замечания 1, сделанного выше для алгоритма 1. Это продемонстрировано ниже, в вычислительных экспериментах в разделе 4.
Замечание 6. Исходя из предположения 1, алгоритм имеет доступ к градиенту с относительной погрешностью атщ. Тем не менее понижение запрашиваемой точности до ак+1 ведет к ускорению вычисления неточного градиента, а также к возможному уменьшению
Ьк+1
и оценки (21), (22) из теоремы 2.
Замечание 7. Предположение 1 не обязательно для получения линейной скорости сходимости. В случае, когда алгоритм не может регулировать величину погрешности градиента, имеют место аналоги оценки (19) и теоремы 2 для
2 (1 — а)2 (1 — а)2
?к+1 := (1 — 2ак+1) Тл-V? И ?тах := (1 — 2 атах)
а\о smax • V ^^max; /-, \
-ak+i)2 (1 -amax)
соответственно.
Ьтах
атах, оценивающие максимально возможные значения для Ьк+1 и ак+1, могут быть заменены на тахк<м Ьк+1 и тахк<м ак+1 соответственно.
Замечание 9. Алгоритм 2 (как и алгоритм 1) за счёт адаптивности применим даже для
Ь
монстрировано ниже в вычислительных экспериментах для некоторых задач в разделе 4.
Замечание 10. Можно оценить число повторений отдельно взятых шагов алгоритма 2. Если Ьк+1 ^ Ь и ак+1 ^ а (то есть 9к+1 ^ 9)5 то повторения 4-го шага заканчиваются. Поэтому повторений 4-го шага за все итерации не более 2 N + (2 тах ^ ь а5-а
¿min' 0.5-а
Таким образом, можно, например, оценить число обращений к оракулу на протяжении работы алгоритма.
4. Вычислительные эксперименты
Для проведения экспериментального анализа работы итогового для настоящей статьи алгоритма 2 были выбраны функция Розенброка, а также функция Нестерова - Скокова. Обе эти функции невыпуклы и удовлетворяют PL-условию (4) на любом компакте (см.,
L
всём пространстве.
Все вычислительные эксперименты проводились на платформе Google Colab (https://colab.research.google.com/). Для генерации равномерного шума из многомерного шара использовался инструмент nengo.dists.UniformHypersphere из библиотеки nengo (https://www.nengo.ai/).
4.1. Функция Розенброка
Функцией Розенброка называется следующая функция двух переменных:
/(х1,Х2) = 100 (х2 — х?)2 + (х1 — 1)2.
Как легко видеть, ее глобальный минимум находится в точке (х1,х2) = (1,1), и /* = 0. На вход алгоритму подавались следующие входные данные: х0 = (0, 0) Ьтщ = 0.01 Ьо = 1, атт = 0.001 а0 = 0.01. В качестве неточного градиента рассматривалось значение градиента V /(х1, х2), зашумленное равномерно распределенным в 2-мерном шаре радиуса а||У/(х1, х2) || относительным шумом, где параметр а варьировался. Результаты эксперимента приведены на рис. 1, а также в табл. 1 и 2.
Таблица 1
Результат работы алгоритма 2 после N = 1000 итераций для функции
Розенброка
a 0.001 0.01 0.1 0.3 0.5 1
/(xn ) 0.0074 0.0075 0.0060 0.0021 0.0018 0.0017
Функция Розенброка
- а-0.001
- а = 0.01 - а = 0.1 - а = 0.3 - а = 0.5
-
-
О 200 400 600 800 1000
Номер итерации, к
Рис. 1. График зависимости значения функции от номера итерации в зависимости от параметра
помех а для функции Розенброка
Таблица 2
Результат работы алгоритма 2 после N = 10 000 итераций для функции
Розенброка
а 0.001 0.01 0.1 0.3 0.5 1
/ (хм) 1.5 х 10—19 1.3 х 10—19 1.6 х 10—19 2.6 х 10—16 2.7 х 10—15 7.3 х 10—17
Для всех рассмотренных а метод уже к 10 000-й итерации сходится по функции и, следовательно, по аргументу к глобальному минимуму с машинной точностью. Отметим, что предполагаемое замедление сходимости при увеличении а не наблюдается как минимум 1000
это начинает незначительно сказываться, что видно из табл. 2. В том числе, оказалось приемлемым значение а = 1, которое в теоретических рассуждениях нами отбрасывалось.
4.2. Функция Нестерова — Скокова
Функцией Нестерова - Скокова называется следующая функция п переменных:
п— 1
'1 - )2 +
/(Ж1,Ж2, . . . ,хп) = ^(1 - Ж1)2 + ^ (Жг+1 - 2ж2 + 1)2 .
г=1
Эту функцию также называют обобщением функции Розенброка на многомерный случай. Как легко видеть, ее глобальный минимум находится в точке (ж1, Х2,..., хп) = (1,1,..., 1), и /* = 0. На вход алгоритму подавались следующие входные данные: Ьт\п = 0.01,
Отат = 0.001 ао = 0.01. В качестве неточного градиента рассматривалось значение градиента V/(ж1, Ж2,..., жп), зашумленное равномерно распределённым в та-мерном шаре радиуса а||У/(ж1, Ж2,..., жп) || относительным шумом, где параметр а варьировался. Также варьировались ж0 и Размерность та выбрана равной 100.
Результаты эксперимента приведены на рис. 2, а также в табл. 3 6.
Рис. 2. График зависимости значения функции от номера итерации в зависимости от параметра помех а для функции Нестерова - Скокова (ж0 = (0,0,..., 0), Ь0 = 1)
Таблица 3
Результат работы алгоритма 2 после N = 10 итераций для функции Нестерова - Скокова (ж0 = (0, 0,..., 0), Ь0 = 1)
а 0.001 0.01 0.1 0.3 0.5 1
/ (хм) 0.058 0.058 0.059 0.073 0.261 2.631
Таблица 4
Результат работы алгоритма 2 после N = 50 итераций для функции Нестерова - Скокова (ж0 = (0, 0,..., 0), Ь0 = 1)
а 0.001 0.01 0.1 0.3 0.5 1
/ (хм) 0.058 0.058 0.058 0.058 0.058 0.058
Для случая ж0 = (0, 0,..., 0) ¿0 = 1 метод для всех рассмотренных а быстро сходится к минимуму, но не глобальному, а только локальному, который, однако, относительно близок к глобальному по функции. Для случая ж0 = (-1,1,..., 1), ¿0 = 0.1 при а = 0.001
и а = 0.01 метод быстро сходится уже к глобальному минимуму, однако при остальных рассмотренных а метод почти сразу сваливается в локальный минимум с далеким от оптимального значением функции. В обоих случаях, в отличие от функции Розенброка, здесь отчётливо заметно снижение скорости сходимости при увеличении параметра а, пусть и не значительное.
Таблица 5
Результат работы алгоритма 2 после N = 10 итераций для функции Нестерова - Скокова (ж0 = (-1,1,..., 1), L0 = 0.1)
a 0.001 0.01 0.1 0.3 0.5 1
/ (%N ) 1.2 x 10-6 6.7 x 10-5 0.98 0.98 0.98 0.98
Таблица 6
Результат работы алгоритма 2 после N = 50 итераций для функции Нестерова - Скокова (ж0 = (-1,1,..., 1), Р0 = 0.1)
a 0.001 0.01 0.1 0.3 0.5 1
/ (xn) 4.4 x 10-11 3.2 x 10-9 0.98 0.98 0.98 0.98
5. Заключение
В статье продолжены начатые недавно в работах [7, 8] исследования по анализу поведения траекторий адаптивных методов градиентного типа для задач с условием Поляка -Лоясиевича в предположении доступности методу в текущей точке информации о целевой функции. Интерес к этому классу задач обусловлен тем, что к нему сводятся важные вопросы исследования нелинейных систем с перепараметризацией в глубоком обучении [12] и многие другие прикладные задачи [13]. Такие задачи могут быть невыпуклыми [14], но при этом можно гарантировать для них сходимость методов градиентного типа со скоростью геометрической прогрессии в случае ¿-гладкости. Если в статьях [7,8] исследовался случай аддитивной неточности градиента и аддитивной неточности задания целевой функции, то в настоящей работе рассмотрена ситуация доступности в текущей точке градиента с относительной погрешностью, что актуально, например, с точки зрения безградиентных методов [11]. Принципиальное отличие полученных результатов от [7,8] — доказательство сохранения сходимости предложенных вариаций градиентного метода со скоростью геометрической прогрессии при некоторых предположениях об уровне относительной погрешности. В случае абсолютной неточности информации о градиенте в [7, 8] удалось лишь оценить (показана оптимальность таких оценок) степень отклонения от сходимости со скоростью геометрической прогрессии в случае известной оценки параметра погрешности информации о градиенте и предложить правила ранней остановки методов, гарантирующие достижение оптимального уровня качества приближённого решения по функции. При этом адаптивность рассмотренных методов открывает возможности их применения в задачах, для которых нет глобального свойства Р-гладкости, в том числе и в негладких по аналогии с подходом универсальных градиентных методов Ю.Е. Нестерова [15].
Работа выполнена при поддержке гранта Российского научного фонда и города Москвы № 22-21-20065 (https://rscf.ru/project/22-21-20065/).
Список литературы
1. Beck A. First-Order Methods in Optimization. Society for Industrial and Applied Mathematics. Oct 2017. https://doi.Org/10.1137/l.9781611974997
2. Nesterov Y. Introductory Lectures on Convex Optimization. Springer US, 2004. https://doi.org/10.1007/978-l-4419-8853-9
3. Polyak В. T. Gradient methods for the minimisation of functional // USSR Computational Mathematics and Mathematical Physics. 1963. V. 3(4). P. 864-878. https://doi.org/10.1016/0041-5553(63)90382-3
4. Yue P., Fang C., Lin Z. On the lower bound of minimizing Polyak -Lojasiewicz functions. The Thirty Sixth Annual Conference on Learning Theory / / Proceedings of Machine Learning Research. 2023. V. 195. P. 2948-2968. https: / / proceedings.mlr .press /vl95/vue23a / vue23a.pdf
5. Devolder O., Glineur F., Nesterov Y. First-order methods of smooth convex optimization with inexact oracle // Mathematical Programming. 2013. V. 146(1-2). P. 37-75. https://doi.org/10.1007/sl0107-013-0677-5
6. Поляк Б. Т. Введение в оптимизацию. Москва : Наука, 1983.
7. Polyak В.Т., Kuruzov I.A., Stonyakin F.S. Stopping rules for gradient methods for non-convex problems with additive noise in gradient // Journal of Optimization Theory and Applications. 2023. V. 198. P. 531-551. https://doi.org/10.1007/sl0957-023-02245-w'
8. Kuruzov I.A., Stonyakin F.S., Alkousa M.S. Gradient-type methods for optimization problems with Polvak-Lojasiewicz condition: Early stopping and adaptivitv to inexactness parameter / Olenev N., Evtushenko Y., Jacimovic M.. Khachav M.. Malkova V., Pospelov I. (eds) // Advances in Optimization and Applications. OPTIMA 2022. Communications in Computer and Information Science. 2022. V. 1739. P. 18-32. https://doi.org/10.48550/ARXIV.2212.04226
9. Гаспиков А.В. Современные численные методы оптимизации. Метод универсального градиентного спуска. Москва : МЦНМО, 2021.
10. Carter R.G. On the global convergence of trust region algorithms using inexact gradient information // SIAM Journal on Numerical Analysis. 1991. V. 28(1). P. 251-265. https://doi.org/10.1137/0728014
11. Berahas A.S., Cao L., Choromanski K., Scheinberg K. A theoretical and empirical comparison of gradient approximations in derivative-free optimization // Foundations of Computational Mathematics. 2021. V. 22(2). P. 507-560. https://doi.org/10.1007/sl0208-021-09513-z
12. Belkin M. Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation // Acta Numerica. 2021. V. 30. P. 203-248. https://doi.org/10.1017/S0962492921000039
13. Karimi H., Nutini J., Schmidt M. Linear convergence of gradient and proximal-gradient methods under the Polyak - Lojasiewic condition. Springer, 2016. P. 795-811. https://doi.org/10.1007/978-3-319-46128-1^50
14. Polyak В., Tremba A. New versions of Newton method: step-size choice, convergence domain and under-determined equations // Optimization Methods and Software. 2020. V. 35(6), P. 1272-1303. https://doi.org/10.1080/10556788.2019.1669154
15. Nesterov Y. Universal gradient methods for convex optimization problems // Mathematical Programming. 2014. V. 152(1-2). P. 381-404. https://doi.org/10.1007/sl0107-014-0790-0
References
1. Beck A. First-Order Methods in Optimization. Society for Industrial and Applied Mathematics. Oct 2017. https://doi.Org/10.1137/l.9781611974997
2. Nesterov Y. Introductory Lectures on Convex Optimization. Springer US, 2004. https://doi.org/10.1007/978-l-4419-8853-9
3. Polyak B.T. Gradient methods for the minimisation of functional. USSR Computational Mathematics and Mathematical Physics. 1963. V. 3(4). P. 864-878. https://doi.org/10.1016/0041-5553(63)90382-3
4. Yue P., Fang C., Lin Z. On the lower bound of minimizing Polyak -Lojasiewic functions. The Thirty Sixth Annual Conference on Learning Theory. Proceedings of Machine Learning Research. 2023. V. 195. P. 2948-2968. https: / / proceedings.mlr .press /vl95/vue23a / vue23a.pdf
5. Devolder O., Glineur F., Nesterov Y. First-order methods of smooth convex optimization with inexact oracle. Mathematical Programming. 2013. V. 146(1-2). P. 37-75. https://doi.org/10.1007/sl0107-013-0677-5
6. Polyak B.T. Introduction to optimization. Moscow : Nauka, 1983. (in Russian).
7. Polyak B.T., Kuruzov I.A., Stonyakin F.S. Stopping rules for gradient methods for non-convex problems with additive noise in gradient. Journal of Optimization Theory and Applications. 2023. V. 198. P. 531-551. https://doi.org/10.1007/sl0957-023-02245-w'
8. Kuruzov I.A., Stonyakin F.S., Alkousa M.S. Gradient-type methods for optimization problems with Polvak-Lojasiewicz condition: Early stopping and adaptivitv to inexactness parameter / Olenev N., Evtushenko Y., Jacimovic M., Khachav M., Malkova V., Pospelov I. (eds). Advances in Optimization and Applications. OPTIMA 2022. Communications in Computer and Information Science. 2022. V. 1739. P. 18-32. https://doi.org/10.48550/ARXIV.2212.04226
9. Gasnikov A.V. Modern Numerical Optimization Methods. Universal Gradient Descent. Moscow : MCCME, 2021. (in Russian).
10. Carter R.G. On the global convergence of trust region algorithms using inexact gradient information. SIAM Journal on Numerical Analysis. 1991. V. 28(1). P. 251-265. https://doi.org/10.1137/0728014
11. Berahas A.S., Cao L., Choromanski K., Scheinberg K. A theoretical and empirical comparison of gradient approximations in derivative-free optimization. Foundations of Computational Mathematics. 2021. V. 22(2). P. 507-560. https://doi.org/10.1007/sl0208-021-09513-z
12. Belkin M. Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. Acta Numerica. 2021. V. 30. P. 203-248. https://doi.org/10.1017/S0962492921000039
13. Karimi H., Nutini J., Schmidt M. Linear convergence of gradient and proximal-gradient methods under the Polyak - Lojasiewic condition. Springer, 2016. P. 795-811. https://doi.org/10.1007/978-3-319-46128-1^50
14. Polyak B., Tremba A. New versions of Newton method: step-size choice, convergence domain and under-determined equations. Optimization Methods and Software. 2020. V. 35(6), P. 1272-1303. https://doi.org/10.1080/10556788.2019.1669154
15. Nesterov Y. Universal gradient methods for convex optimization problems. Mathematical Programming. 2014. V. 152(1-2). P. 381-404. https://doi.org/10.1007/sl0107-014-0790-0
Поступим в редакцию 10.11.2023