Метод сопряженных субградиентов с растяжением пространства
Крутиков В.Н. ([email protected] ), Арышев Д.В. Кемеровский государственный университет
1. Введение
В работе для решения задачи минимизации выпуклой на R" функции fx) предлагается метод ¿-субградиентного типа с растяжением пространства. Рассматриваемый метод идейно близок, с одной стороны, методу ¿г-наискорейшего спуска (см, например, [1]) для минимизации выпуклых функций, а с другой - методу сопряженных градиентов для минимизации непрерывно дифференцируемых функций (см, например, [2]). Дадим краткое пояснение сказанному.
Для решения задачи минимизации выпуклой на R" функции fx) в релаксационных процессах ¿-субградиентного типа [1]
xi+i = xi - у i Sj, у i = arg mm f(x - у Si^ (1)
Y
направление спуска st выбирается как решение неравенств ([1, с.259])
(s, g) > 0, Vg е G, (2)
где G= дЕ f () - ¿-субградиентное множество в точке xt. Множество решений (2)
обозначим S(G), а df (x) = df)(x) - субградиентное множество в точке x. Поскольку явное
задание ¿-субградиентного множества отсутствует в релаксационных субградиентных методах (РСМ) в качестве множества G используют некоторую оболочку субградиентов, полученных в результате работы алгоритма (см, например, [1-6, 8-11]).
В первых работах [3-5] направление спуска находили, как вектор r/G =n(G) -ближайший к началу координат вектор из G, который также является решением неравенств (2). В работе [6] для этих целей используются методы решения неравенств (2) и, на основе теории обучения [7], разработан подход создания алгоритмов решения задачи (2), получено несколько новых эффективных алгоритмов минимизации [6, 8-11] и сделан вывод, что r-алгоритм [12,13] принадлежит семейству РСМ и в нем содержится встроенный метод решения неравенств для получения направления спуска. В настоящей работе излагается новый РСМ, со встроенным методом решения неравенств, который является комбинацией методов решения неравенств, содержащихся в алгоритме Ф. Вульфа [3] (см., например, [1]) и r-алгоритме [13]. Доказана эквивалентность нового метода и метода сопряженных градиентов на квадратичных функциях.
2. Алгоритм решения неравенств метода Ф. Вульфа
Сделаем необходимые определения. Обозначим: рО=р(О)=||п(О)||, цО=п(О)/р|
о,
^ = Цо/Ро, Яо = Я(о) = max || £ У, ^ = яб(о) = т^Ое^), гс = г(0) = рс /яб,
*
у(0) = Ро / Ко • Векторы Цо и ^ являются решениями (2). Будем полагать, что выполняется следующее предположение.
Предположение 1. Множество О выпуклое, замкнутое, ограниченное (Яо < да) и
удовлетворяет условию отделимости, то есть Ро > 0.
Из определения величины для величины (Цо, £) следует оценка
Ро < (Цо, < яб, ^ е о (3)
*
Из (3), с учетом определения вектора s , получим
1 < (£) < ЯБ / ро, е о (4)
Величина , согласно (4), удовлетворяет ограничениям
Ро < Яб ^^х^р Яо.
£ео
(5)
Для множества О и некоторого вектора g введем подмножество векторов и (о, £) = {и е о | (£, и) < 0} . Для двух произвольных векторов £ и и определим ближайший к началу координат вектор (минимальной длины)
(и, £) = £ + =
I
УУ
т \
(У, У)
£ , где у = и - £, в =
(У, £) (У, У)
(6)
Если и е и (о, £), то 1>Р>0, и следовательно вектор (и, £) принадлежит оболочке векторов £ и и.
Лемма 1. Пусть множество о удовлетворяет предположению 1, векторы £ е о, и е и (о, £). Тогда
||gW (и, £ )||2 < тт{||£||2,||и||2}
1 -
Р
.2 Л
р 2 + Я 2
<||£|Г
1-
Р
2
22 р + Я
(7)
Доказательство. Используем равенство площади треугольника образованного векторами £, и и У
2^ =||£Г(и,£)|Н|У|Н|£|Н|и||-^п(ф£,и) |<||£ ||■ ||и ||. Отсюда, с учетом предположений леммы, найдем
llgW (и, £ )||2 <|| £ ||2 || и ||2 / || У ||2 ■
||£||2 ||и||2
||£||2 +||и||2 -2(и)
<
< min{||g||2,||u||2}
max{||g||2,||u||2} ^ ||£||2 + ||и||2
< min{||g||2,||u||2}
2
' Я2 А Я2 +р2
Полученная оценка доказывает (7). Лемма доказана.
Алгоритм решения неравенств (А'), содержащийся в схеме алгоритма Ф. Вульфа [3], можно представить в виде:
$0 6 о, £ = (&.-1, и1), и еи(О, gl-l), I = 0,1,.... (8)
Отметим, что в схеме (8) все векторы $I е О в силу выпуклости множества О и способа построения их в (8).
Теорема 1. Пусть множество О удовлетворяет предположению 1. Тогда алгоритм АЖ (8) находит решение неравенств (2) за конечное число итераций, которое не превосходит минимального целого I, удовлетворяющего неравенству
I > 1п
( 2\ ! ( 2 ^ р
V Л2,
1п
1 - р
22
У
р + Я
Доказательство. На основании (8) и (7) получим
(9)
1 < (Л $ )2 < (Л,*)($, $) <
р
г 2 V-1
1 - р
22 р + Я
< Я2
2
р
г 2 V
1 - р
22 р + Я
(10)
у к V к 1 у Неравенство (10) будет нарушено через конечное число итераций, которое не больше минимального целого I, определяемого неравенством (9). Это означает невозможность выбора вектора и1 еи(О,£1 т.е. вектор £1 решение неравенств (2). Теорема доказана.
Примечание 1. Число итераций, необходимых алгоритму АЖ (8) для решения системы неравенств (2), зависит только от малости отношения р2 / Я2 .
Приведем упрощенную версию алгоритма [3] с обновлением через фиксированное число итераций. Другая версия алгоритма [3] изложена в [1] и проведено подробное исследование ее сходимости на выпуклых функциях.
Алгоритм минимизации (А'М).
1. Задать начальное приближение х0 е Яп . Вычислить $0 ед/(х0). Если £0=0, то хо точка минимума, закончить вычисления.
2. Для I =0,1,2, ..., выполнить действия:
2.1. Найти новое приближение минимума:
х1+1 = х1 - у 131, где уI = тт/(х - у3 ), 3 = . (11)
у
2.2. Найти субградиент иI+1 е д/(х^+1) такой, что (иI+1,3) < 0.
2.3. Если I не кратно т, то вычислить у^ = иI+1 - $I,
$1+1 = £ +Р1У1, в =- (И, (12)
(У1, У1)
в противном случае произвести обновление £I+1 = иI+1.
Согласно примечанию 1, если субградиентные множества функции будут удовлетворять неравенству у(д/(х)) = р(д/(х)) / Я(д/(х)) > У0, где х не является точкой минимума, то встроенный в него метод решения неравенств при достаточно большом фиксированном т будет обеспечивать выход из окрестности точки, не являющейся точкой минимума, что обеспечивает сходимость метода AWM. Этот результат можно обосновать, используя технику доказательств работ [1,8].
Прежде чем перейти к описанию нового алгоритма, вычленим метод решения неравенств из г - алгоритма.
3. Метод решения неравенств г - алгоритма
Дадим описание ^алгоритма [13] в форме [14], при точном одномерном спуске. Для симметричной строго положительно определенной матрицы Н размера пхп будем использовать обозначение Н>0.
Алгоритм минимизации ( АВМ(а) ).
1. Задать начальное приближение Н0 = I, Х0 е Яп, параметра >0.
Вычислить £0 едf (Х0 ) . Если g0=0, то х0 точка минимума, закончить вычисления.
2. Для I =0,1,2, ..., выполнить действия:
2.1. Найти новое приближение минимума:
хг +1 = х - у л-, У г = ^ /(х- - У ^ = , (13)
У
2.2. Найти субградиент +1 е с^ (х-+1) такой, что (+1,л-) < 0.
2.3. Если г не кратно т, то вычислить У- = и-+1 — ,
Н У уТ нТ
н1+, = нг - (1 -1/а2) гУгУгПг , (14)
г +1 (Уг, НгУ{ ) ' ;
в противном случае произвести обновление Нг +1 = I.
Основываясь на результатах работы [6] покажем, что в схеме ^алгоритма присутствет метод решения неравенств, и дадим обоснование его сходимости для частного вида множеств. Пусть множество о с Яп принадлежит некоторой гиперплоскости, а вектор П(О) является также и ее ближайшим к началу координат вектором. Тогда существует решение равенств
(л, £)=1, Vg е о,
которое одновременно удовлетворяет и (2). Следовательно, его можно получить, решая равенства
(л,)=Уг, г=0,1,...к, приу-=1. (16)
Решение системы [16] можно получить, например, итерационным методом наименьших квадратов (ИМНК), итерация которого записывается в виде (см., например, [7], а для оценки параметров методов оптимизации [2, с.106]):
„ = 3 + Н1£1(у1 (5, £1)) 5 = 0 (17) 5+1 = 5 + п , ги-гТ", 5 = 0, (17)
[1 + (, £I)]
н^^Т нТ
н +1 = и --, и0 = I, (18)
1 1 + £, н^) 0 ' ' ;
В [6] предложено использовать (17), (18) для масштабированных данных
£I = [ч(, н1$1)]-05, ~ = У1 [ч(, н1$1)]-05,
где д>0. Тогда, после возврата к старым данным, получим:
я +1 = я + (У - (3, $)), я = 0, (19)
1 1 (1 + Ч)( ) 0 ' '
н^^7 нт
н1+1 = н1--^—1- н0 = I. (20)
1+1 1 (1 + д)(, н1$1) 0 ' 7
Процесс (19), (20) использовался в [8] для построения нового РСМ. Посредством вычитания
равенств (16) перейдем к системе [6]
(3, у, )=0, I = 0,1,..., к -1, (3, $к )=1, (21)
где у, = - $. Если в (19), (20) произвести замены у = у, [ц(у,,н,у,)] 0 5, то решение ИМНК такой системы (21) включает процесс преобразования матриц
нг+! = н - н1у1уТнТ1 /((1 + д)(у,ну )),I = 0,1,...к - 1,^ = м1, (22)
последняя матрица нк +1 вычисляется по формуле (20), а искомое направление находится по формулам
30 = 51 =.... = 3к = 0, ^ +1 = нк +l, $к . (23)
Направление Як+1, с точностью до нормировки, совпадает с направлением спуска г -алгоритма, поскольку заключительное преобразование матрицы в (20) меняет только нормировку, т.е. Як+1 = нк+1, $к =рнк, $к, то его можно не использовать. Используя (23) вместе с (22) для вычисления направления спуска, мы придем к схеме г - алгоритма форме [14], что позволяет отнести его к методам в-субградиентного типа.
Приведем алгоритм решения неравенств (2), вычлененный из схемы г - алгоритма. Алгоритм решения неравенств АЩа).
1. Задать а > 1, н0 = I. Выбрать произвольно $0 е О. Положить 1=0, я, = н^.
2. Для , = 1,2,... выполнить действия:
2.1. Найти еи(О, я, , если такого вектора не существует, то я,-1 - решение неравенст (2), закончить работу алгоритма.
2.2. Положить я, = н^, у, = - -1 и получить новое приближение матрицы по формуле (14)
Дадим обоснование сходимости метода для частного вида множеств. Основная цель
обоснования состоит в установлении общих свойств алгоритмов AW и AR(a) и возможность их комбинирования с целью ускорения сходимости. Изложим идею доказательства.
Обозначим Ai = H { 1. На основании (4) и неравенства Шварца получим
1 * (s*,gl)2 = (s*,45H?-5gl)2 < (s*,A/)(g;,Hg). (24)
Мы покажем, что правая часть (24) убывает и через конечное число итераций станет меньше 1. Это послужит доказательством того, что через конечное число итераций нельзя найти
вектор gl е U(G, Si_i), т.е. будет найдено Si_i - решение системы (2).
Для последовательности { т1 = min [(y f, H ¡y f ) /(y f, y f )]} справедлива оценка.
0< j <i _1 j j j j j
Теорема 2 [8]. Пусть множество G удовлетворяет предположению 1, а последовательность {Hi} - результат преобразования (5) при H0 = I, a > 1 и
произвольных yi е Rn, yi Ф 0, i = 0,1,2,.... Тогда
Ti , i, 1.
i n(a2'n - 1)
Лемма 2. Пусть множество G удовлетворяет Предположению 1, а овательность п1
алгоритма АЯ(а). Тогда
последовательность п = min (gf, Hjgj ) вычисляется на основе характеристик
0< j<i _1 J J J
, , , >(25)
п (а2''п -1) Доказательство. Исходя из (10) получим
(У],Н]У]) =(8],Н]8]) +(и],Н]и]) - 2(8],Н]и]) >(8],Н]8]) +(и],Н]и]
Отсюда следует
(У]>Н]У]) > (8],Н]8]) > (8],Н]8])
(У], У]) (\\8]\\ + \\и]\\)2 4Я£ ' что, с учетом теоремы 2, доказывает (25). Лемма доказана.
Матрицы А' = Н'-1 преобразуются по рекуррентной формуле
А'+1 = А' + (а2 -1)У'УТ /(У1,Н'У'), (26)
что следует из формулы Шермана - Мориссона. Предположим, что = р^. Тогда, согласно (4) и равенства У' = 8' - 8'-1, будет (s*, У') = 0. Из (26), с учетом полученного равенства и Но = I, следует
(5*, А' +Г5*) = (5*, А^*) + (а2 -1) (У') = (5*, А^*) = Л = (5*, 5*) = р--2 .
( У' , Н' У' )
Отсюда, используя оценку (25), получим, что неравенство (24) перестанет выполняться через
конечное число итераций на некотором шаге ,. Следовательно, как было отмечено ранее, будет найдено я,-1 - решение системы (2). Таким образом мы доказали следующую теорему.
Теорема 3. Пусть множество О удовлетворяет предположению 1 и = Ро . Тогда 2
при а > 1 алгоритм ЛЯ(а) находит решение неравенств (2) за конечное число итераций.
4. Алгоритм решения неравенств на основе выбора ближайшего к началу координат вектора в текущей метрике
Эффект убывания правой части (24) можно усилить, если подчинить выбор вектора $, в алгоритме ЛЯ(а) условию минимума величины (, )
= -1 + Р^у , где у, = щ - -1, щ е О и (щ, я--1) < 0, 0 < р < 1. (27) Решением является
В, =- (, $-1) , (28)
(ну, у,) ' '
поскольку, в силу способа получения матриц (14)
(нгуг, -1) = (Hi-1 у,, -1) = (у, н,-1) = (у,, я--1) =
в =
(н1у,, у,) (н,-1 у,, у,) (н,-1 у,, у,) (н,-1 у,, у,)
= (н-1$,-1, $-1) - (щ, я-1)
(н, -1$,-l, -1) +(н,-1и,, и) - 2(и,, я-1)
В числителе и знаменателе последнего выражения, согласно (27), содержаться только положительные члены, причем числитель меньше знаменателя. Поэтому выполняется неравенство 0 < Р, < 1. Формулы (27), (28) соответствуют выбору ближайшего к началу координат вектора в текущей метрике из оболочки двух векторов, принадлежащих множеству О. Для вектора $ справедливы неравенства
(н^,$) < (Higi-1,gi-1), (н^,$) < (ни-1,и,-1). (29)
Алгоритм решения неравенств (AW(a)).
1. Задать а > 1, н0 = I. Выбрать произвольно $0 е О. Положить ,=0, я, = .
2. Для , = 1,2,... выполнить действия:
2.1. Найти и, еи(О,я,, т.е. и, е О и (щя, < 0. Если такого вектора не
существует, то я,-1 - решение неравенст (2), закончить работу алгоритма. 22 Вычислить у, = щ - -1, = -1 + , Р, = - (н'у, gl-1) .
(ну, у, )
Положить я, = и получить новое приближение матрицы по формуле (14) Отметим, что в случае выпуклого множества О векторы $, , генерируемые алгоритмом Л'(а), принадлежат множеству О, поскольку на каждой итерации выбор
осуществляется из оболочки двух векторов Ы', 8'-1 £ О. Поэтому используя доказательство
теоремы 3, с учетом (29), придем к следующей теореме о сходимости алгоритма А'(а).
Теорема 4. Пусть множество О удовлетворяет предположению 1 и = ро . Тогда 2
при а > 1 алгоритм АЖ(а) находит решение неравенств (2) за конечное число итераций. 5. Новый алгоритм минимизации с растяжением пространства Сформулируем метод минимизации на основе алгоритма решения неравенств А'(а). Алгоритм минимизации (А'М(а)).
1. Задать начальное приближение Н0 = 1, £ ^, параметра >1. Вычислить 80 £ д/(х0 ) . Если 80=0, то хо точка минимума, закончить вычисления.
2. Для ' =0,1,2, ..., выполнить действия:
2.1. Найти новое приближение минимума:
Л+1 = х' - у &, у' = тт / (х - у 5 ), 5 = Н'8',
у
2.2. Найти субградиент Ы'+1 £ д/(X'+1) такой, что (Ы'+1,5') < 0.
2.3. Если ' не кратно т, то вычислить У' = Ы'+1 - 8',
8'+1 = 8' +в'У', в' =- (НУ',8'!, (30)
(Н'У', У')
Н+1 = Н -(1 -1/а2)Н 1У1У1Н[ , (31)
( У' , Н' У' )
в противном случае произвести обновление Н0 = 1, 8'+1 = Ы'+1.
Докажем эквивалентность последовательностей {X'}, генерируемых алгоритмом А'М(а) и методом сопряженных градиентов при минимизации квадратичных функций
/(х) = 2(х, Ах) + (Ь, х) + с, А > 0, х, Ь £ Яп.
Метод сопряженых градиентов (БОМ) (см., например, [2]) можно записать в следующем виде.
1. Задать начальное приближение х0 £ Яп . Вычислить 80 = У/(х0), положить ^ = 80 .
Если 8о=о, то хо точка минимума, закончить вычисления.
2. Для ' =0,1,2, ..., выполнить действия:
2.1. Найти новое приближение минимума:
х'+1 = х' - У'8', где у' = тт/(х' - у5) .
у
2. Для ' =0,1,2, ..., выполнить действия:
2.2. Вычислить градиент 8'+1 = У/(х'+1).
2.3. Если ' не кратно т, то вычислить У' = Ы'+1 - 8',
я- +1 = £ +1 +Рл , Р, = (£+Ъ $ +1) ,
в противном случае произвести обновление я,+1 = +1.
Теорема 5. На квадратичной функции со строго положительно определенной матрицей Гессе алгоритм ЛШМ(а) при а > 1 и метод сопряженных градиентов, при равенстве их начальных точек и циклов обновления т< п, генерируют одинаковые последовательности приближения минимума {х} для Кт.
Доказательство. В работе [15] (см., также в [1]) доказано, что алгоритмы БОМ и А'М при одинаковых начальных точках и длинах циклов до обновления генерируют одинаковые последовательности приближений минимума {х,} на гладких функциях. Поэтому для доказательства теоремы нам достаточно доказать идентичность последовательностей {х}, генерируемых алгоритмами Л'М и Л'М(а) на квадратичных функциях. Последовательности, генерируемые алгоритмом Л'М, будем помечать штрихом.
Докажем равенства
X' = X,, (32)
£, (33)
я, = н£. (34)
Доказательство проведем по индукции. При ,=0 равенства (32)-(34) справедливы по условию теоремы и построению методов. Предположим, что эти равенства выполнены при 0 < , < к . Докажем что они выполняются и при , = к + 1.
В силу выполнимости равенств (32), (34) в пунктах 2.1 алгоритмов Л'М и Л'М(а) будут получены одинаковые точки нового приближения. Следовательно (32) будет выполнимо при , = к +1.
В силу единственности градиента в точке, ортогональности последовательности градиентов в методе сопряженных градиентов при Кп^П, а следовательно и в Л'М, с учетом преобразования матриц (31), получим
и' = и, = Hiui (35)
при , = к. Отсюда и (34) следует
у' = у, = н1у1 (36)
при , = к .Учитывая равенства (36), (33), и преобразования алгоритмов (12) и (30) получим выполнимость (33) при , = к +1.
На итерациях алгоритмов Л'М и Л'М(а), в силу способа построения (12) и (30) будут выполняться соотношения
(Е'+1, у;) = 0, (£+1, ну) = 0, (37)
что доказывается непосредственной проверкой.
Из (30) и (31), с учетом (37) и (35), (36) получим
Н +g+i = Hg +1 = Hg - (ИУ''g ) НгУг = g +1 = g - У = g'+l- (38)
(НгУг, У) (У, Уi)
Здесь первый переход получен на основе (31), (37), второй - на основе (30) , третий - на
основе (34), (36), четвертый - на основе (30), (36) и последний - на основе (12), (33) и (36).
Таким образом, мы доказали выполнимость (32) - (34) при i = к +1, что доказывает теорему.
6. Заключение
В работе для получения направления спуска некоторого релаксационного субградиентного метода используется система неравенств (2). В известном методе Ф. Вульфа и r-алгоритме Н.З. Шора выделяются методы решения неравенств (AW и AR(a)) и обосновывается их сходимость на формализованном множестве неравенств. Результаты обоснования сходимости методов AW и AR(a) позволяют построить новый комбинированный алгоритм решения неравенств AW(a), в котором сочетаются свойства сходимости обоих методов. На основе полученного алгоритма решения неравенств предложен новый метод сопряженных субградиентов с растяжением пространства. Доказана эквивалентность нового метода и метода сопряженных градиентов на квадратичных функциях.
ЛИТЕРАТУРА
1. Демьянов В. Ф., Васильев Л.В. Недифференцируемая оптимизация. М.: Наука, 1981.
2. Поляк Б. Т. Введение в оптимизацию. М: Наука, 1983.
3. Wolfe P. Note on a method of conjugate subgradients for minimizing nondifferentiable functions // Math. Programming. 1974. v. 7. N 3.
4. Lemarechal C. An algorithm for minimizing convex functions // Proc. IFIP Congress-74. Amsterdam: North-Holland. 1974.
5. Lemarechal C. On extension of Davidon methods to nondifferentiable problems // Math. Programming Studi. Amsterdam:North-Hol-land.1975. №3.
6. Крутиков В.Н Методы минимизации на основе частной модели субградиентных множеств//Методы оптимизации и их приложения/Труды 11-й международной Байкальской школы-семинара. Иркутск.1998.Том 1.
7. Цыпкин Я. З. Основы теории обучающихся систем. М.: Наука, 1981.
8. Крутиков В.Н., Петрова Т.В. Релаксационный метод минимизации с растяжением пространства в направлении субградиента// Экономика и мат. методы. 2003. Т. 39, Вып. 1. С 106-119.
9. Крутиков В.Н. Новый релаксационный субградиентный метод с изменением метрики // Вестник КемГУ. Кемерово, 2001. Вып. 4. С. 16-22.
10. Крутиков В.Н., Петрова Т.В. Новый метод решения задач минимизации большой размерности// Вестник КемГУ. Кемерово, 2001. Вып. 4. С.65-71.
11. Крутиков В.Н., Петрова Т.В. Новый релаксационный метод недифференцируемой минимизации // Мат. заметки ЯГУ. 2001. Т.8, вып. 1. С. 50-60.
12. Шор Н. З., Журбенко Ц. Г. Метод оптимизации, использующий операцию растяжения пространства в направлении разности двух последовательных гpaдиентов // Кибернетика. 1971. № 3.
13. Шор Н. З. Методы минимизации недифференцируемых функций и их приложения. Киев: Наукова думка, 1979.
14. Скоков В.А. Замечание к методам оптимизации, использующим операцию растяжения
пространства // Кибернктика и системный анализ. 1974. №4. 15. Васильев Л. В. О связи релаксационного метода обобщенного градиента с методом сопряженных градиентов // Численные методы нелинейного программирования / Тезисы 3-го Всесоюзного семинара.Харьков. 1979. ч.1.