Многошаговый субградиентный метод для решения негладких задач минимизации высокой размерности

Крутиков Владимир Николаевич; Вершинин Ярослав Николаевич

2014

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Математика и механика

№ 3(29)

МАТЕМАТИКА

УДК 519.6

В.Н. Крутиков, Я.Н. Вершинин

МНОГОШАГОВЫЙ СУБГРАДИЕНТНЫЙ МЕТОД ДЛЯ РЕШЕНИЯ

НЕГЛАДКИХ ЗАДАЧ МИНИМИЗАЦИИ ВЫСОКОЙ РАЗМЕРНОСТИ

Предложен многошаговый субградиентный метод для решения негладких задач минимизации высокой размерности и доказана его сходимость. По затратам памяти на хранение информации алгоритм сходен с методами сопряженных градиентов. В алгоритме используется новый метод решения неравенств, основанный на последовательной ортогонализация векторов обучения. Pезультаты численного исследования свидетельствуют о высокой скорости сходимости разработанного метода минимизации на негладких задачах высокой размерности.

Ключевые слова: алгоритм Качмажа, многошаговый алгоритм, метод минимизации, скорость сходимости.

1. Введение

Излагаемый в работе многошаговый релаксационный субградиентный метод минимизации (PCM), основанный на принципах организации методов «сопряженных субградиентов» [1, 2], принадлежит классу релаксационных методов є-субградиентного типа (PCM) [1, 2] и предназначен для решения задач высокой размерности. Имеющиеся на настоящий момент PCM с растяжением пространства [4-8] соизмеримы по скорости сходимости на гладких функциях с квазиньюто-новскими методами [6, 8] и эффективны при решении негладких задач овражного типа [6, 8]. В силу необходимости хранения и преобразования матрицы их эффективность по затратам времени резко снижается на задачах высокой размерности. Cуществующие многошаговые PCM [1, 3] существенно уступают в скорости сходимости субградиентным методам с растяжением пространства, подвержены зацикливанию на овражных задачах негладкой оптимизации, что определяет актуальность их совершенствования.

Пусть решается задача минимизации выпуклой на R” функции f (x). В PCM последовательные приближения строятся по формулам

xk+i = xk - Yksk, Yk = arg“inf (xk - Ysk),

yєR

где направление спуска sk выбирается как решение неравенств [2]:

(s,g) > 0, Vg є G . (1)

Здесь множество G = дє f (xk) - є-субградиентное множество в точке xk. Обозначим S (G) - множество решений (1), df (x) = df0 (x) - субградиентное множе-

ство в точке х. В РСМ для решения систем неравенств (1) применяют итерационные методы (алгоритмы обучения), где в качестве элементов е-субградиентных множеств, поскольку их явное задание отсутствует, используют субградиенты, вычисляемые на траектории спуска алгоритма минимизации.

В работах [3, 5-8] предложен и используется следующий подход сведения системы (1) к системе равенств. Пусть G с Rn принадлежит некоторой гиперплоскости, а его ближайший к началу координат вектор n(G) является также и ближайшим к началу координат вектором гиперплоскости. Тогда решение системы (s, g) = 1, Vg е G , является также решением и для (1). Его можно найти как решение системы [5-8]

(s,gi) = y, i = 0,1,...,k, y = 1. (2)

В [3] (см. также [7, 8]) предложен метод минимизации, в котором для решения системы (2) используется алгоритм Качмажа [9] (см. также [10])

Sk+1 = Sk + 1 ~(Sk’ g)) gk. (3)

(gk, gk)

Такой алгоритм минимизации при точном одномерном спуске на дифференцируемых функциях обладает свойствами метода сопряженных градиентов и эффективен при решении задач негладкой оптимизации [3, 7, 8].

В случае ортогональности векторов gk метод (3) конечен [7, 8]. Алгоритм решения системы равенств с последовательной ортогонализацией векторов gk предложен в [11]. В настоящей работе этот алгоритм распространен на решение неравенств и используется для поиска направления спуска в методе минимизации.

Основной целью построения направления sk в субградиентных методах является поиск такого направления, которое обеспечивало бы возможность уменьшения функции из любой точки некоторой окрестности текущего приближения, т.е. решение системы неравенств (1), где множество G составлено из субградиентов окрестности текущего приближения хк. Это означает возможность выхода из этой окрестности посредством минимизации функции вдоль этого направления. Чем шире окрестность, тем выше устойчивость метода к ошибкам округления, помехам, наличию малых локальных экстремумов и большее продвижение в направлении к экстремуму. В этой связи особую важность приобретают изучаемые в работе методы минимизации, в которых, в отличие от метода из [1] и его модификации из [2], встроенные алгоритмы решения систем неравенств используют субградиенты достаточно широкой окрестности текущего приближения минимума и не требуют точного одномерного спуска.

2. Многошаговый метод решения неравенств

В предлагаемом алгоритме строятся последовательные приближения решения системы (1).

Алгоритм А1.

1. Положить k = 0, pk — = 0 (pk — е Rn). Задать начальное приближение

So е Rn.

2. Выбрать произвольно gk е G , удовлетворяющий условию (sk,gk) < 0 , если такого вектора не существует, то sk е S(G), закончить работу алгоритма.

где рк = <!

3. Получить новое приближение 5к+ь

*к+1 = *к + 17(^8) Рк, (4)

К Рк , 8к)

8к , если (8к , Рк-1) ^ °> (а)

8к -(к ’Рк, -) Рк-1> если (8к , Рк-1) < 0. (Ь) (5)

1|Рк-112

4. Положить к = к+1. Перейти на пункт 2.

Алгоритм А1 отличается от алгоритма решения неравенств на основе алгоритма Качмажа [3, 7-8] (обозначим его А0) реализацией пункта 3. В А0 вместо (4), (5) используется формула (3).

На итерациях алгоритма А1 выполняются следующие соотношения:

а) (Рк, Рк-1) = °если (8к, Рк-1) <0;

Ь)(Рк, 8к) ^ (8к, 8к); с) (Рк, Рк) = (Рк, 8к). ()

При к = 0, поскольку в пункте 1 полагается Рк-1 = 0, проводится преобразование (5а). В результате получим р0 = 80. В (5Ь) производится ортогонализация векторов рк, рк-1, что отражено в равенстве (6а). Непосредственно из (5) следует (6Ь). Из (5), с учетом (6а), получим (6с).

Обозначим по = П(О) - ближайший к началу координат вектор множества О,

Ро =Р(О) =||п(О)||, Цо =П(О)/||п(О)||, 5*=|ао/Ро , ко = Я(О) = тах||8 ||,

8еО

v(О) = рО / ЯО. Сделаем предположение относительно множества О.

Предположение 1. Множество О не пустое, выпуклое, замкнутое, ограниченное, ЯО < да, и удовлетворяет условию отделимости, то есть рО > 0.

*

При этих условиях векторы дО и 5 являются решениями (1), а для векторов 8 е О выполняются ограничения [5-8]

1 ^ (5* ,8) ^ ^о/Ро, ^8 е О . (7)

Мы изучим сходимость алгоритма А1 к решению 5*. Обозначим Дк = 5к - 5*-вектор невязки. Следующие результаты относительно алгоритма А1 получены в условиях справедливости предположения 1.

Лемма 1. Пусть последовательность {5к } получена в результате работы алгоритмом А1. Тогда для к = 0,1,2,... имеют место оценки:

(Д к+1, Рк) ^ 0; (8)

(Дк, Рк) ^ (Дк, 8к). (9)

Доказательство проведем по индукции. В силу равенства рк = 8к при к = 0 выполнено (9). Учитывая левое из неравенств (7) и условие пункта 2, (5к,8к) ^ 0, получим

-(Дк,8к) = (s',',8к) -(5к,8к) ^ 1 -(5к,8к) ^ 1. (10)

Вычтем из обеих частей (4) 5*, умножим обе части равенства скалярно на рк и

преобразуем правую часть с учетом (6с), (9) и (10):

(Дк+^Рк) = (Дк,Рк) + \ (^8)) (Рк,Рк) < (Дк,Рк) - (Дк,8к? (Рк,8к) < 0 . (11)

(Рк, 8к) (Рк, 8к)

Здесь мы предположили, что последний переход в цепочке неравенств произведен при условии (9) для текущего к. Поскольку неравенство (9) выполняется при к = 0, то справедливо (11), откуда следует (8) при к = 0.

Предположим, что неравенства (8), (9) выполнены при к = 0,1,...,I-1, где

I > 1. Покажем, что они выполняются при к = I. В случае (5а) выполнено (9). Для доказательства (9) в случае (5Ь) умножим скалярно на Дк обе части равенства (5Ь). Отсюда, в силу справедливости (8) при к = I -1 и условия (8к, Рк-1) < 0 из (5Ь), получим обоснование (9) при к = I

(Дк, Рк) = (Дк, 8к) - ((8к ,Рк-1)) (Дк, Рк-1) < (Дк, 8к).

(Рк-^ Рк-1)

Из (9) и (11) следует (8) при к = I. Лемма доказана.

В следующей теореме утверждается, что преобразование (5Ь) дает направление рк на точку решения 5* с более острым углом по сравнению с 8ь

Теорема 1. Пусть последовательность {5к} получена в результате работы алгоритмом А1. Тогда для к = 0,1,2,. имеет место оценка

(-Дк, Рк) > (-Дк, 8к) > (12)

(Рк, Рк )°-5_( 8к, 8к Г" Ко ‘

Доказательство. Из (9) и (1°) следует

(-Дк, Рк) > (-Дк, 8к) > 1. (13)

Отсюда, с учетом (6Ь), (6с), (9), (1°) и определения величины Ко, имеем

(-Дк, Рк) > (-Дк, Рк) > (-Дк, 8к) > ±_

(Рк, Рк)05 (8к, 8к)05 (8к, 8к)05 Ко

Теорема доказана.

Для обоснования сходимости алгоритма А1 нам потребуется следующий результат.

Лемма 2 [5, 7, 8]. Пусть множество О удовлетворяет предположению 1. Тогда &'к е £ (О), если

|| Дк ||< 1/Ко . (14)

В следующей теореме обосновывается конечная сходимость алгоритма А1. Отметим, что полученные оценки полностью эквивалентны оценкам для алгоритма А°.

Теорема 2. Пусть множество о удовлетворяет предположению 1 . Тогда для оценки скорости сходимости последовательности {5к} к точке 5*, генерируемой алгоритмом А1 до момента останова, справедливо соотношение

|| 5к - /ц2 < окн+Ро-1)2 - к / к2, (15)

для величины роимеет место оценка

Г к / 0,5

-1 . , ч-1 ...........к

Pg >

X(gj, gj)-1

V J=0

- || So || >——|| (1б)

rg

а при некотором значении к, удовлетворяющем неравенству

к < к*= КО(||5°||+РО_1)2 +1, (17)

будет получен вектор &'к е £ (О).

*

Доказательство. Найдем невязку Дк+! вычитанием 5 из обеих частей (4) и получим выражение квадрата ее нормы. Правую часть полученного выражения преобразуем с учетом неравенств (6Ь), (6с), (9), (1°) и определения величины Ко\

\2

1 -(Sk,gk) + (p p )(1 -(Sk,gk))2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

, 4 + (pk, pk) ^ 2

( Pk, gk ) (Pk, gk )

(Дk+1,Дк+l)=(Дк,дк)+2(дк,pk) ,;k k + (Pk,Pk) , k k' -

< (a,, a,) - 2<' +(1 -<*k,gf < (Лk, A,) - < (A„, Дk) - ‘

(Pk, g,) (Pk, g,) (gk, g,) Rq

Отсюда, используя неравенство || s0 - s* ' II2 < (II So || + || s* ||)2 = (|| s0 || +Pq')2 , которое следует из свойств нормы, получим оценки (15) и (16).

Согласно оценке (15), величина || A, ||^ 0 . Поэтому на некотором шаге k для вектора sk будет выполнено неравенство (14), т.е. будет получен вектор sk е S(G), являющийся решением системы (1). В качестве верхней оценки необходимого числа шагов можно взять k *, равное значению k, при котором правая часть (15) обращается в нуль, увеличенному на 1. Это дает оценку (17). Теорема доказана.

3. Многошаговый субградиентный метод

Техника обоснования алгоритма соответствует [3, 5-8]. Пусть функция f (x), x е R”, выпукла. Обозначим d(x) = p(df (x)), D(z) = {x е R” \f (x) < f (z)}.

Примечание 1. Для выпуклой на R” функции, при ограниченности множества D(x0) для точек x* е D(x0), удовлетворяющих условию d(x*) < d0 , справедлива оценка [2, с. 291]

f (x*) - f *< Dd0, (18)

где D - диаметр множества D(x0), f * = inf f (x).

xeR”

Дадим описание метода минимизации на основе алгоритма А1 для нахождения точек x е R” , таких, что d (x ) < E0, где E0 > 0 .

Алгоритм М1.

1. Задать начальное приближение x0 е R” , целые k = i = 0.

2. Положить k = k+1, qk = i, st = 0, pi-1 = 0, Ei = 0.

3. Задать ek, mk.

4. Вычислить субградиент gi е df (xi), удовлетворяющий условию (si,gi) < 0 , и если gi = 0, то решение найдено, закончить работу алгоритма.

5. Получить новое приближение 5+1 = 5 +---------( г,ёг ) рг-, где

(Рг,& )

ёг, если (ёг, Рг—1 ) ^ 0,

„ (ёг, Рг—1 )

Рг =

1|Рг—1

|2

-Рг—!, если (ёг, Рг —1) < °.

6. Вычислить новое приближение критерия Ег+1 = Ег + (, ёг) 1.

7. Вычислить новое приближение точки минимума:

хг+1 = хг — У,-5,-+1, Уг = ащпнп/(х — у^.

уеИ

8. Положить г = г +1.

9. Если № < ек , то перейти на пункт 2.

1°. Если г — дк > дак , то перейти на пункт 2.

11. Перейти на пункт 4.

Алгоритм М1 отличается от известного метода минимизации [3, 7, 8], основанного на алгоритме решения неравенств АО с формулой Качмажа (3) (назовем его МО), реализацией пункта 5, где вместо формул (4), (5) используется преобразование (3). В алгоритм М1 в пунктах 2,4,5 встроен алгоритм решения неравенств. Индекс дк, к = °,1,2,..., введен с целью обозначения номеров итераций г, при которых в пункте 2 при выполнении критериев пунктов 9, 1° происходит обновление для алгоритма решения неравенств (Рг-1 = О). Согласно (15), (17), алгоритм решения неравенств при 5° = О имеет наилучшие оценки скорости сходимости. Поэтому при обновлении в пункте 2 алгоритма М1 задаем 5 = О. Потребность в обновлении возникает вследствие того, что в результате смещения в пункте 7 происходит смена субградиентных множеств окрестности текущей точки достигнутого минимума, что приводит к необходимости решения системы неравенств на основе новой информации.

Отметим, что в силу условия точного одномерного спуска вдоль направления (-.5+1) в пункте 7, в новой точке хг+1 вектор &1+1 е дf(хг+1), такой, что (ёг+1,5г+1) < О, всегда существует согласно необходимому условию минимума одномерной функции (см., например, [2, с. 287]). Следовательно, с учетом роста индекса г в пункте 8, условие (ёг,5г) < О пункта 4 всегда удовлетворяется.

Доказательство сходимости метода М1 опирается на следующую лемму.

Лемма 3 [2]. Пусть функция f (х) строго выпукла на Яп, множество Б(х°)

ограничено, а последовательность {хк }к=° такова, что

f^(хк+1) = тт f (хк +а(хк+1 — хк)).

ае[°,1]

Тогда 11т || хк+1 — хк ||= О .

к

Обозначим £е (О) = {^ е Ип\ ||г — х||< е, Vx е О} - е -окрестность множества О,

(х) = {? е Ип ||| ^ — х ||< 8} - 8 -окрестность точки х. В пункте 2 метода М1, после выполнения хотя бы одного из критериев пунктов 8 или 9 при некотором г, происходит обновление характеристик встроенного алгоритма решения неравенств. Подпоследовательности, выделяемые из последовательностей хг, Е,

г =1,2,..., в пункте 2 алгоритма М1, обозначим соответственно 2к = х , Qk =Е, к=1,2,..., где значения qk = г задаются в моменты выполнения пункта 2.

Теорема 3. Пусть функция f (х) строго выпукла на Ип, множество О(х°) ограничено и параметры ек, тк, задаваемые в пункте 2 алгоритмаМ1, фиксированы:

ек = ЕО > О, тк = MО, (19)

Тогда, если х - предельная точка последовательности {х% }к=1, генерируемой алгоритмом М1, то

ё(х*) < тах{ЕО,Л(х°)/^/МО} = ёО, (2°)

где Л(х°) = тах тах || V ||. В частности, если М° > Я2(хп)Е—2, то ё(х*) < Е° .

хеО (х°) vедf ( х)

Доказательство. Существование предельных точек последовательности {гк } следует из ограниченности множества О(хО) и гк е О(хО). Допустим, что утверждение теоремы неверно: предположим, что подпоследовательность гк ^ х , но

ё (х*) = ё *> ёО > О. (21)

Положим е = (ё* — ёО) / 2 . (22)

Обозначим £* = £е (/(х*)). Выберем 8 > О , такое, что

д/(х) с £* Vx е £8 (х*). (23)

Такой выбор возможен в силу полунепрерывности сверху точечно-множественного отображения д/(х) (см. [2], с. 289).

Выберем номер К такой, что при к5 > К будет справедливо

\ е £8/2(х*), х, е £8(х*), qks <г < qks +МО, (24)

т.е. такой номер К, что точки хг остаются в окрестности £8 (х ) в течение, по крайней мере, МО шагов алгоритма. Такой выбор возможен в силу сходимости

2к ^ х* и результата леммы 3, условия которой выполняются при условиях теоремы 3 и наличии точного одномерного спуска в пункте 7 алгоритма М1.

Согласно предположению (21), условиям выбора е (22), 8 (23) и к (24) при к5 > К будет выполняться неравенство

р(£*) > р(д/(х*)) — е = ё* — (ё* — ёО) / 2 > ёО. (25)

При к5 > К, в силу справедливости соотношений (24), из (23) следует

ёг е £*, qk < г < qk + МО. Алгоритм М1 содержит в своем составе алгоритм А1.

Поэтому, с учетом оценок из (16), в зависимости от того, в каком из пунктов алгоритма М1 (9 или 1°) произойдет обновление при некотором г = ], будет выполнено одно из неравенств:

р(£Е*) <2—05 <е к < Е° < ё о ; (26)

р(£е*) < Я(х°)/^ < К(х°)/уМо < ё° , (27)

где последний переход в неравенствах вытекает из определения величины ё0 в (2°). Но (25) противоречит как (26), так и (27). Полученное противоречие доказывает теорему.

Согласно оценке (2°), для любой предельной точки последовательности ^к } , генерируемой алгоритмом М1, будет выполнено ё(х ) < ёО, а следовательно, будет справедлива оценка (18).

В следующей теореме определяются условия, при которых алгоритм М1 генерирует последовательность {хг}, сходящуюся к точке минимума.

Теорема 4. Пусть функция /(х) строго выпукла, множество О(хО) ограничено и

ек ^ О, тк ^ ад . (28)

Тогда любая предельная точка последовательности {х% }, генерируемая алгоритмом М1, является точкой минимума функции /(х) на Ип

Доказательство. Допустим, что утверждение теоремы неверно: предположим, что подпоследовательность 2к ^ х , но при этом найдется такое ёО > О,

что будет выполняться неравенство (21). Как и ранее зададим е согласно (22). Выберем 8 > О, такое, что будет выполнено (23).

В силу условий (28) найдется такое КО, что при к > КО будет выполняться соотношение

тах{е к, Я(х°)/4т} < ё°. (29)

Обозначим ЕО = ёО и МО - наименьшее значение тк при к > КО. Дальнейшие рассуждения аналогичны доказательствам теоремы 3.

Выберем номер К > КО, такой, что при к5 > К будет справедливо (24), т.е. такой номер К , что точки хг остаются в окрестности £8 (х ) в течение, по крайней мере, М° шагов алгоритма. Согласно предположению (21), условиям выбора е (22), 8 (23) и к (24) при к5 > К будет выполняться неравенство (25). При

к5 > К, в силу справедливости соотношений (24), из (23) следует е £*,

qk < г < qk + МО. Алгоритм М1 содержит в своем составе алгоритм А1. Поэтому

с учетом оценок из (16), в зависимости от того, в каком из пунктов алгоритма М1 (9 или 1°) произойдет обновление при некотором г = ], будет выполнено одно из неравенств (26), (27), где последний переход в неравенствах следует из определения величин Е° и М°. Но (25) противоречит как (26), так и (27). Полученное про-

тиворечие доказывает теорему.

Обозначим У/(х) - градиент функции, который в случае дифференцируемой выпуклой функции совпадает с субградиентном и является единственным элементом субградиентного множества [2]. Установим связь алгоритма М1 с методом сопряженных градиентов (МСГ) [13]:

х+1 = хг — 1г5г+1, Ъ = аГ§т1П/(—15г +1), г = ^..^п — 1,

У

_ __(&■&■) _ _ _ (3О)

= ёо, 5г+1 = ёг + (-г - ) ‘5г, г = 1,2,..., п — ёг = У/ (хг ).

(ёг—1, ёг—1)

Теорема 5. Пусть функция /(х), х е Ип , квадратичная, ее матрица вторых производных строго положительно определена, тогда алгоритм М1 при ек = О, тк = п находит минимум за конечное число итераций, не превосходящее п, при этом для последовательностей, генерируемых алгоритмами МСГ и М1 при условии равенства начальных точек хО = хО справедливы соотношения

а) Рг = ёг , б) 5+1 = 5г+1/(ёг, ёг ^ в) хг+1 = ^ г = О,1,..., п — 1. (31)

Доказательство проведем по индукции. В силу условий теоремы в пункте 4 алгоритма М1 ёг = У/(х). В результате итерации алгоритма М1 при г = О после выполнения действий пунктов 1-5 имеем: р— = О, 5° = О, р° = ёО, 5 = ёО /(ёО, ёО). Отсюда следует равенство (31а) при г = О. Поскольку для МСГ на итерации при г = О 51 = ёО, то направления спуска в обоих алгоритмах удовлетворяют равенству (31 б) при г = О. В силу точного одномерного спуска и колинеарности направлений спуска будет выполнено равенство (31 в) при г = О.

Ограничения в М1 ек = О, тк = п необходимы для исключения преждевременных обновлений.

Предположим, что равенства (31) выполнены при г = О,1, ..., I, где I > О. Покажем, что они выполняются при г = 1+1. В пункте 5 алгоритма М1 при г = /+1 в результате ортогонализации векторов ёг+1, Рг будет получен рг+1 = ёг+1, поскольку, согласно (31а), рг = ёг, градиенты алгоритмов МСГ и М1 совпадают в силу идентичности точек (31в), в которых они вычисляются, а градиенты, используемые в МСГ, а следовательно и в М1, взаимно ортогональны [7]. Это доказывает (31а) при г = 1+1.

В силу условия точного одномерного спуска выполняется равенство (.5+1, ём) = °. Поэтому преобразование пункта 5 алгоритма М1 для вектора 5 с учетом (31а) ) при г = 1+1, (31б) при г = I и (3°) примет вид

„ = „ . ё1+1 = 5+1 . ё1+1 = 5+2

I+2 ~ I+1 _ _ .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(ёг+1, ёг+1) (ёг, ёг) (ёг+1, ёг+1) (ёг+1, ёг+1)

Отсюда следует (31б). В силу точного одномерного спуска и колинеарности направлений спуска будет выполнено равенство (31 в) при г = 1+1.

Из приведенного доказательства эквивалентности последовательностей, генерируемых алгоритмами МСГ и М1 и свойства окончания процесса минимизации методом МСГ не более чем через п шагов [13] следует доказательство теоремы.

4. Реализация алгоритма минимизации

Алгоритм М1 реализован согласно технике реализации РСМ [3, 5-8]. Рассмотрим версию алгоритма М1, включающую в себя процедуру одномерной минимизации вдоль направления 5, функции которой заключаются в построении: а) текущего приближения минимума хт; б) точки у из окрестности хт, такой, что для ё1 ед/(у) выполняется неравенство (5, ё1) < °. Субградиент ё1 используется для решения системы неравенств.

Обращение к процедуре обозначим:

0М ({х ^ ёх, /х - ^о};{У т , /т , ёт , Ъ ёl, А1}) .

Блок входных параметров состоит из точки текущего приближения минимума х,

направления спуска 5, ёх ед /(х), /х = /(х), начального шага ИО. Предполагается, что выполняется необходимое условие возможности спуска (ёх, 5) > О в направлении 5. Блок выходных параметров включает в себя ут - шаг в точку полученного приближения минимума х+ = х — ут&', /т = /(х+), ёт е д/(х+), у1 -шаг вдоль 5, такой, что в точке у + = х — у15 для ё1 е д/(у+) выполняется неравенство (ё1,5) < О, и И1 - начальный шаг спуска для следующей итерации. В излагаемом ниже алгоритме векторы ё1 ед/(у +) используются для решения множества неравенств, а точки х + = х — ут&' как точки приближений минимума.

Алгоритм одномерного спуска (ОМ). Пусть требуется найти приближение минимума одномерной функции ф(Р) = /(х — р 5), где х - некоторая точка, 5 - направление спуска. Возьмем возрастающую последовательность ро = О и Рг- = кО qгM 1 при г > 1. Обозначим = х — Рг5, г{ ед/ (), г = О,1,2,..., I - номер г , при котором впервые выполнится соотношение (г, , 5) < О . Зададим параметры отрезка локализации [уО, у1 ] одномерного минимума: уО = рг—1, /О = /(—1),

ёО = —1, у1 = рг, /1 = /(), ё1 = Г и найдем точку минимума у* одномерной кубической аппроксимации функции на отрезке локализации. Вычислим

Алгоритм минимизации. В предлагаемом ниже варианте реализации алгоритма М1 обновление для метода решения неравенств не производится, а точный одномерный спуск заменен на приближенный.

Алгоритм.

1. Задать начальное приближение х0 є Яп, начальный шаг одномерного спуска к0 . Положить: і = 0, g0 = £0 є/ (х0), g1_l = 0, р— = 0, / = /(х0), 50 = Ш0 = 0 . Задать параметры останова: N - максимально допустимое число итераций, єх - точность минимизации по аргументу, є - точность минимизации по градиенту.

ЧуУи если I = 1 и у* < ^уіУі,

= у^ если У! -у*<?т (У] -У0Х

Ут *

У0, если 1 > 1 и У -У0 < Яу(У: -У0),

(32)

у , в остальных случаях.

Вычислим начальный шаг спуска для следующей итерации:

= Ят (И0Ут )1/2.

(33)

2. Получить приближение .?і+1 = si + / ( 1 ’8 ) р1,

(Рі, 8і )

8г,

если (8і, Рі-1) > 0, если (8і, Рі-1) < 0.

Здесь осуществляется шаг метода решения неравенств.

3. Получить направление спуска

^ если (5г+1, ёг) > 1

15г +1 + ёг (1 — (5г +1, ёг )) /(ёг, ёг X еСЛи (5г+1, ёг ) < 1.

4. Произвести одномерный спуск вдоль wi+1 = 5+1(5+1,5г+1)—1/2 :

(34)

0М ({хг, ^+1, ёг, /г, Ьг }; {Уг+1, /+1, ёг+1, У г+1, ёг +1, ^+1 }) .

Вычислить приближение точки минимума хг+1 = хг — уг+1 wi+1.

5. Если г > N или ||хг-+1 — хг || <ех, или ||ёг-+Ц <её , то закончить вычисления, иначе положить г = г +1 и перейти на пункт 2.

Поясним действия алгоритма. Из 0М поступают два субградиента ёг+1 и ёг+1. Первый из них используется для решения неравенств в пункте 2, а второй - в пункте 3, для коррекции направления спуска с помощью формулы (3) с целью обеспечения необходимого условия (5+1, ёг) > ° возможности спуска в направлении (—5г+1). Как показано в [5, 7, 8] итерация (3) в (34) при (5+1,ёг) < 1 не ухудшает текущее приближения 5г решения системы неравенств, поэтому это преобразование проводится. В пункте 3, когда (5+1, ёг) > 1, условие (5г+1, ёг) > ° выполнено и, согласно результатам работ [5, 7, 8], нет теоретических рекомендаций по улучшению решения системы неравенств. Поэтому преобразование коррекции не производится.

Хотя обоснование сходимости идеализированных версий РСМ [2-8] производится при условии точного одномерного спуска, реализации этих алгоритмов осуществляется с процедурами одномерной минимизации, в которых начальный шаг, в зависимости от прогресса, может увеличиваться или уменьшаться, что определяется заданными коэффициентами qM > 1 и qm < 1. При этом минимальный шаг на итерации не может быть меньше некоторой доли начального шага, величина которой задана в (32) параметрами qy1 = О,1 и qy = О,2, приведенные значения которых использовались нами при расчетах.

5. Численный эксперимент

Алгоритм М1 реализован согласно технике реализации алгоритма МО [5-8], в которой ключевое значение играют коэффициенты уменьшения qm < 1 и увеличения qM > 1 начального шага одномерного спуска на итерации. Значения qm близкие к 1 обеспечивают малую скорость убывания шага и соответственно малую скорость сходимости метода. При этом малая скорость убывания шага устраняет зацикливание метода в силу того, что субградиенты функции, участвующие в решении неравенств берутся из более широкой окрестности. Выбор параметра qm должен соизмерятся с возможной скоростью сходимости метода минимизации. Чем выше скоростные возможности алгоритма, тем меньшим может быть выбран этот параметр. Например, в РСМ с растяжением пространства [4-8] выбирается qm = О,8. Для гладких функций выбор этого параметра некритичен и его можно брать из интервала [°,8-°,98]. От параметра возрастания шага скорость сходимости практически не зависит, поэтому его можно взять постоянным qM = 1,5 .

Исследование проводилось на следующих функциях.

1 / ( ) ^ I I к * (О О О) (1° 10 10 1О)

1. Л(х) = ^1 хк1 ■k, х = (О,О,...,О), хо = (1°^^,...^);

1=1 23 п

^ \ ^ 2 / 2 * /г\ л л\ Ла 1° 1° 1°ч

2. />(х) = Ххк • к ,х = (О,О,...,О),х° = (1°,—,—,...,—);

1=1 23 п

3. /э (х) = 11 [1ООО( хк — хк+1 )2 + (1 — хк+1 )2 ], х* = (1,..,1), х° = (О,..,О).

к=1

Функция /3(х) взята из [12]. В таблице приведено количество затраченных методом вычислений функции и субградиента, которое соответствует моменту выполнения условия /к — /* <е. Знаком N помечены задачи, которые не удалось решить за количество итераций, не превышающее заданное максимальное, т.е. найти точку приближения хк , в которой бы выполнялось условие останова алгоритма по значению функции, т.е. /к — /* < е. При тестировании другие критерии останова не использовались.

Результаты численного эксперимента

п Л Л , е =10 5 Чш = 0,999 , Чы =1,5 Л2 , е = 10-10 Чш = 0,98 , Чы =1,5 Л3, е = 10-10 Чш = 0,85 , Чы =1,5

МСГ М0 М1 М0 М1 М0 М1

100 938 27573 26646 2064 1649 760 604

200 2359 84837 (Ю) 51203 4008 3096 869 612

300 3891 84773(Ю) 54203 5781 4364 903 627

400 5929 84705(Ю) 54070 7804 5884 885 605

500 7632 84731(Ю) 53654 10086 7245 947 665

600 9264 84767(Ю) 54290 12457 8598 935 621

700 10914 84677(Ю) 68003 14837 10564 975 631

800 12563 84957(Ю) 51794 17345 11822 960 658

900 14272 84649(Ю) 66241 19839 14073 948 653

1000 16008 87499(Ю) 56017 22478 16042 967 703

Функция 2 квадратичная с отношением собственных значений 1/п2. Во втором столбце приведены результаты счета для метода сопряженных градиентов [13] с кубической интерполяцией при поиске одномерного минимума с заданной точностью, которая выбрана экспериментально из условия минимизации количества вычислений функции и градиента на решение комплекса задач. Отметим, что использование в МСГ грубого одномерного спуска из М1 приводит к многократному увеличению числа итераций. Здесь алгоритм М1 эффективнее метода МО и сравним с МСГ при размерностях выше 4ОО. Поэтому при решении гладких задач минимизации высокой размерности с высокой степенью вытянутости поверхностей уровня наряду с МСГ возможно применение многошаговых РСМ.

Кусочно-линейная функция 1 имеет одинаковую вытянутость линий уровня с функцией 2, но неизмеримо сложнее для метода минимизации. Здесь, в методе МО происходит зацикливание, а увеличение числа итераций не приводит к решению задачи. На этом примере заметно существенное повышение эффективности за счет ортогонализации векторов обучения в алгоритме М1.

На квадратичной функции 3 с небольшим разбросом собственных значений методы М0 и М1 практически эквивалентны.

Заключение

В работе на задачу решения множества неравенств распространен итерационный метод решения системы равенств [11]. Разработанный алгоритм обоснован теоретически. На его основе сформулирован и обоснован релаксационный субградиентный метод минимизации, который, в силу незначительных затрат памяти (пропорционально размерности задачи) и отсутствия матричных вычислений, пригоден для решения задач высокой размерности.

По свойствам сходимости на квадратичных функциях высокой размерности, при больших разбросах собственных значений, разработанный алгоритм превосходит имеющиеся многошаговые релаксационные субградиентные методы и соизмерим по эффективности с методом сопряженных градиентов.

Новый метод позволяет расширить круг решаемых негладких задач. Численные результаты свидетельствуют о повышении эффективности метода минимизации при введении ортогонализации векторов обучения в алгоритм решения неравенств, что особенно проявляется при решении негладких задач высокой размерности с высокой степенью вытянутости поверхностей уровня.

ЛИТЕРАТУРА

1. Wolfe P. Note on a method of conjugate subgradients for minimizing nondifferentiable functions // Math. Programming. 1974. V. 7. No. 3. P. 380-383.

2. Демьянов В.Ф., Васильев Л.В. Недифференцируемая оптимизация. М.: Наука, 1972. 368 с.

3. Крутиков В.Н., Петрова Т.В. Новый метод решения задач минимизации большой размерности // Вестник КемГУ. Кемерово, 2001. Вып. 4. С. 65-71.

4. Шор Н.З. Методы минимизации недифференцируемых функций и их приложения. Киев: Наукова думка, 1979. 199 с.

5. Крутиков В.Н., Петрова Т.В. Релаксационный метод минимизации с растяжением пространства в направлении субградиента // Экономика и мат. методы. 2003. Т. 39. Вып. 1.

С. 33-49.

6. Крутиков В.Н., Горская Т.А. Семейство релаксационных субградиентных методов с двухранговой коррекцией матриц метрики // Экономика и мат. методы. 2009. Т. 45. № 4. С. 37-80.

7. Крутиков В.Н. Релаксационные методы безусловной оптимизации, основанные на принципах обучения: учеб. пособие / ГОУ ВПО «Кемеровский государственный университет». Кемерово: Кузбассвузиздат, 2004. 171 с.

8. Крутиков В.Н. Обучающиеся методы безусловной оптимизации и их применение. Томск: Изд-во Том. гос. педагогического ун-та, 2008. 264 с.

9. Kaczmarz S. Approximate solution of systems of linear equations // Int. J. Control. 1993. V. 54. No. 3. P. 1239-1241.

10. Цыпкин Я.З. Основы теории обучающихся систем. М.: Наука, 1981. 251 с.

11. Крутиков В.Н., Вершинин Я.Н. Алгоритмы обучения на основе ортогонализации последовательных векторов // Вестник КемГУ. 2012. Вып. 2 (50). С. 37-42.

12. Скоков В.А. Варианты метода уровней для минимизации негладких выпуклых функций и их численное исследование // Экономика и математические методы. 1997. Т. 33. № 1.

13. ПолякБ.Т. Введение в оптимизацию. М.: Наука, 1983. 384 с.

Статья поступила 13.04.2013 г.

Krutikov V.N., Vershinin Ya.N. THE SUBGRADIENT MULTISTEP MINIMIZATION METHOD FOR NONSMOOTH HIGH-DIMENSIONAL PROBLEMS

In this paper, a new multistep relaxation subgradient minimization method is proposed. It is based on principles of organization of "conjugate subgradients" methods. The presented method belongs to the class of relaxation methods of the 8-subgradient type (RSM) and is intended for solving nonsmooth high-dimensional problems.

The space tension RSMs available at present are comparable in the rate of convergence for smooth functions with quasi-Newton methods and are efficient in solving nonsmooth problems of the ravine type. At high dimensional problems, it effectiveness is reduced due to the necessity of storage and transformation of the metric matrix. In the smooth case, the conjugate gradient method substitutes quasi-Newton methods at high-dimensional problems. Existing multistep RSMs are significantly inferior to the subgradient space tension methods in the rate of convergence and loop at ravine type nonsmooth optimization problems. That is why they are practically not applied for even for small dimension problems. These circumstances determine the importance of establishing effective multistage RSMs. In the considered relaxation subgradient method, additional learning relations are used at iterations with the aim to improve the efficiency of the learning algorithm for a known method based on extending the Kaczmarz algorithm to inequality systems. This innovation expands the range of solved nonsmooth optimization problems and increases the rate of convergence in solving smooth and non-smooth minimization problems.

Numerical results indicate an increase in the minimization method efficiency due to or-thogonalization of learning vectors in the algorithm that solves the inequalities, which is particularly evident when solving nonsmooth problems of high dimensionality with a high degree of elongation of the level surfaces. According to the convergence properties at high dimension quadratic functions, at a large scatter of eigenvalues, the developed algorithm is superior to existing multi-step relaxation subgradient methods and is comparable in the effectiveness to the conjugate gradients method.

Keywords: Kaczmarz algortihm, multistep algorithm, minimization method, convergence rate

Krutikov Vladimir Nikolaevich (Doctor of technical Sciences, Prof.,

Kemerovo State University, Kemerovo, Russian Federation)

E-mail: [email protected]

Vershinin Yaroslav Nikilaevich (M. Sc, Kemerovo State University, Kemerovo, Russian Federation) E-mail: [email protected]

REFERENCES

1. Wolfe P. Note on a method of conjugate subgradients for minimizing nondifferentiable functions (1974) Math. Programming. V. 7. No. 3, pp. 380-383.

2. Dem'yanov V.F., Vasil'ev L.V. Nedifferentsiruemaya optimizatsiya. Moscow, Nauka Publ., 1972. 368 p. (in Russian)

3. Krutikov V.N., Petrova V.V. Novyy metod resheniya zadach minimizatsii bol'shoy razmer-nosti (2001) Vestnik KemGU. No. 4, pp. 65-71. (in Russian)

4. Shor N.Z. Metody minimizatsii nedifferentsiruemykh funktsiy i ikh prilozheniya. Kiev: Naukova dumka Publ., 1979.199 p. (in Russian)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Krutikov V.N., Petrova V.V. Relaksatsionnyy metod minimizatsii s rastyazheniem prostran-stva v napravlenii subgradienta (2003) Ekonomika i mat. metody. V. 39. No. 1, pp. 33-49. (in Russian)

6. Krutikov V.N., Gorskaya V.A. Semeystvo relaksatsionnykh subgradientnykh metodov s dvukhrangovoy korrektsiey matrits metriki (2009) Ekonomika i mat. metody. V. 45. No. 4, pp. 37-80. (in Russian)

7. Krutikov V.N. Relaksatsionnye metody bezuslovnoy optimizatsii, osnovannye na printsipakh obucheniya. Kemerovo, Kuzbassvuzizdat Publ., 2004. 171 p. (in Russian)

8. Krutikov V.N. Obuchayushchiesya metody bezuslovnoy optimizatsii i ikh primenenie. Tomsk, Izd-vo Tom. gosudarstvennogo pedagogicheskogo un-ta, 2008. 264 p. (in Russian)

9. Kaczmarz S. Approximate solution of systems of linear equations (1993) Int. J. Control. V. 54. No. 3, pp. 1239-1241.

10. Tsypkin Ya.Z. Osnovy teorii obuchayushchikhsya sistem. Moscow, Nauka Publ., 1981. 251 p. (in Russian)

11. Krutikov V.N., Vershinin Ya.N. Algoritmy obucheniya na osnove ortogonalizatsii posledo-vatel'nykh vektorov (2012) Vestnik KemGU. No. 2 (50), pp. 37-42. (in Russian)

12. Skokov V.A. Varianty metoda urovney dlya minimizatsii negladkikh vypuklykh funktsiy i ikh chislennoe issledovanie (1997) Ekonomika i matematicheskie metody. V. 33. No 1. (in Russian)

13. Polyak B.V. Vvedenie v optimizatsiyu. Moscow, Nauka Publ., 1983. 384 p. (in Russian)

Многошаговый субградиентный метод для решения негладких задач минимизации высокой размерности Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Крутиков Владимир Николаевич, Вершинин Ярослав Николаевич

Похожие темы научных работ по математике , автор научной работы — Крутиков Владимир Николаевич, Вершинин Ярослав Николаевич

The subgradient multistep minimization method for nonsmooth high-dimensional problems

Текст научной работы на тему «Многошаговый субградиентный метод для решения негладких задач минимизации высокой размерности»