УДК 519.6:519.83
Ф.П. Васильев, Е.В. Хорошилова2, А.С. Антипин3
ЭКСТРАГРАДИЕНТНЫЙ МЕТОД ПОИСКА СЕДЛОВОЙ ТОЧКИ В ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ*
В статье предлагается экстраградиентный метод поиска седловой точки для выпукло-вогнутого функционала, определенного на решениях управляемых систем линейных обыкновенных дифференциальных уравнений. Доказывается сходимость метода.
Ключевые слова: экстраградиентный метод, оптимальное управление, седловая точка. 1. Постановка задачи. Пусть дан функционал
где x(t) = x(t,u) = ..., xni (t)) и y(t) = y(t,v) = (y1(i),..., у™2 (i)) (траектории) — решения
задач Коши:
1 Факультет ВМК МГУ, проф., д.ф.-м.н.
2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: khorelenaQgmail.com
3 Вычислительный центр им. A.A. Дородницына РАН, гл. н. е., проф., д.ф.-м.н., e-mail: asantipQyandex.ru
* Работа выполнена при финансовой поддержке РФФИ, проект № 09-01-00388, научной программы "Развитие научного потенциала высшей школы", проект № 2.1.1714, по программе поддержки ведущих научных школ, НШ-5073.2008.1.
L(u,v) = Ф (x(T,u),y(T,v))
(1)
x(t) = Al{t)x{t) +Bl{t)u{t) +i\{t), 0 x(0)=xQ
(2)
y(t) = A2(t)y(t) + B2(t)v(t) + f2(t), Сy(0) = yQ; (3)
Ai(t), Bi(t), A2(t), B2(t) — заданные матрицы размерности n\ х щ, п\ х гi, п\ х 1, п2 х пг, «2 х «2 х 1 соответственно; fi(t), f2(t) — заданные векторы размерности п\ и п2 соответственно, элементы которых — функции переменной t, кусочно-непрерывные на [О, Т]; Т — заданный момент времени; жо, уо (начальные условия) — заданные векторы из /•.'"' и /•,'"" соответственно; и = u(t) € U\ и v = v(t) € £/2 (управления) — вектор-функции переменной t размерности ri и г2 соответственно, определенные на сегменте [О, Т]; UimU2 (множества допустимых управлений) — выпуклые замкнутые и ограниченные множества из гильбертовых пространств 1.7 [0.'/"] и 1.7 [0.'/"] соответственно.
Решением задачи Коши (2), соответствующим управлению и = u(t) € 1.7 [0. '/"J. называется непрерывная функция x(t) = x(t,u), являющаяся решением интегрального уравнения
t
x{t) = J(Ai(r)a;(r) + Bi(t)u(t) + /i(r)) dr + ж0. о
Аналогично определяется решение y(t) = y(t,v) задачи Коши (3) для управления v = v(t) € 1.7 [0.'/"]. Доказательство существования и единственности решений задач (2), (3) можно найти, например, в [1, с. 383, теорема 2].
Относительно функции Ф(ж, у), задающей функционал (1), будем предполагать, что это непрерывно дифференцируемая на !■'."' х /•,'"" функция, выпуклая по х при всех фиксированных у и вогнутая по у при всех фиксированных х (иными словами, выпукло-вогнутая функция), градиенты ^Ф(ж, у), ЛуФ(ж, у) которой удовлетворяют условию Липшица
5$ Li(\\xi - х21| + 112/1 - у2II),
(4)
5$ L2(\\xi - х21| + 112/1 - 2/2II)
ДЛЯ любых (xi,yi), (х2,у2) € /•-'"' X /•,'"".
Примерами таких функций Ф(ж, у) могут служить билинейные функции вида
Ф(ж, у) = {Сх, у), Ф(ж, у) = {С(х - ai),y - а2),
где С — матрица размерности п2 х щ; а\, а2 — векторы размерности п\ и п2 соответственно.
Под седловой точкой выпукло-вогнутой функции L(u,v) на множестве U\ х U2 будем понимать такую точку (u*,v*) этого множества, которая при всех (и, v) € U\ х U2 удовлетворяет системе неравенств
L(u*,v) ^ L(u*,v*) sg L(u,v*). (5)
Будем рассматривать задачу нахождения седловой точки функционала L(u,v). Такие задачи возникают при исследовании антагонистических игр, когда поведение игроков описывается уравнениями (2), (3). Заметим, что при сформулированных условиях функция L(u,v) имеет хотя бы одну седловую точку [2, гл. 6, § 2].
<УФ(Ж1,У1) <УФ(ж2,У2)
дх дх
дФ(хъуг) дФ(х2 ,у2)
ду
ду
2. Описание экстраградиентного метода. Предлагаемый в работе итеративный экстраградиентный метод для решения задачи (1)^(4) является обобщением экстраградиентного метода оптимизации [3, 4] на случай бесконечномерных гильбертовых пространств. Перейдем к изложению этого метода для поиска седловой точки (5).
Заметим, что функционал Ь(и,у) (1) при условиях (2), (3) дифференцируем по переменной и на всем пространстве 1.7 [0.'/"]. по V — на 1.7 [0.'/"]. причем соответствующие градиенты определяются формулами [1, с. 555, теорема 1]
^^ = вТ^фг^щу) е 1.7\ИТ\. (6)
= вТ(г)ф2(р,щу) € 1.7\ит\. (7)
где — соответственно решения задач Коши
д
дх д
ф2{1) = ^А12{1)ф2{1), О ^¿^Т, ф2(Т) =—Ф(х(Т,и),у(Т,у)). Можно показать, что градиенты удовлетворяют условию Липшица [1, с. 559, теорема 2]
< 1^1(\\и1 - и2\\ь'-1 + ||«1 - «2112/2 ),
(8) (9)
- Ь(и2,у2)
- Ь(и2,у2)
X И/г,
X И/гу
< Ь2( ||«1 - «211^1 + ||«1 - Ъ2\\ЬГ2).
(10)
Отметим также, что если последовательность {г^} слабо в /..? [0.'/"] сходится к и, то соответствующая последовательность решений задачи (2) равномерно на [О, Т] сходится к решению х{Ци) этой задачи [1, с. 712-713]. Аналогично если {«/;} —> у слабо в /..? [0.'/"]. то последовательность решений {у(Р,Ук)} задачи (3) равномерно на [0,Т] сходится к решению у(Р,у). В свою очередь, тогда последовательности градиентов | дФ(х(т>и*Ьу(т,ьк)) | дФ(х(т,и^,у(т,ьк)) | сходятся при +00
к градиентам ЭФ(ж(Г'»^(Г'г')); 9Ф(х(т,и),у(т,у)) с00тветственн0; чт0 влечет за собой равномерную на
[0,Т] сходимость последовательностей решений {'ф1{Ц щ,Ы>2{Ц Щ, и/г)} задач (8), (9) к решениям ф1(1;и,у), ф2(1;и,у) этих задач. Из формул (6), (7) тогда получаем, что последовательности градиентов дЦиакиУк) = В~[ {^фг{Цик,ук), дь(^к) = В%(г)ф2(Р, щ, ук) сходятся равномерно на [0,Т] к градиентам ; если {г^} сходятся к и, V слабо в /..? [0.'/"]. /..? [0.'/"] соответственно.
Для непрерывно дифференцируемых выпукло-вогнутых функций точка (и*,у*) € и\ х 112 будет седловой точкой тогда и только тогда, когда выполняются вариационные неравенства [1, с. 524, теорема 3]
д1(и*,у*) ди
,и — и
> о,
д1(и*,у*) д'о '
(Н)
Неравенства (11) в свою очередь можно переписать в форме операторных уравнений с операторами проектирования тти1(...), тти2(...) векторов на соответствующие множества [1, с. 186, теорема 4], т.е.
и = 7Гц1 I и
а-
дЬ(и*,у*) ди
V = ТТи2
а-
дЬ(и*,у*) д'о
(12)
Таким образом, пара (и*,«*) является неподвижной точкой оператора (тти1(- ■ ■ ■■))■
На основе уравнений (12) строим итеративный процесс: а) прогнозный полушаг
-П I П д1(ип,уп)
ип = тги1 [ ип - а
ди
V = ТТи2
а-
дЬ(ип,уп)
д'о
а > 0;
б) основной полушаг
ип+1 = жи.
ип - а
дЬ{и'\уп) ди
УП+1 = 7Г щ
уп + а
дЬ{и'\уп) ду
(13)
(14)
Здесь первые две итерации трактуются как прогнозные шаги по каждой из переменных. С помощью этих итераций вначале вычисляются прогнозные точки (ип,уп) и частные градиенты в этих точках, а затем в направлениях вычисленных градиентов осуществляются основные шаги итеративного процесса [3, 4].
Перепишем метод (13), (14) в сжатом виде. Введем обозначения:
г =
г =
Аг=1
~ (г '/ 1'\ х и2.
Заметим, что = (и), тги2 М) (эт0 вытекает из характеристического свойства проекции).
Тогда метод (13), (14) можно представить в компактном операторном виде
Я" =ж2(гп -аАгп), гп+1 = жг(гп-аАг"), п = 0,1,... . (15)
Условия Липшица (10) в терминах оператора А примут вид
||Аг1 - Лг2|| < Ь Ц^ - г2\\ V:'!. е ¿Г. (16)
Условия седловой точки = [у* ] (И) будут иметь вид
{Аг*,г-г*)^ О V:- е- Я. (17)
Кроме того, из сказанного выше следует, что если последовательность где г^ = ' сла(5о в
Н = 1.7 [0.'/"] х 1.7 [0.'/"] сходится при к —> +оо к г = ^^, то последовательность Аг^ сходится к Аг равномерно на [0,Т].
3. Сходимость экстраградиентного метода. Докажем сходимость метода (15). Теорема. Пусть матрицы А\, В\, А2, В2, /2 кусочно-непрерывны на [О,Т], функция Ф(ж, у) выпукло-вогнута, непрерывно дифференцируема; градиенты ; дФоу'У^ удовлетворяют условию
Липшица (4). Пусть хо,уо — произвольные точки из /•,'"'. /•,'"" соответственно; параметр а таков, что
(18)
где Ь — постоянная Липшица из (16), £о — некоторое фиксированное число, 0 < £о < 1. Тогда последовательность {г^}, порожденная методом (15), такова, что все ее слабые предельные точки
г' = ^,^ являются седловыми точками (5), а соответствующие траектории равномерно на [О, Т]
сходятся к х(1, и'),у(1, г>').
Доказательство. Пользуясь характеристическим свойством проекций, соотношения (15) можно переписать в эквивалентном виде [1, гл. 4, § 4]:
{!п - гп + аАгп,г - 1п) ^ 0 Уз € Z, (19)
(гп+1 аА~/\ г - гп+1) ^ О У г € (20)
Положим в (19) г = хп+1 е Я, а в (20) х = х* = (и*,у*) € 2 (какая-либо из седловых точек (5)) и сложим эти вариационные неравенства:
Сг" - - Г1} + а(Агп, гп+1 - гп) + (гп+1 - гп, г* - гп+1} + а(А1п, г* - гп+1) ^ 0.
Воспользуемся тождеством
||а — Ъ\\2 = ||(а — с) + (с — Ь)||2 = ||а — с||2 + ||с — Ъ\\2 + 2(а — с, с — Ь),
откуда
{а — с, с — Ь) = - ||а — Ъ\\2 — -\\а — с||2 — - ||с — Ъ\\2 Уа, Ь, с € !•'.''. р ^ 1.
Получим
I _ /*||2 _ I ц^» _ _ I _ + - +
11 1
м <г> * .. 2 I I <г> _L 1 <г> I I 2 1-
„г" -2*|Г - 2 1кП+1 "^Н - 2 \\г* ^ гП+1\\ ^ ^ 0. (21)
Из (21) следует, что
\\гп - Ип\\2 + ||гп+1 - ¿п|| + ||гп+1 - г*\\ - \\гп - г*\\2 < 2а(Агп,гп+1 +
+ 2а(АГ\ г* - гп + гп - гп+1) = 2а(Агп - АГ\ гп+1 - гп) + 2а(АГ1 - Аг* + Аг*,г* - г") =
= 2а(Агп - Аг'\ гп+1 - гп) + 2а{Агп - Аг*,г* - гп) + 2а(Аг*,г* - 7п). (22)
При г = I" е 2 из (17) получаем
(Аг*,гп ^г*) ^ 0 <=> {Аг*,г* «С 0. (23)
Далее, из выпуклости по и и вогнутости по V функции Ь(и, у) с помощью теоремы о касательной плоскости ([1, с. 160, теорема 2] /(у) ^ /(ж) + {/'(ж), у — х) в случае выпуклой функции и /(у) ^ Кх) + {/'(Ж);У ~~ х) в случае вогнутой) получаем
Ои /
д \
—1(и*,у*),и* - йп ) ^ 1(и*,У*) - 1(йп,у*), ои /
~Ь(и*,у*),у* ^ ^Ь(и\у*) + Ь(и\уп).
Сложим эти четыре неравенства:
^-Цйп,уп) - + + ^-Ци\у*),уп - у*\ ^ О,
ои Ои / \ ОУ ОУ /
или
■т-М^1^) \ _ ( шМи*,у*) \ _ (иЛ\
-¡¡¡Цг^,^)) \^Ь{и%у*)) ' \уп) \У*)/ " и'
т. е.
{А?1 - -г*) ^ 0. (24)
Тогда из (22) с учетом (16), (17), (23) и (24) имеем
Ц/1 - Л|2 + ||гп+1 - гп||2 + ||гп+1 - г*||2 < \\гп - г*\\2 + 2а(Агп - Аг", гп+1 - гп) +
+ 2а{Агп - Аг*,г* + 2а(Аг*,г* -г") < 2а ||Агп - Агп\\ \\гп+1 ^"Ц + \\гп - г*+ + 2а(Агп - Аг\г* -г") + 2а{Аг*,г* -г") < \\гп ^ г*\\2 + 2а\\Агп ^ Агп\\ ||гп+1 - ^Ц <
< \\гп - г*\\2 + 2аЬ\\гп -г"\\ Ц/^1 < \\гп - г*\\2 + аЬ \\гп - г"\\2 + аЬ \\гп+1 - г"\\2 .
Следовательно,
||гп+1 - г*||2 < \\гп - г*\\2 + (-1 + аЬ) \\гп - гп||2 + (-1 + аЬ) \\гп+1 - ?п||2 . (25)
Но так как — 1 + аЬ ^ в силу (18), то получаем
£о(\\гп -^Ц2 + Ц/^1 ^Ц2) + Ц/^1 -з*||2 < \\гп - г*\\2 , п = 0,1,... . (26)
Из (26) следует монотонное невозрастание последовательности {\\гп — г*||2}, а также ее ограниченность
Ц/1 -г*\\2 < ||г° -з*||2, п = 0,1,... . (27)
Просуммируем неравенства (26) по п от 0 до некоторого Ж:
N N
|2 , ^^ II -=п||2 \ I 1иЛГ+1 *||2 ^ II 0 „*|
п=0 п=0
ео Е II-" - + Е- ^11 + - -1Г < 1К - -1Г. ^ ■ (28)
+ 0° 2 +0° ¡¡2 Это означает, что ряды ^ \\zn—~zn\\ , ^ сходятся, следовательно,
п=о п=0
||zn+1 - zn\\ 0, n^+oo. (29)
Но тогда
||zn+l _ zn|| ^ ||zn+l + _ zn|| ; ||zn+l _гп|| ^ 0j n^+00.
У ограниченной в норме Н = /..? [0. '/"J х /..у [0. '/"J последовательности {zn} (27) существует хотя бы одна слабая предельная точка z'. Возьмем любую из таких точек z'. Это означает, что существует подпоследовательность {zUi}, слабо в Н сходящаяся к z'. Тогда подпоследовательность {z"'*} слабо сходится к той же точке z'. В самом деле, при щ +оо с учетом (29) имеем
|(c,zrii) - {c,z')I = \(c,zrii ^zrii) + {c,zn* -z')\ < ||c|| \\zrii ^zni\\ + \(c,zn< -z')\ ^ 0 Vr e- II.
Кроме того, AzKi —> Az', щ —> +oo, равномерно на [0,Т]. Поэтому в (19) можем совершить предельный переход при п = щ —> +оо. В пределе имеем {Az1, z — z') ^ 0 Vz € Z. Отсюда и из (17) следует, что и'\
\ — седловая точка функции L(u, v). Тем самым доказано, что любая слабая предельная точка
последовательности {zn} является седловой точкой L(u,v). Отсюда же следует, что соответствующие последовательности траекторий {x(t, uUi)}, {y(t,vni)} равномерно на [0,Т] сходятся к x(t,u'), y(t,v') соответственно. Теорема доказана.
СПИСОК ЛИТЕРАТУРЫ
1. Васильев Ф. П. Методы оптимизации. М.: Факториал Пресс, 2002.
2. О бен Ж. П. Прикладной нелинейный анализ. М.: Мир, 1988.
3. Корпелевич Г. М. Экстраградиентный метод для отыскания седловых точек и других задач // Экономика и матем. методы. 1976. № 12. С. 747-756.
4. Антипин A.C. Седловые градиентные процессы, управляемые с помощью обратных связей / / Автоматика и телемеханика. 1994. № 3. С. 12-23.
Поступила в редакцию 14.01.10
EXTRA-GRADIENT METHOD FOR SADDLE-POINT COMPUTING IN OPTIMAL CONTROL Vasilyev F. P., Khoroshilova A. V., Antipin A. S.
The article to be considered is devoted to iterative extra-gradient method for saddle-point calculation in the class of convex-concave functions determined on solution of systems of controlled linear differential equations. The convergence of the method is proved.
Keywords: extra-gradient method, optimal control, saddle-point.