УДК 519.3 В. Ф. Демьянов
Вестник СПбГУ. Сер. 1, 2003, вып. 3 (№17)
МЕТОД ТОЧНЫХ ШТРАФОВ В ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ*
Цель настоящей статьи — продемонстрировать на классической задаче оптимального управления [1] возможности теории точных штрафов (см. [2-5]), хотя излагаемый аппарат разработан и пригоден для решения более сложных задач управления (при наличии ограничений на фазовые координаты, при негладких функционалах и правых частях систем уравнений). Основная особенность задач оптимального управления — наличие дифференциальных связей. Система дифференциальных уравнений рассматривается как «ограничения». Показывается, как эти ограничения можно «устранить», вводя соответствующую функцию точного штрафа. Получающийся в результате новый функционал является существенно негладким, однако современный аппарат негладкого анализа позволяет исследовать такие функционалы (например, получить условия экстремума).
1. Системы диффеpенциальных уpавнений
Пусть Pr [0,T] — множество кусочно-непрерывных и ограниченных на [0,T] r-мерных вектор функций. Если z G Pr [0, T] и to G [0, T) — точка разрыва функции z (t), то для определенности полагаем
z(to)=lim z(t). (1)
tito
В точке T считаем, что z(T) = limz(t). Введем множество
tlT
U := {u G Pm[0,T] | u(t) G У V t G [0,T]}, (2)
где V С Rm — заданное компактное множество. Вектор-функция u G U называется функцией убавления или просто убавлением, U — множеством допустимых управлений. Относительно вектор-функций u G U сделаем предположение, аналогичное (1).
Рассмотрим следующую систему дифференциальных уравнений:
x(t) = f (x(t),u(t),t), (3)
x(0) = xo, (4)
где функция f будет описана ниже, u G U. Пусть X С К" — открытое множество, xo G X. Будем считать, что вектор-функция f (x,u,t) определена, дифференцируема по x и непрерывна вместе с по j, и и t на X х U х [0, Т], а функция / удовлетворяет условию Липшица по x и u (с одной и той же константой Липшица для всех u G U и t G [0,T]). Если t G [0, T) — точка разрыва функции u, то x(t) — правосторонняя производная в точке t. Тогда для каждого u G U найдется единственная непрерывная кусочно-дифференцируемая функция xu(t) = x(t, u), определенная на [0, T] и удовлетворяющая (3)-(4). Допустим также, что множество X достаточно «велико», так что для любого u G U будет x(t, u) G X Vt G [0, T].
ф Данная работа осуществлена при поддержке Российского фонда фундаментальных исследований (проект № 03-01-00668). © В.Ф.Демьянов, 2003
Положим
Пи := {z £ Pn[0,T] | Vu(z) = 0},
где
1/2
Vu (z) =
Заметим, что
Jt (^z(t) - f (x0 + z(t)dr,u(t),t)^ dt
Vu(z) > 0 Vz £ Pn[0,T], Vu £ U.
Очевидно, что если z £ Qu, то функция x(t) = xo + J0 z(t)dT удовлетворяет (3), (4), и обратно, если x(t) — решение системы (3)-(4), то z £ Qu (где z(t) = f (x(t),u(t),t)). Таким образом, задача нахождения решения системы (3)-(4) для любого фиксированного u £ U эквивалентна задаче разыскания z £ Pn[0,T] такого, что vu(z) = 0, т. е. z £ Qu.
Теперь зафиксируем u £ U. Дифференциальные свойства функции vu изучались в [6]. Там было установлено, что эта функция является дифференцируемой по направлениям, т. е. для любого v £ Pn[0, T] существует конечный предел
<fu(z',v) =lim~[<p(z + av) - <pu(z)].
a|0 a
Справедливы следующие утверждения.
Лемма 1. Если Vu(z) > 0 (т.е. z £ Qu), то функция vu дифференцируема по направлениям в точке z. Более того, она дифференцируема по Гато, причем
[Т ( fT f df(T) А* А
<p'u(z]v) = J^ lv(t),w(t) - J { дх J w(T)dTjdt = (V(fu,v),
где
V(fu(t) = w(t) - £ (^p) ™(r)dT ,
(t) :=-^(z{t)-f{x0+ f z{T)dT,u{t),t)V Vu(z)\ Jo J
Ясно, что
t-T
(w(t))2 dt
' o
1/2
1.
Замечание 1. При наложенных на ] и и условиях можно считать, что Рп[0, Т] — открытое множество кусочно-непрерывных на [0, Т] функций, поточечно ограниченных на [0, Т] некоторой константой К < ж.
Лемма 2. Пусть Z С Рп[0, Т] - ограниченное множество, т. е. существует такое М < ж, что < М Уz £ Z. Тогда найдется а> 0, такое, что
а Уz £ Z \ Пи, Уи £ и.
Следствие 1. Найдется а> 0, такое, что
inf f (Vvu(z)(t),v(t))dt = inf (Vvu(z),v)
v\\ = 1Jo IMI = 1
w
= -\\Ууи(г)\\ < -а < 0 У г £ Z \ Пи, Уи £ и.
Лемма 3. Если уи(г) = 0 (т. е. г £ &и), то функция уи дифференцируема по направлениям в точке г; более того, она даже субдифференцируема, т.е.
у'и(г,У)= шах (V* ,у),
где
д^и(z) = { v* е Pn [0,T]
сt) = m-jt v(r)dr, и<iL
*
V
где
2. Постановка задачи оптимального упpавления
Рассмотрим следующую задачу: Найти
min I (u), (6)
uEU
I(u)= fo(x(t,u),u(t),t)dt, (7)
J 0
x(t, u) — решение системы (3)-(4) при u е U, а функция f0 : Rn x Rm x R ^ R дифференцируема по x. Будем также предполагать, что функции /о и непрерывны по всем аргументам на Rn x Rm x R. Введем функционал
Ju(z)= fo(xo + z(t) dr,z(t),t)dt,
00
определенный на Рп[0, Т]. Ясно, что задача вычисления функционала I(и) эквивалентна задаче минимизации функционала ^(г) на множестве Ои = {г £ Рп[0,Т] \ уи(г) = 0} (где уи(г) задана соотношением (4)) в следующем смысле: если хи(Ь) = х(Ь,и) — решение системы (3)—(4), то I(и) = /о(х(1,и),и(1),1)А и ги(Ь) = Xи(1) £ &и. Поскольку множество содержит всего одну точку, то в точке ги(Ь) достигается минимум функционала .1и(г) на Пи. И обратно, если ги £ , то функция хи(Ь) = хо + /о ги(т)с!т является решением системы (3)—(4): хи(Ь) = х(Ь,и), и, следовательно, I (и) = /о(х^,и),и(г),г)А.
Можно показать, что функционал .1и(г) удовлетворяет условию Липшица по г на Рп[0, Т] с одной и той же константой Липшица для всех и £ и. Из леммы 2 и [5] следует существование такого А* < то, что для каждого А > А* точка ги(Ь) = х(Ь,и) является точкой глобального минимума (по г) функционала Ф\(г,и) = 1и(г) + Ауи(г).
Число А* можно выбрать одним и тем же для всех и £ и.
Сказанное означает, что для любого фиксированного и £ и задача вычисления функционала I(и) эквивалентна (в указанном выше смысле) задаче минимизации (относительно г) функционала
Ф\(г,и)= /о(хо + г(т )3,т,и(Ь),Ь)3:Ь +
оо
{t t Л 1/2
J [z (t) - f (xo + J z(t )dT,u(t),t)]2 dt\
на множестве Pn [0, T]. Отметим еще раз, что это верно для всех Л > Л*.
Таким образом, задача минимизации функционала I(и) (см. (7)) эквивалентна задаче минимизации функционала $a(z, и) на множестве Pn[0, T] x U в следующем смысле: если пара [z*, и*] е Pn[0, T]xU доставляет минимальное значение функционалу $a(z, и) на множестве Pn[0,T] x U, то функция x* (t) = xo + Jo z*(t)dT является решением системы (3)-(4) для u(t) = и* (t), т.е.
x * = f (x*(t),v* (t),t), (8)
x* (0) = xo. (9)
Более того,
Г T
1(и*)=тт 1(и) = min f0(x(t,u),u(t),t)dt. (10)
uEU uEU Jo
Обратно, если и*(Ь) е U удовлетворяет (10), то пара [z*,u*] (где z*(t) = x*(t), а x* (t) —решение системы уравнений (8)-(9)) доставляет минимум функционалу $a(z, и) на множестве Pn [0,T] x U.
Замечание 2. Таким образом, введение функционала Фа(z,u) позволяет «устранить» ограничения в форме дифференциальных уравнений. Следовательно, задача (6) эквивалентна задаче минимизации функционала Фа(^,у,) на множестве Pn[0,T] x U.
3. Игольчатая ваpиация функционала Фа
Рассмотрим подробнее функционал
T ,■ t
z(T )dT, и(
ФА^,и):= Ju (z) + Л<ри^) = i fo(xo + z(t )dT, и(Ь), t)dt +
Jo Jo
+ л| Ю [z (t) - f (xo + z^dT^^tfd^ .
Зафиксируем г £ Рп[0,Т],и £ и. Через Т>(г, и) обозначим множество тех точек отрезка [0,Т], в которых функции г(г) и и(г) непрерывны (тогда, при сделанных предположениях, множество [0, Т] \ Т>(г, и) содержит конечное число точек).
Выберем в £ [0,Т), п > 0, т £ V, V £ Рп[0,Т]. При достаточно малых е > 0 будет (в,в + пе) CV(г,u), в + пе<Т. Положим
гЕ(Ь) := г(Ь)+е^(Ь),
(,):= ( и(г), г £ [в, в + пе), ие(г):=\ т, г £ [в, в + пе).
Ясно, что вектор-функции ге(г) и ие(г) кусочно-непрерывны, при этом ге(г) £ Рп[0,Т], ие(г) £ и.
Введем обозначения:
х(г) := хо + г(т)3т, хе(г) := хо + ге(т) ¿т = х(г) +е v(т) ¿т, ио Jо Jо
hu(t) := z(t) - f (x(t),u(t),t),
h£u(t) := zE(t) - f (xo + / z£(r)dr,u£(t),t) = z£(t) - f (x£(t),uE(t),t). J o
Имеем:
heu(t) = hu(t) + <
v(t)_M^Mf0v(T)dT
v{t) _ a/cy),«) jtv{T)dT
+ o(e, t), если t G [в, в + щ), + [f (x(t),u(t),t) - f (x(t),w,t)]+
+£
df(x(t),u(t),t) _ df(x(t),w,t) дх dx
Jo v(T)dr+
+o(£,t), если t G [в, в + щ).
Из (11) следует
(11)
v{t) _ a/(,y),0 jKu(T)dT
h£u (t) = <
hu(t) +£
+o(£, t), если t G [в, в + це),
hu(^) + [f Ш, ь(в), в) - f (xtf), w, в)]+
+
+£
где
M - f! v(T)dr
o(£, t)
+ a(£,t), если t G [в, в + щ),
0, a(e,t) —> О.
£ е|0 е|0
(12)
Можно показать, что соотношения (12) имеют место равномерно по £ на [0,Т]. Так как
гТ
то
II® N = 1
^u (z) = max (hu(t),v(t))dt
IMM Jo
VuE (z£) = max (h£u(t),v(t))dt
1ММ Jo
J Uu(t)+£
(13)
" , N df(x(t),u(t),t) f' , w 1 . Л , v(t)----' / v(r)dT ,v(t))dt +
dx Jo \ J + nd f (x^), u(в), в) - f (x(в), w, в), ve) } + o(£), (14)
где
o(e)
0.
e|o
Замечание 3. В (13) и (14) следовало бы писать sup вместо max, но поскольку функции hu(t) и heu(t) кусочно-непрерывны, supi®|i=i достигается. Кроме того, в (13)
£
£
s
и (14) ||г|| — норма в пространстве Ь (т.е. ||г||
¡Т т)2 ¿г
1/2
), но так как для
фиксированных у,т,п функции ки(г) и НЕи(г) кусочно-непрерывны и ограничены, то можно считать,что V поточечно ограничена, т.е. |г(г)| < С Ш € [0,Т], где константа С зависит от у,т,п, но не зависит от е и в. Вот почему остаточный член в (14) ведет себя как о(е) (функция о(е) зависит от у,т,п и в).
Для функционала .1и(г) получим разложение
(?е) = /о(хо + / гЕ(т)йт,ие(г), г)¿г = ■)о .)о
Г г*
= / /о(х(г)+е у(т)^,пЕ(1),1)& = ио Jо
+ п
/о(х(в),т, в) - /о(х(в),и(в),в)
+ о(е).
(15)
Если г € Пи, то в (14) ки(г) = 0 Ш € [0,Т], и из (14) и (15) (после интегрирования там по частям) следует
где
ФА(гЕ,иЕ) = ФА(г,и)+еН(ю,т,п,в, г,и) + о(е),
''т д/о(х(т),и(т),т)
(16)
Н(у,ю,п,в, г, и) = тах < /
11®Н<1 I Уо \ Л
+ Лг(г) - !т
дх
¿т +
( д/(х(т ),и(т ),т)
Лги(т)¿т, у(г)
¿г +
+ п
/о(х(в), т, в) - /о(х(в), и(в), в) + /(х(в), и(в), в) - /(х(в), т, в), \г(в)
>. (17)
Заметим, что разложение (16) справедливо только для 2 € Пи. Следующее необходимое условие вытекает из (17):
Теоpема 1. Пусть и* € и, г * € . Для того чтобы пара [г *,и* ] доставляла функционалу Фа (г, и) глобальный или локальный .минимум на множестве Рп[0, Т] х и, необходимо, чтобы
Н(у,т,п,в,г*,и*) > 0 € Рп[0,Т], Шт € V, Шп > 0, Шв € [0,Т]. (18)
Замечание 4. Для произвольного Л > 0 точка минимума [г*,и*] функционала ФА(г,и) на Рп[0,Т] х и зависит от Л: г * = гА, и* = иА, но если Л > Л*, то все [гА ,иА] совпадают, т.е. [гА ,иА] = [г*,и*] ШЛ > Л* и уи* (г *) = 0, а значит, г * € .
4. Пpинцип максимума Л. С. Понтpягина
4.1. Необходимое условие минимума. Пусть управление и* € и является точкой минимума функционала 1(и) на и. Положим х* (г) = х(г,и*), г*(г) = х* (г). Тогда пара [г*, и*] доставляет минимальное значение функционалу Фа (г, и) на множестве Рп [0, Т] х и для каждого Л > Л*.
Зафиксируем произвольное т € V. Условие (18) можно представить в виде
тах(4, д) > 0 Шд € Г,
где
V € Рп[0,Т], п > 0 = Г! х Г2
Г1
V € Рп[0,Т]} = Рп[0,Т], Г2 = |п € М т д/о(х* (т),и* (т),т)
(20)
Я = {[ч\,Я2]
ъ(г)
дх
п > 0 , ¿т +
42 = /о(х* (в),т,в) - /о(х* (в),и* (в),в) + + ( /(х* (в), и*(в), в) - /(х*(в), т, в), Лгг(в)) , г € Рп[0, Т], ||г|| < 1
(21)
Отметим, что
Г С Рп[0,Т] х М, Я с Рп[0,Т] х М, Г! = Рп[0,Т], Г2 С М.
Здесь х*(г) = х(г,и*). Множество Я является выпуклым, а множества Г, Г и Г2 — конусы в соответствующих пространствах.
Напомним, что если Г — конус с вершиной в нуле соответствующего пространства (т.е. из д € Г следует Лд € Г ШЛ > 0), то множество
Г+ = {д* = [д*,д2*] | д* € Рп[0,Т], д** € М, (д*,д) > 0 Шд € Г}
называется конусом, сопряженным конусу Г. Если конус Г задан соотношением (20), то нетрудно видеть, что
Г+ = Г+ х Г+, Г+ = {0}, Г+ = {а € М | а > 0}.
4.2. Эквивалентная фоpмулиpовка. Вначале докажем следующее утверждение: Лемма 4. Если выполнено условие (19), то
М + р(4,д*) = 0.
ег+
(22)
Здесь 4 = [41,42] € Q, д* = [д*,g2], р2(4,д*) = ||4! - g*^||2 + (42 - д2)2. Заметим, что д** > 0.
Доказательство. Допустим, что (22) не имеет места. Пусть
Имеем
М р(4, д*) = а > 0.
чея,д*ег+
М + р(4,д*) = м + р(4,д*) = М у (4).
(23)
V
Очевидно, что у(4) := Ыег+ р(4,д*) = р(4,д*(4)), где
д*4) = | [0, 0], если 42 < 0, [0, 42], если 42 > 0.
Выберем последовательности {£и}, {4к}, и {д^}, такие, что
£к I 0, 4к € Q, дк = g*(4k), р(4к,д*и) < а + £к. Без ограничения общности можно считать, что выполнено одно из соотношений:
a) 42к < 0 Шк, (24)
b) 42к > 0 Шк.
В случае a) а в случае b)
q*2k = 0 Чк,
q*2 k = 42 Чк. (25)
Теперь полагаем gk = g*k - qk. В случае a) gk = [-qik, -q2k]. Из (24) следует gk e Г (так как -q2k > 0).
В случае b) из (25) получаем gk = [-qik, 0], т.е. gk e Г. При этом gk = [0,0], ибо иначе было бы a = 0, что противоречит (23).
Таким образом, в обоих случаях gk e Г. Из определения (см. (21)) следует ограниченность множества Q, т.е. существует K < ж, такое, что
1Ы1 = VlkilP + hl2 VqeQ.
Покажем, что при достаточно малых £k будет
(q,9k) <-a/2 4q e Q, (26)
где Ук = 1ы\-
Допустим противное. Тогда найдется qki e Q, такое, что (qki,gk) > -a/2. Множество Q выпуклое, поэтому отрезок co{qk,qki} = [qk,qki] С Q. Найдем точку qk2 = akqk + (1 - ak)qki (где ak e [0, 1]), такую, что (qk2, gk) = -a/2. Из точки O (см. рис.1) опустим перпендикуляр на отрезок [qk,qk2]. Пусть Ck e [qk,qk2] и (Ck, qk - qk2) = 0. На плоскости R2 (см. рис.2), рассмотрим треугольник OBAk, где OB = K, OAk = a + ek, OA = a/2. Так как \\qk - g*k\\ < a + ek, то \\Ck - gk || < OC.
Положим AB = у, ОС = ж, BA¡. = z. Из треугольников ABAk и OCAk имеем ^ _ a+efc _ pj3 треугольника OAB , будет y = л/К? — a2 /4, а из треугольника ABAj.
z = л/у2 + (a/2 + £fc)2 = y/K2 + e\ + aek.
Тогда
(a + ek)y (a + £к)л/ — a2/4
x = - — —
л/К,2 +e2k + aek
z
Рис.2
Рис. 1
а' 4/С2
1 +
£к+аек
К?
-* а\ 1 ~ ЛГ2 < а'
^ ю V 4К2
т.е. \\Ск — д*|| < а пpи достаточно больших к, что пpотивоpечит (23). Из полученного пpотивоpечия следует (26). Поскольку дк Е Г, то (26) пpотивоpечит (19), откуда вытекает и спpаведливость леммы.
Из доказанной леммы следует существование последовательности {як} и точки д* = [0,д*], таких, что
Як = [Я1к,Я2к] Е Я, \\qik\\ —► 0, ^2к —► д2 > 0.
(27)
Отсюда и из (21) заключаем, что найдется такая последовательность {ук}, что юк Е Рп[0,Т], \\йк\\ < 1,
Поскольку матричная функция и вектор-функция ^ кусочно-непрерывны, а
из (27) \\я1к\\ —► 0, то из свойств pешений инте^альных уpавнений вытекает, что к
Ук(ь) —► у(Ь),
(28)
где
эг (х* (т ),и* (т ),т)\*
дх
\У(т^т =0 УЬ Е [0,Т],
(29) 17
2
ь
щ = fo(x*(e),w,0) - fo(x*(в),п*(в),в) +
+ (f (x*(e), u* (в), в) - f (х*(в), w, в), \Щв)) > 0. (30)
Из вышесказанного следует, что нами доказана следующая Теорема 2. Условие (19) эквивалентно условию
Я П Г+ =
4.3. Принцип максимума. Положим \У(Ь) = ф(Ь). Диффеpенциpуя тождество (29), имеем
^ | э/р(х*(г),и*(г),г)^ (31)
дх у дх
ф(Т) = 0. (32)
Отсюда и из (30) получаем следующий pезультат:
Теоpема 3. Для того чтобы управление и* Е V доставляло минимальное значение функционалу (7) на множестве V, необходимо, чтобы нашлась функция ф(Ь), удовлетворяющая системе дифференциальных уравнений (31)-(32) и такая, что
/о(х*(в),т, в) — /о(х*(в),и*(в),в)+ + (/(х*(в),и*(в),в) — /(х*(в),т,в),ф(в)} > 0 У» Е V, Ув Е [0,Т]. (33)
Замечание 5. Соотношение (28) и условие (29) сpазу получаются, если пpедполо-жить, что из о^аниченной последовательности {Ук} можно выбpать сходящуюся подпоследовательность. Однако это свойство (спpаведливое в конечномеpных пpостpан-ствах) не имеет места в бесконечномеpных пpостpанствах, в частности, в пpостpанстве Рп[0,Т]. В данном случае эту тpудность удалось пpеодолеть, воспользовавшись свойствами pешений инте^альных уpавнений.
Замечание 6. Из (33) заключаем, что
Нв(») := Н(»,в) := /о(х*(в),и*(в),в) — /о(х* (в),», в) + + (/(х*(в),т,в) — /(х*(в),и* (в),в),ф(в)} < 0 У» Е V, Ув Е [0,Т], (34)
т.е. функция Нв(») достигает в точке и* (в) своего максимального (pавного нулю) значения на множестве V для всех в Е [0, Т].
Условие (34) называется принципом .максимума Л. С. Понтрягина. Замечание 7. Множество V (см. (2)) не пpедполагается выпуклым, так что и множество и тоже не пpедполагается выпуклым.
Summary
Demyanov V. F. The exact penalty method in the optimal control problem The classical optimal control problem is discussed. The aim of the paper is to show how the exact penalty approach can be used to solve control problems. Optimal control problems are characterized by the presence of differential equations. The differential equations are viewed as "constraints" and are removed by means of a proper exact penalty function. The resulting functional is of nonsmooth
nature but the present technique of Nonsmooth Analysis make it possible to deal with such problems (e.g., to derive optimality conditions). More complicated control problems (problems with nonsmooth functionals and the right-hand sides, control problems in the presence of constraints on the phase coordinates etc.) can be treated by the exact penalty approach.
Литература
1. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. М., 1976.
2. Еремин И. И. Метод «штрафов» в выпуклом программировании // Докл. АН СССР. 1967. Т. 143, № 4. С. 748-751.
3. Zangwill W. I. Non-linear programming via penalty functions // Management Science. 1967. Vol. 13, No 5. P. 344-358.
4. Федоров В. В. Численные методы максимина. М., 1979.
5. Demyanov V. F., Di Pillo G., Facchinei F. Exact penalization via Dini and Hadamard conditional derivatives // Optimization Methods and Software. 1998. Vol. 9. P. 19-36.
6. Demyanov V.F., Giannessi F., Karelin V. V. Optimal Control Problems via Exact Penalty Functions // J. of Global Optimiz. 1998. Vol. 12, No 3. P. 215-223.
Статья поступила в редакцию 12 февраля 2002 г.