Онлайн-доступ к журналу: http://isu.ru/izvestia
Серия «Математика»
2011. Т. 4, № 2. С. 27-44
УДК 518.517
Метод модифицированной функции Лагранжа для задач оптимального управления со свободным правым концом *
А. С. Антипин
Вычислительный центр Российской академии наук
Аннотация. В статье рассмотрен метод для решения задач оптимального управления со свободным правым концом и линейной дифференциальной системой. Предлагаемый подход имеет аналог в выпуклом программировании, известный как метод модифицированный функции Лагранжа. Доказана сходимость метода в бесконечномерном функциональном пространстве. Эта сходимость обладает дополнительным свойством монотонности по норме пространства относительно управлений, траекторий и сопряженных функций.
Ключевые слова: оптимальное управление; функция Лагранжа; модифицированная функция Лагранжа; метод; сходимость.
Известно, что в развитии идей оптимизации ключевое место занимает теория задач выпуклого программирования. Эта теория, по крайней мере, дважды оказала существенное воздействие на развитие математического прикладного и фундаментального анализа. Вспомним, что понятие субдифференциала, возникшее в выпуклом программировании, породило целую шкалу обобщенных дифференциалов для скалярных функций и точечно-множественных отображений. Другой импульс относится к появлению модифицированной функции Лагранжа, на основе которой были сконструированы итеративные и непрерывные управляемые методы градиентного типа, сходящиеся к седловым точкам функции Лагранжа задачи выпуклого программирования. Эти методы не
* Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (коды проектов РФФИ 09-01-00388 и РФФИ 10-01-90011-Бел-а) и Программы государственной поддержки ведущих научных школ НШ-4096.2010.1.
1. Постановка проблемы
были методами потенциального типа, т.е для них не существовало потенциала или функции Ляпунова, которая поддерживала бы сходимость или асимптотическую устойчивость этих процессов. Роль функции Ляпунова в этих методах выполняла модифицированная функция Лагранжа. В рамках этой теории была установлена монотонная сходимость (по норме пространства прямых и двойственных переменных) к седловой точке функции Лагранжа. Позднее стало ясно, что на базе этих теорем можно развивать теорию методов решения игр п-лиц с положительной суммой, которая включает в себя игры с нулевой суммой
[3].
Примерно в это же время шло бурное развитие теории задач оптимального управления. Эта теория породила значительный поток публикаций, включая методы решения этих задач. Особенно популярны были задачи минимизации терминальной выпуклой функции на множестве достижимости линейных дифференциальных управляемых систем. Эти задачи представляли собой задачи выпуклого программирования с единственным отличием их от классического случая - они сформулированы в бесконечномерном функциональном пространстве. Во всяком случае, к ним также применима идея сведения исходной задачи выпуклого программирования к задаче вычисления седловой точки функции Лагранжа. В этом случае среди методов решения задач оптимального управления со свободным правым концом должны были быть представлены методы, для которых доказана монотонная - по норме пространства прямых и двойственных переменных - сходимость к прямому (оптимальные управление и траектория) и двойственному (оптимальная сопряженная функция) решению задачи. Однако автору этой работы не удалось найти публикации, которые содержали бы аналогичные утверждения. Поэтому в данной работе рассматривается метод, для которого доказывается монотонная сходимость к решению задачи, и который имеет аналог в выпуклом программировании под названием «метод модифицированной функции Лагранжа». Свойство монотонной сходимости метода - это регуляризирующее свойство метода, которое является интуитивным обоснованием того простого факта, что если уровень погрешности исходной информации задачи не превосходит е > 0, то приближенное решение лежит в е-окрестности точного решения задачи (с точностью до константы).
Итак, рассматривается задача оптимального управления на фиксированном интервале времени [^о, ^1] со свободным правым концом и линейной дифференциальной системой. Множество достижимости этой системы описывается свободным правым концом х(£1) траектории х(£), когда управление п(Ь) € и пробегает все множество управлений. Пусть на множестве достижимости Х1 = X(£1) определена терминальная выпуклая целевая функция ^(х(£1)), тогда задача оптимального управления ставится следующим образом: найти оптимальное управление
и*(£) такое, что отвечающая ему траектория х*(£) порождает правый конец х*(£1) = х1, который является оптимумом терминальной функции, т.е. оптимальным решением задачи оптимизации на правом конце интервала времени.
Формальная постановка задачи имеет вид:
^х(£) = ^(£)х(£) + В(£)и(£), х(£0) = х0 € X(£0), (1.1)
и = {и(£) € Ь^[£0,£1]| и(£) € [и-,и+]}, £0 < £ < £1, (1.2)
х1 € А^шт^^) | х1 = х(£1) € X(£1)}, (1.3)
где X(£1) С Лга. Здесь терминальная задача представляет собой обыч-
ную задачу оптимизации выпуклой функции в конечномерном пространстве. Предполагается, что решение х*(£),и*(£) рассматриваемой задачи всегда существует.
2. Редукция игровой системы к задаче вычисления неподвижной точки экстремального отображения
В общем случае правые части дифференциальных уравнений могут иметь конечные скачки разрывов, поэтому понятие решения дифференциального уравнения требует некоторого уточнения. Рассмотрим в пространстве ЬП[£0,£1] линейное подпространство [£0,£1] ограниченных
непрерывных функций-траекторий х(£) с кусочно-непрерывными производными, удовлетворяющих начальному условию х(£0) = х0, а также линейное подпространство С0 [£0, £1] кусочно-непрерывных функций-управлений и(£), удовлетворяющих ограничениями интервального типа
(1.2).
Будем называть решением (траекторией) системы (1.1) непрерывную функцию х(£), удовлетворяющую тождественно условию
х(£) = х(£0) + (^(т)х(т) + В(т)и(т))^т, £0 < £ < £1. (2.1)
■Ьо
Интеграл здесь понимается в смысле Римана, и этого достаточно, чтобы выполнялась формула Ньютона-Лейбница.
Например, функция х(£) = |£ — ^ | не имеет производную в точке £ = у и поэтому не является решением уравнения (1.1) в классическом понимании. Однако, такая функция удовлетворяет условию (2.1) и, следовательно, мы будем рассматривать ее как обобщенное решение уравнения (1.1). В дальнейшем предполагается, что траектория х*(£), являющаяся решением задачи (1.1)-(1.3), принадлежит линейному (отметим - не замкнутому) подпространству (7га[£0,£1] С ДП[£0,£1].
Задача (1.1)—(1.3) формально представляет собой задачу выпуклого программирования, сформулированную в бесконечномерном функциональном пространстве и, как показано в ([5], с.511), в регулярном случае всегда имеет решение и сводится к вычислению седловой точки функции Лагранжа
Г *1 «
£(ф(£), ж(г), и(г)) = <^(ж1) + (ф(г), ^(£)ж(£) + В(£)«(£) — — ж(£))^,
]ь0
_ _ (2-2)
которая определена для всех ж(г) € (7га[£о,£1], ф(г) € СЩ^,^], и(г) € и, где - сопряженное пространство для линейного подпростран-
ства С'га[£0,£1]. Седловая точка (ф *(г), ж *(г), и *(£)) функции Лагранжа, образованная прямым (ж *(г), и *(£)) и двойственным ф*(г) решениями задачи (1.1)—(1.3), по определению седла удовлетворяет системе неравенств
Г *1 «
р(ж*) + (ф(г), ^(г)ж*(г) + £(£)«*(г) — —ж *(£))«: <
„/*0 «г
/■ *1 «
< ^(ж1) + (ф * (г), ^(£)ж * (г) + В (г)и * (г) — —ж * (г))«г <
Л0 «г
/• *1 «
< ^(ж1) + (ф * (г), ^(г)ж(г) + В(г)и(г) — — ж(г))^г (2.3)
Jt0 «г
для всех ф(г) € (?П[г0, г1], ж(г) € Сп[г0, г1], и(г) € и.
Левое неравенство этой системы представляет собой задачу максимизации линейной функции по переменной ф(г) на всем пространстве С^П[^о, г 1] определения этой функции. Из этого неравенства имеем
С *1 «
(ф(г) — ф * (г),^(г)ж * (г) + В (г)и * (г) — — ж * (г))«г < 0, ф(г) € (7П[г0,Т1].
./*0 «г
_ (2.4)
В силу произвольности элемента ф(г) € (7П[г0,Т1], последнее неравенство выполняется тогда и только тогда, когда
—ж * (г) = ^(г)ж * (г) + В(г)и * (г), ж * (г0) = ж0- (2.5)
Чтобы убедиться в этом, достаточно положить в (2.4) сначала ф(г) = 0, а затем ф(г) = 2ф * (г). Сравнивая полученное уравнение с (1.1), видим, что функции ж * (г) и и* (г) являются решением уравнения (1.1).
Правое неравенство системы (2.3) представляет собой задачу минимизации по переменным ж(г),и(г). Покажем, что пара ж * (г), и * (г) является решением (1.1)—(1.3). С учетом (2.5) из правого неравенства системы (2.3) имеем
г *1 «
р(ж£) < ^(ж1) + (ф * (г), ^(г)ж(г) + В (г)и(г) — —ж(г))^г (2.6)
Л0 «г
для всех ж(г) € Сп[г0,г1] и и(г) € и. Рассмотрим неравенство (2.6) при условии
г *1 «
(ф * (г), ^(г)ж(г) + В(г)и(г) — — ж(г))^г = 0.
Л0 «г
Так как пара (ж * (г), и * (г)) согласно (2.5) подчинена этому условию, то получим задачу оптимизации
^(ж1) < ^(ж1) при одном скалярном ограничение типа равенства
Г *1 «
(ф * (г), ^(г)ж(г) + В(г)и(г) — — ж(г))^г = 0.
./*0 «г
Отсюда в силу (2.5), имеем задачу
^(ж1) < ^(ж1) (2.7)
«^ж(г) = ^(г)ж(г) + В (г)и(г), ж(г0) = ж0. (2.8)
для всех ж(г) € Сга[г0,г1],и(г) € и. Другими словами, седловая точка
функции Лагранжа (2.2) является решением исходной задачи (1.1)—
(1.3). В конечномерном случае обратное утверждение известно как теорема Куна—Таккера [5]. Таким образом, если функция Лагранжа (2.2) имеет седловую точку, то ее компоненты являются прямыми и двойственными решениями исходной задачи выпуклого программирования.
3. Метод модифицированной функции Лагранжа
Функции Лагранжа (2.2), как и любая функция двух переменных, всегда порождает функцию минимумов
£^(ф(г)) = шш{£(ф(г),ж(г),и(г))|(ж(г),и(г)) € (7га[г0,г1] х и}.
В регулярном конечномерном случае эта функция вогнутая, ее максимум совпадает с седловым значением функции Лагранжа и достигается в точке ф = ф и которая является двойственным решением исходной задачи выпуклого программирования. Эта функция известна как двойственная функция [5]. Используя свойства двойственной функции, казалось бы, можно использовать градиентный подход для вычисления точки максимума функции, и тем самым находить решение исходной задачи. Однако эта функция в общем (конечномерном) случае не дифференцируемая ( а только субдифференцируемая), и уж тем более ее градиент не удовлетворяет условию Липшица, как того требуют условия сходимости градиентного метода.
Однако функция Лагранжа в силу своей линейности по двойственной переменной допускает различные модификации [8],[6], в частности квадратичную регуляризацию по своим ограничениям. Двойственная функция в этом случае неожиданно приобретает хорошие свойства гладкости, она становится дифференцируемой, а градиент ее удовлетворяет условию Липшица. Этого достаточно для построения градиентных методов максимизации двойственной функции. Вокруг этого факта развита целая теория вычисления седловых точек выпукло-вогнутых функций, а в более общем контексте теория методов вычисления неподвижных точек задач равновесного программирования [1],[2].
Все сказанное относится к конечномерной теории. Аналоги этой теории, сформулированные для задач оптимального управления, автору не известны, поэтому в этой статье предпринимается попытка рассмотреть идеи модифицированных функций Лагранжа применительно к задачам оптимального управления, т.е. задачам выпуклого программирования, сформулированным в бесконечномерных функциональных пространствах.
В силу сказанного, введем модифицированную функцию Лагранжа для задачи оптимального управления (1.1)—(1.3). Она имеет вид
1 Г* 1
М (ф(г),ж(г),и(г))) = <^(ж1) + — |ф(г) + &(^(£)ж(£) + В(г)и(г) —
7*0
« 1 /**1
— ^ж(г))|2«г — - у*0 |ф(г)|2«г (3.1)
для всех ж(г) € [г0, г1], ж(г0) = ж0, ф(г) € (7П[г0,Т1], и(г) € и, где
С?П[г0,г1] — сопряженное пространство для линейного подпространства (7га[г0,г1]. Повторив рассуждения (2.2)—(2.8) относительно функции (3.1), можно убедиться, что компоненты седловой точки модифицированной функции Лагранжа также являются прямым и двойственным решением исходной задачи (1.1)—(1.3). Более того, в конечномерной теории множество седловых точек функции (3.1) вложено в множество седловых точек функции (2.2)[6].
В конечномерном случае двойственная функция, порожденная модифицированной функцией Лагранжа
М^(ф(г)) = шш{М(ф(г),ж(г),и(г))|ж(г),и(г) € (7га[г0,г1] х и},
является вогнутой, дифференцируемой, а ее градиент удовлетворяет условию Липшица [5]. Можно предполагать, что в бесконечномерной постановке в регулярном случае двойственная функция будет обладать теми же свойствами. Поэтому здесь мы можем получить два подхода к разработке методов решения задач оптимального управления:
1)первый: искать седловую точку модифицированной функции Лагранжа М(ф(г), ж(г), и(г))),
2)второй: искать максимум двойственной функции М^(ф(£)).
В последнем случае мы имеем обычную задачу оптимизации, для которой двойственная функция является целевой функцией, или функцией Ляпунова. Формально задачу оптимизации можно сформулировать в виде решения системы: найти функцию ф(о) = ф*(£) € С?П[^0,^1] такую, что
1 Г *1 в
и*(о),ж*(£) € А^шш{— |ф*(о) + й(^(£)ж(£) + В(£)и(£) — —— ж(^))|2в^—
2^ *0 во
1 /• *1
— ^ |ф *(0)|2в0 | (ж(0),и(0)) € С”^,^] X и}, ж(^) = ж0, (3.2)
J *0
и
в
ф * (о) = ф * (о) + &(^(0)ж * (о) + В(0)и * (о) — —ж * (о)). (3.3)
Рассмотрим этот случай более детально (первый случай исследовался в работах автора [1],[2] и других http://www.ccas.ru/antipin). Сформулируем градиентный метод для решения задачи (3.2),(3.3) или что тоже самое для максимизации двойственной функции: пусть некоторое приближение фп(о) € (7га[о0,о1] уже известно, тогда решая простую задачу оптимизации
ига+1(о),жга+1(о) €
€ А^шш{М(фп(о), ж(о), и(о)) | (ж(о),и(о)) € Сп[о0,о1] х и}, ж(о0) = ж0,
(3.4)
найдем решение ига+1(о),жга+1 (о) в котором вычислим значение градиента ^(о)жга+1(о)+Б(о)ига+1(о) — жга+1(о) двойственной функции и сделаем градиентный шаг по формуле
в
фга+1(о) = фп(о) + й(^(о)жга+1 (о) + В (о)ига+1(о) — вожп+1(о)). (3.5)
Собственно говоря, этот метод и называют методом модифицированной функции Лагранжа. Он представляет собой редукцию седловой задачи оптимального управления или просто оптимального управления к обычной задачи оптимизации. Однако свойства сходимости этого метода недостаточно хороши для построения вычислительных процессов. Метод обладает свойством монотонного убывания только по двойственным переменным, кроме того, он требует дополнительно ограниченности получаемых последовательностей по прямым переменным.
Поэтому мы рассмотрим вариант этого процесса с регуляризацией модифицированной функции Лагранжа по прямым переменным на каждом шаге процесса, а именно, рассмотрим процесс вида
ига+1(о),жга+1 (о) € А^шш{|жСО — жп(о)|2 + |и(о) — ип(о)|2+
+ЙМ(фп(о),ж(о),и(о)) | (ж(о),и(о)) € (7га[о0,о1 ]}, ж(о0) = ж0,
(3.6)
в
фга+1(о) = фп(о) + й(^(о)жга+1 (о) + В (о)ига+1(о) — ^ж^СО). (3.7)
На каждом шаге этого процесса решается задача квадратичной оптимизации, затем используется найденный минимум для того, чтобы пересчитать следующее приближение. Для выполнения этих операций нам понадобятся вариационные неравенства, которые характеризуют оптимальные решения.
Выпишем приращение модифицированной функции Лагранжа по прямым переменным при фиксированной функции ф(о)
М (ф(о), ж(о) + Дж(о), и(о) + Ди(о)) — М (ф(о), ж(о), и(о)) =
!' *1
= ^(ж1 + Дж1) — <^(ж1) + / (ф(о) + ^(^(о)ж(о) + В (о)и(о) —
^0
в в
——ж(о)), ^(о)Дж(о) + В(о) Ди(о) — — Дж(о))во+
—о во
1 /• *1 в
+й / |ф(о) + k(D(-)ж(-) + В^)^) — — ж(о)) |2во.
2 „/ *0 —о
Отсюда, с учетом формул перехода к сопряженным линейным операторам
(ф,^ж) = (^тф,ж), (ф,Ви) = (Втф,и) (3.8)
и формулы интегрирования по частям на отрезке [о0, о1]
/•*1 в /■ *1 в
(ф(о1), ж(о1)) — (ф(о0), ж(о0)) = (—Ф^ж^))—: + / (ф(-),—ж(-))d-.
7*0 во 7*0 во
(3.9)
выпишем линейную часть приращения
/• *1 в
+ (Ф(о) + k(D(-)ж(-) + В (о)^) —-ж^), ^^Дж^^
Л0 во
ДМ(Дж(о), Ди(о)) = ^(ж1 + Дж1) — ^(ж1) +
40
в
+В(о) Ди(о) — во Дж^))—: = ^(ж1 + Дж1) — ^>(ж1) +
/**1 в
+ (^т(о)(ф(о) + k(D(-)ж(-) + В^и^) ——ж(о))), Дж^))—^
Jt0 —о
/**1 в
+ (Вт(о)(ф(о) + k(D(-)ж(-) + В^)^) — —ж(о))), Ди^))—^
*0 во
Г *1 в в
+ (^(Ф(—) + к(Д—)ж(—) + В(—)и(—) — —ж(о))), Дж(—))в——
7*0 —о в—
вж
—((ф(—1) + к(Д—)ж(—1) + В(—)и(—1) — ■—о(—1)), Дж(—1)) —
вж
— (ф(-0) + к(^(-)ж(-0) + В(-)и(-0) — -о-(-0)), Дж(-0))).
Эта линейная часть приращения представляет собой дифференциал (касательную плоскость в точке ж(—),и(—)) модифицированной функции Лагранжа по прямым переменным). Используя полученное приращение, выпишем вариационное неравенство, которому удовлетворяет минимум задачи (3.6)[4],[9]:
/ 1 (жга+1(—) — жп(—),ж(—) — жп+1(-))—- + к(У^(жп+1,ж1 — ж?+1)
*0
+к Г1 (£т(—)(фп(—) + к(^(-)жга+1(-) + В(—)ига+1(—) —
*0
в
— в-жга+1(-))),ж(-) — жп+1(-))—-+
/**1 в
+4 (в (фп(-) + к(ОДжга+1(-) + В(—)ига+1(—) — 7*0 в-
в
— в-жП+1(-))),ж(-) — жП+1(-))в-—
—к((фп(-1) + к(^(-)жга+1(-1) + В(—)ига+1 (-1) —
— 1
■(-1)),ж(-1) — жга+1(-1)) —
в—
— (фп(—0) + к(ОДжга+1(-0) + В(-)ига+1(-0) —
-(-0)),ж(-0) — жга+1(-0))) +
в—
*1
+ / 1 (ига+1(—) — ип(—),и(—) — ига+1 (—))в—+
*0
+к Г(Вт(—)(фп(—) + к(£(-)жга+1(-) + В(-)1 (-) —
*0
в
— в-жга+1(-))),и(-) — ига+1(—))в— > 0 (3.10)
для всех ж(-) € (7га[-0,-1] и и(-) € и.
Выпишем аналог этого неравенства, которое характеризует (необходимо и достаточно) решение исходной задачи (3.2),(3.3)
(У^(ж * (—1)), ж (—1) — ж * (-1))+
36 А. С. АНТИПИН
С*1 , ъТ / .4 / , * / .4 . * / .ч . „/.ч */.ч —
*1 в
+ (^т (—)(ф * (—) + к(^(—)ж * (—) + В(—)и * (—) — —ж * (—))) +
*0 во
(^Т *!' * С 4-\ I Ь.(ТЛ(-1Л™ * /'-А I О /'-А л . * /'-А ™ * /
*0
^/(*/.\ т/^/.Х */.\ -,-./.4 */.\ —
+—^ (ф * (—) + к(^(—)ж * (—) + В (—)и * (—) — —-ж * (—))), ж(—) — ж * (о))——— во во
вж
—((ф * (—1) + Л(Я(—)ж * (—1) + В (—)и * (—1) — — (—1)),ж(—1) — ж * (—1)) —
вж
— (ф * (—0) + к(^(—)ж * (—0) + В(—)и * (—0) — - (—0)), ж(—0) — ж * (—0))) +
*1 в
в
*1 в
(ВТ (—)(ф * (—) + к(^(—)ж * (—) + В(—)и * (—) —-ж * (—))), и(—) — и * (—))—— > 0 *0 в—
(3.11)
для всех ж(—) € Сп[—0,— 1] и и(—) € и. Рассмотрим полученное неравенство на линейном подпространстве с краевыми условиями ж(—0) = ж *(—0),ж(—1) = ж *(—1), и при и(—) = и *(—), тогда неравенство с учетом
(3.3) примет вид
*1 в
(^т(—)ф *(—) + —ф *(—), ж(—) — ж *(—))—— > 0 *0 в—
для всех ж(—) из линейного подпространства с краевыми условиями. Это неравенство есть утверждение о том, что линейная функция на линейном пространстве принимает конечный минимум в конечной точке ж(—) = ж * (—). Последнее возможно если
в
Бт (—)ф * (—) + -ф * (—) = 0.
Теперь рассмотрим неравенство (3.11) при условиях ж(—0) = ж*(—0), ж(—1) = ж * (—1) и при ж(—) = ж * (—), тогда получим
Г *1
/ (Вт(—)ф *(—),и(—) — и *(—))—— > 0 (3.12)
*0
для всех и(—) € и. Аналогично рассуждая, при ж(—0) = ж *(—0),ж(—) = ж *(—), и при и(—) = и*(—), из (3.11) получим
(У^(ж * (—1) — ф * (—1), ж(—1) — ж * (—1))
для всех ж1(—) € Х1.
Собирая вместе полученные соотношения и добавляя сюда двойственное уравнение (3.3) окончательно получим системы
в
^(—)ж * (—) + В(—)и * (—) — —-ж * (—), ж(—0) = ж0, в
от(—)ф *(—) + —-ф *(—) = °, у^(ж *(—1)) = ф *(—1)
Г *1
/ (Вт(—)ф *(—),и(—) — и *(—))—— > 0, и(—) € и. (3.13)
*0
Очевидно, мы получили систему к решению которой сводится к решение исходной задачи (3.2),(3.3). Задачи (3.2),(3.3) и (3.13) эквивалентны.
Покажем, что процесс (3.6),(3.7) сходится монотонно по норме пространства относительно управлений, траекторий и сопряженных переменных к одному из решений исходной задачи.
Теорема 1. Если множество решений задачи (1.1)-(1.3) не пусто и принадлежит подпространству С”[—0,— 1] С £”[—0,— 1], то последовательность ||ж”(—) — ж * (—)У^п + 1|и”(—) — и* (—)У^2 + ||ф”(—) — ф * (—)У^п, порожденная методом (3.6), (3.7) при любом значении параметра к > 0 убывает монотонно по норме пространства. При этом любая слабо сходящаяся подпоследовательность ж”-4(—),и”(—),ф”(—) слабо сходится к оптимальному решению ж * (—), и * (—),ф * (—), а подпоследовательность траекторий ж”4 (—) сходится к оптимальной траектории ж *(—) в равномерной норме С”[—0,—1]. Если же последовательность ж”(—),и”(—),ф”(—) имеет при п ^ +то сильный предел, то процесс (ж”(—), и”(—), ф”(—)) сходится к решению задачи (ж *(—), и *(—),ф*(—)) монотонно по норме пространства Щ х и х Ь%.
Доказательство. Положим ж(—) = ж *(—),и(—) = и *(—),ф(—) = ф *(—) в вариационном неравенстве (3.10), тогда
Г (ж”+1 (—) — ж”(—),ж * (—) — ж”+1(—))—— + к(У^(ж”+1 ,ж1 — ж”+1)+
*0
+к Г1 (£Т(—)(ф”(—) + к(Я(—)ж”+1(—) + В(—)и”+1(—) —
*0
в
— — ж”+1(—))), ж *(—) — ж”+1(—))——+
*1 в
+к / (— (ф”(—) + к(Я(—)ж”+1(—) + В(—)и”+1(—) —
7*0 ——
в
— — ж”+1(—))), ж *(—) — ж”+1(—))———
—к((ф”(—1) + к(Я(—)ж”+1(—1) + В(—)и”+1 (—1) —
-т”+1
----йТ (г1))’*'* (—1) — ж"+1(—1))—
-(ф”(—0) + к(В(—)ж“+1(-)) + В(—)и”+1((0)—
-т”+1
----—Г (—0)),ж * (—0) — ж”+1(—0))) +
Г *1
*0
+ ! 1 (и”+1(—) — и”(—),и * (—) — и”+1(—))——+
*0
+к Г1 (Вт(—)(ф”(—) + к(^(—)ж”+1(—) + В(—)и”+1(—) —
*0
в
— —-ж”+1(—))),и *(—) — и”+1(—))—— > 0, (3.14)
Используя формулы перехода (3.8),(3.9) к сопряженным операторам, преобразуем (3.14)
Г (ж”+1 (—) — ж”(—),ж * (—) — ж”+1(—))—— + к(У^(ж”+1 ,ж1 — ж”+1)+
*0
+к Г1 (ф”(—) + к(^(—)ж”+1(—) + В(—)и”+1 (—) —
*0
в
— —-ж”+1(—)), ^(—)(ж *(—) — ж”+1(—)))———
—к / 1 (ф”(—) + к(Я(—)ж”+1(—) + В(—)и”+1 (—)—
*0
вв —Д* (г))'Л (ж* (—) — ж"+1))-—
—*((ф”(—1) + к(Й(()ж"+1(( 1) + В(()и"+1 ((1)—
—ж”+1
----ёГ (—1))-ж* (-1) — ж"+1(* 1))—
—(ф"((0) + к(В(г)ж"+1(—0) + В(—)и”+1(—0)—
—ж”+1
-(—0)),ж * (—0) — ж”+1(—0))) +
——
+к((ф”(—1) + к(^(—)ж”+1(—1) + В(—)и”+1 (—1) —
—ж”+1
-(—1))),ж * (—1) — ж”+1(—1)) —
——
— (ф”(—0) + к(Я(—)ж”+1(—0) + В(—)и”+1(—0) —
—ж”+1
-(—0)),ж * (—0) — ж”+1(—0))) +
——
*1
+ / 1 (и”+1(—) — и”(—),и * (—) — и”+1(—))——+
*0
+к Г1 (ф”(—) + к(^(—)ж”+1(—) + В(—)и”+1 (—) —
*0
в
— —-ж”+1(—)), В(и*(—) — и”+1(—)))—— > 0 (3.15)
Используя (3.7), имеем
Г1 (ж”+1 (—) — ж”(—),ж * (—) — ж”+1(—))в— + к(У^(ж”+1 ,ж1 — ж”+1)+
*0 1 1
+к / 1 (ф”+1(—),£(—)(ж * (—) — ж”+1(—))в——
*0
*1 в
—к (ф”+1(—), — (ж * (—) — ж”+1(—)))——+
*0 в—
+ / *1 (и”+1(—) — и”(—),и * (—) — и”+1(—))в—+
*0
+к Г1 (ф”+1(—),В(и*(—) — и”+1(—)))—— > 0. (3.16)
*0
*0
Отсюда, с учетом выпуклости ^>(ж1) получим Г *1
/ 1 (ж”+1(—) — ж”(—),ж * (—) — ж”+1(—))в— + к(р(ж1) — ^(ж”+1))+
*0
+к Г1 (ф”+1(—),£(—)(ж*(—) — ж”+1(—)) + В(и*(—) — и”+1(—)) —
*0
-(ж *(—) — ж”+1(—)))—— + Г1 (и”+1(—) — и”(—),и *(—) — и”+1(—))в— > 0.
*0
(3.17)
Из правого неравенства системы (2.3) при ж(—) = ж”+1(—),и(—) = и”+1 (—) имеем
к(^(ж”+1) — ^(ж1)) +
*1 в
+к / (ф *(—), (Я(—)ж”+1(—) + В(—)и”+1 (—) — ■—ж”+1(—)) —
*0 в—
в
—(^(—)ж * (—) + В(—)и* (—) — —-ж * (—)))—— > 0.
С учетом (3.7) сложим два последних неравенства
[ (ж”+1(—) — ж”(—),ж *(—) — ж”+1 (—))——+
*0
+ / *1 (и”+1(—) — и”(—),и * (—) — и”+1(—))в—+
*0
+ /*1 (ф *(—) — ф”+1(—),ф”+1(—) — ф”(—))—— > 0. (3.18)
*0
(ф
*0
Используя тождество
|У1 — У2|2 = 1У1 — уз|2 + 2(У1 — уз,Уз — У2) + |Уз — У212
разложим скалярные произведения в сумму квадратов
[ |ж”+1(—) — ж * (—) |2—— + [ |ж”+1(—) — ж” (—) |2 —— ■+
*0 *0
+ Г |и”+1(—) — и*(—)|2в— + Л |и”+1(—) — и”(—)|2в—+
*0 *0
+ Г |ф”+1(—)—ф * (—)|2—— + Г |ф”+1(—)—ф”(—)|2—— <
*0 *0
*0 *0
< [ |ж”(—) — ж *(—)|2—— + [ |и”(—) — и*(—)|2—— + [ |ф”(—) — ф *(—)|2——.
*0 *0 *0
(3.19)
Если в левой части полученного неравенства отбросить второй, четвертый и шестой слагаемые, то получим свойство монотонного убывания последовательности, геометрически это означает, что шар (п + 1)-итерации вложен в шар п-итерации.
Просуммируем полученное неравенство от п = 0 до п = N:
с *1 ^ /• *1
жм+1(—) — ж *(—)|2в— + V / |ж”+1(—) — ж”(—)|2—
[ |жм+1(—) — ж *(—)|2—— + ^ [ |ж”+1(—) — ж”(—)|2 —— ■+
Л° га=0 *0
/**1 ^ /**1
+ |им+1(—) — и*(—)|2—— +^ / |и”+1(—) — и”(—)|2в—+
*0 ”=0 *0
/"*1 ^ Л*1
+ |фм+1 (—) — ф *(—)|2—— + X) / |ф”+1(—) — ф”(—)|2—— <
*0 ”=0 *0
< [ |ж0(—) — ж *(—)|2в— + [ |и0(—) — и*(—)|2—— + [ |ф0(—) — ф *(—)|2 ——.
*0 *0 *0
Из полученного неравенства следует ограниченность последовательности относительно траекторий, управлений и сопряженных функций
Г*1 ж^+1(—) — ж * (—)|2 —— + />*1 |иЛ+1(—) — и* (—)|2
[ 1 |жм+1(—) — ж * (—)|2 в— + [ 1 |им+1(—) — и* (—)|2в—+
*0 *0
+ / |фМ+1(—) — ф * (—)|2—— < / |ж0(—) — ж * (—) |2 —— ■+
*0 *0
+ [ |и0(—) — и* (—) |2 в— + [ |ф0(—) — ф * (—) |2——
*0 *0
*0 *0
и сходимость рядов
те „*1 /-*1
]Г / |ж”+1(—) — ж”(—)|2в— < те, ^ / |и”+1(—) — и”(—)|2в— < те
”=0 *0 ”=0 *0
* г*1
У2 (1 |фга+1 (і) - фп(^)|2^^ < те.
п=07 *0
а также стремление к нулю величин
Г*1 ■1 ,2, Г*1
12Л+ V п I |и‘
[ 1 |жп+1(і) - жп(і)|2^і ^ 0, / 1 К+1 (і) - ип(і)|2^і ^ 0 , -'*0 •'*0
Л |фга+1(і) - Фп(і)|2^і ^ 0,
Jto
(3.20)
когда п ^ те.
Поскольку последовательность ж”(—), и”(—), ф”(—) ограничена, то она слабо компактна, т.е. существует элемент ж (—) € С”[—0,—1 ],и (—) € и, ф (—) € С”[—0, —1] такой, что подпоследовательность ж”4(—),и”(—),ф”(—) сходится слабо к ж (—),и (—),ф (—), т.е. ж”4(—) ^ и (—) и”4(—) ^ и (—), ф” (—) ^ ф (—). Покажем, что слабый предел этой последовательности является решением задачи (1.1)—(1.3).
Рассмотрим процесс (3.6),(3.7) на элементах подпоследовательности ж”4(—),и”(—),ф”(—), которая сходится к своему слабому пределу ж (—), и (—),ф (—). Прежде всего отметим, что при п ^ те разность ф”+1(—) — ф”(—) из (3.7) всегда стремится к нулю в силу (3.20). Поэтому эта разность (ф”+1(—) — ф”(—),ф(—)) также будет стремится к нулю при любом ф € С”[—0,—1].
Далее, представим (3.7) как
Г (£(—)ж”‘+1(—) + В(—)и”4+1(—) —
*0
в
—--ж”4+1(—) + (1/к)ф” (—) — ф”4+1(—), ф(—))в— = 0.
где ф(—) - произвольный элемент из С”[—0,— 1]. Используя формулы перехода к сопряженным операторам (3.8),(3.9) перепишем выше приведенное равенство
[ (ж”4+1(—),^т(—)ф(—))—— + [ (и”4+1(—),Вт(—)ф(—))——+
*0 *0
/**1 _ н
+ / <хПі+1(і),-^(іМ -(жПі(І1 ),Ф(І1»+ Л0 Ні
+(і/л) іТ(фгаі(і) - ФПі+1(і),Ф(і))Ні = 0,
0
0
Перейдем к слабому пределу
[ (ж"(і),^т(і)Ф(і))Ні + [ (и"(і),Вт(і)Ф(і))Ні+ /*0 -'*0
С*1 , й I
+ / (ж (—), —ф(—))^— — (ж (—1),ф(—1)) = 0.
Ло «—
Отсюда
/■ *1 1 /■ *1 | /"*1 Й '
(^(—)ж (—), ф(—))Й— + (В(—)и (—), ф(—))Й— — (—ж (—), ф(—))й— = 0
Jt0 Jt0 Jt0 Й—
Поскольку ф(—) € С”[—0,— 1] - произвольный элемент пространства, то имеем
I I Й I
^(—)ж (—) + В(—)и (—) — —ж (—) = 0,
т.е. слабая предельная точка (ж/(—), и'(—)) является решением дифференциального уравнения (1.1). Представим (3.6) в виде
|ж”+1(—) — ж”(—)|2 + |и”+1(—) — и”(—)|2 + км(ф”(—),ж”+1(—),и”+1(—)) <
< |ж(—) — ж”(—)|2 + |и(—) — и”(—)|2 + кМ(ф”(—),ж(—),и(—))),
переходя к пределу с учетом структуры функции М(ф”(—), ж(—), и(—))) и выше приведенных рассуждений получим
^>(ж”) ^ ^(ж 1), п ^ те
т.е. ж1 решение (3.6),(3.7)
Выпишем полученные предельные уравнения и вариационное неравенство
Йж (—) = ^(—)ж' (—) + В(—)и' (—), ж1 (0) = 0, й—
и = {и(—) € £2[—0,—1]| и(—) € [и-,и+]}, —0 < — < —1,
ж1 € А^тт^^) | ж1 = ж(—1) € X(—1)},
Полученные соотношения совпадают с (1.1)—(1.3), поэтому ж'(—) = = ж *(—) € С”[—0, — 1], и'(—) = и *(—) € и, ф'(—) = ф *(—) € С”[—0,— 1], т.е.
любая слабо предельная точка последовательности является оптимальным решением исходной задачи. В ([5], с.518) показано, что если последовательность управлений и”(—) € и слабо сходится к оптимальному решению, то последовательность соответствующих траекторий ж”(—) € С”[—0, — 1] сходится к оптимальной траектории в равномерной норме. Тем более, эта последовательность будет сходиться к решению по норме пространства £”[—0,— 1]. Учитывая этот факт, можно утверждать следующее: процесс (3.6),(3.7) сходится к решению задачи в смысле подпоследовательностей: по управлениям - в слабой топологии, по траекториям - в равномерной норме, и, тем самым, по норме пространства £”[—0,— 1]. Другими словами, любая слабо предельная точка процесса
(3.6),(3.7) является решением исходной задачи.
Для многих регулярных задач в зависимости от структуры множества управлений последовательность управлений может содержать сильно сходящуюся подпоследовательность. Например, ограниченное, замкнутое в С[0,1] множество равностепенно непрерывных управлений всегда компактно и не только в С[0,1]. К недостаткам такого множества управлений относится требования непрерывности функций, поскольку в приложениях часто требуется, чтобы управления имели релейный характер. Ситуацию можно улучшить, если множество управлений с равностепенной непрерывностью заменить на множество функций с ограниченным изменением ([5], с.634), ([7],с.351). При некоторых условиях можно доказать компактность этого множества. При этом множество содержит кусочно непрерывные управления.
Таким образом, если последовательность фп(—), жп(—), ип(—), порожденная методом (3.6),(3.7), имеет сильно предельные точки (предельные в смысле нормы ДП[—0,— 1]), то с учетом условия монотонности убывания нормы (3.19) нетрудно доказать единственность предельной точки, т.е. сильную сходимость последовательности в целом: по управлениям, траекториям и двойственным переменным (сопряженным функциям)
[ |жп(—) — ж *(—)12Й— + [ |ип(—) — и *(—)12Й— + [ |фп(—) — ф *(—)|2Й— ^ 0,
*0 *0 *0
при п ^ те. □
Список литературы
1. Антипин А. С. Равновесное программирование: проксимальные методы / А. С. Антипин // Журн. вычисл. математики и мат. физики. - 1997. - Т. 37, № 11. - С. 1327-1339.
2. Антипин А. С. Равновесное программирование: методы градиентного типа / А. С. Антипин // Автоматика и телемеханика. - 1997. - № 8. - С. 1337-1347.
3. Антипин А. С. Экстрапроксимальный метод решения равновесных и игровых задач (со связанными переменными) / А. С. Антипин // Журн. вычисл. математики и мат. физики. - 2005. - Т. 45, № 11. - С. 1974-1995.
4. Васильев О. В. Методы оптимизации в задачах и упражнениях / О. В. Васильев, А. В. Аргучинцев. - М. : ФИЗМАТЛИТ, 1999. - 208 с.
5. Васильев Ф. П. Методы оптимизации / Ф. П. Васильев. - М. : Факториал Пресс, 2002. - 824 с.
6. Гольштейн Е. Г. Модифицированные функции Лагранжа / Е. Г. Гольштейн, Н. В. Третьяков. - М. : Наука, 1989. - 400 с.
7. Колмогоров А. Н. Элементы теории функций и функционального анализа / А. Н. Колмогоров, С. В. Фомин. - М. : ФИЗМАТЛИТ, 2009. - 572 с.
8. Поляк Б. Т. Введение в оптимизацию / Б. Т. Поляк. - М. : Наука, 1983. - 384 с.
9. Срочко В. А. Итерационные методы решения задач оптимального управления / В. А. Срочко. - М. : ФИЗМАТЛИТ, 2000. - 160 с.
A. S. Antipin
The method of modified Lagrange function for optimal control problem
Abstract. The method for optimal control problem is considered. This method is known as the method of modified Lagrange function. The convergence of this method is proved.
Keywords: optimal control, Lagrange function, modified Lagrange function, method, convergence
Антипин Анатолий Сергеевич, доктор физико-математических наук, профессор, главный научный сотрудник, Вычислительный центр РАН, 119333,
Москва, ул. Вавилова 40, ВЦ РАН, тел.: (499) 135-81-61,
(antipin@ccas.ru)
Anatoly Antipin, Doctor, Professor, Principal Researcher, Computing Center of RAS, 19333, Russia, Moscow, Vavilov str., 40,
Phone: (499) 135-81-61, (antipin@ccas.ru)