Серия «Математика»
2010. Т. 3, № 3. С. 2-20
Онлайн-доступ к журналу: http://isu.ru/izvestia
УДК 517.97
О методах экстраградиентного типа
для решения задачи оптимального управления
с линейными ограничениями *
А. С. Антипин
Вычислительный центр Российской академии наук
Е. В. Хорошилова
Московский государственный университет
Аннотация. В статье рассмотрен метод для решения задачи оптимального управления со свободным правым концом и линейной дифференциальной системой. Предлагается итеративный процесс экстраградиентного типа, сформулированный в функциональном подпространстве кусочно-непрерывных управлений пространства Ь2. Доказывается его сходимость.
Ключевые слова: оптимальное управление; функция Лагранжа; экстраградиент-ный метод; сходимость.
Рассматривается задача оптимального управления на фиксированном интервале времени [0, Т] со свободным правым концом и линейной дифференциальной системой. На множестве достижимости, порожденном свободным правым концом х(Т) управляемой траектории х[и,(Ь)\ = х(Ь), рассматривается квадратичный функционал с симметричной положительно полуопределенной матрицей А и вектором Ь
Кроме того, траектория х(Ь) и управление п(Ь) как элементы функционального пространства подчинены системе линейных ограничений,
* Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта РФФИ 09-01-00388) и Программы государственной поддержки ведущих научных школ НШ-4096.2010.1
1. Постановка задачи
(1.1)
которые задаются системой линейных дифференциальных уравнений вида
И
~^х(^) = В(Ь)х(Ь) + В(Ь)и(Ь), х(0) = 0, (1.2)
где В(Ь),В(Ь) — непрерывные функциональные матрицы размерности их и и их г соответственно. В ([9], с. 526) показано, что эти ограничения задают линейный оператор, который каждому кусочно-непрерывному управлению и(Ь) ставит в соответствие единственную траекторию х(Ь), принимающую на правом конце единственное значение х(Т). Совокупность всех управлений подчиним двусторонним ограничениям в каждый момент времени
щ(Ь) € [и~ ,и+}, Ь € [Ьо,Ь\], г = 1, ..,г. (1.3)
Ставится задача минимизации квадратичного функционала (1.1) в условиях (1.2),(1.3).
Поскольку правые части дифференциальных уравнений могут иметь конечные скачки разрывов, то понятие решения уравнений требует уточнения. Рассмотрим в пространстве Ь'П[0,Т] линейное подпространство Сп[0,Т] непрерывных функций-траекторий х(Ь) с кусочно-непрерывными производными, удовлетворяющих начальному условию х(0) = 0, а также линейное подпространство СО [0, Т] кусочно-непрерывных функций-управлений и(Ь). Множество и С СО[0,Т].
Будем называть решением (траекторией) системы (1.2), соответствующим начальному условию х(0) = 0 и управлению и(Ь) € и, непрерывную функцию х(Ь), удовлетворяющую тождественно условию
х(Ь) = х(0) + [ (В(т)х(т) + В(т)и(т))Ит, 0 < Ь < Т. (1.4) ■10
Интеграл здесь понимается в смысле Римана, и этого достаточно, чтобы выполнялась формула Ньютона-Лейбница.
Например, функция х(Ь) = |Ь — 21 не имеет производную в точке Ь = 2 и поэтому не является решением уравнения (1.2) в классическом понимании. Однако такая функция удовлетворяет условию (1.4) и, следовательно, мы будем рассматривать ее как обобщенное решение уравнения (1.2). При этом производная функция ^х(Ь) в точке Ь = ^ будет терпеть разрыв.
В дальнейшем предполагается, что траектория х*(Ь), являющаяся решением задачи (1.1)—(1.3), принадлежит линейному (отметим - не замкнутому) подпространству Сп[0,Т] С ЬП[0,Т].
Правые концы х(Т) траекторий х(Ь) описывают в пространстве Кп множество достижимости, которое будем обозначать как X(Т). Множество достижимости есть конечномерный образ множества управлений и при отображении последнего линейным оператором, определяемым системой (1.2).
Подчеркнем еще раз, что конечные значения х(Т) траекторий определяются не только управлениями и(Ь) в момент Т, но и поведением этих управлений на всем промежутке [0, Т] (посредством системы
(1.2)). Итак, в зависимости от выбора управлений и(Ь) из и вектор х(Т) принимает те или иные значения на множестве X(Т). Таким образом, смысл задачи (1.1)-(1.3) сводится к вычислению оптимального управления и*(Ь), которому отвечает терминальное значение х*(Т) на множестве достижимости, минимизирующее целевую функцию (1.1). Для вычисления оптимального решения задачи будем использовать экс-траградиентные и экстрапроксимальные подходы, развитые в теории равновесного программирования [3, 4].
Задача (1.1)—(1.3) представляет собой задачу квадратичного программирования, сформулированную в бесконечномерном функциональном пространстве на ограниченном множестве управлений. В ([9], с. 511) показано, что такая задача всегда имеет решение и сводится к вычислению седловой точки функции Лагранжа
Ь(ф(Ь),х(Ь),и(Ь)) =
1 Гт —
= -(Ах(Т),х(Т)) — (Ь, х(Т)) + (Ф(Ь), 0(Ь)х(Ь) + В(Ь)и(Ь) — —х(Ь))М,
2 7о —Ь
_ (1.5)
порожденной этой задачей и определенной для всех х(Ь) € Сп[0,Т], ф(Ь) € СП[0,Т], и(Ь) € и, где СП[0,Т] — сопряженное пространство для линейного подпространства Сп[0, Т]. Седловая точка (ф*(Ь), х* (Ь), и* (Ь)) функции Лагранжа, образованная прямым (х*(Ь), и*(Ь)) и двойственным ф*(Ь) решениями задачи (1.1)—(1.3), по определению седла удовлетворяет системе неравенств
- (Ах*(Т ),х*(Т )) — (Ь,х*(Т)) + г т —
+ (ф(Ь), Б(Ь)х*(Ь) + В(Ь)и*(Ь)--х*(Ь))ИЬ <
,)о -Ь
< -(Ах*(Т),х*(Т)) — (Ь,х*(Т)) +
/•т —
+ (ф*(Ь), Б(Ь)х*(Ь) + В(Ь)и*(Ь) — —х*(Ь))-Ь <
,)о —Ь
1 Г т —
< -(Ах(Т),х(Т)) — (Ь,х(Т)) + (ф*(Ь),0(Ь)х(Ь) + В(Ь)и(Ь) — —х(Ь))М
2 Jо —Ь
(1.6)
для всех ф(Ь) € С*п[0,Т],х(Ь) € Сп[0,Т],и(Ь) € и.
Левое неравенство этой системы представляет собой задачу максимизации линейной функции по переменной ф(Ь) на всем пространстве
С'п[0,Т] определения этой функции. Из этого неравенства имеем
с т —
(ф(Ь) — ф*(Ь),Б(Ь)х*(Ь) + В(Ь)и*(Ь) — —х*(Ь))М < 0, ф(Ь) € Сп[0,Т]. ./о —Ь
_ (1.7)
В силу произвольности элемента ф(Ь) € Сп[0,Т], последнее неравенство выполняется тогда и только тогда, когда
—
—х*(Ь) = Б(Ь)х*(Ь) + В(Ь)и*(Ь), х*(0) = 0. (1.8)
Чтобы убедиться в этом, достаточно положить в (1.7) сначала ф(Ь) = 0, а затем ф(Ь) = 2ф*(Ь). Сравнивая полученное уравнение с (1.2), видим, что функции х*(Ь) и и*(Ь) являются решением уравнения (1.2).
Правое неравенство системы (1.6) представляет собой задачу минимизации по переменным х(Ь),и(Ь). Покажем, что набор х*(Ь),и*(Ь) доставляет минимум целевой функции. С учетом (1.8) из правого неравенства системы (1.6) имеем
- (Ах * (Т ),х * (Т )) — (Ь,х * (Т ))<
1 Г т —
< -(Ах(Т),х(Т)) — (Ь,х(Т)) + (ф*(Ь),0(Ь)х(Ь) + В(Ь)и(Ь) — —х(Ь))М
2 Jо —ь
(1.9)
для всех х(Ь) € Сп[0,Т] и и(Ь) € и. Рассмотрим полученное неравенство (1.9) при условии
Г т —
(ф*(Ь), Б(Ь)х(Ь) + В(Ь)и(Ь) — —х(Ь))—Ь = 0.
,)о —Ь
Так как точка (х*(Ь),и*(Ь)) согласно (1.8) подчинена этому условию, то из (1.9) получим
- (Ах *(Т),х*(Т)) — (Ь,х*(Т)) < -(Ах(Т),х(Т)) — (Ь,х(Т)) (1.10)
для всех х(Ь) € Сп[0,Т],и(Ь) € и, удовлетворяющих ограничению
—
—х(Ь) = Б(Ь)х(Ь) + В (Ь)и(Ь), х(0) = 0. (1.11)
Другими словами, седловая точка функции Лагранжа (1.5) является решением исходной задачи (1.1)—(1.3). Можно доказать, что в условиях регулярности исходной задачи верно и обратное утверждение.
Далее, перепишем правое неравенство системы (1.6), используя преобразование перехода к сопряженному оператору вида
(ф(Ь),0(Ь)х(Ь)) = (Бт(Ь)ф(Ь),х(Ь)), (ф(Ь),В(Ь)и(Ь)) = (Вт(Ь)ф(Ь),и(Ь))
и тождество дифференцирования произведения функций по частям — — —
—(ф(Ь),х(Ь)) = (—ф(Ь),х(Ь)) + (ф(Ь),—х(Ь)).
Интегрируя тождество на отрезке [0, Т], получим
/•т — гт —
(ф(Т),х(Т)) — (ф(0),х(0)) = Уо (-ф(Ь),х(Ь))—Ь + Уо (ф(Ь),~х(Ь))М.
о о (1.12) Используя это тождество, с учетом х(0) = 0 из правого неравенства
(1.6) имеем
- ^
- (Ах* (Т ),х * (Т)) — (Ь, х * (Т)) + (ф* (Ь), Б(Ь )х * (Ь) + В(Ь)и* (Ь))М+
2о
^ —
+ о (|ф*(Ь),х*(Ь))—Ь — (ф*(Т),х*(Т)) <
- ^
< -(Ах(Т),х(Т)) — (Ь,х(Т)) + (ф*(Ь),0(Ь)х(Ь) + В(Ь)и(Ь))—.Ь+
2о
^ —
+ Уо (—ьф*(Ь),х(Ь))М — (ф*(Т),х(Т)),
или
- г т —
- (Ах * (Т),х * (Т)) — (Ь,х * (Т)) + уо (Бт (Ь)ф * (Ь) + -ф * (Ь),х * (Ь))—Ь+
+ [т(Вт(Ь)ф*(Ь),и*(Ь))—Ь —(ф*(Т),х*(Т)) < о
- г т —
< -(Ах(Т),х(Т)) — (Ь,х(Т)) + Уо (От(Ь)ф*(Ь) + —ф*(Ь),х(Ь))М+
+ [ (Вт(Ь)ф*(Ь),и(Ь))—Ь — (ф*(Т),х(Т)) (1.13)
о
для всех х(Ь) € Сп[0,Т],и(Ь) € и.
Из (1.13) следует, что точка с координатами (х ( ), и ( )) является точкой минимума квадратичного функционала, который в силу сепарабельности распадается на два независимых функционала, зависящих только от своих переменных х(Ь) и и(Ь):
- (Ах * (Т ),х * (Т)) — (Ь + ф * (Т),х * (Т)) + с т — + Jо ( —ьф*(Ь) + от(ь)ф*(ь),х*(г))м <
- г т —
< -(Ах(Т),х(Т)) — (Ь+ф*(Т),х(Т))+уо (^ф*(Ь) +°т(Ь)ф*(ь),х(ь))—ь
о (1.14)
для всех х(Ь) € Сп[0, Т] и
[ (Вт(Ь)ф*(Ь),и*(Ь))—Ь < [ (Вт(Ь)ф*(Ь),и(Ь))—Ь (1.15)
оо
для всех и(Ь) € и.
Неравенство (1.14) означает, что квадратичный функционал
/о [х(Ь)] = - (Ах(Т),х(Т)) — (Ь + ф * (Т),х(Т))+
Г т —
+Уо (—1ф*(Ь) + °т(Ь)ф*
определенный на всем подпространстве Сп[0, Т], в точке х*(Ь) € Сп[0, Т] достигает минимума. Как известно, его градиент в этой точке равен нулю, т. е.
—
(Ах * (Т) — Ь — ф * (Т)) + (-ф * (Ь) + Бт (Ь)ф * (Ь)) = 0. (1.16)
Здесь предполагается, что матрица А — симметричная и положительно полуопределенная.
Рассмотрим неравенство (1.14) на подпространстве функций х(Ь) таких, что х(Ь)^=т = х*(Т). На нем неравенство (1.14) принимает вид
(' т — г т —
Jо ( —ьф*(Ь) + от(ь)ф*(ь),х*(ь))м < ^ (—ф*(Ь) + от(ь)ф*(ь),х(ь))м
для всех х(Ь) € Сп[0,Т] с граничным условием на правом конце х(Ь)1г=т = х * (Т). ^
Полученное неравенство возможно при всех х(Ь) € Сп[0,Т], только если градиент линейной функции равен нулю, т. е.
—
жф* (Ь) + Вт (Ь)ф* (Ь) = 0. (1.17)
Тогда из (1.16) имеем
Ах * (Т) — Ь — ф * (Т)=0. (1.18)
Собирая вместе (1.8),(1.15) и (1.17),(1.18), получим систему
—
—х*(Ь) = В(1 )х*(Ь + В(1)и*(Ь), х*(0) = 0, (1.19)
—
—ф * (Ь) + Бт (Ь)ф * (Ь) = 0, ф * (Т) = Ах * (Т) — Ь, (1.20)
[ (Вт(Ь)ф*(Ь),и(Ь) — и*(Ь))М > 0, и(Ь) € и. (1.21)
о
Система (1.19)—(1.21) представляет собой следствие из (1.6).
Пара дифференциальных уравнений (1.19),(1.20) для любого фиксированного управления и(Ь) € и позволяет однозначно вычислить сопряженную функцию ф(Ь) € Сп[0,Т]. Заметим, что эту функцию можно рассматривать как образ некоторого оператора Г[и(Ь)] = ф(Ь), определенного для каждого элемента и(Ь) € и .В этом случае решение системы (1.19)—(1.21) сводится к решению одного вариационного неравенства
[ (Вт (Ь)Г [и * (Ь)],и(Ь) — и * (Ь))—Ь > 0, и(Ь) € и, (1.22)
о
где Г [и * (Ь)] = ф * (Ь). Нетрудно видеть, что это вариационное неравенство представляет собой выражение известного принципа максимума Понтрягина, который для линейных дифференциальных систем принимает форму (1.22) (с точностью до замены операции тш на тах).
2. Допустимый процесс экстраградиентного типа
В предыдущем параграфе исходная задача оптимального управления
(1.1)—(1.3) была сведена к решению седловой системы (1.6), которая была редуцирована к решению системы дифференциальных уравнений и одного вариационного неравенства (1.19)—(1.21). Было отмечено, что полученная система уравнений, в свою очередь, может трактоваться как решение вариационного неравенства (1.22), поскольку дифференциальные уравнения играют вспомогательную роль и используются для вычисления сопряженной функции ф(Ь).
Представим вариационное неравенство (1.21) в эквивалентной форме операторного уравнения с оператором проектирования, тогда система
(1.19)—(1.21) принимает форму
—
—х*(Ь) = В(Ь)х*(Ь + В(1)и*(ЬЬ), х*(0) = 0, (2.1)
—
—ф * (Ь) + Бт (Ь)ф * (Ь) = 0, ф * (Т) = Ах * (Т) — Ь, (2.2)
и* (Ь) = пи (и* (Ь) — аВт (Ь)ф * (Ь)), (2.3)
где пи(в(Ь)) - оператор проектирования вектора
в(Ь) = и * (Ь) — аВт (Ь)ф * (Ь)
на множество и [9], а > 0. Этот вектор, вообще говоря, не принадлежит множеству и, и поэтому возникает необходимость в использовании оператора проектирования. Поскольку множество и интервального типа (1.3), то операция проектирования в(Ь) на множество сводится к «срезке» тех значений компонент этого вектора, которые выходят за пределы промежутков [и-, и+].
Таким образом, если тройка ф*(Ь),х*(Ь),и*(Ь) есть решение системы
(1.19)—(1.21), то эта тройка удовлетворяет системе (2.1)-(2.3). Если же взять произвольное управление и(Ь) = и*(Ь) и решить систему (2.1)—
(2.2), то получим некоторое приближение, которое не будет решением системы (2.1)—(2.3) и, соответственно, системы (1.19)—(1.21).
Однако в этом случае полученное приближение можно рассматривать как шаг итеративного процесса вида
—
—хп(Ь) = Б(Ь)хп(Ь) + В(Ь)ип(Ь), хп(0) = 0, (2.4)
—Ь
—
—Ьфп(Ь) + Бт(Ь)фп(Ь) = 0, фп(Т) = Ахп(Т) — Ь, (2.5)
ип+1(Ь) = пи (ип(Ь) — аВт (Ь)фп (Ь)). (2.6)
Здесь, если ип(Ь) вычислено, то, используя эту итерацию по управлениям, решаем дифференциальное уравнение (2.4) и находим траекторию хп(Ь). Затем вычисляем терминальное значение хп(Т) этой траектории в момент времени Ь = Т. Используя этот вектор как терминальное условие, решаем сопряженную (двойственную) систему уравнений (2.5). С помощью сопряженной траектории фп(Ь) формируем направление движения (градиент Вт(Ь)фп(Ь)) и делаем итеративный шаг (2.6). Получили ип+1(Ь), 0 < Ь < Т. Таким образом, проведение каждой очередной итерации фактически сводится к решению двух систем дифференциальных уравнений (2.4),(2.5).
Процесс (2.4)—(2.6) относится к методам простой итерации и является наиболее простым из известных вычислительных процессов. В случае, если выполняются условия строго сжимающего отображения, такой процесс сходится со скоростью геометрической прогрессии [12]. Однако в нашем случае мы имеем дело с седловой задачей, про которую известно, что методы типа простой итерации не сходятся, вообще говоря, к седловой точке этой задачи [5] (сходятся только их аналоги в оптимизации — методы проекции градиента). Поэтому для решения задачи мы используем экстрапроксимальный (в линейном случае — экстрагра-диентный) подход, развитый в [2, 1]. Другие подходы градиентного типа рассматривались многими авторами, в частности отметим [9],[10]—[11].
Экстраградиентный метод для решения поставленной задачи (2.1)—
(2.3) представляет собой управляемый процесс (2.4)—(2.6), каждая итерация которого распадается на два полушага. Формулы этого итеративного метода имеют вид:
1) прогнозный полушаг
—
^хп(Ь) = П(Ь)хп(Ь) + В(Ь)ип(Ь), хп(0) = 0, (2.7)
—
—1фп(Ь) + От (Ь)фп(Ь) = 0, фп(Т) = Ахп(Т) — Ь, (2.8)
ип(Ь) = пи (ип(Ь) — аВт (Ь)фп(Ь)); (2.9)
2) основной полушаг
—
—хп(Ь) = В(Ь)хп(Ь) + В(Ь)ип(Ь), хп(0) = 0, (2.10)
—Ь
—
—Ьфп(Ь) + Бт(Ь)фп(Ь) = 0, фп(Т) = Ахп(Т) — Ь, (2.11)
ип+1(Ь) = пи (ип(Ь) — аВт (Ь)фп (Ь)). (2.12)
Здесь на каждом полушаге решается два дифференциальных уравнения и осуществляется итеративный шаг по управлениям. Отметим, что в этом процессе итерации по прямым переменным хп(Ь),ип(Ь) при всех
п всегда принадлежат допустимым множествам, т. е. удовлетворяют ограничениям (1.2)—(1.3).
Из формул этого процесса видно, что дифференциальные уравнения
(2.7),(2.8) и (2.10),(2.11) используются только для вычисления сопряженных функций фп(Ь) и фп(Ь), поэтому процесс можно записать в более компактном виде
ип(Ь ) = пи (ип(Ь ) — аВт (Ь )фп(Ь)), (2.13)
ип+1(Ь) = пи (ип(Ь) — аВт (Ь)фп (Ь)), (2.14)
где фп(Ь) и фп(Ь) вычисляются как в (2.7),(2.8) и (2.10),(2.11).
Для получения вспомогательных оценок представим операторные уравнения (2.13) ,(2.14) в форме вариационных неравенств
I (ип(Ь) — ип(Ь) + аВт(Ь)фп(Ь),и(Ь) — ип(Ь))—Ь > 0, (2.15)
./о
Г(ип+1 (Ь) — ип(Ь) + аВт(Ь)фп(Ь),и(Ь) — ип+1(Ь))—Ь > 0 (2.16)
о
для всех и( ) € и.
Из операторных уравнений (2.13),(2.14), очевидно, следуют оценки
\\ип(Ь) — ип+1(Ь)\\ < а\\Вт(Ь)(фп(Ь) — фп(Ь))\\ < а\\В\\\\фп(Ь) — фп(Ь)\\,
(2.17)
где \\В|| = шах \\В(Ь)|| для всех Ь € [0,Т], а > 0.
Покажем, что процесс (2.7)—(2.12) сходится монотонно по норме пространства управлений к одному из решений исходной задачи.
Теорема 1. Если множество решений задачи (2.1)-(2.3) не пусто и принадлежит подпространству Сп[0,Т] С Ьп[0,Т], то последовательность \\ип(Ь) — и*(Ь)\\ьг2, порожденная методом (2.7)-(2.12) с выбором параметра а из условия 0 < а < 1/(\/2||В||||Г||), монотонно убывает по норме пространства. При этом любая слабо сходящаяся подпоследовательность управлений (Ь) слабо сходится к оптимальному
управлению и * (Ь), а отвечающая ей подпоследовательность траекторий хп (Ь) сходится к оптимальной траектории х* (Ь) в равномерной норме Сп[0,Т]. Если же последовательность управлений ип(Ь) имеет при п ^ сильный предел, то процесс (хп(Ь), ип(Ь)) сходится к
решению задачи (х*(Ь),и*(Ь)) монотонно по норме пространства Ц х ь.
Доказательство. 1. Из (2.11) имеем
(Ахп(Т) — Ь — фп(Т), х*(Т) — хп(Т))+
/■т —
+ Шт(Ь)фп(Ь) + —фп(Ь),х*(Ь) — хп(Ь))—Ь > 0. (2.18)
о —Ь
Из (2.2) имеем
— (Ах*(Т) — Ь — ф*(Т), х*(Т) — хп(Т)) —
с т —
— (Бт(Ь)ф*(Ь) + —ф*(Ь), х*(Ь) — хп(Ь))—Ь > 0.
о —Ь
Сложим полученные неравенства
(А(хп(Т) — х*(Т)) — (фп(Т) — ф*(Т)), х*(Т) — хп(Т))+
с т —
+ Уо (Бт(Ь)(фп(Ь)—ф*(Ь)) + -(фп(Ь)—ф*(Ь)),х*(Ь)—хп(Ь))—Ь > 0. (2.19)
Используя формулу интегрирования по частям (1.12) с т — _
о (Ш(фп(Ь) — ф*(Ь)),х*(Ь) — хп(Ь))—Ь = —
г т - —
— 0 (фп(Ь) — ф*(Ь),ш(х*(Ь) — хп(Ь)))—Ь+
+(фп(Т) — ф * (Т ),х * (Т) — хп(Т)),
преобразуем дифференциальный член левой части (2.19) (это преобразование означает переход к сопряженному дифференциальному оператору)
(А(хп(Т) — х * (Т)),х * (Т) — хп(Т)) — (фп(Т) — ф * (Т)),х * (Т) — хп(Т)) +
/•т - —
+ (ффп(Ь) — ф * (Ь),0(Ь)(х * (Ь) — хп(ь)) — — (х * (Ь) — хп(Ь)))—Ь+
о —Ь
+ (фп(Т) — ф*(Т),х*(Т) — хп(Т)) > 0. (2.20)
Сокращая подобные члены и учитывая, что (Ахп(Т) — х*(Т)),хп(Т) — х (Т)) > 0 в силу положительной полуопределенности симметричной матрицы А, приведем неравенство (2.20) к виду
С т _ —
(фп(Ь) — ф*(Ь), Б(Ь)(х*(Ь) — хп(Ь)) — — (х*(Ь) — хп(Ь)))—Ь > 0. (2.21)
о —Ь
2. Положим и(Ь) = ип+1(Ь) в (2.15)
Iт(ип(Ь) — ип(Ь) + аВт(Ь)фп(Ь), ип+1 (Ь) — ип(Ь))—Ь > 0. о
Преобразуем полученное неравенство т
/ (ип(Ь) — ип(Ь), ип+1(Ь) — ип(Ь))—Ь— о
—аГ (Вт (Ь)(фп(Ь) — фп(Ь)),ип+1(Ь) — ип(Ь))М+ о
о
+а [т(Вт(Ь)фп(Ь), ип+1(Ь) — ип(Ь))М > 0. (2.22)
о
Положим и = и (Ь) в (2.16)
Г (ип+1(Ь) — ип(Ь) + аВт (Ь)фп(Ь), и * (Ь) — ьп+1(Ь))—Ь > 0. (2.23)
о
Сложим (2.22) и (2.23), тогда т
[ {ип(Ь) — ип(Ь), ип+1(Ь) — ип(Ь))—Ь+ о
+ [т (ип+1 (Ь) — ип(Ь),и * (Ь) — ип+1(Ь))—Ь— о
—а[Т (Вт (Ь)(фп(Ь) — фп(Ь)),ип+1(Ь) — ип(Ь))+ о
т
+а [ (Вт(Ь)фп(Ь),и*(Ь) — ип(Ь))М > 0. (2.24)
о
(Втп\«ип(+\ „,*{'+\ „-п
о
Из (1.21) при и(Ь) = ип(Ь) имеем т
т
[ (Вт (Ь)ф * (Ь),ип(Ь) — и * (Ь))—Ь > 0. (2.25)
о
Суммируем (2.24) и (2.25)
/ (ип(Ь) — ип(Ь), ип+1(Ь) — ип(Ь))—Ь+ о
+ Iт (ип+1 (Ь) — ип(Ь),и * (Ь) — Уп+1(Ь))(И— о
—а[т (фп(Ь) — фп(Ь),В (Ь)(ип+1(Ь) — ип (-))) + о
+а [ (фп(Ь) — ф*(Ь),В(Ь)(и*(Ь) — ьп(Ь)))(И > 0. (2.26)
о
3. Суммируя (2.21) и (2.26), получим
Iт(ип(Ь) — ип(Ь), ип+1(Ь) — ип(Ь))М+ о
+ [т (ип+1 (Ь) — ип(Ь),и * (Ь) — ип+1(Ь))—Ь+ о
+а Г(фп(Ь) — ф*(Ь),0(Ь)(х*(Ь) — хп(Ь)) — о
—
— (х * (Ь) — хп(Ь)) + В (Ь)(и * (Ь) — ип (Ь)))—Ь—
—а[т(фп(Ь) — фп(Ь),В(Ь)(ип+1 (Ь) — ип(Ь)))—Ь > 0. (2.27)
о
4. Оценки, полученные в пунктах 1—3 этой теоремы, следуют из правого неравенства системы (1.6). Получим аналогичную оценку из левого неравенства этой системы. Из (2.10) имеем
/•т —
(—хп(Ь) — П(Ь)хп(Ь) — В(Ь)ип(Ь), ф*(Ь) — фп(Ь))—Ь > 0. (2.28)
,)о —Ь Из (2.1) имеем
гт —
Гт —
— (—х*(Ь) — Б(Ь)х*(Ь) — В(Ь)и*(Ь),ф*(Ь) — фп(Ь))—Ь > 0. (2.29)
,)о М
Сложим (2.28) и (2.29)
С т —
0 (ф*(Ь) — фп(Ь), ^(хп(Ь) — х*(Ь)) — П(Ь)(хп(Ь) — х*(-)) +
—В(Ь)(ип(Ь) — и*(Ь)))—Ь > 0. (2.30)
5. Наконец, сложим (2.27) и (2.30)
Г<йга(*) - ип(О, ига+1(;£) - йга(;£))^+
■10
+ /Т(ига+1 СО - ига(*),и*(*) - ига+1(*))^-</0
л,*/
<и (6) — и
0
-а /Т<ч^п(6) - ^га(*),В(6)(ига+1 (6) - ип(6)))^6 > 0. (2.31)
0
С учетом (2.17) оценим последнее слагаемое из левой части (2.31)
Т
/ <йга(*) - ип(6), ига+1(6) - йга(;£))^+
0
+ /Т<ип+1 (6) - ип(6),и*(6) - ига+1(*))^+
0
+(а||£||)2 Г |^га(6) - ^га(*))|2^ > 0. (2.32)
0
0
6. Используя тождество
|У1 - У212 = 1У1 - Уз|2 + 2<У1 - уз,Уз - У2) + |Уз - У212,
разложим скалярные произведения из (2.32) в сумму (разность) квадратов, и после упрощения получим
IТ |ип(6) - и*(6)|2^ - Г |ип(6) - йга(*)|2^ - Г |ип(6) - ип+1(6)|2^6-0 0 0
- Г К+1(6) - и*(6)|2^6 + 2(а||В||)2 Г |ч/;п(6) - ^п(6))|2^6 > 0. (2.33)
00
Перепишем (2.33) в форме
/Т |ига+1(*) - и*(*)|2^ + /Т |ип(6) - йга(*)|2^ + /Т |ип(6) - ига+1(6)|2^6-./0 ./0 ./0
-2(а||£||)2 Г |ч^п(6) - ^га(*))|2^ < Г |ип(6) - и*(6)|2^6. (2.34)
00
7. Наконец, оценим последнее слагаемое из левой части (2.34). С этой целью введем оператор Р1 и = ж[«(£)]|*=т = ж(Т), который каждому управлению и(6) € и ставит в соответствие правый конец траектории. Этот оператор изучен в ([9], с. 512). Отметим его основные свойства.
Во-первых, оператор Р1 - однозначный и линейный, это следует из линейности и единственности решения задачи Коши дифференциального уравнения (2.1). Действительно, в силу линейности для любых и1(6),и2(6) € и и отвечающих им ж1(6),ж2(6) € Сга[0, Т] из
—аж^) = Д(6)аж1(6) + В(6)аи1(6), ж1(0) = 0,
d
— в®2^) = D(t)eX2(t) + B(t)eU2(t), X2(0) = 0,
следует
&
— (аж^) + в®2(£)) = ^(^(аж^) + вж2 (£)) + £(£)(аи1(£) + в«2(£)),
где аж1(0) + вж2(0) = 0. Получили, что Р^аи^) + ви2(£)) = аР^^) + вР^1и2(^) для любых и^),-^) € и.
Во-вторых, оператор Р1 - ограниченный (см. в [9], с. 512). Действительно, из (1.4) имеем
№00] I =
ft
(D(t )x[u(t )] + B (т )u(t ))dr ./0
t /• T
<
< Dmax / |x[u(t)]|dT + B
max / |u(T)|dT,
00
где Dmax = ||D(t)||L^ ,Bmax = ||B(t)^L^ • Отсюда, пользуясь леммой
Гронуолла ([9], с.406) и неравенством Коши-Буняковского, получаем оценку
|x[u(t)]| < eDmax'T ■ Bmax^ |u(t ) | dT < Ко ^ |«(т)|^т^
для всех u(t) € U, t € [0,T]. Здесь K0 = eDmax'TBma^\/T. В частности, полученная оценка верна при t = T. Имеем
|x[u(t)]|t=T I = |Piu|<|Pi||u(t)|,
где ЦР1Ц < Ко. Отметим, что из последнего неравенства следует также ограниченность множества достижимости X(T).
Наряду с оператором P1 введем оператор P2. Этот оператор порождается задачей Коши для сопряженного дифференциального уравнения
(2.2) с переменными терминальными условиями. Он для любого терминального значения ^(T) = Ax(T) — b находит соответствующую ему сопряженную траекторию ^(t), являющуюся решением задачи Коши
(2.2), т. е. P2^(T) = ^(t). Этот оператор известен в математике как оператор сдвига по траекториям дифференциального уравнения [7]. В нашем случае оператор P2, как и оператор Pi, также линейный. Это следует из линейности дифференциального уравнения (2.2).
Действительно, в силу линейности из d
d^a^1(t) + DT(t)a^1(t) = 0, a^1(T) = a(Ax1(T) — b), d
—e02(t) + DT(t)e02(t) = 0, в^2(Т) = в(Ax2(T) — b)
следует
—
— (а^(£) + в^2^)) + От (£)(аг01(£) + в^2^)) = 0, где а^1(Т)+в02(Т) = а(Ах1(Т)-Ь)+в(Ах2(Т) — Ь). Последнее означает Р2(«^1(Т) + в^2(Т)) = аР2 ^(Т) + в^2^2(Т).
Нетрудно видеть, что оператор Р2 отображает ограниченное множество снова в ограниченное. Этот факт следует из теорем о непрерывной зависимости решения задачи Коши (2.2) от начальных данных, т. е. •0(£) от ^(Т) [6].
Таким образом, оператор ^(£) = Р[и(£)] из (1.22) представляет собой суперпозицию двух линейных ограниченных операторов Р[и(£)] = Р2Р1 (и(£)) и является линейным и ограниченным оператором с нормой
1|Р II = ЦР2УУР1 у.
8. Используя представление ^(£) = Р[и(^)], оценим последнее слагаемое из левой части (2.34)
/т |^га(£) - ^п(^))|2—^ = Г |Р[игаС0] - р[ип(^)]|2—^ <
./о ./о
< I2 /т |ип(^) - игаС0|2—£. о
С учетом полученной оценки перепишем неравенство (2.34)
[ |ига+1(£) — и* (^) |2—^ + 7/" |ига(£) — ■й”'(£)|2—£+ оо
+ Г |ип(^) - ига+1(;£)|2—£ < Г |ип(^) - и*(;£)|2—£, (2.35)
оо
22
где 7 = 1 - 2а2(||В||||РI)2 > 0.
9. Просуммируем полученное неравенство от п = 0 до п = N:
[ |им+1(£) - и*(£)|2—£ + 7 V] [ |ип(^) - "й.п(^)|2 — £+
^ п=^0
+ V [ |ип(^) - ■ига+1(£)|2 < [ |и0(^) - и*(£)|2—£. (2.36)
га=^0 ^
Из полученного неравенства следует ограниченность траектории
[ |им+1(£) - и*(^)|2—^ < [ |и0(^) - и*(£)|2—£, (2.37)
00
а также сходимость рядов
^ „ т те „ т
]Г / |ип(^} - ип(^)|2^^ < те, V / |ип(^} - ип+1(^)|2^^ < те
”=°'/° ”=°'/°
и, следовательно, стремление к нулю величин
IТ |ип(^) - ип(^)|2^^ ^ 0, IТ |и”(*) - ип+1(^)|2^^ ^ 0, °° когда п ^ те.
Поскольку последовательность и”(£) ограничена, то она слабо компактна, т. е. существует элемент и (£) € и такой, что последовательность и”4 (£) сходится слабо к и (£), т. е. и”-4 (£) ^ и (£). Кроме того,
|и”(О - и”4(*)| ^ 0, |и”(*) - и”4+1(^)| ^ 0, (2.38)
когда п ^ те. В ([9], с. 511) показано, что линейный ограниченный оператор переводит слабо сходящуюся последовательность снова в слабо сходящуюся, поэтому последовательности х”4 (£), ф”4 (£) как образы отображений линейных операторов х”4(£) = х[и”(£)], ф”4(£) = Р2ф”4(Т) слабо сходятся:
х”4 (£) ^ х7 (£), ф” (£) ^ ф (£).
10. Рассмотрим систему (2.7)-(2.9) (аналогично (2.10)—(2.12)) на элементах подпоследовательности ф”4 (£), х”4 (£), и”4 (£), которая сходится к своему слабому пределу ф (£),х (£), и (£) при ^ те, и покажем, что слабый предел является решением этой системы. Используя понятие сопряженного оператора и, в частности, формулу интегрирования по частям (1.12) для дифференциального оператора, последовательно рассмотрим каждое из уравнений системы. Представим (2.7) как
С т С
(Яфх” (*) + В(£)и” СО - ^х”4 (^),ф(*))Й* = 0,
.7° М
[ (х”4(£),^т(^)ф(^))^^ + [ (и”4(£),Вт(^)ф(^))^^+ °°
/•т С
+ (х”(*), -^Ф(0)С£ - (х”(Т),ф(Т)) = 0,
.7° a^
где ф(^) — произвольный элемент из С”[0, Т]. Перейдем к слабому пределу
/•т 7 /-т 7
/ (х (£),^т(^)ф(^))С^ + / (и (£),£т(^)ф(^))С^+ °°
/•т , С 7
+у°(х (^ с*ф(*))С* - (х (Т),ф(Т)) =0
Отсюда
Гт 7 Гт 7 Гт С 7
(^(е)х (е),ф(е))Се + (В(е)и (^), - (—х (е),ф(е))Се = 0
.7° .7° .7° С^
Поскольку ф(е) € С”[0,Т] — произвольный элемент пространства, то имеем
7 7 С 7
^(£)х (е) + В(е)и (е) - —х (е) = 0,
т. е. слабая предельная точка (х/(^), и7(^)) является решением дифференциального уравнения (2.7). Так как терминальное условие сформулировано в конечномерном пространстве, то при Пг ^ те мы имеем Ах7(Т) - Ь = ф7(Т). Рассмотрим (2.8)
/* т с
(£т (*)ф” (е) + ■Сф” (*),х(*))С* = 0,
7° М
гт /•т С
(ф” (г),^(г)х(г))сг - (ф” (г),— х(г))сг + (ф” (т),х(т)) = 0,
.7° .7° М
где х(г) € С”[0,Т]. Перейдем к слабому пределу
гт 7 гт 7 С 7
(ф (г),^(г)х(г))Сг-/ (ф (г),—х(г))Сг + (ф (т),х(т)) = 0,
7° 7° Се
или
/* т 7 /*т С 7
(^т(е)ф (е), х(е))Се + (—ф (е), х(е))Се = 0.
.7° .7° Се
Отсюда ^т(е)ф7(е) + ф7(е) = 0, т. е. слабый предел ф7(е) удовлетворяет уравнению (2.8). И, наконец, рассмотрим (2.9) в форме вариационного неравенства (2.15) при п =
/• т
/ (и”4(е) - и”4 (е) + аВт(е)ф” (е), и(е) - и”4(*))С* > 0, и(е) € и. (2.39) °
Используя утверждения, что ф”4 (е) ^ ф7 (е), где ф(е) = Р[и(е)] = Р2Р^1[и(е)] — линейный оператор, а также и”4 (е) ^ и (е) и |и”4 (е) -и”4 (е) | ^ 0 при ^ те, перейдем к пределу в (2.39), тогда получим
/■ т 7 7
/ (Вт(е)ф (е), и(е) - и (е))Се > 0, и(е) € и. (2.40)
°
Выпишем полученные предельные уравнения и вариационное неравенство
(е) = ^(е)х7 (е) + В(е)и7 (е), х7 (0) = 0,
Се
С
_ф (е) = _^т(е)ф (*), ф (Т) = Атх (Т) - Ь,
г т 7 7
/ (Вт(е)ф (е), и(е) - и (е))Се > 0, и(е) € и.
°
Полученные соотношения совпадают с (2.1)—(2.3), поэтому х7(е) = х *(е) € С”[0,Т],и7(е) = и *(е) € и, ф7(е) = ф *(е) € С”[0,Т], т. е. любая слабо предельная точка управлений и”(е) является оптимальным управлением исходной задачи. В ([9], с. 518) показано, что если последовательность управлений слабо сходится к оптимальному управлению, то последовательность соответствующих траекторий сходится к оптимальной траектории в равномерной норме. Тем более, эта последовательность будет сходиться к решению по норме пространства Р”[0,Т]. Учитывая этот факт, можно утверждать следующее: процесс
(2.7)—(2.12) сходится к решению задачи в смысле подпоследовательностей: по управлениям — в слабой топологии, по траекториям — в равномерной норме, и, тем самым, по норме пространства Р”[0,Т]. Другими словами, любая слабо предельная точка процесса (2.7)—(2.12) является решением исходной задачи.
Для многих регулярных задач слабо сходящаяся последовательность управлений может содержать сильно сходящуюся подпоследовательность. Если выполняется это условие, тогда последовательность ф”(е), х”(е), и”(е), порожденная методом (2.7)—(2.12), будет иметь сильно предельные точки. Учитывая условие монотонности убывания
I |и”+1(е) - и*(е)|2Се < I |и”(е) - и*(е)|2Се, °° нетрудно доказать единственность предельной точки, т. е. сильную сходимость последовательности в целом по управлениям и траекториям. Теорема доказана.
Список литературы
1. Антипин А. С. Итеративные методы прогнозного типа для вычисления неподвижных точек экстремальных отображений / А. С. Антипин // Изв. вузов. Математика. - 1995. - № 11. - С. 17-27.
2. Антипин А. С. О дифференциальных градиентных методах прогнозного типа для вычисления неподвижных точек экстремальных отображений / А. С. Антипин // Дифференц. уравнения. - 1995. - Т. 31, № 11. - С. 1786-1795.
3. Антипин А. С. Равновесное программирование: методы градиентного типа / А. С. Антипин // Автоматика и телемеханика. - 1997. - № 8. - С. 1337-1347.
4. Антипин А. С. Равновесное программирование: проксимальные методы /
А. С. Антипин // Журн. вычисл. математики и мат. физики. - 1997. - Т. 37, № 11. - С. 1327-1339.
5. Антипин А. С. Управляемые проксимальные дифференциальные системы для решения седловых задач / А. С. Антипин // Дифференц. уравнения. - 1992. - Т. 28, № 11. - С. 1846-1861.
6. Босс В. Лекции по математике. Дифференциальные уравнения / В. Босс. - М. : Едиториал УРСС, 2004. - 208 с.
7. Босс В. Лекции по математике. Нелинейные операторы и неподвижные точки /
В. Босс. - М. : Кн. дом ЛИБРОКОМ, 2010. - 224 с.
8. Васильев О. В. Методы оптимизации в задачах и упражнениях / О. В. Васильев, А. В. Аргучинцев. - М. : ФИЗМАТЛИТ, 1999. - 208 с.
9. Васильев Ф. П. Методы оптимизации / Ф. П. Васильев. - М. : Факториал Пресс, 2002. - 824 с.
10. Евтушенко Ю. Г. Методы решения экстремальных задач и их применение в системах оптимизации / Ю. Г. Евтушенко. - М. : Наука, 1982. - 432 с.
11. Срочко В. А. Итерационные методы решения задач оптимального управления / В. А. Срочко. - М. : ФИЗМАТЛИТ, 2000. - 160 с.
12. Треногин В. А. Функциональный анализ / В. А. Треногин. - М. : ФИЗМАТ-ЛИТ, 2002. - 488 с.
A. S. Antinin, E. V. Horoshilova
Extragradient methods for optimal control problems with linear restrictions
Abstract. This paper contains the method for the optimal control problem regarding linear dynamic system. The iterative extragradient process is constructed. Convergence of the method is proved.
Keywords: optimal control, Lagrange function, extragradient method, convergence.
Антипин Анатолий Сергеевич, доктор физ.-мат. наук, профессор, главный научный сотрудник, Вычислительный Центр РАН, 119333, Москва, ул. Вавилова 40, ВЦ РАН, тел.: (499) 135-81-61,
Хорошилова Елена Владимировна, канд. физ.-мат. наук, доцент, факультет Вычислительной математики и кибернетики, Московский государственный университет, 119991, Москва, ГСП-1, Ленинские горы, МГУ, 1, ВМК, тел.: (499) 939-30-10, ([email protected])
Anatoly Antipin, Doctor, Professor, Principal Researcher, Computing Center of RAS, 19333, Russia, Moscow, Vavilov str., 40,
Phone: (499) 135-81-61, ([email protected])
Horoshilova Elena, Moscow State University, 19333, Russia, Moscow, Leninskie gory, 1, Phone: (499) 939-30-10, ([email protected])