Серия «Математика»
Том 2 (2009), № 1, С. 183-196
Онлайн-доступ к журналу: http://isu.ru/izvestia
УДК 517.977
Некоторые приложения неравенств Гамильтона-Якоби в оптимальном управлении *
В. А. Дыхта
Учреждение Российской академии наук
Институт динамики систем и теории управления Сибирского отделения РАН
Аннотация. Статья посвящена необходимым и достаточным условиям оптимальности, которые формулируются с использованием функций типа Ляпунова — решений неравенств Гамильтона-Якоби. Анализируется связь таких условий с критериями оптимальности некоторого порядка ш, где ш — функционал, характеризующий устойчивость минимума в данной точке, и предлагается схема улучшения программных и позиционных управлений.
Ключевые слова: монотонные функции Ляпунова; неравенства Гамильтона-Якоби; условия оптимальности; улучшение управления.
Здесь х € Еп, и € Ет, С = [¿о, ¿1] х Еп, управления и(-) € ([¿о, ¿1], и),
а соответствующие им (и начальным условиям) траектории абсолютно непрерывны на отрезке времени А = [¿о, ¿1] • Пары таких функций а = (х(-),и(-)) назовем процессами системы (1.1).
Далее предполагается, что множество и компактно, вектор-функция / непрерывна на С х и вместе с частной производной /х и удовлетворяет равномерному по (¿, и) условию не более чем линейного роста по х, обеспечивающему нелокальную продолжимость решений системы, а годограф /(¿, х,и) является выпуклым множеством при всех
* Работа выполнена при финансовой поддержке РФФИ (проект № 07-01-00741) и СО РАН (интеграционный проект СО РАН-УрО РАН № 85).
1. Введение
Рассмотрим управляемую систему
Х = f (t,x,u), u(t) Є U, (t,x) Є G.
(1.1)
(¿, х) € С. Эти предположения несколько чрезмерны для части последующих утверждений, но принимаются для простоты изложения.
Введем функцию Понтрягина Н(¿, х,ф,и) = ф ■ /(¿, х, и) и гамильтонианы (верхний и нижний соответственно)
Н(1, х,ф) = тахН(¿,х,ф,и), Н(Ь,х,ф) = тт Н(¿,х,ф,и).
Для гладкой функции р(Ь,х) (р € С 1(С)) определим операторы Гамильтона-Якоби
Г[р](г,х) = рь + Н(г,х,рх),
7[рЩ,х) = рь + Н(Ь, х, рх)
(при фиксированной р Г, 7 интерпретируются как функции ¿,х) и соответствующие неравенства (и уравнения):
( < 0, ( > 0,
а) Г[рШ,х) { =0, б) 1[р\(^,х) \ =0, (1.2)
I > 0; [ < 0.
Все решения неравенств (1.2) мы называем Ь-функциями (в честь А. М. Ляпунова); они обладают различными свойствами монотонности (сильной и слабой) вдоль решений системы (1.1), которые почти очевидны (для гладких р) и уточняются ниже.
Поскольку класс гладких Ь-функций слишком узок, мы расширяем его до множества Т(С) функций р, таких, что р(^,х) абсолютно непрерывна V х € Яп, а р(Ь, ■) непрерывно дифференцируема V £ € А. Для общей теории такого расширения недостаточно — необходимо рассматривать локально липшицевые и даже полунепрерывные решения неравенств (1.2) [1, 2, 3] — но мы хотели бы избежать технических деталей негладкого анализа. Естественно, что для функций из Т(С) выполнение неравенств (1.2) требуется лишь в точках дифференцируемости (т.е. п. в. на С).
Данная статья преследует две основные цели: 1) связать условия оптимальности, основанные на использовании неравенств Гамильтона-Якоби, с общей теорией условий экстремума некоторого порядка и [4]; 2) показать, что именно слабо монотонные Ь-функции естественны для построения методов улучшения управления, а также для вывода необходимых условий оптимальности не только программных, но и позиционных управлений. Попутно дается обращение достаточных условий оптимальности из [5, 6] (см. также [7, 8]) в необходимые с использованием множества гладких Ь-функций, а также версия изложения теоремы Кротова [9, 10, 11], отличная от традиционной.
2. Сильно и слабо монотонные Ь-функции
Обозначим через Х[[ад(^) множество всех решений (траекторий) системы (1.1), определенных на отрезке [а,Ь] С А и удовлетворяющих начальному условию х(а) = £. Соответствующее множество управлений обозначим через Щад.
Следуя [7] (и несколько изменяя терминологию из [3]), назовем функцию р € Т(С)
сильно убывающей на множестве С (относительно системы (1.1)), если выполняется условие:
V (г,0 € С, V х €Х[тМ](£), V t € [г,ь] р(г,х(г)) < р(т,0;
слабо возрастающей на С, если
V (т,0 € С, 3 х* €Х[т,ы](0, V * € [т,ь\ р (¿,х*(1)) > р(т,0-
Обозначим через Ф+(Г), Фо(Г), Ф^Г) множества функций из Т(С), удовлетворяющих на С последовательным соотношениям в (1.2а) (т. е. Г < 0, =0, > 0). Известно [1, 3, 12, 13], что только функции из Ф+ (Г) и его подмножества Фо(Г) обладают свойством сильного убывания во всем классе Т(С), а функции из Ф-(Г) (и Фо(Г)) — свойством слабого возрастания.
Совершенно аналогично вводятся понятия сильно возрастающих и слабо убывающих Ь-функций. Таковыми в классе Т(С) являются элементы множеств Ф+(7) и Ф-(7) соответственно, которые отвечают последовательным условиям в (1.2б). Функции из Ф+(Г) и Ф+(7) назовем сильно монотонными, а из Ф-(Г), Ф-(7) — слабо монотонными.
Для исследуемых нами вопросов можно ограничиться использованием Ь-функций, отвечающих любому из операторов Г или 7. Переход от утверждений в терминах одних конструкций к другим достигается простой сменой знака р.
3. Абстрактные условия экстремума порядка и
Мы будем опираться на следующую глобальную версию общей теории экстремума из [4].
Рассмотрим задачу оптимизации на абстрактном множестве:
I(z) ^ min; z Є Z. (3.1)
Для точки z Є Z, исследуемой на минимум или подлежащей улучшению, рассмотрим некоторый функционал u(z) > 0 со свойством u(z) = 0, который назовем порядком, и семейство (по ц Є R) следующих задач с возмущенным функционалом:
1Пш(z) = I(z) + nu(z) ^ min; z Є Z. (3.2)
Справедливы утверждения (условия порядка и):
Условие N (и-необходимость). Если г — решение задачи (3.1), то
V п > 0 г — решение задачи (3.2), причем справедлива оценка
Условие Бш (и-достаточность). Если при некотором п < 0 г — решение задачи (3.2), то г — решение задачи (3.1), причем справедлива оценка (3.3).
Легко видеть, что условие соответствует ослаблению понятия минимума в точке г, а условие Бш — его усилению.
Применительно к задачам оптимального управления наш замысел состоит в выборе функционала-порядка в виде интеграла от подходящим образом выбранной функции Г[р] или 7[р]. При этом, однако, полной аналогии с общими условиями порядка и достичь не удастся, поскольку, в частности, в условиях N, Бш функционал и один и тот же, а при реализации замысла придется использовать различные и, порожденные сильно или слабо монотонными р.
4. Оценки функционала снизу и критерии оптимальности,
В этом разделе мы рассмотрим задачу оптимального управления (Рс) с терминальными ограничениями. В дополнение к (1.1) она задается условиями
где целевое множество С замкнуто, а функция I непрерывна. Будем считать, что множество допустимых процессов Хс в этой задаче не пусто. Тогда, как известно, в наших предположениях оптимальный (в глобальном смысле) процесс существует.
1) В соответствии с описанным выше замыслом и утверждением Бш будем рассматривать функционалы
порожденные функциями р € Ф+(7) с дополнительным краевым условием типа неравенства
I(г) — I(г) > —^ш(г) V г Є 2.
(3.3)
использующие сильно монотонные ¿-функции
х(і0) = х0, х(і\) Є С, 3(а) = і(х(іі)) ^ шіп,
<р(і\,х) < 1(х) V х Є С.
(4.1)
Множество таких функций обозначим через Ф+_______(7), где минус указы-
вает на свойство р оценивать l снизу на C. Положим
Ju{<p)(v) = J(а) — ^(Р,^)
по аналогии с 1^ш из (3.2), но опуская параметр ц < 0 (для условия Бш), поскольку |п| всегда можно отнести к 7[р\ (точнее, к р) в силу
положительной однородности Y. Заметим, что априори мы не знаем,
может ли и(р, а) быть подходящим (не слишком грубым) порядком для а, т. е. может ли для него действительно выполняться w-достаточность.
Исходным пунктом для нас будет служить следующая оценка снизу целевого функционала:
V р € Ф+ (7), V а € Тс справедливо неравенство
J(а) > Ju(v)(a) > 6(р,а), (4.2)
где функционал 5(р, а) определен равенством
5(р,а) = p(to,xo)+ [ \H(t,x(t),p(t),u(t)) — h(t,x(t),p(t))] dt,
i (4.3)
p(t) = px{ t,x(t)).
Действительно, основное второе неравенство в (4.2) легко получается с учетом краевого неравенства (4.1), определения 7[р\, и(р,а) и формулы Ньютона-Лейбница:
Jш(р)(а) = l(x(ti)) — ш(р,а) > р(Ььх(и)) — ш(р,а) =
= р(Ь^о) + J dp(t, x(t)) — ш(р, а) = 5(р, а). i
2) Учитывая, что интегрант в (4.3) всегда > 0, из (4.2) получаем в качестве следствия:
V множества Ф С Ф+__(7) имеет место оценка
min J(Тс) > sup inf 5(р,а) > sup р^0^0). (4.4)
Ф <^€Ф
Правая часть в этой оценке определяет двойственную к (Рс) задачу на подмножестве сильно монотонных L-функций. Следующая теорема гарантирует, что при Ф = Ф+_(7) оценка (4.4) является точной,
т. е. двойственность действительно имеет место, причем даже в классе гладких L-функций.
Теорема 1. Справедливо равенство
min J(Тс) = sup р(^^0), (4.5)
^€Ф1
где Ф1 — множество всех непрерывно дифференцируемых функций из Ф+-(7)■
Эта довольно тонкая и важная теорема о гладкой двойственности установлена в недавней работе [15] даже при наличии в задаче управления фазовых ограничений и свободном времени ¿1. Близкие результаты получены в [14] более сложным методом (в сравнении с [15]), основанном на абстрактном варианте фенхелевской двойственности.
3) Вернемся к исходной оценке (4.2). Она позволяет сформулировать следующие достаточные условия оптимальности.
Теорема 2. Пусть для процесса а € £с существует такая функция р € Ф+__('у), что
3(а) = р(Ьо, хо)■ (4.6)
Тогда функционал и(р, а) является порядком (и(р, а) = 0) и а доставляет функционалу 3 глобальный минимум порядка и(р,а) на множестве £с.
Действительно, из равенства (4.6) и оценки (4.2) следует, что и(р, а) = 0 (т. е. и — порядок); это равносильно равенству
у[р}^, х^)) =0 на А. (4.7)
Кроме того, очевидно, что а доставляет минимум функционалу 3Ш(^) на £с. Это и означает выполнение достаточных условий минимума 3 порядка и[р] в точке а.
4) Нетрудно показать, что утверждение о достаточности в теореме 2 равносильно теореме Кротова. Действительно, из (4.6) следует, что Н = Н вдоль а (см. (4.3)), и далее
р = рь + Н = рь + Н = 0 вдоль а на А (4.8)
в силу равенства (4.7). Поэтому
р(Ь,х(1)) = р(1о,хо) = р{11,х(11)) = со^ на А. (4.9)
Равенства (4.7)-(4.9) показывают, что функция
Р[р](Ь,х,и) := р(Ь,х) (= полной производной от р в силу (1.1))
имеет поточечный (по t € А) минимум по (х, и) € Кп х и при х = х(Ь), и = и(Ь), а функция
Я[р](х) := 1(х) - р(ь,х) + р^о,хо)
имеет минимум на множестве С в точке х = х(^). Но это в точности условия теоремы Кротова (с сильно возрастающей р вместо сильно убывающей). Обратное следование устанавливается столь же просто. Поэтому функцию р из теоремы 2 естественно назвать функцией Кротова задачи (Рс).
Подчеркнем, что помимо достаточности теорема 2 содержит вариационную трактовку кротовских условий. Заметим, что в традиционной схеме изложения этих условий исходят из безусловной минимизации (без учета дифференциальной связи) обобщенного лагранжиана
L[p](x(-),u(-)) = Q[p](x(ti)) + j P[<p](t,x(t),u(t))dt
A
вместо 5(р, а). Ей тоже можно придать вариационный смысл, если условие сильной монотонности Y[р] > 0 заменить на P[р] > 0, которые эквивалентны между собой (в случае компактного U) в смысле обеспечения свойства монотонности р; однако они могут различаться как функционалы-порядки.
5) С позиций двойственности существование функции Кротова связано с достижением супремума в правой части неравенства (4.4). Хорошо известно (см. [13] и обзор в [9]), что гарантировать это свойство можно только для так называемых нормальных задач (например, со свободным правым концом) и в классе негладких, локально липшицевых L-функций. Справедливость соотношения двойственности (4.5) без предположения нормальности обеспечивается исключительно использованием всего множества гладких «предкротовских» (сильно монотонных) функций.
Однако оперирование множеством сильно монотонных L-функций по схеме двойственности (оценки функционала снизу) не является единственно возможным (и легким) путем. Основная трудность в нем заключается в необходимости выполнять краевое неравенство (4.1), без которого оценки теряют смысл. Заметим, что в (4.1) можно перейти к равенству, что только уточнит оценки, но такое краевое условие выдерживать еще сложнее.
Существует несколько модификаций кротовских условий [5, 6, 7, 8, 9, 10], из которых наиболее гибкой и перспективной нам представляется следующая [5, 6, 7].
Пусть Ф С Ф+(7) произвольное множество (от краевого неравенства
(4.1) отказываемся) и
Е(Ф) = {x € Rn | p(ti, x) > p(to, xo) Vр € Ф} .
Очевидно, что в силу сильной монотонности любой р € Ф множество E(Ф) оценивает сверху (по включению) множество достижимости системы (1.1) из начальной позиции (to,xo) в момент времени ti. Сформируем конечномерную задачу (EP(Ф)):
l(x) ^ inf; x € Ec(Ф) := E(Ф) П C.
Теорема 3. а) Если для процесса а € £с найдется такое множество Ф С Ф+(7), что вектор x(ti) является решением задачи (EP(Ф)), то а — оптимальный процесс в задаче (Pc) и
min J (£с) = min l(EC (Ф)). (4.10)
б) Если а — оптимальный процесс, то существует такое множество Ф С Ф+(7) гладких L-функций, что вектор x(ti) является решением задачи (EP(Ф)), причем минимумы в условии (4-10) равны sup^(to,xo) | р € Ф}.
Утверждение а) — это достаточные условия канонической теории оптимальности из [5, 6], а б) — их обращение в необходимое условие. Оно легко выводится из теоремы 1, если положить Ф = Ф^ Тогда из определения множества Ec(Ф0 и неравенства (4.1) будет следовать оценка
inf l(Ec(Фi)) > sup р(^, xo)•
<р&Ф1
Но x(ti) € Ec(Ф0, причем J(а) = l(x(ti)) совпадает с супремумом справа, откуда всё и следует.
Следствие 1. Существует счетное семейство гладких функций Ф С Ф+(7), обеспечивающих выполнение условия б) теоремы 3.
Отметим, что практически разрешающее множество Ф для утверждения а) редко находится по методу доказательства утверждения б) из-за необходимости соблюдать гладкость р € Фl и неравенство (4.1). Такого сорта необходимые условия лишь дают уверенность в существовании искомого множества. Как правило, приходится проводить групповой анализ системы (1.1), апробируя её возможные преобразования, упрощающие поиск L-функций с использованием агрегатов преобразований; конечно, применяются и другие специальные методы [9, 10, 11].
5. Необходимые условия и схемы улучшения управления, основанные на слабо монотонных L-функциях
Результаты предыдущего пункта не содержат теоретических условий распознавания неоптимальных процессов и тем более алгоритмизуе-мых критериев их улучшения. Для этих целей нужны необходимые условия, больше нацеленные на негативную характеристику данного процесса (как на кандидата в решение), чем на позитивную (убеждение в его оптимальности). В рамках метода неравенств Гамильтона-Якоби для этого оказывается естественным опираться на слабо монотонные L-функции.
Чтобы убедиться в этом, нам придется ограничиться задачей управления (Po) без терминальных условий, т. е. при C = Rn. Обозначим через Хо множество допустимых процессов этой задачи, и пусть а = (x, и) € Хо.
1) Обозначим через Ф____+(7) множество слабо убывающих функций
их Ф_(7) с дополнительным краевым неравенством
p(ti,x) > l(x) V x € Rn (5.1)
(ср. с (4.1)). Для таких функций 7[р] < 0 и поэтому, если мы хотим опираться на необходимое условие Nu, следует положить (вместо и)
и_ (р,а) = — J j[p](t,x(t))dt > 0.
А
Тогда в роли возмущенного функционала 1^ш из условия Nu будет выступать
Ju-{V)(a) = J (а) + и_(Р,а)
(мы вновь учли однородность y[р] и опустили параметр ц > 0). Как и в п. 4, мы рассматриваем и_ в качестве потенциального порядка для процесса а, так как равенство и_(р, а) = 0 не предполагается.
Элементарно (подобно (4.2)) получить следующую оценку сверху целевого функционала:
V р € Ф +(y), V а € Хо справедливо неравенство
J(а) < Jw_{v)(a) < 6(р,а)
где функционал 6(р,а) определен равенством (4.3), т.е. — в краткой записи —
6(р,а) = p(to,xo) + J [H (а, р) — Н(а,р)Щ.
А
Но в силу слабого убывания р (см. п. 2), V р найдется процесс а* = (x*,n*) € Хо, зависящий от р, такой, что
J(а*) = l(x*(ti)) < р^о^о).
Отсюда следует
Теорема 4. V множества Ф С Ф_________+ (y)
min J(Хо) < inf р(hjx^ := -и(Ф) (5.2)
<р&ф
и, следовательно, неравенство
J(а) < у(ф) V ф с ф_+(y) (5.3)
необходимо для оптимальности процесса а.
Следствие 2. Если для а € То найдется такая р € Ф__________+(7), что
■](а) > р(Ьо,хо), то процесс а не оптимален, и а* = а*(р) улучшает его по функционалу: .](а*) < ■](а).
Мы видим, что установленные утверждения не содержат точного аналога условия N (т. к. а не обязано минимизировать 5(р, а) и ш_(р,а) не является порядком для а). Что же касается неравенств
(5.2), (5.3), то для достижения в них равенства напрашивается ввод в рассмотрение функции Беллмана; однако она является уже сильно монотонной. Обходной путь состоит, по-видимому, в выборе семейства Ф (суперрешений уравнения Гамильтона-Якоби), нижняя огибающая которых дает функцию Беллмана.
Контрпозитивная формулировка следствия 2 подсказывает переход к методам улучшения неоптимального процесса. Однако при этом придется отказаться от использования ш_(р) в качестве «предпорядка» (он может оказаться слишком грубым для процесса а, далекого от оптимального), но ввести некоторый другой настоящий порядок, чтобы следовать духу условия N, отслеживать приращение функционала на каждом шаге улучшения, а также обеспечивать на нем существование подходящей р для неоптимального процесса.
2) Нам придется иметь дело с позиционными разрывными управлениями (стратегиями) и,(Ь, х) : С ^ и и соответствующими решениями системы (1.1), которая при замыкании ими оказывается разрывной. Поэтому необходимо уточнить, в каком смысле понимается её решение. Мы примем концепцию, предложенную в [16], которая получила широкое распространение не только в дифференциальных играх, но и вообще в теории управления (см., напр., [1, 3, 17]).
Пусть задана начальная позиция (г,£) € С, т < Ь\. Рассмотрим произвольное разбиение р = {т = во < ... < 9м+1 = ¿1} отрезка [т^х] с диаметром й(р) = шах(вг+1 — вг). По и,(Ь,х) и р построим ломаную Эй-
г
лера хгр(-) € ) (см. п. 2), которая на каждом полуотрезке [вг, вг+1)
удовлетворяет системе
X = }(¿, х, иг), иг = Пр(г) := и{вг, Хр(вг))
с кусочно постоянным управлением и,р € и^,^]. Любую абсолютно непрерывную функцию х : [т, ¿1] ^ Кп назовем кривой или траекторией Эйлера, соответствующей стратегии и,(Ь,х) и начальной позиции (т,£), если она является равномерным пределом некоторой последовательности ломанных Эйлера, построенных по и,(Ь, х) при условии й(р) ^ 0. Совокупность всех таких кривых Эйлера (конструктивных движений по терминологии из [16]) обозначим через (£,и(Ь,х)).
Кривые Эйлера привлекательны свойством равномерной аппроксимируемости ломанными Эйлера, с неизбежностью возникающими при
численном интегрировании; кроме того, оно обеспечивает любую точность приближения функционалов Майера на кривых Эйлера соответствующими ломанными.
Следует, однако, иметь ввиду, что кривые Эйлера не обязаны быть решениями Каратеодори разрывной системы, а множество решений такой системы в смысле Филиппова (без игнорирования значений правой части на подмножествах нулевой меры в Еи+1) может оказаться шире пучка эйлеровских кривых (см. [3, 16]).
3) Обозначим через (Рт£) задачу, получающуюся из (Ро) заменой начальной позиции (Ьо,хо) на (т,£) Є С. Таким образом, мы будем рассматривать семейство задач, хотя не ставим задачу построения оптимального синтеза. Такое расширение рамок анализа довольно естественно, поскольку ¿-функции являются продуктом управляемой системы, а не индивидуальной задачи (Ро) в следующем смысле.
Свойство слабого убывания инвариантно по отношению к выбору (т, £) Є С и связано только с управляемой системой. Такой же инвариантностью характеризуется краевое условие для р, которое и связывает её с задачей оптимизации.
Через Хт£ обозначим множество допустимых процессов задачи (Рт£). Подлежащий улучшению процесс в этой задаче по-прежнему обозначаем через а.
Для данного а фиксируем некоторый функционал-порядок
*1
ит (а) = Я1 (х(Ь1)) +/ я(г,х(г),п(г))<И (5.4)
т
с функциями Яі(х) > 0 на Еп, д(Ь,х,п) > 0 на С х и и свойством
ит (а) = 0 (я имеет свойства, аналогичные /). Введем в рассмотрение
возмущенный функционал
3та(а) = 3(а) — 3(а) + ашт(а), а > 0,
и все использованные ранее конструкции будем относить к нему как к целевому функционалу, снабжая верхним индексом а, например, На = Н + ая, На, уа и т.д. Кроме того, если дополнить систему (1.1) уравнением у = я(Ь,х,п), у(т) = 0 (чтобы иметь дело со стандартной задачей Майера), то по отношению к ней можно применять понятие слабого убывания ¿-функций вида
Ша(і,х,у) = р(ї,х) + ау, р ЄТ(С); (5.5)
оно равносильно возмущенному неравенству Гамильтона-Якоби
уа[р] = рь + На < 0 на С (5.6)
(т. к. зависимость Ша от у задана и уа не зависит от у, то в аргументе используем р). Через Фа+(С) обозначим множество функций р, для
которых Ша вида (5.5) удовлетворяет неравенству (5.6) и выполняется краевое условие
р(Ь1,х) > 1(х) — ¡(х(Ь1)) + ад1(х) на Кп
(ср. с (5.1)).
Теорема 5. Пусть для заданных а € Хт^, иТ(а), а > 0 дополненная система имеет выпуклый годограф на С. Если р € Ф^ +(7а), то
V (т, £) € С найдется такая стратегия
и(Ь,х) € а^штНа(Ь,х,рх,и), (5.7)
и&и
что любая соответствующая кривая Эйлера (х*(Ь), у*(Ь)), Ь € [т,Ь^ (с х* € ¿1](^,и(Ь,х)) и у*(т) = 0) дополненной системы удовлетво-
ряет неравенству
¡(х*(Ь)) — 3(а) < —а(д1(х*(Ь)) + у*(Ь)^. (5.8)
Это утверждение выводится с помощью теоремы 8.1 из [3] модификацией её входных данных — введением а, иТ, а (см. также [1], с. 138-141). Обратно, если в теореме 5 исключить всё, связанное с этими элементами, а правую часть в оценке (5.8) заменить на р(т,£), то получим упомянутую теорему.
Отметим, что стратегия (5.7), определяемая, возможно, неоднозначно, «привязана» к начальной позиции (т,£), т. е. не обладает свойством универсальности, подобном оптимальному синтезу. Выбор порядка (5.4) диктуется классом задачи (структурой системы (1.1)) и типичностью ^-минимума в этом классе [4]. Практически в большинстве случаев он квадратичен, причем зависимость ц от управления в общем случае нельзя игнорировать (хотя она доставляет некоторые неудобства) — отказ от неё ведет к сужению возможностей улучшения — имеются соответствующие примеры.
Заслуживает внимания еще один довод в пользу введения порядка и возмущения целевого функционала, помимо уже отмеченных выше: они расширяют шансы найти подходящую р. Это особенно наглядно проявляется уже на уровне классической задачи на минимум квадратичного функционала на подпространстве: если в ней а = 0 не минималь (т. е. нарушено условие Якоби), то улучшение а нельзя организовать без возмущения с помощью традиционного уравнения Риккати. Это обстоятельство учтено в методах улучшения из [11, 19].
К сожалению, в отношении основной проблемы — построения «улучшающей» р — в данный момент не существует более систематичных рекомендаций, нежели выбор линейно-квадратичной по отклонению х—
x(t) подходящей р с матричным уравнением (или неравенством) Рик-кати для гессиана (ограничение линейным уравнением для матричного импульса Габасова [18] не всегда приводит к цели — достаточно проанализировать примеры с упомянутым эффектом нарушения условия Якоби).
Известна целая серия оригинальных методов улучшения управления [18, 19], использующих «улучшающую» р линейно-квадратичной структуры. Все они укладываются в схему улучшения теоремы 5. Представляется недоразумением мотивировка ряда таких методов теоремой Кротова — в действительности используемые в них L-функции лишь слабо монотонны.
В заключении обратим внимание на следующий парадоксальный факт: в теории дифференциальных игр и смежных задачах [1, 12, 16, 17] методы построения субоптимальных стратегий на основе суперрешений уравнения Гамильтона-Якоби (т. е. слабо монотонных р) разрабатываются давно и систематично. Но в оптимальном управлении публикации в этом направлении единичны.
Список литературы
1. Субботин А. И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации / А. И. Субботин. — Москва-Ижевск: Институт компьютерных исследований, 2003. — 336 с.
2. Bardi M. Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman Equations / M. Bardi, I.C. Dolcetta. — Boston: Birkhauser, 1997. — 500 p.
3. Nonsmooth Analysis and Control Theory / F. H. Clarke, et al. — New York: Springer-Verlag, Grad. Texts in Math. 178, 1998. — 276 p.
4. Левитин Е. С. Условия высших порядков локального минимума в задачах с ограничениями / Е. С. Левитин, А. А. Милютин, Н. П. Осмоловский // Успехи мат. наук. — 1978. — Т. 33, №6. — C. 85-147.
5. Dykhta V. A. Lyapunov-Krotov Inequality and Sufficient Conditions in Optimal Control / V. A. Dykhta // J. of Mathematical Sciences. — 2004. — V. 121, №2. — P. 2156-2177.
6. Дыхта В. А. Неравенство Ляпунова-Кротова и достаточные условия в оптимальном управлении / В. А. Дыхта // Итоги науки и техники. Совр. математика и ее приложения. — 2006. — Т. 110. — С. 76-108.
7. Аргучинцев А. В. Оптимальное управление: нелокальные условия, вычислительные методы и вариационный принцип максимума / А. В. Аргучинцев,
B. А. Дыхта, В. А. Срочко // Изв. вузов. Математика. — 2009. — №1. —
C. 3-43.
8. Milyutin A. A. Calculus of Variation and Optimal Control / A. A. Milyutin, N. P. Osmolovskii. — Providence, Rhode Island: American Mathematical Society, 1998. — 372 p.
9. Кротов В. Ф. Методы и задачи оптимального управления / В. Ф. Кротов, В. И. Гурман. — М.: Наука, 1973. — 448 с.
10. Krotov V. F. Global Methods in Optimal Control Theory / V. F. Krotov. — New York: Marcel Dekker, 1996. — 408 p.
11. Гурман В. И. Принцип расширения в задачах управления / В. И. Гурман. — 2-е изд., перераб. и доп. — М.: Наука. Физматлит, 1997. — 288 с.
12. Гусейнов Х. Г. Сильно и слабо инвариантные множества относительно дифференциального включения, их производные и применение к задачам управления / Х. Г. Гусейнов, В. Н. Ушаков // Дифференц. уравнения. — 1990. — Т. 26, №11. — С. 1888-1894.
13. Frankowska H. Lower Semicontinuous Solutions of Hamilton-Jacobi-Bellman Equations / H. Frankowska // SIAM J. Control and Optimization. — 1993. — V. 31, №1. — P. 257-272.
14. Vinter R. Convex Duality and Nonlinear Optimal Control / R. Vinter // SIAM J. Control and Optimization. — 1993. — V. 31, №2. — P. 518-538.
15. Clarke F. H. Nonconvex Duality in Optimal Control / F. H. Clarke, C. Nour // SIAM J. Control and Optimization. — 2005. — V. 43, №6. — P. 2036—2048.
16. Красовский Н. Н. Позиционные дифференциальные игры / Н. Н. Красовский, А. И. Субботин. — М.: Наука, 1974. — 455 с.
17. Субботина Н. Н. Методы динамического программирования для класса ло-кально-липшицевых функций / Н. Н. Субботина // Доклады РАН. — 2003. — Т. 389, №2. — С. 169-172.
18. Срочко В. А. Итерационные методы решения задач оптимального управления / В. А. Срочко. — М.: Физматлит, 2000. — 160 с.
19. Батурин В. А. Приближенные методы оптимального управления, основанные на принципе расширения / В. А. Батурин, Д. Е. Урбанович. — Новосибирск: Наука, 1997. — 175 с.
V. A. Dykhta
Some Applications of Hamilton—Jacobi Inequalities in Optimal Control
Abstract. This paper is devoted to necessary and sufficient optimality conditions using Lyapunov type functions, i. e. solutions of Hamilton-Jacobi inequalities. The connection between these conditions and the w-order optimality criterions is analyzed. Improvement scheme for open loop and feedback control is proposed.
Keywords: monotonic Lyapunov functions; Hamilton-Jacobi inequalities; optimality conditions; improvement of control.
Дыхта Владимир Александрович, доктор физико-математических наук, профессор, главный научный сотрудник, Учреждение Российской академии наук Институт динамики систем и теории управления Сибирского отделения РАН, 664033, Иркутск, ул. Лермонтова, 134, тел.: (3952) 45-30-36, ([email protected])
Dykhta Vladimir, Institute of System Dynamics and Control Theory SB RAS, 134, Lermontova Str., Irkutsk, 664033, Principal research scientist, Phone: (3952) 45-30-36, ([email protected])