Серия «Математика»
2013. Т. 6, № 1. С. 89-100
Онлайн-доступ к журналу: http://isu.ru/izvestia
УДК 517.977
Линейно-квадратичная задача оптимального управления:
обоснование и сходимость нелокальных методов решения *
В. А. Срочко
Иркутский государственный университет
Е. В. Аксенюшкина
Байкальский государственный университет экономики и права
Аннотация. Рассматривается выпуклая линейно-квадратичная задача в классе методов нелокального спуска. Проводится обоснование единственности решений фазовой и сопряженной систем на максимизирующем управлении. Доказываются утверждения о сходимости итерационных методов по функционалу.
Ключевые слова: линейно-квадратичная задача; точные формулы приращения функционала; методы нелокального улучшения.
1. Постановка задачи. Необходимые соотношения
Пусть і є Т = [¿о, ¿і] — независимая переменная (время), х(і) = = (х1 (¿), ...,хп(¿)) — вектор-функция фазовых переменных (состояние), и(і) — управляющая функция (управление.)
Рассмотрим задачу минимизации квадратичного функционала
* Работа выполнена при финансовой поддержке РФФИ, грант №11-01-00713.
(1.1)
на множестве допустимых управлений
V = [u(-) Є PC(T) : u(t) Є [u-, u+], t Є T} (1.2)
относительно линейной системы
Х = А(і)х + Ъ(Ь)и, х(Ь0) = х°. (1.3)
Предположим, что в функционале (1.1) симметричные матрицы В, Q(t) неотрицательно определены, матричная функция А(і), вектор-функция Ъ(Ь) в фазовой системе (1.3) и матричная функция Q(t) в
(1.1) непрерывны на отрезке Т. Класс допустимых управлений (1.2) образуют кусочно-непрерывные функции и(і), і є Т с двусторонним ограничением.
Соотношения (1.1)-(1.3) определяют задачу (Р). Это выпуклая линейно-квадратичная задача оптимального управления, в которой принцип максимума является необходимым и достаточным условием оптимальности [4]. В рамках численного решения этой задачи наиболее эффективные методы носят нелокальный характер (отсутствие параметрического поиска) и связаны с точными формулами приращения функционала [1, 6] или достаточными условиями оптимальности [2, 5].
В данной работе получены результаты по обоснованию корректности процедур улучшения и сходимости соответствующих методов. Характерно, что в рассматриваемом случае задача на максимум функции Понтрягина эквивалентна операции проецирования. В результате появляются условия Липшица, что гарантирует существование и единственность глобальных решений фазовой и сопряженной систем для максимизирующего управления. Доказывается, что итерационные методы (прямой и двойственный) порождают минимизирующие последовательности управлений. В результате комбинации методов получена итоговая итерационная схема, которая по затратам на каждое улучшение (одна задача Коши) представляется наиболее эффективным средством численного решения задачи (Р).
Приведем необходимые конструкции для задачи (Р). Функция Понт-рягина
Н(ф, х, и, ¿) = {ф, А(і)х + Ь(ї)и) — ^(ж, €}{Ь)х) — ^и2 является строго вогнутой по переменной и, поэтому задача на максимум
(ф, Ь(і))и — ^и2 —> тах, и є [и~, и+}
имеет единственное решение
( (ф, Ъ(£)), (ф, Ъ($) є [и-, и+],
и*(ф,ї) = < и-, (ф, Ь(і)) < и-,
[ и+, (ф, Ь(і)) > и+.
Пусть п(-) — функция проецирования на [и-, и+]. Тогда максимизирующее управление представляется в форме проекции
и*(ф,і) = п((ф,Ь(і))), ф є Еп, і Є Т.
На основании известного свойства операции проецирования функция и*(ф, Ь) удовлетворяет условию Липшица по переменной ф на множестве Кп х Т.
Пусть и(Ь), у(Ь), Ь € Т — допустимые управления, х(Ь,и), х(Ь,ю) — соответствующие фазовые траектории.
Определим вектор-функцию ф(Ь,и), Ь € Т как решение первой сопряженной системы
ф = —А(Ь)тф + Q(t)x(t,u), ф(Ьг) = —с — Ох(Ьг,и). (1.4)
В силу выпуклости задачи (Р) имеет место оценка для приращения функционала
АуФ(и) > — а^и(ф(г,и),х(г,и),и(г),г)м,
т
в которой Ау И обозначает частное приращение функции И по управлению.
Поскольку функция И является вогнутой по и, то выполняется неравенство
Аф)И(ф(Ь, и),х(Ь, и),и(Ь),Ь) < Ии(ф(Ь,и),и(Ь),Ь)(у(Ь) — и(Ь)), Ь € Т.
Таким образом, в задаче (Р) принцип максимума и его дифференциальный вариант эквивалентны и справедлива оценка приращения
АуФ(и) >— Ии(ф(Ь,и),и(Ь),Ь)(у(Ь) — и(Ь))М. (1.5)
т
Приведем точные формулы приращения функционала в задаче (Р), которые являются основой для построения минимизирующих последовательностей управлений [6].
Введем в рассмотрение вторую сопряженную систему (матричную)
Ф = —А(Ь)т Ф — ФА(Ь) + Q(t), Ф(Ьг) = —Б
с решением Ф(Ь).
Первая формула представляется в виде
Ау Ф(и) = — А„а) И (р(Ь,и,х(Ь,у)),х(Ь,у),и(Ь),Ь)М, (1.6)
т
где вектор-функция р определяется выражением
р(Ь, и, х) = ф(Ь, и) + Ф(Ь)(х — х(Ь, и)). (1.7)
Вторая формула получается с помощью перестановки и и V
АуФ(и) = — Ауи\ И (р(Ь^,х(Ь,и)),х(Ь,и),и(Ь),Ь)М, (1.8)
т
причем вектор-функция р(Ь^,х(Ь,и)) удовлетворяет дифференциальной системе
р = —А(Ь)тр + Q(t)x(t, и) — Ф(Ь)Ь(Ь)^(Ь) — и(Ь)), р(Ьг) = ф(Ь\,и).
2. Процедуры улучшения. Обоснование
Возьмем за основу формулу приращения (1.5) и представим первую процедуру улучшения:
1) по данному допустимому процессу (и(Ь),х(Ь,и)) найдем решение ф(Ь,и), Ь € Т сопряженной системы (1.4);
2) образуем вектор-функцию р(Ь,и,х) согласно выражению (1.7) и сформируем вспомогательное управление
v*(x,t) = и*(р(Ь,и,х),Ь), х € Еп, Ь € Т;
3) найдем решение х(Ь), Ь € Т фазовой системы
х = А(Ь)х + Ь(Ь^* (х,Ь), х(Ь0 ) = х°. (2.1)
вместе с управлением v(t) = v*(x(t),t).
Поскольку х(Ь) = х(Ь,ю), то получаем допустимый процесс ^(Ь),
х(Ь^)). Переход и ^ V согласно описанной схеме обозначим в опера-
торной форме: V = Рг(и).
Проведем обоснование этой процедуры. Прежде всего проверим корректность задачи Коши (2.1). Для функции v*(x,t) с учетом определения и свойства операции проецирования имеем
^*(х + Ах,Ь) — v*(x,t)\ = \п((р(Ь,и,х + Ах),Ь(Ь))) —
—п((р(Ь,и,х),Ь(Ь)))\ <\(р(Ь,и,х + Ах) — р(Ь,и,х),Ь(Ь))\ =
= \(Ф(Ь) А х, Ь(Ь))\ < Ь У Ах У .
Здесь
Ь = тах У Ф(Ь)Ь(Ь) У, х, х + Ах € Яп, Ь € Т.
Таким образом, функция v*(x,t) удовлетворяет условию Липшица по переменной х на множестве Яп х Т. Следовательно, это условие справедливо для вектор-функции f (х,Ь) = А(Ь)х + Ь(Ь^*(х,Ь). На основании известной теоремы [3] заключаем, что решение х(Ь) системы
(2.1) существует и единственно на Т.
Проведем обоснование свойства улучшения по функционалу: Ф^) < Ф(и).
ЛИНЕЙНО-КВАДРАТИЧНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 93 Согласно определению функции H имеем
Hu(ÿ,n,t) = (ÿ,b(t))—u, Huu = — 1.
Управление v = Pi (u) определяется проекционным условием v(t) = n((p(t, u, x(t, v)), b(t))), что эквивалентно неравенству
(v(t) — (p(t,u,x(t,v)),b(t)))(v(t) — w) < 0, w G [u-,u+], t G T. Полагая здесь w = u(t) и учитывая формулу для Hu, получаем Hu(p(t, u, x(t, v)),v(t),t)(u(t) — v(t)) < 0, t G T.
С учетом формулы приращения (1.6) для v = Pi (u) имеем
&(u) = Au(t)H(p(t, u, x(t, v)),x(t, v),v(t),t)dt =
Jt
= I Hu('p(t, u, x(t, v)), v(t), t)(u(t) — v(t))dt — ^ I (u(t) — v(t))2dt.
Jt 2 Jt
В результате получаем оценку улучшения по функционалу для процедуры v = Pi(u)
Ф(г>) — Ф(и) < —^ [ (v(t) —u(t))2dt. (2.2)
2 Jt
Отсюда следует: $(v) = $(u) ^ v = u.
Равенство v(t) = u(t), t G T означает, что управление u(t) является оптимальным в задаче (Р).
Действительно, в этом случае
p(t,u,x(t,v)) = p(t,u,x(t,u)) = ÿ(t,u).
Тогда управление u(t) удовлетворяет принципу максимума: u(t) = = u*(ÿ(t,u),t), t G T, то есть является оптимальным.
Из оценки (2.2) следует, что процедура v = P1(u) улучшает любое неоптимальное управление u G V.
В заключение сформулируем критерий оптимальности в задаче (Р) на основе первой процедуры улучшения.
Теорема 1. Для оптимальности управления u G V в задаче (Р) необходимо и достаточно, чтобы Ф^) = Ф^), где v = Pi (u).
Следствие 1. Величина ê1(u) = Ф(u) — Ф^) является невязкой оптимальности для управления u G V в задаче (Р).
Замечание 1. Трудоемкость реализации процедуры — две векторные задачи Коши: поиск ^(Ь,и), х(1,у).
Возьмем за основу альтернативную формулу приращения (1.8) и опишем вторую процедуру улучшения:
1) по данному управлению и € V найдем решение х(Ь, и) фазовой системы (1.3);
2) найдем решение р(Ь), t € Т задачи Коши
р = -А(Ь)тр + Q(t)x(t,u) — Ф(Ь)Ь(Ь)(и*(р,Ь) — и(Ь)), (2.3)
р(£1) = —с — Бх^хи)
вместе с управлением у(£) = и*^^)^), £ € Т.
Переход и ^ V согласно данной схеме обозначим: V = Р2(и). Отметим, что в обозначениях (1.8) р(£) = р(£^,х(£,и)).
Обоснование представленной процедуры проводится вполне аналогично предыдущему. Функция и*(р,£) = п({р, Ь(£)}) удовлетворяет условию Липшица по переменной р на множестве Яп х Т. Следовательно, правая часть р — системы обладает этим свойством, т. е. решение р(£) задачи Коши (2.3) существует и единственно на Т.
Обоснуем свойство улучшения. Управление V = Р2(и) определяется условием
v(t) = и*(р^, V, х(£, и))^) = п((р(£, V, х(Ь, и)),Ь(£)}),
что приводит к неравенству
Ни(р(Ь, V, х(Ь, и))^(£),£)(и(£) — v(t)) < 0, £ € Т.
На основании формулы приращения (1.8) получаем оценку улучшения по функционалу для процедуры V = Р2(и) в виде неравенства
(2.2).
Дальнейшие заключения сохраняются с естественным изменением в обозначениях.
3. Первый метод последовательных приближений
Итерационный метод на основе первой процедуры улучшения формулируется элементарно
ик+1 = Рх(ик), к = 0,1,...
Здесь ик(■) € V, хк(^ = х^,ик), фк({) = ^(Ь,ик)(входная информация). Согласно свойству процедуры на выходе имеем:
ик+1(Ь) = и^р^1^)^), хк+1(Ь) = х&ик+1),
рк+1(Ь) = фк(Ь) + Ф(Ь)(хк+1(Ь) — хк(Ь)), t € Т.
Оценка улучшения по функционалу представляется неравенством
Ф(ик) - Ф(ик+1) >\ [ {ьк{Ь) - ик+1(г))2М, (3.1)
2 Jт
невязка оптимальности есть величина приращения ¿1 (ик) = Ф(ик) —
—Ф(ик+1).
Поскольку функционал Ф(и) ограничен снизу на V и последовательность {Ф(ик)} монотонно убывает, то имеет место сходимость по невязке оптимальности: 51(ик) ^ 0, к -^ж.
Докажем основной результат, что последовательность {ик} является минимизирующей, то есть Ф(ик) ^ Ф(и*), к ж, где и* - оптимальное управление.
В соответствии с методом имеем
ик+1(Ь) = п(ик(Ь) + Ни(рк+1(Ь),ик(Ь),Ь)), t € Т. (3.2)
Воспользуемся свойством проекции
(ик+1(Ь) — ик(Ь) — Ни(рк+1 (Ь) ,ик(Ь),Ь))(ик+1(Ь) — ш) < 0, (3.3)
ш € [и- ,и+].
Отсюда получаем неравенство
Ни(рк+1(Ь),ик(Ь),Ь))(ш — ик+1(Ь)) < (ик+1(Ь) — ик(Ь))(ш — ик+1(Ь)). (3.4)
Поскольку
Ни(рк+1(Ь),ик (Ь),Ь)) = Ни(фк (Ь),ик (Ь),Ь)) + (Ф(Ь)(хк+1(Ь) — хк (Ь)),Ь(Ь)},
то предыдущее неравенство принимает вид
Ни(фк(Ь),ик(Ь),Ь))(ш — ик+1(Ь)) < (ик+1(Ь) — ик(Ь))(ш — ик+1(Ь)) +
+(Ф(Ь)(хк+1(Ь) — хк (Ь)),Ь(Ь)}(ик+1 (Ь) — ш), (3.5)
ш € [и-,и+], Ь € Т.
Далее, обратимся к оценке (1.5). Представим ее в виде
Ф(и) — Ф^) < Ни(ф(Ь,и),и(Ь),Ь)^(Ь) — и(Ь))М. (3.6)
т
Положим здесь и = ик, V = и* и воспользуемся представлением и*(Ь) — ик (Ь) = (и*(Ь) — ик+1(Ь)) + (ик+1(Ь) — ик (Ь)).
Тогда
Ф(пк) - Ф(п*) < I ии(фк(і),пк(і),і)(п*(і) — пк+\г))йг+
Jт
+ [ ии(фк(і),пк(і),і)(пк+1(і) - пк(і))сМ. т
С учетом неравенства (3.5) при ш = п*(і) приходим к следующей оценке приращения
Ф(пк) — Ф(п*) < ( (п*(і) — пк+1(і))(пк+1(і) — пк(і))М+ т
+ ( (Ф(і)(хк+1(і) — хк(і)),Ь(і))(пк+1 (і) — п*(і))М+ т
+ [ Ии(фк(і),пк(і),і)(пк+1(і) — пк(і))М. т
Рассмотрим приращение ук(і) = хк+1(і) — хк(і). В силу фазовой системы получаем
ук (і) = А(і)ук (і) + Ь(і)(пк+1(і) — пк (і)), ук (іо) = 0.
По формуле Коши
ук(і) = ¥(і) І ¥-1(т)Ь(т)(пк+1 (т) — пк(т))йт,
■п0
где ¥ (і) - фундаментальная матрица: ¥ = А(і)¥, ¥ (і0) = Е.
Следовательно, имеет место оценка фазового приращения (векторная и матричная нормы согласованы)
II ук (і) ||<|| ¥ (і) || / || ¥-1(і) (ЦІ Ь(і) || \пк+1(і) — пк (і)\йі < т
< С1 [ \пк+1(і) — пк(і)\4і.
т
Кроме того, используем оценки ограниченности, не зависящие от номера к:
\пк+1(і) — п*(і)\ < \п+ — п-\,
II хк(і) ||< С2, || Фк(і) ||< Сз, і Є Т.
Отсюда
\ Ии(фк(і),пк(і),і)\ <|| фк(і) |||| Ь(і) II + \пк(і)\ < С4, і Є Т.
В результате приходим к следующему неравенству для приращения функционала
Ф(ик) — Ф(и*) < С I \ик+1(Ь) — ик(Ь)\йЬ. т
С учетом известного неравенства
/•*1 _______ Г*1 1
\и^)\(И < л/^1 — ¿о( -и2(£)сй)2
0 Jto
вместе с (3.1) получаем итоговую оценку приращения функционала
Ф(ик) - Ф(и*) < л/2(Ь - Ь)С(Ф(ик) - Ф(ик+1))12 =
В результате приходим к утверждению о сходимости.
Теорема 2. Итерационный метод ик+1 = Р1(ик), к = 0,1,... порождает минимизирующую последовательность управлений.
Замечание 2. Условие остановки метода можно сформулировать в виде неравенства для невязки оптимальности: 51(ик) < е. Вычислительные затраты на итерацию — две задачи Коши
4. Второй метод последовательных приближений
Определим итерационный метод на основе второй процедуры улучшения: пк+1 = Р2(пк), к = 0,1,...
Согласно построению пк+1(і) = п*(рк+1(і),і), где рк+1(і) — решение системы
р = —А(і)тр + Q(і)xk (і) — Ф(і)Ь(і)(п* (р,і) — пк (і)),
р(і1) = —с — Бхк (і1).
Альтернативное выражение для рк+1(і) имеет вид
рк+1(і) = р(і, пк+1 (і),хк(і)) = фк+1 (і) + Ф(і)(хк(і) — хк+1(і)). (4.1)
Свойства метода (оценка улучшения функционала, невязка оптимальности, сходимость по невязке) полностью идентичны характеристикам первого метода.
Докажем, что последовательность {пк} является минимизирующей.
Соотношения (3.2)-(3.4) первого метода сохраняются. В соответствии с формулой (4.1) неравенство (3.5) изменяется следующим образом
Ии(фк+1(і),пк(і),і)(ш — пк+1(і)) < (пк+1(і) — пк(і))(ш — пк+1(і))+
+(ф(г)(хк+1(г) — хк (г)),ь(г))^ — ик+1(г)), (4.2)
w е [и-,и+], Ь е Т.
Неравенство (3.6) рассмотрим для и = ик+1, V = и*
Ф(ик+1) — Ф(и*) < I Ии(фк+1(Ь),ик+1(Ь),Ь)(и*(Ь) — ик+1(^)М.
]т
Поскольку Ии(ф,и,Ь) = {ф,Ь(Ь)) — и, то справедливо представление Ии(фк+1(Ь), ик+1 (Ь), Ь) = Ии(фк+1(Ь), ик(Ь), Ь) + ик(Ь) — ик+1 (Ь). Следовательно, имеет место неравенство
Ф(ик+1) — Ф(и*) < ( Ии(фк+1 (Ь) ,ик(Ь),Ь)(и*(Ь) — ик+1(Ь))М— т
— I (ик+1(1) — ик(Щи* (ь) — ик+1(г))(и. т
С учетом неравенства (4.2) при w = и*(Ь) приходим к оценке
Ф(ик+1) — Ф(и*) < I {Ф(Ь)(хк+1(Ь) — хк($),Ь(Щи*(Ь) — ик+1(Щи. т
Дальнейший вывод повторяет соответствующий фрагмент доказательства теоремы 2. В результате получаем итоговую оценку
Ф(ик+1) - Ф(-и*) < С{Ф{ьк) - Ф(ик+1))12 = С52(ик)12,
которая обеспечивает свойство сходимости: Ф(ик+1) ^ Ф(и*), к ^ ж. Затраты на итерацию сохраняются.
5. Комбинированный метод
В п. 3, 4 были построены два независимых метода улучшения допустимых управлений в задаче (Р), равносильные по трудоемкости реализации (цена одного улучшения — две задачи Коши). Оказывается, что оба метода можно естественным образом состыковать и получить комбинированный метод, который в пределах той же трудоемкости обеспечивает двойное улучшение по функционалу (цена каждого улучшения — одна задача Коши). Этот метод представляется наиболее эффективной процедурой численного решения задачи (Р).
Пусть на к-й итерации имеется допустимый процесс (ик(Ь),хк(Ь)), Ь е Т.
Найдем решение рк(Ь), Ь е Т комбинированной системы
р = —А(Ь)тр + Q(t)xk (Ь) — Ф(Ь)Ь(Ь)(и* (р,Ь) — ик (Ь)),
р(Ь1) = —с — Бхк (Ь1) вместе с промежуточным управлением
vk(Ь) = и*(рк(Ь),Ь), Ь е Т.
Сформируем вектор-функцию
р(Ь, vk,х) = рк(Ь) + Ф(Ь)(х — хк(Ь))
и вспомогательное управление
wk (х,Ь) = и*(р(Ь^к ,х),Ь).
Найдем решение хк+1(Ь), Ь е Т фазовой системы
х = А(Ь)х + Ь(t)wk (х,Ь), х(Ь0) = х°
в совокупности с управлением
ик+1(Ь)= wk(хк+1(Ь),Ь), Ь е Т.
Итерация завершена.
Прокомментируем метод. Промежуточное управление vk получено на основе ик как итерация второго метода: vk = Р2(ик). Следовательно, Ф^к) < Ф(ик), причем
рк(Ь) = ф(Ь, vk) + Ф(Ь)(хк(Ь) — х(Ь, vk)).
Тогда
р(Ь, vk, х) = ф(Ь, vk) + Ф(Ь)(х — х(Ь, vk)).
Это значит, что переход vk ^ ик+1 есть реализация первого метода улучшения: ик+1 = Р^к), поэтому Ф(ик+1) < Ф^к).
Таким образом, в процессе итерации комбинированного метода происходит двойное улучшение по функционалу Ф(ик+1) < Ф^к) < Ф(ик), и каждое улучшение дается ценой решения одной задачи Коши.
Сходимость комбинированного метода по невязке 5(ик) = Ф(ик) — —Ф(ик+1) вполне очевидна. Утверждение о минимизирующей последовательности {ик} является следствием соответствующих результатов для первого и второго методов.
Список литературы
1. Аргучинцев А. В. Оптимальное управление: нелокальные условия, вычислительные методы и вариационный принцип максимума / А. В. Аргучинцев,
В. А. Дыхта, В. А. Срочко // Изв. вузов. Математика. - 2009. - № 1. - С. 3-43.
2. Батурин В. А. Приближенные методы оптимального управления, основанные на принципе расширения / В. А. Батурин, Д. Е. Урбанович // Новосибирск : Наука, 1997. - 175 с.
3. Васильев Ф. П. Методы оптимизации / Ф. П. Васильев // М. : Факториал Пресс, 2002. - 824 с.
4. Габасов Р. Принцип максимума в теории оптимального управления / Р. Габа-сов, Ф. М. Кириллова - М. : Либроком, 2011. - 175 с.
5. Кротов В. Ф. Управление квантовыми системами и некоторые идеи оптимального управления / В. Ф. Кротов // Автоматика и телемеханика. - 2009. - № 3. -
С. 15-23.
6. Срочко В. А. Итерационные методы решения задач оптимального управления / В. А. Срочко. - М. : ФИЗМАТЛИТ, 2000. - 160 с.
V. A. Srochko, E. V. Aksenyushkina
Linear-quadratic problem of optimal control: justification and convergence of nonlocal methods
Abstract. A convex linear-quadratic problem is considered in the class of methods of nonlocal improvement. The uniqueness of solutions of phase and conjugate systems for maximization control is justified. The convergence theorems for iterative methods are proved.
Keywords: linear-quadratic problem; special formulas for functional; methods of nonlocal improvement.
Срочко Владимир Андреевич, доктор физико-математических наук, профессор, Институт математики, экономики и информатики, Иркутский государственный университет, 664003, Иркутск, ул. К. Маркса, 1 тел.: (3952) 521241 ([email protected])
Аксенюшкина Елена Владимировна, кандидат физико-математических наук, доцент, Байкальский государственный университет экономики и права, 664015, Иркутск, ул. Ленина, 11 тел.: (3952)242819 ([email protected])
Srochko Vladimir, Irkutsk State University, 1, K. Marks St., Irkutsk, 664003, professor, phone: (3952) 521241 ([email protected])
Aksenyushkina Elena, Baikal National University of Economics and Law,
11, Lenin St., Irkutsk, 664015, associated professor, phone: (3952)242819 ([email protected])