УДК 517.977
Д.О. Трунин
НЕЛОКАЛЬНОЕ УЛУЧШЕНИЕ УПРАВЛЕНИЙ В ПОЛИНОМИАЛЬНЫХ ПО СОСТОЯНИЮ СИСТЕМАХ С ТЕРМИНАЛЬНЫМИ ОГРАНИЧЕНИЯМИ
В статье предлагается процедура нелокального улучшения управлений в классе полиномиальных по состоянию задач оптимального управления с терминальными ограничениями на основе операции проектирования.
Ключевые слова: задача оптимального управления, нелокальное улучшение, терминальные ограничения.
В работах [1, 2] в классе линейных и полиномиальных по состоянию задач оптимального управления со свободным правым концом построены методы нелокального улучшения управлений, основанные на нестандартных формулах приращения функционала без остаточных членов разложений. Отсутствие операции варьирования управлений и возможность улучшения управлений, удовлетворяющих принципу максимума, обусловливают повышенную эффективность построенных методов. В данной статье предлагается процедура нелокального улучшения допустимых управлений в классе полиномиальных по состоянию задач оптимального управления с терминальными ограничениями на основе операции проектирования. Нелокальность улучшения с выполнением всех терминальных ограничений обеспечивается за счет решения специальной краевой задачи, которая существенно проще краевой задачи принципа максимума.
1. Постановка задачи
Рассматривается полиномиальная по состоянию и линейная по управлению задача оптимального управления с одним терминальным ограничением
в которой х = ( х^), х2^),..., хп (г)) - вектор состояния, и = (и1(0, и2(?),..., ит (г)) - вектор управления, интервал Т фиксирован, х0 е Яп, с = (с1, с2,..., сп) - заданные векторы, с1 = 0, х11 е Я , матричная функция А(х, 0 и вектор-функция Ь(х, 0 являются полиномиальными по х степени I > 1 с коэффициентами, непрерывно зависящими от t на Яп X Т .
В качестве доступных управлений рассматривается множество кусочно-непрерывных функций со значениями в компактном множестве и с Ят
Для доступного управления и е V обозначим х(^ и), t е Т - решение задачи Коши (1) при и = и(0,
D.O. Trunin
NONLOCAL IMPROVING CONTROL IN POLYNOMIAL ON A STATE SYSTEMS
WITH TERMINAL CONSTRAINTS
In this article the non-local procedure for control improvement in polynomial on state problems with terminal constraints based on projective operation is proposed.
Keywords: optimal control problem, nonlocal improving, terminal constraints.
Введение
x = A( x, t )u + b( x, t), t gT = [t0, tj ], x(t0) = x0, u(t)g U, tgT = [t0, tj],
(1)
(2)
(3)
(4)
xj (tj) = xjj,
У ={ug PCm(T):u(t)gU, tg T}.
t g T.
Определим множество допустимых управлений
W ={u Gy : xj(tj, u) = xj1} .
Для задачи (1)-(4) функция Понтрягина с сопряженной переменной р е Яп имеет вид
Н (р, х, и, t) = Н0( р, х, t) + (Н1( р, х, t), и), где Н0(р,х,t) = (р, Ь(х,t)), Н1(р,х,t) = А(х,t)Тр .
Рассмотрим нормальный функционал Лагранжа
Ь(и,Л) = (с,х(^)) + Л(x1(t1) - х11), Ле Я.
Приращение функционала Лагранжа на паре доступных управлений (и0, V) в соответствии с [2] имеет вид
АуЬ(и0,Л) = {Н1(p(t,и0,v,Л),x(t, V),0, v(t) - иа(г)^йг , (5)
где р(г,и0,v,Л) - решение модифицированной сопряженной системы
р = -Нх- 2^Нх, ^-... - Нх, 4, г)х-, 1)х ’ (6)
Pl(tl) = -Л, (7)
р,- (^) = -с,, , = 2, п, (8)
где частные производные по х подсчитываются при значениях аргументов х = х(^ и0), и = и°(0 и г = х(^ V) - x(t, и0).
Для управления и0 е V образуем аналогично [1, 2] вектор-функцию
иа(р,х,t) = Ри (и°(0 + аН 1(р,х,t)), ре Яп, хе Яп, а> 0, где Ри - оператор проектирования на множество и в евклидовой норме.
Функция иа(р, х, t) непрерывна по совокупности (р, х) на Яп XЯп и кусочно-непрерывна по t е Т, причем имеет место оценка [1, 2]
1 2
(Н1(р,х,0, иа(р,х,0 -и°(0) > —иа(р,х,t) -и°(0 . (9)
\ 'а11 11
Регулярный принцип максимума для допустимого управления и0 = и) записывается в виде
и°(0 = иа(р(^и0,и0,Л),х(^и0),t), tе Т, а> 0. (10)
2. Процедура нелокального улучшения
Поставим задачу улучшения управления и0 еШ: найти управление V еШ со свойством
Ф^) <Ф(и0).
Процедура нелокального улучшения.
1. Для заданного а> 0 найдем решение (х(0, р(0), t еТ краевой задачи
х = А(х, t)иа(р, х, t) + Ь(х, t), t е Т ,
x(t0) = х0, хД^) = х1, (11)
р =- Нх - ^ Нх. 4 -...-!,(-((Нх, 4, ^.... 4, ■
р, (tl) = -с,, , = 2, п,
где частные производные по х подсчитываются при значениях аргументов х = х(^ и0), и = и°(0 и г = х^) - х^,и0).
2. Сформируем управление
v(t) = иа(p(t), x(t), t), t е Т .
Предположим, что решение (х(0, р^)), t е Т краевой задачи (11) (возможно, не единственное) существует на Т.
Понятно, что х^) = x(t, v) и v еШ .
Покажем свойство улучшения для выходных управлений.
Действительно, решение р(/), t е Т является решением системы дифференциальных уравнений (6)
при х = х^,и0), и = и°(0, г = х(^v)-х(^и0) и удовлетворяет краевому условию (8).
Обозначим
Л = -р1(0.
Тогда р^) = р^, и0, v,Л), t е Т.
Согласно формуле приращения (5) выходное управление v обеспечивает невозрастание функционала Лагранжа
L(v,Л) < Ь(и0,Л).
Следовательно, в силу допустимости управлений и0, v получаем
Ф(v) <Ф(и0).
Рассмотрим множество управлений на выходе процедуры улучшения
Ш1(и0) ={vе Ш : v(t) = иа(р^,и0,v,Л),x(t,v),0, tе Т} .
Множество Ш1 (и0) характеризуется поточечным соотношением в пространстве управлений
v(t) = иа(р(^и0,v,Л),x(t,v),t), tе Т .
Очевидным следствием этого соотношения является следующее утверждение.
Лемма. и0 еШ1(и0) тогда и только тогда, когда управление и0 еШ удовлетворяет регулярному принципу максимума (10).
Из леммы следует, что краевая задача улучшения (11) для управления и0 е Ш , удовлетворяющего регулярному принципу максимума, имеет хотя бы одно решение.
Отметим, что в силу оценки (9) выходное управление обеспечивает строгое улучшение целевого функционала, если управления и0 и v не совпадают.
Неединственность решения краевой задачи улучшения (11) дает возможность строгого улучшения управления и0 е Ш , удовлетворяющего принципу максимума в регулярном случае.
Выделим свойства краевой задачи (11), упрощающие ее по сравнению с краевой задачей принципа максимума.
1. В краевой задаче (11) уравнения для сопряженных переменных являются полиномиальными степени I -1 по х и линейными по р.
2. В краевой задаче (11) правые части для фазовых переменных являются непрерывными по совокупности аргументов (р, х) на Яп X Яп.
Предложенная процедура дает принципиальную возможность осуществления нелокального улучшения на множестве допустимых управлений в рассматриваемом классе задач. Трудоемкость построения улучшающего управления с выполнением всех терминальных ограничений определяется трудоемкостью решения непрерывной краевой задачи улучшения.
Подчеркнем нелокальность улучшения: отсутствует малый параметр, характеризующий близость улучшаемого и улучшающего управлений. Процедура имеет возможность улучшения управлений, удовлетворяющих принципу максимума за счет неединственности решения краевой задачи улучшения. В случае, когда краевая задача улучшения не имеет решения, рассматриваемая процедура не действует и следует перейти к другим процедурам улучшения.
3. Вычислительные аспекты
Для решения краевой задачи (11) применяется метод возмущений, разработанный в [2].
Проиллюстрируем этот метод для квадратичной по состоянию задачи (1)-(4).
Соответствующая краевая задача улучшения имеет вид
х = А(х, t)иа(р, х, 0 + Ь(х,0, t е Т,
р = -Нх(р,х(^и0),и),0 -1 Нх(р,х(^и0),и0^),t)(х - х^,и0)),
х^0) = х0, хД^) = х , (12)
р, (Ч) = -с,, 1 = 2 п.
Введем в рассмотрение возмущенную краевую задачу с параметром £ G [0, 1] :
x = A(x,t)ua (p,x,t) + b(x,t), tg T ,
p = -Hx(p,x(t,u0),u0(t),t) -£Hx(p,x(t,u0),u0(t),t)(x-x(t,u0)),
x(t0) = x0, x1(t1) = x , (13)
pi (t1) = -ci, i = 2, n.
Отметим, что исходная краевая задача (12) получается при £ = 1. При £ = 0 задача называется невозмущенной.
Решение невозмущенной задачи сводится к решению одного алгебраического уравнения относительно неизвестного параметра a g R.
Действительно, для параметра a g R обозначим через p*(t, a), t G T решение задачи Коши
p = -Hx(p,x(t,u0),u0(t),t),
pl(tl) = a , pi (t1) = -Ci, i = 2,n.
Пусть x*(t, a), t gT - решение фазовой системы
x = A(x, t)ua(p*(t, a), x, t) + b(x, t), t g T , x(t0) = x0.
Пара (x*(t, a), p (t, a)), t g T является решением невозмущенной краевой задачи тогда и только тогда, когда выполняется условие
x1(t1, a) = xj. (14)
Таким образом, невозмущенная краевая задача сводится к уравнению (14) относительно параметра
a g R.
Аналогично [2] для решения возмущенной краевой задачи (13) можно применить следующий итерационный процесс
xk+1 = A(xk+1, t)ua( pk+'(t), xk+1, t) + b( xk+1, t), t gT ,
x(t0) = x0, xl(tl) = xj, (16)
pk+1 = -Hx (pk+1, x(t, u0), u0 (t), t) - £ Hxx(pk (t), x(t, u0), u0 (t), t) (xk (t) - x(t, u0)),
pi (t1) = -Ci, г' = ^ n.
На каждой итерации процесса (16) решается задача, по трудоемкости аналогичная невозмущенной. В качестве начального приближения (x°(t), p°(t)), t g T выбирается решение невозмущенной задачи.
Итерационный процесс возмущений (16) продолжается до первого улучшения целевого функционала.
Ф(^ ) <Ф^0), uk (t) = ua(pk (t), xk (t), t), t G T .
Заключение
Предлагаемая процедура обеспечивает нелокальное улучшение допустимых управлений без процедуры варьирования по малому параметру с выполнением всех терминальных ограничений. Это свойство является существенным фактором повышения эффективности решения задач оптимального управления с терминальными ограничениями.
Литература
1. Срочко В.А. Итерационные методы решения задач оптимального управления. - М.: Физматлит, 2000. - 160 с.
2. Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. - Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. - 260 с.
Трунин Дмитрий Олегович, кандидат физико-математических наук, старший преподаватель кафедры прикладной математики Бурятского государственного университета, e-mail: hint@rambler.ru, тел. +7(3012)217733
Trunin Dmitry Olegovich, Candidate of Physics and Mathematics Science, senior teacher of applied mathematics department of Buryat State University.