УДК 517.977 ББК 22.193
© Д. О. Трунин
Россия, Улан-Удэ, Бурятский государственный университет E-mail: hint@rambler.ru
ПРОЕКЦИОННАЯ ПРОЦЕДУРА НЕЛОКАЛЬНОГО УЛУЧШЕНИЯ В ПОЛИНОМИАЛЬНЫХ ПО СОСТОЯНИЮ ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С ТЕРМИНАЛЬНЫМИ ОГРАНИЧЕНИЯМИ 1
В статье предлагается процедура нелокального улучшения управлений в классе полиномиальных по состоянию задач оптимального управления с терминальными ограничениями.
Ключевые слова: Задача оптимального управления, нелокальное улучшение, проекционная процедура.
© D.O. Trunin
Russia, Ulan-Ude, Buryat State University E-mail: hint@rambler.ru
PROJECTING PROCEDURE OF NONLOCAL IMPROVING CONTROL IN POLYNOMIAL OPTIMAL CONTROL PROBLEMS WITH TERMINAL CONSTRAINTS
In this article the non-local procedure for control improvement in polynomial on state problems with terminal constraints is proposed.
Key words: optimal control problem, nonlocal improving, projecting procedure.
Введение
В работах [1, 2] в классе линейных и полиномиальных по состоянию задач оптимального управления со свободным правым концом построены методы нелокального улучшения, основанные на нестандартных формулах приращения функционала без остаточных членов разложений. Отсутствие операции варьирования управлений на каждой итерации и возможность улучшения управлений, удовлетворяющих принципу максимума, обусловливают повышенную эффективность построенных методов. В данной статье предлагается процедура нелокального улучшения допустимых управлений в полиномиальных по состоянию задачах оптимального управления с терминальными ограничениями. Нелокальность улучшения управления с учетом выполнения всех ограничений обеспечивается ценой решения специальной краевой задачи, которая существенно проще краевой задачи принципа максимума. Разработанный метод имеет возможность улучшать управления, удовлетворяющие принципу максимума, за счет неединственности решения краевой задачи улучшения.
1. Постановка задачи
Рассматривается полиномиальная по состоянию и линейная по управлению задача оп-
тимального управления с одним терминальным ограничением
х& = А(х,()и + Ь(х,t), tе T = [^, ^], х(^) = я0, (1)
и^)е и, tе Т = [^, ^], (2)
Ф(и) = {е, х(^ )} ® шт, (3)
Х1(^ = х/, (4)
в которой х = (х^),х2^),...,хп(1;)) - вектор состояния, и = (и1(1:),и2(^,...,ит^)) - вектор
управления, интервал T фиксирован, x0 е Rn, c = (c1,c2,...,cn) - заданные векторы, c1 = 0,
1 Работа выполнена при финансовой поддержке РФФИ (проекты 08-01-00945-а, 09-01-90203-Монг-а), РГНФ (проект 09-02-00493-а).
х11 е Я, матричная функция А(х, £) и вектор-функция Ь(х, £) являются полиномиальными по
х степени I > 1 с коэффициентами, непрерывно зависящими от £ на Яп X Т.
В качестве доступных управлений рассматривается множество кусочно-непрерывных функций со значениями в компактном множестве и с Ят
V = {и е РСт (Т): и(£) еи, £ е т} .
Для каждого доступного управления и е V обозначим х(£, и), £ е Т - решение задачи Коши (1) при и = и(£).
Определим множество допустимых управлений
Ж ={и е V : х1(£1, и) = х11} .
За счет увеличения размерности по состоянию к задаче вида (1)-(4) может быть сведена общая полиномиальная по состоянию и линейная по управлению задача оптимального управления с функциональными ограничениями-равенствами, в которой функционалы, задающие цель и ограничения, имеют соответственно вид
Ф0 (и) ® шт, Ф, (и) = 0, г = 1, я, я > 1,
Ф (и) = % (х(£1 )) + \т [Лг (Х, О + (& (Х, £X и)] ^, 1 = 0, Я .
Здесь функции % (х), г = 0, я являются многочленами степени 11 > 1 на Яп, функции
(х, £), gi (х, £), г = 0, я являются полиномиальными по х степени 11 > 1 с коэффициента-
ми, непрерывно зависящими от £ на Яп X Т.
Для задачи (1)-(4) функция Понтрягина с сопряженной переменной р е Яп имеет вид
Н (р, х, и, £) = Н0 (р, х, £) + (Н1 (р, х, £), и),
где Н0(р, х, £) = (р, Ь(х, £)^, Н1(р, х, £) = А(х, £)Тр .
Рассмотрим нормальный функционал Лагранжа
Ь(и,Л) = (е,х(^)) + х1(£1)-х11), 1 е Я .
Приращение функционала Лагранжа на паре доступных управлений (и0, V) в соответствии с [2] имеет вид
Д^(и0,1) = -1 (И1 (р(£, и0, V, 1), х(£, V), £), v(£) - и0 (£)^ &, (5)
где р(£, и0, V, 1) - решение модифицированной сопряженной системы
р =- Нх - ^ Нх , ^ - ... - 7,(..'((Нх , 2)х , 4 ..., ^ , (6)
х' ' х 1х
МО = -1, (7)
рг (£1) = -сг, г = 2, п, (8)
где частные производные по х подсчитываются при значениях аргументов х = х(£, и0 ) ,
и = и 0(£) и г = х(£, V) - х(£, и0).
Для управления и0 е V образуем аналогично [1, 2] вектор-функцию
иа( р, х, £) = Ри (и 0(£) + аН1( р, х, £)), р е Яп, х е Яп, а > 0,
где Ри - оператор проектирования на множество и в евклидовой норме.
Функция иа(р, х, £) непрерывна по совокупности (р, х) на Яп XЯп и кусочнонепрерывна по £ еТ , причем имеет место оценка [1, 2]
1 2
Н1(р, х, £), иа(р, х, £) - и0(£)) > —||и“(р, х, £) - и0 (£ )| . (9)
' а11 11
Регулярный принцип максимума для допустимого управления и0 = и0 (£) записывается в виде
и 0(£) = иа( р(£, и0, и °,Л), х(£, и0), £), £ е Т, а> 0. (10)
2. Процедура нелокального улучшения
Поставим задачу улучшения управления и0 е Ж : найти управление V е Ж со свойством Ф^) <Ф(и0).
Процедура нелокального улучшения.
1. Для заданного а> 0 найдем решение (х(£), р(£)), £ е Т краевой задачи
х = А(х, £)иа(р, х, £) + Ь(х, £), £ е Т,
х(£0) = Л х1(0 = х1, (11)
р = -Нх- 2^Нх,^х-.••-7|(-((Н,4,2)х •г р, (О = , г = 2 п,
где частные производные по х подсчитываются при значениях аргументов х = х(£,и0) , и = и 0(£) и г = х(£) - х(£, и0).
2. Сформируем управление
v(t) = иа(р(£), х(£), £), £ е Т.
Предположим, что решение (х(£), р(£)), £ е Т краевой задачи (11) (возможно, не единственное) существует на Т.
Понятно, что х(£) = х(£, V) и V е Ж.
Покажем свойство улучшения для выходных управлений.
Действительно, решение р(£), £ е Т является решением системы дифференциальных уравнений (6) при х = х(£, и0), и = и 0(£), г = х(£, V) - х(£, и0) и удовлетворяет краевому условию (8).
Обозначим
^=-р1 (£1 ).
Тогда р(£) = р(£, и0, VI), £ е Т.
Согласно формуле приращения (5) выходное управление V обеспечивает невозрастание функционала Лагранжа
Ь^,1) < Ь(и0,1).
Следовательно, в силу допустимости управлений и0, V получаем
Ф^) <Ф(и0).
Рассмотрим множество управлений на выходе процедуры улучшения
Ж1(и0) = {Vе Ж : v(£) = иа(р(£,и0, v,1), х(£, V),£), £е Т} .
Множество Ж1(м0) характеризуется поточечным соотношением в пространстве управлений
v(t) = иа(р(£,и0, v,1), х(£, V),£), £е Т .
Очевидным следствием этого соотношения является следующее утверждение.
Лемма. и0 еЖ1(и0) тогда и только тогда, когда управление и0 еЖ удовлетворяет регулярному принципу максимума (10).
Из леммы следует, что краевая задача улучшения (11) для управления и0 е Ж , удовлетворяющего регулярному принципу максимума, имеет хотя бы одно решение.
Отметим, что в силу оценки (9) выходное управление обеспечивает строгое улучшение целевого функционала, если управления и0 и V не совпадают.
Неединственность решения краевой задачи улучшения (11) дает возможность строгого улучшения управления и0 е Ж, удовлетворяющего принципу максимума в регулярном случае.
Выделим свойства краевой задачи (11), упрощающие ее по сравнению с краевой задачей принципа максимума.
1. В краевой задаче (11) уравнения для сопряженных переменных являются полиномиальными степени 7 -1 по х и линейными по р.
2. В краевой задаче (11) правые части для фазовых переменных являются непрерывными по совокупности аргументов (р, х) на Яп XЯп.
Предложенная процедура дает принципиальную возможность осуществления нелокального улучшения на множестве допустимых управлений в рассматриваемом классе задач. Трудоемкость построения улучшающего управления с выполнением всех терминальных ограничений определяется трудоемкостью решения непрерывной краевой задачи улучшения.
Подчеркнем нелокальность улучшения: отсутствует малый параметр, характеризующий близость улучшаемого и улучшающего управлений. Процедура имеет возможность улучшения управлений, удовлетворяющих принципу максимума за счет неединственности решения краевой задачи улучшения. В случае, когда краевая задача улучшения не имеет решения, рассматриваемая процедура не действует и следует перейти к другим процедурам улучшения.
Отметим, что в случае отсутствия терминальных ограничений процедура улучшения становится эквивалентной методу нелокального улучшения в [2].
3. Вычислительные аспекты
Для решения краевой задачи (11) применяется метод возмущений, разработанный в [2].
Проиллюстрируем этот метод для квадратичной по состоянию задачи (1)-(4).
Соответствующая краевая задача улучшения имеет вид
х = А(х, £)иа(р, х, £) + Ь(х, £), £ е Т,
р = -Нх(p, х(£, и 0Х и 0 (£ X£) - 2 Нхх(p, х(£, и 0 X и V X£) (х - х(^ и 0)),
х(£0) = х0, х1(£1) = х1, (12)
р, (О = -Сг , г = 2, п .
Введем в рассмотрение возмущенную краевую задачу с параметром £ е [0, 1]:
х = А(х, £)иа(р, х, £) + Ь(х, £), £ е Т,
р = -Нх (P, х(£, и °Х и 0 (£), £) - £ Нхх (P, x(t, и 0), и 0 (£), £) (х - x(t, и 0)),
х(£0) = ^ х1(£1) = х1, (13)
р, (£1) = Сг , г = 2, п .
Отметим, что исходная краевая задача (12) получается при £ = 1. При £ = 0 задача называется невозмущенной.
Решение невозмущенной задачи сводится к решению одного алгебраического уравнения относительно неизвестного параметра а е Я .
Действительно, для параметра а е Я обозначим через р*(£, а), £ е Т решение задачи Коши
р = -Нх (р, х(£, и0), и 0(£), £),
МО = а, р, (О = Сг, г ^ п .
55
Пусть х*(£, а), £ е Т - решение фазовой системы
х = А(х, £)иа (р* (£, а), х, £) + Ь(х, £), £ е Т, х(0 = х°.
Пара (х*(£, а), р*(£, а)), £ е Т является решением невозмущенной краевой задачи тогда и только тогда, когда выполняется условие
х1(£1, а) = х1. (14)
Таким образом, невозмущенная краевая задача сводится к уравнению (14) относительно параметра ае Я .
Аналогично [2] для решения возмущенной краевой задачи (13) можно применить следующий итерационный процесс
хк+1 = А(хк+1, £)иа(рк+1(£), хк+1, £) + Ь(хк+1, £), £ е Т,
х(£0) = х0, х1(£1) = х1, (16)
р к+1 = - Нх (рк+1, х(£, и0), и0 (£), £) -£Нхх (рк (£ ), х(£, и0), и0 (£), £) (хк (£) - х(£, и0)),
р, (О = -С,, , = 2 п .
На каждой итерации процесса (16) решается задача, по трудоемкости аналогичная невозмущенной. В качестве начального приближения (х0(£), р0(£)), £ е Т выбирается решение невозмущенной задачи. Итерационный процесс возмущений (16) продолжается до первого улучшения целевого функционала.
Ф(ик) <Ф(и0), ик(£) = иа(рк(£), хк(£), £), £ е Т.
4. Пример
Проиллюстрируем возможность строгого улучшения управления, удовлетворяющего принципу максимума.
Рассмотрим задачу оптимального управления
= -—х12, £е Т = [0, ж].
2
х = и, х^ =— х , £ е
1 2 2
х1(0) = 0, х2(0) = 0, |и(£)| < 1,
Ф(и) = х2 (ж) ® шт, х1 (ж) = 0 .
В данном случае
Н=ри -1 р2 хЛ Н 0 =- 2 р2 x12, Н1 = рх.
Поставим задачу улучшения допустимого управления и0(£) ° 0, которому соответствуют фазовые траектории х1(£, и0) ° 0 , х2(£, и0) ° 0, £ е Т и значение целевого функционала Ф(и0) = 0 .
Тогда отображение иа, а > 0 принимает вид
1, ар > 1, иа(р, х, £) = < -1, ар <-1,
ар, -1 <ар < 1.
Положим значение параметра а=1 и применим процедуру нелокального улучшения. Соответствующая краевая задача улучшения, имеющая вид
х1 = иа(р, х, £), х2 =-1 х12, х1(0) = 0, х2(0) = 0, х1(ж) = 0,
р1 = р2 Х1, р 2 = 0 р2(р) = -1,
56
сводится к краевой задаче меньшей размерности
X = ua( p, x, t), x1 (0) = 0, x1 (p) = 0,
Pi = - xi •
Отметим, что пара p1(t) ° 0, x1(t) = x1(t, u0) ° 0, t e T является решением краевой задачи, т.е. допустимое управление и0 удовлетворяет регулярному принципу максимума (особое управление) с Д = 0.
Покажем, что существует решение краевой задачи улучшения, отличное от указанного. Подберем решение, соответствующее условию |p(t)| < 1, t e T.
Краевая задача улучшения примет вид
X1 = p1, x1 (0) = 0, x (p) = 0,
pi = - x1.
Очевидно, краевая задача имеет решения вида
x1 (t) = C sin t, p1 (t) = C cos t, t e T,
где C - произвольная постоянная, |C| < 1.
Таким образом, например, допустимое управление v(t) = cos t, t e T с соответствующими фазовыми траекториями x1(t, v) = sint, x2(t,v) = — (sin2t -2t), te T строго улуч-
8
p
шает исходное управление и0: F(v) = —— < Ф(и0) = 0 .
Заключение
Предлагаемая процедура обеспечивает нелокальное улучшение допустимых управлений без процедуры варьирования по малому параметру с выполнением всех терминальных ограничений. Это свойство является существенным фактором повышения эффективности решения задач оптимального управления с терминальными ограничениями.
Литература
1. Срочко В. А. Итерационные методы решения задач оптимального управления. - М.: Физматлит, 2000. - 160 с.
2. Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. -Улан-Удэ: Изд-во БГУ, 2008. - 260 с.
References
1. Srochko V.A. Iterative methods of the solution optimal control problems. - M.: Fizmathlit, 2000. - 160 p.
2. Buldaev A.S. The perturbation method in problems of improving and optimization control systems. -Ulan-Ude: Buryat State Univ. Publ., 2008. - 260 p.