1. УПРАВЛЯЕМЫЕ СИСТЕМЫ И МЕТОДЫ ОПТИМИЗАЦИИ
УДК 517.97
© А.С. Булдаев, Г. Анхбаяр
УСЛОВИЯ УЛУЧШЕНИЯ И ОПТИМАЛЬНОСТИ В ЗАДАЧАХ ОПТИМИЗАЦИИ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ
Работа выполнена при финансовой поддержке РФФИ, гранты 12-01-00914-а, 12-01-98011-р_сибирь_а, 13-01-92200-Монг_а
На основе дифференциально-алгебраических модификаций сопряженной системы получена новая нестандартная формула приращения функционалов управления, не содержащая остаточных членов разложений. Полученная формула дает возможность конструировать новые условия улучшения и оптимальности управления в рассматриваемом классе оптимизационных задач.
Ключевые слова: управляемая система, задача улучшения управления, условия оптимальности.
A.S. Buldaev, G. Ankhbayar
CONDITIONS FOR IMPROVEMENT AND OPTIMALITY IN OPTIMIZATION PROBLEMS
OF NONLINEAR CONTROL SYSTEMS
A new non-standard formula offunctional control increment that doesn't contain residual terms of expansions has been obtained on the basis of differential-algebraic modifications of conjugated system. The resulting formula gives an opportunity to construct new conditions for improvement and optimality control in the considered class of optimization problems.
Keywords: control system, problem of control improvment, optimality conditions.
Введение
Рассматривается задача оптимального управления со свободным правым концом:
O(u) = р(x(tj)) + JF(x(t),u(t), t)dt ^ min , (1)
T u
x(t ) = f (x(t), u (t), t), x(t0) = x0, u(t) eU, t g T = [t0, t1], (2)
в которой x(t) = ( x1(t),..., xn (t)) - вектор состояния, u(t) = (u1(t),..., um (t)) - вектор управления. В качестве допустимых управлений рассматривается множество V кусочно-непрерывных на T функций со значениями в компактном множестве U œ Rm . Начальное состояние x0 и промежуток управления T заданы.
Предполагаются выполненными следующие предположения для задачи (1), (2):
1) функция р(x) непрерывно-дифференцируема в Rn, функции F(x,u, t), f (x,u, t) и их производные Fx ( x, u, t ), Fu ( x, u, t ), fx ( x, u, t ), fu ( x, u, t ) непрерывны по совокупности аргументов ( x, u, t ) на множестве Rn x U x T ;
2) функция f (x, u, t) удовлетворяет условию Липшица по x в Rn x U x T с константой L > 0: ||f ( x, u, t ) - f ( y, u, t)|| < L||x - y I.
Условия гарантируют существование и единственность решения x(t, v), t e T системы (2) для любого допустимого управления v(t), t eT .
Введем функцию Понтрягина с сопряженной переменной ye Rn :
H(y, x,u, t) = (y, f (x,u, t)} - F(x,u, t).
Для допустимого управления V еУ обозначим у(!,V), I еТ - решение стандартной сопряженной системы
у (0 = -Я (у(0, х(0, и (О, О, I е Т, у^) = -м (х(^)) (3)
при и(1) = v(t) , х(1) = х(1,V) .
С помощью отображения
и* (у, х, I) = а^тах И (у, х, и, I), у е Л", х е Л", I еТ,
известный [1,2] принцип максимума Понтрягина для управления и е У представляется в виде
и(0 = и*(у(/,и),х(/,и),О, IеТ . (4)
Краевая задача принципа максимума имеет вид:
х^) = f (х(0, и* у), х(/), I), I), х(/0) = х0, (5)
у(I) = -Иху),х(0,и*у),х(?),I),I), у(^) = (х(О). (6)
Краевая задача (5), (6) в пространстве состояний сводится к поточечному соотношению (4) на множестве допустимых управлений, которое имеет форму задачи о неподвижной точке соответствующего оператора управления. Трудности решения краевой задачи (5), (6) и задачи о неподвижной точке (4) связаны с возможной разрывностью и многозначностью отображения и*.
Одним из альтернативных подходов к оптимизации управления является последовательное решение задач улучшения управления, в которых для заданного управления и е V требуется найти управление V е V с условием А^(и) < 0 .
В работах [3-7] получены вычислительно эффективные условия улучшения управления, имеющие форму специальных краевых задач в пространстве состояний и задач о неподвижной точке конструируемых операторов управления, которые существенно проще по свойствам гладкости указанных выше задач (4) и (5), (6). Решение предлагаемых систем условий улучшения позволяет улучшать неоптимальные управления, удовлетворяющие принципу максимума, и получать новые необходимые условия оптимальности, усиливающие принцип максимума в рассматриваемых классах задач.
В настоящей работе рассматриваются новые дифференциально-алгебраические способы модификации сопряженной системы, позволяющие получать новые условия улучшения и оптимальности применительно к нелинейным по состоянию управляемым системам, которые существенно расширяют потенциал улучшения заданного управления. Многообразие способов выбора улучшающих управлений позволяет конструировать специальные вычислительные технологии улучшения, которые могут эффективно реализовываться с помощью параллельных вычислений на многопроцессорных компьютерах.
1. Краевые задачи улучшения управления
Далее для удобства частное приращение произвольной вектор-функции g(у^...,у1) по переменным у^ , будем обозначать
А у^ +4^ у2 +Ауя/(У1,..., у) = g (У1,..., у*1 +АЧ,..., у*2 +ау*2,..., у) - g(У1,..., У).
Приращение функционала (1) на допустимых управлениях и,V в соответствии с введенным обозначением выписывается в виде
АvФ(u) = А,и)) + | А)F(х((,и),и((),I)dí. (10)
т
Обозначим Ах(!) = х(!, V) - х(!, и).
Введем дифференцируемую вектор-функцию р(?) = (),..., рп (I)) с условиями
Р(0 = -Мх (х(1, и)) - Я, (11)
где величина Я удовлетворяет алгебраическому уравнению
Мх(х(Ч,и)),Ах(О) + (д,Ах(О) = Ах(4,Мх(^,и)). (12)
Тогда приращение терминальной части функционала в выражении (10) можно записать в виде Ax(A,v)P(x(tl, u )) = -( p(t,), Axft)) = -J |<p(t ), Ar(t)) dt =
= - J {(p(t), Ax(t)) + (p(t), Ax(tv)Mt)f (x(t, u ), u (t), t)) jdt.
T
С помощью полученного соотношения приращение функционала (10) можно представить в виде AvO(u0) = -J{( p (t), Ax(t )) -A x(tv)Mt ) H ( p(t ), x(t, u), u(t ), t )}dt =
T
= -J{( p (t), Ax(t )) + AV(( ) H ( p(t ), x(t, u), u(t ), t) + (13)
T
+A x(t,v) H ( p(t ), x(t, u), v(t ), t )} dt. Введем модифицированную сопряженную систему для функции p(t) с условиями (11), (12) в форме:
p (t) = -Hx (p(t), x(t, u), v(t ), t) - r (t), (14)
где величина r(t) = (r1(t ),..., rn (t)), t eT определяется в каждый момент времени t e T из алгебраического уравнения
(Hx ( p(t ), x(t, u), v(t ), t), Ax(t )) + (r (t), Ax(t )) = = A X(,v) H ( p(t ), x(t, u), v(t ), t). Тогда в силу дифференциально-алгебраической системы (14), (15) для p(t) с начальными условиями (11), (12) формула приращения (13) принимает вид
AvO(u) = -J Av(t)H(p(t),x(t,u),u(t),t)dt. (16)
T
* /
(19)
Определим отображение V* (р, ?) = м* (р, х(/, м) и рассмотрим дифференциально-алгебраическую краевую задачу
) = f (x(t), V* (рЦ), t), 0, х(0 = х0, (17)
р(0 = -Нх (p(t), х(/, м), V* (p(t), t), t) - г (0, (18)
(Их (р(0, x(t, м), V* (р(0, t), t), х^) - x(t, и)} + +( г (t), х^) - x(t, и)) = А х(,) Н (р^), x(t, м), V* (р^), t), t),
p(tl) = -р (x(tl, м)) - д, (20)
(Рх(x(tl,м)), x(tl) - х(^,м)) + (д, x(tl) - x(tl,м)) = Ахx(tl,м)) . (21)
Предположим, что решение (х^), р^)), t е Т краевой задачи (17) - (21) существует (возможно, не единственное), а управление, формируемое по правилу
V(t) = V* (рЦ), t), t еТ,
является кусочно-непрерывным. Тогда х^) = х(^V) и, в силу определения отображения м , получаем
А^)Н(р(:), х(^м),м($), t) > 0 . Отсюда и из формулы (16) следует, что АуФ(м) < 0 .
В работе [3] рассматривалось альтернативное по отношению к (13) представление приращения функционала в форме
АуФ(м0) = -{{( р (0, АхЦ)) -А х(,,„),„(,) Н (р^), x(t, м), м^), t )}dt =
Т
= -1 {( р ^), Ах(0) + А ^) Н (р(0, x(t, V), м^), t) +
Т
+А х(1 ,у) Н (р^), x(t, м), м^), t)} dt. Соответственно вводилась другая модифицированная сопряженная система для функции р(^) с условиями (11), (12) в форме:
p (t) = -Hx (p(t), x(t, u), u(t), t) - r (t), где величина r(t) = (r1(t),...,r (t)), t eT , определяется в каждый момент времени t eT из алгебраического уравнения
{Их (p(t), x(t, u), u(t), t), Ax(t)) + (r(t), Ax(t )) = = A x((,V) H (p(t), x(t, u), u(t), t). Тогда формула приращения (13) принимает вид
AO(u) = -J Av(t) H (p(t), x(t, v), u (t), t )dt, (22)
T
и условие улучшения имеет форму следующей дифференциально-алгебраической краевой задачи
x(t) = f (x(t), u (p(t), x(t), t), t), x(t0) = x0, (23)
p (t) = -Hx (p(t), x(t, u), u(t), t) - r (t), (24)
(Hx (p(t), x(t, u), u (t), t), x(t) - x(t, u)) + +(r (t), x(t) - x(t, u)) = A x(t) H (p(t), x(t, u), u(t), t), (25)
p(ti) = -% (x(ti, u)) - q, (26)
(Px(x(ti,u)),x(ti) - x(ti,u)) + (q,x(ti) - x(ti,u)) = Ax(0p(x(ti,u)) . (27)
Алгебраические уравнения в краевых задачах улучшения всегда можно разрешить (возможно, не единственным способом). Проиллюстрируем один из способов на примере уравнения (25).
Действительно, в случае линейности по x функций f (x,u,t), F(x,u,t) уравнение (25) сводится к
соотношению (r(t),x(t) - x(t,u= 0 . В этом случае полагаем r(t) = 0, t e T .
В нелинейном случае определим r (t) по следующему правилу.
Если для некоторого k выполняется условие xk (t) Ф xk (t, u), то полагаем r (t) = 0, i Ф k ,
r (t) Ax(t)H -(Hx , Ax(t))
k Axk (t) •
Если для всех k имеем xk (t) = xk (t, u), то уравнение (25) выполняется тождественно. В этом случае определяем значение r(t) = 0 .
Другой простой способ определения r(t) можно использовать в случае квадратичных по x функций f (x,u,t), F(x,u,t)
r(t) = 2Hxx (p(t), x(t,u),u(t), t)(x(t) - x(t,u)).
При этом уравнение (25) выполняется тождественно. Данный способ, основанный на разложении приращения функции Понтрягина, применим для общего полиномиального по x случая.
Таким образом, можно определить однозначные функции R(p, x, t), Q(x), которые в общем случае определяются не единственным способом, для которых дифференциально-алгебраические краевые задачи сводятся к дифференциальным двухточечным краевым задачам. В частности, задача (23)-(27) сводится к задаче
x(t) = f (x(t), u (p(t), x(t), t), t), x(t0) = x0, p (t) = -Hx (p(t), x(t, u), u(t), t) - R( p(t), x(t), t),
p(ti) = -Px (x(ti, u)) - Q( x(ti)). Определяя различные однозначные отображения R( p, x, t), Q( x) можно получать различные модификации условий улучшения в форме краевых задач стандартного вида.
2. Задачи о неподвижной точке операторов управления
Для удобства эквивалентного представления условий улучшения в форме задач о неподвижной точке операторов управления введем следующие обозначения.
В соответствии с [4] рассмотрим модифицированную дифференциально-алгебраическую сопряженную систему в форме
ра) = -Н(р(0, х^), w(t), t) - г^), (28)
(Нх (р^), x(t), w(t), t), у ^) - х^)) + (г ^), у (t) - х^)) = (29)
= А ^) Н (р^), x(t), w(t), t)
с краевыми условиями
р(0 = -Рх(х(^)) - д, (30)
Р (x(tl)), у (tl) - x(tl)) + (ч,У(0 - х(0) = Ау(л)Р(x(t1)) . (31)
Величины г^) и д всегда можно однозначно выразить из соответствующих алгебраических уравнений (29) и (31) (возможно, не единственным способом) и, таким образом, система (28)-(31) всегда может быть сведена к дифференциальной сопряженной системе.
Предположим, что при заданном способе сведения вспомогательная дифференциальная система для допустимых управлений м, V допускает однозначные решения:
р(^м,V), t еТ - при х^) = х(^м), w(t) = м(0 , у^) = х(^V);
у(^м,V), t еТ - при х^) = x(t,м), w(t) = v(t), у^) = х(^V).
Из определения следует, что р(^ м, м) = у(^ м, м) = у/^, м), t еТ .
В [4] показано, что в соответствии с обозначениями формула приращения (22) принимает вид
А^м) = ) Н (р^, м, V), х^, V), м^), , (32)
Т
и краевая задача улучшения (23)-(27) эквивалентна задаче о неподвижной точке
v(t) = м* (p(t, м, V), х^, V), t), t еТ, (33)
Аналогично в соответствии с введенными обозначениями решение р(0 и выходное управление v(t) для краевой задачи (17)-(21) можно представить в виде
р(0 = у(t, м, V), t еТ, v(t) = м*(у^,м,V),х^,м),t), t еТ . (34)
Формула приращения функционала (16) в новых обозначениях принимает вид
А^м) = )Н(у^,м,V),x(t,м),м(0,t)dt. (35)
Т
Условие (34) также имеет форму задачи о неподвижной точке и является эквивалентным краевой задаче (17)-(21).
Таким образом, можно определить соответствующие однозначные отображения Р(м,V) = р(^м,V), t еТ и Г(м,V) = у(^м,V), t еТ на множестве V хV , отвечающие заданному способу сведения дифференциально-алгебраической сопряженной системы (28)-(31) к вспомогательной дифференциальной сопряженной системе. Определяя различные отображения Р(м, V) и Г(м, V), будем получать различные модификации условий улучшения в форме краевых задач и задач о неподвижной точке. Множества выходных управлений, соответствующих различным рассматриваемым отображениям, формируют всю совокупность улучшающих управлений. Рассматриваемый подход к реализации предлагаемых условий улучшения через различные однозначные отображения позволяет конструировать специальные вычислительные технологии улучшения, в которых на каждой итерации улучшения выбирается наилучшее по функционалу управление среди возможных модификаций условий улучшения.
Формулы приращения (33), (35), не содержащие остаточных членов разложений, позволяют сформулировать аналогичные работе [3] достаточные и необходимые условия оптимальности управления в задаче (1), (2).
Согласно формуле (33) для оптимальности управления м е V достаточно (и необходимо), чтобы
А„(0Н(р^,м,V),х^,V),м(0,0 < 0, Vе V, t еТ .
Для выполнения последнего неравенства достаточно требовать, чтобы АН (р, х, м(^), t) < 0 , V е и , р е Rn, х е Rn, t еТ . Последнее условие эквивалентно соотношению м^) = м* (р, х, ^ , р е Rn, х е Rn, t еТ . Учитывая (33), множество возможных пар значений (х, р) можно сузить до множества
достижимости Dx (t, и) в момент времени t еТ, определяемого как множество пар значений решений х(:,V), р(:,и,V) в момент t, когда управление V «пробегает» множество V
Dx р(:,и) = {(х,р) е Rn х Rn: х = х(:, V),р = р(:,и,V),V е V} .
Таким образом, для оптимальности управления и е V достаточно, чтобы
и(:) = и* (р, х, :), (х, р) е Dx (:, и), t еТ . (36)
Рассмотрим формулу (35). Введем множество достижимости модифицированной сопряженной системы в момент времени t еТ
Dp (:,и) = {р е Rn: р = у(:,V,и),V е V} .
Тогда для оптимальности управления и е V достаточно, чтобы
и(:) = и* (р, х(:, и), :), р е Dp (:, и), t еТ . (37)
Очевидно, что в достаточных условиях оптимальности (36), (37) допустимы любые оценки по включению для соответствующих множеств достижимости. Принцип максимума (4) для управления и е V получается из достаточных условий (36) и (37) при х = х(:,и), р = р(:,и,и) = у(:,и).
Условие улучшения (34) позволяет сформулировать аналогичное работе [4] необходимое условие оптимальности управления в задаче (1), (2).
Для этого обозначим множество допустимых выходных управлений дифференциально-алгебраической краевой задачи (17)-(21):
V(и) = IV е V: v(t) = и*(у(:,и,V),х(:,и),:), t еТ} .
Имеем, если и е V(и), то
и (0 = и* (у(:, и, и), х(:, и), t) = и* (у(:, и), х(:, и), t), t еТ, т.е. управление и удовлетворяет принципу максимума.
Обратно, если и удовлетворяет принципу максимума (4), то оно удовлетворяет условию (33) при V = и . Следовательно, и е V(и) .
Отсюда следует, во-первых, что краевая задача (17) - (21) для управления и, удовлетворяющего принципу максимума (4), всегда допускает решение х(:) = х(:,и), р(:) = у(:,и) .
Следовательно, если краевая задача (17) - (21) не имеет решения, то управление и не удовлетворяет принципу максимума.
Во-вторых, в случае, если краевая задача (17) - (21) для управления и, удовлетворяющего принципу максимума (4), допускает решение, отличное от х(:) = х(:,и), р(:) = у(:,и), то появляется принципиальная возможность строгого улучшения данного экстремального управления. Такая возможность иллюстрируется в работе [4] в рамках краевой задачи (23)-(21).
Принцип максимума в задаче (1), (2) в терминах решения краевой задачи (17) - (21) можно сформулировать в следующей форме.
Принцип максимума. Для оптимальности управления и е V необходимо, чтобы пара (х(:, и),у(:, и)) была решением краевой задачи (17) - (21).
Заключение
В случае линейной по состоянию задачи (1), (2) (функции f (х,и,:), F(х,и,:), р(х) линейны по х) краевая задача (17) - (21) сводится к двум задачам Коши для сопряженной и фазовой систем. При этом предлагаемая процедура улучшения становится эквивалентной известному у -методу нелокального улучшения [2].
В нелинейной по состоянию задаче (1), (2) трудности решения возникающих вспомогательных дифференциальных краевых задач обуславливаются возможной негладкостью правой части и наличием собственных чисел матрицы Якоби с положительной вещественной частью. Это затрудняет применение стандартных методов для их решения (метод стрельбы, метод линеаризации, конечно-разностный метод).
Для решения предлагаемых дифференциально-алгебраических условий улучшения можно применить аналогичные работам [3, 8] вычислительно эффективные методы возмущений.
Выделим основные свойства рассматриваемых условий улучшения управления в классе нелинейных задач:
1. Трудоемкость улучшения определяется трудоемкостью решения специальной краевой задачи, которая по свойствам гладкости существенно проще краевой задачи принципа максимума.
2. В линейной по состоянию задаче оптимального управления со свободным правым концом процедура улучшения сводится к двум задачам Коши для фазовой и сопряженной систем.
3. Нелокальность улучшения управления, т.е. улучшаемое и улучшающее управления не связаны параметром близости, характерным для градиентных методов улучшения.
4. Отсутствие трудоемкой процедуры выпуклого или игольчатого варьирования управления, характерной для стандартных локальных методов улучшения.
5. Принципиальная возможность улучшения управлений, удовлетворяющих принципу максимума (в том числе, особых управлений).
Такая возможность появляется в случае неединственности решения краевой задачи улучшения. Выделенные свойства являются существенными факторами повышения вычислительной и качественной эффективности решения задач оптимизации нелинейных управляемых систем. Рассматриваемый подход к реализации условий улучшения через их различные модификации, допускающие однозначные решения, позволяет оставаться в рамках классической теории решений дифференциальных уравнений и ориентирован на параллельные вычисления.
Литература
1. Васильев О.В. Лекции по методам оптимизации. Иркутск: Изд-во Иркутск. ун-та, 1994. 340 с.
2. Срочко В.А. Итерационные методы решения задач оптимального управления. М.: Физматлит, 2000. 160 с.
3. Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. 260 с.
4. Булдаев А.С., Моржин О.В. Улучшения управлений в нелинейных системах на основе краевых задач // Известия Иркутского госуниверситета. Серия «Математика». 2009. Т.2, №1. С. 94-106.
5. Булдаев А.С., Трунин Д.О. Нелокальное улучшение управлений в линейных по состоянию системах с терминальными ограничениями // Автоматика и телемеханика. 2009. №5. С. 7-12.
6. Булдаев А.С. Новый подход к оптимизации управляемых систем на основе краевых задач // Автоматика и телемеханика. 2011. №6. С. 87-94.
7. Булдаев А.С., Хишектуева И.-Х.Д. Метод неподвижных точек в задачах параметрической оптимизации систем // Автоматика и телемеханика. 2013. №12. С. 5-14.
8. Булдаев А.С. Проекционные методы возмущений в задачах оптимизации управляемых систем // Известия Иркутского госуниверситета. Серия «Математика». 2014. Т.8. С. 29-43.
Булдаев Александр Сергеевич, доктор физико-математических наук, профессор кафедры прикладной математики Бурятского государственного университета, тел. (301-2) 217733, E-mail: buldaev@mail.ru Анхбаяр Гелегбадам, декан факультета математики и программного обеспечения Улан-Баторского университета.
Buldaev Alexander Sergeevich, doctor of physical and mathematical sciences, professor, applied mathematics department, Buryat State University.
Ankhbayar Gelegbadam, dean of the faculty of mathematics and software, Ulaanbaatar University.