УДК 629.78
К ЗАДАЧЕ БУЛГАКОВА О НАКОПЛЕНИИ ВОЗМУЩЕНИЙ
Д. И. Бугров1
Рассмотрена задача Булгакова о максимизации евклидовой нормы решения линейной стационарной системы в фиксированный момент времени на множестве кусочно-непрерывных, ограниченных по модулю скалярных управлений. Предложен закон построения управления в виде функции от времени и состояния системы и сформулированы условия, при которых такое управление является решением рассмотренной задачи.
Ключевые слова: задача Булгакова, максимизация нормы решения, линейная стационарная система, синтез управления, матричная экспонента.
The Bulgakov problem of maximizing the Euclidean norm of the solution of a linear timeinvariant system at a fixed instant of time on the set of piecewise continuous bounded scalar controls is considered. A control law as a function of time and of the state of the system is proposed. The conditions ensuring that the proposed control is a solution to the problem under study are formulated.
Key words: Bulgakov problem, maximizing the Euclidean norm of the solution, linear time-invariant system, control synthesis, matrix exponent.
Постановка задачи. Рассматривается линейная стационарная управляемая система n-го порядка
x = Ax + bu, (1)
где x = (xi,... ,xn)T — n-мерный вектор переменных (координат); символ T означает транспонирование; A — постоянная матрица n х n; b = (bi,...,bn)T — постоянный вектор; u(-) — кусочно-непрерывная скалярная величина (управление), ограниченная по модулю, |u(-)| ^ 1. Предполагается, что в начальный момент времени x(0) = 0.
Ставится задача: среди всех возможных управлений |u(-) | ^ 1 найти такое, при котором в некоторый заданный фиксированный момент времени tk достигается максимум функции V = xT(tk)x(tk), имеющей смысл нормы решения. Решение аналогичной задачи с функционалом V = cTx(tk), где c = (ci,..., cn)T — постоянный вектор, было предложено в [1], поэтому задачи такого типа принято называть задачами Булгакова. Итерационная процедура решения задачи на максимум суммы квадратов первых двух координат, которая сходится к стационарной точке, была предложена в [2]. В настоящее время для задачи Булгакова на максимум нормы решения разработаны итерационные методы решения, доказана их сходимость (см., например, [3]).
Следует заметить, что в силу линейности уравнений (1) и нулевых начальных условий поставленная экстремальная задача не имеет единственного решения, если только x(tk) = 0.
Принцип максимума Понтрягина. Перепишем исходную задачу на максимум в виде задачи на минимум функционала
J = -xT (T)x(T) (2)
и попробуем применить к полученной задаче (1), (2) (как и ранее, с нулевыми начальными условиями и фиксированным конечным временем tk) принцип максимума Понтрягина [4]. Для этого введем вектор сопряженных переменных ф. Составим функцию Понтрягина H(x, ф, u) = фTAx + фTbu, ее максимум на функциональном множестве |u(-) | ^ 1 достигается при
uo(t) = sign^T b) = sign(bT ф). (3)
Условие такого типа (причем для нестационарной системы вида (1)) было получено ранее в [5]. Уравнения, описывающие изменение во времени сопряженных переменных ф, имеют вид
ф = -AT ф, (4)
1 Бугров Дмитрий Игоревич — канд. физ.-мат. наук, ст. науч. сотр. лаб. математического обеспечения имитационных динамических систем мех.-мат. ф-та МГУ, e-mail: [email protected].
а из условий трансверсальности (и после нормировки) можно получить для них граничные условия
Ш) = х(гк). (5)
Решение двухточечной краевой задачи (1), (3)—(5) удовлетворяет необходимым условиям оптимальности. Так как решение уравнения (4), удовлетворяющее граничным условиям (5), представляется в виде
то управление
ф(1) = eAT (tk-t)x(tk), uo(t) = sign (bT eAT (tk-t)x(tk))
(6)
удовлетворяет необходимым условиям оптимальности для задачи (1), (2) (с нулевыми начальными условиями и фиксированным временем Ьк). Вместе с тем интегрирование уравнения (1), замкнутого управлением в форме (6), затруднительно, поскольку требует знания итогового оптимального х(Ьк) до начала интегрирования.
Поиск аналитического решения. Следуя Б. В. Булгакову, будем искать решение, непосредственно максимизируя функционал. Прежде всего заметим, что в каждый момент времени 0 ^ Ь ^ Ьк функция х(Ь) непрерывна и ее можно записать в форме
t
m = j ^ ) м.)
Представим интеграл в виде предела интегральной суммы. Для этого разобьем отрезок [0; tk] точками to = т\ <т2 < ... < tn < tn +i = tk на N отрезков At, = Ti+1 — Ti. Получим
tk N
x(tk) = eA(tk-т)Ьи(т) dT = д"т £ eA(tk-ii)bu(£,) An, o " i=1
где £i — момент времени, принадлежащий отрезку ATi. Если значение x(tk) конечное, то определенный интеграл существует и в качестве можно брать любую точку из отрезка ATi; возьмем левую границу отрезка, так что = Ti.
Тогда, так как (eA)T = eAT (следует из представления матричной экспоненты в виде ряда, см. [6]), имеем
' = /"........-dT J ■.......-. d. =
oo lim u(.i)bTeAT(tk-Ti) At^ lim eA(tk-T>)bu(.j)Aj | =
ATi-> 0
lim
,i=1
N
J = 1
N
Y^u(Ti)bTeAT(tk-Ti) At, ( £eA(tk-T>)bu(j)Aj
Ki=1
j=1
lim
N N
i=1
i1
bTeAT(tk-ri)eA(tk-n)bu2(.,) (At) + 2 £ u(.,)bTeAT(tk-*)eA(tk)bu.) Aj At,
j=1
lim Дгм 0
N N
i=1
i1
bTeAT(tk-ri)eA(tk-n)bu2(.,) (At) + 2u(.i)bTeAT(tk-Ti) At, lim £ eA(tk-T>)bu(.j) Aj
j=1
lim
Дъ-> o
N
£\bTeAT(tk-Ti)eA(tk-n)bu2(Ti) (At,)2 +
i=1
Дт,-—» 0,Дт,—> 0
Дт,—> 0,Дт,—> 0
i-1
+ 2u(n)bTeAT(tk-Ti) Атг lim £ eA(tk-Ti+Ti-Tj)bm(rj)Ат3
AT, ^0 ' j=1
[bTeAT(tk-Ti)eA(tk-Ti)bu2(rl) (Аn)2 +
.i=1
i-1
+ 2и(тг)ЬтeAT(tk-Ti)ArieA(tk-Ti) lim ^ eA(Ti-Tj)bu(jj)Ат
lim
Ata—I 0
N
j=1
lim
At0
N
Y^bTeAT(tk-T)eA(tk-Ti)bu2(ri) (An)2 + 2и(тг)bTeAT(tk-Ti)eA(tk-Ti)x(n) An
i=1
Максимальное значение функция V имеет, когда достигается максимум каждого из суммируемых элементов. Для каждого п максимизируемое по u(n) выражение имеет вид
f (u(Ti)) = bTeAT(tk-Ti)eA(tk-Ti)bv2(n) (An)2 + 2u(n)bTeAT(tk-Ti)eA(tk-Ti)x(n) An.
Это квадратичная по u(n) функция, причем коэффициент при старшем члене неотрицателен как скалярное произведение вектора на себя:
bTeAT(tk-Ti)eA(tk-Ti)b {An)2 > 0. Максимум по u(n) функции f (u(n)) на отрезке u(n) £ [—1; 1] достигается при
u(n) = sign bT eAT (tk-Ti )eA(tk-Ti) x(n),
значение sign в нуле нужно доопределять.
Переходя к пределу при An ^ 0, получаем u(t) = signbTeAT(tk-T)eA(tk-T)x(t).
Отметим, что при малых tk —т матрица eAT(tk-T^eA(tk-t) ~ E — единичная матрица и найденное выше соотношение для u(t) превращается в выражение u(t) = sign bTx(t), максимизирующее производную от функции Ляпунова V в каждый текущий момент времени т. В. И. Зубовым [7] было предложено соотношение u(t) = — sign bTx(t) как решение задачи об оптимальном демпфировании системы.
Следует заметить, что в максимизируемую функцию f (u(n)) входит множитель x(n), который не зависит от u(n), но зависит от значений u(Tk), к < i. Поэтому о максимизации функции V можно говорить с уверенностью только в том случае, когда одновременно с максимизацией по u(n) была произведена и максимизация выражения bTeAT(tk-Ti)eA(tk-Ti)x(n), т.е. когда те u(Tk), Ук < i, которые максимизируют f (u(Tk)), одновременно максимизируют и bTeAT(tk-Ti)eA(tk-Ti)x(n).
Решение последней задачи хорошо известно [1]. Для уравнения (1) нужно найти управление u(t), |u(-)| ^ 1, доставляющее максимум проекции решения x(n) на направление cT = bTeAT(tk-Ti)eA(tk-Ti). Искомым управлением является
u(t) = sign bT eAT (tk-Ti )eA(tk-Ti) eAT-t) b.
Таким образом, управление
и(т) = sign bT eAT (tk-T) eA(tk-T) х(т)
(7)
максимизирует функцию V = хт(Ьи)х(1и) в том случае, когда оно же в каждый момент времени максимизирует проекцию решения х(т) на направление ст = ЬтеАТ(1к-т)еА(1к-т\ т.е. когда
sign bTeAT(tk-T)eA(tk-T)х(т) = sign bTeAT(tk-T)eA(tk-T)eA(T-t) b Ш,т : 0 <t < т <tk
либо
sign bTeAT(tk-T)eA(tk-T)х(т) = - sign bTeAT(tk-T)eA(tk-T)eA(T-t)b Ш,т : 0 <t < т <tk
(8)
в силу симметричности исходной задачи и неединственности решения, отмеченной выше.
Поэтому для решения исходной задачи можно предложить следующий алгоритм. Ищем и(т) в каждый момент времени в виде (7) и далее проверяем выполнение либо условий (8) (или (9)) для всех Ь < т, либо условий принципа максимума. В последнем случае сравним оптимальное управление в форме (6) с полученным выше управлением в виде (7). Они совпадают, если в каждый момент времени Ь
sign(bT eAT (tk-t)x(tk)) = sign(bT eAT (tk-t)eA(tk-t) x(t)),
(10)
т.е. если в каждый момент времени Ь проекции на направление еА('квекторов х(^) и еА('к-^х(Ь) имеют одинаковый знак.
Пример. Решение задачи Булгакова позволяет строить аппроксимацию для множества достижимости системы (1). Для каждого это множество будет касаться внутренним образом сферы радиуса К = •)> гДе = Х*Т(¿к)х*(¿д.), ж*(£/г) — решение задачи Булгакова для уравнения (1) в мо-
мент времени с нулевыми начальными условиями. Рассмотрим динамическую систему, описываемую уравнением второго порядка Х + Х + х = и, с начальными условиями х(0) = Х(0) = 0, считая |и(Ь)| ^ 1. Построим для него аппроксимацию множества достижимости при ^ ж. Записав уравнение в виде Коши, получим систему
(Х1 = Х2,
[ Ж2 = —Х1 — Х2 + и
с начальными условиями Х1(0) = 0, Х2(0) = 0. Матрица системы (11) имеет вид
A =
0 1 11
b = (0,1)T. В качестве последовательных значений для времени окончания процесса tk выберем последовательность t^ = 27гг/-\/3, i = 1, 2,.... В этом случае решение вида (7) представляется в форме
и(т) = sign eT-tk x2(t) = sign x2 (т),
что совпадает с частным случаем приведенного в [8] решения. В результате на плоскости (xi; Х2) можно построить последовательность окружностей, аппроксимирующих множество достижимости системы (11). На рисунке построена предельная окружность, которая получается при t^ ^ о, а также аппроксимация множества достижимости минимальным эллипсоидом, полученная указанным в [9] способом. На том же рисунке приведена точная граница множества достижимости для системы (11) в виде предельного цикла [8].
Заключение. Предлагается следующий способ решения исходной задачи. Сначала уравнение (1) замыкается "кандидатом на оптимальное управление" в форме (7) и интегрируется, затем находится реализовавшееся x(tk), после чего проверяется выполнение условий (8) или (10). В этом случае поиск решения не является итерационным процессом (но требуется вычислять матричную экспоненту). Вместе с тем проверять выполнение условий (8) или (10) в общем случае непросто. Альтернативным является способ проварьировать управление в окрестности (7) путем численного решения некоторого количества одномерных задач Булгакова для получения оценки локальной экстремальности предложенного решения.
Автор выражает благодарность профессору В. В. Александрову за внимание, проявленное к работе, и ценные замечания.
Работа выполнена при финансовой поддержке РФФИ (грант № 10-01-00182).
Область достижимости для системы (11): 1 — аппроксимация окружностью, полученная при решении задачи Булгакова; 2 — аппроксимация минимальным эллипсоидом; 3 — точная граница области достижимости
СПИСОК ЛИТЕРАТУРЫ
1. Булгаков Б.В. О накоплении возмущений в линейных колебательных системах // Докл. АН СССР. 1946. 51. 339-342.
2. Александров В.В. О накоплении возмущений в линейных системах по двум координатам // Вестн. Моск. ун-та. Матем. Механ. 1968. № 3. 67-76.
3. Антоник В.Г, Срочко В.А. Метод нелокального улучшения экстремальных управлений в задаче на максимум нормы конечного состояния // Журн. вычисл. матем. и матем. физ. 2009. 49, № 5. 791-804.
4. Александров В.В., Болтянский В.Г, Лемак С.С., Парусников Н.А., Тихомиров В.М. Оптимальное управление движением. М.: ФИЗМАТЛИТ, 2005.
5. Нгуен Тхань Банг. О накоплении возмущений // Изв. АН СССР. Механика. 1965. № 4. 97-100.
6. Беллман Р. Введение в теорию матриц. М.: Наука, 1969.
7. Зубов В.И. Лекции по теории управления. М.: Наука, 1975.
8. Александров В.В., Рейес-Ромеро М, Сидоренко Г.Ю., Темолтзи-Ауила Р. Устойчивость управляемого перевернутого маятника при постоянно действующих горизонтальных возмущениях точки опоры // Изв. РАН. Механ. твердого тела. 2010. № 2. 41-48.
9. Поляк Б.Т., Щербаков П.С. Робастная устойчивость и управление. М.: Наука, 2002.
Поступила в редакцию 04.04.2011