СЕКЦИЯ «МАТЕМАТИЧЕСКИЕ МЕТОДЫ СИСТЕМНОГО АНАЛИЗА И УПРАВЛЕНИЯ»
Сопредседатели — Козлов Владимир Николаевич,
д-р техн. наук, профессор СПбПУ, заслуженный работник высшей школы РФ, заместитель председателя СПб отделения МАН ВШ; Ефремов Артём Александрович, канд. физ.-мат. наук, доцент СПбПУ
Ученый секретарь — Сорокина Наталья Владимировна,
ст. преп., СПбПУ
УДК 519.6
doi:10.18720/SPBPU/2/id23-46
Козлов Владимир Николаевич \
д-р техн. наук, профессор;
л
Ефремов Артём Александрович ,
канд. физ.-мат. наук, доцент
ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ
НА УПРАВЛЕНИЯ
1 2
' Россия, Санкт-Петербург, Санкт-Петербургский политехнический
университет Петра Великого, 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru
Аннотация. В статье рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.
Ключевые слова: уравнение Беллмана, проекционный метод, ограниченные управления.
Vladimir N. Kozlov 1,
Professor, Doctor of Technical Sciences, Professor;
л
Artem A. Efremov ,
Candidate of Physical and Mathematical Sciences, Associate Professor
A PROJECTION METHOD FOR SOLVING THE R. BELLMAN EQUATION FOR THE SYNTHESIS OF SYSTEMS
WITH CONTROL CONSTRAINTS
1 2
, Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia; 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru
Abstract. The article considers the method of synthesis of approximately optimal and permissible bounded controls based on projection operators.
Keywords: Bellman equation, projection method, bounded controls.
Метод динамического программирования широко используется для синтеза линейных оптимальных систем с квадратичными критериями качества. Далее рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.
1. Постановка задачи
Основу метода составляют проекционные операторы оптимизации [1], используемые для преобразования задачи конечномерной оптимизации с управлениями, принадлежащими области Б с Ят, в левой части уравнения Р. Беллмана. Задача динамического программирования имеет вид: вычислить допустимый вектор управлений, удовлетворяющий уравнению Беллмана
т^'+ xTQx + || и ||21 = 0 х' = Ах + 5и, х(0) = х0, и е Бм = {и| \ и II2 г2 | = (1)
mm
u е D
где функционал xтQx, Q > 0, описывает качество оптимальной стабили-
2
зации координат состояний, а функционал || и || определяет энергию управления.
В результате задача квазиоптимального управления (1) имеет вид: вычислить ограниченный шаром евклидова пространства функций допустимый ограниченных вектор управлений
U (x (t)) = argmin = J (xTQx + uTRu) dt, Q = QT > 0, R = Em | ' = Ax + Bu, x ( 0 ) = xo е Dnp, u (t )е Du = ju (t)| || u (t )||2 < r2 }} е Rm ) .(2)
В задаче (2) множество Бпр — область притяжения динамической системы с дифференциальным оператором, где вектор управлений должен доставлять минимум квадратичному функционалу.
Таким образом, задача оптимизации системы в (1), (2) с ограниченным управлением будет решена на основе условия оптимальности в форме
min|
ue
in (vt'+ xTQx u||2) = 0 x' = Ax + Bu, u e D = ju ||u||2< r2 } = 0.(3)
2. Решение задачи синтеза ограниченных допустимых управлений
В уравнении (3) положительно-определенная симметричная форма квадратичная форма Q = ^ > 0, матрица А — гурвицева, а квадратичная
функция А.М. Ляпунова с симметричной положительно определенной матрицей P = РТ, имеет вид
V (*) = xTPx, P = PT > 0; (4)
Таким образом, для синтеза управлений на основе уравнения Белл-мана и проекционного метода требуется решить две задачи. Задача 1: вычисление точки условного минимума функционала в (3) по управлению
щ = üg min V (и) + ||и 2, и e D =\u uTu — r2}], (5)
т. е. в левой части условия оптимальности (3).
Задача 2: вычисление значения условного минимума функционала
2'
и
t Kx, м,) + || щ \ ), (6)
для вектора u* как точки условного минимума функционала в (5) по вектору управлений.
Как следует из (5) и (6), производная по времени функции Ляпунова Vt' в (6) вычислена в силу стационарного дифференциального оператора
объекта в (1), (2), где пара (A,B) — управляема по Р. Калману в силу выполнения известного рангового условия управляемости объекта в (1) -
(3) с гурвицевой матрицей А е Rпхп.
Далее синтез ограниченного допустимого вектора управлений (5) на основе (3) с учетом (4) для ограниченных управлений в (3) выполнен с помощью метода проекционных операторов оптимизации [1 - 3].
Полная производная по времени для функции А.М. Ляпунова (4) на траекториях объекта управления (1) определяет в силу (3) и (4) преобразованное уравнение Р. Беллмана (5) к виду
min (хТАТРх + хтРАх + хтОх + 2итВтРх + итВтРВи + xTQx + ити) = 0,}, (7)
где производная квадратичной функции Ляпунова в силу исследуемого объекта имеет вид
V' = хтАтРх + хтРАх + 2 итВтРх + итБтРБи.
Тогда оптимальное управление, следующее из уравнения (5), в силу (7.а), (7.б) с учетом точки минимума по управлению в (5) для функционала в круглых скобках (7.а), преобразуемого с помощью указанного уравнения к виду
хтАтРх + хтРАх + хт0х = 0, 0 > 0, (8)
откуда следует матричное уравнение Ляпунова
АтР + РА = -0, 0 > 0, которое в силу классической теоремы Ляпунова для гурвицевой матрицы
А е Я" ", имеет положительно-определенное решение Р = Рт > 0.
Таким образом, симметричная положительно-определенная матрица Р вычисляется из уравнения Ляпунова, а минимизирующее управление в левой части (7) следует из необходимого условия минимума по управлению функционала в круглых скобках указанного уравнения с учетом уравнения-аннулятора, следующего из (8). В результате необходимое условие минимума в (7) с учетом (8) примет вид
— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (9)
Решение уравнений (7), (8) упрощается для квадратной симметрич-
П _ тупхп
ной положительно-определенной матрицы Р е Я , вычисленной как решение уравнения-аннулятора Ляпунова в (8), следующего из равенства
хт АтРх + хт РАх + хт0х = хт (АтР + РА + 0) х = 0. (10)
При этом уравнение Ляпунова с гурвицевой матрицей
А е Я"х , имеет
положительно определенное решение в виде матрицы Р > 0.
Таким образом, в силу теоремы Ляпунова уравнение (5) имеет положительно определенное решение Р = Рт > 0.
Задача 2. С учетом решения задачи 1, в результате приведенных выше преобразований, необходимые условия минимума в (7) примут вид
— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (11)
Ли \ '
Тогда задача условной минимизации функционала в левой части уравнения (11) при ограниченном управлении будет преобразована с учетом квадратичной функции Ляпунова (2) и ограничений на вектор управлений в виде шара.
Тогда преобразование уравнения Беллмана (2) в силу (4), (5), (6), (7), (8) далее выполнено с помощью функции Лагранжа
Ь = 2итВтРх +итВтРВи + хт()х + ити +Я (ити - г2)}. (12)
Для обеспечения допустимости и квазиоптимальности управлений на основе функции Лагранжа (9) с множителем Яе Я, далее будет также использован «принцип граничных решений» и оптимальности на основе необходимых условий
Ь (и,X) = ВтРх + ВтРВи + и + Xu = 0И,
ит ( X ) и ( X )- г2
0
(13)
Неотрицательные множители Лагранжа для второго ограничения в (13) в силу теоремы Куна-Таккера определяют однопараметрическое семейство квазиоптимальных допустимых векторов управлений с обратной связью
и ( X ) = -\_ВтРВ + (1 + X)] ВтРх.
(14)
Вычисление положительных значений множителей Х1,2 для определения оптимального вектора и ( X ) в (14) использует известную теорему
Куна-Таккера и «принцип граничных элементов» [3], принадлежащих сфере как границе шара в (3).
На первом этапе решения задачи в левой части (8) использована функция Лагранжа
Ь (х, и, X ) = 2итВтРх + || и ||2 + X (|| и 112 - г2),
(15)
а необходимое условие минимума функции Лагранжа (15) имеет вид
ВтРх + и ( X ) + Xu ( X ) = 0. (16)
В результате вектор управлений и ( X) в силу (1.а), (1.б), (10) и (15) равен
и( X ) = -(! + X)-1 ВтРх, || и( X )||2 - г2 = 0.
(17)
Для вычисления в силу теоремы Куна-Таккера положительных граничных решений-множителей Лагранжа X е Я+, на основе второго уравнения (17) можно использовать равенство
и ( X ) 112 = ит ( X ) и ( X ) = || ВгРх||2 (1 + X )-2 < г г
(18)
Тогда из (18) следует квадратное уравнение для граничных значений параметра X е Я, для множества управлений
у2 = г2 (X +1)2, у2 =
В1 Рх
2
2
которое преобразуется к стандартному виду
г 2Л2 + 2г Л + ( г2 -у2 ) = 0.
В результате граничные значения множителей Лагранжа с учетом свойств допустимого множества для управлений определены равенствами
Л = (-2г2 4г4 -4г2(г2 -у2)У2г2 = = (-2г2±2гу)/2г2 =-\± уг~\ у = \\втРх^)\\2. (19)
Тогда сужение множества Ои до однопараметрического множества с радиусом г е Я, определяет ограниченное допустимое подмножество-шар О с Я1, имеющее вид отрезка с граничными элементами
и(Л) = -(1 + Л)1 ВтРх, Л,2=-1 ±Уг_1, У = ||ВтРх||, (20)
в виде векторов
u
-1 T -1
) = -(1 + ^ ) BTPx = - rBTPx
BTPx
u(A2) = -(l + A2)- BTPx = + rBTPx """
BTPx
<-r, < r.
Тогда параметризованное параметром 0 e R, допустимое ограниченное множество управлений параметра в e [0; 1] примет вид
D(в) = { u(x,в,\2) | u(x, в) = ви(x, \) + (1 - в)u (x, Я2), в e [0; 1]}. (21)
Равенство (21) определяет параметризованный параметром ве[0; 1],
интервал одномерного подпространства, включающего граничные векторы (18). В результате задача синтеза управлений сведена к минимизации функционала в (4.б) на ограниченном множестве управлений с границами u (x, Äl), u (x, Л2 ) в (18).
Для вычисления точки минимума на допустимом множестве ве[0;1]^ R, требуется решить задачу одномерной минимизации: вычислить скалярный параметр
в = arg min {l (в) = 2uT (x, в) BTPx +1| u (x, в, \, \ ) ||2, u(x,вД,^) = вu(x, Л) + (1 -в)u(x, , в e [0;1]}.
Далее для вычисления управлений требуется минимизировать функционал (4.б) на сужении D множества D по параметру #е[0;1],
в два этапа. На первом этапе вычисляется параметр в0 из условия минимума
dL (0)/ö0 = 0, (16)
на сужении области D в виде отрезка прямой с граничными элементами и(x, Л) и и(x, Л2).
Выводы
Таким образом, полученные результаты позволяют синтезировать квазиоптимальные ограниченные управления для стабилизации линейных динамических объектов с ограниченными управлениями. Оценки области притяжения синтезированной системы могут быть получены с омощью предлагаемых моделей.
Список литературы
1. Козлов В.Н. Проекционный метод синтеза ограниченных оптимальных управлений динамических систем. Изд-во Санкт-Петербургского политехнического университета. - СПб.: 2019, - 170 с.
УДК 517.9: 656 doi:10.18720/SPBPU/2/id23-47
Козлов Владимир Николаевич 1,
д-р техн. наук, профессор;
л
Ефремов Артём Александрович ,
канд. физ.-мат. наук, доцент;
ОПТИМАЛЬНАЯ СТАБИЛИЗАЦИЯ ЦИФРОВЫХ ТРАНСПОРТНЫХ СИСТЕМ
1 2
' Россия, Санкт-Петербург, Санкт-Петербургский политехнический
университет Петра Великого,
Институт компьютерных наук и технологий;
1 2
kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru
Аннотация. В работе рассмотрены вопросы оптимальной стабилизации локально оптимальных систем для управления нелинейными объектами. Для синтеза и качественного анализа сложных систем управления предложены проекционно-операторные квазианалитические методы решения задач условной минимизации линейных и квадратичных функционалов на пересечении линейного многообразия и эллипсоида (шара). При этом линейные многообразия позволяют использовать линеаризованные или нелинейные модели, учитывающие операторы типовых нелинейностей динамических объектов. Ограничения-неравенства в проекционных