ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ

Козлов Владимир Николаевич; Ефремов Артём Александрович

СЕКЦИЯ «МАТЕМАТИЧЕСКИЕ МЕТОДЫ СИСТЕМНОГО АНАЛИЗА И УПРАВЛЕНИЯ»

Сопредседатели — Козлов Владимир Николаевич,

д-р техн. наук, профессор СПбПУ, заслуженный работник высшей школы РФ, заместитель председателя СПб отделения МАН ВШ; Ефремов Артём Александрович, канд. физ.-мат. наук, доцент СПбПУ

Ученый секретарь — Сорокина Наталья Владимировна,

ст. преп., СПбПУ

УДК 519.6

doi:10.18720/SPBPU/2/id23-46

Козлов Владимир Николаевич \

д-р техн. наук, профессор;

л

Ефремов Артём Александрович ,

канд. физ.-мат. наук, доцент

ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ

НА УПРАВЛЕНИЯ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого, 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Аннотация. В статье рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.

Ключевые слова: уравнение Беллмана, проекционный метод, ограниченные управления.

Vladimir N. Kozlov 1,

Professor, Doctor of Technical Sciences, Professor;

л

Artem A. Efremov ,

Candidate of Physical and Mathematical Sciences, Associate Professor

A PROJECTION METHOD FOR SOLVING THE R. BELLMAN EQUATION FOR THE SYNTHESIS OF SYSTEMS

WITH CONTROL CONSTRAINTS

1 2

, Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia; 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Abstract. The article considers the method of synthesis of approximately optimal and permissible bounded controls based on projection operators.

Keywords: Bellman equation, projection method, bounded controls.

Метод динамического программирования широко используется для синтеза линейных оптимальных систем с квадратичными критериями качества. Далее рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.

1. Постановка задачи

Основу метода составляют проекционные операторы оптимизации [1], используемые для преобразования задачи конечномерной оптимизации с управлениями, принадлежащими области Б с Ят, в левой части уравнения Р. Беллмана. Задача динамического программирования имеет вид: вычислить допустимый вектор управлений, удовлетворяющий уравнению Беллмана

т^'+ xTQx + || и ||21 = 0 х' = Ах + 5и, х(0) = х0, и е Бм = {и| \ и II2 г2 | = (1)

mm

u е D

где функционал xтQx, Q > 0, описывает качество оптимальной стабили-

2

зации координат состояний, а функционал || и || определяет энергию управления.

В результате задача квазиоптимального управления (1) имеет вид: вычислить ограниченный шаром евклидова пространства функций допустимый ограниченных вектор управлений

U (x (t)) = argmin = J (xTQx + uTRu) dt, Q = QT > 0, R = Em | ' = Ax + Bu, x ( 0 ) = xo е Dnp, u (t )е Du = ju (t)| || u (t )||2 < r2 }} е Rm ) .(2)

В задаче (2) множество Бпр — область притяжения динамической системы с дифференциальным оператором, где вектор управлений должен доставлять минимум квадратичному функционалу.

Таким образом, задача оптимизации системы в (1), (2) с ограниченным управлением будет решена на основе условия оптимальности в форме

min|

ue

in (vt'+ xTQx u||2) = 0 x' = Ax + Bu, u e D = ju ||u||2< r2 } = 0.(3)

2. Решение задачи синтеза ограниченных допустимых управлений

В уравнении (3) положительно-определенная симметричная форма квадратичная форма Q = ^ > 0, матрица А — гурвицева, а квадратичная

функция А.М. Ляпунова с симметричной положительно определенной матрицей P = РТ, имеет вид

V (*) = xTPx, P = PT > 0; (4)

Таким образом, для синтеза управлений на основе уравнения Белл-мана и проекционного метода требуется решить две задачи. Задача 1: вычисление точки условного минимума функционала в (3) по управлению

щ = üg min V (и) + ||и 2, и e D =\u uTu — r2}], (5)

т. е. в левой части условия оптимальности (3).

Задача 2: вычисление значения условного минимума функционала

2'

и

t Kx, м,) + || щ \ ), (6)

для вектора u* как точки условного минимума функционала в (5) по вектору управлений.

Как следует из (5) и (6), производная по времени функции Ляпунова Vt' в (6) вычислена в силу стационарного дифференциального оператора

объекта в (1), (2), где пара (A,B) — управляема по Р. Калману в силу выполнения известного рангового условия управляемости объекта в (1) -

(3) с гурвицевой матрицей А е Rпхп.

Далее синтез ограниченного допустимого вектора управлений (5) на основе (3) с учетом (4) для ограниченных управлений в (3) выполнен с помощью метода проекционных операторов оптимизации [1 - 3].

Полная производная по времени для функции А.М. Ляпунова (4) на траекториях объекта управления (1) определяет в силу (3) и (4) преобразованное уравнение Р. Беллмана (5) к виду

min (хТАТРх + хтРАх + хтОх + 2итВтРх + итВтРВи + xTQx + ити) = 0,}, (7)

где производная квадратичной функции Ляпунова в силу исследуемого объекта имеет вид

V' = хтАтРх + хтРАх + 2 итВтРх + итБтРБи.

Тогда оптимальное управление, следующее из уравнения (5), в силу (7.а), (7.б) с учетом точки минимума по управлению в (5) для функционала в круглых скобках (7.а), преобразуемого с помощью указанного уравнения к виду

хтАтРх + хтРАх + хт0х = 0, 0 > 0, (8)

откуда следует матричное уравнение Ляпунова

АтР + РА = -0, 0 > 0, которое в силу классической теоремы Ляпунова для гурвицевой матрицы

А е Я" ", имеет положительно-определенное решение Р = Рт > 0.

Таким образом, симметричная положительно-определенная матрица Р вычисляется из уравнения Ляпунова, а минимизирующее управление в левой части (7) следует из необходимого условия минимума по управлению функционала в круглых скобках указанного уравнения с учетом уравнения-аннулятора, следующего из (8). В результате необходимое условие минимума в (7) с учетом (8) примет вид

— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (9)

Решение уравнений (7), (8) упрощается для квадратной симметрич-

П _ тупхп

ной положительно-определенной матрицы Р е Я , вычисленной как решение уравнения-аннулятора Ляпунова в (8), следующего из равенства

хт АтРх + хт РАх + хт0х = хт (АтР + РА + 0) х = 0. (10)

При этом уравнение Ляпунова с гурвицевой матрицей

А е Я"х , имеет

положительно определенное решение в виде матрицы Р > 0.

Таким образом, в силу теоремы Ляпунова уравнение (5) имеет положительно определенное решение Р = Рт > 0.

Задача 2. С учетом решения задачи 1, в результате приведенных выше преобразований, необходимые условия минимума в (7) примут вид

— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (11)

Ли \ '

Тогда задача условной минимизации функционала в левой части уравнения (11) при ограниченном управлении будет преобразована с учетом квадратичной функции Ляпунова (2) и ограничений на вектор управлений в виде шара.

Тогда преобразование уравнения Беллмана (2) в силу (4), (5), (6), (7), (8) далее выполнено с помощью функции Лагранжа

Ь = 2итВтРх +итВтРВи + хт()х + ити +Я (ити - г2)}. (12)

Для обеспечения допустимости и квазиоптимальности управлений на основе функции Лагранжа (9) с множителем Яе Я, далее будет также использован «принцип граничных решений» и оптимальности на основе необходимых условий

Ь (и,X) = ВтРх + ВтРВи + и + Xu = 0И,

ит ( X ) и ( X )- г2

0

(13)

Неотрицательные множители Лагранжа для второго ограничения в (13) в силу теоремы Куна-Таккера определяют однопараметрическое семейство квазиоптимальных допустимых векторов управлений с обратной связью

и ( X ) = -\_ВтРВ + (1 + X)] ВтРх.

(14)

Вычисление положительных значений множителей Х1,2 для определения оптимального вектора и ( X ) в (14) использует известную теорему

Куна-Таккера и «принцип граничных элементов» [3], принадлежащих сфере как границе шара в (3).

На первом этапе решения задачи в левой части (8) использована функция Лагранжа

Ь (х, и, X ) = 2итВтРх + || и ||2 + X (|| и 112 - г2),

(15)

а необходимое условие минимума функции Лагранжа (15) имеет вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ВтРх + и ( X ) + Xu ( X ) = 0. (16)

В результате вектор управлений и ( X) в силу (1.а), (1.б), (10) и (15) равен

и( X ) = -(! + X)-1 ВтРх, || и( X )||2 - г2 = 0.

(17)

Для вычисления в силу теоремы Куна-Таккера положительных граничных решений-множителей Лагранжа X е Я+, на основе второго уравнения (17) можно использовать равенство

и ( X ) 112 = ит ( X ) и ( X ) = || ВгРх||2 (1 + X )-2 < г г

(18)

Тогда из (18) следует квадратное уравнение для граничных значений параметра X е Я, для множества управлений

у2 = г2 (X +1)2, у2 =

В1 Рх

2

которое преобразуется к стандартному виду

г 2Л2 + 2г Л + ( г2 -у2 ) = 0.

В результате граничные значения множителей Лагранжа с учетом свойств допустимого множества для управлений определены равенствами

Л = (-2г2 4г4 -4г2(г2 -у2)У2г2 = = (-2г2±2гу)/2г2 =-\± уг~\ у = \\втРх^)\\2. (19)

Тогда сужение множества Ои до однопараметрического множества с радиусом г е Я, определяет ограниченное допустимое подмножество-шар О с Я1, имеющее вид отрезка с граничными элементами

и(Л) = -(1 + Л)1 ВтРх, Л,2=-1 ±Уг_1, У = ||ВтРх||, (20)

в виде векторов

u

-1 T -1

) = -(1 + ^ ) BTPx = - rBTPx

BTPx

u(A2) = -(l + A2)- BTPx = + rBTPx """

BTPx

<-r, < r.

Тогда параметризованное параметром 0 e R, допустимое ограниченное множество управлений параметра в e [0; 1] примет вид

D(в) = { u(x,в,\2) | u(x, в) = ви(x, \) + (1 - в)u (x, Я2), в e [0; 1]}. (21)

Равенство (21) определяет параметризованный параметром ве[0; 1],

интервал одномерного подпространства, включающего граничные векторы (18). В результате задача синтеза управлений сведена к минимизации функционала в (4.б) на ограниченном множестве управлений с границами u (x, Äl), u (x, Л2 ) в (18).

Для вычисления точки минимума на допустимом множестве ве[0;1]^ R, требуется решить задачу одномерной минимизации: вычислить скалярный параметр

в = arg min {l (в) = 2uT (x, в) BTPx +1| u (x, в, \, \ ) ||2, u(x,вД,^) = вu(x, Л) + (1 -в)u(x, , в e [0;1]}.

Далее для вычисления управлений требуется минимизировать функционал (4.б) на сужении D множества D по параметру #е[0;1],

в два этапа. На первом этапе вычисляется параметр в0 из условия минимума

dL (0)/ö0 = 0, (16)

на сужении области D в виде отрезка прямой с граничными элементами и(x, Л) и и(x, Л2).

Выводы

Таким образом, полученные результаты позволяют синтезировать квазиоптимальные ограниченные управления для стабилизации линейных динамических объектов с ограниченными управлениями. Оценки области притяжения синтезированной системы могут быть получены с омощью предлагаемых моделей.

Список литературы

1. Козлов В.Н. Проекционный метод синтеза ограниченных оптимальных управлений динамических систем. Изд-во Санкт-Петербургского политехнического университета. - СПб.: 2019, - 170 с.

УДК 517.9: 656 doi:10.18720/SPBPU/2/id23-47

Козлов Владимир Николаевич 1,

д-р техн. наук, профессор;

л

Ефремов Артём Александрович ,

канд. физ.-мат. наук, доцент;

ОПТИМАЛЬНАЯ СТАБИЛИЗАЦИЯ ЦИФРОВЫХ ТРАНСПОРТНЫХ СИСТЕМ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

Институт компьютерных наук и технологий;

1 2

kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Аннотация. В работе рассмотрены вопросы оптимальной стабилизации локально оптимальных систем для управления нелинейными объектами. Для синтеза и качественного анализа сложных систем управления предложены проекционно-операторные квазианалитические методы решения задач условной минимизации линейных и квадратичных функционалов на пересечении линейного многообразия и эллипсоида (шара). При этом линейные многообразия позволяют использовать линеаризованные или нелинейные модели, учитывающие операторы типовых нелинейностей динамических объектов. Ограничения-неравенства в проекционных

ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Козлов Владимир Николаевич, Ефремов Артём Александрович

Похожие темы научных работ по математике , автор научной работы — Козлов Владимир Николаевич, Ефремов Артём Александрович

A PROJECTION METHOD FOR SOLVING THE R. BELLMAN EQUATION FOR THE SYNTHESIS OF SYSTEMS WITH CONTROL CONSTRAINTS

Текст научной работы на тему «ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ»