Научная статья на тему 'ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ'

ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ Текст научной статьи по специальности «Математика»

CC BY
71
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
уравнение Беллмана / проекционный метод / ограниченные управления / Bellman equation / projection method / bounded controls

Аннотация научной статьи по математике, автор научной работы — Козлов Владимир Николаевич, Ефремов Артём Александрович

В статье рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Козлов Владимир Николаевич, Ефремов Артём Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A PROJECTION METHOD FOR SOLVING THE R. BELLMAN EQUATION FOR THE SYNTHESIS OF SYSTEMS WITH CONTROL CONSTRAINTS

The article considers the method of synthesis of approximately optimal and permissible bounded controls based on projection operators.

Текст научной работы на тему «ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЯ»

СЕКЦИЯ «МАТЕМАТИЧЕСКИЕ МЕТОДЫ СИСТЕМНОГО АНАЛИЗА И УПРАВЛЕНИЯ»

Сопредседатели — Козлов Владимир Николаевич,

д-р техн. наук, профессор СПбПУ, заслуженный работник высшей школы РФ, заместитель председателя СПб отделения МАН ВШ; Ефремов Артём Александрович, канд. физ.-мат. наук, доцент СПбПУ

Ученый секретарь — Сорокина Наталья Владимировна,

ст. преп., СПбПУ

УДК 519.6

doi:10.18720/SPBPU/2/id23-46

Козлов Владимир Николаевич \

д-р техн. наук, профессор;

л

Ефремов Артём Александрович ,

канд. физ.-мат. наук, доцент

ПРОЕКЦИОННЫЙ МЕТОД РЕШЕНИЯ УРАВНЕНИЯ Р. БЕЛЛМАНА ДЛЯ СИНТЕЗА СИСТЕМ С ОГРАНИЧЕНИЯМИ

НА УПРАВЛЕНИЯ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого, 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Аннотация. В статье рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.

Ключевые слова: уравнение Беллмана, проекционный метод, ограниченные управления.

Vladimir N. Kozlov 1,

Professor, Doctor of Technical Sciences, Professor;

л

Artem A. Efremov ,

Candidate of Physical and Mathematical Sciences, Associate Professor

A PROJECTION METHOD FOR SOLVING THE R. BELLMAN EQUATION FOR THE SYNTHESIS OF SYSTEMS

WITH CONTROL CONSTRAINTS

1 2

, Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia; 1 2 kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Abstract. The article considers the method of synthesis of approximately optimal and permissible bounded controls based on projection operators.

Keywords: Bellman equation, projection method, bounded controls.

Метод динамического программирования широко используется для синтеза линейных оптимальных систем с квадратичными критериями качества. Далее рассмотрена методика синтеза приближенно оптимальных и допустимых ограниченных управлений на основе проекционных операторов.

1. Постановка задачи

Основу метода составляют проекционные операторы оптимизации [1], используемые для преобразования задачи конечномерной оптимизации с управлениями, принадлежащими области Б с Ят, в левой части уравнения Р. Беллмана. Задача динамического программирования имеет вид: вычислить допустимый вектор управлений, удовлетворяющий уравнению Беллмана

т^'+ xTQx + || и ||21 = 0 х' = Ах + 5и, х(0) = х0, и е Бм = {и| \ и II2 г2 | = (1)

mm

u е D

где функционал xтQx, Q > 0, описывает качество оптимальной стабили-

2

зации координат состояний, а функционал || и || определяет энергию управления.

В результате задача квазиоптимального управления (1) имеет вид: вычислить ограниченный шаром евклидова пространства функций допустимый ограниченных вектор управлений

U (x (t)) = argmin = J (xTQx + uTRu) dt, Q = QT > 0, R = Em | ' = Ax + Bu, x ( 0 ) = xo е Dnp, u (t )е Du = ju (t)| || u (t )||2 < r2 }} е Rm ) .(2)

В задаче (2) множество Бпр — область притяжения динамической системы с дифференциальным оператором, где вектор управлений должен доставлять минимум квадратичному функционалу.

Таким образом, задача оптимизации системы в (1), (2) с ограниченным управлением будет решена на основе условия оптимальности в форме

min|

ue

in (vt'+ xTQx u||2) = 0 x' = Ax + Bu, u e D = ju ||u||2< r2 } = 0.(3)

2. Решение задачи синтеза ограниченных допустимых управлений

В уравнении (3) положительно-определенная симметричная форма квадратичная форма Q = ^ > 0, матрица А — гурвицева, а квадратичная

функция А.М. Ляпунова с симметричной положительно определенной матрицей P = РТ, имеет вид

V (*) = xTPx, P = PT > 0; (4)

Таким образом, для синтеза управлений на основе уравнения Белл-мана и проекционного метода требуется решить две задачи. Задача 1: вычисление точки условного минимума функционала в (3) по управлению

щ = üg min V (и) + ||и 2, и e D =\u uTu — r2}], (5)

т. е. в левой части условия оптимальности (3).

Задача 2: вычисление значения условного минимума функционала

2'

и

t Kx, м,) + || щ \ ), (6)

для вектора u* как точки условного минимума функционала в (5) по вектору управлений.

Как следует из (5) и (6), производная по времени функции Ляпунова Vt' в (6) вычислена в силу стационарного дифференциального оператора

объекта в (1), (2), где пара (A,B) — управляема по Р. Калману в силу выполнения известного рангового условия управляемости объекта в (1) -

(3) с гурвицевой матрицей А е Rпхп.

Далее синтез ограниченного допустимого вектора управлений (5) на основе (3) с учетом (4) для ограниченных управлений в (3) выполнен с помощью метода проекционных операторов оптимизации [1 - 3].

Полная производная по времени для функции А.М. Ляпунова (4) на траекториях объекта управления (1) определяет в силу (3) и (4) преобразованное уравнение Р. Беллмана (5) к виду

min (хТАТРх + хтРАх + хтОх + 2итВтРх + итВтРВи + xTQx + ити) = 0,}, (7)

где производная квадратичной функции Ляпунова в силу исследуемого объекта имеет вид

V' = хтАтРх + хтРАх + 2 итВтРх + итБтРБи.

Тогда оптимальное управление, следующее из уравнения (5), в силу (7.а), (7.б) с учетом точки минимума по управлению в (5) для функционала в круглых скобках (7.а), преобразуемого с помощью указанного уравнения к виду

хтАтРх + хтРАх + хт0х = 0, 0 > 0, (8)

откуда следует матричное уравнение Ляпунова

АтР + РА = -0, 0 > 0, которое в силу классической теоремы Ляпунова для гурвицевой матрицы

А е Я" ", имеет положительно-определенное решение Р = Рт > 0.

Таким образом, симметричная положительно-определенная матрица Р вычисляется из уравнения Ляпунова, а минимизирующее управление в левой части (7) следует из необходимого условия минимума по управлению функционала в круглых скобках указанного уравнения с учетом уравнения-аннулятора, следующего из (8). В результате необходимое условие минимума в (7) с учетом (8) примет вид

— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (9)

Решение уравнений (7), (8) упрощается для квадратной симметрич-

П _ тупхп

ной положительно-определенной матрицы Р е Я , вычисленной как решение уравнения-аннулятора Ляпунова в (8), следующего из равенства

хт АтРх + хт РАх + хт0х = хт (АтР + РА + 0) х = 0. (10)

При этом уравнение Ляпунова с гурвицевой матрицей

А е Я"х , имеет

положительно определенное решение в виде матрицы Р > 0.

Таким образом, в силу теоремы Ляпунова уравнение (5) имеет положительно определенное решение Р = Рт > 0.

Задача 2. С учетом решения задачи 1, в результате приведенных выше преобразований, необходимые условия минимума в (7) примут вид

— (2итВтРх + итВтРВи + хт0х + ит и) = 0М. (11)

Ли \ '

Тогда задача условной минимизации функционала в левой части уравнения (11) при ограниченном управлении будет преобразована с учетом квадратичной функции Ляпунова (2) и ограничений на вектор управлений в виде шара.

Тогда преобразование уравнения Беллмана (2) в силу (4), (5), (6), (7), (8) далее выполнено с помощью функции Лагранжа

Ь = 2итВтРх +итВтРВи + хт()х + ити +Я (ити - г2)}. (12)

Для обеспечения допустимости и квазиоптимальности управлений на основе функции Лагранжа (9) с множителем Яе Я, далее будет также использован «принцип граничных решений» и оптимальности на основе необходимых условий

Ь (и,X) = ВтРх + ВтРВи + и + Xu = 0И,

ит ( X ) и ( X )- г2

0

(13)

Неотрицательные множители Лагранжа для второго ограничения в (13) в силу теоремы Куна-Таккера определяют однопараметрическое семейство квазиоптимальных допустимых векторов управлений с обратной связью

и ( X ) = -\_ВтРВ + (1 + X)] ВтРх.

(14)

Вычисление положительных значений множителей Х1,2 для определения оптимального вектора и ( X ) в (14) использует известную теорему

Куна-Таккера и «принцип граничных элементов» [3], принадлежащих сфере как границе шара в (3).

На первом этапе решения задачи в левой части (8) использована функция Лагранжа

Ь (х, и, X ) = 2итВтРх + || и ||2 + X (|| и 112 - г2),

(15)

а необходимое условие минимума функции Лагранжа (15) имеет вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ВтРх + и ( X ) + Xu ( X ) = 0. (16)

В результате вектор управлений и ( X) в силу (1.а), (1.б), (10) и (15) равен

и( X ) = -(! + X)-1 ВтРх, || и( X )||2 - г2 = 0.

(17)

Для вычисления в силу теоремы Куна-Таккера положительных граничных решений-множителей Лагранжа X е Я+, на основе второго уравнения (17) можно использовать равенство

и ( X ) 112 = ит ( X ) и ( X ) = || ВгРх||2 (1 + X )-2 < г г

(18)

Тогда из (18) следует квадратное уравнение для граничных значений параметра X е Я, для множества управлений

у2 = г2 (X +1)2, у2 =

В1 Рх

2

2

которое преобразуется к стандартному виду

г 2Л2 + 2г Л + ( г2 -у2 ) = 0.

В результате граничные значения множителей Лагранжа с учетом свойств допустимого множества для управлений определены равенствами

Л = (-2г2 4г4 -4г2(г2 -у2)У2г2 = = (-2г2±2гу)/2г2 =-\± уг~\ у = \\втРх^)\\2. (19)

Тогда сужение множества Ои до однопараметрического множества с радиусом г е Я, определяет ограниченное допустимое подмножество-шар О с Я1, имеющее вид отрезка с граничными элементами

и(Л) = -(1 + Л)1 ВтРх, Л,2=-1 ±Уг_1, У = ||ВтРх||, (20)

в виде векторов

u

-1 T -1

) = -(1 + ^ ) BTPx = - rBTPx

BTPx

u(A2) = -(l + A2)- BTPx = + rBTPx """

BTPx

<-r, < r.

Тогда параметризованное параметром 0 e R, допустимое ограниченное множество управлений параметра в e [0; 1] примет вид

D(в) = { u(x,в,\2) | u(x, в) = ви(x, \) + (1 - в)u (x, Я2), в e [0; 1]}. (21)

Равенство (21) определяет параметризованный параметром ве[0; 1],

интервал одномерного подпространства, включающего граничные векторы (18). В результате задача синтеза управлений сведена к минимизации функционала в (4.б) на ограниченном множестве управлений с границами u (x, Äl), u (x, Л2 ) в (18).

Для вычисления точки минимума на допустимом множестве ве[0;1]^ R, требуется решить задачу одномерной минимизации: вычислить скалярный параметр

в = arg min {l (в) = 2uT (x, в) BTPx +1| u (x, в, \, \ ) ||2, u(x,вД,^) = вu(x, Л) + (1 -в)u(x, , в e [0;1]}.

Далее для вычисления управлений требуется минимизировать функционал (4.б) на сужении D множества D по параметру #е[0;1],

в два этапа. На первом этапе вычисляется параметр в0 из условия минимума

dL (0)/ö0 = 0, (16)

на сужении области D в виде отрезка прямой с граничными элементами и(x, Л) и и(x, Л2).

Выводы

Таким образом, полученные результаты позволяют синтезировать квазиоптимальные ограниченные управления для стабилизации линейных динамических объектов с ограниченными управлениями. Оценки области притяжения синтезированной системы могут быть получены с омощью предлагаемых моделей.

Список литературы

1. Козлов В.Н. Проекционный метод синтеза ограниченных оптимальных управлений динамических систем. Изд-во Санкт-Петербургского политехнического университета. - СПб.: 2019, - 170 с.

УДК 517.9: 656 doi:10.18720/SPBPU/2/id23-47

Козлов Владимир Николаевич 1,

д-р техн. наук, профессор;

л

Ефремов Артём Александрович ,

канд. физ.-мат. наук, доцент;

ОПТИМАЛЬНАЯ СТАБИЛИЗАЦИЯ ЦИФРОВЫХ ТРАНСПОРТНЫХ СИСТЕМ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

Институт компьютерных наук и технологий;

1 2

kozlov_vn@spbstu.ru, artem.efremov@spbstu.ru, saiu@ftk.spbstu.ru

Аннотация. В работе рассмотрены вопросы оптимальной стабилизации локально оптимальных систем для управления нелинейными объектами. Для синтеза и качественного анализа сложных систем управления предложены проекционно-операторные квазианалитические методы решения задач условной минимизации линейных и квадратичных функционалов на пересечении линейного многообразия и эллипсоида (шара). При этом линейные многообразия позволяют использовать линеаризованные или нелинейные модели, учитывающие операторы типовых нелинейностей динамических объектов. Ограничения-неравенства в проекционных

i Надоели баннеры? Вы всегда можете отключить рекламу.