Научная статья на тему 'Приближенный метод решения задач оптимального управления для дискретных систем, основанный на локальной аппроксимации множества достижимости'

Приближенный метод решения задач оптимального управления для дискретных систем, основанный на локальной аппроксимации множества достижимости Текст научной статьи по специальности «Математика»

CC BY
314
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСКРЕТНЫЕ СИСТЕМЫ / ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ / МНОЖЕСТВО ДОСТИЖИМОСТИ / МЕТОД УЛУЧШЕНИЯ / DISCRETE SYSTEMS / OPTIMAL CONTROL / ATTAINABILITY SET / IMPROVEMENT METHOD

Аннотация научной статьи по математике, автор научной работы — Батурин Владимир Александрович

Рассматривается задача оптимального управления для дискретных систем. Предлагается метод последовательных улучшений и его модернизация, основанная на разложении основных конструкций базового алгоритма по параметру. Идея метода основана на локальной аппроксимации множества достижимости, которое описывается нулями функции Беллмана в специальной задаче оптимального управления. Суть этой задачи заключается в следующем: из конечной фазовой точки требуется найти траекторию, которая минимизирует функционал нормы отклонения от начального состояния. Если исходная точка принадлежит множеству достижимости исходной управляемой системы, то значение функции Беллмана равно нулю, в противном случае значение функции Беллмана больше нуля. Для этой специальной задачи выписывается уравнение Беллмана. Выбирается опорное приближение, и функция Беллмана аппроксимируется квадратичными слагаемыми. Вдоль допустимой траектории, такая аппроксимация ничего не дает, поскольку сама функция Беллмана и ее коэффициенты разложения равны нулю. В работе использован специальный прием: вводится дополнительная переменная, характеризующая степень отклонения состояния системы от исходного приближения, тем самым получается расширенная исходная цепочка. Для новой переменной выбираются начальные условия, отличные от нуля. Тем самым получается траектория, лежащая вне множества достижимости. Соответствующая функция Беллмана оказывается положительной, что позволяет провести ее нетривиальную аппроксимацию. В результате этих процедур получены алгоритмы последовательных улучшений. Найдены условия, обеспечивающие релаксационность алгоритмов, и установлена их связь с необходимыми условиями оптимальности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Батурин Владимир Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An Approximate Method for Solving Optimal Control Problems for Discrete Systems Based on Local Approximation of an Attainability Set

An optimal control problem for discrete systems is considered. A method of successive improvements along with its modernization based on the expansion of the main structures of the core algorithm about the parameter is suggested. The idea of the method is based on local approximation of attainability set, which is described by the zeros of the Bellman function in the special problem of optimal control. The essence of the problem is as follows: from the end point of the phase is required to find a path that minimizes functional deviations of the norm from the initial state. If the initial point belongs to the attainability set of the original controlled system, the value of the Bellman function equal to zero, otherwise the value of the Bellman function is greater than zero. For this special task Bellman equation is considered. The support approximation and Bellman equation are selected. The Bellman function is approximated by quadratic terms. Along the allowable trajectory, this approximation gives nothing, because Bellman function and its expansion coefficients are zero. We used a special trick: an additional variable is introduced, which characterizes the degree of deviation of the system from the initial state, thus it is obtained expanded original chain. For the new variable initial nonzero conditions is selected, thus obtained trajectory is lying outside attainability set and relevant Bellman function is greater than zero, which allows it to hold a non-trivial approximation. As a result of these procedures algorithms of successive improvements is designed. Conditions for relaxation algorithms and conditions for the necessary conditions of optimality are also obtained.

Текст научной работы на тему «Приближенный метод решения задач оптимального управления для дискретных систем, основанный на локальной аппроксимации множества достижимости»

Серия «Математика» 2017. Т. 19. С. 75-88

Онлайн-доступ к журналу: http://isu.ru/izvest.ia.

ИЗВЕСТИЯ

Иркутского государственного ■университета

УДК 517.8 MSG 49J15

DOI https://doi.org/10.26516/1997-7670.2017.19.75

Приближенный метод решения

задач оптимального управления

для дискретных систем,

основанный на локальной аппроксимации

множества достижимости*

В. А. Батурин

Институт динамики систем и теории управления им. В. М. Матросова СО РАН

Аннотация. Рассматривается задача, оптимального управления для дискретных систем. Предлагается метод последовательных улучшений и его модернизация, основанная на. разложении основных конструкций базового алгоритма, по параметру. Идея метода, основана, на. локальной аппроксимации множества, достижимости, которое описывается нулями функции Беллма.на. в специальной задаче оптимального управления. Суть этой задачи заключается в следующем: из конечной фазовой точки требуется найти траекторию, которая минимизирует функционал нормы отклонения от начального состояния. Если исходная точка, принадлежит множеству достижимости исходной управляемой системы, то значение функции Беллма.на. равно нулю, в противном случае значение функции Беллма.на. больше нуля. Для этой специальной задачи выписывается уравнение Беллма.на.. Выбирается опорное приближение, и функция Беллма.на. аппроксимируется квадратичными слагаемыми. Вдоль допустимой траектории, такая аппроксимация ничего не дает, поскольку сама, функция Беллма.на. и ее коэффициенты разложения равны нулю. В работе использован специальный прием: вводится дополнительная переменная, характеризующая степень отклонения состояния системы от исходного приближения, тем самым получается расширенная исходная цепочка.. Для новой переменной выбираются начальные условия, отличные от нуля. Тем самым получается траектория, лежащая вне множества, достижимости. Соответствующая функция Беллма.на. оказывается положительной, что позволяет провести ее нетривиальную аппроксимацию. В результате этих процедур получены алгоритмы последовательных улучшений. Найдены

* Исследование выполнено при частичной финансовой поддержке Совета, по грантам Президента. Российской Федерации для государственной поддержки ведущих научных школ Российской Федерации (НШ-8081.2016.9).

условия, обеспечивающие релаксадионность алгоритмов, и установлена их связь с необходимыми условиями оптимальности.

Ключевые слова: дискретные системы, задачи оптимального управления, множество достижимости, метод улучшения.

1. Введение

Задачи оптимального управления динамическими процессами имеют очень широкий спектр приложений. Хотя приближенные методы их решения насчитывают более 50 лет, и накоплен большой потенциал алгоритмов, нельзя с уверенностью утверждать, что один из разработанных ранее методов обеспечит успех в решении той или иной задачи. Новые подходы построения приближенных методов позволяют дополнить серию уже имеющихся алгоритмов, что расширяет возможности нахождения приближенно-оптимального управления в конкретной прикладной задаче.

Методики построения множеств достижимости разработаны в статьях [3; 10; 12; 13]. В основе рассматриваемого метода лежит теорема [8] о том, что множество достижимости системы есть множество нулей функции, являющейся решением уравнения Гамильтона-Якоби-Беллмана со специальным начальным условием. Аппроксимация такого уравнения рассматривается для некоторой вспомогательной задачи, получающейся из исходной путем расширения фазового пространства. В трудах [4; 5] впервые была высказана идея об использовании приближенного описания множества достижимости для построения алгоритма улучшения в непрерывных системах, а более глубокое исследование такого метода было проведено в работе [1; 11]. Идея применения этого подхода и общая итеративная схема улучшения для дискретных систем изложена в статье [2], развитие этого направления для более сложных систем содержится в работах [6; 7; 9]

2. Постановка задачи

Рассматривается дискретная по времени управляемая система

ж(* + 1) = /(*,ж(*), «(*)), ¿€Т = {*о,*о + 1,...,*1}, (2.1) ж(*о) = хо, и(г) € и (г), £ € Т. (2.2)

где х(Ь) принимает значения в евклидовом пространстве и(Ь) С Мг.

Известно, что динамическая система (2.1), (2.2) может быть равносильно записана как:

+ € [/(*)), ¿€Т, х(Ь)=х0, (2.3)

/(£, ж(£), £/(£)) — множество допустимых переходов системы на шаге

Определение 1. Совокупность пар функций (x(t),u(t)), удовлетворяющих условиям (2.1), (2.2) назовем множеством D допустимых управляемых процессов.

Требуется минимизировать терминальный функционал

I(x,u) = F(x(ti)). (2.4)

на множестве D.

Пусть задан некоторый элемент (х1 (t), и1 (t)) € D. Под задачей улучшения будем понимать задачу нахождения такого процесса (xn(t), uu(t)) € D, что I {х11 ,иП) < I (ж7, и7).

Определение 2. Множеством достижимости A^to, ^о; т) системы (2.1), (2.2) на шаге т, порожденным точкой Хо в момент to, будем называть множество тех и только тех элементов z € Rra, для каждого из которых найдется решение x(t) системы (2.1)-(2.2) такое, что х(т) = z.

В монографии [8] доказана следующая теорема о множестве достижимости для дискретных систем:

Теорема 1. Пусть f(t,x(t),lJ(t)) ф 0 при всех (t,x) € Т х Rra, и существуют функции (р : Т х Rra —>■ R и неотрицательная ф : Rra —> R такие, что

1) ф(х) = 0 тогда и только тогда, когда х = Хо]

2) при всех (t, х) € Т х Rra

W(p(t,x) = \ w € f(t,x(t),U(t)) : <p(t+ l,w) = sup <p(t +

{ v£f(t,x(t),U(t)) J

3) при всех (t, x) € T x Rra

sup Lp(t + 1, f(t,x,u)) = Lp(t,x), ip(t0,x) = ip(x). (2.5) ueu(t)

Тогда Xn(to, %o; т) = {x € Rra : <р(т, x) = 0} при всех т € Т.

По сути дела в теореме 1 рассмотрена следующая задача:

x(t + 1) = f{t,x{t),u{t)), x(t\) = х\, u(t)eU(t), teT, J = tp(x(to)) —> min .

Если точка X\ принадлежит множеству достижимости X-ji(to,Xo',ti), то tl>(x(tо)) = 0, а если не принадлежит, то ip(x(tо)) > 0 на оптимальном

решении, соответственно и функция Беллмана имеет те же свойства. Имеем:

<р(т,х*)> 0, х* £ Хп(и,х0-,т), <р(т,х*)= 0, х* € Хп&0,х0-,т), г€ Т.

Если х1 (г) лежит во множестве достижимости системы Хц(1;о,Хо]т) на каждом шаге г € Т, то функция Беллмана равна нулю, и ее линейно-квадратичная нулевая аппроксимация не дает возможности нахождения приближенного представления множества Хц.

При выводе конструкций алгоритма предполагается, что Р : Мга —>■ М — дважды непрерывно дифференцируема, / : Т х Мга х Мг —> М — дважды непрерывно дифференцируема по (х,и), [/(¿) = Мг, £ € Т.

3. Конструкции базового алгоритма

Будем искать локально улучшенный элемент (х11^), и11 (1)) € -О вблизи некоторого заданного начального элемента € И. Это дает возможность заменить границу множества достижимости ее квад-ратической аппроксимацией и построить на этой основе алгоритм улучшения.

Введем дополнительную скалярную функцию ж°(£)для системы(2.1):

ж°(£ + 1) = ж°(£) + (дАи'Аи + (1 - д)Дж'Дж),

А и = и — и(Ь), Дж = ж —ж7(£), ж0(¿о) = 0, 0 < д < 1, £ € Т,

Определим функции

/ Ж ж, и) \

У'и) = + ^ (дАи'Аи + (1 - д) Ах'Ах) ) (ЗЛ)

и получим систему вида

у(1 + 1) = ¡(1,у(1),и(1)), у(1о)=уо, I ет = {*о,*о + 1,.-М- (3-2)

Уравнение Беллмана (2.5) для системы (3.2) примет вид

тах<£>(£ + 1, /(¿, у, и)) -<р(г,у) = 0, (3.3)

и

фо,у) = \\у-уо\\, (3.4)

в предположении, что максимум ip(t +1, f(t, у, и)) достигается в некоторой точке u(t,y). Найдем приближенное решение с помощью тейлоровской аппроксимации (3.3) в окрестности траектории yl(t) =

е > 0, которая лежит вне множества достижимости (3.2), а значит, функция Беллмана не равна нулю. Для этого введем вспомогательную функцию

R(t, у, и) = <p(t + 1, f(t, у, и)) - <p(t, у) (3.5)

и рассмотрим ее разложение в ряд Тейлора до слагаемых второго порядка включительно в окрестности точки (y^it),^(t)) :

R(t,y,u) =

= R(t,yi(t),uI(t)) + R'Jt,yIe(t),uI(t))Au + R,y(t,yIe(t),uI(t))Ay+ + i (Av'Ruu(t, уШУ^Аи + Ay'Ryy(t, yIe(t),uI(t))Ay+

+ Ay'Ryu(t, yl{t), ит(1))Аи + Au'Ruy(t, yl(t), uT(t))Ayj +

+ o(\Au\2, |Ay|2). (3.6)

Согласно соотношениям (3.3) и (3.5) max R(t, y, и) = 0. Будем исследо-

u

вать на максимум по и линейно-квадратическое приближение функции R(t,y,v). Тогда из условия стационарности имеем

RufayKtWit)) + Ruu(t,yI£(t),uI(t))Au + Ruy(t,yI£(t),uI(t))Ay = 0,

откуда

+ Ruy&yKtWimv ~УШ) (3.7)

в предположении отрицательной определенности Ruu(t, у£ (t), и1^)).

Подставляя выражение (3.7) в (3.6), приравнивая к нулю коэффициенты при А у и (А у)2 и задавая приближение функции Беллмана в линейно-квадратическом виде

M,у) = +«m - vim + \{У- vim'xmv - УШ M

где v(t) — скалярная, n(t) — векторная размерности (п + 1), a %(t) — матричная размерности (п + 1) х (п + 1) функции, приходим к соотношению

xT(t) —е

К* +1) - + +1)/« + нии)~1ыг +1) =

¡уф + + + 1)й + нии)~1м +1) = «(*),

Ы1 + !)/« + - №(* + !)/« + Нуи)(йх& + 1)/„ + Я««)"1 х

(3.9)

где производные функции /(¿,у,-и), определенной равенством (3.1), вычисляются в точке (¿, у7 (¿), ■;/(£)), а производные функции у, к, и) = + - в точке (¿,у7(£),к(£ + 1), ?/(£)).

Исследуем начальное условие (3.4). Представим его правую часть в приближенном виде:

-Уо\\ = \№to)-yo\\ + Д ° W„ (У"У^о))+

о) ~ Уо

е (^0 ) 2/0 |

^ 1, . ,ЛУ^о) -Уо||2 Д(га+1) - {уИ^-УоМ^-УоУ

Н—(-у - уЛш) --и-^-х

2 Шо)-УО||32

х(у — у1{1о)) + °(||у ~~ 2/е(^о)|| ),

где о(||у — Уе(^о)||2)/ ||у -у^о)||2 ->■ о при у ->• у7(¿о), я(га+1) - единичная матрица размерности (п+1)х(п+1). Согласно выражению (3.8),

^(¿о,у) = К*о) + к'(*о)(г/ - У^о)) + ¿(У - ¡¿МУхШу - у1Ы). По определению уЦ^-уо = \ - (?) = ( ° V и ||у7(£о) - Уо\\ = е.

-е ) \ 0 J \-£/ Тогда

u(to) = в, «(to) = , x(io) = {^~lf n) о) , (340)

где в — нулевой вектор размерности п, Е^ — единичная матрица размерности п х п.

Непосредственной подстановкой убеждаемся, что функции

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

"(*) = е, n(t) = , Xit) = {^f о

удовлетворяют системе (3.9),(3.10), если матричная функция a(t) размерности пхп определяется как решение дискретного уравнения Рик-кати вида

f'a(t + 1 )/* - (1 - д)Е{п) ~ fMt + l)fu [/>(i + I)и - gEM] x

x/>(i + !)/- = = s-'E^,

где производные функции / подсчитываются в точке (t, х1^), и1^)).

Приближенное решение уравнения Беллмана (3.3), (3.4) будет иметь

вид

¡p(t, у) = -х° + -{х - х1 (t))'a{t){x - хJ(i)).

(3.11)

Определение 3. Будем называть локальной аппроксимацией множества достижимости системы (2.1), (2.2) в окрестности точки х1 (t\) множество

Stfiti)) = {{х, х°) € Rra+1 :х° = ^(х- х1 (ti))'a(t\)(x - х1^))}.

Определим вспомогательную функцию Fa(x) = aF(x) + (l—а)х°, а €

(0,1). Минимум функции Fa(x) по х при условии х° = х1 (ti)Ya(ti)

(х — х1 (t{)) обозначим х*(а). Очевидно, что точка х*(а) есть некоторое приближение к решению задачи минимизации исходного функционала на множестве достижимости, и, зная ее, можно построить допустимый управляемый процесс. Рассмотрим функцию v,(t,y), заданную равенством (3.7). Вычисляя производные R с учетом (3.11), получим, что v,(t,y) зависит только от переменных t,x,. Обозначим эту функцию через u(t, х) :

1 -1

и

(t,x)=uI(t)~ fua{t + l)fu-gE^ f'ua{t + l)fx(x - x^t)), (3.12

где Е^ — единичная матрица размерности г х г.

Исследуем систему, где траектория в конечный момент совпадает с точкой х*(а):

x(t + 1) = f(t, x(t),u(t, x(t))), x(t\) = x*(a).

(3.13)

(3.14)

Для поиска траектории линеаризуем уравнение (3.13) Ax(t + 1) = /x(i,a:J(i),uJ(i))Aa:(i) +/u(i,a;J(i),uJ(i))Aû(i,a;(i)). (3.15) Из (3.12) ясно, что

A u(t, х) = - [f'uo(t + 1 )fu - gEW] f'ua{t + 1 )fxAx(t). Подставим найденное приращение Au(t,x) в (3.15), получим

-1

x(t) = x\t) + \fx-fu [fiait + 1 )fu - gE^\ f'uo(t + 1 )/œ J x

x (x(t + l) -x^t + l)) . (3.16)

Обозначим xa(t),t € Т, — решение системы (3.16), (3.14). Построим программу управления таким образом, что (t) = u(t,xa(t)), и имеем xa(t) как решение исходной системы (2.1)-(2.2) при заданном управлении и^ (t). Выбирая параметр а, определим новое приближение (хuJaf) в задаче улучшения (2.1), (2.2), (2.4).

Алгоритм 1. Базовый

1) Фиксируя е > 0 и g € (0,1] , решаем матричное уравнение

A'(t){a(t + 1) - a(t + l)B(t) B'{t)a{t + l)B{t) - дЕ^ x xB'(t)a(t + 1 )}A(i) = a(t) + (1 - g)E(-n\ a(t0) = £~lE^n\

Здесь A(t) = fx(t,xI(t),uI(t)), B(t) = fu(t,xI(t),uI(t), t £ T.

2) Пусть a € (0,1). Найдем x*(a) как точку минимума функции

Fa{x) = aF(x) + - x1 {h))'a{ti){x - х1^)).

3) Определим xa(t), решая систему

ж

(t) = x^t) + (A(t) - B(t) \B'(t)a(t + 1 )B(t) - gEM

\ж^ + 1)-ж/^ + 1)), х(Ь)=х*(а).

4) Найдем решение ж% (¿) системы

ж(£ + 1) = /(¿,ж (г),и" (г)), ж (¿о) = ж0,

где «£(*) = г/(*) - [в'(*)<7(* + 1)5(4) - дЕ^ 1 ^В'^а^ + 1)А(*)х

5) Решаем задачу одномерной минимизации по « 6 [0,1]:

^(а£(*1)) -ниш.

Принимаем управляемый процесс (ж11, и11) за новое приближение в задаче улучшения.

Рассмотрим функцию Понтрягина для этой системы:

Я(4,ж,р(4 + 1),и) = + !)/(*, ж, и), рбГ.

-1

Теорема 2. Пусть управляемый процесс и1^)) € Б таков, что

¿1-1

+ 1)У{1))Ни{1, х1^^ + 1), и1®) =

¿=¿0

¿1-1

= + (* +1) > О,

¿=¿0

где удовлетворяет сопряженной системе

/(*) = (* + 1), /(¿О = -^(^(¿О). (3.17)

Тогда элемент (ж7,-и7) улучшается алгоритмом.

Доказательство теоремы 2 аналогично доказательству теоремы для непрерывных соотношений [1; 11].

4. Модифицированный алгоритм улучшения, основанный на разложении по параметру конструкций базового метода

Параметр а отвечает за одномерную минимизацию. При фиксированном параметре g вся задача сводится к минимизации по а. Можно варьировать оба параметра, что позволяет на итерациях делать более глубокое улучшение по сравнению с фиксированным д.

Модифицированный алгоритм основан на разложении базового алгоритма по параметру д. Сформулируем этапы нового алгоритма.

Алгоритм 2. Модифицированный

1. Фиксируя е > 0 и д* € (0,1] , решаем матричное уравнение

A\t) {<T(t + l,g*)-<r(t + l,g*)B(t) [B\t)a{t + l,g*)B(t)~ g*EW] x xB\t)a{t + 1 ,g*)}A(t) = a{t,g*) + (1 - g*)E^,a(t0,g*) = £~lEH.

Здесь A(t) = /x(i,a:J(i),uJ(i)), B(t) = /u(i,a:J(i),uJ(i), t € T. Находим a(t,g*).

2. Решая уравнение

■ Mt+ьп _ <M1±ШCl(i, ff(t +1,9.))<7(i +1, s')-

dg dg

Mt + l,g*)Ci(t,a(t + 1 ,g*))da^,9*) +a(t+l,g*)C1(t,a(t+l,g*))x

dq

Г /Ni "2

-A'(t)a(t + 1 ,g*)B(t) B'(t)a(t + 1 ,g*)B(t) - g*EM x

dg dg

л -1

где С\(t, a(t + l, g*)) = B(t) B'(t)a{t + 1 ,g*)B(t) - g*EM B'(t). Ha-da(t,g*

ходим

dg

Таким образом получим a(t,g) = a(t,g*) + ) (g — g*)t где g* €

a g

(0,1] фиксированное.

3. Пусть a € (0,1). Найдем х*(а,д) как точку минимума функции

Fa(x,g) = aF(x) + ^—1^-{x-xI{ti))'a{ti,g){x-xI{ti)).

4. Определим xa(t,g) = x(t,g) при условии x(t\,g) = ж*(а:,д), решая систему

x(t, g) = xT(t) + {A(i) - 5(i) \B\t)a(t + 1, ^)S(i) - дЕ^Л ~V(i) x

x a(i + 1,

-l

(x(t + l,g) -x^t + l)).

5. Полагая

и

л

(t,g) = uJ(i) - + 1 ,g)B(t) - gE«

-l

x ß'(i)<7(i + l,g)A(t)(xa(t,g) - x*(t)),t£ T, найдем решение x^(t,g) системы

x(t + 1 ,g) = f(t,x(t,g),u%(t,g)),x(t0,g) = x0.

6. Решаем задачу двумерной минимизации по ск G [0,1] и д € (0,1]:

F{x"{ti,g)) min.

Принимаем управляемый процесс (хп, и11) за новое приближение в задаче улучшения.

Приведем пример работы алгоритмов. В исходном алгоритме значение параметра д фиксировано на каждой итерации и не меняется, а значение параметра а выбирается в процедуре одномерной минимизации. В модифицированном алгоритме, начиная с некоторого значения, оба параметра изменяются соответственно тому, как происходит операция минимизации. Критерием останова является близость двух последовательных приближений функционалов с точностью 5.

Пример 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

x\(t + h) = x\(t) + hx2(t),

x2(t + h)= x2(t) + h(xi(t) + u(t)),

zi(0) =ж2(0) = 1, \u(t)I < 1,

/(ж,и) =xi(l) + ж2(1), t € {0,h,2h,--- ,1}.

Начальное управление и7(t) = 0.5. Результаты численных экспериментов при параметре <7 = 0.5 для базового алгоритма, шаге дискретизации h = 0.01, точности вычисления функционала 6 = 0.001 представлены в табл. 1 и 2.

Задача была специально выбрана линейной для проверки работоспособности алгоритмов. В линейной системе с линейным функционалом оба метода дали решение за одну итерацию, что было ожидаемо. Алгоритмы, основанные на необходимых условиях оптимальности, дают такое же решение за одну итерацию.

Таблица 1

Модифицированный алгоритм

Номер итерации Значение функционала а 9

0 1 0.62787928D+01 0.37048138D+01 0.4046 0.3095

Таблица 2

Алгоритм с одномерной минимизацией

Номер итерации Значение функционала Значение параметра а

0 1 0.62787928D+01 0.37048138D+01 0.9368

5. Заключение

В работе предлагаются два метода последовательных улучшений, основанных на разложении уравнения Беллмана для специальной задачи оптимального управления. Задача состоит в следующем: требуется минимизировать функционал отклонения нормы от начальных условий в исходной задаче. Если конечная точка лежит во множестве достижимости, то значение функционала равняются нулю, а значит функционал Беллмана равен нулю. Аппроксимация уравнения Беллмана осуществляется вдоль специально выбранной траектории с начальными условиями, не удовлетворяющими начальным условиям исходной задачи. Первый метод основан на аппроксимации (до второго порядка) уравнения Беллмана и содержит дополнительные параметры регулирования. Второй получается как результат линейной аппроксимации базовых конструкций по параметру, что позволяет применять процедуры одномерной минимизации.

Список литературы

1. Батурин В. А. Метод улучшения, основанный на приближенном представлении множества достижимости. Теорема о релаксации / В. А. Батурин, Е. В. Гончарова // Автоматика и телемеханика. - 1999. - № 11. - С. 19-29.

2. Гончарова Е. В. Итеративный метод решения дискретных задач оптимального управления / Е. В. Гончарова, В. А. Батурин // Вычисл. технологии. - 2003. -Т. 8. - С. 269-275.

3. Гурман В. И. Множества достижимости управляемых систем. Связь с уравнением Беллмана / В. И. Гурман, Г. Н. Константинов // Деп. в ВИНИТИ. -1981. - № 4038-81.

4. Гурман В.И. Алгоритм улучшения, основанный на оценках областей достижимости / В. И. Гурман, Г. И. Константинов // Деп. в ВИНИТИ. - 1985. -№ 651-85.

5. Гурман В. И. Принцип расширения в задачах управления / В. И. Гурман. -М. : Наука, 1997.

6. Гурман В. И. Достаточные условия оптимальности в иерархических моделях неоднородных систем / В. И. Гурман, И. В. Расина // Автоматика и телемеханика. - 2013. - № 12. - С. 15-30.

7. Методы улучшения управления для иерархических моделей систем с сетевой структурой / В. И. Гурман, И. В. Расина, О. В. Фесько, О. В. Усенко // Изв. Иркут. гос. ун-та. Сер. Математика. - 2014. - Т. 8. - С. 71-85.

8. Константинов Г. Н. Нормирование воздействий на динамические системы / Г. Н. Константинов. - Иркутск : Изд-во Иркут. ун-та, 1983.

9. Кротов В. Ф. К оптимизации линейных систем с управляемыми коэффициентами / В. Ф. Кротов, А. В. Булатов, О. В. Батурина // Автоматика и телемеханика. - 2011. - № 6. - С. 64—78.

10. Лотов А. В. О понятии обобщенных множеств достижимости и их построении для линейной управляемой системы / А. В. Лотов // Докл. Акад. наук СССР. - 1980. - № 5. - С. 1081-1083.

11. Baturin V., Goncharova Е. An Optimal Control Algorithm Based on Reachability Set Approximation and Linearization / V. Baturin, E. Goncharova // Autom. Remote Control. - 2002. - Vol. 63, N 7. - P. 1043-1050.

12. Pescvardi T. Reachable sets for linear dynamic systems / T. Pescvardi, K. S. Arenda // Inform, and Control. - 1971. - Vol. 19, N 4. - P. 319-344.

13. Vinter R. A characterization of the reachable set for nonlinear control systems / R. Vinter // Siam J. Contr. and Optim. - 1980. - Vol. 18, N 6. - P. 599-610.

Батурин Владимир Александрович, доктор физико-математических наук, главный научный сотрудник, Институт динамики систем и теории управления им. В. М. Матросова СО РАН, 644033, Иркутск, ул. Лермонтова, 134, тел.: (3952)453079 (e-mail: [email protected])

V. А. Baturin

An Approximate Method for Solving Optimal Control Problems for Discrete Systems Based on Local Approximation of an Attainability Set

Abstract. An optimal control problem for discrete systems is considered. A method of successive improvements along with its modernization based on the expansion of the

main structures of the core algorithm about the parameter is suggested. The idea of the method is based on local approximation of attainability set, which is described by the zeros of the Bellman function in the special problem of optimal control. The essence of the problem is as follows: from the end point of the phase is required to find a path that minimizes functional deviations of the norm from the initial state. If the initial point belongs to the attainability set of the original controlled system, the value of the Bellman function equal to zero, otherwise the value of the Bellman function is greater than zero. For this special task Bellman equation is considered. The support approximation and Bellman equation are selected. The Bellman function is approximated by quadratic terms. Along the allowable trajectory, this approximation gives nothing, because Bellman function and its expansion coefficients are zero. We used a special trick: an additional variable is introduced, which characterizes the degree of deviation of the system from the initial state, thus it is obtained expanded original chain. For the new variable initial nonzero conditions is selected, thus obtained trajectory is lying outside attainability set and relevant Bellman function is greater than zero, which allows it to hold a non-trivial approximation. As a result of these procedures algorithms of successive improvements is designed. Conditions for relaxation algorithms and conditions for the necessary conditions of optimality are also obtained.

Keywords: discrete systems, optimal control, attainability set, improvement method.

References

1. Baturin V.A., Goncharova E.V. An improvement method based on an approximate representation of the attainable set. A relaxation theorem. Avtomat. i Telemekh., 1999, no 11, pp. 19-29(in Russian).

2. Goncharova E.V., Baturin V.A. An iterative method for solving discrete problems of optimal control. Computational Technologies, 2003, vol. 8, pp. 269-275 (in Russian).

3. Gurman V.l., Konstantinov G.N. Attainability sets of control systems. The relation with the Bellman equation. All-Russian Institute for Scientific and Technical Information, 1981, no 4038-81 (in Russian).

4. Gurman V.l., Baturin V.A. Improved algorithm based on estimates for attainability set. All-Russian Institute for Scientific and Technical Information, 1985, no 651-85 (in Russian).

5. Gurman V.l. Printsip rasshireniya v zadachakh upravleniya [The Extension Principle in Control Problems], 2nd edition. Moscow, Fizmatlit, 1997 (in Russian).

6. Gurman V.l., Rasina I.V. Sufficient optimality conditions in hierarchical models of nonuniform systems. Automation and Remote Control, 2013, vol. 74, issue 12, pp. 1935-1947. https://doi.org/10.1134/S0005117913120023

7. Gurman V.l., Rasina I.V., Fesko O.V., Usenko O.V. Methods for improving the control of hierarchical models of systems with network structure. Izv. Irkutsk. Cos. Univ. Ser. Mat., 2014, vol. 8, pp. 71-85 (in Russian).

8. Konstantinov G.N. Normirovanie vozdeystviy na dinamicheskie sistemy [ Rationing effects on dynamic systems]. Irkutsk, Irkutsk State Univ., 1983 (in Russian).

9. Krotov V. F., Bulatov A. V., Baturina O. V. Optimization of linear systems with controllable coefficients. Automation and Remote Control, 2011, vol. 72, issue 6, pp. 1199-1212. https://doi.org/10.1134/S0005117911060063

10. Lotov A.V. On the concept of generalized attainability sets and their construction for a linear control system. Doklady Academy of Sciences, 1980, no 5, pp. 1081-1083 (in Russian).

11. Baturin V.A., Goncharova E.V. An optimal control algorithm based on reachability set approximation and linearization. Autom. Remote Control, 2002, vol. 63, issue 7, pp. 1043-1050. https://doi.Org/10.1023/A:1016146512404

12. Pescvardi T., Arenda K.S. Reachable sets for linear dynamic systems. Inform, and Control, 1971, vol. 19, no 4, pp. 319-344.

13. Vinter R. A characterization of the reachable set for nonlinear control systems. Siam J. Contr. and Optim., 1980, vol. 18, no 6, pp. 599-610. https://doi.org/10.1137/0318044

Baturin Vladimir Alexandrovich, Doctor of Science (Physics and Mathematics), Chief Research Scientist, Matrosov Institute for System Dynamics and Control Theory SB RAS, 134, Lermontov St., Irkutsk, 664033, tel.: (3952)453079 (e-mail: [email protected])

i Надоели баннеры? Вы всегда можете отключить рекламу.