ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА
2016 Математика. Механика. Информатика
Вып. 2(33)
УДК 519.83
Минимаксное программное терминальное управление в двухуровневой иерархической
о о о о ^
нелинейной дискретной динамической системе
А. Ф. Шориков
Уральский федеральный университет им. первого Президента России Б.Н. Ельцина Россия, 620002, Екатеринбург, ул. Мира, 19 afshorikov@mail.ru; +7 (343) 375 41 40
Рассматривается дискретная динамическая система, состоящая из набора управляемых объектов, динамика каждого из которых описывается соответствующим векторным нелинейным дискретным рекуррентным соотношением при наличии управляемых параметров и возмущений (помех). В системе выделены два уровня принятия управленческих решений - доминирующий (первый уровень) и подчиненный (второй уровень), имеющие различные критерии функционирования и объединенные между собой априори определенными информационными и управленческими связями. Рассматривается задача двухуровневого минимаксного программного терминального управления в дискретной динамической системе. Для исследуемой задачи в данной работе предлагается математическая формализация и общая схема ее решения.
Ключевые слова: иерархическая дискретная динамическая система; минимаксное программное терминальное управление. DOI: 10.17072/1993-0550-2016-2-124-132.
Введение
В статье рассматривается дискретная динамическая система, состоящая из набора управляемых объектов, динамика каждого из которых описывается соответствующим векторным нелинейным дискретным рекуррентным соотношением при наличии управляемых параметров и возмущений (помех или ошибок моделирования). В данной системе выделены два уровня принятия управленческих решений - доминирующий уровень I, управляемый доминирующим игроком P, и подчиненный уровень II, управляемый игроком E. Оба
© Шориков А. Ф., 2016
Работа выполнена при финансовой поддержке РФФИ (проект № 15-01-02368).
'Статья написана по материалам международного симпозиума "Дифференциальные уравнения. Сто лет математической науке Урала". Пермь. 16-19 мая 2016.
уровня управления объединены между собой априори определенными информационными и управляющими связями. Качество управления рассматриваемыми динамическими объектами на каждом уровне управления оценивается соответствующими им выпуклыми функционалами, которые определены на их терминальных (финальных) фазовых состояниях и удовлетворяют соответствующим условиям Липшица. Предполагается, что управляющие воздействия и возмущения в рассматриваемой динамической системе в каждый момент времени стеснены заданными конечными множествами или выпуклыми многогранниками в соответствующих конечномерных векторных пространствах.
Для исследуемой динамической системы в данной работе предлагается математическая формализация в форме решения многошаговой задачи двухуровневого иерархического минимаксного (оптимизации гаранти-
рованного результата) программного терминального управления и предложена общая схема ее решения.
Полученные в работе результаты основываются на исследованиях [1]-[5] и могут быть использованы при компьютерном моделировании и создании многоуровневых систем управления для сложных динамических процессов, функционирующих в условиях риска и неопределенности. Математические модели таких процессов представлены, например, в работах [1]-[7].
1. Динамика дискретной управляемой системы
На заданном целочисленном промежутке времени 0, Т = {0,1,___, Т} (Т > 0) рассматривается многошаговая динамическая система, которая состоит из (п +1) -го управляемого объекта (п е N; здесь и далее, N — множество всех натуральных чисел). Динамика объекта I (основного объекта динамической системы), управляемого доминирующим игроком Р описывается векторным нелинейным дискретным рекуррентным уравнением вида
у^ +1) = / а у^ ), пц), v(t), w(t)),
у (0) = Уо, (1)
динамика объекта 11 (/-го вспомогательного объекта динамической системы), управляемого подчиненным игроком Е■ (/ е 1, п ), описывается следующим уравнением: z(г) (t +1) = /(г) (t, z(г) (t), п^), V0') (t), w(г) (t)),
z (0) = (2)
игрока Р в период времени t (t е 0,Т), удовлетворяющий заданному ограничению:
п (t) е ^1(t) с RР
(3)
где их (), для каждого I е0,Т-1 , есть нар
бор из Nt (Nt е N) векторов в R (р е N);
7
,(г- л,(г)/
)(t) = ),у2г)(t),..., )(t))' е Кг - вектор управляющего воздействия (управления) подчиненного игрока Ei (г е 1, п ) в период
времени t ^ е0,Т—1), который зависит от допустимой реализации управления п(1 ) е U1(t) игрока Р (] е1, Nt), удовлетворяющий заданному ограничению:
V(г^) е^(г)(п(1 ^)) с R, (4) где ^(г)(п(1 )(t)) для каждого момента времени ^ е0,Т—1) и управления п(1 )(t) е и^) игрока Р есть конечный набор из Q(i)(])
где t е 0, Т — 1; у^) = (у ^)у2 (t), _ у ^))' е
еRг- фазовый вектор объекта 1 в момент
к
времени ^ для к е N, здесь и далее, R — к -мерное евклидово пространство векторов-столбцов, даже если из экономии места они записаны в строку: z(г)^) = (z1(i)(t)^г ^),_,
zSi)(t))' еR- фазовый вектор объекта
г
1Ц (г е1, п ) в момент времени ^ п(1) = (п^), п2 (1,),..., пр ^))' е Rр - вектор управляющего воздействия (управления) доминирующего
(Q(')(1) е N , 1 е1, N ) векторов в Кг ; v(t) = (V(1)(t), v(2)(t),..., V1 )(t))' е R4 - вектор управления обобщенного подчиненного игрока Е, объединяющего всех подчиненных игроков Ei, г е1, п (q = 'Zqi еN).;
/=1
w(t) = ^^),н>2^),_ ,wm^))'е Rт- вектор помехи (возмущения) в уравнении (1), который в каждый период времени t ^ е 0, Т — 1) зависит от допустимой реализации управления п(1 ^)еи^) игрока Р (1 е1,) и удовлетворяет ограничению
w(t) еW1(n(1 ^)) с Rт, (5)
где Wl(п(1 )(t)) - выпуклый, замкнутый и ограниченный многогранник пространства К (т еN); ^)(t),*£)(t),_,w^^)(t))' е
г
т.
е К г - вектор помехи (возмущения) в уравнении (2), который в каждый период времени
t ^ е 0, Т — 1) зависит от допустимой реализации управления п(1 )<Еи1^) игрока Р (1 е1, N), от допустимой реализации управле-
ния
v(l,к) V) е V™ (и(') (Г)) игрока Ег
(j е1, Nt ; к е 1,^)(у')) и удовлетворяет ог-
' t
раничению:
()/
хЯ2 х —х= 0,ТхRr х ПЯг (£(0) =
г=1
= {0,Ж),г(1)(0),Г(2)(0),..., Г(и)(0) = {у0,
г0!), г02),., г0")(т) = £0), который будем называть его т -позицией. Игроку Р известен также принцип формирования управления
V0')(-) = 0>(°(0У-т—1 Vt еГГл : v(')(t) е
)(t) еЩ(г)(и('), V(г,к)(t)) с Я г . 6)
Предполагается, что в векторном рекуррентном уравнении (1), описывающем динамику объекта I, для каждого фиксированного и допустимого набора ^, у, и, V) е
е 0,Т— 1хRг хRр хR9 вектор-функция / :
0,Т—1 хRг х Rр хR9 хRт ^Rг непрерывна по переменной w и для каждых фиксированных и допустимых набора ^, и, V) е
е 0,Т — 1 хЯр х К9 и выпуклого компакта YсЯ множество /(t, Y, и, V, Щ (и) = {/^, у, и, V, w), у е Y, w е Щ1(и)} есть выпуклый
компакт пространства Яг. В векторном рекуррентном уравнении (2), описывающем динамику объекта II i (г е 1, п ), для каждого фиксированного и допустимого набора ^,г(г),и, V(°) е 0,Т — 1 хЯ5 х Яр хЯ9 вектор функция /(° : 0,Т — 1 хЯ" х Яр хЯ9г х
„ т. „ 5. ^ (г)
х Я г ^ Я г непрерывна по переменной ^ и для каждых фиксированных и допустимых
еУ1{г (и(;))) каждым из игроков Ei, г е1, п ,
на промежутке времени т, Т, который зависит от выбора на этом промежутке управле-
ния
и(-) = (и(01
tет,T—1
(Vt ет,Т-1:
набора ^, и, V(г)) е 0,Т -1 хЯр х Я г и выпуклого компакта X(г) с Я г множество
/X(г),и,V, Щ1(г)(и,V(г)) = {/(г)(t,г(г),и,
v(г), w(г)), Г(г) еX, w(г) е Щ1(г)(и, V(г))} есть выпуклый компакт пространства Я г .
2. Информационные условия в процессе управления
В сфере интересов игрока Р находятся возможные терминальные (финальные) состояния фазовых векторов у(Т) объекта I и
г(г)(Т) объектов II i, ге1, п . При этом для каждого целочисленного промежутка времени (далее - промежутка) т, Т ^ 0,Т (т < Т) игроку Р известен набор £ (т) = {т, у (т),
г(1)(т),г(2)(т),...,г(п)(т)} е 0ТхЯг хЯ51 х
и^) еU1(t)) игроком Р, которое сообщается
им, и для каждого г е 1, п описывается соотношением (4), причем выбранное каждым игроком Ег управление сообщается игроку Р.
Результат реализации рассматриваемого процесса управления с позиции игрока Р оценивается значением выпуклого функционала о, определенного на допустимых финальных
фазовых состояниях у(Т) и г(г)(Т) объектов I и II i, г е 1, п , который удовлетворяет соответствующему условию Липшица. Тогда на промежутке времени т, Т целью игрока Р в рассматриваемом процессе управления является минимизация значения выбранного функционала о .
Учитывая эти обстоятельства, мы будем говорить, что такие возможности поведения игрока Р совместно с объектами I и II\,
г е 1, п , определяют доминирующий или уровень управления I для рассматриваемого процесса управления в дискретной динамической системе (1)-(6).
Предполагается, что в сфере интересов
каждого игрока Е ( е1, п ) находятся только возможные терминальные фазовые состояния г (г)(Т) объекта II и для любого рассматриваемого промежутка времени т, Т ему сообщается реализация управления и(-) = {и^1 (Vt ет,Т — 1: и^)еи^))
игрока Р на этом промежутке времени, которую он должен учитывать при формировании своего управления v(г)(t) еУ^^и^))
для всех t е т, Т — 1. При этом для каждого целочисленного промежутка времени т, Т ^ 0,Т (т < Т) ему также известен набор g (г)(т) = {т, г (0(т)}е0,Г х R''
(g (0) = {0, г (0)} = g0г)), который будем называть т -позицией игрока
Е.
Результат реализации рассматриваемого процесса управления с позиции игрока Е' оценивается значением выпуклого функционала ), определенного на допустимых финальных фазовых состояниях г(' )(Т) объекта 11 (' е 1, п ), который удовлетворяет соответствующему условию Липшица. Тогда на промежутке времени т, Т целью каждого игрока Ei (' е 1, п ) в рассматриваемом процессе управления является минимизация значения функционала ).
Совокупность п игроков Ei, ' е 1, п , называемых также игроком Е, и управляемых ими объектов 11, ' е 1, п , образуют подчиненный или уровень управления 11 для рассматриваемого процесса управления (подчиненный доминирующему или уровню управления 1).
3. Определения и критерии качества в процессе управления
Введем ряд определений, которые необходимы для строгой математической формализации задачи двухуровневого иерархического минимаксного программного терминального управления для рассматриваемой дискретной динамической системы (1)-(6).
Для к е N и любого целочисленного
промежутка ', j (' < j), символом Sk (', j)
будем обозначать метрическое пространство функций целочисленного аргумента
р : ^ Rк, в котором метрика Рк задается
соотношением
Рк (((•), (2 (•)) = тах|| р (t) — р2(t ) || к
¡е', у
шо е Sk О Sk О,
а символом сотр( Sk ('', у)) - множество всех непустых и компактных, в смысле этой метрики, подмножеств пространства Sk ('', у) .
Здесь и далее, для любого х еRк
(к еN) символом ||х||к обозначается евклидо-
к
ва норма вектора х в пространстве R .
Используя ограничение (3), определим множество и(т,Т) ^ Sp (т,Т) всех допустимых программных управлений и() = {и(0}Гетг—1 игрока Р на промежутке
времени т,Т ^ 0, Т (т < Т) соотношением итТ) = К): и() е Sp (ГТ),
Vt е т,Т — 1, u(t)е U1(t)}, (7)
которое в силу (3) является конечным множеством.
Для фиксированных индекса ' е 1, п и программного управления и() е и(т,Т), используя ограничение (4) определим конечное
множество V(')(т,Т;и(•))^ Sq (т,Т) всех до'
пустимых программных управлений у(-'(•) = {у^ЧО^^у— игрока Ei на промежутке времени т,Т соответствующих и(), соотношением аналогичным (7).
Далее, для фиксированного программного управления и() е и(т,Т), используя ограничение (5), определим множество W(т,Т;и()) е сотр(Sm (т,Т — 1)) всех допустимых программных помех "(•) = Л^тТ— для объекта 1 на промежутке времени т,Т соответствующих и( • ).
Для фиксированных индекса ' е 1, п , пары программных управлений
и(• ) е и(7,3) и у('')( • ) е V«(^Т; и(• )) , используя ограничение (6), определим множество
W (т, Т; и( • ),у(')( • )) е сотр(Sm (т,Т — 1))
'
всех допустимых программных помех
")( ) = К ^)}
¡ет,Т—1
для объекта 11. на
промежутке времени т,Т соответствующих паре (и (• ),у(0(• )) .
Далее, для фиксированных программного управления и() е и(т,3) и набора программных управлений V'')(-) еУ(г)(т,Т;и()), г е 1, п , введем следующие множества:
У тТ; и (•)) = ПП У(г ЧтТ; и());
г =1
IV тТ; и(-), v(•)) =
= П W(г)(T:Г; и(), v(г)(•)) (8)
г=1
соответственно всех возможных наборов
v(•) = (V«О,...,^2)(0,V"Ч-)) е УтТ;и(•))
допустимых программных управлений совокупности игроков Ег г е 1, п , или допустимых программных управлений v(•) игрока Е на промежутке времени т,Т, и всех наборов
= (•),., w(2) (•), w(") (•)) е \¥(ГТ; и(•), v(•)) допустимых реализаций программных
помех для совокупности объектов IIг, г е 1, п (или обобщенного объекта II), на промежутке времени т,Т.
Далее, обозначим:
Щ тТ) = {Щ (тТ; «(•)), «(•) еитТ)};
Щ (^Т) = {ЩтТ; и (•), v(•)),
и() е и (7Т), v(•) еУ (^Т; и())}. Пусть для любого промежутка времени
т,Тс0,Т (т < Т) множество С(т) е 0,Тх
п 5
хЯг х П Я г есть множество всех т -позиций
г=1
£(т) = {т, у(т), г(1) (т), г(2) (т), ., г) (т)} е
--п 5 п\
е 0, Т х Яг х П Я г (£(0) = {0, у(0), г(1) (0),
г=1
г(2)(0), ...,г(п)(0)} = £0) игрока Р (С(0) =
= {£ (0)} = {£0} = С.).
Тогда для оценки качества рассматриваемого динамического процесса на уровне управления I введем функционал о :
С (т) х и (тТ) х У (тТ) х Щ (тТ) х Щ (тТ) = = Г(тТ;о) ^ Е = ]—», +<*>[, (9) значения которого для допустимых на промежутке времени т, Т реализаций
£(т) еС(т), и() еи(т,Т),
КО = {V(1)(•),^С)., V")(•)} еУтТ),
w(•) еЩ(т,Т) и =
= КЧО, w(2) (•),., w(и) (•)} е Щ (т,Т) определяются следующим конкретным соотношением:
о( £(т), u(•), К-Х w(•), w(•)) =
= иг(у(Т))+ £ и • Р(г)(г(г)(Т)). 10)
г =1
Здесь символами у(Т) = уТ (т, Т; у(т), и(), v(•), w(•)) и г (г)(Т) = г^тТ; г (г )(т), и (•), )(), w(г)(•)) обозначены состояния в финальный момент времени Т траекторий объектов I и IIг, г е 1, п , на промежутке времени
т, Т, которые порождены соответственно наборами (у(т), и(), v(•), w(•)) и
(г(г)(т),иО,V'г)(•),^г)0); ьеЯ1 и ¡и(г) еЯ1, г е 1, п - заданные числовые параметры, которые удовлетворяют следующим условиям:
и> 0; V г е1, п и > 0; £ и = 1 — и; (11)
г=1
функционалы 7:Яг ^Я1 и /3(г): Я5 ^Я1,
е1, п , являются выпуклыми и удовлетворяют соответствующим условиям Липшица.
Далее, обозначим через С (г)(т) =
= {т}х Я5 множество всех возможных т -позиций £(г) (т) = {т, г(г) (т)} е {т} х Я5 игрока Ег (г е\п ;£(г)(0) = {0,г(0(0)} = {0,г0г)} =
= £0г); С(г)(0) = {£(г)(0)} = {£0г)} = С0г)), а че-~ п
рез С(т) = {т}хП Яг обозначим множество
г=1
всех возможных т -позиций £(т) = {т, г(1)(т), г(2)(т), ..., г(п) (т)} е 0Т х Яг хП Я5
г=1
(£(0) = {0,г(1)(0),Г(2)(0),...,Г)(0)} =
для совокупности игроков Е , е1, п , или игрока Е, т. е. для II уровня процесса управления (С(0) = {£>(0)} = {£0} = 4).
Введем следующие обозначения: У^тТ) = {У(г)(тТ;иО), и() е и(^Т)};
W(0 (т, Т) = { W (0 (т, Т ;и( • )/') ( • )),
и(• ) е и((Т),у('')( • ) е V(')((Т;и( • ))}.
Тогда качество управления для рассматриваемого динамического процесса каждым из игроков Ei (' е 1, п ) на уровне управления 11 оценивается соответствующим ему функционалом /) вида /):
G(') (т) х и ((Т) х V(') ((Т ) х W(') ((Т ) =
= Г((Т;//('')) ^ Е, (12)
значения которого для допустимых на промежутке времени т, Т реализаций g(') (т) е еG(')(т) , и(• ) еи((Т), у('')( • ) еV(')((Т) и
)( • ) е W(' )(т, Т) определяются следующим конкретным соотношением:
/«(g(')(т), и(), у(')(),")( )) =
= /(0( г(' )(Т)), (13)
т.е. этот функционал оценивает качество управления игроком на фиксированном
промежутке времени т, Т финальными фазовыми состояниями г (') (Т) объекта 11] (' е1, п ).
Следует отметить, что если рассмотреть функционал
у : О(т)хи((Т)XV((Т)хЖ((Т) =
= Г((Т;у) ^ Е, (14)
значения которого для допустимых на промежутке времени т, Т реализаций
g(т) еО(т), и(• ) еи((Т), _ 40 = {у(1)ОУ2Ч- ),.■■, у(и)( • )} еV(т,Т), • ) е Ж (т, Т) определяются соотношением
у(ё (т), и( ), ), "(• )) = у( у (Т)), (15)
оценивая качество управления игроком Р на фиксированном промежутке времени т, Т финальными фазовыми состояниями объекта 1 на уровне управления 1 для рассматриваемой динамической системы (1)-(6), и ввести векторный функционал 5 = (у,/(1), //(2),..., /(и)) такой, что
5: Г(т, Т;у) х ПГ(т, Т; )) ^Еп+1, (16)
'=1
значения (п +1) -го параметра которого определяются для допустимых на промежутке времени т, Т реализаций их аргументов согласно соотношениям (12)-(15), то можно утверждать, что функционал а, определенный соотношениями (9)-(11), является его сверткой, полученной в соответствии с применением метода скаляризации (см., напр., [7]) векторных функционалов.
4. Постановка задачи двухуровневого минимаксного программного терминального управления
Из условий для уровня управления 11
следует, что игрок Е{ (' е 1, п ), используя
имеющиеся у него информационные и управляющие возможности, заинтересован в таком исходе процесса программного управления в динамической системе (1)-(6) на промежутке
времени т, Т, при котором функционал р °), определяемый соотношениями (12), (13), для любых допустимых реализаций его т -позиций
g(i)(т) = {т,г(0(т)} е О(')(т)(ё» = ) е
е О0')) и программного управления
и()еи(т,Т) игрока Р на этом промежутке времени принимает наименьшее возможное значение.
Для осуществления этой цели игрока Е{
(I е 1, п ) ниже формулируется следующая задача минимаксного программного терминального управления объектом 11 на уровне
управления 11 двухуровневой иерархической системы управления для динамической системы (1)-(6).
Задача 1. Для фиксированных индекса
' е 1, п , промежутка времени т, Т с 0, Т (т < Т ), допустимой на уровне управления 11 для динамической системы (1)-(6) реализации т -позиции
ё(0 (т) = {т, г« (т)} е О(') (т) (£«(0) = я0') е О») игрока Ei и допустимой реализации программного управления и() еи(т,Т) игрока Р на уровне управления 1 требуется найти
множество V(',г>(т,Т;ё('')(т),и())с V0)(г,Т;м(0) минимаксных программных управлений v(г,e)(• ) е V(г)(т,Т;и(• )) игрока , соответствующих управлению и( • ) игрока Р, которое определяется следующим соотношением V (',е)(ТТ ;ё(' )(т), и(0) = = {у(г,е)С): У(',е)С) е V(')(т,Т;и(• )),
с(( )(г, T; g (1)(г),u( • )) =
#)
max {
w(l)( •)gW (l )(t,T ;u ( • ),v(l,e)( • ))
программных управлений и(в)( • ) е и(т, Т) игрока Р, которое определяется следующим соотношением:
tf (е)(г, T; g (г)) =
{u1^): u1^)g^,T), с^(г,T;g(r)) =
{
min
max
v(e)( • )g V(e)(r,T;g(T),u(e)(• )) w(• )gW(r,T;u(e)( ))
w( • )eW(i,T ;u(e) ( • ),v(e)( • ))
/)0) <gW(r),uOV^Q,w(i)0)} =
= min_ max {
v(i)( ■ )e V(i;u( ■ )) w(i)( ■ )EW(i)(¥j;u( ■ ))
/^(g(i )(t), u( ),v(0( ■), W)( ))}, (20)
где функционал /?(г) определен соотношениями (12), (13).
Отметим, что, учитывая конечность множества допустимых программных управлений V(i)(z,T;u(■ )) игрока Ei (i el,n ) и многогранные свойства множества допустимых программных помех W(г)(т, T; u( ■ )) , соответствующего фиксированному программному управлению u( ■ ) e U (т, T) игрока P, и соотношения (7)-(20), можно показать (см., напр., [3, 5]), что решение задачи 1 существует и сводится к решению конечного числа задач линейного и выпуклого математического программирования, а также конечного числа задач дискретной оптимизации.
Для реализации достижения цели игрока Р, связанной с уровнем управления I для динамической системы (1)-(6), формулируется следующая задача минимаксного программного терминального управления объектами I и IIi, i el,n .
Задача 2. Для фиксированных промежутка времени т, Тс 0, T (т < T), допустимой на уровне управления I для динамической системы (1)-(6) реализации т -позиции
g(т) = {т, y(т), z(1) (т), z(2) (т), ..., z(n) (т)} e e G(т)(g(0) = {0,y(0), z(1)(0),z(2)(0), ..., ..., z) (0)} = g0 e G0) игрока Р требуется найти множество U(в)(т, T; g(т)) минимаксных
а( g (г), u (е)0, v <-e)0, w(), *(•))} = = mi^ min max {
u(• )g U(г,T) v(e)( • )E V(e\7T-g(T)u( • )) w(• )gW(rj;u( • ))
w( • )e#(t,T ;u ( • ),v (• ))
a(g (г), u( ), v «(• ), w(), ))}. (21) На основании решений сформулированных выше задач 1 и 2 рассмотрим следующую задачу.
Задача 3. Для фиксированных промежутка времени г, Тс 0, T (г < T), допустимой на уровне управления I двухуровневой иерархической динамической системы (1)-(6) реализации г -позиции
g (г) = {г, Яг), * (1)(г),
z(2)(г),...,z(n)(г)} g G(г) (g(0) = {0,у(0), z(1)(0),z(2)(0), ...,z(n)(0)} = g0 gG0) игрока Р, допустимой на уровне управления II этой системы реализации г -позиции gD = {г,
z(1) (г), z(2) (г), ., z(n)(г)} G <7(г) (¿(0) = {0, z(1)(0),z(2)(0), ...,z(n)(0)} = g0 gG0) игрока Е, сформированной из г -позиции g(г), и допустимой реализации минимаксного программного управления u(e)( • ) g U(е)(г, T; g(г)) игрока Р на уровне управления I, которое можно сформировать из решения задачи 2, требуется найти множество K(e)(r,T ;g(T),
u(e)())с V(e)(rT;£(г),u(e)())с V(TJ;
u (e)( • )) и вектор cf(r, T; ¿(г), u (e)( • )) = (cj«) (TT; g(1) (г), u(e) ( • )), c«) ; g(2) (г),
u(e)( • )), ...,с^гГ;g(n)(г),u(e)()))'G En,
которые в соответствии с (20) и (21) определяются соотношениями:
„Wi.W-f-C-Wi.W- Л,(e)t
V e'(r,T;^(г),u^OMV^O)}: V1^)g V ('e)(r,T ^(г), u «(•)),
са (г,Т; £(г)) = тах {
*>( ■ )е!Г (г,Т ;и ( ■ ))
Л( ■ )еЖ(гТ ;и ( ■ )^(е)0 ))
а( £ (г), и (е)(0, у^), *(■), *(■))} =
min тах {
у(е)( ■ )е V(e)(ГT;£(г)и(е)( ■ )) *( ■ )еГ(гТ;и( ■ ))
Л( ■ )еЖ(г,Т ;и ( ■ ),у(й)( ■ ))
а(£(г), и «(■ ), V «(■ ), Ч ), *(■ ))}}; (22)
,(е)(.У\ =
тах {
о
(£(')(г),и«(■),у(',в)0),*«(■ ))} =
/ е1,п : с^г,Т;£^(г),и(<)(-)) =
.(ОеЖ(г >(Г:Т ;и(е)(0, л5(^,е)( ■))
min
тах
{
управления II и вектор с(^г)(т, Т; £(г), и( ■ )) = (с« (ГТт; £(1)(г), и(■ )), с« (Г7; £(2)(г), ...,
Р
и( ■ )), ..., срР(П)(г, Т; £(п .(г), и (■ ))) еЕп -
значение результата минимаксного программного управления для игрока Е на уровне управления II этой системы, соответствующие управлению и( ■ ) игрока Р на уровне управления I;
2) из решения задачи 2 формируются множество и (в)(г, Т; £ (г)) минимаксных
программных управлений и (в)( ■ ) е и (г, Т) игрока Р на уровне управления I и число с(ае)(г, Т; £ (г)) - значение результата минимаксного программного управления для игрока Р на уровне управления I этой системы, удовлетворяющие соотношению (21);
3) для любого допустимого минимаксного программного управления
и (е)( ■ ) е и (е)(г, Т; £ (г)) игрока Р на уровне управления I, которое можно сформировать из решения задачи 2, на основании решения задачи 3 формируются множество V(в)(т,Т; £(г), и (е)( )) с V (г, Т; и (е)( )) минимаксных программных управлений {г^(в)( ■ )} = {г^(1в)( ■ ), ^2'е)( ■ ),..., ^2'е)( ■ ),..., у(",в)( )} е V{е)(тТ; £(г), и(е)()) игрока Е для уровня управления
^.(■ )е^' .(г,Т;и(е)( ■ )) .( ■ )еЖ(г;и(е)(■ ),v(г)( ■ ))
в(г)(£(г .(г), и (е)( ),v «(■), Ч .(■ ))}. (23) 5. Общая схема решения задачи двухуровневого иерархического минимаксного программного управления
Для любого фиксированного промежутка времени г,Тс0,Т (г < Т) можно рассмотреть решения сформулированных задач 1-3. Тогда общую схему реализации процесса двухуровневого иерархического минимаксного программного терминального управления для нелинейной динамической системы (1)-(6) можно представить в виде реализации следующей последовательности действий:
1) для каждых фиксированных управления и() еи(г, Т) игрока Р на уровне
управления I и индекса i е 1, п из решения соответствующей задачи 1 формируются множество V(('е)(т,Т;£(.(г),и( ■ )) минимаксных программных управлений игрока Ei и
число с^.(г,Т;£(.(г),и(■ )) - значение результата минимаксного программного управления для этого игрока на уровне управления II, соответствующее управлению и( ■ ), которые удовлетворяют соотношению (20); на основании этих элементов, из решения п задач 1 для
всех значений индекса i е 1, п , формируются
множество V(е)(т,Т;£(г), и(■ )) с V(т,Т;и( ■ )) минимаксных программных управлений v(e)( ■ )еV(т,Т;и( ■ )) игрока Е на уровне
II и вектор с(Рг)(г, Т; £(г), и {е)( ■ )) = (сррй)(гТ;£(1)(г), и(е)( ■ )), с^бТ;£(2)(г), и(')(0),., с^бТ;£(п)(г), и(е)()))'е Еп -
значение результата минимаксного программного управления для игрока Е на уровне управления II данной системы, соответствующие управлению и(в)( ■ ) игрока Р и удовлетворяющие соотношениям (22), (23), такие, что для каждого фиксированного индекса i е 1, п образующие их элементы V(i,e)( ■ ) и с^) (г, Т; £ м(г), и (в)( ■ )) совместно с управлением и(в)( ■ ) игрока Р удовлетворяют и соотношению (21).
Заключение
Для исследуемой в данной работе задачи управления предлагается математическая формализация в форме решения многошаговой задачи двухуровневого иерархического минимаксного программного терминального управления в дискретной динамической системе (1)-(6), и предложена общая схема ее решения. Конкретные алгоритмы формирования предлагаемой двухуровневой системы управления могут быть разработаны на основе результатов работ [3-5].
Список литературы
1. Красовский Н.Н. Теория управления движением. М.: Наука, 1968.
2. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.
3. Шориков А. Ф. Минимаксное оценивание и управление в дискретных динамических
системах. Екатеринбург: Изд-во Урал. гос. ун-та, 1997.
4. Шориков А.Ф. Двухуровневое минимаксное управление в нелинейной многошаговой системе // Тез. докл. V Всесоюз. конф. по оптимальному управлению в механических системах. Казань: Изд-во КАИ, 1985. С. 62.
5. Шориков А. Ф. Алгоритм решения задачи е-оптимального программного терминального управления для дискретной динамической системы // Теория управления и теория обобщенных решений уравнения Га-мильтона-Якоби: тр. междунар. семинара, посв. 60-летию акад. А.И. Субботина: в 2 т. Екатеринбург: Изд-во Урал. гос. ун-та, Т. 2. С. 190-196.
6. Месарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем. М.: Мир, 1973.
7. Базара М., Шетти К. Нелинейное программирование. Теория и алгоритмы. М.: Мир, 1982.
The minimax program terminal control problem in a two-level hierarchical nonlinear discrete-time dynamical system
A. F. Shorikov
Ural Federal University; 19, S. Mira, Ekaterinburg, 620002, Russia afshorikov@mail.ru; +7 (343) 375 41 40
We consider a discrete-time dynamic system consisting of several objects and describe their dynamics by the corresponding vector nonlinear discrete-time recurrent relations. The control system has two levels: a basic dominating level (the first or I level) and a subordinate level (the second or II level), both having different criteria of functioning and united a priori by definite informational and control connections. For the dynamical system in question, we propose a mathematical formalization in the form of solving the minimax program terminal control problem in a two-level hierarchical nonlinear discrete-time dynamical system and give a general scheme for its solution.
Keywords: hierarchical discrete-time dynamical system; program terminal control problem.