Известия Института математики и информатики УдГУ
2014. Вып. 2 (44)
УДК 517.977 © Д. А. Серков
МИНИМИЗАЦИЯ РИСКА ПРИ ФУНКЦИОНАЛЬНЫХ ОГРАНИЧЕНИЯХ НА ДИНАМИЧЕСКУЮ ПОМЕХУ1
В обзоре изложены вопросы применения критерия Нихапса-Сэвиджа к задачам управления в условиях динамических помех: дается мотивация и постановка задачи минимизации риска при различных функциональных ограничениях на помеху; приводятся непосредственные соотношения, связывающие результаты при различных ограничениях и классах разрешающих стратегий; даны примеры решения различных задач управления с этим критерием оценки; сопоставляются результаты, получаемые с применением критерия Нихапса^Сэвиджа, с результатами, базирующимися на классическом минимаксном критерии; исследуются условия неулучшаемости стратегий с полной памятью; дается представление функции оптимального риска как предела итерационной программной конструкции для функционала сожаления и условие регулярности этого функционала; приводятся другие условия на рассматриваемую управляемую систему, обеспечивающие возможность численной реализации оптимальной по риску стратегии.
Ключевые слова', стратегия с полной памятью, критерий Сэвиджа, функциональные ограничения на помеху.
Содержание
Введение 4
1. Постановка задачи 6
1.1. Критерий Ниханеа-Сэвиджа в стационарном случае..........................6
1.2. Динамика системы..................................................................8
1.3. Стратегии и движения ............................................................9
1.4. Пошаговые движения для помех каратеодориевского типа..........11
1.5. Конструктивные движения............................12
1.6. Задача минимизации риска в терминах конструктивных движений.....16
1.6.1. Формализация в терминах пошаговых движений...........17
1.7. Задача минимизации риска в классе квазистратегий.............19
2. Отдельные свойства и непосредственные соотношения 19
2.1. Пример: изменение оптимального риска при изменении класса помех ... 20
2.2. Пример оптимальной по риску стратегии....................24
2.3. Сравнение оптимальной гарантии и минимального риска..........34
3. Неулучшаемость по риску стратегий с полной памятью 41
3.1. Определение стратегий ие............................42
3.2. Риск-оптимальность стратегии ие.......................45
3.2.1. Доказательство теоремы 3.1.......................48
1 Работа выполнена в рамках программы Президиума РАН «Динамические системы и теория управления», при финансовой поддержке УрО РАН (проект № 12-П-1-1002), а также при поддержке РФФИ (проект № 12-01-00290-а).
4. Программные итерации функции сожаления 57
4.1, Определения, начальные свойства........................57
4.2, Представление оптимального риска в форме предела программных итераций .........................................62
5. Конструктивные варианты риск-оптимальных стратегий 64
5.1, Определение стратегии ...........................64
5.2, Риск-оптимальность стратегии .......................67
5,2,1, Доказательство теоремы 5,1.......................73
5.3, Случай конечного набора «тестовых» управлений...............73
5,3,1, Схема доказательства теоремы 5,2 ...................74
5.4, Случай регулярности программного макеимина................75
5.4.1, Условие риск-регулярности........................76
5.4.2, Примеры риск-регулярных задач....................79
6. Отдельные результаты для случая терминального показателя качества 80
6.1, Интегральная форма функции оптимального риска..............80
6.2, Локальное свойство оптимального результата в регулярном случае.....84
7. Приложение 86
Введение
В теории дифференциальных игр [1-5] рассматривается ситуация активного противодействия помехи намерениям управляющей стороны, В этих условиях естественным образом возникают предположения о наличии стороны, осуществляющей формирование помехи исходя из целей, противоположных целям управления, а также об осведомленности этой стороны о состоянии управляемой системы и/ или о действиях управляющей стороны. Такая характеристика помехи с необходимостью влечет конструкцию оценки действий управляющей стороны на основе минимаксного критерия. Этот тип задач управления хорошо изучен в рамках указанной теории, для него построены эффективные решения.
Вместе с тем известны многочисленные задачи управления, в которых помеха заведомо не имеет антагонистического характера. Иначе говоря,
(а) поведение помехи не связано со значениями рассматриваемого показателя качества;
(б) поведение помехи не зависит от состояния управляемой системы или действий управляющей стороны,
К таким задачам относятся, например,
— задачи управления материальными системами при наличии природных воздействий (управление транспортными средствами, управление ирригационными, гидроэнергетическими системами, локализация пожаров, наводнений, техногенных загрязнений и т, п.);
— задачи управления малыми (не имеющими доминирующего положения) экономическими объектами в изменяющихся макроэкономических условиях,
В этих задачах также можно строить оптимальный гарантированный результат управления, но приписывание помехе возможности реагировать на состояние объекта управления, на управляющие воздействия и/или противодействовать управляющей стороне может ухудшить этот результат, отвечающий содержанию исходной задачи управления.
Отметим в этой связи, что между антагонистической помехой и наихудшей помехой имеется существенное различие. Эти понятия часто отождествляют, полагая, что более жесткие предположения о характере помехи — предположение об антагонистическом характере ее поведения — не изменят решение исходной задачи, а лишь дадут «дополнительные гарантии», В отдельных случаях такая подмена характера помехи объяснима повышенными требованиями к гарантированному результату, сложным или не до конца изученным механизмом взаимодействия контролируемых и неконтролируемых параметров управляемой системы. Однако, чем бы ни диктовалась такая подмена характера помехи, во многих случаях это приводит к качественному изменению задачи управления, А именно, существенно изменяется значение оптимального результата. Как следствие, в новой задаче гарантированный результат, отвечающий исходной задаче управления, не достигается.
Таким образом, задачи управления при неантагонистической помехе имеют самостоятельное значение и содержательные предпосылки.
Свойство антагонистичности можно понимать как способность помехи изменяться в зависимости от действий управляющей стороны и/или состояния управляемой системы, Отталкиваясь от такого понимания, в качестве формального описания «нейтрального» поведения помехи можно рассматривать те или иные ограничения на ее изменение в зависимости от изменения фазового состояния системы или управления, В отличие от «ресурсных» ограничений, выражаемых обычно мгновенными геометрическими или интегральными ограничениями на неконтролируемые параметры управляемой системы, эти ограничения носят функциональный характер. Простейшим ограничением такого рода является предположение о программном поведении помехи, то есть предположение о том, что помеха описывается некоторой заранее неизвестной, но фиксированной функцией времени. Другой естественный с точки зрения приложений вариант дают помехи, порождаемые некоторой неизвестной функцией каратеодориевского типа, то есть функцией непрерывной по пространственной переменной и измеримой по временной.
Наиболее «широкое» из рассматриваемых здесь функциональных ограничений предложено и рассмотрено в работе А, В, Кряжимского [6] в связи с изучением свойств стратегий с полной памятью. Предполагалось, что реализации помехи содержатся в некотором неизвестном ¿р-компактном подмножестве заранее заданного множества допустимых помех (далее задачи с таким ограничением на помехи, будут именоваться задачами с «Ьр-компактными ограничениями на помеху»). Для этого вида ограничений в указанной работе при весьма общих предположениях об управляемой системе и показателе качества устанавливается, в частности, равенство оптимальных результатов, достигаемых в классе стратегий с полной памятью [3, §95] и в классе квазистратегий.
Задачи управления с функционально ограниченной помехой исследовались как вспомогательный инструмент (см, [2,3] и библиографию в этих книгах) для решения задачи в случае помехи общего вида, а также в качестве самостоятельной проблемы [6-8],
Так, в конструкции программного макеимина Н, Н, Красовского [3,4,9] программные помехи используются для нахождения оптимального гарантированного результата и оптимальных позиционных стратегий в задаче с «произвольными» помехами. Для широкого круга задач управления стохастический программный макеимин [5], в котором действуют неупреждающие стохастические программные помехи, дает цену соответствующей дифференциальной игры,
В работах Н, Н, Барабановой и А, И, Субботина [7,8] в рамках изучения дифференциальных игр для линейных управляемых систем исследовались множества программного поглощения [10,11] для случаев, когда помеха формируется непрерывной позиционной стратегией либо посредством полунепрерывного сверху многозначного отображения, определенного на расширенном фазовом пространстве управляемой системы. Было
установлено, что указанные множества поглощения совпадают с исходным множеством, формируемым программной помехой.
Еще одним направлением в исследовании задач управления с неантагонистической помехой является переход от классического — минимаксного — критерия оценки управления к другой конструкции этой оценки, возможно в большей степени отвечающей сути рассматриваемой задачи. Минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления, В этих случаях (случаях нейтрального поведения помехи) управление, оптимальное в смысле минимаксного критерия, может, вообще говоря, «упускать возможности» улучшения результата. Модельные примеры такого рода эффектов приводятся ниже (см, п, 2,3), В 1948г. в работе Ю, Ниханса [12] и в 1951г. у Л.Дж.Сэвпджа [13] введено новое понятие оптимального решения в игре двух лиц, которое по своей конструкции существенно отличается от минимаксного решения. В литературе этот подход обычно именуется критерием Сэвиджа.
Говоря неформально, традиционный минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления.
В литературе можно встретить различные названия данного критерия. В дальнейшем для его обозначения будем использовать термин «критерий минимального риска». Стратегию, оптимальную в смысле Ниханеа-Сэвиджа, для краткости мы будем называть оптимальной по риску, а величину соответствующего риска (сожаления) — оптимальным риском.
Критерий Сэвиджа, именуемый как minimax Time-Loss, использовался в работе [14], посвященной задаче быстродействия при наличии помех.
1. Постановка задачи
1.1. Критерий Ниханеа-Сэвиджа в стационарном случае
Дадим определение оптимального решения в смысле Ниханеа-Сэвиджа на примере матричной игры.
Пусть имеется матричная игра, в которой множество альтернатив (управления) задано множеством U := {и1,и2}; множество неопределенностей (помех) определено как V := {v1, v2, ш} и результат игры оценивается матрицей исходов
U х V э (u,v) м tp(u,v) е N.
Распоряжаясь выбором альтернативы (управления), следует минимизировать эту оценку при неизвестном заранее значении неопределенности (помехи).
Обозначим Umm множество решений этой задачи при минимаксном критерии:
Umm := argminmax p(u,v);
величина (и) := max^eV <p(u,v) — гарантированный результат при выборе альтернативы и е U,
Обозначим Uor множество решений при использовании критерия минимального риска:
Uor := argminmax {ip(u,v) — min ip(u',v)}\ «eu vev «'eU
здесь
min <p(u, v) — оптимальный результат, при реализации v Е V; p(u,v) — min адеи p(u,v) — сожаление о выборе альтернативы и при реализации неопределенности v\
max veV{p(u,v) — min MeU <p(u, w)} — риск при выборе альтернативы и и, наконец,
minадеи maxv^V{p(u,v) — minMeU p(u,v)} — оптимальный (минимальный) риск. Таким образом, в постановке Ниханеа-Сэвиджа требуется найти альтернативу с минимальным (оптимальным) риском и величину этого риска.
Далее приведен ряд матричных игр, показывающих независимость этих двух способов оценки выбора альтернативы. Под независимостью понимается отсутствие какого-либо общего отношения, связывающего решения одной и той же задачи оптимального выбора при этих двух критериях оценки.
Последняя колонка в табличках указывает риск при выборе альтернативы, предпоследняя — ее гарантированный результат, В последней строке таблицы показан оптимальный результат при реализации помехи v. Остальные ячейки таблицы показывают заданные значения исхода <p(u,v) при выборе альтернативы и Е U := {и1,и2} и реализации неопределенности v Е V := {v1,v2,v3}.
V1 V2 V3 pt(u) Щи)
и1 3 5 4 5 1
U2 4 4 4 4 1
3 4 4
Umm = {U2}, Uor = {U1,U2},
"^^mm ~U or
V1 V2 V3 pt(u) Щи)
и1 2 5 5 5 1
U2 4 4 5 5 2
2 4 5
Umm = {ui,U2}, Uor = {ui},
U or С Umm U
V1 V2 V3 pt(u) Щи)
и1 2 5 4 5 1
U2 4 4 4 4 2
2 4 4
Umm = {U2}, Uor = {ui},
mm ^ U or ^
V1 V2 V3 pt(u) Щи)
и1 4 5 4 5 1
U2 4 4 4 4 0
4 4 4
Umm = {U2}, Uor = {U2},
U mm U or = U
V1 V2 V3 max^ ФГЫ
и1 3 5 5 5 1
U2 4 4 5 5 1
3 4 5
Umm = {Ui,U2}, Uor = {Щ,щ},
Umm 'Uor
Как видно из приведенных примеров, множества решений матричной игры, определяемые минимаксным критерием и критерием минимального риска, в зависимости от целевой функции р могут находиться друг относительно друга в любых теоретико-множественных отношениях.
Указанные свойства критерия Ниханеа-Сэвиджа делают целесообразным его применение в ситуациях, когда помеха заведомо не имеет антагонистического характера, В литературе можно встретить различные названия этого критерия, В дальнейшем для его обозначения будет использоваться термин «критерий минимального риска»,
1.2. Динамика системы
В данном пункте даются описание динамики рассматриваемой управляемой системы и используемые в дальнейшем обозначения отдельных множеств и объектов.
Рассматривается управляемая система, описываемая обыкновенным дифференциальным уравнением
х(т) = f (т,х(т),и(т),v(t)), т е Т :=[to,<d] С R, (1.1)
и начальным условием x(to) = zo е Go С Rra, где «:=» означает «равно по определению». Реализации управления и(^) и помехи v(^) предполагаются измеримыми по Боре-лю функциями, удовлетворяющими геометрическим ограничениям
и(т) е V С Rp, v(t) е Q С Rq, т е Т. (1.2)
Множества всех таких реализаций управления и помехи обозначим соответственно как U и V. Множеетва Go, V и Q суть компакты в соответствующих евклидовых пространствах.
В отношении функции f (•) будем предполагать, что
— она определена и непрерывна по совокупности аргументов в области Rra+1 хТ х Q;
— локально липшицева по второй переменной:
\\f(r,xi,u,v) — f(t,x2,u,v)\\ ^ Lf(S— X2\\, (1.3)
где (т,х\), (т,х2) е S, и е V, v е Q и 5 — любое компактное подмножество из Rra+1; Lf (S) — константа Липшица, зависящая от множества S]
— удовлетворяет условию подлипейпого роста:
\\f(t,x,u,v)\\ ^ К(1 + \\х\\), К > 0,
при любых (т, x,u,v) е Т х Rn х V х Q.
При указанных условиях решение в смысле Каратеодори задачи Коши (1.1) существует на всем интервале [t0, $] и единственно при любых реализациях управления и(^) е U и помехи v(^) е V (см. [15, II.4]). Для всех (t*,x*) е Т х Rra, и(^) е U, v(^) е V обозначим x(^,t*,x*,u(^),v(^)) решение в смысле Каратеодори задачи (1.1) с начальным условием x(t*) = х*.
Выделим следующее подмножество пространства состояний системы (1.1):
G := clrxr- {(т,х) е [to,$] х Rra | ж = x(r,to, zo,u(^),v(^)), zo е Go,u(•) е U,v(•) е v}.
Проверяется, что в силу определения и свойств управляемой системы (1.1), (1.2) множество G компактно в Rra+1 и при любых и(^) е Ы, v(^) е V, (t*,z*) е G движение х(• ,t*, z*,u(^),v(^)) ие покшиет G вплоть до момента Обозначим максимум нормы правой части системы (1.1) в области G х V х Q через x(G)\
k(G):= max \\f(r,x,u,v)\\. (1.4)
(r,x)eG
ueV,veQ
Будем говорить, что для системы (1.1) выполняется условие седловой точки [3], если для всех (т,х) е G, s е Rn справедливо равенство
minmax (s, f (r,x,u,v)) = maxmin (s, f (r,x,u,v)). (1.5)
uev veQ veQ uev
1.3. Стратегии и движения
В этом пункте определяются множество стратегий управления и пучки конструктивных движений, порожденных стратегией, при тех или иных ограничениях на помеху. Приводятся свойства этих пучков, В частности, устанавливается отношение включения между пучками движений при каратеодориевских помехах и компактных множествах помех, отношение равенства между пучками движений X+(z0, U) и Хс (z0, U); показана стабильность интегральных воронок, порождаемых пучками движений при программных и при произвольных помехах. Эти свойства используются в дальнейших построениях и оценках. Построения в основном следуют идее конструктивных движений [3] — пределов пошаговых решений уравнения (1.1) при кусочно-постоянных реализациях управления.
Для произвольных (t*,z*) Е G, v() Е V и и() Е U введем следующие обозначения: X(t*,z*,U,v()) := c\G([t*,tf];Rn) {x(,t*,z*,u(),v()) | u() еЩ, (1.6)
X(t*,z*,u(), V) := clc([t„0];R") {x(^,t*,z*,u(^),v() | v(^) Е V}, (1.7)
X (Go):= clc (T ;Rn) U X (to,z°,U ,<•)), (L8)
zoGGo
v(^)ev
где clx Z обозначает замыкание множества Z С X в топологии пространства X, а С([t*,^]; Rra) — множество непрерывных функций из [t*,^] в Rn с нормой равномерной сходимости,
В дальнейшем для z0 Е G0 будут также использоваться обозначения
X (ъ, U, v()) := X (ta,za, U ,v(•)),
X(Zo,u(•), V):= X(to,Zo,u(•), V),
X (Go, U, v()) := U X (zq, U ,v(•)).
zoGGo
Пусть
Ат := \ А Е 2t \ {0} I IAI < ж, minт = to, maxт = Д ;
I тGA tGA \
здесь |А| обозначает количество элементов во множестве А, Для всякого А Е А? определим единственный кортеж
(тгWnÄ Е Т|A|, ПА := |А| — 1, сохраняющий естественный порядок в Т {ji > ъ—1, г Е 1..па), и числа Б(А) := max Ti — ri—1, d(А) := min Ti — ri—1.
iGl..nA ¿Gl..(гад —1)
Отметим, что длина интервала [тпд—1,тпд) не участвует в определении величины d^). Элементы множества А^ будем называть дозбмепшшм отрезка Т. Каждое разбиение А порождает дизъюнктное покрытие интервала [t0, &) системой интервалов [тг—1, Ti), Ti—1 ,Тг Е А, i Е 1..пА. Для всех А Е Ат и t Е Т определим it := max{i Е 0..пА | Ti ^ t}; таким образом, выполняется включение t Е [т^ ,Tit+1).
Лемма 1,1, Всякое разбиение А := (п)^0..Пд можно «проредить» до некоторого разбиения А' Е АТ так, что полученное разбиение А' будет удовлетворять условиям
А' С А, Ъ(А') ^ 3min{d(А'), Ъ(А)}.
Доказательство. Процедура перехода от А к А' с указанными свойствами может быть определена, например, следующим образом:
А' := , := ti, т[ := argminjr е А | т ^ i2 D(A)},
г е N, 0 ^ г ^ (ti - tQ)/(2D(A))}. (1.9)
После этого не трудно проверить неравенства
D(A') ^ 3 d(A'), D(A') ^ 3 D(A).
□
Следуя [6], определим множество стратегий с полной памятью.
Назовем обратной связью с полной памятью на, разбиении A = (т^е0..Пд и обозначим UA := (UA (-))^о..(Пд-i) всякое конечное семейство операторов вида
Uf (•) : C([ío,Ti],Rn)^Ull4,4+1), г е 0..(пА - 1).
Назовем позиционной стратегией с полной памятью и обозначим U всякое семейство (иА)ДеДт обратных связей с полной памятью, определенных на всех разбиениях A е At, Множество всех позиционных стратегий с полной па мятью обозначим S.
Назовем пошаговым, движением из z0 е Rn и реализацией, управления при обратной связи UA = (UA(-))ie0..(nAна разбиении A при помехе v(^) е V и обозначим, соответственно,
ж(-):= x(^,Zo, UA,<)) е X(zo,U,<)) (1.10)
и
Ц-):= u(^,Zo, UA,<)) еЫ (1.11)
функции, удовлетворяющие равенствам
x(t) = x(t,t0,z0,u(^),v(•)),
u(t) = Uf (x(^)l[t0,r4])(t), t е Т.
Из данных определений непосредственно следует, что пошаговые движения и соответствующие реализации управления удовлетворяют следующему свойству неупреждаем ости: для любых z0 е G0, A е At, т е Т, U е S, UA е U и v(^),v'(^) е V справедливы равенства
x(^,Z0, UA, w^))^^] = x(^,Z0, UA, (v,v')T(•))|lío,rj, (1-12)
u(^,Z0, UA, ^(•))|ltc,r) = u(^,Z0, UA, (v,v')r (•)) | [ío,t ). (1-13)
Здесь и далее для непустого множества S, функций p,q : Т м- S и t' е [t,ti] символами (p,q)t'(•) обозначена следующая функция из Т в S:
/ w ч ¡Р(т), т е [t0,t'),
(м)" (Т);= V). Г е
1.4. Пошаговые движения для помех каратеодориевского типа
Обратимся к определению пошаговых движений в случае, когда помеха формируется некоторой функцией каратеодориевского типа: пусть V — некоторая функция Каратео-дори из Т х Мга в О, (см, [15, п. 11.2]), то есть функция, измеримая по первому аргументу при произвольном значении второго и непрерывная по второму при почти всех значениях первого аргумента. Множество всех таких функций обозначим Уди- Опираясь на известные теоремы существования (см, [15, теорема 11,4,3]), можно установить, что при любом выборе такой функции V и произвольной реализации управления и(-) € Ы существует (возможно, не единственное) решение в смысле Каратеодори следующего дифференциального уравнения:
х(т) = f (т, х(т ),и(т ),У (т, х(т))), т € Т, (1.14)
с начальным условием х(Ь0) = г0. Множество всех решений уравнения (1.14) с таким начальным условием обозначим X(г0,и(),У), В силу [15, теорема 1.5.25] множество реализаций помехи
У(го,Я),У) := {и(г) = V(т,х(т)),т € Т | ж(-) € X(^Х),^)},
возникающее из движений X(г0,и(^),У), удовлетворяет включению
У(го,и(^),У) С V.
Таким образом, для любых г0 € С0, и(-) €Ы,У € ХАН, и ?;(•) € У(г0,и(^),У) выполняются соотношения
ь(т) = У (т,х(т, и, га,и(^), <))), т€Т.
Определим пучок пошаговых движений X(х0, иА,У), порождаемый обратной связью с полной памятью иЛ на разбиении А € Ау и помехами, возникающими при выборе функции У € Уаи, индуктивно: на первом интервале разбиения А положим управление равным
и(т) = иА(ж(^))(г), Т € [70, п).
Получим пучок движений X(г0,«(•), V) С С([т0, т\]; Кга) и множество реализаций управления
и(го, ид):= «)} С ЦТо,Т1),
пока состоящее из единственного элемента.
Пусть к моменту тг € А, г € 1..(па — 1), построено множество реализаций управления
и(го, иА,У)|[Го,Гг) СЩТо^)
и для каждой реализации и(-) € и(г0, иА, У)|[Го)7-) определено множество соответствующих движений системы
X (го,и(^),У )|[Го;Г,| СX (Zо,u(•), V )|[Го;Г,|.
Исходя из множеств и(г0, иА, V)|[Гои X(г0,и(•), V)|[То,т;], определим множества пошаговых движений и соответствующих реализаций управления на интервале [т0, тг+\)\
X(го, иА, V)|[го,гг+1] := и X^Я)^^,
и(^)еи (2о,ид,у )|[то,т.+1)
и(zo, UA, V)|[ro,ri+i] := {(«(■), и'(■))гг I и(-) е и(zo, UA, V)|[to,t;),
и'(т):= UA(x(-)I[To,n])(T),T е [тг,тг+1),х(-) е X(zo,u(-),V)I[To,TÜ). (1.15)
В итоге к моменту тПА = $ получим множества X (z0, UA ,V) пошаговых движений, а также множества U (z0, UA,V) CU и V(z0, UA,V) С V соответствующих реализаций управления и помехи при разбиении А, связанные соотношениями
X (zo, UA ,V) = U X (zo,u(-),V), (1.16)
V(zo, UA)= U V(zo,u(-),V). (1.17)
u(^)eu (zo,uA,v)
1.5. Конструктивные движения
Теперь, когда во всех требуемых случаях определены пошаговые движения, перейдем к определению на их основе конструктивных движений (см. [3]), порожденных выбранной стратегией при тех или иных функциональных ограничениях на помеху.
Пусть имеются z0 е G0, U е S, V е Var и произвольное подмножество V С V. Определим пучок движений X(z0, U, V) как множество всех элементов ж(-) е С(Т; Мга), для которых найдутся последовательности
{(ZokМ-), Ak, UA) е Go X V X Ат X U | к е N}, (1.18)
удовлетворяющие условиям
lim z0k = z0, lim ) = 0,
lim \\x(-) - x(-,Zok, UA ,Vk 0)\\с№) = 0. (1.19)
Определим пучок движений X + (zo, U, V) как множество всех ж(-) е С(Т; Rn), для которых найдутся последовательности вида
{(Zok,Vk(■), Ак,UA) е Go X V X Ат х U | к е N}, (1.20)
удовлетворяющие условиям (1.19) и условию
£т \\v() - vk(-)\L2(t;r») = 0
при некотором v(-) е V.
Определим пучок ХСАR(zo, U, V) конструктивных движений, порождаемых стратегией U и функцией V е Var, как множество всех элементов ж(-) е С(Т; Rn), для которых найдутся последовательности вида
{(Zok,Vk(■), Ак, UA) е Go X V(zok, UA, V) х А? х U | к е N}, (1.21)
удовлетворяющие условиям (1.19).
Замечание 1. Из свойства неупреждаемости пошаговых движений (1.12) будут следовать свойства неупреждаемости пучков движений X(zo, U, {f()}) и Х+ (zo, U, {f(^)}): для любых zo е Go, т е [io, U е S, v( ), v'( ) е V справедливы равенства
X(zo,U, M0})|[to>r] = X(zo,U, {(v,v')r(0})^], (1.22)
X+(zo,U, {O})^] = X+(zo,U, {(v,v')TO})^].
Отметим два важных в дальнейшем свойства введенных пучков движений и соответствующих релизаций помехи. Обозначим compL(T;Rq)(V) — семейство всех подмножеств V, компактных в сильной топологии проетранетва L2(T; Мга),
Лемма 1,2, Для любых z0 G G0, U G S выполнено равенство
U X +(zq, U, [v(■)})= U X(ZQ, U, V). (1.23)
d(Ogv vecompLp(T;Eq)(v)
Доказательство. Включение С следует из включения
[v k (■) GVlke N} g complp(t ;Rq )(V),
справедливого для сходящихся в Lp(T; Rq) последовательностей из V,
Докажем обратное включение. Пусть zq G Gq, U g SV G compLp(T;Rq )(V), ж(-) G X(zq, U, V) Тогда, то определению множества X(zq, U, V), существует последовательность вида (1,18) такая, что выполняются равенства (1,19), В силу компактности в Lp(T; Rn) множества V найдутся v(-) G V и подпоследовательность индексов [ki | г G N} такие, что выполнится равенство
lim IIО - Vki(-)|l2(T;R«) = 0.
i—>-<те
Понятно, что для соответствующих подпоследовательностей
[( ZQ кг, Vki (■), Акг, UAfc>) G GQ х V х Ат х U | г G N}, [х(; Zqkt, UAfci, Укг (■)) Mg N}
будут верны соотношения
lim Zq ki = Zq, lim D(Ak.) = 0,
к—те к—те
lim ||x(-) - x(-, Zqki, UAfci , Vki (O)IIc (T ;Rn) = 0,
к—те
отвечающие условиям (1,19), Значит, по определению множества X+ (zq,U, [v(■)}), выполняется включение
х(-) G X +( ZQ, U, [V (■)}). Таким образом, при любом V G comp Lp(T;Rq)(V) верпы включения
X(ZQ, U, V) С U X+(ZQ, U, [V(■)}) С U X+(ZQ, U, [V(■)}). <)ev <)ev
Из этих соотношений следует обратное включение 1Э, которое влечет искомое равенство (1,23), □
Лемма 1,3 (см, [16]), Для, всякой функции V G Var множество реализаций, порождаемых этой функцией, V(X(Gq)) С V,
V(X(GQ)) := [v(■) G V | V(T) := V(т,х(т)),х(0 G X(GQ)}
предкомпактно в L2(T; R).
Доказательство. Для доказательства воспользуемся критерием компактности множества в пространстве L2(T; Rq) (теорема Колмогорова [17, с, 460]): ограниченность множества V(X(Gq)) сразу следует из компактности мгновенных геометрических ограничений на реализации помехи. Установим, что функции Стеклова vh(■) при h ^ +0 сходятся в L2(T; Rq) к соответствующим функциям v(^) G V(X(Gq)) равномерно на V(X(Gq)),
Пусть ж(-) € X(Со), V Е ^аи- Продолжим движение х() и функцию V на интервал [¿о — 1/2,$ + 1/2} константами
(х(1о), т Е [1о — 1/2,Ьо}, х(т):= 1х(т), т Е [¿о,$},
[ж(0), т Е + 1/2},
(0, Г Е [го — 1/2,1о},х Е Ега,
V(т,х), т Е [и,$},х Е Ега, 0, т Е + 1/2},х Е Ега,
и при произвольном к Е (0,1/2) положим
т+Н
ь(т):= У(т,х(т)), ъ(т):= / ^¿8, т Е Т.
т-Н
Оцепим величину Н^О — ^0\\|2(Ту.
т+Н
КО - v(-)\\l2{T;Rq) : = I \\Vh(T) - v(r )\\2dr = I I ^ ds - v(r )
dr
T T T-h
т+h t+h
f v(s) - v(r)_ds
' 2h
T T-h T T-h
2>dT ^ l If - V{T )W2dSdT- (L24)
Известно [15, теорема 1,5,26] (обобщение теоремы Лузина), что для любого е > 0 существует такое замкнутое измеримое подмножество Е£ С Т, что \(Т\Е£) ^ ей сужение VIЕеХс функции V Е ^ак на множество Е£ х С непрерывно. Здесь
J£
■¡¡п
G: = [х Е Rra | (т,х) Е G,T Е Т}.
Обозначим П£(-) : (0, м- (0, модуль непрерывности функции V на компактном множестве Е£ х G. Обозпачим Е'е множество точек плотпости Е£. В силу замкнутости Е£ и теоремы Лебега о точках плотности измеримого множества (см, теорему 7,2 из приложения) будут выполнены соотношения
Е'е С Е£, \(Т\Е'е) ^ е. (1.25)
Продолжим оценки (1.24), используя разложение Т на Е'е и дополнение к нему:
т+h т+h
= J 2aJ \\ *(*) - v(r)\\ 2dsdr + J 2hj \\ v(*) - v(r)\\ 2dsdr.
T\E'e T-h T ГЕ'£ t-h
В силу (1.25) имеем оценку (продолжаем выкладки):
т+h
^ 2е ■ max \\v\\2 + 1 \\v(s) - v(r) \\2dsdr ^ veo. I 2h I
ТГЕ' т-h
^ 2e ■ max \\v\\2 + ¡ 1 í \\v(s) - v(r)\\2dsdr +
veQ J 2h J
ТГЕ' [T-h,T+h]\E's
2
Ч 2кк У
ТПЕ'£ [т-Н,т+Н]ПЕ'£
||ь(в) - у{Т)\\2(18(1Т <
< _ 2 + Г 2 ■ А([т - к,т + к]\Ее) ■ \Н\2 ( +
< 2е • шах т + / -;-ат +
^еа . к
ТПЕ'
+1/
ТПЕ'£ [т-к,т+к]ПЕ'Е
||г;( 5 ) - ь(т)\\2(18(1т.
Воспользуемся равенством А([т-к, т+к]\Ее) = А([г-к, т+к]\Е'е), которое также следует из упомянутой выше теоремы Лебега, и представлением реализации у(-) (продолжаем выкладки):
(
2 ■ шах |М|5
vеQ
\
+
А([г - к,т + к]\Ее)
-;-ат
к
ТПЕ'
+
Ч У
тпе'с [т-н,т+н]пе'£
|| V( 5,х(в)) - V(т,х(т))||2(Ыт.
Используя модуль непрерывности Пе(-) функции V на множестве Ее х С оценим внутренний интеграл во втором слагаемом (продолжаем выкладки):
(
< 2 ■ шах |Ы|2
vеQ
+
V
А([г - к,т + к]\Ее) к
\
ат
ТПЕ'
+
/
+ Г А([г - к,т + к] П Ее) ■ П2(к + шахи<^ ||х(г + в) - х(т)||)^ <
ТПЕ'
< 2 ■ шах |Ы|2
vеQ
+
2к
А([г - к,т + к]\Ее)
к
ТПЕ'
+
/
+ (<? - и) ■ ^2(к ■ (1 + к)).
Здесь к — мажоранта нормы правой части системы (1.1) в области С х Р х 2, В силу
Ее
всех т € Ее стремится к пулю, когда к ^ 0. Следовательно, при этом и весь интеграл также стремится к нулю.
Таким образом, для произвольных у(-) € V(X(Со)) к € (0,1/2) и е > 0 выполняется неравенство ||ьь(■) - ^(')\Ц2(Т-к?) < , к), а для функции
(
Ф(е,к) := 2 ■ шах \Н\2
v€Q
+
V
А([т - к,Т + к]\Ее) к
\
ат
ТПЕ'
+ ($ - ¿о) ■ ^2(к ■ (1 + к))
/
справедливо соотношение Ише^+0 Иш^+0 Ф(е, к) = 0. Это эквивалентно искомой равномерной сходимости. □
1.6. Задача минимизации риска в терминах конструктивных движений
Качество движения системы (1.1) будем оценивать функционалом
7(-) : С(Т; Rn) ^ R, (1.26)
непрерывным в топологии равномерной сходимости пространства С(Т; Rn), Сторона, формирующая управление и(-) G U, стремится минимизировать показатель качества (1.26).
Введем формализации задачи управления в условиях динамических помех на основе критерия Ниханеа-Сэвиджа в зависимости от заданного семейства функциональных ограничений. Для управляемой системы (1.1) и показателя качества (1.26) вначале определим величины оптимального результата и сожаления, которые участвуют в этом критерии.
Пусть заданы начальное состояние z0 G Go, помех a v(-) G V и движен ие ж(-) из пучка X(z0, U, v(-)) всех движений системы (1.1) при реализации помехи v(-) (см. (1.6), с. 9). Этими данными определены величина р(z0, v(-)) оптимального результата,
Р(Zo, <)):= ,() inf ()) l(x'(■)), (1-27)
х (-)еХ (Z0,U ,v(-))
и величина 7s(x(-), ?;(■)) сожаления,
7s(x(^), <)) := 7(x(^)) - p(x(to), <)), (1.28)
x( ■ ) ( ■ )
Как видно из определения критерия Ниханеа-Сэвиджа, для оценки той или иной стратегии следует выделить пучок движений — откликов этой стратегии на каждую из допустимых реализаций помехи. Затем следует взять супремум значений функционала сожаления по всем таким реализациям при заданном ограничении и еще один супремум по всевозможным ограничениям из рассматриваемого класса функциональных ограничений.
Наиболее просто это реализуется в случае программных ограничений: сожаление при выборе стратегии, U G S и реализации, помехи, v(^) G V определяется величиной
sup 7s(x(■), О),
х(-)еХ( zo,U,{v(-)})
где X(z0, U, {v(■)}) — пучок движений, порожденных стратегией U при программной
(■) o
Замечание 2. К такому определению величины сожаления приводит рассмотрение величин сожаления (1.28) на последовательностях пошаговых движений, порожденных стратегией U при измельчающихся разбиениях интервала управления (см. п. 1.3, с. 9). В силу непрерывности в С (Т, Rn) показателя качества 7 и непрерывности по первому аргументу функционала р (см. (3.22), с. 46) величины сожаления на указанных пошаговых движениях сходятся к величинам сожалений на соответствующих конструктивных движениях.
Соответственно, риск rP (z0, U) стратегии U при программных ограничениях на помеху определим величиной
rP(Z0, U) := sup 7s(x(-), О), (1.29)
x(-)ex(zo,v,{v(-)})
а оптимальный риск rP(z0) при программных ограничениях на помеху для начального состояния z0 — величиной
rP(z0) := inf ^(z0, U). (1.30)
ues
Если помеха порождается некоторой неизвестной функцией V G Var типа Каратео-дори, то в силу аналогичных рассуждений приходим к следующим определениям риска гсаr(zo, U) стратегии U G S и минимального риска rCAR(^o) пРи помехах, порождаемых функциями Каратеодори для начального состояния z0:
rCAn(zo, U) := sup %(x(^),v(^)), (1.31)
v eVc„ x^)exca R(^0,u,y)
v(t) = у (t,x(t )),t ет
rCAr(^o) := inf rCAR(zo, U). (1.32)
ues
Здесь XCAR(z0, U, V) — пучок движений, порожденных стратегией U и функцией Каратеодори V го начального состояния z0 (с. 12),
Не столь очевидны подходы к определению в случае, когда реализации помехи ограничены некоторым заранее не известным подмножеством V G complp(t,Rq)(V), В предыдущих двух случаях мы отталкивались от явной привязки всякого конструктивного движения к некоторой реализации помехи, которую и ставили в паре с этим движением в показатель сожаления 7s. Для пучка движений X(z0, U, V) при V G compL(T.r?)(V) эта зависимость в явном виде отсутствует. Но мы можем воспользоваться леммой 1,2 для «разбиения» всей совокупности возможных ситуаций
(V, X(Z0, U, V)), V G compLp(T;R4)(V),
на ситуации вида
(<),X+(Z0, U, {<)})), О G V.
Затем, также отталкиваясь от значений сожаления (1,28) на соответствующих пошаговых движениях и переходя к верхним пределам этих величин, придем к следующему определению риска rc (z0, U) стратег ии U и минимального риска rc (z0) при Lp-компактных ограничениях на помеху для начального состояния z0:
rc(Z0, U) := sup js(x(^),v(^)), (1.33)
v(^)ev x(^)ex+(.*O,u,m-)})
rc(Z0) := inf rc(z0, U), (1.34)
где X+(z0, U, {£>(•)}) — пучок движений, порожденных стратегией U из начального состояния z0 (см, с, 12), U0 G S
ной) при программных ограничениях на помеху (при Ьр-компактных ограничениях на помеху или при ограничениях на помеху типа Каратеодори) для начального состояния z0 G G0, если выполняется равенство rP(z0, U0) = rP(z0) (rc(z0, U0) = rc(z0) или гСаr(z0, U0) = rCAR(z0) соответственно).
Будем говорить, что оптимальная по риску (при каком-либо функциональном ограничении на помеху) стратегия является универсальной в области G0, если соответствующее равенство выполняется для всех начальных состояний из области G0.
1.6.1. Формализация в терминах пошаговых движений
При произвольных помехах, не связанных компактными в Lp функциональными ограничениями, данные выше определения непосредственно не реализуются. Это связано с тем, что конструктивные движения могут порождаться последовательностями пошаговых движений для помех, не имеющих сильного предела в Lp(T, R),
Для распространения критерия минимального риска на более широкие классы функциональных ограничений (включая и случай отсутствия функциональных ограничений, если такая практическая потребность возникнет) можно использовать два пути. Первый — расширить пространство реализаций помехи до мерозначных функций времени, в которых уже всякая последовательность будет иметь предельные элементы. Второй — перенести предельный переход на значения функционала сожаления при измельчении разбиений в пошаговых движениях. Проиллюстрируем последний подход.
Пусть zo € G0, U € S, 5 > О, V € Var и V С V, Определим пучки пошаговых движений, порожденных стратегией U из ^-окрестности начального состояния z0, при
XV(zo, U, V) := {(x(-,z, UA, <)), <)) | \\z — ^o|| ^ 5, D(A) ^ 8, UA е U, <) е V},
XV(zo, U,V):= {(x(-), <)) | \\z — zo\\ < S, D(A) ^ S, UA € U,
x(-) € X (z ,u(-),V), v(t) = V (r,x(r)),r € T,u(-) € U(z, UA, V)},
положим
гг(Zo,U, V) := sup 7s(x(-), <)), (1.35)
(v^),x^))exvs ( ^o,u,v)
гг(Zo, U, V):= sup 7s(x(-), <)). (1.36)
(v(-),x(.))exvs( zo,U,v)
В этих обозначениях риск стратегии U и оптимальный риск в классе S при функциональных ограничениях, заданных произвольным семейством
H С 2V, V = ияен#,
выражаются с помощью (1.35) следующим образом:
rH(zo, U):= suplimsup г^(zo, U,H), rH(zo) := inf rH(zo, U). (1-37)
hен й^+o UeS
В частности, для риска стратегии U € S и для оптимального риска в классе стратегий S при отсутствии функциональных ограничений получаем выражения: H0 = {V} и
Гн Oo, U) := lim sup гг(zo, U, V), гн (¿о) := inf гн (zo, U). (1.38)
¿^+o UeS
Кроме того, проверяется, что ранее введенные посредством конструктивных (пределов пошаговых) движений значения риска стратегии U € S при различных видах функциональных ограничений записываются в этих терминах следующим образом:
гР(zo, U) = sup limsup г<5(zo, U, {v(■)}),
г ( o, U) = sup lim sup г ( o, U, V),
V GVar
г ( o, U) = sup lim sup г ( o, U, V).
VecompLp(T;Eq)(V) <^+o
1.7. Задача минимизации риска в классе квазистратегий
Определение оптимального риска в классе квазистратегий целесообразно как для оценки наилучшего результата, достижимого посредством неупреждающих способов управления, так и для построения позиционных законов управления.
Следуя [4, с, 24], назовем квазистратегией всякое отображение а(-): V м U такое, что для любых т Е Т, v(-),v'(■) Е V таких, что w(-)[i0,r] = v'О^-ф выполняется a(w(-))[t0,r] = a(v'(-))[t0,r]. Пусть Q — множество всех квазистратегий. Определим оптимальный риск rQ (z0) для начального состояния z0 Е G0 в мае се Q квазистратегий управления:
rQ (zq):= inf rQ (zo,a(-)), (1.39)
«(•)eQ
rQ(zo,a(-)):= sup js(x(-,t0,zo,a(v(-)),v(-)),v(-)).
Как идеальные объекты, квазистратегии управления не нуждаются в посредстве конструкций пошаговых движений и соответствующих предельных переходов для определения движений-ответов на произвольную помеху. Именно поэтому определение минимального риска в классе квазистратегий при Lp-компактпых ограничениях на помехи или при помехах, порожденных функциями типа Каратеодори, приведет к той же величине: квазистратегии с точки зрения величины оптимального риска нечувствительны к функциональным ограничениям на помехи,
2. Отдельные свойства и непосредственные соотношения
В этом пункте приводятся соотношения, связывающие величины оптимальных рисков при различных функциональных ограничениях, а также примеры, характеризующие отдельные свойства таких задач управления.
Теорема 2.1. Для, каждого z0 Е G0 справедливы, соотношения
rQ(zq) ^ rP(zo) ^ rCAR(zo) ^ rc(zo) ^ ги0 (zq). (2.1)
Доказательство. Последнее неравенство сразу вытекает из записи соответствующих величин в терминах пошаговых движений (см п,1,6,1), Два предпоследних неравенства следуют из включения
X(zo, U, {<)}) С ХСАR(zo, U,V),
справедливого при всех z0 Е G0, U Е S и v(-) Е V при V = v(-), и леммы 1,3 (с, 13),
Для обоснования первого неравенства вновь обратимся к классу Q многозначных квазистратегий а : {£\, [t0,'d]} м 2{Ux,][t0,'&l} на пространстве обобщенных управлений (см, [18; 4, гл. IV]),
Для всякой стратегии U Е S рассмотрим многозначное отображение
аи: ум
вида
V3 О м ад«)):= {v Е{П(у(-)), [to,$]} | p(-,to ,Zo,v) Е X (zo, U,<))},
где {П(^(-)), [i0,$]} — множество всех допустимых программных управлений, согласованных на интервале [i0 ,-$] с сосредоточенной помехой v(-) (см, [4, гл. IV, § 2, с, 162]),
Тогда отображение «и является многозначной квазистратегией на пространстве обобщенных управлений, определенной на подмножестве V С {£\, [t0, $]}. Из определения «и сразу получим неравенство
Tq(zo,«u):= sup %(ip(-, to, zo, rj), v(-)) ^ sup ъ(х('), v(')) = rP(zo, U),
v(0ev v(0ev
^eouMO) x(^)ex(.zo,u,v(^))
откуда в силу произвольного выбора U вытекают неравенства
tq(zo) := inf tq(zo,a) ^ tq(Zo,au) ^ rP(Zo). «eQ
С другой стороны, исходя из непрерывности по первой переменной функционала 7s и плотности при каждом v(-) G V пучка движений X(z0, U, v(-)), порожденного сосредоточенными программными управлениями, в пучке программных движений {<р(-, t0, z0, rj) | г] G {П(^(-)), [i0, $]}}, порожденных программными управлениями rj, согласованными с помехой v(-) (см, [4, гл. IV]), можно установить равенство
Tq ( ZO) = rQ ( ZO). (2.2)
Из последних двух соотношений следует искомое неравенство, □
2.1. Пример: изменение оптимального риска при изменении класса помех
В данном пункте на известном примере задачи оптимального управления [4, гл. VI, § 1] показано, что оптимальный риск может существенно изменяться при введении функциональных (в данном примере — программных) ограничений на помеху Кроме того, для случая программных ограничений приведен явный вид соответствующей риск-оптимальной стратегии.
Рассмотрим скалярную управляемую систему
I
х(т) = и(т) ■ ж(0) = 0,
и(т) 6?, v(t) gQ, tgT := [0,1], V := Q := {-1,1},
и показатель качества вида
7(х(-)):=х(1), (2.4)
очевидно непрерывный в С(Т, М), Заметим, что в этом примере не выполнено условие (1.5) седловой точки в маленькой игре.
Множества измеримых по Борелю функций и(-) и у(-) на промежутке управления Т, удовлетворяющих ограничениям (2.3), как обычно, обозначим Ы и V.
1. По построению Ы = V, следовательно, для любой стратегии и € Я и любого разбиения А € Д([0,1]) при формировании пошагового движения можно на каждом шаге разбиения выбрать Уи(:)(-) исходя из условия
(т):=и(т), т€ [ п, тт), г€ 0..(п(А) - 1),
где и(-) — реализация управления при данном пошаговом движении. В этом случае будет выполнено равенство
х(т, 0, иА ^(^)(-)) = 1, т € [0,1].
Нетрудно проверить, что в этой задаче для произвольных г0 € Со и у(-) € V значение оптимального результата р(г0, у(-)) дается выражением
р(го, г>(-)) = ^о - 1. (2.5)
Значит, оптимальный риск в классе стратегий Я при произвольных помехах имеет величину
ги0 (0) = 1 - (-1) = 2. (2.6)
2. Теперь построим стратегию 1} € Я, которая при программных ограничениях на помехи существенно улучшает результат (2.6).
Для всех (х1,х2,и') € К1 х К1 х V определим значение обрати ой связи иЛ € } индуктивно:
— для произвольного ж(-) € С([10,т0 1, К) положим и0(ж(0 := и0 € V;
— пусть для некоторого г € 0..(пА — 2) при всех ж(-) € С(\Ъ0,т^\, К) определено значение иДжО) г-того элемента обратной связи иЛ, тогда для всех ж(-) € С([Ь0,Тг+11, К) определим значение и¿+1(ж(-)) условием
■ х(тг+1) — х(т1)
иг+1(х(-)) € argmlnи - --.
иет и^х^о^
Вначале проведем рассмотрение для случая равномерных разбиений: Ак ■= {ты ■= г ■ Кк ■ г € 0..к, Кк ■= к-1}, к € N.
Пусть даны какая-либо помеха у(^) € V, последовательность начальных состояний {гк € К1 | гк = 0} (попятно, что С(Ак) = 0). Рассмотрим соответствую-
щие пошаговые движения и порождающие их реализации управления (см. (1.10), (1.11)):
хк (■)■= х(;гк, Ц-Ак ,у(■)), ик (■)■= и(;гк, Ц-Ак ,у(■)), хк(■) = х(■, 0,гк,ик(■),ь(■)).
Обозначим Значение управления
икг ■= ик (т), Т € [Ткг, ТЫ+1).
х(тк) — х(тк-1)
Щк € а^тт и-
иер ик-1(хк О^о^-х])
определено только для дальнейших оценок и не влияет на движение Хк(■). Таким образом, для всех к € N выполняются соотношения
1 к-1 ты+1
Хк(1) = + ик (в)у(в) ¿8 = + ^ икг у(в) ¿8.
0 = У
о ТЫ
Для каждого к € N рассмотрим вспомогательные величины
к-1 Ткг+х Ук (1)^ + иы+1 у(в) ^.
По определению управлений икг,
г=0
Ткг
ТЫ+1
икг+1 € argmlnи ь(в) ¿8, иет 3
Ткг
откуда при всех к Е N следуют равенства
к-1
Ук (1) = Zk - Y^
i=0
Tki+1
v(s)ds
Tki
(2.7)
к(1)
T+ := (г Е [0,1] | v(t) = 1}, T- := (г Е [0,1] | v(t) = -1},
удовлетворяющие соотношениям
T+ П T- = 0, A(T+ U T-) = 1,
где A(A) означает величину меры Бореля A(^) (измеримого) подмножества А С [0,1]. Обозначим T+, T'_ множества точек плотности множеств T+ и T- соответственно, то есть подмножества точек т Е [0,1], удовлетворяющих равенствам
A(T+ П [г - h\, т + h2]) lim -----= 1,
hi + h2
.. A(T- П [т - hi,r + h2]) 1 lim -----= 1.
(2.8)
Согласно теореме Лебега о точках плотности (см. теорему 7.2) два этих множества также удовлетворяют равенствам
T+ П T'_ = 0, A(T+ U T'_) = 1.
(2.9)
Рассмотрим последовательность кусочно-постоянных функций (ик: [0,1] м [0,1], к Е N} вида
ик (г) := (Ткг+1 — Tki)
i
Tki+1
v(s) ds
Tki
ТЕ [ты, Ткг+i), iE 0..( к - 1).
Покажем, что
lim ик (г) = 1, т Е T+ UT_.
Предположим противное: нашлись момент т Е T+ U T-, подпоследовательность (( аз, b3) | Т Е (a,j, bj) С [0,1], j Е N, lim (bj - а3) = 0}
последовательности интервалов ((т^, т^+1) | т Е (т^, ты+\),к Е N^ с Е [0,1) такие, что
v(s) ds
< с(bj -aj), j Е N.
(2.10)
Пусть, например, т € Т+. Тогда из неравенств (2.10) следуют неравенства
1 + с
А(Т+ п [а,, Ъ,]) ^ —(6, - а,), 3€ N
противоречащие первому из равенств (2.8), и, значит, Т не может принадлежать множеству Т+, Аналогичными рассуждениями покажем невозможность включения Т € Т'_, что противоречит предположению Т € Т+ иТ'_.
Так как функции (■) измеримы, ограничены в совокупности и сходятся почти всюду на [0,1] к функции V(■) := 1 (см. (2,9)), то интегралы этих функций на интервале [0,1] также сходятся к интегралу от функции и(■) на интервале [0,1] (см. [15, п. 1.4.18]). А именно,
fc-1
lim / ufc(s) ds = lim \
fc—>-Ж ' fc—^ж ^—^
fc—ж ■
i=0
Tki+1
v(s) ds
Tki
v(s) ds = 1.
Отсюда, принимая во внимание (2.7), мы получаем равенство
lim ук(1) = -1,
fc
(2.11)
справедливое для произвольной у(-) Е V.
Теперь, используя постоянность шага разбиения, оценим величины (1) — Хк(1)У-
\Ук(1) - хк(1)| ^
fc1
ты+1
Y(ukl+1 - Ufci) v(s) ds
i=0
ты
<
^ 2hk +
k-2
Tki+1
Yukl+1 (v(s) - v(s + hfc)) ds
i=0
ты
1-Ик
^ 2Пк + ! |ф) — ф + Пк)| ds. (2.12) о
В силу непрерывности в целом измеримых функций (см. (7.2), с. 86) последняя величина при любом у(-) Е V стремится к нулю, если Нк стремится к нулю. Таким образом,
lim \ук(1) - хк(1)\ = 0.
к—ж
(2.13)
Соотношения (2.11) и (2.13) дают равенство х(1) = —1 для произвольного движения ж(-) € X(0, и, у(-)) и любого у(-) Е V. И следовательно, оптимальный риск в классе Я при программных ограничениях на помеху имеет величину гР(0) = —1 — (—1) = 0.
Отметим необходимые модификации в построении стратегии 1} и в рассуждениях для случая произвольных разбиений. Пусть имеется произвольная последовательность разбиений [Ак Е Д([0,1]): к Е К} промежутка управления Т с измельчающимся шагом:
lim D(Ak) = 0.
к—ж
(2.14)
Обозначим через т(Ак) наименьшее натуральное число, превосходящее 1/\fD(Akji и положим hfc := 1/m(Afc). Наряду с разбиениями Afc используем разбиения Afc С Afc следующего вида:
Afc :={ fki \ fki := min[r Е Ak \ т ^ i • hk},i Е 0..m(Ak)}, к Е N.
Разбиения Afc удовлетворяют условию limfc—ж D(Ak) = 0 и являются «почти равномерными»: суммы отклонений их моментов от ближайших моментов равномерных разбиений [ilfc: г Е 0..m(Afc)} стремятся к нулю при возрастайии индекса к. Формирование управлений ufc(•) будет производиться по тем же правилам, но только уже на подмножествах Afc узлов разбиений Afc:
1
1
Üm(x(-)) е argminи ■ ^^.. ^ , х(-) е С([to,n+i], Rra). uer Щ^'Л^т^
При этом соотношение (2,11) останется справедливым, так как его вывод не использовал какой-либо специфики разбиений, кроме условия (2,14), Вместо неравенств (2,12) можно получить удовлетворительные аналоги
1-Б(Д к)
|Ук(1) - хк(1)| ^С ■ D(Äk) + J \v(s) - v(s+ D(Äk))\ ds,
0
к е N, С = const,
следующие из ограничений (2,3) и способа построения разбиений Дк. Итак, в данной задаче установлено неравенство гР (0) < гн0 (0).
2.2. Пример оптимальной по риску стратегии
Рассмотрим на простейшем примере введенные определения. Пусть управляемая система описывается уравнениями
{
x{t)=u{t)+v{t), г G [to,ê]:=T,
x(to) = Zo G Go, Go :=[-ao,ao], üq G (0, +œ).
Измеримые реализации управления и помехи при почти всех т G T стеснены ограничениями
u(t) G? :=[-а,а], v(r) GÔ := [-b, b] (2.16)
при
а<Ь. (2.17)
G
требуемыми свойствами, предполагаем выбранным, и все приводимые ниже построения и оценки без дальнейших оговорок относятся к позициям и движениям, содержащимся в этом множестве. Для произвольных t G T, u(-) G U и v(-) G V обозначим
i9 i9
u(t) := Ju(s) ds, v(i) := Jv(s) ds.
В этих обозначениях
x(i9, t*, z*,u(-), v(-)) = z* + u(t*) + v(t*)
для произвольных (t*, z*) G G, u(-) G U и г>(-) G V. Показатель качества выберем в виде
7(x(-)):= |x(^)|. (2.18)
Для дальнейших выкладок удобно ввести в рассмотрение следующую величину, связанную с оптимальным результатом:
p(t*, z*, г>(-)):= min 7(x(-)), (t*, z*) G G, v(-) GV. (2.19)
x(-)ex( t*, z*,u ,v(-))
Можно проверить, что в начальной позиции (Ь*,г*) Е С для помехи у(^) Е V выполняется равенство
( |2* I0,
р(ъ*,г*,ь(^)) — ^ {¿.¿и)
1г* + у(1*)1 ^ а(§ - и).
Введем следующие подмножества расширенного пространства позиций:
Аь+а — {(т, х) Е С I т ^ И ^ (Ь + а)($ - т)}, Аь-а :— {(т,х) Е С | т ^ {), |ж| ^ (Ь - а)($ - т)}, Аь±а Аь+а и Аь-а, А* *,г*) :— {(т,х) ЕС I т Е И ^ т&х{0,Ъ(т* - т)}},
и* + ($ - г*), (г*, г*) Е Аь-а, т* — т*(и,г*):— и* + (ь-а№-*)+\**\, (и,г*) е С \ Аь±а, (2.21)
(и, г*) Е Аь+а.
Для каждой начальной позиции (Ь*,г*) Е С определим следующую величину:
Г^а($ - и), (1*,г*) Е Аь-а,
Х(и,г*) — < • {ь+а){{>2, (и, г*) Е С \ Аь±а, (2.22)
[0, (1*,г*) Е Аь+а.
Утверждение 2.1. В задаче управления (2.15), (2.16), (2.18) функция минимального риска при программных помехах удовлетворяет равенству
гР(^) — \(1о,го), го Е Со. (2.23)
Стратегия, и: — (IIа)аеат Е Б, в которой все элементы, ТТ обратной связи, с полной памятью ТТ а : — (ТТ^) ^0„(ПА-\) на произвольном раз биении А имеют вид
—
Щ^)) > 0 (Тг,Х(Тг)) Е А(ьоЛьо)Ь
г -а sign(x(тi)), (п,х(п)) Е С \ А^0,х^0)),
является, оптимальной по риску при программных помехах для, начальной позиции г0.
На рис. 1 изображен график функции А(-) при а — 0.2, Ь — 1, Ь0 — 0 $ — 25. На рисунках 2-4 изображен вид обратной связи ТТ при а — 0.2, Ь — 1, (Ь0, г0) — (0, 5), § — 25 в зависимости от значений текущих состояний движения (тг,х(тг)) и начальных состояний:
на рисунке 2 — в случае 1г01 ^ (Ь - а)('д - Ь0),
на рисунке 3 — в случае (Ь - а)('д - 10) ^ 1г01 ^ (Ь + а)('д - Ь0),
на рисунке 4 — в случае 1г01 ^ (Ь + а)('д - Ь0).
Доказательство. Схема доказательства утверждения следующая. Вначале утверждение доказывается для случая (10,г0) Е Аь+а. Для оставшихся начальных позиций строятся две специфические помехи, которые для произвольной стратегии из Б «обеспечивают» величину риска не меньшую, чем значение функции \(10,г0). Таким образом, оптимальный риск оценивается снизу этой величиной. Затем показывается, что стратегия и имеет риск, не превосходящий величину \(10,г0), Следовательно, оптимальный риск совпадает с величиной Л(Ь0, г0), а стратегия иго является оптимальной по риску.
Рис, 1, Вид функции А(-) при а = 0.2, 6=1, ¿0 = 0, $ = 25
Состояние х
Рис, 2, Вид обратной связи и» в елучае |г0| ^ (Ь — а)($ — ¿0)
Состояние х
Рис, 3, Вид обратной связи Т в случае (Ь - а)('д - 10) ^ 1г01 ^ (Ь + а)('д - Ь0)
Состояние х
Рис, 4, Вид обратной связи и» в елучае 1г01 ^ (Ь + а)('д - 10)
1, Для любых (¿о, £о) € Аь+а, ь(^) е V, х(^) е X(го, и, выполнено равенство
7(х(0)=р( ^о, <)). (2.24)
Пусть г0 ^ (6 + а)(д — £ 0), тогда из ограничений на управление и помеху (2,16) для движения х(^) следуют неравенства
|х(т) + v(r)| = |zq + u(s) ds + v(s) ds| ^
to
to
^ (Ь + а)(д - to) -
J u(s) ds + J v(s) ds
o o
^ (Ь + а)(д - to) -
u(s) ds
o
( )
o
>
^ (b + a)($ - to) - a(r - to) - - ^) = a(& - r).
Из этого неравенства при (tQ, zq) G Аь+а для всех управлений «(•) G U, помех w(-) G V, х(^) := х(^, tQ, zq,u(^), ?;(•)) и т G Т вытекают соотношения
|х(т)| = sign( zq)x(t), |x(t) + v(r)| = sign( Zq)(x(t) + v (т)),
(2.25)
(2.26)
а величина оптимального результата (2.20) в силу (2.26) для всех т е Т примет вид
р(т,х(т), <)) = го)(х(т) + у(т)) — а(т? — г). (2.27)
Пусть выбрано произвольное разбиение А е Ат, Обозначим
х(-) := х(^, го, "0А, <)), «(•):= «(•, иА, <))
пошаговое движение и соответствующую реализацию управления, порождаемые обратной связью иА на разбиении А при помехе ?;(•) е V, Пусть момент т е Т и приращение е > 0 выбраны так, что интервал [т, т + е) целиком содержится в одном из интервалов, порождаемых разбиением А. Из определения етратегии 1} и равенств (2.25), (2.27) получим соотношения
р(т + £,x(t + е), v()
Т +S
sign(zq)(x(t) + (u(s) + v(s)) ds + v(r + e)^ - a(i9 - (r + e))
Т +s
= sign(zq) ^x(t) - ea sign(x(r)) + J v(s) ds + v(r + e)^ - a(§ - (r + e)) =
= sign(zq)(x(t) + v(r)) - ea - a(i9 - r) + £a = p(r, x(t), v(^)).
Отсюда следует, что (2.24) выполняется при любой помехе w(-) G V и любом разбиении А для пошаговых движений, порождаемых стратегией U, В силу непрерывности функционала качества это равенство будет выполняться и для элементов из множества X ( zq, U, f(-)). Отсюда с учетом (2.24) получим соотношения
0 ^ ГР (zq) ^ SUp 7(x(^)) - p(to, zq , £>(•)) = 0.
x(:)ex(zo,v,v(:))
Таким образом, для начальных значений (10,г0) Е Аь+а выполнено равенство (2,23) и стратегия и оптимальна по риску,
2, Для произвольной начальной позиции (Ь0,г0) Е С\Аь+а выполняется неравенство
Гр(г0) ^ Х^,^).
Пусть (10, г0) Е С \ Аь+а, положим
^0,г0)
Т Е [и ,т*), (Ь0,г0) Е Аь-а (т) — <( -Ьт Е [^,т*), (и, г0) Е Аь-с
-Ь,
г Е [т*,$],
_£0
У+0,г0 )(т) — \ -Ь siën(z0), Г Е ,т*), (Ь,г0) Е Аь-6
Ь,
т Е [и,т*), (и,г0) Е Аь-С т Е [г0,т*), Г Е [т*,$].
Из определения момента т* — т*(Ь0,г0) (см, (2,21), с, 25) следует, что для данных функций при всех начальных позициях (Ь0,г0) Е С \ Аь+а выполнено включение )(••) Е V- Установим справедливость равенств
(¿о , зд)
(2.28)
С этой целью, исходя из выражения для оптимального результата (см, (2,20), с, 25), проверим справедливость соотношений
^0 + V,
(¿о , го)
(в) ¿8
¿о
^ а($ - 10),
^0 + V,
¿о
+
(¿о, го)
(в) ¿8
^ а(& - 10).
Пусть (10,г0) Е Аь-а. Тогда
+ 4о.го)(8) ^
¿о
^ + Ъ+0>20)(8) ¿8 + У+ог0)(8) ¿8
¿о
^0 +
-^0
¿8 + Ьё,8
] и - т* J
4о т*
— Ъ($ - т*) — а($ - 10).
Аналогично проверяется неравенство
^0 + I )(8) ¿8
¿о
^ а($ - 10).
Следовательно, равенства (2,28) выполнены в случае (10,г0) Е Аь-а. Для начальных
позиций (to,zo) E G \ Ab±a имеем (используется тождество |ж| = х sign(x))
zo + v(tnzn)(s) ds = z0 - bsign(zo) ds + bds
(to,zqу
to to
zo - b agn{zo)(b - aw) - 'о) + ы + b(* - to - (Ь - a)(» - 'o) +
^ - ^ - (b - a)(0 - to) + Ы ^
. .(b - a)(& - to) + Ы , (b + a)(& - to) - Ы = zo - sign(zo)-^-+-2-=
zo + (b + a)($ - to) - sign(zo)(zo + (b - a)($ - to)) ± 2a($ - to)
2
zo + (b - a)($ - to) - sign(zo)(zo + (b - a)(д - to))
2
= (1 - sign(zo))(zo + (b - a)(& - to)) 2
+ a($ - to) =
+ a(& - to).
Дробь в последнем выражении при 1г01 > (Ь - а)(д - 10) не превосходит пуля. Схожими рассуждениями эта оценка выводится для помехи )(•), Следовательно, равенства (2,28) выполнены и в случае г0) Е С \ Аь±а.
Теперь для произвольной стратегии и Е Б оценим значения х-(•)), 7(£+(•)) показателя качества для движений вида
х-0 Е X(к, и, К" П)0}), (•) Е X(г0, и, К+п ,(•)}).
(t0,zo >i)i ^ WE^l ^^ (to zo Г
(to zo)(v(to,zo)(
Так как стратегия U является неупреждающей, а помехи v-tn zn)(•), v+tn zn)(•) совпадают па отрезке [to,r*], то по крайней мере одно из неравенств
х-(т*) ^ 0, х+(т*) ^ 0
будет выполнено. Пусть выполнено, например, правое неравенство. Тогда, с учетом равенств (2,28), получим
sup jB(x(^),v(^)) ^ 7^О) - p(to,zo,v+Q,z0)(^)) > (& - т*)(Ъ - a), v(yev x(^)ex(z0 ,u, v(•))
откуда, в силу определения момента т* (см, (2,21), с, 25), следуют соотношения
sup %(x(^),v(^)) ^ (b - a)(i9 - т*) = X(to,zo). v(yev
x(yex (z0 ,U, v(•))
В силу произвольного выбора U E S получим
rP(zo) := inf sup js(x(^),v() ^ X(to,Zo).
UeS v(yev
x(^)eX (to,zo,U,v(•))
3, Для любой начальной позиции (to,zo) E G \ Ab+a выполнено неравенство
rP (zo, U):= sup %(x(^),v() ^ X(to,Zo). (2.29)
v(yey x(^)ex(zo,U , MO})
Замечание 3. В силу определения множества ю,х0) и стратегии и всякое движение х(-) е X(го, и, до момента т* не может пересекаться с множествами
В^0) := {(т,х) е С \ Л(4о,го) 1 г е \Ъо,т*],х> 0}, В-о^о) := {(т, х) е ° \ А^о) 1 Г е \Ъо,Т*],Х < 0} одновременно. То есть одно из множеств
,*о) п {(т,х(т)) I т е [Ъ,т*]}, п {(т,х(т)) | Г е [¿о,Т*]}
пусто, и если обозначить Т- меру множества моментов т е [¿о,т*] таких, что (т,х(т)) е В— ^), а Т+ — таких, что (т,х(т)) е В+ ^), то по крайне мере одна из этих величин будет равняться нулю.
Замечание 4. Отметим также, что если указанное движение х(-) пересекается со множеством {(г, 0) | т е [т*,$]}, то выполняется неравенство
1х($) < (Ь - а)(# - т*). (2.30)
Замечание 5. В силу линейности рассматриваемой системы и выпуклых ограничений на управление для произвольного движения х(-) £ X(zo, U, |v(-)}) существует реализация и(-) := u(-,to,Zo, U,v(-)) £ для которой выполнено равенство х( ) = x(-,t0, z0,u(),v()), а в области постоянства обратной связи ÜЛ — соотношения и(т) = Üí(x(tí)), т £ [tí,Tí+\). Из последних равенств и замечания 4, следует, что если на интервале [т*,$] значение управления и(-) изменяется, то будет выполнено (2.30).
Из замечаний 4, 5 следует, что если при некотором т' £ [т* ,-$] выполняется х(т) = 0, то имеет место оценка
7(х(■)) - p(to,zo,v(-)) ^ \х($)\ ^ (b - а)($ - т*) = X(to,zo).
Исходя из этого, далее будем предполагать, что при всех т £ [т*,величипа х(т) сохраняет знак.
Пусть (t0, z0) £ G \ Аь+а, v(^) £ V, х(^) £ X (z0, U, {f(-)}) и выполнено неравенство
\х(т*)\ ^ p(to,Zo,v(■)).
Складывая это неравенство с неравенством ^ \^(r*)\ + (Ь - а)(д - т*), получим
соотношение
7(х(■)) - p(to,Zo,v(■)) ^ (Ь - а)($ - т*) = X(to,Zo). (2.31)
Теперь пусть выполняется обратное неравенство: \ж(т*)\ > p(t0, z0,v(^)). Так как функция р(^) неотрицательна, го последнего неравенетва следует \ж(т*)\ > 0. Для определенности будем считать х(т*) > 0. Тогда, в силу замечания 3 и определения стратегии U, Т- = 0 Т+ > 0.
Рассмотрим случай, когда p(t0, z0,v(^)) = 0, то есть
\zo + v(to)\ ^ a(ti - to). (2.32)
Имеем
i9
7(х() - p(to,zo,v() = \x(ti)\ = \zo + J(u(s)+ v(s)) ds\ =
to т*
= \z0 + v(t0) + j u(s) ds + j u(s) ds\ =
to T*
= zo + v(to) - aT+ - a(§ - т*) ^ a(§ - т*) - aT+ - a(§ - т*).
Таким образом,
7(х(-)) - p(ta, za,v(-)) ^ а(т* - ta - Т+). (2.33)
Это же неравенство можно проверить и в случае, когда предположение (2.32) не выполнено, то есть в случае, когда
Izo + v(ta)l >a(ti - ta). (2.34)
В самом деле, исходя из последнего неравенства и неравенств
т* т*
z0 + j v(s) ds > zo + j v(s) ds - aT+ = х(т*) > 0,
to to
проверяется соотношение zo + v(to) > a{ß - to). Тогда выполняются равенства 7(x(-)) - p(to,zo,v(-)) = Ix($)I - Izo + v(to)I + a(ti - ta) =
i9
= Izo + j(u(s) + v(s)) dsI - Zo - v(to) + a($ - to) =
t0
T*
= zo + v(to) + j u(s) ds + j u(s) ds - zo - v(to) + a(& - to) =
to t*
= -aT+ - a(§ - t*) + a(§ - to) = а(т* - T+ - to).
Покажем теперь, что из (2.33) следует искомое неравенство. При (to,zo) Е Аь-а, подставляя выражение для т* (см. (2.21), с. 25), получим
b — а
а(т* - to - Т+) ^ а(т* - to) = а—— ($ - to) = X(to, zo), (to, zo) Е Ab-a.
b
При (to,zo) Е G \ Аъ±а, используя неравенетво T+ ^ \-b(^*-to) и 0Пр6деление т* (см. (2.21), с. 25), получим
, . т , . Л , (b - a)(ti - to) + Ы , Ы - Ь(т* - to)
а(т* - to - 1+) ^ alto +----to--
\ 2b а
_а((Ь - а)({) - to) + Ы) . . (Ь - а)({) - to) + Ы _
= 2Ъ Ы + 2 =
а(Ь - а)(& - to) + alzol - 2bIzoI + b(b - а)(& - to) + bIzo|
2b
ib - a)((b + a)(& - to) -Ы)
X(to,zo), (to, Zo) E G \ Ab±a.
2b
Таким образом, для произвольного начального состояния (t0, z0) Е G \ Аь+а справедливы неравенства
sup 7(ж(-)) - p(to,Zo,v(-)) ^ X(to,Zo),
x(.)eí(4,o,{«(.)})
из которых получим искомые неравенства (2.29). Этим завершается доказательство данного пункта и утверждения 2.1. □
На рисунках 5, 6 красным и прерывистым зеленым изображены движения, порожденные стратегией и и помехами )(•), у+о )(•) из позиций = (0,-25), {^о, = (0, 7). Темно-синим цветом указаны контуры множества нулевого уровня функций р(^о >зди р(^у+о>зд)(^)).
Рис, 5, Движения системы, порожденные стратегией и го начальной позиции (10,г0) = = (0, 7) при помехах у—,^-), г+^О
Рис, 6, Движения системы, порожденные стратегией и го начальной позиции (10, г0) = = -25) при помех ах у-о,го){-), у+о,го) {■)
2.3. Сравнение оптимальной гарантии и минимального риска
В этом пункте на примере задачи управления системой с простыми движениями и терминальным показателем качества иллюстрируются различия в результатах, доставляемых оптимальными позиционными стратегиями и риск-оптимальными стратегиями.
Для всех е > 0, (t*,z*) Е G, U Е S обозначим
Гр(t*,z*, U) := sup {т(ж(0) - p(t*,z*,v (■))}, rP(t*,z*) := inf rP(t*,z*, U)
v(-)ev Ues
(X(t*,z*, U, v(^)) — пучок конструктивных движений из начальной позиции (t*,z*), порожденный стратегией U при программной помехе v(^), определяется аналогично пучку X (to,zo, U,<)) = X (zo, U,<)), см. п. 1.5),
Se(t*,z*) := {U Е S | rP(t*,z*, U) ^ rP(t*,z*)+ £}
и сформулируем вспомогательное утверждение.
Лемма 2.1. Пусть для некоторой вещественной функции ( : G ^ [0, стра-
тегии U Е S и начальной позиции (t*,z*) Е G выполняется, неравенство
rP(t*,z*, U) ^ С(t*,z*). (2.35)
Тогда, верны соотношения,
rP(t*,z*) ^ ((t*,z*), (2.36)
U Е Sc(t*'z*)(t*,z*), (2.37)
rP(t*,z*, U) ^ rP(t*,z*, U) + С(t*,z*), U Е S. (2.38)
Доказательство. Пусть для U Е S выполнены условия леммы. Тогда в силу определения rP(t*,z*) имеем
rP(t*,z*) ^ rP(t*,z*, U) ^ ((t*,z*).
Включение (2.37) следует из (2.36), (2.35) и неравенства r(t*,z*) ^ 0. Неравенство (2.38) получается из неравенства (2.35):
max_ ^(х(■)) ^ p(t*,z*,v()) + ((t*,z*) ^ max 7(^0) + С(t*,z*). х(-)ех (t*,z*,u ,v(-)) x(-)ex(t*,z*,u,v(■))
□
Пусть управляемая система описывается следующими уравнениями:
х 1 (т) = щ(т) + ух(т),
х2(т) = и2(т)+ у2(т), т Е %,$] С [1о,Щ:= Т, (2.39) х(Ь*) := (х1(ь*),х2(и)) = (г*1,г*2) := г*, Е С С Т х Е2.
Измеримые реализации управления и помехи при почти всех т Е \ф*,Щ стеснены следующими ограничениями:
и(т) := (щ(т ),щ(т)) ЕТ, V := {(и1,и2) Е Е2 | а1и11 + (а + Ь)1и21 ^ а(а + Ь)} ,
а > 0, Ь> 0, а + Ь< 1, (2.40)
ь(т):=(ы(т),У2(т)) ЕЯ := {(ь^) Е Е2 | М + N ^ 1} . (2-41)
Положим С0 := {х Е К2 | ||ж|| ^ 1}, Показатель качества выберем в виде
ф(-,и,г*,и(-),ь(-))) = а(х(д,и,г*,и(-),у(-))):= + Х2(д). (2.42)
Для произвольных и(-) := (и!(-),и2(-)) е!А и г>(-) := (г^о,^2(-)) Е V обозначим
(19 19
^г(в) ¿,3,^2(3) ¿в |,
г* г*
(19 19
^г(в) ¿8, ^2 (в) |.
г* г*
В этих обозначениях
х(§,Ь*,г*,и(-),ь(-)) = г* + и[£*] + V[I*] := (г*! + и![¿*] + + и2^*] + ^2[1*]).
(2.43)
Покажем, что в дифференциальной игре [3, §18; 4, гл. I, §6; 19, §11] для системы (2.39) и показателя качества (2.42) существует цена игры [3, § 8; 4, гл. I, § 6; 19, § 11.3] р(-): С ^ К и она удовлетворяет равенству
{
Аг*!1 + г*2 + (1 - а - Ъ)(& - г*), ^ (а + Ъ)(& - г*),
Р(и,г*а -Ы + г*2 + (1 - а)(# - и), 1^1 ^ (а + Ь)(# - и). (2'44)
, I I ^
а + о
Существование цены дифференциальной игры (2.39), (2.42) сразу следует из вида системы и показателя качества (см. [3, теорема 18.1; 4, теорема 2.7.1; 19, теорема 11.4]). Функция (2.44) выпукла, конечна и глобально липшицева. Значит, эта функция принадлежит классу ЬЮ локально липшицевых функций, дифференцируемых по любому направлению (1,у) у Е К2, и для нее справедлива теорема 6.5.1 [4, гл. VI, § 5], устанавливающая критерий равенства функции из ЬЮ цене дифференциальной игры. С помощью указанной теоремы можно проверить [20], что функция (2.44) есть цена дифференциальной игры для системы (2.39) и показателя качества (2.42).
Оптимальная позиционная стратегия [3, §6; 4, гл. I, §3; 19, §11.2] для дифференциальной игры (2,39)-(2,42) может быть построена в виде экстремального сдвига на сопутствующую точку [5]:
и(т, х, е) Е argmax (т(т, х, е) - х,и), (2.45)
иет
т(т,х,е) Е а^ттр(т,т). (2.46)
Из условий (2,45)-(2,46), используя (2.44), получим
и(т,х,е) Е <
' (- sign(x!)(a + Ь), 0), 1х!I > £аЬ + (а + Ъ)(д - т), {(- sign(ж!)(a + Ь)(1 - р), -ра)1р Е [0,1]},
|Ж11 Е [еаъ, £аЪ + (а + Ь)('& - Т)], ,(0, -а), 1х! I <£аь,
где £аь = ае^а2 + (а + Ь)2, е > 0.
В частности, этим условиям удовлетворяет позиционная стратегия
\(0.
т\, ч I (- sign(xi)(a + b), 0), |xi| > ae/Ja2 + (а + b)2, и (т, x, е)
—а), 1^1 ^ ае/^а2 + (а + Ь)2.
Кроме того, непосредственно проверяется, что любая из семейства стратегий
и ( )=)(- siën(xl)(a + b), |xi| >X(a + b)($ -
40, -a), Ixi I ^Х(а + Ь)($ - т), J
где Л Е (0,1], является оптимальной позиционной стратегией.
Выписывая условия экстремального сдвига на сопутствующую точку [5] для второго игрока, нетрудно проверить, что стратегия У(т,х):=(0,1) Е О, является оптимальной позиционной стратегией второго игрока в дифференциальной игре для системы (2,39) и показателя качества (2,42),
Найдем для рассматриваемой задачи оптимальный результат и оптимальную по риску стратегию управления.
Можно проверить, что оптимальный результат в начальной позиции (Ь*, г*) Е С для помехи у(^) Е V в приведенных выше обозначениях имеет величину
p(t*, z*, v(•)) = <
Iz*i + Vi[t*]| + z*2 + V2[t*] - (a + b)($ - t*),
Iz*i + vi[t*]| ^ (a + b)($ - t*),
Iz*i + Vi[t*]| + z*2 + V2[t*] - a($ - t*),
Iz*i + vi[t*]| ^ (a + b)($ - t*).
(2.48)
a + b
Замечание 6. Из (2.48), (2.44) получим равенства
max min 7(x(-,t*,z*,u(-),v(-))) = max pit*, z*,v(-)) = p(t*,z*), (t*,z*) e G. v(-)ev u(-)eu v(-)ev
To есть в рассматриваемом примере также имеет место случай регулярности программного максимина [3, §38; 4, гл. III, §5]: программный максимин совпадает с ценой игры. Рассмотрим стратегию (/(•): G ^V, определяемую условиями
U(r,x)={(- Sign(xi)(a + Ь),0) IxiI >$ - Т' (2.49)
(0, -а), jxiI ^ $ - т.
Утверждение 2.2. Стратегия (!(•) не является, оптимальной позиционной стратегией в задаче управления (2.39)-(2.42) для, начальных позиций из области
Б = {(т,х) I (а + Ъ)($ — т) < 1x11 <{) — т}ПС.
Доказательство. Для доказательства достаточно найти помеху, при которой значение показателя качества будет превосходить цену игры. Вычислим значения показателя качества для движений, порождаемых стратегией (2.49) и программной помехой ?](•) := (0,1). При измельчении шага разбиения А пошаговые движения
Х(; и, г*, {&(•), А},ь(^))
из начальной позиции (Ь*, г*) при |г*11 < $ — Ь* сходятся в С([1 *,-$]; Мга) к движениям вида
у(т, Ь*, г*) := (г*1, г*2 + (1 — а)(т — Ь*)), т Е \Ъ*— |г*^],
у(т,Ь*,г*) := (г*1 - sign(z*l)(a + Ь)(т - + - а(д - - и) + т - и),
т Е [Я -Ы,Щ.
А в случае ^ $ - Ь* — к движениям
у(т,Ь*,г*) := (г*1 - sign(z*l)(a + Ь)(т - Ь*),г*2 + т - и), т Е [1*$].
Следовательно, значения показателя качества в зависимости от начальной позиции будут выглядеть следующим образом:
, , а ± чч [(1 - b)lz*il + z*2 + (1 - а)(д - t*), lz*il <•& - t*, a(y(d,t*,z*Л=< +
Uz*il + z*2 + (1 - a - b)(v - t*), lz*il ^ v - t*.
Сравнивая эти значения со значениями цены игры (2,44), получим положительные величины отклонения:
/
0, lz*il ^ i9 - t*,
a(y($,t*,z*)) - p(t*,z*) = < - t* - k*^, (a + b)(9 - t*) ^ ^1 ^ # - t*,
h\V+b - 7I^ ^ ^ (a + b)(^-u).
□
Утверждение 2,3, Для, всех (t*, z*) E G и v(^) E V выполнены неравенства
r(t*,z*,U) ^ b(<9 - t*). (2.50)
Доказательство. Пусть выбраны произвольные позиции (t*,z*) E G, помеха г>0 E V и движение ж(^) E X(t*, z*, (!(•), v(^)). Заметим, что в силу определения (/(•) и ограничений на управление и помеху (2,40)-(2,41) движение х(^), однажды покинув область А0 := {(г, (xi,x2)) I г E [t*,i9], < i9 - т}, больше в нее не возвращается. Вплоть до момента $ это движение остается в одной из областей:
А- := {(г, (xi,x2)) | т E %,Щ, xi ^ -($ - т)},
:= {(т, (xi,x2)) I т E [t*,i9], xi ^ § - т},
пересекающихся в прямой {(-$, (0,ж2)) | х2 E Ri}, При этом если для начальной позиции (t* ,z*) := (t*, (z*^ z*2)) и выбрани ой помехи ^(^выполняется пераве нетво z*i + v^i*] < 0, то движение остается в области а в елучае z*i + vi [t*] > 0 — в области А+. Таким образом, при Iz*i + vi[t*]| > 0 знак первой координаты управляющего воздействия, применявшегося вне области А0 и те границы, определяется знаком числа z*i + v^i*].
При условии Iz*i + v^i*] = 0 из ограничений (2,41) следует, что для любого разбиения Д пошаговое движение x(^,t*,z*, {U, Д},^-)) остается в области
Ао := {(т,х) I т E [t*,$], Ы ^ § - т}.
А значит, управляющее воздействие стратегии U равняется (0, -а) па всем промежутке управления.
Из указанных обстоятельств следует, что конечная позиция нашего движения про. i-ставима в виде
х(§) = (z*i + vi[t*] - sign(z*i + vi[t*])(a + Ь)ДЬ2, z*2 + v2[t*] - аДи),
где АЬ1 + АЬ2 = § — Ь*, знак первой компоненты вектора, если она отлична от нуля, совпадает со знаком величины г*1 + \1[1 *], а в случае |г*1 + v1[í*]| = 0 выполняются равенства
Аг 1 = ■& — и, = 0. (2.51)
Используя это представление, оценим отклонение результата, доставляемого стратегией и, от оптимального результата (2.48). При |г*1 + v1 [Ъ*]| ^ (а + Ь)(д — Ь*) имеем (используем тождество |ж| = х sign(;r))
а(х($)) — р(Ь*, г*, ь(^)) = Iг*1 + vl[t*] — sign(г*1 + vl[t*])(а + Ь)АЬ21 + г*2 + v2[t*] — аАЬ 1 — — 12*1 + vl[t *]| — г*2 — v2[t *] + (а + Ь)($ — I*) = = sign( г*1 + vl[t * ])(г*1 + vl[t *] — sign( г*1 + vl[t *])(а + Ь)Аг2) + + г*2 + v2[t *] — аАЬ 1 — sign( г*1 + vl[t *])( г*1 + vl[t *]) — г*2 — v2 [Ъ *] +
+ (а + Ъ)(д — г*) = (а + Ъ)АЬ2 — аАЬ 1 + (а + Ь)(& — и) = ЪАг 1 ^ Ъ(§ — г*).
В случае |г*1 + v1[t*]| ^ (а + Ь)(ч9 — Ь*) и |г*1 + v1[t*]| > 0 получим а(х(ч9)) — р(г*, г*, ь() =
О,
= + vl[tí^ — sign(z*l + vl[tJ)(a + Ь)АЬ 21 + + v2[tJ — аАЬ 1---Ь *1 + vl[tJ| =
а + о
= sign( г*1 + vl[t * ])(г*1 + vl[t *] — sign( г*1 + vl[t *])(а + Ь)А12) + + г*2 + v2[t *] — аАЬ 1 — г*2 — v2 ^ *] + а(§ — Ь*) —
—— sign( г*1 + vl[t *])( г*1 + vl[t*]) — г*2 — v2[t * ] + а(!9 — г*) = а + о
1---г |г*1 + vl[t*]| — ЪАЬ2 = —т I**1 + vl[t*]| — ЬАЬ2 ^
а + о/ а + о
^ Ь(§ — и — АЪ2) = ЬАг 1 ^ Ь(§ — и).
Если верно |г*1 + v1[t*]| = 0, то с учетом (2.51) выполняются соотношения
а(х($)) — р(Ь*, г*, ь(^)) = г*2 + v2[t*] — а(§ — и) — г*2 — v2[t*] +а(§ — Ь*) = 0 ^ Ь(§ — и).
Полученные неравенства влекут оценку (2.50). □
Из оценки (2.50) и леммы 2.1 следует, что для любых позиций (Ь*, г*) Е С, е > 0 и ие Е 8е (Ь*, г*) будут выполняться соотношения
гР(Ь*, г*) := т| ^(Ь*, г*, и) ^ гР(Ь*, г*, &) ^ Ь(§ — Ь*), (2.52)
гР (г *, г* ,и£) ^ Ъ($ — и)+ £, (2.53)
О Е *, г*). (2.54)
Эти соотношения говорят о том, что функция риска в задаче (2.39)-(2.42) мажорируется величиной Ь(д — Ь*), а приведенная стратегия является только лишь Ь(д — Ь*)-риек-оптимальной.
Рассмотрим взаимодействие построенных стратегий с «нейтральной» помехой. Зафиксируем конечный момент времени, начальную позицию и помеху:
$ = 2, (г*, г*) = (0, (—1, —1)), гй(-):=(1,0) Е О,. (2.55)
Помеху у(^) можно назвать «нейтральной», так как при отсутствии управляющего воздействия (и := (0, 0)) значение показателя качества в начальной позиции равно его значению в конечной позиции: а((—1, — 1)) = ст((1, — 1)), Таким образом, по отношению к показателю качества вклад данной помехи равняется нулю.
Оценим результаты, доставляемые позиционной стратегией и^) при Л = 1 и позиционной стратегией [/(•, е) при пропзвольном е.
В соответствии с определением (2,47) и выбранным значением параметра
тт, ч ((- sign(xi)(a + Ъ), 0), |a;i| > (а + Ь)(# - т), Ui(T,X) = <
\(0, -a), ^ ^ (а + Ь)(# - т).
Рассмотрим пошаговые движения х(•, 0, (—1, — 1), {и1, А}, ?;(•)), порожденные законом управления {и1, А} и помехой ) го начальной позиции (0, (—1, —1)). При измельчении шага разбиения А интервала [0, 2] эти движения будут сходиться в С([0, 2]; М2) к следующему движению:
Г(—1 + (1 + а + Ь)т, —1), т е [0,иг],
у(т) :=(У1(т),У2(т)) = < (у!(г*г) + т — г*ъ —1 — а(т — г*г)), т е [г*ъг*2],
{(У1^*2) + (1 — а — Ъ)(т — г*2), —1 — а(г*2 — ^)), т е \Ъ*2, 2],
где
2
г*1 = 1 — 2(а + Ь), АЪ2 = --т — 2Ь*1,
1 + а + о
2
1*2 = t*l + А2 = -—;-—~т — t*l,
1 + а + Ь
У1(и1) = —1 + (1 + а + Ъ)иъ У1^*2) = У1^*1) + АЬ2. Следовательно, для любого движения ж(-) е X(0, (—1, —1),и1,у(•)) будут выполнять-
ся соотношения
\2
а(х($))= lim a(x($,t*,z*, {Uo.5, A},v(-))) = а(у[2])
d(A)—0
г_2_(а + ЬУ'
1 + а + b
- 1 -
- 2а(а + b)1 + 2(а + = -2(а + Ъ)(2а + Ь \ (2.56) ^ ' 1 + а + b к ' V 1 + а + Ь) '
Если считать параметр b пренебрежимо малым то сравнению с параметром а, то при а, малом в сравнении с единицей, из (2.56) получим
max а(хШ ъ 0 (2.57)
с точностью до величин, имеющих более высокий порядок малости по отношению к а. Например, при а = 0.1, b = 0.001 из (2.56) получим
max а(хШ ъ -0.0406.
Рассмотрим пошаговые движения х(-, 0, (-1, -1), {U(-,e), Д},г)(-)), порожденные законом управления {U(-,e), Д} и помехой v(-). При измельчении шага разбиения Д они будут сходиться в С([0, 2]; R2) к движению
'(-1 + (1 + а + Ь)т,-1), г Е [0,t*i],
y[T,£]'-=(yi [т,£],У2[т,£]) =4 (-£аЪ + Г - t*i,-1 - а(т - t*i)), т Е [t*i ,t*2],
(Sab + (1 - а - Ь)(т - t*2),-1 - 2аеаь), т Е [t*2, 2],
где
t*l = -—--—т, At 2 = ab,
1 + а + b
, д _1+ Sob + 2еаЬ(а + Ъ)
t*2 = t*1 + At 2 = - ■ —; .
1 + a + b
Следовательно, будут выполняться соотношения
max a(x(ti)) = lim a(x(ti,U,z*, {(/(•, e), A},&(•))) = a(y[2, e])
x(-)EX (0,(-1-1),Ü(-,e),v(-)) d(A)^0
, ,л ^ fo 1 +£ab + 2£ab(a + b)\
+ (1 ~a - b){2--r+r+6—)
- 1 - 2 ae,
ab
(1 -а - Ь)[1 + a + " - ° ++- + fl + - 1+ M1 - 2a)
1 + a + b
(1 - <*)( 1 + (1 Ь)+\ +Ь)) - 1 + - 2a)> (2.58)
V 1 + a + b J
При достаточно малом £, учитывая, что а + b < 1, получим
max a(x(ti)) > 0. (2.59)
(0,(-1,-i),U(^e),v()
Например, при а = 0.1, b = 0.001, е = 0.00001 из (2.58) получим
max a(x(D)) ъ 0.0824.
Х^)ех (0,(-1,-i),U(^e),v()
Кроме того, используя необходимые условия для универсальной оптимальной позиционной стратегии [21], можно установить, что для любой универсальной оптимальной позиционной стратегии U и произвольного ( > 0 найдется помеха v^(•) G V, удовлетворяющая неравенству, аналогичному оценке (2.56):
max а(хШ ^ -2(а + Ь) (2а +---- )- (. (2.60)
хО)ех(o,(-i-i),u,vt(•)) v v п V 1 + а + bj v ;
с единицей, и при ( ^ 0 также будет выполняться приближение (2.57) с точностью до
а
Так как помеха была выбрана «нейтральной» по отношению к показателю качества, полученный результат оказался существенно меньше цены игры (2.44), имеющей для этой начальной позиции значение
р(0, (-1, -1)) = | - 11- 1 - (а + b - 1)(2 - 0) = 2 - 2(а + Ь). (2.61)
При этом значение оптимального результата (2.48) для выбранных начальной позиции и помехи равняется
р(0, (-1, -1),й(0) = | - 1 + 21- 1 + 0 - (а + Ь)(2 - 0) = -2(а + Ь), (2.62)
что значительно меньше гарантированного результата (2.61) и на величину порядка 2( а + )
Теперь обратимся к результатам, доставляемым оптимальными по риску стратегиями. В силу (2.52), (2.62) для любого е > 0 и любой стратегии Ue G S£(0, (-1, -1)) будет выполняться неравенство
max a(x(ti)) ^ р(0, (-1,-1), v() + 8(0, (-1,-1))+е ^ -2а + е. (2.63)
х(^)ех (o,(-i,-i),uE,v(•))
Для стратегии U (2,49) из (2,37) и (2,52) сразу получим
max а(хЩ ^ р(0, (-1,-1),и(-)) + 8(0, (-1,-1)) + 2b ^ -2а + 2Ь.
^(•)ех(о,(-1,-1),{7 ,v(•))
Кроме того, построив движения X(0, (-1, -1), U,v(-)), можно непосредственно установить неравенство
max а(х($)) ^ -2а. (2.64)
х(^)ех (о,(-1,-1),и ,v(•))
И при выбранных значениях параметров а = 0.^ и b = 0.001 из последних оценок следуют неравенства
max а(хШ)) ^ -0.2 + е, max а(хШ)) ^ -0.2.
x(^)ex(o,(-1-1),us,v(^)) х(^)ех (о,(-1,-1),и ,v(•))
существенно улучшающие аналогичные оценки для рассмотренных оптимальных позиционных стратегий [Д и U.
Рассмотренная задача оптимального управления (2,39)-(2,42) показывает, что е-оптпмальные по риску стратегии в общем случае отличаются от е-оптимальных позиционных стратегий, А именно, а(д - i* )-оптимадьная по риску стратегия U (2,49) не является а(д - t*)-оптимальной позиционной стратегией (см, утверждение 2,2),
Эта стратегия при указанных параметрах об, начальных условиях и помехе (см,(2,55)) дает результат (см, оценки (2,63), (2,64)), улучшающий аналогичные результаты для рассмотренных оптимальных позиционных стратегий (см, оценки (2,57), (2,59), (2,60)) па величину порядка а(д -1*). Этот же вывод в пределе может быть распространен на произвольную универсальную оптимальную стратегию.
Из полученных для стратегии U оценок риска (2,50), (2,53) видно, что при произвольной программной помехе она дает результат, отклоняющийся от оптимального результата па величину, не превосходящую Ь(д - t*). Следовательно, гарантированный результат TP(t*,z*, U) стратегии U при программных помехах не более чем на величину Ь(д - t*) превосходит оптимальный гарантированный результат TP(t*,z*, S) при программных помехах:
rF(t*,z*, U) ^ TP(t*, z*, S) + Ъ(§ - t*).
И если параметр b пренебрежимо мал то сравнению с параметром а, то при переходе от рассмотренных оптимальных позиционных стратегий к стратегии U происходит существенное улучшение результата на отдельных помехах при пренебрежимо малом ухудшении на множестве всех остальных помех,
3. Неулучшаемость по риску стратегий с полной памятью
Поскольку наименьшая из записанных в (2,1) величин — это оптимальный риск в классе квазистратегий, особый интерес представляют те функциональные ограничения на помехи и те условия, при которых соответствующий оптимальный риск в классе позиционных стратегий с полной памятью совпадает с оптимальным риском в классе квазистратегий. По аналогии с задачей оптимизации гарантированного результата
S
Далее определяется семейство [22] стратегий (Uе)е>0 С S и приводятся условия па управляемую систему (1.1), для которых (при е ^ 0) риск стратегий из этого семейства при Lp-компактпых ограничениях на помеху стремится к величине минимального риска в классе квазистратегий.
Стратегии (Usе)е>о при формировании управления симулируют движение вепомо-
модели, на малом завершающем участке предыдущего интервала разбиения в управлении исходной системы (1.1) используется специально выбранная серия тестовых управляющих воздействий. По наблюдениям за соответствующими реакциями управляемой системы решается обратная задача динамики [23,24] — строится аппроксимация помехи, реально действующей в управляемой системе (1.1). Эта аппроксимация принимается
ние (см. [3]), экстремальное ко множеству траекторий системы, порожденному риск-оптимальными квазистратегиями. Выбранное таким образом управление используется и в «реальной» управляемой системе (1.1) па всем интервале разбиения, за исключением завершающего «тестового» участка. При подходящим образом согласованном уменыне-
еходитьея в С(Т; Мга) к риск-оптимальным движениям, порожденным квазиетратегия-
сходимость обеспечивает близкие к оптимальным значения критерия Ниханеа-Сэвиджа на движениях управляемой системы и, как следствие, искомые свойства семейства стратегий (USe)e>0-
3.1. Определение стратегий Uе
Перейдем к формальному определению стратегий Uе- Как указывалось, в них участвуют «целевые множества», построенные из риск-оптимальных движений, порожденных квазистратегиями, которые мы обозначим W(ж(t0),v(-)). Эти множества зависят от восстановленной помехи v(-): для всех z Е G0, т ЕТ, у(-) Е С([t0, т], Rn) и v(-) Е V положим
W(z,v(-)):= р| ele№){ U ^t0,z,a(v(-)),v(-))}. (3.1)
е>0 rQ (z,a(^))4,
<rQ (z)+£
Определим также проекции w(-|т, у(-), v(-)) движений у-модели на эти множества: для всех т еТ, у(-) Е С([t0, т], R) и v(-) Е V
^V(-),v(-)) Е argmin - уОНса^т],»»). (3.2)
W(^)ew (y(to),v[tQ ,T](0)l[to,r ]
vv
для произвольных t\, t2 Е Т, ti ^ t2 и функции h(-) : [ti, t2] М H символы h[tl,t2](') обозначают следующую функцию из Т в H:
(h(t i), ТЕ [t 0, h],
h[ti,t2](r):= <h(t2), ТЕ [t2,$], (3.3)
Щт), тЕ [U, h] U [t2,ti].
Замечание 7. Операция (3.3) обладает следующими свойствами:
— сохраняет свойства ограниченности, монотонности, непрерывности, абсолютной непрерывности или измеримости, если ими обладала исходная функция;
— не сохраняет класс эквивалентности измеримых функций: расширения двух измеримых функций из одного класса эквивалентности могут оказаться в различных классах эквивалентности;
— удобно взаимодействует с операцией сужения ■l\t1fy]'-
h[ti ,t2]()l¡ti,t2 ] = h()l¡ti,t2 h (h()l[ti,t2])[ti,t2] = h[ti,t2 ](■).
Выберем и зафиксируем некоторое значение параметра точности е из интервала (0,1),
Обозначим (u£)jel..n£ некоторую е-сеть в компакте V — произвольное конечное подмножество из V такое, что supuepmin jel.n£ \\и — и£\\ ^ е.
Пусть А := (Tt)teo..^ — разбиение интервала Т. Без ограничения общности рассуждений будем считать, что для разбиения А выполняется неравенство D(A) / d(A) ^ 3. При
А
А
А
в выбранное подмножество, не изменяют значение стратегии). Обозначим
т[ := тг — ed(A), ге 1..(пА — 1), (3.4)
Т
т'г1 := т[ + j(n — 4), je 0..пе, ге 1..(пА — 1) (3.5)
пе
(благодаря (3.4) т^ е (rt-l, тг]), и для произвольного хО е С(Т; Rn) зададим величины
х( Tii) — х( тга п)
dij Ш):= Уч; — ' t(3-l)j, je 1..п£, ге 1..(пА — 1). ТИ rt(j-i)
Зафиксируем некоторые и* е*Р, v* е Q и определим обратную связь с полной памятью U^ = (UA())teo..(пд-1) на разбиении А индуктивно. База индукции: для всех х0(-) е С([t0, т0], Rn) положим
yo(To) = Xo(To), vo := v*, uo := и*, (3.6)
ийЫШ= Ь * l ^Tl)' , (")
{и£, [тl(j-l), Tlj ),J е 1.. п£.
Шаг индукции: если при некотором г е 1..(пА — 1) для всех хг-1(^) еС ([to, rt-l], Rn) определены значения UAi-l)(xt-l (•)) и элемент ы yt-l() = yt-l( ,хг-1()) еС ([t o, тг-1\, Rn), vt-l = vt-l(хг-1(^)) е Q, то для любого хг() е С([to, Тг], Rn) определим yt() как продолжение на [ to, тг] элемент а yt-l(•) е С ([ to, rt-l], Rn):
уг(т) = yt-i( Tt-i^t^1^-^ +
+ / f(t, Уt(t), uААt-l(xt(•)|[^,ri-1])(rt-l),Vt-l(xt(•)|[^,Ti_l]))dt, те [т.t-u Tt], (3.8)
положим
Vt е argminmax \\dtj (х^)) — ¡(т^х^)^, w)\\, (3.9)
veQ jei..ns
ut е argmin(yt( Tt) w( n 1 Tt, Уt(•),v^T0,Ti](•)), f( Tt, yt( Tt),u,vt)), (3.10) uer
UA (хг(Ш):={и: H [^ ^ , ^ (3-H)
u££, t е [T[t+l)(j-l), T(t+l)jЭ е 1./п£.
Здесь использовано обозначение для реализации помехи, восстановленной в процессе управления:
у{г):= ук, гет. (3.12)
Время t
Рис, 7, Схема работы стратегии Uе
Понятно, что к моменту т. эта реализация известна на промежутке [ro, т..], чего достаточно для построения.
Обратная связь с полной памятью на разбиении A G Ат определена. Тем самым определена и стратегия U := (и^)дедт, В присвоениях (3,11) первая строчка определяет действия управляющей стороны по минимизации риска, вторая — по идентификации помехи.
Иллюстрация предлагаемой схемы управления приведена на рис, 7, Для любых (t,х,и) GT х Мга х V обозначим Qtxu фактор-множество множества Q, порожденное отношением эквивалентности ~ :
txu
(v! ~ v2) & ( f(t, х, и, Vi) = f(t, х, и, V2)). (3.13)
txu
Теорема 3.1. Пусть фактор-множества Qtxu не зависят от х:
Qtxu = Qtx'u для, всех и gV , (t ,х), (t ,х') G G. (3-14)
Тогда, при всех zo G Go справедливы, равенства,
rQ(zo) = гр(zo) = rcAR(zo) = rc(zo), Zo G Go; (3.15)
стратегии, (Us£)£>0, заданные выражениями (3.1), (3.2), (3.6)-(3.11), удовлетворяют равенствам,
limsup rc(zo, U£) = rQ(zo), zo G Go. (3.16)
£—^0
Замечание 8. Приведем пример семейства систем, удовлетворяющих условиям теоремы 3.1: пусть управляемая система (1.1) имеет вид
x{t) = gi(t, x(t),u(t)) + g2(t, x(t),u(t)) ■ h(t, v(t)), (3.17)
где д2(-) — матрица-функция размерности п х т, д\(-) — вектор-функция (столбец) размерности п, h(-) — вектор-функция размерности шив дополнение к указанным в п. 1.2 свойствам при всех t Е Т,и Е V ядро линейного оператора g2(t,x,u) : Rm м Rn не зависит от ж Е Gh-Тогда система (3.17) удовлетворяет условию (3.14).
3.2. Риск-оптимальность стратегии Us£
Здесь и далее dH(A,B) обозначает хаусдорфово отклонение между множествами А, В С X в метрическом пространстве X:
d%(A,B) := supinf \\а - b\\x;
аеА ьев
кроме того, для произвольной функции (0,1] х (0,1] хТ э (8, 8', т) м h(8, 8', т) Е Rn обозначим
lim h(8, 8', т) := lim h(8, 8', т).
S,S'—+0 s+s' ^+0
6,6'>0 т-б,т+бет
Лемма 3.1. Для, любых с Е [1/2, w(-) EV и п.в. т Е Т верно равенство
lim
а,Ь—ут a,bET
sup
uer
= 0. (3.18)
(b — a)-1 J f(s, x(s),u, v(s)) ds — f(т, х(т),и, v(t))
) x(.)eX(G0) [„,Щ
Доказательство. Для всех x(-) E X(G0) справедливо неравенство
sup ||х(т) — x(s)\\ ^ k(G)It — si, (3.19)
s,t ет
где к( G) < как прежде, задана в (1.4).
Выберем произвольное е > 0. По теореме Лузина [17, гл. 4] существует замкнутое измеримое множество Е£ <ZT такое, что
Х(Т\Е£) ^ е, v(-) EC (Е£, R). (3.20)
Здесь Х(Т\Е£) — лебегова мера множества Т\Е£.
Из непрерывности правой части уравнения (1.1) в области G xVxQ, компактности этой области и соотношений (3.19), (3.20) следует, что функция
Е£ э sm f(s, x(s), и, u(s)) E R
равностепенно по и E V, х(-) E X(G0) равномерно непрерывна по s E Е£, то есть существует функция р£(-) : (0, м (0, зависящая от множества Е£, такая, что
\ims^£(8) = 0 и
sup || f(s,x(s),u, v(s)) — f(r,x(r),u, v(r) uer
x(-)ex(G0)
S,T EES
^ Veils — tI).
(3.21)
Для всех a,b,r E T, a < b имеем неравенства
sup
uer
x(-)EX(G0)
f(s,x{s),u, v(s))
b — a
ds — f(r,x(r),u, v(t))
a, b]
sup
uer
x( • )EX(G0)
f(s,x{s),u, v(s))
ds —
f(T,x(T),u, v(r)) b — a
ds
a, ]
[a, b]
<
^ sup (b — a)
uer
x( • )EX(G0)
s,x(s),u, v(s)) — f(r,x(r),u, w(r))|| ds.
[ a, ]
Разложим последний интеграл в сумму двух, используя множество Ее, и применим к первому слагаемому оценку (3,21) (продолжаем выкладки):
= sup - а)- / V M'UM')) - firMrUMrMds +
иет ^ J
x(-)eX(G0) [а,Ь]ПЕЕ
+ (b - a)-1 f If (s ,x(s),u, v(s)) - f( t,x(t),u, u(t))|| ds } ^
AW, Ь] \Ее)
-1
[а, b]\ Es
^ pe(max{la - rl, lb- r} + 2k(G)-
b — a
Выберем и зафиксируем произвольное с € [1/2, + го). Пусть Е'е — множество точек плотности множества Е£ (см. (7.5), с. 87). Из замкнутости Ее еледует Е'е С Е£. В силу теоремы Лебега о точках плотности (см. теорему 7.2, с. 87) для Е£ также верно неравенство Х(Т\Е£) ^ е.
Пусть дополнительно т € Е£. В силу выбора т имеем оценки
lim sup ||(6 - а) / f(s ,x(s),u, v(s)) ds - ¡(t,x(t),u, г>(т))|| ^ иет J
x(-)eX(Go) [a,b]
a,b—ут
^ lim ps(max{la-rl, lb - rl}) + 2k(G) lim (l - ЩЗ^ЗеА = o.
a, b^r a,b—T\ b — a J
а,Ье1с(т)ПТ \ '
Мы показали, что мера множества точек т € Т, в которых равенство (3.18) может не выполняться, меньше любого наперед заданного числа е > 0. Значит, это множество имеет нулевую меру Лебега. □
Лемма 3.2. Существует монотонная функция
рД) : [0, ^ [0,
такая, что Ишрр(5) = 0 и для любы,х г, х' € С0, ь(^), V1 (•) € V выполнены неравенства,
\р(г, <)) - р(г', г/(-))| ^ »Дг - А\ + / »(^(¿0 - ^)\\)^). (3-22)
т
Доказательство. Пусть х,х' € С0, и(^) € Ы, ь(^),ь'(^) € V. Обозначим х(^) := х(•, Ь0,г,и(^), ь(^)), х'(•)'■= х(•, х',и(^),ь'(•)). Тогда из неравенств
\\х(т) -X(т)\\ ^ \\г-т>\\ +
т
+ ! \\ 1( 8 ,х(S),U(S), У(в)) - ¡(в +
т
+ \\в,х(8),и(8),и'(8)) - ¡(8,х'(8),и(3),ь'(3))^3 ^
to
^ J pv(Iv(s) -v'(s)II)ds +j Lf(G)||x(s) -x'(s)||ds
o o
и леммы Гронуолла [15, е, 219] получим оценку
)(Х (г, и, у(^)),Х (г', и '(•)))
<
<
- г'\\ + р.(\\г;(з) - у'(з)\\)(1з)(1 + Ь;(С)($ - ехр(Ь;(С)($ - Щ
т
:= К(\\г-т>\\ +у р,(\\у(З) -У'Ш^З), т
справедливую для всех г, г' € С0,у'(^),у'(^) € V. Из включения Х(С0) € сошр(С(Т; Мга)) и непрерывности в С(Т; Мга) функционала 7 следует существование монотонной функции ру (•) : [0, +го) м- [0, + го) такой, что Ишру= 0 и
\7(х0) - о(х'(•)) ^ р-(\\х(0 - х'(•)\\с{тт), х(^),х'(•) € Х(Со). (3.23) Из последних двух оценок получим искомое неравенство:
\ р(г, у(•)) - р(г',у'(^))\ ^ р- (К (\\г - т>\\ + / р. (^ (а) - у'(з)\\)(1з )) :=
т
:= Рр(Ь-^\\ ^У рь(\\ь(з) - г/^^б^.
т
□
Лемма 3.3. Существует монотонная функция рГч(•) : [0, +го) м [0, +го) такая, что ИшгрГч (8) = 0 и для всех х, х' € С0 выполняется, неравенство
(г) - г,(^ (\\г-А\). (3-24)
Доказательство. Следуя оценкам (3.22), можно для произвольных г,г! € С0, а(-) € Q и у(^) € V проверить неравенства
\\хО -х()\с(тт < к\\г-т>\\,
в которых
х(^) := х(•, Ь0,х,а(ь(^)), ь(^)), х'(•):= х(•, Ь0,г',а(ь()), ь(^)). Отсюда с учетом неравенства (3.22) получим
\Ъ(х(^), у(•)) - Ъ(х'(•), <))\ ^ ру(К\\г - г'\\) + р(\г - г'\\) = 2р-(К\\г - ¿\\). Из последнего неравенства следует требуемая оценка (3.24):
^(г) - гч(г')\ ^ 2 ру(К\\г - г'\\) := рГч(\\г - г'\\), г, г' € С0.
□
Лемма 3.4. Для любых г € С0, ь(^) € V множество № (г, ь(^)) не пусто, компактно в С(Т, Ега), изменяется полунепрерывно сверху по включению при изменении параметра, г € С0 и удовлетворяет соотношениям,
шах ув(т(^), у(^)) = гя (г), (г)\^, г € С0, (3.25)
™(*, <))\Цо,т] = ™(*, (^,у')Д))\1г0,т] (3-26)
для, всех т € Т, ь(^),ь'(•) € V.
Доказательство. Множество W(z, v(-)) не пусто в силу определения: множества, стоящие под знаком пересечения в (3,1), не пусты, замкнуты в С(Т; Rn), монотонны (в емые-
жеетве X(G0) Е comp(C(Т, Rn)), Следовательно, их пресечение не пусто и компактно С( Т; R n)
Соотношения (3,25) следуют из определения множества W(z, v(-)) и непрерывности функционала качества 7^), Также на основании непрерывности функции риска rQ(■) (лемма 3,3) стандартными рассуждениями проверяется свойство полунепрерывности сверху по включению отображения
Go ЭгмЖ(z,<)) Е 2е(т;Rn).
Свойство (3,26) неупреждаемости множеств W(z, v(-)) есть следствие неупреждае-мости движений, порожденных квазистратегиями, □
3.2.1. Доказательство теоремы 3.1
Первая часть теоремы, в силу неравенств (2,1), следует из второй части. Таким образом, для доказательства теоремы достаточно установить (3,16),
1, Для произвольно выбранных и зафиксированных е > 0 z0 Е G0, v0(-) Е V и движения х0(-) Е X+(z0, U^ek, {f0(-)}) в силу определений найдется последовательность
(Z0 к, vk (■), А к, U^ )fc€N CG0 xV х Ат х USe
такая, что lim к—ж z0к = z0, limk^^ D(Ak) = 0 и выполняются условия
lim \\x0O - Хк(■)\c(T;R") = 0, (3.27)
к—ж
lim \\- ЬкOWl^r») = 0, (3.28)
к—ж
в которых Хк(■):= х(■, г0к, Ugek, Ьк(■))■
Из условия (3.28), в силу известного утверждения о сходимости по мере измеримых функций [15, теорема 1.4.18], и при необходимости переходя к подпоследовательности, получим соотношения
lim к( ) = 0( ) Е Т.
к—ж
Для всех к Е N обозначим ик(■) := и(■, г0к, U^ek, ук(■)), а также дополнительные моменты (3.5), участвующие в определениях (3.7), (3.11):
ткг,:= ткг + 3 (Ткг - Ткг), 0..пе, i Е 1..(пАк - 1), (3.30)
J Пе
где т'ы := Ткг - £^(Ак).
Ук(t) = %0к + j f(S, Ук(S),ик(в),Ук(s))ds,
^к (t):= ьЫ1, ик (t) := и^, ЬЕТ, кЕ N, и соответствующие проекции этих движений на множества W(■):
WH(■■) Е argmin \\W0 - Ук()\\с([to^R"). (3.31)
W()ew (хк (t0),(vk )[t0,Tki+))\[t0,Tki]
Здесь величины ищ заданы выражениями (3.9), (3.10) для разбиения Ак.
Для любых (Ь,х) € Т х Мп и выбранной е-сети (и£)j£l..nE, введем фактор-множество 0,1х£ множества порожденное отношением эквивалентности ~:
Ь%£
(VI ~ & ((^1 € 1..Пе) ¡(г ,х,и£, VI) = ¡(г ,х,и£, Ь2)).
Для выбранных х0(•) € Хс(г0, и£), г>0(-) € V и любого Ь € Т обозначим через д£, классы эквивалентности, удовлетворяющие соответственно отношениям
У0^) € д'£ € , Ъ0(Ь) € € 0,гх0^)и.
При этом для всех Ь €Т, конечно, выполнены равенства
= П $ ■ М
2. Для всех к € N т € Т оценим разницу ук (т) - хк (т)\
т
Ук (г) - хк (т) = ! [¡(в, Ук (э),Щ (в),Ьк (в)) - ¡(в ,хк (э),Щ (в), Ук (в))] ¿в =
т
= J [!( 5, Ук ( 5 ),ик (в),Ьк (в)) - ¡(в ,хк (в),щ (в),Ьк (в))] ¿в +
т
+ J [/(в ,хк (в),Щ (в),Ьк (в)) - ¡(в ,хк (в),щ (в), Ук (в))] ¿в.
Воспользуемся свойством липшицевости правой части уравнения (1.1) (продолжаем оценку):
т т
^У Ь{ (С)\\ук (в) -хк (з)| № + ! ||/(з ,хк (э),щ (э),щ (в)) - ¡(в ,хк (э),щ (в), Ук (з))||а!з
(здесь Ьf (С) — константа Липшица правой части }'(•) системы (1.1) по второму аргументу в области С), Представим второй интеграл суммой двух интегралов, используя множество
М£ := У [Т'кг, Ъг)
г^1..(пА к-1)
и тождества ик(в) = ик(в), в € Т \ М£, к € N (продолжаем оценку):
т
^УЬf(С)\\Ук(з) -хк(5)\+
о
+ У \ \ ¡( в ,хк (э),щ (в),Ук (в)) - ¡(в ,хк (э),щ (в), Ук (з))||^ +
^ 0, т ]\Ме
+ \ \ !( 5 ,хк (8),ик (8),Ук («)) - ¡(8 ,хк (8),ик (з), Ук (¿0)||^.
М
£
Во втором интеграле воспользуемся непрерывностью правой части уравнения (1.1) по последней переменной, а в третьем — мажорантой к( G) (см. (1.4)) (продолжаем оценку):
т
^ j Lf (G)Ilyk(s) -xk(s)||ds +
+ J Il f( S ,Xk (s),Uk (s),Vk (s)) - f(s ,Xk (s),Uk (s), Vo (s))||ds +
[t о, т ]\Me
+ j Pv(|Vo(s) - Vk(s)||)ds + 2k(G)X(M£). (3.33)
[t 0,т ]\ Ms
Во втором интеграле воспользуемся непрерывностью правой части уравнения (1.1) по третьей переменной (продолжаем оценку):
т
^У Lf (G) Il Vk (s) -Xk (s)||ds +
+ J H Я S ,xk (S),Uek (S),Vk (s)) -f (S ,xk (S),Uek Vo +
[t о, т ]\Ms
+ j Pv(||Vo(s) - Vk(s)||)ds + 2(iï - to)tiu(e) + 2K(G)\(Me) ^ (3.34)
[t о, т]\ Ms
^ j Lf(G)\\yk (s)-xk (s)\\ds + J ßv (dHq ({Vk(s)}, q:l[s)))ds +
to [t 0,T ]\ Ms
+ j Pv(\\Va(s) — Vk(s)\\) ds + 2(iï — to)ßu(e) + 2x(G)X(Ms), (3.35)
[t o,r ]\ Ms
где u£k(s) G argminje1 n \\uej — uk(s)\\; по определению е-сетп в V, выполняется нера-
g aib111111jei..n£ n^j
fk ( S ) - Uk (s) \\ ^ S\ rH^WlVXiTvni^ lipuûcpni O, y ПКЦПИ Uk (
измеримыми; ßu(•) — модуль непрерывности f(^) по третьему аргументу:
венетво \\u£k(s) — uk(s)\\ ^ e; несложно проверить, что функции u£k(•) можно выбрать
ßu(8) := max \\ f(r,x,u, v) - f(r,x,u', г>)\\, lim ßu(8) = 0
|u —-u'I^S ¿ — +0
(т,х)еа vGQ,u,u' G~P
Используя неравенство Х(Ме) ^ e(i) -10) и соотношение (3.32), связывающее множе-
uk(s) е ства qsk ч qe, получим оценку
т
\\Ук(т) - Хк(т)\\ ^ J Lf (G)\\Ук(s) - Хк(s)\\ds + Ъгк, (3.36)
где
Ф1к := J [»V (dJHq({^к(s)}, qe)) + ßv(\\Ук(s) - ^(s)\\)] ds + 2($ - t0)[ßu(e) + v(G)e]. т
Применяя к (3.36) лемму Гронуолла [15, теорема II.4.4], окончательно получим:
\\Ук (г) - Хк (т)\\ ^ Ф1к (1 + ($ - h )Lf (G) exp(($ - t0 )Lf (G))). (3.37)
Лемма 3,5, При любом £ Е (0,1) дм п.в. т еТ выполняются равенства
lim dHq({vk(г)}, fi) = 0.
k—>оо
(3.38)
Доказательство. Для всех к Е N, j Е 1..nT и г Е [rk1,i9] обозначим
Хко(-) := x(-, to, Zok,Uk(■), vq(-)),
Dkj(r):--
Хк ( r'ki Tj) xk ( Ты т (j-1)) ~r' - t'
kiT] Ыт (j-1)
f( S ,Xk (s),Uk (s), Vk (s)) t' - T'
kiт] Ыт ( j-1)
d s.
' Ыт (j-1)
Для дальнейшего заметим, что в принятых обозначениях при всех к € N 3 € 1..п£, Т
Uk (Т) = '£, Т Е [т'Ыт (j-1), Tk^j),
Vk (г) Е argmin max | | Dkj(r) - f( тЫт ,Xk (тыт ),u£, v) veQ jei..ns
Кроме того, в еплу еходимоети (3,28) выполняется равенство
lim | | Xk(■) - Xko(^)IIc(тr) = 0.
1, Оценим величину
dkj(r)-f(т, xk(t),u£, vk(t))
Ыт j
' Ыт (j-1)
f(S ,Xk (S),UT, Vk (s)) £
-ds-f (т, Xk(t),U£, Vk(t))
k т - k т( -1)
Прибавим и вычтем в подынтегральном выражении величины
f( s ,Xk (s),u£, vo(s)) f(s ,Xko(s),u£, Vo(s))
k т - k т( -1)
'Ыт j 'Ыт (j-1)
и f(r,xk0(r),u£, v0(t)) (продолжаем оценки):
f( s ,Xk (s),u£ , Vk (s)) - f(s ,Xk (s),u£, Vo(s))
ыт] Ыт ( j-1)
ds +
' Ыт (j-1)
+
f(s,Xk(s),u£, Vo(s)) - f(s,Xko(s),u£, vo(s))
k т - k т( -1)
ds +
' Ыт (j-1)
+
f(S, Xk0(s) , Vo(S))
-ds - f(T, Xko(r),U£, Vo(r))
Ытj Ыт ( j-1)
+
' W (j-1)
+ I I f(T,Xko(r),u£, Vo(r)) - f(т, Xk(t),u£, Vk(т)
Обозначим (■) модуль непрерывности f(^) по четвертому аргументу:
(5):= max Hf(t,x,u, v) - f(t,x,u,v')
|v-v'|< S (т,х)еа uev,v ,v! gS
lim uv(8) = 0,
<5^+0
и воспользуемся свойствами равномерной непрерывности и липшицевости правой части системы (1.1) в области С х V х О, (продолжаем оценки):
< I Уу (I Ук (8) - ^¿ОЮ + Ь1 (С)\\хк (в) - Хк0 (в)| ^ +
' кгт 0-1)
кгт] Ыт (з-1)
+
в,хко^^^ Ъо^
' -ав - Кт,Хко(т),щ, Ьо(т))
кг т] кг т (з-1)
+
+ ЬГ (С)\\Хк (т) -Хк0 (т)\\ + Уу (\\Ук (т) - Ьо(т)
<
<
кгтЗ
' кгт и-1)
в,хко^^^ Уо(8))^
-ав- К Т, Хко (т), и^, Ьо(т))
кгтj кгт (з-1)
+
+
Уу (\\Ук (в) - Уо(в)
т' - т'
кг т] кг т (з-1)
-аз + 2ЬГ(С)\\Хк(•) - Хко0\\с(Т;К") +
+ Уу (\\Ук (г) - Уо(т)
Таким образом,
®кз (г) - !(Т,Хк(т),и£, Ук (т))
<
<
{(в, Хко(з),и£, Уо(з))
п , ^ ь 3, ( )-аз - ¡(т,Хко(т),и£, Уо(т)) +^2к3 (т), (3.39)
кг тЗ кг т (з-1)
где
Ф2 к3(т)
Уу (\\Ук (в) - Уо($)
т' - т'
кг тЗ кгт (з-1)
а +
' кгт и-1)
+ 2Ь} ( С)\\Хк (•) - ХкоО\\с(Т;М") + Уу (\\Ук (г) - Уо (т) \ \). По определению (3.30) дополнительных моментов т'кг и-1), Тыт] выполняются соотно-
шения
тах{1 ткгт(3-1) - Т11 Ткгтз - т|} = т- Ткгти-1) < £ ¿(Ак)+D(Аk),
к к
е^Ак)
П£
т еТ, ке Н, з е 1..пе,
из которых для всех т еТ, к е N 3 е 1..п£ следуют неравенства
тах{| Т'кг т (3-1) -Т1 1 Т'кг тЗ -Г|} < П£(£с1(Ак)+ЩАк)) <п Г+3 N _ ТкгтЗ - Т'кгти-1) < £А(Ак) <П£\ Ч'
= сЕ е [1/2, +ж).
кгт3
кгт (]-1)
кгт3
кгт 0-1)
кгт 3
кгт 0-1)
тЗ
Таким образом,
т'кт(3-1^ т'кгтз € ^ (т) , Т € ^къ^ к € 3€ 1..П£. Из этих соотношений в силу леммы 3,1 при п.в, т €Т получим сходимость
(3.40)
lim max
kiTj
' kiT (j-1)
f(S, Xkq($) , U£ , vq(s))^
• -ds- f( T,Xk0(T),U£, vq (t))
ktT j kiT ( j-1)
0.
(3.41)
Понятно, что из сходимостей (3.27) и (3.29) получим сходимость к нулю второго и третьего слагаемых в Ф2 ^(т) ПРИ п.в, т €Т и к м го. Оцепим первое слагаемое.
В силу теоремы Егорова для произвольного £ > 0 найдется измеримое подмножество Е% С Т такое, что \(Т\Е%) ^ £ и на множестве Е% имеет место равномерная сходимость
lim 11 Vk(•) - Vq(^) 11 c(esr) = 0.
(3.42)
Обозначим через Е'%£ множество точек плотноети при параметре с:= с£. В силу свойств таких множеств (см. теорему 7.2, с. 87) будет выполняться неравенство \(Т \ Е'%£) ^ Оценим первое слагаемое в Ф2 к^(т) при т € Е'%£ и к м го:
kiTj
lim
k
lim
k—<x V
ßy (II Vk (s) - Vq(s) t' — r'
klt3 klT ( j-1)
[
kiT (j-1)' kiTj
T'k Ti ]nEi
ßy (II Vk (s) - Vq(s) t' - t'
klt] kiT (j-1)
-ds +
[ -k
kiT (j-1)' kiTj
■<1 Tj Ш
ßy (II Vk (s) - ttp(s)|
t' - T'
klt] kiT (j-1)
-ds) €
€ ^(ßy (I Щ () - ^^ ^ (E^,Rq)) + ßy (I Vk (•) - ^ (T,Rq ^ (l - ' _ '
— <X Tkl T3 Tkl T (j-1)
A([rLTv-ty rLJ ПЩ)
В последнем выражении первое слагаемое стремится к нулю благодаря (3.42), а второе — в силу оценок (3.40), выбора т Е Е'^£ и определения множества Е'^£. Мы показали, что для всех т Е Т, за исключением множества точек сколь угодно малой меры, имеет место сходимость
lim kj(r) = 0. (3.43)
k—^^о
Отношения (3.39), (3.41), (3.43) при п.в. т еТ ведут к равенству
lim max
k—те j£l..nE
Dkj(r) - f(т, Xk(t),u/£, Vk(т))
0,
(3.44)
из которого опять в силу сходимостей (3.27), (3.29) и равномерной непрерывности правой части (1.1) в области С х V х О, следует равенство
lim max
k—<X jel..ns
Dkj(r) - f(t,Xq(t),u/£, Vq(t))
0 Е Т.
(3.45)
2. Из непрерывности функции т,х,и, V) в области С х V х О, и равностепенной по к € N непрерывной зависимости решений хк(•) от т € Т следует существование функции ф(^): (0,1) м (0, +го) вида
ф(6):= вир \\1(т',хк(r'),и, V) - /(Т,хк(т),и, V) \\ ^ Ф(\Х
иЕТ ,ъЕО,,к&] т,т'ет,\т-т
Т kiT (j-1)
и такой, что lim<5 —+0ф(5) = 0. Отсюда при любом к E N и т ET получим неравенства
max HDkj(r) — f(r,xk(T),uej,'uk(т))|| ^ jei..n£
^ max HDkj(r) — ¡(тЫт,xk(тЫт),uj,Vk(тЫт))|| + фЦт — тЫт|) ^
jei..ns
^ min max HDkj(r) — f( тЫт ,xk (тЫт ),uj, w))|| + фЦт — тЫт |) ^ veQ jei..ns
^ min max HDkj(r) — f(r,xk(r),u£j, w))|| + — тЫт|) ^
veQ jei..ns
^ max HDkj(r) — f(r,xk(r),uj, Vk(т))|| + 2ф(1т — тЫт |). (3.46)
Первое неравенство опирается также на тождество vk (т) = vk (rkiт), т E T, к E N (см. (3.12)). Т
Из (3.44), (3.45), (3.46) и еходимоетей (3.27), (3.29) при п.в. т ET следует соотношение
lim max k—ж jei..ne
f( т, xo (т), uj, vq(t)) — f( t, xo (t) , uj ,Vk (t)) =0. (3.47)
Из равенства (3.47), используя рассуждения от противного, получим искомое соотношение (3.38): пусть для момента т ET выполняется равенство (3.47), а (3.38) не верно. Тогда найдется подпоследовательность (vkl(т))¡eN такая, что
lim vkl (т)= V E Qer. (3-48)
i—ж
Из непрерывности f(^) и (3.47) при всех j E l..ne получим равенства
f(T,xo(r),ur, vo(r)) = f(т, xo(т), uj v), из которых, в свою очередь, следуют отношения
V ~ Vo(r), j E 1..Пе,
тхо (т)п^
эквивалентные в совокупности (см. (3.32)) включению v E qj, что противоречит (3.48). Соотношение (3.38) установлено. □
Из (3.29), (3.38) и неравенства (3.37) получим оценку
lim ||yk(т) — xk(т)Цс(TR) ^ Фе, (3.49)
Фе := — to)[l + ($ — to)Lf (G) exp(($ — to)Lf (G))](ßu(e) + k(G)e).
lim sup 7(yk(•)) ^ p(zo, Vo(•)) + rQ(zq) + Фе, lim Фе = 0, (3.50)
k—ж e—+0
то, с учетом (3.27), (3.49) и непрерывности в С(T, Rn) показателя качества '"/(•), получим оценку
фо() ^ р(Zo, Vo() + rQ(Zo) + Фе + Фе. (3.51)
Так как в оценке (3.51) элементы г^-), x0(^) были выбраны произвольно, то будут выполнены и соотношения
sup (x(•)) — р(Zo, v(^))} := rc(Zo, U) ^ rQ(Zq) + Фе + Фе,
v(-)ev
x(-)eX+(z0,Us,{v(-)})
которые в совокупности с неравенствами (2,1) эквивалентны искомому равенству (3,16), что завершает доказательство,
4, Проверим выполнение (3,50), Для всех к Е N и(^) Е U обозначим
Xq(^) := х(•, to, Zq,и(•), vq(•)), xvk(•) := x(•, to, Zok,и(^),щ(•))
и воспользуйся неравенством
I I xkO - xkOIIc(tR) € Ф£Ы(1 + (9 - to)Lf (G) exp((9 - to)Lf (G))), §£k : = 11 Zok - ZqI I +У ßy(d^q({Vk(s)}, сi£))ds + 2(i9 - to)ßv(e),
T
из которого следует оценка
lim sup sup 11 x(•, to, Zok ,и(^),щ (•)) -x(•, to, zq,u(•), wo(-))I Ic (tr) € §£,
Ф£ := 2(9 - to)ßv(£)(1 + (9 - to)Lf (G) exp((9 - to)Lf (G))). Эта оценка даст соотношение для значений оптимального результата (1,27):
lim supp( Zok ,Vk (•)) € p( zq, Vq(^)) + ßj ф):= p( zq, Vq(^)) + Ф£. (3.52)
k—<x
Здесь ßy(•) — модуль непрерывности функционала 7 на компакте X(Gq):
ßj(ö):= та* Ь(x(^)) -7(УШ.
X(:),y(:)eX(G0)
II^O-yOlIctT ;En)
lim d%(Tm({Vk(•)}, W(xk(to),Vk(•))) = 0. (3.53)
Доказательство этого равенства следует схеме рассуждений из утверждения (см. [3, лемма 96.1, с. 432]). Справедливость (3.53) (так же как и справедливость оценки [3, (96.10), с. 434]) опирается на два факта, которые имеют место в рассматриваемом случае:
— наличие оценки расхождения управляемой системы (1.1) и решения подходящего дифференциального включения при экстремальном прицеливании;
— выполнение для движений w(^) Е W(zQk,vk(•)) дифференциальных включений
w(t) Е Tv( r,w(r),Vki) для п.в. те [ты, Tk(i+i)] (3.54)
(в силу их определения (см. (3.1), с. 42) и теоремы 7.3). Из чего следует, что любое продолжение w(^) Е W(zQk,vk(•)) движения wki(•), определенного в (3.31), будет удовлетворять включению (3.54) с начальным условием w(ты) = wki(ты) (специфическая замена свойства u-етабильноети множества W),
Сформулируем упомянутую оценку расхождения в действующих обозначениях: при всех к Е N и iE 0..(к - 1) для любого решения w*(^) Е С ([г*, т* ], Rn) дифференциального включения
w *(т) Е Ти( T,w*(T),VH) для п.в. Т Е [ТЫ, Tk(i+l)], /0
( \ i \ w*( Tki ) = wki ( Tki )
{
справедливы соотношения
I I w*(t) - yk(т) 112 € I I wH(ты) - Vk(ты) 112(1 + ß(т - ты)) + (т - ты)р(т - ты), (3.56)
т E [Tki, Tk(i+i)], lim p(6) = 0, 0—>o
в которых монотонную функцию р(^) ' [0, м- [0, +то) и константу 3 ^ 0 можно выбрать независящими от позиций (ткг,чикг(ткг)), (ткг, ук(ткг)), изменяющихся в пределах множества С.
Вывод этой оценки повторяет вывод оценки (14,6) из [3, § 14] с заменой V* '= ьЩ '= Vкг и той разницей, что вместо неравенства (14,16), опирающегося на условие седловой точки (1,5), используется неравенство
(5 *, /(Ткг, Укг ,иы ,Укг)) < ^ «*, /(Ткг, Укг ,и(\%г)), « * '= Укг - Ыкг(ты), г е 0..(к - 1), к е Н,
непосредственно следующее из определения значения икг через значение г!кг (см, (3,10)), Из неравенства (3,56) при любых к е N ^ е 0..(пА к - 1) и те [ткг, тк(г+1)} следуют соотношения
^(i+i)^ — yk OL ([to, т];
R")
^ ^wki (•) — yk ОНС ([to, Tki ]R)(1 + ß(т — Tki)) + (T — Tki )v(t — Tki). (3.57)
В самом деле, в силу непустоты множества W(z0k,vk(•)) при всех нужных значениях аргументов (лемма 3,4) и включений
Wki(•) E W(Zok ,Vk O^io,Tki]
следует (см, (3,54)) существование решения w*(^) E С({rki, Tk(i+i)]; Rn) дифференциального включения (3,55) такого, что
wk(i+i)(^ := (wki ,w*) Tki(•) EW(Zok ,Vk Ш[г0,Тка+1) ]. (3.58)
Используя монотонность vO; включение (3,58) и неравенство (3,56), получим оценки
^Ki+i)^ — yk0!С([io,T];R^ ^Hi+i)^ — ykO^C^o^R) =
= t^ax^ki О — yk О ||C([io,Tki ];Rn), ||w*0 — Vk ^CttTki ,T]R)} ^ ^ t^ax^TVkiО — ykO^C([io,Tki];Rn),
max HwH(ты) — yk(ты)||2(1 + ß(s — ты)) + (s — ты)p(s — ты)} ^
e[ k , ]
^ ^^ax^kiО — yk0!C([io,Tki];Rn), !wki О — yk(Wc ([i0, Tki ];R")(1 + ß (r — Tki)) + (t — Tki — Tki)} =
= !wki О — yk OLa^Tk+R^1 +ß (т — Tki)) + (T — Tki )V(T — ТЫ),
завершающие обоснование неравенства (3,57),
Далее, повторяя рассуждения леммы 15,1 [3, с, 62], установим, что при каждом к E N функция
T ЭТ^ dg^ ,T],Rn)({ Vk (•)}, W (xk (to),vk (•)))
полунепрерывна снизу и непрерывна справа. Пользуясь этими свойствами, из неравенств (3,57) при всех к E N и т ET получим оценку
№[to ,T ],Rn)({y k (•)}, W (xk (t o),vk О)))2 ^
(dHn({yk(to)}, W(xk(to),Vk0)U)2 + (1 + (r — to))<Pk) exp(ß(t — to)), (3.59)
где
рк := sup р(т - ты), к е N.
гео..(пАк-1) rki, rk(i+1)]
По построению lim^.^^ рк = 0. Учитывая, что
Ук (to) = хк (to) = W (хк (to),vk (■)) to , из неравенств (3,59) при т = $ получим соотношения
({Ук (■)}, w (хк (to),vk (■))) ^ vi(TTjß-tö^kexp(ßj¥-töj),
дающие искомую сходимость (3,53), 6, Справедливы соотношения
lim %(ук(■),;ик(■)) ^ lim max (■)) ^ lim rQ(^к) = rQ(zo), (3.60)
к^+те к^+те w(^)eW(z0k,Vk(•)) к^+те
из которых с учетом (3,52) получим искомое неравенство (3,50), В (3,60) первое неравенство следует из (3,53) и непрерывности 7О, второе неравенство — из определения множеств W(zoк,г)к(■)), последнее равенство — го непрерывности функции rQ(■),
4. Программные итерации функции сожаления
Как уже отмечалось, построение стратегий Use включает в себя неконструктивный элемент — пучки движений, порожденные риск-оптимальными квазистратегиями,
В этом пункте приводится конструкция функции оптимального риска, дающая перспективу построения эффективных численных реализаций риск-оптимальных стратегий [25], Построение основывается на идеях метода программных итераций, развитого в работах А, Г, Ченцова, С, В, Чистякова, Л, А, Петроеяна, В, И, Ухоботова, А, А, Ме-ликяна, Ф, Ф, Никитина [18,26-37],
4.1. Определения, начальные свойства
Обозначим CV**, t е Т, множество всех непрерывных функционалов, определенных на прямом произведении множеств X(Go)|[t0,t] х Vl[t0,t] С С([to, t], Rn) x L2([to, t], R) с топологией, индуцированной топологией произведения объемлющих пространств, и определим CVT := П CV**, teT
Рассмотрим оператор Г (программной итерации, см, [18,31]), преобразующий всякое семейство (^t)teT е CVT в семейство функци о налов (r^t))teT е CVT вида
r(yt)(x(^), vtf):= sup inf Ут((х,х' )t(■), (v ,v%(■)); (4.1)
reM] x (^)e
v'(^)ev x(t,x(t),u,-€'(•))
здесь X(t,x(t),U,v'(■)) — множество движений системы, порожденное из начального
состояния (t,x(t)) е G всевозможными реализациями управления при программной (■)
Г
деления:
— для любых (^t) teT е CVT, t е Т, (х(^), v(^)) е X(Go)|[t0,t] х Vl^t0,t] выполняются неравенства
Г(^г)(х(^), v(■)) > v(^)); (4.2)
— если семейство (^t)teT E CVt равностепенно not E T и v(^) E V равномерно непрерывно no xO E X(G0), то семейство (Г(Ф4))teT обладает тем же свойством: равностепенной по t E T и v(^) E V равномерной непрерывности по xO E X(G0).
Введем в рассмотрение семейство функционалов (£(q)tet E CVt (программных мак-симинов): для произвольных t ET, v(^) E V, x(^) E X (G0) положим
£0t(x(•), v(^)):= sup inf 7s((x,x' )tt), (v ,v')t(•)). (4.3)
v'(^)eV x' (•)€
X( t,x(t),U, '€'(•))
При произвольных t ET, v(^) E V, x(^) E X (G0, U, v(•)) из определения получим:
eq(x^), <)) ^ 0, (4.4)
e°o(x(•), v() = sup { inf 7(x'(•)) — p(x(t0),v'(^))} = sup 0 = 0, (4.5)
v'(Oev x(•)ex(x(t0),u,v'(•)) v'(^)ev
(x(^), £>(•)) = sup inf 7s((x,x')$(•), (v, v')#(•))= 7s(x(^), v(•)). (4.6)
v'(^)ev x (•)ex(-&,x(-&),u у (•))
Определим итерации оператора Г на семействе (е°)teT'.
£t (•):= r(eti^)), tET, kE N.
При этом для всех tET, к E N v(^) EV, z0 E G0, x(^) E X (G0, U, v(•)) из (4.2), (4,4)-(4,6) получим соотношения
sk^), v(•)) > 0, (4.7)
4(x() vtf) = 7s(x() vtf), (4.8)
sti(x() <)) ^ sk (x() V(•)). (4.9) Кроме того, верны оценки
14(x(•), О)! := sup inf {7((x,x'МО — P(x(to), (vУМО} =
v' (-)ev x (•)&
X (t ,x(t),U у (•))
= sup < inf 7((x,x'MO — inf 7(x"(0 f ^
v'(^)eV I x(•)£ x (^)e I
X(t,x(t),UУ(•)) X(t0,x(t0),U,(vy)t(^)) )
^ sup sup 7((x,xMO — inf inf 7(x"(0 <
v' (^)ev x (•)£ v()ev X'()e
X( t,x(t),U у (•)) x(t o,x(to),U ,(vy )t(^))
^ sup 7 (x(0 — if,, 7 (У(0 =
z0eG0,v(^)ev zoeGoA^ev
x(^)eX(t o,zo ,U ,v (•)) y(^)eX(to,zo,U ,v())
x^)eX(Go) y()eX(G0)
из которых следуют неравенства
!4(x(0,vt))! ^ m^Mxt)) — minMy(^)) < +^ (4.10)
x(yeX(G0) y()eX (g0)
В силу (4.9), (4.10) при всех tET, x(^) E X (G0), v(^) E V корректны следующие определения
et(x(•), v(^)):=lim e.kШ, v(•)). (4.11)
Для введенного таким образом функционала е^) из (4.8) при любых у(^),у'(•) € V, х(^) € X(С0, и, у(^)), х'(•) € X(Со) таких, что х(= х'(Ьо), выполнены соотношения
£^х() <)) ^ 0, (4.12)
у(^)) = ЪШ, у(•)), (4.13)
^ (х(•), <)) = ею (хХ (•),у'(•)). (4.14)
Иными словами, значение £10(х(^), ?;(•)) функционала £10(•) полностью определяется х( о)
включения х(-) € X(С0, Ы, у() и, вообще говоря, не выполняются при произвольном хО € X(Со).
В дальнейших построениях множества уровня функции
е(, О) : С(Т, Г1) ^ К
будут использоваться в качестве «целевых множеств» в конструкции риск-оптимальной стратегии: для всех Ь €Т, г € С0, у(^) € V обозначим ^1(2, у() следующие подмножества из X(С0):
Щ(г, у(^)):= |х(0 € X (г, и, <)) | £^), О) ^ ^о Ш, у(^))}. (4.15)
Лемма 4.1. Для любых € Т, Ь ^ ¿', г0 € С0, у(^),у'(•) € V справедливы, следующие соотношения:
Ж( ¿0, у(^)) = 0, (4.16)
щ(Х0, у(•)) € сотр(С(Т, )), (4.17)
Ж(20, <))М = щ(20, (у,А'0)М, (4.18)
Ж(4оС Щ,(4о(4-19)
Доказательство. Обратимся к свойству компактности и для этого установим непрерывность функционалов С(Т, Кга) э х(^) м- е%(х(^), у(•)) € К к € М0. Из неравенств (3.22) и (3.23) следует, что для всех х(),х'(•) € X(С0), у(^),у'(^) € V выполнены неравенства
| Ъ(х() у(•)) -ъ(х' (•),у '0)| ^
^ (\\хО - хОЬотд^ + ^р(\\х() - х0\\с(тд™) + ^^(\\- г^ЮЮ^) :=
:= (\\хО - х0\\с№) + (\\Ь(з) - Х(8Ш8). (4.20)
И, таким образом, функционал С(Т, Кга) э х(^) м- %(х(^), у(•)) € К равностепенно по у(^) € V равномерно непрерывен по х(-) € X(С0). Используя лемму Гронуолла, можно получить оценку
В^п)^^) ^ \\хх(^)-х2()\с(МлФ + ^(С)(д - (С)(д - I))) ^
< Н^О - х20\\ст(1 + (С)(д - и) ехр(Ь1 (С)(д - 10))) := К||х10 - х2()\с(т,ж«)
(4.21)
хаусдорфова расстояния в С(Т, Кга) между двумя пучками движений
XI := {(х1,х)А) 1х(•) € X(г,х1(г),и,уШ,
X2 := {(х2,х)I х(•) € X(I,х2(1),и,уШ,
х^),х2(•) € X (С0), 1€Т, <) €У.
Как обычно, под хауедорфовым расстоянием понимается максимум из двух отклонений: DC(T,Rn) (X1 ,X2):= max {d^Rn) (X1, X2^ , d^Rn) (X2, X0 } .
Из (4,20) и (4,21) индукцией по к е N получим оценку
1ек(х() v(■)) - ек(х(■), vO)| ^ ^(Кк+1\\х(^) - х'0||с{ТДП)), (4.22) справедливую для всех t еТ, v(^) е V. Из определения функционала (см, (4,11), с, 58)
С(Т, Rn) э х(^) ^ £&(■), v() е R несложно получить равенство
Щ(zo, v() = р| W' (zo, v(■)), (4.23)
keN
где множества (zo, v() при всех к е N t еТ, z е Go, v(^) е V заданы выражениями
W'(z, v(■)) := {хО е X(Z,и, v()) | ек(х() v(■)) ^ sto(х() v(^))}.
В силу неравенств (4.9) и непрерывности функционалов 4(х(^), v(■)) по первому аргументу эти множества удовлетворяют соотношениям
Wtk(z, v(■)) С W'-1(z, v(■)), Wк(z, v(-)) е comp(С(Т, Rn)), ке N.
Из приведенных соотношений и представления (4.23) следует замкнутость в С(Т, R) множества ~Wt(zo, v(■)) и, следовательно, его компактность.
2, Для доказательства (4.19) выберем произвольные zo е Go, х(^) е Wt(zo, v(^)), t' ^ t и определим последовательность (wk (■ ))keN го множества X (t ,х(Ь), U, v() следующим образом:
wj(■) е argmin е',((х,х')t(■), v(■)).
x ()e
X( t,x(t),U ,'€(•))
Переходя при необходимости к подпоследовательности и не изменяя обозначений, будем считать последовательность wk(■) сходящейся в С([t,t'], Rn) к некоторому элементу wo(■) е X (t ,х(Ь), U, v(), В силу определений оператора Г и множеств Wt( zo, v() для всех к е N получим
4((х^к)t(■), v(^= mm 4((х,хv() ^
x ()e
X( t,x(t)jU ,'€(•))
^ sup min е'к((х,х)t(■), (v,v')t(^)) =
e et x( t,x(t),u у (•))
V
= е^Ш, у(•)) ^ £<(х() у() ^ еь(х() у(•)).
Из этих соотношений и неравенств (4,9) для любого к, г € N таких, что г ^ к, следуют неравенства
4 ((х,Шг)^), О) < (х(•), у(•)).
Переходя в этих неравенствах к пределу при г ^ ж и пользуясь непрерывностью функционалов 4(х(-), получим
4((х,щ>)г() у(•)) ^ ег0(х() у(•)), к€ N.
Переходя в этих соотношениях к пределу при к ^ то, с учетом определения (4,11) получим неравенство
^((х,Ш0Ю, <)) ^ £<0Ш, у(^)), (4.24)
эквивалентное включению Е ^^(го,у(^)). Последнее соотношение влечет ис-
комое включение (4,19),
3. Из (4.24) при г = г0 получим соотношения, обосновывающие (4.16):
ец, у(•)) = ((х,тоу(•)) ^ £Ьо(х(•), у(^))
и, следовательно, шо(^) Е Ж'(го, у(^))-
4. Для проверки (4.18) заметим, что ограничения хО Е X(го, Ы, у() в определении %о,&(•)) (см. (4.15), с. 59) при всех ^ еТ удовлетворяют условию
X(го,и, у(^))\[ш/] = Х(го,Ы, (у,А'0)М, ОУО еу. (4.25)
Далее, для любого семейства (Уг)кт Е СУТ при произвольпых Е Т, Ь ^ ¿', х(^),х'(•) Е X(Со), х(Ь') = х'(1/), у(^),у'(^) Е V выполнены равенства
Г(Уг)((х, х' ),(•), (у ,у ')«(•)) =
= йир Ы У т(((х,х')#,хГ)£), ((у,у%,у"Ш) =
те[4,1?] х" (-)е
х(1,{х,х<)1,{1)ц,„"(•))
= 8ПР Ы Ут((х,х"Ю, (у ,у '%(•)) = Г(Фг)Ш, у(•)).
теМ] х" (-)е
х(I,х(Г),и
Применительно к программным итерациям функционала сожаления приведенные тождества при всех к Е N Ь,^ еТ, Ь ^ ¿', х(^),х'(•) Е X(Со), х(Ь') = х'(Ь'), у(^),у'(^) Е V дают равенства
е*(хО,у(Ъ = е*((х,х),(•), (V,У')*(•)), из которых при к ^ то получим
^ (х(^), у(^)) = ег((х,х )?(•), (У ,у')А•)). (4.26)
И так как
X(Со) = {(х,х)#(•) \ х(^),х'(•) Е X(Со),х'(О = х(1')}, из равенств (4.26), (4.25) следуют соотношения
Ж(¿0, (у,А'0)М = (X(го,и, (у,у')А•)) п
П {(х, х'(•) \ х(^),х'(•) е X(Со),х(г') = х'(г'),
£^(х,х' (у ,у')?() ^ £ь((х,х' V((У, А'ОШ=
= (X(го,и, (у, у')# (•)) П П {(х,х')?(•) \ х(^),х'(•) Е X(Со),х(г') = х'(£), £&(•), у() ^ £г0(х(^), О)})^'] =
= X(го,и, (у,у0Я0)\[40>4'] п
П {х(0 Е X(Со) \ еМ) у(•)) ^ е*(х() ^(•))}\[^]
= X (го, и, г;(^))\[4 0>4 >]П (х(^) Е X (Со) \ £&(•), у(•)) ^ £г0 (х() «(•))}\[4оЖ] = Щ( го, «(•))\[4оЖ],
завершающие обоснование равенства (4.18). □
4.2. Представление оптимального риска в форме предела программных итераций
Теорема 4.1. Для любых zo Е Go, v(^) Е V, x(^) Е X(zo, U, v() справедливы, равенства
rQ(zo) = 6t0(х() v(^)). (4.27)
Доказательство. Для любых zo Е Go, v(^) Е V, х(^) Е X(zo, U, v() проверим неравенство
rQ(¿0) ^ Zto(х(•), v(^)). (4.28)
С этой целью вначале, используя индукцию по к Е N, установим для любой квазистратегии а(^) и любы х к Е N t еТ, v(^) е V следующие неравенства:
rQ(Zo,a):= sup rys(xav/(•),v'(•)) ^ 4(xav(•), v(•)), (4.29)
v'ev
где xav(•) := x(•, to, Zo,a(v(•)), v(•)).
В самом деле, для произвольных t Е Т, а(^) Е Q и v(^),v'(•) Е V справедливы неравенства
%(xa(v,v')t О, (V ,v')t(^)) ^ inf %((xa(v,v')t ,x')t(•), (V ,v')t^)) =
x' (-)e
X(t,xa(vy)t (t),u,(v,v')t(■))
= inf %((xav h() (V ,V Ш.
x' (■)£ X (t,xav (t),U ,v' (■))
Следовательно, переходя в левой части этих неравенств к верхней грани по v,v' Е V, а в правой части — по v' Е V, для произвольных t Е Т, а(^) Е Q и v(^) Е V получим неравенства
rQ(zo, а) = sup %(xa(vy)t (•), (v,v')t(•)) ^
v,v' eV
^ sup inf %((xa-v ,x')tt), (v ,v')t(^))= £0t (xav (•), v(•)),
v' ev x' (■)€
X( t,xav (t),U ,v '(■))
составляющие базу индукции.
Шаг индукции: пусть для некоторого к Е N при произвольных т Е Т, а(^) Е Q и v(^) Е V выполнены неравенства
rQ (Zo,o) ^ £кт (xav (•), v(^)).
Тогда для любых t ЕТ, т Е [t а(^) Е Q и v(^),v '(•) Е V справедливы неравенства
rQ (Zo, а) ^ 4 (xa(v,v' )t (•), (v ,v ')t(^)) >
> ^ ((xa(v,v')t ,x')t(•), (V ,v')tt)) =
x' (■)£
X(t,xa(vy)t (t),U,(v,v')t()
(( x
av ■> x)t(^ 0,v')t(^)).
x' (■)£
X (t,xav (t),U ,v '(■))
Переходя в правой части этих неравенств к верхней грани по V'(•) € V и т € \Ъ, д], в силу определений оператора Г и фупкционала е,к+1(^) получим неравенства
гч(г0,а) ^ £^+1(хаг1 (•), ь(У,
справедливые для произвольных t G Т, а(-) G Q и v(-) G V. Таким образом, обоснован шаг индукции.
Ввиду соотношений (4,9), (4,11) из неравенств (4,29) при t = to следует искомое неравенство (4,28),
Для обоснования обратного неравенства (и для избежания многочисленных технических деталей) еще раз обратимся к классу Q многозначных квазистратегий
а : {£Л, [to,tf]} м }
на пространстве обобщенных управлений (см, [18; 4, гл. IV]),
Рассмотрим многозначное отображение а0 : V м- 2{Hx'[t°''} вида
ao(v(-)):= {VG{n(v(-)), [to,$]} | ip(-, to, Zo, v) GWT (z , v(-))},
где {П(г>(-)), [io,$]} — множество всех допустимых программных управлений, согласованных на интервале [h,^] с сосредоточенной помехой v(-) (см, [4, гл. IV, §2, с, 162]), и для всех z G Go, v(-) G V множества WT(z, v(-)) С X(Go) заданы выражением
Wt(z, v(-)):= П Wt(z, v(-)).
teT
Отметим, что при всех z G Go, t GT, v(-),v'(-) G V множества WT(z, v(-)) удовлетворяют соотношениям
Wt (z , v(-)) = 0, (4.30)
Wt (z , v(-)) G comp( С (T, Rra)), (4.31)
Wt (z , <))|[M = Wt (z , (v ,v')t(-))l{t0,t]. (4-32)
Свойства (4.30), (4.31) следуют из непустоты, замкнутости и центрированности семейства множеств (Wt(z, f(-)))| teT (центрированность устанавливается индуктивно на основании непустоты и свойства (4.19)). Проверим (4.32): пусть z G Go, t GT, v(-),v'(-) G V, тогда, пользуясь (4.19) и (4.18) и определением Wr (z, v(-)), получим
WT (z, (v := [ f]Wr (z, (v ,v')t(•))
(n (z, (v ,v ')*(•))]
[t 0,t]
H(Wr (z, (v ,v')tt)))\M = f| (WT (z, (v ,АО))\[М
тет T£[t0,t]
= П (Wt (z , <)))|[M = П(^т (г, <)))|[М =
Te[t0,t] тет
П Wt (z, v(•))
\тет
:= WT(z, <))|[t0>t].
[t 0,t]
Указанные свойства (4,30)-(4,32) множеств WT(z, v(-)) позволяют проверить, что многозначное отображение а0 принадлежит клаееу Q многозначных квазистратегий, И следовательно, для любых z0 G G0, v(-) G V, х(-) Е X(z0, U, v(-)), с учетом (4,13), выполняются соотношения
Tq(Zo) < Tq(Zo,ao):= sup ъ('А', to, Zo, rj), v(-)) ^
^ suP Ъ(x(■),^ suP Ъ(x(■),^ £toWO
Вновь пользуясь равенством (2,2), получим искомое неравенство:
гч(г0) = гй(г0) ^ его(х(•),у(-)).
□
5. Конструктивные варианты риск-оптимальных стратегий
Две существенные трудности при численной реализации риск-оптимальной стратегии Оде составляют, во-первых, быстрый рост размерности задачи (3,9) восстановления
целевые множества, или, иными словами, построение множеств уровня оптимального риска (напомним, что пока, кроме дескриптивного определения этих множеств, мы располагаем лишь потенциально бесконечной итерационной процедурой их приближения),
5.1. Определение стратегии Оь
Наметим пути преодоления первой из отмеченных трудностей, приведя условия на управляемую систему и соответствующие конструкции риск-оптимальных стратегий при Ьр-компактпых ограничениях на помеху. Также приведем примеры семейств управляемых систем и отдельных систем, удовлетворяющих этим условиям.
Конструкция стратегии Оь похожа па конструкцию стратегий Ое- Отличие состоит в том, что при вводимых далее дополнительных условиях на систему (1.1) в качестве «тестового» управления подходит любое допустимое значение и €'Р управляющего воздействия, Поэтому в качестве такого значения берется управление на предыдущем шаге разбиения, В остальном схема та же: стратегия Оь при построении управления еимули-
ем управляемой системы выбирается (восстанавливается) помеха, близкая в подходя-
контруправление, экстремальное к множеству оптимальных траекторий системы при этой восстановленной помехе. Выбранное таким образом управление затем используется в «реальной» управляемой системе (1.1) па следующем интервале разбиения. При измельчении шага разбиения движения у-модели будут сходиться в С(Т; Мга) к риск-оптимальным движениям, порожденным квазистратегиями, а движения исходной си-
тимальное значение критерия Ниханеа-Сэвиджа и, как следствие, оптимальность по риску стратегии Оь-
Перейдем к формальному определению стратегии Оь-
это множество. Вместо множеств Ж(х( 10), у(-)) теперь используются множеетва (■) (см, (4,15), с, 59) и проекции па них движений у-модели: для всех т € Т, у(-) € V, у(-) € С ([г 0, т],
Ц-!^У(-),'"(-)) € а^тт 1Щ0 - у(-)\\с([г0,т],ж™).
(5.1)
В дальнейшем построении используются множества
и(и,х(-),т,т') := а^тт ьео.
х( ) - х( )
- т,х(т),и, ь)
(5.2)
заданные для произвольных и €'Р, т,т' € Т, т < т', х(-) € С(Т; Мга),
Кроме того, для произвольного разбиения А = (п)г^0..па Е Ат определим его подмножество А' := {т[ := тг'(г) | г Е 1..пА'} Е Ат, также являющееся разбиением интервала управления Т:
г '(г) := шт{/с Е 0..пА | тк ^ %($ — Ь0)/пА'}, г Е 0..пА', пА' := ш1п{п Е N 1п2 Щ(А) ^ 1}.
Разбиение А' с А удовлетворяет неравенству
Щ(А') ^ — Ь) + Щ(А) (5.3)
и является «почти равномерным» — сумма отклонений его моментов от ближайших моментов равномерного разбиения {Ь0 + — Ь0)/пА' | г Е 0..пА'} оценивается величиной Щ(А):
^ |та' — г(д — и)/Па'I < (ПА' + 1)Щ(А) ^ л/ЩЩ+2Щ(А). (5.4)
гЕ0..пА'
Определим обратную связь и§ь = (идЬг(0ге0..(пА-1) на произвольном разбиении А = (тг)гео..пА следующим образом: вначале индуктивно определим значения элементов для всех моментов т[, г Е 0..(пА' — разбиения А' — формально это соответствует определению обратной связи с полной памятью и^ на раз биении А'. После этого распространим значения обратной связи на все элементы обратной связи
Перейдем к определению обратной связи па раз биении А'.
База индукции: зафиксируем некоторые и* Е V, V* Е О, и для всех
Ха(-) Е С([1а, та], Еп), а*(1)0 Е С([1а, т,(1)], Мп) положим (заметим, что 0 = ¿'(0))
и^оМО := и^,(1)(х^(1)(-)) := и*, уо(та) = хо(ro), Уо := V*.
Шаг индукции: если при некотором г Е 1..(пА' — 2) значения
и£ы'(к)(хг>(к)(-)) Е V
определены для всех ху (к)(-) Е С (^0, т'к ], Еп), к Е 0..г, а эле менты ук (■) Е С ([¿0, тк], Еп), ук Е 0, — для всех к Е 0..(1 — 1^, то для любых т Е [т[-1, т'], хг<е+^О Е С([10, т'+т], Еп) положим
Щ Е и(и£ы,(0(хг/(г+у^о^^г'(í+l)(■), т'г, т'г+1), (5.5)
Уг(т) = У'-1 (т'-1)+ , Уí(t), и£ы,(г)(х''(г+^О^0,т(]),Ví-l)dt, (5.6)
г-1
и^'/('+1)(х^(г+1)(^)) Е argшiп(У'(т[) — т'г | т[, у^)^,т[](■)), /(т[, уг(т[),и,щ)); (5.7)
иет
здесь, как и раньше, ?](■) обозначает помеху, восстановленную в процессе управления:
ь(т):= Ьгт, ТЕ [< , т'т+1). (5.8)
Обратная связь с полной памятью и^ на разбиении А' определена. Теперь для произвольных г Е 0..пА, г Е 0'(к) | к Е 0..пд}, хг(■) Е С([10, тг], Еп) положим
(■)) := и^)М)^^)]). (5.9)
Ч-1
П+1
Рис, 8, Схема работы обратной связи
Обратная связь с полной памятью иАь на произвольном раз биении А € А? определена, Тем самым определена и стратегия ^ь := (иАь)аеат-
Замечание 9. В определении обратной связи Иаь, по существу, участвуют лишь моменты из разбиения А': элементы и^ обрати ой связи Иаь, отвечающие другим моментам разбиения А, не изменяют значения обратной связи.
Замечание 10. Определения (5.1) корректны в силу непустоты, компактности и неупре-ждаемости множеств №г(г0,у(-)) (свойства (4.16), (4.17), (4.18), см. лемму 4.1, с. 59). Иллюстрация этой схемы управления приведена на рисунке 8, Далее использованы обозначения (3,13), с, 44,
Теорема 5.1. Пусть фактор-множества не зависят от и, х:
0,1хи = 0,1х'и' := Qt для всех и, и' € V, (Ь, х), (г, X) € С.
(5.10)
Тогда, для любого начального состояния г0 € С0 стратегия Озь? заданная, выражениями (4.15), (5.1), (5.5)-(5.9), является, оптимальной по риску при Ьр-компактных ограничениях на помеху.
Замечание 11. При выполнении условий теоремы ввиду равенства (3.15) стратегия ^ь будет также оптимальной по риску и при программных ограничениях на помеху, и при ограничениях типа Каратеодори.
Замечание 12. Следующее семейство управляемых систем:
х(1) = х(1),и(1)) + х(1), и(1)) ■ у(1)),
(5.11)
где — матрица-функция размерности п х т, — вектор-функция (столбец) размерности п и /з(-) — вектор-функция размерности т удовлетворяет условию (5.10), если для
всех t Е Т ядро линейного оператора f2(t,x,u) : Km ^ Мга не зависит от параметров х, и при их изменении в пределах х Е Gh, и EV. В частности, управляемая система
хх(т) = ui(r) ■ vi(r), т Е Т :=[0, 2], V = Q := {-1,1},
X2(г)= д(т) ■ U2(t) ■ V2(t), g(t):= max{1,t} - 1,x Е R, (5.12)
(X1(0),X2(0)) = (0, 0), ui(t),U2(T) Е V, ы(т),V2(T) Е Q,
удовлетворяет условию (5.10), так как имеет вид (5.11):
Ш:=0, ¡2 (t,x, и) := (max{i_ - ^ №,v):= (^.
5.2. Риск-оптимальность стратегии Usl
Пусть выбраны произвольные
zo Е go, vot) Е V, xot) Е X + (Z0, USL, {УоШ.
Для упрощения обозначений и в силу того, что значение управления изменяется только в моменты разбиения А', в приводимом далее доказательстве будем игнорировать моменты т Е А \ А' и соответствующие элементы обратной связи. Нумерация и обозначения будут использоваться так, как если бы А = А'. Главное, что нам потребуется, — это стремление к нулю диаметра этих разбиений при стремлении к нулю диаметров исходных разбиений и оценка (5.4). По определению, имеется последовательность
( zo к, vk (■), Ак, Ug£ )fc€N cgo xV х Ат x U
такая, что
lim zo к = zo, (5.13)
lim В(Ак) = 0, (5.14)
lim \\xo(■) - XkOHcfTR) = 0, (5.15)
lim \\vo(^) - Vk(■)\\l2(tr) = 0. (5.16)
Из условия (5.16), в силу известного утверждения о сходимости по мере измеримых функций [15, теорема 1.4.18], и при необходимости переходя к подпоследовательности, получим соотношения
lim vk(т) = v0(t) при п.в, т ЕТ. (5.17)
Здесь и далее для всех к Е N используются обозначения
Xk(■):=x(■, Zok, , Vk(■)), Uk(■):=u(■, Zok, Ug£, Vk(■)). (5.18)
Обозначим также
Xki := Xk (Tki), Uki := Uk (ты), ты Е Аk, iE 0..(к - 1), (5.19)
А k
с (5.6), определяется уравнениями
т
Vk (г) = Zok + j f(s, Vk(s),Uk(s),Vk (s))ds, ТЕТ. (5.20)
Обозначим также
Укг := Ук(ткг), йы := ик(ты), г Е 0..(к — 1), к Е N. (5.21)
В момент Тк(г+\), г Е 0..(к — следуя (5,2), (5.5), определим значение ькг Е Я помехи щ(•), действующей в у-модели та интервале [ткг,Щг+1))'.
Щг Е V (иЫ,Хк (•),Ткг,Тк(г+1)). (5.22)
В соответствии с определениями (5.1), (5.7) управление йкг Е V удовлетворяет условиям
йкг Е а^шт {уы — ыы(ты), /(ты, уы, и, ькг)), (5.23) иег
Е а^шт — Ук()\\с ([Ьо,ты];Кп), (5.24)
ик(г+1) = йкг, г Е 0..(к — 1), к Е N. (5.25) Лемма 5.1. Пусть фактор-множества не зависят от и Е V:
О-гхи = О-гхи' для всех и,и' ЕТ, {Ъ,х) Е С. (5.26) Тогда из (5.15) следует (5.37).
Доказательство. Оцепим разницу ук (г) — Хк (т) при т Е Т:
т
Ук (г) — Хк (т) = ! У (в,ук (э),йк (в),ук (в)) — / (в,Хк (в),ик (в),ьк («))] =
¿0
= J [I (8,Ук (в),ик (в),Ук (в)) — / (в,Хк (в),ик (в),Ук (в))] ¿в +
¿0
т
+ ! [1 (в,хк (в),йк (в),Ьк (в)) — / (з,Хо(з),йк (в),Ьк (в))] ¿в +
¿0
т
+ !и(в,хо(в),йк(в),ьк(в)) — /(з,Хо(з),ик(в),Ук(в))] ¿в + ¿0
т
+ (8,хо(^),ик(в),ук(в)) — /(в,хк(в),ик(в),ук(в))] ¿в. (5.27)
¿0
Используя оценку (5.4) и равенства (5.25), нетрудно показать, что для всех к Е N мера множества, на котором функция
— кк] э 5 м- ик(в + кк) Е V,
где Нк := ($ — 10)/к, и функция
[¿о — кк ] э ем ик (в) Е V
различаются, не превосходит величины
л/В(Ак) + 2В(Ак).
С учетом этого неравенства преобразуем третий интеграл в последней части (5,27):
т
У [¡( в ,Хо(з),ик (з),щ (в)) - ¡(в ,Хо(в),щ (в), ик (в))] <1з =
т
= ![Кв,Хо(в),ик(в),Ьк(в)) - ¡(в,Хо(в),ик(в), Ьк(в))] йз +
т
+ J[/(8,Хо(в),ик(в + кк), Ьк(в)) - ¡(в,Х0(в),щ(в), Ьк(в))] <1з + Бк(т), (5.28)
где величины вк при всех к е N удовлетворяют оценкам
1Бк (т) I ^ к( С) (^(Ак) + 2 Б(Дк)) , те Т. (5.29)
Здесь к( С) — максимум нормы правой части системы (1.1) в области СхТх О, (см. (1.4), с. 8). Преобразуем второй интеграл в последнем соотношении (продолжим равенства):
т
= У [ !(5,Хо(в),ик(э),Ьк(в)) - ¡(в,Хо(в),ик(в), Ьк(в))] ¿в +
т
+ ! [Кв + кк ,Хо(в),ик (в + кк), Ьк (в)) - ¡(в ,Хо(з),ик(э), Ьк (в))] ¿в +
т
+ ! [¡(в ,Хо(в),ик (в + кк), Ьк (в)) - ¡(в + кк ,Хо(з),ик(э + кк), Ьк (в))] ¿в + вк (т).
Прибавим и вычтем в подынтегральном выражении величину
¡( в + кк ,Хо(в + кк ),ик (в + кк), Ьк (в))
(продолжим равенства):
т
= J [ /( в ,Хо(з),Щ (в),Ьк (в)) - ¡(в ,Хо(в),йк (в), Ьк +
т т
+ ! !(в + кк ,Хо(з + кк ),ик + кк), Ьк (s))ds^ J ¡(в ,Хо(з),щ (в), Ьк (в)) ¿8 +
т
+ J [¡( в ,Хо(в),щ (в + кк), Ьк (в)) - ¡(в + кк ,Хо(в),Пк (в + кк), Ьк (в))] +
т
+ J [!(в + кк, Хо(в),ик(в + кк), Ьк (в)) - ¡(в + кк, Хо(в + кк ),щ (в + кк), Ьк (в))] + вк (т).
Во втором интеграле применим подстановку £ := в + Нк (продолжаем равенства):
т
= ! У (в,Хо (э),йк (в),ук (в)) — / (в, Хо(в) , ик (в),Ук (в))] +
Ь0
т+Ик т
+ ! /(£,хо(0,ик(С),Ук— — ! }(8,Хо(з),ик(в),ьк(в)) йз +
10+Ьк /ю
т
+ !У(з,Хо(з),ик(5 + Ьк),ьк(в)) — /(в + Кк,Хо(в),ик(в + Ьк),ьк(в))] +
Ь0
т
+ ![I(5 + Ьк, Хо(в),ик(5 + Ьк),ьк(в)) — /(в + Кк,Хо(в + Ьк),ик(в + Ьк),ьк(в))] + вк(г) = (переобозначим во втором интеграле 5 := £ (продолжаем равенства))
т
= ![I(з,Хо(з),ик(в),ьк(в)) — /(з,Хо(з),ик(в),ьк(в))] <1з +
т
+ ! №(з,Хо(з),ик(в),ьк(в — Ьк)) — /(з,Хо(в),ик(в),ьк(в))] йз +
т+Ик +<0+Ик
+ f !(£,хо(0,ик),Ук— ьк+ J /(з,Хо(в),ик(в),ьк(в)) йз +
т ^
т
+ ![I(з,Хо(з),ик(5 + Ьк),ьк(в)) — /(в + Ьк,Хо(в),ик(в + Ьк),ьк(в))] <1з +
т
+ !и(5 + Ьк,хо(в),ик(в + Ьк),ьк(в)) — /(в + Ьк, Хо(в + Ьк),ик(в + Ьк),ьк(в))] <1з + Бк(т). Из этих равенств получим оценки для исходного интеграла (5,28):
т
[¡'(8,Хо(з),ик(з),Ук(в)) — f (в,Хо(з),ик(з),Ук(в))] ¿8 ^
Ь0
\\! (з,Хо(в),ик (в),ьк (в)) — ! (в,Хо (в),ик (з),^о(з))\\ ¿8 +
Ь0
т
+ ! \\!(з,Хо(в),йк(з),Уо(в)) — /(з,Хо(в),йк(в),Ук(з))\\ +
т т т
+ I ¡л.и— Ьк) — + 2Ькх(С) + 1 ц*(Ь,к) (18 + 1 Ь{(С)я(С)Ьк ¿з + \вк(т)\,
(5.30)
т
где ßt0 — модуль непрерывности f(^) по первому аргументу:
ßt(ö) := max II f(r,x,u, v) — f(r',x,u, г>)||, lim ßt (6) = 0.
(t,x),(t' ,x)eG
n.eV,veQ
Первый и второй интегралы в правой чаети неравенства (5,30) оцениваются с помощью модуля непрерывности ßv(•) функции f(^) по четвертому аргументу (продолжаем оценки):
ßv (dRq ({vk (s)}, qs))ds + J ßv (|| vo(s) — vk (s)||)ds + J ßv (|| vk (s — hk) — vk (s)||)ds +
to to to+hk
+ 2hkk(G) + J ßt(hk)ds + J Lf(G)x(G)hkds + ISk(r)|. (5.31)
Заметим, что частным случаем равенств (3,38) являются равенства
lim djq ({vk (г)}, qT) = 0 для п. в, т ЕТ. (5,32)
k^x
Из (5,32) следует, что величина первого интеграла в (5,31) сходится к нулю при к ^ ж для всех т Е Т. Величина второго интеграла в (5,31) стремится к нулю при к ^ ж для всех т Е Т в силу (5,17), Величина третьего интеграла в (5,31) сходится к нулю при к ^ ж для всех т Е Т в силу свойства «равностепенной непрерывности в целом» измеримых функций из компакта V (см, теорему 7,1 в приложении, с, 86),
Вернемся к оценке величины yk(т) - xk(т). Из равенств (5,27) с учетом оценки (5,31) получим
т т
\\Vk (г)-Xk (т)\\ ^У ßv (djq ({vk (s)}, qr))ds + J ßv (\\vo(s) - Vk (s)\\)ds +
т
+ J ßv(\\Vk(s - hk) - Vk(s)\\) ds + 2hkk(G) + (t - to)(ßt(hk) + Lf (G)x(G)hk) +
to +h k
т т
+ ISk (r)| + J Lf (G)\\ yk (s) -Xk (s)\\ds + 2j Lf (G)\X (s) -Xo(s)\\ds =
т
= J Lf (G)\\ yk (s) -Xk (¿0\\^ + Ф( г, к),
где функция
т т
т, k):= J ßv(d^q({Vk(s)}, qT)) ds + J ßv(||Vo(s) — Vk(s)||)ds +
T
+ J ßv(IVk(s — hk) — Vk(s)H)ds + 2hkk(G) + (r — to)(ßt(hk) +
to+hk
T
+ Lf (G)K(G)hk) + ISk(r)| + 2j Lf (G)IIxk(s) — xo(s)Hds
при каждом к G N монотонна по т и при всех т G Т стремится к нулю с ростом к. Из последнего соотношения, применяя неравенство Гронуола (см, [15, теорема II,4,4]), получим оценку
т
\\ук (г) - хк (г)| ^ y(r,k)+exp Lf (G)(ti - to)J Lf (G)V(s,k) ds ^
tü
^ [1 + Lf (G)(& - to) exp(Lf (G)(& - ШЩ&, к) при всех т G Т. Эта оценка влечет искомую сходимость (5,37), □
Лемма 5,2, Для, любых z0 G G0, v(^) G V, x(^) G X(z0,U,v()) выполняется, неравенство
rc(zo, Ul) ^ £toШ,ь(^)). (5.33)
Доказательство. 1. При всех г G Т обозначим qT G QT класс эквивалентности, содержащий элемент v0(r), В силу условия (5,10) имеем равенства
f (t,x,u,v) = f (t,x,u,v0(t )), (t,x,u,v) G G xV x qT.
Учитывая равенства (5,32), (5,13) и непрерывность правой части рассматриваемой системы (1.1) по v G Q, равномерную по всем переменным в области определения, получим сходимость
lim sup \\x(^,to,zoк,u(^),Vk(•)) - x(^,to,zo,«(•),i>o(-))\\c(T;R") = 0. (5.34)
k—x <)ш
Из (5.34) и определения множеств X(z0к,U,vk(•)) (с. 9), используя теорему 7.4 (о сходимости двойных последовательностей), получим сходимость этих множеств к множеству X(z0,U,v0() в метрике Хауедорфа:
lim Щт.т(Х(zok,Ut)),X(zo,U,vo(•))) = 0. (5.35)
k—x v у
Отсюда, в силу определения функции оптимального результата (см. (1.27), с. 16) и непрерывности показателя качества, следует равенство
lim p(zok, Vk(•)) = p(zo,Vo(•)). (5.36)
k—x
2. Из условия (5.10) и предположения (5.15) в силу леммы 5.1 (с. 68) следует равенство
lim \\xo(•) - yk0\\с(т;м«) = 0. (5.37)
k—x
Используя это равенство, непрерывность функционала 7 и равенство (5.36), также выполненное в силу условия (5.10), получим соотношения
lim 7s(yk (^),Vk 0):= lim b(yk - P(Z0k ,Vk(^))] =
k—x k—x
= 7(xo(•)) - p(zo,Vo(•)) := %(xo(^),Vo(^)). (5.38)
3. Если для движений у-модели при любых z0 G G0, v(^) G V, x(^) G X(z0,U,v(•)) выполняется равенство
lim d%(T.Rn)({yk(•)},W#(zok,Vk(•))) = 0, (5.39)
k—x v ' y
то для всех v(^) Е V, x(^) Е X(G0), x(t0) = x0(t0) справедливы следующие оценки: limsup%(ук(•),vk(•)) ^ limsup sup js(w(^),vk(•)) =
W#(z0 k ,vk (•))
= limsup sup l(w() - p(zok,Vk(•)) =
k^x w()ex(z0k Ц ,vk (•))
j(w(^))-p(z 0k,Vk(^))^ ^o (Vk (),Vk()
= lim sup sup y(w() — p(z0, v0(^)) =
w()eX(z0k,U,Vk())
l(w(^))-P(zo,vo(-))<^t0 (Vk(),vk()
= lim sup sup y(w() — p(z0, v0(^)) =
k^x w(^)ex (z0,U ,v0 (•))
l(w())-P(zo,vo(Vk(^,vk( +
= sup j(w(•)) — p(Zo, Vo(•)) ^
w(^)ex (z0,U ,v0 (•)) l(w())-P(z o,vo (+<:£t0 (X0 (0,vo()
^ et0 (xo (•), Votf) = £t0 Ш, vtf). (5.40)
Здесь первое неравенство выполнено в силу (5,39) и непрерывности функционала % по первой переменной (равностепенной по второй); второе соотношение (равенство) следует из определения множества (z0k,vk(•)) и равенства (4,13); третье соотношение (равенство) вытекает из (5,36); четвертое соотношение (равенство) вытекает из (5,35); пятое — из непрерывности в силу соотношений (4,27) и (3,24) функционала eto (•) по первой переменной; последнее — из (4,14), Из (5,38) и (5,40) получим оценку
7s (xo(^), vo(•)) < et0 (x(•), vtf). (5.41)
Так как неравенство (5,41) выполнено для произвольно выбранных элементов здО Е V, x0(•) Е X+ (z0, USL, {ttoO})) то будет выполняться и искомое соотношение (5,33),
Обоснование равенства (5,39) следует обоснованию равенства (3,53), □
5.2.1. Доказательство теоремы 5.1
Из неравенства (5,33) и равенств (4,27), (3,15) получим утверждение теоремы,
5.3. Случай конечного набора «тестовых» управлений
Как отмечалось, существенной трудностью при реализации стратегии Use является неограниченный и достаточно быстрый рост множества (и£) jei..n£ ПРИ уменьшении
решении задачи обратной динамики (3,9), В параграфе приводится еще один случай, в котором эту трудность удается обойти.
Пусть управляемая система (1.1) имеет вид (5,11) или вид
x(t) = gi(t,x(t),u(t)) + h(t, x(t), v(t)) • g2(t,x(t),u(t)), (5.42)
где gi(^) — вектор-функция размерности n, g2(^) — вектор-функция размерности m и h(-) — матрица-функция размерности n x m.
И пусть некоторое конечное подмножество {Uj Е V | j Е 1..1} и конетанта К Е R удовлетворяют следующему условию:
Условие 5.1. Для любых (т, x,u) Е G x V найдутся (ßj)jel..i Е R, J2jel t IßjI ^ К, удовлетворяющие равенствам
д2(r,x,u) = ßjд2(r,x,Uj). (5.43)
jei..i
Равенства (5,43) понимаются как равенства векторов в случае системы вида (5,42) и как равенства матриц в случае системы вида (5,11),
Замечание 13. Из условия следует, что при любом v £ Q реакцию системы на управляющее воздействие и £ V можно вычислить, зная реакцию системы при этом v на конечный набор «тестовых» управляющих воздействий [üj £ V | j £ 1..1}. И значит, для выбора аппроксимирующего значения v (см. (3.9)) достаточно этого фиксированного набора.
Определим семейство стратегий (Üs£)£ (Us£ £ S, е > 0), Üs£ = (Üд)дедт, где для всякого А £ Ат обратная связь с полной памятью Üд задана соотношениями (3,1), (3,2), (З.б)-(З.И), в которых п£ := /и := щ, j £ \..п£.
Теорема 5,2, Пусть управляемая система (1,1) имеет вид (5,11) или, вид (5,42). Тогда, при выполнении условий (3,14) и (5,1) для, всех z0 £ G0 верны равенства,
lim sup гс (zo, Üsг) = rc (zo). (5.44)
£—
Из построения видно, что в случае выполнения условий из теоремы 5.2 в задаче обратной динамики (3.9) фиксирован размер данных.
5.3.1. Схема доказательства теоремы 5.2
Доказательство теоремы 5.2 повторяет доказательство теоремы 3.1, за исключением пункта 2, в котором неравенства (3.33)-(3.35) преобразуются следующим образом:
^У (С)\\ук(з) - хк+
¿0
+ J \\/(в,Хк(в),ик(в),Ук(в)) - /(в,хк(в),ик(з),Ь0(з))\\ ¿в + $0,Т ]\М£
+ I »V- Ук(5)\\) ¿8 + 2я(С)\(Ме).
\ро,т ]\М£
Во втором интеграле воспользуемся видом правой части и условием (5,1) (продолжаем оценку):
т
Lf (С)\\ук(з) - хк(в)\\^ +
¿0
+ / (s)[f(s,Xk(s),u£j,vk(s))-f(s,xk(s),uj,vo(s))]
[to,r]\M£ jel-1
ds +
+ ßv(lh(s) - Vk(s)||) ds + 2x(G)\(Me).
[to,r ]\M£
Здесь функции ßkj(•) : T м R определяются из условий
g2(s,xk(s),uk(s)) = ßkj(s)g2(s,xk(s),üj), к £ N, jei..i
и всегда могут быть выбраны измеримыми (продолжаем оценку):
^У Ьг(С)\\ук(з) -хк(в)\Ив +
¿0
+ I (5)1 тах \\^8 («)) - К8 ,Хк ^о(з))\Мз +
[*0,г ]\М£
зег.л
+ Ро(\\^о(з) - Ук(8)\\)(!8 + 2х(С)\(М£) ^
\р0,Т ]\М£
^ Lf (С)\\ук (з)-хк(в)\\(!з + К тахРо ({ук (в)}, д™3^ ¿в +
¿0
^0,Т ]\М£
+ у (\\ь°(з) - ьк(в)\\) ¿8 + 2х(С)\(Ме).
\р0,Т ]\М£
Все величины (^{г>к( в)}, д™3^, ] € 1../, мажорируются величиной ({ук( в)}, д£3) в силу соотношений (3,32), Таким образом, для величин Ф^ из (3,36) получим выражения
Ф1* := I [Кр- «({щ(в)}, де3)) + р-(\\ук(з) - ^)\\)] ¿8 + 2(§ - 1°)я(С)е,
т
обладающие необходимыми свойствами,
5.4. Случай регулярности программного максимина
В этом пункте исследуется случай, когда программный макеимин функционала сожаления (■) совпадает с величиной минимального риска гс(■) при Lp-кoмпaктныx ограничениях на помеху (будем считать выполненными условия (5,10)), По аналогии с задачами оптимизации гарантии будем называть это свойство риск-регулярностью, В силу (4,5) риск-регулярность максимина эквивалентна равенству
гс (г°) = 0.
(5.45)
Замечание 14. В соответствии с определением минимального риска это означает, что для каждой начальной позиции в рассматриваемом классе стратегий Б существует стратегия, которая гарантирует оптимальный результат р(х°, какова бы ни была помеха ь(-) € V. То есть эта стратегия действует столь же эффективно, как если бы помеха ь(-) была известна ей заранее. Первоначально именно это свойство было положено в определение стратегий, названных сильно оптимальными [38]. Понятно, что круг задач управления, в которых существуют такие стратегии, сравнительно узок. Тем полезнее наметить границы этого семейства задач.
Замечание 15. Свойство риск-регулярности задачи управления, вообще говоря, не следует из классического свойства регулярности: так, в примере (2.15)—(2.18) во всех начальных состояниях имеет место регулярный случай — цена игры совпадает с программным максими-ном показателя качества. Вместе с тем оптимальный риск в этой задаче не везде равняется
НУЛЮ.
5.4.1. Условие риск-регулярности
Для произвольных элементов у(^) £ V, г0 £ Со введем в рассмотрение множество П(г0,у() С С(Т; Ега) вида
В,(г0,ь (•)):= а^шт 7 (ж(-)).
х^)ех (хоЦ ,-€(•))
Определение корректно, так как множество X(г0,Ы,у(^)) С С(Т; Мга) компактно в равномерной топологии пространства С(Т; а функционал 7О непрерывен в этой же топологии.
Из определений для любых жО £ Я(г0,у(^)), £ £ Т следуют соотношения
1(х(^)) = Р(го,У(^)).
Условие 5,2, В начальном состоянии г0 £ С0 для произвольного момента £ £ Т и произвольного конечного множества помех (•) ] £ 1..т, справедлива импликация
^ОМ = ... = МО^М ^ П П(г0,уз(^))|[.о$ = 0. (5.46)
Для начального состояния г0 £ С0 и произвольной помехи у(^) £ V определим множество С С([^,1]; Ега) вида
Ъ(ъХУ:= П К("0, (у,у')*0)1[М. (5-47)
Лемма 5,3, Для произвольных г0 £ С0, £ Т, í ^ ¿', £ V множе-
ства удовлетворяют соотношениям,
(ъХЩюд, (5.48)
^,У(•)) £ сошр(С([10,1]; Ега)), (5.49)
2^0,У(^)) = 2^0, (ь,ь')^)), (5.50)
г^ъМУ С ЩъМУ. (5.51) Кроме того, если выполнено условие (5.2), то
2^0,У(^)) = 0. (5.52)
Доказательство. Из определения множества следуют соотношения (5.48)-
(5.51). Для обоснования неравенства (5.52) заметим, что в определении мно-
жества, стоящие под знаком пересечения, не пусты, замкнуты, содержатся в компакте X(С0)|[4о,4] и (в силу 5.46) центрированы2. Следовательно, их пресечение не пусто, □
Воспользуемся множествами как «целевыми множествами» для еще од-
ного варианта стратегии которая будет оптимальной по риску при Ьр-компактпых помехах в риск-регулярном случае.
Определение этого варианта стратегии Одь (который мы обозначим как 00ь) отличается, как уже сказано, только описанием «целевых множеств», которые теперь имеют вид (5,47) и проекцией на них движений у-модели: для всех т £ Т, у(^) £ С([10,т], Мга), £ V положим
Н^УО^О £ а^шт - уО\\с№о,т]Д"). (5.53)
(у(4о),г)[(о,т ](•))
2Напомним, что семейство множеств называют центрированным, если пересечение любого конечного набора множеств из этого семейства не пусто.
Теорема 5,3, Если для некоторого z0 Е G0 имеет место равенство (5,45), то в этом, начальном, состоянии z0 выполнено условие (5,2).
Если, для, системы (1,1) выполнено условие (5,10) и в начальном, состоянии z0 Е G0 выполнено условие (5,2), то имеют место равенства,
0 = rQ (Zo) = rP (Zo) = rCAR( Zo) = rc (Zo)
и стратегия, U°L, заданная, выражениям,и, (5,47), (5,53), (5,5)-(5,9), является, стратегией, оптимальной по риску при Ьр-компактных ограничениях на помеху для, начального состояния z0 Е G0.
Замечание 16. Из условия 5.2 в силу леммы 5.3 следует, что при всех т Е Т, v(-) множество ZT(y(to),V[to,r](-)) не пусто, компактно в С([¿о,т];Rn) и не зависит от значений v(t) при t Е (т, $]. Таким образом, определения (5.53) корректны.
Доказательство. 1, Докажем первую часть теоремы. Пусть z0 Е G, t Е Т и реализации помехи Vi(-) Е V, г Е l..m (m Е N), таковы, что
^i(-)|[io,i] = ... = vm(-)l[to ,t]. (5.54)
Из условия (5,45) и неравенств (2,1) следует соотношение
rQ ( zo) = 0. (5.55)
Рассмотрим последовательность квазистратегий {ai Е Q | г Е N}, удовлетворяющих условиям
rQ(zo, ai) ^ 1/i, iE N. В силу (5,55) такая последовательность, конечно, существует. Обозначим
xij(-):=x(-, to, Zo,ai(vj (■)), Vj (■)), гЕ N, jE l..m. Из условия (5,54) следуют равенства
Xii()hto,t] = ... = Xim()l{to,t], i Е N. (5.56)
m
тельноети индексов i Е N будем считать каждую из последовательностей (x^(^))ieN, j Е l..m, сходящейся в С(Т; Rn). Обозначим соответствующие пределы x0j(■):
lim \\xij(■) - X0j(^)\\c(т;R") = 0, j Е l..m.
i—y^o
Из равенств (5,56) следует
x(^) := xoi(^)l[to,t] = ... = xom(^)l[to,t], гЕ N. (5.57)
В силу непрерывности (в топологии пространства С(Т; Rn)) показателя качества '-/(■) (1,26) из определения движений x0j(^) получим
1(x0j(^)) = Ит l(xij(^)) < Дт р(zo, Vj() + \/г = р(zo, Vj(■)), j Е l..m.
i—<х i—x
То есть x0j(■) Е R(z0, Vj(■)), j Е l..m. Из этих включений и равенств (5,57) получим соотношения
x(■) е R(zo,VjО^o,ф j Е i.m
обосновывающие следствие в импликации (5,46), Первая часть теоремы доказана,
2, Пусть выбраны произвольные
Z0 е Go, vo(-) е V, хо(-) е X +(zo,U^, Ы-)}).
Воспользуемся еще раз обозначениями, введенными в начале пункта 5,2 (с, 67), изменив в соответствии с (5,53) определения величин wki(■)
wki() е argmin - ук([^^к»). (5.58)
w(-)e
zTki (ук (t o),(vk )[i0 ,Tfc.](-))
3. Схема доказательства второй части теоремы следующая: для ранее выбранных w0(), ЯюО установим неравенство
7(xo(■)) ^ p(zo,vot)), (5.59)
откуда, в силу произвольности выбора, получим соотношения
rc(zo, U°L):= sup !(%(■)) - p(zo,Vo()) ^ 0.
v(-)eV
-+(*0,ugL ,
С учетом неравенств (2.1) и 0 ^ rQ(zo) получим соотношения
0 = rQ(zq) = rP(zq) = ГСАr(zq) = Гс(zo) = rc(zo, UQl),
эквивалентные утверждению теоремы.
Если для движений у-модели будут выполняться неравенство
limsup7(ук(•)) ^ p(zo,vo()) (5.60)
и равенство
lim \\xo() - ук0\\с(Т;К») = 0, (5.61)
то мы получим оценку (5.59). Таким образом, остается лишь проверить выполнение соотношений (5.60), (5.61).
4. Определения движений хк(•) и ук(•) совпадают во всех существенных моментах с определениями одноименных последовательностей из леммы 5.1. Условия настоящей теоремы сильнее условий указанной леммы. Значит, выполняется утверждение леммы 5.1, из которого следует (5.61).
Обратимся к неравенству (5.60). Пусть для движений у-модели имеет место сходимость
lim dH(T;Rn)({ук(•)}, 2#(гок^к())) = ° (5.62)
тогда справедлива следующая цепочка соотношений:
limsup^(ук(•)) ^ limsup max 7(w(^)) ^ limsupр(гок(•)) = p(zq,Vq()),
обосновывающая искомое неравенство (5.60). В приведенных соотношениях первое неравенство следует из (5.62) и непрерывности ^у(^), второе неравенство — из (5.51), последнее равенство — из сходимости (5.36), которая, в свою очередь, следует из условия (5.10).
5. Доказательство равенства (5.62) следует доказательству равенства (5.39), так как множество Zt(z,v() обладает всеми необходимыми свойствами (см. лемму 5.3, с. 76), которые использовались при доказательстве соотношения (5.39). □
X
5.4.2. Примеры риск-регулярных задач
1, Проиллюстрируем применение теоремы 5,3 на примере задачи управления скалярной системой (2,15) при показателе качества (2,18) в случае
а ^ Ь.
Проверяется, что при любых г0 £ Со, £ V движение вида
11 К' (5'63)
у(t,Zo,v(■)):= Zo + j v(s) ds - (t - to)a sign(zo),
0
t*: = min{$, min{t е T | y(t, zo,v(■)) = 0}} принадлежит R(zo, v()) и для любых t е Т, v'() е V выполняется импликация
КОМ = O![i0 О ^ ^О^УО^, t] = X(t'Zo'V())l[t0, tO
Из этих соотношений следует выполнение условия 5,2, Другие условия теоремы 6,1 также выполняются. Значит, в силу теоремы, для всех начальных состояний zo е Go верно равенство rc (zo) = 0,
Uo
биения А е Ат, А = (т.i)¿еа.пд, и любого элемента U, г е 0..(пА - 1), обратной связи U^ е Uo и для всex Xi() е С([to,Ti\; Rra) положим
U(xi()): = -a sign(xi(ri)).
Это стратегия экстремального прицеливания па множество {(г, 0) | т е Т}. Несложно проверить, что именно эта стратегия порождает движения вида (5,63) и, соответственно, имеет нулевой риск:
rc(zo, Uo) = sup lx(i9,Zo,v())l - p(zo,v()) = 0. v(-)ev
2, Другой пример риск-регулярного случая доставляет задача управления системой, описываемой уравнениями
{
х(т) = и(т)v(t), т е [to,$\:= т, x(to) = Zo е R.
Начальные состояния, измеримые реализации управления и помехи при почти всех значениях т £ Т стеснены ограничениями
г0 £ С0 := [х £ Ега | \\х\\ ^ а0, а0 > 0}, и(т) £Т := [-1,1}, и(т) £0, := [у £ Г1 | \\у\\ = 1}. (5.65)
Показатель качества задан выражением
7Ш):= \\яО\\с(Г;Е»). (5.66)
Можно проверить, что в этой задаче для всех г° € С°, ь(-) € V и х(-) € X(г°, Ы, ь(-)) выполнено равенство
р(х(1 °), у(-)) = \\г°\\
и включение
х(-, г°, -у(-)) := х(-, г°, г°,й(-), у() € Я(г°, ь(-)),
где
и(т):= и(х(т), и(т)), т€Т,
и(х, у) := &щтти(х, у), х € К1, V € О,. иео.
Исходя из этих соотношений, легко проверяется условие 5,2: для любых г° € С°, у(-), у'(-) € V и Ь € Т выполняется равенство
х(■, ^ О)^0,Ц = х(^ , (у, XМО^,Ц
и, следовательно, импликация (5,46), Таким образом, в задаче управления (5.64)-(5.66) для всех г° € С° выполняется равенство гс (= 0,
Стратегия и € Я, оптимальная по риску при Lp-кoмпaктныx ограничениях, может быть построена также, как в примере из пункта 2,1,
Для всех (х1,х2,и/) € Кга х Мга х V определим значение обрати ой связи ХХЛ € 1} на разбиении А = (тг)г^°..пА индуктивно:
— для произвольного хО € С([1°, т°], Ега) положим ХХА(х(^)) := и° € V;
— пусть для некоторого г € 0..(п& - 2) при всех хО € С([1°, тг], Кга) определено значение ХХ^(х(-)) г-того элемента обратной связи ХХЛ, тогда для всех х(^) € С([1°, тг+\], Кга) определим значение ХХг+1(х(-)) условием
ХХ ¿+1(х(^)) € аЩшпи(х( ^^Й^Т^^Т ) . + иет \ ХГ(х(^т0,п]) /
6. Отдельные результаты для случая терминального показателя качества
В данном пункте приводятся свойства функционала оптимального результата и функции риска, при программных ограничениях на помеху в случае терминального показателя качества: для всех хО € С(Т, Мга)
ф(^)) = а(х($)), (6.1)
где функция а(^) : Кга м К локально липшицева, В частности, для всех х,х' € выполнено неравенство
1<г(х) - а(х')| ^ La\\х - х\\.
6.1. Интегральная форма функции оптимального риска
Лемма 6,1, Существует константа Lp = LP(G) ^ 0 такая, что для, любых элементов у(^) € V, (Ь1, х\), (Ь2, г2) € G выполнено неравенство
\р(11, г1, у() р(р 2, г2, у(0)| ^ Lp(| ^ - 121 + \\^ - г2\\). (6.2)
с, 24) и определения множества X(Ь*, г*,Ы, у() (см, (1.6)): эта функция является поточечной нижней гранью семейства равностепенно (по параметрам и(^), у() липшицевых
( *, *)
^ э (г*, г*) м <р(г*, г*) := а(х(&, и, г*,и(^), у(^))) € К | и(^) € Ы^.
В самом деле, пусть для определенности Ь2 ^ ¿ь При т £ \Ъ2 обозначим
Ах(т) := Х\(г) - х2(т), где Хх{г) := х{т,и,г1,и^),ь^)), х2(т) := х{г,12,х2,и(),ь()).
Тогда
t2
\\Ах(т)\\ ^ \\Х1 - г2\\ +1 \\!(з,х1(з),и(з),у(з))\аз +
tl
+ J
t2
f (s,Xi(s),u(s),v(s)) - f (s,x2(s),u(s),v(s))
ds,
или
где
\\Ах(т)\\ ^ к(|11 - t2l + \\Z! - Z2\\) + Lf\\Аф)\\^
t2
к = K(G):=max{1, max If (t,x,u,v)H}.
(T,x,u,v)eGxVxQ
Отсюда, в силу неравенства Гронуолла [15, теорема 11.4,4], для произвольного г е [t2,$\ получим неравенства
\\АХ(т)\\ ^ К- hl + \\Zl - Z2\\) +
т
+ exp (Lf (ti - t2)) j Lf x(|ii - t2l + \\zi - Z2\\) ds ^ t2
< K(lti - t2l + \\zi - Z2\\)(1 + Lf (& - t2) exp(Lf (& - t2))),
из которых следует, что для любой функции <р из вышеуказанного семейства и любой пары позиций (ti,zi), (t2,z2) Е G верпа оценка
I^(ti,Zi) - (p(t2,Z2)I := О- (x{ß,ti ,Zi,u(^),v(^))) - а (x(l&,t2,Z2,u(^),V^))) ^
^ La\\ Ах(#) \\ ^ Lax(lti - t2l + \\Zi - Z2 \\)(1 + Lf (# - t2) exp(Lf (д - t2))) :=
:= LpUti - t2l + \\zi - Z2\\).
Таким образом, установлена равномерная по и(^) Е U и v(^) Е V липшицевость рассматриваемого семейства функций. При этом из оценок вытекает вид мажоранты для константы Липшица Lp:
Laк(1 + Lf (& - t2) exp(Lf ($ - t2))).
□
Пусть v(^) Е V, (т,х) Е G,w Е Rra; обозначим
dp(r,x,vO)) p(r + £,x + ew,v(•)) - p(r,x,vO))
-—---:= lim -.
О [1,w\ £^+0 £
Если предел справа существует, то будем говорить, что функция p(^,v(^)) : G ^ R имеет в позиции (т, х) производную по направлению (1,w).
Пусть z0 Е G0, U Е S и ж(-) Е X(z0, U, v(^)). Движение £(•): Т ^ Rra, в силу определения, дифференцируемо при п.в. т Е [i0, ; обозначим х(т) производную движения ж(-) в точке дифференцируемости т.
Лемма 6,2, Для любых г0 € Со, и € Я, у(-) € V ж(-) € X(г0, и, функция
др(з,х(з),у(-))
5 н>
д[1,ЗД]
определена почти всюду на, интервале [¿0 ,Щ, измерима, и интегрируема по Лебегу на этом, интервале. При, этом, выполняются равенства,
19
фо, и)= 8ир
х(-)еХ(го,и,ь(-))
(6.3)
фо) = т£ вир [--г . . .-¿8.
^(.)€У 7 5 [1, х (в)] ж(-)ех(.20,их-))
(6.4)
Доказательство. Пусть выбраны произвольные го € Со, г»(-) € V, и € Я и х(■) € € X(го, и, у(-)). Тогда функция т м- р(т,х(т), ь(-)) в силу леммы 6.1 является абсолютно непрерывной, а значит, почти всюду дифференцируемой и представимой в виде интеграла собственной производной [15, 1.4.42]:
р(т,х(т), у(-)) = р(г0,х(г0), у(-)) + j р'а(в,х(в), ю(-))йв.
¿0
Рассмотрим полную производную функции т ^ р(т,х(т), у(-)) в лотках т € [¿о,$)> где существуют производные £(т) и р'т(т,х(т), у(-)) (множество тех т, где хотя бы одна из указанных производных не существует, имеет нулевую меру):
р(т + £,X(T + £), У(-)) - р(т,x(т), У(-)) = е^+0 £
= Ит Р(Г + £,Х(Т) + £X(T), У(-)) — р(T,X(T), О) + е^+0 £
+ Р(Т + £,X(T + £), У(-)) — Р(Т + £,Х(Т) + £X(т), У(-)) ^ ^
Левый предел существует и конечен. Значит, если одно из слагаемых в правом пределе сходится к конечной величине, то второе слагаемое также имеет конечное предельное значение и в сумме эти два предела равны значению предела слева. Оценим второе слагаемое. Из определения дифференцируемое™ функции ж(-) в точке т и неравенства (6.2) при всех достаточно малых £ > 0 получаем
р(т + £, х(т + £), у(-)) - р(т + £, х(т) + £х(т), у(-))
<
х(т + £) — х(т) — £х(т)
Ьг,
£0(т, е)
Ьр\0( т, е)\,
где величина 0(т, е) такова, что Ит£^0О(т, £) = 0 для мех тех т, в которых дифференцируема функция ж(-). Следовательно, второе слагаемое сходится к нулю при любом из указанных моментов т € [¿0,$). Значит, первое слагаемое в правой части (6.5) при
т
др(т,x(т), у(-))
всех таких т имеет предел, Этот предел, по определению, равен -—---:-, хаким
а[1, х(т)]
образом, для почти всех т € [¿0,$] выполняется равенство
л (тмт)л ,(.)) =а» ^
о [1,х{т)]
а значит, выполняются все указанные в лемме свойства функции
др(8,x(s), у(-))
о |_у _
д[1,ЗД] ,
и при всех т € \Ъ0,$] верны соотношения
т
Р( т,х(т), у(-))=р(10,х(10), <)) + / Л(-)) ¿8. (6.6)
0
Последнее равенство при т = $ может быть переписано в виде
19
0
Так как соотношение (6.7) верно при любых г0 € С0, у(-) € V, и € Я, ж(-) € X(г0, и, г>(-)), утверждения (6.3), (6.4) следуют из равенства (6.7) и определения риска стратегии и и минимального риска в классе Я при программных ограничениях на помеху (см. (1.29), (1.30)). " □
Из равенства (6.7) можно также получить еще одно представление программных конструкций из пункта 4 для рассматриваемого здесь важного частного случая.
Отталкиваясь от определения (4.3), для всех t G Т, v(-) G V, x(-) G X(G0) можем записать
£<0(x(■), <)):= suP inf Ъ((х,х' )t(■), (v ,v')t(-)) = v'(-)ev x (-)e
X (t,x(t),U ,v'()
= sup inf Г др(S, ^)t(*\^')t()) ds. (6.8) v'(-)ev x(-)e Jtо д[1, (x,XMs)\
X( t,x(t),U ,v'())
граммпого максимипа функционала сожаления:
4(x("), <)) =
= sup inf (Гдр( s ,x(s) (v ,v ')t(')) ds + Гdp(s ,X (s),v '()) ds\ =
v'(-)pv x'(-)e Vt о д [1,х(*0\ Jt д[1, xX'(s)\ J
X (t ,x(t),U, v' (■))
= sup ГГ* др(8 ,X(S), (У ^ 'М-)) ds + inf p др(8,X (^ '(■)) ds | =
X (t,x(t),U ,v'(■))
= sup { Г ds+ inf a(x'(tf))-p(t,x(t),t/(-))| =
U,„ д 11, s )l x(.)C J
v'(0eW to д [1,х(*0\ x (■)€
X (t,x(t),U ,v'(■))
/* дР(8,x(8), (v,a(-)) d
sup -ян м-ds.
v'OevJto д [1,x(^\
6.2. Локальное свойство оптимального результата в регулярном случае
Отметим также одно свойство [38] семейства {p(-,v(-)) | v(-) £ V} оптимальных результатов, имеющее место в риск-регулярном случае. Для любых е > 0 а £ Rn, b £ comp(Rn) обозначим
М(a, b, е) := {х £ b | (х, а) ^ min (у, а) + е||а|| ■ diam(6)},
у&
где diam(6) обозначает диаметр множества b С Rn:
diam(6) := sup \\х - у\\.
x,y,&
Пусть В С 2К" — некоторое семейство подмножеств.
Определение 6,1, Элементы а1,а2 £ Rn назовем В-коллинеарными, если для любого е > 0 найдется ö > 0 такое, что
М(а1,Ь,е) П М(а2,Ь,е) = 0 для всex b £ В, diam(6) ^ 5.
Замечание 17. В отдельных случаях В-коллинеарность влечет коллинеарность. Например, пусть В есть последовательность евклидовых шаров с радиусами стремящимися к пулю. Тогда из условия В-коллипеарпости элементов a\,ü2 £ Rn следует равенство (0,1,0,2) = = \\ а\ \\ ■ \\ а,2 \\ , эквивалентное коллинеарности а\, 02-Для (t,z) £ G обозначим
A(t,z):= {X(t*,z*,U,v(^))lt Э z I (t*,z*) £ G,v(■) £ V}.
Теорема 6,1, Пусть для системы, (1,1) и показателя качества, (1,26) в позиции (t,z) £ G выполнено условие (5,2), функции
p(t, ■МУ, p(t, ■,V2(■)): GIt^ R
дифференцируем,ы, в точке z и векторы g1,g2 £ Rn представляют соответствующие градиенты,. Тогда, g\,g2 A(t, г)-коллинеа,рны.
Доказательство. Предположим противное: нашлись £ V, (t,z) £ G, £0 > 0
и последовательность {bi | г £ N} С A(t, z) такие, что lim^^ diam^) = 0 и
М(g1,bi,e) П М(g2,bi,е) = 0, г £ N, (6.9)
где g1,g2 £ Rn — градиенты фун кций p(t, ■,v1(■)), p(t, ■, v2(^)) в точке z соответственно. По определению, bi = X (t*i , U ,v,i(^))It для не которых (t*i ) £ G, vi(^) £ V, i £ N. Обозначим
Rij := {x(t) | x(^) £ argmin ^(x'(■))}, x ()ex (t *i, z*i ju ,vij (•))
Aij := argmin p(t,x,Vij(■)), xex (t *i, z*i,u ,vij (-))|t
i \ \Vi(T ), T £ [t*i ,t), TNT p.
VH(t):={ Ч £ и а/ * £ N, 3 = 1, 2.
Из определений и свойства
P(U,z*,v()) = шт p(t,z,v(^)) (6.10)
z€X( t*,z*,U ,v(^))|t
функции оптимального результата получим включения
Rij QAih i G N, j = 1,2. (6.11)
Для множеств R^ в силу условия (5.46) справедливы соотношения
Ril nR.2 = 0, i G N. (6.12)
Из включений (6.11) и неравенств (6.12) следуют неравенства
Ail П Ai2 = 0, г G N. (6.13)
p(t, ■, t;(i)(-)) : R ^ R
имеем равенство
У II P(t ,z + X, WO) - P(t - <9i,x)I =n.
li^^ sup || || — u.
xebi-z I|x|
lkll>o
здесь bj, — z := {x = у — z I у G bi}. Следовательно, для любого 8 > U найдется ^(i) G N такое, что при всех х G bi — z, г > il(8), будет выполнено неравенство
II p(t, z + х, V(i) (■)) — p(t, z, W(i)O) — <gi,x)II ^ 8 diam( bi). (6.14)
> l( )
min {p (t ,z + X, V(i)(^)) — p(t ,z, f(i)(^))} ^ min <gi,x)H + idiam(6i). (6.15)
xe bi—z xebi-z
G Aii Aii
> i( )
<9 ъУ — z) ^ P(t ^(i)(^)) — P(t W(i)(^)) + ¿diam( bi) ^
^ min {p(t, z + x, W(i)O) — p(t, z, W(i)O)} + 8 diam(bi) ^
xe bi—z
^ min <gi,x) + 28 diam(bi)
xeb i—z
пли
<91, У) ^ min <gi,х) + 28 diam(bi), г > ii(8), xe bi
откуда при любом e > 0 то определению множества М(дi, bj,, е), следует
У G М(gi, k, е), i > ц(еIIgi Ц/2).
G Aii > u
Aii СМ (gi, е), г> ц(е Ц giH/2). (6.16)
Такими же рассуждениями можно показать, что для некоторого отображения
г2(-): (0,1\ ^ N
при всех е > 0 выполняются неравенства
Ai2 С М(92, bi, е), г > I2(eI^Ц/2). (6.17)
Выберем i0 из условия i0 > max{zi(eoIgih/2), i2(е0ЦдЛ/2)}. Тогда из (6.16), (6.17) и предположения (6.9) будет следовать Aioi n Aio2 = 0, противоречащее неравенствам (6.13). □
7. Приложение
В этой части приводятся известные результаты, используемые в настоящей работе, источники или доказательства которых автору не удалось найти либо если эти результаты используются в модифицированной форме.
Пусть А(-) — мера Бореля на вещественной прямой R.
Теорема 7.1. Для произвольного Vc Е comp Lp(T;Rq)(V) справедливо равенство
lim sup \\v(s + 6) — u(s)||ds = 0. (7.1)
s^°vnevc J T
В частности, для, любой v(^) Е V выполнено
lim J \\^(S + 6) - = 0. (7.2)
T
Доказательство. Положим T\ :=[t0 — 1,$ +1] и всякую функцию v(^) s V будем считать продолженной на множество нулем пространства R:
v(t) :=0 Е R, т Е Тг\Т.
Обозначим
т+h
vh(r):=2jljv(s) ds, т Е Т, h Е (0, 0.5),
т-h
функцию Стеклова для произвольной v(^) Е V (см. [17, с. 457]). Оценим величину под знаком верхней грани в (7.1) при ö ^ 0.5:
J \Hs + 5) — u(s)\\ds ^
T
^ J(Ks + 5) — Vh(s + 5)\\ + \\vh(s + 5) — ^h(s)\ + \\vh(s) — ф)\\) ds ^
T
^ J(\\ф + S) — Vh(s + ¿)\\ + \\vh(s) — u(s)\\) ds + J \\vh(s + 6) — ^h(s)\ ds.
T T
Для произвольного £ > 0 выберем h(e,Vc) > 0 таким, чтобы для всех h ^ h(e,Vc), v(^) Е Vc, 5 ^ 0.5 выполнялась оценка
У (\\V(8 + Ö) — Vh(s + 5) \\ + \\vh(s) — v(s) \\) ds ^ £. (7.3)
T
Это всегда можно сделать в силу критерия Колмогорова компактности множеств в L2(T; W) (см. [17, теорема 6, с. 460]). Зафиксируем произвольное h ^ h(e,Vc). Можно проверить, что множество {vh(•) | v(^) Е V} функций Стеклова для ограниченного в чебышёвекой норме множества V будет компактным в С(Т; R), И следовательно, в силу теоремы Ас коли-Ар цел а его элементы будут равностепенно непрерывными. Значит, найдется 6(£, V, h) > 0, для которого при всех ö ^ 6(£, V, h) и всех v(^) Е V будут выпол-
j \k(s + S) — Vh(в)\\Ж ^ £. (7.4)
T
Из оценок (7,3), (7,4) следует, что для произвольного е > 0 при всех 8 ^ 8(е, Ус, к) и всех ■и(•) € Ус будут выполнены неравенства
J ||у(8 + 8) - у(8)||^ ^
т
< /(||У(8 + 8) - У-Н( в + ¿)|| + ||Ъ( 5 + 6) - %(8)|| + ||8) - У(8)||) ¿8 ^ в,
т
что эквивалентно равенству (7,1), Соотношение (7,2) следует из (7,1), так как одноэлементные множества в Ь2(Т; М) компактны, □
Пусть с € [1/2, и А С М — произвольное измеримое множество. Обозначим
т / ч Г/ ™2 , , шах{|6 — т\,\а — т|) 1
Цт) := ^ (а, Ь) € М2 | Ь> а,-^Ц---- ^с } , т €
[ Ь - а )
интервала [1/2, +то) данное определение ведет к одному и тому же множеству А.
Теорема 7,2, Для произвольного измеримого по Лебегу множества А С Ем параметра с € [1/2, справедливы, равенства,
А(АДАС) := А((А\АС) и (АС\А)) = 0. (7.6)
Замечание 18. Элементы множества N называют точками плотности множества А. Для случая с = 1/2 (т - а = Ь - т) доказательство этой теоремы приводится в [17, гл. IX, § 6] и [39, теорема 3.20].
Доказательство. Выберем произвольное ¿0 € Ей рассмотрим абсолютно непрерывную функцию Л : М м М вида
АСТ € М Иш А(АП ^ =1 (7.5)
с ' «.ь^г Ь - а '
(а,Ь)е1с(т )
¿0 ^
где ха (•) _ индикаторная функция множества А. Из теоремы Лебега о производной абсолютно непрерывной функции следует, что для п.в, г € М функция Л(-) будет иметь производную в точке т, равную величине ха (т) ■ Обозпачим Т>а С М множество точек дифференцируемое™ функции Л(-). Значит, для каждого г € Ра найдется функция От (•) : Мм М такая, ч то Ищ; От ($) = 0 и для люб ых а,Ь € М
А(а) = Л(т) + (а - т)ха(т) + (а - т)От(а - г), А(Ь) = Л(г) + (Ь - т)ха(т) + (Ь - г)От(Ь - г).
- а а, € с( )
соотношения
(Ь - т)От(Ь - г) - (а - т)От(а - г)
Л(Ь) - Л(а) ( ) - Ха(Т)
а
а
<
шахЦЬ — т|,|а —. ..
^ -11 , 1 , 1-^(|От(а - г)| + | От(Ъ - г)|) ^
а
^ с(|От(а - г)| + |От(Ь - г)|).
Следовательно, для т £ Va выполняется равенство
Л(Ь) - Л(а) )
lim -1-= Хл(т)-
а,Ь^т b — а
(а,Ь)е1с(т )
Учитывая определение функции Л(-), последнее утверждение можно переписать в виде
Х(А П [а, Ь]) . . ^ lim ( [ , ]) =ха(т), t£Va. а,Ь^т b — а
( а, Ь)е1с(т )
Это соотношение показывает, что при п.в. г £ А выполняется т £ А'с и, наоборот, при п.в, т £ Ас выполняется т £ А.
Таким образом, справедливы равенства (7,6), □
Доказательство приводимой ниже теоремы использует рассуждения из [2, § 7; 40, § 1], Теорема 7,3, Пусть (т*, zk) £G, т* £ [т*,$], ик (•) £U, v* £ Q, и
[хк (•) = х(•, т*, zk ,ик (•), V*) \ к £ N}
[ *, *]
жению х*(•). Тогда движение х*(•) является решением дифференциального включения
Х*(т) £Ти(т,х*(т), V*) для п.в. т £ [т*, т*], где Ти(т,х, v*) := coRn{f £ Rra : f = f(т,х,и, v*),u £ V}.
Доказательство. Из условий, наложенных на систему (1.1), следует, что последовательность {хk(•) : к £ N} производных по времени этих пошаговых движений ограничена равномерно при п.в, т £ [т*, т*] константой к:
supvraimax \\хск (т)|| ^ к := max \\ f(т,х,и, г>)\\. keN теЬ-^тЧ (т,х)ес
иет ,veQ
Отсюда следует, что предел этой последовательности х*(-) есть функция абсолютно непрерывная, а сама последовательность ограничена в сильной норме пространства L2([t*, г*]; Rra). По теореме [41, гл. V, §2] и в силу рефлексивности L2([t*, г*]; Rra) существует слабо сходящаяся подпоследовательность этой последовательности. Для упрощения обозначений будем считать, что сама последовательность {хк(•) : к £ N} сходится в слабом смысле к некоторому элементу хх^(•) £ L2([t*, т*]; Rra), В силу абсолютной непрерывности движения х*(-) при всех т £ [т*, т*] получим равенства
/ хх*(s)ds = х*(т) — х*(т*) = lim(xk(т) — хк(г*)) = lim / ххк(s) ds = / ххж(s)ds,
J k—x к—ж J J
T* T* T*
где X*(т) — производная по времени движения х*(-). Из этих равенств следует, что
X*(т) = х<х(т) при п.в, т £ [т*, т*]. (7,7)
Каждый элемент последовательности {хк(•) : к £ N} удовлетворяет равенству х к (г) = f( т,хк (т),ик (т), v*) при п. в, т £ [т*, т*},
Т
и, значит, при п.в. т Е [ т*, г*] для любо го к Е N будет выполнено включение
хк(г) ЕТи(т,хк(т),V*). (7.8)
Используя теорему Каратеодори [15, п. 1.6.2], можно показать, что при любых значениях т Е [г*, т*] и v* Е Q в силу непрерывности правой части (1.1) по совокупности аргументов отображение G|r э х м Fu(т,х, v*) Е 2R" полунепрерывно сверху по включению (см. [15, п. 1.7]).
Из этого свойства и включений (7.8) следует, что выполняются соотношения
lim х к (г) Е Т( т,х*(т), v*) при п. в. т Е [ т*, г*]. (7.9)
к^-х
По теореме Мазура [41, гл. V, §1, теорема 2], функция хх(-) есть сильный предел последовательности конечных выпуклых комбинаций элементов последовательности {хк(•) : к Е N}. Так как при любом j Е N последовательность {хк(•) : к Е N, к ^ j} тоже слабо сходится к хх(0, то можно построить последовательность конечных выпуклых комбинаций
(ОО := ^ О 1 ^ ^ = 1, «ij > 0, ки > 3, гЕ !..щ, j Е N) (7.10)
i€1..rij i£1..rij
из элементов последовательности {хк(•) : к Е N} такую, что
1|х~0 - & (•)|L2([r*>r*];R») ^ Г1, 3 Е N. (7.11)
Из сильной сходимости (7.11) следует существование подпоследовательности последовательности {(•): j Е N}, сходящейся почти всюду на [т*, г*] к функцни х (см. [15, теорема 1.4.18]; для упрощения обозначений будем считать сходящейся в этом смысле саму последовательность):
lim £j(г) = хх(т) при п.в. т Е [г*, г*]. (7.12)
j^x
Покажем, что для последовательности {(•) : j Е N} справедливо также включение lim (г) Е Tu(т,х*(т), v*) при п.в. т Е [г*, г*]. (7.13)
j^x
Пусть для f Е [г*, т*] верно включение (7.9), и пусть задано произвольное е > 0. Тогда существуют к(е, f) Е N и {fк Е Tu(f,х*(f), v*) : к > к(е,т"),к Е N}, удовлетворяющие неравенствам
1|хк(f) — fk:|| при всех к >к(е,f). (7.14)
Пусть j > к(е ,f) и (j := а^ fkij, где коэффициенты а^ взяты из определения эле-
iG1 ..nj
мента (•) (см. (7,10)), По определению множества Tu(f, х*(т"), v*), элементов (•) и в силу неравенств (7,14) получим соотношения
О Е Tu(f,х*(f), V*), 110(f) — о11 ^ Y1 а^'||х кц(f) — 11 < ^
iG1..nj
обеспечивающие выполнение включений (7,13),
Соотношения (7,7), (7,12) и (7,13) в совокупности показывают справедливость включения (7,7) для движения х*(-):
х*(т) = хх(т) = lim (г) Е Tu(т,х*(т), v*) для п.в, т Е [г*, г*],
j^x
что завершает доказательство, □
Теорема 7,4, Пусть имеется ограниченная двойная последовательность элементов {ciij Е В | i,j Е N} в банаховом пространстве В. Пусть существуют пределы
lim aij = bi ЕВ, lim aij = dj Е В, lim bi = с Е В, i,jE N, (7,15)
j—x i—x i—x
и первый предел достигается, равномерно по г Е N. Тогда,
lim aij = с (7,16)
i—x j—x
и, в частности,,
lim dj = с. (7.17)
j—x
Доказательство. Выберем произвольное е > 0. В силу равномерной сходимости первого предела (7.15) найдем Nl(e) такое, что
IIЬг -агз\\в <£/2, j>Ni(e), гЕ N.
В силу третьего равенства в (7.15) найдется N3(e) такое, что
\\с- Ьг\\в < е/2, г > N3(e).
Таким образом, если i,j > max{Nl(e), N3(e)}, то
\\с- ац\\б ^ \\с- Ьг\\в + IIЫ - ац\\Б < £,
Выберем произвольное е > 0 и в силу сходимости (7.16) найдем N4(e) такое, что
\\с- CLij\\в < s/2, i,j>N4(e).
В силу второго равенства в (7.15) для всякого j Е N найдется N2(j, е) такое, что
\\агз -dj\\в < е/2, j Е N, ъ>Щ(],е).
Пусть теперь j > N4(e), а г > max{N2(j, е), N4(e)}. Тогда
\\с - djЦв ^ \\с - aij\\Б + \\а^ - dj\\Б < ^
что с учетом произвольного выбора е эквивалентно равенству (7,17), □
Следствие 7,1, Пусть имеется, ограниченная двойная последовательность элементов {aij Е В I i,j Е N} в банаховом, пространстве. Пусть существуют пределы
lim aij = bi ЕВ, lim aij = dj Е В, lim a^u) = с Е В, г,]Е N, (7,18)
j — X i—X i—X
при этом, первый предел достигается, равномерно по г Е N, а, в третьем, используется произвольная, возрастающая последовательность индексов
lim j(i) = ж. (7.19)
i—x
Тогда, справедливы равенства (7.16), (7.17).
Доказательство. Выберем произвольное е > 0, В силу равномерной сходимости первого предела в (7,18) и бесконечного предела последовательности индексов (7,19) найдется N1(e) такое, что
||h — aij(i)HB < s/2, i>N1(e). В силу третьего равенства в (7,18) найдется N3(e) такое, что
||c-aij(i)||B <е/2, i>N3(e).
Таким образом, если г > max{N1(e), N3(e)}, то
||с- кЦв ^ ||с- a,ij(i)H в + ||bi - а^)||в < е,
lim i = .
i^x
Мы доказали, что выполняются условия теоремы 7,4 и, следовательно, верны равенства (7.16), (7.17). □
Список литературы
1. Айзеке Р. Дифференциальные игры. М.: Мир, 1967. 480 с.
2. Красовский H.H. Лекции по теории управления. Вып. 3. Дифференциальные игры. Свердловск: Уральский государственный университет им. A.M. Горького, 1970. 88 с.
3. Красовский H.H., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. 456 с.
4. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. М.: Наука, 1981. 288 с.
5. Красовский H.H. Управление динамической системой. М.: Наука, 1985. 520 с.
6. Krvazhimskii A.V. The problem of optimization of the ensured result: unimprovabilitv of full-memory strategies // Constantin Caratheodorv: An International Tribute. 1991. P. 636-675.
7. Барабанова H.H., Субботин А.И. О непрерывных стратегиях уклонения в игровых задачах о встрече движений // Прикл. матем. и мех. 1970. Т. 34. № 5. С. 796-803.
8. Барабанова H.H., Субботин А.И. О классах стратегий в дифференциальных играх уклонения от встречи // Прикл. матем. и мех. 1971. Т. 35. № 3. С. 385-392.
9. Красовский H.H. Игровые задачи о встрече движений. М.: Наука, 1970. 420 с.
10. Красовский H.H., Субботин А.И. О структуре дифференциальных игр // Докл. АН СССР. 1970. Т. 190. № 3. С. 523-526.
11. Красовский H.H., Субботин А.И. Альтернатива для игровой задачи сближения // Прикл. матем. и мех. 1970. Т. 34. № 6. С. 1005-1022.
12. Niehans J. Zur Preisbildung bei ungewissen Erwartungen // Schweizerische Zietschrift fur Volkswirtschaft und Statistik. 1948. Vol. 84. No. 5. P. 433-456.
13. Savage L.J. The theory of statistical decision // Journal of the American Statistical Association. 1951. Vol. 46. No. 253. P. 55-67. DOI: 10.1080/01621459.1951.10500768
14. Salmon David M. Policies and controller design for a pursuing vehicle // IEEE Transactions on Automatic Control. 1969. Vol. AC-14. No. 5. P. 482-488.
15. Варга Дж. Оптимальное управление дифференциальными и функциональными уравнениями. М.: Наука, 1977. 624 с.
16. Серков Д.А. Оптимальная гарантия при помехах, порожденных функциями Каратеодо-ри // Вестник Удмуртского университета. Математика. Механика. Компьютерные науки. 2012. № 2. С. 74-83.
17. Натансон И.П. Теория функций вещественной переменной. М.: Наука, 1974. 480 с.
18. Ченцов А.Г. Об игровой задаче на минимакс функционала // Докл. АН СССР. 1976. Т. 230. № 5. С. 1047-1050.
19. Субботин А.И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации. М.-Ижевск: Институт компьютерных исследований, 2003. 336 с.
20. Серков Д.А. Стратегии минимаксного риска (сожаления) в системе с простыми движениями // Труды ИММ УрО РАН. 2007. Т. 13. № 3. С. 121-135. http://www.mathnet.ru/links/76f25b7a5c5927a4c0fbl0bee62e3f84/timmlll.pdf
21. Субботина H.H. Универсальные оптимальные стратегии в позиционных дифференциальных играх // Дифф. уравнения. 1983. Т. 19. № 11. С. 1890-1896.
22. Серков Д.А. О неулучшаемости стратегий с полной памятью в задаче минимизации риска // Труды ИММ УрО РАН. 2013. Т. 19. № 4. С. 222-230.
23. Кряжимский A.B., Осипов Ю.С. О позиционном моделировании управления в динамических системах // Изв. АН СССР: Техн. кибернет. 1983. № 2. С. 51-60.
24. Osipov Yu.S., Krvazhimskii A.V. Inverse problems for ordinary differential equations: dynamical solutions. London: Gordon and Breach Publishers, 1995. 625 p.
25. Серков Д.А. Оптимальное по риску управление при функциональных ограничениях на помеху // Математическая теория игр и ее приложения. 2013. Т. 5. Вып. 1. С. 74-103.
26. Ченцов А.Г. К игровой задаче наведения // Докл. АН СССР. 1976. Т. 226. № 1. С. 73-76.
27. Ченцов А.Г. К игровой задаче наведения с информационной памятью // Докл. АН СССР. 1976. Т. 227. № 2. С. 306-309.
28. Ченцов А.Г. Итерационная программная конструкция для дифференциальной игры с фиксированным моментом окончания // Докл. АН СССР. 1978. Т. 240. № 1. С. 36-39.
29. Ченцов А.Г. Об игровой задаче сближения в заданный момент времени // Математический сборник. 1976. Т. 99 (141). № 3. С. 394-420.
30. Петросян Л.А., Чистяков С.В. Об одном подходе к решению игр преследования // Вестник ЛГУ. Математика. Механика. Астрономия. 1977. Т. 1. С. 77-82.
31. Чистяков С.В. К решению игровых задач преследования // Прикл. матем. и мех. 1977. Т. 41. № 5. С. 825-832.
32. Чистяков С.В. О функциональных уравнениях в играх сближения в заданный момент времени // Прикл. матем. мех. 1982. Т. 46. № 5. С. 874-877.
33. Чистяков С.В. Программные итерации и универсальные е-оптимальпые стратегии в позиционной дифференциальной игре // Докл. АН СССР. 1991. Т. 319. № 6. С. 1333-1335.
34. Чистяков С.В. Операторы значения в теории дифференциальных игр // Известия Института математики и информатики УдГУ. 2006. № 3 (37). С. 169-172.
35. Чистяков С.В., Никитин Ф.Ф. Теорема существования и единственности решения обобщенного уравнения Айзекса-Беллмана // Дифференц. уравнения. 2007. Т. 43. № 6. С. 757-766.
36. Меликян А.А. Цена игры в линейной дифференциальной игре сближения // Докл. АН СССР. 1977. Т. 237. № 3. С. 521-524.
37. Ухоботов В.И. Построение стабильного моста для одного класса линейных игр // Прикл. матем. и мех. 1977. Т. 41. № 2. С. 358-364.
38. Серков Д.А. Сильно оптимальные стратегии // Доклады АН СССР. 1991. Т. 321. № 2. С. 258-262.
39. Окстоби Дж. Мера и категория. М.: Мир, 1974. 160 с.
40. Филиппов В.В. О теории задачи Коши для обыкновенного дифференциального уравнения с разрывной правой частью // Математический сборник. 1994. Т. 185. № 11. С. 95-118.
41. Иосида К. Функциональный анализ. М.: Мир, 1967. 624 с.
Поступила в редакцию 31.08.2014
Серков Дмитрий Александрович, д. ф.-м.н., старший научный сотрудник, Институт математики и механики им. Н. И. Красовского УрО РАН, 620990, Россия, г. Екатеринбург, ул. С. Ковалевской, 16;
доцент, Уральский федеральный университет им. первого Президента России Б.Н.Ельцина, 620002, Россия, г. Екатеринбург, ул. Мира, 19. E-mail: [email protected]
D. A. Serkov
Risk minimization under functional constraints on the dynamic disturbance
Keywords: full memory strategy, Savage criterion, functionally limited disturbance. MSC: 93C15, 49N30, 49N35
In this review the application of the Niehans-Savage criterion to control problems under dynamic disturbances is discussed: motivation and formulation of the risk minimizing problem are given; direct relations for the results in different classes of disturbance constraints and solving strategies are provided; the examples of solving process for various problems with this control criteria are given; the results obtained by using the Niehans-Savage criterion are compared with the results based on the classic minimax criterion; the conditions of unimprovability of the strategies with full memory are studied; the optimal risk function as a limit of iterative program construct for the functional of regret is presented; the regularity condition for this functional is given; some additional conditions on the control system to ensure the possibility of numerical implementation of the risk-optimal strategy are considered.
REFERENCES
1. Isaacs R. Differential games, New York: John Wiley and Sons, Inc., 1965, 384 p. Translated under the title Differentsial'nye igry, Moscow: Mir, 1967, 480 p.
2. Krasovskii N.N. Lektsii po teorii upravleniya. Vypu.sk 3. Differentsial'nye igry (Lectures on control theory. Issue 3. Differential games), Sverdlovsk: Ural State University, 1970, 88 p.
3. Krasovskii N.N., Subbotin A.I. Game-theoretical control problems, New York: Springer, 1988, xi+517 p.
4. Subbotin A.I., Chentsov A.G. Optimizatsiya garantii v zadachakh upravleniya (Optimization of guarantee in control problems), Moscow: Nauka, 1981, 288 p.
5. Krasovskii N.N. Upravlenie dinamicheskoi sistemoi (Control of a dynamic system), Moscow: Nauka, 1985, 520 p.
6. Kryazhimskii A.V. The problem of optimization of the ensured result: unimprovability of full-memory strategies, Constantin Caratheodory: an international tribute, 1991, pp. 636-675.
7. Barabanova N.N., Subbotin A.I. On continuous evasion strategies in game problems on the encounter of motions, J. Appl. Math. Mech., 1970, vol. 34, no. 5, pp. 765-772.
8. Barabanova N.N., Subbotin A.I. On classes of strategies in differential games of evasion of contact, J. Appl. Math. Mech., 1971, vol. 35, no. 3, pp. 349-356.
9. Krasovskii N.N. Igrovye zadachi o vstreche dvizhenii (Game problems on motion encounter), Moscow: Nauka, 1970, 420 p.
10. Krasovskii N.N., Subbotin A.I. On the structure of differential games, Dokl. Akad. Nauk SSSR, 1970, vol. 190, no. 3, pp. 523-526 (in Russian).
11. Krasovskii N.N., Subbotin A.I. An alternative for the game problem of convergence, J. Appl. Math. Mech., 1970, vol. 34, no. 6, pp. 948-965.
12. Niehans J. Zur Preisbildungen bei ungewissen Erwartungen, Schweizerische Gesellschaft fur Volkswirtschaft und Statistik, 1948, vol. 84, no. 5, pp. 433-456.
13. Savage L.J. The theory of statistical decision, Journal of the American Statistical Association, 1951, vol. 46, no. 253, pp. 55-67. DOI: 10.1080/01621459.1951.10500768
14. Salmon David M. Policies and controller design for a pursuing vehicle, IEEE Transactions on Automatic Control, 1969, vol. AC-14, no. 5, pp. 482-488.
15. Warga J. Optimal control of differential and functional equations, New York-London: Academic Press, 1972, 531 p. Translated under the title Optimal'noe upravlenie differentsial'nymi i funk-tsional'nymi uravneniyami, Moscow: Nauka, 1977, 624 p.
16. Serkov D.A. Optimal guarantee under the disturbances of Caratheodory type, Vestn. Udmurt. Univ. Mat. Mekh. Komp'yut. Nauki, 2012, no. 2, pp. 74-83 (in Russian).
17. Natanson I.P. Theory of functions of a real variable, New York: Frederick Ungar Publishing Co., 1955, 277 p.
18. Chentsov A.G. Game problem on minimax functional, Dokl. Akad. Nauk SSSR, 1976, vol. 230, no. 5, pp. 1047-1050 (in Russian).
19. Subbotin A.I. Obobshchennye resheniya uravnenii v chastnykh proizvodnykh pervogo poryadka. Perspektivy dinamicheskoi optimizatsii (Generalized solutions of partial differential equations of the first order. Perspectives of dynamical optimization), Moscow-Izhevsk: Institute of Computer Science, 2003, 336 p.
20. Serkov D.A. Minimax risk (regret) strategy in the system with simple motion, Tr. Inst. Mat. Mekh. Ural. Otd. Ross. Akad. Nauk, 2007, vol. 13, no. 3, pp. 121-135 (in Russian). http://www.mathnet.ru/links/76f25b7a5c5927a4c0fb10bee62e3f84/timm111.pdf
21. Subbotina N.N. Universal optimal strategies in positional differential games, Differ. Equations, 1983, vol. 19, pp. 1377-1382.
22. Serkov D.A. On the unimprovability of full memory strategies in the risk minimization problem, Tr. Inst. Mat. Mekh. Ural. Otd. Ross. Akad. Nauk, 2013, vol. 19, no. 4, pp. 222-230 (in Russian).
23. Kryazhimskii A.V., Osipov Yu.S. Position modeling of a control in a dynamical system, Izv. Akad. Nauk SSSR: Tekhn. Kibernet., 1983, no. 2, pp. 51-60 (in Russian).
24. Osipov Yu.S., Kryazhimskii A.V. Inverse problems for ordinary differential equations: dynamical
solutions, London: Gordon and Breach Publishers, 1995, xx+625 p.
25. Serkov D.A. Optimal risk control under functionally restricted disturbances, Matematicheskaya Teoriya Igr i Ee Prilozheniya, 2013, vol. 5, no. 1, pp. 74-103 (in Russian).
26. Chentsov A.G. On a game problem of guidance, Sov. Math., Dokl., 1976, vol. 17, pp. 73-77.
27. Chentsov A.G. On a game problem of guidance with information memory, Sov. Math., Dokl.,
1976, vol. 17, pp. 411-414.
28. Chentsov A.G. An iterative program construction for a differential game with fixed termination time, Sov. Math., Dokl., 1978, vol. 19, pp. 559-562.
29. Chentsov A.G. On a game problem of converging at a given instant of time, Mathematics of the USSR-Sbornik, 1976, vol. 28, no. 3, pp. 353-376. DOI: 10.1070/SM1976v028n03ABEH001657
30. Petrosyan L.A., Chistyakov S.V. On one approach to solving games of pursuit, Vestnik LGU. Mat. Mekh. Astron., 1977, vol. 1, pp. 77-82 (in Russian).
31. Chistyakov S.V. On solving pursuit game problems, J. Appl. Math. Mech., 1977, vol. 41, no. 5, pp. 845-852.
32. Chistyakov S.V. On functional equations in games of encounter at a prescribed instant, J. Appl. Math. Mech., 1982, vol. 46, no. 5, pp. 704-706.
33. Chistyakov S.V. Programmed iterations and universal e-optimal strategies in a positional differential game, Sov. Math., Dokl., 1992, vol. 44, no. 1, pp. 354-357.
34. Chistyakov S.V. Operators of the value in the theory of differential games, Izv. Inst. Mat. Inform. Udmurt. Gos. Univ., 2006, no. 3 (37), pp. 169-172 (in Russian).
35. Chistyakov S.V., Nikitin F.F. Existence and uniqueness theorem for a generalized Isaacs-Bellman equation, Differ. Equations, 2007, vol. 43, no. 6, pp. 757-766.
36. Melikyan A.A. The value of a game in a linear differential game of convergence, Sov. Math., Dokl., 1977, vol. 18, pp. 1457-1461.
37. Ukhobotov V.I. Construction of a stable bridge for a class of linear games, J. Appl. Math. Mech.,
1977, vol. 41, no. 2, pp. 350-354.
38. Serkov D.A. Strongly optimal strategies, Sov. Math., Dokl., 1992, vol. 44, no. 3, pp. 683-687.
39. Oxtoby J. Measure and category, New York: Springer-Verlag, 1971, 96 p.
40. Filippov V.V. On the theory of the Cauchy problem for an ordinary differential equation with discontinuous right-hand side, Russ. Acad. Sci. Sb. Math., 1995, vol. 83, no. 2, pp. 383-403.
41. Yosida K. Functional analysis, Berlin-Heidelberg-New York: Springer-Verlag, 1965, 458 p. Translated under the title Funktsional'nyi analiz, Moscow: Mir, 1967, 624 p.
Received 31.08.2014
Serkov Dmitrii Aleksandrovich, Doctor of Physics and Mathematics, Senior Researcher, Institute of Mathematics and Mechanics named after N. N. Krasovskii, Ural Branch of the Russian Academy of Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620219, Russia;
Associate Professor, Ural Federal University named after the first President of Russia B. N. Yeltsin, ul. Mira, 19, Yekaterinburg, 620002, Russia. E-mail: [email protected]