2011
ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА
Математика. Механика. Информатика Вып. 4(8)
УДК 519.6
Построение наилучшей гарантирующей стратегии игрока в одной антагонистической игре с недифференцируемой ценой
С. В. Лутманов
Пермский государственный национальный исследовательский университет Россия, 614990, Пермь, ул. Букирева, 15 [email protected].; (342)239-63-09
Рассматривается дифференциальная игра "наведения-уклонения" на гладкой горизонтальной плоскости в классе позиционных стратегий. Показано, что не для всех позиций ее цена является непрерывно дифференцируемой функцией. Для реализации оптимальной стратегии первого игрока в работе строится стабильный мост этого игрока, сечение которого в финальный момент времени совпадает с целевым множеством. Оптимальное управление осуществляется игроком в форме экстремального прицеливания на построенный мост.
Ключевые слова: дифференциальная игра; стабильный мост; цена игры; экстремальное прицеливание.
Введение
Известно, что функция цены в антагонистических дифференциальных играх является непрерывной, но необязательно непрерывно дифференцируемой функцией. В случае ее дифференцируемости эффективным методом построения оптимальных стратегий игроков служит принцип перехода Р.Айзекса [1], реализация которого сводится к интегрированию дифференциального уравнение Белл-мана - Айзекса. В противном случае строить допустимые (гладкие) позиционные стратегии игроков, обеспечивающие седловую точку в игре, не удается.
В книге [2] указанные стратегии реализуются в форме экстремального прицеливания на соответствующие стабильные мосты. В статье на примере конкретной дифференциальной игры с недифференцируемой ценой демонстрируется возможность применения данного подхода для ее решения
1. Постановка дифференциальной игры
Рассмотрим динамический конфликтно управляемый объект
© С. В. Лутманов, 2011
*1 = х3, Х2 = х4, Х3 = и1 + v1, Х4 = и2 + v2, (1.1)
і Т], х (0) = ^ х2 (0) = х
V =
^ х4 ( 0) = Х40 ,
є Р = |и є R2| ||и|| ^,
IИ ], и[]Ых,2 (Т)+ х22 (т) .
гхЛ
х3 (
Г и '
и =
V И2 у
Г VI Ї
1 є б
V V У
Здесь х =
х.
V Х4 У
є R4 — фазовый вектор игры,
' е ['о.Т ]- текущее время, и, V е Я — векторы управляющих параметров первого и второго игроков соответственно, I — функция платы, минимизируемая первым игроком и максимизируемая вторым игроком.
Описанная здесь конфликтная ситуация допускает следующую физическую интерпретацию. Материальная точка единичной массы, управляемая двумя игроками, движется по
2
3
гладкой горизонтальной плоскости. Каждый игрок в любой момент времени может воздействовать на точку, прикладывая к ней силу, произвольную по направлению и ограниченную по величине. Цель первого игрока - минимизировать в конечный момент времени геометрическое расстояние от управляемой точки до начала координат, а второго игрока -максимизировать это расстояние.
2. Принцип перехода Р. Айзекса
Предполагая, что цена игры является дифференцируемой функцией позиции, будем искать ее как решение дифференциального уравнение Беллмана - Айзекса [1]
Ss0
x3 +
ss
Sxn
Ss0
--------b min max
St U-P v(Z-Q
Ss0 Ss0
b--------( u + v ) +----------( u2 + v2)
Sx3 V 1 l) Sx4 V 2 2’
x4 +
= 0 (2.1)
с граничными условиями
S° (T, x1, x2, x3, x4 ) = ^x,2 + x
(2.2)
Пусть
Ss
VSx3 у
+
Ss
vSx 4 у
* 0.
Преобразуем выражение F (t, x) =
Ss0 Ss0
Ss0
-------+ min max
St u-P v-Q
+
Ss
Sx
Sx1
Ss0
Sx,
x3 +
Sx
(U1 + V1 ) + ^“(U2 + V2 )
V3
Последовательно вычисляем:
Ss0 Ss0 Ss0
- + -
x4 +
= 0.
St Sx1
"Ss0
x3 +
+ min
u- P
+ max
v- Q
Sx3
SS
Sx-
U1 +
Sx2
Ssc
Sx
-V1 +
ss
SxA
x4 +
+
= 0,
Ss0 Ss0
- + -
St Sx1
V
x3 +
SS
Sx
Г Ss0 ^ 2 Г Ss0 ^
+
1^3 у lSx4 у
Г Ss0 ^ 2 Г Ss” 1
+
lSx3 у lSx4 J
+P
Ss0 Ss0
- + -
St Sx
x3 +
SS
Sx
= 0.
x4 +
+(fi-a)
Г Ss0 ^ 2 Г Ss” 1
+
lSx3 у lSx4 у
= 0. (2.3)
Последовательность операций min и max в (2.1) допускает обратную замену, а управления, на которых указанные min и max достигаются, имеют вид
, x I
^Ss0 ^
1
и0 [t, x] = -«• R (t, x) , v0 [t, x] = P• R (t, x),
R((>, x )) =
i
Ss
vSx 3 у
+
Ss
vSx 4 у
Sx
Ss
VSx 4 у
. (2.4)
Заметим, что равенство
„/ ч Ss0 Ss0 Ss0 F (t, x) = ——b —— x + -— x +
St Sx1
Sx
+(P-a)
Г Ss0 ^ 2 Г Ss” 1
+
lSx3 у lSx4 у
=0
имеет место и в случае, когда
^Ss°V
VSx3 у
+
'Ss°V
VSx4 у
= 0.
Функцию £ , являющуюся решением задачи (2.1), (2.2), будем искать в виде
£0 (г, Х1, Х2, Х3, Х4) =
1 +(T - t) x3)] +[ x2 +(T - t) x4 ] +
+b
(T - • )2 2
где а, Ь е R1 - постоянные, подлежащие определению.
Построение функции £ £ будем производить в области
Z = |(г,х)| г е [г0,Т], [х1 (г) + (Т-г)х3(г)]2 +
+[ Х2 (г ) + (Т - г) х4(г )]2 }> 0.
Из граничных условий (2) следует, что а = 1. Тогда
2
2
2
и
2
v
2
x4
2
д£° = дг
Х1Х3 + х2х4 + (Т - г) (Х32 + Х42 )
1 +(Т - г) Х3)] + [ Х2 +(Т - г) Х4 ]
+Ь(г - Т),
д£
Г +
дХ1
х1 + х3 (т - г)
>/[ Х1 +(Т - г) Х3)] +[ Х2 +(Т - г) Х4 ]
д£°
дх2
Х2 + Х4 (Т - г)
^\_ Х1 +(Т - г) Х3)] +[ Х2 +(Т - г) Х4 ]
д£° =
дх3
__________\ Х1 + Х3 (т - г )](т - г)__________
^\Х1 +(Т - г ) Х3)] + \Х2 +(Т - г ) Х4 ]
д£° =
дх4
[Х2 + Х4 (Т - г)](Т - г)
Х1 +(Т - г) Х3)] +[ Х2 +(Т - г) Х4 ]
Подставим найденные частные производные функции £0 в уравнение (2.3). В результате получим
- ь(т - г) + (р - а)(т - г) = 0 ^ Ь = р - а .
Таким образом,
£0 (г, Х1, Х2, Х3, х4) =
с*1 + (т—г) Х3)] +[ х2 +(т—г) Х4 ] +
(т-г )2
+ (Р -а)
2
.К (г, х1, х2, х3, х4 ) = 1
-^[ Х1 +(т - г) Х3)] +\Х2 +(т - г) Х4 ]
^ х1 + (т - г) х3 ^
V Х2
+(т - г);
(2.5)
'4
В области Z управления и 0 [ ], V0 [ ] , вычисленные по формулам (2.4) с учетом (2.5), допустимы и, следовательно, оптимальны. При этом
I[и0 [•] ,Vй [•]] = £0 (го,Хо) =
= -\/[ Х10 +(т - г0 ) Х30)] +\ Х20 +(т - г0 ) Х40 ] +
(т - г0 )2
+(р -а) Пример 1.
р = 1, г 0 = 0, т = 1
2
Полагаем
- Х10 = 1 =
а = 5,
Х20 1 ,
х30 = 0.5, х40 = 0.5 .
Рассмотрим три случая:
1) оба игрока действуют оптимально (выбирают свои стратегии в соответствии с формулами (2.5));
2) первый игрок действует оптимально, а второй придерживается произвольного допустимого программного управления, например управления
( р• эт3г^
V
, г е [0,1];
р- cos3г у
3) второй игрок действует оптимально, а первый придерживается произвольного допустимого программного управления, например, управления
и
(г ) =
-
а • sin
^а- cos3г у
, г е[ 0,1].
Рис. 1
На рис. 1 показаны траектории движения управляемой точки на плоскости для всех трех случаев. При этом в случае 1) траектория обозначена пунктирной линией, в случае 2) - жирной линией и в случае 3) -обычной линией.
2
X
Тот факт, что пара стратегий и0, V0 образует седловую точку в игре, подтверждается двойным неравенством
I[и0, V] = 0.0238062<0.12132=/[и0, V0] < <0.734656=1 [и, V0].
Функция £0 должна оставаться постоянной вдоль траектории движения для первого случая, монотонно убывать для второго случая и монотонно возрастать для третьего случая. Указанные зависимости функции £0 от времени приведены на рис. 2.
Рис. 2
Вне области Z позиционные стратегии игроков (2.4), (2.5) уже не являются допустимыми, а цена игры - функция £0 перестает быть непрерывно дифференцируемой функцией. В случае, когда в процессе игры
(', Х [< ]) £ Z дифференциальное уравнение
(1.1) при подстановке в него позиционных стратегий (2.4), (2.5) игроков не может быть проинтегрировано.
3. Стабильный мост и экстремальное прицеливание
Покажем, что для начальных позиций (г0, Х0 )£ Z первый игрок, применяя экстремальное прицеливание на подходящий стабильный мост, в состоянии привести управляемую точку в начало координат при любых противодействиях второго игрока, т.е. получить наилучшее для себя значение платы. Полагаем
Жи ={(г, Х)| £° (г, Х)^ 0} .
Очевидно, что множество Жи обладает следующими свойствами
1) ^ (т) = {х|(Т,х)єЖ„)
0 'і
0
0
V 0 J
2) для любых {г,, Х„}єЖ„, V* є Q,
г * є (г,, Г ] х (•) = х (•, 4, х,, V* ) существует
решение дифференциального уравнения в контингенциях
х1 = х3, х2 = х4,
є Р + V*, г є [г,,г*], х(г,)
такое, что х (г *) є Ж„ (г *) = {х| (г *, х) єWu |.
Таким образом, множество Ж„ представляет собой стабильный мост первого игрока, обрывающийся в финальный момент времени в начале координат.
Определим ие стратегию первого игрока, осуществляющую экстремальное прицеливание на стабильный мост Ж„.
Пусть х £Ж„, г є [с т ]. Найдем вектор р, из условия х - р, = тіп х - р .
11 11 рєши (г )м 11
Для этого решим задачу математического программирования на условный минимум с ограничением типа неравенства
Е(Рг - хі )2 ^ mІn,
і=1
^[ р1 +(Г - г) р3)] +[ р2 +(Г - г) р4 ]
+
+ (Р - а)
(Г - г)2
< 0.
Эта задача эквивалентна следующей задаче:
(Р1 - Х1 )2 +(Р2 - Х2 )2 +
+ (р3 -х3)2 +(р4 -х4)2 ^ min, (3.1)
\ р1 +(т - г) р3)] +[ р2 +(т - г) р4 ] -
-(а- р)2 = 0. (3.2)
Составим для нее функцию Лагранжа L ( Р^ P2, Pз, Р 4, Я) =
= ( Р1 - Х1 )2 +(Р 2 - Х2 )2 +
3
+ (p3 - x3 ) +(p4 - x4 ) +
+А-{[ p1 +(T - t) рз)] +[ p2 +(T - t) p4 ]
-(a-P)2-
и выпишем необходимые условия экстремума дТ
~ = 2 (p1 - x1) + 2 [p1 + p3 (T -1)] ^ = 0,
др1
дТ
дР2
2 (p2 - x2 ) + 2 [p2 + p4 (T - t)] ^ = 0,
дТ дРз
= 2 (р3 - Х3 ) + 2 (т - г)[р1 + р3 (т - г)] Я = 0,
^ =
дР 4
= 2 (р4 - Х4 ) + 2 (т - г)\р2 + Р4 (т - г)] Я = 0.
Добавляя к полученным уравнениям условие связи (3.2), получим систему из пяти уравнений относительно неизвестных
Р^ Р2, Рз, Р4Л.
-г-\ * * * * ,Л *
Ее решение Р1 , Р2, Р3 , Р4, Я , полученное средствами пакета МаШетайса, весьма громоздко и здесь не приводится.
Можно показать, что набор величин * * * * ^
Р1 , Р2, Р3 , Р4 действительно доставляет условный минимум в (3.1), (3.2).
Полагаем
(
1 (t, x) S2 (t, x) s3 (t, x) (t, x)
Л
V S4
/ *\ x1 - P1
*
x2 - p2
x3 - Рз;
*
V x4 - p 4 J
/г
S2 (t, x) s3 (t, x)
V S4
(t, x)
x
x
min
uєP
и
s1 (t, x)
S2 (t, x) s3 (t, x)
V S4 (t, x),
V
1 (t, x) (t, x)
x
u1 (t, x ) Vu2 (U x),
Заметим, что
M,
un
(t, x) — —і
a •
s3 (t, x)
(t, x) — —і
a
^s32 (t, x) + s4 (t, x) s3 (t, x)
^s32 (t, x) + s4 (t, x)
Окончательно устанавливаем, что Ue (t, x) =
= j ue , x), x ^wu ^ ),
[произвольный u є P, x є Wu (t)
(з.з)
Управление точкой первый игрок осуществляет по следующей схеме. Интервал времени [ 0, T ] разбивается на полуинтервалы
[fc fc+1 ) , г = 1,2,‘" .
На каждом из таких полуинтервалов управление первого игрока считается постоянным и равным Ue (тг, x (тг)) = const, а
управление второго игрока - произвольной допустимой реализацией вектора его управляющих параметров. Равномерный предел соответствующих ломаных Эйлера будет являться движением рассматриваемой точки, порожденным стратегией (3.3) первого игрока.
В книге [2] показано, что каждое такое движение будет оставаться на множестве Wu
вплоть до момента времени T. Последнее обстоятельство обеспечивает наилучший результат в игре для первого игрока.
Пример 2. Пусть a = 7, P = 2, t О = О,
T = 1,
•^О 1 '
x^ = О.5,
x4() = О.5.
Заметим, что начальная позиция принадлежит множеству Ж„. Тогда стратегия (3.3) обеспечивает значение платы в игре, равное нулю, т.е. переводит геометрические координаты точки в начало координат в конечный момент времени.
Движение точки, порожденное управлением (3.3) первого игрока, аппроксимируем ломаными Эйлера, построенными на разбиениях интервала времени [ 0,1] на 20, 50 и 80 частей.
Плата на каждой из этих аппроксимаций принимает соответственно значение
12О = О.О341, І5О = О.О137, І8О = О.ОО43.
(з.4)
x
4
з1
На рис. 3 показана траектория движения точки, построенная на базе ломаной Эйлера для 80 разбиений.
В отличие от предельного движения аппроксимирующая его ломаная Эйлера может в некоторые моменты времени покидать мно-
жество Wu. Это обстоятельство объясняет тот факт, что значение платы для ломаных Эйлера не является чистым нулем. Однако, как это видно из (3.4), в пределе величина платы стремится к нулю.
На рис. 4 приведен график изменения функции £ , вычисленной вдоль ломаной Эйлера, в зависимости от времени. В моменты времени, для которых £ > 0 позиция выходит за пределы множества Wu □□□□□□□□□□
Таким образом, в игре с недифференцируемой ценой построена наилучшая гарантирующая стратегия первого игрока в форме прицеливания на стабильный мост. При этом указанная стратегия оказалась разрывной по фазовому вектору игры. Применение пакета МаШетайса позволило получить ее аналитическое выражение. Проведенные численные эксперименты подтвердили оптимальность построенной стратегии.
Список литературы
1. Айзекс Р. Дифференциальные игры. М.: Мир, 1967. 479 с.
2. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1973. 455 с.
Construction of the player’s best guaranteeing strategy in one antagonistic game with non-differentiable value
S. V. Lutmanov
Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15 [email protected].; (342)239-63-09
In this paper a differential “directing-evading” game on horizontal plane in the class of positional strategies is discussed. Its value is demonstrated to be a continuously differentiable function not for every position. In the paper, in order to implement an optimal strategy of the first player his stable bridge is constructed so that its section coincides with the target set at final instant of time. Optimal control is carried out by the player in the form of extremal targeting at the constructed bridge.
Key words: differential game; stable bridge; value of game; extremal targeting.