ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
Сер. 10. 2009. Вып. 4
УДК 518.9
Н. А. Зенкевич, А. В. Зятчин
СИЛЬНОЕ РАВНОВЕСИЕ В ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ СО СТОХАСТИЧЕСКОЙ ДИНАМИКОЙ *)
Впервые концепция сильного равновесия была введена Р. Ауманном [1]. В дальнейшем этот принцип оптимальности был исследован во многих работах (см., например, [2-4]). При этом как в детерминированном, так и стохастическом случаях решение часто ищется в классе стратегий наказания [5, 6].
Уникальность сильного равновесия состоит в том, что оно является одновременно равновесием по Нэшу и парето-оптимальным решением, при этом также устойчиво относительно коалиционных отклонений игроков. Однако ситуация сильного равновесия - достаточно редкое явление даже в классе одношаговых игр двух лиц [2]. При исследовании дифференциальных игр появляются дополнительные сложности, характерные задачам динамического программирования [7]. Во-первых, решение уравнения Беллмана может не существовать. Во-вторых, даже если уравнение Беллмана имеет решение, вопрос оптимальности управления, найденного из этого уравнения, остается открытым. В случае стохастической динамики может даже оказаться, что при этом управлении не существует решения стохастического уравнения.
Сравнивая предложенные в статье достаточные условия существования сильного равновесия с «народными теоремами» [6, 8], следует отметить, что равновесные стратегии не зависят от истории процесса.
В статье исследован класс дифференциальных игр со стохастической управляемой динамикой типа процесса Ито. Сформулированы достаточные условия существования сильного равновесия и решен пример.
Рассмотрим стохастическую дифференциальную игру многих лиц r(xo, T —to) из начального состояния xo, продолжительности T — to, где to, T - моменты начала и окончания игры соответственно. Обозначим множество игроков через N = {l,...,i, ...,n}, n ^ 2. Стохастическая динамика игры имеет вид [13]
dx(r) = f (т,х(т ),ui(t ), .. . ,un(r ))dr+a(r,x(r ),ui (r), . .. ,un(r ))dz(r), x(to) = xo. (1)
Зенкевич Николай Анатольевич — кандидат физико-математических наук, доцент кафедры операционного менеджмента Высшей школы менеджмента Санкт-Петербургского государственного университета, доцент кафедры математической теории игр и статистических решений факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: 92. Научное направление: динамические игры и их приложения в менеджменте. E-mail: zenkevich@gsom.pu.ru.
Зятчин Андрей Васильевич — аспирант кафедры математической теории игр и статистических решений факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета, ассистент кафедры операционного менеджмента Высшей школы менеджмента Санкт-Петербургского государственного университета. Количество опубликованных работ: 18. Научное направление: динамические игры и их приложения в менеджменте. E-mail: zyatchin@gsom.pu.ru.
*)Работа выполнена по тематическому плану фундаментальных научно-исследовательских работ (проект № 16.0.116.2009) при финансовой поддержке Российского фонда фундаментальных исследований (проект № 08-01-00301-а).
© Н. А. Зенкевич, А. В. Зятчин, 2009
Здесь z(т) - состояние стандартного винеровского процесса [9-11], х(т) G R - переменная состояния игры, ui(t) - управление игрока i G N в момент времени т, щ G Ui С R, П Ui = UN С Rn. Предположим, что функции f (т, х(т), и\(т),..., ип(т)),
ieN
а(т, х(т), щ(т),..., ип(т)) непрерывно дифференцируемы на [to, T] х R х UN.
Целью каждого игрока i G N является максимизация ожидаемого интегрального выигрыша или среднего значения критерия типа Больца [12, 13]:
max Et
to
J gi(T, х(т), ui(t ), ..., щ(т), ..., Un (т ))йт + qi(x(T))
i € N,
(2)
где gi(T,x(T),u\(t),... ,щ(т),... ,ип(т)) и qi(x(T)) - непрерывные функции, через Eto обозначен оператор математического ожидания [10].
Будем рассматривать случай игры с полной информацией о реализации состояния конфликтно-управляемого процесса [13].
Решение будем искать в классе позиционных стратегий. Для игрока i позиционная стратегия ф^,(т,х(т)) имеет программную реализацию и^,(т) = фi(т,х(т)), щ(т) G Ui, т G [to,T]. Пусть S С N - произвольная коалиция в игре Г(хо). Стратегию коалиции
S обозначим фs(т,х) = (щ(т,х))^з G П Ui = us С Rs, т G [to,T], s = |S|. Пусть
ies
ф(т, х) = (фг(т, х),..., фп(т, х)) - ситуация в игре в позиционных стратегиях. Под выигрышем коалиции S будем понимать сумму выигрышей всех ее игроков:
Js(хо, ф(т, х)) =^2 Ji(хо, ф(т, х)) =
ies
еК
ies
= Et
gi(T, х(т), ф(т, х))3,т + qi(х(T))
to T
gs(т, х(т), ф(т, х))йт + qs(х(T))
to
где gs(т, х(т), ф(т, х)) = Е gi(т, х(т), ф(т, х)).
ies
Решение игры будем искать в смысле сильного равновесия [5].
Определение. Набор стратегий {ф*(т, х),ф2 (т,х),..., ф*п(т, х)} , т G [t0,T], будем называть сильным равновесием в дифференциальной игре Г(х0 ,T-t0), если следующие неравенства выполнены для всех коалиций S С N, S = 0 и стратегий фS(т,х) G US :
E
to
> Et,
gs(т, х*(т), vS(т, х), vN/s(т, х) )dT + qs(х*(T))
T
J gs(т, хS (т), us(т), (т, х^Мт + qs(х['3] (T))
to
(3)
где
dx*(т) = f (т, х*(т), ф*s(т, х), vN/S(т, х))dT + a(T х*(т), Ф*s(т, х), фм/s(т, х))^(т),
x* (to) = xo,
dxS(r) = f (r,xS(r ),fs (T,xW),<p*N/s (r,xS))dr +
+ a(r, xS (r), (r, xS), V*n/s(r, xS))dz(r),
x[S] (to) = xo.
Теорема. Предположим, что для каждой коалиции S С N, S = 0 существуют дважды непрерывно-дифференцируемые функции V S(t , x) и набор стратегий {f*(t,x(t)) е i е N}, удовлетворяющих системе уравнений Беллмана-Айзек-са-Флеминга:
Vt[S] (t, х^) + max | (t, x^, us(t), <p*N/s(t, x^)) V™ (t, x^ (tj) +
+f (t,x[S\us(t),<p*N/s(t,x[S)) VXSS (t,x[S) + gs (t,x[S\us(t),fN/s(t,x[S]))} =
= vf1 (t, x*) + (t, x*, tp* (t, x*)) Vjf 1 (t, x*) +
+f (t, x*, f* (t, x*)) Vf] (t, xS ) + gs (t, x*, f* (t, x*))=0, (4)
dx* (t) = f (t, x*, f* (t, x*)) dt + a (t, x*, f* (t, x*)) dz, x* (to) = xo,
us(t) е Us,
V S(T,xS) = qs (xS(T)),
тогда для любых начальных условий [to, xo] набор стратегий {f*(t, x(t)) е Щ, i е N} образует ситуацию сильного равновесия по Нэшу в игре (3), (4).
Доказательство следует из определения сильного равновесия, поскольку для любой коалиции S, фиксируя стратегии дополнительной коалиции N\S, получаем задачу оптимального стохастического управления [13, 14].
В качестве примера применения теоремы приведем игру с линейной динамикой и квадратичными функционалами выигрышей, решение которой удалось получить путем сведения к задаче оптимального управления и использования методов динамического программирования.
Утверждение. Рассмотрим игру (1), (2), где n = 2, динамика (1) имеет вид
dx(t) = ^ax + biUij dt + axdz, x(to) = xo, функция выигрыша игрока i е {1, 2, 3} определяется функционалом
(5)
E,
to
33
i(t) hu2 + -
i=i i=i
x
T
1 1 1
hi h2 h3
dt + hx(T)
(6)
где a, b1, b2, b3, h, h1, h2, h3 - положительные константы, тогда в игре (5), (6) существует сильное равновесие по Нэшу.
г
Доказательство. Рассмотрим уравнение для V [1,2,3^(t,x[1,2,3]) :
+ max
2 «1 ,U2,U3
3 3 3
- 3 hiu2 + 3x ui + E ri(t) -i=1 i=1 i=1
i=1
V[1,2,3] _
Зх2 4
1 1 1
hi h2 h3
0.
Определим максимум функции трех переменных. Условия первого порядка имеют вид
* (• *
iVi(t,x Следовательно,
ъМ^ЧЬх^ + Зх* .
<Pi{t,x) = -77-, г = 1,2,3. 8
6hi
Условия второго порядка
biV^Wfrx*) - 6hiv*(t,x*) + 3x* =0, i = 1, 2, 3.
-6hi < 0,
-6h1 0 0 -6h2
-6h1 0 0
36h1h2 > 0, 0 -6h2 0 = -236h1h2h3 < 0
0 0 -6h3
С учетом (8) уравнение (7) запишем так:
* Vyjl.2,3] +
+
Ль^^+з ьг
ах + 2' —
1
6hi
Vx[1,2,3]
'b1V[l,2,3](t,x* ) + 3x\2 ( »-v[1,2,3]
- 3h1
6h1 - 3h3
- 3h2
ь2у^(г,х*) + 3х\'
ш2 J
bV1,2,3] (t,x*) + 3x b2Vi1,2,3] (t,x*) + 3x b3V[1,2,3](t,x*) + 3x
'bsVx1'2'3^ (t, x*) + 3x\ '
Шз У
[1,2,3]
+
+ 3x
[1,2,3]
6h1
+ 3x-
6h2
+ 3x-
6h3
+
+ 5>w-ir i=1
l l l
/ii h2 h3
или
if!
12 ^ hi
i=1
2,3]
+x
, 1 f bi
а+2Цы
i=1
Vl^+Y, ri(t)=0- (9)
u
x
2
Будем искать функцию Vl1'2'3^(t,x) в виде
VI1'2'3! (t, x) = P[1'2'3] (tt)x2 + Pi1'2'3 (t)x + Pi1'23 (t),
где функции p11'2'3\ p21'2'3\ pi1'2'3 подлежат определению. Очевидно, vX1'2'3 (t, x) = 2Pl11'2'3] (t)x + P21'2'3 (t), vXI'2'3 (t, x) = 2Pl11'2'3] (t). Подставим функцию V[1'2'3] (t, x) в (9):
Pi1'2'3 (t)x2 + P21'2'3 (t)x + P[12'3] (t) + a2x2P11'2'3] (t) +
i=1
+ x
, 1 V^ bi a-\— > —
2 ^hi
i=1
(2P[1'2'3\t)x + P21'2'3(t))+J2 ri(t)=0
i=1
b2
x2 ( P(t) + a2P\^'2 it) + ± £ ly^ it))2 +
i=1 г
i=1
P
[1'2'3]
(t) +
1 ^ b
+ x [ P™ (t) + ^ E tp' {t)P2 {t) +
i -Д h
а+2Цы
i=1
P
[1'2'3]
(t) +
b2
+ (+ ЩЪР2 ^) = o.
Приравняем к нулю коэффициенты при степенях переменной x:
r2pl1'2'3](
P^2'3\t)+a2P^2'3\t) + i £ biiP[^]it))2 +
i=1 *
3 .2
P2
b[1'2'3]
(t)+lEgp[l,2,3](t)p[1,2,3](t) + i=1
3 Q
1 V ^.„[1,2,3]
i=1
P11'2'3](t) =0, P21'2'3](t) = o,
=i l1,2 ,3]
p[i.2.3](t) + °tXP[2WKt))2 + E nit) = o,
pl11'2'3](T) = 0, p21'2'3\t) = h, p31'2'3](T) = 0.
Первое уравнение является однородным уравнением Бернулли с условием p11'2'3)(T) = о, таким образом, P11'2'3\t) = 0. При этом второе уравнение системы принимает вид
p21'2'3](t) +
, 1 V^ bi а-\— > —
2 ^ hi
i=1
p21'2'3](t) = 0, P21'2'3](T) = 3h.
l1'2'3].
Следовательно,
P21'2'3](t) = 3he
a+i E & \(-t+T)
или
2
Третье уравнение системы
i=1
3,9 Ы ( 12а+ Е fe- i-t+T)
+ ^ ri(t)=0,
p31,2'3] (T) = 0.
В результате, если функции ri(t) непрерывные, то уравнение относительно P^^'^ft) имеет единственное решение.
Поскольку vj1'2'3 (t, х) = 2Р11'2'3\^х + P^1'2'3 (t), то, согласно (8), получаем
Ф* (t,х*) =
Динамика (5) принимает вид
bjhe
Е £ i-t+T)
+ х*
2 hi
(10)
д,х* (t)
, 1 V^ bi а-\— > —
2 ^hi
i=1
x* + - bhZr )\dt+ax*dz, x*(t0)=x0.
2 7=1 i J
(11)
Условия существования и единственности решения уравнения (11) выполнены.
Рассмотрим случай двухэлементных коалиций, V[>1'^^,х), {i,j} = S G N, к = N\S, при условии, что игрок к выбрал стратегию ф*к (t,х*) :
Vt[i'j]+±a2x2V&j]-
ах + Ь7 u7 + bj Uj + b,
bk he
«+5 E
+ х
2hk
V[ij -
— 2hiu2 — 2hj и2 — 2hk
a+i E fe\(-t+T) bkhe^t m=1 mJ ^ + х
2hl
+
(12)
+ 2хщ7 + 2хи.; + 2х
bkhe
«+5 E
+ х
2hk
+
+ ri(t)+rj(t)-'^-
1 1 1'
hi h2 h3
0.
Определим максимум функции двух переменных. Условия первого порядка имеют вид
bivji'j](t, х*) — 4hv*(t, х*) + 2х* = 0,
bj V^(t, х* ) — 4hjф* (t, х* ) + 2х* = 0,
k
2
biVrj] (t,x* ) + 2x*
bj(t,x* ) + 2x*
4hj
Условия второго порядка выполнены:
-4hi < 0, -4hj < 0,
-4hi 0
-4hj
= 16hihj > 0.
С учетом (13) уравнение (12) запишем так:
V™ + ±a2x2V№ +
8 Ь 8 hi
\ 2
Vj +
+
x к bm
ax + 2 — + m=1
b2k he
2hk
V[i,j -
(14)
b2k h2e
2a+ £
(-t+T)
2hk
+ ri (t) + rj (t)=0.
Будем искать функцию V [i'j](t,x) в виде V[ij (t,x) = Pf'j](t)x2 + P2i'j] (t)x + p3ij\t), где функции P^'^, P^, P3'jj подлежат определению. Очевидно, Vx'j\t,x) =
2Plij(t)x + P2ij](t), Vix3j (t,x) = 2Plij](t).
Подставляя функцию V[i'j (t, x) в (14) и приравнивая к нулю коэффициенты при степенях переменной x, имеем систему
[i'j].
)[i'j]/
Pl1'2](t)+a2Plij](t)+a2Prij](t) +
r2 и [i'j]
2 [i'j]
+
i
2hi ^ 2hj
(P1ij(t))2 +
2a+ £
P1ij](t)=0,
P2i,j](t) +
2fn + 2 L
Pf'j] (t)P2ij (t) +
+
a+5 E ^
m=1
P2ij](t) +
hk
P1ij(t)=0,
Pfj](t) +
8fn + 8 L
E т^ \(-t+T) m=1 m J
2hl.
P2ij(t) -
2a+ £ (-t + T)
_ blh2e\l
2 hk
+ ri(t)+rj (t) = 0,
где P[ij](T) = 0, P2i'j](T) = 2h, P3i'j](T) = 0.
Первое уравнение является однородным уравнением Бернулли с условием P1l'j\T) = 0, отсюда P1l'j\t) = 0. При этом второе уравнение системы принимает вид
P2ij +
a +
2 hm
m=1
P2i'j](t)=0, P2ij](T ) = 2h
i'j]
0
+1 e & (-t+t)
a
b
h
2 -
b
2
2
b
1
x Л um
P2i,j](t) = 2he Третье уравнение системы
Е fer i-t+T)
т»+г/'еркь+ *<«>+г,(о=о, =о.
2 1=1 hl
В результате, если функции ri(t) непрерывные, то уравнение относительно P3i,j\t) имеет единственное решение.
Поскольку Vx,j (t, x) = 2P]i,j](t)x + p2f,j] (tt), то, согласно (13), находим
V* (t,x*) = Динамика (5) принимает вид
, \a+i Е Tf^H-t+T) )
hhe 'y L hmi J +ж* 2hi '
(15)
dx* (t) =
13b
1
hm
** + i v blhJH & Щ ) dt+ax*dz, (i6)
2tlh<> J
где x*(to) = xo.
Условия существования и единственности решения уравнения (11) выполнены. Рассмотрим случай одноэлементных коалиций, V[i\t, x), {i} = S G N, {j, k} = N\S, при условии, что игроки j и k выбрали стратегии v*(t,x*), v*k(t,x*) соответственно:
уН + iaVl/W +
max
b2he
ax + biUi H—-—
«+1 E & i-t+T)
+ bj x
2hj
+
+
b2k he
«+5 E fe \(-t+T)
+ bk x
2hk
V [i -
- hiui2 - hj
bj he
E т= i-t+T)
+x
2hj
hk
bkhe
E т= (-t+T)
+x
2hk
+
2
2
+ xui + x
^ (\a+i Е ^(-«Wl ^
bjheU у + ж
+x
bkhe 'y L 2™=ih4 У
2hfc
+
\
+ ri(t) —
4
1 1 1
hi h2 h3
0.
(17)
Определим максимум функции двух переменных. Условия первого порядка имеют вид biVX] (t,x*) — 2hiVi (t,x*)+x* =0. Следовательно,
biVli](t,x*) + x*
vi(t,x* ) =
2hi
Условия второго порядка выполнены: —2hi < 0 . С учетом (18) уравнение (17) запишем следующим образом:
vW + iA2vW + |L
+
(18)
+
x \ bm ax + 2 E — +
m=1
a+bj hj hk
he
E Ь i-t+т)
V[i]
(19)
hj hk
h2e
2a+ E T=\{-t+T)
+ ri (t) = 0.
Будем искать функцию V[1] (t,x) в виде V[i](t,x) = P1i](t)x2 + (t)x + Pf(t), где функции Pf\ P^, P3} подлежат определению. Очевидно, vX\t,x) = 2P\i (t)x +
p2f](t),v}j(t,x) = 2P1i](t).
Подставляя функцию V^ (t, x) в (19) и приравнивая к нулю коэффициенты при степенях переменной x, имеем
p[\t)+a2P[\t)+bt(P[\t))2 +
2«+ £ t
P1i](t) = 0,
« + з £ t
+
bl + iii
hj ' hk
he
«+Т E fc (-t+T)
P[i
p2i](t) + 0,
hj hk
he
p2i](t) —
h e
hj ' hk
где P1i](T) = 0, P2i] (T) = h, P3i](T) = 0. 92
+ ri (t) = 0,
2
x
2
2
4
V T^ i-t+T)
2
4
Первое уравнение является однородным уравнением Бернулли с условием P|1](T) = 0, следовательно, P^\t) = 0. При этом второе уравнение системы
p2\t) +
, 1 bm
а+о Ътг
1
P2](t)=0, (T) = h.
Таким образом,
Pli](t) = he Третье уравнение системы принимает вид
Е fe (-t+T)
pii]W + ^2Er-eU""-lBmr +n(t) = о, p^(T) = 0. i=1 '
2a+ E -Ь
В результате, если функции ri(t) непрерывные, то уравнение относительно P^t ?ет единственное решение.
Поскольку vXli (t, x) = 2Pli](t)x + Pf (t), то, согласно (18), получаем
f* (t,x*) =
bihe
E fe (-t+T)
+ x*
2 hi
(20)
Динамика (5) принимает вид, похожий на (16):
dx* (t)
1 bm
a H— > -
2h
m=1
;=i
где x*(to) = xo.
В результате рассмотрены случаи одно-, двух- и трехэлементных коалиций. В каждом случае решения уравнений Беллмана (10), (15), (20) совпадают, следовательно, согласно теореме, набор
(
b1 he
Е T^\(-t+T)
+ x* b2he
Е fe (-t+т)
+ x*
2h1
b3he
E fe (-t+т)
+ x*
2h3
2h2 \
/
образует ситуацию сильного равновесия в игре (5), (6).
В результате проведенного исследования были определены достаточные условия существования сильного равновесия в классе дифференциальных игр со стохастической динамикой. Указанные условия являются сильными и определяют узкий класс игр, в которых существует сильное равновесие.
Литература
1. Aumann R. J. Acceptable Points in General Cooperative га-Person Games // Contributions to the Theory of Games IV. Annals of Mathematics Study 40 / ed. by A. W. Tucker. Princeton, NJ: Princeton University Press, 1959. P. 287-324.
2. Мулен Э. Теория игр с примерами из математической экономики / пер. с фр. О. Р. Меньшиковой, И. С. Меньшикова. М.: Мир, 1985. 200 с.
3. Петросян Л. А., Захаров В. В. Введение в математическую экологию. Л.: Изд-во Ленингр. ун-та, 1986. 224 с.
4. Чистяков С. В. О построении сильно динамически устойчивых решений кооперативных дифференциальных игр // Вестн. С.-Петерб. ун-та. Сер. 1: Математика, механика, астрономия. 1992. Вып. 1. C. 57-69.
5. Petrosyan L. A., Grauer L. V. Strong Nash Equilibrium in Multistage Games // Intern. Game Theory Review. 2002. Vol. 4, N 3. P. 255-264.
6. Петросян Л. А., Кузютин Д. В. Игры в развернутой форме: оптимальность и устойчивость. СПб.: Изд-во С.-Петерб. ун-та, 2000. 292 с.
7. Колмановский В. Б. Задачи управления при неполной информации // Соросовск. образоват. журн. 1999. № 4. С. 122-127.
8. Петросян Л. А., Зенкевич Н. А., Семина Е. А. Теория игр. М.: Высшая школа; Книжный дом «Университет», 1998. 304 с.
9. Винер Н. Нелинейные задачи в теории случайных процессов / пер. с англ. Э. М. Хазен; под ред. Ю. Л. Климонтовича. М.: Изд-во иностр. лит-ры, 1961. 158 с.
10. Dixit A., Pindyck R. Investment under uncertainty. Princeton, USA: Princeton University Press, 1994. 468 p.
11. Hull J. C. Options, Futures, and other derivative securities. Second ed. London, United Kingdom: Prentice-Hall, 1993. 572 p.
12. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стохастическими системами / пер. с англ. М. Г. Бутрим, П. К. Катышева; под ред. А. Н. Ширяева. М.: Мир, 1978. 320 с. (W. H. Fleming, R. W. Rishel. Deterministic and stochastic optimal control.)
13. Yeung D. W. K., Petrosyan L. A. Cooperative stochastic differential games. New York: Springer Verlag, 2006. 242 p.
14. Basar T. Existence of unique equilibrium solutions in nonzero-sum stochastic differential games // Differential games and control theory. II / eds. E. O. Roxin, P. T. Liu, R. Sterbrg. New York: Marcel Dekker, Inc., 1977. P. 201-228.
Статья рекомендована к печати проф. Л.А. Петросяном. Статья принята к печати 28 мая 2009 г.