УДК 518.9
ДИНАМИЧЕСКИЕ МАТРИЧНЫЕ ИГРЫ И ИХ СМЕШАННОЕ РАСШИРЕНИЕ
Н. Н. Данилов
DYNAMIC MATRIX GAMES AND THEIR MIXED EXTENSION
N. N. Danilov
В работе [2] был введен новый класс игровых моделей, названный динамическими матричными играми (ДМИ), как обобщение классических матричных игр с учетом фактора времени. Такое обобщение представляется естественным как с теоретической точки зрения - динамические антагонистические игры, в свое время, были построены путем введения динамики в бесконечные антагонистические игры, так и с практической точки зрения - расширение области приложения теории матричных игр. В [2] была построена модель ДМИ, определены основные понятия, введен класс допустимых чистых стратегий и обосновано применение принципа ми-нимакса.
В настоящей статье вводится понятие смешанных комбинированных стратегий и в этом классе стратегий исследуются вопросы о необходимых и достаточных признаках оптимальности, существования оптимальных стратегий и их динамическая устойчивость.
A new class of game models, called dynamic matrix games (DMG) was introduced in [2] as a generalization of the classical matrix games considering the time factor. Such a generalization seems natural both from the theoretical point of view, the dynamic zero-sum games once being constructed by adding dynamics in the infinite zero-sum games, and from the practical point of view - as the expansion of application field of the matrix games theory. The model of the DMG was constructed in [2], the basic concepts were defined, the class of admissible pure strategies was introduced and the using of minimax principle was substantiated.
The concept of mixed combinated strategies is introduced in this paper; the questions of the necessary and sufficient optimality signs, the existence of optimal strategies and their dynamic stability are investigated in this class of strategies.
Ключевые слова: матричные игры, смешанные k-стратегии, оптимальная траектория, динамическая устойчивость.
Keywords: matrix games, mixed k-strategies, optimal trajectory, dynamic stability.
Рассмотрим некоторую управляемую систему, изменение состояния которой происходит в дискретные моменты времени t и описывается уравнением
х(г+1) = / (х(г), и, м2), г = 0,1,..., Т -1, (1)
из заданного начального состояния
х(0) = х0. (2)
В (1)-(2) х(г) е Як — вектор состояния;
и[ е Я11, м2 е Я12 — векторы управления в момент X;
: Як х Я1 х Я12 ^ Як — вектор-функция, характеризующая динамические возможности системы.
Предполагается, что управляющие параметры удовлетворяют условиям
и1 еU1, и2 еи2, г = 0,1,...:> Т — 1 (3) где и е я4, и2 е Я12 — конечные непустые множества.
Соотношения (1)-(3) определяют дискретную систему с двумя управлениями. Будем считать, что
выбором управления м1 = {м^,...,М '} распоряжается игрок I, а выбором управления м2 = {м°,...,и2, '}
- игрок II. Множества значений допустимых управлений игроков на всем интервале [г0, Т] есть соответственно
и1 = и0 х...хи1Т—1, и2 = и20 х...хиТ—1'.
Предполагается, что каждой паре управлений (мх, м2) е их х и2 соответствует единственная последовательность
х(-) = х(-, х0, мх, щ) = {х0, х(1),..., х(Т)}
решений системы (1)-(2), которую будем называть траекторией. Множество всех траекторий системы
(1) - (2) обозначим X(х0, Т).
Введем в рассмотрение множество:
0(х(г—1), г) ={х(г) = х(г, х(г—1), м—1, м2—1) | х(г—1) еО(х(г—2), г—1), м1—1 еи[—1, м2—1 еи2—1|,
которое будем называть множеством достижимости t-го уровня, t = 1,...,Т (будем считать, что
0(х(—1), 0) = х0). Множество
а (х0, Т) = ус (х(г — 1), г)
г=1
будем называть множеством достижимости системы (1)-(3). Считается, что х0 е 0(х°, Т) по определению.
Пусть в каждой точке х = х(0 (t = 1,...,Т) множества достижимости в(х0,Т) системы (1)-(3) определена матрица выигрышей игрока I:
62
©Н. Н. Данилов, 2014
К х(г)) =
С аи( х(г)) аи( х(г))
а21( х({ )) а22( х({ ))
а1п (х(г)) Л а2п (х(г))
(4)
V ат1( х(г )) ат 2 ( х(г )) ... атп ( х0 )),
(к(х°) = |0тхп - т х п - матрица с нулевыми элементами, где т и п конечные числа; в общем случае т = т( х(г)), п = п(х(г))). Целью игрока I является максимизация значения функции
Р(x(•), 1, J) = 2 ачн (х(г^
(5)
где I = {Ц,г = 1,...,Т} , J = {,г = 1,...,Т} - последовательности чистых стратегий игроков, выбираемых ими в матричных играх Н(х(г)),г = 1,...Т. Целью игрока II является минимизация значения функции (5).
Определим классы допустимых стратегий игроков.
Чистой комбинированной стратегией (чистой к-стратегией) игрока I (II) назовем любое отображение р1 (•) (р2 (•)) , которое каждому состоянию х(г )
ставит в соответствие некоторый номер Ц )
строки (столбца) матрицы Н(х(гУ) и некоторое допустимое (на Ьм шаге) управление
м[ еи{ (м2 еи2), г = 0,1,...,Т—1.
Название «комбинированная стратегия» для Рх(0 и р2() объясняется тем, что их первые компоненты являются (чистыми) стратегиями в матричных играх, а вторые компоненты - допустимыми (позиционными) управлениями в системе (1) - (3). Множество всех чистых к-стратегий игроков
обозначим символами ф1, Ф 2.
Совокупность
г (х0, Т) = (2 (х". Т); ф„ Ф2; Р), (6)
где 2 (х0, Т) - символическое обозначение системы (1) - (2), назовем динамической матричной игрой.
Смешанные стратегии игроков в игре И(х(г)) обозначим символами
£ = (^1,..., ^т X Л = (Л[ ’-’Л\ X а их множества
- соответственно Ъ и Н. Введем в рассмотрение Т-кратные прямые произведения:
Ъ = 2 х... х 2, Н = Н х... хН .
Определение 1. Смешанной комбинированной стратегией (смешанной к-стратегией) игрока I (II) в
игре Г (х0, Т) называется любое отображение / (•) (/2 (•)), которое каждому состоянию х(г) ставит в соответствие некоторую смешанную стратегию £
(Л) в игре Н(х(г)) и некоторое допустимое (на Ьм шаге) управление
м[ еи[(м2 еи2), г = 0,1,...,Т—1.
Пара / (х(г)) = (£, м (х(г)))
(/( х( г)) = (Л м2( х( г)))) является сечением стратегии / (•) (/2 (•)) в момент t.
Стратегию / (•) (/2 (•)), как отображения множества С( х0, Т) во множестве Ъ х и1 (Н х и2), будем представлять в виде:
/1() = (%м ()) (/2 (0 = (Л, м2 (0Х> ,
где
£ = {£,г = 1,.., Т} е ъ , м (•) = К (х(г)), г = 0,1,..., Т—1} е ц, (л = Л, г = 1,.., Т }е н , м2 (•) = {м2 (х(г)), г = 0,1,..., Т—1} е и2).
Следовательно, в начальном состоянии х0 матричная игра (Н(х0)) не определена, а в конечный момент времени Т не определены множества и1Т и
и2 .
Множества всех смешанных к-стратегий игроков обозначим символами ^1, ^ 2.
В каждой ситуации (/1 (•), / (•)) е^1 х ¥2 выигрыш первого игрока равен:
Т т п
К(x(•), £ г/) = 222 ау(х(г))£Л , (7)
г=1 i=\ j=\
где х(-) - траектория системы (1) - (2), порожденная допустимыми управлениями м1 (•), м2 (•) . Совокупность
Г" (х0, Т) = (2 (х0, Т) ; ^, ^; к) (8)
назовем смешанным расширением динамической матричной игры Г (х0, Т).
В дальнейшем, говоря о к-стратегиях, мы будем иметь ввиду смешанные к-стратегии.
Для того чтобы определить понятие оптимальных к-стратегий в игре (8), сначала введем понятие «седловой точки вдоль траектории».
Определение 2. Пусть х() е X(х0,Т) - произвольная траектория системы (1) - (2). Пару (£,л) е Ъ х Н назовем седловой точкой вдоль траектории х(), если для любых £ е Ъ, л е Н выполняются условия
К (x(•),£, л) ^ К (x(•), ¥,л) ^ К (х(),£,л).
(9)
Согласно основной теореме для матричных игр (теорема о минимаксе [1; 3; 4; 5; 7]) в любой мат-
г=1
ричной игре Н(х) , х е 0(х0, Т) (х Ф х0) , существует седловая точка в смешанных стратегиях. Поэтому мы можем утверждать, что вдоль любой траектории х() е X(х0,Т) выполняется равенство
тахтт К (х(Л,%л) =
£еЪ леН
= тт тах К (х(Л,%л)
ЛеН £еЪ
(10)
% + с (х(г)) л) + (х(г))
1+2 с(х(г)) 1+2 4л (х(г))
7=1 J=\
= (£ ,77 л)
2)
2% = 2
7 =1
7 =1
£ + С (х(г))
т
1+2 с(х(г))
=1.
Точно так же 0 <г/Л < 1, у = 1,..., п; 2 Л/ = 1.
и седловую точку вдоль траектории х() можно построить как последовательность седловых точек в матричных играх Н(х(г)) , г = 1,...,Т.
Ниже приводится более строгое доказательство существования седловой точки вдоль траектории. Теорема 1. Вдоль любой траектории
х()е X(х0,Т) в игре Г(х0,Т) существует седло-
вая точка.
Доказательство. Для произвольного состояния х(г) е 0(х0,Т), г = 1,...,Т, введем следующие обозначения:
п
К (х(г), 7, Л) = 2 а,л (х(г ))лЛ, / = 1,..., т;
л=1
т
К (х(г), %, л)=2 ал(х(г))£, лъ..., п ;
7=1
с,. (х(г)) = тах{К (х(г), 7, лг) — —К(х(г),£,л),0}, 7 = 1,. .,т ;
4л (х(г)) = тах{К (х(г), %, л) —
—К(х(г),%,л),0}, л = 1,...,п , и построим отображение гх г)(% ,л ) следующим образом:
2х (г)(% лЛ ) =
л=1
Следовательно, (% ,Г]‘) ее 2 х Н и
2х(г) : 2 х Н ^ 2 х Н .
Стандартным образом (см., напр., [5]) можно установить, что пара (%, л*) е 2 х Н является седло-вой точкой игры И(х(г)) тогда и только тогда, когда она является неподвижной точкой отображения
2х(г).
Очевидно, что отображение гх(г) непрерывна на
множестве 2х Н , а множество 2х Н выпукло и компактно. По этой причине, согласно теореме Брауэра, отображение 2^) имеет неподвижную точку.
Для произвольной траектории х(0 = {х0,х(1),...,х(Т)} е X(х0,Т) на множестве Ъ х Н построим векторное отображение 2хц) следующим образом:
2х (•) %лл) = (2х (1) л^... 2х (Т )%Т ,лТ )).
Так как верно представление
2х (•)% л л ) = 2х (Ж,лл ) =
(
% + с, (х(г)) лл + 4л(х(г))
1 + 2 с> (х(г)) 1 + 2 4л (х(г))
,=1 л=1
7 = 1,..,т, л = 1,..,п,
то выполнены следующие условия:
Л
г = 1,.., Т
7 = 1,..., т; л = 1,..., п. Преобразование 2х(г) отображает множество 2х Н в самого себя. Действительно,
1) так как 0 < % < 1 и
т
0 < С(х(г)) <2 С (х(г^
7=1
то 0 <^/ < 1, 7 = 1,...,т ;
1) 0<£ < 1, 7 = 1,...,Т,
т
2) 2£ = 1, г = 1,..., Т.
7=1
Поэтому
£=(£,...,£)={(Д1,...,^),..,^ ,...,£ )}е
Точно также л е Н.
Следовательно, 2х^ : Ъ х Н ^ Ъ х Н .
Пара %,л) является неподвижной точкой отображения 2х( ), если
2хо%, л) = %,л) = {(%1,л1),...,(%Т л)}.
Преобразование zx ^ является непрерывным
отображением компактного множества Z X H в самого себя. Так как все отображения zx ^), t = 1,..., T
, имеют неподвижные точки, то отображение zx() так же имеет неподвижную точку. Кроме того, поскольку неподвижные точки отображений zx(t),
t = 1,...,T, являются седловыми точками матричных игр h(x(t)) , t = 1,...,T, соответственно, то неподвижная точка ( f, ) ) отображения zx^ является седловой точкой вдоль траектории x(-), т. е.
K(x(t), f )) < K(x(t), f Т) <
< K (x(t), Г Т), t = 1,..., T.
Теорема доказана.
Число
К x(-)) = K(x(-), f,r) =
= maxminK(x(-), f ,r) = (11)
feZ reH
= min max K(x(-), f , r )
)eH feZ
называется ценой траектории х().
Поскольку Г(х0, Т) является антагонистической игрой, то в качестве принципа оптимального поведения игроков в ней в классе к-стратегий естественно использовать принцип минимакса. Определение 3. К-Стратегии
/0 = и /(0 = (л м2(^))е^2
называются оптимальными к-стратегиями игроков в игре Г(х0, Т) , если для любых м1 (•) е и и
м2 () е и2 % е Ъ ле Н выполняются неравенство:
К (x(•, x0, u\(•), й? (0Х % ,л) <
< К(х(-, х0, м (•), м, (•)), %, л) < (12)
< К(x(•, x0, u1(•), м2 (0Х ^лХ
где ( %,л) - седловая точка вдоль траектории
Числа
v(x0) = max min max minK(x(- x0,w,(-),u2()), f,r),
~ u1(-)eU1 u2(-)eU2 feZ reH zwv
v(x0) = min maxmin maxK(x(- x0,«,(•),u2()),f,r)
u2(OeU2 u1 (•)eU1 TeH feZ 1 2
назовем соответственно нижней и верхней ценами то верно и неравенство
игры Г(x0, T) . Благодаря компактности множеств Uj, U2, Z и H все экстремумы достигаются.
Лемма 1. В игре Г(x0, T) v(x0) = v(x0).
Доказательство. Равенство (11) позволяет представить числа (13) так:
v(x0) = max min v(x(- x0,u,(^),u2())),
~ u^^U u2()eU2 1 2
v(x0) = min max v(x(•,x0,u,(^),u2(0)),
u2 ( • )eU2 u1(0eU1 1 2
откуда и следует справедливость утверждения леммы. Лемма доказана.
Теорема 2. Оптимальные к-стратегии в игре Г (x0, T) существуют тогда и только тогда, когда
v( x0) = v (x0)
(14)
Доказательство. Из левой части (12) получаем
maxK (x(-),f,T)< K (x(-),f,TX (15)
feZ
Так как для любого i) e H верно неравенство min max K(x(), f, r ) < max K(x(), f,r),
)eH f Z f Z
min max K (x(),f,r) < max K (x(),f,r). (16)
reH f Z f Z
Неравенства (15) и (16) показывают, что min max K(x(), f, r) < K(x(), f,)). (17)
reH feZ
Рассуждая аналогично относительно правой части (12), получаем:
K(x(-), f, T) < max min K(xQ, f, r).
feZ reH
С учетом (17), имеем: min max K(x(-), f, r) < max min K(x(-), £77).
reH f Z f Z reH
Так как противоположное неравенство верно всегда, то приходим к (14).
Пусть выполнено равенство (14). Тогда
v(x0) = max min v(x(-,x0,u,(^),u2())) =
~ u20)eU2 ^ 2
= max v(x(, x0, u1(^), й2(^))) =
u1 (-)eU1
= V(x(•, x^ u2(^))) =
= K(x(•,x0,u1(•),u2(^),f,r) .
Так как
max v(x(, x , u1 (•), u2 (•))) >
u1 OeU1
< v( x(•, Д ^OX ^OXO
для всех u1 (•) e U1, то для любых u1 (•) e U1 и
fez _
K ( x (•, x 0, u1(•), u2()),f,T) >
< K (x(•, x 0, ul(•), u2()),f,T) .
Рассуждая аналогично относительно v(x0), получаем, что для всех u2 (•) e U2 и re H верно неравенство:
K (x(•, x0, u1(•), u2()),f,r) >
< K (x(•, x0, u2(^)),f,T) .
Последние два неравенства равносильны неравенству (12).Теорема доказана.
Определение 4. Число v(x0) = v(x0) = v(x0)
называется ценой игры Г(x0, T) в классе к-стратегий.
Для упрощения доказательства теоремы о существовании в игре Г (x0, T) цены и оптимальных к-стратегий, примем следующее условие: для любых t = 0,1,...,T — 1 мощности множеств и и одни и те же и равны соответственно q и Г (т. е. эти множества содержат q и r допустимых значений управляющих параметров). Это условие не является принципиальным - приводимые ниже утверждения верны для любых конечных U1 и U2, мощности которых зависят от параметра t .
Любой точке x(t) e G(x(t — 1), t) и паре множеств U1+1, U2+1 соответствуют (в силу системы (1)) q • r точекx(t +1) e G(x(t), t +1). Поэтому
мощность множества G(x(t), t +1) равна (q • r)t+1.
Пусть игроками выбраны допустимые управления u^-) = (uf (x(l)), uk (x(2)),...,uk (x(T))},
u2 (0=(u2(x(1)), u22 (x(2)),..., u2(x(T))}, где uf (x(t)) e U, u22 (x(t)) e U2 .
Паре уравнений
(ul(•), u2 ()) = ((uf4x(1)X u24x(1))X..
.,(ufT (x(T)), u2T (x(T)))}
соответствует траектория
x() = x(,x0,Ml(),U2 0)) =
= {x0, xklll(1),..., xkTlT (T)},
(18)
где
хк‘І‘ (ї) = х(ї, хк‘-і1‘-1 (ї -1),
(хк‘-і1‘-1(і -1)), ы\ (хк'-1І<-1 (ї -1))) є 0( х(ї -1), ї).
Для траектории (18) последовательность {хк‘-11-1 (ї -1),..., хк1 (1) } будем называть предысторией точки хк‘1‘ (ї) и будем писать: хк‘1‘ (ї) = хк,1‘ (ї) | хк‘-А-1 (ї -1),..., хКк (1) .
В дальнейшем, для удобства, цену игры Г будем обозначать символом УаІГ.
Построим на каждом шаге ї (ї = 1,...,Т) рекуррентное семейство матричных игр и определим их цены:
у; (х (ї )| хкІ (ї -1),..., хкІ (1)) =
= уаІ^уаІИ(хкІ(ї) |
|хкІ (ї - 1),..., хкІ (1))|| дхг (19)
Уї(х(ї)| х(ї-1),хкІ(ї-2),...,хкІ(1)) =
= val
V’(x(,)| X»(t—1),...,Xй(1))| qxr (20)
VL(x(t)| x(t — 1),..., x(2), xk<(1))
V—2(X(t^ X(t — 1),..
., xP), x“(2), xk(1))
= val
(21)
qxr
V‘(x(t^ x(t —1),...,x(1)) = V,—i( x(t ^ x(t —1),••
., X(2), Xkl (1))|| qxr •
= val
(22)
В соответствие с мощностью множества допустимости 1-го уровня 0(х(ї - 1), ї), существует
(д • г) чисел вида (19), (д • г) 1 чисел вида (20) и т. д., д • г чисел вида (21) и одно число вида (22).
Последовательность (19) - (22) для каждого фиксированного ї(ї = 1, . . ., Т) представляет собой систему упорядоченных чисел, предписанных к вершинам дерева, соответствующего развернутой в фазовом пространстве форме игры Г (х0, Т).
Лемма 2. Пусть Bkl =
Ък
система из q • r
т х п - матричных игр, имеющих седловые точки, к = 1,..., д; I = 1,..., Г. Тогда в д х г - матричной
игре \а1Вк1\ существует седловая точка.
Ilqxr
Доказательство. Нижнюю и верхнюю цены игры В = уаШк1\ можно представить в виде:
v(B) = max min (val B ) = max min
k=1,..., q l=1,..., r k=1,..., q l=1,..., r
m n
•<mx 22 =
i=1 j=1
m n
=max ),
i=1 j=1
v(B) = min max (val Bkl) = min max
l=1,..., r k=1,..., q l=1,. ., r k=1,..., q
m n
•(mxm? 22bfj =
i=1 j=1
m n
= 1п\п1тах 22ъИ%лл).
леН %еЪ ^ ^
7 =1 л =1
Предположим, что у(В) Ф у(В) . Так как у(В) < ^( В) всегда, то наше предположение сводится к неравенству ¥(В) < * В).
Из неравенства
max min (val Bkl) < min max (val Bkl)
k l k l
г j
Так как игра В имеет седловую точку, то (19) можно переписать в виде:
тт (тт тах 2 2 К^л,) <
г j
1 f , j и, в частности,
г j
min max 22bf < max min 22 bf flj ■
Г f j f i ■> ■>
г j ^ j
Последнее неравенство означает, что
v( BkT )< v( BeT).
Полученное противоречие говорит о несостоятельности нашего предположения и, на самом деле,
справедливо равенство v(B) = v(B) . Лемма доказана.
Лемма 3. В игре Г(x0, T) существуют все цены (19)-(22) и соответствующие им седловые точки.
Справедливость этого утверждения непосредственно вытекает из леммы 2.
Теорема 3. В динамической матричной игре
Г (x0, T) существуют оптимальные к-стратегии
(/ (•), /2 (•)) игроков, оптимальная (в смысле
принципа минимакса) траектория x (•) и цена игры, вычисляемая по формуле:
T m n
val Г(x0, T)= EEEOj(x(t))f Г
t=1 i=1 j=1
* * j
следует
min (val Bf )<min max (val Bf ),
l l k
k = 1,..., q,
и, далее,
min (val Bf )<max (val Bf),
lk
k = 1,..., q, l = 1,..., r.
Следовательно, для любой фиксированной пары k и l выполняется неравенство:
min (тах mm 22^1 flj)<
г j
< max (max min 2 2 bjfilj ). (23)
k f r j j
< max (max min 2 2 bjfllj). (24)
k f i 1—d
i j
Предположим, что внешние экстремумы в (24) достигаются при l = l и k = k . Тогда для всех k = 1,..., q и l = 1,..., r
min mp EEK^ij < mfax mrin 22ь«1ег
£ * * * / \ где % , л - седловая точка вдоль траектории х (•) .
Доказательство. На каждом шаге г (г = 1,..., Т), последовательно применяя в матричных играх
и(х), х е 0(х(г—1), г),
\у; (х( г )| х“ (г — 1),..., х*1 (1)^1 ,,г,
к = 1,..., д, I = 1,..., Г;
|^-1(х(г)| х(г — 1),..., х(2), хк0))|| к = 1,..., д, / = 1,..., г,
принцип минимакса, получаем число К(х(г Я х(г—1),..., х(1)) - итоговую цену семейства матричных игр ^уровня дерева игры (в фазовом пространстве), которая, согласно лемме 3, существует.
Предысторию точки х(г) = х (г), соответствующую числу V*(х(г)| х(г — 1),..., х(1)), обозначим х* (г — 1),..., х* (1), х0, т. е. х*(г) = х*(г) | х*(г — 1),..., х*(1).
Седловую точку т х п - матричной игры
Н(х* (г)) обозначим (% ,л ).
По построению последовательности (19)-(22) и,
исходя из леммы 3, последовательность {(% ,л ), г = 1,..., Т } является седловой точкой вдоль траектории х*(•)= {х0, х*(1),..., х*(Т) }, а цена игры Г (х0, Т) равна
Vа1Г (х°, Т )= 2 ал(х*(г ))£*л. (25)
г=1
Допустимые управления, соответствующие траектории х * (•) обозначим
(<(•), U2 (•)) = {(Ul*(X* (t)), u2(X* (t))), t = 0,1,..., T — 1}.
Оптимальные к-стратегии игроков в игре Г (X0, T) имеют вид:
/*(•)= (I*, Ul*(0), /*(•)= (і, U2*(0), а траектория X* (•) = x(, X0, U^), u2()) оптимальна в смысле принципа минимакса. Теорема доказана.
Теорема З является конструктивной, так как из ее доказательства следует алгоритм построения оптимальных к-стратегий, оптимальной траектории и
цены игры Г(X0, T).
у [(, Т], у2 [г, Т], К [<, Т] )
отличается от исходной игры Г(х0, Т) (см. (8)) только начальным состоянием и продолжительностью (2 (х * (г), Т — г)- система (1), определенная
на отрезке [г, Т], у [г, Т] и У 2 [г, Т] - сужение
множеств
Ти Т
11
2 на отрезке
T ш
[г, Т ], К [г, Т ] = 222а.л (х(т„л,).
т=г 7=1 л=1
Определение 5. Будем говорить, что оптимальная (в смысле принципа минимакса) траектория
В теории игр достаточно примеров, когда прин- х (•) игры Г(х0, Т) динамически устойчива, если
ципы оптимальности, определяющие наилучшие
выполнены следующие два условия: исходы (решения) статических игр, будучи приме- *
ненными в динамических играх, оказываются несо- 1) во всех играх Г(х (г) ,Т — г) ,г = ° 1,..., Т ,
стоятельными во времени, т. е. динамически неус- существуют цены в к-стратегиях;
тойчивыми (см., напр., [6; 8]). г—1 т п
Для определения принципа динамической устойчивости в игре Г(х0, Т), как обобщения принципа оптимальности Р. Беллмана из теории оптимального управления, погрузим ее в семейство {Г(х (г),
2) Ш* (х * (т))£ л) + уаІ Г(х * (ї),
Т=1 і=1 ] =1
Т-ї)= шІ Г(х0, Т),ї = 1,...,Т (26)
Теорема 4. Оптимальная (в смысле принципа Т - ї) , ї = 0,1,..., Т } аналогичных игр, определен- минимакса) траектория тры Г(х0, Т) динамически ных вдоль оптимальной траектории х (•) . Текущая
игра
Г(XX(’),T — ,)= ( 2(X*(’),т — ’);
устойчива.
Доказательство. Выполнение первого условия определения 5 для оптимальной траектории х (•) следует из теоремы 3. Покажем выполнение условия (26).
Исходя из первого условия определения 5, можно записать:
t—1 m n
222a, (x * (r))f/ rj + max min
7"! M1 ( )|[t,T^[t,T] M2 ( )[t,T^[t,T]
T m n
u2[tj ]) = EEE aj(x *(t ))fr,
v( x(•. X* (t), u*(0
[ t T ] :
(27)
t=1 і=1 J=1
где U* (•) [tT ], U2 (•)[, T ] - сужения допустимых
управлений U* (•) и U2 (•) на множество G(X* (t), t),
а U*[t,T] = U* x ...xUT, U2[t,T] = U2 x... x uT .
Второе слагаемое в левой части можно заменить на
min max v(xG, x* (t), u/Л, u20)
U2(•)єU2[f.T] U^^U^T] 1 2
(здесь v(x(•, X* (t), U* (•), U2Q) - цена траектории
x(•, X* (t'),u1(),u2 (•)). Следовательно, это слагаемое в равенстве (26) можно переписать в виде:
T ш n
max min 222a- (x*(тГЦ.
^Z[ t ,T ] і єН[, ,T Vу y ”Ьі lj
r=t і=1 j=1
T m n_
max min 22 2 aj (x* (T))fi =
feZ [t ,T ] reH [ t ,T ] ^ , j j
t = t г=1 j=1
T m n_
= min max 222 a a(x*(T))fi =
reH [ t,T ] fez [ (,Г ] ^ , Vх У S' г J
t = t г =1 j =1
T m и
= 222aj(x* (T))fr*r^*.
T = t i = 1 j = 1
Следовательно,
T m n
vaW (x * (t), T — t) = EEEo, (x* («г
r=? i=1 j=1
Подставляя выражения для val Г(x (t), T — t) и val Г(x0, T) (см. (25)) в (26), получаем тождест-
Отсюда, с учетом справедливости первого усло- в°- Теорема доказана.
вия определения 5 получаем для любых t = 1,...,T :
Таким образом, можно констатировать, что принцип минимакса в игре Г(х0, Т), порождает оптимальную траекторию, динамическая устойчи-
са) показывает, что в данной игре существуют две оптимальные (в смысле минимакса) траектории:
~x() = (0,—1,1), xo = (0,0,1)
соответствующие управлениям:
u1( ) = (0, i),
u2 () = (— 1 1 u1 () = (1, 0) u2 () = (1, 0) которым соответствует одна и та же цена
v( x0) = v (x0) = v (x0) = 1.
Таким образом, лемма 1 является справедливой, что и следует из ее строгого доказательства.
Примечание 2. Динамические матричные игры не следует путать с т. н. повторяющимися играми, суть которых состоит в многократном разыгрывании игры, т. е. в повторении одной и той же игры. В таких играх управляющими факторами выступают поведенческие стратегии игроков. В динамических же матричных играх условия меняются от состояния к состоянию - текущие матричные игры h(x(t)) разные для разных x и разных t . Более подробно с теорией повторяющихся игр можно ознакомиться в основополагающих трудах Р. Ауманна, Д. Фридмана и др.
Литература
1. Воробьев, Н. Н. Теория игр. Лекции для экономистов-кибернетиков / Н. Н. Воробьев. - Л.: Изд-во ЛГУ, 1974. - 160 с.
2. Данилов, Н. Н. Динамические матричные игры. Обоснование применения принципа минимакса в классе чистых комбинированных стратегий / Н. Н. Данилов // Вестник КемГУ. - 2012. - № 2 (50). - С. 42 - 48.
3. Данилов, Н. Н. Теоретико-игровое моделирование конфликтных ситуаций / Н. Н. Данилов. - Томск: Изд-во ТГУ, 2005. - 119 с.
4. Нейман, Дж. Фон. Теория игр и экономическое поведение / Дж. Фон Нейман, О. Мортенштерн. - М.: Наука, 1970. - 707 с.
5. Оуэн, Г. Теория игр / Г. Оуэн. - М.: Мир, 1971. - 230 с.
6. Петросян, Л. А. Кооперативные дифференциальные игры и их приложения / Л. А. Петросян, Н. Н. Данилов. - Томск: Изд-во ТГУ, 1985. - 276 с.
7. Петросян, Л. А. Теория игр / Л. А. Петросян, Н. А. Зенкевич, Е. А. Семина. - М.: Университет, 1998. -304 с.
8. Петросян, Л. А. Устойчивость решений в дифференциальных играх со многими участниками / Л. А. Петросян // Вестник ЛГУ. - 1977. - № 19. - С. 46 - 52.
Информация об авторе:
Данилов Николай Николаевич - доктор физико-математических наук, профессор, декан математического факультета КемГУ, 8(834)58-61-43, 8 (834)54-34-18, danilovnn@kemsu.ru, danilovnn@mail.ru.
Nikolay N. Danilov - Doctor of Physics and Mathematics, Dean of the Faculty of Mathematics, Kemerovo State University.
Статья поступила в редколлегию 07.04.2014 г.
вость которой гарантируется фактом существования такой траектории.
Примечание 1. В ходе предварительного рецензирования рукописи этой статьи был рассмотрен следующий пример с целью опровержения леммы 1:
x(t + 1) = x(t) + u + u2, t = 0,1; x(0) = 0;
U0 ={0,1}, u1 ={—1,1},
U20 ={0,1}, U1 ={—1,1};
h(x(1)) = 0, h(x(1)) =| x(2) |.
В этом случае f = (1,1), ) = (1,1) и K (x(),f,l) = x(2)|.
По расчетам рецензента:
v(x0) = max min | x(2)|= 1,
~ цОи u2(-)eU2
v(x0) = min max | x(2) |= 2,
u2(-)eU2 u1(-)eU т. е. v(x0) < v( x0) (см. лемму 1).
Однако рецензент допустил ошибку. Расчет с применением динамического программирования (схемы попятного движения для принципа минимак-