Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 5 (2), с. 17-21
УДК 519.83
ОБ ОЦЕНКЕ СКОРОСТИ СХОДИМОСТИ ИТЕРАТИВНОЙ ПРОЦЕДУРЫ ОТЫСКАНИЯ РЕШЕНИЯ 2x2 ИГРЫ
© 2012 г. А.В. Баркалов, Н.В. Шестакова
Нижегородский госуниверситет им. Н.И. Лобачевского
avbarkalov@mail. ru
Поступила в редакцию 10.09.2012
Рассматривается модификация метода фиктивного разыгрывания (метода Брауна), обеспечивающая для биматричной 2x2 игры скорость сходимости к решению O(n-1), где n - количество шагов метода.
Ключевые слова: биматричная 2x2 игра, итеративный метод, скорость сходимости.
Метод фиктивного разыгрывания для биматричной 2x2 игры
Биматричная игра представляет собой математическую модель конфликтной ситуации двух сторон (игроков), множества стратегий которых конечны. Решением биматричной игры называется ситуация равновесия по Нэшу - набор стратегий игроков, индивидуальные отклонения от которых не приводят к увеличению выигрыша (см., например, [1]). В общем случае решение биматричной игры существует в смешанных стратегиях - вероятностных распределениях, описывающих случайный выбор исходных (чистых) стратегий. где
Для отыскания ситуаций равновесия в некоторых классах конечных игр возможно применение итеративного метода Брауна - метода фиктивного разыгрывания [1, 2]. Скорость сходимости метода для матричной игры оценивается величиной 0(и-1/(г+х-2)) [3], где п - номер итерации, г и 5 - размеры матрицы. В работе [4]
показано, что скорость сходимости метода
Брауна для биматричной 2x2 игры с единственной вполне смешанной ситуацией равновесия не превышает оценки скорости сходимости для
матричной игры, равной 0{гГ1/2).
Биматричная 2x2 игра задается матрицами
А(аи аи) в = (Ъи *,2\ (1)
>уа21 а22) 1.^21 Ь22)
в которых строки соответствуют стратегиям первого игрока, столбцы - стратегиям второго, а элементы матриц представляют собой выигрыши первого и второго игроков соответственно.
Пусть Р = (р, 1 - р), 0 < р < 1, и Q = (д, 1 - д),
0 < д < 1, - смешанные стратегии игроков в игре
(1). Тогда ситуацией равновесия по Нэшу игры (1) является решение (P0, Q0) системы неравенств
(Ур е [0,1]) Ех (Р°,Q°)>E1(P,Q°), (Vqe[0,l])E2(P°,Q°)>E2(P0,Q),
где символами E1, E2 обозначены математические ожидания выигрышей первого и второго игроков соответственно.
Введем для игры (1) стратегии
/' е BR(Q) = Arg max /и (k. Q), (2)
\<k<2
j g BR(P) = Arg max E? (P,k\ (3)
\<k<2
El(k,Q)=aklq + ak2(\-q),
E2(P,k) = blkp + b2kQ-p).
Чистая стратегия i (j) из (2) ((3)) представляет собой наилучший ответ первого (второго) игрока на известную смешанную стратегию партнера.
Для биматричной игры итеративный процесс Брауна можно определить следующим образом. Предположим, что игра (1) повторяется в дискретные моменты времени t = 1, 2, ..., причем в начальные моменты времени игроки выбирают чистые стратегии произвольным образом. Пусть в результате n повторений игры первая чистая стратегия выбиралась к раз первым и m раз вторым игроком. Векторы частот выбора чистых стратегий
pWJk-!dL\
\п п ) \п п )
представляют собой смешанные стратегии игроков. Начиная с некоторого конечного момен-* 1
та времени t > 1 текущие чистые стратегии выбираются в соответствии с (2), (3), т.е.
i(t +1) є BR(Q(t)), j(t +1) є BR(P(t)),
* * Л / t ч
t = t, t+1,... (4)
Смешанные стратегии двух последовательных повторений игры связаны соотношениями
(5)
P(t +1)=т+г P(t)+т+г ^(t+1),
а(г+1)=б«+а} ((+1), (6)
г +1 г +1
где Рг, б] - смешанные стратегии, соответствующие чистым стратегиям г, ] из (4).
Предельные точки последовательности {(Р(г), б(г)), г = 1, 2, ...}, построенной по правилам (4)-(6), являются ситуациями равновесия игры (1) (см., например, [5]).
Рассмотрим случай отсутствия в игре (1) ситуаций равновесия в чистых стратегиях, тогда элементы матриц выигрышей (с точностью до перестановок строк и столбцов) связаны соотношениями
а11 > а21, а12 < а22, Ь11 < Ь12, Ь21 > Ь22 . (7)
Компоненты ситуации равновесия игры (1) при выполнении условия (7) имеют вид
p0 =■
q0 =•
J22 21
'11 b12 + b22 b21
(8)
BR(Q) =
J1, q > q\
І2, q < q0,
J2, p > p0,
(9)
Рис. 1. Виток спирали, порождаемый методом Брауна для игры (7)
Удовлетворяющие условиям (5), (6) точки
(р (г), д(г)) и (р (г + 1), д(г + 1)) траектории на
рис. 1 соединены отрезками прямой.
Как следует из (9), (10), в прямоугольной об-
,0 , 0 . ласти единичного квадрата р < р , д < д , г =
= BR(Q) = 2, ] = BR(P) = 1. Обозначим эту область R2l и введем аналогичные обозначения для остальных прямоугольных областей единичного квадрата (см. рис. 1).
Модификация метода фиктивного разыгрывания
Рассмотрим модификацию метода фиктивного разыгрывания, обеспечивающую для би-матричной 2^2 игры скорость сходимости 0(пч), где п - количество шагов метода. Примем, что в методе Брауна при выборе очередной
*
чистой стратегии в моменты времени г > г вместо (9), (10) используются
Г1, а(г) > а0 + 8(г),
BR(Q(t)) = Г \ (11)
12, д(г) < д0 +8(г),
BR( P(t)) =
I2, p(t) > p0 +s(t), I1, p(t) < p0 +s(t),
(12)
где
Тогда, с учетом (8), множества BR из (2), (3) определяются в виде
BR(P) = \^ ’ (10)
I1, Р < Р .
Последовательность {(Р(г), б(г)), г = 1, 2, ...}, порождаемая соотношениями (5), (6), может быть изображена в единичном квадрате 0 < р < 1,
0 < д <1 [4, 5]. На рис. 1 приведен вид траектории движения точки (р (г), д(г)) для игры (7).
5(г) = £ + ,
+ гС1-1.
Применение правил (11), (12) для выбора чистой стратегии соответствует подстановке в (4) вместо точки (Р(г), б(г)) той точки последовательности, которая получилась бы на следующем шаге итеративного процесса Брауна при сохранении текущей чистой стратегии (точки (Р(г +1), б(г +1)), которая получается при г (г +1) = г (г), ] (г +1) = ](г) («прогнозный шаг» [6])). Оценим скорость сходимости модифицированного метода Брауна для рассматриваемой игры в случае
0 1 о > 1
p =—, q >—. 2 2
(13)
Общий вид витка траектории движения точки (р(г), д(г)) для этого случая приведен на рис. 2.
Оценим расстояние между двумя последова-
0
тельными пересечениями отрезка р = р , 1 > д > > д° траекторией движения точки (р(г), д(г)), предполагая, что в случае нестрогого выполнения неравенств в (11), (12) сохраняется та чистая стратегия, которая выбиралась на предыдущем шаге.
12
^ 0 ^ 0 > q , ^-----------------г < q ,
2п + п12 +1
откуда
m - 2п -1 < n12 < m - 2п.
q0 12 q0
(14)
(15)
q(t) =
2п + п12 + п22
(p (t + 1), q(t + 1)) g R21, то должны выполняться неравенства
A \
R11 \ R12
J £ \ B
D\\/ откуда
Тс 1
1 R21 | R22 1 1
p0 1 p
т + n
21
2(п + п12) + п2
<q
т + п21 +1 0
21 ■> q ,
1-q
2(п + п12) + п21 +1
1 (2n12q0 - (т - 2nq0)) -1 < п21 <
(17)
0
Рис. 2. Виток спирали с использованием правил (11), (12): случай (13)
Используя геометрическую интерпретацию итеративного процесса [5], вычислим координаты точек А, В, С и т.д. (см. рис. 2), в которых происходит в соответствии с правилами (11), (12) изменение текущих чистых стратегий игроков.
Предположим, что точка А на рис. 2 достигается в момент времени Ґ = 2п > Ґ, р(ґ) = 1/2, д(ґ) = т/(2п) > д0, причем (р(Ґ- 1), д(ґ - 1)) є Яи. Пусть пц - количество шагов метода в течение одного квазицикла (витка спирали), на которых первый игрок выбирал стратегию і, а второй -стратегию ц. Поскольку, в соответствии с (11), (12), ВЯ(д(2п)) = 1, ВЯ(р(2п)) = 2, то п12 > 1.
Если при Ґ = 2п точка (р (Ґ + 1), д(ґ + 1)) є Я\2, то в момент времени Ґ = 2п +п12 (которому соответствует точка В на рис. 2) на основании (11), (12) должны выполняться неравенства т 0 т
1-q
-(2n12q0 - (т - 2nq0)). (18)
Если же в момент времени г = 2п +П12 + п22 + + п21 (р (г), д(г)) г R21, то п21 = 1. Тогда с учетом (18) справедливо
п21 =
= тах(1, [(1 - д0)-1(2п12д0 - (т - 2пд0))]). (19) Пусть, наконец, в момент времени г =
= 2(п + п:2) + п21 + пи
п + п12 + п,, 1
р(г) =
Тогда п11 = п21 и
q(t) =
2(п + п12) + п21 + п11 2
т + 2пп
2п + п12 + п22 + п21 + п11
Если же при t = 2n (p (t + 1), q(t + 1)) g R12, то n12 = 1. Следовательно,
n12 = max (1, [т/q0 - 2n]), (16)
где квадратными скобками обозначена целая часть числа.
Далее, пусть в момент времени t = 2п + п12 +
+ п22
п + п12 1
p(t) =---------12-----= -
2п + п12 + п22 2
(откуда п22 = п12) и
т т
2(п + п12 + п21)
(точка Е на рис. 2).
При оценке разности ординат точек А и Е на рис. 2 рассмотрим следующие случаи.
Случай 1. Пусть на каждом витке траектории движения точки (р (ґ), д(ґ)), начинающемся в момент времени Ґ = 2п, выполняется
■т-2п -1, т^-0(2п12д0 -(т -2пд0)) >1. д 1 - д
Заметим, что справедливо неравенство
(У8> 0) т +2п'-' < т +1(п'-' + 8) . (20)
2(п + п12 + п21) 2(п + п12 + п21 +8)
В результате подстановки в (20) верхней границы для п2і из (18) получается оценка
т + 2п21
---------------<
2(п + п12 + п21) т - 2(т - 2пд0 )/(1 - д0) + (4д0 /(1 - д0 ))пг
(21)
-<
2(п + п12)
(точка С на рис. 2).
Если в момент времени г = 2п +п]2 + п22 + + п21 (р(г), д(г)) е R2l (точка В на рис. 2) и
2(п-(т-2пд )/(1-д ) + (1 + 2д /(1-д ))п12)
Поскольку при 8 > 0 справедливо
т - 2(т - 2пд0)/(1- д0) + (4д0 /(1 - д 0))п12
2(п - (т - 2пд 0)/(1- д0) + (1 + 2д 0/(1- д 0))п12)
12 (22)
< т -2(т-2пд0)/(1-д0)+(4д0/(1-д0))(п12 +8)
2(п-(т-2пд0 )/(1-д0 )+(1+2д0 /(1-д0 ))(п12 +8))
то, в результате замены п12 в (21) верхней границей из (16), получается
т + 2п
21
2(п + п12 + п21)
< т + 2(т - 2пд0)/(1 - д0)
2(п + (т - 2пд0 )/(д0 (1 - д0)))
С учетом последнего неравенства
т т + 2п.
(23)
21
д(2п) - д(2(п + п12 + п21)) = ^--~, ч
2п 2(п + п12 + п21)
> т т + 2(т -2пд0)/(1 -д0)
2п 2(п + (т - 2пд0)/(д0(1 - д0)))
(т - 2пд0 )(т - 2пд0) /(1 - д0) > 0 2п(п + (т - 2пд0) /(д0 (1 - д0))) ,
откуда следует сходимость модифицированного метода. При этом длина квазицикла, начинающегося в момент времени г = 2п, с учетом (15), (18), оценивается величиной
Т(2п) = 2(п12 + п21) < 0 2 0 (т - 2nд0), (24)
д (1 - д )
а частота выбора первой чистой стратегии вторым игроком на квазицикле удовлетворяет неравенству
I(2п) = 2п21 < 2 (т - 2пд0). (25)
(1 - д )
Из неравенств (23)-(25) для моментов времени г0 = 2n, г1 = г0 + T(to), ..., 4 = 4-1 + Т(гк-\)-, соответствующих последовательным пересечениям отрезка р = р0, 1 > д > д0, траекторией движения точки (р(г), д(г)), следуют оценки:
^ = 2п, 4 д(4) = т,
г1 = г0 + Т (г0) < 2п +
2
д0 (1 - д0)
(т - 2пд0),
г1д(г1) < т +
2
(1 - д0)
(т - 2пд0),
г2 = г1 + Т (г1) < 2п +
4
д 0(1 - д0)
(т - 2пд0),
г2 д(г2) < т+(т - 2пд0),
(1 - д )
гк = -1 + Т (гк-1) < 2п +
2к
д 0(1 - д0)
(т - 2пд0),
2к
гкд(гк) < т +-----— (т - 2пд0).
(1 - д0)
Положим
г = -
2к
д0 (1 - д0)
(т - 2пд0),
тогда
д(к ) - д0 д0 = = 0(,"1),
2п + г 2п + г
откуда следует требуемая оценка скорости сходимости.
Покажем, что невыполнение одного из неравенств из случая 1 не изменяет оценку
скорости сходимости (случай т /д° - 2п < 1,
(1 /(1 - д° ))(2п12д0 - (т - 2пд0)) < 1 невозможен).
Случай 2. Пусть на витке траектории, начинающемся из точки
1 т 0
р(г) = -, д(г) = — > д ,
2 2п
-(2п12 д0 - (т - 2пд0)) > 1.
в момент времени
т1 г = 2п, 1^---2п, -;
д 1-д
Поскольку в рассматриваемом случае
0 т 0 д0 д < — <д0 ,
2^ 2п
то
д(2п)-д0 = -д0 <•д- = 0(п ').
2п 2п
Как следует из (16), п12 = 1. При подстановке последнего значения в (19) получается 1
1 - Ч
-(2д0 - (т - 2пд0))
(26)
Тогда для момента времени г = 2(п + 1 + п21) (которому соответствует точка Е на рис. 2) справедливо
т + 2п21
д(г) =--------------^ <
2(п +1 + п21)
< т + 2(2д0 - (т - 2пд0))/(1 - д0)
2(п +1 + (2д0 - (т - 2пд0)) /(1 - д0))
С использованием последнего неравенства получается
1 ЧЧ 0 т + 2п21 д(2(п +1 + п21)) - д =- 1
2(п +1 + п21)
д <
< т + 2(2д - (т - 2пд )) /(1 - д ) 0
“ 2(п +1 + (2д0 -(т -2пд0))/(1 -д0)) д =
2д0 - (т - 2пд0)
2(п +1 + (2д - (т - 2пд ))/(1 - д ))
д0 / п - (т /(2п) - д0)
1 +1/п + 2(д0 / п - (т /(2п) - д 0))/(1 - д0)
= 0(п-!).
Случай 3. Пусть на витке траектории, начинающемся в точке
1 т 0
р(г) ^, д(г) ^ —> д
2 2п
в момент времени
1
г = 2п, -^0-2п>1, 1>—1— (2п12д0 -(т-2пд0)).
д 1-д
Из последнего неравенства вытекает оценка
2п12 <
+ (— - 2п).
(27)
Тогда, с учетом (15), должно выполняться
двойное неравенство
(
m
Л
- 2п -1
О
1 - q < 2п12 < — +
m
- 2п
. (28)
Ограничения в (28) совместных при выполнении условия
m1
— - 2п <1 + -о.
q q
(29)
Как следует из (16), (19) и (29), для рассматриваемого случая
п21 = 1, п12 =
< 3
m 0 1 + q
— < q +------—.
2п 2п
Оценивая в момент времени t = 2(п + п12 + 1)
разность q(t) - q , получаем q(2(n + п12 +1)) - q0 =
m+2
2(п + п12 +1)
У =
m - 2nq0 + 2(1 - q0 (п12 +1)) 2(п + п12 +1)) m /(2п) - q0 + (1 - q0(n12 +1))/ п 1 + (п12 +1)/ п
< (1 + q0)/(2n) +(1 -q0(nl2 +1))/п = о(п-)
1 + (п12 +1)/п
Следовательно, скорость сходимости к решению модифицированного метода фиктивного разыгрывания для 2x2 биматричной игры с единственной вполне смешанной ситуацией равновесия (13) оценивается величиной O(n _1), где п - количество шагов метода. Оценка скорости сходимости модифицированного метода для биматричной 2x2 игры в случае р° > 1/2, q0 > > 1/2 производится аналогичным способом.
Список литературы
1. Воробьев Н.Н. Основы теории игр. Бескоалиционные игры. М.: Наука, 1984.
2. Робинсон Дж. Итеративный метод решения игр // Матричные игры: Сб. статей под ред. Н.Н. Воробьева. М.: Физматгиз, 1961. С. 110-117.
3. Шапиро Г.Н. Замечание о вычислительном методе в теории игр // Матричные игры: Сб. статей под ред. Н.Н. Воробьева. М.: Физматгиз, 1961. С. 118-127.
4. Gjerstad S. The rate of convergence of continuous fictitious play // Econ. Theory. 1996. № 7. P. 161-178.
5. Metric A., Polak B. Fictitious play in 2x2 games: a geometric proof of convergence // Econ. Theory. 1994. №4. P. 923-933.
6. Антипин А.С., Попова О.А. Игра двух лиц в смешанных стратегиях как модель обучения // Журн. вычисл. матем. и матем. физики. 2005. Т. 45. №9. С. 1566-1574.
и
ON A CONVERGENCE RATE ESTIMATE OF AN ITERATIVE PROCEDURE TO FIND THE SOLUTION TO 2x2 GAME
A.V. Barkalov, N.V. Shestakova
A modification of Brown's fictitious play method is considered which provides the convergence rate O{rTl) (n is the number of steps) for a 2x2 bimatrix game.
Keywords: 2x2 bimatrix game, iterative method, convergence rate.