УДК 519.833.2
© В. И. Жуковский, К. С. Сорокин
[email protected], [email protected]
СУЩЕСТВОВАНИЕ РАВНОВЕСИЯ УГРОЗ И КОНТРУГРОЗ В ОДНОЙ БЕСКОАЛИЦИОННОЙ ИГРЕ ТРЕХ ЛИЦ1
Ключевые слова: игра, стратегия, равновесие, максимум по Парето, сильная выпуклость, функция выигрыша.
Abstract. The conditions that guarantee the existence of threat and counter threat equilibrium in non cooperative game of three persons are derived. The main feature of the game is absence of constraints on strategies sets of players.
1. Постановка задачи
Рассмотрим бескоалиционную игру трех лиц
<{1,2,3}, {МП }i=1)2)3, Шх)}i=l,2,3>• (1.1)
Здесь 1,2,3 — порядковые номера игроков, г-й (г = 1, 2, 3) игрок формирует свою стратегию xi € Rni (Rni — «¿-мерное пространство с евклидовой нормой ||xi|| = (xi^)2]1/2 ), в
результате образуется ситуация x = (хх,х2,хз) € МП (« = П1+П2+Щ); на Мп определена функция выигрыша г-го игрока /¿(х) (г = ^2^), значение которой в конкретной ситуации х € Мп называется выигрышем г-го игрока. На г'содержатель-ном уровнеб цель каждого игрока состоит в самостоятельном
1 Работа поддержана грантом РФФИ.
выборе такой своей стратегии, при которой его выигрыш принимает возможно большее значение. Общепринятое решение бескоалиционной игры — ситуация равновесия по Нэшу [1]. Однако такому понятию присущ ряд негативных свойств. Среди них — г'улучшаемостьС ситуации равновесия по Нэшу: именно, может существовать другая ситуация, выигрыши всех игроков в которой больше соответствующих выигрышей в равновесной по Нэшу ситуации (классическим примером здесь является игра I"дилемма заключенных©). В связи с этим в [2] было введено другое понятие решения бескоалиционной игры (равновесие угроз и контругроз); это равновесие г'пеулучшаемоС. Данная работа посвящена выявлению ограничений на элементы упорядоченной тройки (1.1), при которых существует равновесие угроз и контругроз.
2. Вспомогательные утверждения
Скалярная функция F(x), определенная на Мп, называется [3, с. 176] сильно выпуклой (сильно вогнутой) на Мп, если Зж = const > > 0, для которой
F(ax + (1 — а)у) ^ aF(x) + (1 — a)F(y) — аеа(1 — а)||х — у||2
(соответственно
F(ax + (1 — а)у) ^ aF(x) + (1 — a)F(y) + аеа(1 — а)||х — у||2)
при любых х, у € М и а € [0,1].
, • •
дифференциируемой на Мп функции F(x) необходимым и достаточным условием, сильной выпуклости (сильной вогнуто>
dF(z'lT
dz
x — у | x — у|
z=V
(соответственно
T
(x - у) -ae||x - у||2)
z=y
при всех х, у € R™; здесь dF}^ — градиент функции F(z), а индекс T сверху означает операцию транспонирования.
Утверждение 2.2. [3, с.50]. Пусть функция F
непрерывна на Жа и для любой последовательности {Xk }^ такой, что ||Xk | = +то, имеет место
lim F(x(k)) = -то.
к^-ж
Тогда существеут точка максимума xp функции F(x) на Rn, то есть
max F(x) = F(xp).
xeRn
В следующих утверждениях использована скалярная функция /(xi, x2, ^), определенная на множестве ситуаций (xi, x2, x%) € Rn (указанных в § 1), и fc-вектор ek со всеми компонентами равными единице.
Лемма 2.1. Если скалярная функция /(xi, x2, x) ме~ прерывно дифференцируема на Rn и сильно выпукла по x2 € Rn при всех (x,^ € Rrai+ra3, то для каждой ситуации x = (x*, x*,xf) € Rn и стратегuu x\ € Rni существует /свояб стратегия
x2(x, хгх) = X2 = X2 + /Зе„2 и число ß* > 0 такие, что при любых ß ^ ß*
/ {x1 >■ /fx* x*
/ x ,x ,x > / x ,x ,x .
Доказательство. Обозначим
г = f(x[, X2, xf) - /(xi, X2, xf), c = (2.2)
dF(z)
dz
£ уЧетом утверждения 2.1 и 2.2
/ / х1 ха хР^ Л^х* X* ХР^ —
J \Х1, х2, х3' Л ^ 1, х2> х3^
= Дх[,х^хр) _ Дх[,х*,х|) + /(х[, Х*, Хр) _ Дх*,Х*,Хр) ^
>
д/(х[,х2,хр3 дх2
(х^ _ х*) + эе||ха _ х*|| + г. (2.3)
Возьмем в качестве х^ = х* + веП2, где постоянную в > О определим ниже, а еп — П2-вектор, все компоненты которого равны единице. Тогда из (2.3)
/(х[,ха,хр) _ /(х*,х*, хр) ^ всте„2 + адв2П2 + г.
Так как аеп > 0, то при любых
0>у = ^+Ж + {р«)2
2аеп у 2аеп2
будет
аепв2 + сте„2в + г > О,
и поэтому
Лх1!,ха,х|) > /х*,х*,х|) при х| = х* + веп и любых в ^ в* •
Аналогично доказывается
Лемма 2.2. Если скалярная функция Лх,х,хз) непрерывно дифференцируема на М” и сильно вогнута по х2 € Мп при всех (х1,хз) € М”1+газ, то для каждой ситуации х = (х*, х*, х|) € М” и стратегии х\ € М”1 существует, /свояб стратегия х2(х,х[) = х\ = х\ + /Зе„2 и число /3* > 0 такие, что при любых в ^ в*
Л/х1 ха хр\ < Нх* х* хр\
Лх1,х2,хз/ < Лх1>х2,хз/.
3. Формализация равновесия
Пусть хР = (х^, хР, хР) € М” — некоторая фиксированная ситуация в игре (1.1).
Будем считать, что первый игрок обладает угрозой на ситуацию хР, если у него существует стратегия х^ € М”1, при которой
Л(х*, хр, хр) > Д(хР) •
В ответ на угрозу первого второй игрок обладает контругрозой, если существует стратегия хС € Мп, при которой
Л(х* ,х£, хр) > Л(х!,хр,х^), (3.1)
Л(х!,х£,х^) < Д(хр,хр, хр)• (3.2)
Аналогично определяется угроза па ситуацию хР любого из игроков и ответная контругроза одного из оставшихся. Итак,
угроза игрока на хР сводится к наличию у него стратегии, при
применении которой его выигрыш увеличивается по сравнению с ситуацией хР, а ответная контругроза преследует следующие цели:
во-первых, г'наказанияб в виде (3.2) угрожавшего игрока, во-вторых, осуществление контругрозы в силу неравенства (3.1).
Очевидно, что если в ответ на любую угрозу любого игрока у одного из оставшихся имеется контругроза, то осуществление угрозы теряет какой-либо смысл.
Наконец, ситуацию хР € X называют максимальной по Парето (эффективной) в трехкритериальной задаче
<М”, Шх)}г=1)2)3}, (3.3)
если при любых х € М несовместна система неравенств
/¿(х) ^ /*(хР) (¿ = 1,2,3),
причем хотя бы одно из этих неравенств строгое.
Определение 3.1. Ситуация хр € X называется равновесием угроз и контругроз в игре (1.1), если
1) хр максимальна по Парето в трехкритериальной задаче
<Rn, ш х) b=i,2,3);
2) в ответ на любую угрозу на хр любого игрока у хотя бы одного из оставшихся имеется контругроза.
Замечание 3.1. Множество ситуаций равновесия угроз и контругроз внутренне устойчиво, ибо, согласно максимальности по Парето, не существует такого х € Rn, чтобы
/¿(X) > /¿(xp); (г = 1,2,3).
xp
устойчиво к отклонению от него отдельного игрока, ибо
такое отклонение либо не приведет к г'улучшениюб его выигры-
xp
одного из оставшихся игроков (в результате чего его выигрыш уменьшится).
4. Существование
.
1) функции выигрыша /¿(х) непрерывно дифференцируемы на Rn;
2) существуют постоянные а > 0 (г = 1,2,3) т,акие, что для любой последовательности ситуаций {Xk }TO,
lim ||Xk || = + то,
к^то
имеет место
з
lim Xfc)) = -то;
г=1
3) а) функция /]_(х]_,х2,х%) сильно выпукла по х\ и сильно
x,
функция /2(х, X, хз) сильно выпукла по х2 м сильно вогнута по Жз,
функция /ъ{х\,х2,хъ) сильно выпукла по Жз м сильно вогнута по х\ или
Ъ) функция Д(х,X,хз) сильно выпукла по х\ и сильно во-х,
функция /2(х, х, хз) сильно выпукла по х2 м сильно вогнута х,
функция /з(х,х,хз) сильно выпукла по хз м сильно вогнута по X-
Тогда в игре (1.1) существует равновесие угроз и контругроз.
Доказательство. Разобьем его на два этапа. На первом установим существование максимальной по Парето ситуации хр € Кп в задаче (3.3), па втором докажем, что в ответ на любую угрозу на любого игрока у одного из оставшихся имеется контругроза.
1-й этап. Воспользуемся утверждением, установленным в ра, . .
Если для задачи (3.3) существуют (ц > 0; (г = 1,2,3) и
ситуация хр € К” такие, что
з з
тах V а/х) = V] а/хр),
г=1 г=1
то ситуация хр будет максимальной по Парето. Существование такого хр € К” следует тогда из требования 2 теоремы 4.1 и утверждения 2.2.
2-й этап. Здесь покажем, что из сильной вогнутости
Д (х, х, хз) и сильной выпуклости /2(х,х,х3) по х € К” при каждых (х,хз) € € КП1+газ следует: в ответ па любую
угрозу х* первого игрока па ситуацию хр (из первого этапа) у второго имеется контругроза, то есть существует стратегия х2 € К”, для которой выполняются строгие неравенства (3.1) и (3.2).
В самом деле, из сильной вогнутости /г(х,х,хз) по х2 и леммы 2.2 получаем: существуют стратегия х^ = хР + вепг и число в > 0 такие, что
/1(х*,х^},хр) < Л(хр) (4.1)
при всех в ^ вь
Из сильной выпуклости /(х,х,^^) ПО х2 и леммы 2.1 существует стратегия х^ = хР + веп и число в > 0 такие, что
/2(х*, хр, хр) < /2(х*, х£2), х^) Ув ^ в- (4.2)
Возьмем число в* = шах^!^ в.? - Тогда из (4.1), (4.2) получаем, что для стратегии х2 = хр + веП2 при всех в ^ в* имеют место неравенства (3.1) и (3.2). Аналогично доказывается, что из сильной вогнутости /г(х, х, хз) и сильной выпуклости /з(х, X, хз) по х € К” при каждых (х,х2) € € КП1+га2 следует: па любую
угрозу второго игрока х* на ситуацию хр у третьего имеется контругроза х2, то есть выполняются неравенства
/з(хр,х*,х§) > /3(хр,х*, хр),
/2(хр, х*,х§) < /2(хр, хр, хр)-
Наконец, ИЗ СИЛЬНОЙ вогнутости /з(х,х,хз) и сильной выпуклости /х(х,х,хз) по х € К” при каждых (х,хз) € К”2+газ следует: па любую угрозу третьего игрока х* та ситуацию хр у первого имеется контругроза х2 -
Ъ
ровке теоремы. Здесь лишь в ответ на угрозу первого игрока г'контругрожаетб третий, в ответ на угрозу третьего г'контругро-жаетб второй и в ответ на угрозу второго г'контругрожаетб первый.
Замечание 4.1. Теорема очевидным образом распространяется на бескоалиционные игры четырех и более лиц.
Замечание 4.2. Требование 2 теоремы выполнено, если существуют такие аг > 0; (г = 1,2,3), что функция
з
а/Дхк) будет сильно вогнута.
г=1
Замечание 4.3. Теорема распространяется на бескоалиционную игру трех лиц при неопределенности
(и,2,3}, {К”}г=1)2)3, Кт, /х, у)}г=1)2;3>, (4.3)
где, в отличие от (1.1), учитывается действие неопределенностей у € Кт- При формализации гарантированного равновесия угроз и контругроз здесь можно следовать г'аналогу векторной седло-вой точкиб, предложенному в работе [5].
5. Линейно-квадратичный вариант игры
Здесь будем рассматривать игру (1.1), где функции выигрыша / г , , х,
именно имеют вид
3 3
/¿(хьх2,х3) = ^ хтАкх* + 2]Т[а*,г)]тх^- + Ьг, (5.1)
,?>=1 .7=1
(г = 1, 2, 3), где хг € К” (г = 1, 2, 3), априори заданы постоянные П х п^-матрицы А ^, постоянные п^-векторы а^ и числа ;
будем также считать, что матрицы А^ симметричны при всех г,Л € ^,2,3}-
Далее, А > 0 (<) означает, что квадратичная форма Аг определенно положительна (отрицательна); напомним, что индекс Т сверху означает операцию транспонирования.
Лемма 5.1. [3,с. 179]. Для того чтобы дважды непре-
рывно дифференцируемая функция /(х,х,хз) была сильно выпуклой (сильно вогнутой) по хг на К”-4, необходимо и достаточно, чтобы гессиан
<э2/(х,х,х) ^ п
Эх? >
(соответственно < 0 ) при всех х € К”.
Лемма 5.2. [6, с. 15]. Для функции /г(х,Х,хз)
.
^™0=2А(.» = 1,2,3).
Лемма 5.3. [6, с. 15]. Если А, — наибольший корень
характеристического уравнения ^е£[А„ — АЕ^.] = О, то для любых х, € К”
хтА ,х, ^ А ,хтх, = А , ||х^- У2 (г, ,?' = 1,2,3);
здесь ЕП5 единичная п, х п, -матрица.
Из теоремы 4.1 с учетом лемм 5.1-5.3 получаем следующие коээфициентные условия существования равновесия угроз и контругроз игры (1.1), (5.1).
. , .
1) существуют положительные постоянные аг; (г = 1,2,3) т,акие, что
аА, + а2А, + а3А , < О (г = 1,2,3); (5.2)
2) a
4 4 > , 4 4 < ,
4 4 > , 4 4 < ,
4 4 < , 4 4 > 0
(5.3)
или
b
4i > 0, 4? < 0, 4? < o,
4з* < о, 422 > 0,
4! > 0.
(5.4)
Тогда в игре (1.1), (5.1) существует равновесие угроз и контругроз.
Доказательство. В силу леммы 5.3 и ограничения (5.2), справедлива цепочка неравенств
i=l
i=l
при любых Xj ф 0nj (Ok — нулевой fc-вектор). Тогда линейная свертка функций /i(x) из (5.1) с положительными весами од (i = 1,2,3)
3
^ ^ aifi(х1, х2, хз)
i
будет сильно вогнутой по х (лемма 5.1). Отсюда следует выполнение требования 2 теоремы 4.1. Наконец, из лемм 5.1 и 5.2 получаем, что согласно (5.3) и (5.4) имеют место соответственно условия а и b из теоремы 4.1.
Список литературы
1. Nash J.F. Non-cooperative games// Ann. Math. 1951. Vol.54. P. 286295.
2. Vaisbord E. М., Zhukovskiy V. I. Introduction to Multi-Player Differential Games and their Applications. N.Y.: Gordon and Breach, 1988.
3. Васильев Ф.П. Методы оптимизации. М.: Факториал Пресс, 2002.
4. Подиновский В. В., Ногин В. Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982.
5. Zhukovskiy V. I. Lyapunov Function in Differential Games. London and N.Y.:Teylor and Francis, 2003.
6. Жуковский В. И., Чикрий А. А. Линейно-квадратичные дифференциальные игры. Киев: Наук, думка, 1994.