УДК 519.834
коалиционно-устоичивое равновесие угроз и контругроз в одной динамической игре
© 2008 г. З.С. Мальсагов
Постановка задачи
Рассмотрим коалиционную динамическую линейно-квадратичную игру трех лиц
({1 Д,3},ЕДЦ}г=:ц2зД^г (и)}г=1,2,з) • (1)
Здесь {1,2,3} - порядковые номера игроков; s -управляемая система; ^ Е ц - позиционная стратегия i -го игрока, за счёт выбора каждым игроком своей стратегии формируется ситуация ц (i;ri:,.i,\) ./: е и • на множестве всех ситуаций определены функции выигрыша игроков j (и)}_12 3. Предполагается, что
фиксирован момент окончания игры: ц о.
Дадим более подробное пояснение элементам (1).
Управляемая система описывается системой неоднородных нестационарных линейных уравнений
з
X = A(t)x + (f, Х) + a(t), x(i0) = X0 >
7=1
где xeR" - фазовый вектор; . иц г с |0. ,9| - матрица с непрерывными элементами; ц (t, x) - позиционное управление /-го игрока (определено ниже); a(i)eCJ0,5] - напрерьшная вектор-функция, а (/0,jc0)е[0,i9)xR" - начальная позиция, которую мы не будем предполагать априори зафиксированной (так как игра рассматривается в позиционных стратегиях).
Множество позиционных стратегий /-го игрока имеет следующее формальное определение: Ц = {Ц +ut(t,x) I ut(t,x) = Pt(f)x +pt(f),
Для выбора своей стратегии каждому игроку необходимо выбрать матрицу с непрерывными элементами р (t ) и непрерывную вектор-функцию p (t). Как будет показано ниже, такого класса стратегий достаточно для построения подходящим образом определённого решения игры. Заметим также, что при подстановке стратегий игроков в управляемую систему получается векторное линейное неоднородное уравнение с непрерыными коэффициентами; согласно [1], такое уравнение всегда имеет единственное непрерывное решение, продолжимое на [0,. Подставив это решение x(t) в позиционные стратегии игроков, можно получить реализацию стратегии для каждого игрока: Ui[t] = Pi(t)x(t) + pi(t\i = 1,2,3, тогда цИ = (ц[t],u[t],ц[t] ). Функция выигрыша /-го игрока задаётся линейно-квадратичным интегрально-терминальным функционалом
+ \f^{uT [t]D{i) (t)u[t\ + 2ит [t]d{i) (t) + 2xT (t)K{i) (t)u[t] + T
= xT (S)C(i)x(S) + xT (S)c(i)
0 l,j=1 Jl ' j=1 ' j
+ 2 S xT (t)M (°(t)u, [t] +
7=1
+ xT (t)G{l\t)x(t) + 2xT (t)g{l\t)}dt (/ = 1,2,3).
= xT(3)C(',x(3) + xT(S)c('> +
+ f { Ê»f \t\Df (0«, И + 2 fu] \1]df (1) + 2 j\T (1)Mf {1)U] [/] +
» i.i-i j-i j-1
+xT (t)G(" (t)x(t) + 2xT (t)g(,} (t)}dt, i = 1,2,3.
(o,
nxnih^h^^pi-),
xT (t)G{ï) (t)x(t) + 2xT 0f)g(0 (t)}dt =
С eR"x",ceR", DJI (•) ,G(i) (•),Mf (0 e С g(-)eC„[i0, tl](.i,jJ = l, 2,3).
где c(i) e R"x" - постоянная симметричная матрица; с® 6 R" - постоянный вектор; о0(г)еС,ях3я[0,5] - непрерывная блочная симметричная матрица порядка ЗихЗи, её элементы - матрицы порядка их и, ¡У'Ц):
м<о(/)еСлх3л[0,5] - непрерывная блочная симметричная матрица порядка пхЗп, её элементы - матрицы порядка ихи, 1/■'(,,: б/'" - «блочный» вектор порядка
3n; d(\t) - его компоненты, вектора размерности n;
верхний индекс означает порядковый номер игрока, нижние - номер элемента блочной матрицы.
Игроки не могут обмениваться долями выигрышей, но могут - информацией. Игра происходит следующим образом: сначала за счёт переговоров между игроками скадывается одна из следующих коалиционных структур: к = {{{1,2},{3}}, {{1,3},{2}}, {{2,3},{1}}}, а затем игра происходит уже как бескоалиционная игра двух лиц с векторными выигрышами, где в качестве игроков выступают сложившиеся коалиции.
В статье исследуются возможные подходы к понятию равновесия для игры (1), учитывающие не только наличие исходной коалиционной структуры, но и факт возможного её изменения в ходе игры. Ниже также будут получены достаточные условия существования подходящим образом определённого равновесия в игре (1).
Вспомогательные сведения
Определение 1. Вектор а размерности п больше по Парето (> ) вектора b той же размерности, если
V/'el..w, яг >йг,3у е 1.л, aj>bj. Иными словами,
если по крайней мере одна компонента а больше соответствующей компоненты Ъ, а остальные компоненты огне меньше соответствующих компонент Ь.
3
3
Рассмотрим бескоалиционную игру двух лиц с векторными функциями выигрыша
Здесь {1,2} - порядковые номера игроков; {V }_12 -множества стратегий игроковж на множестве ситуаций г = (г1,г2)е \/;х\/2 определены векторные функции выигрыша /(у), g(у), размерности к и I соответственно, которые игроки стремятся максимизировать за счет выбора своих стратегий.
Определение 2. Ситуацию «Х)еV;хМ2 назовём Парето-максимальной в игре (2), если не существует такой пары стратегий (у1;у2) е V, у \/2. что вектор (/(у1;у2), g(yl,v2)) размерности к+1 больше по Паре-то вектора (/«уг)у
Будем говорить, что первый игрок обладает угрозой на ситуацию ( у,. у2 ) в игре (2), если 3\- е \/1 такая, что М,уг)>р /0^2).
Второй игрок обладает контругрозой на угрозу у[ первого игрока на ситуацию (у, у2) в игре (2), если
гЬ'[У2)>р яСЧ,^), МУ2)<Р /о^2).
Аналогично определяется угроза второго игрока и контругроза первого.
Определение 3. Ситуация х\/2) называ-
ется паретовским равновесием угроз и контругроз в игре (2), если:
а) она Парето-максимальна в игре (2);
б) на любую угрозу любого игрока на ситуацию (у*, у*) у оставшегося имеется контругроза.
Лемма 1 [2]. Для того чтобы ситуация V, - V, была максимальной по Парето в игре (2), достаточно существования таких постоянных а. ■ (о.= (\,...,к), /?,. е(0Д),; = (1,...,/),=1,чт0 выполнено равен-
Гк I ^
Е«г/г(у)+ l:/]JgJ(v)
-V, С v, такая, что
ство vp = argma^y^
i=1
j=1
К1, состоящую из двух коалиций к = {1,2} и к2 = {3}.
Будем считать, что коалиция кг обладает к -угрозой
*
(г = 1,2) на коалицию к из ситуации и , если
Эи,
: U
*2 : Ji (ukv uk )> Ji(u )
J3(ukvUk )> J3(u ).
Заметим, что в соответствии с концепцией угроз и контругроз равновесная ситуация будет Парето-оптимальной. Следовательно, в рассматриваемом в статье случае коалиция к не может быть заинтересована во включении в свой состав 3-го игрока - единственного в к2.
В ответ на к-угрозу ит коалиции к2 на коалицию
к\ из ситуации u если:
у коалиции kj есть ki-контругроза,
Зи
с
V/ е
eU
¿1\{/}
Если у1ху2 -выпукло, а = у = (1,...,/) - вогнуты по V, то данное условие становится и необходимым +.
Понятие равновесия
Следуя [3], предложим понятие коалиционно-устойчивого равновесия угроз и контругроз в игре (1). В дополнение к ранее введённым понятиям угрозы и контругрозы для игры с векторными выигрышами, что эквивалентно случаю постоянной коалиционной структуры, введем понятия угрозы и контругрозы, учитывающие возможность образования других коалиций.
Рассмотрим угрозу на коалиционную структуру игры: в этом случае цель «угрожающей» коалиции -переманить на свою сторону игрока из другой коалиции. Зафиксируем в игре (1) коалиционную структуру
с * т * т
* * т *
-13(и*\{г},ик2 )< -1 з(и )-
В данном случае контругроза осуществляется всеми игроками из кь кроме /-го - того, которого пытаются переманить.
Для других коалиционных структур из К понятия угрозы и контругрозы определяются аналогично. Иными словами, коалиционная к-угроза означает попытку ряда игроков перейти от одной допустимой коалиционной стуктуры к другой из данной ситуации, а к-контругроза других игроков пресекает такую попытку.
Приведём определение равновесной ситуации, учитывающее возможные изменения в коалиционной структуре игры. Пусть /\"еК - допустимая коалиционная структура в игре (1).
Определение 5. Ситуация и =(и*,и2,и*)т называется к-равновесием угроз и контругроз (коалиционно-устойчивым) в игре (1) при коалиционной структуре К, если:
а) она является Парето-оптимальной в игре (1).
(Парето-оптимальность);
*
б) на любую угрозу любой коалиции из К на и* у оставшейся коалиции имеется контругроза (угрозы на ситуацию);
в) на любую к\ -угрозу коалиции к/. к 1 < к на коа-
*
лицию {к I <=к),к} фк{,к} е к) из ситуации и у коалиции к имеется ^-контругроза (угрозы на коалиционную структуру).
Условия существования
Введём следующие обозначения: '«(О
^(t) D®(t)
D^ (t) =
D%\ (t) =
k1 к 2
2
d «(/ ) =
( 4>\t) df(t)
M[l\t) = h
Al{'\t) M fit)
D
= с>
)= М«(*)= ^).
Напомним, что матрицы симметричны. До-
кажем следующую основную лемму в 4 вариантах.
Лемма 2а. Если найдётся такая точка /1 е= (/,,. ,9). что в ней суммы элементов матриц д(1) и д(2) положительны, а сумма элементов матрицы д(3) отрица-
чК
тельна, то коалиция к может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:
а) свой выигрыш больше по Парето любого наперед заданного вектора;
б) выигрыш коалиции к2 меньше любого наперед заданного числа.
Лемма 26. Если найдётся такая точка ^ е= (. ,9).
что в ней сумма элементов матрицы д(3) положи-
кгкг
тельна, а суммы элементов матриц д(1) , д(2) отри-
к2 К2 к2 К2
цательны, то коалиция к2 может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:
а) свой выигрыш больше любого наперед заданного числа;
б) выигрыш коалиции кх меньше по Парето любого наперед заданного вектора.
Лемма 2в. Если найдётся такая точка г1 е (, <9), что в ней сумма элементов матриц д1 и Д2 положительна, а сумма элементов матрицы д® отрицательна,
то 1 -й игрок может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:
а) свой выигрыш больше любого наперед заданного числа;
б) выигрыш 2-го игрока больше любого наперёд заданного числа;
в) выигрыш 3 -го игрока меньше любого наперёд заданного числа.
Лемма 2г. Если найдётся такая точка ^£(/„,5),
что в ней сумма элементов матриц д{1 и Д2) положительна, а сумма элементов матриц д(3) отрицательна, то 2-й игрок может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:
а) свой выигрыш больше любого наперед заданного числа;
б) выигрыш 1 -го игрока больше любого наперёд заданного числа;
в) выигрыш 3 -го игрока меньше любого наперёд заданного числа.
Доказательство. Проведём на примере леммы 2а.
*
Зафиксируем стратегию третьего игрока u*[t ] = = Р3 (i)x(i) + р3 (/). Обозначим
u(t,X) = (Ui(t,x),U2(t,x)),Ut,x) = Ui(t,x) + u2(t,x), — * — *
A(t) = A(t)+ P3 (t), a(t) = a(t) + p3 (t),
G(0 (0 = G« (t) + (P3 (tyf Df (t)P3 (0 +
"2 2
+M« (t)P3 (t) + (7>3* (/)f (M® (t))T, g(t) = g(0 + (i?3 (Of (Oft (0,
r(t) = 2{p\\(t))Td^it) + (p*3(t))TD^h (t)p*3(t).
D(i)(t) = (t), d(i)(t) = d«(t).
Таким образом, мы приходим к следующей постановке задачи:
-,
x GGM <, хЭ~аО
J ^x Ci Э"
+ f ûlDcù Dd<> D-x<><3<>
2
uc *> f1 a Ö2 <x ^tio2 ~ с ^Ö1 Q+ö 2 C^i1 G? чЗ
Причём первый и второй функционал необходимо сделать больше любого наперёд заданного числа, а третий - меньше. Без ограничения общности будем считать, что предположение леммы выполняется в
точке ~{t0+3)
все дальнейшие рассуждения можно
аналогично повторить и для любой другой точки интервала (/,,.,9). Сумма непрерывных функций непрерывна, и из положительности непрерывной функции в точке следует её положительность на некотором отрезке, содержащем эту точку. Пусть ,/2] - отрезок,
на котором суммы элементов матриц д(1) и д(2) по-
к К к К
ложительны, а сумма элементов матрицы д(3) отри-
кк
цате льна; ^ < + 5) < ?2.
Мы проведём рассуждения только для первого функционала - всё то же самое будет верно и для второго, а для третьего изменится только знак неравенства в оценках; здесь существенно то, что для всех трёх функционалов используется одна и та же стратегия. Построим явно последовательность функций из и, которая удовлетворяет условиям леммы. Для этого необходимо указать непрерывные функции-матрицы ),<21(*) и вектор-функции ц1т((),¿(/). Положим
&а{{) = (2га{{) = -]^А{()\/т>0. Функции уст-
роены чуть более сложно:
vn (t) =
0, t< t0 +
h- to 1 2 2m
4m 2t- 4m 2(t0+
0 2 2m
t0
^ _ to
2
1 Ц-10
—, t < t0 —0 2m 2
-4m 2t + 4m 2 (t0 + + —),
0 2 2m
t0+ < t, t0 + +
0 0 2 2m
J^[um] =
¿{xT (t)Q„(t)D{1\t)Qn(t)x(t) +
= о
+ ql (tf D(l\t)Qn (t)x(t) + xT (t)Qn (t)D(l\t)qn (t) +
т —(1) -(1) T
+ qT (t)DУ \t)qn (t) + (dУ (t)) Qn (t)x(t) +
— (1) т —(1)
+ d' '(t)'qn (t) + xT (t)M' (t)Qn (t)x(t) +
2
0, t, tn +
т —(1) + x (t)M (t)q„(t)}dt.
1
2 2m
h~ t0
Подставим Qn (t) = ~^(A(t),A(t)) = -%), qn (t) =
1 □
= - — (a(t), a(t)) + (e, e)vn (t) = - a(t) + evn (t).
J(1)[um ] =
T
\h{xT (t) A(t)D(1)(t) A(t)x(t) + « (t)D(1)(t) A(t)x(t) + 40
+ xT (t) 3(t)D(1)(t) a(t) +
T
□ - □ -t п -t □
+ a (t)D(t) a(t)- d (t) A(t)x(t)- d (t) a(t)-
- xT (t)K(1) (t) 3(t)x(t) - xT (t)K(1) (t) n(t) -
T~ (1) □
-vm (t)eTDK '(t) A(t)x(t) -
T □ —(1) 2 T—(1) -vm (t)xT (t) A(t)D' (t)e+vm (t)2 eT D' ;(t)e-
T
T— (1) □ □ —(1)
Здесь е - вектор из п единиц.
Например, для /о = о, ^ = 1, т = 10 функция ут (г) имеет следующий график (рисунок).
0 t
Без ограничения общности будем считать, что
«иголка» функции укладывается в интервал (0) е + ут(1:)х ОЖ
, г2 ] для всех от >0 (иначе просто будем считать не с нуля, а с первого т, для которого это выполнено).
Непосредственным вычислением убеждаемся, что 1"/н I=
ло ло 3
Далее, решая систему дифференциальных уравнений, находим хт (/) = х0 + 2 (/)сй, хт ) = х0 + 2.
Опять же отбросим заведомо ограниченные слагаемые: г(1)г
ifoi-vm(t)eT D{l\t)%)x(t)~ vm (t)xT (t) A(t)D(1) (t)e + vm (t)2 eT D(1) (t)e -
Очевидно, что Vm > 0 xm( ) ограничены (например,
Т— (1) □ т —(1)
-vm(t)e1 Dy (t)D (t)e +
-(1) T T —T
m\4\d (0) e+vm('4" '
снизу х0, а сверху х0 + 2) и непрерывны. Далее оценим +ут(/)(й? (0) (/Ж (Обо-
значение критерия качества •/[' 1 = ^ \и\1\'1У ' х
Очевидно, что существует такая постоянная еЯ, что J2[um\ + Z2 <Jl[uJ для любых т>0. Далее выделим все слагаемые, в которые ^ (г) входит линейно. Воспользуемся теоремой о среднем значении Оевидно, что существует такае постоянная г, еЯ, , Г т, •• ,,
' ^ ^ 1 (те[;0,5]), после чего возьмем интеграл. Например:
X (t)u[t] + 2J(1} (О'иИ + 2x{t)'K{l) (t)u[t] }cft.
что У1(1)[г/т] + 21 <^(1)[мт] для любых т> 0 (мы отбросили заведомо ограниченные слагаемые, зависящие только от х(•)). Подставим итЩ =<2т(1)х(1) + тп(1).
А1)м=
= St0{(Qm (t)x(t) + qm (t))'D (t)(Qm (t)x(t) + + qm (t)) + d(1} (t) '(ßm (t)x(tK 4m (t)) + + x{t)'Mm{t)(Qm{t)x{t) + qm{t))}dt.
\f -vm(t)eTD(l\t)%)x(t)dt--o
= ~(еТ 0(1\т)%)х{т))\^т =
= ~{еТЪ(1\т)\т)х{т)).
Как видно, все такие слагаемые ограничены при т —> +оо. Итак, получаем следующую оценку:
[«и] = f К(1)2еТ£'т№Л= ¡2{ут(1)2еТЪт(1)е}Л ,
10
8
6
4
2
Обозначим за Б(1) точную нижнюю грань по / ( |/,./21 суммы всех элементов матрицы I)"(I). По условию леммы она больше 0.
о 3
Сопоставляя полученные оценки получаем, что
7(1)Ги 1>В(1)— + 1 где постоянная 2 не зависит от т.
3
Аналогично оцениваются и другие критерии. Что и требовалось доказать.
Остальные леммы доказываются аналогично. Теорема. Пусть в игре (1) зафиксирована исходная коалиционная структура к = {К,К2} = {{1,2},{3}} и нашлась такая точка / е (/0. ,9). что в ней выполняются следующие ограничения на суммы элементов матриц, фигурирующих в функциях выигрыша игроков (здесь Б® означает сумму элементов матрицы о(1)((), взятую в момент времени t).
Р(\) > 0 □(1)>0
D2V>0 D2У>0
D1(21)>0 d(2;>o
D(2) > 0 D(2) > 0 D 21 > 0 D 22 > 0
(2)
D&<0
d32)<0
Р(3) < 0 Р(3) < 0 Р231)<0 Р232)<0 ' Р333) > 0
тогда любая Парето-максимальная ситуация будет к-равновесием угроз и контругроз в игре (1).
Доказательство. Достаточно сослаться на леммы 2 -при данных ограничениях с очевидностью выполняются их условия. Следовательно, у игроков при любой ситуации в игре будут все необходимые для определения 5 контругрозы.
Замечание. Если выполнены условия теоремы, которые очень легко проверяются, то для отыскания к -равновесия угроз и контругроз достаточно найти Паре-то-максимальную ситуацию в игре 1. Применение леммы 1 и подходящего варианта метода динамического программирования из [3] позволяет найти явный вид решения игры 1 - к-равновесия угроз и контругроз.
Литература
1. Понтрягин Л.С. Обыкновенные дифференциальные
уравнения М., 1961.
2. Подиновский В.В., Ногин В.Д. Парето-оптимальные ре-
шения многокритериальных задач. М., 1982.
3. Жуковский В.И. Введение в дифференциальные игры
при неопределенности. М., 1997.
Ингушский государственный университет, г. Магас
11 сентября 2007 г.