Научная статья на тему 'Коалиционно-устойчивое равновесие угроз и контругроз в одной динамической игре'

Коалиционно-устойчивое равновесие угроз и контругроз в одной динамической игре Текст научной статьи по специальности «Математика»

CC BY
87
19
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Мальсагов З. С.

Рассмотрена коалиционная динамическая линейно-квадратичная игра трех лиц. Управляемая система описывается системой неоднородных нестационарных линейных уравнений. Даются понятия равновесия и определение угроз и контругроз. Рассматриваются условия существования, при которых коалиционная структура из трех лиц будет устойчива.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Коалиционно-устойчивое равновесие угроз и контругроз в одной динамической игре»

УДК 519.834

коалиционно-устоичивое равновесие угроз и контругроз в одной динамической игре

© 2008 г. З.С. Мальсагов

Постановка задачи

Рассмотрим коалиционную динамическую линейно-квадратичную игру трех лиц

({1 Д,3},ЕДЦ}г=:ц2зД^г (и)}г=1,2,з) • (1)

Здесь {1,2,3} - порядковые номера игроков; s -управляемая система; ^ Е ц - позиционная стратегия i -го игрока, за счёт выбора каждым игроком своей стратегии формируется ситуация ц (i;ri:,.i,\) ./: е и • на множестве всех ситуаций определены функции выигрыша игроков j (и)}_12 3. Предполагается, что

фиксирован момент окончания игры: ц о.

Дадим более подробное пояснение элементам (1).

Управляемая система описывается системой неоднородных нестационарных линейных уравнений

з

X = A(t)x + (f, Х) + a(t), x(i0) = X0 >

7=1

где xeR" - фазовый вектор; . иц г с |0. ,9| - матрица с непрерывными элементами; ц (t, x) - позиционное управление /-го игрока (определено ниже); a(i)eCJ0,5] - напрерьшная вектор-функция, а (/0,jc0)е[0,i9)xR" - начальная позиция, которую мы не будем предполагать априори зафиксированной (так как игра рассматривается в позиционных стратегиях).

Множество позиционных стратегий /-го игрока имеет следующее формальное определение: Ц = {Ц +ut(t,x) I ut(t,x) = Pt(f)x +pt(f),

Для выбора своей стратегии каждому игроку необходимо выбрать матрицу с непрерывными элементами р (t ) и непрерывную вектор-функцию p (t). Как будет показано ниже, такого класса стратегий достаточно для построения подходящим образом определённого решения игры. Заметим также, что при подстановке стратегий игроков в управляемую систему получается векторное линейное неоднородное уравнение с непрерыными коэффициентами; согласно [1], такое уравнение всегда имеет единственное непрерывное решение, продолжимое на [0,. Подставив это решение x(t) в позиционные стратегии игроков, можно получить реализацию стратегии для каждого игрока: Ui[t] = Pi(t)x(t) + pi(t\i = 1,2,3, тогда цИ = (ц[t],u[t],ц[t] ). Функция выигрыша /-го игрока задаётся линейно-квадратичным интегрально-терминальным функционалом

+ \f^{uT [t]D{i) (t)u[t\ + 2ит [t]d{i) (t) + 2xT (t)K{i) (t)u[t] + T

= xT (S)C(i)x(S) + xT (S)c(i)

0 l,j=1 Jl ' j=1 ' j

+ 2 S xT (t)M (°(t)u, [t] +

7=1

+ xT (t)G{l\t)x(t) + 2xT (t)g{l\t)}dt (/ = 1,2,3).

= xT(3)C(',x(3) + xT(S)c('> +

+ f { Ê»f \t\Df (0«, И + 2 fu] \1]df (1) + 2 j\T (1)Mf {1)U] [/] +

» i.i-i j-i j-1

+xT (t)G(" (t)x(t) + 2xT (t)g(,} (t)}dt, i = 1,2,3.

(o,

nxnih^h^^pi-),

xT (t)G{ï) (t)x(t) + 2xT 0f)g(0 (t)}dt =

С eR"x",ceR", DJI (•) ,G(i) (•),Mf (0 e С g(-)eC„[i0, tl](.i,jJ = l, 2,3).

где c(i) e R"x" - постоянная симметричная матрица; с® 6 R" - постоянный вектор; о0(г)еС,ях3я[0,5] - непрерывная блочная симметричная матрица порядка ЗихЗи, её элементы - матрицы порядка их и, ¡У'Ц):

м<о(/)еСлх3л[0,5] - непрерывная блочная симметричная матрица порядка пхЗп, её элементы - матрицы порядка ихи, 1/■'(,,: б/'" - «блочный» вектор порядка

3n; d(\t) - его компоненты, вектора размерности n;

верхний индекс означает порядковый номер игрока, нижние - номер элемента блочной матрицы.

Игроки не могут обмениваться долями выигрышей, но могут - информацией. Игра происходит следующим образом: сначала за счёт переговоров между игроками скадывается одна из следующих коалиционных структур: к = {{{1,2},{3}}, {{1,3},{2}}, {{2,3},{1}}}, а затем игра происходит уже как бескоалиционная игра двух лиц с векторными выигрышами, где в качестве игроков выступают сложившиеся коалиции.

В статье исследуются возможные подходы к понятию равновесия для игры (1), учитывающие не только наличие исходной коалиционной структуры, но и факт возможного её изменения в ходе игры. Ниже также будут получены достаточные условия существования подходящим образом определённого равновесия в игре (1).

Вспомогательные сведения

Определение 1. Вектор а размерности п больше по Парето (> ) вектора b той же размерности, если

V/'el..w, яг >йг,3у е 1.л, aj>bj. Иными словами,

если по крайней мере одна компонента а больше соответствующей компоненты Ъ, а остальные компоненты огне меньше соответствующих компонент Ь.

3

3

Рассмотрим бескоалиционную игру двух лиц с векторными функциями выигрыша

Здесь {1,2} - порядковые номера игроков; {V }_12 -множества стратегий игроковж на множестве ситуаций г = (г1,г2)е \/;х\/2 определены векторные функции выигрыша /(у), g(у), размерности к и I соответственно, которые игроки стремятся максимизировать за счет выбора своих стратегий.

Определение 2. Ситуацию «Х)еV;хМ2 назовём Парето-максимальной в игре (2), если не существует такой пары стратегий (у1;у2) е V, у \/2. что вектор (/(у1;у2), g(yl,v2)) размерности к+1 больше по Паре-то вектора (/«уг)у

Будем говорить, что первый игрок обладает угрозой на ситуацию ( у,. у2 ) в игре (2), если 3\- е \/1 такая, что М,уг)>р /0^2).

Второй игрок обладает контругрозой на угрозу у[ первого игрока на ситуацию (у, у2) в игре (2), если

гЬ'[У2)>р яСЧ,^), МУ2)<Р /о^2).

Аналогично определяется угроза второго игрока и контругроза первого.

Определение 3. Ситуация х\/2) называ-

ется паретовским равновесием угроз и контругроз в игре (2), если:

а) она Парето-максимальна в игре (2);

б) на любую угрозу любого игрока на ситуацию (у*, у*) у оставшегося имеется контругроза.

Лемма 1 [2]. Для того чтобы ситуация V, - V, была максимальной по Парето в игре (2), достаточно существования таких постоянных а. ■ (о.= (\,...,к), /?,. е(0Д),; = (1,...,/),=1,чт0 выполнено равен-

Гк I ^

Е«г/г(у)+ l:/]JgJ(v)

-V, С v, такая, что

ство vp = argma^y^

i=1

j=1

К1, состоящую из двух коалиций к = {1,2} и к2 = {3}.

Будем считать, что коалиция кг обладает к -угрозой

*

(г = 1,2) на коалицию к из ситуации и , если

Эи,

: U

*2 : Ji (ukv uk )> Ji(u )

J3(ukvUk )> J3(u ).

Заметим, что в соответствии с концепцией угроз и контругроз равновесная ситуация будет Парето-оптимальной. Следовательно, в рассматриваемом в статье случае коалиция к не может быть заинтересована во включении в свой состав 3-го игрока - единственного в к2.

В ответ на к-угрозу ит коалиции к2 на коалицию

к\ из ситуации u если:

у коалиции kj есть ki-контругроза,

Зи

с

V/ е

eU

¿1\{/}

Если у1ху2 -выпукло, а = у = (1,...,/) - вогнуты по V, то данное условие становится и необходимым +.

Понятие равновесия

Следуя [3], предложим понятие коалиционно-устойчивого равновесия угроз и контругроз в игре (1). В дополнение к ранее введённым понятиям угрозы и контругрозы для игры с векторными выигрышами, что эквивалентно случаю постоянной коалиционной структуры, введем понятия угрозы и контругрозы, учитывающие возможность образования других коалиций.

Рассмотрим угрозу на коалиционную структуру игры: в этом случае цель «угрожающей» коалиции -переманить на свою сторону игрока из другой коалиции. Зафиксируем в игре (1) коалиционную структуру

с * т * т

* * т *

-13(и*\{г},ик2 )< -1 з(и )-

В данном случае контругроза осуществляется всеми игроками из кь кроме /-го - того, которого пытаются переманить.

Для других коалиционных структур из К понятия угрозы и контругрозы определяются аналогично. Иными словами, коалиционная к-угроза означает попытку ряда игроков перейти от одной допустимой коалиционной стуктуры к другой из данной ситуации, а к-контругроза других игроков пресекает такую попытку.

Приведём определение равновесной ситуации, учитывающее возможные изменения в коалиционной структуре игры. Пусть /\"еК - допустимая коалиционная структура в игре (1).

Определение 5. Ситуация и =(и*,и2,и*)т называется к-равновесием угроз и контругроз (коалиционно-устойчивым) в игре (1) при коалиционной структуре К, если:

а) она является Парето-оптимальной в игре (1).

(Парето-оптимальность);

*

б) на любую угрозу любой коалиции из К на и* у оставшейся коалиции имеется контругроза (угрозы на ситуацию);

в) на любую к\ -угрозу коалиции к/. к 1 < к на коа-

*

лицию {к I <=к),к} фк{,к} е к) из ситуации и у коалиции к имеется ^-контругроза (угрозы на коалиционную структуру).

Условия существования

Введём следующие обозначения: '«(О

^(t) D®(t)

D^ (t) =

D%\ (t) =

k1 к 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

d «(/ ) =

( 4>\t) df(t)

M[l\t) = h

Al{'\t) M fit)

D

= с>

)= М«(*)= ^).

Напомним, что матрицы симметричны. До-

кажем следующую основную лемму в 4 вариантах.

Лемма 2а. Если найдётся такая точка /1 е= (/,,. ,9). что в ней суммы элементов матриц д(1) и д(2) положительны, а сумма элементов матрицы д(3) отрица-

чК

тельна, то коалиция к может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:

а) свой выигрыш больше по Парето любого наперед заданного вектора;

б) выигрыш коалиции к2 меньше любого наперед заданного числа.

Лемма 26. Если найдётся такая точка ^ е= (. ,9).

что в ней сумма элементов матрицы д(3) положи-

кгкг

тельна, а суммы элементов матриц д(1) , д(2) отри-

к2 К2 к2 К2

цательны, то коалиция к2 может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:

а) свой выигрыш больше любого наперед заданного числа;

б) выигрыш коалиции кх меньше по Парето любого наперед заданного вектора.

Лемма 2в. Если найдётся такая точка г1 е (, <9), что в ней сумма элементов матриц д1 и Д2 положительна, а сумма элементов матрицы д® отрицательна,

то 1 -й игрок может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:

а) свой выигрыш больше любого наперед заданного числа;

б) выигрыш 2-го игрока больше любого наперёд заданного числа;

в) выигрыш 3 -го игрока меньше любого наперёд заданного числа.

Лемма 2г. Если найдётся такая точка ^£(/„,5),

что в ней сумма элементов матриц д{1 и Д2) положительна, а сумма элементов матриц д(3) отрицательна, то 2-й игрок может при любой ситуации в игре только за счет выбора своей стратегии одновременно сделать:

а) свой выигрыш больше любого наперед заданного числа;

б) выигрыш 1 -го игрока больше любого наперёд заданного числа;

в) выигрыш 3 -го игрока меньше любого наперёд заданного числа.

Доказательство. Проведём на примере леммы 2а.

*

Зафиксируем стратегию третьего игрока u*[t ] = = Р3 (i)x(i) + р3 (/). Обозначим

u(t,X) = (Ui(t,x),U2(t,x)),Ut,x) = Ui(t,x) + u2(t,x), — * — *

A(t) = A(t)+ P3 (t), a(t) = a(t) + p3 (t),

G(0 (0 = G« (t) + (P3 (tyf Df (t)P3 (0 +

"2 2

+M« (t)P3 (t) + (7>3* (/)f (M® (t))T, g(t) = g(0 + (i?3 (Of (Oft (0,

r(t) = 2{p\\(t))Td^it) + (p*3(t))TD^h (t)p*3(t).

D(i)(t) = (t), d(i)(t) = d«(t).

Таким образом, мы приходим к следующей постановке задачи:

-,

x GGM <, хЭ~аО

J ^x Ci Э"

+ f ûlDcù Dd<> D-x<><3<>

2

uc *> f1 a Ö2 <x ^tio2 ~ с ^Ö1 Q+ö 2 C^i1 G? чЗ

Причём первый и второй функционал необходимо сделать больше любого наперёд заданного числа, а третий - меньше. Без ограничения общности будем считать, что предположение леммы выполняется в

точке ~{t0+3)

все дальнейшие рассуждения можно

аналогично повторить и для любой другой точки интервала (/,,.,9). Сумма непрерывных функций непрерывна, и из положительности непрерывной функции в точке следует её положительность на некотором отрезке, содержащем эту точку. Пусть ,/2] - отрезок,

на котором суммы элементов матриц д(1) и д(2) по-

к К к К

ложительны, а сумма элементов матрицы д(3) отри-

кк

цате льна; ^ < + 5) < ?2.

Мы проведём рассуждения только для первого функционала - всё то же самое будет верно и для второго, а для третьего изменится только знак неравенства в оценках; здесь существенно то, что для всех трёх функционалов используется одна и та же стратегия. Построим явно последовательность функций из и, которая удовлетворяет условиям леммы. Для этого необходимо указать непрерывные функции-матрицы ),<21(*) и вектор-функции ц1т((),¿(/). Положим

&а{{) = (2га{{) = -]^А{()\/т>0. Функции уст-

роены чуть более сложно:

vn (t) =

0, t< t0 +

h- to 1 2 2m

4m 2t- 4m 2(t0+

0 2 2m

t0

^ _ to

2

1 Ц-10

—, t < t0 —0 2m 2

-4m 2t + 4m 2 (t0 + + —),

0 2 2m

t0+ < t, t0 + +

0 0 2 2m

J^[um] =

¿{xT (t)Q„(t)D{1\t)Qn(t)x(t) +

= о

+ ql (tf D(l\t)Qn (t)x(t) + xT (t)Qn (t)D(l\t)qn (t) +

т —(1) -(1) T

+ qT (t)DУ \t)qn (t) + (dУ (t)) Qn (t)x(t) +

— (1) т —(1)

+ d' '(t)'qn (t) + xT (t)M' (t)Qn (t)x(t) +

2

0, t, tn +

т —(1) + x (t)M (t)q„(t)}dt.

1

2 2m

h~ t0

Подставим Qn (t) = ~^(A(t),A(t)) = -%), qn (t) =

1 □

= - — (a(t), a(t)) + (e, e)vn (t) = - a(t) + evn (t).

J(1)[um ] =

T

\h{xT (t) A(t)D(1)(t) A(t)x(t) + « (t)D(1)(t) A(t)x(t) + 40

+ xT (t) 3(t)D(1)(t) a(t) +

T

□ - □ -t п -t □

+ a (t)D(t) a(t)- d (t) A(t)x(t)- d (t) a(t)-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- xT (t)K(1) (t) 3(t)x(t) - xT (t)K(1) (t) n(t) -

T~ (1) □

-vm (t)eTDK '(t) A(t)x(t) -

T □ —(1) 2 T—(1) -vm (t)xT (t) A(t)D' (t)e+vm (t)2 eT D' ;(t)e-

T

T— (1) □ □ —(1)

Здесь е - вектор из п единиц.

Например, для /о = о, ^ = 1, т = 10 функция ут (г) имеет следующий график (рисунок).

0 t

Без ограничения общности будем считать, что

«иголка» функции укладывается в интервал (0) е + ут(1:)х ОЖ

, г2 ] для всех от >0 (иначе просто будем считать не с нуля, а с первого т, для которого это выполнено).

Непосредственным вычислением убеждаемся, что 1"/н I=

ло ло 3

Далее, решая систему дифференциальных уравнений, находим хт (/) = х0 + 2 (/)сй, хт ) = х0 + 2.

Опять же отбросим заведомо ограниченные слагаемые: г(1)г

ifoi-vm(t)eT D{l\t)%)x(t)~ vm (t)xT (t) A(t)D(1) (t)e + vm (t)2 eT D(1) (t)e -

Очевидно, что Vm > 0 xm( ) ограничены (например,

Т— (1) □ т —(1)

-vm(t)e1 Dy (t)D (t)e +

-(1) T T —T

m\4\d (0) e+vm('4" '

снизу х0, а сверху х0 + 2) и непрерывны. Далее оценим +ут(/)(й? (0) (/Ж (Обо-

значение критерия качества •/[' 1 = ^ \и\1\'1У ' х

Очевидно, что существует такая постоянная еЯ, что J2[um\ + Z2 <Jl[uJ для любых т>0. Далее выделим все слагаемые, в которые ^ (г) входит линейно. Воспользуемся теоремой о среднем значении Оевидно, что существует такае постоянная г, еЯ, , Г т, •• ,,

' ^ ^ 1 (те[;0,5]), после чего возьмем интеграл. Например:

X (t)u[t] + 2J(1} (О'иИ + 2x{t)'K{l) (t)u[t] }cft.

что У1(1)[г/т] + 21 <^(1)[мт] для любых т> 0 (мы отбросили заведомо ограниченные слагаемые, зависящие только от х(•)). Подставим итЩ =<2т(1)х(1) + тп(1).

А1)м=

= St0{(Qm (t)x(t) + qm (t))'D (t)(Qm (t)x(t) + + qm (t)) + d(1} (t) '(ßm (t)x(tK 4m (t)) + + x{t)'Mm{t)(Qm{t)x{t) + qm{t))}dt.

\f -vm(t)eTD(l\t)%)x(t)dt--o

= ~(еТ 0(1\т)%)х{т))\^т =

= ~{еТЪ(1\т)\т)х{т)).

Как видно, все такие слагаемые ограничены при т —> +оо. Итак, получаем следующую оценку:

[«и] = f К(1)2еТ£'т№Л= ¡2{ут(1)2еТЪт(1)е}Л ,

10

8

6

4

2

Обозначим за Б(1) точную нижнюю грань по / ( |/,./21 суммы всех элементов матрицы I)"(I). По условию леммы она больше 0.

о 3

Сопоставляя полученные оценки получаем, что

7(1)Ги 1>В(1)— + 1 где постоянная 2 не зависит от т.

3

Аналогично оцениваются и другие критерии. Что и требовалось доказать.

Остальные леммы доказываются аналогично. Теорема. Пусть в игре (1) зафиксирована исходная коалиционная структура к = {К,К2} = {{1,2},{3}} и нашлась такая точка / е (/0. ,9). что в ней выполняются следующие ограничения на суммы элементов матриц, фигурирующих в функциях выигрыша игроков (здесь Б® означает сумму элементов матрицы о(1)((), взятую в момент времени t).

Р(\) > 0 □(1)>0

D2V>0 D2У>0

D1(21)>0 d(2;>o

D(2) > 0 D(2) > 0 D 21 > 0 D 22 > 0

(2)

D&<0

d32)<0

Р(3) < 0 Р(3) < 0 Р231)<0 Р232)<0 ' Р333) > 0

тогда любая Парето-максимальная ситуация будет к-равновесием угроз и контругроз в игре (1).

Доказательство. Достаточно сослаться на леммы 2 -при данных ограничениях с очевидностью выполняются их условия. Следовательно, у игроков при любой ситуации в игре будут все необходимые для определения 5 контругрозы.

Замечание. Если выполнены условия теоремы, которые очень легко проверяются, то для отыскания к -равновесия угроз и контругроз достаточно найти Паре-то-максимальную ситуацию в игре 1. Применение леммы 1 и подходящего варианта метода динамического программирования из [3] позволяет найти явный вид решения игры 1 - к-равновесия угроз и контругроз.

Литература

1. Понтрягин Л.С. Обыкновенные дифференциальные

уравнения М., 1961.

2. Подиновский В.В., Ногин В.Д. Парето-оптимальные ре-

шения многокритериальных задач. М., 1982.

3. Жуковский В.И. Введение в дифференциальные игры

при неопределенности. М., 1997.

Ингушский государственный университет, г. Магас

11 сентября 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.