Научная статья на тему 'Принципы устойчивой кооперации'

Принципы устойчивой кооперации Текст научной статьи по специальности «Математика»

CC BY
362
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА / КООПЕРАТИВНОЕ РЕШЕНИЕ / ВРЕМЕННАЯ СОСТОЯТЕЛЬНОСТЬ КООПЕРАТИВНЫХ СОГЛАШЕНИЙ / ПРОЦЕДУРА РАСПРЕДЕЛЕНИЯ ДЕЛЕЖА (ПРД) / СТРАТЕГИЧЕСКАЯ УСТОЙЧИВОСТЬ / ЗАЩИТА ОТ ИРРАЦИОНАЛЬНОГО ПОВЕДЕНИЯ / PAYOFF DISTRIBUTION PROCEDURES (PDP) / IMPUTATION DISTRIBUTION PROCEDURES (IDP) / DIFFERENTIAL GAME / COOPERATIVE SOLUTION / TIME-CONSISTENCY OF THE COOPERATIVE AGREEMENTS / STRATEGIC STABILITY / IRRATIONAL BEHAVIOR PROOFNESS

Аннотация научной статьи по математике, автор научной работы — Петросян Леон Аганесович, Зенкевич Николай Анатольевич

Имеются три важных условия, которые должны быть исследованы, если рассматривается проблема устойчивости долгосрочного кооперативного соглашения: временная состоятельность (динамическая устойчивость) кооперативного соглашения, стратегическая устойчивость и защита от иррационального поведения такого соглашения. В работе получены математические результаты, основанные на использовании процедуры распределения дележа (ПРД), которые развивают разработанные ранее аспекты динамически устойчивой кооперации. В работе доказано для специального класса дифференциальных игр, что динамически устойчивое кооперативное соглашение может быть стратегически поддержано равновесием по Нэшу. Также приведен пример, в котором выполняются все три условия.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

: There are three important aspects which must be taken into account when the problem of stability of long-range cooperative agreements is investigated: time-consistency of the cooperative agreements, strategic stability and irrational behavior proofness. The mathematical results based on imputation distribution procedures (IDP) are developed to deal with the above mentioned aspects of cooperation. We proved that for a special class of differential games time-consistent cooperative agreement can be strategically supported by Nash equilibrium. We also consider an example where all three conditions are satisfied.

Текст научной работы на тему «Принципы устойчивой кооперации»

УДК 518.9 + 517.9 ББК 65.050.2

ПРИНЦИПЫ УСТОЙЧИВОЙ КООПЕРАЦИИ 1

Петросян Л. А. 2

(Факультет прикладной математики - процессов управления, Санкт-Петербургский государственный университет, Санкт-Петербург )

Зенкевич Н. А. 3 (Высшая школа менеджмента, Санкт-Петербургский государственный университет, Санкт-Петербург )

Имеются три важных условия, которые должны быть исследованы, если рассматривается проблема устойчивости долгосрочного кооперативного соглашения: временная состоятельность (динамическая устойчивость) кооперативного соглашения, стратегическая устойчивость и защита от иррационального поведения такого соглашения. В работе получены математические результаты, основанные на использовании процедуры распределения дележа (ПРД), которые развивают разработанные ранее аспекты динамически устойчивой кооперации. В работе доказано для специального класса дифференциальных игр, что динамически устойчивое кооперативное соглашение может быть стратегически поддержано равновесием по Нэшу. Также приведен пример, в котором выполняются все три условия.

Ключевые слова: дифференциальная игра, кооперативное решение, временная состоятельность кооперативных соглашений, про-

1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. - 2009. - Т. 1. №1».

2 Леон Аганесович Петросян, доктор физико-математических, наук, профессор (spbuoasis7@peterlink.ru).

3 Николай Анатольевич Зенкевич, кандидат физико-математических наук, доцент (zenkevich@gsom.pu.ru).

100

цедура распределения выигрыша (ПРВ), процедура распределения дележа (ПРД), стратегическая устойчивость, защита от иррационального поведения.

Введение

Кооперация представляет собой одну из основных форм человеческого поведения. Поэтому по многим практическим причинам важно, чтобы такая кооперация была устойчивой на всем временном промежутке ее реализации. Мы выделим три на наш взгляд основных условия такой устойчивости при рассмотрении проблемы устойчивости долгосрочных кооперативных соглашений.

1. Состоятельность во времени (динамическая устойчивость) кооперативных соглашений. Временная состоятельность представляет собой свойство кооперативного соглашения, когда, следуя кооперативной траектории, участники соглашения придерживаются одного и того же принципа оптимальности в каждый текущий момент времени, а поэтому не имеют объективных мотивов отклоняться от ранее выбранного решения о кооперации.

2. Стратегическая устойчивость. Предположим, что никакое индивидуальное отклонение от кооперации каждого участника не приносит выгоды отклонившемуся участнику. Это означает, что исход такого кооперативного соглашения достигается при некотором равновесии по Нэшу, которое и будет гарантировать стратегическую поддержку такой кооперации.

3. Защита от иррационального поведения. Это свойство кооперации должно рассматриваться, поскольку нет уверенности в том, что все участники кооперации будут вести себя рационально на всем продолжительном промежутке реализации кооперативного соглашения. Участники кооперации должны быть уверены, что даже в случае реализации

101

наихудшего сценария (например, аннулирования кооперативного соглашения) их выигрыш будет не меньше, чем при изначальном некооперативном поведении.

В работе развит математический аппарат, основанный на применении процедуры распределения выигрыша (ПРВ) или процедуры распределения дележа (ПРД) применительно к анонсированным выше аспектам кооперации [1].

1. Случай непрерывного времени

Рассмотрим дифференциальную игру п - лиц Г(х0,Т — £0) с предписанной продолжительностью и независимыми движениями на временном промежутке [*0,Т]. Уравнения движения имеют вид:

Хг = /г(Хг,Пг), Щ € 1Л С К1, хг € К™,

(1)

хг(Ь0) = х0, г = 1,..., п.

Предполагается, что система дифференциальных уравнений (1) удовлетворяет всем условиям существования, единственности и продолжимости решения для любого п - набора измеримых управлений и1(Ь),..., ип (£).

Выигрыш игрока г определяется следующим образом:

Нг(х0,Т — П1(-),...,Пп(-))= Ы (х(т ))йт,

Ьо

где Ыг(х) представляет собой непрерывную функцию и х(т) = {х1(т),..., хп(т)} решение системы (1) при допустимом программном управлении

и(т),..., ип(т)

и начальных условиях

х(^) = {х1 (^0), . . .,хп (и)} = {х01, ...,х°п} = х0.

Предположим, что существует п - набор программных управлений и(т) = (и1(т),...,ип(т)) и траектория х(т), т € [Ь0,Т], такие что

Траекторию х(т) = (хх(т),..., хп(т)), удовлетворяющую (2), будем называть «оптимальной кооперативной траекторией».

Обозначим через N = {1,...,п} - множество игроков и определим в игре Г(хо, Т — іо) - классическим образом характеристическую функцию:

где Vа1 Г\я(х0,Т — £0) обозначает значение антагонистической игры между коалицией 5, действующей как игрок 1, и коалицией N\Б, действующей как игрок 2, при этом выигрыш игрока Б равен:

п

иі(т),...,пп(г)

тах

П1 (т ),...,и„(т)

тах (хо,Т — іо; их(т),.. .,ип(т)) =

О I .. (“

(2)

п п гт

(3)

V(хо,Т — іо; 0) = о, V(хо,Т — ^o; ^) = Val Гs,N\я(хо,Т — іо),

^2ІИі(хо, Т — іо; щ(-),..., ип (■)).

ІЄЄ

Определим также Ь(х0,Т — ^) как множество дележей в игре

Регуляризованная игра Га(х0,Т — £0). Для каждого дележа а € Ь(х0,Т — Ь0) определим некооперативную игру Га(х0,Т — Ь0), которая отличается от игры Г(х0,Т — ^) только выигрышами вдоль оптимальной кооперативной траектории х(т), т € [£0,Т]. Пусть а € Ь(х0,Т — Ь0). Определим процедуру распределения

дележа (ПРД) ([5]) как функцию в(т) = (в1 (т),...,вп(т)), т € [Ь0,Т] такую, что

Определим через На(х0, Т — Ь0; и1(-),..., ип( )) функцию выигрыша в игре Га(х0,Т — Ь0) и через х(т) соответствующую траекторию. Тогда

На(х0,Т — щ(-),.. .,ип(-)) = Н(х0,Т — и; щ(-),.. .,ип(-))

если не существует такого £ € (£0,Т], что х(т) = х(т) для т € (£0, £]. Пусть £ = 8ир{£; : х(т) = х(т),т € [£0, £']} и £ > £0. Тогда

Г(хо,Т — іо) (см. [4]):

L(xo, Т — іо) = {а = (а\,..., ап) '■

(4)

аі ^ V(хо,Т — іо; {і}), = V(хо,Т — іо; N)}.

На (хо, Т — іо; иі(-),..., и,п(-))

£о

ві(т )йт + Ні(х(і), Т — і; иі(-),..., и,п(-))

В частном случае, когда х(т) = х(т), т Є [іо,Т] (если х(т) представляет собой кооперативную траекторию), имеем

На(х0,Т — ^ щ( ■),..., ип( ■)) = [ вг(т )йт = аг.

По определению функции выигрыша в игре Га(х0,Т — Ь0) получим, что вдоль оптимальной кооперативной траектории эти выигрыши равны компонентам дележа а = (а1, . . . , ап).

Рассмотрим текущие подыгры ([4]) Г(х(£),Т — £) вдоль х(£) и текущие множества дележей Ь(х(Ь),Т — £). Пусть а(Ь) € Ь(х(Ь),Т — £). Предположим, что а(Ь) может быть выбрана как дифференцируемая по Ь, £ € [£0,Т] функция.

Определение 1. Игра Га(х0,Т — £0) называется регуляризацией игры Г(х0,Т — £0) (а - регуляризация), если ПРДв определяется таким образом, что

аі(і) = £ ві(т)Л

или

(6)

Из (6) получаем

(7)

ві(і) = —аі(і).

аі = ві(т )йт + аі(і),

Ло

где а = (а\,а2,... ,ап) Є L(x0,T — іо) , и а(і) =

(аі(і), а2(і),..., ап(і)) Є L(x(t),T — і) .

Пусть М(хо,Т—іо) С L(x0,T—іо) представляет собой некоторый принцип оптимальности для кооперативной версии игры Г(хо,Т — іо), а М(х(і),Т — і) С L(X(t),T — і) - тот же принцип

105

оптимальности, но определенный для подыгр Г(х(£),Т — !) с начальными условиями на кооперативной траектории. В качестве М может быть выбрано с - ядро, НМ - решение, вектор Шепли, ядро и другие принципы оптимальности, используемые в кооперативной теории игр. Если а € М(х0, Т — £0) и а(£) € М(х(£),Т — £), то условие (7) дает нам временную состоятельность выбранного дележа а, или выбранного принципа оптимальности, поскольку в этом случае условие (7) означает, что ожидаемый к получению выигрыш в текущей подыгре а(£) при всех £ принадлежит одному и тому же принципу оптимальности М(х(£), Т — £). В таком случае будем говорить, что имеет место временная состоятельность (динамическая устойчивость) выбранного кооперативного соглашения.

Рассмотрим теперь проблему стратегической устойчивости кооперативных соглашений. Основываясь на процедуре распределения дележа в, удовлетворяющей (5), можно доказать следующую основную теорему.

Теорема 1. Врегуляризованной игре Га(х0,Т — £0) для каждого е > 0 существует е - равновесие по Нэшу ([3]) с выигрышами а = (а\,... ,аг,..., ап).

Доказательство. основано на конструктивном построении е

- равновесия по Нэшу в кусочно-программных стратегиях (КПС) с памятью.

Напомним определение КПС стратегий с памятью в дифференциальной игре. Обозначим через х(£) произвольную допустимую траекторию системы (1) на временном промежутке ^0^], £ € [Ь,Т]. Стратегия иг(■) игрока г называется КПС, если она определяется парой (а, а), где а представляет собой разбиение промежутка [£0,Т], ^ ^ < ... < ^ = Т, ( 1к+\ — £к = 5 > 0

) и а отображение, которое каждой точке разбиения (х^к)^к), £к € а, ставит в соответствие программное управление щ(1), £ € [£к,£к+1).

Рассмотрим семейство ассоциированных с Г(х, Т — £) (но не с Га(х, Т — £)) антагонистических игр Г{г},^\{г}(х, Т — !) из на-

106

чального состояния х продолжительности Т — £ между коалицией 5 , состоящей из одного игрока г и дополнительной коалицией N\{г} с выигрышем игрока г равным

Нг(х,Т — г; щ(■) .. .,ип(■)).

Выигрыш игрока N\{г} в игре Г{г},^\{г}(х,Т — £) равен (—Нг). Пусть и(х,1; ■ ) есть е-оптимальная КПС стратегия игрока N^2} в игре Г{г},^\{г}(х,Т — !). Заметим, что и,(х,1;■) = {uj(х,г; ■ )} , з € N\{г}.

Пусть х(т) = {эи\(т),..., хп(т)} - отрезок допусти-

мой траектории (1), определенной на временном промежутке [Ь,^, £ € [£0,Т]. Для каждого г € {1,...,п} определим !(г) = 8ир{!г : хг(и) = хг(и)} и Щ) = шт{?(г) = Щ)}. Щ)

г

принадлежит одному из промежутков ^к, £к+1), к = 0,1,... ,1 — 1. Таким образом, 1(г) — ^ представляет собой длину временного промежутка, начинающегося в £0, на котором хг(£) совпадает с хг(£) - г-ая компонента кооперативной траектории х(£). В свою очередь, 1(з) — ^ представляет собой длину временного промежутка, начинающегося в £0, на котором х(£) совпадает с кооперативной траекторией х(£).

Определим следующие стратегии игрока г € N:

для (х^к)^к) на оптимальной кооперативной траектории

х(^ (х(т) = х(т),т € [ь^к]);

г-ая компонента е/2 оптим. КПС стратегии игрока N \ {3} в игре

Г{з},К\{j}(x(tk+1),T — tk+1), если 1к ^ 1(,з) < 1к+Г;

Покажем, что ситуация и*(■) = (и^(■),...,ип(■)) и есть е-равновесие по Нэшу в игре Га(х0,Т — 10).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Щ^)

и*(. ■) = <

'иг('х(^к+1), £к+1; ■)

произвольно

Действительно, имеют место следующие равенства

Нг(х0,Т — 10-; и*( ■ ))= Нг(х0,Т — ^ иК ■ ),...,К (■)) =

(8) = [ вг(!)сИ = аг.

■По

Рассмотрим набор стратегий (и*(■ )\\щ(■)) , где игрок г изменяет свою стратегию с и*(■) на иг(■) . Нужно показать, что

(9) Нг(х0,Т — ^; и*( ■)) ^ Нг(х0,Т — ^; и*( ■ )\\щ( ■)) — е.

для всех г € N и любой КПС игрока г.

Легко видеть, что когда разыгрывается ситуация и*( ■), игра развивается вдоль оптимальной траектории Х(Ь). Если при (и*(■ )\\иг(■)) также реализуется траектория Х(Ь) , то (9) выполняется как равенство и поэтому утверждение верно. Предположим теперь, что при (и*(■ )\\иг(■)) реализовавшаяся траектория х(Ь) отличается от Х(Ь). Тогда пусть

£ = И{Ь : Х(Ь) = х(Ь)}.

и £ € [tk-l,tk). Поскольку движения игроков независимы, то сразу можем сказать, что Хт(£к) = хт(£к) для т € N\{г} и хг^к) = хг^к) (но Хj(Ьк-1) = Хj(Ьк-1) для 3 € Щ.

Из определения стратегии и*( ■) следует, что игроки т € N\{г} будут использовать свои стратегии, которые являются е/2

- оптимальными в антагонистической игре Г{г},м^^(х^к),Т—£к) против игрока г, который отклонился от оптимальной траектории на временном промежутке [tk-l,tk).

Если игроки из множества N\{г} будут использовать свои стратегии ит(х(£к)^к;■ ), то игрок г, начиная из состояния Х^к)^к, получит не больше, чем

Г

V(х(ік),Т — ік; {і}) + ^,

где V(х^к),Т — £к; {г}) представляет собой значение игры Г{г},м\{г}(х(£к), Т — £к). Тогда общий выигрыш игрока г в игре Га(х0,Т — Ь0) при реализации ситуации (и*(■ )\\щ(■)) не превышает величину

/■Ък-1 е

(10) / вг(т)(1т + V(х(£к),Т — £к; {г}) + 2 + Нг(х(т))йт.

Мо 2 Мк-1

Но выигрыш игрока г в ситуации и*( ■ ) равен

(11)

Гт

По

Сгк-1 Г1 Г^к-1

аг = вг(т )Лт =

■ 'го

Ггк-1 Г1 Ггк-1

= / вг(т )йт + / вг(т )йт = вг(т )йт + СМ^к-^.

■По Пк —1 Но

По определению ПРД (см. (5), (6)), аг(£к-1) € Ь(Х(£к-1),Т — tk—1),

(12) / вг(т)йт = аг^к-!) ^ V(х(£к-1 ),Т — Ь^; {г}).

П‘к-1

Из непрерывности функции V и непрерывности траектории х(Ь) при соответствующем выборе 5 > 0 ( £к+1 — £к = 5 ) справедливо выполнение следующих неравенств:

е

^(х^к-1),Т — £к-1; {г}) — V(х(£к),Т — £к; {г})\ < -,

Г е

вг(т)йт = аг^к-1) ^ V(х(£к),Т — £к; {г}) — -. ■)гк-1 4

гк

Сравним аг^к-1) и V(х^к),Т — £к; {г}) + § + / Ы(хг(т))б,т.

гк-1

Выбирая величину 5 = Ьк+\ — достаточно малой, можно пока-

зать, что интеграл / Нг(хг(т))(1т будет также мал (меньше, чем

^к — 1

е/А) ^

Добавляя в обе части (12) величину //0к—1 вг(т)Лт и используя

предыдущее неравенство получаем, что

ГІк-1

а = / ві(т)йт + щ(гк-1) ^

[Ік-1

^ ві(т)йт + V(Х(ік-1 ),Т - гк-і; {і})

Но

Ґ'к-1 Є

^ ві(т)(1т + V(х(Ьк),Т - гк; {і}) - -

Но 4

Г^к-1 - Ґ'к

^ ві(т)йт + V(х(ік),Т - їк, {і}) - - + Ні(т)(іт -

■По 4 -]гк-і

ГІк-1 Іїк Є

^ ві(т)йт + V(х(ік),Т - їк, {і}) + Ні(т)йт - -

■По •Пк-1

ГІк-1 ІЇк

^ / ві(т)<іт + V(х(їк),Т - їк, {і}) + Ы(т)йт +

(13) +

(■Ік-1 ІЇк

ві(т)йт + V(х(їк),Т - їк, {і}) + /

По -Пк-1

Є Є Є

2 2 2

Здесь первые четыре слагаемых в правой части неравенства составляют верхнюю границу выигрыша игрока г в ситуации

(и*(-)1К(0).

110

Однако аг представляет собой выигрыш игрока г в ситуации п*(-), откуда

Иг(хо,Т - £о; ч*(-)) = аг ^

^к-1

вг(т)йт + V(х(гк),Т - Ьк; {г})+

(1к £

+ Нг(т)йт + - - £ ^ Нг(хо, Т - ^ «*(-)||«г(-)) - £

■пк-1 2

И тем самым мы получаем (9). Теорема доказана.

Содержательно, утверждение теоремы означает, что кооперативное решение (некоторый дележ) может быть стратегически поддержано в регуляризованной игре Га(х0,Т - го) (реализуемо в специально сконструированном равновесии по Нэшу) равновесием по Нэшу и*(-) , определенным в теореме 1.

Условия защиты от иррационального поведения. Предположим теперь, что в некоторый момент времени иррациональное поведение игрока (или группы игроков) приводит к распаду большой коалиции, а тем самым и прекращению действия кооперативного соглашения. В этом случае условие защиты от иррационального поведения (см.[7]) требует, чтобы выполнялось следующее неравенство:

(15) V (хо,Т - £о; {г}) ^ [ вг (т)йт + V (х(г),Т - г; {г}), г е N.

Если ПРД в (г) может быть выбран так, что удовлетворяются и условие временной состоятельности и условие защиты от иррационального поведения (условие стратегической устойчивости следует из временной состоятельности в соответствии с теоремой 2.1), тогда кооперативное соглашение о выборе дележа а = (а\,а2,..., ап) будем называть устойчивым кооперативным соглашением.

(14)

Если предположить дифференцируемость функции V(х,Т; {г}),

то для выполнения (15) достаточно, чтобы ПРД в(т) =

(в1(т), в2(т),..., вп(т)) удовлетворяло условию:

Другими словами, для устойчивого соглашения все три условия устойчивости должны выполняться. Не всегда это именно так. Однако следующий пример показывает, что в некоторых случаях в задаче с дискретным временем все три условия выполняются.

В (16) величина V(х(т), Т - т; {г}) представляет собой значение антагонистической игры между коалицией N\{г}, действующей как один игрок и игроком {г} с коалиционным выигрышем равным [-Нг(х(т),Т - т; и1,..., ип)].

Предположим, что у (г), г е [т,Т ] есть траектория этой антагонистической игры при реализации оптимальных стратегий (стратегий из седловой точки). Предположим, что для любых начальных условий х(т),Т - т,т е [го,Т] такая седловая точка существует (если нет, то можно рассмотреть --седловую точку в кусочно-программных стратегиях, которая всегда существует для каждого заданного £ ^ 0, но следующие формулы будут верны с точностью до -).

Тогда можно написать

я

(16) ві(т) ^ - — V (х(т ),Т - т; {і}), і = 1,...,п.

V(х(т),Т - т; {і}) = 1ц(х(т); у(і))йі,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где у(т) = х(т). Из (16) имеем

Я Ст

ві(т) ^ у Ь(х(т);у(і))Яі =

= -[-Ы(х(т); у(т)) + ! Г Г 9к%(ХдХс1к ^(х(т),и(т))ЯІ] =

, /-/ ч -/ \\ />т^^ дЬ%(х(т); у Ш) „ , , ,, ,

= Н%(х(т); х(т)) - ^2 ^2----------я---------------?1к(х(т),и(т))М

■]т 1=1 к=1 хік

или

в%(т) ^ н%(х(т); х(т))- [ Г Г дЬ,і(х(гї; у(і')') |к(х(т),и(т))сМ.

■]т і=і к=і хік

2. Случай дискретного времени

В качестве основной модели для случая дискретного времени рассмотрим игру в развернутой форме с полной (совершенной) информацией.

Определение 2. Дерево игры представляет собой конечный древовидный граф К с корневой вершиной (корнем) х0.

В дальнейшем будем использовать следующие обозначения. Пусть х некоторая вершина (позиция). Обозначим через К(х) поддерево К с корнем х. Обозначим через 2(х) - множество вершин, непосредственно следующих за х. Вершины у, непосредственно следующие за х, называются альтернативами в вершине х (у Є 2(х)).

Игрока, который делает ход в х (который выбирает следующую

альтернативу в позиции х), будем обозначать через і(х). Выбор

113

игрока г(х) в позиции х будем обозначать через х е 2(х).

Пусть N = {1,... ,п} - множество всех игроков в игре.

Определение 3. Игра в развернутой форме c полной информацией (см. [2]) С(хо) представляет собой древовидный граф К(хо), который обладает следующими дополнительными свойствами:

• Множество вершин (позиций) разлагается на п+1 подмножество

Р1, Р2, ... , Рп+Ъ

которые образуют разбиение множества всех вершин графа К. Вершины (позиции) х е Рг называются личными позициями игрока г, г = 1,... ,п; вершины (позиции) х е Рп+1 называются терминальными позициями.

• В каждой вершине (позиции) х задан набор действительных чисел Н(х) = (Н1(х),..., Нп(х)), где Нг(х) интерпретируется как выигрыш игрока г в вершине (позиции) х.

Определение 4. Стратегия игрока г представляет собой

отображение Щ(-), которое каждой х е Рг ставит в соответствие единственную альтернативу у е 2(х).

Как и в предыдущем случае обозначим через Нг(х; щ(■),..., ип() функцию выигрыша игрока г е N в подыгре С(х) из позиции х. Будем предполагать, что

I

Нг(х; щ(-), . . .,ип(-)) =^2 Ы(х'г)

г=1

где х = (х'1,х'2,... ,х\) представляет собой путь, реализовавшийся в подыгре С(х) в ситуации (и1 (■),..., ип(-)) , х\ = х .

Обозначим через и(^) = (щ(^),..., ип() ситуацию и соответствующую траекторию (путь) х = (хо,х1,... ,хт) , хт е

114

Рп+г , такие что

п

тах

и1(-),...,ип (■)

^2щ(хо; щ(-),.. .,Пп(-))

(17)

п

п

^2 Щ(хо; щ(-),..., Пп(-)) = ^2 Ьг{хт).

Путь X = (Хо,... ,Хт), удовлетворяющий уравнению (17), будем называть «кооперативной траекторией» или «кооперативным путем».

Определим в О(х0) характеристическую функцию классическим образом:

где Vа1 Гз,н\5' (х0) есть значение антагонистической игры между коалицией 5, действующей как первый игрок, и дополнительной коалицией N\Б, действующей как игрок 2, с выигрышем игрока Б равным

Определим Ь(хо) как множество дележей в игре С(х0).

п

V(хо; N) = ^2 Ыхт),

V(хо; 0) =0,

V(хо; Б) = Vа1 Г$,м\8(хо),

Ь(хо) =

а = (аг, ...,ап): а > V (хо; [г}),^2аг = V (хо; N)

г€М

Регуляризованная игра Са(хо). Для каждого а е Ь(хо) определим некооперативную игру Са(хо), которая отличается от игры С(хо) только выигрышами, определенными в вершинах (позициях) вдоль оптимального кооперативного пути х = (хо,... ,хт). Пусть а е Ь(хо). Определим процедуру распределения дележа (ПРД) как функцию вк = (в\(к),..., вп(к)), к = 0,1,... ,т, такую что

т

(18) аг = ^ вг(к).

к=о

Определим через И!*(хо; иг(-),..., ип()) функцию выигрыша в игре Оа(хо) и через х = {хо,..., хт} кооперативный путь.

Положим, что при развитии игры вдоль кооперативной траектории

Иа(хо; иг(-),.. .,ип(-)) = Щ(хо; иг(-),.. .,ип(-))

И пусть хк = хк, при 0 ^ к ^ I. Тогда

Иа(хо; щ(-),.. .,ип(-)) = Иг (хо; щ(-),.. .,ип(-)) =

I т

= ^ вг(к)+ ^ Ы(хк)

к=о к=1+1

Таким образом, по определению функции выигрыша в игре Са(хо) выигрыши вдоль оптимальной кооперативной траектории равны компонентам дележа а = (аг,..., ап).

Рассмотрим текущие подыгры 0(х^к) вдоль оптимального пути х

и текущие множества дележей Ь(хк). Пусть ак е Ь(хк).

Определение 5. Игра Са(хо) называется регуляризацией игры С(хо) (а-регуляризация), если ПРД в определена таким образом, что

т

ак = Е №)

3=к

или вг(к) = ак — ак+1, г е М, к = 0,1,... ,т — 1, вг(т) = ат,

аго = аг.

Теорема 2. В регуляризации Са(хо) исходной игры существует равновесие по Нэшу с равновесными выигрышами а = (а1,..., ап).

Доказательство. Вдоль кооперативного пути имеем

ак ^ V (хк; {г}), г е М,к = 0,1,...,т,

поскольку ак = (а>к,..., ап) е Ь(хк) представляет собой дележ в С(хк) (заметим, что здесь V(хк; {г}) вычисляется в подыгре С(хк), а не в Са(хк) ). В тоже время

т

ак = Е №)

3=к

и мы получаем

т

(19) ^вг(з) > V(хк;{г}), г е М,к = 0,1,...,т.

3=к

т

Однако ^ вг(з) есть выигрыш игрока г в подыгре Са(хк)

3=к

вдоль кооперативного пути. Тогда из (19), используя аргументы аналогичные таковым в теореме 1, можно построить равновесие по Нэшу с выигрышами а = (а1,...,ап) и результирующим

117

кооперативным путем х = (х0,..., хт). Условие защиты от иррационального поведения в случае дискретного времени примет вид

і

(2Q) ^вг(j) + Vi(xi+i; {i}) ^ Vi(xq; {i}), О ^ l ^ m, i є N. j=Q

Пример.

В этом примере в качестве дележа рассмотрим вектор Шепли (Shapley value) [6]. Используя приведенную выше регуляризацию игры, покажем, что здесь существует равновесие по Нэшу с равновесными выигрышами равными компонентам вектора Шепли.

Рис. 1. Игра С(ж0)

В игре G(x0) : N = {1, 2}, P1 = {ж0, ж2, ж4}, P2 = {xi, ж3}, Рз = {У1,У2,Уз,У4,У5,Уб}. h(xo) = (1, 0), h(xi) = (0,1), h(x2) =

(1,0), ^(жз) = (2,1), h(x4) = (1,1), h(x5) = (4,4), h(yi) = (0,0), h(y2) = (0,0), %з) = (1,2), h(y4) = (2,2), h(y5) = (3,2), h(y6) = h(x5) = (4, 4). Оптимальная кооперативная траектория (кооперативный путь) ж = {ж0, ж1, ж2, ж3, ж4, ж5}.

жо ж1 ж2 жз ж4 ж5

V(ж;{1}) 0 0 2 4 5 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V(ж;{2}) 0 3 5 4 5 4

V(ж;{1,2}) 15 15 14 13 10 8

£Л,(ж; {1}) 7,5 6 5,5 6,5 6 4

£Л,(ж; {2}) 7,5 9 8,5 6,5 4 4

01 (ж) = 01 (j) 1,5 0,5 -1 0,5 2 4

02 (ж) = 02 (j) -1,5 0,5 2 2,5 0 4

Легко увидеть, что в этом случае имеет место неравенство

(19)

m

Ё e*(j) ^ V(жк; {i})

j=k

для i G N, и свойство защиты от иррационального поведения (20) также выполняется:

Е 0i(j) + Жжг+1; {i}) ^ V(жо; {i}), i = 1,2, 1 ^ l ^ 4.

j=0

Литература

1. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.А. Устойчивые решения неантагонистических дифференциальных игр с транзитивными выигрышами!! Вестник ЛГУ. - 1979. - №1. -C. 46-54.

2. KUHNH.W. Extensive games and the problem of imputation. Contributions to the Theory of Games II (in H.W. Kuhn and A.W. Tucker (eds.). Princeton: Princeton University Press, 1953. - P. 193-216.

3. NASH J. Non-cooperative games !! Ann. Mathematics. -1951. -V. 54. - P. 286-295.

4. NEUMANN J., MORGENSTERN O. Theory of Games and Economic Behavior. - Princeton, 1947.

5. PETROSJAN L.A. Differential Games of Pursuit. - World Scientific, Singapore, 1993.

6. SHAPLEY L.S. A Value for n-Person Games. Contributions to the Theory of Games (in H.W. Kuhn and A.W. Tucker (eds.). Princeton: Princeton University Press, 1953. - P. 307-315.

7. YEUNG D.W.K. An irrational-behavior-proofness condition in cooperative differential gamesll Int. J. of Game Theory Review. - 2007. - V. 9. - №1. - P. 256-273.

PRINCIPLES OF DYNAMIC STABILITY

Leon Petrosyan, Faculty of Applied Mathematics and Control Processes, St. Petersburg State University, Saint Petersburg, Doctor of Science, professor (spbuoasis7@peterlink.ru).

Nickolay Zenkevich, School of Management, St. Petersburg State University, Saint Petersburg, Cand.Sc. (zenkevich@gsom.pu.ru).

Abstract: There are three important aspects which must be taken into account when the problem of stability of long-range cooperative agreements is investigated: time-consistency of the cooperative agreements, strategic stability and irrational behavior proofness. The mathematical results based on imputation distribution procedures (IDP) are developed to deal with the above mentioned aspects of cooperation. We proved that for a special class of differential games time-consistent cooperative agreement can be strategically supported by Nash equilibrium. We also consider an example where all three conditions are satisfied.

Keywords: differential game, cooperative solution, time-consistency of the cooperative agreements, payoff distribution procedures (PDP), imputation distribution procedures (IDP), strategic stability, irrational behavior proofness.

i Надоели баннеры? Вы всегда можете отключить рекламу.