УДК 519.83
СИЛЬНО ДИНАМИЧЕСКИ УСТОЙЧИВОЕ КООПЕРАТИВНОЕ РЕШЕНИЕ В ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ УПРАВЛЕНИЯ ВРЕДНЫМИ ВЫБРОСАМИ1
Громова Е. В.2, Петросян Л. А.3
(Санкт-Петербургский государственный университет)
Рассматривается проблема построения сильно динамически устойчивого (СДУ) кооперативного решения для дифференциальных игр двух лиц. Формулируется подход, позволяющий при достаточно общих предположениях построить кооперативное решение, удовлетворяющее СДУ. Показывается, что полученное решение, кроме того, будет удовлетворять условию защиты от иррационального поведения. Теоретические результаты демонстрируются на примере дифференциальной игры управления вредными выбросами в атмосферу.
Ключевые слова: дифференциальные игры, динамическая устойчивость, сильно динамическая устойчивость, условие Янга, модель управления вредными выбросами.
1. Постановка задачи
Рассматривается кооперативная дифференциальная игра п лиц Г(х0,Т — ¿0) с предписанной продолжительностью Т — ¿0, на отрезке времени £ € [¿0, Т] из начального состояния х0 € Еп,
1 Работа выполнена при финансовой поддержке гранта СПбГУ 9.38.245.2014.
2 Екатерина Викторовна Громова, кандидат физико-математических наук, доцент ([email protected]).
3 Леон Аганесович Петросян, доктор физико-математических наук, профессор (Санкт-Петербург, Петродворец, Университетский пр., д.35, тел. (812) 428-71-59).
уравнениями движения
(1) х = f (х,П1,...,Пп), ж(£о) = Хо,
Х е Еп, Пг е и С СОШ'рЕк, и функциями выигрыша
К»(хо,Т - ¿о; иь...
,ип)= Ы(х, П\, . . .,Чп)М, Ло
где х(£) — решение системы (1) при управлениях (п\,..., ип) и г е N, где N — множество игроков, N | = п.
Пусть Б С N — коалиция в игре Г(х0,Т — ¿0). Определим для Б С N характеристическую функцию у(х0,Т — ¿0; Б) как нижнее значение антагонистической игры между коалицией Б, действующей как игрок I (максимизирующий) и коалицией N\Б, действующей как игрок II (минимизирующий), где под выигрышем игрока Б понимается сумма выигрышей игроков, входящих в Б, а под стратегией игрока Б — элемент декартова произведения множеств стратегий игроков, входящих в Б .В данной формализации мы из соображений простоты под стратегией игрока будем понимать функцию щ(х,Ь) со значением в множестве мгновенных допустимых управлений иг. Нижнее значение игры ^^т^ всегда существует и является супераддитивной функцией от коалиции Б С N.
Определение 1. Траекторию х(£), £ е [¿0,Т], назовем кооперативной траекторией, если имеет место
Мы предполагаем, что такая траектория х(£), £ е [¿0,Т], существует и единственна. В противном случае дальнейшие выкладки и определения необходимо незначительно изменить.
п
шах У^Кг(х0,Т — £0;щ,...,ип)
П.....Пг,
Рассмотрим подыгры игры Г(ж0,Т — ¿0), Г(ж(£),Т — ¿) с начальным условием на кооперативной траектории. В каждой подыгре Г(ж(£),Т — ¿) можно таким же образом, как и в основной игре Г(ж0, Т — ¿о), определить характеристическую функцию (см. [1]) -и(ж(£),Т — Б), где Б С N которая также будет супераддитивной. Определим множество дележей М (ж(£), Т — ¿) в игре Г(ж(£), Т — ¿) как
п
М (ж(£), Т — ¿) = {а = (аь ...,ап) : ^ а» = и(ж(г),Т — ¿; N),
»=1
а» ^ и(ж(г),Т — {г}), г е N}.
Из супераддитивности характеристической функции следует, что множество М(ж(£), Т — ¿) = 0, £ е [¿0, Т]. Определим также ядро С(ж(£),Т — ¿) С М(ж(£),Т — ¿) в игре Г(ж(£),Т — ¿) и предположим, что для всех £ е [¿о, Т], С(ж(£), Т — ¿) = 0.
Напомним, что ядро в игре Г(ж(£),Т — ¿) — это множество дележей а* = (а1,..., аП), удовлетворяющих неравенствам
^а* ^ и(ж(*),Т — ¿; Б)
»ея
для всех Б С N.
Определение 2. [6]. Функция в»(т), т е [¿0,Т], г е N. называется процедурой распределения дележа а е М(ж0,Т — ¿0), если
а» = в»(т)^т, г е N. ■п0
Определение 3. [6]. Ядро С(ж0, Т — ¿0) в игре Г(ж0, Т — ¿0) называется динамически устойчивым, если для каждого дележа а е С(ж0,Т — ¿0) найдется процедура распределения дележа (ПРД) такая, что
£ в»(т)йт е С(ж(£),Т — ¿), £ е [¿0,Т], г е N.
Нами было ранее показано (см. [4,6]), что если С(х(г), Т — г) = 0 при г е [г0,Т] и существует дифференцируемый селектор а(г) е С(х(г),Т — г) (а(г0) = а), то ядро является динамически
устойчивым и ПРД {вг(г)} определяется по формуле
-
вг(т ) = — -¡Гаг(т), г = 1,...,п. а(г0) =а.
Приведем определение сильного динамически устойчивого ядра
С(х0, Т — г0) в игре Г(х0,Т — ¿0).
Определение 4. Ядро С(х0,Т — г0) сильно динамически устойчиво в игре Г(х0,Т — г0), если
1) С(х(г),Т — г) = 0, г е [г0,Т];
2) существует такой дележ а е С(х0,Т — г0) и такая ПРД в(т) = (Мт),..., вп(т)), т е [г0,Т ], что
I'Т
аг = / вг(т)йт, У г = 1,... ,п, Ло
С(х0,Т —10) ^ в(т)-т ф С(х(г),Т — г), г е [¿0,т].
■По
Здесь символ Ф определяется следующим образом. Пусть а е Кп, В С Кп, тогда а ф В = {а + Ь : Ь е В}.
Заметим, что определение 4 незначительно отличается от определения сильной динамической устойчивости в работах [3, 14]. Сильная динамическая устойчивость ядра означает, что при развитии игры вдоль кооперативной траектории х(г) в ядре существует дележ а такой, что однократное отклонение в момент г от этого дележа в пользу другого оптимального дележа (т.е. другого дележа из ядра в подыгре, начинающейся в момент времени г из состояния х(г)), приведет к суммарным выплатам игрокам во всей игре, которые также содержатся в изначально выбранном принципе оптимальности (ядре).
и
г
2. Сильно динамически устойчивое ядро в кооперативной дифференциальной игре с предписанной продолжительностью и с двумя участниками
2.1. СУЩЕСТВОВАНИЕ СИЛЬНО ДИНАМИЧЕСКИ УСТОЙЧИВОГО ЯДРА
Как мы уже отметили и как это следует непосредственно из определения множества дележей и ядра для игры двух лиц, эти множества совпадают, т.е. М(ж0, Т — ¿0) = С(ж0, Т — ¿0), и также множества М(ж(£),Т — ¿) = С(ж(£),Т — ¿), £ е [¿0,Т].
Для игры Г(ж0, Т — ¿0) с двумя участниками ядро имеет вид
С(ж0,Т — ¿0) = {а = (а1, а2) : а1 + а2 = -и(ж0, Т — ¿0; N), а1 ^ ^(ж0,Т — ¿0; {1}), а2 ^ и(ж0, Т — ¿0; {2})} = М(ж0, Т — ¿0).
Аналогичным образом для подыгр Г(ж^), Т — ¿) мы имеем
С(ж(*),Т — ¿) = {а* = (а*,а2) : а* + а2 = и(ж(г),Т — ¿;N), а1 ^ и(ж(г),Т — ¿; {1}), а2 ^ и(ж(г),Т — ¿; {2})} = М(ж(*),Т — ¿).
Введем величины А^) ^ 0 и А2^) ^ 0 следующим образом:
2
(2) А1(*) + А2(¿) = и(ж(*),Т — ¿; N) — ^ и(ж(*),Т — ¿; {г}) ^ 0.
»=1
Вычислим = — А»^), г = 1, 2. Будем также использовать обозначение А» для А»(Т), г = 1, 2. Очевидно, что
т
А» = 17» (¿)^.
Введем функции (в предположении дифференцируемости функций Т — ¿; {г}))
в
(3) в»(т) = 7»(т) — ^(ж(т), Т — т; {г}))
144 Т
и потребуем, чтобы при всех т G [to,T] имело место
(4) Мт)+ Мт) = -^(*(т),Т - т; N)).
Тогда получаем
2 , 2 ,
(5) £ Yг(т) = - ^(х(т),Т - т; N) + £ -у(х(т),Т - т; {i}) i=1 i=1
и, интегрируя, получаем (2)
Ai + A2 =
r T J 2 с T J
- d<х(т),Т - т; N)(1т + У dу(х(т),Т - т; {1})(1т.
Jt0 Лт j=lJto dт
2
Ai + A2 = v(x(to),T - to; N) - £ v(x(to),T - to; {i}) ^ 0.
i=1
То есть если Yi(т), i = 1, 2 удовлетворяет (5), то условие (2) всегда выполнено.
Рассмотрим теперь вектор а = (а1, а2), где
(6) äi = Г ß (т)йт.
t0
Легко видеть, что а G C(х0,Т - t0). Действительно,
äi = Г Мт^т = Г Yi (т^т+ Г (-dи(х(т),Т-т; {i})^т =
Jt 0 Jt 0 Jt 0 ^
= Ai + v(xo,Т - to; {i}),
и согласно (2)
2
ß1 + <ß2 = £ Ai + v(xo,Т - to; {i}) = v(xo, Т - to; N).
i=1
А поскольку Ai > 0, имеем
ßi = Ai + v(xo,Т - to; {i}) ^ v(xo,Т - to; {i}), т.е. а = (a1 ,a2) G C(хо,Т - to).
Условие 2.1. Существуют такие А\ и А2, удовлетворяющие (2), и такие 71 (т), 72(т), т € [¿о, Т], удовлетворяющие (4), что
/7г(т)дт ^ 0 при г € [¿о,Т].
¿0
Теорема 1. При выполнении условия 2.1 ядро игры Г(жо, Т— ¿о) сильно динамически устойчиво.
Доказательство. Во-первых, из-за супераддитивности характеристической функции С(ж(т), Т — т) = 0, т € [¿0, Т]. Возьмем теперь дележ а = (й1,а;2), который определяется формулой (6), а € С(ж0,Т — ¿0).
Покажем, что имеет место сильная динамическая устойчивость, при этом в качестве дележа а = (а1, а2), фигурирующего в определении сильной динамической устойчивости, можно взять дележ а = (<51, а2). Надо показать включение
[ /5(т)дт Ф С(ж(г),Т — ¿) С С(жо,Т — ¿о)
■По
при всех г € [¿о,Т], где /?(т) является ПРД для дележа а.
Действительно, возьмем произвольный дележ а* € С(ж(г), Т — ¿). Обозначим
г *
Л
аг = вг(т )дт + а,, Ло
тогда
а1 + а2 = [ (/?1(т)+ /?2(т))дт + а1 + а2 = Ло
С * д
= [—-г«(ж(т ),Т — т; N )]дт + и(ж(г),Т — ¿; N) = Ло дт
= — и(ж(т), Т — т; N) + и(ж(го), Т — ¿о; N + и(ж(т), Т — т; N) = = и(ж(*о),Т — ¿о; N).
Кроме того,
аг = вг(т)дт + а- ^
J *0
г* д
г д
> [7г(т) — ^(ж(т),Т — т; {г})]дт + и(ж(*),Т — ¿; {г}) = = / 7г(т)дт — ^ж^Т — ¿; {г}) + ^ж^Т — ¿о; {г})+
■По
+ ^жф, Т — ¿; {г}) ^ ^(¿о), Т — ¿о; {г}).
Последнее неравенство выполнено из-за условия 2.1 на А1, А2 и 71 (т), 72(т) (т € [¿о,Т]), т.е. ядро С(жо,Т — ¿о) сильно динамически устойчиво, так как дележ а* € С(ж(£), Т — ¿) произвольный.
Заметим, что в каждый момент времени Ь € [¿о, Т] имеет место
2 д 2 £ = — ^(ж^Т — ¿; N) = £ Лг(жф),
г=1 г=1
таким образом, используя ПРД /? = (/51, /52) игроки фактически в каждый момент времени перераспределяют мгновенный суммарный доход, т.е. обеспечивается мгновенная трансферабельность выигрышей, что вполне соответствует идеологии теории кооперативных игр с трансферабельными выигрышами.
2.2. УСЛОВИЕ ЯНГА
Проблема динамической и сильно динамической устойчивости кооперативных решений изучается при предположении о рациональном поведении игроков. В то же время является актуальным вопрос динамической устойчивости кооперативного решения при предположении о возможности нерационального поведения для отдельных игроков. Как известно [15], в данном случае условие для защиты игроков от иррационального поведения
других участников игры выглядит следующим образом:
(7)
9
Jвда^({г},ж(0),Т—0) ^ V({г},жо,Т—¿о), г = 1,...,п.
Это означает, что в случае иррационального разрушения кооперации в момент 0 выигрыш, который получит игрок г все равно будет не меньше, чем выигрыш в некооперативном варианте игры, т.е. если он с самого начала будет действовать самостоятельно.
Для случая игры двух лиц условие (7) может быть переписано в следующем виде (при помощи первой производной по 0): д
(8) &(*) ^ — ^({г}, ж(£), Т — ¿), г = 1,2.
т _
Рассмотрим некоторый селектор аг(£) = / /Зг(т)дт из сильно
динамически устойчивого решения (6). Тогда условие (8) может быть представлено в следующем виде: д д
(9) ^аг(¿) < ^({г},жЮ,Т — ¿), г = 1, 2.
Фактически условие (9) является «уточнением» условия индивидуальной рациональности (аг(£) ^ V({г}, ж(£), Т — ¿)) для производной первого порядка.
Поскольку для игры двух лиц по построению аг(£) = Аг(£) + V({г}, ж(£), Т — ¿) где А^) = —7г(^) < 0, г = 1,2, имеем:
<1Ь
&аг(«) = —'7г(*) + V({г}, ж(*), Т — ¿) < < IV({г},ж(*),Т — ¿), г = 1, 2.
(10)
Таким образом, неравенство (10) выполняется для любого дележа, построенного по описанной выше процедуре при помощи ПРД (3).
Это означает, что предложенная процедура распределения дележа (3) в случае игры двух лиц будет обеспечивать не только выполнение свойства сильно динамической устойчивости ядра, но и гарантировать выполнение условие Янга защиты от иррационального поведения участников.
3. Дифференциальная игра управления вредными выбросами в атмосферу
3.1. МОДЕЛЬ ИГРЫ
В качестве примера рассмотрим теоретико-игровую модель управления вредными выбросами в атмосферу [10, 13]. В игре принимают участие 2 игрока (фирмы, страны), каждый из которых имеет промышленное производство на своей территории. Предполагается, что объём производства прямо пропорционален вредным выбросам щ. Таким образом, стратегией игрока является выбор объёма вредных выбросов иг £ [0; Щтах]. В данном примере будем искать решение в классе позиционных стратегий щ(Ь,х).
Динамика изменения общего уровня загрязнения х(Ь) задаётся уравнением
2
х(Ь) = £ иг(Ь) — 5х(Ь), х(Ь0) = х0,
г=1
где 5 - коэффициент абсорбции, соответствующий естественному очищению атмосферы.
Доход игрока г в момент времени Ь определяется по формуле
Е(иг(Ь)) = СгПг(Ь) — 1 и2(Ь).
Каждый игрок несет расходы, связанные с устранением загрязнений. Мгновенный выигрыш (полезность) игрока г равен Е(щ(Ь)) — кгх(Ь),кг > 0.
Без ограничения общности будем предполагать, что момент начала игры Ь0 = 0.
Тогда выигрыш г-го игрока имеет вид
т
(11) Кг(0,хо,и,1 ,и2) = ! (Кг(иг(г)) — кгх(г))йг.
о
Предположим, что выполняется следующее условие регулярности:
у-2 к ■
(12) < сг < итах, г = 1, 2.
5г
3.2. КООПЕРАТИВНАЯ ИГРА
Рассмотрим кооперативный вариант игры, в котором игроки
максимизируют суммарный выигрыш
2
(13) 5>(0,*0,«1,«2).
г=1
Для определения управлений и = (и1,й2), доставляющих максимум выражению (13), запишем уравнение Гамильтона-Якоби-Беллмана:
(14)
Г 2 1 2 2 1
—V12 = тах < —к12ж + ^ сгиг — - ^ и2 + Уж12 ^ — ¿ж^Х12 ^ ^ I г=1 г=1 г=1 )
где Р^12 и V12 - частные производные функции Беллмана
V 12(М), Л12 = Е кг.
г=1
Максимизирующее управление найдем из выражения с — + РХ = 0, откуда следует и = сг + УХ. После подстановки и в
(14) получаем
(15) —V12 = —к12Х + 1С12 + С12У12 + 3(Ух12)2 — ¿жу12,
22 где С12 = Е С и С12 = ^ С2.
г=1 г=1
Предположим, что функция Беллмана [9,11] имеет вид
(16) V 12(М) = А(£)ж + £(£),
тогда соответствующие частные производные будут записываться следующим образом: V/2 = А(£)ж + ¿(¿) и V12 = А(£). Подставляя эти выражения в (15) и группируя подобные слагаемые, получаем систему двух дифференциальных уравнений:
( А(*) = ¿А(*) + к12,
(17) < .
\ В(*) = — 1С12 — с^Ж*) — 3 А2(£), с краевыми условиями А(Т) = В(Т) = 0. Решение системы (17) имеет следующий вид:
А(Ь) = — к2 [1 + е-йт е%
дт _ ао{Т — Ь) — а1 (е-2*(т-) — 1) + «2 {е-6(т— 1) В(Ь) = 453 ,
где ао = 25 (с1252 — 2с^5ки + 3к22), а1 = —3к22, а.2 = 4к12(3к12 — С125).
Таким образом, оптимальные управления щ имеют вид щ =
Сг — к2 [1 — е-^т е¡г], г = 1, 2. Отметим, что выполнение условия (12) гарантирует принадлежность оптимального управления щ интервалу [0,Щтах].
Оптимальная траектория хх(Ь), соответствующая оптимальным управлениям (у,1 ,и2), имеет вид
(18) -(Ь) С12 + -¡г ( С12 + 3е-Т& (2ет& — 1) ки\ (18) х(Ь) = — + е \хо--+
5 ^ 0 5 2 52
3 е-&ь е- (т-2{2е& (т— 1) к12
252 .
Далее, найдем выражение для значений характеристической функции V({1},х0,Т — Ь0) и V({2},х0,Т — Ь0). Найдем значение характеристической функции для игрока 2, действующего самостоятельно, т.е.
V ({2},х0,Т — Ь0) = шахшт К2(х0,и1,и2).
«2 «1
Для удобства будем использовать следующее сокращенное обозначение: V({2},х(Ь),Т — Ь) = V({2}). Запишем соответствующее уравнение Гамильтона-Якоби-Беллмана:
V({2})г = шахи2 шш^ {—к2х + С2и2 — 2и2+
(19) 2
(9) +V({2})х£ иг — 5хУ({2})х,
г=1
где V({2})г и V({2})х - частные производные функции Беллмана
V ({2},х,Т — Ь).
Максимизирующие управления имеют вид иО = с + УХ, 2 = 2, а минимизирующее управление определяется как
ио = | 0, V({2})х ^ 0,
% I V({2})х < 0.
После подстановки найденных управлений в (19) получаем
-Й2Ж + 2 С2 + С2У ({2})х + -¿XV ({2})х + V ({2})жи?,
(20) V ({2})* = -к2Х + 2 Й2 + С2У ({2})х + V ({2})Х-
где С2 = с2.
Выберем функцию Беллмана в следующем виде [9]:
(21) V({2}, х, Т - ¿) = А{2}(;£)ж + В{2}(*).
Тогда V({2})* = А{2}(£)х+В{2}(£) и V({2})ж = А{2}(£). После подстановки частных производных в (20) и приведения подобных слагаемых получается система двух дифференциальных уравнений:
(22)
( А{2}(£) = ¿А{2}(£) + Й2,
1 В{2}(£) = - 1с2 - С2А{2}(£) - (А{2}(£))2 - А{2№)<, с краевыми условиями А{2}(Т) = В{2}(Т) = 0. Анализируя решение первого дифференциального уравнения заключаем, что А(£) ^ 0 для всех £ е [¿0, Т] и, следовательно, и° = и™0^. Можно легко показать, что выполнение условия (12) гарантирует выполнение требования и е [0,итах], 2 = 2.
Таким образом, характеристическая функция V({2}) имеет вид V({2},х,Т-¿) = А{2}(£)х + В{2}(£),где А{2}(£), В{2}(£) вычисляются следующим образом:
к2(1 — е- (т-*))
а{2}(£)=-к2(± е-1,
В{2}(£) = Тс22&3-2Тс2&2к2+2с2&к2-2Титах&2к2+2Т&к22 +2итаХйк2-3к22 -
*(с22й2-2с2йк2-2итахйк2+2к22) к22е-2Д(Т-') к2е-6(Т-ь) (с2й-2к2+йитах) 2Й2 2Й3 й3
Аналогично находится характеристическая функция для коалиции £1 = {1}.
Очевидно, что характеристическая функция (16, 21) является супераддитивной по построению. Следовательно, вдоль оптимальной траектории х(Ь) (18) в любой момент времени Ь £ [0,Т] выполняется следующее неравенство: (23)
V({1, 2},х(Ь),Т - Ь) ^ V({1},х(Ь),Т - Ь) + V({2},х(Ь),Т - Ь).
3.3. ПОСТРОЕНИЕ СИЛЬНО ДИНАМИЧЕСКИ
УСТОЙЧИВОГО ПРИНЦИПА ОПТИМАЛЬНОСТИ Построим сильно динамический принцип оптимальности. Для этого найдем разность значений характеристической функции V({1, 2},х(Ь),Т-Ь) и V({1},х(Ь),Т-Ь) + V({2},х(Ь),Т-Ь). По определению, эта разность соответствует А1(Ь) + А2(Ь) (2), а по построению (А^Ь) + А2(Ь)) является неотрицательной величиной:
А1(Ь) + А2(1) = V({1, 2},х(1),Т - Ь)-( ) -V({1},х(Ь),Т - Ь) - V({2},х(Ь),Т - Ь) ^ 0. Получаем:
(25)
А1(Ь) + А2(Ь) = ^^- 1)2 + - К)(е-6(Т- 1) + , (26к1к2 - 520(Т - Ь) + к12(е-&(Т- 1)+ 5к12(Т - Ь)
+ р + ^2 итах,
где
(26) £ = С1к2 + С2к1.
Найдем выражение для 71 (Ь)+ 72(Ь). Из определения (5) следует, что
£ ъ(Ь) = -1 £ Аг(Ь) =
(27) г= г= 2
= -1V({1, 2},х(Ь),Т - Ь) + ^ £ V№, х(Ь), Т - Ь).
г=1
Заметим, что функция V({1, 2}, х(Ь),Т-Ь) - V({1}, х(Ь), Т-t) — V({2},х(Ь),Т-Ь) представляет собой разность неотрицательных убывающих функций, однако с общем случае мы не можем
153
гарантировать неотрицательность ее первой производной (так как разность убывающих функций не является убывающей функцией в общем случае).
Однако в нашем примере данное условие неотрицательности суммы 71 (¿) + 72 (¿) (или, что эквивалентно, неположитель-
2
ность производной Е А (¿)) легко гарантировать при помощи
г=1
дополнительных ограничений на параметры модели. Имеем:
2 Я 2
£ -*(*) = -1 £ = г=1 г=1
-¿(Г-
52
(е-<5(Г-4) - 1)2 + 5 (1 - е-Л(Г-4)) (¿12^* - С) .
Очевидно, что при к12итах - С ^ 0 мы гарантируем неотрицательность 71 (¿) + 72 (£). Поскольку С имеет вид (26), имеем
(28) (Й1 + к2)и таж ^ ^1С2 + А^Ь
Теперь определим величины А2(£) следующим обра-
зом:
(29)
л т _ -Й1к2(е-г(Т-4) - 1)2 + (2Й1Й2 - 5С)(е-г(т- 1) ,
= 253 +
, (25к1 к2 - 52С)(Т - ¿) + ^(в-^-) - 1)+ 5к12(Т - ¿)
+ 253 + 252
г = 1,2.
Очевидно, что ^ 0, г = 1, 2, в силу (24). Тогда = -I Ж(*) = ^(е-г(т- 1)2 + 5 (1 - е-г(т-4)) ,
причем 7»(£) ^ 0, г = 1, 2, в силу (28).
Введем функции ПРД /%(£), г = 1, 2, по формуле (3). Тогда имеем
Я
(30) &(*) = 72(*) - ^({2}, ж(£), Т - *) =
-^ (ас(^) + «1 (¿)е-й(Т-4) + «2е-2й(т- «з(^)е-2ТЙ) ,
где
ао(Ь) = -(5к22-к12)6+2(к12итах-к1 и^ах+(Т-Ь^кы+С^2+ С2к12)52 - 2((Т - Ь)2к12 + (Т - Ь)с2к1 + (Т - Ь)^^ + С22)53, а1(Ь) = (10к22 - 2к12)6 - 2с1§2к2 - 4с2$2к12 -262(к12играх -к1и%ах) - 4(Т -Ь)52к1ки, а2 = -(5к22 - к12)6,
аз(Ь) = ((2к12 - к{)(1 - вТ6-и) + (Т - Ь)6к1вТ6-ЫХ3к12(1 + вш) - 2(3к12 - С12б)вТ6 -262ховТ6).
Компонента ПРД @1(Ь) вычисляется аналогичным образом. Очевидно, что условие 2.1 выполнено.
Теперь рассмотрим вектор а = (а1,а2), построенный по формуле (6), а именно аг
(Ь) = /в вг(Ь)М, г = 1,2. Как было доказано, он является дележом из с-ядра, кроме того, построенный таким образом дележ обеспечивает сильную динамическую устойчивость с-ядра.
Окончательно имеем следующий вид для дележа а = (а1,а2):
(31) а1 = А1 + V({1},хо,Т - Ьо);
(32) а2 = А2 + V({2},хо,Т - Ьо) = (по(Ь)хо + П1+ +П2(Ь)в-6(Т-) + т(в-6(Т- 1) + щв-26(Т+ (Ь)),
где
По(Ь) = -2462к2 - 1263к1Ь + 1262(к1 + 2к2)е-ё[Т-) + 12Т52(5 - 1)к1,
П1 = -66к1к2 - 4Ьк\ - 12к12,
П2(Ь) = 12(5к22 - 3к2 - 2к1к2) - 24(Т -
Пз = -126(с1к2 + 2С2к12) - 125(к12и,{1ах - к^^),
щ = 3к12 - 15к22,
П5(Ь) = 30(Т - Ь)5к22 - 12Тс253(Ь - 1) - 12(Т - Ь)252Ьк12 + 4(Т - Ь)353к12 - 6(Т - Г)5к12-
-12(Т - Ь)62(с1к2 + 2с2к12) + 6(Т - Ь)2С2б3 - 12(Т -Ь)52(к12играх - к1 и?™) + 6(Т - Ь)253к1играх.
Заметим, что в данном случае при выборе функций А1(Ь), А2(Ь) мы разделили между игроками сумму А1(Ь) + А2(Ь) попо-
лам. Таким образом, для нового дележа имеем: Й1 = А1 + V({1},хс,Т - ¿с) = = 2(А1 + А2) + V({1}, хс, Т - ¿с) = = 2V({1,2},хс,Т - ¿с) - V({1}, хс, Т - ¿с)--У({2}, хс, Т - ¿с) + V({1}, хс, Т - ¿с) = = 2(V({1,2},хс,Т - ¿с) - V({2},хс,Т - ¿с)) + +2С^({1},хс,Т - ¿с), Й2 = А2 + V({2},хс,Т - ¿с) = = 2(А + А2) + V({2},хс,Т - ¿с) = = 2V({1,2},хс,Т - ¿с) - V({1}, хс, Т - ¿с)--V({2}, хс, Т - ¿с) + V({2}, хс, Т - ¿с) = = 2(V({1,2},хс,Т - ¿с) - V({1},хс,Т - ¿с)) + +2^({2},хс,Т - ¿с),
т.е. вектор а является вектором Шепли в игре с характеристической функцией V({2}, хс, Т - ¿с).
Очевидно, что при выполнении условия А^) + А2(£) ^ 0 предложенный выбор функций А^) ^ 0, А2(£) ^ 0 не является единственно возможным. Величина А^) + А2(£) могла быть разделена между игроками в любых пропорциях, однако в таком случае дележ а не являлся бы вектором Шепли.
Используя ПРД (30) при выполнении дополнительного ограничения на параметры модели (28), мы обеспечиваем динамическую и сильную динамическую устойчивость ядра на основе вектора Шепли (31). Сильная динамическая устойчивость ядра как кооперативного решения в данном примере соответствует тому, что однократное отклонение от соглашения о совместном контроле объемов вредных выбросов не приводит к нереализуемости соглашения действовать совместно оптимально на протяжении всей игры, поскольку при выборе другого дележа из ядра в подыгре, начинающейся в момент нарушения соглашения, суммарные выплаты игрокам все равно принадлежат изначально выбранному принципу оптимальности (ядру). Таким образом, кооперативное соглашение по контролю объемов вредных выбросов не нарушается.
Кроме того, обеспечивается защита от иррационального по-
ведения участников, поскольку ранее было доказано, что в случае игры двух лиц выбор ПРД ßi(t) по формуле (30) гарантирует выполнение условия Янга (9).
4. Заключение
В работе предложен конструктивный метод построения сильно динамически устойчивого кооперативного решения для дифференциальной игры двух лиц, а именно, сформулированы достаточно общие условия, при которых в C-ядре можно выделить дележ, однократное отклонение от которого в пользу другого дележа из C-ядра в подыгре, начинающейся в момент отклонения от первоначально выбранного дележа, не приводит к нереализуемости первоначально выбранного соглашения о разделе суммарного выигрыша согласно C-ядру. Кроме того, доказано, что в играх двух лиц данное кооперативное решение будет также защищено от иррационально поведения участников, т.е. от однократного отклонения от кооперативного соглашения по некоторым иррациональным причинам.
Полученные теоретические результаты проиллюстрированы на примере дифференциальной игры управления вредными выбросами с двумя участниками, а именно, в данной задаче получено аналитическое решение, гарантирующее сохранение кооперации в сильно динамическом смысле.
Литература
1. ВОРОБЬЕВ Н.Н. Теория игр для экономистов-кибернетиков. - М.: Наука, 1985. - 272 с.
2. КРАСОВСКИЙ Н.Н., КОТЕЛЬНИКОВА А.Н. О дифференциальной игре на перехват // Труды математического института им. В.А. Стеклова. - 2010. - Т. 268. - С. 168214.
3. ПЕТРОСЯН Л.А. О новых сильно динамически устойчивых принципах оптимальности в кооперативных дифференциальных играх // Труды математического института
им. Стеклова «Оптимальное управление и дифференциальные уравнения». - 1995. - T. 211. - С. 370-376.
4. ПЕТРОСЯН Л.А. Характеристические функции в кооперативных дифференциальных играх // Вестник СПбГУ, сер. 1: Математика, механика, астрономия. - 1995. - №1. - С. 48-52.
5. ПЕТРОСЯН Л.А. Устойчивость решений в дифференциальных играх со многими участниками // Вестник ЛГУ. -1977. - №4. - C. 46-52.
6. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.Н. Устойчивые решения неантагонистических дифференциальных игр с транзитивными выигрышами // Вестник ЛГУ. - 1979. - №1. -C. 46-54.
7. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.Н. Кооперативные дифференциальные игры и их приложения. - Томск: Изд-во Томского университета, 1985. - 273 с.
8. ПЕТРОСЯН Л.А., ГРОМОВА Е.В. Двухуровневая кооперация в коалиционных дифференциальных играх. // Тр. ИММ УрО РАН. - 2014. - №3. - C. 193--203.
9. BASAR T., OLSDER G.J. Dynamic Noncooperative Game Theory. - 2nd Edition, SIAM, 1999. - 511 p.
10. BRETON M., ZACCOUR G., ZAHAF M. A differential game of joint implementation of environmental projects // Automatica. - 2005. - Vol.41(10). - P. 1737-1749.
11. ENGWERDA J. LQ Dynamic Optimization and Differential Games - Wiley, 2005. - 510 p.
12. NEUMANN J., MORGENSTERN O. Theory of Games and Economic Behavior. - Princeton, 1947. - 610 p.
13. PETROSYAN L., ZACCOUR G. Time-consistent Shapley value allocation of pollution cost reduction // Journal of Economic Dynamics and Control. - 2003. - Vol. 27. - P. 381398.
14. YEUNG D.W.K., PETROSJAN L.A. Cooperative Stochastic Differential Games. - New-York, Heidelberg, London: Springer, 2006. - 242 p.
15. YEUNG D.W.K. An irrational-behavior-proof condition in cooperative differential games // International Game Theory Review (IGTR). - 2006. - Vol. 08, Is. 04. - P. 739-744.
STRONGLY TIME-CONSISTENT COOPERATIVE SOLUTION FOR A DIFFERENTIAL GAME OF POLLUTION CONTROL
Ekaterina Gromova, St. Petersburg State University, Cand.Sc., assistant professor ([email protected]). Leon Petrosyan, St. Petersburg State University, Doctor of Science, professor (Universitetskii prospekt 35, Petergof, Saint-Petersburg, Russia 198504, tel. +7 (812) 428-71-59).
Abstract: We find a strongly time-consistent cooperative solution for two-payer differential games. The cooperative solution found satisfies strong time-consistency property under rather general conditions. It is shown that the obtained solution also satisfies the condition of irrational-behavior proofness. The obtained game-theoretical results are illustrated by a differential game of pollution control.
Keywords: differential games, time-consistency, strongly time-consistency, Yeung's condition, model of pollution control.
Статья представлена к публикации членом редакционной коллегии Д.А. Новиковым
Поступила в редакцию 07.03.2015. Дата опубликования 31.05.2015.