Научная статья на тему 'Решение с информационной дискриминацией в кооперативных дифференциальных играх с бесконечной продолжительностью'

Решение с информационной дискриминацией в кооперативных дифференциальных играх с бесконечной продолжительностью Текст научной статьи по специальности «Математика»

CC BY
150
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ / РЕШЕНИЕ С ИНФОРМАЦИОННОЙ ДИСКРИМИНАЦИЕЙ / ПРОЦЕДУРА РАСПРЕДЕЛЕНИЯ ДЕЛЕЖА / ДИНАМИЧЕСКАЯ УСТОЙЧИВОСТЬ / СИЛЬНАЯ ДИНАМИЧЕСКАЯ УСТОЙЧИВОСТЬ / DIFFERENTIAL GAME / LOOKING FORWARD APPROACH / IMPUTATION DISTRIBUTION PROCEDURE / TIME-CONSISTENCY / STRONG TIME-CONSISTENCY

Аннотация научной статьи по математике, автор научной работы — Петросян Ованес Леонович

Предложен новый подход к определению решения дифференциальных игр с бесконечной продолжительностью для случая, когда игроки не имеют точную информацию об игре (уравнения движения, функция выигрыша) на временном интервале, на котором задана игра. В любой момент времени игроки принимают решение, используя информацию на временном интервале с конечной продолжительностью. Информация об игре обновляется в определенные моменты времени и неизвестна заранее. Согласно описанному подходу решение в игре определяется как комбинация решений в усеченных играх. Рассмотрен пример игры управления природными ресурсами, в котором приведено сравнение кооперативной траектории, дележей и процедуры распределения дележа в исходной игре с бесконечной продолжительностью и в игре с представленным подходом. Библиогр. 15 назв. Ил. 3.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LOOKING FORWARD APPROACH IN COOPERATIVE DIFFERENTIAL GAMES WITH INFINITE-HORIZON

A novel approach to definition and computation of a solution of a differential with an infinite-horizon game is presented for the case when players do not have certain information about the game structure on the infinite time interval. At any instant of time players have certain information about motion equations and payoff functions on a subinterval with fixed duration. The information about the game structure updates at fixed instants of time and is completely unknown in advance. A new solution is defined as a recursive combination of sets of imputations in the truncated subgames that are analyzed by the Looking Forward Approach. An example of a resource extraction game illustrates a comparison of cooperative trajectory, imputation, imputation distribution procedure in the original game with infinite-horizon and in the corresponding game with Looking Forward Approach. Refs. 15. Figs 3.

Текст научной работы на тему «Решение с информационной дискриминацией в кооперативных дифференциальных играх с бесконечной продолжительностью»

УДК 517.977.8

Вестник СПбГУ. Сер. 10. 2016. Вып. 4

О. Л. Петросян

РЕШЕНИЕ С ИНФОРМАЦИОННОЙ ДИСКРИМИНАЦИЕЙ В КООПЕРАТИВНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С БЕСКОНЕЧНОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ*

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

Предложен новый подход к определению решения дифференциальных игр с бесконечной продолжительностью для случая, когда игроки не имеют точную информацию об игре (уравнения движения, функция выигрыша) на временном интервале, на котором задана игра. В любой момент времени игроки принимают решение, используя информацию на временном интервале с конечной продолжительностью. Информация об игре обновляется в определенные моменты времени и неизвестна заранее. Согласно описанному подходу решение в игре определяется как комбинация решений в усеченных играх. Рассмотрен пример игры управления природными ресурсами, в котором приведено сравнение кооперативной траектории, дележей и процедуры распределения дележа в исходной игре с бесконечной продолжительностью и в игре с представленным подходом. Библиогр. 15 назв. Ил. 3.

Ключевые слова: дифференциальные игры, решение с информационной дискриминацией, процедура распределения дележа, динамическая устойчивость, сильная динамическая устойчивость.

0. L. Petrosian

LOOKING FORWARD APPROACH IN COOPERATIVE DIFFERENTIAL GAMES WITH INFINITE-HORIZON

St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

A novel approach to definition and computation of a solution of a differential with an infinite-horizon game is presented for the case when players do not have certain information about the game structure on the infinite time interval. At any instant of time players have certain information about motion equations and payoff functions on a subinterval with fixed duration. The information about the game structure updates at fixed instants of time and is completely unknown in advance. A new solution is defined as a recursive combination of sets of imputations in the truncated subgames that are analyzed by the Looking Forward Approach. An example of a resource extraction game illustrates a comparison of cooperative trajectory, imputation, imputation distribution procedure in the original game with infinite-horizon and in the corresponding game with Looking Forward Approach. Refs. 15. Figs 3.

Keywords: differential game, looking forward approach, imputation distribution procedure, time-consistency, strong time-consistency.

1. Введение. Теория кооперативных дифференциальных игр изучает вопросы построения оптимальных решений в процессах со многими участниками. Оптимальное решение включает в себя кооперативную траекторию, стратегии, ее порождаю-

Петросян Ованес Леонович — аспирант; petrosian.ovanes@yandex.ru

Petrosian Ovanes Leonovich — postgraduate student; petrosian.ovanes@yandex.ru

* Работа выполнена при финансовой поддержке Санкт-Петербургского государственного университета (НИР № 9.38.205.2014).

© Санкт-Петербургский государственный университет, 2016

щие, выигрыш вдоль кооперативной траектории, распределение выигрыша между игроками и анализ динамической устойчивости выбранного решения. Проблема динамической неустойчивости вектора Шепли для переговоров была озвучена в работе [1]. Л. А. Петросян впервые математически сформулировал понятие динамической устойчивости [2] и сильной динамической устойчивости [3] решения в кооперативных дифференциальных играх. С целью предотвращения нарушения устойчивости позднее в [4] была предложена схема выплат, получившая название процедуры распределения дележа (ПРД), которая обеспечивает реализацию решения.

В данной работе внимание уделяется специальному классу дифференциальных игр с бесконечной продолжительностью, когда игроки не имеют полной информации об игре на всем временном интервале, на котором определена игра. В каждый момент времени игрокам доступна информация только на фиксированном временном интервале. В определенные моменты времени информация обновляется. Для того чтобы смоделировать поведение игроков в такой игре, предлагается использовать специальный подход, который будем называть подходом решения с информационной дискриминацией. Одна из вариаций подхода описана в [5, 6].

Рассмотрим кооперативную дифференциальную игру, заданную на временном интервале [¿о, Предположим, что информация об игре обновляется в моменты

времени £ = ¿о + зД£, 3 = 0,..., здесь 0 < < задает время между

моментами обновления информации. В эти моменты игроки получают точную информацию об уравнениях движений и функции выигрыша на временном интервале [¿о +3^1, ¿о + где < Т < +оо задает временной горизонт, на котором игрокам известна информация об игре. На интервалах ¿о+^Л^+Т], ,7=0,..., +оо, строится игра. С помощью уравнений Гамильтона—Якоби—Беллмана [7] можно установить кооперативное поведение (кооперативные стратегии, траекторию) в каждой подобной игре. Вопрос определения оптимального в некотором смысле информационного горизонта Т для подхода с информационной дискриминацией рассматривался в работе [8].

Характеристическую функцию будем считать также наилучшим ответом коалиции на стратегии, входящие в ситуацию равновесия по Нэшу остальных игроков [9]. Такой подход к получению характеристической функции требует определения ситуации равновесия по Нэшу в дифференциальных играх, вопрос построения равновесия по Нэшу детально описан в [9]. Множество дележей или решение в игре находится для каждого момента времени £ = ¿о + 3 Д£. Для каждого дележа из выбранного решения определяется ПРД, введенная Л. А. Петросяном в [4]. Некоторые последние публикации на эту тему [9-11]. Для того чтобы определить решение для всей игры, необходимо скомбинировать решения и соответствующие ПРД на временных интервалах [¿о +3 to+jAt + Т]. Также в работе проведено исследование свойств динамической устойчивости и сильной динамической устойчивости, впервые рассмотренных Л. А. Петросяном в [2, 12].

Для того чтобы продемонстрировать предлагаемый подход, была изучена игра добычи ограниченных ресурсов с бесконечной продолжительностью. Исходная игра описана в [13]. В настоящей работе представлено аналитическое и численное решение игры, которое сравнивается с решением в исходной игре. В качестве дележа в игре используется пропорциональное решение.

Статья имеет следующую структуру. В п. 2 описывается исходная игра, в п. 3 — усеченная игра, с помощью которой можно моделировать поведение игроков с предложенным подходом. В п. 4 дается решение усеченных игр. В п. 5 характеризуется

предлагаемый подход для определения решения во всей игре. В п. 6 подход применяется к дифференциальной игре добычи ограниченного ресурса с бесконечной продолжительностью. В п. 7 приведены выводы.

2. Модель исходной игры. Рассмотрим дифференциальную игру п-лиц с бесконечной продолжительностью Г(хо , ¿о), начинающуюся в позиции хо € Ят в момент времени ¿о. Уравнения движения для этой игры имеют следующий вид:

х = д(Ь,х,и), х(Ьо) = хо, (1)

где х € Ят; и = (и±,..., ип). Множество игроков обозначим через N = {1, 2,..., п}. Игрок г = 1,...,п выбирает стратегии щ, как функции текущего состояния и времени со значениями в множестве и с СошрВ,к (подробней см. в [14]). Функция выигрыша игрока г

Кг(хо,Ьо; и)= У Ы(х(т),и(т))в-г(г]3,т, г0

здесь х(т) — траектория (решение) при заданных уравнениях движения (1) и стратегиях и на бесконечном временном интервале.

Предлагаемый подход предполагает использование игроками усеченной информации об игре. В моменты времени £ € [¿о + 3 А^о + (3 + 1)А^] игроки обладают информацией об уравнениях движения и функции выигрыша на временном интервале о + зАЬ, ¿о + зАЬ + Т]. В моменты времени Ь = ¿о + зАЬ информация об игре обновляется и игроки переопределяют свое поведение. Подобные задачи часто появляются в реальной жизни, так как информация о конфликтном процессе на длительном временном интервале не всегда определена и необходимо принимать решения в реальном времени, подстраиваясь под изменения.

3. Понятие усеченной подыгры. В течение первого временного интервала + АЬ] игроки владеют информацией об игре на временном интервале [¿о,¿о +

Т]. В момент времени £ = ¿о + А1 информация обновляется, и в течение второго временного интервала [¿о + А1, ¿о + 2А1] игроки имеют информацию об игре на [¿о + АЬ, ¿о + АЬ + Т]. Для того чтобы учесть это в модели, введем определение усеченной игры. Примем следующее обозначение: х^о = х(Ьо + 3 АЬ).

Определение 1. Пусть з = 0, ...,+00. Усеченная игра Г^^х^^,^ + ¿АЬ,^ + ]АЬ + Т) определена на временном интервале [¿о + зАЬ,Ьо + jAt + Т] следующим образом. На временном интервале [¿о + зАЬ,Ьо + ]АЬ + Т] уравнения движения и функция выигрыша в усеченной игре и исходной игре Г(хо,1о) совпадают:

х = д(1, х, и), х^о + 3 А¿) = х^о,

Щ{х^0М+зАЬМ+зАЬ + Т]и)= I Ы{х{т),и{т))е-г^т-^<1т, (2)

где в-г(т-*о) — функция, дисконтирующая выигрыш начиная с момента времени ¿о в игре Г(хо,¿0).

Предполагается, что выигрыш в игре (в любой усеченной подыгре) рассчитывается от момента времени ¿о; в формуле (2) дисконтирование выигрыша начинается с момента времени ¿о.

4. Решение кооперативной усеченной подыгры. Рассмотрим усеченную кооперативную подыгру Г^ж^о^о + З&й, ¿о + 3^- + Т) на временном интервале [¿о + о + З^Ь + Т] с начальным условием ж(£о + = ж^о- В кооперативной постановке игрокам необходимо максимизировать суммарный выигрыш

Е

геМ

Щ (

х1,0,

гем

(3)

при условии

х = д(г,х,и), х(Ьо + з&Ь)=

(4)

Для решения подобной задачи может быть использована система уравнений Гамильтона—Якоби—Беллмана [15, теорема А.1]:

Теорема 1. Пусть существует непрерывно дифференцируемая функция : [¿о + з'Д^о + З&Ь + Т] х Кт —> К, удовлетворяющая системе уравнений в частных производных

-ш(3Аг) (г, х) =ша^ Нг(г, х, и)в-г(*—о) + (г, х)д(г, х, и)

(5)

. г=1

при условии

ш (3Аг) (г о + з + Т,х) = 0.

Предположим, что максимум в (5) достигается при и = и*3(г). Тогда и = и*3(г) является оптимальным в задаче управления, определяемой (3), (4).

Траекторию, соответствующую и = и*3 (г), будем называть кооперативной и обозначать через х*(г).

В соответствии с рассматриваемым подходом в каждый момент времени игрокам доступна ограниченная информация об игре Г(хо,го). Этой информации недостаточно, чтобы определить кооперативное поведение для игроков во всей игре Г(хо,го). Вместо кооперативной траектории в игре Г(хо,го) будем строить условно кооперативную траекторию {х*(г)}г=>0

г=г0

{х* (г)}+=^0 =

х*о(г), г € [го, го + Дг], х* (г), г € (го + Дг,го + 2Дг],

х*(г), г € (го + зДг,го + (з + 1)Дг],

На временном интервале [го, го + Дг] траектория хо(г) является кооперативной в усеченной подыгре Гд(жо, ¿о, ¿о + Т). В момент времени Ь = ¿о + Д^ в позиции Жд(¿о + Д£) информация об игре обновляется. На временном интервале [го + Дг,го + 2Дг] игроки двигаются вдоль кооперативной траектории х* (г) в усеченной подыгре Г1 (хо (го + ДО^о+ДМо + Д^+Т). в момент времени г — го +3 Дг в позиции х*_* (го +3 Дг) информация об игре обновляется. Условно кооперативная траектория х* (г) на временном интервале [го + з Дг, го + (з + 1)Дг] определена как комбинация частей кооперативных траекторий х*(г) в усеченных подыграх Гс(х*-1(го + зДг),го + зДг,го + зДг + Т). Введем следующие обозначения: х* о = х*-1(го + зДг) = х* (го + з Дг). Тогда усеченная подыгра может быть записана в таком виде: Г°(ж* 0, ¿о + З^-? ¿о + 3^- + Т).

Для каждой коалиции S с N и усеченной подыгры с номером 3 = 0,..., найдем значения характеристической функции так, как это сделано в [14]:

^ (Б, X* о, ¿0 + з&ь, г0 +зМ + Т) =

Б = {0},

шах Е Щ(х*0, *о + З^г, ¿0 + эЬЪ + т- и*3, 5СЯ,

щ, геЯ геЯ

тах £ Щ(х* 0, ¿0 + 3 Д*, ¿о + 3Д* + Т; и*), 51 = N.

и г=1

В этом подходе предполагается, что фиксируется некоторая ситуация равновесия

,МЕ = (иМБ и1МБ) ~ \и1,з , ..., и'п, Л )

равновесные по Нэшу стратегии {и^Е}, тогда как игроки из коалиции Б максимизи-

по Нэшу и^Е = (щЕ,..., и^Е), игроки к, не входящие в коалицию к € Б, используют

.ЫЕЛ

руют свой суммарный выигрыш.

Любой дележ (х* 0, ¿о + З^Ь, ¿о + 3 Д^ + Т) в кооперативной усеченной подыгре +jД■t,to + з£±Ь + Т) должен удовлетворять следующей системе неравенств:

£{{х10,Ц+зАЬМ+зАЬ + Т) > зАЬМ+ зАЬ + Т), ъ е М,

^ (4о> + зАЬ, ¿о + зАг + Т)= ^-(ЛГ, х* 0, + ¿Д*, ¿о + ¿Д* + Т).

геи

Обозначим множество всевозможных дележей для усеченной подыгры Гс(х* о,^о+ ЗЫ, Ь0 + jДt + Т) через 0, ¿0 + ¿о + зАг + Т).

Предположим, что для каждой усеченной подыгры выбрано непустое решение

(х* 0, ¿0 + зАЬ, ¿о +зАЬ + Т) С Е^ (х* 0, ¿0 + 3 Д*, ¿о + :7 Д* + Т).

Это может быть С-ядро, НМ-решение, N-ядро или вектор Шепли.

Логично предположить, что распределение суммарного выигрыша между игроками в игре Г(хо,^) вдоль условно кооперативной траектории {х*^)}^; найдено как комбинация дележей на временных интервалах [¿о + зА1,1о + (з + 1)А^, 3 = 0,..., Эту конструкцию будем называть новой концепцией решения.

Комбинация множеств \¥у(х* 0, ¿о о з&Ь + Т) не позволяет получить

решение в игре Г(хо^о) напрямую. Для каждого 3 = 0,...,решение в усеченной подыгре + о + зАЬ + Т) построено для временного интервала [¿о + З^М з АЬ Т\. Использование такого решения на временном интервале [¿о + 3А1,1о + (3 + 1)А^ не имеет смысла, так как информация об игре обновляется каждый А1 временной интервал. Необходимая часть решения может быть получена с помощью процедуры распределения дележа для каждой усеченной подыгры. ПРД также обеспечивает свойство динамической устойчивости новой концепции решения и возможность определять решения внутри временного интервала [10+зММ+зАЬ + Т].

5. Концепция решения. Для того чтобы построить предложенное решение в игре Г(хо, ¿о), необходимо установить ПРД для всех усеченных подыгр Гс(х* о^о +

зМм+зАг + Т), 3 = о,...,+оо.

Обозначим семейство подыгр для Г°(х*0,£о + З^Ь, ¿о + З^Ь + Т) вдоль кооперативной траектории х* (£) через Г°(х* (£), ¿о + З^Ь + Т), где £ € (¿о + З^Ь, ¿о + З^Ь + Т] — начальный момент времени подыгры.

0

и =и"Е, леи\б

Характеристическая функция вдоль х*в семействе подыгр Гс(х*+ зАЬ + Т) определена так же, как ив (6). Обозначим через Ej(xj(t),t,t о + З^Ь + Т) множество дележей в подыгре Г°(ж* (¿), t, ¿о + 3^- + Т) вдоль ж*(£).

Предположим, что в каждой усеченной подыгре Г°(ж*0,£о + 3^^о + 3^ + Т) решение Wj(x*0,to + зАЬ,Ьо + з&З + Т) ф 0 вдоль кооперативной траектории ж*(£) выбрано.

Примем, что для любой усеченной подыгры Г°(ж* 0, ¿о + ¿о + + Г) в начальной позиции х* о игроки договорились о выборе дележа:

и соответствующего ПРД

что гарантирует динамическую устойчивость выбранного дележа [2]:

Ъ+зЫ+Т

где e r(t to) — функция, обеспечивающая дисконтирование выигрыша начиная с момента времени to в игре r(xo,to). ПРД Bj(t,x*) может быть получена путем дифференцирования дележа S,j(x*,t,to + jAt + T) [15, лемма 4.1]:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Теорема 2. Если функция Ç3 (x*,t,to+jAt + T) является непрерывно дифференцируемой по t и ж*, тогда

Bj (t, ж* ) = - [à (ж*, t, to + jAt + T)] - (ж*, t, T)J 9j [t, X*, ф? (г, ж) ... Гп1 (r, x)

Новая концепция решения в игре Г(жо, to) состоит из комбинации решений Wj(xj 0,to + jAt,to + j'Ai + T) (соответствующих ПРД) в усеченных подыграх Гс(ж* g, to + jAt, to + jAt + T), j = 0,..., +oo. Пусть для каждого дележа (ж* 0, to + jAt,t0+jAt+T) G Wj(x*0,t0+jAt, to+jAt+T) существует ПРД Bj (t, ж* ). Определим условное ПРД для всей игры Г(ж0,to) следующим образом:

B(t,x*) = Bj(t,x*), t e [to + jAt,to + (j + 1)At], j = 0,...,+œ. (7) С помощью условного ПРД B(t,X* ) определим вектор

ij (xj, о ,to + jAt) = j B(t, X * (t ))e-r(T-t0)dT =

E

m=j

to+jAt (m+1)At

J Bm(T,x*m(T ))e-r(T-to) dT mAt

(8)

в котором j = 0,..., Через Wj(х* 0^0 + jА^ обозначим множество векторов & X о, ^о + j Аt), построенных с помощью (7), (8). В соответствии с новой концепцией

решение в игре Г(хо,го) определено, как Ш = (Ш](х**о,го + 3Аг))+=^. Решение Ш является динамически устойчивым. Оказывается, что Ш обладает и другим свойством. Определение 2. Решение Ш = (Ш] (х*о, го + 3Аг))

+=0 называется сильно

Аг-динамически устойчивым, если для каждого 3 = 0,..., и каждого £ € Ш соответствующее ПРД Б(г,х*) удовлетворяет условию

У Б(т,х*(т))е-г(т-Ьочт ф Ш](х*о,го + 3Аг) с Шо(хо,го), Ьо

в котором а ф А = {а + а' : а' € А}.

Теорема 3. Решение Ш является сильно Аг-динамически устойчивым в игре г(хо ,го).

Доказательство. Пусть 0 ^ 3 ^ и дележ £о(хо,го) € Шо(хо,го) порождает ПРД Б(г, х*). Тогда для любого 0 < к < 3 существует £к(х*к о,го + кАг) € Шк(х*к о,го + кАг) с ПРД Бк(г,х*к) таким, что

Б(г,х*) = Бк(г,х*к), г € [кАг, (к + 1)Аг), о < к < 3 — 1.

Следовательно,

Ьо+]Аь

Г ]-1 Г Ьо+(к+1)Аь

/ Б(т, х*(т))е-г(т-Ьо)Ст = Бк(г,х*к(г))е-г(т-Ьо)А.

Ьо

к=о Ьо + кАЬ

Предположим, что £'' € Ш](х*,о,го + 3Аг). Тогда для любого 3 ^ к ^ I — 1 существует £к(х*коо,го + кАг) € Шк(х*коо,го + кАг) с ПРД Бк(г,х*к) такое, что Б(г,х*) = Бк(г,х*к) для г € [го + кАг,го + (к +\)Аг) и

г-1

т=]

Таким образом,

Ьо+(т+1)АЬ

У Бт(т,х*т(т ))е-г(т-Ьо) ¿т

Ьо+тАЬ

го+з&г

г-1

Е

I Б(т, х*(т))е-г(т-Ьо)Ст + £ Ьо

п+1)Аг

I Бт(т, х*т(т))е-г(т-Ьо)Ст

Ьо

Ьо + (т+1)АЬ

Ьо+тАЬ

€ Шо(хо,го).

Теорема доказана.

6. Решения с информационной дискриминацией в кооперативной игре добычи ограниченного ресурса с бесконечной продолжительностью. Рассмотрим бесконечную игру добычи ограниченного ресурса. Решение игры в классическом виде представлено в [13]. Применим предлагаемый нами подход для этой игры.

Пусть в игре участвуют два игрока. Уравнения движения, описывающие изменение запаса ресурса х(Ь) € X с Е, имеют следующий вид:

х = а\/хЩ — Ъх{€) — и\ — 112, х(1о) = хо,

где щ — уровень добычи игрока, г = 1, 2. Запишем функцию выигрыша игрока г:

К(хо,Ьо; и) = У Ы(х(т),и(т))е-г(т-'0)3,г,

г = 1, 2,

здесь

кг(х(т),и(т)) = у/щ(т)---=^=щ(т), г = 1,2,

Vх(т)

где г — параметр дисконтирования (дисконтирование выигрыша происходит начиная с момента времени Ьо); 01,02 — константы о\ = 02.

Исходная игра Г(х0,Ь0) определена на временном интервале [Ь0, Предпо-

ложим, что для любого Ь € [¿о + 3 АЬ, ¿о + (з + 1)АЬ], 3 = 0,..., игроки имеют усеченную информацию об игре. Она включает в себя информацию об уравнениях движения и функциях выигрыша на временном интервале \to-\-jAt, to+jAt-\-T]. Смоделируем это с помощью усеченной подыгры Гj(xjto^to+jAt,to+jAt-\-T). Уравнения движения и начальные данные имеют такой вид:

х = х{€) — ЬуХ^) — и\ — 112, х(Ьо зАЬ) = (9)

функция выигрыша игрока г:

г0+зЫ+Т г0+з&г

Усеченная подыгра Tj(xj+ 3^^о + 3^ + Т) является конечной дифференциальной игрой, подобная игра была детально изучена в [13, 15]. Стратегии, входящие в ситуацию равновесия по Нэшу в усеченной подыгре Г^ж^сь^о +jA.t,to -\-jAt + Т), могут быть вычислены так:

ьРАЬ, х) =-:-, ¿ = 1,2.

Здесь функции АН (Ь) определены с помощью системы дифференциальных уравнений

Ън

А> (Ь) = АН (Ь)

2 8(он + А33_ г(Ь)/2)2

4(ог + АН (Ь)/2)'

для % = 1,2 с граничными условиями А\ (¿о + 3А£ + Т) = 0 и (¿о + 3^ + Т) = 0. Выигрыш игрока г = 1, 2 в ситуации равновесия по Нэшу [13, 15]

г = 1,2.

Рассмотрим теперь случай, когда игроки договорились кооперироваться в усеченной подыгре Г°(ж^о, ¿о + зАЬ, Ьо + ЗД^ + Г)- Вычислим максимальный суммарный выигрыш в игре Г^ж^о^о + ЗАЬ,Ьо -\-jAt + Т) [13, 15]:

Ш 3 (Ь,х) = е

-т(г-1о)

[А* +С*{Щ ,

где функции А3 (Ь), С3 (Ь) удовлетворяют следующей системе дифференциальных

уравнений:

а3(ь) =

г +

Ьз

А3(Ь) -

сць) = гсць)-^аць), А\ь0 + зАь + т) = о, сць0+зАь + т) = о.

Кооперативная траектория х*(Ь) в усеченной подыгре Т^х^^^о+З АЪ, Ьо +ЗАЬ+Т) определена на временном интервале [¿о + ЗАЬ, Ьо + ЗАЬ + Т] [13, 15]:

х * (Ь) = ш^Ьо + 3 АЬ,Ь)

г

+ \а J ^'(¿0 + ЗАЬ, т) Чт

г0+злг

ь е (Ьо + 3АЬ,Ь0 + (3 + 1)Аь],

г

здесь шз (Ьо + 3 АЬ, Ь) = ехр J

1

С1 +

+

1

8

йт.

га+]Аг

Начальное положение для кооперативной траектории в каждой усеченной подыгре устанавливается из предыдущей усеченной подыгры: х0о0 = х0 и х* 0 = х*— (Ь0 + 3АЬ) для 1 ^ 3 ^ Определим условно кооперативную траекторию х*(Ь) в игре

Г(х0 ,Ь0):

х*(Ь) = х*(Ь), Ь е [Ь0 + 3АЬ,Ь0 + (3 + 1)АЬ], 0 < 3 <

Рассмотрим пример, в котором информация об игре известна на временном интервале с продолжительностью Т = 2 и обновляется каждый АЬ = 1 временной интервал. Зафиксируем следующие параметры для уравнений движений: а = 5, Ь = 0.3, для функции выигрыша: с\ = 0.15, С2 = 0.65 и для начальных условий: Ь0 = 0, х0 = 250. Также положим дисконт-фактор г = 0.01.

Условно кооперативная траектория X*(Ь) составлена из кооперативных траекторий в усеченных подыграх Г°(х*0,Ьо + ЗАЬ,Ьо + ЗАЬ + Т) с уравнениями движения (9). На рис. 1 представлено сравнение условно кооперативной траектории х*(Ь) и кооперативной траектории х* (Ь) в исходной игре с бесконечной продолжительностью Г(х0,Ь0) [13]. Видно, что в случае ограниченной информации выработка ресурсов происходит быстрее, ибо игроки ориентируются на урезанный временной интервал. Ось абсцисс на рис. 1 определяет время Ь, ось ординат — запас ресурса х.

В качестве дележа в каждой кооперативной усеченной подыгре Гс(х* 0 ,Ь0 + ЗАЬ,+ ЗАЬ + Т), 0 < 3 < +оо, используется пропорциональное решение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

_ у/(ь,х*(ь))

^г{Х*ЛЬ\ЬМ+зАЬ + Т) = -

5 п(ь,х*(ь))

Ш3 (Ь,х * (Ь))

1

1

2

4

4

2

2

2

к=1

£ Ак(Ь\ х*(Ь) + Ск(ь)

Ан (Ь\ х* (Ь) + С (Ь)

6 7 8 9 10

Рис. 1. Условно кооперативная траектория для запаса ресурсов X* (£) (сплошная линия) и кооперативная траектория х* (£) (пунктирная линия) в исходной игре Г(х0,£0) с бесконечной продолжительностью

Соответствующее ПРД обозначим через

вн (ь

нуь, л^н )

В\ (Ь,х 3 ),В2 (Ь,х 3)

Общая формула для ПРД Вн (Ь, х*) в игре добычи ограниченных ресурсов была выведена Д. Янгом и Л. Петросяном [13]:

ВН (т, х*)

хз Ъх 3

4[01 + АН(Ь)]2 4[о2 + АН(Ь)]2

1, 2.

Условное ПРД В^(Ь,х3) строится с помощью ВН (т,х*), г = 1, 2 (см. формулу (7). Условное ПРД, определенное с помощью решений с опережением в игре Г(хо,Ьо), и соответствующее ПРД в исходной игре с бесконечной продолжительностью изображены на рис. 2. Условное ПРД В^(Ь, х3) имеет ломаный вид, что является результатом обновления информации об игре и пересчета ожидаемого суммарного выигрыша. Ось абсцисс на рис. 2 определяет время Ь, ось ординат — ПРД.

На рис. 3 видна разница между результирующим дележом £(хо,Ьо) (8) и дележом в исходной игре Г(хо,Ьо) с бесконечной продолжительностью, а также между соответствующим суммарным выигрышем. Очевидно, что суммарный выигрыш в рассматриваемом подходе будет всегда меньше, чем в исходной игре. Но стоит заметить, что дележ для некоторого игрока может быть больше. Это значит, что некоторым игрокам может быть выгодно, чтобы все игроки имели ограниченную информацию об игре. Ось абсцисс на рис. 3 определяет время Ь, ось ординат — дележ.

т

х

х

а

т

Рис. 2. Условное ПРД Бг(1Ь,х*) (сплошные линии) и ПРД Бг(Ь,х*) (пунктирные линии) в исходной игре Г(х0,£0) с бесконечной продолжительностью ПРД изображено для первого и второго игрока соответственно.

Рис. 3. Дележ £(х0,10) (сплошные линии), дележ £,(х0^0) (пунктирные линии) в исходной игре Г(х0,£0) с бесконечной продолжительностью и соответствующий суммарный выигрыш игроков (жирные пунктирная и сплошная линии) Дележи изображены для первого и второго игрока соответственно.

7. Заключение. В работе представлен подход для построения решения в реальном времени в кооперативных дифференциальных играх с бесконечной продолжительностью. Игра определена на интервале с бесконечной продолжительностью, разбитом на интервалы конечной длины. Предполагается, что в каждый момент времени игроки имеют информацию об уравнениях движения, функциях выигрыша на конечном временном интервале. В фиксированные моменты времени информация обновляется, таким образом достигается эффект того, что игра решается в реальном времени. Для получения оптимального решения в игре вводится понятие усеченной игры. На его основе определяются условно кооперативная траектория, условная ПРД и концепция решения. Доказывается свойство сильной ДЬ динамической устойчивости предложенной концепции решения.

Подход проиллюстрирован на бесконечной игре добычи ограниченного ресурса.

Проведено сравнение решения в классической постановке и в постановке с использованием разработанного подхода. Показано, что в случае ограниченной информации выработка ресурсов происходит быстрее, так как игроки ориентируются на урезанный временной интервал. Показан ломаный вид условного ПРД по сравнению с ПРД в исходной игре. Также приведено сравнение дележей в исходной игре и в игре с использованием данного подхода. Замечено, что суммарный выигрыш в рассматриваемом подходе будет всегда меньше, чем в исходной игре, но дележ для некоторого игрока может быть больше. Это значит, что некоторым игрокам может быть выгодно, чтобы все игроки имели ограниченную информацию об игре.

Литература

1. Hourie A. A note on nonzero-sum differential games with bargaining solutions // Journal of Optimization Theory and Applications. 1976. Vol. 18, issue 1. P. 31—39.

2. Петросян Л. А. Устойчивость решений дифференциальных игр со многими участниками // Вестн. Ленингр. ун-та. Сер. 1. Математика, Механика, Астрономия. 1977. Вып. 4. С. 46—52.

3. Петросян Л. А. Сильно динамически устойчивые дифференциальные принципы оптимальности // Вестн. С.-Петерб. ун-та. Сер. 1. Математика. Механика. Астрономия. 1993. Вып. 4. С. 35—40.

4. Петросян Л. А., Данилов Н. Н. Устойчивость решений неантагонистических дифференциальных игр с трансферабельными выигрышами // Вестн. Ленингр. ун-та. Сер. 1. Математика. Механика. Астрономия. 1979. Вып. 1. С. 52—59.

5. Petrosion O. L. Looking forward approach in cooperative differential games // Intern. Game Theory Review. 2016. Vol. 18, issue 2. P. 1-14. DOI: 10.1142/S0219198916400077.

6. Petrosion O. L., Bombonov A. E. Looking forward approach in cooperative differential games with uncertain-stochastic dynamics // Journal of Optimization Theory and Applications. 2016. P. 1-20. DOI: 10.1007/s10957-016-1009-8.

7. Bellmon R. Dynamic programming. Princeton: Princeton University Press, 1957. 550 p.

8. Gromovo E. V., Petrosion O. L. Control of informational horizon for cooperative differential game of pollution control // 2016 Intern. conference stability and oscillations of nonlinear control systems (Pyatnitskiy's conference). 2016. DOI: 10.1109/STAB.2016.7541187.

9. Petrosyon L. A., Zoccour G. Time-consistent Shapley value allocation of pollution cost reduction // J. econ. dyn. control. 2003. Vol. 27, issue 3. P. 381-398.

10. Petrosyon L. A., Yeung D. W. K. Dynamically stable solutions in randomly-furcating differential games // Trans. Steklov inst. math. 2006. Vol. 253, issue 1. P. 208-220.

11. Jorgensen S., Mortin-Herron G., Zoccour G. Agreeability and time consistency in linear-state differential games // Journal of Optimization Theory and Applications. 2003. Vol. 119, issue 1. P. 49-63.

12. Petrosjon L. A. Strongly time-consistent differential optimality principles // Vestnik of Saint Petersburg University. Series 1. Mathematics. Mechanics. Astronomy. 1993. Issue 4. P. 40-46.

13. Yeung D. W. K., Petrosyon L. A. Subgame-consistent economic optimization. New York: Springer, 2012. 395 p.

14. Bosor T., Olsder G. J. Dynamic noncooperative game theory. London: Academic Press, 1995. 535 p.

15. Jorgensen S., Yeung D. W. K. Inter- and intergenerational renewable resource extraction // Annals of Operations Research. 1999. Vol. 88, issue 0. P. 275-289.

Для цитирования: Петросян О. Л. Решение с информационной дискриминацией в кооперативных дифференциальных играх с бесконечной продолжительностью // Вестник Санкт-Петербургского университета. Сер. 10. Прикладная математика. Информатика. Процессы управления. 2016. Вып. 4. С. 18-30. DOI: 10.21638/11701/spbu10.2016.402

References

1. Haurie A. A note on nonzero-sum differential games with bargaining solutions. Journol of Optimizotion Theory ond Applicotions, 1976, vol. 18, issue 1, pp. 31-39.

2. Petrosyan L. A. Ustojchivost' reshenij differencial'nyh igr so mnogimi uchastnikami [Time-consistency of solutions in multi-player differential games]. Vestnik of Leningrod Stote University. Series 1. Mothemotics. Mechonics. Astronomy, 1977, issue 4, pp. 46-52. (In Russian).

3. Petrosyan L. A. Sil'no dinamicheski ustojchivye differencial'nye principy optimal'nosti [Strongly

time-consistent differential optimality principles]. Vestnik of Leningrad State University. Series 1. Mathematics. Mechanics. Astronomy, 1993, issue 4, pp. 40—46. (In Russian).

4. Petrosyan L. A., Danilov N. N. Ustojchivost' reshenij neantagonisticheskih differencial'nyh igr s transferabel'nymi vyigryshami [Stability of solutions in non-zero sum differential games with transferable payoffs]. Vestnik of Leningrad State University. Series 1. Mathematics. Mechanics. Astronomy, 1979, issue 1, pp. 52—59. (In Russian).

5. Petrosian O. L. Looking forward approach in cooperative differential games. Intern. Game Theory Review, 2016, vol. 18, issue 2, pp. 1-14. DOI: 10.1142/S0219198916400077.

6. Petrosian O. L., Barabanov A. E. Looking forward approach in cooperative differential games with uncertain-stochastic dynamics. Journal of Optimization Theory and Applications, 2016, pp. 1-20. DOI: 10.1007/s10957-016-1009-8.

7. Bellman R. Dynamic programming. Princeton, Princeton University Press, 1957, 550 p.

8. Gromova E. V., Petrosian O. L. Control of informational horizon for cooperative differential game of pollution control. Intern. conference stability and oscillations of nonlinear control systems (Pyatnitskiy's conference), 2016. DOI: 10.1109/STAB.2016.7541187.

9. Petrosyan L. A., Zaccour G. Time-consistent Shapley value allocation of pollution cost reduction. J. econ. dyn. control, 2003, vol. 27, issue 3, pp. 381-398.

10. Petrosyan L. A., Yeung D. W. K. Dynamically stable solutions in randomly-furcating differential games. Trans. Steklov inst. math., 2006, vol. 253, issue 1, pp. 208-220.

11. Jorgensen S., Martin-Herran G., Zaccour G. Agreeability and time consistency in linear-state differential games. Journal of Optimization Theory and Applications, 2003, vol. 119, issue 1, pp. 49-63.

12. Petrosjan L. A. Strongly time-consistent differential optimality principles. Vestnik of Saint Petersburg University. Series 1. Mathematics. Mechanics. Astronomy, 1993, issue 4, pp. 40-46. (In Russian).

13. Yeung D. W. K., Petrosyan L. A. Subgame-consistent economic optimization. New York, Springer Press, 2012, 395 p.

14. Basar T., Olsder G. J. Dynamic noncooperative game theory. London, Academic Press, 1995, 535 p.

15. Jorgensen S., Yeung D. W. K. Inter- and intergenerational renewable resource extraction. Annals of Operations Research, 1999, vol. 88, issue 0, pp. 275-289.

For citation: Petrosian O. L. Looking forward approach in cooperative differential games with infinite-horizon. Vestnik of Saint Petersburg University. Series 10. Applied mathematics. Computer science. Control processes, 2016, issue 4, pp. 18-30. DOI: 10.21638/11701/spbu10.2016.402

Статья рекомендована к печати проф. Л. А. Петросяном. Статья поступила в редакцию 7 мая 2016 г. Статья принята к печати 29 сентября 2016 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.