УДК 517.977.8 + 519.83 ББК 22.18
УСТОЙЧИВАЯ КООПЕРАЦИЯ В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ СО СЛУЧАЙНОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ1
Шевкопляс Е.В.2
(Санкт-Петербургский государственный университет, Факультет прикладной математики - процессов управления, Санкт-Петербург)
Работа посвящена изучению проблемы динамической устойчивости кооперативных решений, впервые сформулированной Петросяном Л.А. в 1977 г. для дифференциальных игр с предписанной продолжительностью. В данной работе рассматривается модификация дифференциальной игры с предписанной продолжительностью, а именно, предполагается, что игра заканчивается в некоторый случайный момент времени. Кроме того, в качестве кооперативного решения используется вектор Шепли. Для такой постановки задачи сформулировано понятие процедуры распределения дележа, и получена аналитическая формула для проверки динамической устойчивости вектора Шепли. Также в работе изучается условие защиты от иррационального поведения участников (условие Д.Янга, 2006) и предложен механизм проверки выполнения этого свойства, основанный на процедуре распределения дележа. Теоретические результаты демонстрируются на примере дифференциальной игры разработки невозобновляемых ресурсов.
Ключевые слова: динамическая устойчивость, устойчивая кооперация, защита от иррационального поведения, разработка невоз-
1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. -2010. - Т. 2. № 3. -С. 79-105».
2 Шевкопляс Екатерина Васильева, кандидат физикоматематических наук ([email protected]).
обновляемых ресурсов, дифференциальная игра со случайной продолжительностью.
Введение
Исследование в данном направлении было начато в 1998 г. под руководством Л.А. Петросяна, которым была сформулирована тема работы - «Кооперативные дифференциальные игры со случайной продолжительностью». Л.А. Петросян предложил изучить проблему динамической устойчивости принципов оптимальности, сформулированную им в конце 1970-х годов для дифференциальных игр с предписанной продолжительностью (см. [2], [1]), для нового класса дифференциальных игр, а именно дифференциальных игр со случайной продолжительностью. В 1966 году в работе [4] изучалась антагонистическая игра преследования двух лиц с терминальными выигрышами в последний момент времени, который являлся случайной величиной с известной функцией распределения. Л. А. Петросян предложил автору рассмотреть общую постановку дифференциальной игры, заканчивающейся в случайный момент времени. Кроме того, выигрыши игроков в новой задаче предполагались интегральными.
Данное исследование переросло в диплом, а затем в кандидатскую диссертацию. Кроме проблемы динамической устойчивости, изученной в работе [5], было выведено уравнение типа Беллмана, позволяющее находить управления с обратной связью для задачи со случайной продолжительностью [6].
В данной работе собраны, переработаны и дополнены материалы, касающиеся проблемы устойчивой кооперации в дифференциальных играх со случайной продолжительностью.
В разделе 2 дается определение игры. В разделе 3 на примере вектора Шепли формулируется проблема динамической устойчивости принципов оптимальности для дифференциальных игр со случайной продолжительностью. В разделе 4 формулируется условие защиты от иррационального поведения участников. В разделе 5 приводится пример дифференциальной игры разработки невозобновляемых ресурсов, причем момент окончания игры
163
является случайной величиной, распределенной по закону Вей-булла.
1. Модель игры
В исследованиях в области дифференциальных игр, как правило, изучаются дифференциальные игры с предписанной продолжительностью. Это означает, что игра развивается во времени на фиксированном временном промежутке [to, T], причем момент окончания игры T известен заранее.
В данной работе изучается модификация дифференциальной игры n лиц с предписанной продолжительностью, а именно, предполагается, что игра развивается на промежутке [t0, T], где T — случайная величина с известной функцией распределения F(t), t £ [t0, то) [4], [5]. Таким образом, постановка дифференциальной игры со случайной продолжительностью является обобщением постановки дифференциальной игры с предписанной продолжительностью [2].
Итак, рассмотрим дифференциальную игру n лиц r(x0,t0) со случайной продолжительностью (T — t0) и начальным состоянием Х0 [5]. Динамика игры задается системой обыкновенных дифференциальных уравнений:
(1) x = g(x, «i,..., un), x £ Rm, ui £ U С comp R1,
x(t0) = X0.
Предполагаем, что вектор-функция g(x, u1,..., un) непрерывна на Rm x Ui x .. .x Un, удовлетворяет условию Липшица по x и существует Л > 0, такое что ||g(x,u1,..., un)|| ^ А(1 + ||x||) для всех x £ Rm, ui £ U [2].
Игра начинается в момент t0 из состояния x0, однако, момент ее окончания не фиксирован заранее, а является реализацией некоторой случайной величины T. Будем полагать, что для случайной величины T задана функция распределения F(t), которая
определена при £ е [£0, то) и удовлетворяет условию нормировки:
СО
У ^ (£) = 1.
*0
Кроме того, далее будем предполагать существование функции плотности / (£) = ^;(£) для случайной величины Т.
Функция «мгновенного» выигрыша игрока г в момент времени т, т е [£о, ^) зависит от времени т и фазовой переменной ж(£0,ж0, м(-)), где «(•) = {«!(•),... ,«п(-)} — п-набор допустимых программных управлений игроков. Под допустимыми программными управлениями понимаются измеримые по Лебегу программные управления «*(•) : £ ^ иг(£) е Я1, такие что Мг(£) е и. Для краткости обозначим мгновенную функцию выигрыша как Лг(т, ж(т), и(т)).
Предполагается, что Л являются непрерывными функциями на Ят. Тогда ожидаемый интегральный выигрыш игрока г имеет вид:
(2) Кг(ж0, £0, и1, . . . , ип) —
/*<О Г /*£
/ / Лг(т,ж(т),и(т))^т /(£)^£, г = 1,...,п.
./*0 1-"/*0
Известно, что по теореме Фубини-Тонелли о перестановке интегралов при требовании неотрицательности функций Лг(т, ж(т), и(т)), функционалы вида (2) в форме повторных интегралов могут быть сведены к функционалам, имеющим стандартный для динамического программирования вид. Если же нельзя гарантировать неотрицательность функции мгновенного выигрыша Л, но при этом выполнено условие абсолютной сходимости кратного интеграла
11 |/(£)Лг(т,ж(т),и(т))|^т < +то,
Л -/[0,+о) х [0,+о)
то все равно можно использовать теорему Фубини-Тонелли и также изменить порядок интегрирования [6].
Тогда имеем:
(3) Кг(жо,£о,«Ъ . . . ,«п) =
*п )
' ^і(г, ж(т),и(т))^Т 1_^о
Г ОО
/ (^ =
= I (1 - Р(т))^(т,ж(т),и(т))^Т. ■По
При развитии игры во времени в некоторый промежуточный момент $, $ е (^о; то), игроки попадают в подыгру Г(ж($)) с начальным состоянием ж($) = ж. Очевидно, что игра может и закончиться до момента $ с вероятностью Р ($), а вероятность продолжить игру после момента $ равна (1 — Р ($)). Тогда под выигрышем в подыгре Г(ж($)) будем понимать условное математическое ожидание выигрыша, а именно:
(4) К;(ж,$,иЬ. . . ,«п) =
1 Г™
1 — Р ($) / (1 — Р (т))^(т,ж(т),и(т))^т.
2. Проблема динамической устойчивости кооперативных решений
2.1. КООПЕРАТИВНАЯ ИГРА
Рассмотрим кооперативную форму игры Г(ж0, £0). Перед началом игры игроки договариваются об использовании ими таких допустимых программных управлений, которые будут максимизировать совокупный ожидаемый выигрыш игроков:
П
(5) шах У''Кг(жо^о,М1,... ,«п) =
и\,...,ип '
г=1
п г ™
= шах } / (1 — Р(т))^(т,ж(т),«(т))^т.
и1>...’и" *о
Управления (^),..., «П(£)}, доставляющие максимум (5), бу-
дем называть оптимальными, а траекторию ж*(£), соответствующую оптимальным управлениям, - условно-оптимальной. Дальнейшее изложение предполагает, что условно-оптимальная траектория единственна.
166
СО
Важным вопросом, который решается в кооперативной теории игр, является вопрос о выборе конкретного принципа оптимальности как справедливого способа раздела заработанного совместными усилиями выигрыша. Однако мы не будем останавливаться на данном аспекте и для определенности далее будем полагать, что игроки договорились использовать вектор Шепли для раздела суммы (5):
(6) 5^ = V (п — 5)1(5 —1)! [у(жо,*о, 5) — Цжо,*о, 5\{*})],*=Т7П.
п!
iES
Характеристической функцией V(ж0,Ь0,5), 5СЖ, N| = п, в игре Г(ж0,Ь0) будем называть функцию множества, удовлетворяющую условиям:
(7) V (жо,Ьо, 0) = 0,
V(жо, Ьо, 5^52)^(жо, Ьо, ^1) + V(жо, Ьо, £2),
V 51,52 С N 51 П 52 = 0, где V(жо, Ь0, 5) интерпретируется как максимальное значение математического ожидания выигрыша, которое может обеспечить себе коалиция 5 в игре Г(ж0,Ь0), действуя самостоятельно. Следовательно, V(ж0, Ьо, N) определяется по формуле (5).
Аналогичным образом определяется характеристическая функция в подыгре Г(ж*, Ь), начинающейся в момент времени Ь из состояния ж*. Отметим, что под характеристической функцией в подыгре понимается максимальное значение условного математического ожидания выигрыша, где условием является «дожитие» до момента Ь. Следовательно, V(ж*,Ь, N) определяется как
п
ша^ Кг(ж*,Ь,«1, . . . ,«п). и г=1
Не будем подробно останавливаться на способе построения характеристической функции V(ж0,Ь0,5) в дифференциальных играх со случайной продолжительностью. Данный вопрос был подробно исследован в работе [10]. Характеристическая функция может быть построена как стандартным способом — с использованием значения вспомогательной антагонистической игры Г^ N\5, так и каким-либо другим образом при условии проверки выполнения свойства супераддитивности (7). В работе [9] предлагается
следующий алгоритм построения характеристической функции V(x0,t0, S) в дифференциальных играх: коалиция S максимизирует свой выигрыш, а остальные игроки, не входящие в S, используют равновесные по Нэшу стратегии.
Итак, предположим, что игроки в начальный момент to договорились использовать оптимальные управления (u|,..., u^}, чтобы получить ожидаемый выигрыш (5), а затем разделить его согласно принципу оптимальности (вектору Шепли). Тогда, как и в любой дифференциальной игре, возникает вопрос о реализуемости вектора Шепли во времени или проблема динамической устойчивости выбранного игроками принципа оптимальности [2], [1].
2.2. ДИНАМИЧЕСКАЯ УСТОЙЧИВОСТЬ ВЕКТОРА ШЕПЛИ
Развитию игры во времени соответствует движение вдоль условно-оптимальной траектории x*(t), на которой по определению игроки получают наибольший ожидаемый дележ. Однако движение вдоль оптимальной траектории еще не обеспечивает сохранение кооперации. Действительно, при движении вдоль x*(t) игроки попадают в подыгры с текущими начальными состояниями, в которых один и тот же игрок имеет различные возможности. Следовательно, в некоторый момент $ может возникнуть ситуация, когда решение текущей игры Г(ж*($), $) будет неоптимальным в смысле первоначально выбранного принципа оптимальности (в нашем случае — вектора Шепли). Тогда перед игроками встанет вопрос о целесообразности придерживаться далее намеченного перед началом игры соглашения действовать «совместно оптимально». Последнее будет означать динамическую неустойчивость вектора Шепли и, соответственно, самого движения по траектории x*(t).
Определение 1. Рассмотрим вектор-функцию e(t) =
($(£) ^ 0}г=1,...,n, такую что компоненты вектора Шепли Sh = (Shi}i=1,...,Tl в игре r(x0,t0) представимы в виде
Г О
(8) Shi = / (1 — F (t))e^(t)dt, i = 1,...,n.
Jt 0
1б8
Вектор-функцию в(£) = {А(£)} будем называть процедурой распределения дележа (ПРД).
Определение ПРД для игр с фиксированной продолжительностью было введено в работе [1]. В нашей постановке ПРД определяет правило, по которому компоненты ожидаемого дележа распределяются во времени [£0, то). Отметим, что позднее в работах Петросяна Л.А. требование неотрицательности компонент вг(£),
V £ ^ £0, было отменено (см., например, [9], [3]), однако в данной работе будем придерживаться изначальной формулировки.
Определение 2. Будем называть вектор Шепли {£/»} динамически устойчивым вектором Шепли, если существует такая ПРД {вг(£) ^ 0}, £ е [£0, то), что вектор 5/$ = {£/$}, V$ е [£0, то), вычисленный по формуле
1 /*О
(9) 57^ = (—у (1 - ^(£))вг(£)^ г = ^ ..., п
также является вектором Шепли в соответствующей подыгре Г(ж*($),$), $ е [£0, то).
Определение 2 означает, что при распределении дележа {£/»} во времени при помощи выплат согласно ПРД {вг(т)}, в каждый текущий момент времени $, $ е [£0, то), ожидаемый дележ {5 / } в оставшейся подыгре Г(ж*($),$) также является вектором Шепли. Таким образом, игроки не имеют оснований для нарушения соглашения о кооперации, заключенного перед началом игры. Последнее означает динамическую устойчивость или, согласно терминологии в англоязычной литературе, временную состоятельность выбранного принципа оптимальности (вектора Шепли).
Принимая во внимание (9), заметим, что динамически устойчивый вектор Шепли {5 /^} в игре Г(ж0, £0) может быть представлен в следующем виде:
Г $
(10) 57^=/ (1-Я1(т))вг(ТМт+(1-Р($))£/Д V$е [£0,то),г = 1,п.
■По
Первое слагаемое в (10) соответствует сумме, которую игрок получит при движении вдоль условно-оптимальной траектории ж*(£) при £ е [£0,$]. Второе слагаемое является математическим
ожиданием выигрыша в подыгре Г(ж* ($),$) при условии, что игра не закончилась до момента $.
Дифференцируя (10) по $, получаем аналитическую формулу для вычисления ПРД:
(11) вг(^)=(Х - ^)) Sfc/-(Sh/)', $ е [to, то), i = 1, . . . ,П.
Очевидно, что в игре Г(ж0,£0) мы всегда можем распределить во времени вектор Шепли {Shi}, используя формулу для выплат (11). Однако в общем случае нельзя гарантировать неотрицательности компонент $($), V$ е [to, то). Следовательно, в рамках Определения 2 вектор Шепли не является динамически устойчивым в общем случае. Алгоритм проверки динамической устойчивости вектора Шепли является следующим: вычислить компоненты ПРД по формуле (11) и проверить выполнение условия {$($) ^ 0}, V$ е [to, то). Если неотрицательность выполнена, то вектор Шепли {Shi}, распределенный во времени в игре r(xo,to) согласно (11), является динамически устойчивым.
В противном случае вектор Шепли не является динамически устойчивым принципом оптимальности. Тогда, при выполнении свойства неотрицательности функции мгновенного выигрыша hi(r,ж(т),и(т)) ^ 0, i = 1, ...,n, для получения нового динамически устойчивого (регуляризованного) принципа оптимальности на основе первоначально выбранного игроками динамически неустойчивого принципа оптимальности, может быть использована новая процедура распределения дележа, а именно:
П
Shf ^ hi($, ж*($),и*($))
(12) в($> = —— ■ $е [to-то)-
На основе ei($) ^, 0 i = 1,..., n, можно сформировать так называемый регуляризованный вектор Шепли по формуле (8), который будет удовлетворять условию (10) (см. [5]).
2.3. ФОРМУЛА ДЛЯ ВЫЧИСЛЕНИЯ ПРД
Заметим, что множитель 1—(функция плотности для случайного момента окончания игры T при условии, что игра не 170
закончилась до момента $), появившийся в правой части уравнения (11), является стандартной для теории надежности функцией интенсивности отказов:
(13) Л(^ = (1 - ^(*))'
Тогда, учитывая обозначение (13), выражение для ПРД (11) может быть переписано в следующем виде:
(14) А(0) = Л(0)ЗЪ/-(57^)', <& е [*о, то), г = 1,...,п.
Кроме того, в данной терминологии (1-^($)) является функцией «дожития» до момента $, для которой справедлива формула:
1 - ^(0) = е- £ Л(*^
Тогда справедливо следующее представление для интегрального выигрыша игрока (3):
ГО
(15) / (1 - ^(т))^(т,ж(т),и(т))^Т =
■По
ГО
= / ^(т,ж(т ),и(т ))е-Л(т-*о)^т,
Лп
По
ГО
’ ,Ж(Т),и(
Но
а динамически устойчивый вектор Шепли (10) может быть представлен следующим образом:
/* $
(16) 57г* = вг(т )е-Л(т-*о)^т + е-Л(*-*о)£лД
Ло
Следовательно, задача со случайной продолжительностью является не только обобщением задачи с предписанной продолжительностью, но и обобщением задачи на бесконечном временном промежутке с дисконтированием мгновенных выигрышей игроков (подробнее см. [6]).
Очевидно, что последнее утверждение распространяется и на результаты относительно вычисления ПРД в играх с предписанной продолжительностью [1], [2] ив играх с дисконтированием с бесконечным временным горизонтом [9]. При f ($) = 0 (Л($) = 0) фактически рассматривается детерминированный случай, однако необходимо дополнительно требовать сходимость несобственных
интегралов, соответствующих интегральным выигрышам игроков. Тогда из (14) получаем следующее выражение для ПРД:
вг($) = -(£Л/)', г = 1,...,п,
которое было получено в работе [1].
Кроме того, функция интенсивности отказов Л(£) является константой тогда и только тогда, когда случайная величина Т распределена по экспоненциальному закону:
/(£) = Ле-Л(*-*о); ^(£) = 1 - е-Л(*-*о), V £ ^ £0;
/ (*)
= Л.
Тогда интегральный выигрыш (15) в точности совпадает с интегральным выигрышем для постановки задачи с бесконечным временным горизонтом и дисконтированием мгновенных выигрышей экспоненциальной функцией с дискаунт-фактором Л:
ГО
/ ^(т, ж(т),и(т))в-Л^(т-*о)^Т,
Ло
а формула для ПРД (14) в точности совпадает с формулой, полученной в работе [9]:
(17) £*(#) = Л5Ьг? - (£<)'.
Отметим, что этот результат был получен еще в работе [5].
3. Защита от иррационального поведения игроков
Проблема динамической устойчивости принципов оптимальности, которая была изучена выше на примере проблемы динамической устойчивости вектора Шепли, предполагал рациональное поведение всех участников дифференциальной игры. В этом случае, используя механизм ПРД, можно было добиться того, чтобы у рациональных участников не возникло мотивации нарушить соглашение о кооперации.
Однако в настоящее время в теории игр начало уделяться внимание и моделированию иррациональных поступков игроков. 172
Предположим, что в некоторый момент времени $ игрок иррационально нарушает соглашение о кооперации, что приводит к распаду большой коалиции N. Для определенности будем полагать, что изначально игроки договорились разделить заработанный совместными усилиями максимальный ожидаемый выигрыш согласно вектору Шепли. Распад коалиции будет означать, что вектор Шепли не реализуем во времени. Следовательно, требуется выполнение некоторого условия для защиты от иррационального поведения игроков. Это условие впервые было сформулировано в работе [11] для игр с предписанной продолжительностью.
Итак, для кооперативной дифференциальной игры со случайной продолжительностью условие защиты от иррационального поведения может быть сформулировано следующим образом:
(18) V(жо,£о, {г}) ^
г д
(-(т))вг(т)вт+(1-^($)^(ж*($),$, {г}), г = Т”й,0е [£ото).
■По
Условие (18) означает, что даже если в некоторый момент времени $ игрок (либо группа игроков) иррационально нарушил соглашение действовать совместно оптимально, то выбором ПРД можно гарантировать, что ожидаемый выигрыш игрока г во всей игре все равно будет не меньше, чем выигрыш в случае, если бы игрок с самого начала действовал самостоятельно и получил гарантированный выигрыш V(жо, £о, {г}).
Дифференцируя (18), при предположении дифференцируемости функции V(ж*($), $, {г}) по $, получаем условие на ПРД, обеспечивающее защиту от иррационального поведения:
в
(19) $(£) ^ Л(^(ж(£),£, {г}) - — V(ж(£),£, {г}), г = 1,... ,п,
где Л(£) определяется по формуле (13).
Очевидно, что для случая Л(£) = 0 мы фактически имеем полностью детерминированную задачу. Тогда при дополнительном требовании существования всех несобственных интегралов типа (15), из условия (19) имеем неравенства, полученные в работе [3] для дифференциальных игр с предписанной продолжи-
тельностью:
-
(20) $(£) ^ ^ (ж(£),£, {г}), г = 1, ...,п,
Отметим, что свойство динамической устойчивости принципа оптимальности никак не связано с выполнением условия защиты от иррационального поведения. В следующем разделе приведен пример, когда вектор Шепли является динамически устойчивым, но условие защиты от иррационального поведения не выполнено, и наоборот. Однако оба этих условия являются важными аспектами кооперации в динамических играх [3]. В том случае, когда ПРД удовлетворяет и уравнению (14), и неравенству (19), будем говорить, что вектор Шепли, распределенный во времени согласно ПРД (8), является устойчивым принципом кооперации.
В данной работе мы не затрагиваем такой аспект устойчивости кооперативного соглашения, как стратегическая поддержка (см. [3]). Однако отметим, что стратегическая поддержка в кооперативной дифференциальной игре со случайной продолжительностью, т.е. существование специально сконструированного равновесия по Нэшу, может быть конструктивно доказана для независимых движений игроков в (1).
Продолжим рассматривать полностью детерминированную задачу, т.е. пусть Л(£) = 0. В том случае, когда вектор Шепли является динамически устойчивым принципом оптимальности, т.е. существует {$(£) ^ 0}, такая что вг(£) = -(£^)', и при этом выполнено условие защиты от иррационального поведения (20), получаем следующее условие устойчивости:
-
(21) (^У < МУ г = 1,...,п.
Напомним, что классическое условие индивидуальной рациональности имеет вид:
(22) ^ V (ж*(*),*, {г}), г = 1,...,п.
Таким образом, условие (21) накладывает ограничения на первые производные для величин, присутствующих в неравенствах (22).
Теперь рассмотрим дифференциальную игру со случайной продолжительностью (Л(£) = 0). Тогда одновременное выполне-
ние условия динамической устойчивости вектора Шепли и защиты от иррационального поведения участников означает выполнение следующих неравенств:
d
(23) A(t)[Sh* - V(ж(£)Л {г})] ^ [(Shi)' - dtV(x(t),t {г})К
Vt G [to, то), г = 1,..., n.
Очевидно, что из (23) следует выполнение (21) при A(t) = 0. Таким образом, результат, полученный для игр со случайной продолжительностью, покрывает результат, полученный для детерминированных игр.
4. Пример
В качестве примера рассмотрим теоретико-игровую модель [7] разработки невозобновляемых ресурсов (в частности, нефти) симметричными игроками. Особо отметим, что спецификой добычи нефти, особенно на континентальном шельфе, является прямая зависимость убытков от аварийности данного предприятия. Аварии на скважинах приводят к простою производства во время замены и ремонта оборудования, а также к тяжелым экологическим последствиям, затраты на устранение которых часто приводят к колоссальным убыткам. В большинстве известных теоретико-игровых моделей, описывающих динамический процесс добычи нефти несколькими игроками, также как и в работе
[7] предполагается, что игра развивается на бесконечном промежутке времени с постоянным дисконтированием мгновенных выигрышей. В данной работе будем предполагать, что мгновенные выигрыши игроков не дисконтируются, но игра заканчивается в случайный момент времени T, распределенный по закону Вей-булла. Выбор распределения Вейбулла, как одного из основных распределений, описывающих жизненный цикл работы технических систем, подробно обоснован в работе [6].
Распределение Вейбулла имеет функцию интенсивности от-
казов следующего вида:
(24) Л(*) = Л5^-1;
£ ^ 0; Л > 0; 5 > 0.
Здесь Л и 5 - параметры, определяющие данное распределение. Л - это параметр масштаба, а параметр формы 5 соответствует одной из трех фаз, в которой может находиться система. Значение 5 < 1 соответствует «новорожденному» сценарию игры (период приработки). Здесь функция интенсивности отказов Л(£) является убывающей функцией. При 5 = 1 система находится в режиме нормальной эксплуатации, Л(£) равна константе Л. Отметим, что при 5 = 1 распределение Вейбулла соответствует экспоненциальному распределению. При 5 > 1 система находится в состоянии износа, Л(£) является возрастающей функцией.
Итак, согласно модели [7], в игре участвуют п игроков -фирмы или страны, которые разрабатывают некоторый невозобновляемый природный ресурс, например, нефть. Множество всех игроков обозначим как N = {1, 2,..., п}. Пусть ж(£) — это поток невозобновляемого ресурса. Управлениями игроков являются темпы разработки ресурса, которые обозначим как {иг(£)}. Динамика изменений потока ресурса ж(£) описывается следующим дифференциальным уравнением:
П
(25) ж(£) = - ^ Мг(£); ^ 0, ж(£0) = ж0, ж0 > 0.
г=1
Ожидаемый выигрыш (2) игрока г, г = 1, . . . , п, при условии, что момент окончания игры описывается законом Вейбулла, принимает вид:
Г6
(26) Кг(ж0, £0, и1, . . . , ип) = / Лг(£, ж(£), и(£))е-Л*-£.
0
В данном примере каждый игрок г имеет функцию полезности Лг(£,ж,и) (функцию мгновенного выигрыша) в виде = Л(иг), определенную для всех > 0, которая зависит от маргинальной полезности п:
(27) Л(иг) = А 1п(Иг) + В, п = 1;
1-п
(28) Л(и) = А + В, п = 1.
176
При иг = 0 по определению полагаем Л(иг) = 0. Не умаляя общности, далее будем считать, что А = 1, В = 0. Кроме того, положим £0 = 0.
Тогда общий ожидаемый выигрыш игроков вычисляется по формуле
П Г СО П
(29) У'Кг(ж0,£0,«1, ... ,Ип) = / У^Л(иг)е-Л*6^.
г=1 70 г=1
Очевидно, что в данной модели рассматриваются только симметричные игроки, поэтому положим и = и = и.
Задача максимизации общего ожидаемого выигрыша (29) при условии (25) может быть решена при помощи уравнения типа Беллмана, выведенного в работе [6]:
(30) Л(£)Ш (ж,£) = дЩМ+
(7 / \ дШ(ж,£) , Л
+ шах I 2_^ Лг(ж, и, £) +- ----д(ж, и) I .
Кроме того, это уравнение будет использоваться и для вычисления значений характеристической функции V(ж, £, 5). Подробное построение характеристической функции описано в работе [10].
4.1. ЛОГАРИФМИЧЕСКАЯ ФУНКЦИЯ ПОЛЕЗНОСТИ
Рассмотрим функцию полезности вида Л(иг) = 1п(иг). Будем искать функцию Беллмана в виде Ш(ж, £) = А(£)1пж + В(£), Нш Ш(ж,£) = 0. Тогда частные производные Ш(ж,£) вычисля-
t^•Ю
ются по формуле
(31) ™ = = А(,)1п(*)+в(«.
Учитывая (31), из условия максимизации правой части уравнения (30) следует, что оптимальные управления имеют вид и = .
Применяя метод неопределенных коэффициентов в уравнении (30), получаем следующую систему уравнений для коэффициентов А(£), В(£):
А(£) - Л(£)А(£) + п = 0;
В(£) - Л(£)В(£) - п1п(А(£)) - п = 0, и краевыми ограничениями
Иш А(£) = 0, Нш В(£) = 0.
t^•Ю t^•Ю
Окончательно, получаем следующие оптимальные управления для задачи разработки невозобновляемых ресурсов со случайной продолжительностью:
ж • е-Л(^
*
(32) и п/~ е-ЛМ^’
где Л(£) удовлетворяет (24). Тогда при 5 = 1, соответствующем экспоненциальному распределению момента окончания игры, фактически рассматривается уже изученная модель с дисконтированными выигрышами на бесконечном временном промежутке [7]. Непосредственно из (32) следует, что при 5 = 1 оптимальными стратегиями игроков являются
Л
и,- = и =— ж, г = 1,...,п.
г п
Тогда оптимальные управления и траектория вычисляются по формуле
ж*(£) = ж0 ■ e-Лt; и*(£) = —ж0 ■ е-Л.
Этот результат совпадает с результатом, полученным в работе Докнера и др.[7] для случая дисконтированных выигрышей на бесконечном временном промежутке для единичной эластичности маргинальной полезности игроков, причем выполнено следующее условие:
Иш ж(£) = 0.
t^•Ю
Отметим, что траектория ж*(£) удовлетворяет условию устойчивости по Ляпунову.
Значению характеристической функции V(ж*($), $, N) соответствует значение функции Беллмана Ш(ж*($), $):
V (ж*(#), N ) = Ш (*•($), $) = п 1п(ж*) - п - пМп» + ^) =
Л Л Л Л
пл , , , ^ п п 1п(п) п 1п(Л)
= Л 1п(ж0) - п($) - Л---------+ ——^.
Положим $ = 0. Тогда
ч п, , ч п п 1п(п) п 1п(Л) (33) V(ж0,0, N) = Ш(ж0,0) = л 1п(ж0) - —----------------л-1----Л—.
Далее, для 5 = 2, которое соответствует распределению Рэлея для стареющей системы, из (32) получаем
_2Л^
* ж■е 2Л и,- =
п/~ е-2Л^2 ^
Тогда оптимальный способ поведения при разработке ресурса должен определяться согласно следующей формуле
* 2^2^— ■ е-2Л^ 2^2^— ■ e-2Лt2
и,- =--------------— ж =--------------------------=— ж,
п(1 - ег£^л/2—£)) п(1 - 2Ф0(2\/—£))
где егОД = /о е-^2 ^, Ф0(£) - интегральная функция Лапла-
са.
Для периода приработки (раннего периода) возьмем 5 = 2. Тогда из уравнения (32) получаем
_Л ^/2
ж ■ е 2 ь
Следовательно, получаем оптимальные стратегии в управлениях с обратной связью:
Л2
и,- =-------------------------------------------=-ж.
4п(Л\/£ + 2)
иг
Таким образом, для модели разработки невозобновляемых ресурсов удалось получить оптимальные решения для всех трех сценариев игры. Графическое изображение и* (х, £) при фиксированном параметре масштаба Л = 1 и параметрах формы 5 = 1/2; 1; 2 приведено на рис.1.
Рис. 1. Оптимальная скорость разработки и* для трех сценариев игры
Интересно, что в рамках нашей модели мы получили, что оптимальное поведение игроков коренным образом отличается для различных сценариев игры. Для фазы приработки, т.е. когда оборудование и общая координация еще не налажены, скорость разработки должна быть наименьшей, что соответствует осторожности игроков. В режиме нормальной эксплуатации игроки должны «копать» с постоянной скоростью. В режиме износа оборудования (впрочем, это также касается и «износа» не только технических элементов), когда функция интенсивности отказов возрастает, необходимо увеличить темпы разработки месторождений.
Кроме того, было численно проанализировано поведение условно - оптимальных траекторий для всех трех фаз игры. Качественное различие убывания невозобновляемых ресурсов представлено на Рис. 2 и Рис. 3.
180
I--6 = 1 — • — в=71
Рис. 2. Оптимальная траектория х*^) для режима нормальной эксплуатации и фазы износа
I--6=05 -- 6=||
Рис. 3. Оптимальная траектория х*^) для фазы приработки и режима нормальной эксплуатации
Заметим, что быстрее всего убывает ресурс при 5 = 2, что соответствует интенсивным разработкам в состоянии износа. Медленнее всего убывает ресурс при 5 = 1/2, что соответствуем осторожным действиям игроков в состоянии приработки.
П
Далее, заменив ^ Ъ в уравнении (30) на Ъ^, можно найти
г=1
равновесные по Нэшу управления {и”с} в классе управлений с обратной связью, линейных по фазовой переменной (см. [10]). В данной работе не обсуждается вопрос существования и единственности решения уравнения (30). Проводя аналогичные вычисления, получаем
е—А(Ь)Ь
(34) и™с = -----------х, г = 1,...,п
/ в—А(з)зйв г
Далее в данном разделе во избежание излишнего нагромождения формул будут представлены результаты только для режима нормальной эксплуатации месторождения, т.е. для 5 = 1.
Итак, при 5 = 1 выполнено А(£) = Л. Получаем управления, равновесные по Нэшу, а также соответствующие им траекторию и значение характеристической функции.
(35) и™с = Ах, г = 1,...,п;
жгас(;£) = ж* (§)е—пА(г—&); ипс (*) = Аж*(§)е—гаА(г—^;
(36) V (ж*(§),§, {г}) = иужчед = п + 1пЛЛ>. Положим § = 0. Тогда
(37) V(Х0,0, {,}) = »;(жо, 0)=1^М - п +1пЛЛ).
Для построения характеристической функции V(ж, £, 5), 5 С N, используем подход, предложенный в работе [9]. Будем предполагать, что если в игроков объединяются в коалицию Б, то оставшиеся игроки N \ Б не образуют антикоалицию с целью минимизации совместного выигрыша игроков из Б, а используют равновесные по Нэшу стратегии и™с, ] € N \ Б. Тогда, применяя полученный выше результат (35) для равновесия по Нэшу, и
П
используя в уравнении (30) ^ Нг вместо ^ Нг, получаем следу-
ies г=1
ющие результаты [10]. Кооперативная траектория, управления и
характеристическая функция имеют следующий вид:
xs (£) = х*(§)е—(п—■5+1)А(г—^; и/(£) = Лх*(§)е—(п—5+1)А(г—^), г € Б;
и/ (£) = и™с (£), г € N \ Б,
V(х*(§), §, Б) = ^(х*(§), §) = в, , в к(п - в) в, . . в 1п(А)
= Л 1п(х*(§)) - Л - 1 А ; - Л 1п(в) + —^.
Положим § = 0. Тогда
(38) V(хо, 0, Б) = ^(хо, 0) =
в , . . в в(п - в) в , . . в 1п(А)
= а 1п<хо>- а--------------А-----А 1п(в) + -X-.
Таким образом, мы построили характеристическую функцию
Цхо,0,Б)
Б С N (см. (33),(38)), используя подход, описанный в работе [9]. Справедливо следующее утверждение.
Утверждение 1. Пусть функция V(х0, 0, Б), Б С N опре-
деляется по формулам (33), (38). Тогда V(х0,0, Б) удовлетворяет свойству супераддитивности (7).
Для доказательства этого утверждения будем использовать следующую лемму.
Лемма 1. Пусть в1 ^ 1, в2 ^ 1. Тогда
(39) в1 1п(в1) + в2 1п(в2) + 2в1в2 ^ (в1 + в2) 1п(в1 + в2). Данная лемма доказывается стандартными методами математического анализа. Нетрудно проверить, что левая часть неравенства растет быстрее, чем правая.
Доказательство Утверждения 1 непосредственно следует из Леммы 1 [10].
Используя построенную характеристическую функцию, получаем значение вектора Шепли в подыгре Г(х*(£), £) и всей игре
Г(жо,£о):
(40) ЭДж*(£))
V (ж*(і),і,#) іп(ж*(і)) 1
п Л Л
іп(п) іп(Л) іп(жо) ,, , х 1 іп(п) іп(Л)
"X" + ~Х = ~Х~ — ((— (о) — А —X + ~Х'
V (жо, 0,Ж) іп(жо) 1 іп(п) іп(Л)
Ь^і(ж0) = ------ ----- = т--------т-------т----1 т—
Вычислим значения ПРД по формуле (14), которая для случая 5 = 1 в точности совпадает с формулой (17). Получаем
Справедливо следующее утверждение.
Утверждение 2. Вектор Шепли {£Лг(жо)} (40) не является динамически устойчивым принципом оптимальности. Доказательство Утверждения 2 основано на Определении 2. Очевидно, что в (41) нельзя гарантировать неотрицательность компонент ПРД.
Отметим, что, поскольку Л = 1пиі не является неотрицательной функцией, мы не можем воспользоваться регуляризацией вектора Шепли (12).
Проверим выполнение условия защиты от иррационального поведения участников (18), используя неравенство для ПРД (19). В данном примере с логарифмической функцией мгновенного выигрыша для параметра 5 = 1, получено значение характеристической функции V(ж*($),$, {і}) (36). Справедливо следующее утверждение.
Утверждение 3. Для ПРД (41) и характеристической функции V(ж*($), $, {і}) (36) выполнено условие защиты от иррационального поведения (19).
Утверждение 3 доказывается непосредственной проверкой неравенства (19) при Л (і) = Л.
Таким образом, в данном примере с логарифмической функцией полезности было показано, что при экспоненциальном распределении момента окончания игры (5 = 1, Л (і) = Л) вектор Шепли не является динамически устойчивым принципом оп-
п
(41)
вг (#) = іп(жо) — Л$ + іп(Л) — іп(п).
тимальности, а условие защиты от иррационального поведения участников выполнено.
4.2. ИЗОЭЛАСТИЧНАЯ ФУНКЦИЯ ПОЛЕЗНОСТИ
Рассмотрим тот же самый пример игры, только с изоэластич-ной функцией полезности Лг, т.е.
1—п
Л(«г) = У-, П = 1.
1 — п
Все вычисления проводятся аналогично тому, как это было сделано в разделе 5.1 для логарифмической функции полезности. Главным отличием является вид функции Беллмана, которая ищется как Ш(ж,£) = А(£)ж1—'п + В(£) [10]. Получаем оптимальную скорость разработки ресурсов для произвольной функции интенсивности отказов А(£) (см. [8]):
Л(Ь)Ь
* е п
Л(з)й
п / е ^
Тогда для экспоненциального распределения для случайной величины Т, которому соответствует А(£) = А, имеем:
А
и = — ж, г = 1,..., п.
Пп
Следовательно, оптимальная траектория и оптимальные управления вычисляются согласно следующим формулам:
_ЛЬ
ж*(£) = Жо е П ;
*,.ч Жо А — Л
ш = -------е п .
^ пп
Отметим, что траектория ж*(£) удовлетворяет условию устойчивости по Ляпунову.
=
Далее получаем выражение для характеристической функции для максимальной коалиции N:
(42) V (ж*($), $, N) = (Пт) П-^- ж*($)1-п =
V Л / 1 — п
(пп\п 1 1-п _Л(1-п)^
= ------жп 'в п .
V Л / 1 — П 0 Для равновесия по Нэшу имеем следующие результаты:
Лж
(43) «•“ = (1—П+ПП) • 1 = 1'--"п;
ЖгаСС0 = ж*(0) в- (1-П+пп)(*"^;
и”С(^) = Лх*(^) в- (1-^+пп) (*-^
“г (Г) = (1-га+гап) в ( + п) .
Очевидно, что требование неотрицательности скорости разработки иПс ^ 0 выполнено только при п > (1 — 1/п). В противном случае равновесия по Нэшу не существует.
Итак, вычисляем значение характеристической функции У(ж*(#),0, {1}):
(44) V(ж*(0),0, {1})= Г(Г — П + ПП) Ут^-ж*($)1-п =
V Л / 1 — п
(1 — п + пп) )П 1 1-п -Л(1-п) 0
Л у 1 — пжо в п .
Описанным в предыдущем разделе способом, получаем выражение для характеристической функции V(ж*($), $, Б), 5 С N.
с = Л(1 — 5 + ^)ж * Б.
г 5^(1 — п + пп) • ;
(^) = ЦГ^), * е N \ 5,
V(ж*^^ ()” 1—Пж(,)1-п;
Справедливо следующее утверждение.
Утверждение 4. Пусть функция V(ж0, 0,5), Б С N определяется по формулам (42), (45). Тогда V(ж0,0, Б) удовлетворяет свойству супераддитивности (7).
Доказательство Утверждения 4 основано на следующей лемме.
186
Лемма 2. Пусть 51 > 1,52 > 1, П £ (0,1). Тогда
(46) __________(51 + 52)П_________ >
( ) (1 — (51 + 52) + (51 + 52)П)П >
еп еп
______51________|_____________52_
(1 — 51 + 5^)” (1 — 52 + 52п)п .
Нетрудно проверить, что левая часть неравенства растет быстрее, чем правая.
Окончательно получаем следующее выражение для вектора Шепли:
(47) 5Л,(ж(0) = 1-5 (^М.)1-” (Л)-”;
(48) 5Л,(жо) = 5-5 (Х0(Л)-”.
Вычислим ПРД согласно (17). Тогда
(49) До) = Л( пп)” ж^-” в-т .
Следующие утверждения доказываются аналогично тому, как это было сделано выше в разделе для логарифмической функции полезности. Однако результат проверки динамической устойчивости и условия защиты от иррационального поведения оказывается противоположным предыдущему.
Утверждение 5. Вектор Шепли {БЛ,г(ж0)} (47) является динамически устойчивым принципом оптимальности при маргинальной полезности п £ (0; 1).
Доказательство Утверждения 5 основано на Определении 2. Очевидно, что в (49) можно гарантировать неотрицательность компонент ПРД при п £ (0; 1).
Утверждение 6. Для ПРД (49) и характеристической функ-
ции V(ж*($), $, {*}) (44) не выполнено условие защиты от иррационального поведения (19).
Утверждение 6 доказывается непосредственной проверкой неравенства (19) при Л(£) = Л.
Таким образом, в данном примере с изоэластичной функцией полезности было показано, что при экспоненциальном распределении момента окончания игры (5 = 1, Л(£) = Л) вектор
187
Шепли является динамически устойчивым принципом оптимальности при маргинальной полезности п £ (0; 1), а условие защиты от иррационального поведения участников не выполнено.
Следовательно, согласно результатам разделов 5.1, 5.2, построенный вектор Шепли не является устойчивым кооперативным соглашением ни для случая логарифмической функции полезности, ни для случая изоэластичной функции полезности игроков. При этом в обоих случаях условно-оптимальная траектория игры удовлетворяет условию устойчивости по Ляпунову.
Литература
1. ПЕТРОСЯН Л.А. Сильно динамически устойчивые принципы оптимальности // Вестн. С.-Петербург. ун-та. Сер.
1. - 1993. - Вып. 4, № 22. - С. 35-40.
2. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.А. Устойчивые решения неантагонистических дифференциальных игр с транзитивными выигрышами // Вестник ЛГУ. - 1979. - № 1. - C. 46-54.
3. ПЕТРОСЯН Л.А., ЗЕНКЕВИЧ Н.А. Принципы устойчивой кооперации // Математическая теория игр и ее приложения. - 2009. - Т. 1, Вып. 1. - С. 102-117.
4. ПЕТРОСЯН Л.А., МУРЗОВ Н.В. Теоретико-игровые проблемы в механике // Литовский математический сборник.
- 1966. - VI-3. - С. 423-433.
5. ПЕТРОСЯН Л.А., ШЕВКОПЛЯС Е.В. Кооперативные дифференциальные игры со случайной продолжительностью // Вестник СПбГУ. - 2000. - Сер. 1, Вып. 4. - С. 18-23.
6. ШЕВКОПЛЯС Е.В. Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью // Математическая теория игр и ее приложения. - 2009. - Т. 1, Вып. 2. - С. 98-118.
7. DOCKNER E.J., JORGENSEN S., N. VAN LONG AND SORGER G. Differential games in economics and management science. - Cambridge University Press, 2000.
8. MARIN-SOLANO J., SHEVKOPLYAS E.V. Non-constant discounting in differential games with random duration // Contributions to Game Theory and Management, collected papers of the Third International Conference «Game Theory and Management 2009». St. Petersburg. - 2010. - P. 267-280.
9. PETROSYAN L. A., ZACCOUR G. Time-consistent Shapley value allocation of pollution cost reduction. // Journal of Economic Dynamics and Control. - 2003. - Vol. 27. - P. 381-398.
10. SHEVKOPLYAS E.V. The Shapley value in cooperative differential games with random duration // Advances in Dynamic Games. 2011. V. 11. part 4. Edt. by M.Breton and K. Szajowski, Springer’s imprint Birkhauser. Boston. - P. 359373. URL: http://www.springerlink.com/content/978-0-8176-8088-6/#section=815141&page=1
11. YEUNG D.W.K. An irrational-behavior-proofness condition in cooperative differential games // Int. J. of Game Theory Rew. - 2007. - Vol. 9, № 1. - P. 256-273.
STABLE COOPERATION IN DIFFERENTIAL GAMES WITH RANDOM DURATION
Ekaterina Shevkoplyas, Faculty of Applied Mathematics and Control Processes, St.Petersburg State University, Saint-Petersburg, Cand.Sc. ([email protected]).
Abstract: The problem oftime-consistency ofcooperative solutions is investigated in the paper. This problem was stated by Petrosyan L.A. in 1977for differential games with a finite time horizon. In this paper a modification of the game with a finite time horizon is considered, namely, the random time horizon of the game is supposed. The Shapley value is used as an optimality principle under cooperative behavior of players. For this formulation the definition of the imputation distribution procedure (IDP) is given and the analytic formula for IDP is derived. Moreover, the irrational behavior proofness condition by D.W.K. Yeung (2006) is modified for the problem with random duration. The tool is based on using IDP. Theoretical results are illustrated by an example of the differential game of non-renewable resource extraction.
Keywords: time-consistency, stable cooperation, irrational behavior proofness, non-renewable resource extraction, differential game with random duration.
Статья представлена к публикации членом редакционной коллегии В. В. Мазаловым