Об одной дифференциальной игре, моделирующей разработку невозобновляемого ресурса

Костюнин Сергей Юрьевич; Палестини Арсен; Шевкопляс Екатерина Викторовна

УДК 517.977.8+517.977.5 Вестник СПбГУ. Сер. 10, 2013, вып. 3

С. Ю. Костюнин, А. Палестини, Е. В. Шевкопляс

ОБ ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ, МОДЕЛИРУЮЩЕЙ РАЗРАБОТКУ НЕВОЗОБНОВЛЯЕМОГО РЕСУРСА

Введение. В последнее время при исследовании математических моделей все чаще используется аппарат математической теории игр [1, 2]. При этом широкое распространение получили как детерминированные, так и стохастические модели. Среди последних можно выделить модели, в которых время окончания исследуемого процесса не определено заранее, а является реализацией случайной величины. Удобным инструментом для исследования таких моделей является аппарат дифференциальных игр со случайной продолжительностью [3, 4]. В данном классе дифференциальных игр элементы стохастики не затрагивают уравнения динамики, а относятся лишь к продолжительности игры. Для подобной игры предполагается заданной случайная величина T - момент окончания игры, для которой заранее известна функция распределения F(t),t G [to; ж). Некоторые результаты, касающиеся данного класса игр, получены в работах [5, 6].

Отметим, что процессы со случайным временем окончания изучаются и в неигровых моделях. Среди таких исследований следует отметить работы по оптимальному управлению, связанные со страхованием жизни [7], управлением скоропортящимися запасами (modelling of perishable inventories) [8], теорией ренты (annuity theory) [9].

К сожалению, при моделировании конфликтно-управляемых процессов со случайной продолжительностью не так много внимания уделяется моделям олигополии. Данная работа продолжает исследование, начатое в [10]. Ее цель - рассмотрение дифференциальных игр двух лиц, моделирующих совместную разработку невозобновляемого ресурса. Описывается случай, когда каждый игрок имеет собственный момент выхода из игры, который задается случайной величиной с известной функцией распределения. В момент выхода первого игрока из игры оставшийся игрок получает терминальную выплату. Предполагается, что он продолжает разработку ресурса. При этом терминальную выплату можно положить равной оптимальному доходу игрока, который определяется при решении соответствующей задачи оптимального управления.

В п. 1 описана дифференциальная игра совместной разработки невозобновляемого ресурса, определена структура ее ожидаемого выигрыша. В п. 2 содержатся основные теоретические результаты и приведен упрощенный вид функционала, который представляет собой ожидаемый выигрыш игрока. В конце п. 2 в формальном виде выводится уравнение Гамильтона-Якоби-Беллмана для данной игры. В п. 3 изучается модифицированная стандартная модель разработки ресурса [11], а именно, игра с линейной динамикой и логарифмической функцией полезности. В таком случае удается получить решение в виде позиционных стратегий. Приводится пример решения

Костюнин Сергей Юрьевич — аспирант, ассистент, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected].

Палестини Арсен — assistant professor, 00161, Италия, Рим; MEMOTEF, University of Rome «La Sapienza»; e-mail: [email protected].

Шевкопляс Екатерина Викторовна — кандидат физико-математических наук, доцент, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected]. © С. Ю. Костюнин, А. Палестини, Е. В. Шевкопляс, 2013

для случая, когда закон распределения момента окончания игры для каждого игрока является экспоненциальным.

1. Постановка задачи. Рассмотрим некооперативную дифференциальную игру разработки невозобновляемого ресурса:

• в игре принимают участие два игрока - фирмы, момент выхода из игры (окончания разработки ресурса) для каждого игрока определяется независимой случайной величиной и известными функциями распределения;

• как только один из игроков выбывает из игры, оставшийся игрок продолжает разработку ресурса, для него задача сводится к соответствующей задаче оптимального управления;

• выигрыш игрока состоит из математического ожидания интегрального выигрыша и терминальной составляющей, которую получает лишь тот игрок, который остается после выхода из игры другого игрока;

• управлением для каждого игрока является соответствующая скорость разработки ресурса 41(г), 42(г) € М+;

• фазовой переменной в данной игре является совокупный запас ресурса х(г) €

динамика игры описывается следующим обыкновенным дифференциальным уравнением с начальными условиями:

Х(Ь) = х, 41,42), (1)

х(0) = х0 > 0. (2)

где функция в правой части <£>(■) € С2(М+) убывает по скорости разработки ресурса каждого из игроков:

1^0, ¿=1,2; ощ

• обозначим через Нг(г,х,41,42) € С2(М+) мгновенную функцию полезности г-го игрока.

Независимые случайные величины, представляющие собой моменты окончания разработки ресурса для игроков, обозначим через Т1 и Т2. Будем предполагать наличие непрерывно дифференцируемых функций распределения (■), ^2(-), соответствующие плотности распределения обозначим через /1(■) и /2(-).

Считаем также, что для каждой случайной величины Тг существует верхняя граница > 0 такая, что Р{Тг ^ = 1. Таким образом, функция распределения (г) определена на соответствующем отрезке [0, Не ограничивая общности, будем полагать ¿1 ^ ¿2. Доопределим функцию распределения ¥2(1) на отрезке [¿2, ¿1] и получим

Л (г) < 1 V 1<Ш1, ЛМ = 1;

^(г) < 1 V г<ш2, ^(¿) = 1 V г € [¿2, ¿1].

В момент времени Т = шт{Т1,Т2}, если в игре остается игрок г, то он получает терминальную выплату Фг(х(Т)). Можно принять, что игра сводится для него к задаче оптимального управления, а терминальная выплата равна доходу, получаемому при оптимальном управлении.

Предположим, что игроки выбрали свои управления 4*, 4\. Рассмотрим соответствующее этим управлениям решение задачи Коши (1), (2). Введем более короткое

обозначение для функции полезности Н*(Ь) = Н^(Ь,х* ,и\,и2). Тогда ожидаемый выигрыш г-го игрока можно записать в таком виде:

К^0,хо,и1,и2) = Е

( Ь*(Ь)ЗЩТг<ъ ] + [ Ь*(1)ЗИ[Тг >Щ+Фг (х*(Т Щт^т,]

(3)

где Т - момент выхода из игры игрока 1[.] - индикаторная функция; Е[-] - математическое ожидание.

2. Уравнение Гамильтона—Якоби—Беллмана.

2.1. Упрощение функционала ожидаемого выигрыша. К сожалению, ожидаемый выигрыш в виде (3) невозможно использовать для решения игры стандартными методами. Необходимо каким-то образом свести эту задачу к задаче со стандартной формой интегрального функционала [12].

Для упрощения записи введем обозначение ш = Если математическое ожидание в (3) существует и конечно, то его можно представить в виде суммы ожидаемого интегрального выигрыша и ожидаемого терминального выигрыша:

Е

Т Т

IН*(t)dtI[Ti<т,]+! К(1)3И{тг>Т3]+Фг(х*(Т))1№>Т,] 0 0

Т Т

[ Н* (1)3Ы[Тг<Т,] + I Н* (г)с1И[т>т,]

0

+ Е [ф4(х* (ТЩт>Т,] ] .

(4)

Введем обозначения для выражений в правой части (4):

П(ТЬТ2) = 1 Н*(1)3Щт<т,] + ! Н*(1)3ЩТг>Т,],

Ф'2(Т1,Т2) = Ф4(х* (Т))![т>Т,].

Следующие утверждения дают упрощенные формы для математических ожиданий данных выражений. Утверждение 1.

Е [*1(Т1 ,Т2)\ = Е

шт{Т1,Т2 }

Н* (Ь)3Ь

Доказательство. Так как Т1 и Т2 являются независимыми случайными величинами, то плотность распределения случайного вектора (Т1,Т2) представляет собой произведение плотностей его компонент, т. е. выражение вида /1(6)/2 (т). Тогда можем записать

в

Е [ЪШТ)] =1! I Н*(Ь)ЗЩв<т]!з (т)3т/(9)39 +

ш ш т

+ 1! Iн* (г)а1[в>т]/гтв/э (т )ат. (5)

0 0 0

Введем обозначение Нг(6) := ^ Н*(г)А. Таким образом, (5) можно представить так:

0

ш / в

Щ(в)Мв^1 / (т )3,т + I ^ I Нг(т)/(т /г(в)3,в. (6)

Интегрируя по частям, для суммы (6) получаем выражение

ш ш

(ш) ! Н*(в)/г(в)3в -1 Н(в)и(ещ(в)вв +

00

ш ш

+ Гг(и)1 Нг(т)/(т)ат Н(т)/(тЩ (т)йт.

00

Принимая во внимание, что Щг(и) = (<м) = 1, повторно интегрируем слагаемые по частям. После преобразования подобных слагаемых выражение для (6) принимает следующий вид:

ш

- ! К(т)Щг(т) + Щз (т) - 2Щ(тЩ (т)]Лт +

0

ш

+ Нг(¿Щ(¿Щ(¿) - ! Н*(т)Щ(тЩ(т)]Лт =

0

ш ш

= I Н*(т)[1 - Щ(т)][1 - Щз(т)]Лт = I Н*(т)[1 - Щ(т)]с!т,

00

где Щ(■) - функция распределения случайной величины Т = тш{Тг, Т}, что и заканчивает доказательство. Утверждение 2.

ш

Е [*2(Т1,Т2)] =1 Фг(х* (т))/(т )(1 - Щ(т ))с!т.

0

Доказательство. Интегрируя по частям и учитывая, что Щг(и) = 1, получаем

ш / ш \

Е [Фг(х* (ТЩт>т3]] = ! У Фг(х* (тЩв>т]/з(т)йт I /(0)М =

00

ш ш

= Гг(и)1 Фг(х* (т))/(т)3т Щг(в)Ф1 (х* (6)/(6)М =

шт

ш ш

= ! ф(х* (т))!э (т)в.т - I Р(вЩ(х*(в))^ (в)вв, 0 0 а переходя к одной переменной, по которой происходит интегрирование, находим

ш

Е [Ф4(х*(ТЩт>т3]] =1 Ых*(тМ(т)(1 - Ъ(т))с!т.

0

Из утверждений 1 и 2 выводим упрощенную форму функционала ожидаемого выигрыша.

Следствие 1. Ожидаемый выигрыш игрока г (3) может быть представлен в виде

ш

Кг(0,хо,и*,и**) = У (н*(т)(1 - Ъ(т))+Ф&*(т))М(т)(1 - Ъ(т))) ¿т. (7)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

Таким образом, получили ожидаемый выигрыш игрока г в виде интегрального на конечном отрезке времени, т. е. наша игра в некотором смысле аналогична игре на фиксированном промежутке времени [0,^], в которой функционалы выигрыша игроков имеют вид (7).

2.2. Вывод уравнения Гамильтона-Якоби-Беллмана. Рассмотрим подыгру, которая начинается в некоторый момент времени £ € (0,ш). Динамика также описывается уравнением (1). Начальные условия имеют вид х(£) = х. Так как игра к моменту времени £ не прекратилась, то случайные моменты выхода игроков из игры имеют другие функции распределения, нежели в момент времени 0. Будем обозначать новые функции распределения с верхним индексом например Ъ£(т). По следствию 1 выигрыш игрока г записывается так:

ш

К(0,хо ,и\и) = ! (К(т )(1 - Ъ'(т)) + Ф^(х* (т))/*(т)(1 - Ъ{(т))) ¿т. (8)

0

Найдем выражения для функций распределения Ъ?(т). Функция распределения равна следующей условной вероятности ) = Р{Т ^ т\Т > £}. Далее получаем

г[ > 1 '

Ожидаемый выигрыш (8) после подстановки соответствующих выражений для функций распределения и плотности распределения примет такой вид:

ш

К^,х0,и*ъи*2) = {1 _ р^^ _ т)) I К(т)[1 -ВД] + Ф4(х*(тШт)(1

0

Будем обозначать через х) функцию Беллмана - оптимальный выигрыш (равновесный по Нэшу) г-го игрока в подыгре, начинающейся в момент времени £ € (0,^), с начальными условиями х(Ь) = х. Тогда

ш

^= (1 - Р1(Ш - р2Ц)) / Шт) (1" ¥{т)) + - Вд)] ¿т.

г

Введем обозначение

Щ,х):= [ [Н\(т)(1 — Г(т)) + Ф1(х*(т))Ь(г)(1 - Е1(т))] Лт, (9)

таким образом, сохраняется соотношение Wi(■) = (1 — Г1(1))(1 — (■). Запишем

соответствующие частные производные функции (9):

дW■ (1 х) дW■ (1 х)

; = (1" ^(*))(!" Щ)) ; - х) [ьт - + (1 - адш*)],

ох ох

Функция (9) является функцией Беллмана для игрока г в дифференциальной игре с предписанной продолжительностью. Уравнение Гамильтона-Якоби-Беллмана для нее имеет вид

дW■(t х)

т

дW■ (1 х)

+ - ж*)) + гЭх' х, и2)}. (ю)

Разделив обе части равенства (10) на (1 — Г1(1))(1 — Г2(1)), находим, что

т +, т

1 — ^(1) 1 — Гз (1)

¡3(1) , дWi(t,x)^

= Ж,М1,М2) + Ф»(ж(г))--—— н--^—у>(г,ж,М1,и2)].

«г 1 — Гз (1) дх

Далее, применяя выражение для функции интенсивности отказов А^) := ^

1 — Fi (1)'

получаем уравнение Гамильтона-Якоби-Беллмана

ЗИМ*,*) =

д1

¿^(¿,ж) дх

= тах[/11^, ж, мь м2) + (¿) -|--^—ж, мь м2)]. (11)

3. Дифференциальная игра управления вредными выбросами.

3.1. Модель игры. Рассмотрим модификацию модели игры, исследованной в [11] (пример 2.1) и [1] (пример 5.7). В оригинале данная модель описывает совместное использование пестицидов, но ее необычная структура делает ее пригодной и для совместной разработки невозобновляемого ресурса.

Заметим, что в отличие от [11] нашей задачей является нахождение равновесия по Нэшу в позиционных стратегиях в данной игре.

Функция полезности игрока % имеет следующий вид:

Нг(х(г),щ (г)) = 1п щ(г),

при этом заметим, что она зависит только от управления самого игрока, а не от значений фазовой переменной или управления другого игрока. Отметим, что Ы(-) является выпуклой вверх функцией щ > 0, что соответствует закону убывающей предельной полезности.

Если игрок % остается один в игре, то он получает терминальную выплату

* (Т ))= а \п(х(Тг )).

Уравнение динамики имеет вид

Х = —п\ — Щ2 (12)

с начальными данными х(0) = хо > 0.

Отметим, что вид (12) означает, что обе фирмы могут извлекать ресурс с одинаковой интенсивностью, а отсутствие слагаемого, отвечающего за регенерацию ресурса, делает его невозобновляемым.

3.2. Равновесие по Нэшу. Использовав модель, описанную выше, имеем

Wi(0, x0) = E

Ti т,

/ш ut ÄI^ и* ci ы x(T0 )1т>ъ]

.0 0

Приведем функцию Беллмана для игрока % в подыгре, начинающейся в момент времени г € (0, и) с запасом ресурса х(г) = х:

Wi (г,х) =

I [\пи*(т,х(т)) (1 - Р(т))+а ]пх(т)Ъ(т)(1 - Д(т))] ¿т. (13)

(1 - Fi(t))(1 - Fj(t)) t

В соответствии с (11) уравнение Гамильтона-Якоби-Беллмана выглядит таким образом:

dWf/x) + Wi(t, х) [Xi(t) + Aj(t)] = max

dt ui

dWi(t, x)

ln(Wj) + Cj lllx(t)Xj(t)--—-(Щ +Uj)

(14)

Для нахождения равновесных стратегий в явном виде предположим другой вид решения (14):

Wi(t,x)= Ai(t)\nx + Bi (t),

где Ai(t) и Bi(t) - неизвестные функции времени t. Так как терминальная составляющая в (13) отсутствует, то выполняется lim Wi(t, x) = 0. Это приводит к тому, что

t—

lim Ai(t) = 0, lim Bi(t) = 0. (15)

t—t—

Запишем выражения для частных производных функции (13), входящие в (14):

д1 дх х

Максимизируя правую часть (14), получаем

1 дWi(t,x)

0

дх i Ai(t)'

t dWi(t,x) dWi(t,x) , s Подставляя выражения для uil -—- и -—- в (14), выводим уравнение

-Ai(t) lux - Bi(t) + (Ai(t) lux + Bi(t)) [Ai(t) + Aj(t)] =

=lnm+cdnxMt) (16)

Приравняв коэффициенты при In x из правой и левой частей (16), а также свободные члены, имеем обыкновенные дифференциальные уравнения для определения неизвестных функций времени Ai(t) и Bi(t):

-Ai(t)+Ai(t) [Ai(t)+Aj(t)] - 1 - CiAj(t) = 0,

A (t)

-Bi{t) + Bi(t) [Ai(t) + Aj(t)] + In Ai(t) + 1 + -y- = 0.

Aj(t)

Для точного определения решений воспользуемся условиями трансверсальности (15). Утверждение 3. Оптимальная позиционная стратегия г-го игрока имеет вид

xe- It(xi(T)+Х1 (т))dT U*(t,X) = /;(1 + СД,-(г))е-/сГ^(0)+^(0))^г' (17)

Доказательство. Можно обойтись без нахождения функции Bi(t), так как она не присутствует в выражении для определения и*. Рассмотрим задачу Коши для нахождения функции Ai(t):

(Ai(t) = Ai(t) [Ai(t) + Aj(t)] - 1 - CiAj(t), ] lim Ai(t) = 0.

k t—X

Общее решение данного дифференциального уравнение дается формулой

Ai(t) = eti(Xi(т)+х>(т))dT (с - J\l + CiAj(т))e- К(s))dsd^j . Применяя условия трансверсальности (15), определим константу C

что приводит к решению 80

C = j(1 + CiAj(т))e- К(x*(s)+xi(s))dsdT,

a* (t) = e 0(

и

j(1 + OiXj(t))e- lo (xi(s)+xi(s))dsdT t

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Окончательно для равновесной стратегии г-го игрока находим

ж хе-/о (Xi(T)+Х1 (т))dT

и* (t,x)

A* (t) t (1 + aXj (t))e- foT(xi(ff)+x>(e))dedr

Выражение для равновесной стратегии (17) показывает, что, действуя оптимально, каждый игрок должен учитывать не только информацию о распределении своего момента выхода из игры, но и момента окончания игры для соперника.

3.3. Экспоненциальное распределение моментов выхода из игры. Рассмотрим случай, когда моменты выхода каждого игрока из игры распределены по экспоненциальному закону, т. е.

и, если * > О,

' г' если г < 0.

Математические ожидания положительны и соответственно равны А-1, А-1. Будем рассматривать асимметричные фирмы, полагая А1 = А2.

В данном случае функции интенсивности отказов постоянны А1* = А1 и А2(г) = А2. Подставляя их в выражение (17), получаем оптимальные стратегии игроков

u1(t, х) u2(t,x)

(Ai + Á2)x

(1 + C1A2)[1 - e-(xi+x2)(u-t)]'

_(Ai + X2)x_

(1 + C2Ai)[1 - e-(A1+A2)(^-í)] -

Заключение. В статье была решена задача совместной разработки невозобновляе-мого ресурса. Для этого была предложена новая постановка дифференциальной игры со случайной продолжительностью, выведено уравнение Гамильтона-Якоби-Беллмана. Решение данной игры было получено в виде равновесия по Нэшу в позиционных стратегиях. Рассмотрен пример с экспоненциальным распределением моментов выхода игроков из игры.

В дальнейшем планируется изучить различные функции распределения моментов выхода игрока из игры (например, распределение Вейбулла) и провести сравнительный анализ оптимальных стратегий при разных распределениях. Также интересным представляется расширение модели на случай большего числа игроков.

Литература

1. Dockner E., J0rgensen S., Van Long N., Sorger G. Differential games in economics and management science. Cambridge: Cambridge University Press, 2000. 396 p.

2. J0rgensen S., Zaccour G. Developments in Differential Game Theory and Numerical Methods: Economic and Management Applications // Computational Management Science. 2007. Vol. 4, N 2. P. 159-182.

3. Петросян Л. А., Мурзов Н. В. Теоретико-игровые проблемы в механике // Литовск. матем. сб. 1966. Т. VI-3. С. 423-433.

4. Петросян Л. А., Шевкопляс Е. В. Кооперативные дифференциальные игры со случайной продолжительностью // Вестн. С.-Петерб. ун-та. Сер. 1: Математика, механика, астрономия. 2000. Вып. 4. С. 18-23.

5. Костюнин С. Ю., Шевкопляс Е. В. Об упрощении интегрального выигрыша в дифференциальных играх со случайной продолжительностью // Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления. 2011. Вып. 4. С. 47-56.

6. Marin-Solano J., Shevkoplyas E. Non-constant discounting in differential games with random time horizon // Automatica. 2011. Vol. 47, N 12. P. 2626—2638.

7. Pliska S. R., Ye J. Optimal life insurance purchase and consumption/investment under uncertain lifetime // Journal of Banking & Finance. 2007. Vol. 31, N 5. P. 1307-1319.

8. Giri B. C., Goyal S. K. Recent trends in modeling of deteriorating inventory // European Journal of Operational Research. 2001. Vol. 134, N 1. P. 1-16.

9. Perry D, Stadje W. Function space integration for annuities // Insurance: Mathematics and Economics. 2001. Vol. 29, N 1. P. 73-82.

10. Kostyunin S., Palestini A., Shevkoplyas E. Differential game of resource extraction with random time horizon and different hazard functions // Процессы управления и устойчивость: Труды 42-й междунар. науч. конференции аспирантов и студентов / под ред. А. С. Ерёмина, Н. В. Смирнова. СПб.: Издат. Дом С.-Петерб. гос. ун-та, 2011. С. 571-576.

11. Rubio S. On Coincidence of Feedback Nash Equilibria and Stackelberg Equilibria in Economic Applications of Differential Games // Journal of Optimization Theory and Applications. 2006. Vol. 128, N 1. P. 203-221.

12. Шевкопляс Е. В. Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью // Матем. теория игр и ее приложения. 2009. Т. 1, № 2. С. 98-118.

Статья рекомендована к печати проф. Л. А. Петросяном. Статья поступила в редакцию 21 марта 2013 г.

Об одной дифференциальной игре, моделирующей разработку невозобновляемого ресурса Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Костюнин Сергей Юрьевич, Палестини Арсен, Шевкопляс Екатерина Викторовна

Похожие темы научных работ по математике , автор научной работы — Костюнин Сергей Юрьевич, Палестини Арсен, Шевкопляс Екатерина Викторовна

On a exhaustible resource extraction diﬀerential game with random terminal instants

Текст научной работы на тему «Об одной дифференциальной игре, моделирующей разработку невозобновляемого ресурса»