Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью

Шевкопляс Екатерина Викторовна

УДК 517.977.8 + 517.977.5 + 519.857 + 519.87 ББК 22.18

УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ-БЕЛЛМАНА В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ СО СЛУЧАЙНОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ 1

Шевкопляс Е. В. 2

(Факультет прикладной математики - процессов управления, Санкт-Петербургский государственный университет, Санкт-Петербург )

Рассматривается класс дифференциальных игр со случайной продолжительностью. Показывается, что задача со случайной продолжительностью может быть сведена к стандартной задаче с бесконечным временем. Для нахождения оптимальных решений в дифференциальных играх со случайной продолжительностью выводится уравнение типа Гамильтона-Якоби-Беллмана. Результаты демонстрируются на примере теоретико-игровой модели разработки невозобновляемых ресурсов. Задача решается при предположении о том, что случайная величина, соответствующая моменту окончания игры, распределена по закону Вейбулла.

Ключевые слова: дифференциальные игры, уравнение

Г амильтона-Якоби-Беллмана, случайная продолжительность, разработка невозобновляемых ресурсов.

1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. - 2009. - Т. 1. №2».

2 Екатерина Викторовна Шевкопляс, кандидат физикоматематических наук ([email protected]).

Введение

В настоящее время в теории игр, в том числе и в теории дифференциальных игр, достаточно ярко выражен интерес к более адекватному моделированию конфликтно-управляемых процессов, происходящих в реальности. При моделировании таких процессов необходимо учитывать стохастический характер окружающей нас действительности. В частности, очевидно, что любой реальный процесс, развивающийся во времени, также как и сама жизнь, имеет случайную продолжительность, поскольку заканчивается в некоторый случайный момент времени. В приложениях дифференциальных игр часто изучаются различные конфликтноуправляемые процессы в экономике, экологии, менеджменте и других сферах человеческой деятельности, которые развиваются во времени, а затем заканчиваются в фиксированный момент времени. Кроме того, в последнее время многие задачи, особенно в экономических приложениях, рассматриваются на бесконечном временном промежутке при условии дисконтирования мгновенных выигрышей во времени. На практике же такие процессы имеют случайный момент окончания, что связано со множеством причин неигрового характера. В том числе, недавно случившийся экономический кризис послужил основанием для досрочного прекращения многих товарно-денежных отношений. По этой причине рассмотрение игр со случайной продолжительностью представляется более реалистичным.

Впервые постановка задачи со случайной продолжительностью дифференциальной игры была сформулирована в работе Петросяна Л.А., Мурзова Н.В. в 1966 году [7]. В данной работе изучалась антагонистическая игра преследования двух лиц с терминальными выигрышами в последний момент времени, который являлся случайной величиной с известной функцией распределения. Для игры в такой постановке впервые было выведено уравнение типа Айзекса-Беллмана.

Затем общая постановка дифференциальной игры со случайной продолжительностью была представлена в работе Петросяна

386

Л.А., Шевкопляс Е.В. в 2000 году [8]. В данной работе изучались кооперативные дифференциальные игры со случайной продолжительностью, и акцент был сделан на проблеме динамической устойчивости принципов оптимальности в новой постановке игры. В то же время стоит отметить, что параллельно и независимо в теории оптимального управления рассматривались неигровые модели со случайной продолжительностью, начиная с работы M.E. Yaari [17] 1965 года, посвященной теории страхования жизни потребителя при неопределенном времени его смерти.

В данной работе рассматриваются дифференциальные игры со случайной продолжительностью. В разделе 1 приводится постановка задачи, причем интегральные выигрыши игроков при помощи перестановки интегралов приводятся к стандартному виду. В разделе 2 выводится уравнение типа Гамильтона-Якоби-Беллмана для задачи со случайной продолжительностью. Раздел 3 содержит некоторые сведения и понятия из математической теории надежности, которые возникают в дифференциальной игре при условии случайной продолжительности игры. Кроме того, будет выбрано распределение Вейбулла, как распределение, описывающее случайную величину, являющуюся моментом окончания игры. В разделе 4 рассматривается конкретный пример дифференциальной игры со случайной продолжительностью, а именно теоретико-игровая модель разработки невозобновляемых ресурсов.

1. Модель игры

В дифференциальных играх, как правило, используются два основных подхода к тому, на каком промежутке времени рассматривается игра. Согласно первому подходу, игра развивается во времени на фиксированном временном промежутке [to,T]: момент окончания игры T известен заранее и игра имеет так называемую предписанную продолжительность [6].

Существуют также подход, имеющий большое число экономических приложений и широко применяющийся на практике, согласно которому игра развивается на бесконечном временном

387

промежутке [12]. При таком подходе подынтегральная функция полезности игрока (или функция мгновенного выигрыша), как правило, дисконтируется при помощи экспоненциальной функции, однако фактически такая игра не имеет окончания. В данной работе используется другая постановка дифференциальной игры, а именно дифференциальные игры со случайной продолжительностью.

Итак, рассмотрим дифференциальную игру п лиц Г(жо) со случайной продолжительностью Т — ¿о [8-10] и начальным состоянием жо. Динамика игры задается системой обыкновенных дифференциальных уравнений:

ж = д(х, и1,..., ип), ж е Еп,Пг е и С comp Е1, х (¿о) = хо.

Игра начинается в момент ¿о из состояния жо, однако, момент ее окончания не фиксирован заранее, а является реализацией некоторой случайной величины Т. Будем полагать, что для случайной величины Т задана функция распределения Г (¿), которая определена при £ е [¿о, ж) и удовлетворяет условию нормировки:

СО

У йГ (¿) = 1.

*0

Функцию «мгновенного» выигрыша игрока г в момент времени т, т е [£о, ж) обозначим как Нг(х(т)) ^ 0. Предполагается, что Нг(-) являются непрерывными функциями на Ет. Тогда ожидаемый интегральный выигрыш игрока г имеет вид:

/*<О /»£

(2) К^хо,Ьо,П1,.. .,Пп)= / Нг(х(т))йтйГ(г), г = 1,...,п.

^ *0 -'*0

Пусть игра развивается во времени, тогда в некоторый промежуточный момент времени §, § е (¿о; ж) игроки попадают

388

в подыгру Г(х(§)) с начальным состоянием х(§) = х. Очевидно, что игра может и закончиться до момента § с вероятностью Г (§), а вероятность продолжить игру после момента § равна

(1 — Г (§)).

Тогда ожидаемый интегральный выигрыш игрока г вычисляется по формуле

го /*£

(3) Кг(х, §,П1, . . . , Пп) = / Ы(х(т))йт йГ#(г),

где Г${Ь), £ ^ § - это функция распределения момента окончания игры в подыгре Г(х(§)). Не трудно заметить, что Г$(Ь) является условной функцией распределения, а именно функцией распределения момента окончания игры при условии, что игра не закончилась до момента §, § е (¿о; ж). Кроме того, необходимо, чтобы Г$(£) удовлетворяла стандартному условию нормировки при § е (¿о; ж). В данной работе мы рассматриваем только стационарные процессы. Тогда условная функция распределения Г$ (¿) вычисляется по следующей формуле:

(4) Щ() = Г(*— —ГГ§§, £ е [в. ж).

Далее мы будем предполагать существование плотности распределения момента окончания игры f (¿) = Г'(¿). Очевидно, что в подыгре Г(х(§)) условная плотность распределения ¡$(Ь) определяется следующим образом:

(5) и(£) = 1 -(р§).£ е [§.ж).

Таким образом, при предположении о существовании плотности f (¿) = Г'(¿) и учитывая равенства (3) и (5), получаем интегральный выигрыш игрока г,г = 1,... ,п, в подыгре Г(х(§)):

1 го гЬ

(6) Кг(х,§,и1,... ,Пп) = ------^¡Л hi(x(т))dт f(t)dt.

1 — Г (§) .]$ .]$

1.1. ПЕРЕСТАНОВКА ИНТЕГРАЛОВ В ИНТЕГРАЛЬНОМ ФУНКЦИОНАЛЕ

Рассмотрим интегральный выигрыш игрока г, который имеет вид (6). Не умаляя общности, в этом разделе положим ¿0 = 0. Кроме того, введем более компактное обозначение Н(т) = Н(х(т)). Итак, рассмотрим интегральный функционал

/*о гі

/ / Нг(т) (ІТ /(і)(і.

10 -10

Введем кусочную функцию а(і, т) следующим образом:

(+ \ *(+\ь (\ \/(Ь)^(т), т < і;

а(і, т) = /(і)Ні(т) ■ Х{т<і} = < п

10, т > і.

Если функция а(і, т) ^ 0 неотрицательно определена, то можно использовать теорему Тонелли [2,3] о перестановке интегралов в повторном интеграле. Тогда справедливо следующее равенство:

Г+О ГІ г+о г+о

/ (і / (і)Ьі(т )(т = (і а(і,т )(т =

0 0 0 0

Г+о г + о

а(і, т)йійт = / (т а(і, т)йі =

00

[0,+о) х [0,+о) г+о г+о г+о

/ йт /(і)Ні(т)йі = (1 - ^(т))Ні(т)йт.

0 т 0

Если же нельзя гарантировать а(Ь, т) ^ 0 (а, фактически, неотрицательность функции мгновенного выигрыша Н(т)), но 390

при этом выполнено условие абсолютной сходимости кратного интеграла

// 1а(1,т)1<И(1т < +го,

і ¿[0,+ж)х[0,+ж)

то можно использовать теорему Фубини [2,3] и также изменить порядок интегрирования.

Следовательно, при некоторых стандартных ограничениях на функцию Н^-) мгновенного выигрыша игрока г, интегральный функционал, соответствующий ожидаемому интегральному выигрышу игрока г в игре Г(хо) может быть приведен к стандартному виду для динамического программирования:

го /*£

Кг(хо, Ьо,П\,...,Пп)= / Нг(х(т ))йт сШ (Ь) =

Jt 0 «/ ¿0

г о

= (1 - Е(т))Нг(х(т))йт.

■'¿0

Аналогично, для выигрыша игрока г в подыгре Г(х($)) справедливо следующее представление:

Г О /Ч

Кг(х,'&,и1,...,ип)= / Нг(х(т))йт йЕ®(Ь) =

з® Л®

(7)

1 г°

= т-нщ л (1 - Е(т))ы(х(т))йт.

Таким образом, нестандартный для динамического программирования функционал, а именно функционал с повторным интегрированием (6), был приведен к стандартному виду (7) при помощи замены порядка интегрирования.

2. Уравнение Гамильтона-Якоби-Беллмана

Рассмотрим кооперативную форму игры Г(х0). Перед началом игры игроки договариваются об использовании ими таких допустимых программных управлений, которые будут максимизировать совокупный ожидаемый выигрыш игроков:

(8) ^ Кі(хо,іо,иі,...,ип) = (1 - ^ (т ))Ы(х(т ))йт.

і=1 і=1 Ь°

Управления {и1(Ь),..., иП(і)}, доставляющие максимум (8), будем называть оптимальными, а траекторию х*(Ь), соответствующую оптимальным управлениям, - условно-оптимальной. Очевидно, что при непрерывности функций Ні в (8) знак суммирования можно перенести в подынтегральную функцию:

П /*<^ П

^Кі(хо,іо ,щ,... ,ип) = (1 - ^ (т ))^2 Ні(х(т )УІт.

і=1 І0 і=1

п

Обозначим ^ Ы(х(т)) как Ь(х,т). В общем случае будем рас-

г=1

сматривать Ь(х, и, т).

Для нахождения оптимальных управлений можно использовать и принцип максимума Понтрягина, и уравнение Гамильтона-Якоби-Беллмана. В данной работе используется второй подход, поскольку новое уравнение Гамильтона-Якоби-Беллмана можно будет использовать не только для нахождения оптимальных управлений, но и для нахождения других решений в управлениях с обратной связью для кооперативного и некооперативного вариантов игры.

392

Итак, рассмотрим следующую задачу максимизации: 1

/ГО

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ь(х, и, з)(1 — Е(в))йв,

1 — Р(г) Л

(9)

х = д(х, и) х(Ь) = х.

Пусть Ш(х,Ь) - это функция Беллмана для данной оптимизационной задачи.

Кроме того, рассмотрим другую задачу максимизации, которая отличается от сформулированной выше только отсутствием множителя 1_1(г) перед интегральным функционалом:

/ГО

Ь(х, и, з)(1 — Р(в))йв,

(10)

х = д(х, и) х(1) = х.

Обозначим как Ш(х,Ь) функцию Беллмана для этой задачи. Очевидно, что справедливо следующее равенство:

(11) Ш(х,г) = ш(х,г) ■ (1 — р(г)_).

Тогда частные производные от функции Ш по ее аргументам вычисляются по следующим формулам:

дШ

(12) дШ = —I т + (1 — Р (г)) дШ;

дШ дШ

(13) ^ = (1 — Р (^ 1*.

Для задачи динамического программирования (10) для функции Беллмана Ш мы имеем стандартное уравнение Гамильтона-Якоби-Беллмана [12]:

дШ ( дШ

(14) + шах ( Ь(х, и, і)(1 — Е(і)) + —— д(х, и) ) = 0.

Используя (11), (12), (13), из уравнения (14) получаем уравнение Гамильтона - Якоби - Беллмана для задачи (9) со случайным моментом окончания игры:

I (*) дШ (Т, ^ дШ , Л

(15) 1—Р ($ Ш=-ц-+ь(х,и,г)+~д^д(х,и)).

Уравнение типа Гамильтона-Якоби-Беллмана для дифференциальной игры со случайной продолжительностью впервые было выведено в работе Л.А. Петросяна, Н.В. Мурзова [7] в 1966 году для частного случая дифференциальной игры преследования с терминальными выигрышами. Позднее в диссертационной работе Е.В. Шевкопляс [9,10] в 2004 году было напрямую получено уравнение (15) в общей постановке дифференциальной игры со случайной продолжительностью и интегральными выигрышами без предварительного приведения интегрального функционала к стандартному виду.

Кроме того, независимо уравнение (15) было получено и другими авторами различными способами. Как будет показано ниже в разделе 4.3, интегральный функционал, соответствующий выигрышу игрока для случая игры со случайной продолжительностью, приведенный к стандартному виду, эквивалентен функционалу, соответствующему выигрышу игрока в задаче с непостоянным дисконтированием мгновенного выигрыша на бесконечном временном промежутке [11,15,16]. В неигровой постановке задачи страхования жизни с рекурсивным дисконтированием функции полезности Ф.Р. Чангом в 2004 году [11] также было выведено уравнение (15) в форме (19) . Независимо от работ Чанга, уравнение Гамильтона-Якоби-Беллмана (15) в форме (19) для теоретико-игровых моделей, в которых функции полезности

игроков дисконтируются при помощи функции в_^° Х(т, было получено в работах [15,16] в 2007-2009 годах для нахождения так называемых предварительных соглашений для агентов.

Заметим, что если случайная величина Т распределена по

экспоненциальному закону, а именно

то интегральный выигрыш К^(-) игрока г эквивалентен интегральному выигрышу игрока г в игре, рассматриваемой на бесконечном временном промежутке и дисконтированием со ставкой Л мгновенных выигрышей игроков:

Полученное уравнение Гамильтона-Якоби-Беллмана, таким образом, для случая с экспоненциальным распределением момента окончания игры, должно сводиться к известному уравнению для игры с дисконтированными мгновенными выигрышами (или функциями полезности в терминологии зарубежной литературы

по теории игр) [12]. Легко проверить, что при !_= Л новое уравнение типа Гамильтона-Якоби-Беллмана (15) принимает вид уравнения Гамильтона-Якоби-Беллмана (16) для игры с дисконтированными мгновенными выигрышами, опубликованного в работе [12] в 2000 году:

/*ГО

Кі(х0,І0,иі,...,Пп)= Ы(х(т))(1 - Р(т))йт

и ¿0

д(х,и)

Таким образом, задача со случайной продолжительностью с экспоненциальным законом распределения Т и стандартная задача с

395

дисконтированными мгновенными выигрышами являются эквивалентными. Этот факт ранее был отмечен в работе А. Ыаийе [13] для другой постановки задачи со случайной продолжительностью игры, а именно игры конфликта поколений, имеющих случайную продолжительность существования.

3. Вероятностные распределения для момента окончания игры

Заметим, что множитель , появившийся в левой ча-

сти уравнения Гамильтона-Якоби-Беллмана (15), является стандартной для теории надежности функцией интенсивности отказов Л(Ь) [1, 4, 14 ]. В математической теории надежности одной из важнейших изучаемых случайных величин является время Т отказа системы элементов, а функция интенсивности отказов Л(Ь) (или функция угрозы) - одна из основных ее характеристик. Таким образом, можно провести аналогию между теорией игр, в которой игроки, как элементы системы, взаимодействуют между собой в некотором процессе, разворачивающимся во времени, и математической теорией надежности. Мы рассматриваем игры со случайным моментом окончания Т, к которым можно непосредственно применить основную терминологию из математической теории надежности.

3.1. ФУНКЦИЯ ИНТЕНСИВНОСТИ ОТКАЗОВ

Итак, функция интенсивности отказов или функция угрозы, определяется следующим образом:

(17) .

Фактически, функция интенсивности отказов является условной плотность распределения, т. е. плотностью распределения при условии, что система не отказала до момента Ь, в нашей же терминологии - плотностью распределения момента окончания игры при условии, что игра не закончилась до момента Ь. Стандартными обозначениями являются Л(Ь) или Н(Ь), далее будем

396

использовать обозначение А(£). Функция интенсивности отказов А(£), описывающая жизненный цикл системы, имеет следующий вид: Первая фаза называется фазой приработки и отказы в ней,

Пр ир аб отка Нор мал ь н ая эксплуатация А = СОПБІ Износ

Рис. 1. Функция интенсивности отказов А(£)

согласно теории надежности, возникают за счет невыявленных перед началом эксплуатации скрытых дефектов [4]. Специфика этой проблемы понятна и не только с точки зрения приложения к техническим системам элементов, не зря в теории надежности в англоязычной литературе для данного периода используется такая терминология как «новорожденный период», «детская смертность» и «ранние отказы». С точки зрения теории игр, ранние отказы могут быть вызваны неопытностью, несогласованностью и не налаженной деятельностью игроков, только что вступивших в игру. Функция интенсивности отказов А(Ь) в данной фазе является убывающей функцией времени.

Следующим периодом жизненного цикла системы является так называемый период нормальной эксплуатации системы. Функция интенсивности отказов А(Ь) в этом периоде постоянна (либо постоянна в приближении), а сами внезапные отказы вызваны несовершенством самой системы и обусловлены, как правило, внешними причинами. В англоязычной терминологии этот период называется «взрослым» периодом [14]. Игра в рассматриваемом периоде может прекратиться под воздействием каких-то непредусмотренных обстоятельств внешнего мира, в частности, в экономических приложениях - под воздействием дефолта, кризиса или других серьезных причин.

После периода нормальной эксплуатации, система переходит в фазу старения. Отказы системы в этом периоде связаны с износом и старением элементов системы, а функция интенсивности отказов Л (t) является возрастающей функцией. Очевидно, что этому факту нетрудно дать интерпретацию в игре - наступает износ технической и инструментальной базы игроков (например, в игре разработки природных ресурсов оборудование подвергается износу). Кроме того, сами соглашения, заключенные перед началом игры, в общем случае не являются реализуемыми в долгосрочных проектах. Этот факт, впервые отмеченный в работе Л.А. Петросяна в 1977 году [5,6] и названный динамической неустойчивостью решений, в англоязычной литературе получил название несостоятельности во времени. Таким образом, можно заключить, что сами соглашения игроков, заключенные перед началом игры, тоже в некотором смысле подвергаются старению и износу.

Отметим, что функция интенсивности отказов является константой тогда и только тогда, когда случайное время отказа системы T подчинено экспоненциальному закону распределения, т. е.

f (t) = Л(t) = Л = const

1 - F(t)

только при

/ (г) = Ае-х(ь-ь°\ г>г0.

Таким образом, только при экспоненциальном распределении случайной величины Т выведенное уравнение Гамильтона-Якоби- Беллмана (15) сводится к более простому уравнению (16).

3.2. ВЫБОР РАСПРЕДЕЛЕНИЯ ДЛЯ МОМЕНТА ОКОНЧАНИЯ ИГРЫ

В математической теории надежности для случайной величины Т (момента отказа системы технических элементов) используются различные вероятностные распределения, а именно

398

экспоненциальное, Вейбулла, нормальное, логарифмически нормальное, Гамма-распределение и другие [4, 14].

В актуарной математике, а также в геронтологии (науке о продолжительности жизни), для времени существования биологических систем также замечены некоторые закономерности, при этом основными законами являются закон Гомперца-Мейкема и закон Вейбулла [1].

Поскольку в данной статье игра может быть интерпретирована как сочетание различных взаимодействий (как на биологическом, так и техническом уровне), то распределение Вейбулла, используемое для описания продолжительности существования как технических, так и биологических систем, представляется наиболее адекватным распределением для случайного момента окончания игры.

Рис. 2. Функция интенсивности отказов А (г) для распределения

Вейбулла

Распределение Вейбулла имеет функцию интенсивности отказов следующего вида [4]:

А(г) = А5г5-1;

(18) 1 ;

г ^ 0; А > 0; 5 > 0.

Здесь А и 5 - параметры, определяющие данное распределение. А - это параметр масштаба , а параметр формы 5 соответ-

399

ствует одной из трех фаз, в которой может находиться система (в данном контексте игра). Значение 5 < 1 соответствует «новорожденному» периоду, здесь функция интенсивности отказов А(г) является убывающей функцией. При 5 = 1 система находится в режиме нормальной эксплуатации, А(г) равна константе А. Отметим, что при 5 = 1 распределение Вейбулла соответствует экспоненциальному распределению. При 5 > 1 система находится в состоянии износа, А(г) является возрастающей функцией. Частным случаем распределения Вейбулла для «стареющей» системы является распределение Рэлея, которому соответствует 5 = 2.

3.3. УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ-БЕЛЛМАНА ДЛЯ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ СО СЛУЧАЙНЫМ МОМЕНТОМ ОКОНЧАНИЯ, РАСПРЕДЕЛЕННЫМ ПО ЗАКОНУ ВЕЙБУЛЛА

Согласно определению функции интенсивности отказов А(г) (), выведенное в разделе 3 уравнение Гамильтона-Якоби-Беллмана (15) может быть переписано в следующем виде:

(19) А(г)ж(М) = д^(ж,г)+тах/дж,и,г)+£(ж,и).

от и \ дх )

Как было сказано выше в разделе 4.1 функция А(г) для экспоненциального распределения является константой, а именно А(г) = А. Следовательно, для экспоненциального распределения момента окончания игры из уравнения (19) непосредственно следует стандартное уравнение Гамильтона-Якоби-Беллмана [12] для игр с дисконтированными мгновеннными выигрышами (16).

Кроме того, отметим, что уравнение (19) имеет тот же вид, что и уравнение Гамильтона-Якоби-Беллмана для игр с непостоянными дисконтированными мгновенными выигрышами, а именно, когда дисконтирование выигрыша Н производится при помощи умножения его на е [15,16]. Это непосредственно

следует из того, что в приведенном к стандартному виду функционале (6) при помощи функции интенсивности отказов А(г) (17),

400

выражение (1 — Р(т)) путем несложных преобразований можно

записать как (1 — Р(т)) = е ^о .

Пусть момент окончания игры Т распределен по закону Вей-булла. Тогда функция интенсивности отказов А (г) вычисляется по формуле (18). Следовательно, уравнение (19) Гамильтона-Якоби-Беллмана принимает следующий вид:

А^г-1^ (ж,*) =

д^ (ж,*) / д^ (ж,*)

+ ша^ Дж, и, *) +-------- -----д(ж, и)

д* и у дж

Очевидно, что при значении 5 = 1, которое соответствует экспоненциальному распределению, уравнение (20) принимает стандартный вид (16).

4. Пример

В качестве примера рассмотрим теоретико-игровую модель разработки невозобновляемых ресурсов симметричными игроками, опубликованную в работе [12]. Однако в данной работе будем предполагать, что мгновенные выигрыши игроков не дисконтируются и, кроме того, игра заканчивается в случайный момент времени Т, распределенный по закону Вейбулла. Итак, согласно модели [12], в игре участвуют п игроков - фирмы или страны, которые разрабатывают некоторый невозобновляемый природный ресурс, например, нефть. Множество всех игроков обозначим как I = {1, 2,...,п}. Пусть х(г) - это поток невозобновляемого ресурса. Управлениями игроков являются темпы разработки ресурса, которые обозначим как {с^(г)}. Динамика изменений потока ресурса х(г) описывается следующим дифференциальным урав-

401

нением:

i= 1

lim x(t) ^ 0; t —

x(to) = Xo.

Каждый игрок i имеет функцию полезности (функцию мгновенного выигрыша) h(ci), определенную для всех ci > 0. Рассмотрим только логарифмический вид функции полезности игрока:

(21) h(ci) = ln(ci).

Пусть игра начинается в момент времени to = 0, заканчивается в момент времени T, который является случайной величиной, распределенной по закону Вейбулла. Тогда ожидаемый выигрыш игрока i имеет следующий вид:

/*го rt

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(22) Ki(xo,ui,... ,«n) = / / hi(-)drf (t)dt,

oo

f (t) = A^i5-1e—At'.

Согласно разделу 2.1, интегральный выигрыш (22) можно представить в виде (7). Для распределения Вейбулла (1 — F(t)) =

e—AtÄ [4], следовательно, интегральный выигрыш игрока i вычисляется по следующей формуле:

С g

(23) Ki(xo, ui,..., Un) = hi(-)e—At dt.

o

Тогда общий ожидаемый выигрыш игроков вычисляется по формуле

V'Ki(xo,ui,.. .,Un) = / y^hi(-)

i=i 7o i=i

)e-AiÄ dt.

Пусть V (Ж, жо) - максимальное значение общего ожидаемого выигрыша в игре Г(жо).

Очевидно, что в данной модели рассматриваются только симметричные игроки, поэтому положим с = = с. Кроме того,

на данном этапе представляется возможным найти решение для произвольного распределения с функцией интенсивности отказов А (г). Итак, согласно (19) имеем уравнение Гамильтона-Якоби-Беллмана следующего вида:

Будем искать решение уравнения (24) в виде Ш(ж, г) = А(г)1пж + В(г). Тогда частные производные Ш(ж, г) вычисляются по формуле

Учитывая (25), из условия максимизации правой части уравнения (24) следует, что оптимальные управления имеют вид с = А. Применяя метод неопределенных коэффициентов в уравнении

(24), получаем следующую систему уравнений для коэффициентов А(г), В(г):

Окончательно имеем следующие оптимальные управления для задачи разработки невозобновляемых ресурсов со случайной продолжительностью:

(24)

Г , д^(ж, #) ]

+ шах п/п(с($)Н-------- -----(—пс(ш .

с дж

д^ (ж,*) А(*)

д^ *) = А(*)1п(ж) + В(*).

дж ж

А(*) — А(*)А(*) + п = 0; і?(*) — А(*)В(*) — п1п(А(*)) — п = 0.

ж • е

Л(і)і

Предположим, что случайный момент окончания разработки ресурсов подчинен закону Вейбулла. Тогда функция А(г) имеет вид

(18). Тогда при 5 = 1, соответствующем экспоненциальному распределению момента окончания игры, фактически рассматривается уже изученная модель с дисконтированными выигрышами на бесконечном временном промежутке. Непосредственно из (26) следует, что при 5 = 1 оптимальными стратегиями игроков являются

с* = с* = —ж, г = 1,..., п. г п

Тогда оптимальные управления и траектория вычисляются по формуле

ж* (г) = ж0 ■ е-Л*; с*(г) = Аж0 ■ е-Л.

Этот результат совпадает с результатом, полученным в работе Докнера и др. [12] для случая дисконтированных выигрышей на бесконечном временном промежутке для единичной эластичности маргинальной полезности игроков. Отметим, что траектория ж* (г) удовлетворяет условию устойчивости по Ляпунову. Получаем следующее значение общего ожидаемого выигрыша:

Ш (ж(^) = 1п(ж'<^)) + (—1пА — п).

АА

Далее, для 5 = 2, соответствующем распределению Рэлея для стареющей системы, из (26) получаем

_2Л^2

* ж • е Л

с =---------------------

г п е-2Л^2 ^

Тогда оптимальный способ поведения при разработки ресурса должен определяться согласно следующей формуле

* 2^2^А ■ е-2Л*2

с* =---------------=— ж =

п(1 — ег/(л/2Аг))

2У2^А ■ е-2Л*2

= -----------------^--ж, где

п(1 — 2Фо(^л/Лг))

2 /■ * 2

ег/(г) = ^ е-5 ^,

Фо(г) — интегральная функция Лапласа.

Для периода приработки (раннего периода) возьмем 5 = 2. Тогда из уравнения (26) получаем

_Л ¿1/2

* ж • е 2

с* =---------------------------

Сг те -Л 51/2

Следовательно, получаем оптимальные стратегии в управлениях с обратной связью:

А2

с* = ----------------ж

г 4п(А^ + 2) .

Таким образом, для модели разработки невозобновляемых ресурсов удалось получить оптимальные решения для всех трех фаз игры. Анализ полученных решений может являться предметом дальнейшего изучения.

5. Благодарности

Данное исследование было инициировано профессором Л.А. Петросяном в 1998 году. Кроме того, автор выражает благодарность профессору Дж. Заккуру и господину Д. Громову за информационную помощь во время ознакомления с проблематикой задачи. Ценные замечания и комментарии из области математического анализа и теории оптимального управления во время подготовки статьи были высказаны доцентом Д.С. Челкаком и профессором Дж. Марин-Солано.

Литература

1. ГАВРИЛОВ Л.А., ГАВРИЛОВА Н.С. Биология продолжительности жизни. - М.: Наука, 1991.

2. ДАНФОРД Н., ШВАРЦ ДЖ. Т. Линейные операторы. Общая теория. - М: Изд-во иностранной литературы, 1962.

3. КОЛМОГОРОВ А.Н., ФОМИН С.В. Элементы теории функций и функционального анализа. - М: Наука, 1976.

4. МАТВЕЕВСКИЙ В.Р. Надежность технических систем. - Учебное пособие. МГУ электроники и математики. Москва, 2002.

5. ПЕТРОСЯН Л.А. Дифференциальные игры преследования. - Л.: Изд-во Ленингр. ун-та, 1977.

6. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.В. Кооперативные дифференциальные игры и приложения. - Томск: Изд-во Томского университета, 1985.

7. ПЕТРОСЯН Л.А., МУРЗОВ Н.В. Теоретико-игровые проблемы в механике// Литовский математический сборник. -1966. - №>У1-3. - С. 423-433.

8. ПЕТРОСЯН Л.А., ШЕВКОПЛЯС Е.В. Кооперативные дифференциальные игры со случайной продолжительностью// Вестник СПбГУ. - 2000. - Сер. 1. - Вып. 4. - С. 1823.

9. ШЕВКОПЛЯС Е.В. Кооперативные дифференциальные игры со случайной продолжительностью. - Автореф. дис. канд. физ.-мат. наук. СПб.: ООП НИИХ СПбГУ, 2004.

10. ШЕВКОПЛЯС Е.В. О построении характеристической функции в кооперативных дифференциальных играх со случайной продолжительностью// Труды Межд. семинара ” Теория управления и теория обобщенных решений уравнений Гамильтона-Якоби”, посвященного 60-летию академика А.И.Субботина. изд-во Уральского ун-та. Екатеринбург. - 2006. - №1. - С. 285-293.

11. CHANG F.R. Stochastic Optimization in Continuous Time. -Cambridge Univ. Press, 2004.

12. DOCKNER E.J., JORGENSEN S., VAN LONG N., SORGER G. Differential Games in Economics and Management Science. - Cambridge Univ. Press, 2000.

13. HAURIE A. A Multigenerational Game Model to Analyze Sustainable Development// Annals of Operations Research. -2005. - V. 137. - №1. - P. 369-386.

14. HENLEY E.J., KUMAMOTO H. Reliability engineering and risk assessment. - Prentice-Hall, Inc., 1981.

15. KARP L. Non-constant discounting in continuous time// Journal of Economic Theory. - 2007. - V. 132. - P. 557-568.

16. MARlN-SOLANO J., NAVAS J. Non-constant discounting in finite horizon: the free terminal time case// Journal of Economic Dynamics and Control. - 2009. - V. 33. - P. 666675.

17. YAARI M.E. Uncertain Lifetime, Life Insurance, and the Theory of the Consumer// The Review of Econimic Studies. -1965. - V. 32. - №2. - P. 137-150.

THE HAMILTON-JACOBI-BELLMAN EQUATION FOR A CLASS OF DIFFERENTIAL GAMES WITH RANDOM DURATION

Ekaterina Shevkoplyas, Faculty of Applied Mathematics and Control Processes, Saint-Peterburg State University, Cand. Sc. ([email protected]).

Abstract: The class of differential games with random duration is studied. It turns out that the problem with random duration of the game can be simplified to the standard problem with infinite time horizon. The Hamilton-Jacobi-Bellman equation which help us to find the optimal solution under condition of random duration of the processes is derived. The results are illustrated with a game-theoretical model of non-renewable resource extraction. The problem is analyzed under condition of Weibull distribution for the random terminal time of the game.

Keywords: differential games, Hamilton-Jacobi-Bellman equation, random duration, non-renewable resource extraction.

Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Шевкопляс Екатерина Викторовна

Похожие темы научных работ по математике , автор научной работы — Шевкопляс Екатерина Викторовна

Текст научной работы на тему «Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью»