Сер. 10. 2011. Вып. 4
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
УДК 517.977.8+517.977.5
С. Ю. Костюнин, Е. В. Шевкопляс
ОБ УПРОЩЕНИИ ИНТЕГРАЛЬНОГО ВЫИГРЫША В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ СО СЛУЧАЙНОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ
Введение. В большинстве приложений дифференциальных игр используются два подхода к тому, на каком временном промежутке рассматривать игру. Согласно первому, игра развивается во времени при t G [to,T], причем момент окончания игры T фиксирован и известен заранее. Игры такого типа называют дифференциальными играми с предписанной продолжительностью. Согласно второму подходу, игра рассматривается на бесконечном временном промежутке t G [to, ж), а функция мгновенного выигрыша дисконтируется при помощи экспоненциальной функции.
В работах [1-3] применялся другой подход, а именно, описывалась дифференциальная игра, оканчивающаяся в случайный момент времени T, для которого предполагалась заданной функция распределения F(t),t G [to; ж). Игры такого типа были названы дифференциальными играми со случайной продолжительностью. Таким образом, дифференциальные игры со случайной продолжительностью являются обобщением дифференциальных игр с предписанной продолжительностью [3].
Отметим, что параллельно в теории оптимального управления рассматривались неигровые модели со случайной продолжительностью, начиная с работы [4], посвященной теории страхования жизни потребителя при неопределенном времени его смерти.
В задачах со случайной продолжительностью как в игровом, так и неигровом контексте под объектом максимизации, как правило, понимается математическое ожидание функционала интегрального или смешанного типа [2, 3, 5, 6]. Это означает, что ожидаемые выигрыши игроков (функционалы) имеют вид повторных интегралов, что представляет определенную сложность для дальнейшего применения стандартных методов оптимального управления для нахождения решений в тех или иных классах стратегий.
Как оказалось, при некоторых дополнительных предположениях повторный интеграл при помощи перестановки соответствующих интегралов может быть приведен к стандартному для динамического программирования виду, что существенно упрощает дальнейшее решение задачи со случайной продолжительностью. Однако
Костюнин Сергей Юрьевич — аспирант кафедры математической теории игр и статистических решений факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Научный руководитель: доктор физико-математических наук,
проф. Л. А. Петросян. Количество опубликованных работ: 2. Научные направления: теория игр. E-mail: [email protected].
Шевкопляс Екатерина Викторовна — доцент кафедры математической теории игр и статистических решений факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: 24. Научное направление: дифференциальные игры. E-mail: [email protected].
© С. Ю. Костюнин, Е. В. Шевкопляс, 2011
в большинстве зарубежных работ по оптимальному управлению этот факт используется по умолчанию и корректность применения интегрального функционала в упрощенном виде никак не проверяется. Стоит отметить работы [5, 6], в которых указываются некоторые условия для справедливого использования интеграла в преобразованном виде.
В области дифференциальных игр первая попытка изучения этого вопроса была предпринята в [3]. В данной статье развивается это исследование, результаты которого могут быть использованы и для задач со случайной продолжительностью неигрового типа.
В п. 1 рассмотрена постановка дифференциальной игры со случайной продолжительностью. В п. 2 содержатся основные теоретические результаты и исследована корректность перестановки интегралов для повторного интеграла, представляющего собой ожидаемый выигрыш игрока. В конце п. 2 приводится пример, когда интегральный функционал не может быть представлен в упрощенной форме. В п. 3 изучается пример дифференциальной игры, а именно, теоретико-игровая модель управления вредными выбросами [7] при условии случайной продолжительности игры. В данном примере задача сводится к стандартному виду, а решение ищется в классе программных стратегий.
1. Постановка задачи. Рассмотрим дифференциальную игру п лиц Г(хо) со случайной продолжительностью Т — Ьо и начальным состоянием хо [2, 3]. Динамика игры задается системой обыкновенных дифференциальных уравнений в векторной форме с начальными условиями
Х = д(г,х,п1,...,пп), (1)
х(Ьо) = хо, (2)
где д(Ь,х,и1,...,ип) - вектор с координатами
д (Ь, Х, ul, . .., ип) , д (Ь, Х, ul, . .., ип) , . ..,д (Ь, Х, ul, . .., ип).
Функции дЗ (Ь, х, и1,..., ип) определены при х € Нт и щ € и. С сотрДг.
Одним из интересных вопросов теории дифференциальных игр является вопрос точного определения множества стратегий игроков. Однако цель данной работы -не строгое решение игр, а лишь вывод условий приведения функционала выигрыша игрока к более простой форме. Поэтому будем полагать, что множества допустимых стратегий игроков заданы таким образом, что для любых допустимых стратегий игроков существует единственное непрерывное, по крайней мере, кусочно-дифференцируемое решение задачи Коши (1)-(2), продолжимое на [Ьо, ж).
Игра начинается в момент Ьо из состояния хо, однако момент ее окончания не фиксирован заранее, а есть реализация некоторой случайной величины Т. Будем полагать, что для случайной величины Т задана функция распределения Г(Ь), которая определена при Ь € [Ьо, ж) и удовлетворяет условию нормировки
СЮ
У (Г (Ь) = 1.
to
Функцию мгновенного выигрыша игрока г в момент времени т, т € [Ьо, ж), будем обозначать как к.(т,х(т),и1,... ,ип). Будем предполагать, что при любом возможном
выборе стратегий игроками функция мгновенного выигрыша игрока г является ограниченной кусочно-непрерывной функцией времени т (кусочная непрерывность понимается в том смысле, что на каждом отрезке функция Н^(т) может иметь лишь
конечное число разрывов первого рода), для краткости будем обозначать ее Нг(т). При сделанных предположениях функции Н^(т) интегрируемы по Риману на любом отрезке [£0,£], т. е. для каждого £ € [£0, ж) существует интеграл /(д Н(т)йт. Целью каждого игрока является максимизация своего ожидаемого выигрыша, который задается интегралом Лебега-Стилтьеса [8]:
Ki(t0, x0, ul, ... :
СЮ t
J J Ы(т)dтdF(t),
i = —,...,n.
(З)
to to
2. Перестановка интегралов в интегральном функционале.
2.1. Случай неотрицательной функции мгновенного выигрыша. Предположим, что при любом выборе стратегий игроками мгновенный выигрыш игрока г удовлетворяет условию неотрицательности
hi(r, х(т), ui, ...,un) > 0, Ут е [to, ж). Рассмотрим множество A С Д2, заданное следующим образом:
A = {(t,T)|t е [to, ж],т е [to, t]} .
(4)
Введем обозначения
At = {т 1(^т) Є A} , At = {Ф,т) Є A} .
На полупрямой [£о, ж] рассмотрим меру Лебега-Стилтьеса , отвечающую функции Г [8], а также линейную меру Лебега щ. Равенство (3) в введенных обозначениях можно записать так:
Ki(to,xo,ui,...,un)= J J Ьн(т )dj
[to,^]
djF, i = —,. ..,n.
(5)
Будем считать, что интеграл в правой части (5) существует, тогда при выполнении условия (4) справедлива теорема Тонелли [9]
(6)
/ / hi(т)djd djF = 1 F )d ()т hi 1 djT, i = —, ...,n
J [to,то] J At J [to,to] .a,
Преобразуем далее правую часть равенства (6):
/ / hi(т)djF djT = / hi (т )jf (At )] djd, i =—,...,n.
J [to,то] J La, J [to,to]
В результате имеем
J [ Ы(т)^Р(Ат)] й^т = J Ні(т)(1 - ^(т))&
Іт, і = 1,...,п.
[4о,то]
*0
Причем существование последнего интеграла при условии (4) влечет за собой существование интеграла в правой части (3).
Таким образом, было доказано следующее утверждение:
Утверждение 1. Пусть функция мгновенного выигрыша Н^(Ь), г = 1,...,п, удовлетворяет свойству неотрицательности УЬ € [Ьо, ж) и является ограниченной кусочнонепрерывной функцией времени Ь. Тогда ожидаемый выигрыш игрока г (3) представим в виде
Причем интегралы в (3) и (7) существуют или не существуют одновременно.
2.2. Общий случай. Пусть теперь на функцию мгновенного выигрыша Н не накладывается требование неотрицательности. Будем рассматривать интегралы в правой части (3) как интегралы Римана (в том числе и как несобственные интегралы Римана). При этом правая часть (3) представляет собой ожидаемый выигрыш игрока г в случае абсолютной сходимости внешнего интеграла. Иными словами, для существования математических ожиданий в (3) необходимо и достаточно, чтобы следующие интегралы существовали в смысле несобственных интегралов Римана:
непрерывными, то Щ(Ь) непрерывны и кусочно-дифференцируемы. Также будем предполагать существование непрерывной плотности распределения момента окончания игры ](Ь) = Р'(Ь) на всем множестве [Ьо, ж). При выполнении условий (8) ожидаемые выигрыши задаются таким образом:
Отдельно рассмотрим интеграл в (9), разбив его на сумму интегралов по отрезкам непрерывности функции Н^(Ь):
где в0 = Ьо, в^т+1 = Т, а в2,] = 1,..., , - точки разрыва функции Н^(Ь) на интервале
(Ьо,Т). На каждом интервале интегрирования воспользуемся формулой интегрирования по частям:
*0
Обозначим через Н() = /0 Н^(г)(1т. Так как функции Нъ(Ь) предполагаются кусочно-
т
(10)
Мт °к+1 Мт
]Г / И()ЗГ(Ь) = £
к=0 X к=0
&к+1
Щ(вк+1)Г(вк+1) - Щвк)Г(вк) - ( Ы(Ь)Г(Ь)ЗЬ
Подставим это представление в равенство (10) и после преобразований получим т т т
I И(Ь)ЗГ(Ь) = И(Т)Г(Т) -1 ы(ь)г(Ь)ЗЬ = ! Ы(Ь) [Г(Т) - Г(Ь)] зь,
Ьо Ьо Ьо
и далее
т т т
I Н() [Г(Т) - Г(Ь)] ЗЬ = I ЬН(Ь) [Г(Т) - 1] зь +1 Ы(Ь) [1 - Г(Ь)] ЗЬ.
Ьо tо £о
Таким образом, справедливо равенство
т / т т
Ит J Щ(Ь)ЗГ(Ь) = Ит I I Н^(Ь) [Г(Т) - 1] ЗЬ + I Нг(Ь) [1 - Г(Ь)] ЗЬ
Ьо \Ьо Ьо
Таким образом, можно сформулировать следующее утверждение:
Утверждение 2. При выполнении условий (8) ожидаемый выигрыш может быть представлен в виде (7), если
т
Ит (Г(Т) - 1) ( Н()ЗЬ = 0. (11)
т —™ .)
Ьо
Доказательство. Действительно, выполнение условий (8) влечет за собой существование предела в (9). Заметим, что при выполнении равенства (11) это приводит к существованию Ит Г Н^(Ь)[1 - Г (Ь)] ЗЬ. Кроме того, данный предел равен
т —о
пределу в (9). Последнее и означает, что ожидаемый выигрыш может быть получен по формуле (7).
Итак, если вычисление ожидаемого выигрыша по формуле (3) представляет некоторую трудность, но можно гарантировать выполнение условий (8) и (11), то ожидаемый выигрыш может быть найден по более простой формуле (7).
2.3. Пример. Приведем пример, когда существование ожидаемого выигрыша в форме (3) не влечет за собой возможность его представления в виде (7). В основе его лежит пример из [10].
Без ограничения общности будем полагать Ьо = 0. Предположим, что функция распределения момента окончания игры имеет вид Г(Ь) = 1 - е-Ь, Ь ^ 0. Это соответствует экспоненциальному распределению с параметром Л = 1. Распределения такого типа часто используются в математической статистике и теории надежности для описания отказов системы. Тогда на всем множестве [0, ж) существует плотность распределения
I (Ь) = е-Ь.
Будем считать, что в результате выбора стратегий игроками в игре сложилась ситуация, при которой функция мгновенного выигрыша игрока г имеет следующий вид:
к*(Ь) = вг(1 + соб(п(Ь — п)п2)) — вг вт(п(£ — п)п2)пп2,
Уі Є
1 1 '
П------------П Н--------------ТГ
П2 П2
п = 2, 3,4,... .
При остальных і из множества [0, ж) положим кі(і) = 0.
При непосредственной проверке нетрудно убедиться, что таким образом определенная функция кі(і) непрерывна на (0, ж). Таким образом, данная функция интегрируема по Риману на любом отрезке [0,і]. Очевидно, что кі(і) не является неотрицательной функцией.
Рассмотрим функцию Ні(і) = /0 Ні(т)йт. Легко можно убедиться, что она имеет
вид
Ні (і) = в1(1 + сов(п(і — п)п2)), Уі Є
п-----------------~
п2 п2
п =2, 3, 4,
Для остальных Ь из множества [0, ж) функция Щ(Ь) = 0.
Нетрудно убедиться, что для таких функций Г(Ь) и Щ(Ь) интеграл в правой части
ОО
(3) абсолютно сходится. Ожидаемый выигрыш для данного случая равен 2 У~]
п=2
Однако условие (11) для этих функций не выполняется, и, следовательно, интеграл в (7) не сходится. Таким образом, в этом примере ожидаемый выигрыш игрока (3) не может быть представлен в виде (7).
3. Дифференциальная игра управления вредными выбросами.
3.1. Модель игры. В качестве примера рассмотрим теоретико-игровую модель управления вредными выбросами [7]. В игре принимают участие п игроков, каждый из которых имеет промышленное производство на своей территории. Предполагается, что объем производства прямо пропорционален вредным выбросам в*. Следовательно, стратегией игрока является выбор объема вредных выбросов в* € [0; Ь*]. Будем искать решение в классе программных стратегий в*(Ь).
Доход игрока г в момент времени Ь определяется по формуле
я(вг(г)) = в* (г)(ь* — 1/2вн(г)).
Динамика изменения общего уровня загрязнения Р задается уравнением
Р
і=1
Єі(і), Р(іо
Ро.
Каждый игрок имеет расходы, связанные с устранением загрязнений. Мгновенный выигрыш (полезность) игрока г равен К(в*(Ь)) — !*Р(Ь), > 0.
Без ограничения общности будем предполагать, что момент начала игры Ьо = 0. В отличие от модели [5] примем, что игра имеет случайный момент окончания Т, где Т - случайная величина с известной функцией распределения Г(Ь) = 1 — в-г , Ь ^ 0, что соответствует распределению Вейбулла с параметром масштаба А = 1 и параметром формы 5 = 2. Значению 5 = 2 соответствует возрастание функции интенсивности отказов А(£) = что можно интерпретировать как износ оборудования на произ-
водстве. Предполагаем, что в данной игре ее окончание вызвано сбоями и авариями
1
1
при функционировании производства. Выбор закона Вейбулла для задач такого типа обоснован в работе [3].
3.2. Преобразование интегрального выигрыша. Ожидаемый выигрыш игрока г имеет вид
Кг(0, P0, вl, . ..,вп
(Е*(в*(т)) — !*Р(т))!т 2Ьв *
о о
при условии, что сходится интеграл
(Яг(вг(т )) — ! Р (т ))!т
4-2
2Ьв!Ь.
Для проверки существования интеграла (13) приведем следующие оценки:
(12)
(13)
Ь2
Р(т) < Р0 + = Р0 + Вт, а Д*(е*(т)) < у,
где В = £ Ь*.
1=1
Оценим интеграл (13)
сю *
J У(К*(в*(т)) — !*Р(т))!т
2Ьв * ^ / / КК^в^т)) — !*Р(т))| !т 2Ьв * !Ь ^
+2
0 0 0 0 сю * сю / * *
!(КК^в^т ))1 + 1!*Р (т ))1)!т 21в~-2 !Ь | у* К (в* (т ))!т + J !*Р (т )!т | 2Ьв~ * !Ь.
0 0 0 \0 0
Окончательно получим оценку
* сю
(Яг(ег(т)) - <1гР(т))с1т 21е~г сМ ^ ^ ) ) 21е~1 сМ.
0
Последний интеграл является абсолютно сходящимся, а, следовательно [11], интеграл (13) сходится. Таким образом, установлено, что при любом выборе игроками своих управлений выражение (12) определяет математическое ожидание выигрыша игрока г.
Проверим выполнение условия (11):
т т
Иш (Г (Т) — 1) [ Нг (Ь)а = Иш в-т [ (Кг(вг(т)) — !*Р (т ))!т.
Т ——ю J Т —►ю J
Применяя полученные ранее оценки, имеем
СЮ I
*
ЭО *
T
T 2
e J (Ri(ei(T)) - diP(т))dr
0
I I ~^d'T + di{P0 + Br)dT
Ov
Заметим, что
г1т,'^(|Г + ">(РоТ+^)
следовательно, верно и следующее:
т
T2
^lim^e J (Ri(ei(т)) - diP(т))dT = 0.
0
Таким образом, условие (11) выполняется и выигрыш (12) может быть записан в виде
сю
Ki (0, Po, e1,...,en) = J (Ri(ei(t)) - diP (t)) e-t2 dt. (14)
0
При форме интегрального выигрыша (14) решение игры упрощается.
3.3. Равновесие по Нэшу. Найдем равновесие по Нэшу в программных стратегиях. Для этого будем использовать принцип максимума Понтрягина [12]. Далее рассматриваем случай n = 2, т. е. игру двух лиц.
Для каждого игрока i = 1, 2 требуется максимизировать функционал
сю
max Ki(Po, 0,ex,e2)= [ (Ri(ef (t)) - diP (t)) e-*2 ds. eiE[0;bi] J
0
В данном случае гамильтониан имеет вид
Hi(A(t), P(t), ei(t)) = (ei{t) (^bi - !«(*)) -diP(t)j e-t2 + Л y^ej(t).
i=l
Необходимо найти максимум гамильтониана: max Hi(K(t),P(t),ei).
eiE[0;bi]
В дальнейшем будем опускать аргументы функций для сокращения записи и наряду с обозначениями ei(t), Xi(t), A(t) использовать ei, Xi, Л.
Воспользуемся условиями Куна-Таккера. Рассмотрим функционал
L(ei) = -Hi + Xi(-ei) + X2(ei - bi).
Для оптимальности управления eN необходимо выполнение следующих условий:
1) стационарность: minLi(ei) = Li(eN);
ei
2) дополняющая нежесткость: Xi(-eN) = 0; X2(eN - bj,) = 0;
3) неотрицательность: Xj ^ 0, j = 1, 2.
Поскольку = — (jbi — e*)e_t + Лj — Ai + A2, то из условия стационарности
2
получаем
— ((Ь% — вГ)в * + Л — А1 + А2 =0. (15)
Рассмотрим возможные случаи:
1. А2(Ь) = 0. (Из условий неотрицательности вытекает А2(Ь) > 0.) Следовательно, по условиям дополняющей нежесткости (вГ(Ь) — Ь*) = 0. Таким образом, вГ(Ь) = Ь* и, как следует из условий дополняющей нежесткости, А1 = 0. Тогда уравнение (15) примет вид А2(Ь) = Л(Ь). Как будет показано далее, Л(Ь) ^ 0, что противоречит предположению положительности А2(Ь). Поэтому данное предположение неверно.
2. А2(Ь) = 0. В этом случае уравнение (15) примет вид
— — вГ(Ь))в - +л(ь)^ — А1 (ь) = 0.
Предположим, что А1(Ь) = 0. По условию дополняющей нежесткости вГ(Ь) = 0. В этом случае из уравнения (15) получаем А1(Ь) = — (Ъгв-1 2 +Л(Ь) ^ .В случае А1(Ь) = 0 из уравнения (15) имеем вГ(Ь) = (Ьгв-1 +Л(Ь)^ в* . Таким образом, справедливо следующее равенство:
, bi + Л(t)et2, если (bie f2 + Л()) ^ 0,
eN (t) = { ) 2 .
если [bie t +Л^)\ < 0.
Сопряженные переменные Л(t) находим из уравнения Л = Выводим дифферен-
циальное уравнение Л(t) = die-t , решение которого имеет вид Л(t) = ai f0 e-s ds + c. Задача рассматривается на бесконечном временном промежутке, поэтому условие на Л(t) выглядит так: lim Л(t) = 0.
t——ю
Запишем выражение для Л(t), используя erf(-) - функцию ошибок:
Л (t) = di^Y~eri(t) + с,
t 2
где erf(t) = f e-s ds.
о
Так как lim erf(t) = 1, то lim Л(t) = di^- + с = 0 и, следовательно, с = —di^~
t—>-оо t—>-оо
и Л(t) = (erf(t) — 1).
Получаем, что равновесные по Нэшу выбросы игроков имеют вид
ef(t) = h + A(t)ef2 = di^(eri(t) - l)et2 + bi, i = 1, 2,
если это выражение положительно, и eN(t) =0 - в противном случае.
Заключение. В статье были сформулированы условия, при которых интегральный функционал, представляющий собой математическое ожидание интегрального выигрыша игрока, может быть сведен к бесповторному интегралу путем перестановки интегралов.
Теоретические результаты иллюстрируются на интегральном выигрыше игрока в дифференциальной игре управления вредными выбросами при условии, что игра имеет случайную продолжительность с конкретной функцией распределения.
1. Петросян Л. А., Мурзов Н. В. Теоретико-игровые проблемы в механике // Литовский математический сборник. 1966. Т. VI-3. С. 423—433.
2. Петросян Л. А., Шевкопляс Е. В. Кооперативные дифференциальные игры со случайной продолжительностью // Вестн. С.-Петерб. ун-та. Сер. 1: Математика, механика, астрономия. 2000. Вып. 4. С. 18-23.
3. Шевкопляс Е. В. Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью // Математическая теория игр и ее приложения. 2009. Т. 1, вып. 2. С. 98-118.
4. Yaari M. E. Uncertain Lifetime, Life Insurance, and the Theory of the Consumer // The Review of Econimic Studies. 1965. Vol. 32, N 2. P. 137-150.
5. Boukas E. K., Haurie A., Michel P. An Optimal Control Problem with a Random Stopping Time // J. of Optimizationa theory and Applications. 1990. Vol. 64, N 3. P. 471-480.
6. Chang F. R. Stochastic Optimization in Continuous Time. New York: Cambridge Univ. Press, 2004. 326 p.
7. Breton M., Zaccour G., Zahaf M. A Differential Game of Joint Implementation of Environmental Projects // Automatica. 2005. Vol. 41, N 10. P. 1737-1749.
8. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1989. 624 с.
9. Макаров Б. М., Подкорытов А. Н. Лекции по вещественному анализу. СПб.: БХВ-Петербург, 2011. 688 с.
10. Гелбаум Б., Олмстед Дж. Контрпримеры в анализе / пер. с англ. Б. И. Голубова; под ред. П. Л. Ульянова. М.: Мир, 1967. 234 с.
11. Зорич В. А. Математический анализ: в 2 ч.: учебник. Изд. 4-е, испр. М.: МЦНМО, 2002. 664 c.
12. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теoрия оптимальных процессов. М.: Наука, 1983. 392 с.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 19 мая 2011 г.