Научная статья на тему 'Об антагонистических дифференциальных играх с неограниченной продолжительностью'

Об антагонистических дифференциальных играх с неограниченной продолжительностью Текст научной статьи по специальности «Математика»

CC BY
93
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Никитин Ф. Ф., Чистяков С. В.

Рассматривается антагонистическая дифференциальная игра с интегральным выигрышем на бесконечном промежутке времени. При определенных предположениях приводится обоснование одного из общих методов исследования и решения дифференциальных игр, известного под названием метода программных итераций.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On zero-sum differential games of infinite duration

Zero-sum differential games of infinite duration with integral payoff are considered. In some assumptions, justification of one of general method for studying differential games, known as programming iteration method, is presented.

Текст научной работы на тему «Об антагонистических дифференциальных играх с неограниченной продолжительностью»

Ф. Ф. Никитин, С. В. Чистяков

ОБ АНТАГОНИСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С НЕОГРАНИЧЕННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ*

1. Введение. После пионерских работ Р. Айзекса [1] были выделены два взаимодо-польнительных класса антагонистических дифференциальных игр, называемых соответственно классами регулярных и нерегулярных игр [2, 4]. К первому из них относятся такие игры, в которых у одного из игроков существует программная оптимальная стратегия. Последнее, в свою очередь, равносильно тому, что либо программный максимин, либо программный минимакс является значением (ценой) игры. Для регулярных игр, и прежде всего для линейных регулярных игр, в работах Н. Н. Крассовского и его школы [2, 3] был разработан достаточно эффективный метод решения, в основе которого лежит так называемая экстремальная конструкция, представляющая собой определенную форму принципа максимума Л. С. Понтрягина. Позднее для нерегулярных игр, которые по существу являются задачами синтеза оптимальных стратегий, был разработан метод их исследования и решения, известный под названием метода программных итераций [5, 7, 9]. Последний относится к классу методов типа метода динамического программирования и в одной из своих версий, рассматриваемой ниже, базируется на итеративном построении функции значения (функции Беллмана), при этом основные уравнения этого метода не предполагают дифференцируемости последней функции и являются обобщениями уравнения Айзекса-Беллмана [10]. Первоначально метод программных итераций был разработан для дифференциальных игр с ограниченной продолжительностью. В версии отличной от версии, рассматриваемой в статье, ранее он был описан и для некоторых дифференциальных игр с неограниченной продолжительностью [8]. Целью настоящей работы является его обоснование для одного класса дифференциальных игр с интегральным выигрышем на бесконечном промежутке времени.

2. Постановка задачи. Рассматривается антагонистическая дифференциальная игра с неограниченной продолжительностью:

Предполагается, что игроки в каждый момент времени £ располагают полной информацией о текущей позиции (Ь,х(Ь)). Относительно системы уравнений (1) и функционала качества (3) сделаем следующие предположения:

* Работа выполнена при поддержке Российского Фонда Фундаментальных Исследований (проект №01-01-904).

© Ф.Ф.Никитин, С.В.Чистяков, 2004

(1)

(£ € [¿о, +го), х € Ет, и € Р € СошрДр, V € Q € СошрД9),

х(Ь0) = хо,

(2)

(3)

1. Функция / (•) : [¿о, +го) х Ят х Р х Q ^ Ят измерима (в смысле Лебега) по ¿, локально липшицева по х, непрерывна по и и V, удовлетворяет условию равномерной продолжимости решений:

||/(г,х,и,^\\ < л(1 +

условию выпуклости вектограмм, т. е. множеств

Г(¿, х) = {/(¿, х, и, v)|u € Р^ € Q}, и условию седловой точки в маленькой игре:

шахшт(I, /и, х, и, V)) = штшах(I, /(¿, х, и, V))

уЕ<ЗиЕР иЕР уЕЯ

VI € ят, т > г0, Ух € ят

(здесь {■, ■) —скалярное произведение).

2. Функция Н() : [г0, +го) х Ят х Р х Q ^ Я измерима по г, непрерывна по совокупности (х,и^) причем существует такая суммируемая на полуинтервале [¿о, +го) функция О(^), что

'1к(т,х(т ),и(т )^(т))1 <С(т)

Ут € [го, +&>),Уи(^) € ь(Р), Vv(■) € ь^),

где Ь(Р)(Ь(Q)) — множество измеримых по Лебегу функций на промежутке [¿о, +го), принимающих значения из компакта Р(Q), а х(т) = х(т,го,хо,и(^)^() —решение задачи Коши (1)—(2), соответствующее программным управлениям и(^)^(^).

Далее игрока, распоряжающегося управлением и, будем называть первым, а игрока распоряжающегося выбором управлением V —вторым.

С одной стороны, стратегии в рассматриваемой игре могут быть введены по аналогии с [4,12]—соответствующие стратегии будем называть стратегиями типа кусочнопрограммных, — а с другой, они могут быть введены по аналогии позиционным стратегиям Н. Н. Крассовского и А. И. Субботина [3, 11]. Далее можно считать, что стратегии введены любым из этих способов.

3. Основные результаты. Вместо описанной выше игры Г(£о,хо) будем рассматривать семейство игр

Г(В) = {г(г*,х*)1(г*, х*) € в},

где множество В = в(го,хо) —интегральная воронка, исходящая из начальной позиции (¿о, хо). Далее для краткости это семейство будем называть игрой Г(В).

При сделанных предположениях решение вопроса о существовании решения игры Г(В), т. е. каждой из игр этого семейства, не вызывает принципиальных затруднений, поскольку любую из игр Г^*,х*), (¿*,х*) € В, можно «приблизить» игрой Гт(¿*,х*) с заданным моментом окончания Т > ¿*. Заметим, что формальное описание игры Гт(¿о,хо) отличается от описания игры Г^о,хо) лишь тем, что в интеграле справа в формуле (3) верхний предел интегрирования берется равным Т, а не +то. То же замечание справедливо и для всех остальных игр семейства Г(В). С учетом сказанного выше нетрудно убедиться, что справедлива следующая теорема.

Теорема 1. 1.1. Игра Г(В) имеет решение, т. е. в каждой из игр Г^* ,х*), (¿* ,х*) € В для любого е существует ситуация е —равновесия, как в позиционных стратегиях, так и в стратегиях типа кусочно-программных.

1.2. Функция значения гп(■) игры Г(В) непрерывна на В.

Пусть M(D) —множество всех ограниченных функций w(-) : D ^ R. Определим оператор Ф_ : M(D) ^ M(D), полагая, что для любой функции w(-) G M(D) ее

образ Ф_ о w(-) при отображении Ф_ есть функция, значения которой вычисляются по

правилу

Ф_ о w(t*,x*) = supsupinf[w(t,x(t)) + h(r,x(r),u(r),v)dr] (4)

t>t* veQu(•) Jt*

(х(т) = x(r,t*,x*,u(-),v)) .

Определим также оператор Ф+ : M(D) ^ M(D) :

Ф+ о w(t*,x*) = inf inf sup[w(t, x(t)) + h(r,x(r),u,v(r))dr] (5)

t>t* u^P v{-) Jt*

(x(r) = x(r,t*,x*,u,v(-))) .

Приводимые леммы 1-4 могут быть доказаны по аналогии с [12].

Лемма 1. Для любой функции w(-) G M(D) справедливы неравенства:

Ф_ о w(-) > w(-),

Ф+ о w(-) < w(-).

Пусть р — равномерная метрика на пространстве M(D), т. е.

p(w-i(-),w2(■)) = sup |wi(t,x) - w^(t,x)\.

(t,x)eD

Лемма 2. Операторы Ф_ и Ф+ удовлетворяют условию Липшица с постоянной L = 1:

р(Ф- о wi(■), Ф- о w2(■)) < p(wi( ), w^( )), р(Ф+ о wi(■), Ф+ о w2(■)) < p(wi( ), w2( )),

Vwii),w2i) G M(D).

Рассмотрим функции w— : D ^ R и w(0) : D ^ R:

w—\t*,x*)= sup inf h(r,x(r),u(r),v)dr, (6)

vEQu()J t*

Г + ^

w(0)(t*,x*) = inf sup h(r,x(r),u,v(r))dr. (7)

u£P v(-)Jt*

Обозначим через CM(D) класс всех непрерывных и ограниченных на множестве D функций w(■), каждая из которых удовлетворяет условию w(t,x) ^ 0 при t ^ (равномерно по x G D).

Лемма 3. Функции w(0) (■) и w+0) (■) принадлежат подпространству CM(D) пространства M(D).

Лемма 4. Подпространство CM(D) пространства M(D) инвариантно относительно каждого из операторов Ф_ и Ф+.

Рассмотрим функциональные уравнения

Ф_ о w(-) = w(-), (8)

Ф+ о т(-) = ш(), (9)

а также последовательные приближения

Ф- о ш-‘-1)(■) = т-)(■), п е N (10)

Ф+ о ш+1-1) (■) = (■), п е N (11)

с начальными приближениями (6) и (7).

Теорема 2. При сделанных ранее предположениях справедливы утверждения:

2.1. последовательные приближения (10) как и последовательные приближения (11) сходятся равномерно к функции значения игры Г(О);

2.2. функция значения игры Г(О) является единственной общей неподвижной точкой операторов Ф- и Ф+ на подпространстве СМ (О).

Доказательство. Опишем только схему доказательства. Учитывая, что подынтегральная функция в (3) при любых управлениях имеет суммируемую мажоранту, можно показать, что последовательные приближения (10) и (11) равномерно ограниченны. Поэтому из леммы 1 вытекает, что последовательные приближения сходятся поточечно на множестве О. Тогда из теоремы 1 и определения последовательных приближений (10) и (11) следует, что пределы этих последовательных приближений совпадают с функцией значения игры Г(П).

Докажем, что последовательные приближения (10) и (11) сходятся равномерно к функции значения игры. Рассмотрим, например, последовательность (10). Пусть = Вт (и ,х*) —отрезок интегральной воронки О = П(1*,х*) на сегменте [¿о,Т], Т > ¿о, т. е.

Вт = Вт(и,х*) = {(¿,х) е В\Ь е [¿о,Т]}.

В силу предположений Вт — компакт при любом Т > ¿о. Так как последовательные приближения (10) по леммам 1, 3 и 4 являются непрерывными функциями на О и сходятся монотонно в каждой точке множества к непрерывной функции и}(), то по теореме Дини [6] они сходятся к ней равномерно на любом из отрезков интегральной воронки Пт. Следовательно, для любого е > 0 и любого Т > ¿о найдется такой номер N = N(е,Т), что

\w-\t, х) — и)(Ь, х)\ < е, Уп > N, У(Ь, х) е От.

В силу предположения 2 п. 1 Т > ¿о может быть выбрано так, что

\ш—П(¿, х) — {¿(¿, х)\ < е, Уп > N, У(¿, х) е В\Бт.

Объединяя последние два неравенства, получаем, что для любого е > 0 существует номер N, такой что

\ш<-п)(¿, х) — {¿(¿,х)\ < е, Уп > N, У^,х) е О.

Это и означает, что последовательные приближения (10) сходятся равномерно к функции значения ■£(■) на О.

Докажем второе утверждение теоремы. Пусть ш' (■) е СМ(О) —неподвижная точка оператора Ф+. Выберем произвольную позицию (¿*,х*) е О. Тогда

ш'^*,х*) = Ы т1вир[ш'^,х^)) + Н(т,х(т),п,у(т))^]. (12)

г>г„ иеР ь(.)

Для любого е > 0 существует Т такое, что

Ст(т)г1тI <"

р+ж е

| ^ С(т)<*т| < -

|«/(£*, ж*)| < ^ \/(£*, ж*) € В\ВТ.

4

Пусть {и,1Л) — ^-оптимальная ^-стратегия [1] первого игрока в игре Г(£*, ж*), при этом

а : ¿* = tо <¿1 <¿2 < ... <^м <

— разбиение [¿*, +го), а Ы : О ^ Р — отображение, ставящее в соответствие позиции постоянное программное управление. Можно считать ¿'к > Т. Выберем положительную

последовательность {<5д;}^=1 : = §• Из (12) очевидно, следует, что

ш'(Ь*,х*) < вир[ш' (¿1 ,х(Ь'1 ^*,х*, Ы (¿* ,х*), «(■)))+

<)

Г г1

+ I Н(т,х(т,и ,х*, Ы (¿* ,х*),у()), Ы (¿* ,х*),у(т))йт\.

Л,

Поэтому найдется такое управление у^1 (■), что

ш'(Ь*,х*) < ш'(^1,х'1)+

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+ Н(т,х(т,и ,х*, Ы (и ,х*),уб1 (■)), Ы (и ,х*),уб1 (т ))^} + ¿1,

Уг,

где

х\ = х(ф\^*,х*, Ы (¿*,х*),у$1 (■)).

Аналогично получим неравенства

ш'(^к-1,х'к-1) < ш'(А,х'к)+

[ г'к I II

+ Нт,хк (т), Ы (А-1 ,хк-1),уйк (т))^]+ ¿к,

•4-1

где

хк = х(^к ,А-1,х'к-1, Ы (1'к-1,х'к-1),у&к ()),

к(

х'к (т) = х(тЛ-1 ,х'к-Ъ Ы (*'к-1 ,х'к-1 ),у»к к е [2:

Следовательно,

ш'(и,х*) < ш'(¿'м,х'м)+ (13)

К

-т- ,х% , Ы (Ь% ,

+ Н(т,х(т,и ,х*, Ы (и,х* ),уб1 (■)), Ы (¿*,х* ),уб1 (т))^} +

■ 'г,

н г г'к н

+ ^ , к(т,х'к (т), Ы (А-1,х'к-1 ),убк (т ))Лт + 53 ¿к.

1„ 1 •} г' 7„ 1

к=1 гк-1 к=1

Пусть (■) —программная стратегия второго игрока, совпадающая с у$к (■) на [¿к-,'к),к = [1 : N] и с на [¿'¡^, +го), и*(■) —соответствующая ей программная

и

реализация стратегии (а, Ы), а х* (■) —траектория, порождаемая парой стратегий у^(^) и (а, Ы) в позиции (¿* ,х*). Тогда (13) можно записать в виде

[ г'м е

+ к{т, х*{т)и*{т), Уз(т))с1т +

^ г,

Отсюда с учетом выбора Т и ¿'к вытекает неравенство

г+то зе

«/(¿*,ж*) < Н(т, х*(т)и*(т), Ув(т))с1т + —.

г,

Далее, из определения |-оптимальной стратегии следует, что

Г+ж е

к(т, ж*(г), и*{т), уз(т))с1т < «;(£*, ж*) + -,

г,

где ■£(■) —функция значения игры ГО). Следовательно,

ш'^*,х*) < Ы(Ь*,х*) + е, а так как е и (¿*,х*) выбраны произвольно, то

ш'(■) < ш().

Аналогично, используя то, что ш'(^) —неподвижная точка оператора Ф_, можно установить «неравенство»

ш'(■) > шо,

которое вместе с предшествующим «неравенством» и означает, что второе утверждение теоремы также справедливо. Теорема доказана.

В заключении отметим, что предположение о существовании суммируемой мажоранты О(^) для функции к() будет, например, выполнено, если последняя имеет вид

к(т, х, и, у) = е_атк(т, х, и, у),

где к() —непрерывная по совокупности переменных, ограниченная на [¿о, +го) х Нт х Р х Q функция. Функционал (3) с такого рода подынтегральной функцией встречается в некоторых экономических моделях. В свою очередь, существуют классы игр ГО), в которых функция к() не имеет суммируемой мажоранты. В частности, такая мажоранта может не существовать, если система (1) составлена из следующих двух систем:

= /1 У, гО,

§ = ым,.0,

а подынтегральная функция в (3) имеет вид

Чт,У,г,У,у) = (У - г,11(т,У,и) - ¡2(т,г,у))

(здесь (■, ■) —скалярное произведение). Игры последнего класса могут быть названы играми сближения-уклонения асимптотического типа. Хотя основные результаты статьи для этого класса игр, вообще говоря, не верны, тем не менее, последовательные

приближения (10) и (11) могут быть использованы при исследовании разрешимости соответствующих задач сближения и уклонения.

Summary

F. F. Nikitin, S. V. Chistyakov. On zero-sum differential games of infinite duration.

Zero-sum differential games of infinite duration with integral payoff are considered. In some assumptions, justification of one of general method for studying differential games, known as programming iteration method, is presented.

Литература

1. Айзекс Р. Дифференциальные игры. М., 1967. 497 с.

2. Крассовский Н. Н. Игровые задачи о встрече движений. М., 1970. 420 с.

3. Крассовский Н.Н., Субботин А. И. Позиционные дифференциальные игры. М., 1974. 456 с.

4. Петросян Л. А. Дифференциальные игры преследования. Л., 1977. 222 с.

5. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. М., 1981. 287 с.

6. Фихтенгольц Г. М. Дифференциальное и интегральное исчисление. Уч. пособие. СПб., 1997. 800 с.

7. Ченцов А. Г. Об игровой задаче сближения в заданный момент времени // Мат. Сб. 1976. Т. 99. Вып. 3. C. 394-420.

8. Ченцов А. Г., Дятлов В. П. Монотонные итерации множеств и их приложение к игровым задачам управления // Кибернетика. 1987. №2. C. 92-99.

9. Чистяков С. В. К решению игровых задач преследования // Прикладная математика и механика. 1977. Т. 41. Вып. 5. C. 825.

10. Чистяков С. В. О функциональных уравнениях в играх сближения в заданный момент времени // ПММ 1982. Т. 46. Вып. 5. C. 874-877.

11. Чистяков С. В. Программные итерации и универсальные б-оптимальные стратегии в позиционной дифференциальной игре // Доклады Акад. Наук СССР. 1991. Т. 319. № 6. C. 13331335.

12. Чистяков С. В. Операторы значения антагонистических дифференциальных игр. СПб., 1999. 60 с.

Статья поступила в редакцию 30 сентября 2003 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.