Научная статья на тему 'Об одной лемме теории бескоалиционных дифференциальных игр'

Об одной лемме теории бескоалиционных дифференциальных игр Текст научной статьи по специальности «Математика»

CC BY
63
23
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Чистяков С. В.

Приведено доказательство основной леммы, на которой базируется доказательство теоремы о существовании решения бескоалиционной дифференциальной игры, подобной так называе­мым народным теоремам. Лемма утверждает, что в бескоалиционной дифференциальной игре с терминальными выигрышами существует такая траектория, вдоль которой минимаксные выигрыши игроков являются неубывающими функциями времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

One lemma of the theory of coalition-free differential games

The proof of existence of such a trajectory in coalition-free differential games with terminal payoffs, along which maximin payoffs of all players are a non-decreasing function of time is presented. This fact forms the basic for evidence of existing the solution of differential game under consideration in Nash sense.

Текст научной работы на тему «Об одной лемме теории бескоалиционных дифференциальных игр»

УДК 518.9

С. В. Чистяков

Вестник СПбГУ. Сер. 10, 2004, вып. 2

ОБ ОДНОЙ ЛЕММЕ ТЕОРИИ

БЕСКОАЛИЦИОННЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГР

1. Введение. Если в бескоалиционной дифференциальной игре с терминальными выигрышами каждый из игроков будет использовать свою максиминную стратегию, устроенную по принципу обратной связи, то в ситуации, образованной такими стратегиями, в силу отсутствия фактического противодействия игроков друг другу, текущие их максиминные выигрыши с течением времени будут не убывать. Поэтому если в любой текущей позиции максиминный выигрыш каждого игрока совпадает с его же текущим минимаксным выигрышем, то ни одному из игроков в одиночку невозможно гарантировать себе выигрыш, сколь-либо существенно больший, чем тот, который он получит при развитии процесса вдоль траектории, порождаемой соответствующими максиминными стратегиями. Поскольку ситуация равновесия в смысле Нэша представляет собой такой набор стратегий игроков, от которого в одиночку не имеет смысла отклоняться ни одному из них, то ясно, что изложенные соображения могут быть положены в основу доказательства существования решения бескоалиционной дифференциальной игры. Сложность реализации этой идеи обусловлена тем, что мы не можем гарантировать существование максиминных стратегий, устроенных по принципу обратной связи.

Впервые близкая идея рассматривалась А. Ф. Кононенко [1], сформулировавшего свойства траекторий управляемой системы, а точнее свойства так называемых движений [2, 3], которые достаточны для существования решения бескоалиционной дифференциальной игры двух лиц. К недостатку этих условий относится прежде всего то, что свойства движений являются вторичными по отношению к свойствам правой части управляемой системы ^ = f(t, х, их, г^), а свойств правой части этой системы, которые бы гарантировали выполнение соответствующих свойств ее движений, в [1] указано не было.

В терминах предположений на правую часть управляемой системы теорема о существовании решения бескоалиционной дифференциальной игры впервые была доказана в депонированной в ВИНИТИ статье [4]. Позднее ее результаты были кратко представлены в [5]. В основе доказательства теоремы существования решения бескоалиционной дифференциальной игры лежит так называемая основная лемма, которая близка по содержанию к утверждению, что в ситуации, образованной максиминными стратегиями, текущие максиминные выигрыши не убывают. Доказательство этой леммы и представляет главную цель данной статьи.

2. Постановка исследуемой задачи. Пусть процесс управления описывается системой

dx

— = f{t,z,uu... ,ит), xeR9, (l)

а каждый из его участников (игроков) г g I = {1,2, ...,т} распоряжается своими управлениями щ Е Р< £ Comp и при заданном начальном условии (начальном

состоянии процесса)

x(t0) = xQ (2)

© с. В. Чистяков, 2004

оценивает качество этого процесса по конечному состоянию х(Т) (Т > to) с помощью своей непрерывной функции if,- : Rq —t R, большие значения которой на конечных состояниях системы соответствуют более высокому качеству процесса.

Предполагается, что вектор-функция / в лебеговском смысле измерима по t, непрерывна по совокупности переменных x,tii,... ,um, локально лшппицева по г с постоянной, независящей от управлений щ,... , ит, удовлетворяет условию равномерной продолжимости решений

• ||/(i,x,ui,... ,«m)|| < A'(l + ||х||) (А = const) и условию выпуклости вектограмм

F(t, х) = {f(t,x,u 1,... £ Pi, i 6 I}.

Наконец, если не оговорено противное, считается, что все игроки в каждый момент времени t располагают точной информацией о текущей позиции (i, х(<)) системы (1).

3. Максиминные выигрыши: вспомогательные утверждения. Пусть Р,-[т, i9] (г 6 I, [г, С [ich^1]) - множество всех измеримых по Лебегу функций г^-(-) : [г, —> Р,, называемых далее допустимыми программными управлениями игрока г 6 I на соответствующем промежутке; A (to, xq) — множество всех абсолютно непрерывных решений (траекторий) х(-) :

x(t) = x(t,to,x0,Ui(-),... ,ит{-)), t е [iojT],. .

задачи Коши (1), (2) на отрезке [ioj^ji которые соответствуют допустимым программным управлениям n,(-) £ P,[ioi Т], i £ 1\

D*= {(i,x)|x = x{t), t E [to,T], x(-) £ A(io,Xo)}

- отрезок интегральной воронки на сегменте [to, Т].

Наряду с игрой Г (to, х0) будем рассматривать семейство аналогичных игр Г(<#,х*), (i*, х*) Е D, которые отличаются от нее только начальными данными. Зафиксируем произвольное г € Пусть (¿*,х*) € D, i* < Т, и Ui : [to, Т] xi?'-4 Р, - позиционная стратегия игрока г £ I (ниже ее достаточно считать определенной лишь на множестве D). Тогда, вводя, как и в [3], понятие пучка движений X(t*, sc*, С/,), порождаемого позиционной стратегией £/,• в позиции (i*, х#), tm < Т, максиминный выигрыш го,_ (i*,x*) игрока г в игре Г(2*, х*) можно определить равенством

u>t_(i*,x*) =sup min Hi{x(T))

(в классе стратегий типа кусочно-программных равносильное его определение приведено в [5]). По определению считается,'что

Wi - (U, x*)|t,=T = #,(х*).

Функцию Wi-(-) : (i*,x#) ь-» го,_(i*, х»), (¿*,х*) € D, будем называть потенциалом игрока г (на семействе игр Г(<*,х*), (i*,x„) G X)).

Пусть C(jD) - пространство непрерывных на множестве D функций w : D R. Определим оператор Ф,-_ : C(D) -> C(D), полагая, что в каждой точке (t*,x*) € D значение Ф,_ о w(t#, х*) образа Ф,_ ow(-) функции го(-) € C{D) определяется по правилу

Ф,_ ow(tm,xm) = max max inf w(t, x(t,U, x*,ti,-, iir\.-(-))), (3)

где Рд,■[**,<]= П Р][иЛ

При исследовании интересующих, нас свойств потенциалов игроков будем опираться на следующие факты [6-8]:

1) потенциал игрока г € / является равномерным пределом последовательных приближений

г1»{")(0 = Ф.--о^(Г1)(0, пб^. ' (4)

решения уравнения

Ф,_ о го(-) = ги(-) (5)

с начальным приближением ги^(-):

= шах т£ Щ(х(Т,и,х*,щ,ид,•(•))). {¿»,1») бД- -(6)

2) справедливы неравенства ,••>.•> ,,

< < < *>{-(•) < ■■ ■ (7)'

Кроме того, отметим, что из определения оператора Ф,_ и начального приближения уравнения (5) следует, что каждое из последовательных приближений (4) вместе с начальным приближением .к^(-) удовлетворяет одному и тому же краевому условию

^(¿,®)|«=т = Я,-(х). (8)

Замечание 1. Из определения начального приближения вытекает,

что его можно назвать потенциалом игрока г в классе постоянных стратегий ¿В свою очередь, из определения оператора Ф;_ следует, что п-е.приближение (п > 1)

можно назвать потенциалом игрока г в классе кусочно-постоянных управлений с не более чем п коррекциями управления, осуществляемыми в процессе игры. Точнее, здесь предполагается, что первый момент коррекции управления и постоянное управление на промежутке до этого момента определяются в начальный момент времени, а каждый из следующих моментов коррекции управления и скорректированное, постоянное-' управление до очередного момента коррекции - в предшествующий момент коррекций на основе доступной игроку информации о «ходе» процесса управления в этот момент времени.

Лемма 1. Для любых г £ I, п € ЛГи{0} и х*) £ Э, < Т, существуют управление и= х*) € -Р» и момент времени = х») 6 Т] такие, что независимо от выбора набора допустимых программных управлений € Рд,[£*,Т]

для любого £ £ [¿#,¿1"^] справедливо неравенство

п^^ЩЪ^п^^х*), (9)

где х(")(-) € — траектория, порождаемая постоянным управлением и

набором программных управлений ид,-(-)> т-е- — Х(М*> Чгу("))> ^ €

"Доказательство. Для произвольных г 6 / и х#) € -О, < Т, докажем сначала, что утверждение леммы справедливо в случае, когда п = 0. Выберем любую

точку и-^ Е Р{, на которой достигается максимум в правой части равенства"(6), т.е. выберем ее так, что

«£?(*.,*.) = f. jnf Hi(x(T, и, x„ u i>, «л,(.))). (10)

Кроме того, положим tj0^ = Т. Выберем теперь произвольный набор управлений uf\i(') ^ Pi\i[t*,T] и покажем, что траектория ж(0)(-): x^(t) = x(t,t*, х*,и\°_}, uf^.

(0),

t E [<*,T], удовлетворяет неравенству (9) при n = 0 и любом t Е [i*, = [t„, Т]. Предположим противное. Тогда найдется такое t' Е (t*,T], что

где ж' = x^(t') = i*, ж*, Поэтому с учетом определения функции

го-^(-) и равенства (10) имеем

= max inf Hi(x(T,t',х',щ,ит\А-))) >

* , № if T^«T,tf,xf,nj°J,uAi(-))) =

vi\i(-)€PT\i[t',T]

= inf •(•))) >

1г\

и л,-(-)€Рл|[*',Т]

г. а«Я»'ИТ»*«■«иЛ>;('))) =

Таким образом, имеем го-^^*, х*) > Полученное противоречие показывает,

что при п — 0 и любом 2 Е указанная выше траектория х(°)(-) Е А(2#,ж#)

удовлетворяет неравенству (9).

Выберем произвольные I Е I, п Е N и (/#,х*) 6 1?, <* < Г. Покажем, что для них утверждение леммы также справедливо. Как следует из (3) и (4),

»

„("-1)

w}_ (и, X*) =

= max max inf w¿Z Mí, x(í,í*, x#, гЦ,ит\А-))). (11)

Пусть t* — та точка, на которой здесь достигается максимум по t Е [í#, Т]. Возможны следующие случаи: 1) t* Е (í*,T]; 2) t* = í*.

Рассмотрим случай 1). Прежде всего отметим, что если t* = Т, то из (б), (8) и .(И) получаем w\n2(t*, х*) = tu^(í», х*). А тогда с учетом неравенств (7) имеем также, что х*) = х*). Сравнивая последнее равенство с (И), заключаем, что

если точка t — Т - точка, на которой достигается максимум по t Е [í*,^1] в правой

части равенства (11), то точка t = i* - также та точка, на которой достигается тот же максимум. Поэтому в случае 1) можно считать, что t* £ (i*,T).

in)

Положим t\ ' = t*. Тогда

wj"^*,®*) =

= max inf «i{r1)(ii"),x(iin),<.,®.,ii,-,uAl.(.))). (12)

Пусть - та точка, на которой в правой части этого равенства достигается максимум по щ £ Pi. Следовательно,

го,-"^**,®*) =

inf ni{r1,(<in\ x(t!nU,**,<4nU/V:(•)))• (13)

ur\i(-)€Pr\i[t.,t(i'l)] Выберем произвольное £ и положим

*<">(•): ®<->(i) = «Jn),tiJ[J(.)), t 6 (14)

Покажем, что для этой траектории при всех t £ [i*, имеет место неравенство (9). Допустим противное. Тогда найдется такое t' £ что

(i5)

где х' = х(n\t') = x(t', t*, ж*, и\п\Учитывая неравенство (15), равенства (3) и (4), определение точки ха также равенство (13), получим

w£}(U,x*)>w£)(t'tx,) =

= max max inf x(t,t', x', щ, uT\,(•))) >

> inf «£-:l)(t<f\ x(tW,t', x\ uin), uAi(.))) > игмтРщЦ',^]

> inf 1Н*1а\х(^т,хФ,и!а),иЛ{(.))) =

= w-l^t*,®*)-

Однако отсюда вытекает невозможное неравенство гх#) > wj"^ (¿*, х»), и, следовательно, неравенство (9) для траектории (14) действительно имеет место при всех

Рассмотрим, наконец, случай 2), когда точкой максимума по t £ [i*,T] в правой части равенства (11) является точка t = t*. Тогда, как следует из (11), х*) =

го,-" ^(<#,ж*). Пусть I - минимальное из тех к = 0,1,... ,п — 1, для которых выполняется равенство г= х*). Есть две альтернативы: а) Г= 0; /3)J £ [1 : п — 1]. При этом если реализуется вторая из них, то в правой части равенства

wfl(U,x*) =

= шах шах inf го,-' ^(i, x(t, t*. ж*, щ, иг\,(•)))

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

максимум no t £ достигается разве лишь в точке t £ (i#,T). Действительно, в

противном случае было бы справедливо равенство wf}_(t*, ж*) = u^'j"1'(i*, ж*), а следовательно, и равенство ж») = wji. ^(¿*,ж#), которое противоречит выбору I. Поэтому при реализации любой из альтернатив а) и /3), как доказано выше, существуют такие € (i*,T] и и£ Р,-, что независимо от выбора £ РдД^Т] для любого t £ имеет место неравенство"

в котором ж^(i) = x(i,t*, Поэтому в силу равенства (t*, ж») =

wf]_(t*,x*) и неравенств (7) для любого t £ выполняется неравенство

Для завершения доказательства остается положить = — uj1^ и ж(п)(£) =

x^(t), т.е. x(")(t) = x(i,t*, ж», ит\{(-)) при указанном здесь управлении Лемма доказана.

Следствие. Для любых п 6 iVU{0} и (<*, ж*) £ jD, i* < Т, существуют траектория ж(п)(-) £ Л(<*,ж#) и момент времени ■д^ £ (i*,T] такие, что

w\n_\t,xW(t)) > w^J^x*), Vi £ /, Vi £

Доказательство. Выберем произвольные п £ N U {0} и (i#, ж*) £ J9,

<* < Т. Положим = min t\n\ где = ijn)(i*,x*) £ (i#,T], i £ - те числа,

|£[1:п]

о существовании которых, вместе с управлениями и\п^ = u\n\t*,x*) £ Pf, г £ /, идет речь в лемме 1. Пусть x^(t) = x(t,t*,x*,

), t £ [i#,T]. По лемме 1

для этой траектории уже при любых г £ I и t £ справедливо неравенство (9),

что и доказывает справедливость данного следствия.

Лемма' 2. Для любых п £ N U {0} u (i*,x*) £ 1?, i* < Т, существует такая траектория х^пЦ-) £ .A(i#, ж*), что

®<я>(<)) > ^(¿*,х*), Vi £ J, Vi £ [t*,T]. (16)

Доказательство. Из доказательства леммы 1 в случае, когда п = 0, следует, что при этом п имеют место равенства tj"^ = Т, г £ I, независимо от выбора позиции (£*,ж*) £ D, i* < Т. Тогда, в свою очередь, из доказательства приведенного выше

(п)

следствия вытекает, что при п = 0 указанное в нем число ' также равно Т. Таким образом, при 72—0 утверждение леммы фактически было доказано выше.

Выберем теперь произвольные n £ JV и (<#, ж*) £ D, t* < Т. Обозначим через 0„ множество всех "в £ (i*,T], для каждого из которых существует такая траектория ?^n)(-) £ A(U,x*), что

ti;i")(i,syi)(i))>«»i!l)(^,».). Vi £ I, Vi£[t*,tf].

В силу следствия из леммы 1 множество 0„ непусто, а из его определения также следует, что оно ограничено. Поэтому оно имеет конечную точную верхнюю грань. Пусть

Тп = эир 0П.

Покажем, что Т„ 6 0„. Действительно, по определению точной верхней грани существует последовательность {т^}, г* £ Эп, Ук £ г* -> Тп, при этом по опре-

к-ЮО

делению множества 0П для каждого т* имеется такая траектория ж^(-) £ Л(2#,х*), что

ыР^х^Ю) V* € [*„,т*]. (17)

При сделанных выше предположениях относительно правой части системы (1) множество траекторий Л(£„, х*) компактно в топологии равномерной сходимости. Поэтому, не уменьшая общности, можно считать, что последовательность траекторий сходится равномерно на отрезке [¿*,Т] к некоторой траектории х(")(-) £ х*) (в противном случае можно было бы рассмотреть некоторую равномерно сходящуюся на отрезке Т] подпоследовательность последовательности {х^(•)}).

Выберем произвольное ¿' £ Т„). Поскольку г* -> Тп и для любого к имеют

к—}оо

место неравенства (17), то для всех достаточно больших к будут справедливы неравенства .

Переходя в каждом из них к пределу при к —»■ оо, в силу непрерывности на множестве О каждой из функций ги^, ъ £ I, будем иметь

'т^', *(">(*')) > У>Р{и,х*), Уг е

А так как точка I' £ [¿*,ТП) выбрана произвольно, то

«»{-С*.®00^)) > ^(г*,®*), V» £1,Ш£ [и,тп).

В силу непрерывности каждой из функций ги^ (•), г £ I, на множестве О и непрерывности функции «(")(•) £ на отрезке [¿*,Т] отсюда следует, что

и^^х^М^-ш^р^х*), Уге/, ъе[и,тп]. (18)

Покажем, что Тп = Т, и тогда лемма будет доказана. Предположим противное. Так как Т„ < Т, то по следствию из леммы 1 для позиции (Т„-, хп), хп = х(п)(Тп), найдутся траектория £(")(•) € А(Тп,хп) и момент времени Тп £ (ТП,Т] такие, что

го.^С«, > ^(Г», ®„), Ъ£1, У<е[Т„,Т„]. (19)

Определим на отрезке [<*,Т] вектор-функцию £(")(•)

<е[**,тп],

Поскольку £ А{и,х*),хп = х(пЦТп) и х(п>(-) £ А(Тп,хп), то ясно, что £(")(•) <=

А(Ь*, х#), при этом из определения функции х^(-) и неравенств (18) и (19) следует, что

г^,х<п)(*)) ^го^^х*), Уг£/, Ш£[и,Тп].

Значит, Тп £ 0„ и, следовательно, Тп < Тп = эир 0П, а это противоречит тому, что > Тп. Лемма доказана.

4. Основная лемма. Пусть, как и ранее, г/>,-(-) - потенциал игрока г € I на семействе игр Г(<*,х*), (¿*, х») € £).

Лемма 3. Для любой'позиции (£*,х») £ Р, < Т, существует такая траектория х+(-) е х#), что

™,_(<,х+(*)) > го,_(*ж,х*), УгеТ", у*е[**,т]. (20)

Доказательство. Выберем произвольную позицию (£*, х») £ £), < Т, и рассмотрим последовательность траекторий {®^(-)}> х^п)(?) £ х»), 7г £ N и {0},

каждая из которых удовлетворяет соответствующему неравенству (16) в лемме 2. При сделанных в п. 2 предположениях множество Л^*, х») компактно в топологии равномерной сходимости. Поэтому последовательность {х^п^(-)} содержит равномерно сходящуюся подпоследовательность. Для упрощения обозначений предположим, что она сама сходится равномерно (на отрезке Т]) к некоторой траектории х+(-) £ -<4(£*, х*).

Как отмечалось ранее, последовательные приближения (4) сходятся равномерно на множестве к потенциалу го,_(-) игрока г. Поэтому из неравенств (7) следует, что

«>,•_(«, х) > х), V* 6 1, Уп 6 А" и {0}, У(г, х) £ О.

В свою очередь, отсюда и из неравенств (16) вытекает, что

™<_(*,х(п)(г)) Уг € /, Уп € N и {0}, У*£[**,Т].

Переходя здесь к пределу при п -» оо, получим (20). Лемма доказана.

Лемма 4 (основная лемма). Существует такая траектория х*(-) 6 (¿0) хо), что каждая из функций < х(£)), г £ I, не убывает на отрезке [4о, Г].

Доказательство. Для каждого к £ N выберем равномерное разбиение

<г* : *о = *о < <•••<*£ = Г

отрезка [¿о, Т], полагая, что — = (Т — ¿о)//г, а = 1,2,... , к. Из леммы 3 следует, что для любого разбиения сгк существует траектория ж^(-) £ Л(20,хо) такая, что

Щ-(т,-хЩТ)) = > «№)(*£„!)) >...

... > = Щ-{1о, хо) (21)

для любого г £ I. Поскольку функции (•), I £ I, равномерно непрерывны на компакте И С Яя+1 (И - компакт в силу предположений п. 2), а множество А(Ъо, хо) компактно

в топологии равномерной сходимости и -^ 0, то из (21) вытекает, что всякая

£—»•00

предельная функция х*(-) € £о) любой равномерно сходящейся подпоследовательности последовательности траекторий {х^(-)} является искомой. Лемма доказана.

Следствие. Существует траектория х'(-) € A(to, аго) такая, что ™,-_(i,x'(i)) < Hi(x'(T)), Vi ei, Vi e [t0,T].

В заключение отметим, что заменив всюду выше каждое из множеств A(i*,:c*), (i*, х») £ D, на его замыкание в топологии равномерной сходимости, можно отказаться от предположения о выпуклости вектограмм.

Summary

Chistyakov S. V. One lemma of the theory of coalition-free differential games. The proof of existence of such a trajectory in coalition-free differential games with terminal payoffs, along which maximin payoffs of all players are a non-decreasing function of time is presented. This fact forms the basic for evidence of existing the solution of differential game under consideration in Nash sense.

Литература

1. Кононенко А. Ф. О равновесных позиционных стратегиях в неантагонистических дифференциальных играх // Докл. АН СССР. 1976. Т. 231, № 2. С. 285-288.

2. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. М., 1974. . 456 с.

3. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. М., 1987. 287 с.

4. Чистяков С. В. О существовании решения бескоалиционных дифференциальных игр // Управление в динамических системах. - Л., 1979. С. 71-99. - Деп. ВИНИТИ, № 2794-79 от 24 июля 1979 г.

5. Чистяков С. В. О бескоалиционных дифференциальных играх // Докл. АН СССР. 1981. Т. 259, № 5. С. 1052-1055.

6. Ченцов А. Г. Об игровой задаче сближения в заданный момент времени // Мат. сб. 1976. Т. 99, вып. 3. С. 394-420.

7. Чистяков С. В. Программные итерации и универсальные е-оптимальные стратегии в позиционной дифференциальной игре // Докл. АН СССР. 1991. Т. 319, № 6. С. 1333- 1335.

8. Чистяков С. В. Операторы значения' антагонистических дифференциальных игр. • СПб., 1999. 60 с.

Статья поступила в редакцию 10 мая 2004 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.