Научная статья на тему 'О существовании ситуаций е-равновесия и равновесных траекторий в одной бескоалиционной дифференциальной игре с неограниченной продолжительностью'

О существовании ситуаций е-равновесия и равновесных траекторий в одной бескоалиционной дифференциальной игре с неограниченной продолжительностью Текст научной статьи по специальности «Математика»

CC BY
81
22
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Адрианов А. А.

Рассматривается бескоалиционная дифференциальная игра с интегральными выигрышами на бес­конечном промежутке времени. Доказана теорема о существовании ситуации е-равновесия (для лю­бого е > 0) в классе стратегий с предысторией по управлениям. Введено понятие равновесной траекто­рии, и доказана теорема о существовании равновесных траекторий. Установлено характеристическое свойство равновесных траекторий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On existence of e-equilibrium situation and equilibrium trajectories in one differential game with infinite duration

A coalition-free m-person differential game with integrated payoffs on infinite time interval is considered. The existence of e-equilibrium situation for any e > 0 in the class of recursive strategies with control prehistory information is established. The notion of equilibrium trajectory is introduced and the theorem of existence of equilibrium trejectories is proved. The characteristic property of equilibrium trajectories is established.

Текст научной работы на тему «О существовании ситуаций е-равновесия и равновесных траекторий в одной бескоалиционной дифференциальной игре с неограниченной продолжительностью»

ВЕСТНИК СЕРИЯ 10 ПРИКЛАДНАЯ ВЫПУСК 4

САНКТ-ПЕТЕРБУРГСКОГО МАТЕМАТИКА ИНФОРМАТИКА ДЕКАБРЬ

УНИВЕРСИТЕТА ПРОЦЕССЫ УПРАВЛЕНИЯ 2006

Научно-теоретический журнал Издается с августа 1946 года

СОДЕРЖАНИЕ

Прикладная математика

Адрианов А. А. О существовании ситуаций е-равновесия и равновесных траекторий в одной бескоалиционной дифференциальной игре с неограниченной продолжительностью ............................................................... 3

Андрамонов М. Ю. Оптимизация невьгауклых функций ускоренным методом секущих

углов........................................................................ 19

Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование

эффективности химиотерапии при лечении онкологических заболеваний .. 30

Жук В. В., Пименов С. Ю. О нормах сумм Ахиезера-Крейна-Фавара................. 37

Иванова О. А. Равномерные приближения решения задачи Коши в теории аналитических дифференциальных уравнений......................................... 48

Караказьян С. А. О построении двумерных симметричных/антисимметричных

всплеск-функций............................................................ 61

Карелин В. В., Корниенко Т. Я. Точные штрафы в задаче определения параметров

модели популяции с возрастной структурой................................. 70

Котина Е. Д. Формирование заданной динамики пучка в магнитном поле............ 77

Полякова Л. Н. Задача глобальной оптимизации разности полиэдральных функций .. 83 Петроеян Л. А., Седаков А. А., Сюрин А. Н. Многошаговые игры с коалиционной

структурой.................................................................. 97

Процессы управления

Овсянников А. Д. Управление программным и возмущенными движениями........... 111

Краткие научные сообщения

Буре В. М. Об одном обобщении неравенства Селберга................................. 125

Кириллов А. Н. Управление многостадийными технологическими процессами........ 127

Хроника

Конференция «Процессы управления и устойчивость»................................. 132

ИЗДАТЕЛЬСТВО

САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Вестник (с) Санкт-Петербургского университета, 2006

Рефераты .............................................................................. 133

Перечень статей....................................................................... 136

ГЛАВНАЯ РЕДКОЛЛЕГИЯ ЖУРНАЛА

Главный редактор Л. А. Вербицкая Заместители главного редактора Н. М. Кропачев, В. Н. Троян

Члены редколлегии: А. Ю. Дворниченко, С. Г. Инге-Вечтомов, А. Г. Морачевский, Ю. В. Перов, Т. Н. Пескова, С. В. Петров, Л. А. Петросян,

Н. В. Расков, В. Т. Рязанов, Р. В. Светлов, Л. Е. Смирнов , В. Г. Тимофеев,

П. Е. Товстик

Ответственный секретарь С. П. Заикин

Редакционная коллегия серии: Л. А. Петросян (отв. редактор), Д. А. Овсянников (зам. отв. редактора), С. В. Чистяков (зам. отв. редактора), И. Л. Вратчиков, Е. И. Веремей, ч Ю. М. Даль, В. Ф. Демьянов, О. И. Дривотин, А. П. Жабко, А. М. Камачкин, В. В. Карелин (секретарь), Г. А. Леонов, В. С. Новоселов, А. Н. Терехов,

В. А. Тузов, В. Л. Харитонов

Редактор Э. А. Горелик Техн. редактор А. В. Борщева Верстка Р. С. Колеватова

Номер подготовлен в Aj^S-WY^K

Подписано в печать 14.12.2006. Формат 70x100 1Дб- Бумага офсетная. Печать офсетная.

Усл. печ. л. 11,28. Уч.-изд. л. 12,23. Тираж 300 экз. Заказ № 634. Адрес редакции: 199004, С.-Петербург, В. О., 6-я линия, д. 11/21, комн. 319. Телефоны: 328-96-17 (доб. 1026), 325-26-04; тел./факс 328-44-22; E-mail: vesty@unipress.ru.

http://vesty.unipress.ru.

Типография Издательства СПбГУ. 199061, С.-Петербург, Средний пр., 41.

2006 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. Сер. 10. Вып. 4

ПРИКЛАДНАЯ МАТЕМАТИКА

УДК 517.978 А. А. Адрианов

О СУЩЕСТВОВАНИИ СИТУАЦИЙ е-РАВНОВЕСИЯ И РАВНОВЕСНЫХ ТРАЕКТОРИЙ

В ОДНОЙ БЕСКОАЛИЦИОННОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ С НЕОГРАНИЧЕННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ

1. Введение. Рассматривается бескоалиционная дифференциальная игра с интегральными выигрышами на бесконечном промежутке времени. Доказана теорема о существовании ситуации е-равновесия (для любого е > 0) в классе стратегий с предысторией по управлениям [1-3]. Введено понятие равновесной траектории [1], и доказана теорема о существовании равновесных траекторий. Установлено характеристическое свойство равновесных траекторий.

2. Постановка задачи. Пусть процесс управления игроками i — l,m (m ^ 2) описывается системой

dx

— = f(t,x,ui,u2,...,um) (1)

(t е Д, хе Rn)

с начальным условием

x(to) - х0 (2)

и геометрическими ограничениями на управления

ще Pie Comp i = 1, т. (3)

При этом качество процесса управления каждый из игроков г = 1, т оценивает своим функционалом вида

+оо

#¿(ío,£o|ui(-)>--->um(-)) = J hi(t,x(t),Ui(t),...,Um(t))dt, (4)

ío

где x(t) = x(t,to,xo,ui(-),... ,um(-)) - решение задачи Коши (1), (2) на интервале [ío,+oo), соответствующее измеримому по Лебегу набору программных управлений + щ — Ui{t) 6 Pi, г — 1 ,m (такие управления далее будем называть допустимыми). Предполагается, что каждый из игроков стремится максимизировать свой выигрыш, располагая в каждый момент времени t информацией о начальной позиции (t0,xо) и управлениях, реализованных всеми игроками на промежутке [¿(), t).

© А. А. Адрианов, 2006

Дифференциальные игры подобного класса, но с ограничениями другого типа, рассматривались, в частности, в [4].

Сделаем следующие предположения относительно правой части (1) и подынтегральных функций в (4):

1°. Функция /(•) непрерывна по совокупности переменных {t,x,u\,... ,ит) и локально липшицева по х.

2°. Существует такое Л > 0, что

||/(i)ar,ui>u2,...>Vm)|| < А(1 + ||х||)

для всех t G R, х G Rn и щ G Pi, г = 1, m. 3°. Для всех t G R и х G Rn множество

FH(t, х) = {(/, h\,..., hm) G Rn+m|/ = f(t, x, щ,..., um),

hi = hi(t,x,ui,.. .,um), щ G Pi, i = 1 ,ra}

является выпуклым.

4°. Каждая из функций /ц(-), г = 1,т, непрерывна на декартовом произведении

Rx Rn х Рх х Р2 х ... х Рт. _

5°. Для всех / G Rn, 7 G i?m, t Е R, х е Rn и щ Е Pi, г — 1,т, выполнено

max min ((/, f(t,x,u\,..., um)) + (7, h{t,x,u\,..., um))) — ui^Pi uJWePj(i)

= min max ((l, f(t,x,u\,..., um)) + (7, h(t, x,u\,..., um))), uj(i)£Pj(i) ui£Pi

где uj(i) = (iii,...,«i_i,ui+i,... ,ит), P/(i) = П j^T^j^i pj ' MO = (hi(-)1...,hm(-)), (-, •) - скалярное произведение.

6°. Для каждого г = 1 ,т существует интегрируемая на [¿о,+оо) функция Gi(-) такая, что выполнено неравенство

\Ы (t, X(i), Ii! (t), U2 (t), . . . , Um (t)) | ^ Gi (t)

для любого i G [io,+oo) и всех допустимых программных управлений щ(-), i = 1,ш.

3. Нормальная форма дифференциальной игры m лиц. Стратегией г-го игрока будем называть любую конечную последовательность отображений

Ui = {blb],...,b\) (5)

произвольной длины 1 + 1 ^ 1. Здесь отображение ставит в соответствие начальной позиции пару (tj, щ[Ь0, t])), где t\ € (¿о,+00), а Ui[t0,t}) - допустимое управление г-го игрока, реализованное на полуинтервале [¿о, t\). Каждое из отображений Ъ\, 1 ^ к ^ I, некоторому информационному состоянию (to,x0,u[to,t)) (здесь t G (¿о,+°о), а u[to,t) - набор уравлений, реализованных всеми игроками на интервале времени [¿o,i)) ставит в соответствие пару (¿¿+1, ¿¿+1)), где G (i,+oo), = +00. Обозначим множество всех таких стратегий игрока г через Pj, i = 1,т. Следуя [1], его элементы будем называть рекурсивными стратегиями с информацией о предыстории по управлениям. Набор стратегий U = (Ui,..., Um), Ui G Pj, i = l,m, назовем ситуацией. Множество всех ситуаций в игре, т. е. множество Pi х ... х Рт, обозначим Р.

Неформально предполагается, что г-й игрок в соответствии со стратегией Ui G Рг формирует свое управление на полуоси [¿о,+оо) следующим образом. По начальной позиции (to,xo) он задает первый момент переключения управления

t] е (¿о,+оо]

и допустимое программное управление Ui[to,tj) на полуинтервале [to,t]) такие, что пара (t\ ,Ui[to, t})) является образом позиции (io,£o) ПРИ отображении т. е.

Если t\ = +00, то полагаем, что игрок i сформировал свое программное управление до конца игры. В противном случае, по реализующемуся в момент времени t\ информационному состоянию он определяет второй момент коррекции управления

t- е (tj, +00]

и свое программное управление Ui[t],tj) до этого момента времени исходя из того, что

(¿^[tj.i?)) =bl(t0,xoM^t])),

и т. д. При этом в соответствии с определением стратегии Ui (см. (5)) необходимо = +00, т. е. в момент времени t\ игрок г задает свое управление до конца игры. Таким образом, любой начальной позиции (to,xo) и ситуации U € Р однозначно сопоставляется некоторый набор u(-) = (ui(•),... ,um(-)) = u(to,xo,U) допустимых программных управлений всех игроков г = 1 ,т, а следовательно, и соответствующее этому набору решение задачи Коши (1), (2). Будем далее обозначать это решение через x(-,to,xo,U) и говорить, что оно порождается ситуацией U.

Замечание].. Если стратегия Ui (см. (5)) задается только одним отображением (•), т. е. если

иг = ьЧ,

то будем нгизывать ее программной стратегией игрока г. В соответствии с общим определением стратегии (5), программная стратегия Ui = Щ игрока i (т. е. отображение ставит в соответствие начальной позиции (tо,хо) некоторое допустимое программное управление г-го игрока на всей полуоси [to, +00).

Сопоставим дифференциальной игре (1)-(4) следующую игру т лиц в нормальной форме:

T(t0,X0) = (I, {Рг}г6/, {Ki{to,Xo\-)}ieI) .

Здесь / = {1,2,..., т} - множество игроков, a Ki(to,Xo\-) : Pj х Р2 х ... х Р7П —> В,, г G /, - функции выигрыша игроков, которые рассчитываются по формулам

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ki(to,xo\Ui,U2,...,Um) = Hi(t0,xo\ui{-),u2(-),... ,um(-)), i <E I,

((ui(-),u2(-),...,um(•)) = ti(-) =u{t0,x0,U), U = (U i, U2, • • •, Um)).

Замечание 2. Ниже наряду с игрой T(io,a:o) с бесконечной продолжительностью будем рассматривать игру Г(^о, ^о, Т) с конечной продолжительностью, которая отличается от игры r(i0,£o) лишь тем> чт0 в правых частях равенств (4), определяющих выигрыши игроков, верхний предел интегрирования берется равным Т, а не +оо.

Стратегии в игре T(to,xo,T) введем по аналогии со стратегиями в игре Г(£о,жо)> с той лишь разницей, что моменты переключения управлений, формируемые стратегией

обязательно не превосходят величины Т. В любом информационном состоянии момент переключения, заданный отображением б'т, обязательно считается равным Т, т. е. равным моменту окончания игры T(to,xo), и поэтому к числу моментов переключения он относится лишь условно.

По аналогии с программными стратегиями в игре Г(£о,жо) стратегию Uf — в игре T(to,xo,T) будем называть программной. Если стратегии Uj = и Ui = Щ соответственно в играх T(to,xo,T) и T(to,xo) таковы, что программное управление uf[to,T] = b®T(to,xo) является сужением программного управления «¿[to, +00) = b^(t0,xa), то программную стратегию Uj будем называть срезкой программной стратегии Ui.

Обозначим через Kf(to,xo\-), г Е I, функции выигрыша игроков в игре T(to,xo,T).

Замечание 3. Нетрудно убедится в том, что если UT — (Uf,..., U

- некоторая ситуация в игре Г(t0,x0,T), а ситуация U = (U\,..., Um) в игре T(to,xo) сформирована так, что

где отображение б'+1 информационному состоянию (to, xq, u[to, Т)) ставит в соответствие произвольное допустимое управление щ(-), определенное на полуоси [Т, +оо), то на отрезке [io, Г] ситуации UT и U соответственно в играх F(io, xq, Т) и Г(£0, хо) порождают один и тот же набор управлений. Более того, каковы бы ни были г б программная стратегия Ui в игре Г(£0,жо) и ее сРезка Uf в игре T(t0,X0,T), ситуация U\\Ui в игре T(to,xo) на отрезке [¿о,Т] порождает тот же набор программных управлений, что и ситуация UT\\Uj в игре r(t0,x0,T).

4. Существование решения игры. Будем говорить, что игра Г(£о,£о) имеет решение, если в ней при любом е > 0 существует ситуация £-равновесия. Заметим, что в рассматриваемой игре Г(¿0,2:0) определению ситуации е-равновесия [5] можно придать следующую форму: ситуация U6 называется ситуацией е-равновесия в игре Г(4о,жо), если для любого i £ I и для любой программной стратегии Ui игрока г

Ki(t0,x0\Ue)>Ki(t0,x0\Ue\\Ui)-e. (6)

Теорема 1. Игра F(to,xo) имеет решение в классе рекурсивных стратегий с информацией о предыстории по управлениям.

Доказательство. Выберем произвольное в > 0. Пусть Т < +оо такое, что

+оо

J hi(t,x(t,t0,x0,u(-)),u(t))dt

< г el, (7)

для любого набора допустимых на полуоси [Г, +оо) управлений и(-) — (и^-),... ,ит(-)). В силу предположений, сделанных относительно подынтегральных функций в (4), такое Т существует.

Рассмотрим игру с конечной продолжительностью T(to,xo,T), о которой шла речь в замечании 2. При выполнении исходных предположений игра T(to,xo,T) имеет решение [2]. Пусть UeT = (Щт,..., UeJ)

- ситуация е/3-равновесия в этой игре. Тогда для каждого i Е I и любой программной стратегии Uj игрока i в игре T(to,xo,T) будем иметь

Kj(t0,x0\UeT) > KT.(t0,x0\UeT\\U?)-e/3. (8)

Стратегии Uf, образующие ситуацию е-равновесия в исходной игре Г(£о,£о)> построим следующим образом:

где отображение Ь\+1 информационному состоянию (to, хо, u[to, Г)) ставит в соответствие произвольное допустимое управление щ(-) на полуоси [Т, +оо). Из такого определения стратегий Uf с учетом замечания 3, очевидно, следует, что набор допустимых управлений, отвечающий ситуации Ue в игре Г(£о,£о)> совпадает на отрезке [to,T] с набором управлений, соответствующим ситуации Uet в игре Г(£о,жо)- А тогда с учетом неравенств (7) и (8) для любого г £ I, любой программной стратегии Ui в игре Г(^о,жо) и ее срезки Uj в игре V(to,xo,T) имеем

+оо

Ki(to,xo\U£) = Kj(tQ,x0\UeT)+ J hi(t,x(t,t0,x0,uE(-)),ue{t))dt^

т

> K?(t0,x0\U*T) - | ^ Kj{t0MU*T\\Uj) - | =

+oo

L r 2e

= Ki(t0,x0\Ue\\Ui) - / hi(t,x(t,t0,x0,u(-)),u(t))dt --j ^ т

> KiitoMU^Ui) - e,

где u6(-) = u(to,xo,Ue), u(-) = u(to, xq, Ue\\Ui). Следовательно, U£ есть ситуация е-рав-новесия в игре T(to,xo). Теорема доказана.

Замечание 4. В некоторых частных случаях можно ослабить требование, что игрокам доступна информация о предыстории по управлениям. При этом основное утверждение теоремы 1 (о существовании решения игры Г(г0,£о)) остается справедливым. Действительно, если обратиться к [2], то легко убедиться в том, что в случае, когда число игроков равно двум или когда система (1) имеет вид

dr(*)

е Rn(i), J^n(i) =n), ¿6/

достаточно требовать, чтобы все игроки в каждый момент времени располагали только информацией о текущей позиции игры.

Под равновесной траекторией в игре жо) будем понимать функцию ж(/,), которая на любом конечном отрезке [¿о, Т] является равномерным пределом некоторой последовательности траекторий такой, что

где - ситуация £(/с)-равновесия в игре Г(£о,£о)> > 0,е(к) —У 0.

к—ьоо

Теорема 2. Множество равновесных траекторий в игре Г(£о,£о) непусто.

Доказательство. Выберем возрастающую последовательность Т\ +оо, Т\ > ¿01 и положительную последовательность е(к) —)■ 0. Поскольку игра

к—* со

Г(£о,£о) имеет решение, то существует последовательность траекторий {х^

=я(Мо ,х0,и£(к)), te[to,+oo),

где и^ = (и[{к\...,иегкк))

- ситуация е(/г)-равновесия в игре Г(£0,жо)- Рассмотрим эту последовательность траекторий на отрезке [¿о, ]. При сделанных предположениях на этом, как и на всяком другом конечном отрезке, она является равномерно ограниченной и равностепенно непрерывной. Следовательно [6], из нее можно выделить подпоследовательность {ж^1^)}, равномерно сходящуюся на отрезке [£о>?1] к некоторой функции Ж(1)(£), Ь 6 [£о,2\]. Причем каждая из функций этой последовательности есть траектория, порождаемая ситуацией £(/с1)-равновесия в игре Г(£о,а:о) и {е^)} - подпоследовательность последовательности {е(&)}.

Теперь рассмотрим последовательность (ж^1^)} на отрезке [¿о, Т2]. Рассуждая как и выше, заключаем, что из нее можно выделить подпоследовательность рав-

номерно сходящуюся на этом отрезке к некоторой функции Ж(2)(£), t £ [¿опричем по выбору последовательности функция Ж(1)(£) будет сужением функции Ж(2)(0 на отрезок [¿о,Т\].

Далее, аналогично, заключаем, что найдется такая подпоследовательность {х(кз\ь)} последовательности траекторий а следовательно, и последователь-

ностей {ж^1^)} и {ж^ которая сходится равномерно на отрезке [¿о,?з] к неко-

торой функции Ж(з) (£), сужениями которой на отрезки [¿о, Тк], к = 1,2, являются функции Х(х)(£) и Ж(2)(£), и т. д. В итоге приходим к выводу, что для любого п существуют подпоследовательность {ж^"^)} последовательности траекторий которая

сходится равномерно на отрезке [£0 ,Тп] к некоторой функции Ж(п)(£), причем эта подпоследовательность является также и подпоследовательностью соответствующей равномерно сходящейся на отрезке [¿о,Гп_1] последовательности {х

Рассмотрим теперь вектор-функцию ж(£) на полуоси [¿о, +оо), сужение которой на каждый из отрезков [£0 ,Тп] совпадает с равномерным на этом отрезке пределом Ж(п)(£) последовательности {ж^")(£)}. При сделанных предположениях вектор-функция ж(£) есть траектория уравнения (1) с начальным условием (2). Нетрудно видеть также, что, вообще, на любом отрезке [¿о,Т], Т > ¿о, она является равномерным пределом подпоследовательности последовательности {ж^ (£)}£!.!, образованной из п-ных элементов последовательностей

{®(*")(0} (п = 1,2,...). Поскольку - последователь-

ность, порожденная ситуациями е(А;)-равновесия в игре Г(£о,жо) к) —0, е(к) > 0),

к—>оо

то и указанная ее подпоследовательность порождается такими же ситуациями. Следовательно, по определению, траектория ж(£) - равновесная. Теорема 2 доказана.

5. Характеристическое свойство равновесных траекторий. Пусть A(to,Xo) -множество всех траекторий (решений) системы (1), удовлетворяющих начальному условию (2) при всевозможных, допустимых управлениях, и D — {(t,x)\t Е [io,4-oo), х = x(t), х(-) Е Л(£о,а;о)} ~ интегральная воронка, исходящая из начальной позиции (io,£o)- Далее наряду с игрой Г(£о,жо) будем рассматривать семейство игр

Г(£>) = {r(t*,x*)l(t*,x*) Е D}

и, для краткости, также называть его игрой.

Для каждого г Е I определим антагонистическую игру жо), которая отлича-

ется от игры Г(£о,£о) тем> чт0 в He** игроки j — 1 ,тп, j ф i, действующие как один игрок J(i), имеют цель противоположную цели игрока г. Также вместе с каждой из игр Гг(£о5жо) будем рассматривать и семейства игр

Ti(D) = {Г^.ж.Ж*.»®.) Е D}, i Е I.

Под стратегией V} игрока j в каждой из игр Ti(D), i — 1 , m, будем понимать любой конечный набор отображений

Ц = rij Е N,

таких, что

a°j : (f*, ж*) Uj[i», +оо), (¿*,ж*) Е D

(здесь Uj[t*, +оо) - некоторое допустимое программное управление игрока j на полуинтервале [i*, +оо)) и

aj : (tm,x*) Uj[t*,d), k = l,rij, (t*,x*) Е D,

где в > t*, a Uj[t*,d) - допустимое управление j-го игрока на полуинтервале [t*,6).

Множество всех стратегий игрока j в каждой из игр Г;(£>), i = 1,т, обозначим через П,. Под стратегией Vj^ игрока (коалиции) J(i) в игре Ti(D) будем понимать любой набор £ IIj(,:) = П Ц,- Функция выигрыша в игре ГД/})

определяется следующим образом:

-foo

Li(t*,x*\Vi, VJ(i)) = J hi(t,x{t),ui(t),... ,um(t))dt, t,

где x(t) = x(t, t*,x*,ui (■),... ,um(-)), а набор управлений (mi (•),... ,um(-)) = u(t*,x*,Vi,Vj(i)) порождается ситуацией (Vi, Vj^) в позиции (i*,:r*) E D так, как это описано в [8].

Функцию Vi(-) : D R (i Е I) будем называть функцией значения антагонистической игры Ti(D), а последовательности стратегий j и |1 игроков i

и J(i) - соответственно максимизирующей последовательностью стратегий игрока i и минимизирующей последовательностью стратегий игрока J(i) в игре Ti(D), если для любого е > 0 существует к = к(е) такое, что

Li(U,x.\v£\ VJ(i)) > щ(и,х*)-е k(e), V VJ(i) E IIJ(i), V (tm,xm) E D,

и соответственно

r(fc)

Как установлено в [7], при сделанных предположениях в каждой из игр ГДЛ), г 6 I, существует функция значения г^(-), которая является равномерным на множестве D

пределом последовательных приближений (')} :

и)(У(и,х*) = min min sup[wji-1) (t, x(t, tm, x*, щ(-), uJ(i))) + t^t,uJ{i)ePj{ 0u.(.)

t

+ J hi(T,x(T,U,x*,Ui(-),uj(i)),Ui(-),uj(i))dT], (t*,x*) ED, к EN, (9)

t*

где Рзи) — П -Р/ , а операция вир берется по всем допустимым на полуинтервале

3=1,т,

[¿*,+оо) программным управлениям щ(-), при этом функция ги^(-) определяется по правилу

+оо

min sup / Ьг(т,х(т,Ъ,х*,щ(-),ипп),щ(-),им)№г. (10)

MO^Ouit') J

Теорема 3. Для того чтобы траектория

х'(г) = х(г-г0,х0,и'1(-),...,и'т(-)), г е [¿0,+оо) была равновесной траекторией в игре Г(£о5Жо)> необходимо и достаточно, чтобы

+оо

I Ы{т,*{т),и'1{т),..,,и'т{т))<1т (11)

для всех г £ I и £ € [¿о> +оо).

Доказательство. Необходимость. Приведем лишь идею доказательства необходимости. Допустим противное: пусть ж(-) = ж(-, ^о, «(■)) - равновесная траектория в игре Г(£о,£о), но при этом существуют такие г £ I и € [¿0, +оо), что

+оо

Vi(i',a:(t')) > j hi(t,x[t),u(t))dt. (12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i

Прибавив к обеим частям неравенства (12) величину

t'

J hi(t,x(t),u(t))dt,

t о

получим

t +00

J hi(t,x(t),u(t))dt + Vi(t',x(t')) > J hi(t,x(t),u(t))dt. (13)

t0

t0

Заметим, что величина, стоящая справа в неравенстве (13), представляет собой выигрыш г-го игрока при реализации в игре Г(£о,£о) равновесной траектории ж(-). По определению равновесной траектории, существует последовательность траекторий равномерно сходящаяся к х(-) на любом конечном отрезке [¿о,Г], причем для любого к € N траектория х^(-) порождается некоторой ситуацией е(/г)-равновесия в игре Г(г0,х0) (е{к) —» 0),

к—>оо

xW(t) = x(t,to,xo,UeW), te[to,+oo).

Следовательно, для произвольно выбранного е > 0 найдется такое ко G N, что для всех к > к0

+оо

I hi(t,x{t),u(t))dt - Ki{t0,x0\Ue{k))

to

£

< 2'

(14)

Укажем также, что величина, стоящая слева в неравенстве (13), представляет собой сумму выигрыша, накопленного г-м игроком к моменту времени при реализации в игре траектории х(-), и максиминного выигрыша этого игрока в позиции (¿', ж(£')). Тогда нетрудно показать, что для выбранного £ > 0 найдется такая стратегия что

к^0,х0\и£^\\иг) > I + ~ (15)

и

Из (14) и (15), с учетом определения ситуации е(&)-равновесия, будем иметь

I' +оо

< KiitoMU^Wi) + | - Ki{t0,xQ\U£{k)) + | ^ £{k)+e.

Таким образом, t'

Г +оо

ъ0 ¿0

Переходя здесь к пределу при к оо и затем при в +0, получим неравенство

4' +оо

to

которое противоречит (13).

Достаточность. Приведем сначала идею доказательства. С этой целью заметим, что неравенство (11) равносильно неравенству

4 +оо

I кг(т,х\т),и'(т))(1т + УгЦ,х'{Ь)) ^ ^ Ы(т,х' (г),«' (т))<*Г, (16)

4о ¿о

которое, в силу произвольности г € / и Ь £ [¿о, +оо), означает, что ни одному из игроков не выгодно отклонятся от реализации процесса (х'(•), и'(■)) ни в один из моментов времени £ € [¿0,+оо). Тогда, изменив для удобства определение стратегий игроков, легко убедиться, что траектория х'(-) является равновесной.

Действительно, будем считать, что стратегия игрока £ I в игре Г(£0,жо) представляет собой тройку

Щ =

Здесь aj - некоторое разбиение полуоси [¿о, +оо) точками с шагом Uj(■) -

допустимое программное управление игрока на полуоси [¿о, +оо) и У^, г £ J(j), - некоторая стратегия игрока ] в антагонистической игре Гг(£>). Неформально предполагается, что игрок, действуя в соответствии со стратегией Uj, в каждый из моментов Ь3к решает либо продолжать использовать програмное управление Uj(■), по крайней мере до момента либо начиная с момента Ь3к и до конца игры применять некоторую стратегию из набора {Уц^г^л^^).

Пусть для некоторого процесса (х'(-), «'(•)), х'(-) = х(-^о,хо,и'(-)) при всех г £ I и Ь Е [¿о, +оо) выполняются неравенства (16). Выберем произвольное е > 0. Для каждого ] Е I определим стратегию

где каждая из стратегий г Е J{j), является составляющей е/3-оптимальной стратегии игрока (коалиции) J(i) в антагонистической игре ГД-О), и'^(-) - управление из набора и'(-), а сг| = аЕ для всех ] Е /, т. е. считается, что все игроки используют одно и то же разбиение полуоси [¿о,+оо). Шаг разбиения а£ выберем так, чтобы выигрыш каждого из игроков на любом из отрезков этого разбиения не превосходил величины е/3. В рамках определения стратегии считается, что если некоторый игрок i Е I на промежутке [^-1,^) впервые отклоняется от применения своего программного управления то в момент времени tfc каждый из игроков ] Е J(i) переходит к

использованию стратегии У^ до конца игры.

Из данного определения стратегий Щ, г Е I, с одной стороны, следует, что величина, стоящая в правой части неравенства (16), представляет собой выигрыш г-го игрока в ситуации С/е = (Щ,..., и^), т. е.

+ СО

К^0,х0\ие)= I Ы(т,х\т),и'(т))(1т, (17)

а с другой, - что для любой программной стратегии 1/г игрока г его выигрыш в ситуации (С/£||С/г) разве лишь на е больше, чем величина, стоящая в левой части этого неравенства, т. е.

г

^о,ж0|!7е||*7г)-г < I Ы{т,х'(т),и'(т))с1т + Уг(г, ®'(0). (18)

¿о

Из (16)—(18) вытекает (6), т. е. и5 - ситуация ¿-равновесия в игре Г(£о,жо). Вместе с тем, по определению стратегий Щ, г € I, ситуация Vе порождает траекторию х'(-) независимо от выбора е > 0. Следовательно, х'(-) - равновесная траектория в игре Г(г0,х0).

На основе описанной выше идеи приведем теперь формальное доказательство достаточности, используя определение стратегий игроков, данное в п. 3.

Пусть, как и выше, для процесса (х'(■), и'(■)), х'(-) = х(-, ¿о, и'(-)) при всех % € I и t е [¿0) +оо) выполняются неравенства (11). Покажем, что для любого е > 0 найдется ситуация е-равновесия IIе 6 Р в игре Г(4о,жо), порождающая траекторию х'(-), т. е.

х'(0 = ®(Мо,®о,и£) УЬе[Ь0,+ос).

Выберем произвольное е > 0. В силу предположения о сходимости при любом ¿6/ интеграла в (4), существует Т = Т(е) > ¿о такое, что для любого набора допустимых управлений и(-) = (их(-),... ,ит(-)) выполнены неравенства

+оо /

hi(t, x(t, t0,x0,u(-)),u(t))dt

iei.

(19)

Стратегии Щ, образующие ситуацию е-равновесия в игре Г(£0,жо), будем искать в виде

Натуральное п\ выберем из условия, чтобы при любых г — 1,т, х(-) в А(Ьо,жо) и £',£" € [£о,Т] были выполнены неравенства

(20)

t /

hi(t, x(t),u(t))dt

4

(21)

если только \t' — t"\ ^ (T — io)/"i- Такой выбор возможен в силу компактности множества DT = {(t,x) G ^ T} и непрерывности функций Vi(-) и /ij(-), г = l,m.

Пусть p - равномерная метрика на пространстве ограниченных на множестве DT функций:

p(w1(-),w2(-)) = sup \wi(t,x) - w2(t,x)\.

(■t,x)eDT

Натуральное n2 = n2[e) выберем так, чтобы

p{Vi,W^) sC |

для всех к ^ «2 и г = 1,т. Это можно сделать в силу равномерной на любом ограниченном пространстве позиций сходимости последовательности {го^(-) | к функции

значения г»г(-), г Е / [7].

Рассмотрим набор управлений и'(-) = (и[(-),... определяющий рассматриваемый процесс (х'(■), и'(•)), и положим

ь1е(г0,х0) = «1=«о + (Г-40)"/п1, г = 1,т,

где и\\Ь о,¿х) - сужение управления и\(-) на полуинтервал [¿о,^)- Пусть также для каждого к = 2, П1

=и$к-1,и), гк = ¿о + к(Т - Ьо)/п1,

и пусть

где управления и +оо) являются сужениями управления и[(-) на со-

ответствующие полуинтервалы. Теперь заметим, что как бы ни были доопределены отображения г — 1,т; А; = 2,77.1 + 1, и как бы ни были, вообще, определены отображения Ьк£, г = 1, т, /с = пх + 2, П1 + п2, будем иметь

хЦ^0,х0,и£) =х'(г), *€[40,+оо). (22)

Доопределим теперь стратегии [/?, г 6 /, таким образом, чтобы ни одному из игроков не выгодно было отклонятся от своего управления и[(-), а следовательно, и от траектории ж'(-). С этой целью на основе последовательных приближений (9), (10) в антагонистической игре ГД!)) построим минимизирующую последовательность стратегий игрока (коалиции) J{i).

Обозначим через = {и^}^ и и^ = {и^}^ наборы управлений коалиции доставляющие минимум по ил^^ € PJ(i) в правой части соответственно равенств (10) и (9) при = £о, ж* = геостратегии Уц1)+ € П^), к е 14, определим рекуррентно:

= г- ' = е Пл (23)

считая, что стратегия е имеет вид

а каждое из отображений , = 1, тп, ] ф г, ставит в соответствие начальной позиции (£о,£о) постоянное на всей полуоси [¿о, +оо) управление Для каждого к Е N и

2 € J(г) зададим отображение ак]1+ в (23), исходя из того, что оно ставит в соответствие любой позиции (£*,£*) Е I) пару (в, в)), где в > доставляет минимум по Ь в правой части (9), а [£*,£?) = и^ - постоянное управление на интервале из

набора доставляющего минимум по Е -Р/(г) в правой части равенства (9).

По аналогии с леммой 5.2 в [8, с. 43] нетрудно показать, что для любых к £ К, У{ Е Пг и (£*,ж*) (Е .О справедливо неравенство

(24)

т. е. в каждой из антагонистических игр 1\(£*,:г*) семейства ГД!)) игрок J(г) может не позволить игроку г получить выигрыш больше, чем если он - игрок J(i) -

будет использовать стратегию Уд1+. Поэтому, в силу равномерной на множестве Б

сходимости последовательных приближений (■)} к функции значения У{(-) [7],

оо *=0

построенная последовательность 1 - минимизирующая последовательность

стратегий игрока (коалиции) J{i) в игре Г¿(¿).

Зафиксируем произвольное г = 1, т и определим каждое из отображений Ьке, ] — 1,т,] ф г, к — 2,п\ + п2, на следующем множестве информационных состояний:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Щ = {(г0,х0,и1[го,г),...,ит[го,г))\т1(г) <т40') VI = фг),

где

тЧп) = { 1п£{т 6 ['о.ОКМ ^ЧИ). если {т е [¿о,*Ж(т) ф и'ц{т)} ф 0; 1 в противном случае

(здесь и9(-) = 9 = Нетрудно видеть, что множество Wi состоит из тех

информационных состояний, которые показывают, что в некоторый предшествующий момент времени игрок г первым отклонился от использования управления и\(-). Сопоставим всякому набору (to,xo,ui[to,t),... ,um[to,t)) € Wi позицию (t,x) такую, что

x— lim x(t - 6, to,x0,ui[t0,t), ...,um[to,t))

5—>+0

и положим

bkje{t0,X0,ui[t0,t),...,um[t0,t)) = a]^n2~k(t,x), j = l,m, j ф i, k = 2,nx + n2. Здесь

arn+n2-k есть Te

отображения, которые задают стратегии

v£+n*~k) = (а™1+П2~к, ■ ■ j = M», j Ф i,

а они, в свою очередь, задают стратегию к\ Подобным образом определим

каждое из отображений Ьк]е, к = 2,п\ + п2, j = 1 ,тп, j ф г на всех множествах Wi, г = 1, тп. На тех подмножествах области задания этих отображений, где они не были еще определены, зададим их произвольно, согласуясь лишь с определением рекурсивных стратегий с информацией о предыстории по управлениям.

Покажем, что ситуация U£ = (Uf,..., U£г) является ситуацией е-равновесия в игре Г(£о,жо). Возьмем произвольные г = 1,т и Ui G Ri. Без ущерба для общности можно считать, что x(-,to,xo,U£\\Ui) ф х'(-). Пусть

«(•) = (üi(-),..., öm(0) =u(t0,x0,U£\\Ui) (25)

и

т' = inf{r € [i0,+oo)|üi(r) Ф u\(t)}.

Возможны следующие случаи: 1) т' ^ Т = Т(е); 2) т' < Т = Т(е). В случае 1)

ü(r) = u'(r) Vre <0,Т], и поэтому, с учетом (19), получим

+оо

Кг(г0,Х0\и£\\иг) = I hi(t,x(t,t0,X0,U£\\Ui),Ü(t))dt=:

to

¿о т

+оо +оо

т

+оо

, , -.......... 2е _____

Ьо

Из последних неравенств вытекает, что Vе - ситуация е-равновесия в игре Г(£о, жо). При этом, как следует из (22), ситуация и£ порождает траекторию х'(-) независимо от выбора е > 0. Таким образом, х'(-) - равновесная траектория в игре Г(£о,£о)-

Рассмотрим случай 2). Пусть ¿к~1 ^ т' < ¿к, к = 1,п\ (Ьк = ^ + к(Т — Ьо)/п1). Тогда, по определению первых к отображений, задающих стратегии [/?, ] = 1,т, ] ф i, для всех т € [¿0)^) справедливы равенства

й](т) = Ц(т), 2 = 1 ,тп, ] фг.

Поэтому, вспоминая (25), получим

х(т^0,Х0,и£\\иг) =х(т,ь0,х 0, Й1 (•),..., йт(0) =

= х(т,г0,х0,и'1(-),...,и'т(-)) =х'(т) Уг£[< о, 4-х], (26)

но вместе с тем при некоторых т 6 [¿/ь-ъ^] может быть

х(т,^,х0,и£\\иг) фх'(т).

Далее, так как

то ... ,йт[£о,0) £ V < ^ Тогда для программной стратегии

Уг = а\ такой, что а}(Ьк,хк) = «¿[¿¿,+00), по определению последних щ + п2 — к отображений, задающих на множестве стратегии ] = 1,т, ] ф г, имеем

х(т,^,х0,и£\\и{) = х(т,Ьк,хк,Уг,У^2-к) (27)

где

хк = х(Ьк,10,х0,и£\\иг). Теперь, учитывая сначала (26) и (27), а затем (11) и (19)—(21), находим

+оо

и

—1 ьк

+ e (n1+n2-fc), О

+ J hi(t, x(t, tk,Xk,Vi, V^*"2 fc)),u1(i),...,um(i))di ^ th

ifc-i

^ I + | + I hi{t,x\t),u\t))dt +

to to

tk-1«

/2e

hi{t,x'(t),u'(t))dt + Vi(tk,xk) + у ^

to

< J hi(t,x'(t),u'(t))dt + Vi(tk-i,x{tk-i,t0,x0,UE)) +e = tk-1

= J hifax'it^u'Mdt + Vifa-ux'itk-1))

to

+00 +00

J hi(t,x'(t),u'(t))dt + J hi(t,x'(t),u'(t))dt + e = J hi{t,x'(t),u'(t))dt + £ =

to

tk-1

to

tk-1

. ....... . .. +e <

to

tfc-1 +00 +00

to ifc— 1 to

+00

ío

Таким образом, при любом е > 0 справедливо неравенство (6), а так как наряду с ним при любом £ > 0 имеет место (22), то это и означает, что х'(-) - равновесная траектория в игре Г(£о,жо)- Теорема 3 доказана.

Автор благодарит проф. С. В. Чистякова за обсуждение результатов статьи и ценные замечания.

Summary

Adrianov A. A. On existence of e-equilibrium situation and equilibrium trajectories in one differential game with infinite duration.

A coalition-free m-person differential game with integrated payoffs on infinite time interval is considered. The existence of e-equilibrium situation for any e > 0 in the class of recursive strategies with control prehistory information is established. The notion of equilibrium trajectory is introduced and the theorem of existence of equilibrium trejectories is proved. The characteristic property of equilibrium trajectories is established.

Литература

1. Gao Hongwei, Chistyakov S. V. On a class of coalition-free differential games with infinite duration // Intern, congress of mathematicians. Game Theory and Applications. Satellite Conference. August 14-17, 2002. Qingdao, China. 2002. Proc. Vol. P. 163-167.

2. Чистяков С. В. О существовании решения бескоалиционных дифференциальных игр // Управление в динамических системах. — Л., 1979. С. 71-99. — Деп. ВИНИТИ от 24 июля 1979 г., № 2794-79.

3. Чистяков С. В. О бескоалиционных дифференциальных играх // Докл. АН СССР. 1981. Т. 259,№ 5. С. 1052-1055.

4. Dockner Е. J., Jorgensen S., Van Long N., Sorgen G. Differential games in economics and management science. Cambridge: Cambridge University Press, 2000. 382 p.

5. Воробьев H. H. Теория игр для экономистов-кибернетиков. М.: Наука, 1985. 272 с.

6. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1972. 496 с.

7. Никитин Ф. Ф., Чистяков С. В. Об антагонистических дифференциальных играх с неограниченной продолжительностью // Вестн. С.-Петерб. ун-та. Сер. 1: Математика, механика, астрономия. 2004. Вып. 3. С. 38-44.

8. Чистяков С. В. Операторы значения антагонистических дифференциальных игр. СПб.: Изд-во С.-Петерб. ун-та, 1999. 62 с.

9. Адрианов А. А., Чистяков С. В. Об одном классе бескоалиционных дифференциальных игр с неограниченной продолжительностью//Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления. 2005. Вып. 1. С. 78-93.

Статья представлена к публикации членом редколлегии С. В. Чистяковым.

Статья поступила в редакцию 7 июня 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.