К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями

Ухоботов Виктор Иванович; Гущин Денис Васильевич

К ВОПРОСУ О СУЩЕСТВОВАНИИ ЦЕНЫ ИГРЫ В ОДНОТИПНОЙ ИГРЕ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ

Рассматривается задача о встрече в заданный момент времени р, в которой на управление первого игрока накладываются геометрические и интегральные ограничения, на управление второго игрока — геометрические ограничения.

Ключевые слова: дифференциальная игра, цена игры, стратегия.

1. Пример

Первый игрок управляет точкой переменного состава, движение которой описывается уравнением Мещерского [1, с. 25]

^ т(Ь) л3

х = С + т—х Е Я, т(Ь)

где С — постоянная внешняя сила; т — относительная скорость отделяющихся частиц, величину ||т|| которой считаем постоянной, ||т|| — некоторая норма в Я3; т(Ь) = т0 + т1(Ь) — масса точки, причем т0 — неизменяемая часть массы, т1(Ь) — реактивная масса. Второй игрок управляет точкой, движущейся с ограниченной по величине скоростью ||у|| < Ь. Цель первого игрока заключается в том, чтобы в заданный момент времени р сделать расстояние Цу(р) — х(р)|| как можно меньше. Обозначим

, , . (р — Ь)2 1 .

г = у — х — (р — ъ)х + С--------, V = - у,

2 Ь

т(Ь) .. .. п т(Ь) ,

и = —т——, ц(Ь) = ||т|| 1п-. (1.1)

т(Ь) 11 11 то v у

Тогда расстояние между игроками в момент времени р и уравнения движения примут вид

Цу(р) — х(р)Ц = ||г(р)||, ¡г = —(р — Ь)и + Ьv, ¡1 = —||и||.

Считаем, что тяга ограничена числом ^ > 0. Тогда ограничения на выбор управлений и и V принимают вид

||и|| < ^, 1М1 < 1■

В начальный момент времени Ь = 0 задан начальный запас реактивной массы

т\(0) > 0. В процессе выбора управления в каждый момент времени Ь < р остав-

шийся запас реактивной массы должен быть неотрицательным, т. е. т1 (Ь) > 0. Согласно (1.1) это условие равносильно неравенству 1(Ь) > 0. Рассмотренный пример был решен в работе [2]. Мы рассмотрим более общий случай.

2. Постановка задачи

Рассмотрим игру в пространстве Кп:

¿ = —а(Ь)п + Ь(Ь^, ||п|| < 1, |М| < 1, Ь < р. (2.1)

Здесь а(Ь) и Ь(Ь) — неотрицательные непрерывные при Ь < р скалярные функции, р — момент окончания игры. Первый игрок выбирает управление п, второй — управление V. На выбор управления первого игрока, наряду с геометрическим ограничением (2.1), накладывается интегральное ограничение

£

¡л(Ь) = цо д(г, ||п(г)||) ¿г > 0, Ьо < Ь < р, (2.2)

£о

где Ь0 — начальный момент времени; ц0 > 0 — начальный запас ресурсов, который первый игрок сможет использовать на формирование своего управления.

Предположение. Функция д(Ь,р) > 0 определена при всех Ь < р, 0 < р < 1, выпукла по р, является непрерывной и д(Ь, 0) = 0 при всех Ь < р.

Первый игрок стремится минимизировать величину ||г(р) ||, а второй — максимизировать ее. Определим стратегии игроков и порожденные ими движения. Стратегией первого игрока является функция вида

п(Ь,г ) = р(Ь)т(Ь,г). (2.3)

Здесь т : (—то,р] х Кп ^ Кп — произвольная функция, удовлетворяющая равенству

|ИЬ,г)Ц = 1, (2.4)

а функция р(Ь) является измеримой, строится в зависимости от начального состояния Ь0, го, Ц0 и удовлетворяет неравенствам

£

0 < р(Ь) < 1, ц(Ь) = ц0 — J д(г, р(г)) ¿г > 0, Ь0 < Ь < р. (2.5)

~£о

Стратегия второго игрока задается функцией V : (—го,р] х Яп ^ Кп, которая удовлетворяет ограничению

||v(t,z)||< 1. (2.6)

Замечание. Такое определение стратегии первого игрока продиктовано следующими соображениями. Пусть в рассмотренном в предыдущем параграфе примере закон изменения массы нужно задать программным образом, а управлять можно только направлением относительной скорости отделяющейся массы. В этом случае приходим к понятию стратегии (2.3).

Дадим определение движения, порожденного заданными стратегиями. Зафиксируем начальное состояние Ь0 < р, г(Ь0) = г0, ц0 > 0. Возьмем разбиение

и : Ьо < < ••• < 4+1 = р

с диаметром ¿(ш) = тах(гг+1 — гг). Построим ломаную

0< г<к

(г) = гш(гг) — \ а(т)р(т) ¿т I (гг)) + \ Ь(т) ¿т | у(гг,гш(гг)). (2.7)

Здесь гш(г0) = ¿о, гг < г < гг+х. Оставшийся запас ресурсов ц(г) определим с помощью равенства (2.5). Обозначим

Ь = тах (а(т) + Ь(т)). (2.8)

Ьо<т<р

Тогда из ограничений (2.4) и (2.6) следует, что Цгш(т) — гш(г) || < Ь\т — г\ для всех т,г Е [г0,р]. Из этого неравенства следует, что семейство ломаных (2.7) является равномерно ограниченным и равностепенно непрерывным на отрезке [г0,р]. По теореме Арцела [3, с. 236] из любой последовательности ломаных (2.7) можно выделить подпоследовательность, равномерно сходящуюся на отрезке [г0,р]. Под движением ¿(г) будем понимать равномерный предел последовательности ломаных (2.7), у которых диаметр разбиения стремится к нулю.

3. Вычисление цены игры

Зафиксируем функцию <р(г), удовлетворяющую неравенствам (2.5). Подставим управление (2.3) в уравнение (2.1) и рассмотрим игру с геометрическими ограничениями

г, = —а(г)р(г)т + Ь(г)у, ||и>|| = 1, |Н| < 1. (3.1)

Первый игрок, выбирая управление /ш, минимизирует величину ||г(р) ||, а второй игрок, выбирая управление V, ее максимизирует. Обозначим

С*(г0,г0,р(-)) = тах{Р г ,р(-)); 1Ы1 + / (г0,р(-))}, (3.2)

р

/(г,^(')) = [(—а(т)^(т) + Ь(т)) ¿т Р(г0,р(-))= тах /(т,р(-)). (3.3)

J го<т<р

I

Теорема 1 [4]. Для начального состояния г0 < р,г0 Е Яп в игре (3.1) управление т = 'Шо(г), где

, ч I Л при Ы > 0, , ,

т0(г) = < Лг||с/|, ,, п п (3.4)

[ УЗ Е {||з|| = 1} при Ы = 0,

обеспечивает выполнение неравенства ||ы(р)|| < С*(г0, г0,р(-)).

Управление V = т0(г) обеспечивает выполнение противоположного неравенства ||г(р)|| > С*(г0,г0,р(-)).

Из этой теоремы следует, что функция (3.2) является функцией цены [5, с. 87] в игре (3.1). Рассмотрим следующую оптимизационную задачу:

I

G(to,Zo,ßo) = inf G* (to,Zo,<p(-)),

?{•)

p

0 < p(t) < 1 при to < t < p, j g(r, p(r)) dr < ßo. (3.5)

¿0

Если задача (3.5) имеет решение po : [to,p] ^ [0,1], то, как следует из теоремы 1, функция G(to,zo,ßo) является ценой в исходной игре. В этом случае оптимальным управлением первого игрока является функция uo(t, z) = po(t)wo(z), а оптимальное управление второго игрока равно vo(t,z) = wo(z). Функция wo(z) определяется формулой (3.4).

Теорема 2. Пусть функция g(t, ф) удовлетворяет условиям предположения. Тогда для любых to < p, zo Е Rn, ßo > 0 решение po(t) в задаче (3.5) существует.

Доказательство. Из условия g(t, 0) = 0 при всех t < p следует, что множество измеримых функций ip(t), удовлетворяющих ограничениям в задаче (3.5), не пусто. Из формул (3.2) и (3.3) получим, что G*(t0, z0, ф(-)) > 0 для любой измеримой функции ip(t) Е [0,1]. Поэтому нижняя грань в задаче (3.5) существует. Это значит, что существует последовательность измеримых функций ipm(t), удовлетворяющая ограничениям в задаче (3.5), такая, что

lim max{Fm(to); ||zo|| + fm(to)} = G(to,zo,ßo). (3.6)

m^<x>

Здесь обозначено

p

fm(t) = i(-a(r)pm(r) + b(r)) dr, Fm(t) = max fm(r). (3.7)

J t<r<p

t

Каждая функция fm(t) (3.7) удовлетворяет на отрезке [t0,p] условию Липшица с константой L (2.8). Отсюда следует, что семейство функций fm(t) является равномерно ограниченным и равностепенно непрерывным на отрезке [to, p]. По теореме Арцела из нее можно выделить подпоследовательность, которая на отрезке [t0, p] равномерно сходится к некоторой функции f (t). Предельная функция f (t) также удовлетворяет на отрезке [t0,p] условию Липшица с той же константой L. Не вводя новых обозначений, считаем, что сама последовательность функций fm(t) сходится к f (t) равномерно на отрезке [t0,p]. Из равномерной сходимости следует, что

Fm(to) = max fm(r) ^ max f (т) = F(to)

to<T <p to<T <p

при m ^ ж. Отсюда и из (3.6) получим, что

max{F(to); ||zo|| + f (to)} = G(to,zo,ßo).

Осталось показать, что существует измеримая на отрезке [t0,p] функция p0(t), удовлетворяющая ограничениям в задаче (3.5), такая, что

p

f (t) = f (-a(r)po(r) + b(r)) dr, to < t < p. (3.8)

С этой целью рассмотрим последовательность функций

p

lm(t) = j g(r,Pm (r)) dr, to < t < p. (3.9)

t

Из непрерывности функции g(t,p) следует, что она ограничена на множестве t0 < t < p, 0 < p < 1 некоторым числом Li > 0. Следовательно, каждая из функций (3.9) удовлетворяет на отрезке [t0,p] условию Липшица с этой константой Li. Поэтому, рассуждая так же, как и для последовательности функций fm(t) (3.7), можем считать, что последовательность функций lm(t) сходится равномерно на отрезке [t0,p] к некоторой функции l(t). Эта предельная функция удовлетворяет условию Липшица с той же константой Li .

Таким образом, построенные предельные функции f (t) и l(t) являются абсолютно непрерывными на отрезке [to, p] и, следовательно, у них почти всюду существуют производные. Допустим, что существует измеримая функция р0 : [t0,p] ^ [0,1] такая, что

f(t) = a(t)Po(t) — b(t), l(t) < -g(t, po(t)) (3-10)

для почти всех t G [t0,р]. Из первой формулы в (3.7) следует, что fm(p) = 0. Поэтому f (p) = 0. Интегрируя равенство (3.10), получим требуемую формулу (3.8). Каждая функция pm(t) удовлетворяет неравенству в (3.5). Поэтому, согласно формуле (3.9), lm(t0) < ц0 и lm(p) = 0. Следовательно, l(t0) < Ц0 и l(p) = 0. Интегрируя неравенство (3.10), получим, что функция p0(t) удовлетворяет требуемому неравенству (3.5).

Введем в рассмотрение многозначную функцию

Q(t) = {(qi,q2) g R2 : qi = a(t)p — b(t),q2 = —g(t,p) Ур G [0,1]}. (3.11)

Из непрерывности функций a(t), b(t) и g(t, p) следует, что многозначная функция (3.11) полунепрерывно сверху зависит от t G [t0,p]. Это значит, что для каждой точки t G [t0,p] и для любого числа е > 0 найдется число 5 > 0 такое, что для всех \t — т\ < 5,т < p

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Q(t) С Q(t)+ eS. (3.12)

Здесь обозначено S = {(qi,q2) G R2 : qf + q2 < 1}. Обозначим y(t) = (f (t),l(t)) и ym(t) = (fm(t),lm(t)),m > 1. Тогда почти всюду на отрезке [t0,p] существуют производные y(t) и ym(t), m > 1. Возьмем точку t G [t0,p), в которой существуют эти производные. Зафиксируем число h > 0, при котором t + h < p. Тогда

i

y(t + h) — y(t) = Um ym(t + h) — ym(t) = Um / ym(t + rh) dr. (3.13)

h m^-ж h m^-ж J

o

Из формул (3.7) и (3.11) следует, что ym(t+rh) G Q(t+rh) для почти всех r G [0,1]. Зафиксируем число е > 0. Тогда из включения (3.12) получим, что существует число 5 > 0 такое, что ym(t + rh) G Q(t) + eS для всех m > 1, 0 < h < 5 и

почти всех г Е [0,1]. Применяя понятие интеграла от многозначной функции [6], получим, что

1

Ут{ + - Ут(1) Е !т) + ев) ¿г = со Q(t) + ев. (3.14)

о

Здесь со Q — выпуклая оболочка множества Q. Поскольку множество, стоящее в правой части (3.14), является компактом, то, используя формулу (3.13), получим, что

у{г + к) - у{г) ^

---------------Е со Q(t) + ев.

к

Устремим к ^ 0+ и, учитывая, что е — произвольное положительное число, получим, что у(Ъ) Е соQ(t). Отсюда, используя теорему Каратеодори [7, с. 9], получим, что существуют числа Аг > 0, рг Е [0,1], г = 1, 2, 3, А1 + А2 + А3 = 1 такие, что

3 3

f (ъ)= АФ - b(t), 1 (Ъ) = -^ Агд(ъ,фг). (3.15)

г=1 г=1

Из этих формул, применяя лемму о выборе А. Ф. Филиппова [6], получим, что существуют измеримые на отрезке [Ъ0,р] функции Аг(Ъ) > 0,рг(Ъ) Е [0,1], А^Ъ) + +А2(Ъ) + А3(Ъ) = 1 такие, что они удовлетворяют равенствам (3.15) для почти всех

3

t Е [Ъ0,р]. Следовательно, функция р0(Ъ) = ^ Аг(Ъ)рг(Ъ) Е [0, 1] удовлетворяет

г=1

первому равенству в (3.10). Из выпуклости по р функций д(Ъ, ф) следует, что

з / з 4

1 (ъ) = - ^ Аi(t)g(t, фг(ъ)) <-д ^, ^ а()ф()

г=1 \ г=1

Таким образом, построенная функция р0(Ъ) удовлетворяет неравенству в (3.10).

□

4. Линейная задача управления при наличии помехи

Рассмотрим линейную управляемую систему

х = А(Ъ)х + с(Ъ)и + ш, х Е Яп, Ъ < р. (4.1)

Здесь А(Ъ) — непрерывная при Ъ < р матрица п х п; с(Ъ) — непрерывный при

Ъ < р п-мерный вектор; и — скалярное управление, стесненное ограничением

\и\ < 1; ш — помеха, значения которой принадлежат компакту Ш С Кп. Считаем, что Ш является связанным множеством. Задан вектор ф Е Кп. Цель выбора управления и заключается в минимизации величины \{ф,х(р))\. Здесь (ф,х) — скалярное произведение векторов ф, х Е Кп. Задан начальный момент времени Ъ0 < р. На выбор управления и накладывается интегральное ограничение

р

! д(г, \и(г)\) ¿г < ц0. (4.2)

Считаем, что функция g(t, p) удовлетворяет условиям, сформированным в предположении. Помеху отождествляем со вторым игроком.

Пусть Ф^) — фундаментальная матрица однородной системы X = A(t)x. Положим

b-(t) = min {ф,&(p)&-1(t)w), b+(t) = тах{ф,&(p)&-1(t)w). (4.3)

weW weW

Функции (4.3) являются непрерывными при t < p [7, с. 84]. Введем переменную

p

z = {ф, Ф(р)Ф-1 (t)x) + 2 J(b+ (r) + b-(r)) dr. (4.4)

t

Тогда из уравнений движения (4.1) получим, что z = {ф, ф(р)ф-1^)ф))п + f, f = {ф, ф(р)ф-1(ЬЩ - 1(b+(t) + b-(t)). (4.5)

Из формул (4.2) следует, что

~ b+(t) - b-(t) b+(t) - b-(t)~

_ 2 ’ 2 _ .

Поэтому уравнение (4.4) можно записать в следующем виде:

Z = -a(t)n + b(t)v, \п\ < 1, \v\ < 1,

a(t) = -\{ф, Ф(р)Ф-1тЩ, b(t) = b+(t) - b-(t).

Далее, из формулы (4.3) получим, что \z(p)\ = \{ф,х(р))\. Получили игру вида (2.1).

Список литературы

1. Красовский, Н. Н. Теория управления движением / Н. Н. Красовский. — М. : Наука, 1968.

2. Ухоботов, В. И. Однотипная линейная игра со смешанными ограничениями на управления / В. Н. Ухоботов // Приклад. математика и механика. — 1987. — Т. 51, вып. 2. — С. 179-185.

3. Люстерник, Л. А. Элементы функционального анализа / Л. А. Люстерник, В. И. Соболев. — М. : Наука, 1965.

4. Ухоботов, В. И. Синтез управления в однотипных дифференциальных играх с фиксированным управлением / В. И. Ухоботов // Вестн. Челяб. гос. ун-та. — Сер. Математика. Механика. — 1996. — № 1(3). — С. 178-184.

5. Айзекс, Р. Дифференциальные игры / Р. Айзекс. — М. : Мир, 1967.

6. Hermes, H. The Generalized Differential Equation x G R(t, x) / H. Hermes // Advances in Mathematics. — 1970. — №4. — P. 149-169.

7. Пшеничный, Б. Н. Выпуклый анализ и экстремальные задачи / Б. Н. Пшеничный. — М. : Наука, 1980.

{f : w G W} =

К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Ухоботов Виктор Иванович, Гущин Денис Васильевич

Похожие темы научных работ по математике , автор научной работы — Ухоботов Виктор Иванович, Гущин Денис Васильевич

Текст научной работы на тему «К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями»