Научная статья на тему 'Численное решение уравнения Беллмана для игровой задачи преследования на плоскости'

Численное решение уравнения Беллмана для игровой задачи преследования на плоскости Текст научной статьи по специальности «Математика»

CC BY
310
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Ученые записки ЦАГИ
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Кузьмин В. П.

Рассмотрен численный метод решения основного уравнения дифференциальных игр в частных производных для игры преследования на плоскости. Предложен способ, позволяющий получать устойчивое численное решение в ограниченной области фазовых координат. Приведены результаты расчетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Численное решение уравнения Беллмана для игровой задачи преследования на плоскости»

УЧЕНЫЕ ЗАПИСКИ Ц А Г И Т о м IX 197 8

№ 3

УДК 518.9

ЧИСЛЕННОЕ РЕШЕНИЕ УРАВНЕНИЯ ВЕЛЛМАНА ДЛЯ ИГРОВОЙ ЗАДАЧИ ПРЕСЛЕДОВАНИЯ НА ПЛОСКОСТИ

В. П. Кузьмин

Рассмотрен численный метод решения основного уравнения дифференциальных игр в частных производных для игры преследования на плоскости. Предложен способ, позволяющий получать устойчивое численное решение в ограниченной области фазовых координат. Приведены результаты расчетов.

1. Постановка задачи. Рассматривается игровая задача преследования-уклонения двух динамических объектов, движущихся в горизонтальной плоскости с постоянными по величине скоростями и ограниченными по минимальной величине радиусами кривизны траектории. Ограничение на минимальную величину радиуса кривизны траектории при постоянной величине скорости движения эквивалентно ограничению на максимальную величину угловой скорости разворота. В этих предположениях относительное движение объектов может быть описано следующей системой дифференциальных уравнений:

-^= — (Vi cosсрх + V2cos?2);

d<Pi_ Kjsln^-b K2sin<f2 ..... ns

~dt~~ ~ 1 11 1 '

d<f2 Vt sin <pj + V2 sin Vs .

~dt— ~r “2

где Vx и V2 — величины скоростей, г — расстояние между объектами, cpi и <р2 — углы между векторами скоростей объектов и соединяющей их прямой, coj и ш2 — величины максимальных угловых

скоростей объектов, и, и и2— управления. Индексом 1 обозначен преследующий объект, индексом 2 — уклоняющийся. Управления и и2 имеют постоянные пределы изменения:

-1<и1(0<1. — 1<и2(0<1. (2)

Обозначим через х вектор фазовых координат: х — (г, <ри <р2). Считается, что возможность поражения преследующим объектом уклоняющегося зависит от текущих значений фазовых координат

6—Ученые записки № 3

81

на траектории и определяется величиной некоторой функции №{х). В качестве платы рассматриваемой игры принимается максимальное значение функции Ш(х), достигаемое на траектории заданной протяженности Т

Р(х) — шах И7 [.*(£)]; л(0) = л:. (3)

I е [0. Т]

Целью первого игрока (преследующего) является максимизация платы, а целью второго (уклоняющегося) ее минимизация. Если каждый игрок выбирает наилучшие управления в соответствии с поставленной целью, то для каждой траектории реализуется оптимальное (минимаксное) значение платы, называемое ценой игры

тш шахР[х, и{ {х, (), и2(х, () Т] =5(х, Т).

И2 Ыг

Цена игры, таким образом, зависит только от значений вектора фазовых координат (каждое значение которого может, очевидно, рассматриваться как начальное условие) и продолжительности процесса преследования.

2. Основное уравнение дифференциальных игр. Для цены игры может быть записано уравнение Беллмана [1, 2], которое для дискретного изменения времени Т имеет следующий вид:

£(л;, Т + &Т) = шах

min шах [max S (х + Дх (и,, «2, т), Т)]\ и2 их т £[Т, Т 4-Д7’];

W(x)-

S(x, 0)= W(x).

(4>

Игровые задачи для данных или подобных объектов рассматриваются в ряде работ [2 — 4], где получены некоторые решения на основе интегрирования уравнений характеристик и последующего анализа получаемых траекторий. В данной работе используется метод непосредственного численного интегрирования основного уравнения дифференциальных игр (4).

Преобразуем уравнение (4) к виду, приемлемому для численного решения в предположении дискретности процесса и малости величины шага ДТ. При замене непрерывного процесса дискретным отрезок [0, Т] разбивается на меньшие отрезки, и определение максимального значения шах /(£) функции сводится к определению

<

максимального из ее значений в узлах разбиения шах /(пЫ). Если

П

■отрезок времени, на котором определяется максимум функции, совпадает с интервалом дискретности Д Т, как это имеет место в (4), то определение максимума сводится к сравнению двух значений функции

5(д:, Т) и 5[х + Дх(«,, «2, ДТ), Т].

Уравнение (4), таким образом, может быть переписано в виде

гшп тах 5[х + Дл:(«1, ы2, Д71), Г];

S (х, Т + АТ) = max

S(x, Ту, W (х).

(5)

Из сравнения первых двух величин в (5) следует, что функция S(x, Т) не убывает при увеличении времени Т. Учитывая началь-

ные условия в (4), а также тот факт, что функция W (х) не зависит явно от времени, получим, что

S(x, T)^W(x).

В этом случае функцию W(х) можно не использовать в качестве сравниваемой величины в (5). Функции их (t) и u2(t) будем считать кусочно-постоянными с интервалами постоянства, совпадающими с интервалами дискретности. Определение оптимальных управлений на интервале [Т, Т + АГ] сведется в этом случае к определению постоянных величин и\ и и*ъ которые удовлетворяют тем же ограничениям (2), что и функции и, (t) и uz(t).

Таким образом, перепишем уравнение Беллмана в том виде, в каком оно может быть непосредственно использовано в численной процедуре:

min шах5[х + Ах (и*, щ, АТ), 7];

S (х, Т + АТ) = шах

(6)

5(д:, Ту,

S(x, 0)=W(x).

Определение оптимальных значений и\ и и* в уравнении (6) сводится к отысканию седловой точки функции 5[x + Ax(Kj, и\, АТ), Г] по и* и и*г Для упрощения процесса определения оптимальных управлений воспользуемся малостью шага АТ. В этом предположении приращение функции AS можно приближенно записать в виде

3

S(x + Ах, Т) « S(x, Т) + 2 Щ—1 ft (*, и\, «р, (7)

(=1 ‘

где ft — правые части системы (1).

Подставив выражение (7) в уравнение (6), получим формулы для определения оптимальных значений управлений

“I=- ■ к - ■ (8>

Приближенная формула (7) используется только для упрощения вычислений оптимальных управлений, а вычисление приращения функции 5 проводится по точной формуле в уравнении (6)

Д5=5(а: + Дл:, T)-S(x, Т).

Как будет показано ниже, использование приближенного выражения (7) для определения изменения функции S может привести к неустойчивости вычислительного процесса.

Таким образом, уравнение (6) вместе с формулами (8) позволяют по известной функции 5(л:, Т) во всей области определения х в некоторый момент времени Т определить изменение этой функции в любой точке фазового пространства при увеличении времени на малую величину АТ. Для численного решения уравнения (6) необходим конкретный способ задания функции 5 от фазовых координат и времени Т. Учитывая, что правые части уравнений (1) и функция W(х) не зависят в явном виде от времени для численного интегрирования уравнения (6) необходимо запоминать значения функции S (л) длй двух последовательных моментов времени Т и Т -f- АТ.

(10)

3. Численная схема интегрирования. Используемый метод численного решения уравнения (6) предполагает построение расчетной сетки в области фазовых координат. Область определения фазовых координат, в которой вычисляется цена игры, называется расчетной областью и определяется системой неравенств:

® ^ ?1 ^ 0 ^ 2 ТС; Г min ^ Г Г max- (9)

Рассматриваемая область определения углов с?! и <ps описывает все возможные взаимные угловые положения объектов в силу очевидного для данной задачи соотношения

S(?i, ?s, r) = S(— 9и 2 тс — 92, г).

Рассмотрим прямоугольную расчетную сетку, соответствующую неравномерному разбиению по каждой координате. Неравномерность разбиения выбирается так, чтобы минимальные расстояния между узлами по каждой координате соответствовали области наибольших изменений функции W(х). Значение фазовых координат в узлах будем обозначать вектором

•*1={<P и> ?2J, /*}.

При этом

?i 1+1 = <Рц+ A<Pi(0. Тю = 0» г = 0, 1, 2, . . . , NVl\

?2/+i = ?2/i (./')» ?2о — У —+1» + 2, . . . ,+Мр.,;

rk+i = rk + Ar(k)„ r0=rmin, & = 0, 1, . . . , Nr,

1 = 1,2, , Nt, где Nt = (N9t + l)(M+i)(2N„+ 1).

Численный метод решения уравнения (6) для функции xt сводится к следующей процедуре

Ъ J, r„, 0) = W(?ll, <?2 р гк).

Для каждого узла расчетной сетки xt численно определяем значения производных

"с^7 (xi> ^ (Xl’ ^

и соответственно величины оптимальных управлений по формуле (8). Интегрируем уравнения движения (1) на шаге ДТ с постоянными управлениями и*, и* и начальными условиями х(0) = х1 и определяем вектор xt-\-Ах. Путем интерполяции по ближайшим узлам находим значение цены игры в точке xt + Ах. Максимальная из величин S(j>cz + Aa:, 0) и S(xt, 0) присваивается значению цены игры в рассматриваемом узле в момент времени АТ:

Six,, ЛТ) = шах S(^+4^°).

S (xt).

Таким образом могут быть вычислены значения функции S(x, АТ) во всех узлах, т. е. значение цены игры в момент времени АТ. Описанная процедура не зависит в явном виде от рассматриваемого значения времени Т, поэтому аналогично описанному по функции S (хи АТ) может быть вычислена цена игры в момент времени 2ДТ, и т. д.

4. Граничные условия. Рассмотрим некоторые особенности численного метода, обусловленные конечностью расчетной области фазовых координат. В том случае, когда узел расчетной сетки лежит на границе области, определенной неравенствами (9), при интегрировании уравнений (1) даже на малом шаге АТ траектория

может выйти за пределы расчетной области. Применение естественной, как кажется, в этом случае экстраполяции для вычисления функции S{xl + Ах) может привести к неустойчивости численного решения.

Рассмотрим причины неустойчивости на простом примере, когда функция S зависит от одной фазовой переменной х:

~ = а(х, и)>О,

■^min X Хтах-

Пусть в некоторый момент Т0 функция 5(х, Г0) = С = const. Использование уравнения (6) в этом случае, очевидно, дает •

S(x, Т) = С при 7’>Т’0.

Пусть теперь функция S в момент времени Т отлична от С в одном расчетном узле х = хтЕХ, 5(шах, Т0) — С + е (s>0) (фиг. 1, а). Именно из узла х — Xmaxj в силу условия dxjdt^>0, возможен выход за расчетную область. В этом случае экстраполяция значений цены игры (первого и второго порядка) для значений х^>хт^ даст, очевидно, dS/dx(хтах)>0, т. е. функция S при х^>хтзх будет монотонно возрастающей. При численном решении уравнения (6) получится монотонное увеличение значения функции в узле х=хтах для Г>70, а учитывая, что dx/dt]>0, то и во всей расчетной области Aiming л:-<

Если использовать линейную экстраполяцию (см. фиг. 1, а), то значения цены игры в каждой точке расчетной области S(tt) в некоторые моменты времени Тг+1> ТТ0 будут зависеть только от значения Tt и не будет практически зависеть от шага АТ.

Таким образом, если траектория из граничного узла выходит за границу области и цена игры, вычисленная путем экстраполяции за границу области, возрастает, то решение в некоторой части расчетной области может неограниченно возрастать с увеличением времени Т.

Если в приведенном примере (фиг. 1, б) цена игры отлична ■ОТ С во внутреннем узле х = хпфхшах, то с течением времени погрешность s может распространяться на часть расчетной области практически без искажения.

Выше было отмечено, что использование приближенной формулы (7) для вычисления приращения функции 5 приводит к не-

устойчивости численного решения. Такое явление происходит потому, что формула (7) автоматически приводит к линейной экстраполяции для граничных узлов, если только траектория выходит за расчетную область. Описанная возможность возникновения неустойчивости решения практически реализуется в данной задаче как при использовании приближенной формулы (7) для вычисления изменения функции S, так и при использовании экстраполяции значений цены игры за пределы расчетной области.

Рассмотрим граничные условия, которые позволяют избежать неустойчивость численного решения для ограниченной области фазовых координат. Расчетная область, определенная неравенствами (9), ограничена только по переменной г, а по переменным ?! и <р2 описывают все возможные взаимные угловые положения объектов. Поэтому при выходе траектории за формальные границы по углам ср, и ч>2 всегда можно найти внутреннюю точку расчетной области, соответствующую внешней. Приведем возможные случаи нарушения неравенств (9) по углам <pt и <р2 и формулы, которыми необходимо воспользоваться для нахождения внутренней точки расчетной области, эквивалентной внешней:

если ?i<0, то S (<Pj, 92, г) = 5(— 9Ь 2и — 92, г), 1

если <?!>«, то 5(9,, 92 r) = S(2it-9i, 2п —9а,'г), 1(Ц)

если 92 < 0 или 9г > 2тг, то 5(9,, <р2, г) = 5(91; 92 + 2гс, г). )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Легко проверить, что в случае нарушения одного из первых двух неравенств (9) или обоих сразу последовательная проверка условий (11) с соответствующим изменением координат 9, и 92 приведет к тому, что будет найдена внутренняя точка расчетной области, эквивалентная внешней.

В случае нарушения третьего из неравенств (9), т. е. если

r<Crmin или Г>Гшах, ТО НЭЙТИ Эквивалентную Внутреннюю ТОЧКу, очевидно, невозможно. В этом случае используется следующее предположение. Считается, что границы расчетной области выбраны такими, что значение цены игры для ограниченного времени Т за границами расчетной области по переменной г не больше, чем на границе. В этом случае цена игры в узлах расчетной сетки, соответствующих границе rz = rmin или гг = гшах, будет постоянной в процессе расчетов, если траектория из этих узлов выходит за границу расчетной области по переменной г, и, следовательно, будут отсутствовать погрешности, связанные с экстраполяцией. Формально сделанное предположение о граничных условиях можно трактовать как' окончание процесса преследования при нарушении неравенства гШш -< г < гтах. Практически удается выбрать границы расчетной области такими, что оптимальные траектории на рассматриваемых интервалах времени, начинающиеся из средней части расчетной области, полностью лежат в расчетной области. Сделанное предположение о граничных условиях не будет оказывать влияния на формирование цены игры для таких траекторий, поскольку на формирование цены игры в некоторой точке (х, Т) оказывают влияние значения цены игры в узлах расчетной сетки, ближайших к оптимальной траектории.

5. Расчет оптимальных траекторий. Режимы особого управления. Рассмотрим процесс интегрирования уравнений (1), когда управления «j и и2 вычисляются по известной функции S(x, Т).

Время Т в уравнении (6) означает длительность процесса преследования, поэтому для определения оптимальных управлений в некоторый момент времени Ь при интегрировании уравнений (1) на заданном интервале [О, Т к] необходимо использовать значение цены игры для момента времени Т—Тк —

Таким образом, для того, чтобы получить оптимальные траектории для заданных начальных условий и заданной протяженности Тк, необходимо последовательно запоминать значения цены игры в дискретные моменты времени Т, на том же интервале [0, Тк] при интегрировании уравнения (6) и использовать их в обратном порядке при интегрировании уравнений (1) для заданных начальных условий.

Задача получения оптимальных траекторий по известной цене игры 5(д:г, Т;) заметно упрощается, если существует стационарное решение уравнения (6). В этом случае при интегрировании уравнения (6) в каждом узле расчетной сетки устанавливается некоторое значение 5г(*г), которое, начиная с некоторого момента времени Тс, не меняется. Стационарное решение, устанавливающееся за время Тс, соответствует тому, что для процесса преследования, начинающегося из любой точки расчетной области, максимальное значение функции ]У (х) достигается за ограниченное время Стационарное значение цены игры не зависит от времени и, следовательно, для определения управлений по траектории в каждый момент времени можно использовать одно и то же значение цены игры 5с(хг).

При численном интегрировании уравнения (6) время установления стационарного решения неизвестно, поэтому при решении уравнения (6) промежуточные значения цены игры по времени запоминаются всегда, но если установится стационарное решение на заданном отрезке времени [0, Тк\, то только оно используется для построения оптимальных траекторий.

Вычисление оптимальных значений управлений по формуле (8) дает только предельные значения управлений иг и и2. При этом возможные режимы особого управления будут реализованы в виде, большого числа переключений управлений «1 или ы2, Знание цены игры Б(х, Т) позволяет в явном виде определить непредельные значения управлений.

Значение цены игры в произвольной точке х, не совпадающей с расчетным узлом, определяется путем квадратичной интерполяции. В этом случае производные д8;дх1 существуют в любой точке фазового пространства и режимы особого управления, учитывая (8), будут соответствовать условию д8/д®г = 0 или дБ/д<ра = 0.

Рассмотрим численный способ определения режимов особого управления для одного из игроков, например, для первого, поскольку для другого игрока все делается аналогично.

В качестве аргумента цены игры указывается только текущий момент времени t, в который она вычисляется, при этом подразумевается, что Т = 7^ — / и что значения фазовых переменных берутся в этот же момент времени

Пусть на некотором шаге интегрирования уравнения (1) производная цены игры по переменной ^ изменяет знак:

-£<*+">«>■

В этом случае, согласно (8), произойдет переключение управления с одного предельного значения и+ на другое и_. Величины и+ и и- могут, очевидно, равняться как 1 так и —1. Найдем приближенно момент времени *, при котором = 0.

Такой момент времени будет определяться по формуле

ая

т == t + At ■

d?t

(0

<95 . ая

*Г('+А*>:-*г<*>

Если поверхность является поверхностью переключения,

то движение из точки [т, л;(т)] с управлениями и+ или м_ будет происходить по одну сторону от поверхности переключения, а если д8/ду1 = 0 — особая поверхность, то движение с различными предельными управлениями и+ и и_ будет происходить по разные стороны от поверхности <?5/'(?91 = 0.

Проинтегрируем уравнения движения из точки [т, х ("с)] с управлением и_ на шаге Д£ и определим величину -^-(х + Д^). Условия, определяющие тип поверхности Р! = 0, будут иметь вид: если ^ (х 4- Д£) -щ- (I 4- М) > 0, то поверхность дБ/дсрг == 0 является поверхностью переключения и -с — момент переключения;

если *?(* + Д*) *?(< + Д0<0, ТО поверхность ^5/^! = 0 является особой и значение управления, соответствующее движению по ней, определяется по приближенной формуле:

(и+ — а_) з— (т + М)

(■' + д0—(0-^«+д0

и —и _1_.____________________

«1 — dS dS dS

При приближенном вычислении непредельных значений управ-

as ...

лении полагается, что линеина по времени в окрестности

-своего нуля на траектории с постоянным значением управления их.

6. Результаты численных расчетов. В численных расчетах функция W (х) задавалась в виде

W = [1 + КЧ1(1 - cos ?j) + /Сер, (1 + cos ср2) + К,(г — г0)*]-1

при следующих численных значениях параметров: KVl = 25, — 5,

Kr = 4-10-6 1/м2, г0 = 500 м. Расчетная область по переменной г определялась следующими предельными значениями: гШт = 200 м и Гmax — ЗоОО М.

При интегрировании уравнений (1) начальные условия по переменной г задавались из диапазона 1000 -г- 2500 м. Величины скоростей и максимальных угловых скоростей разворота задавались следующими l/i,2 = 250, 300 м/с, «>1,2 = 0,25, 0,3 70. Каждое конкретное значение параметров Киш будем определять величинами AV = = V\—V2 и Да) = (о1 —св2, при этом величинам Д1/=Дсо = 0 соответствуют следующие значения параметров: Ki=l/2 = 300 м/с и ш1==о)2 = 0,3 1/с.

Расстояния между узлами расчетной сетки увеличиваются по арифметической прогрессии в зависимости от номера узла, причем минимальные и максимальные размеры сетки и общее количество

узлов по каждой координате имеют следующие значения [см. соотношения (10)]

^„ = 49, NVl = 25, Nr= 15; A<Plmin~0,06, A'■pi max ~ 0,2;

A^2 min ~ 0,06, Д'Р2шах~0,2;

A/* min 125 M, А Г шах 0 M.

Изменение цены игры в некоторых расчетных узлах по времени для различных сочетаний величин A V и Дю показывает, что для всех сочетаний параметров A V и Д«о, кроме случая AV>0 и До)>0, устанавливается стационарное решение на интервале времени, не превышающем 30 с (фиг. 2). Это соответствует тому, что если уклоняющийся объект имеет либо величину скорости, либо величину максимальной угловой скорости разворота не меньшую, чем у преследующего объекта, то максимум функции W(t) достигается на ограниченном интервале времени, не превышающем времени разворота на угол 3^.

Для некоторых расчетных узлов интервалы увеличения цены игры чередуются с интервалами постоянства. Увеличение цены

S

0,2

0,1

О

&V=50m/c, А <о=-0,05 1/с

S

0,1

0 20 Ь,с

&V=50m/c, йш-0,05 1/с

S 0,5

0S

0,3

0,2

0,1

о

20 4-0 t,c

1—г=1535 м, '.f j -102, <ps=l,87;

2—rss1535 м, ?1 = 102, ср2=4,288;

3—г = 2073 м, 9,=0, <ps=4,288;

4—г=2073 м, tp,=102, <р3=4,288

У/ ч

К1

20 Ъ.с

игры при увеличении времени преследования Т происходит в том случае, если максимум функции (£) на траектории, начинающейся из данного узла, достигается в конце интервала Т. Если же максимум функции V? достигается во внутренней точке интервала t<T, то цена игры в данном узле не меняется при увеличении времени Т. Таким образом, чередование участков возрастания функции 5(дг/} Т) с участками постоянства в некотором узле соответствует тому, что для оптимальных траекторий, начинающихся из заданного узла расчетной сетки и имеющих различную протяженность, имеется несколько увеличивающихся по величине максимумов функции достигаемых в последовательно возрастающие моменты времени.

Рассмотрим некоторые режимы особого управления, существующие в данной задаче. Из анализа уравнений (1) получим один из возможных режимов особого управления, соответствующий условиям

ТСТ^СОПБ^ ср2 = СОП81, Г=С0П81, ф! = 0, (12)

при этом со8<р2=-^; | «11 = — и |и2| —•

где

Траектории, соответствующие такому режиму управления, реализуются для большинства начальных условий при условии Д1/<0. В частном случае Д1/ = 0 режим особого управления соответствует выходу на общую касательную к траекториям, характеризующимся минимальными радиусами разворота с последующими движением по прямой (фиг. 3). Такой тип оптимальных траекторий был получен аналитически в работе [3]. Сечения цены игры для одного случая, когда существует режим особого управления (фиг. 4), соответствующие различным значениям фазовых координат, показывают, что точка ^1 = 0, соз<р2 = -т7 является седловой

по управлениям щ и н2, если учесть, что они определяются по знакам соответствующих частных производных от цены игры (8). Изменение цены игры 5 и функции № (фиг. 5) вдоль траектории, изображенных на фиг. 3, характеризует два основных типа оптимальных траекторий, соответствующих стационарной цене игры.

г -1000м &У=0; й ш=0/ уг=<р2-и

ч>1-0п-о 20N 40° рп°~ " и,6

у /по

-180 -120 -ВО 0 60 120 (р2,град

г =2000/* 1 $

.... - ^

- 0}с

-180 -120 -60 0 60 120<рг,град

Фиг. 4

АУ~0,Ш~0

1—г0=1000 м, срш=30°, 92о=1600;

2—/*о=1000 м, 910=60о, 920—160°

Фиг. 6

Рассмотрим случаи Д1/=+50 м/с, До> = 0,05 7с и ДУ = 0, Дев = = -j-0,05 м/с. В первом из этих случаев преследующий имеет тот же минимальный радиус кривизны траектории, что и уклоняющийся объект, и большую величину скорости и, следовательно, он имеет возможность повторить траекторию уклоняющегося. Максимальное значение функции W на такой траектории будет достигнуто при значениях фазовых координат гх=257 м, «р1 = (р2 — ^0,128 и составит W* = 0,68; режим особого управления, соответствующий условиям (12) в этом случае, очевидно, отсутствует.

Таким образом, при неограниченном по времени процессе преследования цена игры во всей расчетной области должна быть не меньше чем W*. Для ограниченного времени 7=60 с значение цены игры близко к W* (фиг. 6) для некоторой области фазовых координат, для которой соответственно реализуются оптимальные траектории, когда преследующий почти точно повторяет траекторию уклоняющегося. Изменение фазовых координат и функций S и W для одной из таких траекторий показано на фиг. 7.

Точность численного решения можно оценивать по соответствию цены игры и функции W (t) вдоль траектории. Цена игры вдоль траектории должна, по определению, удовлетворять соотношению

5(/)= max W(x). (13)

Tk\

Из (13) следует, что цена игры должна быть постоянна на отрезке [0, <*], где t* момент достижения максимума функции W\t). Для

и

то

о

большинства проведенных расчетов точность выполнения соотношения (13) такая же, как и для результатов, приведенных на фиг. 5 и 7, и может считаться удовлетворительной.

В случае ДУ = 0, Д(о= + 0,05, если уклоняющийся использует предельные значения управлений, то преследующий также имеет возможность монотонно сближаться с ним, но уже не по траектории уклоняющегося, так как ]/1=У2, а по траектории несколько меньшего радиуса. Максимальное значение функции Ш при этом будет также примерно равняться Ш*. Кроме того, здесь возможен режим особого управления, соответствующий выходу на общую касательную к траекториям минимальных радиусов. Таким образом, для значений параметров Д1/ = 0 и Д<» = +0,05 вид оптимальной траектории определяется уклоняющимся из сравнения максимального значения функции достигаемого при использовании режима особого управления с выходом на общую касательную к траекториям минимальных радиусов, с величиной Ш*. Отметим, что траектории, соответствующие предельному значению управлений уклоняющегося, реализуются в этом случае только из очень узкой области начальных условий, когда углы 1^1 и К —<р2| малы и г близко к г0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА

1. Беллман Р., КалабаР. Динамическое программирование и современная теория управления. М., „Наука", 1969.

2. Айзекс Р. Дифференциальные игры. М., .Мир", 1967.

3. С и м а к о в а Э. Н. Об одной дифференциальной игре преследования. „Автоматика и телемеханика", 1967, № 2.

4. Же л нин Ю. Н., Шилов Ю. Я. Нелинейная игровая задача преследования на плоскости. «Ученые записки ЦАГИ“, т. 5, № 5, 1974.

Мг

■ 1

0,5

)■ 0

Д7-Я7л 1/с; Лш =0,051/ 'с

р \

1

2 0 $2-,/ 4 0,

* \ II 02~ТС

Фиг. 7

Рукопись поступила 2611У 1977 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.