Научная статья на тему 'Особенности оптимального уклонения в одной дифференциальной игре на плоскости'

Особенности оптимального уклонения в одной дифференциальной игре на плоскости Текст научной статьи по специальности «Математика»

CC BY
165
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Ученые записки ЦАГИ
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Кузьмин В. П.

Рассматривается игра преследования и уклонения двух объектов, совершающих плоское движение с постоянными скоростями и ограниченной кривизной траектории. На основании численного решения уравнения Беллмана для игровой задачи и анализа уравнений для характеристик этого уравнения определен геометрический смысл универсальной поверхности в игре с угловым критерием захвата.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Особенности оптимального уклонения в одной дифференциальной игре на плоскости»

УЧЕНЫЕ ЗАПИСКИ Ц АГ И

Том XII

198 1

№ 6

УДК 518.9

ОСОБЕННОСТИ ОПТИМАЛЬНОГО УКЛОНЕНИЯ В ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ НА ПЛОСКОСТИ

В. П. Кузьмин

Рассматривается игра преследования и уклонения двух объектов, совершающих плоское движение с постоянными скоростями и ограниченной кривизной траектории. На основании численного решения уравнения Беллмана для игровой задачи и анализа уравнений для характеристик этого уравнения определен геометрический смысл универсальной поверхности в игре с угловым критерием захвата.

Плоское относительное движение двух динамических объектов с постоянными скоростями ги1 и v2 описывается следующей системой дифференциальных уравнений:

dr

— — Vi COS ®! — V2 COS <?2,

dt

d cpi

~~dT

dt

V1 sin ?! + v2 sin c2

1>1 Sin tfi Ц- v2 sin tf2

(1)

J

где /-—расстояние между объектами; ®, и <р2 — углы между линией визирования и векторами скоростей, отсчитываемые, как показано

Рис. 1

на рис. 1; и1 и и2 —управляющие функции игроков, на которые наложены ограничения:

!«1К 1, [м2|<1-

Минимальные радиусы кривизны траектории объектов и считаем ограниченными. Для характеристики объектов в дальнейшем вместе с величинами минимальных радиусов кривизны и /?2 используются величины максимальных угловых скоростей: ш2 = ъ2Щг.

Роли игроков считаются заранее определенными: игрок 1 считается преследующим, а игрок 2 — уклоняющимся. Преследование считается законченным, если уклоняющийся объект попадает •в некоторый сектор впереди преследующего (рис. 1), т. е. если выполняется неравенство:

I 1 < д. (2)

где Д—некоторая заданная величина.

Будем говорить, что в случае выполнения неравенства (2) происходит захват преследующим объектом уклоняющегося. Такая игра по классификации [1] является игрой качества. Однозначное оптимальное поведение объектов в этой игре существует только на барьерах-поверхностях, разделяющих фазовое пространство на области, из которых возможен захват уклоняющегося, и области, из которых захват невозможен. Построение таких барьеров может быть проведено по методике работы [1] на основании интегрирования уравнений для характеристик основного уравнения дифференциальных игр. Уравнения характеристик соответствуют необходимым условиям оптимальности, поэтому практическое применение этого метода ограничено случаями, когда возможно проведение дополнительного анализа полученных траекторий [2] или их оптимальность не вызывает сомнений вследствие выбранных параметров объектов [3].

В данной работе для решения игровой задачи используется методика численного интегрирования основного уравнения дифференциальных игр в частных производных [4]. При использовании такого подхода можно получить решения лишь для конкретных значений параметров ъ2, “и “а) объектов и, кроме того, численное решение неизбежно содержит погрешности. Поэтому в работе используется анализ уравнений характеристик для выяснения смысла решений, полученных численным путем.

Для того чтобы использовать методику численного интегрирования уравнения Беллмана, необходимо рассматривать некоторую игру степени, решение которой содержало бы в себе решение игры качества. В данном случае в качестве платы игры необходимо рассматривать максимальное (или минимальное) значение четной и монотонной в диапазоне [0, тг] функции угла <рх

В соответствии с ранее определенными целями игроков первый будет стремиться достичь максимального значения платы (3), а второй — минимального.

Решение игры степени с платной, заданной формулами (3), (4), будет содержать в себе решение игр качества для произвольных

/= шах /(<?№). <е!0. т\ х 1

(3)

При проведении расчетов принималось

/(?!>= сое?!.

(4)

значений Д из (2). Так, если S(r, <рь ср2, Т) — цена игры степени заданной продолжительности Т, то барьером в игре качества для заданного Д и того же Т будет граница области, определенная неравенством:

5 (г, <?и <?2, Т) < cos Д.

Обозначим вектор фазовых координат через х(х = {г, <р,, <р2});

тогда уравнение Беллмана для игры с платой (3) имеет вид [5]

dS (х, Т) | F(x, Т), если F(x, Т) > 0, 5-

дт 1 0 если F(x, Г)< О,

где

з

F(x, Т) = min max X' ^ /; (х> «и «г)

щ и, г=1 *

и /] (л, и15 и2) — правые части системы уравнений (1).

Начальное условие для данного уравнения будет иметь вид

5(х, 0) = cos<Pi-

Уравнение (5) решается численно методом сеток [4]. Для построения оптимальных траекторий используется цена игры для некоторого фиксированного момента времени Т и соотношения для определения оптимальных управлений:

dS(x, Т) dS(x, Т)

их = - sign -5—-; «2 = sign •

Режимы особого управления определяются способом, описанным в [4].

Численное интегрирование уравнения (5) ведется в ограниченной по переменной г области фазовых координат, что требует наложения дополнительных условий на границе расчетной области. В качестве граничного условия принимается равенство нулю производной цены игры по внешней нормали к границе области. Физически такое условие означает окончание процесса преследования при выходе траектории из расчетной области. Таким образом, цена игры S(x, Т), полученная численным путем в ограниченной расчетной области фазовых координат, соответствует игре, в которой, наряду с заданной продолжительностью по времени Т, существует дополнительное условие окончания, соответствующее выходу траектории из расчетной части. В данном случае существенным является ограничение расчетной области только по переменной г. По переменным f1 и ср2 расчетная область ограничена лишь формально, поскольку рассматриваемые в расчетах диапазоны изменения углов ср1 и <р2 (0<<Р!<7г, 0<;<р2<2тс) описывают все возможные относительные положения объектов. Для того чтобы определить однозначные оптимальные траектории уклонения и преследования на основании численного решения уравнения (5), необходимо, чтобы существовала область фазовых координат, в которой выполняется строгое неравенство:

cos 9i<S(r, <р„ <р2, Г)<1.

Область фазовых координат, где выполняется равенство S(x, T) — S(x, 0) = cos<pb соответствует начальным условиям для траекторий, минимальное значение угла <рх на которых достигается в начальный момент времени. Возможные размеры такой области можно оценить следующим образом. Для того чтобы угол ср достигал минимального значения в начальный момент времени,.

необходимо, чтобы выполнялось условие min 0. Учитывая

их

(1), получим

m ^ щ sin <h + у» sino2

Если существует область фазовых координат, где выполняется равенство 5 (я, Г) = 5(л:, 0), то она целиком содержится в области, определенной условием (6), так как оно является только необходимым. Из соотношения (10), в частности, следует, что максимальное значение переменной г в этой области составляет Ду |^1 | •

Область фазовых координат, в которой 8(х, Т)= 1, соответствует начальным условиям для траекторий, на которых минимальное значение угла равно нулю и, следовательно, для этих начальных условий невозможно уклонение ни при каком значении угла А из (2). Таким образом, однозначное оптимальное, в смысле платы (3), поведение игроков можно определить только для тех начальных условий, из которых возможно уклонение хотя бы для малых значений угла А, определяющего условия захвата. В связи с этим в первую очередь интерес представляет решение задачи при таком соотношении скоростей и минимальных радиусов объектов, при котором возможность уклонения для некоторых начальных условий не вызывает сомнений.

Рассмотрим случай, когда скорости объектов равны и радиус кривизны траектории преследующего больше, чем уклоняющегося. В расчетах было принято г»1 = 'Р2 = 300 м/с, = 1250 м, /?2=1000м.

6—„Ученые записки ЦАГИ* № 6.

Рис. 2

81

Основные параметры расчетной сетки были следующими/Количество узлов по переменным г, <р, и <?2 составляло соответственно 17, 25 и 49. Минимальное и максимальное значения переменной г в расчетной области составляли соответственно 250 и 5250 м. Продолжительность процесса преследования не превышала 60 с.

На рис. 2 показаны характерные траектории преследования и уклонения для этого случая. Траектории объектов приведены в неподвижной декартовой системе координат хи гх с разметкой по времени до момента времени (к, соответствующего достижению минимума угла ср}. Характерным для поведения уклоняющегося во многих случаях является наличие режима особого управления на заключительном участке траектории и наличие одного минимума угла по траектории. На рис. 3 приведены характерные области фазового пространства в координатах л; = гзтФ2 и у — = г сое фз для различных значений угла <о1. Заштрихованная область соответствует условию 5—1 или с учетом (4) ?1тш = 0; граница этой области является барьером в игре качества для Д = 0. Область „0“ соответствует условию 5(х, Т) —сое?,. Область „А“ соответствует траекториям с предельным значением управления уклоняющегося (рис. 2, а), а область „В* — траекториям уклонения с режимом особого управления (рис. 2, б). В области „С“ уклонение определяется стремлением выйти за границу расчетной области.

Наибольший интерес представляет исследование траекторий, содержащих режим особого управления, поскольку именно с особым режимом связано существование универсальных поверхностей, позволяющих получить закономерности оптимального поведения [6]. В силу симметрии в данной задаче можно рассматривать только положительные значения угла <р,. Условие окончания игры

(терминальная поверхность) для значений углов <рх из диапазона [О, и] определяется соотношениями

dcp

dt

u*v ul) = 0,

d2 ?i dP

(tk, u\, я£)> 0.

(7)

Оптимальные значения управлений и\, и\ в конечный момент времени tk определяются из условия минимума и максимума младшей из производных (7), в выражение для которой они входят в явном виде. Таким образом, из (7) получаем для t = tk

t>t Sin <pt + t/2 sin tf2

V2 COS С

M2 = —Sign COS cp2,

;(f>l + «2 sign COSifg) _j_ mt COS yt + V2 COS cp2) ^ q

(8)

Из условий (8) следует, что режим особого управления уклоняющегося на заключительном участке траектории возможен при условии СОБ срз — 0, ср2 = те/2.

Для определения геометрического смысла оптимальных траекторий, соответствующих режиму особого управления, используются необходимые условия оптимальности. Система уравнений для сопряженных переменных в данной задаче имеет вид

dp*

dt

г>! sin + ii2sin tp2

?I' !(Jj'

dp i»i ~0Г =~PrVl sin ?! - (PVI + Pj — cos <?!,

dp..

dt

-prv2 sin 4>2 — (p„ + /><?,) — COS cp:

(9)

На терминальной поверхности сопряженные переменные удовлетворяют условиям

P%(tk)=P>Р.(**). = О, РчЛ*») = — sin?i(y. (10)

Оптимальные управления определяются соотношениями

и; = — sign />9i, и\ = sign p.fa. (11)

Оптимальные значения управлений на терминальной поверхности (8) можно определить и из условий (11); для этого необходимо ТОЛЬКО учесть, ЧТО p.i'(tk) = 0 И ДЛЯ определения «2 исполь-

dP<f,

зовать производную —— (tk).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Наличие режима особого управления на конечном участке траектории вблизи терминальной поверхности должно соответствовать условию р (£) = 0. Для выполнения этого условия в силу однородности системы уравнений (9) достаточно, чтобы в некоторой точке на терминальной поверхности выполнялось условие

dp^{tk) d2 ръ (tk)

РА**)'

dt

dt

=--0.

d*p,

Определив выражение для второй производной —и под-

d2p

ф” терминальные условия (8)

ставив в соотношения для —J- и

и (10), получим

dt

dt2

/>,,(**) = 0.

dt

d‘P^(tk)

Ш*

■Ppi—C0S?*,

-&ТРъи*

(12)

p

Выражение для —в (12) приведено для случая cos<p2 = 0.

Из (12) получаем, что режим особого управления соответствует прямолинейному движению («2 = 0) и заканчивается при условии

(13)

Из условий (12) также следует, что возможен сход с прямолинейной траектории с предельным значением управления любого знака при движении в обратном времени. Поверхности такого типа по классификации работы [1] называются универсальными. Из (13) следует, что прямолинейное движение уклоняющегося на заключительном участке траектории происходит по общей касательной к окружности радиуса /?0 — концентрической к ок-

ружности минимального радиуса Rx для преследующего объекта, и окружности минимального радиуса /?2 для уклоняющегося, как показано на рис. 4. Направление касательной можно характеризовать углом <p2(‘Pi> г), составленным ею с линией визирования, который определяется соотношением

cos <f! VR\ cos2 <pj + (г — Rt sin cpO2 Rl + R0 (r — Rt sin <pt)

tg m* = --------------— ----------------- . (14)

(/- — Ri sin <Pj) VR\ cos2 <fi + (r — Ri sin tpi)2—R\ — R\ R0 cos <p2

При численном решении уравнения (5) наличие режима особого управления для уклоняющегося должно соответствовать

Рис.' 5

Рис. 6

V) -Ч-OOtf/c; Уг = 300м/с ;ш, = 0,3 1/с; w2 ” 0,3 1/с; tk = 15fic; Цтіп=36, Ґ

появлению минимума цены игры по переменной при значении ср2 = ср*. На рис. 5 приведена зависимость ®*(г, <?;), определенная из соотношения (14), и аналогичная зависимость, определенная численным путем, соответствующая минимуму цены игры (штриховая линия). Следует отметить, что, используя геометрическую трактовку стратегии оптимального уклонения, можно построить траектории по начальным условиям только в том случае, если оптимальное преследование сводится к движению только с предельным значением щ. Такое условие, в частности, выполнено, если скорости объектов равны, а минимальный радиус кривизны у уклоняющегося меньше, чем у преследующего. В общем случае преследование не сводится к движению с предельным значением управления, и в этом случае соотношение (14) определяет только оптимальное уклонение (рис. 6).

ЛИТЕРАТУРА

1. Айзекс Р. Дифференциальные игры. М., „Мир“, 1967.

2. Же л нин Ю. Н. Линеаризованная задача преследования и уклонения на плоскости. „Ученые записки ЦАГИ“, т. VIII, № 3, 1977.

3. Merz A. W. and Hague D. S. Coplanar tail-chase aerial combat as a differential game. „A1AA“, vol. 15, N 10, 1977.

4. Кузьмин В. П. Численное решение уравнения Веллмана для игровой задачи преследования на плоскости. „Ученые записки ЦАГИ“, т. IX, № 3, 1978.

5. Веллман Р., Калаба Р. Динамическое программирование и современная теория управления. М., „Наука“, 1969.

6. Симакова Э. Н. Об одной дифференциальной игре преследования. .Автоматика и телемеханика", 19о7, № 2.

Рукопись поступила 7/V 1980 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.