УЧЕНЫЕ ЗАПИСКИ Ц АГ И
Том XII
198 1
№ 6
УДК 518.9
ОСОБЕННОСТИ ОПТИМАЛЬНОГО УКЛОНЕНИЯ В ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ НА ПЛОСКОСТИ
В. П. Кузьмин
Рассматривается игра преследования и уклонения двух объектов, совершающих плоское движение с постоянными скоростями и ограниченной кривизной траектории. На основании численного решения уравнения Беллмана для игровой задачи и анализа уравнений для характеристик этого уравнения определен геометрический смысл универсальной поверхности в игре с угловым критерием захвата.
Плоское относительное движение двух динамических объектов с постоянными скоростями ги1 и v2 описывается следующей системой дифференциальных уравнений:
dr
— — Vi COS ®! — V2 COS <?2,
dt
d cpi
~~dT
dt
V1 sin ?! + v2 sin c2
1>1 Sin tfi Ц- v2 sin tf2
(1)
J
где /-—расстояние между объектами; ®, и <р2 — углы между линией визирования и векторами скоростей, отсчитываемые, как показано
Рис. 1
на рис. 1; и1 и и2 —управляющие функции игроков, на которые наложены ограничения:
!«1К 1, [м2|<1-
Минимальные радиусы кривизны траектории объектов и считаем ограниченными. Для характеристики объектов в дальнейшем вместе с величинами минимальных радиусов кривизны и /?2 используются величины максимальных угловых скоростей: ш2 = ъ2Щг.
Роли игроков считаются заранее определенными: игрок 1 считается преследующим, а игрок 2 — уклоняющимся. Преследование считается законченным, если уклоняющийся объект попадает •в некоторый сектор впереди преследующего (рис. 1), т. е. если выполняется неравенство:
I 1 < д. (2)
где Д—некоторая заданная величина.
Будем говорить, что в случае выполнения неравенства (2) происходит захват преследующим объектом уклоняющегося. Такая игра по классификации [1] является игрой качества. Однозначное оптимальное поведение объектов в этой игре существует только на барьерах-поверхностях, разделяющих фазовое пространство на области, из которых возможен захват уклоняющегося, и области, из которых захват невозможен. Построение таких барьеров может быть проведено по методике работы [1] на основании интегрирования уравнений для характеристик основного уравнения дифференциальных игр. Уравнения характеристик соответствуют необходимым условиям оптимальности, поэтому практическое применение этого метода ограничено случаями, когда возможно проведение дополнительного анализа полученных траекторий [2] или их оптимальность не вызывает сомнений вследствие выбранных параметров объектов [3].
В данной работе для решения игровой задачи используется методика численного интегрирования основного уравнения дифференциальных игр в частных производных [4]. При использовании такого подхода можно получить решения лишь для конкретных значений параметров ъ2, “и “а) объектов и, кроме того, численное решение неизбежно содержит погрешности. Поэтому в работе используется анализ уравнений характеристик для выяснения смысла решений, полученных численным путем.
Для того чтобы использовать методику численного интегрирования уравнения Беллмана, необходимо рассматривать некоторую игру степени, решение которой содержало бы в себе решение игры качества. В данном случае в качестве платы игры необходимо рассматривать максимальное (или минимальное) значение четной и монотонной в диапазоне [0, тг] функции угла <рх
В соответствии с ранее определенными целями игроков первый будет стремиться достичь максимального значения платы (3), а второй — минимального.
Решение игры степени с платной, заданной формулами (3), (4), будет содержать в себе решение игр качества для произвольных
/= шах /(<?№). <е!0. т\ х 1
(3)
При проведении расчетов принималось
/(?!>= сое?!.
(4)
значений Д из (2). Так, если S(r, <рь ср2, Т) — цена игры степени заданной продолжительности Т, то барьером в игре качества для заданного Д и того же Т будет граница области, определенная неравенством:
5 (г, <?и <?2, Т) < cos Д.
Обозначим вектор фазовых координат через х(х = {г, <р,, <р2});
тогда уравнение Беллмана для игры с платой (3) имеет вид [5]
dS (х, Т) | F(x, Т), если F(x, Т) > 0, 5-
дт 1 0 если F(x, Г)< О,
где
з
F(x, Т) = min max X' ^ /; (х> «и «г)
щ и, г=1 *
и /] (л, и15 и2) — правые части системы уравнений (1).
Начальное условие для данного уравнения будет иметь вид
5(х, 0) = cos<Pi-
Уравнение (5) решается численно методом сеток [4]. Для построения оптимальных траекторий используется цена игры для некоторого фиксированного момента времени Т и соотношения для определения оптимальных управлений:
dS(x, Т) dS(x, Т)
их = - sign -5—-; «2 = sign •
Режимы особого управления определяются способом, описанным в [4].
Численное интегрирование уравнения (5) ведется в ограниченной по переменной г области фазовых координат, что требует наложения дополнительных условий на границе расчетной области. В качестве граничного условия принимается равенство нулю производной цены игры по внешней нормали к границе области. Физически такое условие означает окончание процесса преследования при выходе траектории из расчетной области. Таким образом, цена игры S(x, Т), полученная численным путем в ограниченной расчетной области фазовых координат, соответствует игре, в которой, наряду с заданной продолжительностью по времени Т, существует дополнительное условие окончания, соответствующее выходу траектории из расчетной части. В данном случае существенным является ограничение расчетной области только по переменной г. По переменным f1 и ср2 расчетная область ограничена лишь формально, поскольку рассматриваемые в расчетах диапазоны изменения углов ср1 и <р2 (0<<Р!<7г, 0<;<р2<2тс) описывают все возможные относительные положения объектов. Для того чтобы определить однозначные оптимальные траектории уклонения и преследования на основании численного решения уравнения (5), необходимо, чтобы существовала область фазовых координат, в которой выполняется строгое неравенство:
cos 9i<S(r, <р„ <р2, Г)<1.
Область фазовых координат, где выполняется равенство S(x, T) — S(x, 0) = cos<pb соответствует начальным условиям для траекторий, минимальное значение угла <рх на которых достигается в начальный момент времени. Возможные размеры такой области можно оценить следующим образом. Для того чтобы угол ср достигал минимального значения в начальный момент времени,.
необходимо, чтобы выполнялось условие min 0. Учитывая
их
(1), получим
m ^ щ sin <h + у» sino2
Если существует область фазовых координат, где выполняется равенство 5 (я, Г) = 5(л:, 0), то она целиком содержится в области, определенной условием (6), так как оно является только необходимым. Из соотношения (10), в частности, следует, что максимальное значение переменной г в этой области составляет Ду |^1 | •
Область фазовых координат, в которой 8(х, Т)= 1, соответствует начальным условиям для траекторий, на которых минимальное значение угла равно нулю и, следовательно, для этих начальных условий невозможно уклонение ни при каком значении угла А из (2). Таким образом, однозначное оптимальное, в смысле платы (3), поведение игроков можно определить только для тех начальных условий, из которых возможно уклонение хотя бы для малых значений угла А, определяющего условия захвата. В связи с этим в первую очередь интерес представляет решение задачи при таком соотношении скоростей и минимальных радиусов объектов, при котором возможность уклонения для некоторых начальных условий не вызывает сомнений.
Рассмотрим случай, когда скорости объектов равны и радиус кривизны траектории преследующего больше, чем уклоняющегося. В расчетах было принято г»1 = 'Р2 = 300 м/с, = 1250 м, /?2=1000м.
6—„Ученые записки ЦАГИ* № 6.
Рис. 2
81
Основные параметры расчетной сетки были следующими/Количество узлов по переменным г, <р, и <?2 составляло соответственно 17, 25 и 49. Минимальное и максимальное значения переменной г в расчетной области составляли соответственно 250 и 5250 м. Продолжительность процесса преследования не превышала 60 с.
На рис. 2 показаны характерные траектории преследования и уклонения для этого случая. Траектории объектов приведены в неподвижной декартовой системе координат хи гх с разметкой по времени до момента времени (к, соответствующего достижению минимума угла ср}. Характерным для поведения уклоняющегося во многих случаях является наличие режима особого управления на заключительном участке траектории и наличие одного минимума угла по траектории. На рис. 3 приведены характерные области фазового пространства в координатах л; = гзтФ2 и у — = г сое фз для различных значений угла <о1. Заштрихованная область соответствует условию 5—1 или с учетом (4) ?1тш = 0; граница этой области является барьером в игре качества для Д = 0. Область „0“ соответствует условию 5(х, Т) —сое?,. Область „А“ соответствует траекториям с предельным значением управления уклоняющегося (рис. 2, а), а область „В* — траекториям уклонения с режимом особого управления (рис. 2, б). В области „С“ уклонение определяется стремлением выйти за границу расчетной области.
Наибольший интерес представляет исследование траекторий, содержащих режим особого управления, поскольку именно с особым режимом связано существование универсальных поверхностей, позволяющих получить закономерности оптимального поведения [6]. В силу симметрии в данной задаче можно рассматривать только положительные значения угла <р,. Условие окончания игры
(терминальная поверхность) для значений углов <рх из диапазона [О, и] определяется соотношениями
dcp
dt
u*v ul) = 0,
d2 ?i dP
(tk, u\, я£)> 0.
(7)
Оптимальные значения управлений и\, и\ в конечный момент времени tk определяются из условия минимума и максимума младшей из производных (7), в выражение для которой они входят в явном виде. Таким образом, из (7) получаем для t = tk
t>t Sin <pt + t/2 sin tf2
V2 COS С
M2 = —Sign COS cp2,
;(f>l + «2 sign COSifg) _j_ mt COS yt + V2 COS cp2) ^ q
(8)
Из условий (8) следует, что режим особого управления уклоняющегося на заключительном участке траектории возможен при условии СОБ срз — 0, ср2 = те/2.
Для определения геометрического смысла оптимальных траекторий, соответствующих режиму особого управления, используются необходимые условия оптимальности. Система уравнений для сопряженных переменных в данной задаче имеет вид
dp*
dt
г>! sin + ii2sin tp2
?I' !(Jj'
dp i»i ~0Г =~PrVl sin ?! - (PVI + Pj — cos <?!,
dp..
dt
-prv2 sin 4>2 — (p„ + /><?,) — COS cp:
(9)
На терминальной поверхности сопряженные переменные удовлетворяют условиям
P%(tk)=P>Р.(**). = О, РчЛ*») = — sin?i(y. (10)
Оптимальные управления определяются соотношениями
и; = — sign />9i, и\ = sign p.fa. (11)
Оптимальные значения управлений на терминальной поверхности (8) можно определить и из условий (11); для этого необходимо ТОЛЬКО учесть, ЧТО p.i'(tk) = 0 И ДЛЯ определения «2 исполь-
dP<f,
зовать производную —— (tk).
Наличие режима особого управления на конечном участке траектории вблизи терминальной поверхности должно соответствовать условию р (£) = 0. Для выполнения этого условия в силу однородности системы уравнений (9) достаточно, чтобы в некоторой точке на терминальной поверхности выполнялось условие
dp^{tk) d2 ръ (tk)
РА**)'
dt
dt
=--0.
d*p,
Определив выражение для второй производной —и под-
d2p
ф” терминальные условия (8)
ставив в соотношения для —J- и
и (10), получим
dt
dt2
/>,,(**) = 0.
dt
d‘P^(tk)
Ш*
■Ppi—C0S?*,
-&ТРъи*
(12)
p
Выражение для —в (12) приведено для случая cos<p2 = 0.
Из (12) получаем, что режим особого управления соответствует прямолинейному движению («2 = 0) и заканчивается при условии
(13)
Из условий (12) также следует, что возможен сход с прямолинейной траектории с предельным значением управления любого знака при движении в обратном времени. Поверхности такого типа по классификации работы [1] называются универсальными. Из (13) следует, что прямолинейное движение уклоняющегося на заключительном участке траектории происходит по общей касательной к окружности радиуса /?0 — концентрической к ок-
ружности минимального радиуса Rx для преследующего объекта, и окружности минимального радиуса /?2 для уклоняющегося, как показано на рис. 4. Направление касательной можно характеризовать углом <p2(‘Pi> г), составленным ею с линией визирования, который определяется соотношением
cos <f! VR\ cos2 <pj + (г — Rt sin cpO2 Rl + R0 (r — Rt sin <pt)
tg m* = --------------— ----------------- . (14)
(/- — Ri sin <Pj) VR\ cos2 <fi + (r — Ri sin tpi)2—R\ — R\ R0 cos <p2
При численном решении уравнения (5) наличие режима особого управления для уклоняющегося должно соответствовать
Рис.' 5
Рис. 6
V) -Ч-OOtf/c; Уг = 300м/с ;ш, = 0,3 1/с; w2 ” 0,3 1/с; tk = 15fic; Цтіп=36, Ґ
появлению минимума цены игры по переменной при значении ср2 = ср*. На рис. 5 приведена зависимость ®*(г, <?;), определенная из соотношения (14), и аналогичная зависимость, определенная численным путем, соответствующая минимуму цены игры (штриховая линия). Следует отметить, что, используя геометрическую трактовку стратегии оптимального уклонения, можно построить траектории по начальным условиям только в том случае, если оптимальное преследование сводится к движению только с предельным значением щ. Такое условие, в частности, выполнено, если скорости объектов равны, а минимальный радиус кривизны у уклоняющегося меньше, чем у преследующего. В общем случае преследование не сводится к движению с предельным значением управления, и в этом случае соотношение (14) определяет только оптимальное уклонение (рис. 6).
ЛИТЕРАТУРА
1. Айзекс Р. Дифференциальные игры. М., „Мир“, 1967.
2. Же л нин Ю. Н. Линеаризованная задача преследования и уклонения на плоскости. „Ученые записки ЦАГИ“, т. VIII, № 3, 1977.
3. Merz A. W. and Hague D. S. Coplanar tail-chase aerial combat as a differential game. „A1AA“, vol. 15, N 10, 1977.
4. Кузьмин В. П. Численное решение уравнения Веллмана для игровой задачи преследования на плоскости. „Ученые записки ЦАГИ“, т. IX, № 3, 1978.
5. Веллман Р., Калаба Р. Динамическое программирование и современная теория управления. М., „Наука“, 1969.
6. Симакова Э. Н. Об одной дифференциальной игре преследования. .Автоматика и телемеханика", 19о7, № 2.
Рукопись поступила 7/V 1980 г.