УЧЕНЫЕ ЗАПИСКИ ЦАГИ
Т о м V
197 4
№ 5
УДК 518.9
НЕЛИНЕЙНАЯ ИГРОВАЯ ЗАДАЧА ПРЕСЛЕДОВАНИЯ НА ПЛОСКОСТИ
Рассматривается нелинейная задача преследования на плоскости для двух динамических объектов, движущихся в среде с сопротивлением, которые могут управлять в ограниченных пределах кривизной траектории и тангенциальным ускорением. Анализируется структура оптимального управления. Приводятся примеры численного решения задачи преследования с несколькими видами критериев оптимальности. Рассмотрена задача определения границ области, где преследование может быть осуществлено за конечное время, и приведены примеры расчетов границ этой области.
Дадим общую постановку игровой задачи преследования для двух динамических объектов и приведем необходимые условия оптимальности управления противников [1—4|, которые затем будут использоваться при решении рассматриваемой в работе конкретной задачи. Пусть поведение динамических объектов описывается следующими дифференциальными уравнениями
здесь г,, г2 — /г-мерные векторы, описывающие фазовые состояния системы; ил, и2 — г-мерные векторы управлений. Для определенности индекс „1“ приписывается преследующему объекту, а индекс „2“— преследуемому. Задача преследования заключается в следующем: преследующий объект стремится „сблизиться“ с преследуемым за минимальное время Т, тогда как его противник стремится максимально увеличить время. Условием окончания преследования является выполнение определенных соотношений между фазовыми координатами объектов. Тогда задача преследования определяется условием
Ю. Н. Хіелнан, Ю. Я. Шилов
(1)
/=тіптахТ, О (гг> г2) |/=г = 0.
(2)
и, и2
Эта постановка задачи может быть трансформирована в следующую в определенном смысле эквивалентную задачу: время преследования Т задано или определяется из некоторых других соображений, а в качестве критерия оптимальности используется некоторая функция, характеризующая относительное фазовое положение объектов в конечный момент времени
J = min шах w (zh z2)|/=r- (3)
Ul U2
В качестве критерия оптимальности может быть принят функционал, характеризующий относительное положение не только в момент Т, но и на всем интервале преследования:
т
J = min шах Г со (z,, z2)dt. (4)
и, иа ■}
*0
На управляющие параметры иг и фазовые координаты в общем случае наложены ограничения следующего вида:
9i(*i» «i)<0, f2(z2, и2)<0,
(5>
где <р,, ср2—векторы размерности т^г. Оптимальное управление для обоих противников в области „регулярности“ определяется следующими необходимыми условиями оптимальности [1—4)
н = 'Ь fl (2|, М.) + Ф2/2 (z2. «2) - min max;
U,£<pi «.j£<p2
; dw 1 dm, , dw
'Ь — 7 1“ vi -r1-. +1 (r) - — -г—;
¿>г,
dH
du.
А
= 0;
du<y
(6)
здесь 4»,, ^2 — «-мерные векторы вспомогательных (сопряженных) переменных; V,, ч2■—векторы неопределенных множителей размерности т. Для конкретности краевые условия, которым удовлетворяют вспомогательные переменные, выписаны для задачи преследования с интегральным критерием (3). Условия (6) сводят игровую вариационную задачу к двухточечной краевой задаче. Отметим, что указанные постановки охватывают большое число задач динамики полета летательных аппаратов, представляющих практический интерес.
Перейдем к задаче преследования на плоскости для двух динамических объектов, движущихся в среде с сопротивлением, каждый из которых может в процессе движения управлять в ограниченных пределах кривизной траектории и тангенциальным ускорением. Для уменьшения размерности задачи запишем уравпе-
ния движения объектов, как это делается в [ 1 ], в относительной, системе координат (фиг. 1): •
•* =---------------- У'{\ -1- ЄІП Г,
§о
= —Іїі — <3і С®І» Ті)]; ^2 = — ІЧг 1 О-Лъ-г, Її)];
(7)
Фиг.
здесь g0 — ускорение силы тяжести; г^, ■у2 — скорости; 7,, 7г, ч\г, т]3 — управляющие параметры; ф,, 02 — сопротивле-
ние внешней среды, которое в общем случае зависит от скорости и управляющих параметров ?,, -(2; да2 — массы объектов. Заметим, что приведенные уравнения описывают движение в атмосфере летательных аппаратов, обладающих тягой и перемещающихся в горизонтальной плоскости. Управляющие параметры обоих объектов ограничены по величине и удовлетворяют следующим неравенствам:
IК К Тшах (■»)> 0<7]< 7]тах(г»). (8)
Предельные значения управляющих параметров т] в общем случае зависят от скорости.
В качестве критерия оптимальности рассмотрим функционал вида (3), характеризующий относительное положение противников в конечный момент времени Г. Структура функции гш зависит от конкретных целей, которые ставятся в задаче преследования, и может быть достаточно разнообразной. В настоящей работе рассматривается критерий, который зависит от расстояния между противниками и ориентации их скоростей относительно линии визирования и в общем виде может быть представлен следующим образом
J — тт тах да (г, <7,, q■^) \/=т- (9)
ТГ.Л1 Тг. %
Здесь г — расстояние между объектами; д1 и д2 — углы между линией визирования и направлением скорости (см. фиг. 1).
Оптимальные значения управляющих параметров определяется из условия максимина гамильтониана системы (7) и удовлетворяют следующим соотношениям:
?1 = - 7« Ч,=
72 = - Ъ тах Sigп У)2 =
тах,
о.
тахі 0,
Ь„ х
Фі„>0,
^2в<0, + 2 > 0,
Вспомогательные переменные <рл, фу, <р1 в, ф2н удовлетворяют следующей системе дифференциальных уравнений:
= Ф, = Ф,^Г Ти-
фу =• Щ (Фу sin 9 — Фх eos 9); л _ <>Q‘. _L ,»•
' 1 v dvi m¡ r‘t ®
»4-Тг + Ф,;
-
Фг v —
óQ¡
'hv + Ф? f- Ь — фд- sin 9 — d>4, eos 9.
дг/2 m2
(11)
Для краткости здесь приведена вспомогательная система для случая, когда максимальные значения управляющих параметров не зависят от скорости. Эта зависимость может быть легко учтена в соответствии со стандартной процедурой [4].
Соотношения (10), определяющие оптимальное управление *f1t -(•п, получены в предположении, что сопротивления Q,, Q2 не зависят от управлений Xi и Тг> соответственно если сопротивления зависят от указанных управляющих параметров, то характер этих соотношений меняется. Рассмотрим для определенности случай, когда зависимость сопротивления от управления определяется следующим образом:
Q — Qo(v) -г k (V) г-
(12)
Здесь <3о (г»), £ (г>) — заданные функции скорости. Отметим, что зависимость (12) является характерной для летательных аппаратов. В этом случае оптимальное управление удовлетворяет следующим соотношениям:
Ti =
, Ф1„>0,
Tl = — Ti max Signa, ф1г,<0 ИЛИ
2А, v, ф,,
>Ti
Фу So Л
—-------- Фа>< 0,
2М2 Фг
Тг — Тг max sign 'p<f, Фг г, > 0 или
Фу § 0;
2^2 гц ф,,,
>7*.
(13)
Помимо управления, определяемого в соответствии с (10), (13), возможны траектории с „особым“ управлением, которое имеет место, если функции &, Ф2г, тождественно равны нулю.
Рассмотрим вначале особое управление для тп, -/•<„. Предполагая, что IV / 0, ф 0, замечаем, что в этом случае должны быть выполнены равенства ф1о=з0, ф2 а —:0. Используя дифференциальные уравнения для ф1г1, нетрудно получить условия:
% -ргъ ~ Фу = °;
Ф» Тк — (ф^сsin 9 + ф., eos со) = 0. v2
Разрешив эти соотношения относительно Vy и %, найдем значения скорости v] = v*, v2 = v*, которые являются оптимальными для обоих противников. Продифференцировав полученные выражения для скоростей и используя дифференциальные уравнения (7), можно определить управления ?]*, vfe, которые позволят реализовать эти скорости.
Интересно отметить, что соотношения (14) представляют собой условия максимума и минимума гамильтониана соответственно по параметрам и, и v2. Оценивая качественно эти режимы, можно ■сказать, что они соответствуют наиболее благоприятным в смысле критерия (9) значениям скорости сближения и обеспечения оптимального углового положения.
Рассмотрим еще один режим особого управления, который возникает в том случае, когда максимальные значения j2 зависят от скорости: Timax^t). Т2maxВ этом случае условия (14) могут быть представлены в виде
ди>2
= 0 ом1 = go I S 0°
ÓVj 1 У * rHi. --2 1' max i 11 1
So ~ _T_ 9 11 max ~ v¡ So¿
dv¡ vl dvj
So _l 2 Í2 max lT v2 god
dv2 ~ v? dv2
= '\y eos <f> + Фж Sln T-
_1_ fi — О — _ -ASL _1_ И“ у
I p U’ ..2 Í2 max Г „ T2
(15)
Здесь ю, =-----¿~Tu -----Тг~~ угловые скорости разворота вектора скорости объектов. Отсюда следует, что при -Ьу- 0 особый
режим соответствует скоростям движения “и*, v* с максимальными (экстремальными) значениями max и u>2max. Отметим также, что этот режим реализуется лишь при максимлаьных значениях управлений - fi max> 12 == Тг max-
РаССМОТрИМ условия особого управления 7,, -¡2, которые имеют место при & = 0, ф,р = 0. При одновременном выполнении этих условий получим с учетом уравнений (11)
&у - Л + Фу = О, é = ví<.\>x = 0, ь = о, % = щ(^sin f — <|>д. соstp) = О,
(16)
откуда ¿* = 0, 4^ = 0, '\>gx = 0.
Эти условия соответствуют прямолинейному движению противников (^ = 0, 72 = 0) вдоль оси у.
Рассмотрим теперь случай особого управления &~0, <1^ = 0. Нетрудно убедится, что он реализуется при следующих условиях:
Ф, = 0, фу = — 1, Ti~ 7г^°
и соответствует прямолинейному движению преследующего объекта, в то время как движение преследуемого является криволинейным и выбирается из условия минимума гамильтониана.
Пусть, наконец, особое управление преследуемого объекта реализуется при выполнении условий 0^0, Ф,, = 0. Из дифференциального уравнения для получим
'Ьх sin '■? — у,. cos f •-0. (17)
Продифференцировав это соотношение и учитывая, что ЦхфО, ф 0, получим:
из которого, в силу (17), имеем -(г = 0- Отсюда следует, что особая траектория преследуемого объекта—прямолинейное движение, в то время, как движение преследующего — криволинейное. Угол <р в относительной системе координат определяется из (17):
Приведенные условия особого управления соответствуют случаю, когда сопротивление Q не зависит от управления 7. Для1 случая, когда сопротивление определяется по формуле (12), особое управление зависит от знака функций ф, 0, Рассмотрим осо-
бое управление для преследующего объекта. Если ф1г,>0, то особое управление совпадает с рассмотренным выше. Действительно, из условия максимума гамильтониана получим, что 7^0, Ф, „>0. Если же ф, v < 0, то максимум гамильтониана достигается при 7г = +;7jгаах. В этом случае особое управление представляет собой „скользящий“ режим при предельных значениях 7^ в среднем приводящий к прямолинейному движению.
После того как условия, определяющие оптимальное управление найдены, решения игровой задачи сводится к двухточечной краевой задаче, которая решается численно. Для решения краевой задачи необходимо найти неизвестные начальные значения вспомогательных переменных, при которых выполняются условия трансверсальности на правом конце траектории. При численном решении задачи применялись итерационные процедуры с использованием метода Ньютона.
Рассмотрим задачу преследования, в которой в качестве критерия оптимальности используется время преследования (2). Условие окончания преследования задано в виде
Здесь г—заданное расстояние между объектами. Вспомогательные переменные в этом случае в момент времени I = Т удовлетворяют следующим соотношениям:
На фиг. 2 представлены результаты расчетов оптимальных траекторий преследования и уклонения в абсолютной (фиг. 2, а) и относительной (фиг. 2,6) системах координат. Координаты объектов отнесены к некоторой длине,характерной для рассматриваемых маневров. Как видно на фиг. 2, а, противники после некоторого сравнительно слабого разворота движутся почти прямолинейно, стремясь к некоторому оптимальному для обоих направлению движения. Управления 7,, 72> определяемые в соответствии с (13), не достигают Предельных значений 71тах, 72шах- Управления 7],, т}2 принимают максимальные значения та шах, ’¡з.-пах на всей траектории.
(t,cos<p + 'l»_vsin<p)-^-7 = 0,
Vхг + у-\і=т — г-С 0, <7, ¡/=г — 0.
(19)
(20)
Известно [1, 4], что все пространство решений дифференциальной игры разделено гиперповерхностями, на которых стратегии противников могут резко меняться. Достаточно подробная классификация этих гиперповерхностей приведена в работах [1, 4J. Рассмотрим поверхность, которая носит название „барьер“ и является особенно важной в рассматриваемой задаче. Эта поверхность отделяет область в пространстве начальных положений, при которых преследование может быть закончено за конечное время, от области, в которой преследующий не может выполнить свою задачу. Гиперповерхность, соответствующая барьеру, удовлетворяет условию [1]
min max grad^ß (z)f(z, uu u2) = 0. (21)
«sSta
Здесь z — вектор относительных фазовых координат противников, z = f(z, и,, и2) — уравнение относительного движения, ß(z) — поверхность „барьера“ в фазовом пространстве.
Используя это соотношение, можно записать условия трансверсальности и определить траекторию, начальные условия которой принадлежат барьеру. Поверхность в фазовом пространстве, образованная начальными условиями семейства этих траекторий,
представляет собой границу ,3(z) или барьер [1]. На фиг. 3, а
представлены результаты расчетов барьера ß(z) в плоскости х, у
для двух фиксированных значений начальной скорости преследуемого объекта. Внутри области, определяемой этой границей, преследующий может за конечное время выполнить заданные условия, обеспечивающие окончание преследования, в качестве которых приняты
_ V x2-\-y2\lz=T — r = 0, I<7, i \t=T — <7, <0. (22)
Здесь г—заданное расстояние, — заданное угловое положение преследующего объекта. При расчетах предполагалось, что начальное угловое положение преследуемого f(t0) является опти-
28
мальным. В результате этого предположения оптимальным управлением для преследуемого является особый режим (18), соответствующий прямолинейному движению (фиг. 3, б). Отметим, что каждая точка границы jl(z) определяется из решения двухточечной краевой задачи.
Рассмотрим задачу преследования, в которой время t=T фиксировано, а функционал, характеризующий относительное положение, задается в следующем виде:
w — г — k4i cos qx — kQt cos q2 \i=r , (23)
k9l>0, ^2>0,
где kq,, — некоторые весовые коэффициенты. Заметим, что
критерии (23) в отличие от (19), (22) зависят от углового положения преследуемого (¿72)> в результате чего траектория преследования качественно меняется. В этом случае преследуемый стремится не только увеличить расстояние г, но и увеличить угол С[2 в момент окончания преследования. Преследующий, в свою очередь, сближаясь с противником, стремится уменьшить угол q2.
Оптимальная траектория приведена на фиг. 4, а. Видно, что траектория в этом случае сильно отличается от рассмотренных ранее и представляет собой ряд последовательных поворотов, напоминающих „змейку“. Характерным является также то, что преследующий объект сближается с преследуемым на расстояние, несколько меньшее конечного (фиг. 4, б). Затем происходит „отставание“, в процессе которого преследующий уменьшает углы <7, и д2 (фиг. 4, в).
В заключение приведем результаты численного решения задачи преследования с интегральным критерием, который задавался в виде
Как показали результаты численных расчетов, для оптимальных траекторий с критерием (24) характерными являются два типа траекторий. Один из них представляет собой ряд циклически повторяющихся маневров, по характеру близких к траекториям.
т
(24)
0, /гд„ 0.
показанным на фиг. 4. Другой тип траекторий показан на фиг. 5 и представляет собой траектории, близкие к окружностям постоянного радиуса. Скорости объектов V), V■> также принимают значения, близкие к установившимся.
В заключение отметим, что в статье приведены результаты исследования оптимальных траекторий в игровой задаче преследования, полученные на основании использования необходимых
8
-----траектория преследующего
----- г преследуемого
Фиг. 5
условий оптимальности в форме принципа максимума. Эти условия позволяют получить решение игровой задачи, как уже отмечалось, только в области „регулярности“, где справедливы условия оптимальности в „малом“ [1]. В связи с этим полученные результаты не охватывают всего семейства решений рассматриваемой игровой задачи, для получения которых необходим более сложный аппарат исследования с привлечением условий пересечения траекторий поверхностей, разделяющих пространство решений дифференциальной игры, где стратегии противников терпят разрыв [3, 4].
ЛИТЕРАТУРА
1. Айзекс Р. А. Дифференциальные игры. М., .Мир“, 1967.
2. Понтрягии Л. С. К теории дифференциальных игр. Успехи математических наук, т. XXI, вып. 4, 1966.
3. К р а с о в с к и й Н. Н. Игровые задачи о встрече движений.
М., »Наука“, 1970.
4. Л е й т м а и Г., Мон Г. Об одном классе дифференциальных игр. »Кибернетика“, 1968, № I.
Рукопись поступила 61X1 1973 г.