Научная статья на тему 'Линеаризованная задача преследования и уклонения на плоскости'

Линеаризованная задача преследования и уклонения на плоскости Текст научной статьи по специальности «Математика»

CC BY
340
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Ученые записки ЦАГИ
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Желнин Ю. Н.

Рассматривается приближенное решение игровой задачи преследования и уклонения на плоскости двух динамических объектов, обладающих постоянными скоростями и ограниченной кривизной траектории. В результате ряда упрощающих предположений получена линеаризованная модель движения указанных объектов, для которой найден синтез оптимального управления на ограниченном интервале времени*. Для решения используется методика работы [1].

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Линеаризованная задача преследования и уклонения на плоскости»

УЧЕНЫЕ ЗАПИСКИ Ц А Г И Том VIII 1977

№ 3

УДК 518.9

ЛИНЕАРИЗОВАННАЯ ЗАДАЧА ПРЕСЛЕДОВАНИЯ И УКЛОНЕНИЯ НА ПЛОСКОСТИ

Ю. Н. Желнин,

Рассматривается приближенное решение игровой задачи преследования и уклонения на плоскости двух динамических объектов, обладающих постоянными скоростями и ограниченной кривизной траектории. В результате ряда упрощающих предположений получена линеаризованная модель движения указанных объектов, для которой найден синтез оптимального управления на ограниченном интервале времени*. Для решения используется методика работы [1].

Дифференциальные уравнения, описывающие относительное движение на плоскости противников, обладающих постоянными скоростями, имеют следующий вид:

= -у fa sin Si — vt sin у — ;

i I / • e . t 4 g°Ui (1)

ea=— (“Oi sin 5i — sin S2)--— ; ^ >

r— — Vi cos^ -\-v2 cosS2;

здесь \2 — углы между вектором скорости и линией визирования преследующего и преследуемого соответственно (фиг. 1) (индексы 1 и 2 приписываются параметрам преследующего и преследуемого соответственно); г — расстояние между противниками; vu v2 — их скорости; и,, к2 — управляющие функции противников, которые удовлетворяют следующим ограничениям:

| ttj | Wlmax) | н2 1 м2шах- (2)

* Некоторые результаты этой работы были представлены в докладах I Всесоюзной конференции по оптимальному управлению в механических системах (Москва, декабрь, 1974) на IV Всесоюзном съезде по теоретической и прикладной механике (Киев, май, 1976).

В качестве критерия оптимальности игровой задачи рассматривается следующий функционал:

/=гшп тах Гтт5(£,, ?2)1 ;

“ • (3)

5(?„ 6а) = й, аи а2 >0, .

где аи а2 — некоторые весовые коэффициенты.

Игровая задача (1) — (3) в соответствии с принятой терминологией [1—3] представляет собой нелинейную дифференциальную игру преследования — уклонения с нефиксированным временем. По постановке задачи работа примыкает к [4]. Задача преследования— уклонения для объектов рассматриваемого типа с критерием оптимальности, отличающимся от (3), исследовалась в работах [1, 5, 6] и др. Точное решение сформулированной задачи связано с рядом трудностей принципиального характера. Не останавливаясь детально на их анализе, поскольку они достаточно хорошо известны [1—3], отметим только, что они в основном обусловлены „нерегулярным“ характером решения основного уравнения Айзекса

[1], которому удовлетворяет решение игровой задачи. Эффективные методы, позволяющие преодолеть указанные трудности, особенно в нелинейной задаче, к которой относится рассматриваемая задача, в настоящее время отсутствуют.

В работе рассматривается приближенное решение поставленной задачи преследования — уклонения. Приближенный характер решения прежде всего обусловлен рядом упрощающих предположений относительно системы уравнений движения (1), которые-позволяют свести ее к линейной системе второго порядка, в рамках которой удается провести полный анализ оптимальных траекторий противников. Естественно, что эти предположения существенно сужают область применимости модели движения, однако с их помощью

удается установить ряд достаточно интересных и общих свойств рассматриваемой задачи преследования — уклонения и получить приближенное аналитическое решение.

Рассматривается процесс преследования — уклонения в области фазового пространства, где углы $1, \2 малы. Тогда

єіп I,- — соэ^.— 1, ¿=1,2.

(4)

Далее предполагается, что скорости противников незначительно отличаются друг от друга, т. е. '

(5)

Линеаризируя уравнения (1) относительно начального расстояния г{і0) = г°, используя условия (4), получим следующую систему уравнений относительного движения:

52--яг(6і

У

У-

£ о «і Щ go «2

V

То

Д г =

2-т Д^-

г°

(6)

Здесь Аг — Г(^)/.о"— , ® = +

В уравнениях (6) учтены члены только первого порядка малости относительно Дг. Далее, полагая в силу условия (4), что углы малы, и пренебрегая величинами второго порядка малости относительно $2, Дг, Дг», первые два уравнения системы (6) можно представить в следующем виде:

Здесь

£і = ?і —£2 —(1 + Дх) МГ> І2= 12---(1 --- Дх)И2-

(7)

: аг

(•)' І

_ 1

Е _ Ь _ ^2

«1— ч , «2——,

тах _|_ “2 шах

2 II \ В] V2

и1 тах м2шзх

Д* =

(7а)

м1тах ^2 + «гшах^І ’

Система уравнений (7) в безразмерном виде зависит от одного параметра Дх, который, как будет видно в дальнейшем, определяет характер оптимальных траекторий. Действительно, коэффициенты (1 + Дх) и (1 — Дх), по существу, определяют эффективность управлений ии и2.

Из уравнений (7) видно, что:

1) если Дх>0, то эффективность управления преследующего больше эффективности управления преследуемого и, следовательно, преследующий обладает превосходством в маневренности;

2) если Дх<0, то, наоборот, эффективность управления преследуемого больше эффективности преследующего и, следовательно, преследуемый обладает превосходством в маневренности;

3) при Дх = 0 эффективности управлений противников одинакова, противники располагают одинаковыми маневренными нозмож-ностями.

Как показывают результаты численных расчетов, система (7) с удовлетворительной точностью описывает движение противников на относительно небольших интервалах времени, имеющих порядок времени выполнения полувитка по окружности минимального радиуса, при условии, что расстояние между противниками в начальный момент имеет порядок минимального радиуса, а параметр Дх мал:

г°. - v*lgnumix, Д* <С 1- (8)

Последнее условие предполагает, что эффективности управления противников отличаются незначительно.

Поскольку третья фазовая координата Дг не входит в выражение оптимизируемого функционала (3) и в линеаризованную систему уравнений (7), третье уравнение системы (6) можно исключить из рассмотрения.

В соответствии с условием (3) противники оптимизируют экстремальное (минимальное) значение функции 5[St(i), МО]- Следовательно, момент окончания игры определяется условием стационарности по времени функции S(t):

(9)

d

«>(5і, 2з) = ^[5(?1> ?2)] = 0.

В соответствии с терминологией, принятой в [1], уравнение «)(£,, 12) = 0 представляет собой „терминальную“ кривую в плоскости £,, и.

Решение линеаризованной задачи преследования (7) с критерием (3) удовлетворяет „основному“ уравнению Айзекса [1], которое применительно к рассматриваемой задаче имеет следующий вид:

<)I дГ ) ~ Ax( df dl

— +

db I I дії dl2

= 0;

(Ю)

/(Т) = 5(?і, У1Ш(^11у=0-Исследование структуры решений уравнения (10) проводится на основе анализа характеристик этого уравнения. Уравнения характеристик удобно исследовать в обратном времени т', которое определяется по формуле і' — Т' — і'. Уравнения характеристик имеют следующий вид:

^ = —I, —Г2 + (1 +Д*)Й,;

di2

dz'

+ (1 — Дх) ы2;

(11)

dp-j

dz

— P\~P%-

Здесь

dl дГ

Р i=-^* P* = W

0-е\ и~2

Оптимальные управления противников в соответствии с (10) удовлетворяют следующим соотношениям:

til opt = Sign/7,, К2 opt = --Signp2. (12)

На терминальной кривой переменные px и p2 удовлетворяют следующим соотношениям:

рх (Г) = 2 а. Г, (Г), р2 = 2 а212 (Г). (13)

Значения %,,(Т') принадлежат терминальной кривой

<*>(!], У = 0, для которой с учетом (9), (12), (13) имеем , Ш (?1> = ll Й-2 ?2 Ч" ifll Ог) ^1 ^2 (®1 1 ^1 I ^2 I ’2 I)

— Дх(лх [Tj I + а2|М) = 0. (14)

Оптимальное управление в соответствии с (12) в области регулярности решения принимает граничные значения. Определим решения уравнений для характеристик (11) на участках знакопо-стоянства управления. Решение первых двух уравнений системы

(11) имеет следующий вид:

= [(Й — $) — (1 + Дх)и,К — [(1 + Дх)к1 — (1 — Дк)иг]^

е2(х0=^-[(1?-1?)-(1-Д*)й2К- [(1 +Ax)«l — (1 - ,

(15)

где й, й— начальные (в обратном времени) значения фазовых координат, принадлежащие кривой $2)=0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Уравнения (15) при фиксированных управлениях и различных начальных значениях 5?, 1° определяют в плоскости ?2 семейство парабол. Ось парабол этого семейства и радиус кривизны в вершине определяются следующими соотношениями:

ij --?2 --~2~ [(1 “Ь А*) “I- 0 -Дх) ^]>

р = JyY 1(1 + д*) «1 — (1 — д*) щ\-

(16)

Из соотношений (16), кстати, следует, что параболы, соответствующие различным начальным условиям при фиксированных управлениях, имеют общую ось и постоянное значение радиуса кривизны в вершине. На фиг. 1 приведены два семейства траекторий с управлениями одинакового и противоположного знака, которые обозначены соответственно Р(++), Р(+—). Положение оси и радиус кривизны в вершине соответственно определятся следующими соотношениями:

/>(++): ё.-52=1, Р=т|; Р(4 ): I,- |2 = Дх, р = .

Решение двух последних уравнений системы (11) имеет вид:

Р\^') = Р\ + (Р\ +Рй^', Р-Л^') = Р02 — (Р02 +р°2)х'- (18)

Определим моменты переключения оптимального управления противников, которые в силу (12) соответствуют моментам обращения в нуль функций рх{х') и р2(т').

Сначала определим момент переключения для траекторий, заканчивающихся в первой четверти. Из первого соотношения (18) с учетом (13) получим

А СО = 2 [5? + (1? + 1°2)О>0,

так как в первой четверти С,, 12 > О.^Следовательно, /?, (т') — знакопостоянная функция, а управление и1 в области регулярности не имеет переключений.

Для определения условия равенства нулю функции Рг{^') из (15) выразим время т' через фазовые координаты и подставим в выражение для р2 (ъ') (18). После некоторых преобразований с учетом соотношений (12) — (14) получим уравнение линии переключения управления и2 в фазовой плоскости, которое имеет вид:

Ё, - Т2 = 1 + Д*. (19)

Проводя аналогичные выкладки, можно установить, что для траекторий, заканчивающихся во второй четверти, переменная р2(^')— знакопостоянная функция и, следовательно, управление и2 не имеет переключений в области регулярности. Переменная р1 (т'). обращается в нуль на прямой в фазовой плоскости, удовлетворяющей уравнению

5, - 5г:= 1 - Ах, (20)

А

которая является линией переключения управления ил. Линии переключений траекторий, заканчивающихся в третьей и четвертой четвертях, симметричны относительно начала координат линиям (19), (20). Используя (7а), можно установить, что линии переключения (19) и (20)_представляют собой прямые, на которых выполняются условия II = 0, \ч = 0.

Полученные выше условия переключений управлений определяют оптимальные траектории в области „регулярности“ решения игровой задачи. Для построения полной картины оптимальных траекторий необходимо установить границы области регулярности. В настоящей работе применительно к рассматриваемой линеаризованной модели движения (7), которая допускает аналитическое решение, с учетом приведенных выше условий оптимальности эти границы построены, выделены области регулярности решения и установлены типы „сингулярных“ [1] кривых, разделяющих эти области. В статье приводится лишь описание полученных оптимальных решений и не приводятся строгие доказательства, поскольку они являются довольно многочисленными и занимают большой объем. Их объем и количество обусловлены, с одной стороны, довольно большим многообразием типов оптимальных траекторий, а с другой — тем, что при доказательстве оптимальности того или иного типа траекторий приходится анализировать довольно большое количество вариантов стратегий противников, подозрительных на оптимальные.

5,-|2=;+дх ? ¿;,-|2 = ;-дх\г;

Области А 2 С В ?/ '/е ой

Л/ *г х, Вг 7) г)

и1 7 7 7 7 -1 -7 7 иЦе иш

*2 7 -7 7 -7 7 7 7 -7 7

Фиг. 2

Рассмотрим структуры оптимальных траекторий для случая Лх>0, который соответствует преимуществу в маневренности преследующего. Прежде всего отметим, что в силу центральной симметрии фазовой картины оптимальных траекторий, которая имеет место в рассматриваемой задаче, фазовая плоскость может быть разделена на две симметричные области. В качестве границы этой области можно принять уравнение терминальной кривой (14), которой принадлежат концы траекторий, оканчивающихся в первой и второй четвертях (фиг. 2).

Для конкретности рассмотрим случай, когда а1 = а2 = 1. На фиг. 2, а приведена эта граница (кривая ас'ОсЬ). Заметим, что при а1 = а2— 1 линии равных значений функционала 5(Е,, ¡^) представляют собой концентрические окружности, а уравнение (14) определяет геометрическое место точек касания семейства окружностей и парабол Р{+ +), ---), представляющих собой фазовые траек-

тории системы (7). Рассмотрим фазовую картину оптимальных траекторий, лежащих выше этой кривой. Эта часть фазовой плоскости в свою очередь разбивается на ряд областей, в каждой из которых стратегии противников существенно отличаются. На фиг. 2, а построены границы этих областей. Оптимальнее траектории, принадлежащие внутренней части областей и их границам, соответствуют различным стратегиям противников, которых насчитывается в рассматриваемой полуплоскости девять типов (таблица к фиг. 2, о). На фиг. 2,6 приведена полная фазовая картина оптимальных траекторий.

Рассмотрим незамкнутую область А, расположенную выше кривой gfecb и состоящую из подобластей Аи А2, разделенных линией переключения (19). Все траектории в этой области заканчиваются в первой четверти и носят регулярный характер. Прямая (19) определяет момент переключения управления преследуемого. Управления противников определяются следующим образом:

и1=\, и2 = 8^п(£1 — Г2 —1—Дх).

Вторая область В = Вх и В.г является замкнутой и образована кривой Ойес. Характерным для нее является наличие сингулярной

кривой Ое, которая в соответствии с терминологией [1] носит название „рассеивающей“. Эта кривая представляет собой геометрическое место фазовых координат, для которых имеются две различные фазовые траектории с одним и тем же значением цены игры. На этой кривой нарушается дифференцируемость решения уравнения (И), а частные производные д1/д^, д//д1, терпят разрыв. Граница с1ес этой области образована двумя параболами Р(+ + ),

Р(_|---которые касаются одной и той же окружности радиуса

I* и пересекаются на прямой (20). В точке пересечения вспомогательная переменная ри соответствующая траектории Р(-г-г), обращается в нуль. Граница сОй состоит из участков терминальной кривой (14).

Траектории в незамкнутой области С = СХ[}С2, ограниченной кривой gfedc^a, определяются неединственным образом. Анализ фазовых траекторий с допустимыми управлениями позволяет установить, что из произвольной точки этой области преследующий может обеспечить, причем неединственным образом, попадание фазовой траектории в точку е, несмотря на максимальное противодействие преследуемого. Движение из точки е осуществляется в соответствии с управлением, принятым в области В, и приводит к достижению цены игры, определяемой радиусом окружности /*. В качестве одного из возможных вариантов управления внутри рассматриваемой области может быть принят следующий:

и1 = — 1, и2 = 1-

Управление этого типа позволит преследующему привести фазовую траекторию на границу области С —кривую gfe, которая состоит из парабол Р(++) (участок gf) и Р(-\—) (участок /е). Движение на участке происходит при управлениях: их = \, и2 = 1. Движение на участке /е может быть реализовано двумя вариантами управлений:

1) их ~ \, и2 = — 1;

_ л

2) их — их^е1 и2 — 1.

Первый вариант управления соответствует регулярным траекториям из области А, непосредственно к которой эта траектория примыкает. Второй вариант управления соответствует движению по этой границе с управлениями, характерными для области С. Управление и, в этом случае удовлетворяет условию

и- ! /У- I

| =^| , (21)

|«, = 1 ¡^ = «1 ¡е

и>-—1 Ы3 = 1

Л

из которого с учетом уравнений (7) можно определить «1/е.

Рассмотрим фазовые траектории в области £). Граница ее образована участками терминальной кривой (14) и дугой окружности радиуса /*. Характерным для этой области является то, что цена игры, удовлетворяющая условию (3), определяется начальным значением функции 5 (??, 1°), т. е. / — 5 (??, ;”). Анализ траекторий в этой области при допустимых управлениях показывает, что преследующий может обеспечить, причем неединственным образом, при максимальном противодействии преследуемого, выполнение условия

(¿°) 5 (0- На фиг. 2,6 приведены траектории, соответствующие

одному из возможных вариантов управлений противников, при котором выполняется упомянутое выше условие. Причем движение по границе областей О и В (кривая Ой) соответствует минимальной скорости роста функции 5. Управление и1оа (таблица к фиг. 2,а) определяется из условия движения по границе Ой при м2=1 и может быть найдено из соотношений, аналогичных (21).

Учитывая центральную симметрию, нетрудно построить полную фазовую картину оптимальных траекторий (фиг. 2,6). Для полной фазовой картины характерно наличие траекторий замкнутого типа с одинаковым значением цены игры. На фиг. 2,6 эти траектории изображены жирной линией. Можно выделить два вида замкнутых траекторий. К первому из них относятся два замкнутых цикла Н/еШ и к'/' е' к! к', расположенные симметрично относительно начала координат. Ко второму относится траектория к/к'/' к, охватывающая начало координат. Здесь буквенные обозначения соответствуют моментам изменения управлений противников. Эта траектория является в определенном смысле предельной траекторией рассматриваемой задачи преследования и уклонения. Если начальное положение (5?, ||) принадлежит внешней по отношению к замкнутому контуру к/к/7г области, то преследующий, несмотря на максимальное противодействие преследуемого, может осуществить выход на указанную замкнутую тректорию извне и обеспечить значение цены игры / = /*3, Если же начальное положение (?“, Щ принадлежит внутренней по отношению к указанному контуру области, то наоборот, преследуемый, несмотря на максимальное противодействие преследующего, имеет возможность осуществить выход на траекторию замкнутого типа изнутри и обеспечить в конце преследования значение цены игры / = /*2. Таким образом, величина 1 = 1*2 определяет некоторое установившееся значение цены игры, которое преследующий не может уменьшить, а преследуемый не может увеличить, как бы долго процесс ни продолжался. Описанные выше траектории соответствуют динамическому равновесию процесса преследования и уклонения. На фиг. 3 приведены траектории этого типа в абсолютной системе координат.

Следует, однако, отметить, что установившееся значение цены игры имеет место только при использовании приближенной модели движения (7), в которой учитываются только члены первого порядка малости. Учет членов более высокого порядка малости приводит к нарушению замкнутого характера описанных траекторий.

Цена игры, соответствующая замкнутому циклу, определится в рассматриваемом случае а1 = а2= 1 (фиг. 2,6), как квадрат радиуса окружности, касающейся в точках й, с двух парабол Р{4—|-) и Р(А---), которые, в свою очередь, пересекаются в точке е, лежа-

щей на прямой (20)._В общем случае а1 ф а2 линии равных значений функционала 5(1], 12) представляют собой семейство эллипсов с центром в начале координат

а,Ё1 + а21 = /2, /=/2. (22)

Схема построения и типы оптимальных траекторий при а1 ф а2 полностью совпадают с рассмотренными выше а1 = а2== 1. Цена игры определится величиной I, соответствующей эллипсу (22),

\

Буквы соответствуют моментам изменения д/

управлении (см. фЛ). Цифры соответствуют .

положению протливникоб в одинаковые момен-

777А/ ЯпРАЛГ.НИ 1

ты времени

---- траектория преследующего

преследуемого

Ь

Фиг. 3

который касается двух парабол Р(++)> Я(Н------), пересекающихся,

как и в предыдущем случае, на прямой (20). Выписав уравнения, соответствующие указанным выше условиям, можно получить систему нелинейных алгебраических уравнений, разрешить которую аналитически не удается.

Использование ряда упрощений, основным из которых является предположение Дх<^1, позволяет значительно упростить исходную систему уравнений и получить ее приближенное решение, которое имеет следующий вид:

Формула (23) дает оценку функционала / с точностью порядка —Дх. Уточненная оценка, использующая в качестве первого приближения оценку (23), определяет цену игры с точностью ~ДхЗ/2 И имеет следующий вид:

Рассмотрим процесс преследования — уклонения для случая Дх<0, который соответствует преимуществу преследуемого по маневренным возможностям. На фиг. 4 приведена фазовая картина оптимальных траекторий для случая Дх < 0, схема ее построения во многом аналогична той, которая использовалась при Дх>0. Видно, что она по своему характеру существенно отличается от предыдущей. Прежде всего отсутствуют замкнутые фазовые траектории, что указывает на отсутствие установившегося значения цены игры. Фазовые траектории после достижения экстремального значения функции 5(ГЬ ¡Г2), которое определяет цену игры, уходят в бесконечность. В рассмотренном случае {ах — а2 = 1) цена игры определяется радиусом окружности, которая касается соответствующей траектории типа Я(+ -Ь), Я(Н------)•

В заключение приведем некоторые результаты сопоставления фазовых траекторий приближенной линеаризованной (7) и точной

/= ах2 (1 — У рДх)2,

(23)

/ = ах2 (1 — V8' Лх)2, р' = р(1—2\/Дх/р).

7—Ученые записки № 3

97

---точное решение

---приближенное _

нелинейной (1) систем дифференциальных уравнений, описывающих относительное движение противников. Сравнение было проведено для участков движения, типичных для оптимальных траекторий. К ним можно отнести движение с предельными значениями управлений одинакового и противоположного знаков. На фиг. 5 приведены результаты расчетов для двух траекторий с управлениями одинакового (и, = 1, и2 = 1) и противоположного («1= 1, и2 = — 1) знаков по точным (1) и приближенным (7) уравнениям. Время движения по каждой из этих траекторий соответствует времени дви-

300м/с

=10

Фиг. 5

жения на участках со знакопостоянными управлениями, входящими в состав оптимальных траекторий. Продолжительность движения по траектории с управлениями одинакового знака имеет порядок полупериода движения по окружности минимального радиуса. Приведенные результаты иллюстрируют удовлетворительное совпадение точных и приближенных траекторий движения в фазовой плоскости ?2-

Автор выражает признательность А. И. Курьянову за внимание к работе.

ЛИТЕРАТУРА

1. Айзекс Р. Дифференциальные игры. М., „Мир“, 1967.

2. Красовский Н. Н. Позиционные дифференциальные игры. М., „Наука“, 1S74.

3. Понтрягиц Л. С. К теории дифференциальных игр.

„Успехи математических наук“, т. XXI, вып. 4, 1966.

4. Желнин Ю. Н., Ш и л о в Ю. Я. Нелинейная игровая задача преследования на плоскости. „Ученые записки ЦАГИ", т. 5, № 5, 1974

5. Симакова Э. Н. Об одной дифференциальной игре преследования. .Автоматика и телемеханика“, № 2, 1967.

6. М е г z A. W. The game of two identical cars. Journal of optimization and application, vol. 9, N 5, 1972.

Рукопись поступила 23\IV 1976 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.