УЧЕНЫЕ ЗАПИСКИ ЦАГ И
Т о м III 197 2 № 3
УДК 629.7.015.531.55
ПРИБЛИЖЕННЫЙ СИНТЕЗ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В ВАРИАЦИОННЫХ И ИГРОВЫХ ЗАДАЧАХ МЕХАНИКИ ПОЛЕТА СО СВОБОДНЫМ КОНЦОМ ТРАЕКТОРИИ
В. А. Бобцов, А. 3. Брауде, Г. Е. Кузмак
Рассматривается задача синтеза оптимального управления в вариационных и игровых задачах для случаев, когда на конце траектории нет никаких условий, кроме условия, определяющего конец траектории. Для решения данной задачи предлагается приближенный метод, представляющий собой развитие метода локальной оптимизации, удобный для реализации на ЭЦВМ. С помощью этого метода в ряде случаев могут быть найдены простые приближенные аналитические решения задачи синтеза. Для иллюстрации рассматриваются три примера: задача о полете на максимальную дальность, задача о наборе заданной высоты за минимальное время и задача об игре двух лиц, управляющих плоским движением двух материальных точек. В двух первых примерах получены результаты, имеющие простой физический смысл.
В течение последних лет математическая теория оптимальных процессов получила значительное развитие. Однако, несмотря на это, решение задач синтеза оптимального управления в нелинейных системах возможно лишь в исключительных ситуациях. Целью настоящей работы является приближенное решение таких задач Для случая, когда на конце траектории нет никаких других условий, кроме условия, определяющего ее конец. Предлагаемый метод представляет собой развитие метода локальной оптимизации, который, в частности, широко применяется в задачах аэродинамического расчета [1]. Основная идея метода состоит в вычислении приращения функционала на некотором интервале времени, примыкающем к рассматриваемой точке. Это приращение оказывается функцией от известных значений фазовых координат и управлений в данной точке. Величины управлений выбираются таким образом, чтобы приращение функционала было максимально.
В работе изложена методика расчета приращения функционала, удобная для реализации на ЭЦВМ. Аналогичным способом учитываются ограничения, налагаемые на фазовые координаты и управления. При использовании этого метода в механике полета
задача синтеза оптимального управления сводится к решению на каждом шаге задачи нелинейного программирования малой размерности. Наиболее существенна указанная методика для решения игровых задач [2, 3], поскольку именно в этом случае определение оптимального управления с помощью точных методов наталкивается на значительные трудности.
1. Постановка задачи. Условие оптимальности. Рассмотрим динамическую систему, движение которой описывается следующей системой уравнений:
-ЗР=/Л*; «ь • ■ •, «Л О-1)
(/= 1, . . . , и).
Здесь х1 — фазовые координаты; Му — управляющие функции; Ь — время или какая-либо другая монотонная переменная, для которой задан момент окончания процесса. Будем предполагать, что движение происходит в интервале
0<*<7\ (1.2)
В процессе движения должны выполняться ограничения в виде неравенств, налагаемые, на фазовые координаты и управления:
хи-----хп) ии . . . , «,)<° (1-3)
(5 = 1, 2, . . . , р).
!
Будем предполагать, что при всех рассматриваемых в интервале значениях х1 и «у, связанных между собою уравне-
ниями (1.1), задана функция
/=• =/=•(£; хп; иг), (1.4)
характеризующая при выбранных t, х1 и качество процесса, происходящего в системе (1.1). В настоящем разделе будет рассматриваться вариационная задача. В этом случае управляющие функции ц1г . . . , иг должны быть выбраны таким образом, чтобы выполнялись неравенства (1.3) и в момент ^ = Г функция Г прини-
мала максимально возможное значение.
При выборе оптимальных управлений будем считать, что они могут быть аппроксимированы кусочно-линейными непрерывными или кусочно-постоянными функциями (фиг. 1 , а). Обозначим через к длину интервала динейности или постоянства управляющих функций. Будем предполагать, что величина А достаточно мала. Определение управляющих функций будем производить последовательно, переходя от момента времени к моменту tk+\ = tk-\- к.
Основная идея метода состоит в определении оптимальных управлений в интервале времени tk-\-h) исходя из условия максимума — величины приращения функции Г в интервале (**, гДе Д(фиг. 1, б), т. е. на большем интервале
времени:
Д/^^ + Д*)-/^*). (1.5)
Величина ДГк, очевидно, представляет собой прогнозируемое приращение функционала,* которое может быть определено в рассматриваемый момент времени t — tk. Степень приближенности такого подхода определяется точностью определения Аи мерой
влияния величин управляющих функций на предшествующих шагах на величину возможного приращения функции в последующих интервалах времени. Для тех случаев, когда это влияние невелико, указанный подход позволяет получить достаточно хорошее приближение к оптимальному решению.
Заметим, что определение управления из условия максимума АРк одновременно с указанной выше задачей дает решение вариационной задачи о достижении заданного значения функционала /7 = /гтах>/7|<=0 за минимальное время.
Нусочно-лрстоянная вллроясамацг/я. '
Иуса чио-лияейная аллроисимацая
Фиг. 1
Величина АРк может быть вычислена либо непосредственно с помощью численного интегрирования уравнений движения, либо с помощью выражения *
Д/ч=8/ч + Д*
йЬ )ь { Л* 2 1 I )к 6
, (1.6)
где 8^^/-'(4 + 0)-Г(^-0).
Индексом к здесь обозначаются производные, вычисленные при t = tk + 0. Эти производные вычисляются с учетом зависимости от хь и Uj вдоль траекторий, определяющихся системой уравнений (1.1). При этом на интервале времени (£* + Л, ^+Д£) управляющие функции прогнозируются в соответствии с выбранным для них типом аппроксимации: при кусочно-постоянной аппроксимации они оказываются константами, при кусочно-линейной аппроксимации они изменяются линейно (см. фиг. 1, а, пунктирные линии). Метод расчета производных, входящих в выражение для Д/^, будет описан далее. Член ЬРк учитывает скачкообразное приращение функционала, связанное с возможными разрывами управляющих функций при £ = 1к. Это приращение вычисляется непосредственно по известной зависимости Р от ии . . , иг. Заметим, что при использовании выражения (1.6) следует предполагать достаточную гладкость функций /г и Р.
Перейдем далее к вопросу об учете ограничений (1.3). Предположим, что при t — tk неравенства (1.3) выполняются. Потребуем, чтобы они выполнялись также при £ = ** + где Та-
* „ ( &Р\ ,(<&р\
* Идея максимизации линейной комбинации ( ) + М 1 для прибли-
женного определения оптимального управления независимо от авторов была также предложена В. А. Ярошевским.
ким образом, здесь так же, как и ранее, используется идея прогнозирования. При достаточно гладких функциях ^ и fl, используя отрезок ряда Тейлора, это условие можно записать в виде
' |,=,4+*, - Т, К+о + (^*)^ + (4^ + • - • < (1-7)
Все входящие сюда производные вычисляются вдоль траекторий системы (1.1). Внутри интервала (4, ^ ограничения (1.3) могут нарушаться, однако можно ожидать, что при небольших значениях М величина этого нарушения будет невелика и ею можно пренебречь.
2. Определение производных. В выражения (1.6) и (1.7) входят производные от заданных функций х1 и щ, вычисляемые в соответствии с уравнениями движения. Принципиально они могут быть вычислены с помощью непосредственного дифференцирования. В тех случаях, когда это можно сделать в обозримой фор^ег указанный в предыдущем разделе метод позволяет получить приближенное аналитическое решение задачи синтеза. Однако при решении реальных задач механики полета вычисление производных второго и более высоких '^порядков таким способом, с одной стороны, весьма трудоемко, а с другой стороны, связано с необходимостью численного дифференцирования аэродинамических характеристик и характеристик двигателя, которые, вообще говоря, могут быть заданы не в виде аналитических зависимостей. Поэтому важной является разработка численного метода их расчета, удобного для использования на ЭЦВМ. Для определенности рассмотрим задачу о вычислении производных от функции Р. Задача о вычислении производных от функций =р5 решается аналогично. Составим выражение для первой производной от функции Р по I, учитывающее то, что переменные х1 изменяются в соответствии с уравнениями (1.1):
^Р VI дР ^ дР Лч-г д/7 ¥ = |'й;^ ]~Ж + ~дГ' (2Л)
Это уравнение будет использоваться в интервале времени (^а, ^* + А). При кусочно-постоянной аппроксимации управлений йи =
в этом интервале = 0, а при кусочно-линейной (111. ( и(Р — \
"М-у---------}Г~—) ПРИ ^ tk + h) (2.2)
(/ = 1, . . . , г).
Как уже указывалось, управления определяются последовательно, шагами, поэтому при определении иФ значения мож-
но считать известными. Из сказанного следует, что производная
ар
в интервале времени (^, 4 + ^) независимо от типа аппроксимации управлений является известной функцией от хс> г и иФ :
ар
~ЗГ = У(*> ХЬ ■ ■ ■ , хп, и<*>, . . . , «(*>) при *е(*4, tk-\-h). (2.3)
Здесь ф —известная функция от указанных аргументов, равная правой части уравнения (2.1), вычисленной с учетом (2.2)
Способ выбора значений управлений будет указан в еле-дующем разделе. В соответствии с этим при выбранных значениях иДО> для обоих типов аппроксимации при любом управ-
ляющие функции «/(£) можно считать известными. Разделим далее промежуток времени (^, + к) на т. равных частей. Используя
какой-либо из численных методов интегрирования системы уравнений (1.1), вычислим значения фазовых координат хь в моменты
(V = 0, 1 . . . , т) можно
вычислить в эти же моменты времени значения правой части уравнения (2.3). Обозначим их следующим образом:
Теперь производные функционала при t=tk можно вычислить по известным формулам численного дифференцирования [4]:
Через Д4 (5=1, 2, . . .) обозначены разности различных порядков от значений функции ф: ,
Из формул (2*5) и (2.6) видно, что точность вычисления вели* чин (2.4) должна быть тем выше, чем более высокого порядка про-
(2.5)
(
(2.6)
5—Ученые записки № 3
65
изводные от У7 необходимо вычислять. Другими словами, потребная точность вычисления Мк> (5=1, 2, . . . , т) определяется порядком погрешности в последней из формул (2.5). Ясно, что для
/ йъ Р \
того, чтобы иметь ВОЗМОЖНОСТЬ ВЫЧИСЛИТЬ I I , необходимо
ф® и связанное с этим численное интегрирование системы уравне-
/ ^5
ний (1.1) производить с погрешностью не большей, чем О I
Именно такой точностью обладают формулы четвертого порядка метода Рунге — Кутта. Таким образом, при использовании этого метода возможно вычислить производные от функционала вплоть до пятого порядка включительно. В этом случае т — 4, что означает, что для вычисления пяти производных надо сделать четыре шага численного интегрирования. При 4 число шагов численного интегрирования системы (1.1) меньше, однако меньше и число производных от /% которые можно вычислять. Так, например, при т = 3 делается три шага и вычисляются первые четыре производные. Соответствующие формулы для производных получаются из формул (2.5) путем вычеркивания последних слагаемых. При т = 2 делается два шага численного интегрирования и вычисляются три производные от Т7, формулы для которых получаются из формул
(2.5) путем вычеркивания двух последних слагаемых. Наконец,
при т = 1 значения * вычисляются лишь при Ь=Ьк и t = tk-\-h;
\ /с22<}Л ,
~Ж) и [ТЙМ вычисляются с помощью первых двух из формул
(2.5), в правых частях которых следует вычеркнуть все слагаемые, кроме первых.
Численное вычисление производных от функций ср4 целесообразно производить одновременно с вычислением производных от
предварительно выписав выражения для .
3. Задача нелинейного программирования. Перейдем к вопросу об определении управляющих функций при /€(^, Ьк-\~И). Из сказанного ранее следует, что решение этого вопроса при обоих типах аппроксимации управлений сводится к определению констант «<*)(_/= 1, 2, . . . , г). От этих констант зависят производные, входящие в выражения (1.6) и (1.7): ^ и •••>/’)>
и эта зависимость может быть определена по методике, указанной выше. Таким образом, при известных значениях фазовых координат и управлений при и выбранных шагов прогноза Д^ и АЬ
в соответствии с равенствами (1.6) и (1.7) имеют место следующие функциональные зависимости:
Д^=Д^ «>, ..., »(*));
<рЛ=,й+д7=Ф^)(й!, . . . , «<*>) (5=1, 2, . . . , р).
(3.1)
Зависимость от величин, значения которых известны, здесь не указывается. Функции Ф1А) представляют собой отрезки рядов Тейлора, входящие^в неравенства (1.7). Рассмотрим г-мерное эвкли-
дово пространство параметров иХ? (/=1, 2, . . г). Обозначим
через 2 область допустимых значений этих параметров, которая определяется неравенствами
(3-2)
Обозначим через щ оптимальные значения этих параметров. В соответствии с условием оптимальности, сформулированным в разд. 1, значения параметров и(р в области 2 дают максимальное значение Д— прогнозируемой величине приращения функционала:
Задача максимизации Д/^ при ограничениях (3.2) представляет собой стандартную задачу нелинейного программирования, для решения которой разработан целый ряд методов [5]. Эта задача должна решаться последовательно для моментов времени £ = 0, Л, 2 Н, . . . , Т — к, последнему из которых предшествует окончание процесса. Указанная процедура оптимизации проводится при фиксированных шагах прогноза функционала Д£ и прогноза ограничений М. Можно поставить задачу об оптимальном выборе этих величин. Для этого нужно решить задачу оптимизации всей траектории при различных значениях и М и выбрать те из них, при которых ограничения (1.3) выполняются с достаточной точностью, а величина Т7 при Ь—Т оказывается наибольшей.
В заключение рассмотрим одно обобщение описанного метода. Это обобщение касается характера аппроксимации управляющих функций в интервалах времени {1к, В отличие от изложен-
ного выше будем при t£(tk, tk-\- h) искать управляющие функции в виде отрезка ряда Тейлора — кусочно-аналитической аппроксимации:
Число членов, которые целесообразно учитывать в таком разложении, очевидно, определяется наивысшим порядком производных, которые учитываются при вычислении Д/7*: чем их больше, тем больше слагаемых целесообразно взять в выражении (3.4). Все входящие в равенство (3.4) производные следует рассматривать как варьируемые параметры. Произвол в выборе этих параметров в дополнение к неравенствам (1.3) ограничивается условиями сопряжения управляющих функций в момент tk. В рассматриваемом случае правые части в равенствах (3.1) зависят от производных, входящих в выражение (3.4) для и^^Ь). Вследствие этого получающаяся задача нелинейного программирования отличается от описанной выше несколько большей размерностью.
,2
+
(3.4)
(/== 1, 2, ... , г).
4. Конфликтные ситуации. Рассмотрим применение изложенной выше методики для приближенного синтеза оптимального управления в дифференциальных играх двух лиц с ненулевой суммой [2, 3]. Применение ее к этому классу задач является особенно важным, так как если число решенных вариационных задач достаточно велико, то, напротив, случаи решения игровых задач насчитываются единицами.
Пусть игрок А управляет движением системы А с фазовыми координатами хл и распоряжается выбором управляющих функций И/, а игрок Б управляет движением системы Б с фазовыми координатами у1 и распоряжается выбором управляющих функций V
Уравнения движения системы А:
Игра рассматривается в интервале времени Игрок А
стремится к максимизации функционала
При движении систем А и Б должны выполняться ограничения в виде неравенств, налагаемые на их фазовые координаты и управления:
Эти неравенства включают в себя как ограничения, налагаемые на движение систем А и Б, так и ограничения, налагаемые на их взаимное расположение. Применим для выбора оптимальных управлений обеих систем описанный выше метод. Управление, так же как и ранее, будет выбираться шагами. Предположим, что при
* б (£*, tk + К) управления и**-1) и гД*-1* известны, и рассмотрим вопрос о выборе управлений и юр при (£й, '(к + Н). В соответствии со сказанным выше вычислим прогнозируемые приращения функционалов Д/7*4), А/т(/) и прогнозируемые величины функций сР*|г=<й+д<. Имеют место следующие функциональные соотношения:
—г = /« (/; и,)
(*•= 1, . . . , п).
Уравнения движения системы Б:
(4.1)
(4.2)
(г = 1, . . . , т).
а игрок Б стремится к максимизации функционала
?,(*; хь ... , хп; уи ... , ут; щ, . . . , и,; *4, О (4.5)
(5 = 1, . . . , Р).
(4.6)
Зависимость от известных величин здесь, так же как и ранее, не указывается. Предположим, что оба игрока узнают об управлениях друг друга с некоторым запаздыванием. Более того, будем считать, что величина этого запаздывания равняется А. Тогда при выборе и<р игроком А ему известны управления противника гК*-0 на предыдущем шаге и, наоборот,, при выборе игроком Б ему известны м^_1). При использовании этой информации в простейшей форме положим ^ гК*-1) при выборе управления игроком А и ^ и^~1) при выборе управления игроком Б. Соответственно, оптимальные значения управлений игрока А выбираются
из условия максимума функции А/7*4'. . . , vik~l)) при ограничениях
Ф?>(«**>, . . . , „Г1», . . . , Г’ХО, (4.7)
■а оптимальные значения управлений игрока Б максимизируют Л/7а.Б)(и(1*-1), . . . , и{г~1)\ . . . , при условиях
Ф^(И1*_1), . . ., ^)<0, (4.8)
Параметры, подлежащие определению в приведенных здесь формулах, подчеркнуты. Таким образом, определение оптимальных значений и<у) = и(/г) и v{f) = v{jk) сводится к решению двух независимых задач нелинейного программирования.
Возможны различные обобщения указанной методики, основанные на использовании каждым из игроков более точных предположений об управлениях противника. Простейшим обобщением является использование в качестве управлений противника величин управлений и/й) и г>/А), полученных в результате решения указанных выше задач нелинейного программирования. После чего для получения более точных значений оптимальных управлений эти задачи должны быть решены еще раз.
5. Примеры. Рассмотрим сначала две вариационные задачи, относящиеся к движению в вертикальной плоскости. В обеих задачах. управляющей функцией является обусловленная подъемной силой перегрузка пу, значения которой ограничены: пу^(пут{п, Лушах)- При расчете приращения функционала учитываются две производные.
Полет на максимальную дальность за заданное время. В этом случае выражение для прогнозируемого приращения дальности I имеет вид
Уь сое 6* Ц- g(nW сое 0* — «(*> эт 0*)
(5.1)
здесь £— ускорение силы тяжести; Ук—скорость; Ък — угол наклона траектории к горизонту; пр и пр — компоненты перегрузки соответственно по вектору скорости и по направлению подъемной силы. Зависимость между пи определяется полярой летательного аппарата.
Анализ выражения (5.1) позволяет получить следующий закон оптимального управления:
п
'<*).
ш1п (»$,«. я,орі) при е*<°;
тахК‘£.іп, п%і) при 0*>0,
где д(Др1 определяется из уравнения:
йп(ук>
„<*> .
"у Ор1
(5.2)
(5.3)
Этот закон управления стремится выдержать траекторию горизонтальной с наименьшими потерями скорости. Для случая установившегося планирования он реализует траекторию с максимальным качеством.
Полет на максимальную высоту за заданное время. В этом случае выражение для прогнозируемого приращения высоты Н имеет вид
У*8ІП 6* + -у £ (»<*> 8ІП еА + »№> СОЭ в* — 1)
(5.4)
Закон оптимального управления для реального диапазона параметров записывается в форме
я!.*!., при 0А 0;
п
■(*)_
у тах
{ тіп («<»„, л<« 4) при 0* > 0 ;
здесь — корень уравнения
йпЮ
(*) = — С^ 0* . У ор!
(5.5)
Для случая траекторий малой протяженности этот закон управления обеспечивает возрастание высоты полета, близкое к оптимальному [6].
Игра преследования. Рассмотрим движение двух материальных точек А и Б на плоскости (фиг. 2). Предположим, что оно происходит с постоянными значениями модулей скорости Уа и Убу , а управление движением осуществля-
ется путем изменения углов 0Л И 0£ между направлениями скоростей и некоторым фиксированным направлением. Скорости 0)л И 0)£ изменения углов 0Л и 0£, которые являются управляющими функциями, ограничены по модулю некоторыми константами “лтах и “яшах' Игра рассматривается В фиксированном интервале времени Управление точкой А выбирается таким образом, чтобы уменьшить расстояние между точками Дг, а управление точкой Б выбирается так,, чтобы его увеличить. Таким образом, выражения для функционалов и Р(Б), которые максимизируются в процессе игры, имеют вид
Фиг. 2
рт;
Дг и_г; /?(£) = Дг |/=г•
(5-6)
Формулы для приращения этих функционалов, полученные с учетом первых двух производных, можно записать в форме
ДНЛ) = -Д/^
<Б) .
■At
-(■ 2 ^
l/£ sin §£ + VА Ид sin 8д) -j- Р
(5.7)
Через Р здесь обозначены члены, не зависящие от управлений. Законы управления движением точек А и Б записываются, соответственно, в виде
“л = ~ ШЛ шах 81&П 8А’ = шах 8Я • (5‘8>
Через 8Д и 8£ обозначены углы между векторами скоростей точек А и Б и линией, соединяющей эти точки (см. фиг. 2). Из равенств (5.8) следует, что в процессе движения оба игрока стремятся с максимальной скоростью привести к нулю углы 8Л и 8£> после чего, если начальное расстояние между точками достаточно велико, обе точки будут двигаться по некоторой фиксированной прямой. Эта картина движения в основном совпадает с результатами точного решения данной задачи, полученными в работе [7] с помощью необходимых условий оптимальности. Отличие состоит лишь в том, что при управлениях (5.8) переход на движение по прямой происходит несколько дольше, чем это получается в точном решении.
ЛИТЕРАТУРА
1. Миеле А. Механика полета. М., .Наука”, 1965.
2. Гаврилов В. М. Оптимальные процессы в конфликтных ситуациях. М., .Советское радио”, 1969.
3. Айзекс Р. Дифференциальные игры. М., .Мир*, 1967.
4. Крылов А. Н. Лекции о приближенных вычислениях. М.—Л., Гостехтеориздат, 1950.
5. Zoutendijk G. Nonlinear programming: a numerical survey. SIAM Journal on Control, vol. 4, No. 1, 1966.
6. Bryson A. E., Denham W. F. A steepest-ascent method for solving optimum programming problems. Journal of Applied Mechanics, vol. 29, 1962.
7. Симакова Э. И. Об одной дифференциальной игре преследования. „Автоматика и телемеханика”, 1967, № 2.
Рукопись поступала 17)1 1972 г.