Научная статья на тему 'Объединенный принцип понтрягина - Гамильтона - Остроградского'

Объединенный принцип понтрягина - Гамильтона - Остроградского Текст научной статьи по специальности «Математика»

CC BY
236
42
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Костоглотов А. А.

Работа посвящена решению проблемы синтеза оптимального управления динамической системой. Показано, что перспективным направлением повышения эффективности решения задач синтеза оптимального управления является применение метода игольчатого варьирования к инвариантным признакам действительного движения. В качестве такого признака выступает интеграл действия Гамильтона Остроградского, к которому применена игольчатая вариация Л.С. Понтрягина. В результате получено условие минимума целевого функционала, которое получило название объединенного принципа максимума. Полученное решение выгодно отличается от классического принципа максимума Л.С. Понтрягина в плане минимума вычислительных затрат и понижения сложности оптимизационной задачи за счет исключения вектора сопряженных переменных и соответствующей двухточечной краевой задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Костоглотов А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The new method of synthesis was suggested at this work. Method of anisochronous variation applied for obtaining conditions of functional purposal minimum to invariant sign of real motion.

Текст научной работы на тему «Объединенный принцип понтрягина - Гамильтона - Остроградского»

УДК 62-50

ОБЪЕДИНЕННЫЙ ПРИНЦИП ПОНТРЯГИНА - ГАМИЛЬТОНА - ОСТРОГРАДСКОГО

© 2007 г А.А. Костоглотов

The new method of synthesis was suggested at this work. Method of anisochronous variation applied for obtaining conditions of functional purposal minimum to invariant sign of real motion.

Традиционное решение задачи построения оптимального управления динамической системой (ОУДС) основывается на использовании принципа максимума Л.С. Понтрягина. Несмотря на его универсальность, практическое применение связано с известными сложностями. Основная из них обусловлена введением сопряженных переменных, в связи с чем приходится решать двухточечную краевую задачу большой размерности. При этом решения для сопряженных переменных могут оказаться расходящимися. Применение принципа максимума в целях синтеза также проблематично, поскольку задача построения гиперповерхности переключений, несмотря на совокупность существующих специальных методов [1], является часто трудноразрешимой.

В настоящее время в теории управления наметилась тенденция к разработке оптимальных методов синтеза, максимально использующих информацию о свойствах исследуемого объекта [2]. Она в полной мере согласуется с известным положением о том, чтоприрода объекта определяет физическое и математическое содержание проблемы поиска общих объективных законов процессов управления [3].

При исследовании динамических систем установлено, что между инвариантно-групповыми свойствами дифференциальных уравнений, описывающих движение механической системы, и физическими законами сохранения существует глубокая и нетривиальная связь. Соответственно, учет физических особенностей системы в виде ее инвариантов позволяет существенно продвинуться в решении проблемы синтеза оптимальных систем. Этот принцип лежит в основе синергетического подхода в современной теории управления [2], предполагающего конструирование с помощью известных инвариантов системы гиперповерхностей притяжения и сопровождающих функционалов.

В работе предложен новый подход к получению необходимых условий оптимальности, базирующийся на использовании инвариантных многообразий в виде признака действительного движения динамической системы. Последний определяется аналогом принципа Гамильтона - Остроградского для интеграла действия при наличии непотенциальных сил [4]. Применение к этому интегралу игольчатого варьирования Л.С. Пон-трягина позволяет получить необходимые условия оптимальности в форме принципа максимума без введения вектора сопряженных переменных, что существенно упрощает решение задачи синтеза оптимального уравнения.

Постановка задачи

Исходные положения динамики - аксиомы Ньютона и принцип Даламбера - позволяют сформулировать законы движения в виде дифференциальных уравнений, которые служат составной частью формулировки оптимизационных задач. Однако равноправными являются и вариационные формулировки, устанавливающие стационарные свойства некоторых величин, зависящих от параметров системы [4].

Рассмотрим голономную управляемую динамическую систему, интеграл действия которой имеет вид [4]

R = ¡(Т+А)Ж, о

(1)

1 "

где Т = — X ask (/.s(/k ~ кинетическая энергия;

2 s,k=l

q = [qi,---q„f - вектор обобщенных координат; ask -

4(f) п

коэффициенты инерции; . 1 = j Y.(Jsa'cls - работа обоб-

?(0)*=1

щенных внешних сил; Q = [Q1(q,q,u),...,Qn(q,q,u)]T -непрерывный по совокупности переменных вектор обобщенных сил; и = [и1,...,ит]Г - вектор управления; q(0), q(t) - соответственно начальное и текущее состояния вектора обобщенных координат; п — dim q>m = dim и; Т - знак транспонирования; точкой обозначена производная по времени.

Потребуем, чтобы при движении системы из начального состояния

HqO iio,...,^: (2)

в конечное

t = tl,q(tl) = [qll,...,qnlf, = [<?п, • •<?й1]Г , (3) под действием управления и выполнялось соотношение, аналогичное принципу Гамильтона - Остроградского для интеграла действия (1)

ti

m = \(sr + s'A)dt = о,

(4)

где знак 8' обозначает бесконечно малую величину, зависящую от вектора вариаций обобщенных координат, но не являющуюся вариацией величины А [4]

п

1

Отметим, что данное требование позволяет утверждать, что справедливы уравнения Лагранжа 2-го рода, которые для голономной системы можно записать в виде [4]

л(з^) 8qs

s = 1, п.

(5)

о

Пусть задана скалярная непрерывная вместе с частными производными на всей области определения знакопостоянная функция I7 ¿1 . Сформулируем задачу ОУДС: определить вектор-функции и(д, с'/) и д ^ , доставляющие минимум функционалу

= J F (q, q)dt —» min,

при условиях (2) - (4) и ограничении

«ей,

(6)

(7)

где Ои - замкнутое множество допустимых управлений в пространстве кусочно-непрерывных на конечном интервале времени [0, ^ ] функций.

Объединенный принцип максимума

Рассмотрим расширенный функционал следующего вида

ч

J = \{F(q,q) + Л(T + A)}dt, (8)

о

где Л - множитель Лагранжа.

Пусть и еОи,- произвольное допустимое управление. Тогда, если и доставляет минимум функционалу (8), необходимо, чтобы его вариация была неотрицательна > 0 для любых допустимых вариаций

8и . Введем в рассмотрение функцию Ф((/.(/.и.Л)

ф = I ф, = X [Я& (д, Ч, и) + к (Я, ш,, где К = ■

По физическому смыслу она представляет мощность обобщенных сил действительных = 64с/, с/,и) , явно зависящих от управления

— 5Т и е Ои , и фиктивных У3{д, ф =-, определяемых формой заданного функционала. Функция Ф(д,с[,и,Х), ЛеЯ, непрерывна по совокупности переменных и определена на области (д,д,и,А)еС1хОих11, где П - некоторая ограниченная в пространстве непрерывных на конечном интервале времени [0, функций область, которая представляет собой множество решений уравнения (5). Ограниченность □ следует из непрерывной зависимости решения уравнения (5) от управления.

Выбрав произвольное управление и<=Си, 0 < / < ^, по уравнениям Лагранжа 2-го рода (5) можно вычислить значения обобщенных координат д, д^ О., а по ним и величину функции Ф(д,д,и,Л), наибольшее значение которой при фиксированном Л существует в силу ограниченности

множества Q х G,,

M(q, q,A) = m_а q, q, и) .

u<EG,.

области 0,х0и . Тогда справедлива запись

М(Л,д,д) = тах_ Ф(А,д,д,и).

и(д,д)еОи

Докажем теорему.

Теорема. Если управление ) доставляет минимум функционалу (6) при условиях (2)-(4), (7), то существует такой постоянный множитель Лагранжа Л, что при любом / е 10. /| | функция (Щи.с/.д) достигает в точке (и(/), д^), д^)) максимума Ф(м(/),<7(0,<7(0)= тах_ Ф(и,д,д,Л).

Доказательство. Для доказательства теоремы воспользуемся игольчатым варьированием управления [1] и асинхронным варьированием траектории [4]. Игольчатым варьированием управления будем называть следующую конструкцию [1] Г v, / е [г, г + А/] , |м(0, /ё[т,т + А/], где г - заданная точка непрерывности функции и (! ); постоянная V такова, что и еОи; А/ - заданный малый конечный интервал времени.

При варьировании управления на интервале \т,т + (¡11 асинхронная вариация вектора обобщенных координат, элементарная работа и приращение функции ^ могут быть вычислены следующим образом:

5д = д(т)Ж,

ue(t) =

S'A = TQs(y)qsdt,

S=1 П

S'F=ZK(v)qsdt,

(9)

dt - бесконечно малый отрезок времени.

На интервале [г + А/,^] приращение обобщенных координат определяется решением дифференциальных уравнений в вариациях [1], обусловленных структурой системы (5) при начальных условиях в момент времени = т + М .

Приращение элементарной работы, функции Р и вариацию кинетической энергии на интервале оптимизации [0, ^ ] можно представить в виде

п

S'A = TQAu)Sqs, t ~ё [r,r + А/],

S=1

п

, t) лл - л 1и, , ^

Cs V ) _г/ s

SAT = ^ls(v)-Qs(u)^is+SA, t e [г,г + А/],

S=\

n

ST =YVs(u)öqs, t ё" [т,т + А/], (10)

S=1

¿К = t t(v)" Vs(u)~äßs + SF, te [т,т + А/],

S=1

дт в дт s.

dqs dqs

t e[0,/J.

Пусть фазовая траектория ¿¡^ и соответствующее управление и = и^,¿¡^ при заданном Л доставляют максимум функции Ф(Л,д,д,и} на

Используя (9), (10) с учётом того, что Sq{t) = 0, /е[0,г], главную часть приращения расширенного функционала (8) запишем следующим образом:

о

n

s=1

S=1

п

r+Ai и

AJ= J Z 4 (v) - Qs (M ) f, (V) - Vs (m ) Jjgsdt +

T s=l

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+ + ö'Aj-ö'F^+ J 4 + 0'А~У ST =

t r+At

r+Ai n

= j X Abs<y)-Qs&)1 ls<y)-vs&)bsdt+

+

J ^^Г + S'AjrS'F

(11)

Слагаемое в (11), содержащее приращение кинетической энергии, проинтегрируем по частям 1г1

п дТ A J =

s=\3qs

r+Ai

+

I x а (и) F (v) - vs (u) jag,* -

s=1

t\ . n QT

+ J

s=i oqs s=\

d f 5T

dt \ dq

Qs

dqs + TysSqs \dt .

s=1

Поскольку <*/Л (г) = схц!1 (/,) = 0. \ = 1. п ив условиях справедливости (5), выражение для приращения функционала при малости Д/ запишем в виде

А./ = Z 4 [) (V)-Q,(и)3 [ (V) - Vs(и) JyvA/

+

s= 1

+ 1

• " дТ

(12)

dt + \jrVsSqsdt.

Пусть и - ОУДС. Распорядимся выбором множителя Лагранжа следующим образом: Л = 0 .

Отметим, что знак первого слагаемого в формуле (12) определяется выражением

лх +£ , по-

«=1 «=1

скольку = д(г)сй. Тогда с учётом необходимого условия оптимальности SJ > 0, непрерывности и знакоположительности функции /•', для которой 6'Р > 0, имеем следующее условие для ОУДС при А( —>0:

лх +£>о.

s= 1

s= 1

Откуда £ + =

S=1

= тах_ £ (и) + Vs (и) =

s=1

= тах_ <P(u,q,q, Л) .

Таким образом, доказана теорема об ОУДС в форме объединенного принципа максимума. Теорема не дает алгоритма поиска ОУДС, однако позволяет с точностью до некоторой знакоопределенной функции определить множество допустимых управлений, подозрительных на оптимальность.

Из теоремы следует, что множество траекторий, содержащее оптимальную, определяется зависимостью (Д, Ъ и) + к (Ч, Д) = Фч* * =1 п , или

где //л (7/, с/л) - знакопостоянная функция.

Тогда в силу ограниченности области допустимых

управлений равенства //Л(V/,ц)Цц~У<.(ц,ц)=0 * = \.п

определяют гиперповерхности переключения [5], на которых управления могут терпеть разрыв первого

рода и+ тьи-.

Для любой фазовой траектории, приходящей на поверхность переключения справа или слева, должно выполняться условие совместности: уравнение поверхности переключения и любой интеграл движения на траектории в точках переключения определяются одними и теми же значениями фазовых координат. Это условие позволяет установить структуру знакопостоянной функции //(д,^).

Теорема доказана для задачи Лагранжа. Однако она легко распространяется на случай задач Майера и быстродействия. Определим дополнительные условия эквивалентности различных функционалов. Формально любая оптимизационная задача Лагранжа (6) может рассматриваться как задача Майера [1], т.е.

Л (Я, Я, «) = ), ), ).

тг Ш кг -Л

Для этого достаточно положить -= г (д,(/).

Докажем следующую лемму.

Лемма. Пусть и(/) - ОУДС, изменяющее за данное время ^ > 0 значение функционала ¿¡, Г) на максимальную величину

Л^(Г0Ж*1)>А^(0),<К0)> АМтах.

Тогда управление и (/) есть оптимальное по быстродействию управление задачи приведения объекта из состояния ^(0), ¿/(О) _ в состояние (¡(!л),¿¡(!л)

Доказательство. Построим доказательство от противного. Поскольку М(д,д) непрерывная и знакоположительная интегральная функция времени, задачу управления на интервале [0, можно разбить на ряд подобластей, для которых эта функция будет строго возрастать. В соответствии с принципом оптимальности Беллмана общую оптимизационную задачу можно рассматривать как совокупность оптимизационных задач на выделенных временных подобластях, в которых оптимальное управление ) изменяет значение интегральной функции М(д, Д) на максимальную величину, чем обеспечивается минимальное значение функционала (6).

Произвольно выберем /-й подынтервал Д;( монотонности возрастания функции М(д, Д) , на котором управление и (I) оптимально по быстродействию. Допустим, что существует допустимое управление и(1) такое, что за длительность выбранного подынтервала Ati величина М(д,с[) изменится на большую величину, чем ЛМгтах(д,^). Так как М(д,д)

s=1

п

является возрастающей функцией времени и управления, то изменение М(ц. ¿¡) на величину ДМгтах(д, г/) должно произойти за время, меньшее Д/г-. Это противоречит условию оптимальности, что с учетом проведения подобных рассуждений для всей совокупности выделенных подобластей доказывает лемму.

Пример

Рассмотрим применение объединенного принципа максимума для исследования задачи А. Фуллера об управлении с учащающимися переключениями [6, 7]. Управляемая система задается уравнениями движения, ограничениями, начальными и терминальными условиями:

х = и. (13)

И0| < и , (14)

г0 = О, х(0) = х0, х(0) = х0, (15)

*О*О0> (16)

где ^ - нефиксированный момент окончания процесса; и(0 - управление.

Функционал, определяющий качество управления, имеет вид

1 *к! 2 J = — j х (s)ds .

2 to

(17)

двух полупарабол (рисунок) Мл

. X — ^qX

х > 0; М : х = к0х

х < 0,

приводящий к решению задачи оптимального управления с учащающимися переключениями. В любой момент времени попадания фазовой траектории на кривую М выполняются условие переключения (19) и уравнение полупараболы /«•- х = 0 х - к0х2 = 0, откуда легко определить знакопостоянную функцию // = &0Ы, после чего

условие переключения приводится к виду

х —¿0|х|х = 0. (20)

Интегрируя уравнение движения (13) при и(0 = — и, х = —17, имеем хг — —11А0 + х0, д 2

Подставляя решения в условие переключения, получим квадратное уравнение, и с учетом анализа

его решений [6] запишем т0 = —

1 +

1-2 k0U 1 + 2 k0U

т0 = , а фазовые переменные на кривой М

Хп.

будут

иметь значения х, — —х0 (Ur0 — 1) ;

xi = ко*о (UtO - !)2 •

Ставится задача определения оптимального управления , x ) из класса кусочно-непрерывных функций, при котором объект (13) переходит из состояния (15) в (16), при этом выполняется ограничение (14), а функционал (17) принимает наименьшее значение.

Согласно доказанной теореме, оптимальное управление и х доставляет максимум функции Ф^,х,х = max 4fcu + x~~x . Максимум достига-

^ \u(x,x)\<U '

ется на множестве, которое определяется соотношением Ли + х = jux, откуда из условия ограниченности области управления

uli, x^=Us\gnÄ11рс — х^, (18)

где /¿(х. х) - знакопостоянная функция. Уравнение

jiix — х = О (19)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

является условием переключения управления и(x, Х).

Следуя [6], для построения кривой переключения на основе объединенного принципа максимума воспользуемся методом фазовых траекторий, проходящих через терминальную точку. Определим параметр кривой переключения М, состоящей из

Аналогично, рассматривая участок траектории, начинающейся в точке (хих|)е.\/ . приходящей в точку (х2,х2)еМ+ и лежащей в области, где и(0 = и , сформируем условие переключения в форме

(У т0-1)

Тл =-

U

1+ .1-2 k0U ' 1 + 2 k0U

= (Ut0-Y)t0 и значе-

ния фазовых переменных х2 = —х0 (1/т0 — 1) ;

Производя подобные преобразования для любого числа переключений п по индукции получим

Тп = </*о - 1>о ; х„ = (-1 Ух0(Цт0 -1г ; хп =(-!)" к0х2(11т0-1)2п. Предположим, что процесс управления оканчивается в момент времени / = //<- и фазовые переменные принимают следующие значения х(1к) = хк, х({к) = хк. Тогда для траектории в области, где и(1) = —II , имеем

2

ч = -иК+К>

xv = -и^-

Исключая из этих уравнений промежуток времени Ап , запишем уравнение для определения постоянной полупарабол к0

2

Гп -l^ + ö,

+ </г0-Г

l/To-l^ + S,

Sk =

Xz.

Sk =

Xu

которое после преобразований приобретает вид

1 + 2 k0U

2

С1 - 2k0U vl + 2 kQU

(21)

1 -2 1 Если —öu +Sk = —, 2 2

к,, = 0. и следовательно, сис-

тема под действием управления совершает периодические движения. Если 0 < к01/ < 0,5 , условие хк=хк=0 достигается при числе переключений п ^ со (режим с учащающимися переключениями, сгущающимися к точке).

к

Обозначим 2к0и = к. к0= и пусть к - решение уравнения (21). Подставляя вместе с условием переключения (20) это значение в закон управления (18), получим решение известной задачи Фуллера [6, 7]

u X x3= Usign x —

kx|x| 2U

Для случая, когда U = 1, Sk + ök = 0,05, n = 2 . значение к « 0,4446.

Из формулы следует, что для точного попадания в точку (0,0) необходимо, чтобы 2к011 = 1. При II -1. к0 - 0,5 полученное решение в силу доказанной выше леммы об эквивалентности задачи с квадратичным функционалом и задачи быстродействия в точности совпадает с решением задачи синтеза оптимального быстродействия на основе принципа максимума Л.С. Понтрягина [5].

Разработанный метод позволяет найти функциональную зависимость управления от фазовых координат, не требует построения вектора сопряженных функций и решения краевой задачи принципа максимума Л.С. Понтрягина, что значительно сокращает объём вычислительных затрат при формировании оптимального управления, а также понижает сложность оптимизационной задачи при осуществлении процедуры синтеза оптимального управления.

Применение метода объединенного принципа максимума и классических методов [5-7] для решения задачи А. Фуллера дает один и тот же результат. Это подтверждает работоспособность предлагаемого подхода.

Литература

1. Моисеев Н.Н. Численные методы в теории оптимальных систем. М., 1971.

2. Новые концепции общей теории управления: Сб. науч. тр. / Под ред. А.А. Красовского. М.;Таганрог, 1995.

3. Красовский А.А. // А и Т. 1990. № 11. С. 15 - 21.

4. Лурье А.И. Аналитическая механика. М., 1961.

5. Понтрягин Л.С. Математическая теория оптимальных процессов. М., 1976.

6. Алдакимов Ю.В., Меликян А.А., Наумов Г.В. // ПММ. 2001. Т. 65. Вып. 3. С. 400-407.

7. Fuller A.T. // Journal of Electronics and Control. 1963. Vol. 15. № 1. Р. 63-71.

Ростовский военный институт ракетных войск

5 декабря 2006 г.

2

0

о

п

i Надоели баннеры? Вы всегда можете отключить рекламу.