Научная статья на тему 'Метод Охоцимского-Понтрягина в теории управления и аналитической механике. Часть 1: метод Охоцимского-Понтрягина в теории управления'

Метод Охоцимского-Понтрягина в теории управления и аналитической механике. Часть 1: метод Охоцимского-Понтрягина в теории управления Текст научной статьи по специальности «Математика»

CC BY
137
27
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Голубев Ю. Ф.

Метод Охоцимского-Понтрягина в теории управления и аналитической механике. Часть 1: Метод Охоцимского-Понтрягина в теории управления / Голубев Ю.Ф. // Вестн. Моск. ун-та. Сер. 1, Математика. Механика. 2008. № 6. C. 49-55. Метод Д.Е. Охоцимского дифференцирования функционалов в задачах управления представлен с использованием формализма Л.С. Понтрягина. Изучена связь этого метода с другими подходами к решению задач управления и методами аналитической механики. Продемонстрированы типовые случаи решения задач оптимального управления.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Голубев Ю. Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод Охоцимского-Понтрягина в теории управления и аналитической механике. Часть 1: метод Охоцимского-Понтрягина в теории управления»

ВЕСТН. МОСК. УН-ТА. СЕР.1, МАТЕМАТИКА. МЕХАНИКА. 2008. №6

49

Механика

УДК 531.36

МЕТОД ОХОЦИМСКОГО-ПОНТРЯГИНА В ТЕОРИИ УПРАВЛЕНИЯ И АНАЛИТИЧЕСКОЙ МЕХАНИКЕ. ЧАСТЬ 1: МЕТОД ОХОЦИМСКОГО-ПОНТРЯГИНА В ТЕОРИИ УПРАВЛЕНИЯ

Ю. Ф. Голубев

Введение. Острая необходимость решать задачи оптимального управления возникла в середине 40-х гг. XX века в связи с проектами запуска баллистических ракет и выведения на орбиту искусственных спутников Земли. В отличие от задач классического вариационного исчисления множество допустимых фазовых кривых в задачах оптимального управления должно было удовлетворять заданным дифференциальным уравнениям движения, тогда как искомое управляющее воздействие входило в правую часть этих уравнений как выбираемая с достаточным произволом функция. Критерием качества управления могли быть функционалы, выражающие энергетические затраты, расход топлива, время движения, а зависимость функционала от управления оказывалась опосредованной в силу заданных уравнений движения. Кроме того, траектории обязаны были удовлетворять заданным краевым условиям, связанным с преследуемой целью управления. Это был совершенно новый класс задач, для решения которых в то время не существовало регулярной эффективной техники решения, аналогичной той, что была разработана для классических вариационных задач. В связи с этим разными авторами было исследовано несколько подходов, позволяющих с той или иной степенью эффективности изучать задачи указанного класса. Среди них наибольшую популярность получили метод первой вариации Охоцимского, известный также как метод множителей Лагранжа [1], принцип максимума Понтрягина [2] и метод Айзекса-Беллмана [3, 4]. Литература по методам теории управления огромна. Современное состояние этих методов отражено в книге [5]. Идея метода первой вариации наиболее близка к идее классического вариационного исчисления о нахождении дифференциала функционала на заданном множестве функций, что роднит ее также с основной идеей математического анализа исследования свойств функции по дифференциалу. Поэтому метод первой вариации обладает значительной гибкостью в смысле возможности учета разнообразных дополнительных к базовой модельной постановке ограничений, свойственных проектным задачам. Д. Е. Охоцимский, разработавший метод первой вариации для задач управления, сформулировал стандартную процедуру, позволяющую найти дифференциал функционала в пространстве управлений при весьма необременительных ограничениях на свойства функционала. Однако эта процедура не была строго формализована и допускала различные равносильные варианты ее реализации. Формализм Л. С. Понтрягина, связанный с введением сопряженных переменных и гамильтоновой системы в расширенном за счет сопряженных переменных пространстве состояний, обеспечивает однозначность процедуры дифференцирования функционалов и позволяет учесть при решении задач оптимального управления хорошо изученные свойства гамильтоновых систем. Соединение метода дифференцирования функционалов, предложенного Д. Е. Охо-цимским, с формализмом Л. С. Понтрягина для задач оптимального управления будем в дальнейшем называть методом Охоцимского-Понтрягина.

В данной статье прослеживается связь метода Охоцимского-Понтрягина с другими походами к решению задач управления и методами классического вариационного исчисления. Предлагается обобщающее обоснование интегральных вариационных принципов механики, которое позволяет установить полезные аналогии некоторых общих положений теории управления с известными результатами аналитической механики.

Метод Охоцимского-Понтрягина. Возьмем некоторую систему дифференциальных уравнений ^ = хеГ, и еКк, х = (жь... ,хт), и = (щ,... ,ик), (1)

где скаляр Ь £ [¿о — е, + е] — время; х — вектор переменных, для которых могут быть заданы краевые условия: х(£о) = хо, х(Ь\) = хх; и(£) — управление, выбираемое так, чтобы были выполнены условия существования и единственности решения системы (1).

Обозначим через 7 опорную вектор-функцию в пространстве Кк:

7 = {и е Ек : и = и(£), ¿0 — е < £ < + е}, е > 0.

50

ВЕСТН. моек. УН-ТА. СЕР.1, МАТЕМАТИКА. МЕХАНИКА. 2008. №6

Пусть 7' — другая вектор-функция:

7' = {и' е Кк : и' = и(£) + 5и(г), ¿о - е < í < ¿1 + е].

Представим ее в виде 7' = 7 + 5. Зададим некоторый функционал Ф(7,¿о,¿1,хо,х1)- Изучим свойства приращения

ДФ = Ф(7 + 5, ¿о + + (¿1, хо + dxо, Х1 + (х1) - Ф^,^,^, хо, Х1).

Определение. Функционал Ф называется дифференцируемым на некотором множестве вектор-функций 7 и параметров ¿о, ¿1, хо, Х1, если ДФ представляется суммой двух функционалов: ДФ = (Ф + К, где (Ф = (Ф(5, (¿о, (¿1,(хо,(х1, ^,¿0, ^ 1., хо, х1) зависит от 5, (¿о, , (хо, (х1 линейно при фиксированных 7, ¿о, ¿1, хо, х1 и называется дифференциалом функционала Ф, а К есть малая более высокого порядка относительно ||5||, (Но, (¿1, ||(хо||, ||(х11|. Слагаемое 5и(£) называется изохронной вариацией вектор-функции.

Найдем дифференциал функционала

ч

Ф(7,*о,*1,хо,х1) = J W(x, и,Ь) сМ

¿0

по всем аргументам. Обозначив ф = (Ф1,... ,фт), составим вспомогательный функционал

¿1

Л

¿0

г=1

8=1

Функционал Л совпадает с функционалом Ф для функций х(£), удовлетворяющих системе уравнений (1). При этом коэффициенты фг{Ъ), 2 = 1,...,ш, можно выбирать совершенно произвольно. Воспользуемся произволом с целью преобразования дифференциала функционала к виду, в котором будут присутствовать только 5п^, j = 1,...,к, (Мо, (¿1, (хо, (х1. Выполним дифференцирование в предположении, что х(Ь) удовлетворяет системе (1):

(Ф =

дН

дН

Е ш ** + Е Е **

г=1

3=1

ди

г=1

г=1

(2)

Внеинтегральным членом выражается приращение функционала из-за изменения пределов интегрирования. Символ "5" означает изохронное варьирование (при фиксированном времени) соответствующих функций. Полное варьирование (полный дифференциал), учитывающее возможность изменения параметра Ь вместе с изохронным варьированием, выражается формулой

(Хг = 5хг + /г(х, и, ¿)

(3)

Меняя порядок вхождения символов изохронного варьирования и дифференцирования по времени в последнем слагаемом подынтегрального выражения в (2) и выполняя интегрирование по частям, найдем

(Ф =

3 = 1

г=1

¿1

¿0

Фг 5хг

г=1

0

Учитывая равенство (3), получим

¿1

(Ф =

дН

§ (Ш++ е ^■5щ)м+Iя 1- §'^1

1

0

(4)

Теорема 1 (метод Охоцимского—Понтрягина). Дифференциал функционала Ф для опорного управления и(Л) дается формулой

к дНН ( т

У^ --5щ ( Н (М - Фг (1х,

¿0 3 = 1 3 V

¿1

¿0 5=1

Й = Ш + Е иЛ (5)

при условии, что вектор-функция ф(Л) = (^1 (Л),..., фт(¿)) удовлетворяет совместно с вектор-функцией х(Л) системе дифференциальных уравнений

(1x1 _ дН_ _ _дН_ . _

(М дфг' (М дхг' '''''

Доказательство непосредственно следует из формулы (4), которая справедлива независимо от выбора вектор-функции ф [1].

Компоненты вектора ф, определенные системой уравнений (6), называются сопряженными переменными, а соответствующая им система дифференциальных уравнений — сопряженной системой. Функция Н называется функцией Гамильтона или гамильтонианом задачи управления. Система (6) при заданном управлении представляет собой гамильтонову систему дифференциальных уравнений [2].

1.1. Необходимые условия экстремальности. Пользуясь произволом в выборе начальных и конечных значений сопряженных переменных, обнулим внеинтегральные члены выражения для дифференциала в (5), т.е. потребуем выполнения условий трансверсальности [2]

Я(х(Ло), и(Ло), Ф(Ло)) ¿¿о - Фг(Ло) (1хг(Ьо) = 0,

г=1 т

Я(х(*1), и(Л1), ф(Л1)) ¿¿1 -22 Фг(Л1) сХ^Ь) = 0,

которые подходящим выбором ф и и в точках ¿о и ¿1 должны быть удовлетворены для любых допустимых в этих точках условиями задачи дифференциалов сМ и йх. Условия трансверсальности обусловливают краевые значения вектор-функции ф. При выполнении условий трансверсальности в формуле (5) останутся члены, содержащие только вариацию управления:

/к т т ^т

¿0 3=1 3 5=1

Замечание. В приведенных выше рассуждениях не требовалось каких-либо жестких ограничений на функции Ш(х, и,Л) и и(Л). Достаточно лишь, чтобы выполнялись условия существования решений сопряженной системы, а функция У^ —— би* была интегрируемой в смысле исходного функционала. Напри-

^ ди3

3=1

мер, функция Ш может быть кусочно-дифференцируемой по управлению, а и(Л) — кусочно-непрерывной вектор-функцией.

В технических приложениях управление, как правило, принадлежит замкнутой ограниченной области. По этой причине понятие экстремали функционала было соответствующим образом обобщено [1]. Экстремалью функционала Ф называется функция 7, для которой дифференциал СФ не улучшает в выбранном смысле значения функционала при любой допустимой вариации 5.

В частности, если на управление не наложено никаких ограничений, то экстремалью будет вектор-функция 7, для которой СФ = 0 при любой вариации 5, что влечет дН/ди = 0. Если управление принадлежит замкнутой ограниченной области О, то экстремаль может быть как внутри области, так и на границе. Для участков экстремали внутри области для соответствующих компонент из должно быть дН/диз = 0, а для участков, принадлежащих границе, дифференциал не обязан равняться нулю, но никакая допустимая вариация управления не должна улучшать функционал.

Различные компоненты вектора управления могут преследовать противоположные цели в смысле улучшения величины функционала, и тогда получаются постановки теории дифференциальных игр.

Пример 1. Рассмотрим задачу быстродействия в нуль для линейной системы

^ = Ах + Ви, х£Й" йЬ

и е Кк, \щ\ < йг > 0,

где А(Ь), В(Ь) — матрицы размерности (т х т) и (т х к) соответственно. Требуется за минимальное время Т из заданного в фиксированный начальный момент времени Ьо состояния х = х(Ьо) привести систему к моменту ¿1 = Ьо + Т в состояние х(Ь1) = 0. Такая постановка задачи используется при стабилизации объектов.

В данном случае функционалом служит время:

¿1

йф

Ф= 1М, Я = 1 + ф (Ах + Ви), = —А ф, (1Ф = ф^биМ,

¿о

¿0

а условия трансверсальности с учетом условий задачи сводятся к одному уравнению [1 + фт(Ь1)В(Ь1 )и(Ь1)] = 0. Экстремали выражаются формулами

иг = ^йг фу Ьуг , ,

Кз=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т

г = 1,...,к,

где знак выбирается в зависимости от того, должна данная компонента уменьшать время попадания в нуль или увеличивать его.

1.2. Динамическое программирование. Воспользуемся принципом оптимальности, гласящим, что любой кусок оптимальной траектории есть также оптимальная траектория. Пусть на отрезке [Ьо ,Ь1] управление и(Ь) в том или ином смысле оптимально. Зафиксируем его, положив §и(Ь) = 0. Тогда Ф = Ф(Ьо, хо ,Ь1, Х1). Если сопряженные переменные совместно с переменными состояния удовлетворяют уравнениям (6), то, как следует из (5), дифференциал йФ выражается формулой

йФ = [и йЬ Фг ОхЛ

^ г=1 '

¿1

¿0

которая проясняет смысл сопряженных переменных. Если зафиксировать управление и взять ф(Ь1) так, чтобы было выполнено

Я(Ь1) йЬ1 Фг (Ь1) йхг (Ь1) =0,

г=1

то тогда

или

йФ = -Й(Ьо) йЬо + ^Фг(Ьо) йхг(Ьо),

г=1

Ж

= Я(хо, ио, Фо,Ьо),

= 0

ЭФ

дХг

= Фг(Ьо).

= 0

Имеем аналог уравнения Гамильтона-Якоби для начальных условий

—- Ь Я I х^,..., хт, и\,..., и^у тг ) • • •) т: ) ^ дЬ \ дх1 дхт

0,

= 0

что можно переписать также в виде соответствующего уравнения Айзекса-Беллмана [3, 4]

= -Ъ^ и,Ь)|4=о.

дФ т дФ 8=1

(7)

= 0

Аналогичная процедура может быть выполнена и для момента времени Ьь Левая часть (7) имеет смысл полной производной по времени в силу уравнений (1) от функционала Ф, рассматриваемого в виде функции от начальных значений времени и координат: Ф = Ф(Ьо, хо).

Отметим, что если Ф = Ф(х) (не зависит явно от времени), то тогда должно быть

Я(х(Л), и(Л), ф(¿),Л) = 0

вдоль траектории, соответствующей управлению и(Л), т.е. функция Н(х(Л), и(Л), ф(¿),Л) будет первым интегралом системы уравнений (6).

К соотношению (7) можно отнестись как к уравнению в частных производных первого порядка и ввести понятие полного интеграла [6] 5 = 5(х1,..., хт, а1,..., ат, ¿), т.е. функции, зависящей от произвольных постоянных а1,..., ат и удовлетворяющей (7), причем

/ д2Б \

е \dxidaj )т

Если такая функция известна, то полная совокупность первых интегралов системы (6) дается формулами

дБ дБ .

Т— = Рг, Т— = -щ, 1 = 1,..., т. даг дхг

Доказательство этого факта вполне аналогично приведенному в [6].

Пример 2 (одномерная задача о быстродействии). Движение системы задано уравнением

д = и, —1 < и < 1,

где и — управление, выбираемое произвольно в указанном диапазоне, но так, чтобы уравнение движения имело решение. В начальный момент времени ¿о =0 система имеет координату д(0) = до и скорость д(0) = до. Управление требуется выбрать так, чтобы перевести точку из начального заданного положения в положение д(Т) = 0, д(Т) =0 за кратчайшее время. Решение этой задачи можно посмотреть в [2] или, например, в [6]. Обозначим Х1 = д, Х2 = д. Быстродействие достигается управлением

+1, х1 < Х1;

|Х2|Х2

и = < — эщпжг, х\ = х\; х\ =---—,

— 1, х1 > Х1,

а функция Ф(Х1,Х2)|4=о на этом управлении принимает вид

2\/х\/2 — х\ — х2, х\ < Х\\

Ф(Х1 ,Х2)|4=о = { |Х21, Х1 = Х1;

/2 + Х1 + х2, Х\ > Х\. Уравнение (7) можно записать следующим образом:

( дФ дФ дФ

-Т7Г + Т—Ж 2 + Т—, Х1<Х1]

дЬ дх1 дх2

дФ дФ дФ -1 = -ттг + т— - т— вщпжг, Х1=Х1] т дх1 дх2

дФ дФ дФ

-Т7Г + Т—Ж 2-Т—, Х1>Х1.

т дх1 дх2

Функция Ф(х1, Х2) |¿=о, очевидно, этому уравнению удовлетворяет. Поскольку Ф от времени явно не

зависит, замечаем, что для оптимального управления справедливо тождество Н = 1 + Ф1Х2 + ф2и = 0. Полный интеграл уравнения Беллмана в данном случае имеет вид

а4(х2 — ¿) + а1{х1 — хУ2) — х2, х1 < Х1;

5 = ^ —аг(|х21 + + а^Х1 + |х2Х2/2) + |х2|, Х1 = Х1; —а4(х2 + ¿) + а1{х1 + х2/2) + х2, х1 < Х1.

1.3. Методы терминального управления. Зададим конечный момент времени каким-нибудь условием. Пусть задача управления состоит в том, чтобы обеспечить при Ь = заданное значение хд некоторой характеристики х(х(Ь),Ь)). Предположим, что в начальный момент времени т заданы исходные значения вектора х(т) и выбрано управление и(Ь), которому соответствует значение х(^\) = Хи. Возьмем Ьо — текущий момент процесса управления: т < Ьо < Ьь Этому моменту в результате интегрирования системы (1) с управлением и(Ь) соответствует значение х(Ьо). В реальном процессе из-за несовершенства модели движения и ошибок возникнут отклонения бх(Ьо). Влияние управления в интервале времени [Ьо ,Ь 1] на величину Х(^) оценим с помощью функционала Ф = х(^1) — х(Ьо). Задав конечные условия для сопряженных переменных так, чтобы было

т

#(¿1) бъ — ^ Фг(Ь1) бхг(¿1) = 0,

г=1

получим выражение для дифференциала функционала

к

дип

/к д j j j

Y^ ÖU3 dt + Y ФгЫ dXi(to). to j=1 Uj i=1

Здесь компоненты вектора ф(Ьо) характеризуют влияние наблюдаемых отклонений вектора х на конечное значение функционала. Влияние управления выражается интегральным членом. Положив бФ = Хд — Хи, найдем интегральное уравнение для приращения 5и(Ь), устраняющее в первом приближении рассогласование Хд — Хи:

/к сдИ ^т

д^- М = Хд-Хи-^2 ^¿^о).

г0 з=1 Пз г=1

Решение этого уравнения неоднозначно. Однако ясно, что если хд = Хи, а Ьо близко к то с ограниченным управлением возникнут проблемы. Выбрав опорное управление так, чтобы было хд = Хи, окончательно получим

/к д И ^т

• 1 9из " 3

to j=1 J i=1

Чтобы разрешить неопределенность, можно параметризовать управление с помощью модулирующих функций [7]. Назначим 5и] = в]Ф] (Ь), где в] не зависят от времени, а ф] (Ь) — специально подобранные функции. Одним из возможных решений уравнения (8) может быть

т

^2фг(Ьо) бхг(Ьо) н

ßj = fJbj, ß = ---1-, bj = j (pj(t) dt.

b2 to 3

b3

J2b2

3=1

Применяя подходящие модулирующие функции, можно организовать многошаговый процесс выбора управления [7].

Работа выполнена при поддержке РФФИ, грант № 07-01-00134.

СПИСОК ЛИТЕРАТУРЫ

1. Охоцимский Д.Е., Энеев Т.М. Некоторые вариационные задачи, связанные с запуском искусственного спутника Земли // Успехи физ. наук. 1957. 63, вып. 1. 5-32.

2. Понтрягин Л.С., Болтянский В.Г, Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука, 1961.

3. Айзекс Р. Дифференциальные игры. М.: Мир, 1967.

4. Беллман Р. Динамическое программирование. М.: ИЛ, 1960.

5. Александров В.В., Болтянский В.Г, Лемак С.С., Парусников Н.А., Тихомиров В.М. Оптимальное управление движением. М.: ФИЗМАТЛИТ, 2005.

6. Голубев Ю.Ф. Основы теоретической механики: Учебник. 2-е изд., перераб. и дополн. М.: Изд-во МГУ, 2000.

7. Охоцимский Д.Е., Голубев Ю.Ф., Сихарулидзе Ю.Г. Алгоритмы управления космическим аппаратом при входе в атмосферу. М.: Наука, 1975.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 26.03.2008

УДК 531.396

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ФОРМИРОВАНИЯ ВЫХОДНОЙ ИНФОРМАЦИИ В ГРАВИТОИНЕРЦИАЛЬНОМ МЕХАНОРЕЦЕПТОРЕ ПРИ ПАДЕНИИ

В САГИТТАЛЬНОЙ ПЛОСКОСТИ

В. А. Садовничий, В. В. Александров, Т. Б. Александрова, Р. Вега, Г. Кастильо Кироз, М. Рэйес Ромеро, Э. Сото, Н. Э. Шуленина

Данная статья является продолжением статьи [1], где было введено понятие гравитоинерциального механорецептора. В соответствии с определением вторичного механорецептора (в физиологии) понятие гравитоинерциального механорецептора уточняется введением понятий первичной и вторичной выходной информации. Представляются математическая модель формирования этих выходных информационных процессов и сравнительный анализ с физиологическим экспериментом, выполненным на поворотном стенде в лаборатории нейрофизиологии Автономного университета штата Пуэбла (Мексика).

1. Рассмотрим экстремальную ситуацию — начальный этап неуправляемого падения человека в сагиттальной плоскости (порядка 100 мс), когда еще возможно стабилизировать вертикальную позу. Как показано в статье [2], наибольшая реакция волосковых клеток на механический стимул, приводящий к падению, наблюдается в клетках, расположенных по оси чувствительности макулы саккулюса, ортогональной местной вертикали в начальный момент (рис. 1).

Саккулюс, так же как и утрикулюс, является многоразмерным акселерометром, позволяющим получать информацию о кажущемся ускорении отолитовой мембраны по многим направлениям чувствительности. Нас интересует только одно из этих направлений, определенное выше. В связи с этим в дальнейшем речь пойдет не о математической модели динамики отолитовой мембраны в плоскости, параллельной плоскости макулы, и реакции на этот механический стимул многих волосковых клеток и афферентных первичных нейронов, а только о динамике по определенной выше оси чувствительности. Так как по рассматриваемой оси чувствительности (рис. 1) расположены волосковые клетки, у которых положительное направление совпадает с направлением падения вперед (они расположены перед стриолой (reversal line)), и волосковые клетки, у которых положительное направление совпадает с направлением падения назад (они расположены за стриолой), то будем учитывать реакции двух волосковых клеток с противоположными положительными направлениями чувствительности. Совокупность волосковой клетки с афферентным первичным нейроном, согласно статье [3], будем называть вестибулярным механорецептором. Вестибулярный механорецептор является базовым элементом всех сенсорных образований вестибулярного аппарата.

Гравитоинерциальным механорецептором для стабилизации вертикальной позы в сагиттальной плоскости будем называть совокупность трех математических моделей, первая из которых описывает динамику отолитовой мембраны по рассматриваемой оси чувствительности, а две другие — реакцию на смещение отолитовой мембраны вестибулярных механорецепторов с противоположными положительными направлениями (рис. 2). На рис. 2 для простоты представлен один вестибулярный механорецептор, второй имеет аналогичную структуру. Математическая модель вестибулярного механорецептора состоит из четырех блоков: первый блок, соответствующий механизму механоэлектрической трансдукции, объединен со вторым блоком динамики общего ионного тока и мембранного потенциала волосковой клетки при наличии общей обратной связи, соответствующей процессу адаптации; третий блок соответствует механизму си-наптической трансмиссии; четвертый блок описывает активность афферентного первичного нейрона.

Ввсрх

Рис. 1. Схема макулы саккулюса с направлениями чувствительности волосковых клеток

i Надоели баннеры? Вы всегда можете отключить рекламу.