УДК 517.977.1 517.977.54:56 С.С. Мазуренко1
МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ В СИСТЕМАХ С СОСТОЯНИЯМИ В ВИДЕ РАСПРЕДЕЛЕНИЙ*
В статье рассматривается задача оптимального управления системой с начальным состоянием в виде известной функции распределения, заданная на фиксированном отрезке времени. Для ее решения применяется подход, в котором за состояние системы принимаются распределения координат в каждый момент времени. Выводятся аналоги уравнений гамильтонова формализма для задачи минимизации интегрального функционала. Приведено решение в замкнутом виде задачи оптимального управления для линейной системы с интегральным квадратичным функционалом.
Ключевые слова: уравнение Лиувилля, линейные системы, гамильтонов формализм.
1. Введение. В теории оптимального управления важную роль играют детерминированные задачи оптимизации, в которых состояние системы точно известно в каждый момент времени. Динамика таких систем описывается системой дифференциальных уравнений при заданном начальном положении. При рассмотрении задачи в условиях неопределенности появляются известные схемы интегрирования, наблюдения и управления [1]. Однако некоторых проблем, возникающих в стохастической постановке, можно избежать, используя стандартный аппарат исследования задач оптимизации без неопределенностей, примененный к динамическим системам с известным распределением начальных состояний. Анализ такого рода может быть осуществлен при помощи эволюционных уравнений
1 Факультет ВМК МГУ, асп., e-mail: stasmazurenkoQmail.ru
* Работа выполнена в рамках ФЦП "Научные и научно-педагогические кадры инновационной России на 2009-2013 годы" (контракт № 16.740.11.0426 от 26 ноября 2010 г.) и при финансовой поддержке РФФИ (грант 09-01-00589-а).
в терминах опорных функций к множеству достижимости системы. Описание потоков, порожденных начальными распределениями, сосредоточенными на компактном множестве, приведено в работе [2]. Вместе с тем возможен другой подход [3], который рассматривает вопросы управляемости систем, динамика которых описывается в терминах уравнения Лиувилля:
= - (Jl~,p(t,x)f(t,x,u)j ,
решение которого для заданного начального распределения p(to, ж) = ро(х) может пониматься в обобщенном смысле.
В первой части этой статьи приводятся факты касательно уравнения Лиувилля. Затем рассматривается задача оптимального управления с интегральным функционалом, линейным по распределению, в рамках гамильтонова формализма. Далее с помощью уравнений типа Гамиль тона Якоби Воллмана приводится решение в замкнутом виде задачи оптимального управления для линейной системы с квадратичным функционалом. В последней части статьи рассматривается общая постановка задачи в случае, когда целевой функционал зависит от распределения нелинейно.
2. Постановка задачи в общем случае. Уравнение Лиувилля. Рассмотрим следующую систему:
х = /(1,х,и), ¿€Т=[£о,£ 1], (1)
где х € К™, и(1) е 1р — управление из некоторого класса кусочно-непрерывных функций и, функция /(¿, ж, и), такая, что /(¿, ж, и) и ж, и) непрерывны на Т х Жп х II и решение задачи Коши продолжаемо на весь отрезок Т для любого начального условия ж(£о) = жо- Пусть также задано начальное распределение ж) =ро(х), такое, что
Уж
G Жп р0(х) ^0, J р0(х) dx = 1.
Тогда под функцией р(1, ж) будем понимать плотность распределения ж(£), т.е. вероятность нахождения точки системы в области А С Жп в момент времени
(ж(t) G А) = jp(t,x)dx.
А
В таком случае динамика функции ж) описывается уравнением Лиувилля*:
д / д \
—р(г, х) = -( Х,и)) . (2)
Причем уравнение Лиувилля может быть выведено для широкого класса распределений — обобщенных функций [4, 5]. Пусть V = С°(ЖП) — пространство непрерывных функций с компактным носителем, т.е. таких функций чр € С°(Жп), что существует компакт К: ^к»»^ = 0. Обозначим через V пространство линейных непрерывных функционалов на £>, которое в дальнейшем будем называть пространством обобщенных функций. Пространство V было выбрано не случайно. Согласно теореме Рисса-Радона для локально компактного пространства X, непрерывные линейные функционалы на С®(Х) можно отождествить с мерами Радона [6] в том смысле, что любой линейный непрерывный функционал / на С®(Х) представим в виде
(f,ф) = |фd^if (3)
где ^ — мера Радона, и, обратно, каждая мера Радона щ определяет по формуле (3) линейный непрерывный функционал на С®(Х).
* Здесь и далее (а,Ь) = J2 а»Ь», ^ = (gfj-, • • •, щ^)-
Так как пространство Жп с естественной топологией является локально компактным, действие любого функционала / из V может быть представено в виде
и,Ф) = ! Ф(х)/(х)ёх,
кп
где /(ж) йх задает интегрирование по соответствующей мере Радона.
Далее будем считать, что •) € V — обобщенная функция, зависящая от параметра Ь. Обозначим за пространство функционалов р(1, •) € V, для которых выполнено
и р(1, х) йх определяет неотрицательную меру Радона. Помимо регулярных функций* пространство Т содержит, в частности, 5-функции Дирака.
Теперь рассмотрим динамику изменения среднего значения пробной функции ф(х) € С,}(ЖП) в соответствии с (1) в предположении, что функция р(1, •) дифференцируема по параметру** и определена в соответствии с динамикой (1). С одной стороны,
д Г Г д
— / ф(х)р{Ь1 х) йх = / ф(х)—р{Ь1х)йх.
Однако ввиду (1) для функции ф(х) верно равенство
поэтому
д Г Г / д \
— / ф(х)р{Ь1 х) йх = / у — ф(х),/(¿, ж, и) ) х) йх.
Воспользовавшись определением производной обобщенной функции*** в последнем интеграле, получаем, что для любой функции ф(х) € Сс(Жп)
Г д Г / д \
/ Ф(х)т^р(1,х)<1х=— ( —,/(¿, ж, х) ) ф(х) йх,
Кп Кп
или, другими словами, обобщенная функция р(1, х) удовлетворяет уравнению
д / д —р(г,х) = - (—,р(г,х)/(г,х,и)
Теперь воспользуемся тем фактом, что если р(х) йх задает неотрицательную меру на множестве Жп и задано отображение ср :Шп —> Жп, которое является взаимно однозначным и непрерывно дифференцируемым, то плотность распределения р(х) под действием этого отображения преобразуется по следующему правилу:
„(.) (4) __р[) \м-)\ '
*Напомним, что обобщенная функция / называется регулярной, если она представима в виде (/, ф) = / /(х)ф(х) в,х.
ш1
**Т.е. существует предел д11т р(ь>х) как Предел обобщенных функций.
*** Обобщенной производной называется линейный непрерывный функционал д^г-/ над множеством непрерывно дифференцируемых функций с компактным носителем, действующий по правилу
где Зу — якобиан преобразования {р. В случае, когда отображение ср каждому значению ж о ставит в соответствие решение системы (1) ж(£, ¿о,жо) с начальным условием ж(£о) = хо, преобразование (4) описывает эволюцию плотности, т.е. плотность распределения х в момент времени t
Таким образом, может быть получено решение уравнения Лиувилля (2). Для этого покажем, что обобщенная функция р(1,х), полученная из (5), дифференцируема по I:
[ ф(х)р(1,1х) йх = [ ф(^^ йх = [ ф({рЛх))рио, ж) (¿Ж. (6)
■1 .1 №<РАх)\ ■>
Кп Кп Кп
Так
как ^¡н ^ — и)' т0 для дифференцируемой функции ф(ж) с компактным носителем
правая часть (6) дифференцируема, т. е. все числовые функции / ф(х)р(1, ж) йх дифференцируемы по
кп
t, что влечет за собой дифференцируемость по t обобщенной функции ж).
В следующем разделе будет рассмотрена задача оптимального управления с функционалом, линейным по распределению, которая в случае линейной системы сводится к замкнутой системе дифференциальных уравнений.
3. Принцип оптимальности для функционала, линейного по распределению. Уравнение типа Гамильтона^Якоби^Беллмана. Наряду с системой (1) рассмотрим следующую задачу минимизации:
¿1
ж, ж) йхМ + / ■г/'(ж)р(^1, ж) йх—> т£, У «ее/
to кп Кп
в которой обе функции Ь(1, ж, и) и ф(ж) непрерывно дифференцируемы по совокупности переменных. Обозначим через Т множество таких начальных распределений р0 из Т, для которых интегралы / Ь(1,х,и)р(1,х) йх, f ф(х)р(1\,х) йх сходятся равномерно по времени t € [¿о, ¿1] для фиксированного
Кп Кп
управления и.
Определение. Функцией цены будем называть функцию
t1
V(¿o?Po) = inf^y J L(t,x,u)p(t,x) üxüt + J ф{х)р^\, x) йх
ti
J J p(to,-) =Po(-) G
~t0
Тогда, применив стандартную технику гамильтонова формализма [7], но уже к функционалу V, получаем принцип оптимальности:
*о+о-
V(¿o?Po) = inf i / / L(t,x,u)p(t,x) üxüt + V(íq + cr,p(to + c, •))
l J J
t0 1»
который можно переписать в терминах частных производных:
inf { — V(t,p(t, •)) + [ L(t, ж, u)p(t, ж) йх\ = О, иеи yüt J )
i»
V{h,p(ti,-)) = J ip(x)p(t i,x)üx.
Kn
Далее применяем теорему о дифференцировании композиции функционалов:
jV(t,p(t, •)) = §¿v(t,p(t, •)) + fe •)
где Ур — производная по Фреше. Как было показано выше, для корректного задания производной •) необходимо, чтобы была дифференцируема по ж, причем
p(v)) =
[ 9
Тогда, используя уравнение Лиувилля (2), получим следующую систему:
д
< - I v;,A
иеи
^-V{t,p{t,-)) + mf <! - \ v£,(j^,p(t,x)f(t,x,u)
L(t, ж, u)p(t, ж) dx > = О
^(¿ьР(^ь-)) = J iKx)p(ti,x) dx,
(7)
которая рассматривается в области Т х Т. Путем несложных преобразований система (7) сводится к виду
•)) + ж), ж, и)) + х, и) ) р{Ь, ж) dx \ = О,
inf
иеи
dt
V{h,p(h,-)) = Ji/j(x)p(ti,x) dx.
(8)
Следующая теорема дает связь между решением системы (8) и функцией цены для исходной задачи.
Теорема. Если функционал W(t,p) дифференцируем по t и по р (в смысле производной по Фреше), причем ж) дифференцируема по ж, и W(t,p) удовлетворяет системе (8) в некоторой
области G С Т х Т, то в этой области
V(t,p) 2 W(t,p),
причем если существует такое управление и*, что для соответствующего ему распределения p*(t,x) выполнено
J({VWp(i, ж), f(t, х, и*)) + L(t, х, u*))p*(t, ж) dx = min<! J((VW^t, ж), f(t, x, u)) + L(t, x, u))p*(t, x) dx
mo V(t,p) = W(t,p).
4. Линейно-квадратичный функционал для линейных систем. В этом разделе будут рассмотрены основные результаты для линейных систем, разрешена система (8) для квадратичных функционалов, а также проиллюстрированы частные случаи начальных распределений и их динамика в соответствии с задачей минимизации функционала. Итак, рассматривается система
ж = A(t)x + B(t)u, t£[tQ,ti], (9)
где ж € К™, и € Шр, матрицы A(t) € Жпхп и B(t) € Шпхр непрерывны по t и ограничены. В начальный момент времени задано распределение
p(tQ,x) =ра(х) € Т.
В линейном случае отображение ср в (5) записывается в виде
t
<pt(x) = X(t,tQ)x + J X(t,r)B(r)u(r) dr,
to
где X(t,to) — фундаментальная матрица системы (9):
д
dtX(t,r) = A(t)X(t,r), Х(т,т) = 1.
Тогда если p(to, ж) = ро(ж), то
p(t, х) = щ^ууРО t)x - J X(tQ, т)В(т)и(т) dr^j . (10)
to
Пусть теперь с учетом системы (9) необходимо минимизировать функционал
ti
J[u) = / / ({ж, M(t)x) + (щ N(t)u))p(t, ж) dxdt + (x,Tx)p(ti,x) dx—> inf, (11)
J J J
to
где непрерывные матрицы М'(£) = М(£) Е Жпхп и Т' = Т Е Жпхп — неотрицательно определенные, а N'{1) = € Шрхр — положительно определенная. Пусть также
Ра Е Т, J(ж, х)ро(х) dx < оо.
кп
Тогда несобственные интегралы в (11) сходятся равномерно для каждого фиксированного кусочно-непрерывного управления и, т. е. ро € Т. Будем искать решение (8) в следующем виде:
Кп Кп
тогда
Ур = (ж, Р(г)ж) + (ж, Кх) + (ж, Кх) = и)(1, ж) + 2(Кх, ж). В таком случае система (8) эквивалентна системе
infJ ^{ж, Рх) + (ж, Кх) + 2(Рх + Кх, Ах + В и) + (ж, Мх) + (и, Nu)^j p{t, ж) dx^j = О,
Rn
ж, P(ti)x)p(ti, ж) dx + (ж, K(ti)x) = / (x,Tx)p(ti,x) dx.
(12)
Управление, доставляющее минимум в задаче минимизации последней системы, равно
и*(г) = ^м-1(г)в'(г)(Р(г) + к(г))х(г). (13)
Тогда система (12) перепишется в следующем виде:
({ж, Рх) + 2(Рх, Ах) + (ж, Мх))р(1, ж) йх+
+ (ж, Кх) + 2{Кх, Ах) - (ж, (Р + K)BN~lB'{P + К)ж) = 0, (14)
[х, P(ti)x)p(ti,x) dx + (ж, K(ti)x) = / (ж, Tx)p(ti,x) dx.
Так как эта система выполняется для любой функции р(Ь, ж), то, подставив распределение, сосредоточенное в двух точках р(1, ж) = (6(х — у) + 6(х + у))/2, получим задачу нахождения Р(1):
( р + А'Р + РА + М = О,
1 (15)
Теперь возьмем в (14) в качестве распределения р(1,х) = 6(х — у) и с учетом (15) получим систему для нахождения матрицы К:
Г к + А'К + КА^(Р + + К) = о,
\Я"(*1) = 0. (16)
Кроме того, заметим, что для среднего значения х выполнено
х = Ах + Ви,
следовательно,
¿ = (А-ВМ~1В'(Р +К))х. (17)
Таким образом, для нахождения функции цены необходимо:
1) решить системы (15) и (16);
2) с полученным Р{Ь) и К{Ь) решить систему (17) и найти таким образом оптимальное управление и из (13);
3) зная х(1), найти р(1, х):
г
р&х) = щ^р0(х(^)х- I Х(и ,т)ВН~1В'{Р + К)х{т) В результате получаем
т£ Л[и] = У^о,Ро) = / {ж, Р^о)х)ро(х) (1х + (ж(£0), К (¿о)ж(£о)),
«0) ]
Кп
причем оптимальная стратегия
и* (г) = ^М~1(г)в'(г)(р(г) + к(г))х(г).
Рассмотрим пример начального распределения, сосредоточенного на эллипсоиде*. Пусть ро(х) = = б0£(до>(2о)(х)/£ (константа Ь введена для нормировки плотности). Тогда из (10) получим
I
= 7771^(9о,Оо) ЫЧх)),
или, другими словами,
рМ = цх(г,го)\6в£М)(х)'
где д ш находятся из системы
ц = {А^ВН~1В'{Р + К))Ч, д(*0) = до,
5. Общий случай интегрального функционала. В данном разделе будет рассмотрена более общая задача: теперь функционал в задаче минимизации в общем случае нелинейно зависит от распределения. Итак, вернемся к общей постановке задачи для динамической системы
х = /(¿, х, и), I € Т = [¿о,
¿1
/ Р(1,и,р(1, •))(И + ф(11,р(11,-)) —> т£ У
и
*£(я,д) = {ж е ц,х) ^ (1,д) + </,д/)1/2, V/ ег}.
Здесь функционал F(t,u,p(t, •)) непрерывен по параметрам t, и и по аргументу р. Аналогично задаче с линейным функционалом определим множество как пространство функционалов p(t,-), для
которых выполнено
р(1, х) йх определяет неотрицательную меру, и функционал Р определен и удовлетворяет вышеперечисленным свойствам. Функцией цены будем называть функцию
ti
V(tо,Ро)= inH / F(t,u,p(t,-))dt + ip(ti,p(h,-)) иeu [J
ti
p(tО,-) =Po(-)
to
Тогда принцип оптимальности можно записать следующим образом:
to+O"
V(to,po) = inf \ / F{t,u,p(t,-)) dt + V(to + cr,p(to + с,-))
ueu { J to
из которого аналогичными случаю с линейным функционалом преобразованиями можно получить уравнения типа Гамильтона Якоби Воллмана:
|:V(t,p(tr))+ inf j [ {VV;j)p(t,x)dx + F(t,u,p(tr))\= О,
dt ueU4n J (18)
V(ti,p(ti,-)) = ^(tuP(h,-))-
В случае линейной системы также можно свести задачу (18) к замкнутой системе уравнений. Пусть
х = A(t)x + B(t)u, t € [ío, íi], и требуется разрешить задачу минимизации
ti
J[u] = j ^{x(t), S(t)x(t)) + (и, N(t)u) + J(x, M(t)x)p{t,x) dx^dt+ t0 1»
/{ж, T\x)p(t\, x) dx + (x(ti), T2x(ti)} —s> inf .
ueu
Здесь слагаемые (ж(£), ¿>(£)ж(£)) и уже нелинейно зависят от распределения р(Ь, х).
Для этого случая уравнения (15) и (16) записываются соответственно
Г Р + А'Р + РА + М = О, \р(ь)=тъ
( К + 5 + А'К + К А — (Р + + К) = О,
\ ^(¿1) = Т2,
причем остальные шаги решения аналогичны случаю с линейным функционалом.
6. Заключение. В статье был проведен анализ систем с состояниями в виде распределений при помощи методов динамического программирования с использованием уравнения Лиувилля, были выведены уравнения типа Гамильтона Якоби Воллмана для задач с распределениями, исследовано поведение линейных систем с квадратичным функционалом, для которых были разрешены уравнения типа Гамильтона Якоби Воллмана и построены примеры динамики распределений при различных заданных начальных распределениях. Следует обратить внимание на то, что предложенный в работе метод является одним из возможных. Хотя подход к проблеме, основанный на использовании функций
распределения состояний системы, и позволяет абстрагироваться от качественных свойств носителя состояний системы, вопросы применимости данного метода к конкретным носителям требуют отдельного рассмотрения.
СПИСОК ЛИТЕРАТУРЫ
1. Куржанекий А.Б. Управление и наблюдение в условиях неопределенности. М.: Наука, 1977.
2. Kurzhanski А. В., Filippova Т. F. On the theory of trajectory tubes—a mathematical formalism for uncertain dynamics, viability and control // Advances in Nonlinear Dynamics and Control. Boston: Birkhauser, 1993. P. 122-188.
3. В rocket t R. W. Optimal control of the Liouville equation // AMS IP Studies in Advanced Mathematics. 39. 2007. P. 23-35.
4. Гельфанд И. M., Шилов Г. E. Обобщенные функции и действия над ними. М.: Гос. изд-во физ.-мат. лит-ры, 1959.
5. Владимиров B.C. Уравнения математической физики. М.: Наука, 1981.
6. Шварц Л. Анализ. Т. 1. М.: Мир, 1972.
7. Беллман Р. Динамическое программирование. М.: Иностранная литература, 1960.
Поступила в редакцию 15.11.10
DYNAMIC PROGRAMMING IN SYSTEMS WITH DISTRIBUTION STATES
Mazurenko S. S.
The article deals with optimal control problems on a finite time interval with the initial state represented by a known density function. An approach, in which a distribution of system coordinates is treated like a state, is used. Analogs of the Hamiltonian formalism equations are derived. The closed-form solution to the optimal control problem with linear systems and integral functional is given.
Keywords: Liouville equation, linear systems, Hamiltonian formalism.