Научная статья на тему 'Метод динамического программирования в системах с состояниями в виде распределений'

Метод динамического программирования в системах с состояниями в виде распределений Текст научной статьи по специальности «Математика»

CC BY
69
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УРАВНЕНИЕ ЛИУВИЛЛЯ / ЛИНЕЙНЫЕ СИСТЕМЫ / ГАМИЛЬТОНОВ ФОРМАЛИЗМ / LIOUVILLE EQUATION / LINEAR SYSTEMS / HAMILTONIAN FORMALISM

Аннотация научной статьи по математике, автор научной работы — Мазуренко С. С.

В статье рассматривается задача оптимального управления системой c начальным состоянием в виде известной функции распределения, заданная на фиксированном отрезке времени. Для ее решения применяется подход, в котором за состояние системы принимаются распределения координат в каждый момент времени. Выводятся аналоги уравнений гамильтонова формализма для задачи минимизации интегрального функционала. Приведено решение в замкнутом виде задачи оптимального управления для линейной системы с интегральным квадратичным функционалом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Dynamic programming in systems with distribution states

The article deals with optimal control problems on a finite time interval with the initial state represented by a known density function. An approach, in which a distribution of system coordinates is treated like a state, is used. Analogs of the Hamiltonian formalism equations are derived. The closed-form solution to the optimal control problem with linear systems and integral functional is given.

Текст научной работы на тему «Метод динамического программирования в системах с состояниями в виде распределений»

УДК 517.977.1 517.977.54:56 С.С. Мазуренко1

МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ В СИСТЕМАХ С СОСТОЯНИЯМИ В ВИДЕ РАСПРЕДЕЛЕНИЙ*

В статье рассматривается задача оптимального управления системой с начальным состоянием в виде известной функции распределения, заданная на фиксированном отрезке времени. Для ее решения применяется подход, в котором за состояние системы принимаются распределения координат в каждый момент времени. Выводятся аналоги уравнений гамильтонова формализма для задачи минимизации интегрального функционала. Приведено решение в замкнутом виде задачи оптимального управления для линейной системы с интегральным квадратичным функционалом.

Ключевые слова: уравнение Лиувилля, линейные системы, гамильтонов формализм.

1. Введение. В теории оптимального управления важную роль играют детерминированные задачи оптимизации, в которых состояние системы точно известно в каждый момент времени. Динамика таких систем описывается системой дифференциальных уравнений при заданном начальном положении. При рассмотрении задачи в условиях неопределенности появляются известные схемы интегрирования, наблюдения и управления [1]. Однако некоторых проблем, возникающих в стохастической постановке, можно избежать, используя стандартный аппарат исследования задач оптимизации без неопределенностей, примененный к динамическим системам с известным распределением начальных состояний. Анализ такого рода может быть осуществлен при помощи эволюционных уравнений

1 Факультет ВМК МГУ, асп., e-mail: stasmazurenkoQmail.ru

* Работа выполнена в рамках ФЦП "Научные и научно-педагогические кадры инновационной России на 2009-2013 годы" (контракт № 16.740.11.0426 от 26 ноября 2010 г.) и при финансовой поддержке РФФИ (грант 09-01-00589-а).

в терминах опорных функций к множеству достижимости системы. Описание потоков, порожденных начальными распределениями, сосредоточенными на компактном множестве, приведено в работе [2]. Вместе с тем возможен другой подход [3], который рассматривает вопросы управляемости систем, динамика которых описывается в терминах уравнения Лиувилля:

= - (Jl~,p(t,x)f(t,x,u)j ,

решение которого для заданного начального распределения p(to, ж) = ро(х) может пониматься в обобщенном смысле.

В первой части этой статьи приводятся факты касательно уравнения Лиувилля. Затем рассматривается задача оптимального управления с интегральным функционалом, линейным по распределению, в рамках гамильтонова формализма. Далее с помощью уравнений типа Гамиль тона Якоби Воллмана приводится решение в замкнутом виде задачи оптимального управления для линейной системы с квадратичным функционалом. В последней части статьи рассматривается общая постановка задачи в случае, когда целевой функционал зависит от распределения нелинейно.

2. Постановка задачи в общем случае. Уравнение Лиувилля. Рассмотрим следующую систему:

х = /(1,х,и), ¿€Т=[£о,£ 1], (1)

где х € К™, и(1) е 1р — управление из некоторого класса кусочно-непрерывных функций и, функция /(¿, ж, и), такая, что /(¿, ж, и) и ж, и) непрерывны на Т х Жп х II и решение задачи Коши продолжаемо на весь отрезок Т для любого начального условия ж(£о) = жо- Пусть также задано начальное распределение ж) =ро(х), такое, что

Уж

G Жп р0(х) ^0, J р0(х) dx = 1.

Тогда под функцией р(1, ж) будем понимать плотность распределения ж(£), т.е. вероятность нахождения точки системы в области А С Жп в момент времени

(ж(t) G А) = jp(t,x)dx.

А

В таком случае динамика функции ж) описывается уравнением Лиувилля*:

д / д \

—р(г, х) = -( Х,и)) . (2)

Причем уравнение Лиувилля может быть выведено для широкого класса распределений — обобщенных функций [4, 5]. Пусть V = С°(ЖП) — пространство непрерывных функций с компактным носителем, т.е. таких функций чр € С°(Жп), что существует компакт К: ^к»»^ = 0. Обозначим через V пространство линейных непрерывных функционалов на £>, которое в дальнейшем будем называть пространством обобщенных функций. Пространство V было выбрано не случайно. Согласно теореме Рисса-Радона для локально компактного пространства X, непрерывные линейные функционалы на С®(Х) можно отождествить с мерами Радона [6] в том смысле, что любой линейный непрерывный функционал / на С®(Х) представим в виде

(f,ф) = |фd^if (3)

где ^ — мера Радона, и, обратно, каждая мера Радона щ определяет по формуле (3) линейный непрерывный функционал на С®(Х).

* Здесь и далее (а,Ь) = J2 а»Ь», ^ = (gfj-, • • •, щ^)-

Так как пространство Жп с естественной топологией является локально компактным, действие любого функционала / из V может быть представено в виде

и,Ф) = ! Ф(х)/(х)ёх,

кп

где /(ж) йх задает интегрирование по соответствующей мере Радона.

Далее будем считать, что •) € V — обобщенная функция, зависящая от параметра Ь. Обозначим за пространство функционалов р(1, •) € V, для которых выполнено

и р(1, х) йх определяет неотрицательную меру Радона. Помимо регулярных функций* пространство Т содержит, в частности, 5-функции Дирака.

Теперь рассмотрим динамику изменения среднего значения пробной функции ф(х) € С,}(ЖП) в соответствии с (1) в предположении, что функция р(1, •) дифференцируема по параметру** и определена в соответствии с динамикой (1). С одной стороны,

д Г Г д

— / ф(х)р{Ь1 х) йх = / ф(х)—р{Ь1х)йх.

Однако ввиду (1) для функции ф(х) верно равенство

поэтому

д Г Г / д \

— / ф(х)р{Ь1 х) йх = / у — ф(х),/(¿, ж, и) ) х) йх.

Воспользовавшись определением производной обобщенной функции*** в последнем интеграле, получаем, что для любой функции ф(х) € Сс(Жп)

Г д Г / д \

/ Ф(х)т^р(1,х)<1х=— ( —,/(¿, ж, х) ) ф(х) йх,

Кп Кп

или, другими словами, обобщенная функция р(1, х) удовлетворяет уравнению

д / д —р(г,х) = - (—,р(г,х)/(г,х,и)

Теперь воспользуемся тем фактом, что если р(х) йх задает неотрицательную меру на множестве Жп и задано отображение ср :Шп —> Жп, которое является взаимно однозначным и непрерывно дифференцируемым, то плотность распределения р(х) под действием этого отображения преобразуется по следующему правилу:

„(.) (4) __р[) \м-)\ '

*Напомним, что обобщенная функция / называется регулярной, если она представима в виде (/, ф) = / /(х)ф(х) в,х.

ш1

**Т.е. существует предел д11т р(ь>х) как Предел обобщенных функций.

*** Обобщенной производной называется линейный непрерывный функционал д^г-/ над множеством непрерывно дифференцируемых функций с компактным носителем, действующий по правилу

где Зу — якобиан преобразования {р. В случае, когда отображение ср каждому значению ж о ставит в соответствие решение системы (1) ж(£, ¿о,жо) с начальным условием ж(£о) = хо, преобразование (4) описывает эволюцию плотности, т.е. плотность распределения х в момент времени t

Таким образом, может быть получено решение уравнения Лиувилля (2). Для этого покажем, что обобщенная функция р(1,х), полученная из (5), дифференцируема по I:

[ ф(х)р(1,1х) йх = [ ф(^^ йх = [ ф({рЛх))рио, ж) (¿Ж. (6)

■1 .1 №<РАх)\ ■>

Кп Кп Кп

Так

как ^¡н ^ — и)' т0 для дифференцируемой функции ф(ж) с компактным носителем

правая часть (6) дифференцируема, т. е. все числовые функции / ф(х)р(1, ж) йх дифференцируемы по

кп

t, что влечет за собой дифференцируемость по t обобщенной функции ж).

В следующем разделе будет рассмотрена задача оптимального управления с функционалом, линейным по распределению, которая в случае линейной системы сводится к замкнутой системе дифференциальных уравнений.

3. Принцип оптимальности для функционала, линейного по распределению. Уравнение типа Гамильтона^Якоби^Беллмана. Наряду с системой (1) рассмотрим следующую задачу минимизации:

¿1

ж, ж) йхМ + / ■г/'(ж)р(^1, ж) йх—> т£, У «ее/

to кп Кп

в которой обе функции Ь(1, ж, и) и ф(ж) непрерывно дифференцируемы по совокупности переменных. Обозначим через Т множество таких начальных распределений р0 из Т, для которых интегралы / Ь(1,х,и)р(1,х) йх, f ф(х)р(1\,х) йх сходятся равномерно по времени t € [¿о, ¿1] для фиксированного

Кп Кп

управления и.

Определение. Функцией цены будем называть функцию

t1

V(¿o?Po) = inf^y J L(t,x,u)p(t,x) üxüt + J ф{х)р^\, x) йх

ti

J J p(to,-) =Po(-) G

~t0

Тогда, применив стандартную технику гамильтонова формализма [7], но уже к функционалу V, получаем принцип оптимальности:

*о+о-

V(¿o?Po) = inf i / / L(t,x,u)p(t,x) üxüt + V(íq + cr,p(to + c, •))

l J J

t0 1»

который можно переписать в терминах частных производных:

inf { — V(t,p(t, •)) + [ L(t, ж, u)p(t, ж) йх\ = О, иеи yüt J )

V{h,p(ti,-)) = J ip(x)p(t i,x)üx.

Kn

Далее применяем теорему о дифференцировании композиции функционалов:

jV(t,p(t, •)) = §¿v(t,p(t, •)) + fe •)

где Ур — производная по Фреше. Как было показано выше, для корректного задания производной •) необходимо, чтобы была дифференцируема по ж, причем

p(v)) =

[ 9

Тогда, используя уравнение Лиувилля (2), получим следующую систему:

д

< - I v;,A

иеи

^-V{t,p{t,-)) + mf <! - \ v£,(j^,p(t,x)f(t,x,u)

L(t, ж, u)p(t, ж) dx > = О

^(¿ьР(^ь-)) = J iKx)p(ti,x) dx,

(7)

которая рассматривается в области Т х Т. Путем несложных преобразований система (7) сводится к виду

•)) + ж), ж, и)) + х, и) ) р{Ь, ж) dx \ = О,

inf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

иеи

dt

V{h,p(h,-)) = Ji/j(x)p(ti,x) dx.

(8)

Следующая теорема дает связь между решением системы (8) и функцией цены для исходной задачи.

Теорема. Если функционал W(t,p) дифференцируем по t и по р (в смысле производной по Фреше), причем ж) дифференцируема по ж, и W(t,p) удовлетворяет системе (8) в некоторой

области G С Т х Т, то в этой области

V(t,p) 2 W(t,p),

причем если существует такое управление и*, что для соответствующего ему распределения p*(t,x) выполнено

J({VWp(i, ж), f(t, х, и*)) + L(t, х, u*))p*(t, ж) dx = min<! J((VW^t, ж), f(t, x, u)) + L(t, x, u))p*(t, x) dx

mo V(t,p) = W(t,p).

4. Линейно-квадратичный функционал для линейных систем. В этом разделе будут рассмотрены основные результаты для линейных систем, разрешена система (8) для квадратичных функционалов, а также проиллюстрированы частные случаи начальных распределений и их динамика в соответствии с задачей минимизации функционала. Итак, рассматривается система

ж = A(t)x + B(t)u, t£[tQ,ti], (9)

где ж € К™, и € Шр, матрицы A(t) € Жпхп и B(t) € Шпхр непрерывны по t и ограничены. В начальный момент времени задано распределение

p(tQ,x) =ра(х) € Т.

В линейном случае отображение ср в (5) записывается в виде

t

<pt(x) = X(t,tQ)x + J X(t,r)B(r)u(r) dr,

to

где X(t,to) — фундаментальная матрица системы (9):

д

dtX(t,r) = A(t)X(t,r), Х(т,т) = 1.

Тогда если p(to, ж) = ро(ж), то

p(t, х) = щ^ууРО t)x - J X(tQ, т)В(т)и(т) dr^j . (10)

to

Пусть теперь с учетом системы (9) необходимо минимизировать функционал

ti

J[u) = / / ({ж, M(t)x) + (щ N(t)u))p(t, ж) dxdt + (x,Tx)p(ti,x) dx—> inf, (11)

J J J

to

где непрерывные матрицы М'(£) = М(£) Е Жпхп и Т' = Т Е Жпхп — неотрицательно определенные, а N'{1) = € Шрхр — положительно определенная. Пусть также

Ра Е Т, J(ж, х)ро(х) dx < оо.

кп

Тогда несобственные интегралы в (11) сходятся равномерно для каждого фиксированного кусочно-непрерывного управления и, т. е. ро € Т. Будем искать решение (8) в следующем виде:

Кп Кп

тогда

Ур = (ж, Р(г)ж) + (ж, Кх) + (ж, Кх) = и)(1, ж) + 2(Кх, ж). В таком случае система (8) эквивалентна системе

infJ ^{ж, Рх) + (ж, Кх) + 2(Рх + Кх, Ах + В и) + (ж, Мх) + (и, Nu)^j p{t, ж) dx^j = О,

Rn

ж, P(ti)x)p(ti, ж) dx + (ж, K(ti)x) = / (x,Tx)p(ti,x) dx.

(12)

Управление, доставляющее минимум в задаче минимизации последней системы, равно

и*(г) = ^м-1(г)в'(г)(Р(г) + к(г))х(г). (13)

Тогда система (12) перепишется в следующем виде:

({ж, Рх) + 2(Рх, Ах) + (ж, Мх))р(1, ж) йх+

+ (ж, Кх) + 2{Кх, Ах) - (ж, (Р + K)BN~lB'{P + К)ж) = 0, (14)

[х, P(ti)x)p(ti,x) dx + (ж, K(ti)x) = / (ж, Tx)p(ti,x) dx.

Так как эта система выполняется для любой функции р(Ь, ж), то, подставив распределение, сосредоточенное в двух точках р(1, ж) = (6(х — у) + 6(х + у))/2, получим задачу нахождения Р(1):

( р + А'Р + РА + М = О,

1 (15)

Теперь возьмем в (14) в качестве распределения р(1,х) = 6(х — у) и с учетом (15) получим систему для нахождения матрицы К:

Г к + А'К + КА^(Р + + К) = о,

\Я"(*1) = 0. (16)

Кроме того, заметим, что для среднего значения х выполнено

х = Ах + Ви,

следовательно,

¿ = (А-ВМ~1В'(Р +К))х. (17)

Таким образом, для нахождения функции цены необходимо:

1) решить системы (15) и (16);

2) с полученным Р{Ь) и К{Ь) решить систему (17) и найти таким образом оптимальное управление и из (13);

3) зная х(1), найти р(1, х):

г

р&х) = щ^р0(х(^)х- I Х(и ,т)ВН~1В'{Р + К)х{т) В результате получаем

т£ Л[и] = У^о,Ро) = / {ж, Р^о)х)ро(х) (1х + (ж(£0), К (¿о)ж(£о)),

«0) ]

Кп

причем оптимальная стратегия

и* (г) = ^М~1(г)в'(г)(р(г) + к(г))х(г).

Рассмотрим пример начального распределения, сосредоточенного на эллипсоиде*. Пусть ро(х) = = б0£(до>(2о)(х)/£ (константа Ь введена для нормировки плотности). Тогда из (10) получим

I

= 7771^(9о,Оо) ЫЧх)),

или, другими словами,

рМ = цх(г,го)\6в£М)(х)'

где д ш находятся из системы

ц = {А^ВН~1В'{Р + К))Ч, д(*0) = до,

5. Общий случай интегрального функционала. В данном разделе будет рассмотрена более общая задача: теперь функционал в задаче минимизации в общем случае нелинейно зависит от распределения. Итак, вернемся к общей постановке задачи для динамической системы

х = /(¿, х, и), I € Т = [¿о,

¿1

/ Р(1,и,р(1, •))(И + ф(11,р(11,-)) —> т£ У

и

*£(я,д) = {ж е ц,х) ^ (1,д) + </,д/)1/2, V/ ег}.

Здесь функционал F(t,u,p(t, •)) непрерывен по параметрам t, и и по аргументу р. Аналогично задаче с линейным функционалом определим множество как пространство функционалов p(t,-), для

которых выполнено

р(1, х) йх определяет неотрицательную меру, и функционал Р определен и удовлетворяет вышеперечисленным свойствам. Функцией цены будем называть функцию

ti

V(tо,Ро)= inH / F(t,u,p(t,-))dt + ip(ti,p(h,-)) иeu [J

ti

p(tО,-) =Po(-)

to

Тогда принцип оптимальности можно записать следующим образом:

to+O"

V(to,po) = inf \ / F{t,u,p(t,-)) dt + V(to + cr,p(to + с,-))

ueu { J to

из которого аналогичными случаю с линейным функционалом преобразованиями можно получить уравнения типа Гамильтона Якоби Воллмана:

|:V(t,p(tr))+ inf j [ {VV;j)p(t,x)dx + F(t,u,p(tr))\= О,

dt ueU4n J (18)

V(ti,p(ti,-)) = ^(tuP(h,-))-

В случае линейной системы также можно свести задачу (18) к замкнутой системе уравнений. Пусть

х = A(t)x + B(t)u, t € [ío, íi], и требуется разрешить задачу минимизации

ti

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J[u] = j ^{x(t), S(t)x(t)) + (и, N(t)u) + J(x, M(t)x)p{t,x) dx^dt+ t0 1»

/{ж, T\x)p(t\, x) dx + (x(ti), T2x(ti)} —s> inf .

ueu

Здесь слагаемые (ж(£), ¿>(£)ж(£)) и уже нелинейно зависят от распределения р(Ь, х).

Для этого случая уравнения (15) и (16) записываются соответственно

Г Р + А'Р + РА + М = О, \р(ь)=тъ

( К + 5 + А'К + К А — (Р + + К) = О,

\ ^(¿1) = Т2,

причем остальные шаги решения аналогичны случаю с линейным функционалом.

6. Заключение. В статье был проведен анализ систем с состояниями в виде распределений при помощи методов динамического программирования с использованием уравнения Лиувилля, были выведены уравнения типа Гамильтона Якоби Воллмана для задач с распределениями, исследовано поведение линейных систем с квадратичным функционалом, для которых были разрешены уравнения типа Гамильтона Якоби Воллмана и построены примеры динамики распределений при различных заданных начальных распределениях. Следует обратить внимание на то, что предложенный в работе метод является одним из возможных. Хотя подход к проблеме, основанный на использовании функций

распределения состояний системы, и позволяет абстрагироваться от качественных свойств носителя состояний системы, вопросы применимости данного метода к конкретным носителям требуют отдельного рассмотрения.

СПИСОК ЛИТЕРАТУРЫ

1. Куржанекий А.Б. Управление и наблюдение в условиях неопределенности. М.: Наука, 1977.

2. Kurzhanski А. В., Filippova Т. F. On the theory of trajectory tubes—a mathematical formalism for uncertain dynamics, viability and control // Advances in Nonlinear Dynamics and Control. Boston: Birkhauser, 1993. P. 122-188.

3. В rocket t R. W. Optimal control of the Liouville equation // AMS IP Studies in Advanced Mathematics. 39. 2007. P. 23-35.

4. Гельфанд И. M., Шилов Г. E. Обобщенные функции и действия над ними. М.: Гос. изд-во физ.-мат. лит-ры, 1959.

5. Владимиров B.C. Уравнения математической физики. М.: Наука, 1981.

6. Шварц Л. Анализ. Т. 1. М.: Мир, 1972.

7. Беллман Р. Динамическое программирование. М.: Иностранная литература, 1960.

Поступила в редакцию 15.11.10

DYNAMIC PROGRAMMING IN SYSTEMS WITH DISTRIBUTION STATES

Mazurenko S. S.

The article deals with optimal control problems on a finite time interval with the initial state represented by a known density function. An approach, in which a distribution of system coordinates is treated like a state, is used. Analogs of the Hamiltonian formalism equations are derived. The closed-form solution to the optimal control problem with linear systems and integral functional is given.

Keywords: Liouville equation, linear systems, Hamiltonian formalism.

i Надоели баннеры? Вы всегда можете отключить рекламу.