Научная статья на тему 'О детерминированном подходе к задаче стохастического оптимального управления'

О детерминированном подходе к задаче стохастического оптимального управления Текст научной статьи по специальности «Математика»

CC BY
368
106
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТОХАСТИЧЕСКОЕ ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ / СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ / УПРЕЖДАЮЩИЕ СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ / ПРИНЦИП МАКСИМУМА / СИММЕТРИЧНЫЙ ИНТЕГРАЛ / ДЕТЕРМИНИРОВАННЫЙ ПОДХОД. / STOCHASTIC OPTIMAL CONTROL / STOCHASTIC DIFFERENTIAL EQUATION / ANTICIPATING STOCHASTIC DIFFERENTIAL EQUATION / MAXIMUM PRINCIPLE / SYMMETRIC INTEGRAL / DETERMINISTIC APPROACH

Аннотация научной статьи по математике, автор научной работы — Исмагилов Н. C., Насыров Ф. С.

Рассматривается детерминированный подход к задачам стохастического оптимального управления, основанный на формуле разложения решения стохастического дифференциального уравнения, который позволяет рассматривать стохастическую задачу как параметризованное семейство детерминированных задач. Показано, что при модфикации соответствующим образом функционала потерь, оптимум детерминированной задачи достигается на неупреждающей функции управления, которая также является оптимальной для стохастической задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Исмагилов Н. C., Насыров Ф. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On deterministic approach to stochastic optimal control

We consider a deterministic approach to stochastic optimal control problem based on decomposition of solution of stochastic differential equation. The decomposition formula allows to consider stochastic problem as parametrized family of deterministic control problems. It is shown that value function of deterministic problem can be modified in order to obtain non-anticipating solutions, which are also optimal for stochastic problem.

Текст научной работы на тему «О детерминированном подходе к задаче стохастического оптимального управления»

Уфа : УГАТУ, 2013

Ъъомшс

Т. 17, № 5 (58). С. 38-43

удк 517.977:519.22

О ДЕТЕРМИНИРОВАННОМ ПОДХОДЕ К ЗАДАЧЕ СТОХАСТИЧЕСКОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

1 т

Н. С. Исмагилов , Ф. С. Насыров

1 niyaz.ismagilov@gmail.com, 2 farsagit@yandex.ru ФГБОУ ВПО «Уфимский государственный авиационный технический университет» (УГАТУ)

Аннотация. Рассматривается детерминированный подход к задачам стохастического оптимального управления, основанный на формуле разложения решения стохастического дифференциального уравнения, который позволяет рассматривать стохастическую задачу как параметризованное семейство детерминированных задач. Показано, что при модфикации соответствующим образом функционала потерь, оптимум детерминированной задачи достигается на неупреждающей функции управления, которая также является оптимальной для стохастической задачи.

Ключевые слова: стохастическое оптимальное управление; стохастические дифференциальные уравнения; упреждающие стохастические дифференциальные уравнения; принцип максимума; симметричный интеграл; детерминированный подход.

ВВЕДЕНИЕ

В настоящей работе исследуется связь между стохастическими и детерминированными задачами оптимального управления. Некоторые результаты из ранних исследований, направленных на установление связи между стохастическими и детерминированными задачами оптимизации, представлены в работах [1, 2] в 70-х гг. В этих работах показано, что в некоторых случаях стохастическая задача может быть рассмотрена с детерминированной точки зрения, сформулирована одна из значимых проблем перехода к детерминированным задачам, заключающаяся в обеспечении неупреждаемости решений, и предложен метод, который путем изменения функционала потерь множителями Лагранжа позволяет накладывать ограничения неупреждаемости.

Позже, в начале 90-х гг. в работах [3, 4], исследовалась связь между линейными и нелинейными стохастическими и детерминированными задачами оптимального управления.

В работе [4] подробно исследована нелинейная задача управления. Доказана возможность представления стохастической

задачи в виде параметризованного семейства детерминированых задач. Приведена явная формула для множителя Лагранжа, используемого для наложения ограничения на неупреждаемость.

Для сведения стохастической задачи к детерминированной авторами работы [4] используется формула для разложения решения СДУ (стохастического дифференциального уравнения) Ито

dxt = Ь(х, и + , х(0) = х0,

которая имеет следующий вид X(х) = ^ ° Цt(х) (у) = (у)) ° dWt,

dn^Xl = (^Г1^(х)№ ° ^(х),щ), dt ох

Ло( х) = х.

Такое разложение позволяет определить решение СДУ для упреждающих управлений. Решение при этом понимается в смысле работы [5]. Определение решения уравнения для упреждающих управлений позволяет авторам работы [4] перейти к детерминированным задачам, при этом неупреждаемость решений

достигается введением множителей Лагранжа. Для анализа детерминированной оптимизационной задачи и поиска подходящих значений множителей Лагранжа используется метод динамического прогаммирования.

В ходе доказательства основных утверждений авторам приходится сталкиваться с уравнением Гамильтона-Якоби-Беллмана, для решения которого, а так же для представления функции выигрыша через фазовую координату, авторам приходится пользоваться результатами работ [6], [7] по приближению решений СДУ решениями ОДУ (обыкновенных дифференциальных уравнений), а также стохастическим методам характеристик [8], которые приводят к довольно сложным вычислениям и сильным ограничениям.

Настоящая работа основана на результатах работы [4], являясь ее дополнением и, в некотором сымсле, упрощением. Применение представленного в работе [9] понятия симметричного интеграла позволяет по-новому определить решение задачи с упреждающим управлением. В отличие от работы [4] для сведения стохастической задачи к детерминированной используется формула разложения решения СДУ (см. [10]), которая позволяет существенно упростить технику вычисления и ослабить многие предположения.

ОСНОВНОЙ РЕЗУЛЬТАТ

Пусть (О, Е,(Е)0<,<Т, Р) — полное вероятностное пространство, наделенное естественной фильтрацией одномерного стандартного винеровского процесса, Щ , , е [0,Т] , Т >0 . Обозначим через А множество функций и :[0,Т] хО^ и с Я™, измеримых относительно о -алгебры В[0, Т] х Е, а через N -его подмножество, состоящее из неупреж-дающих функций.

Рассмотрим задачу оптимального управления одномерным процессом

= Ь(х{, и{ + о( х( , х(0) = х0, (1)

т£ (,, х,, и< )dt + я (хт )] = ^ Е/ (и), (2)

uеN uеN

здесь х(: [0,Т]хО^Я — фазовая координата, и — управляющая функция, Ь: Я х Я ^ Я, о, g: Я ^ Я, /: [0,Т] х Я х Я ^ Я —

39

измеримые функции, Е — символ математического ожидания, Е/ (и) — функционал качества. Всюду далее будем использовать обозначение

/ (и) = 107 (,, х,, и, )Л + g (хт ). (3)

Лемма 1. Пусть функционал качества /(и) определен и имеет смысл для всех и е А, тогда

т{ Е/ (и) = Е т{ / (и) (4)

иеА иеА

Доказательство. Положим

М = т£иеА Е/ (и) и т = т(ш) = ш^а/ (и). Тогда для любого и е А имеем

Е/ (и) > М и / (и) > т. (5)

Кроме того, для любого е >0 найдутся и* е А и и е А такие, что

Е/(и*) -М < е и /(и) - т < е. (6) Комбинируя (5) и (6), имеем

| Ет -М |< е, (7)

что в силу произвольности е равносильно (4).

Следствие 1. Если точная нижняя грань в првой части (4) достигается на функции и , то на той же функции достигается инфимум и в левой части.

Доказательство. Следует из того, что МиЕ/(и) = Ещ^/и) = Е/(и) .

Лемма 1 позволяет рассматривать параметризованную детерминированную задачу минимизации функционала / (и) функциями

иш е А. Кроме определения /(и) для упреждающих управлений, такой подход также требует определить дифференциальное ограничение, накладываемое уравнением (1), так как оно не определено для упреждающих и и не имеет потраекторного смысла.

Уравнение (1) для упреждающих управлений может быть определено при помощи симметричного интеграла. Симметричный интеграл, впервые введенный Насыровым в работе [9], определяется для любых непрерывных функций, выступающих в качестве интеграторов. Построенный по траекториям винеровского процесса симметричный интеграл

п.н. совпадает с интегралом Стратоновича по тому же процессу (подробнее см. [10]). При этом он не требует неупреждаемости коэффициентов, и для него может быть определено решение следующего дифференциального уравнения (семейства параметризованных дифференциальных уравнений с симметричным интегралом) в потраекторном смысле

dx(t, ш) = Ь (х(,, ю),м(/,ш)^ + + с( х(,, ш))* dW (t, ш), х(0)= х,

(8)

где и е А, а Ь определен ниже. Для каждого ш решением (8) называется функция х(,, ш) , для которой определены интегралы в правой части и которая обращает интегральное равенство, соответствующее (8), в тождество. Известно (см. [10]), что это решение при неупреждающих коэффициентах п.н. совпадает с решением соответствующего СДУ в форме Стратоновича. Ввиду этого, если уравнение (1) переписать в форме Стратоновича

dxt = Ь (х,и ^ + с(х) ° dWt, х(0) = х0 Ь (х, и) = Ь( х, и)- 1 а( X )с'(х),

(9)

то для упреждающих и его можно интерпретировать в форме (8). Для неупреждающих же управлений (1), (9) и (8) совпадают.

Таким образом, определив решение для более широкого класса управляющих функций А, можно корректно сформулировать задачу упреждающего оптимального управления: требуется найти и е А , доставляющий минимум функционалу ^(и) при условии (8)

т£ Е[|0Т/ (^ х,, Ut )dt + я (хг )] = 1пГ Е (и). (10)

иеА

иеА

Далее нам понадобится теорема о разложении решений дифференциальных уравнений с симметричным интегралом, доказательство которой приведено в [10].

Теорема 1. Пусть Ь($, х),ст(,, х):

[0,Т] х К ^ К — непрерывные функции, равномерно липшицевые по х . Пусть, кроме того, а' непрерывна, и существует константа С >0, такая что | ст(,, х) |> С. Тогда решение уравнения с симметричным интегралом

dx(t) = ь(,, х(г)^ + ст(,, х(, )) * dW(t), х(0) = х,

имеет вид х(г) = Ф(^ у(,) + W(t)) , где Ф(^ у) есть явное выражение для ф из соотношения

|-ф иф

Ю ОсТГф)

= V,

а у(,) является решением следующей задачи Коши

= Ь(,, Ф(, , у(, ) + W ^))) - Ф' (t, у(, ) + W ^)) с(,, Ф(,, у( )+W(t))) ,

у(0) = у0, у0: х0= Ф(0,у0 + W(0)).

Воспользуемся теоремой 1 и докажем другую теорему, позволяющую свести упреждающие стохастические задачи оптимального управления к детерминированным задачам.

Теорема 2. Пусть Ь(х, и) и а(х) в уравнении (8) непрерывны вместе со своими производными Ь'х, Ь'и и а'. Пусть, кроме того, существует константа С > 0 такая, что | а(х)|> С. Тогда задача (8), (10) эквивалентна семейству детерминированных задач следующего вида

= Ь(Ф( У(, ) + W (t, ш)),и^)) у а(Ф( у(, ) + W (t, ш))) , (11) у(0) = Ф-1( х0),

(t, Ф( у (t) + W (t, ш),u(t +

иеА -10 (12)

+ я (Ф( у(Т) + W (Т, ш))),

где Ф - некоторая известная функция, Ф-1 -функция, обратная к ней.

Под эквивалентностью в теореме 2 понимается равенство решений двух задач.

Доказательство. Из теоремы 1 следует, что решение (8) имеет вид

х(,, ш) = Ф( У(,, ш) + W (t, ш)),

(13)

где Ф(у) — функция определяемая из соотношения

ю

а — = V,

0 а(ф) '

а у(,) — решение задачи Коши для ОДУ

= Ь(Ф( у(0 + Щ (,, ш)),и(,)) У () о(Ф( у(,) + Щ (,, ш))) , у(0) = Ф-1( х0).

(14)

Функционал (3), записанный с использованием (13), имеет вид (12). Лемма 1 и его следствие гарантируют, что если измеримая функция и доставляет минимум функционалу (12), то она же доставляет минимум функционалу (10), и выполнено

Е/ (и ) = Е|0Т/ (,, Ф( у(,) + Щ (,, ш),и (, )№ + + Я (Ф( У(Т) + Щ (Т, ш))).

Теперь, из того, что уравнение (8) эквивалентно паре (13), (14), следует, что задача (11), (12) эквавалентна задаче (8), (10).

Теорема 2 позволяет проследить связь между стохастическими и детерминированными задачами оптимального управления, которая заключается в том, что упреждающая стохастическая задача может быть сведена к параметризованному семейству детерминированных задач. Если в стохастическую задачу (8), (10) добавить ограничение, которое гарантирует достижение минимума на неупреждающей функции и е N , то теорема 2 может быть использована для решения задачи (1), (2). Такое ограничение неупреждаемости может быть наложено путем добавления к функционалу качества множителей Лагранжа и решения несколько измененной задачи:

т{ Е[|0 (/(,, х,, щ ) + Хи, + я ( хт )]. (15)

иеА

Основным результатом работы является следующая теорема, которая утверждает, что такой множитель Лагранжа существует, и предоставляет явную формулу для нее.

Теорема 3 Пусть функции Ь , о , / , я

непрерывны вместе со своии производными Ь'х,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ьи, Ки, о', Л', Ги, Гии, g'. Пусть кроме

того, существует константа С >0 такая, что | о(х) |> С . Далее, предположим, что

* *,

существует решение (х*,и*) задачи (1), (2), и для всех (,, х, и) е [0, Т] х Я х и выполнено

/ии (,, х, и)-у^'^ >0, (16)

о( х)

где у(,) есть решение задачи Коши

Ь'х о- Ьо' Ь'Що- Ь'о' .„ у = -у ^-+-и— о/их,

о

У(Т ) = - g'(х*)о( х*).

о

Тогда следующая задача детерминированного оптимального управления

Ь(Ф( у(,) + Щ (,, ш)),и(,)) о(Ф( у(,) + Щ (,, ш))) , (17)

у (, ) = ■

У(0) = Ф-1( х0), тф/(,, Ф( у(0 + Щ (,, ю),и(0) +

и

+ Хи (, )]Ш + g (Ф( у(Т) + Щ (Т, ш))),

(18)

где

Х = Х(,, у, ш) =

у(, )Ь' (Ф( у + Щ (,, ш)),и>)) о(Ф( у + Щ (,, ш))) - /'(,, Ф( у + Щ (,, ш),и>)),

имеет решение, совпадающее с и*.

Доказательство. Из теоремы 2 следует, что задача (8), (15) эквивалентна задаче (17), (18), для решения которой будем использовать принцип максимума Понтрягина. Функция Гамильтона-Понтрягина имеет вид

Н = -(/ + Хи) + у

Ь

о

где у = у(,) — сопряженная переменная, подчиняющаяся уравнению

сН ЬхФ'о- Ьо'Ф'

У = -— = -/'Ф - хуи + у-^-5-

Су у о2

с начальным условием у(Т) = -g'(Ф(y(T) + Щ (Т, ш)))Ф'( у(Т) + Щ (Т, ш)).

При выполнении (16) вторая частная производная Н по переменной отрицательна, следовательно, функция Н является выпуклой вверх. Равенство нулю первой

производной по при =

К U* = -a0(/;(t,Ф,и) +

w(t )Ж (ФУ) °ос(Ф)

- f'u(t, Ф,и*)) + * = 0

с(Ф) и=и

гарантирует, что максимум Понтрягиана,

*

а следовательно, и оптимум достигается на и .

8. Kunita H. Stochastic Flows and Stochastic Differential equations. Cambridge: Cambridge University Press, 1990. 346 с.

9. Насыров Ф. С. Симметричные интегралы и стохастический анализ. // Теория вероятностей и ее применение. 2006. Т. 51, 3. С. 496-517.

10. Насыров Ф. С. Локальные времена, симметричные интегралы и стохастический анализ. М.: Физматлит, 2011. 212 с.

Замечание. Расширенное интерпретирование уравнения (1) в виде (8) позволяет распространить результаты работы на задачи, в которых дифференциальное ограничение вместо винеровского процесса Wt содержит произвольный случайный процесс Xt (ш) с траекториями неограниченной вариации, т. е. имеет вид

dxt = b(xt, u )dt + a(x ) * dXt (ш). Последнее уравнение интерпретируется в смысле симметричного интеграла, и для задачи минимизации функционала

J (u) = J0f (t, Xt, и )dt + g (x(T))

справедливы результаты. аналогичные приведенным в теоремах 2 и 3.

СПИСОК ЛИТЕРАТУРЫ

1. Rockafellar R. T., Wets R. J. B. Nonanticipativity and L1 martingales in stochastic optimization problems // Mathematical Programming Study. 1973. Т. 6. С. 170-187.

2. Wets R. J. B. On relation between stochastic and deterministic optimization // Lecture Notes in Economics and Mathematicsl Systems. 1975. Т. 107. С. 350-361.

3. Davis M. H. A. Anticipative LQG Control, I // IMA Journal of Mathematical Control and Information. Т. 6. 1989. С. 259-265.

4. Davis M. H. A., Burstein G. A deterministic approach to stochastic optimal control, with application to anticipative control // Stochastics and Stochastics Reports. 1992. Т. 40. С. 203-256.

5. Ocone D., Pardoux E. A generalized Ito-Ventzell formula. Application to a class of anticipating stochastic differential equations // Ann. Inst. Henry Poincare. 1989. Т. 25. С. 39-71.

6. Wong E., Zakai M. On the relation between ordinary and stochastic differential equations // Int. J. Engineering Science. 1965. Т. 3. С. 213-229.

7. Sussman H. J. On the gap between deterministic and stochastic differential equations // Annals of Probability. 1978. Т. 6. С. 19-41.

ОБ АВТОРАХ

ИСМАГИЛОВ Нияз Салаватович, асп. каф. математики. Дипл. спец. по прикл. математике (УГАТУ, 2009). Готовит дисс. о стохаст. опт. управлении.

НАСЫРОВ Фарит Сагитович, проф. той же каф. Дипл. математик (ЛГУ, 1976). Д-р физ.-мат. наук по теории вероятн., мат. статистике и мат. анализу (ИМ им. Соболева, Новосибирск, 2002). Иссл. в обл. теории случ. процессов, теории функций, фин. математики.

METADATA

Title: On deterministic approach to stochastic optimal control.

Authors: N. S. Ismagilov1, F. S. Nasyrov2

Affiliation: Ufa State Aviation Technical University (UGATU), Russia.

Email: 1niyaz.ismagiov@gmail.com, 2 farsagit@yandex.ru.

Language: Russian.

Source: Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 17, no. 5 (58), pp. 38-43, 2013. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print).

Abstract: We consider a deterministic approach to stochastic optimal control problem based on decomposition of solution of stochastic differential equation. The decomposition formula allows to consider stochastic problem as parameterized family of deterministic control problems. It is shown that value function of deterministic problem can be modified in order to obtain non-anticipating solutions, which are also optimal for stochastic problem.

Key words: Stochastic optimal control; stochastic differential equation; anticipating stochastic differential equation; maximum principle; symmetric integral; deterministic approach.

References (English Transliteration):

1. R. T. Rockafellar and R. J. B. Wets, "Nonanticipativity and L1 martingales in stochastic optimization problems," Mathematical Programming Study, vol. 6, pp. 170-187, 1973.

2. R. J. B. Wets, "On relation between stochastic and deterministic optimization," Lecture Notes in Economics and Mathematicsl Systems, vol. 107, pp. 350-361, 1975.

3. M. H. A. Davis, "Anticipative LQG control, I," IMA J. Math. Control and Inform., vol. 6, pp. 259-265, 1989.

4. M. H. A. Davis and Burstein G., A deterministic approach to stochastic optimal control, with application to anticipative control," Stochastics and Stochastics Reports, vol. 40, pp. 203-256, 1992.

5. D. Ocone and E. Pardoux, "A generalized Ito-Ventzell formula. Application to a class of anticipating stochastic differential equations," Ann. Inst. Henry Poincare, vol. 25, pp. 39-71, 1989.

6. E. Wong and M. Zakai, "On the relation between ordinary and stochastic differential equations," Int. J. Engineering Science, vol. 3, pp. 213-229, 1965.

7. H. J. Sussman, "On the gap between deterministic and stochastic differential equations," Annals of Probability, vol. 6, pp. 19-41, 1978.

8. H. Kunita, Stochastic Flows and Stochastic Differential equations, Cambridge: Cambridge University Press, 1990.

9. F. S. Nasyrov, "Symmetric integrals and stochastic analysis," (in Russian), Teoriya Veroyatnostei i ee Primeneniya, vol. 14, no. 3, pp. 496-517, 2006.

10. F. S. Nasyrov, Local Times, Symmetric Integrals and Stochastic Analysis, (in Russian). Moscow: Fiszmatlit, 2011.

About authors:

ISMAGILOV, Niyaz Salavatovich, Postgrad. (PhD) Student, Dept. of Mathematics. Master of Applied Mathematics (UGATU, 2009).

NASYROV, Farit Sagitovich, Prof., Dept. of Mathematics. Dipl. Mathematican (Leningrad State Univ., 1976). Doctor of Sciences in Physics and Mathematics (Sobolev Institute of Mathematics, 2002).

i Надоели баннеры? Вы всегда можете отключить рекламу.