ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ т. 11, №2(45), с. 3-22
ББК В171.51:В161.83 >
ГРНТИ 27.37.17, 28.15.23 УДК 519.216.7:517.977.5
К. Б. Мансимов, Р. О. Масталиев
Необходимые условия оптимальности квазиособых управлений в задаче оптимального управления стохастической системой с запаздывающим аргументом
Аннотлция. Рассмотрена задача оптимального управления, математические модели которых задаются нелинейными стохастическими дифференциальными уравнениями Ито с запаздывающим аргументом и диффузными компонентами, позволяющими учитывать действующие на систему случайные возмущения непрерывной природы.
В предположении выпуклости области допустимого управления получено линеаризованное необходимое условие оптимальности. Исследован квазиособый случай. Описаны общие необходимые условия оптимальности квазиособых управлений. Рассмотрены частные случаи.
Ключевые слова и фразы: стохастическая теория управления, уравнения Ито, особые управления.
Введение
Стохастические дифференциальные уравнения с запаздывающим аргументом являются адекватным математическим аппаратом при описании многочисленных явлений в теории автоматического регулирования, механике, биологии, экономике и радиофизике [1—6].
В статье рассматриваются системы управления, математические модели которых задаются нелинейными стохастическими дифференциальными уравнениями с запаздывающим аргументом и диффузными компонентами. Это позволяет учитывать действующие на систему случайные возмущения непрерывной природы.
Принцип максимума Понтрягина для различных задач оптимального управления стохастическими системами с запаздывающим аргументом получен в [7-11]. В [9] рассмотрен особый случай вырождения условия максимума и получено необходимое условие оптимальности
© К. Б. Мднсимов, Р. О. Масталиев, 2020 © Институт Систем Управления НАНА, 2020
© Программные системы: теория и приложения (дизайн), IY-xm1
для особых в смысле принципа максимума Понтрягина управлений. Это рассмотрение также приводится в [12].
Известно (см. [12]), что особые, в смысле принципа максимума Понтрягина, управления являются также квазиособыми. Обратное неверно, т.е. квазиособые управления могут и не быть особыми, в этом смысле.
Необходимые условия оптимальности квазиособых управлений позволяют получить дополнительную информацию об управлениях, не являющихся особыми в смысле принципа максимума. Оптимальность в этом классе имеет сравнительно простую структуру, что важно с точки зрения проверки.
Предлагаемая работа посвящена выводу необходимых условий оптимальности квазиособых управлений в задачах оптимального управления, описываемых стохастическими системами с запаздывающим аргументом. В ней установлены необходимые условия оптимальности первого и второго порядков (линеаризованный принцип максимума и необходимое условие оптимальности квазиособых управлений).
Рассмотрение использует стохастический аналог метода, предложенный и развитый в работах К.Б.Мансимова (см., например, [13-15]) для детерминированных задач оптимального управления.
1. Постановка задачи
Пусть (П,Е, Р) — полное вероятностное пространство. Рассмотрим п-мерный стандартный винеровский процесс и>(£), определенный на полном вероятностном пространстве (П,Е,Р). Обозначим Ь^й") пространство измеримых по (¿,ш) случайных процессов
х(г,ш): [г0,г1]: П ^ й",
для которых Е ^ ||х(г)||2¿г < где Е — знак математического ожидания.
Допустим, что поведение динамического объекта на отрезке времени г € Т = [¿0,^1] описывается следующей системой стохастических дифференциальных уравнений с запаздыванием
йх(Ь) = /(¿, х(г), х(г — к), м(£)) А + х(г), х(г — к))Зди^Ь),
(1) г € (¿о, ¿1 ], к > 0,
Условия ОПТИМАЛЬНОСТИ КВАЗИОСОБЫХ УПРАВЛЕНИЙ
5
с начальными условиями
(2) ж(*) = Ф(*) при t € Ег0 = [¿о - Мо),
(3) ж(^) = хо.
Здесь
ж(4) € (¿о,¿1; Д") — вектор состояния;
f (¿,ж,у, и) — заданная п-мерная вектор-функция, непрерывная по совокупности переменных вместе с частными производными по (ж, у, и) до второго порядка включительно, причем у(2) = ж (2 — Л.);
ст(^ж, у) : Т х Д" х Д" ^ й"х" — (п х п)-мерная матричная функция, непрерывная по совокупности переменных вместе с частными производными по (ж, у) до второго порядка включительно;
Ф(£) € (¿о — Л, ¿о; Д") — почти наверно (п.н) непрерывная на Е4о начальная вектор - функция;
¿о и ¿1 — заданные моменты. Определим множество допустимых управлений V^ формулой
(4) «(¿) € иа = {«(•) € Ь2р(¿о,¿1; Дг)/-(*) € V С Дг, п.н.} ,
где V — заданное непустое, ограниченное и выпуклое множество, и назовём процесс (и(£),ж(£)) допустимым процессом.
В дальнейшем предполагается, что функция /(¿, ж, у, и) и матрица <г(£,ж,у) удовлетворяют условиям гладкости типа [16,17], обеспечивающим существование единственного решения системы (1)-(3) при каждом допустимом управлении «(¿), £ € Т.
Наша цель —минимизировать на множестве допустимых управлений критерий качества
(5) 5(и) = Е {ф(ж(*1))} ,
где ф(ж) — заданная дважды непрерывно дифференцируемая скалярная функция.
Допустимое управление «(¿), доставляющее минимум функционалу (5) при ограничениях (1)-(3), назовем оптимальным управлением, а соответствующий процесс (-«(¿^ж^)) —оптимальным процессом.
2. Необходимое условие оптимальности первого и второго порядков
Пусть (м(г),х(г)) — оптимальный процесс. Обозначим
(и(г),х(г)) = (и(г) + Ди(г),х(г) + Дх(г))
произвольный допустимый процесс и запишем формулу для приращения функционала
(6) ДБ(и) = Б (и) — Б (и) = Е {ф(х(г1)) — ф(х(£1))}. Приращение траектории Дх(г) удовлетворяет системе йДх(Ь) = й\х(Ь) — х(г)] =
(7) = / (г,х(г),у(г),и(г)) — / (г,х(г),у(г),и(г))) ¿г+
+ (а{г,х(г),у(г)) — а(г,х(г),у(г)))¿'ш(г), г € (¿оМ,
(8) Дх(г) = 0, г € Ег0.
Пусть ф(г) € Ьр(¿о,г1; й") — случайный процесс, стохастический дифференциал которого имеет вид
<ф(г) = а(г)& + в (г)г]™(г),
где а(г) — п —мерная измеримая и ограниченная функция. Тогда из формулы Ито [16-18] вытекает, что
¿(ф'(г)Дх(г)) = <ф'(г)Дх(г) + ф'(г)<Дх(г) + р(г)[а{г,х(г),у(г)) —
— а(г,х(г),у(г))уи =
= <ф' (г)Дх(г) + ф' (г)[/(г,х(г),у(г),и(г)) —
— / (г,х(г),у(г),и(г))) <г+
(9) + а(г,х(г),у(г)) — <т(г,х(г),у(г))3м(г)]+
+ в (г) а(г,х(г),у(г)) — а(г,х(г),у(г))
<г,
Здесь, и в дальнейшем, (') означает операцию транспонирования, а для векторов скалярное произведение.
Введем стохастический аналог функции Гамильтона-Понтрягина и
ряд обозначений, позволяющих упрощать записи формул Н(¿, х, у, и, = х, у, и),
Нх [¿] = Нх (¿, х(*), у(*), и(*), ^(¿)),
Ну [*] = Ну(*,х(*),у(*),и(*),^(*)), Н [*] = Ни (*, х(*), у(*), и(*), ^(¿)), НххМ = Нхх (*, х(*), у(*), и(*), ^(¿)), Нху [¿] = Нху (¿, х(*), у(*), и(*), ^(¿)), Нух М = Нух (*, х(*), у(*), и(*), ^(¿)), Них М = Них(*,х(*),у(*),и(*),^(*)), Ниу [¿] = Ни у(*,х(*),у(*),и(*),^(*)), Нии М = Нии(*,х(4),и(4),^(4)),
/*М = /х(*,х(*),у(*),и(*)), /иМ = /и(*,х(*),у(*),и(*)),
/у [*] = /у (*,х(*),у(*),и(*)),
о^М = о-ж(г,х(г),у(г)),
Введенные обозначения позволяют представить формулу (9) в виде:
¿(^'(г)Дж(г)) = (г)Дж(г)+ + [Н(¿, х(*), й(*), у(*), ^(¿)) - Н(¿, я(г), у(*), и(*),
(10) +в(*)(СТ(*,х(*),у(*)) - ст(*,х(*),у(*)))^
С учетом (8) и (10), выражение (6) принимает следующий вид:
Д5(м) = £ |ф(ж(^)) - ф(ж(^)) + ^'(¿^Дж^) - £ #'(г)Дж(г)-
Используя формулу Тейлора, получим:
ДБ (и) = Е^р>х(х(г1))Дх(г1) + ' (¿1 )фхх (х(г1))Дх(г1) + ф' (г1)Дх(г1)—
[■¿1 /"¿1 /"¿1 /"¿1 / <ф' (г)Дх(г) — н'х[г]Дх(г)<г — Ну [г]Ду(г)<г — Н'и[г]Ди(г)<г—
' ¿о Л ¿о ^ ¿о ^ ¿о
Гг 1 гг 1 гг 1
/ Дх' (г)Нхх[г]Дх(г)<г+ Дх' (г)Нху [г]Ду(г)<г + Ду' (г)Нух[г]Дх(г)<г+ л
/¿о «/¿о ^ ¿о
+ + Е
рг 1 /»¿1
+ / Ду' (г)Нуу [г]Ду(г)<г + Ди' (г)Нии[г]Ди(г)<г+ а
«'¿о Ло С
[•¿1 гг 1
+ 2 Ди'(г)Них[г]Дх(г)л+2 / Ди '(г)Ниу[г]Ду(г)<г
7 ¿о «/¿о
/»¿1
в(г)^х[г]Дх(г)<г — гов(гУу [г]Ду(г)<г— 1 ("¿1 1 /'¿1
Дх' (г) в (г)ахх[г]Дх(г)<ь — - Ду' (г)в(г)*уу [г]Ду(г)<г—
.
О
хх
2 ¿о 2 ■) ¿о
(11) — 1 £ Дх'(г)в(г)аху[г]Ду(г)<г — 2£ Ду'(г)в(г)стух[г]Дх(г)<^ + п(Ди),
где по определению
(12)
п(Ди) = еК^ЦДх^Ц2) — Г 02([ЦДх(г)Ц + ||Ду(г)| + ЦДи(г)Ц]2)<г — Г в(г)о3([ЦДх(г)11 + ЦДу(г)Ц]2)<г
I -Ьо -По
Здесь, по определению, величины о1(-),о2(-), и о3(-) определяются соответственно из разложений
ф(ВД) - фИ^О) =
= фХ(х(*1))Дх(*1) + 2Дх'(*1)фях(х(*1))Дх(*1) + °1(УДх(^1)У2), Н(*,х(*),у(*),й(*),^(*)) - Н(*,х(*),у(*),и(*),^(*)) = = НХ[*]Дх(*) + Ну [¿]Ду(4)+Н и[^]Дм(^)+
+ 2Дх'(4)Нхх[*]Дх(4) + ^Дх'фНху [*]Ду(*)+ 1
1
+ -Ду' (¿)НуЖМДх(4) + Ди'(4)Них[*]Дх(4)+
+ Ди'(4)Ниу МДу(^) + ^Ди'СОНииМД«^ + 02([УДх(*)У + ||Ду(*)|| + ||Д«(;)||2),
1 2
ОДОМ*) + ау[¿]Ду(4) + - Дл'(*КхМДх(*)+
+ 2Дж'(£)<7Жу [¿]Ду(4) + 1Ду'(4)аухМДх(4)+ + оз([||Дж(£)|| + ||Ау(*)|]2).
Предположим, что случайные процессы € (¿0,^15 й") и в(4) € (¿0,4ъ Д"х") являются решением следующей системы стохастических дифференциальных уравнений:
= - [Нх[¿] + Ну[4 + Ь\ + в(4 + [4 + + в(*КМ + в (4 +
4 € (¿0,^1 - Л-],
= - [Нх[¿] + в(*К№ + в(*М™(*),
4 € [¿1 - М1], -^(¿1) = Фх(ж(^)).
(13)
Уравнение (13) назовем стохастической сопряженной системой в рассматриваемой задаче.
Отсюда принимая во внимание (13), приращение функционала качества (11), с помощью очевидных преобразований представляется в виде:
ДБ(и) = Е
Н'и[г]Ди(г)зг + 2 Д(г^ххЫг^Дх^)—
Дх' (г) [Нхх[г] + в(г)ехх[г]]Дх(г)&—
Дх' (г) [Нху [г] + в(г)°ху [г]\Ду(г)3,г—
Ду' (г) [Нух [г] + в(г)яух [г]] Дх(г)<г—
(14)
Ду' (г) [Нуу [г] + в(г)ауу [г]] Ду(г)<г—
/»¿1 /»¿1 — 2 Ди' (г)Них[г]Дх(г)А — 2 Ди' (г)Ниу [г]Ду(г)<г—
«/¿о Л ¿о
По
е*1
Ди' (г)Нии[г]Ди(г)<г
¿1
¿о
+ п(Ди).
Пусть у(г) € Ьр(го, ¿1; Кг)— произвольная измеримая вектор-функция, а £ € [0,1]— произвольное число.
Поскольку по предположению множество и выпуклое, то специальное приращение Дие (г) допустимого управления области управления и(г) можно определить по формуле (см. напр.[12,13])
(15)
Дие (г) = £ [V (г) — и(г)], г € Т,
где V (г) € Ьр (го, ¿1; йг) — произвольная измеримая вектор-функция, а £ € [0,1] — произвольное число.
Обозначим через Дхе (г) специальное приращение траектории х (г), отвечающее приращению (15) допустимого управления и (г).
Из (7), используя условие Липшица, при помощи леммы Гронуолла-
I
I
ь
I
о
Условия ОПТИМАЛЬНОСТИ КВАЗИОСОБЫХ УПРАВЛЕНИЙ 11
Белмана (см., например, [19]) получается оценка
(16) E (||Д*е (t) ||) < Ne,
где N = const > 0 и п (Д«е (t)) = o (e2).
Используя оценку (16) и формулу (15) из (7) по схеме, аналогичной [12,13], получаем справедливость утверждения
Лемма. Для специального приращения Дже (t) траектории x(t) системы (1)-(3) имеет место следующее 'разложение
(17) Дже (t) = el (t)+ o (e; t), где l(t) является решением задачи
dl(t) = [/X[t]l(t) + /[t]l(t - h)+/U[t](v(t) - u(t))]dt+
(18) +(aX[t]l(t) + ay[t]l(t - h))dw(t),
t e (to,ti], l(t) = 0, t e Ei0.
Принимая во внимание (17) и оценку (16), из (14) получаем, что Д5е(м) = S(u(t) + Дме^)) - S(u(t)) =
= e| - e£ HU[t](v(t) - u(t))dt +1l'(ti)^xx(x(ti))/(ti)-ti
l '(t) [Hxx[t]+ e(t)axx[t^ l(t)dt-
'to fti
/ l '(t) [Hxy [t] + e(t)axy [t]] l(t - h)dt-
t0
/ l '(t - h) [Hyx[t] + e(t)ayx[t^ l(t)dt-
t0 /" ti
(19) - l'(t - h) [Hyy [t]+ e(t)ayy [t]] l(t - h)dt-
t
/• ti
- 2 (v(t) - u(t)) H„x[t]l(t)dt-
t0
— 2 г) — и(г)) Ниу [г]1(г — н)аг—
■по
— {о(г) — и(г)УНииЩЫг) — и(г))^г| + о(£2).
Из разложения (19) и произвольности £ € [0,1] сразу следует справедливость утверждения
Теорема 1. При сделанных предположениях для оптимальности допустимого управления и(г),г € Т в задаче (1)-(5) необходимо, чтобы неравенство
Г*1
(20) е Н'и[г]{;и(г) — и(г))¿г < 0
■по
выполнялось для всех v(г) € Ьр(го,г1; Кг).
Неравенство (20) является линеаризованным интегральным условием максимума для задачи (1)-(5).
Используя лемму из [20, с.8], можно показать, что это неравенство имеет место тогда и только тогда, когда почти для всех в € [го, ¿1) и V € Ьр (¿о, ¿1; Кг) выполняется
(21) ЕН'и [% — и(в)) < 0. Из произвольности в € [го, г1) получаем, что
(22) Н'[в]^ — и(в)) < 0 п.н.
где в € [го, г1) — . точка Лебега управления (правильная точка)и(г), (см. например, [21, с.86-87]).
Неравенство (22) есть поточечный линеаризованный принцип максимума в задаче (1)-(5).
3. Случай вырождения поточечного линеаризованного условия максимума
Следуя [12], введем понятие квазиособого управления. Определение 1. Если для всех в € [¿0,41) и V € йг
(23) НУ[в]^ - и(в)) =0 , п.н.
то допустимое управление называется квазиособым управлением.
Очевидно, что квазиособый случай поточечного линеаризованного условия оптимальности (22) (и, следовательно, условие (20)) теряет свое содержательное значение, в связи, с чем надо иметь новые необходимые условия оптимальности.
Пусть «(£),£ € Т квазиособое оптимальное управление. Тогда из разложения (19) в силу (22) и произвольности е € [0,1] следует, что
Е
/' (¿1)фжж( /(¿1)-
г «1
/ '(¿) [Нхх[4]+ в(*КхМ] / '(¿)[Нху [¿] + в(*Ку М]/(4 - М^-
/«0
-'«0
(24) - /'(4 - [Нух[4]+ в(*К*М]
■По
С «1
- /'(4 - [Нуу [¿] + в(4)ауу [¿]]/(4 -Ло
- 2 - «(¿)) Них[4]/(4)^4-
Ло
Г*1 /
- 2 - «(¿)) Ниу [¿]/(4 -
Ло
/• «1 .
/ - «(¿)) Нии[^(¿) - «(*))
Ло
Сформулируем полученный результат.
Теорема 2. Для оптимальности квазиособого управления и (г) в задаче (1)-(5) необходимо, чтобы неравенство (24) выполнялось для всех ^и(г) € и, г € Т.
Как видно неравенство (24) есть неявное необходимое условие оптимальности квазиособых управлений, поэтому конструктивное использование этого условия оптимальности затруднительно. Однако, с его помощью удается получить ряд необходимых условий оптимальности квазиособых управлений, выраженных непосредственно через параметры задачи (1)-(5). Займемся этим вопросом.
Уравнение (18) является линейным неоднородным стохастическим дифференциальным уравнением. Применяя результаты работы [9], получаем, что решение 1(г) задачи (18) допускает представление
(25) 1(г)= ( Е(г,г)^(т) — и(т))йт,
Ло
где по определению
Е(г,т ) = <(г,т )!и[т ].
Здесь фундаментальная матрица <<(г, т) является решением однородного уравнения:
¿Я(г,т) = (/'х[г]Я(г,т) + /у [г]Я(г — н,т ))аг+
+ (а'х[г]<(г,т) + ау [г<г — н,т ))а<ш(г), <(г,г) = I,
(26) <(г,т ) = 0, т>г,
где I —единичная матрица. С помощью представления (25) доказываются следующие тождества, которые будут использоваться в дальнейшем:
(27) l'(tiVx*(x(ti))l(ti) = í í («(r) - u(r))'R(ti,r)фхх(x(ti))R(ti, s)(«(s) - u(s))drds,
to to
l' (t) [Hxx[t]+ e(t)^xx[t]] l(t)dt =
(28) = / 4 1 («(r) - u(r))' f 1 R(t,r)[Hxx[t]+ e(tK*[t]] R(t,s)dt
«/1 o «/ to «/ max(T,s)
/ l' (t) [Hxy [t] + в (tKy [t]] l(t - h)dt = J to
ptl tl
ntl /*t1
(«(r) - u(r)) / R(t,r) [Hxy[t]+ e(t)ffxy [t]]R(t - h, s)dt
,, o </max(T,s)
l'(t - h) [Hyx[t] + e(t)ffyx[t]]l(t)dt =
ntl /»tl
(«(r) - u(r)) / R(t - h, r) [Hyx [t] + в(t)^yx [t]] R(t, s)dt
,, o ./max(T,s)
«(s) - u(s))dsdr,
(«(s) - u(s)) dsdr,
(«(s) - u(s)) dsdr,
l' (t - h) [Hyy [t]+ в(^уу [t]] l(t - h) =
(31) = / 4 1 («(r) - u(r))' Í 1 R(t - h,r)[Hyy [t]+ в(^уу [t]] R(t - h,s)dt
«/1o J to «/ max(T,s)
/ max(T,s)
r-tl /.tl
s) - u(s)) drds,
(32) Í 1 («(t) - u(t))'H„x[t]l(t)dt = Г Г («(r) - u(r))'H„x[r]R(r,t)dr
o o
Ç tl tl /»tl
(33) / («(t) - u(t)) Я„у[t]l(t - h)dt = / («(r) - u(r)) Я„у [r]R(r - h,t)d-
o o
(«(t) - u(t))dt,
(«(t) - u(t))dt.
Полагая
к (т,в) = -Я(гит )фхх (х(г1))Е(г1,8)+
Я(г, т) [Нхх + в^хх Я(г, в)+
+!"
+ Я(г, т) [Нху [г] + в(г)(Гху М] Я(г - н,в)+ + Я(г - н, т) [Нух [г] + в(г)аух [г]] Я(г, в)+
+ Я(г - н, т) [Нуу [г] + в(г)<туу [г]]Я.(г - н, в)
¿г
и учитывая тождества (27)-(33), неравенство (24) можно записать в следующем компактном виде:
Е{ / (у(т)- и(т)) К(т,в)(у(в)- и
| [ ( (у(т) - и(т))'К(т,в)(у(в) - и(в))дтдв+
I Л Ьо Л Ьо
г .
+ (у(г) - и(г)) Нии [г] (у(г) - и(г)) ¿г+
Ло
(у(т) - и(т))'(Них[т]Я(т,г)+
■По
>1
(34) + Ниу[т]Я(т - Н,г))йт
(у(г) - и(г))скь \ < о.
)
Заметим, что детерминированный аналог матричной функции К(т, в) впервые введено в работах К.Б. Мансимова [13-15].
Сформулируем полученный результат.
Теорема 3. Для оптимальности квазиособого управления и(г), г € Т в задаче (1)-(5) необходимо, чтобы неравенство (34) выполнялось для всех у(г) € Ь2Р(г0,г1; Яг).
Как видно условие (34) является общим интегральным необходимым условием оптимальности квазиособого управления. Но используя различные специальные вариации управления, из этого условия можно получить целый ряд более легко проверяемых необходимых условий оптимальности. Приведем одно из них.
Условия ОПТИМАЛЬНОСТИ КВАЗИОСОБЫХ УПРАВЛЕНИЙ
17
Теорема 4. Для оптимальности квазиособого управления u(t) в задаче (1)-(5) необходимо, чтобы неравенство
(35) E(v - и(в))' Нии[в] (v - и(в)) < 0, п.н.
выполнялось для всех v G Rr, в G [in, ^ 1 ) - m,очка Лебега управления u{t).
Для доказательства неравенства (35), достаточно в (34) v(t) определить по формуле
f«(i), t&[t0,6),
(36) *(*) = <*, *е[м + м),
где v G U, в G [iojii)j a ytt > 0 — произвольное достаточно малое число. Тогда из формулы (34) получим
AtS{ (v - и(в))'Нии[в} {v - и(в))} + o(At) < 0.
Отсюда в силу произвольности ¿t > 0 и в G [iojii) следует справедливость неравенства (35).
Также не исключена возможность вырождения необходимого условия оптимальности (35), т.е. его выполнения тривиальным образом.
Определение 2. Квазиособое управление u(t) назовем второго порядка квазиособым управлением, если для всех v G U, в G [iojii)
(î.-«(0))'tfuu[0](î'-«(0)) =0, п.н,
Общее необходимое условие оптимальности квазиособых управлений
(33) позволяет получить необходимые условия оптимальности для второго порядка квазиособых управлений.
Допустим, что и(1:) второго порядка квазиособое оптимальное управление. Тогда принимая во внимание формулу (36) в неравенстве
(34), получаем неравенство:
Е{ (v - и(в))'[Щв, 9) + Них[в]Щв, 0)] (г. - и(в))} < 0. Здесь из произвольности в G [iojii) получаем, что неравенство
(37) (v - и(в))'[Щв, в) + Них[в]Щв, 0)](г, - и(в)) < 0,