Теорема разделения в случае наблюдений с памятью

Демин Н.С.; Рожкова С.В.

Естественные науки

УДК 519.2

ТЕОРЕМА РАЗДЕЛЕНИЯ В СЛУЧАЕ НАБЛЮДЕНИЙ С ПАМЯТЬЮ

Н.С. Демин, С.В. Рожкова*

Томский государственный университет *Томский политехнический университет E-mail: svrhm@rambler.ru

Приводится доказательство теоремы разделения в задаче оптимального управления стохастическими системами для случая, когда наблюдаемый процесс обладает памятью произвольной кратности относительно вектора состояния системы.

1. Введение

Теорема разделения [1] является базовым результатом в теории управления неполностью (частично) наблюдаемыми стохастическими системами. Являясь фундаментальным теоретическим результатом, она позволила решить ряд важных практических задач в различных предметных областях [2-4]. В данной работе с использованием результатов [5] на основе метода достаточных координат [6] получено обобщение теоремы разделения на случай, когда наблюдения обладают памятью произвольной кратности, то есть зависят не только от текущих, но и от произвольного числа прошлых значений вектора состояния системы, что характерно для случая наличия инерционных измерителей, либо задержек в каналах передачи информации.

Используемые обозначения: И{-} - математическое ожидание; Р{-} - вероятность события; ^у;Ь,В} - гауссовское распределение с параметрами Ь и В; 1г[А] - след матрицы; В>0 (В>0) - положительно (неотрицательно) определенная матрица; «Т» - транспонирование вектора или матрицы, если используется как правый верхний индекс.

2. Постановка задачи

На вероятностном пространстве (О,/,Г=(^)(>0,Р) ненаблюдаемый «-мерный процесс х,, являющийся вектором состояния, и наблюдаемый /-мерный процесс г., определяются стохастическими дифференциальными уравнениями (в смысле Ито, [7, 8])

¿х,, = /(,, х,, и,)Ж + х, , , е[0, Т], (2.1) = Н(г, х,, )сИ + Ф 2(ОйЧ , (2.2)

где 0<гдг<...<т1< ,, гк=сош1, к=1;Ы.

Предполагается:

1) и являются стандартными винеровскими процессами размеров г1 и г2 [7, 8];

2) х0, у,, V, - статистически независимы;

3) Д.), й(.), Ф1(.), Ф2(.) непрерывны по всем аргументам;

4) 0(.)=Ф1(.)Ф[(.)>0, Я(.)=Ф2(.)Ф2(.)>0;

5) задана начальная плотность р0(х)=^х;д,,Г0}. Ставится задача: на классе - измеримых

функционалов щ=щ[4], г0'={г5;0<^<,}, найти управление и ,0, обеспечивающее условие оптимальности

(<={и;, 0<я<Т})

J = Mjb(tT, xT ) + |Л(/, xt, ut )dt\

^ min. (2.3)

К} ( )

Для решения поставленной задачи воспользуемся методом достаточных координат [6], предполагая, что существует ¥1 - измеримый процесс Л=Л[г'], с одной стороны, полностью характеризующий апостериорную плотность

р,(х) = дР{х, < х | г0}/дх (2.4)

вектора состояния х системы, а с другой стороны, который может быть найден на основе р, (х).

Замечание 1. Считаем, что процесс оптимального управления начинается с момента времени ,0>т1. На интервале ,е[0, ,0] в качестве и используется произвольный - измеримый процесс.

3. Предварительные результаты

В соответствии с методом достаточных координат вводим функцию Беллмана

\ , =Ш3.1)

S(t, X) = rru^n M j b(T, xT ) + J Л(t, xt,, ut, )dt '

Теорема 1. Пусть выполняются следующие условия: 10) процесс А, является диффузионным марковским процессом с вектором коэффициентов сноса а((,А) и матрицей коэффициентов диффузии Д/,А), то есть

a(t, А) = limi М {AAt| At = А},

At^o At

D(t, А) = lim -1M{[ДА ][ДА ]T| А. = А},

At^0 At I

(3.2)

min

{u}

dt

- + L* >A[S (t, А)] +

= 0,

+M {A(t, xt, Mt )| а. = А} S(t, A)|t=T = M{b(T, xT )| AT = А}.

(3.3)

(3.4)

L* >A[S (t, А)] = a (t, А) +

+4tr

D(t, А)

дА д2 S (t, А)

дА2

(3.5)

а минимальное значение критерия качества /° имеет вид /°=Д(,0,А).

Доказательство. Пусть

р,(х | А) = дР{х, < х | А, = А}/дх. (3.6)

Тогда, раскрывая оператор М{.} в (3.1), получаем с учетом условия 20), что £ (,, А) =

= mm

W }

J pt (x | А) X

T

J Л(t, x , u) x

Xp(t', x, А 11, x, A)dx'dAdt' + +J b(T, x') X

*p(t', x', А 11, x, A)dx'dA

dx

(3.7)

Лемма 1. С точностью до o(At) функция S(t,A) удовлетворяет по At рекуррентному уравнению S (t, А) =

= min <

[J S(t + At, A")p(t + At, A" 11, A)dA" +(At )Jл(t, x, u)p(x | A)dx + o(At)

,(3.8)

где

p(t + At, A" 11, A) = dP{At+At < A" | A, = А}/дА" (3.9) есть переходная плотность марковского процесса At.

Доказательство Леммы 1. Разбивая интервал [t,T] в виде [t,7]=[t,t+At]u[t+At,7], из (3.7) получаем

S(t, А) = min nmin{S1(t, t + At) + S2(t + At, T)}, (3.10)

{ut } {ut+At }

J pt (x | A)

где ЛА-А^—А,;

20) пусть процесс {х,;А,} является марковским процессом с переходной плотностью р(, ,Х,А\1,х,А)= =д2Р{х(,<х/,А(,<А|х(=х,А(=А/}/дх/дА/.

Тогда уравнение Беллмана для £(/,А) имеет вид 'дБ (,, А)

S1(t, t + At) =

t+At

J Л (t', x', u) X

t

x p(t', x', A' 11, x, A)dx'd A dt' S2(t + At, T) =

X

dx, (3.11)

= J pt (x | A)

T

J Л(.' , x', u) x

(3.12)

Оператор Х*а[.] является обратным оператором Колмогорова, соответствующий процессу А,, то есть [7, 8]

xp(t', x1, А 11, x, A)dx'dAdt'dx + [dx. +J b(T, x') x

xp(t', x, A 11, x, A)dx'dA'

Так какp(t',x',A\t,x,A)=8(x'-x,A-A) при At^0, то из (3.11) следует (5(.) - дельта-функция Дирака)

S1(t,t + At) = (At)Jл(t, x,u)pt(x | A)dx + o(At). (3.13)

Для переходной плотности марковского процесса {x(;A} (см. условие 20)) имеет место уравнение Колмогорова-Чепмена [7]

p(t', x, А 11, x, А) = = Jp(t',x, A 11 + At,x", A') X Xp(t + At, x", A' 11, x, A)dx"dA". (3.14) Так как, с учетом (3.6, 3.9)

J p(t + At, x", A111, x, A) pt (x | A)dx =

= pt+At (x"|A') p(t + At, A|t, A), то из (3.12, 3.14, 3.15) следует, что

S2(t + At,T) = Jp(t + At, A" 11, A)x

'J pt+At (x"|A") x

T

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J Л(.' , x', u) x

(3.15)

' t', x , A' 11 +

\

X p

+At, x' A'

dxd A dt +

J b(T, x у

X p

' t', x, A' 11 + +At, x', A"

Л

dx d A

dx

dA"

(3.16)

Из (3.10) с учетом (3.13) следует S (t, A) =

= min

min[ S2(t + At, T)] +

{ut+At )

+(Дt)Jл(t, x,u)pt(x | A)dx + o(At)

(3.17)

Подстановка (3.16) в (3.17) с учетом (3.7) приводит к (3.8). Лемма 1 доказана.

Раскладываем S(t+Дt,A//) в ряд в окрестности точки Я//=Я:

£ (/ + Д/, X") = £ (/ + Д/, X) +

\Т

+1

f dS (t + At, 1)

51

A1 +

+ ±Air d2S(t + 2At,1 A1 + o([A1]2). (3.18) 2 d1

Далее с учетом (3.2, 3.9) следует: J S (t + At, 1) p (t + At, 1" 11,1) d 1" =S (t + At, 1);

'dS (t + At, 1)л T

il

д1

A1p (t + At, 1" 11, 1) d 1" =

dS (t + At, 1)

д1

M {A1t 11t =1} =

JA1

= tr

(A.) f dS (t + At, 1) ^ ( 5) + (A

= (At ) l— d1 a (t, 1) + o (At );

r d2S(t + A,1) A1p(t + At, 1// 11, 1)d1" =

d1

d 2S (t + At, 1)

d12

M {[ A1t ][ A1t ] T| 1( t ) = 1}

= (At )tr

dS (t + At, 1)

d1

D (t, 1)

+ o (At );

J o([AI]2)p(t + At, X' 1t, X)dX" = = M{o([AXt]2) | X = X} = o(At).

Подстановка (3.18) в (3.8) с учетом последних формул и (3.5) приводит к соотношению (bTg=gTb, tr[BD]=tr[DB])

S (t, X) =

Г S (t + At, X) + (At) L'tx [S (t + At, X)] +1 = min\ . k (3.19)

u l+(At)J Л(t, x,u)pt(x | X)dx + o(At) |

Переходя в (3.19) к пределу при A^0, приходим с учетом (3.6) к уравнению (3.3). Граничное условие (3.4) и выражение для J следуют из (2.3, 3.1). Теорема 1 доказана.

Утверждение 1. Пусть

f (•) = F(t)xt + B(t)Ut, Ф.(-) = Ф1(t), Po(x) = N{x; /и0,r0},

h() = H o(t) xt +X Hk (t x, (3.20)

k=1

MO = M{xt | z0}, /л(Т, t) = M{x4 | z0}, k = Щ r(t) = M {[ xt -M(t)] [•]r| zO},

Гkk (Tk,t) = M{[xk — H-(Tk, t)] HT|z0}, Г 0k (Tk, t) = M {[ xt —M(t)] [ x — /л(тк, t)] T\z'0},

гл(t,,rt,t) = M{[xt_ ,t)][xIt - jT,/)]r|z:}. (3.21)

Тогда для апостериорной плотности (2.4) справедливо свойство

pt(x) = N{x; j(t), r(t)}, (3.22)

а параметры этой плотности определяются уравнениями

dj(t) = [F(t)j(t) + B(t)ut]dt + HT0 (t)R_1(t)dzt,

d j(xk, t) = HTk (t ) R-\t)dzt, (3.23)

d r(t )/ dt = F (t )r(t ) + Г (t )FT (t ) -

-Щ (t)R-l(t)È0(t) + 6(t), (3.24)

d Гкк (Tk, t)/dt = - Hk (t)R _1(t ) Йк (t), (3.25)

d Г0к (тк, 0/dt = = F (t )Го к (Тк, t ) - H T (t ) R-1 (t ) Йк (t ), (3.26) dГ,к(t,Тк,t)/dt = -H,T(t)R-'(t)4 (t), (3.27)

dZt = z(t) - [Ho(t)M(t)Нк (tj, t)]dt, (3.28)

к =1

H о (t ) = H о (t )r(t ) + X H к (t )Г Tk (Тк, t ), (3.29)

к=1

Нк (t) = Нк (t)Гкк (Тк, t) + X H (t)rT (T ,Tj, t). (3.30)

j *к

Данное Утверждение следует из [5]. Лемма 2. Вектором достаточных координат является оптимальная в среднеквадратическом смысле оценка j(t) процесса x,, то есть Aj[z0]=j(t), которая является марковским диффузионным процессом, локальные характеристики которого, см. (3.2), имеют вид a(t, j) = F (t )j + B(t )u,

D(t, f) = H T (t) R-'(t ) H 0(t ).

(3.31)

Доказательство. Так как Г(0, согласно (3.24), не зависит от 4 то из (3.22) следует, что Х=Ю Согласно [8] процесс дифференциал которого имеет вид (3.28), такой, что есть винеровский процесс с

M {ztzf|Ftz} = J R (r)dr.

(3.32)

Тогда свойство марковости [х,;/л(()} и формулы (3.31) следуют из (3.23, 3.32).

Утверждение 2. Совместный процесс является марковским диффузионным процессом.

Справедливость данного Утверждения следует непосредственно из (2.1, 3.20, 3.23) с учетом Леммы 2.

Замечание 2. Поскольку условия Теоремы 1 выполняются для Л=М0, то S(t,A)=S(t,/ц), и из (3.3-3.5) следует

'5£ (/, /л)

min

dt

- + L, JS (t, fi)] +

= 0,

+M {Л (t, xt, ut ) Z0} S (t, f) |t=T = M{b(T, Xt )| zT0},

(3.33)

(3.34)

L*[S (t, л)] = aT (t, л)

dS(t, л) дл

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+2tr

D(t, ¡)

д2S(t, ¡)

дл2

(3.35)

где a(t,n) и D(t,n) имеют вид (3.31). Замена М{.|л=л} на Mj.jz'o} следует из Ff - измеримости процесса ¡(t), см. (3.21).

4. Теорема разделения

Теорема 2. Пусть, кроме (3.20), выполняются условия

Л(-) = xTtL(t)xt + utN (t )ut, b() = xI.STxT , (4.1)

где L(t), N(t), ST - симметричные матрицы, причем L(t)>0, Sj>0, N(t)>0.

Тогда уравнение Беллмана (3.33) и граничное условие (3.34) принимают вид

'дS^ + [F(t)л + B(t)u]i +

min

дt

+hr

дл

HI {t) R-\t) H 0{t)

дл

+ЛТ L(t )л + uTN (t )u + tr[L(t )Г (t)]

S(t, Л) ,=T = tr[Str(T)] + лTSт л.

= 0,

(4.2)

(4.3)

Доказательство. Из (4.1) с учетом (3.21) и Ff -измеримости щ получаем

M {K(t, xt, ut )\z'o} =

= M{xTL(t)xt + uTN(t)ut \ zt0} =

= M{xTL(t)xt \ z'0} + uTN(t)ut =

= лTL(t)л + tr[L(t )r(t)] + uTtN (t )ut. (4.4)

Аналогично

M{b(T, xT)| zI} = M{xlSTxT \ zT} =

= лт (T )St л(Т)+ti[Si Г (T)].

(4.5)

S(t) = -F (t)S(t) - S(t)F(t) + +S (t) B(t) N - (t )BT (t )S (t) - L(t) с граничным условием

(4.7)

S (t )\ ==Т = ST

(4.8)

а минимальное значение /° критерия качества имеет вид

30 = лт «0)Б (Г0)л(Г0) + Ч Бт Г(Т)] +

т т

11г[Щ)Г(№ +| 1г[Йт0 (Г)Я-'(Г)Н0(ОБ(№. (4.9)

Доказательство. Беря производную по и от левой части (4.2) получаем уравнение для нахождения оптимального управления

Bt (t) dS(i£l + 2N(t)u = 0. дл

(4.10)

Отсюда получаем выражение для оптимального управления через функцию Беллмана в виде

u °(t) = -| N-\t )BT (t) ■

(4.11)

Подставляя (4.11) в (4.2), получаем уравнение в частных производных второго порядка для функции Беллмана в виде

дБ а, л)+лтрт у)дБ л)

да

i (дБ (t, л) 4 [ дл

дл

B(t) N-\t) BT (t) -9S (t'л

дл

+ЛTL(t )л + tr[ L(t )r(t)] +

+ itr

HI (t) R-\t) H o(t)

д2 S (t, л)

дл2

= 0. (4.12)

Решение уравнения (4.12) находим по методу разделения переменных в виде [9]

S(t, л) = l(t) + лтs(t)л,

(4.13)

где ¡(¡) - неизвестная скалярная функция, а £(/) -неизвестная матричная (ихи) - функция, на которую накладываем условие симметричности. Тогда дБ (Г, л)

дt

■ = l(t) + л S(t)л,

Подстановка (3.31, 3.35, 4.4) в (3.33) приводит к (4.2), а подстановка (4.5) в (3.34) приводит к (4.3). Теорема доказана.

Далее точка сверху будет обозначать производную по ¡.

Теорема 3 (Теорема разделения). Оптимальное управление и0 имеет вид

и0 =-Ы ~1(Г)Бт (Г)Б (Г)л(О, (4.6)

где оптимальная в среднеквадратическом смысле оценка л(0 вектора состояния х определяется уравнениями фильтра (3.23-3.30) при и=и0, матрица £(/) -матричным дифференциальным уравнением Риккати

SS(t,л = 2S(t)л, = 2S(t).

дл

(4.14)

Поскольку на S(t) накладывается условие симметричности, то с учетом (4.14) и того, что для скаляра b справедливо b=bT=(1/2)(b+bT), получаем

^ {t) ^ = 2^FT {t) S {t )л==

= л^т (t)S (Ол + л1 S (t) F (t)л. (4.15)

Подстановка (4.14, 4.15) в (4.12) приводит к соотношению

l(t) + лтS (t )л + лт FT (t )S (t )л + +ЛTS(t)F(t)л- ЛTS(t)B(t)N~\t)B (t)S(t)л + +ЛTL(t )л + tr[L(t )T(t)] +

+tr[ HI (t )R-l(t) H 0(t)S (t)] = 0.

(4.16)

Далее в соответствии с методом разделения переменных приравниваем в (4.16) коэффициенты при одинаковых степенях /. Тогда для S(t) получаем уравнение (4.7), а для l(t) уравнение

l(t) = -tr[¿(t)r(t)] -tr[ЙT (t)R-\t)Й0(t)S(t)]. (4.17)

Согласно (4.13)

S (t, / t==T = l (T) + /S (T)/. (4.18)

Из сопоставления (4.3) и (4.18) для уравнения (4.7) следует граничное условие (4.8), а (4.18) для уравнения (4.17) - граничное условие

l (t )| t=т = tr[ST Г(Т)]. (4.19)

Так как, согласно Теореме 1, /°=S(t0,A(t0)), а А=л, то из (4.13) следует, что

J0 = / (to)S (to)/(to) + l(to). (4.20)

Решение уравнения (4.17) с граничным условием (4.19) имеет вид

т

l(t) = tr[STГ(Т)] + J tr[¿(т)Г(т)] dT +

t

T

+Jtr[ЙT(T)R-'(T)Йo(t)S(t)] dT. (4.21)

СПИСОК ЛИТЕРАТУРЫ

1. Wonham W.M. On the separation theorem of stochastic control // SIAM J. Control. - 1965. - V. 6. - P. 312-326.

2. Богуславский А.И. Методы навигации и управления по неполной статистической информации. - М.: Машиностроение, 1970. - 256 с.

3. Брайсон А., Хо Ю Ши. Прикладная теория оптимального управления. - М.: Мир, 1972. - 544 с.

4. Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. - М.: Мир, 1977. - 650 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Абакумова О.Л., Демин Н.С., Сушко Т.В. Фильтрация стохастических процессов по совокупности непрерывных и дискрет-

Подстановка (4.21) в (4.20) при t=t0 приводит к

(4.9). Использование (4.14) в (4.11) приводит к

(4.6). Теорема доказана.

5. Заключение

1. Из сравнения результатов Теоремы 3 с Теоремой разделения в классическом случае [1], когда наблюдения без памяти, следует, что выражение для оптимального управления uf имеет один и тот же вид (4.6). При этом матрица S(t), определяющая регулятор, также определяется одними и теми же соотношениями (4.7, 4.8). Различие заключается в том, что в классическом случае оценка ¡(t) вырабатывается фильтром Калмана, а в случае наблюдений с памятью - фильтром (3.23-3.30), который вырабатывает не только оценку фильтрации ¡ (t) для текущего значения вектора состояния x, но и оценки интерполяции ¡i(rk,t) для прошлых значений вектора состояния xT, k=1;N. Соответственно изменяется

hJ '

выражение для минимального значения критерия качества /°.

2. Обобщение результатов на случай, когда процесс управления начинается с начального момента t=0, очевидно.

ных наблюдений с памятью. II. Синтез фильтров // Автоматика и телемеханика. - 1995. - № 10. - С. 36-49.

6. Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления. - М.: Изд-во МГУ, 1966. - 319 с.

7. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. - М.: Наука, 1977. - 568 с.

8. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с.

9. Кошляков Н.С., Глинер Э.Б., Смирнов М.М. Уравнения в частных производных математической физики. - М.: Высшая школа, 1970. - 710 с.

Теорема разделения в случае наблюдений с памятью Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Демин Н. С., Рожкова С. В.

Похожие темы научных работ по математике , автор научной работы — Демин Н. С., Рожкова С. В.

Текст научной работы на тему «Теорема разделения в случае наблюдений с памятью»