ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2017 Управление, вычислительная техника и информатика № 39
УДК 519.865.5
Б01: 10.17223/19988605/39/2
В.В. Домбровский, Т.Ю. Объедко, М.В. Самородова
ПРОГНОЗИРУЮЩЕЕ УПРАВЛЕНИЕ С ЗАМКНУТОЙ ОБРАТНОЙ СВЯЗЬЮ ДИСКРЕТНЫМИ СИСТЕМАМИ СО СЛУЧАЙНЫМИ КОРРЕЛИРОВАННЫМИ ПАРАМЕТРАМИ
Рассматривается задача управления дискретными динамическими системами со случайными коррелированными параметрами, относительно которых известны только первые и вторые моменты распределения. Определена стратегия управления с прогнозирующей моделью с замкнутой обратной связью на конечном и бесконечном горизонтах управления. Получены достаточные условия устойчивости стратегии управления на бесконечном горизонте.
Ключевые слова: управление с прогнозирующей моделью; замкнутая обратная связь; коррелированные параметры.
Системам со случайными параметрами уделяется значительное внимание в современной научной литературе. Это связано с тем, что такие системы нашли широкое практическое применение при управлении сложными реальными объектами.
Проблема синтеза регуляторов для подобных систем при различных предположениях о характере изменения случайных параметров рассматривалась в работах [1-9]. В работе [1] получены уравнения синтеза регуляторов с замкнутой обратной связью для систем со случайными независимыми параметрами и мультипликативными шумами. В [4, 5] рассматривается задача управления линейными системами со скачкообразными параметрами, меняющимися в соответствии с эволюцией дискретной марковской цепи.
В работах [6-9] используется методология управления с прогнозирующей моделью (управление со скользящим горизонтом) [10]. Задача синтеза стратегий управления с прогнозированием с замкнутой обратной связью для систем со случайными независимыми параметрами решена в работе [6]. В работе [7] получены уравнения синтеза оптимальных стратегий управления с прогнозирующей моделью с разомкнутой обратной связью для систем со случайными независимыми параметрами и мультипликативными шумами. Дискретные системы со случайными зависимыми параметрами рассматриваются в [8, 9]. В этих работах синтезированы алгоритмы прогнозирующего управления с разомкнутой обратной связью с учетом ограничений на управления. При этом в [8] предполагается, что динамика вектора параметров описывается разностным стохастическим уравнением авторегрессии, в работе [9] предполагается, что известны только первые и вторые моменты распределения параметров.
В настоящей работе получены уравнения синтеза оптимальных стратегий управления с замкнутой обратной связью для систем со случайными коррелированными параметрами, относительно которых предполагаются известными только первые и вторые моменты распределения. Даны достаточные условия устойчивости стратегии управления на бесконечном горизонте.
1. Постановка задачи
Рассмотрим дискретную линейную систему, заданную на вероятностном пространстве (О, ^ ,Р):
х(к +1) = Лх(к) + Б[ц(к +1), к + 1]ы(к), (1)
где х(к) - «х-мерный вектор состояния, и(к) - «„-мерный вектор управления, п(к) - последовательность ^-мерных случайных векторов, наблюдаемых до момента времени к включительно. Л, Б[п(к),к] - матрицы соответствующих размерностей, причем Б[п(к),к] зависит от п(к) линейно.
Пусть на (О, Ъ ,Р) выделен поток о-алгебр Р =( )к>ь где каждая из о-алгебр Ък порождается последовательностями {г|(?): 5=0,1,2,...,к} и интерпретируется как доступная информация до момента времени к включительно.
Будем полагать, что для процесса п(к) известны условные моменты относительно Ък :
Е {п(к + 1)/ Ък } = П(к + 0, (2)
Е {п(к + /)пТ (к + ])/ Ък } = (к), (к = 0,1,2,...), (/, ] = 1,2,...). (3)
Для управления системой (1) синтезируем стратегии с прогнозирующей моделью по следующему правилу. На каждом шаге к минимизируем квадратичный критерий со скользящим горизонтом управления
J(к + т / к) = £ Е {хТ (к + 1)Я1(к, 1)х(к + 1) / х(к), Ък }
(4)
+£ Е {иТ(к + / / к)Я (к,/)ы(к +1 / к) / х(к),Ък }
1=0
на траекториях системы (1) по последовательности прогнозирующих управлений и(к/к),...,и(к+т—1/к), зависящих от состояния системы в момент времени к; Я\(к,1) > 0, Я(к,1) > 0 - весовые матрицы соответствующих размерностей; т - горизонт прогноза; к - текущий момент времени. В качестве управления в момент времени к берем и(к) = и(к/к). Тем самым получаем управление и(к) как функцию состояний х(к), т.е. управление с обратной связью. Чтобы получить управление и(к+1) на следующем шаге, процедура повторяется для следующего момента к+1 и т.д.
2. Синтез стратегий управления с прогнозированием
Теорема 1. Оптимальная стратегия прогнозирующего управления с замкнутой обратной связью системой (1), минимизирующая критерий (4), при фиксированном горизонте прогнозирования т, на каждом шаге к определяется уравнением
иор4(к) = -К(т)х(к) = -[¿22(т -1) + Я(к,0)]- Ц2(т -1)х(к), (5)
где
Ц2(\) = АТ S (I) Е {Б[ц(к + т -1), к + т -1 ]/ +т +1}, (6)
¿22(1) = Е {БТ[п(к + т - /), к + т -1 ]5 (I) Б[п(к + т -1), к + т -1 ]/ +^+1}, (7) 5(7) - матрица, определяемая из решения рекуррентного уравнения вида
£(7) = ^ (к,т -7) + АТ5(7 -1)А -Ц2(1 -1)[¿22(7 -1) + Я(к,т -1)]-1 (2(1 -1))Т (8)
с начальным условием 5(0) = Я\(к,т).
При этом оптимальное значение критерия (4) определяется выражением
Jор4 (к + т / к) = хТ (к) [5(т) - Я (к, т)] х(к). (9)
Доказательство. Используем метод динамического программирования Беллмана. В момент времени к+т-1 критерий (4) имеет вид
J(k + т / к + т -1) = Е{хТ(к + т)Я1(к, т)х(к + т) + )
+иТ (к + т -1/ к)Я(к,т - 1)и(к + т -1/ к) / х(к + т -1),Ък+m_1}.
Выражая х(к+т) через х(к+т-1) с использованием уравнения системы (1) и подставляя в (10), будем иметь
J(к + т / к + т -1) = хТ(к + т -1) АТЯ1 (к, т) Ах(к + т -1) + +2хТ (к + т -1)АТЯ (к, т)Е{Б[ц(к + т),к + т] / Ък+т_1 }и(к + т -1/ к) +
(14)
+ит(к + т -1/ к){Е{Бт[г|(к + т),к + т]Я1(к,т)Б[г|(к + т),к + т] / $к+т-1} + Я (к,т - 1)}и(к + т -1/ к) = = хт (к + т -1)Лт5(0)Лх(к + т -1) + 2хт(к + т - 1)А2(0)и(к + т -1/ к) +
+иТ (к + т -1/ к ){Ь22 (0) + Я (к, т - 1)}и(к + т -1/ к), (11)
где 5(0) = Я1(к,т); ¿12(0), £22(0) определяются уравнениями (6)-(7).
Оптимизируя (11) по и(к+т-1/к), получаем оптимальное управление на к+т-1 шаге:
и ор1(к + т -1/ к) = -[¿22 (0) + Я (к, т -1)]-14Д0)х(к + т -1). (12)
Подставляя (12) в (11), получим оптимальное значение критерия (4) на к+т-1 шаге: ^ (к + т / к + т -1) = хт(к + т -1)[ЛтЯ (к, т)Л - ЛтЯ (к, т)М{Б[п(к + т), к + т]/ +т-1} х х{Е{Бт [п(к + т), к + тЩ (к, т)Б[п(к + т), к + т]/ +т-1} + Я(к, т -1)}-1 х
хЕ{Бт[п(к + т), к + т]/ +т_1}Я1(к, т)Л]х(к + т -1) = (13)
= хт (к + т -1)[Лт5(0)Л - 1Л2(0)[122 (0) + Я(к,т -1)]-1 (1Л2 (0))т ]х(к + т -1) = = хт (к + т -1)[5(1) - Ях (к, т - 1)]х(к + т -1),
где 5(1) определяется уравнением (8).
Повторяя процедуру на следующем шаге, имеем
J(к + т / к + т - 2) = Е{хт (к + т - 1)ЯХ (к, т -1)х(к + т -1) +
+ит(к + т - 2/ к)Я(к,т - 2)и(к + т - 2/ к) + Jор1(к + т / к + т -1)/ х(к + т - 2),%к+т-2} =
= Е{хт (к + т -1)5(1)х(к + т -1) + ит(к + т - 2/ к)Я(к,т - 2)и(к + т - 2/ к)/ х(к + т - 2),%к+т_2} =
= хт (к + т - 2)Лт5(1)Лх(к + т - 2) + 2хт(к + т - 2)Ь12 (1)и (к + т - 2 / к) +
+ит(к + т - 2 / к)^22 (1) + Я(к, т - 2)}и(к + т - 2 / к),
¿12(1), £22(1) определяются уравнениями (6)-(7).
Оптимизируя (14) по и(к+т-2/к), получаем оптимальное управление на к+т-2 шаге:
иор1(к + т -1/ к) = -[¿22(1) + Я(к, т - 2)]-1112(1)х(к + т - 2). (15)
Подставляя (15) в (14), имеем оптимальное значение критерия (4) на к+т-2 шаге: Jор1 (к + т / к + т -1) = хт(к + т - 2)[Лт5(1)Л - Лт5(1)Е{Б[^(к + т -1), к + т -1]/ %к+т_2 } х х{Е{Бт [^(к + т -1),к + т -1]5(1)Б[^(к + т -1),к + т -1] / %к+т-2} + Я(к, т - 2)}-1 х
хЕ{Бт[ц(к + т -1),к + т -1]/ %к+т-2}5т(1)Л]х(к + т - 2) = (16)
= хт (к + т - 2)[Лт5(1)Л - 1Л2 (1)[122 (1) + Я(к, т - 2)]-1 (1Л2 (1))т ]х(к + т - 2) = = хт (к + т - 2)[5(2) - Ях (к, т - 2)]х(к + т - 2),
где 5(2) определяется уравнением (8). На шаге к получаем
J (к + т / к) = Е{хт (к +1)5 (т -1) х(к +1) + и т(к / к )Я(к, 0)и(к / к) / х(к), %к} =
= хТ (к)Лт5(т -1)Лх(к) + ит(к / к)!11(т - 1)и(к / к) + 2хт (к)112(т - 1)и(к / к).
(17)
Нетрудно показать, что при этом оптимальное управление и(к/к) имеет вид (5), оптимальное значение критерия (4) определяется уравнением (9).
3. Управление на бесконечном горизонте
Рассмотрим квадратичный критерий на бесконечном горизонте управления
m .
J(k + m / k) = £ E{xT (k + i)Äx(k + i) / x(k), fk} +
1 '=1 (18)
m-1 .
+£ E{uT (k + i / k)Äu (k + i / k) / x(k), fk }, m ^ да.
i=0
Предположим, что матрица B[n(k),k], первые и вторые условные моменты процесса n(k) не зависят от времени, т.е.
B [ п ( k ), k ] = B[n(k)], E {n(k + i)/ Fk } = n(i), E {n(k + i)nT(k + j)/fk } для всех k, i, j. Данные предположения означают стационарность процесса n(k).
Теорема 2. Пусть существует положительно определенное решение Sда уравнения
Sда = Ä + ATSда A - Ц2 [Г22 + Ä ]-1 (Ц2 )T, (19)
где
= AT Sда E {B[n(k + m - /), k + m -1 ]/ fk+m+1},
(20)
Z22 = E {bt [n(k + m -1), k + m - l]S00 B[n(k + m -1), k + m -1 ]/ fk++1}.
Тогда оптимальный закон управления с замкнутой обратной связью, минимизирующий критерий (18) на бесконечном горизонте управления, является стабилизирующим и имеет вид
u opt(k) = -Kда x(k) = -[ L22 + ä ]-1 Z°2 x(k). (21)
Доказательство. Предположим, что существует положительно определенное решение Sдауравнения (19). Положим Ä1 = Sда. Критерий (18) в момент времени k = 0 имеет вид
m-1 . m-1 .
J(m / 0) = £E{xT(i)Ä1 x(i) + xT(m)Sдаx(m) / x(0),f0} + £E{uT(i /0)Äu(i /0) / x(0),f0}. (22)
i=1 i=0
Так как Sда определяется из решения уравнения (19), то согласно теореме 1 оптимальное значение критерия (22) при любом m (в том числе при m = да) определяется выражением
Jopt (да /0) = xT(0) [ Sда- Ä ] x(0).
Поскольку матрица Sда - Ä1 неотрицательно определенная и имеет ограниченные элементы, то очевидно, что значение критерия Jopt (да /0) - конечная величина.
Таким образом, последовательности E{xT (k)Ä1x(k) / x(0), Fq }, E{uT (k)Äu(k) / x(0), Fq } при оптимальном управлении являются бесконечными последовательностями с конечными суммами, откуда следует, что
lim E {xT(k)Ä1x(k)/ x(0), f0} = 0,
k ^да
lim E {u T(k)Äu (k)/ x(0), f0} = 0.
k ^да
Так как Ä1, Ä > 0, то x(k),u(k) ^ 0 при k ^да в средне-квадратическом смысле, что доказывает стабилизируемость закона управления.
Для доказательства (21) получим оптимальный закон управления при Ä1=S . Используя Теорему 1, нетрудно показать, что оптимальный закон управления с замкнутой обратной связью для любого m (в том числе для m = да) имеет вид
uopt (k) = -Kда x(k) = -[ Г22 +Ä ]-1 Ц2 x(k). (23)
Тогда можно утверждать, что для случая m = да закон управления (23) оптимален для любой положительно определенной матрицы Ä1, так как
lim E{xT (k + m)Ä1x(k + m) / x(0), f0} = 0.
Заключение
Получены уравнения синтеза стратегий прогнозирующего управления с замкнутой обратной связью для стохастических систем со случайными зависимыми параметрами, относительно которых предполагаются известными только условные первые и вторые моменты распределений. Получены достаточные условия устойчивости оптимального закона управления на бесконечном горизонте.
Отметим, что предложенный подход без принципиальных затруднений может быть обобщен на следующие случаи:
- когда матрица A в уравнении (1) зависит от времени;
- когда уравнение (1) содержит аддитивные шумы с характеристиками, зависящими от вектора параметров п;
- когда матрица A в уравнении (1) зависит от последовательности независимых случайных параметров, не коррелированных с вектором параметров п.
ЛИТЕРАТУРА
1. Домбровский В.В. Ляшенко Е.А. Линейно-квадратичное управление дискретными системами со случайными параметрами и
мультипликативными шумами с применением к оптимизации инвестиционного портфеля // А и Т. 2003. № 10. С. 50 - 65.
2. Fisher S., Bhattacharya R. Linear quadratic regulation of systems with stochastic parameter uncertainties // Automatica. 2009. No. 45.
P. 2831-2841.
3. Ghaoui E.L. State-feedback control of systems with multiplicative noise via linear matrix inequalities // Syst. Control Letters. 1995.
V. 24. P. 223-228.
4. Dragan V., Morozan T. The Linear Quadratic Optimization Problems for a Class of Linear Stochastic Systems With Multiplicative
White Noise and Markovian Jumping // IEEE Transactions on Automatic Control. 2004. V. 49, No 5. P. 665-675.
5. Домбровский В.В., Объедко Т.Ю. Управление с прогнозированием системами с марковскими скачками при ограничениях и
применение к оптимизации инвестиционного портфеля // Автоматика и телемеханика. 2011. № 5. С. 96-112.
6. Lee J.H., Cooly B.L. Optimal feedback control strategies for state-space systems with stochastic parameters // IEEE Transactions on
Automatic Control. 1998. V. 43, No. 10. P. 1469-1475.
7. Домбровский В. В., Домбровский Д. В., Ляшенко Е. А. Управление с прогнозированием системами со случайными парамет-
рами и мультипликативными шумами и применение к оптимизации инвестиционного портфеля // А и Т. 2005. № 4. С. 8497.
8. Домбровский В.В., Домбровский Д.В., Ляшенко Е.А. Управление с прогнозированием системами со случайными зависимы-
ми параметрами при ограничениях и применение к оптимизации инвестиционного портфеля // А и Т. 2006. № 12. С. 71-85.
9. Dombrovskii V., Obedko T. Model predictive control for constrained systems with serially correlated stochastic parameters and port-
folio optimization // Automatica. 2015. V. 54. P. 325-331.
10. Mayne D.Q. Model predictive control: Recent developments and future promise // Automatica. 2014. V. 50. P. 2967-2986.
Домбровский Владимир Валентинович, д-р техн. наук, профессор. E-mail: [email protected] Объедко Татьяна Юрьевна, канд. физ.-мат. наук. E-mail: [email protected] Самородова Мария Владимировна. E-mail: [email protected] Национальный исследовательский Томский государственный университет
Поступила в редакцию 22 декабря 2016 г.
Dombrovskii Vladimir V., Obedko Tatiana Y., Samorodova Mariya V. (National Research Tomsk State University, Russian Federation). The closed-loop optimal feedback model predictive control policy for systems with stochastic correlated parameters.
Keywords: model predictive control; closed-loop feedback control; correlated parameters.
DOI: 10.17223/19988605/39/2
We consider the following discrete-time with stochastic parameters system on the probabilistic space (Q, F ,P):
x(k +1) = Ax(k) + B[n(k +1), k + 1]u(k), (1)
where x(k) e Kn* is the vector of state, u(k) e Kn" is the vector of control inputs; n(k) e Кq is assumed to be stochastic time series. The matrices A e Кnx xnx, B [п (k), k] e К x u are the system matrix and the input matrix, respectively. All the elements of B[n(k),k]
are assumed to be linear functions of n(k).
Let F =( Fk )k>i be the complete filtration with a-field Fk generated by the {n(s): s=0,1,2,... ,k} that models the flow of information to time k. We allow the time series n(k) is serially correlated. Let assume that we know the first- and the second-order conditional moments for the stochastic vector n(k) about Fk :
E {n(k + i)/ Fk } = + i), E {n(k + i)nT (k + j)/ Fk } = ©i, (k ),(k = 0,1,2,...),(i, j = 1,2,..., /). We define the following cost function with receding horizon, which is to be minimized at every time k
J(k + m / k) = E jfj xT (k + i)R1(k,i)x(k + i) + uT (k + i -1/ k)R(k,i)u(k + i -1/ k) / x(k), Fk |, (2)
on trajectories of system (1) over the sequence of predictive control inputs u(k/k),..,,u(k+m-1/k) dependent on information up to time k, where R\(k,i) > 0, R(k,i) > 0 are given symmetric weight matrices of corresponding dimensions; m is the prediction horizon.
The closed-loop optimal feedback law minimizing criterion (2) was derived via dynamic programming. Conditions that guarantee the stability of the infinite horizon formulation are given.
REFERENCES
1. Dombrovskii, V.V. & Lyashenko E.A. (2003) A linear quadratic control for discrete systems with random parameters and multiplica-
tive noise and its application to investment portfolio optimization. Automation and remote control. 64(10). pp. 1558-1570. DOI: 10.1023/A:1026057305653
2. Fisher, S. & Bhattacharya, R. (2009) Linear quadratic regulation of systems with stochastic parameter uncertainties. Automatica. 45.
pp. 2831-2841. DOI: 10.1016/j.automatica.2009.10.001
3. Ghaoui, E.L. (1995) State-feedback control of systems with multiplicative noise via linear matrix inequalities. Syst. Control Letters.
24. pp. 223-228.
4. Dragan, V. & Morozan, T. (2004) The Linear Quadratic Optimization Problems for a Class of Linear Stochastic Systems with Multi-
plicative White Noise and Markovian Jumping. IEEE Transactions on Automatic Control. 49(5). pp. 665-675. DOI: 10.1109/TAC.2004.837750
5. Dombrovskii, V.V. & Obedko, T.Yu. (2011) Predictive control of systems with Markovian jumps under constraints and its application to the investment portfolio optimization. Automation and Remote Control. 72(5), pp. 989-1003. DOI: 10.1134/S0005117911050079
6. Lee, J.H. & Cooly, B.L. (1998) Optimal feedback control strategies for state-space systems with stochastic parameters. IEEE Transactions on Automatic Control. 43(10). pp. 1469-1475. DOI: 10.1109/9.720511
7. Dombrovskii, V.V., Dombrovskii, D.V. & Lyashenko E.A. (2005) Predictive control of random-parameter systems with multiplica-
tive noise. Application to investment portfolio optimization. Automation and remote control. 66(4). pp. 583-595. DOI: 10.1007/s10513-005-0102-5
8. Dombrovskii, V.V., Dombrovskii, D.V. & Lyashenko, E.A. ( 2006) Model predictive control of systems with random dependent pa-
rameters under constraints and its application to the investment portfolio optimization. Automation and remote control. 67(12). pp. 1927-1939. DOI: 10.1134/S000511790612006X
9. Dombrovskii, V. & Obedko, T. (2015) Model predictive control for constrained systems with serially correlated stochastic parameters
and portfolio optimization. Automatica. 54. pp. 325-331. DOI: 10.1016/j.automatica.2015.02.021
10. Mayne, D.Q. (2014) Model predictive control: Recent developments and future promise. Automatica. 50. pp. 2967-2986. DOI: 10.1016/j.automatica.2014.10.128