СИСТЕМЫ И
ПРОЦЕССЫ
УПРАВЛЕНИЯ
УДК 681.513
АДАПТИВНЫЙ РЕГУЛЯТОР С АКТИВНЫМ НАКОПЛЕНИЕМ ИНФОРМАЦИИ
АДОНИН О.В., БОДЯНСКИЙЕ.В., КОТЛЯРЕВСКИЙ С.В.
Рассматривается задача адаптивного управления динамическим стохастичним нестационарным объектом в условиях неопределимости относительно дре-фующих параметров и возмущающих помех. Предлагается алгоритм с активным накоплением информации, который дает качество управления лучшее, чем адаптивный регулятор с обобщенной минимальной дисперсией, построенный на принципе стохастической эквивалентности.
В [1] предложен регулятор, реализующий стохастически эквивалентный закон управления с обобщенной минимальной дисперсией, в котором истинные параметры объекта или, что то же самое, оптимальные параметры регулятора заменены своими оценками, полученными в контуре адаптации. Поскольку в процессе управления, особенно в нестационарных режимах, оценки могут быть сколь угодно далеки от оптимальных значений, качество процесса управления может быть недостаточно высоким, а о его оптимальности можно судить лишь в асимптотике.
Учитывая очевидные соотношения м|оpR (t + d)|= фТ (t + d)P0 (t)ф(1 + d) +1
M \y 2(t + d )| Ft\ = (0T (t Mt + d ))2 +
+ фТ (t + d )Pq (t )ф(t + d) + a2 ,
° p
перепишем (1) в виде
11DC = (1 - X(t))(q>T (t + d )P@ (t)^(t + d)
+ a 2 ) + (©(t )ф(t + d ))2 =
p
=u 2 (t )((i - 4t ))pot 0 (t) + m0 (t)) +
+ 2u(t )(1 - X(t ))V1m 01 (t )y(t) +
+ ™о£Т (t)y(t)) + (1 - X(t))(фT (t) X
xP| (t Mt) + a2 ) + (F y(t ))2,
p
после чего, решив уравнение
о p >
811DC
8u(t)
= 0,
несложно получить закон управления в виде
(1 -Ш)РТ Ut) + m0(t)tТ(t) uIDC = ^------W'm0W 0W W ^(t) =
(1 -X(t))Pm0 M) + m0 (t)
aT (t) Y (t)
(2)
V(t).
Из формулы (2) видно, что при X(t) = 1 приходим
Улучшить характеристики адаптивного регулятора можно, придав ему свойства дуального управления, т.е. организовав процесс активного накопления информации в контуре адаптации.
Введем критерий инновационного дуального управления [2]:
1IDC = М {~ 2 (t + d) - X(t )u pR (t + d) Ft}, (1)
где о pr (t + d) = y (t + d) - 0 (tMt + d) — ошибка прогноза; X(t) — коэффициент, задающий компромисс между процессами управления и настройки такой, что 0 < Mt) ^ 1.
Точность настройки будем характеризовать ковариационной матрицей Pq (t), которую представим в виде
ре (t) .мЛв-адХв-М IF,} =
' р”0 (t) ; ^01 (t)4
P^0^ (t) : (t)
V /
РИ, 2000, № 3
к стохастически эквивалентному регулятору
л Т
uidc (t, Mt)=1)=uce (t)=- m~) v(t), (3)
m0(t)
а при X(t) = 0 получаем осторожное оптимальное управление [3]:
uIDC (t, Mt) = 0) = uCAUT (t) =
pm0f(t)+m0(t)F (t) „ sT (t) ,,
= —0----------2-----w(t) =---^V(t).
Pm0 (t) + m0 (t) s(t)
Для случая, когда 0 < X(t) < 1 и P^ (t) > 0 , определяем соотношения:
P(t) = (1 -X(t))Pm0(t) + m2(t), (4)
mfa)
< 1,
Pm0 (t) + m0)(t)
P(0
> 0 .
(5)
(6)
Тогда закон управления (2) можно представить в виде
57
т2(й рТ (t)
U1DC(t) = UCE(t) -0— + (1 - X(t))-^0— y(t). (7) P(t) p(t)
Первое слагаемое в (7) — это собственно управляющее воздействие, а второе — зондирующий сигнал, обеспечивающий активное накопление ин-
CE
формации. Поскольку в (7) управление и (t)
масштабируется коэффициентом, который меньше
1DC
единицы, то очевидно, что и (t) более осторож-
CE CAUT
но, чем и (t), но менее, чем и (t). Исполь-
1DC
зуя соотношения (4)-(6), и (t) можно также
записать в форме
-2 РТ (t)
u1DC(t) = uce(t)^ + (1 - X(t))-m^- v(t), P(t) P(t) ’
откуда видно, что чем больше коэффициент при UCAUT (t) R
и (t), тем больше сигнал зондирующего воз -
действия.
Оценим качество рассмотренных законов управления с точки зрения критерия с обобщенной минимальной дисперсией, для чего представим его в виде
IGMV = м 2(t + d)| Ft} = (0 Т (t )9(t + d ))2 +
+ Ф (t + d)Pq (t)ф(t + d) + +o =
° p
22T = и (t)(Pm0(t) + m0(t)) + 2u(t)(РЩt(t)v(t) + (8)
+ mo (T )lT (t )y(t)) + +yT (t )fy (t) y(t) + a ^ +
p
+ (}'T (t)y(t))2 = и2 (t)s(t) + 2u(t)5T (t)y(t) + 0(t),
где 0(t) — члены, не зависящие от управляющего сигнала u(t).
Видно, что минимум (8) доставляет осторожный регулятор
ucaut (t) = T(t)
s(t) Т ’
при этом
T2
,(иаит(t)) = _ (S (t)y(t)) + 0(t) > 0
8(t)
Стохастически эквивалентный регулятор (3) доставляет (8) значения
T2
тGMV (uCE t(t)V(t)) „(tч 11 (и (t)) =--------s(t) -
m-2(t)
'J,
_ 2ІрМ) gT (t)v(t) + 0(t),
m0(t)
при этом несложно видеть, что
58
lGMV{uCE (t))-IGMV(uCAUT (t)) =
(- T (t )y(t ))2 s(t) _ §T (t )v(t).
ni^(t)
(5T (t )y(t ))2 s(t)
= s(t)
m0(t)
(iT w(t ))2 m0 (t)
- 2
1TV(t)5T (t)V(t) , (5T (t))V(t))2 ^
m-0 (t )e(t)
T
8 2(t)
= S(t )l
m0(t)
T ^2
v(t) v(t)
s(t)
/CE / CA UT і ^ n. = s(t)U (t) - и (t)) > 0.
$
т.е. осторожный регулятор всегда лучше стохастически эквивалентного, но при этом не обеспечивает активного накопления информации по ходу процесса управления.
Подставляя в (8) (2), получаем
T2
IGMV (u1DC (t)) = (я (t2^(t)) s(t) -
у 2(t)
- 2 5T (t)y(t) + 0(t),
y(t)
после чего, вычисляя разность
rGMV t CE,.xx jGMV t 1DC 11 (и (t)) -I t (и (t)) =
- ^ (t)V(t))2 s(t) - 2 ^M) §T (t)^(t) -
rn^(t)
m0(t)
("T (^(t))- s(t) +2 5 T (t)v(t) =
У 2(t)
У (t)
f
= s(t)
(XT (t)v(t))2 2 XT (t)y(t)5T (t)y(t)
rn^(t)
m0 (t)s(t)
(XT (t)v(t))2 + 2(t)v(t)5T (t)v(t)
у 2(t)
(5T (t )V(t ))2 (5T (t )V(t))
У (t )s(t)
2
(9)
s 2(t)
8 2(t)
= 8(t)((UCE (t) -иСАШ (t))2 -- (UID(t) -UCI]U (t))2),
получаем, что при ‘ 1DC
и
1DC
2
(t, X(t) = 1) - и (t, A,(t) = 0)1 >
> (u 1DC (t) - и1DC (t, X(t) = 0)f > 0
(10)
РИ, 2000, № 3
адаптивный регулятор с активным накоплением информации (2) обеспечивает качество управления не хуже, чем стохастически эквивалентный регулятор Кларка-Гофтропа [4], активно влияя при этом на процесс адаптации.
Неравенство (10) свидетельствует о существовании значений коэффициента X(t), обеспечивающих более высокое качество управления, но не дает алгоритма его вычисления. Чтобы определить требуемое значение этого коэффициента, необходимо организовать дополнительный контур адаптации. Для этого переформулируем задачу управления следующим образом: пусть целью адаптивной системы является оптимизация ошибки прогноза
if* = м{орК (t + d )| Ft}, при ограничениях вида (9)
5T (t) T
- P(tМО—Y(t) + (tM(t)
„PR (t) =---s(t) ”0<"
Pm0 (t) - P(t)e(t)
(p(t) - < 0i (t) + p(t )mo(t )f (t) (p(t) - 1)POTo (t) + P(t)>n^(t)
V(t) =
1 --
P(t)
0^ (t) + m0(t M (t)
-MO , (12)
1 --
P(t)
m0 (t)+p(t )rn^(t)
откуда видно, что при X(t) = р 1 (t) алгоритм (12) совпадает с регулятором (2).
1
1
s(4„(t) - „ CA UT (t))2 -(„ CE (t) - „ CA UT (t))2 ) < 0.
Формируя лагранжиан
L, =-IfR +ps(t)((„(t)-„CAUT(t))2 -
- („ce (t) - „caut (t ))D=
=-фТ (t + d)P0 (t)ф(, + d) -a2 +
° p
+ ps(t)((„(t) -„CAUT (t))2 -
- („CE(t) -„CAUT (t))2 ) =-„2 (t)Рда0 (t) -
- 2„(t^W(t) - WT (t)P£ (0M0 -aIp +
+ ps(t)(„2 (t) - 2„(t)„CAUT (t) + („CAUT (t))2 -
- („CE(t) -„CAUT (t))2)
(здесь p — неотрицательный неопределенный множитель Лагранжа) и оптимизируя его с помощью процедуры Эрроу- Гурвица-Удзавы, получаем регулятор с дополнительным контуром адаптации:
„PR (t) = -
p(t)e(t)„CAUT (t)-
M(t w)
Pm0 (t) -p(t)s(t)
p(t +1) = [p(t) + Гp (t + 1)s(0\(„ T (t) -
-„CAUT (t))2 -(„CE(t)-„CAUT (t))2'
(11)
+ ’
где Гр (t +1) — параметр шага поиска;
[р]+ = max{0, р}, p(t) - настраиваемый множитель Лагранжа.
Первое соотношение (11) может быть преобразовано к форме
Следует отметить, что по сравнению с регулятором (2), введенным в [5], процедура (11) обладает более широкими возможностями. Так, введение дополнительного контура адаптации позволяет автоматически устанавливать компромисс между процессами настройки и управления. Кроме того, при
0 <р<1 предлагаемый алгоритм работает в режиме оценок [6], которого нет в (2).
Трудности использования рассмотренных регуляторов связаны, прежде всего, с необходимостью
знания а2 . Поскольку в большинстве практичес-
° p
ких задач этой информации нет, необходимо искать альтернативные подходы к синтезу адаптивных регуляторов с активным накоплением информации. Для этого введем в рассмотрение критерий, аналогичный критерию активно- адаптивного управления Гудвина-Пэйна [7]:
AAC I ~ ~ detРф(t + d-1) І
■ aaa =м|~(t+d)-w del;(t+гі) и).os)
где
РФ(t+d) _
p»0(t+d) ; (t+<T
Pm0l (t + d) і P£ (t + d)
V
= CT n p0 (t + d)
p
вычисляется с помощью второго соотношения с учетом очевидного соотношения
det Рф (t + d -1)
det Рф (t + d) =--T-----------------------
1 + ф (t + d)Pф (t + d - 1)ф(, + d)'
Критерий (13) может быть переписан в виде
РИ, 2000, № 3
59
ItAAC = (ёT (t)ф(ґ + d))2 - p(t)(1 + yT (t + d) X x Рф (t + d - 1)9(t + d) = u (t)m0 (t) +
+ 2u(t)m0 (t)£ T (t)y(t) + (f T (t)y(t))2 -- ~(t)(1 + и 2(t)P* (t + d - 1) + 2u(t) X
X Рщ і (t + d ~ 1)^(t) + VT (t)P£ (t + d - 1)V(t):
откуда несложно получить
AAC
mi0(t■)}T (t)-~(t)~m f (t + d -1) u — ~(T) =-------г----—-------0----------W(t)
m0(t) -X(t)Pm0 (t + d -1)
(14)
~2
Видно, что при A,(t) = 1 + A,(t )a алгоритм (14)
° p
полностью совпадает с (2), обеспечивая при X(t) = 0
режим стохастической эквивалентности, а при ~ —2
X(t) = -a — оптимальный режим осторожности.
° p
Трудности с выбором значения X(t) заставляют
переформулировать задачу управления следующим образом: максимизировать на каждом шаге отношение det Рф (t + d -1)/det Рф (t + d) при текущих ограничениях на ошибку прогнозирования
p2(t + d) = (0T (t)9(t + d))2 < Y 2(t) и энергетику
2 2
управляющего сигнала и (t) < U (t).
Формируя лагранжиан
Lj — — 1 — ф (t + d)Рф (t + d — 1)ф^ + d) +
+ P((0 T (t )T(t + d ))2-Y 2(t)) +
+p(u 2(t) - U 2) = -1 - и 2(t)Pm0(t + d -1) -
- 2u(t)^T0£ (t + d - 1)y(t) - у T (t) x
xp (t + d - 1)y(t) + p(u 2 (t)Щ0 (t) +
+ 2u(t)«j0 (t)lT (t)y(t) + (IT (t)y(t))2 --Y 2(t)) + p(u 2(t) - U 2(t))
(здесь p , p — неотрицательные множители Лагранжа) и оптимизируя его с помощью процедуры Эрроу-Гурвица-Удзавы, получаем алгоритм управления
w(t),
p ^C (t) =
p(t )m0(t yT (t) - РЩ 01 (t+d -1)
P(t)m0 (t) - pm0 (t + d - 1) + ~(t)
P(t +1) =
P(t) + Гр (t + 1)((0T (t)9(t + d))2 - Y2 (t) p(t +1) =
p(t) + ГЦ(t + 1)((PAAC(t))2 -U2(t)
(15)
При p(t) = 0 и X(t) =
P(t)
алгоритм (15) совпадает
с алгоритмом (2), обеспечивая при p(t) = 0 режим
оценок, и при р ^ да — режим стохастической эквивалентности.
Основным отличием данной процедуры является введение дополнительного контура адаптации коэффициента p(t), обеспечивающего поддержание ограничений на управляющие воздействия во всех режимах работы регулятора. Следует отметить также, что алгоритмы (14) и (15) по сравнению с ранее рассматриваемыми процедурами используют больший объем информации (Рф (t + d -1) вместо Рф (t)), что позволяет надеяться на некоторое повышение качества управления.
Литература: 1. Бодянский Е.В., Колодяжный В.В., Котля-ревский С.В. Многомерный самонастраивающийся ПИД-регулятор / АСУ и приборы автоматики. 1999. Вып. 109. С. 126-132. 2.MilitoR., Padilla C.S., Cadorin D. An innovation approach to dual control //IEEE Trans. on Autom. Contr. 1982. 27. N1. P. 132-137. 3. WittenmarkB. Stochastic adaptive control methods: a survay // Int.J.Contr. 1975.21. N5. P.705-730. 4. Clarke D. W, Gawthrop P.J. Self-tuning cjntroller // Proc.IEE. 1975. 122. №9. P.929-934. 5. Chan S., Zarrrop M. A Suboptimal dual controller for stochastic systems with unknown parameters // Int.J.Contr. 1985. 41. N2. P.507-524. 6. Цыпкин Я.З. Основы информации теории идентификации. М.: Наука, 1984. 320с. 7. Yoodwin Y., Payne R. Dynamic system identification: Eseperement design and data analysis. N.Y.:Academic Press,1977.
Поступила в редколлегию 15.05.2000
Рецензент: д-р техн. наук, проф.Любчик Л. М.
Адонин Олег Валерьевич, инженер I категории ПНИЛ АСУ ХТУРЭ. Научные интересы: адаптивные системы управления. Адрес: Украина, 61124, Харьков, пр. Ленина, 14, тел. 40-98-90.
Бодянский Евгений Владимирович, д-р техн. наук, профессор кафедры искусственного интеллекта ХТУРЭ. Научные интересы: адаптивные системы, искусственные нейронные сети. Адрес: Украина, 611бб, Харьков, пр. Ленина, 14, тел. 40-98-90.
E-mail: [email protected]
Котляревский Сергей Владимирович, канд. техн. наук, доцент кафедры искусственного ителлекта ХТУРЭ. Научные интересы: адаптивные системы управления. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 40-93-37.
60
РИ, 2000, № 3