УДК 62-50
О РЕШЕНИИ ПРОБЛЕМЫ СИНТЕЗА СТОХАСТИЧЕСКОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПОДВИЖНЫМ ОБЪЕКТОМ С АПРИОРНО НЕОПРЕДЕЛЕННОЙ СТРУКТУРОЙ
© 2005 г В. А. Погорелое, М. Р. Ганеев
A method allowing to carry out the exact synthesis of the control laws, optimal in the sense of nonlinear probabilistic criteria, for the nonlinear stochastic object with the uncertain structure of the state vector has been considered. The advantages of the method suggested in comparison with the control method, not supposing the exact identification of the state vector structure in the process of the object motion have been shown. An example for the practical application of the method proposed has been given.
Введение. Существующие методы синтеза стохастического управления [1-5] не позволяют синтезировать управление подвижным объектом с неопределенной структурой его вектора состояния. В связи с этим возникает проблема разработки такого подхода к синтезу управления стохастическим объектом, который позволял бы построить оптимальный закон управления при отсутствии точной информации о структуре вектора состояния.
1. Постановка задачи. Пусть стохастический объект описывается нелинейным векторным дифференциальным уравнением размерности N в симметри-зованной форме
X = ^ (X, 1) + /.(X, г)б + /2(X, 1)П + (X, t)Vt, (1) где X - ^мерный вектор состояния системы; / (I = 0 ^ 3) - известные нелинейные векторная и матричные функции размерности N NxM, N х и ^Ь, удовлетворяющие условию Липшица V X, г; Q(X ,г) - М -мерная неизвестная вектор-функция, определяемая физическими свойствами объекта и подлежащая идентификации по показаниям измерителя, М<N ; и(X,г) - 5 -мерный вектор управления, 5<N; V - Ь-мерный вектор нормированного белого гауссовского шума размерности N1 с нулевым средним и матрицей интенсивностей Бу (г).
Наблюдение структурно неопределенного управляемого вектора Х осуществляется с помощью измерителя, описываемого в общем случае нелинейным стохастическим уравнением вида I =H(X,г)+Wt, где I - К -мерный вектор выходных сигналов измерителя, К<N; Н^г) - известная нелинейная вектор-функция наблюдения размерности К , удовлетворяющая условию Липшица V X, г; Wt - белый гаус-совский вектор-шум измерения размерности К с нулевым средним и матрицей интенсивностей г).
Апостериорная плотность вероятности (АПВ) р^, г / 2 (г),те[0, г)) = рг такого процесса, удовлетворяющего приведенным выше условиям, описывается известным интегродифференциальным уравнением с частными производными (уравнением Стратоновича):
дР = L {q, b, pz} - div {((< P( X, t)) p } +
+[R - R ]p = S [p ]-div{(( < P)p}, (2) где
L{q,b,pz }=-div{q(X,t)pz)}+ -2-div[{b(X,t)pz)}];
q( X, t) = fo( x, t) +
2 df X, t) Dv [ (X, t
)
(v).
b(X,t)=f (X,t)Dvf3 (X,t) ; R = R(X, t) = -2 [Z - H(X, t)] DWl [Z - H(X, t)];
Ro = JR(X,t)pzdX ;
-w
(v) - операция преобразования матрицы в вектор
А = «ц «21 ■■■ «ml «12 «22
Om2
On On
«mn
- символ дивергенции; &у - символ операции дивергенции строки матрицы.
Поставленную задачу совместной идентификации вектора состояния и формирования управления стохастической динамической системой при наличии текущих наблюдений за ее вектором состояния будем рассматривать далее как задачу синтеза вектора управления и и вектор-функции Q в реальном масштабе времени. Иными словами, задачу поиска искомого управления и и вектор-функции Q сформулируем далее как задачу синтеза таких векторов и и Q , которые доставляли бы минимум неупреждающему координатному функционалу З, характеризующему текущее качество функционирования стохастической системы (1) в момент времени г и зависящему в общем случае нелинейно от плотности р г:
з=-|Ф[р z(X,Q,и,г/Z(г)]dx, (3)
X
где Ф - известная нелинейная скалярная функция.
В большинстве практических случаев функция Ф представляется в виде двух независимых составляющих Ф[р z(X,г/Z(г/)]=ф1 [р г ]+Ф 2 . Учитывая тот факт, что исчерпывающей характеристикой случайного процесса является его АПВ, в качестве критерия Ф1 целесообразно выбрать критерий, выраженный через АПВ. Такими критериями могут быть информационные - Фишера, Шеннона и Кульбака, позволяющие получить потенциально более точные оценки вектора состояния X вследствие оптимизации всего процесса Xt, а не его локальной характеристики - дисперсии, как в традиционном среднеквадратическом критерии. Необходимо отметить, что при выборе критерия Ф1 важно обеспечить компромисс между требуемой точностью и объемом вычислительных затрат. Так, например, использование в качестве критерия Ф1 функционала Фишера обеспечивает большую по сравнению с критерием Шеннона точность, но требует дополнительных вычислительных затрат.
T
Отсутствие информации о структуре вектор-функции Q увеличивает энтропию состояния системы. Поэтому процесс идентификации вектор-функции Q должен прежде всего осуществляться с целью минимизации неопределенности вектора состояния системы (1) и при этом требовать (в соответствии с принципом Ферма) минимума энергетических затрат, т.е. минимума квадратичной формы QтQ .
В ряде прикладных задач, например, навигации подвижных объектов, обработки и передачи информации, распознавания образов возникает необходимость максимизации информации о векторе состояния объекта или минимизации его энтропии. Решение этой задачи наряду с идентификацией структуры вектора состояния может быть осуществлено за счет синтеза управления максимизирующего АПВ р г. Учитывая принцип Ферма, управление и необходимо осуществлять, как и идентификацию Q, с минимальными энергетическими затратами, минимум которых можно обеспечить, минимизировав квадратичную форму ити .
Резюмируя вышеизложенное, можно сделать вывод, что между векторами и и Q возникает смысловая и формальная общность, что позволяет объединить их
в блочный вектор Р=|Q: и|т , а в качестве функционала Ф2 рассматривать квадратичную форму Рт Р.
С учетом введенного вектора Р критерий (3) принимает вид
t
з = |ф[рг(х, г,о,и(х,^(х,фх+ЦртРЛ . (4) х, t0 X
2. Решение задачи совместного управления и идентификации. Для решения поставленной задачи приведем систему уравнений (1) к виду
Х=/оХй+Е®Р+/3(Х1)У< (5)
и введем обобщенную функцию Т(X/)=Е®Р , где Е=| их;): /2 (х;)\, ® - знак блочного умножения матриц [6].
Для синтеза функции Т используем тот известный факт, что при неотрицательно определенной критериальной функции (в силу неизбежности положительной определенности информационных функционалов, а также «энергетической» составляющей критерия 3 (4)) для обеспечения ее минимального значения в каждый момент времени достаточно, чтобы производная ее по времени, взятая с обратным знаком, имела максимум [2]. Применение данного положения к критерию (4) приводит к условию:
х \дрг
max|
w
(-j) = maxj-J --pz +WT(E<§>E~T)-1W
dX\ =
=m«!- X
дФ
dPz
S[pz ]-Ü P
+w
p
dX
+ WT (E <§ E-)-1y)dX j.
Анализ полученного выражения показывает, что решение поставленной задачи сводится к классиче-
ской задаче нахождения вектор-функции Т, реализующей минимум определенного интеграла
(
J HlP^is [р ,
X
dp
dWpz +wdp^ l+WT (E®E T )~1 W
dX
dX
Л
dX.
При этом искомая вектор-функция Т должна удовлетворять системе уравнений Эйлера
d 2Ф dXdp z
p z + 2WT(E ®E =0,
откуда легко опре-
деляется вектор Топт = - 2 E ® E
d2 Ф
dXdpz
Pz.
Очевидно, что искомый вектор Р в этом случае может быть представлен как
Р =--ET
опт 2
d2 Ф
dXdpz
Pz
(6)
Выражение (6) позволяет получить как вектор оптимального управления системой (1)
U опт =- -2 f2(X, t)
d 2Ф
dXdpz
T
pz, так и наити априор-
но неизвестную вектор-функцию
Q = - -2 fi( X, t)
d2 Ф
dXdpz
Pz
Функция рг для выражения (5) определяется из решения нелинейного уравнения, полученного после подстановки Ропт в уравнение (2):
p = s [pz ]+-div\E <§> ET dt L zJ 4 '
d2 Ф dXdpz
Pz
(7)
С вычислительной точки зрения решение уравнения (7) оказывается не намного сложнее, чем решение исходного уравнения (2). Более того, сходство структур (2) и (7) определяет возможность использования в случае (7) методов, разработанных для решения уравнения (2).
3. Пример. Для иллюстрации эффективности использования предложенного подхода рассмотрим пример.
Объект управления описывается уравнением
х=-х3 + х2д +2хи , х(;0 )=0 , (8)
где д - априорно неизвестная функция; и - управление; - белый центрированный гауссовский шум интенсивности .
Уравнение наблюдателя имеет вид г ="3"х2 +wt, где
wt - белый центрированный гауссовский шум интенсивности .
Приведем выражение (8) к виду
х = -а х3 + е <§>и+, где е=|х2 2х|, а и = \д и|т.
Необходимо найти такой вектор и, который обеспечивал бы в текущий момент времени максимум информации о состоянии объекта, т. е. обеспечивал бы идентификацию функции д и синтез оптимального
T
T
T
T
T
+
управления и . Для простоты дальнейших рассуждений в качестве меры информации рассмотрим функционал Шеннона. Тогда в соответствии с вышеизложенным минимизируемый критерий принимает вид
ад г ад
з=-1 р2(х,г)Ырг(х,г|и2(х,г)dxdг.
—ад го —ад
АПР р2 в рассматриваемом случае описывается уравнением Стратоновича вида
др д , з ч 1 д2рг
dt дхк ' 4 2 дх2
+2-D— J 3z(х2 -J x2pzdx) + 41 J х4pzdx- х4
— (e < Upz )= S(pz) - —(Грг),
(9)
maxi
r
(1+lnp z -г( e - )-1
йх >=
= max
г
J([1 + ln pz ]S (pz )-(1 + lnpz )pz £
дх
(1 + lnpz Г-Г(е < e~T ) 1 r)
йх\ =
= max
г
i дГ
Jl B0 (pz , х) + B1 (Pz , х) — +
+ B2 (pz,х)r-r(e<§>e-)-1 r)
дх йх}.
Уравнение Эйлера, исходное для построения искомого управления и и определения функции д, име-
ет вид
дВ(Л-В2 (p z^+r^e- )-1Г=0 . дх
(11)
Г =1 e <§> eT I В2 -
дВ1 1 1 Л т
2 i - "дТ 1=2e < epz,
(12)
который в свою очередь позволяет синтезировать уравнение для вектора и . С учетом (10) выражение (12)принимает вид
U = i eT pz. 2
(13)
Из (13) получаем выражения для оптимального управления и = хр2 и искомой функции д = -^х2рг. После подстановки и в выражение (9) имеем
дpz д . 3 1 2 =т~(х pz-*pz —х pz)+
дt дх
2
1 д 2p z
2 дх2
(
2Dw
!3Z
Л
M
.4
91 ш
2 С 2 i 9 с 4 1
х - Jх pгах +— Jх pгах-х
| -ад ) 4 |-ад )
(14)
где функция
Г=е® и (10)
введена для упрощения дальнейших математических преобразований.
Формируя, согласно вышеприведенному, условие оптимальности, имеем:
{ад
I
—ад
Уравнение (11) позволяет найти искомый блочный вектор Г
Для иллюстрации эффективности применения предложенного подхода было осуществлено решение уравнения (14) методом прямоугольных сеток на интервале х е [- 30,30], г е [0,200] с с равным шагом для всего интервала Д х = 0,1, Д = 0,05 с при 0=1,5, Д=2. Значения 2(г) получены в результате численного моделирования уравнений объекта и наблюдателя на интервале г е [0,200] с методом Рунге-Кутты 4-го порядка с шагом Д г = 0,05 с. (Формирование управления и происходило при этом в масштабе времени поступления измерительной информации, т.е. для каждого временного шага моделирования г,).
В результате решения расчетное значения критерия 3 для найденной оптимальной функции управления и и идентифицируемой на основе разработанного метода функции д оказалось равным 3=4,5. А в случае использования эмпирически выбранной функции д (в тестовом примере функция д была выбрана рав-1 3
ной д =—х рг) оно оказалось равным 3=2,5.
Заключение. Данные проведенного моделирования позволяют сделать вывод о возможности эффективного использования предложенного метода для синтеза управления структурно неопределенными стохастическими объектами, адекватно описываемыми уравнением (7).
Литература
1. Афанасьев В.Н., Колмановский В.Б., Носов В.Р. Математическая теория конструирования систем управления. М., 1989.
2. Казаков И.Е. Статистическая теория систем управления в пространстве состояния. М., 1975.
3. Хуторцев В.В., Соколов С.В., Шевчук П.С. Современные принципы управления и фильтрации в стохастических системах. М., 2001.
4. Ганеев М.Р., Погорелов В.А., Соколов С.В. // Изв. РАН. Теория и системы управления. 1999. № 2. С. 123-131.
5. Соколов С.В., Погорелов В.А. // Проблемы управления и информатики. 2002. № 6. С. 62-69.
6. Чернов А.А., Ястребов В.Д. // Космические исследования. 1984. Т. 22. № 3. С. 537-542.
Ростовский военный институт ракетных войск имени маршала артиллерии М.И. Неделина
29 июня 2004 г
p
z
ад