О применении апостериорных моментов для решения задачи управления динамическим объектом с априорно неопределенной структурой вектора состояния

Погорелов В.А.; Ганеев М.Р.

УДК 621.37

О ПРИМЕНЕНИИ АПОСТЕРИОРНЫХ МОМЕНТОВ ДЛЯ РЕШЕНИЯ ЗАДАЧИ УПРАВЛЕНИЯ ДИНАМИЧЕСКИМ ОБЪЕКТОМ С АПРИОРНО НЕОПРЕДЕЛЕННОЙ СТРУКТУРОЙ ВЕКТОРА СОСТОЯНИЯ

A method allowing to perform the exact synthesis of the control laws for the nonlinear stochastic object with the uncertain structure of the state vector, optimal in the sense of the nonlinear probabilistic criteria has been considered. The advantages of the method suggested in comparison with the control method not offering the exact identification of the state vector in the process of the object motion have been shown.

Введение

Эффективность работы информационной системы (ИС) подвижного объекта (ПО) определяется степенью адекватности его модели вектора состояния (ВС) реальным условиям функционирования [1]. Очевидно, что синтезировать модель, абсолютно точно описывающую динамику объекта, в силу априорной неопределенности начальных условий и возмущающих факторов практически невозможно. В некоторой степени проблему решает использование в ИС робаст-ных алгоритмов, которые позволяют гарантировать определенный уровень точности управления динамической системой в условиях отсутствия точной априорной информации о параметрах ВС ПО [2,3]. Однако грубость робастных алгоритмов не позволяет обеспечить главного требования, предъявляемого к ИС -обеспечение максимальной информации о состоянии ПО в условиях действия внешних и внутренних возмущений различной физической природы.

В связи с этим более релевантным является использование в ИС современных методов стохастической фильтрации [4, 5]. Применение их позволяет получить оценки параметров ПО с требуемой точностью, обеспечивая при этом продолжительную автономность его функционирования [6]. На сегодняшний день существенным недостатком, ограничивающим область практического применения методов стохастической фильтрации, является окончательно нерешенная проблема их применения в случае отсутствия точной априорной информации о параметрах ВС. Вместе с тем в практических приложениях часто отсутствует точная информация о параметрах ВС ПО или они существенно меняются в процессе его функционирования. Вследствие этого алгоритмы фильтрации становятся неустойчивыми, возникает рост энтропии ВС ПО и необходимость использования дополнительной внешней информации. В определенной мере уменьшить погрешности оценивания, обусловленные дрейфом параметров, можно, использовав в ИС алгоритмы идентификации на основе теории оценивания (АИТО) [7]. Эти методы позволяют оценивать как ВС ПО, так и его параметры, без использования внешней информации. Несмотря на то, что АИТО обеспечивают устойчивость процедуры оценивания, их использование для многосвязанных объектов в общем случае невозможно [7].

Проблема оценивания параметров ПО и управления им еще больше усложняется в случае отсутствия информации о структуре ВС объекта или её априорно неизвестных трансформациях в процессе функционирования ПО. Данная ситуация встречается, например,

в аварийных режимах функционирования объекта, при создании уникальных объектов ракетно-космической техники, при перестройке структуры объекта под воздействием априорно неопределенных внешних возмущений и т.п. [6, 8, 9]. Использование в этих случаях рассмотренных выше подходов к оцениванию параметров движения ПО и управления им оказывается принципиально невозможным. Таким образом, возникает необходимость разработки методов управления объектом, структура которого априорно неизвестна.

Как показали исследования российских и зарубежных ученых, решение данной проблемы может быть осуществлено на основе существующего однозначного соответствия между теориями информации и оптимального управления [1, 5, 9-11]. Как отмечалось в [1], информационные процессы оказываются решающими для выявления того, что можно и чего нельзя достичь в управлении в условиях тех или иных объектов - систем. Таким образом, синтез современных систем управления предполагает наряду с традиционным анализом на управляемость и наблюдаемость проводить анализ информационных процессов на основе методов теории информации. Несмотря на ее интенсивное развитие, до настоящего времени оказываются практически неисследованными вопросы синтеза ИС на основе информационных критериев (Фишера, Шеннона, Кульбака и др. [5]), хотя оптимизация процессов управления по информационным критериям оказывается чрезвычайно актуальной и перспективной [10].

Постановка задачи

Пусть объект описывается нелинейным дифференциальным уравнением в симметризованной форме

7 = /1 (У, I)+/2 (У, Г) + /з (У, Г ) + /о (У, Г) , (1) где У -функция, описывающая динамику системы; / I = 0,3 - известные нелинейные функции, удовлетворяющие условию Липшица VY, t и дифференцируемые на интервале времени от (0;/) N раз; и (У, t) - искомое управление; <2(У, t) - неизвестная функция, определяемая физическими свойствами объекта и подлежащая идентификации по показаниям измерителя; Vt - нормированный белый гауссовский шум (БГШ) (использование БГШ в (1) не накладывает принципиальных ограничений на решение поставленной задачи, поскольку при необходимости путем расширения модели объекта оказывается возможным

получить из БГШ процесс с требуемым законом распределения), наблюдаемый с помощью нелинейного наблюдателя вида: = И(у,t)+ Wt, где - выходной сигнал наблюдателя; к(У, t) - известная нелинейная функция; Wt - гауссовский шум с нулевым средним и известной интенсивностью .

Апостериорная плотность вероятности (АПВ) р(У, t /1 (т),те [0, t)) = рг такого процесса, удовлетворяющего приведенным выше условиям, описывается интегродифференциальным уравнением с частными производными Стратоновича [12]:

р = ьк ь, р2 }-А / (, t )вР1 ]+

d

+ ^ [/3 (Y, t Upz ] + [ - ^0 ]pz

dY

(2)

где

L{q, b, Pz }=-^-[q(Y, t )pz ] + ^^, t )Pz]

dY ' " " J 2 dY2 1 d

q(Y, t) = f (Y,t) + -—f2 (Y,t), b(Y, t) = f2 (Y, t) , 2 oY

R = r(Y,t)= --2[Z -h(Y,t)]TDW}[Z -h(Y,t)],

ТО

R = I R(Y, t )pz (Y, t )dY .

—ТО

Поставленную задачу совместной идентификации априорно неизвестной функции Q и формирование управления стохастическим объектом при наличии текущих наблюдений за состоянием объекта будем рассматривать далее как задачу синтеза управления U и поиска функции Q в реальном масштабе времени. Иными словами, задачу синтеза искомого управления U и функции Q сформулируем далее как задачу синтеза таких U и Q , которые доставляли бы минимум функционалу J, характеризующему качество функционирования стохастического объекта (1) и зависящему в общем случае нелинейно от плотности pz :

J = -1| ф[ (,Q,U, t / Z (t)))dYdt, (3)

TY

где Ф - известная нелинейная скалярная функция; T - интервал времени функционирования системы.

В большинстве практических случаев функцию Ф можно представить в виде двух независимых составляющих ф[(Y,Q,U,t/Z(())] = Ф[pz) + Ф2[,Q). Учитывая тот факт, что исчерпывающей характеристикой случайного процесса является его АПВ, в качестве критерия целесообразно выбрать критерий, выраженный через АПВ. Такими могут быть информационные критерии Фишера, Шеннона и Кульбака, позволяющие получить потенциально более точные оценки ВС Y вследствие оптимизации всего процесса Yt, а не его локальной характеристики - дисперсии, как в традиционном среднеквадратическом критерии. Необходимо отметить, что при выборе критерия Ф1 важно обеспечить компромисс между требуемой точностью и объемом вычислительных затрат. Так, например, использование в качестве критерия Ф1 функционала Фишера обеспечивает большую по сравне-

нию с критерием Шеннона точность, но требует дополнительных вычислительных затрат [5].

Отсутствие информации о функции Q увеличивает энтропию состояния системы. Поэтому процесс её идентификации должен, прежде всего, осуществляться с целью минимизации неопределенности выражения (1), и при этом требовать (в соответствии с принципом Ферма) минимума энергетических затрат, т.е.

минимума квадратичной формы Q2.

Главная задача ИС ПО - максимизация информации об объекте управления или минимизация энтропии его состояния. Решение этой задачи, наряду с идентификацией структуры уравнения состояния, может быть осуществлено за счет синтеза управления максимизирующего АПВ р2 [4-8]. Учитывая принцип Ферма, управление и необходимо осуществлять, как и идентификацию Q, с минимальными энергетическими затратами, минимум которых можно обеспечить, минимизировав квадратичную форму и2 .

Резюмируя вышеизложенное, можно сделать вывод, что для управления объектом с априорно неопределенной структурой (1) необходимо минимизировать функционал (3) по Q и и .

Решение задачи совместного управления и идентификации

Анализ современных методов синтеза ИС показывает, что в большинстве практических случаев, входящие в выражение (1) нелинейные функции, в конечном итоге аппроксимируются различными функциональными рядами Тейлора, Фурье, сплайнами, интерполяционными многочленами Лагранжа и т.д. [5, 8, 9]. Учитывая это, представим правую часть выражения (1) в следующем виде: • N /ч ■ М ■

У = X Д (() + Х Д ((+

i=0

N

+ e д. (( U'Y' + i=0

Ni E Д (()

i=0

vt.

(4)

где N - степень ряда, определяемая требуемой точностью аппроксимации функций (в каждом конкретном случае она находится эмпирически и зависит от объекта исследования); , и■, Qi ( = 0 - 3) - коэффици-

енты разложения в соответствующий ряд. В векторной форме

7 = Y(Y) F + Q* + U* + FV ,

(5)

где T(Y ) =

F = | fo

1

Y Y2 ... Y T

N

I / * *

fN\; Q = F2Q; и = F3U;

f2o 0 0 f30 0 0

F2 = 0 Д 0 ; F3 = 0 A 0

0 0 f2 N 0 0 f3N

Q = Qo ... Qn\t ; и = |Uo F0 =|f0o ... f0n I .

U

N

T

Необходимо заметить, что область сходимости ряда (4) зависит от выбора способа аппроксимации и вида синтезируемых далее функций Щ , и определяется стандартными методами исследования функциональных рядов [3]. Поэтому в каждом конкретном случае необходимо отдельно анализировать сходимость ряда (4).

Так как в общем случае не существует аналитического решения уравнения (2), то для возможности дальнейшего поиска функции Q и синтеза оптимального управления П будем использовать параметрическую аппроксимацию рг. Для этого сформируем систему дифференциальных уравнений вектора параметров, определяющих искомую плотность распределения. При этом будем считать, что из анализа процессов, протекающих в объекте управления, класс аппроксимирующей плотности известен. Из всех широко используемых в системах автоматического управления видов распределений (логарифмическое

нормальное распределение, распределение Пирсона, нормальное распределение и т.д.) наиболее широкое применение получило нормальное распределение. Учитывая, что оно является частным случаем распределения Пирсона, дальнейшее решение поставленной задачи будем осуществлять в предположении аппроксимации ръ распределением Пирсона [14]

дрг _ у + ад

-Pz (Y)

(6)

m,

Dn ' f, + 2 fokfo( 2 k=0 v

-k+1

) +1 - k)

+Мл -1

2 i=0

k=0 f0kf0(i-k)

m,+j-2 +

Jm,+j-1 + (7)

N

,mj

-1 +2 U,mj-i; i=0

mn+1 = ■

mn (b1 (n +1) + a0) + b0 nmn-1

b2(n + 2) +1

= [[Q (m1, m2, m3, m4) + mn ^C2 (m1, m2, m^, m4)] > XC4(m1, m2, m3, m4), где

C1 (m1, m2, m3, m4) = m3m4 - 4m3 m1 - 3m1m2m4 +

2 4 3 2 3 3 2

+ 12m1 m2m3 - 8m3m1 + 2m4m1 + 3m3m^ - 9m1m2 + 6m1 m2 ;

2 2 4

C2 (m1, m2, m3, m4) = 4m2 m4 - 8m1 m2m4 + 4m1 m4 -

23

- 16m1m2 m3 + 32m3m2m1 -

- 16m3mfm + 24mfm3 - 60m14m| + 48m6m2 - 12m]8;

C3(m1, m2, m3, m4) = 2(m2m4 - m^m4) -

3 2 2 2 3

- 6m2 - 3m3 + 10m1m2m3 + 3m1 m2 - 4m3m1 ;

C4 (n, m1, m2, m3, m4) =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

=n

(m2m4 - m1 m4)(10 - (n + 2)2) +

дУ Ь2У 2 + й17 + Ь0 где а0, й0, ¿1,^2 - параметры распределения, однозначно определяемые первыми четырьмя центральными моментами , ] _ 1 - 4 .

Для определения апостериорных моментов mj

подставим выражение (4) в (2) и, учитывая равенство (5), получим дифференциальное уравнение з -го момента АПВ в следующем виде:

N '

_ X

1_0_

+ т3 (6(п + 2) -18) + т|(3(п + 2) -12) --тт2тз (10(п + 2) - 32) +

+ т2т| (6 - (п + 2)3) + т3т3 (4(п + 2) - 8)]"1;

2 3 2

А _ 10(т2т4 -т1 т4) - 18т2 - 12т3 +

2 2 3 + 32тт2т3 + 6т! т2 - 8т1 т3 .

Для удобства дальнейших преобразований представим выражение (7) в векторном виде

М _ 0(м,¥,¥0)+ £(м,¥2,¥3)® Р , (8)

где М _ |т1 ... т/|Т ; 0(м,¥,¥)) - известная нелинейная вектор-функция, компоненты которой определяются выражением (7); N (м)- матрица размерно-

сти l x (n +1); P =

Q

и

N ( \ N ..

+ х илт1+з- т1т]) + х а i _1 1 _0

где з _ 1,2,...; т0 _ 1.

Анализ выражения (7) показывает, что полученная система апостериорных моментов не замкнута. Однако высказанное ранее предположение о принадлежности р2 к классу распределений Пирсона (6) позволяет преобразовать бесконечную систему в замкнутую систему уравнений с помощью рекурсии, связывающей первые четыре момента распределения с высшими моментами распределения [5]

Для синтеза блочного вектора Р* воспользуемся принципом максимума Понтрягина, для чего запишем соответствующий гамильтониан в виде:

н (м, р, г) _ - \Ф[р2 (у , м, г )]у +

У

+ РТ ® К ® Р + АТ [в(м, ¥, ¥0) + Б(М) р] , где Я - вектор сопряженных переменных;

Т

К _ \kQ : кщ , kQ^, Кп - известные матрицы, выбираемые на основе из конструктивных характеристик приборов и элементов тракта управления.

Блочный вектор Р определяется из условия стационарности гамильтониана

ЩмЩ +дР ¥, ¥0 ) + 5(м)® Р]Т Я(()_ 0, а следовательно,

ЗЬ(У, M, t)

+—, F, F)) + S(У ) ] 1(() = 0 : dQ*

[g(M,F,F0) + S(M]l(() = 0 ;

Q*TkQ + Q*%

откуда S 1 +

U*kU + U* ku

ST1 +

= 0.

T

Полученные уравнения позволяют найти промежуточную функцию Q* и вектор и *

Q* — — kQ S X, U* — — кц S X .

(9)

Найденные представления промежуточных функций Q* и и* позволяют найти априорно неизвестную функцию Q и синтезировать оптимальное управление иопт объектом (1).

Подставив выражение (5) в уравнения (9), получим

Q = -1

и,

орт

— - - F3r1kU1STX . 2 3

(10)

где P — Q i

ио

и сопряженным к нему

х(()—-

dM

|ф[р2 (Y, M, t)]

T

dG(M,F, F0) + S (M)® dM v '

P

X,

(11)

при краевых условиях М (^) = М0, Х(к) = 0.

Решение сопряженной системы (10), (11) в бортовых цифровых вычислительных машинах с современным быстродействием оказывается трудно реализуемой задачей. Поэтому с целью возможности формирования управления в реальном масштабе времени используем далее методику синтеза приближенного решения ДТКЗ на основе метода инвариантного погружения [15], позволяющего сформировать приближенное значение ВС М как систему уравнений, имеющую в данном случае вид

M — g(,F,F0)-D -Л^|ф[р2M,м,t)]

dM •

(12)

D — 2

dG(M_F, Fo) ] D + D rdGM~,F, Fo)

dM

SF^kQS + SF3-1kU-1ST

- 2D

dM

\ф[рг (Y , M, t )]]

D

где Б играет роль весовой матрицы при отклонении оптимального вектора от его аппроксимации. Значение матрицы ) определяется экспериментальным путем, исходя из требуемой скорости сходимости решения при обеспечении устойчивости системы нелинейных дифференциальных уравнений [16].

Важно отметить, что после проведения в соответствии с методом инвариантного погружения преобразований в системе (12) отсутствует в явной форме искомый вектор управления, что требует, в свою очередь, дальнейших построений для его определения.

Для формирования приближенного вектора и, приравняем правые части систем уравнений (8) и (10), а также пренебрежем в (10) членом, содержащим X .

В результате получим явное выражение вектора и

и — S ~XD

г)

— |ф[р2 (Y, M, t)]

dM у

Заключение

Окончательное решение поставленной проблемы сводится в дальнейшем к решению двухточечной краевой задачи (ДТКЗ), система канонических уравнений которой определяется уравнением

М = в(м,^,)-£(М) Р,

Использование существующих подходов к синтезу управления объектом с априорно неопределенной структурой ВС предполагает решение исследуемой проблемы в два этапа [5, 17, 18]. На первом этапе дается идентификация в соответствии с выбранным критерием априорно неизвестной функции Q. При этом делается упрощающее допущение, что неизвестное управление и относится к правой части системы и от Q не зависит. На втором этапе осуществляется синтез и с учетом найденной функции Q . Основной проблемой реализации данного подхода является приведение полученной после первого этапа системы векторно-матричных уравнений к каноническому виду [5]. Решение этой задачи, как правило, связано с необходимостью проведения сложных операций с блочными матрицами и введением дополнительных упрощающих допущений.

В предложенном подходе задача управления осуществляется в один этап, что позволяет избежать сложных математических преобразований при синтезе иопт и сократить в 1,5-2 раза требования к быстродействию бортового вычислителя. Кроме того, в отличие от [17] он не требует решения ДТКЗ для системы дифференциальных уравнений в частных производных.

Однако недостатком предложенного подхода, по сравнению с [17], является использование одного критерия как для поиска априорно неизвестной функции Q , так и синтеза оптимального управления. Оптимизация процессов управления и идентификация по одному критерию могут оказаться нецелесообразными при синтезе управления движением отдельных объектов. Однако при синтезе ИС, например, систем навигации летательных аппаратов [9], в которых задачи управления и идентификации решаются с одной целью - уменьшить энтропию ВС, предложенный в статье подход является релевантным.

В заключение отметим, что выбор между разработанным подходом и существующими методами должен, в конечном счете, определяться компромиссом между требуемой точностью, возможностями бортового вычислителя и экономическими факторами.

Литература

1. Петров Б.Н. и др. Теория моделей в процессах управления. М., 1978.

T

д

T

д

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Никифоров В. О. Адаптивное и робастное управление с компенсацией возмущений. СПб., 2003.

3. Небылов А.В. Гарантирование точности управления. М., 1998.

4. Тертычный-Даури В.Ю. Стохастическая механика. М., 2001.

5. Хуторцев В.В., Соколов С.В., Шевчук П.С. Современные принципы управления и фильтрации в стохастических системах. М., 2001.

6. Соколов С. В., Половинчук Н. Я. Теоретические основы синтеза автономных помехоустойчивых бесплатформенных навигационных систем. М., 1998.

7. Справочник по теории автоматического управления /Под ред. А. Красовского. М., 1987.

8. Бурлай И. В. // Изв. РАН. Теория и системы управления. 2001. № 1. С. 34-43.

9. Погорелов В.А. // Изв. РАН. Теория и системы управления. 2003. № 2. С. 152-160.

10. Saridis G.N. // IEEE Trans. Autom. Control. 1988. Vol. AC-38-8. P. 59-71.

11. Saridis G.N. Control performance as an entropy //Control: Theory Adv. Technology. 1985. Vol. 1. № 2. P. 23-34.

12. Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления. М., 1966.

13. Власов Е.А. Ряды / Под ред. В.С. Зарубина, А.П. Кри-щенко. М., 2002.

14. КоролюкВ.С. и др. Справочник по теории вероятностей и математической статистике. М., 1985.

15. Первачев С.В., Перов А.И. Адаптивная фильтрация сообщений. М., 1991.

16. Гроп Д. Методы идентификации систем. М., 1979.

17. Соколов С.В., Погорелов В.А. // Автоматика и вычислительная техника. 2002. № 3. C. 3-11.

18. Соколов С.В., Щербань И.В. //Автоматика и вычислительная техника. 1998. № 4. C. 15-23.

Ростовский военный институт ракетных войск_28 ноября 2005 г.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Погорелов В. А., Ганеев М. Р.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Погорелов В. А., Ганеев М. Р.