УДК 517.977
ОЦЕНКА ОБЛАСТИ УПРАВЛЯЕМОСТИ МЕТОДА «ПРЕДИКТОР-КОРРЕКТОР»
А. А. Пономарев
Рассматривается метод «предиктор-корректор» (Model predictive control, MPC) с квадратичным интегральным функционалом качества, квадратичным ограничением на конец траектории и штрафом в применении к управлению стационарной системой непрерывного времени с нелинейной правой частью и наблюдением полного вектора состояния при ограничении величины управления по норме. Предлагается способ численного построения оценки области состояний системы, для которых оптимизационная задача прогнозирования имеет решение.
1. Введение. В данной работе исследуется метод управления, известный как Model predictive control (MPC), далее называемый методом «предиктор-корректор». Он широко распространен в практике управления, примеры чему можно найти в [3; 5].
Своей популярностью этот метод обязан тому, что в отличие от ПИД-регулятора в процессе построения управления он напрямую учитывает ограничения на состояние и управление, действующие в течение некоторого времени в будущем. Это позволяет избежать ситуации, когда процесс неожиданно оказывается на границе допустимой области, тогда как динамика его такова, что нарушение ограничений уже неизбежно [7]. Кроме того, одним из достоинств метода является то, что характеристики управляющего устройства с помощью настройки ряда параметров могут быть подогнаны под условия эксплуатации. Например, можно изменять вычислительную сложность алгоритма или регулировать активность работы управления и, как следствие, скорость переходного процесса.
К исследованию устойчивости системы, замкнутой регулятором типа «предиктор-корректор», применяются различные подходы. Например, в линейном случае оказывается, что управление может быть линейно выражено через состояние объекта, что приводит к алгебраическому критерию устойчивости, основанному на расположении собственных чисел некоторой матрицы [2]. В нелинейном же случае часто прибегают к модификации управляющего алгоритма, известной как метод со штрафом и ограничением на конце траектории (terminal cost, terminal constraint set) [4; 6]. Мы будем ис-
следовать метод «предиктор-корректор» именно в такой формулировке. Известны условия, которые гарантируют существование в этом случае функции Ляпунова, удовлетворяющей требованиям теоремы об асимптотической устойчивости. Однако ограничения, накладываемые таким алгоритмом, сокращают множество управляемых положений в пространстве состояний системы. Оценка области управляемости составляет цель настоящей работы.
Дальнейшее изложение строится следующим образом. Во втором разделе вводится в рассмотрение управляемая система непрерывного времени с аналитической правой частью и регулятор «предиктор-корректор» со штрафом и ограничением на конец траектории. Третий раздел содержит лемму об условиях, достаточных для асимптотической устойчивости системы, замкнутой рассматриваемым регулятором. Эта лемма широко известна, и приводится она здесь с тем, чтобы в четвертом разделе поставить задачу о нахождении области управляемости и предложить некоторый численный способ построения оценки этой области. Пример работы численного метода приводится в пятом разделе. При любом начальном условии из построенного множества оптимизационная задача метода «предиктор-корректор» имеет допустимое решение, которое затем может быть улучшено, например, с помощью метода последовательных приближений В. И. Зубова, для которого известны условия сходимости [1].
2. Постановка задачи. Рассмотрим стационарную управляемую систему
X (О = Кх(0, и(0), (1)
© Пономарев А. А., 2012 ВЕСТНИК Мордовского университета | 2012 | № 2
где х е Кп, и е Ят, t > 0, с наблюдением полного вектора состояния х(0. Начальное условие для этой системы задается в момент времени Ь = 0. Будем считать, что при любом начальном условии х(0) и любом кусочно непрерывном управлении и(Ь) решение этой системы существует при всех ( > 0 и единственно.
Будем считать, что вектор-функция Кх,и) обладает свойством
£(0,0) = 0,
и при всех х, х0 и и таких, что
||х|| < И, ||х0|| < И, ни < 1, где Н > 0, справедливо представление Кх, и) = Кх°, 0) + Ахо (х - х0) + Вхои +
+ gxо(х - х0,и),
причем |^х0 (z, и) < Мд (|+ ||и||)2 , постоянная Мд не зависит от z, х0 и и, а элементы
матриц А 0 и В 0 непрерывно зависят от 0 х х
В качестве множества и допустимых управлений выберем заданные при ( > 0 кусочно непрерывные вектор-функции и(Ь), ограниченные условием
||и(0|| < 1 при всех Ь > 0. (2)
Введем функционал качества управления
/(х(-), и(-),<0) =
= У (I|х(*)||М + \\и(ЩN) ^ + ||х(Г)||р,
где М, Р и N — симметрические матрицы; М и Р неотрицательно определены; N положительно определена, и использовано обозначение |г|\2М = гТМг. Параметр Т называется
горизонтом прогноза.
Метод управления «предиктор-корректор» со штрафом и ограничением на конец траектории заключается в следующем алгоритме. В начальный момент времени Ь = 0 выбором управления и(Ь) на промежутке 0 < Ь < Т решается оптимизационная задача
/(х(-), и(-), 0) ^ тш, . и(-) е и,
IIх(Т)||С < 1,
где х(-) — соответствующее управлению u(-) движение системы (1), а матрица С положительно определена. Предположим, что решение данной задачи существует и единственно. Тогда оптимальное управление применяется на промежутке 0 < t < h, где число h е (0, T] — параметр метода, называемый шагом. В момент t = h при известном состоянии x(t) вновь решается задача минимизации функционала J, на этот раз на промежутке [h, h + T]:
/(x(-),u(->, h) ^ min, . u(-) e U,
||x(h + T)|£ < 1.
Полученное таким образом управление используется при h < t < 2h и процесс повторяется. В общем случае управление u(t) при kh < t < (k + 1)h определяется как решение оптимизационной задачи
/(x(-),u(-),kh) ^ min, . u(-) e U,
||x(kh + T)\£ < 1.
В связи с такой формулировкой метода встают, помимо прочих, два вопроса: во-первых, гарантирована ли устойчивость замкнутой системы, и во-вторых, разрешима ли оптимизационная задача, составляющая основу данного алгоритма? Эти вопросы обсуждаются далее.
3. Условие устойчивости. Будем говорить, что метод «предиктор-корректор» стабилизирует нулевое положение равновесия системы (1) в области D, если при любом начальном значении x (0) = x0 е D0 оптимизационная задача, порождающая управление, разрешима при всех значениях t > 0, и движение x (t), которое реализуется в системе (1) при замыкании ее этим управлением, обладает свойством
lim x(t) = 0.
Начнем с рассмотрения возможности стабилизации нулевого положения равновесия системы (1) по линейному приближению методом «предиктор-корректор» с бесконечным горизонтом прогноза, но без штрафа и ограничения на конец траектории, т. е. при T = да и P = C = 0. Линейное приближение системы (1) в окрестности нулевого положения равновесия, реализующегося при нулевом управлении, имеет вид
X (О = А^О + В0и(О. (3)
Пусть существует множество Д с Я", определяемое условием
1|х|| ^ Но,
где Но > 0 такое, что для любого начального вектора х(0) = х0 е Д однозначно определяется управление, оптимальное по отношению к задаче минимизации функционала / при Т = да и Р = С = 0 в силу системы (3) с ограничением (2). Движение исходной системы (1), замкнутой этим управлением, с начальным условием х(0) = х0 обозначим х(£, х0). Пусть также число к > 0 таково, что разность
||х(А,х0)||2 - ||х0||2 (4)
является отрицательно определенной функцией вектора х0 е Д. Тогда на множестве Д0 для управления системой (1) может быть применен регулятор «предиктор-корректор» при Т = да и Р = С = 0 с шагом к и линейной прогнозирующей моделью (3).
Множество Д0, вообще говоря, не покрывает того множества начальных векторов х0, при которых должна на практике решаться задача стабилизации системы (1). Кроме того, даже на множестве Д0 качество стабилизации нелинейной системы методом «предиктор-корректор» с линейной моделью может значительно снижаться по сравнению с линейной системой. Следовательно, вдали от начала координат необходимо учитывать нелинейный характер исходного объекта управления, однако исследование замкнутой системы на устойчивость в аналитическом виде, так, как это возможно для линейных систем, при наличии нелинейности усложняется. В этом заключается основная причина, по которой применяют метод «предиктор-корректор» с ограничением на конец траектории и штрафом: для него устойчивость гарантируется наличием функций Ляпунова, убывающих вдоль решений замкнутой системы. Действительно, известна следующая лемма.
Лемма [6]. Пусть для любого начального вектора х(0) = х0 е Д существует управление й(£, х ), минимизирующее функционал / при Т = да и Р = С = 0 для системы линейного приближения (3), а соответствующее движение х (£, х0) исходной системы (1) обладает свойством
f U|x(t, x0)|I2 + llu(t, x0)|I2 1 dt <
0 U1 IIm 11 j
< ||x0||2 - llx(h,x0)|I2 .
II Hp II lip
Тогда если на каждом шаге задача оптимизации метода «предиктор-корректор» со штрафом, определяемым матрицей Р, и ограничением на конец траектории
x(T) е D0
разрешима, то замкнутая им система (1) асимптотически устойчива.
Доказательство этого утверждения основано на использовании оптимального значения функционала J в качестве функции Ляпунова; неравенство из условия леммы обеспечивает убывание указанной функции вдоль движений замкнутой системы.
Таким образом, при надлежащем выборе матриц Р и С асимптотическая устойчивость нулевого положения равновесия замкнутой системы гарантируется существованием оптимального управления на каждом шаге.
4. Построение области управляемости. Рассмотрим множество точек
xj s Rn, pj| < H, j e {1, 2, ..., p}
и прямоугольных множеств Dj с центрами в этих точках:
Dj = {x s Rn : xs - xj < a
при всех s s {1, 2, ..., n}} .
Предположим, что
Dj с {x е Rn : \\x\\ < H}
при всех j e {1, 2, ..., p}.
Выберем произвольное j e {1, 2, к, p} и положительное число A < T. Поставим вопрос о нахождении возможно более узкого множества Gj0 с Rn, в которое система (1) гарантированно может быть переведена за время Д из любого начального состояния x(0) = x0 е Dj0 при выполнении условия (2).
Рассмотрим движение X(t) системы (1) с начальным условием x(0) = xj0 и нулевым управлением. Для отклонения X(t) = x(t) - x(t) имеет место уравнение
x(t) = Aj(i)x (t) + Bx(t)u(t) + gx(t)(x (t), u(t)) (5)
и начальное условие x(0) = x0 - xj0. Линеаризуя уравнение, получаем
У со = АадуСО + В^О. (6)
Предположим, что существует постоянная (п х т)-матрица К такая, что в каждый фиксированный момент времени £ е [0, А] собственные числа матрицы системы (6), замкнутой управлением и(£) = Ку(£), имеют отрицательные вещественные части. Пусть, более того, существуют постоянные положительно определенные (п х т)-матрицы V и
при каждом £ е [0, А], удовлетворяющие неравенству
(Аш + Вх(£)К )т V + V (Аш + Вх(£)К) <
которое понимается в том смысле, что квадратичная форма с матрицей из левой части неравенства равномерно по £ оценивается сверху отрицательно определенной квадратичной формой ®(у) = -1|у|.
Будем использовать указанное управление в системе (5): и(£) = Кх(£). С учетом ограничения на величину нормы это управление является допустимым в достаточно малой окрестности точки х (£) = 0. Достаточно положить
1
||х(£)|| < щ при всех £ е [0, А]. (7)
Вычислим производную квадратичной формы ||х|| 2 вдоль движения х(£) = 0 при управлении и(£) = Кх (£):
|| 1Х(£)V <-1^^ +
+ 2ХТ(£)^8х(£)(ХЕ(£), КХ(£)).
Пользуясь оценкой нелинейности и обычными оценками для квадратичных форм, получаем неравенство
|Х(£)||V * ) +
+ 21тах(У)М^(1 + ||К||)2 ||Х(£)||)||Х(£)||2 .
Величина в правой части — отрицательно определенная при всех £ функция, если выполнено, например, условие
||Х(£)|| < —
11 11 41
при всех £ е [0, А]
)
тах (У)Мд( 1 + | |К| |)2
Тогда верно, что
— 1-х(£)1 I2 < ^тш й£ ||Х(£)^ < 2
)||Х(£)||2 ,
(9)
т. е. квадратичная форма ||х||у убывает вдоль движения Х(£) = 0, и скорость убывания равномерно отделена от нуля при всех £ е [0, А].
Из неравенства
||х(£)||2
следует, что для выполнения условия (7) достаточно условия
IIх (0)1 V
1т1д(^)
1
у ' К
которое можно было бы обеспечить, наложив ограничение
1т1п (V)
х(0) 2 < -
1тах (V)! |К||-
(10)
Аналогично неравенство (8) следует из неравенства
||Х(0)||2 <- 1т^)1т1п(^)
тт^^^О + ||К| I)4
(11)
Что касается величины а (размера множества -Оу0), то, имея в виду требования (10)
и (11) и оценку ||Х(0)|| < ид2, получаем достаточное для оценки (9) условие
а <
1щщ (V)
п1тях(^)
1
К
1т1п (№ )
1тах(V) 4Мд(1 + ||К||)2^
(12)
Замечание 1. Часто встречается ситуация, когда нелинейность в системе (5) не зависит от управления:
Х (£) = АХ(£)Х (£) + БХ(£) и(£) + gx(£)(Х (£)),
поэтому вместо условия (12) имеет смысл использовать условие
а <
1 т1п (V) п1тах(^
1 1 т1л(^) 1
К
1тах (V) 4МП
(8)
очевидно, менее ограничительное, чем (12). Получим далее оценку величины X(А) ,
к которой приводит свойство (9). Прежде всего, из (9) следует
dti|x(t)2 * -|xщ2,
||X(A)|V < ||x(0)V exp
а отсюда вытекает
llx(A) < a 'n1 max
x (V)
Imin (V)
exp
l min (W )A 21min (V)
l min (W )A ^ 41 min (V) )'
< a
max (V) lmin (V)
exp
l min (W )D J 41 min (V) J
n1max (V)
IKII
'lmin (W)
x(V) 4Mg(1 + IKI|)2
u1, u2,
us < 1
при всех s e {1, 2, ..., q}}.
откуда с помощью леммы Беллмана выводим
Итак, справедлива теорема. Теорема 1. Если величина а удовлетворяет (12), то достаточно положить
G: = к е Яп : ||х - Х(Д)|| <
Найдем множества С^, С2, ..., тем же способом, которым в теореме было найдено множество Су0, но строя траекторию х(0 как движение системы (1) под управлением соответственно и(£) = и, и(£) = и , к, и(£) = и*. Тогда согласно замечанию 2 всякая точка множества Оуо может быть переведена допустимым управлением в любое из множеств С1, С2, ..., Сд. Эту процедуру можно проделать для каждого из множеств ^2, ..., О^. Полученную информацию, небесполезную для оценки области управляемости, удобно интерпретировать графически.
Построим ориентированный граф Г, вершины которого ^1, ^2, ..., соответствуют точкам х1, х2, ..., хп, а дуга из вершины у в вершину у существует тогда и только тогда, когда хотя бы одно из множеств С1, С2, ... , Сд, отвечающих Оуо, целиком содержится в Оу (рис. 1). Если в этом графе вершина ъу^ достижима из Ъуо, т. е. существует маршрут
V ; ^ V; j0 ji
■ ^ Vv
Тогда все точки множества Dy0 можно перевести за время A в силу системы (1) при ограничении (2) во множество Gyo.
Замечание 2. Изложенное построение проводится в окрестности движения X(t), отвечающего нулевому управлению. Аналогичным образом в качестве опорной траектории можно выбирать движение системы (1), замкнутой иным значением и. Например, пусть x(t) — движение (1) при u(t) = u = const, где ||u|| < 1. Допустимыми в системе отклонений (5) будем считать управления, норма которых в каждый момент времени не превосходит 1 - ||и|| • Так же, как и выше, построим матрицы K, V и W. Тогда если
то это означает, что любая точка множества Оуо может быть переведена в силу системы (1) при ограничении (2) за время 1А внутрь множества .
тг : 1 2 п
Ьудем считать, что точки х1, х2, ..., хп пронумерованы таким образом, что
х] е О0 при всех у е {1, 2, ..., ро).
то утверждение теоремы 1 остается справедливым, однако множество Суо имеет центром новую точку х(А).
Предположим, что был выбран ряд допустимых значений управления и:
Рис. 1. Построение графа достижимости
Теорема 2. Если для каждой из вершин юj\' ъ/2' к> ъграфа Г существует маршрут заданной длины N хотя бы в одну из вер, ъпо, то для любого начального
шин Vi, v условия
x(0) = x0 e G = U Dk
K=1 K
разрешима задача перевода системы (1) из
положения х0 во множество D0 за время ND при ограничении (2).
Итак, найдено множество G, такое, что при любом x(0) е G в оптимизационной задаче метода «предиктор-корректор» с горизонтом прогноза, кратным Л, и ограничением на конец траектории x(T) е D0 существует допустимое решение. Метод «предиктор-корректор» со штрафом и ограничением на конец траектории заведомо может применяться для начальных условий из области G.
Допустимое управление в оптимизационной задаче определяется очевидным образом на каждом промежутке длины Л как сумма постоянного управления, с которым строится соответствующее текущей дуге графа опорное движение x(t), и линейного управления Kx(t). Используя это управление как начальное приближение, можно использовать методы нелинейной оптимизации. Например, метод последовательных приближений В. И. Зубова [1], гарантирующий оптимальность при известных условиях.
5. Пример. Рассмотрим двумерную систему со скалярным управлением
lx 1(t) = x2 (t),
[X2 (t) = sin x1(t) + u.
линейного приближения имеют
Матрицы вид:
0
1
K = (-2 -2), V =
3 1 1 1
W = (4 - 2J2)E.
но траектория может выйти за пределы области, покрытой квадратами В/. Поэтому выбор Л осуществляется опытным путем. Положив Л = 4, получим
х е Яп : х - Х(Л)|| < 0.0231}.
в. =
]о
Наконец, составим сетку 100 х 100 из квадратов В/ размером 2а с центрами в точках
xj = 2a
где =-50, -49, к, 50, и проведем построение графа достижимости Г, выбирая при вычислении опорной траектории х(£) 50 равноотстоящих значений и из отрезка [-0.5, 0.5], как указано в замечании 2.
Результат показан на рис. 2. Область, закрашенная отличным от белого цветом, обладает тем свойством, что из любой ее точки за время, не большее 8Л, можно попасть в квадрат с центром в начале координат. Чем светлее цвет, тем больше минимальное время (кратное Л) попадания в этот квадрат (тем длиннее минимальный маршрут в построенном графе).
Ax =| 0 I, B =и
. cos x1 0 ) [ 1
а константа оценки нелинейности Мд = ^ .
Для выполнения указанных выше условий достаточно выбрать
В соответствии с замечанием 2, если при-1
нять | и |< ^ , то можно положить, например,
а = 0.05. Множество в/0 при всех /0 в данном случае имеет вид:
О;о = |х е Я : ||х - Х(Л)|| < аЩ^е|.
Если Л невелико, то круг в/0 будет соизмерим с исходным множеством В/0 или даже больше его и, вероятно, не попадет целиком ни в один из квадратов В/. Если же выбрать большое Л, то этот круг стягивается в точку,
Рис. 2. Оценка области управляемости метода «предиктор-корректор» с ограничением
В силу выбора Л круг в у размером всегда меньше, чем квадрат Ву, поэтому для вершины, соответствующей квадрату, который находится в начале координат, всегда есть дуга, ведущая из этой вершины в нее саму. Следовательно, если есть маршрут из неко-
торой вершины в центр, то есть маршрут и любой большей длины, который получается добавлением к данному пути указанной только что петли. Таким образом, полученное множество G с ростом допустимой длины маршрута не сокращается. Однако вычисления показывают, что с увеличением этой допустимой длины картина, изображенная на рис. 2, принципиально не меняется.
6. Заключение. Исследование области управляемости регулятора «предиктор-корректор» с ограничением на конец траектории является актуальной задачей, поскольку данный регулятор — один из наиболее широко применяемых методов управления с
прогнозом. Предложенный выше способ построения оценки области управляемости позволяет не только указать начальные значения, для которых заведомо существует допустимое решение оптимизационной задачи, но и построить это решение, которое можно использовать как начальное приближение к оптимальному управлению. При дальнейших исследованиях представляет интерес изучение зависимости величины области управляемости или ее оценки от накладываемых в оптимизационной задаче ограничений. Понимание этой зависимости позволит целенаправленно улучшать свойства регулятора настройкой его параметров.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Зубов В. И. Лекции по теории управления / В. И. Зубов. М. : Наука, 1975. 496 с.
2. Пономарев А. А. О выборе параметров метода «предиктор-корректор» / А. А. Пономарев // Вестн. Мордов. ун-та. Сер. Физ.-мат. науки [Саранск]. 2010. № 4. С. 124 132.
3. Camacho C. F. Model predictive control / C. F. Camacho, C. Bordons. L. : Springer-Verlag, 1999. 280 p.
4. Kwon W. H. Receding horizon control : model predictive control for state models / W. H. Kwon, S. Han. L. : Springer-Verlag, 2005. 380 p.
5. Maciejowski J. M. Predictive control with constraints / J. M. Maciejowski. Harlow : Prentice Hall, 2002. 331 p.
6. Mayne D. Q. Constrained model predictive control : Stability and optimality / D. Q. Mayne, J. B. Rawlings, C. V. Rao, P. O. M. Scokaert // Automatica. 2000. Vol. 36, № 6. P. 789 814.
7. Rossiter J. A. Model-based predictive control : a practical approach / J. A. Rossiter. CRC Press, 2003. 318 p.
Поступила 16.01.2012.
УДК 517.956
СТАБИЛИЗАЦИЯ МНОГОСВЯЗНОЙ НЕПРЕРЫВНО-ДИСКРЕТНОЙ НЕАВТОНОМНОЙ СИСТЕМЫ
Е. А. Лизина, Е. В. Щенникова
В статье рассматриваются многосвязные управляемые непрерывно-дискретные неавтономные системы с неперекрывающимися декомпозициями, для которых найдены кусочно-постоянные управляющие воздействия, стабилизирующие положения равновесия указанных систем.
Многие современные производственные, экономические, информационные, социальные и др. системы имеют сложную иерар-
хическую структуру и поэтому моделируются в виде многосвязных динамических систем. Для более удобного исследования их
© Лизина Е. А., Щенникова Е. В., 2012