Научная статья на тему 'Аппроксимация обратной связи в регуляторе «Предиктор-корректор» явной функцией'

Аппроксимация обратной связи в регуляторе «Предиктор-корректор» явной функцией Текст научной статьи по специальности «Математика»

CC BY
165
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЕНИЕ С ПРОГНОЗОМ / ПРИБЛИЖЕННАЯ ОПТИМИЗАЦИЯ / ЦИФРОВЫЕ СИСТЕМЫ УПРАВЛЕНИЯ / OPTIMAL CONTROL / SUBOPTIMAL CONTROL / OPTIMAL COST VALUE CONTINUITY / NUMERICAL OPTIMIZATION / APPROXIMATE OPTIMIZATION / REAL-TIME CONTROL / MODEL PREDICTIVE CONTROL / MPC

Аннотация научной статьи по математике, автор научной работы — Пономарев Антон Александрович

Рассматривается метод управления «предиктор-корректор» с конечным горизонтом в применении к нелинейной системе управления дискретного времени с липшицевой правой частью. Слагаемые функционала качества также липшицевы. Предполагается, что множества допустимых состояний и управлений связны и компактны, но не обязательно выпуклы, кроме того, допустимые управления меняются в некотором смысле непрерывно с изменением состояния. Из таких предположений следует, что оптимальное значение функционала липшицево как функция начального состояния, что приводит к возможности приближения оптимального управления явной кусочно-непрерывной функцией. С этой целью можно покрыть множество допустимых состояний сеткой, вычислить оптимальное управление в ее вершинах и интерполировать на все состояния, получив некоторую аппроксимацию. Отличие от известных работ состоит в том, что в статье даны достаточные ограничения, при выполнении которых приближенная обратная связь доставляет замкнутой системе устойчивость и в заданной степени близкое к оптимальному значение функционала. Доказано, что если сетка достаточно плотна, то такая обратная связь существует, например, в виде кусочно-аффинной функции. Библиогр. 18 назв. Ил. 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SUBOPTIMAL CONTROL CONSTRUCTION FOR THE MODEL PREDICTIVE CONTROLLER

Model predictive control (MPC) is a well-known and widely used control algorithm. The problem of real-time MPC implementation for complex systems is of particular practical interest due to the complexity of the associated optimization problem which is generally intractable in real time. The paper presented deals with this issue making use of the famous dynamical programming idea and reducing the dimensionality of the original optimization problem. The outline of the paper is as follows. The MPC problem is considered for a nonlinear discrete-time system with state and control constraint sets and a quadratic cost functional. The assumptions worth noting are, firstly, the Lipschitz continuity of the right hand side of the system and, secondly, continuity in some sense of the admissible control set with respect to the current state of the system. Employing these properties we are able to prove the Lipschitz continuity of the optimal cost value as a function of the initial state of the system. This result provides us with the opportunity to approximate the minimal value of the last several summands of the cost functional as a function of the intermediate system state by means of precalculating it for a set of state values before the controller is launched. The summands mentioned may be then excluded from the optimization reducing the dimensionality of the problem. The results are followed by a discussion of their limitations and an example of application. It is shown that the simpler the resulting problem, the less smooth it becomes, thus making it necessary to use more data points for the approximation. Another observation is that the smoothness of the problem decreasing far from the set point. The theorems proven in the paper give the reasoning behind these facts but the means of dealing with them are due to further research. Refs 18. Figs 2.

Текст научной работы на тему «Аппроксимация обратной связи в регуляторе «Предиктор-корректор» явной функцией»

УДК 517.977.5 Вестник СПбГУ. Прикладная математика... 2017. Т. 13. Вып. 2

А. А. Пономарев

АППРОКСИМАЦИЯ ОБРАТНОЙ СВЯЗИ В РЕГУЛЯТОРЕ «ПРЕДИКТОР—КОРРЕКТОР» ЯВНОЙ ФУНКЦИЕЙ*

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

Рассматривается метод управления «предиктор—корректор» с конечным горизонтом в применении к нелинейной системе управления дискретного времени с липшицевой правой частью. Слагаемые функционала качества также липшицевы. Предполагается, что множества допустимых состояний и управлений связны и компактны, но не обязательно выпуклы, кроме того, допустимые управления меняются в некотором смысле непрерывно с изменением состояния. Из таких предположений следует, что оптимальное значение функционала липшицево как функция начального состояния, что приводит к возможности приближения оптимального управления явной кусочно-непрерывной функцией. С этой целью можно покрыть множество допустимых состояний сеткой, вычислить оптимальное управление в ее вершинах и интерполировать на все состояния, получив некоторую аппроксимацию. Отличие от известных работ состоит в том, что в статье даны достаточные ограничения, при выполнении которых приближенная обратная связь доставляет замкнутой системе устойчивость и в заданной степени близкое к оптимальному значение функционала. Доказано, что если сетка достаточно плотна, то такая обратная связь существует, например, в виде кусочно-аффинной функции. Библиогр. 18 назв. Ил. 2.

Ключевые слова: управление с прогнозом, приближенная оптимизация, цифровые системы управления.

A. A. Ponomarev

SUBOPTIMAL CONTROL CONSTRUCTION FOR THE MODEL PREDICTIVE CONTROLLER

St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Model predictive control (MPC) is a well-known and widely used control algorithm. The problem of real-time MPC implementation for complex systems is of particular practical interest due to the complexity of the associated optimization problem which is generally intractable in real time. The paper presented deals with this issue making use of the famous dynamical programming idea and reducing the dimensionality of the original optimization problem. The outline of the paper is as follows. The MPC problem is considered for a nonlinear discrete-time system with state and control constraint sets and a quadratic cost functional. The assumptions worth noting are, firstly, the Lipschitz continuity of the right hand side of the system and, secondly, continuity in some sense of the admissible control set with respect to the current state of the system. Employing these properties we are able to prove the Lipschitz continuity of the optimal cost value as a function of the initial state of the system. This result provides us with the opportunity to approximate the minimal value of the last several summands of the cost functional as a function of the intermediate system state by means of precalculating it for a set of state values before the controller is launched. The summands mentioned may be then excluded from the optimization reducing the dimensionality of the problem. The results are

Пономарев Антон Александрович — аспирант; a.ponomarev@spbu.ru

Ponomarev Anton Aleksandrovich — postgraduate student; a.ponomarev@spbu.ru

* Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 16-38-00789 мол_а).

© Санкт-Петербургский государственный университет, 2017

followed by a discussion of their limitations and an example of application. It is shown that the simpler the resulting problem, the less smooth it becomes, thus making it necessary to use more data points for the approximation. Another observation is that the smoothness of the problem decreasing far from the set point. The theorems proven in the paper give the reasoning behind these facts but the means of dealing with them are due to further research. Refs 18. Figs 2.

Keywords: optimal control, suboptimal control, optimal cost value continuity, numerical optimization, approximate optimization, real-time control, model predictive control, MPC.

Введение. Регулятор «предиктор—корректор» [1, 2] в англоязычной литературе носит названия model predictive control, generalized predictive control, receding horizon control и др. Суть его заключается в следующем. Пусть дана модель управляемой системы и задан интегральный функционал качества, определяющий качество стабилизации некоторой программной траектории (reference trajectory) на бесконечном интервале времени. Чтобы решить задачу оптимальной стабилизации, бесконечный функционал заменяют на конечный. Оказывается, что при некоторых условиях первые такты управления, оптимального на конечном и бесконечном промежутках, близки. Это обосновывает алгоритм управления, в котором периодически происходит оптимизация управления на некоторое число тактов вперед, но применяется не вся оптимизированная последовательность, а лишь первые несколько тактов. Такой метод называется «предиктор—корректор»: предиктор означает предсказание и оптимизацию будущего поведения системы, а корректор — обновление прогноза.

Практическая значимость регуляторов типа «предиктор—корректор» подтверждается наличием их коммерческих реализаций [3] и большого количества приложений [4-6]. К актуальным вопросам, связанным с этими регуляторами, относятся достижение устойчивости [7], а также проблема реализации регулятора в реальном времени [8, 9], на которой остановимся подробнее.

Непосредственная реализация регулятора «предиктор—корректор» в реальном времени требует быстрого решения оптимизационной задачи на каждом такте работы системы. Быстрые методы оптимизации, основанные на последовательном приближении к минимуму [10], не могут гарантировать, что процесс оптимизации за один такт работы системы успеет продвинуться настолько, чтобы полученное управление было, во-первых, достаточно хорошим с точки зрения значения функционала качества и, во-вторых, стабилизировало систему. Имеются, впрочем, приближенные реализации нелинейного регулятора «предиктор—корректор» [11], которые гарантируют стабилизацию независимо от того, в какой момент прерывается процесс оптимизации, однако они не претендуют на близость к оптимальному управлению.

В свете вышесказанного представляется целесообразным рассмотреть идею аппроксимации обратной связи «предиктор—корректор» явной функцией, которая хранилась бы в памяти управляющего устройства и вычислялась на каждом такте без необходимости оптимизации. Данная статья посвящена обсуждению именно такой аппроксимации.

Из статьи [12] известно, что в случае линейной системы с многогранными ограничениями и квадратичным функционалом качества обратная связь «предиктор— корректор» является кусочно-аффинной функцией. Там же предложены метод построения этой функции и ее эффективная реализация, использующая особенности некоторых микропроцессоров.

В нелинейном случае оптимальная обратная связь «предиктор—корректор» имеет более сложный вид и даже может оказаться разрывной, что существенно затрудняет ее равномерную аппроксимацию явной функцией. В работе [13] в предполо-

жении выпуклости оптимизационной задачи было предложено вместо равномерной аппроксимации строить такое управление, которое доставляет функционалу качества значение, близкое к оптимуму. При этом использовалась кусочно-аффинная аппроксимация обратной связи. Ограничение выпуклости снято в статье [14], но в ней не даны оценки достаточной точности аппроксимации.

В настоящей работе развиваются и обосновываются идеи, предложенные в [15]. Как и в [14], здесь предлагается применять явную кусочно-аффинную функцию для аппроксимации оптимальной обратной связи «предиктор—корректор» в нелинейной системе с необязательно выпуклыми ограничениями. При этом учитываются результаты, полученные в [16] и касающиеся непрерывности оптимального значения функционала качества как функции начального условия. Отличием обсуждаемого ниже подхода от [14] являются обоснованные оценки достаточной плотности разбиения пространства состояний, при которой кусочно-аффинная обратная связь гарантированно устойчива и доставляет функционалу качества значение, в заданной степени близкое к оптимальному. Следует признать, что предлагаемые ниже оценки на практике, вероятно, окажутся чрезмерно консервативными, но, используя их как начальный вариант, можно в каждом конкретном случае строить и более простые аппроксимации.

Управляемая система и оптимизационная задача. Рассмотрим дискретную управляемую систему

х(к + 1) = / (х(к),и(к)), к = 0, 1,..., (1)

в которой х € Кп — состояние системы, и € Кт — управление.

Функция / определена при всех х € X С Кп, и € и С Кт.

Обозначение 1. Вектор х(к,х°,и(•)) есть состояние системы (1) на шаге к при начальном состоянии х° и управлении и(-).

Введем функционал качества управления

Т-1

I(х0, и(*)) = ^ Ф(к + 1,х°,и(-)),и(к)] + £Т [х(Т,х°,и(-))], (2)

к=0

здесь Т ^ 1 — некоторая константа, выбор которой диктуется требованиями к эффективности регулятора, его устойчивости и прочими соображениями (см. монографию [1]), а £ и £т — положительно определенные функции на х € X,и € и:

1(0, 0) = 0, £т(0, 0) = 0, £(х,и) > 0, £т(х,и) > 0 Ух, и : ||х|| + ||и|| > 0.

Поставим оптимизационную задачу I(х°,и(-)) ^ Ы,

и{-)

и(к) € и Ук = 0,1,...,Т - 1, (3)

х(к,х°,и(-)) € X Ук = 1, 2,...,Т - 1,

х(Т,х°,и(-)) € Хт,

где Хт С X С Кп; и С Кт.

Определение 1. Число Т в функционале (2) называется горизонтом прогноза.

Определение 2. Множество X в задаче (3) называется множеством допустимых состояний, XT — терминальным ограничением, а и — множеством допустимых управлений.

Сделаем ряд предположений.

Предположение 1. Множества X, Хт и и в задаче (3) — связные, компактные и содержат внутри себя начало координат. Предположение 2. /(0,0) = 0.

Предположение 3. Функция / допускает выделение линейной части: / (х, и) = /(х, и) + А(х, и)(х — х)+ В(х, и)(и — и)+ д(х, и,х — х,и — и),

причем

\\д(х, и,х — х,и — и) У ^ К( \\х — х\\2 + ||и — и\\2^

при всех х,х € X, и,и € и, где А(х,и) и В(х,и) — некоторые матрицы; К — константа, одинаковая для всех точек (х, и).

Предположение 4. Функции £ и £т — липшицевы на допустимых множествах:

\\£(х,и) — £(х,и)\\ < Ье(\|х — х\\ + \\и — и\\), \\£т (х, и) — £т (х, и)\\ ^ Ь£т( \\х — х\\ + Ц и — и^ V х,х € X ,и,и € и.

Предположение 5. Для каждого х € -X существует такое и € и, что /(х, и) € -X. Предположение 6. При любых х,х € X и и € и таких, что /(х,и) € X, существует такое и € и, что

Ци — и\\ ^ 7 \\х — х\\ , /(х,и) € X, /(х,и) € X,

где 7 — некоторая постоянная, независимая от х, х, и, и.

Замечание 1. Из предположений 1 и 3 следует, что функция / липшицева на допустимых множествах с некоторой константой Липшица Ь f:

\\/(х,и) — /(х,и)\\ < ЬД \\х — х\\ + \\и — и\\)

при всех х,х € X, и, и € и.

Замечание 2. Предположение (6) означает, что множество управлений, допустимых с учетом ограничения на состояние системы, меняется в некотором смысле непрерывно с изменением начального условия задачи (3). Это предположение требуется для выполнения теоремы 2 ниже. (Подробнее см. [16].)

Замечание 3. Решение задачи (3) существует при любом начальном состоянии х0 € X в силу компактности допустимых множеств и непрерывности функционала (2) как функции управляющей последовательности.

Обозначение 2. иоПт(-,х°) есть решение задачи (3). Если оно не единственно, имеется в виду любое решение.

Обозначение 3. хопТ(к,х°) = х(к,х0, иопт(-,х0)). Обозначение 4. 1опТ(х0) = 1(х0, иопт(-,х0)).

О динамическом программировании. Введем последовательность функционалов 1я, которые получаются из (2) заменой Т на Т — в:

Т-8-1

18(х0 ,и(-))= ^ £[х(к + 1,х0,и(-)),и(к)] + £т [х(Т — в,х0 ,и(-))], к=0

в = 0,1,...,Т — 1. В частности, 10 = I и 1Т(х0,и(■)) = £т(х0).

По аналогии с задачей (3) для каждого из функционалов Iя поставим оптимизационную задачу

Iя(х°,и(-)) ^ М,

и(к) € и Ук = 0,1,...,Т - в - 1, (4)

х(к,х°,и(-)) € X Ук = 1, 2,...,Т - в - 1, х{Т - в,х°,и(■)) € Xт,

и оптимальное значение функционала обозначим 1ояпт(х°). Будем считать, что оптимум в этой задаче существует при любом х° € X. Функция Iт не зависит от управления, потому для нее 10Пт(х°) = £т (х°).

Широко известная и важная для дальнейших выводов идея динамического программирования [17] состоит в том, что часть функционала Iя, зависящую от и(1), и(2),..., и(Т - в - 1), можно минимизировать независимо от и(0). Точнее говоря,

10пт(х° )= М {£[/(х° ,и),и] + 10п+т1(/(х° ,и))|, в = 0,1,...,Т - 1. (5)

и £ и У >

!(х0,и) £ X

Регулятор «предиктор—корректор». Введем метод управления, которому посвящена данная работа.

Определение 3. Регулятором «предиктор—корректор» называется обратная связь

и(к) = иопт(0,х(к)) .

Как следует из этого определения, регулятор «предиктор—корректор» реализуется алгоритмически следующим образом:

• на такте к для начального состояния х(к) строится оптимальная управляющая последовательность

иопт(к,х(к)), к = 0,1,...,Т - 1;

• в систему подается первый такт и0пт(0, х(к));

• на такте к +1 оптимизация повторяется для нового начального состояния х(к + 1) с тем же горизонтом прогноза Т, и т. д.

Теорема 1 [1, 2]. Пусть существует функция к(х) такая, что

/(х,к(х)) € XT Ух € Xт

и

£т(х) > £[/(х,к(х)),к(х)] + £т [/(х,к(х))] Ух € Xт.

Тогда регулятор «предиктор—корректор» стабилизирует систему (1) в том смысле, что нулевое решение замкнутой им системы асимптотически устойчиво с областью притяжения X. При этом в качестве функции Ляпунова можно выбрать функцию 1опт(х), которая, действительно, удовлетворяет неравенству

1опт[/(х,иопт(0,х))] - 1опт(х) < -£[/(х,иопт(0,х)),иопт(0,х)] Ух € X.

I

Постановка задачи. Цель настоящей работы — аппроксимировать регулятор «предиктор—корректор» обратной связью в виде явной функции иявн(х)

иявн(х) ~ иопт(0, х), х € .

Искомая функция иявн должна быть допустимой, субоптимальной и стабилизирующей в смысле следующих определений.

Определение 4. Обратная связь и = и(х) называется допустимой, если при всех х € X выполняются условия и(х) € и и /(х,и(х)) € X.

Определение 5. Допустимую обратную связь и = и(х) назовем е-субоптимальной при некотором е > 0, если при всех х € X выполнено неравенство

£[/{х,и(х)) ,и(х)\ + 1опт(/(х,и(х))) < (1+ е)1опт(х).

Определение 6. Допустимую обратную связь и = и(х) назовем стабилизирующей, если нулевое равновесие замкнутой системы

х(к +1) = / (х(к),и(х(к)))

асимптотически устойчиво с областью притяжения X.

Замечание 4. Обоснуем возможность интерполирования функции иопт(0,х) по ее значениям на конечной сетке. Однако иопт(0,х), вообще говоря, не является непрерывной функцией состояния х, и определить точки ее разрыва с абсолютной точностью невозможно. Потому безосновательно интерполировать функцию иопт(0,х) на конечной сетке и рассчитывать при этом на равномерное приближение. Несмотря на сказанное, мы все же ставим целью аппроксимировать иопт(0,х) по значениям на конечной сетке. Точность приближения будем оценивать не по близости управляющего сигнала к оптимальному, а по тому, насколько значение функционала на аппроксимированном управлении близко к его оптимальной величине. Именно это понятие близости выражается определением 5. Идея аппроксимации по значению функционала обсуждается также в работах [13, 14].

Вспомогательные утверждения. Сформулируем ряд фактов, которые подведут нас к способу построения явной аппроксимации иявн(х).

Теорема 2 [16]. В сделанных выше предположениях каждая из функций Юпт (х), где в = 1, 2,...,Т, удовлетворяет условию Липшица с константой Ь8, причем Ь8 допустимо определить рекуррентной формулой

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и = + 1Ь ^Ьер^) + Ь8+1) + 6^Ьер(и),

в которой ЬТ = 2Ьетр(X), а р() обозначает радиус множества:

Р(£!) = ^^

Практическим следствием теоремы 2 является возможность интерполяции функции 1о1пт(х) по предвычисленным ее значениям на конечной сетке. Липшицевость позволяет дать оценку достаточной плотности сетки, при которой, например, кусочно-аффинный интерполянт будет равномерным приближением функции 1о1пт (х) с наперед заданной точностью. Действительно, справедлива следующая лемма.

Лемма 1. При любом /> 0 существует кусочно аналитически заданная непрерывная функция ^о1пт(х), которая удовлетворяет неравенству

1^01пт(х) - Лпт (х)| < / Ух е X.

Доказательство. Пусть на множестве X выбрана сетка из конечного числа точек х. Плотность сетки охарактеризуем числом р — максимальным расстоянием, на котором может оказаться от произвольно выбранной точки х е X ближайшая к ней точка сетки. Вычислив значение 1(11пт(х) в точках сетки, построим функцию &опт(х) линейным интерполированием полученных значений.

Для примера рассмотрим случай скалярной системы (п = 1) и выберем произвольную точку х е X. Пусть х1 и х2 — ближайшие к х точки сетки (х — р ^ х1 < х < < х2 ^ х + р). Не умаляя общности, можно считать, что х = (1 — а)х1 + ах2, причем 0 < а ^ 1/2. Тогда интерполированное значение ^0пт(х) вычисляется по формуле

#0пт(х) = (1 — а)1опт (х1) + а10пт(х2). Справедливы неравенства

1^0пт(х) — 1о1пт(х1)| = аЦпт(х2) — 1опт(х1 )| < 2аЬ р < Ь^Р, Ипт(х) — 1опт(х1 )| < Ь^птр,

откуда следует, что

|&опт(х) — 1о1пт(х)| < 2рЬ11пт Ух е X. Выбрав такую сетку, что

р < м 2ЬI 1

получим требуемое условие.

При размерности системы п > 1 оценка погрешности |&опт(х) — 1о1пт(х)| проводится аналогично. Лемма доказана. □ Итак, равномерно приблизим 1о1пт(х) какой-либо функцией #опт(х). Имея такую аппроксимацию и используя идею динамического программирования (5), можно взамен функционала I построить следующий приближенный функционал, зависящий только от одного такта управления:

&(х0, и) = 4/(х0, и),и] + #о-пт (/(х0, и)) .

Поставим для функционала & задачу оптимального управления

' &(х0,и) ^ Ы,

и

и е и, (6)

/(х0,и) е X.

Определение 7. Решение идин(х0) задачи будем называть решением задачи приближенного динамического программирования, отвечающим начальному условию х0. Будем считать, что оно всегда существует. Если оно не единственно, выберем его произвольно и далее будем считать однозначно определенным.

Естественно предположить, что идин(х0) будет приближением оптимальной обратной связи иопт(0,х0), так как, согласно принципу динамического программирования, функция иопт(0,х0) является решением задачи

(£[/(х°,и),и] + Юпт(/(х0,и)) ^ , < и € и, \/(х0,и) € X,

которая отличается от (6) заменой функции 1о1пт на ее приближение 'опт. В то же время, поскольку оптимальная обратная связь может быть разрывной функцией, точность аппроксимации будем оценивать близостью оптимального значения функционала приближенной задачи (6) к оптимуму исходной задачи 1опт(х0). Такую оценку дает следующая лемма.

Лемма 2. Если при некотором /л > 0

|'опт (х) — 1опт(х)| < Л Ух € X,

то

|#опт(х) — 1опт(х)| < / Ух € X.

До каз ател ь ств о. Рассмотрим тождество

'опт (х) ' (х, идин (х) ) £/(х, идин (х) ), идин (х) + 'опт (/(х, идин(х))) £/идин(х)),идин(х)) + 'опт (/(х,идин(х))) + + 'опт (/ (х, идин(х))) — 'опт (/ (х, идин(х))) .

В силу оптимальности значения иопт(0,х)

£/идин(х)),идин(х)) + 'опт (/(х,идин(х))) ^ > £/(х,иопт(0,х)),иопт(0,х)) + 1опЛ/(х,иопт(0,х))) = 'опт(х).

Следовательно,

'опт (х) ^ 'опт (х) + 'опт (/ (х, идин (х) ) 'опт (/ (х, идин (х) ) ^ 'опт (х) Л.

Аналогично получаем неравенство

'опт (х) ^ 'опт (х) //,

откуда вытекает требуемое утверждение. Лемма доказана. □

Лемма 3. Пусть выполнено условие теоремы 1. Если

1'опт(х) — 'опт (х)| < л Ух € X

и

'опт(х) — 'опт^) < Л Ух € X,

то

'опт (/(х,идин(х)) 'опт(х) ^ —£/(х,идин(х)),идин(х)) +2Л Ух € X.

Замечание 5. Если точный регулятор «предиктор—корректор» удовлетворяет достаточному условию устойчивости и ^Опт — достаточно точная аппроксимация ^ОЛт, то при замене оптимальной обратной связи иОПт(0,х) на решение задачи приближенного динамического программирования идин(х) устойчивость сохраняется, но только вне некоторой окрестности начала координат — там, где

¿^1"(х? идин(х)), идин (х)) ^ 2р.

При этом, подобно доказательству теоремы 1, функция #"ОПт может быть применена в качестве функции Ляпунова. Таким образом, использование приближенного управления допустимо на некотором удалении от нуля. В окрестности нуля следует стабилизировать систему, например по линейному приближению.

Доказательство. Воспользуемся той же идеей, что и при доказательстве теоремы 1 в [1]. Рассмотрим тождество

^Опт(х) ¿(^(х? идин(х))? идин(х)) + ^Опт (I(x, идин(х))) .

Пользуясь неравенством из условия леммы 1, запишем

^ОПт(х) ^ ^(у!(х идин(х))? идин(х)) + ^ООТ (1(x, идИН(х))) р.

Величина 1О1пт есть

Т-2

1Пт(I(х,Пдин(х))) =]Т ¿(хк+1 ,ик)+£т(хТ-1), к=0

0 1 Т—2

где и , и1, ...,ит 2 — некоторая последовательность управлений, допустимых в задаче (4) при в = 1, и

х 1 (x,uдин(x)),

х' = I(х-,и'-1), г = 1, 2,...,Т - 1.

Заметим, что хт-1 € Хт. Используя неравенство из условия теоремы 1, получим

т-1

1ОПт( I (х,идин(х))) = ]Т £(хк+1 ,ик )+ 1т (хТ ),

к=0

где

ит-1 = к(хт-1), хт = I (хт-1 ,ит-1).

Из условия теоремы 1 вытекает, что хт € Хт, поэтому последовательность управлений и0,и1,...,ит-1 допустима в задаче (3). Поскольку эта последовательность, вообще говоря, не оптимальна в указанной задаче, справедлива оценка

т-1

1пт( I (х,идин(х))) ¿(хк+1 ,ик )+ ¿т (хт ),

к=0

следовательно,

^ОПТ (I (х,идин(х)) ^ ^ОП^I (х,идин(х)) . Вестник СПбГУ. Прикладная математика. Информатика... 2017. Т. 13. Вып. 2 201

Вновь применив неравенство из условия леммы 1, находим, что

'отт (f (x,uдин(x))) ^ 'опт ( f Л-

Подставляя последнее выражение в неравенство для #"опт(ж), приходим к следующему выводу:

'опт(x) ^ (x? идин(x)),идин+ 'оп^f (х,идин(х))

Отсюда следует желаемое неравенство. Лемма доказана. □

Итак, исходя из лемм 2 и 3, можно считать, что мдин(ж) — достаточно хорошая замена оптимальной обратной связи мопт(0,ж): она субоптимальна и стабилизирует систему (1). Обратная связь мдин(ж) не решает поставленную нами задачу только потому, что она не выражается явной функцией.

Чтобы приблизить обратную связь мдин(ж) явной функцией мявн(ж), понадобятся следующие две леммы: одна касается субоптимальности, другая — устойчивости.

Лемма 4. Рассмотрим произвольную точку x G X и число е > 0. Если точка x G X и управляющий сигнал и G U удовлетворяют

\\x - Х\\2 + ||u - иопт(0,Х)||2 < р2,

где

е min 1опт (x)

Iж — жI

р<

Ьу 1 Lf + ЬI + Ь^ Ь2^ + 1

то сигнал и может быть кандидатом на значение е-субоптимальной обратной связи в точке х, т. е.

£(/(х,и),и) + 101пт(/(х,и)) < (1+ е)1ОПТ(х).

Здесь Ьу, Lf и Ь£ — константы Липшица функций 1опт, / и £. Доказательство. Рассмотрим тождество

£(/(х, и),и) + 1<0пт (/(х,и)) - 1опт(х) =

£(/(х, и), и) + 10пт(/(x, и)) 1опт(х) + 1опт(х) 1опт (х) .

Выполнив в правой части замену

1опт(х) = £(/(х, иопт(0,х)),иопт(0,х)) + 101пт(/(х,иопт(0,х))),

имеем

£(/(х,и),и) + 10пт (/(х,и)) - 1опт(х) = = £(/(х, и), и) - £(/(х, иопт(0, х)), иопт(0, х)) + + 1опт(/(х, и)) 1опт(/(х, иопт(0, х))) + 1 опт (х) ^опт(х).

Используя неравенства Липшица

¿(I(х, и), и) - ¿(I(х, иОпт(0, х)), иОпт(0, х)) < < Ь£у/ц/(х,и) - /(Х,иопт(0,Х))Ц2 + ||м -Мопт(0, ж)II2 < < Ь£^ь){\\х - х||2 + Н-и - Мопт(0, х)||2) + Н-и - Мопт(0, х)\\2 < Ь£^Ь) + 1р,

^■опт((х, и)) - ^■опт(^^(х, иОпт (0, х))) < Ьу 1 Ь}р, 1опт(х) - 1опт(х) < Ьу р,

получаем оценку

£(/(х,и),и) + .Уопт(/(х,и)) - -Уопт(х) < + Ьу + ТТ) р < еУопт(х),

откуда следует требуемое неравенство. Лемма доказана. □

Лемма 5. Рассмотрим произвольную точку х € X и число к € (0,1). Если точка х € X и управляющий сигнал и € и удовлетворяют

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\\х - х\\2 + ||и - иопт(0,х)||2 < р2,

где

■опт (кx, иопт(0, х))^ 1опт(х)

к - 1

р =

Ьу Ь + 1)

то г , \

■опт (Уи)) ■опт (х) < к 1:>пт ( иопт (0, х)) ) ■опт (х)

Здесь Ьу и Lf — константы Липшица функций 1опт и I.

Замечание 6. Смысл леммы 5 таков: если в данной точке х оптимальное значение функционала убывает при оптимальном управлении иопт(0, х), то в достаточно близких точках х при достаточно близких управлениях и оно также будет убывать. Доказательство. Рассмотрим тождество

■опт( I (х,и)) - 1опт(х) = 1опт( I (х,и)) - Юпт^ (х, иопт (0, х))) +

+ 1ОПT(I (х, иопт(0, х))) 1опт(х) + 1опт(х) 1опт (х) .

Используя неравенства Липшица

1ОПT(I (х, и)) ■опт (I (x, иопт (0, х))) < ЬуЬ}р, ■опт(х) - 1опт(х) < Ьур,

придем к неравенству

■Опт (I (х,и) ■опт (х) < < ■опта (х,иопт(0,х))) - 1опт(х) + Ьу (Lf + 1)р =

= к 1опт(/(х,иопт(0, х))^ - 1опт(х) ,

что и требовалось доказать. □

Основной результат. Опираясь на леммы 4 и 5, предложим основу для построения стабилизирующей е-субоптимальной обратной связи иявн(х). Для этого значения

иопт(0,х) вычисляются в точках достаточно мелкой сетки, окружаются некоторыми окрестностями и интерполируются так, чтобы получаемая приближенная обратная связь не выходила из указанных окрестностей.

Теорема 3. Пусть обратная связь «предиктор—корректор» и(х) = иопт(0,х) стабилизирует систему (1), причем выполнены условия теорем 1 и 2. Построим функцию иявн(х) по следующему алгоритму.

1. Выбрать достаточно малую окрестность нуля В и линейную обратную связь, которая стабилизирует нулевое равновесие по линейному приближению, причем В входит в область притяжения и является инвариантным множеством. Положить иявн(х) равным этой линейной обратной связи при х € В.

2. Выбрать к € (0,1), е > 0, положить

( е шт 1опт(х)

„ . х£&\&

р = П11П •

Ьу 1 Lf + Ьу + Ь^ Ь^ + 1 к - 1

Т-77-7Т П1111

Ьу(Ь{ + 1) хех\в

'опт ^/ иопт (0, х)) ^ 'опт(х)

3. Построить сетку из конечного числа точек так, чтобы любая точка области X имела хотя бы одну точку из в своей р*-окрестности.

4. Для каждой точки х € построить (п + т)-мерный шар с центром (х, иопт (0, х)) и радиусом

е шт 1опт(х)

\\х — ж \\ ^^ К — 1

Р = П11П '

'опт(/ {lx, иопт(0, ^опт(х)

5. Построить функцию иявн(х) вне окрестности В так, чтобы точка (х, иявн (х)) при любом х € X находилась хотя бы в одном из построенных шаров.

Такое построение всегда возможно. Получаемая обратная связь и (к) = иявн(х(к)) стабилизирует (1) и является е-субоптимальной.

Доказательство. Следует из лемм 4 и 5. □

Теорема 3 дает оценку допустимой погрешности в аппроксимации оптимальной обратной связи иопт(0,х) явной функцией иявн(х). Их можно использовать, чтобы построить, например, кусочно-аффинную аппроксимацию, определяемую треугольной сеткой и значениями в ее узлах. Вычисление подобной аппроксимации — более надежный и быстрый вариант реализации регулятора, чем численная оптимизация.

Пусть реализованы п. 1-3 теоремы 3. Отметим следующие способы построения функции иявн(х), удовлетворяющей п. 4.

1. Тривиальный способ — кусочно-постоянная функция, которая получается при интерполировании по правилу ближайшего соседа. Его недостаток — невозможность обоснованно сократить количество узлов сетки и, как следствие, избыточный расход памяти на хранение иопт(0,х*) в каждом узле.

2. Выделение областей непрерывности иявн(х), внутри которых можно применить непрерывную интерполяцию и упростить сетку, сократив количество узлов. Для этого можно модифицировать, например, известные в литературе методы вычислительной геометрии [18]. Данный вопрос оставим для дальнейшего изучения.

Замечание 7. Основная сложность, связанная с задачей быстрого вычисления кусочно-заданной функции в некоторой точке x, заключается в поиске куска, к которому относится x. Заметим, что если, например, система (1) получена дискретизацией непрерывной системы, то на практике эта задача несколько упрощается: если известно, в каком куске находилась точка x(k), то x(k + 1) в силу непрерывности окажется в близлежащем куске. Если хранить карту кусков в виде графа, то проверить куски, лежащие вблизи от данного, будет проще.

Пример. Рассмотрим модель маятника с нулевым равновесием в верхнем положении и управлением в виде горизонтально направленной силы. Непрерывная модель

ip(t) = sin ф(t) + u(t) cos ¥>(t).

Зададим допустимые множества (5ф)2 + ф2 ^ 152, |u| ^ 1000 и функционал типа (2) с ¿(ф, ф, и) = 10 ОООф2 + 10ф2 + и2, ¿т = 0. Дискретизируем систему с шагом Ts = 0.05 и выберем горизонт прогноза T = 7.

На рис. 1 приведен график приближенной обратной связи иявн, которая получена интерполяцией точных значений uonT(0,x), вычисленных на сетке в полярных координатах, на рис. 2 — результаты моделирования системы, замкнутой приближенным регулятором, в сравнении с точным.

ч>

2.5

0.5

1.5

2

0

3

1

0.2

0.4

0.6

0.8

t

Рис. 2. Движение системы, замкнутой точным регулятором «предиктор—корректор» (сплошная линия) и приближенным (пунктирная)

Заключение. Оценена достаточная плотность сетки, на которой можно интерполировать обратную связь регулятора «предиктор—корректор», не нарушая устойчивости и достигая заданной близости управления к оптимальному. В дальнейшем планируется разработать методы упрощения приближенного управления для экономии памяти и вычислительного времени.

Литература

1. Camacho E. F., Bordons C. Model predictive control. London: Springer-Verlag, 2007. 405 p.

2. Maciejowski J. M. Predictive control with constraints. London: Prentice Hall, 2002. 331 p.

3. Qin S. J., Badgwell T. A. A survey of industrial model predictive control technology // Control Engineering Practice. 2003. Vol. 11(7). P. 733-764.

4. Richalet J., Rault A., Testud J. L., Papon J. Model predictive heuristic control: applications to industrial processes // Automatica. 1978. Vol. 14(5). P. 413-428.

5. Веремей Е. И., Сотникова М. В. Стабилизация плазмы на базе прогноза с устойчивым линейным приближением // Вестн. С.-Петерб. ун-та. Сер. 10. Прикладная математика. Информатика. Процессы управления. 2011. Вып. 1. С. 116-133.

6. Sotnikova M. Ship dynamics control using predictive models // Proceedings of the 9th IFAC conference on Manoeuvring and Control of Marine Craft (MCMC 2012). Arenzano, Italy. September 19-21, 2012. P. 250-255.

7. Сотникова М. В. Вопросы устойчивости движений в системах управления с прогнозирующими моделями // Вестн. Воронеж. гос. техн. ун-та. 2012. T. 8, № 1. С. 72-79.

8. Chen W.-H., Ballance D. J., O'Reilly J. Model predictive control of nonlinear systems: Computational burden and stability // IEE Proc.-Control Theory Appl. 2000. Vol. 147(4). P. 387-394.

9. Баранов О. В., Попков А. С., Смирнов Н. В. Оптимальная стабилизация квадрокоптера в режиме реального времени // Устойчивость и процессы управления: материалы III Междунар. конференции, посвященной памяти В. И. Зубова. СПб.: Издат. Дом Г. В. Федоровой, 2015. С. 115116.

10. Wang Y., Boyd S. Fast model predictive control using online optimization // IEEE Trans. Control Sys. Tech. 2010. Vol. 18(2). P. 267-278.

11. Scokaert P. O. M., Mayne D. Q., Rawlings J. B. Suboptimal model predictive control (feasibility implies stability) // IEEE Trans. Autom. Control. 1999. Vol. 44(3). P. 648-654.

12. Bemporad A., Oliveri A., Poggi T., Storace M. Ultra-fast stabilizing model predictive control via canonical piecewise affine approximations // IEEE Trans. Autom. Control. 2011. Vol. 56(12). P. 28832897.

13. Johansen T. A., Grancharova A. Approximate explicit constrained linear model predictive control via orthogonal search tree // IEEE Trans. Autom. Control. 2003. Vol. 48(5). P. 810-815.

14. Johansen T. A. Approximate explicit receding horizon control of constrained nonlinear systems // Automatica. 2004. Vol. 40(2). P. 293-300.

15. Пономарев А. А. Аппроксимация управления в регуляторе «предиктор—корректор» // Устойчивость и процессы управления: материалы III Междунар. конференции, посвященной памяти В. И. Зубова. СПб.: Издат. Дом Г. В. Федоровой, 2015. С. 329-330.

16. Пономарев А. А. Построение субоптимального управления в регуляторе «предиктор—корректор» // Вестн. С.-Петерб. ун-та. Сер. 10. Прикладная математика. Информатика. Процессы управления. 2014. Вып. 3. С. 141-153.

17. Bellman R. The theory of dynamic programming // Bulletin of the American Mathematical Society. 1954. Vol. 60(6). P. 503-516.

18. Cignoni P., Montani C., Scopigno R. A comparison of mesh simplification algorithms // Computers & Graphics. 1998. Vol. 22(1). P. 37-54.

Для цитирования: Пономарев А. А. Аппроксимация обратной связи в регуляторе «предиктор—корректор» явной функцией // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2017. Т. 13. Вып. 2. С. 193-208. DOI: 10.21638/11701/spbu10.2017.206

References

1. Camacho E. F., Bordons C. Model predictive control. London, Springer-Verlag Publ., 2007, 405 p.

2. Maciejowski J. M. Predictive control with constraints. London, Prentice Hall Publ., 2002, 331 p.

3. Qin S. J., Badgwell T. A. A survey of industrial model predictive control technology. Control Engineering Practice, 2003, vol. 11(7), pp. 733-764.

4. Richalet J., Rault A., Testud J. L., Papon J. Model predictive heuristic control: applications to industrial processes. Automatica, 1978, vol. 14(5), pp. 413-428.

5. Veremey E. I., Sotnikova M. V. Stabilizatsiya plazmy na baze prognoza s ustoichivym lineinym priblizheniem [Plasma stabilization on the base of model predictive control with the linear closed-loop system stability]. Vestnik of Saint Petersburg State University. Series 10. Applied Mathematics. Computer Sciences. Control Processes, 2011, iss. 1, pp. 116-133. (In Russian)

6. Sotnikova M. Ship dynamics control using predictive models. Proceedings of the 9th IFAC conference on Manoeuvring and Control of Marine Craft (MCMC 2012). Arenzano, Italy, September 19-21, 2012, pp. 250-255.

7. Sotnikova M. V. Voprosy ustoichivosti dvizhenii v sistemah upravleniya s prognoziruiyshchimi modelyami [The problem of stability in model predictive control]. Vestnik of Voronezh State Technical University, 2012, vol. 8(1), pp. 72-79. (In Russian)

8. Chen W.-H., Ballance D. J., O'Reilly J. Model predictive control of nonlinear systems: Computational burden and stability. IEE Proc.-Control Theory Appl., 2000, vol. 147(4), pp. 387-394.

9. Baranov O. V., Popkov A. S., Smirnov N. V. Optimal'naia stabilizatsia kvadrokoptera v rezhime real'nogo vremeni [Real-time quadrocopter optimal stabilization]. Intern. conference "Stability and Control Processes" in memory of V. I. Zubov (SCP). Saint Petersburg, Izdat. House of G. V. Fedorova Publ., 2015, pp. 123-125. (In Russian)

10. Wang Y., Boyd S. Fast model predictive control using online optimization. IEEE Trans. Control Sys. Tech., 2010, vol. 18(2), pp. 267-278.

11. Scokaert P. O. M., Mayne D. Q., Rawlings J. B. Suboptimal model predictive control (feasibility implies stability). IEEE Trans. Autom. Control, 1999, vol. 44(3), pp. 648-654.

12. Bemporad A., Oliveri A., Poggi T., Storace M. Ultra-fast stabilizing model predictive control via canonical piecewise affine approximations. IEEE Trans. Autom. Control, 2011, vol. 56(12), pp. 2883-2897.

13. Johansen T. A., Grancharova A. Approximate explicit constrained linear model predictive control via orthogonal search tree. IEEE Trans. Autom. Control, 2003, vol. 48(5), pp. 810-815.

14. Johansen T. A. Approximate explicit receding horizon control of constrained nonlinear systems. Automatica, 2004, vol. 40(2), pp. 293-300.

15. Ponomarev A. A. Approksimatsia upravlenia v reguliatore "prediktor—korrektor" [Feedback approximation in model predictive control]. Intern. conference "Stability and Control Processes" in memory of V. I. Zubov (SCP). Saint Petersburg, Izdat. House of G. V. Fedorova Publ., 2015, pp. 342-344. (In Russian)

16. Ponomarev A. A. Postroenie suboptimalnogo upravleniya v regulyatore "prediktor—korrektor" [Suboptimal control construction for the model predictive controller]. Vestnik of Saint Petersburg State University. Series 10. Applied Mathematics. Computer Sciences. Control Processes, 2014, iss. 3, pp. 141153. (In Russian)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17. Bellman R. The theory of dynamic programming. Bulletin of the American Mathematical Society, 1954, vol. 60(6), pp. 503-516.

18. Cignoni P., Montani C., Scopigno R. A comparison of mesh simplification algorithms. Computers & Graphics, 1998, vol. 22(1), pp. 37-54.

For citation: Ponomarev A. A. Suboptimal control construction for the model predictive controller. Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2017, vol. 13, iss. 2, pp. 193-208. DOI: 10.21638/11701/spbu10.2017.206

Статья рекомендована к печати проф. А. П. Жабко. Статья поступила в редакцию 19 мая 2016 г. Статья принята к печати 11 апреля 2017 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.