УДК 62.50 ББК В161.84я43
ПАССИВНОСТЬ И СТАБИЛИЗАЦИЯ НЕЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ПОВТОРЯЮЩИХСЯ ПРОЦЕССОВ1
Емельянов М. А.2
(Арзамасский политехнический институт Нижегородского государственного технического университета им. Р.Е. Алексеева, Арзамас)
Модели в виде повторяющихся процессов являются базовыми при проектировании систем управления с итеративным обучением, получивших широкое распространение в различных областях техники. Они представляют собой одну из разновидностей так называемых 2D-систем. В данной работе для нелинейных повторяющихся процессов предлагается обобщение понятия пассивности и новое понятие векторной функции накопления, которые затем используются для решения задачи стабилизации. Результаты обобщаются на случай повторяющихся процессов с возможными нарушениями, моделируемыми марковской цепью с конечным числом состояний. Эти новые результаты применяются к синтезу управления с итеративным обучением в условиях информационных нарушений. Приводится пример.
Ключевые слова: повторяющиеся процессы, нелинейные 2D-системы, нелинейные дифференциальные повторяющиеся процессы, пассивность, стабилизация, управление с итеративным обучением.
1 Работа выполнена при частичной финансовой поддержке РФФИ (проекты №-№ 16-38-00304 мол_а, 16-08-00916_а). Автор выражает благодарность проф. П.В. Пакшину, проф. К. Галков-скому и проф. Э. Роджерсу за ценное обсуждение содержания статьи.
2Михаил Александрович Емельянов, аспирант, (607227, г. Арзамас, ул. Калинина, д. 19, АПИНГТУим. Р.Е. Алексеева, кафедра прикладной математики, [email protected]). 60
Введение
Функционирование многих технических систем управления сводится к выполнению последовательности циклов, называемых повторениями, каждый из которых протекает в течение определённого ограниченного отрезка времени, называемого длительностью повторения [17]. После окончания каждого цикла система возвращается в начальное состояние и начинает выполнять новый цикл. Выходная переменная в таких системах называется профилем повторения. Эти системы относятся к классу так называемых 2Э-систем, в которых динамические процессы зависят от двух переменных, в рассматриваемом случае - от времени на текущем цикле повторения и от номера цикла повторения. Важным практическим примером может служить система автономного патрулирования территории [7], которая состоит из двух основных компонент, а именно: беспилотного летательного аппарата и автономных наземных датчиков. Эта система используется для беспилотного патрулирования территории, обнаружения нарушителей, захвата требуемой цели и быстрой передачи информации о местонахождении оператору. Здесь профилем повторения является заданная замкнутая траектория патрулирования и целью является минимизация общего расстояния, пройденного беспилотным летательным аппаратом за цикл патрулирования. В течение каждого цикла патрулирования летательный аппарат проходит каждый из автономных наземных датчиков и для формирования траектории использует как текущую информацию, так и информацию с предыдущего пролета (цикла патрулирования). Одной из основных задач в данном случае является уменьшение возможных отклонений от заданной траектории, размах которых может возрастать от повторения к повторению. При появлении подобных отклонений необходимо скорректировать траекторию с целью восстановления нормального процесса патрулирования. Решением данной задачи может являться использование управления с итеративным обучением, т.е управление на текущем пролете по траектории должно использовать информацию, получен-
ную на предыдущем пролете по траектории с целью коррекции управления, направленной на уменьшение отклонения от желаемой траектории. Такая задача не может быть решена стандартными методами теории управления, поскольку здесь должен учитываться двумерный характер динамики системы, т.е. зависимость динамических свойств от двух переменных: времени на текущем повторении и номера повторения.
Алгоритмы управления с итеративным обучением начали также получать распространение в мультиагентных системах для решения задачи управления множеством связанных информационной сетью динамических систем (агентов), в частности, беспилотных летательных аппаратов [7, 14]. Для исследования таких систем в рамках линейных моделей была разработана строгая теория устойчивости [17], основанная на изучении свойств некоторого линейного оператора в банаховом пространстве. Эта теория была применена к синтезу управления с итеративным обучением портальным роботом, где результаты были доведены до эксперимента, подтвердившего ее высокую эффективность [13]. Существующие алгоритмы построения управления для повторяющихся процессов не могут быть применены в нелинейной постановке, следовательно возникает необходимость в разработке строгой теории устойчивости для нелинейных повторяющихся процессов. Важные примеры нелинейных повторяющихся процессов представлены в [19], где проводятся исследования относительно включения смарт-устройств в систему работы ротора ветрогенератора в сочетании с управлением с итеративным обучением для повышения качественных характеристик ветрогене-ратора, снижения экстремальных нагрузок на рабочие лопасти и сохранения максимальной производительности. Другой важный пример представлен в [18], где управление с итеративным обучением применяется к конвейерной системе высокоточного лазерного напыления металла.
Задача стабилизации нелинейных 2Э-систем мало рассматривалась в литературе. В случае нелинейных Ш-систем одним из наиболее мощных методов синтеза управления является тео-
рия диссипативности [3,20], где частная форма диссипативности, известная как пассивность (и ее обобщения) [3, 10, 11], играет важную роль в решении задач глобальной стабилизации для широкого класса нелинейных систем. В этой статье понятие пассивности обобщается на случай нелинейных дифференциальных повторяющихся процессов, которые являются важным классом 2D-систем. Результаты получены на основе подхода с использованием векторной функции накопления, отличающегося от традиционного с использованием систем сравнения, см., например [12], и обеспечивают управление с нелинейной обратной связью по выходу, которое гарантирует экспоненциальную устойчивость рассматриваемого процесса.
В реальных приложениях могут возникнуть нарушения, и поэтому в данной статье результаты обобщаются на случай нелинейных повторяющихся процессов с возможными нарушениями, которые моделируются марковской цепью с конечным числом состояний.
Для обычных систем основы теории устойчивости таких систем заложены в работе [1]. Дальнейшее обобщение и развитие результатов представлено в монографии [2]. В данной работе для решения задачи стабилизации используется понятие пассивности, основанное на стохастическом аналоге векторной функции накопления, для получения управления с нелинейной обратной связью по выходу, которое гарантирует экспоненциальную устойчивость в среднем квадратическом для рассматриваемой системы с возможными нарушениями. Затем результаты применяются к решению задачи синтеза управления с итеративным обучением в условиях информационных нарушений.
1. Пассивность и стабилизация детерминированных повторяющихся процессов
Рассмотрим нелинейный повторяющийся процесс с длительностью повторения Т, описываемый следующей моделью в про-
странстве состояний
(1) ОД+1(*) = /2(^+1^), Ук (¿),ЗД+1^)),
где к - номер повторения (итерации); (¿) € МПх - вектор состояния на текущей итерации; у к (£) € МПу - вектор профиля повторения; ик (¿) € - вектор входных переменных; /1, /2 -нелинейные функции, такие что /1(0, 0, 0) = 0 , /2(0, 0, 0) = 0. Эти требования нужны для того, чтобы нулевая точка соответствовала состоянию равновесия.
Граничные условия, т.е. последовательность векторов начального состояния и начальный профиль повторения, считаются известными и имеют вид
(2) Хк+1(0) = ^+1, к ^ 0,
() Ус(^) = /(*), 0 < í < Т,
где элементы вектора ^+1 € К""х - известные постоянные; элементы вектора /(¿) € МПу - известные функции ¿, 0 ^ £ ^ Т. Кроме того, предполагается, что / (¿) и удовлетворяют неравенствам
(3) I/(¿)|2 < Mf,
(3) |^к+1|2 < к^1, к = 0,1,...,
где Mf > 0, > 0 и 0 < < 1. Величина ха определяет скорость сходимости последовательности начальных векторов состояния. Далее всюду будем считать, что граничные условия системы удовлетворяют (3). Основой построения стабилизирующих управлений для линейных повторяющихся процессов является понятие устойчивости вдоль повторений [13,17]. Это понятие основано на свойствах линейного оператора в банаховом пространстве и, следовательно, не может быть использовано в случае нелинейных систем. Определения, которые приводятся далее, позволяют расширить теорию и применить её для случая нелинейных процессов.
Предположим, что измерению доступен вектор х € ЕПг:
где д— нелинейная функция, такая что д(0, 0, 0) = 0. Вектор г также может формироваться в целях синтеза стабилизирующего управления в результате процедуры пассификации [3]. Детально такая процедура будет рассмотрена далее в примере в конце этого раздела.
Предположим, что входная переменная формируется в виде
(4) = —^(гй+1 (¿)),
где ^>(0) = 0, и при подстановке (4) в (1) функция /1 в правой части (1) удовлетворяет условию Липшица, т.е.
|Л(х',у',р(г')) — Д(х",у",р(г"))| < Д|х' — х''| + |у' — у''|),
х',х'' € МПх, у', у" € МПу, где г' и г" соответствуют значениям функции в точках (х', у')(х'', у'').
Определение 1. Нелинейный дифференциальный повторяю-
щийся процесс (1), (4) называется экспоненциально устойчивым
если для любых граничных условий (2), удовлетворяющих (3), су-
ществуют к > 0, А> 0, и 0 < ( < 1 такие, что
(5) X(¿)|2 + |ук(¿)|2 < кехр(—А^)Ск.
Основная цель статьи - найти такой закон управления с обратной связью (4), который обеспечивал бы экспоненциальную устойчивость системы (1), (3). Последующий анализ основан на расширении понятия пассивности на класс дискретных нелинейных повторяющихся процессов с использованием следующей векторной функции накопления:
^>(ук (*))
где У1(х) > 0, х = 0, У2(У) > 0, у = 0, У1(0) = 0, У2(0) = 0. Оператор дивергенции для данной функции вдоль траекторий системы (1) будет иметь вид
(7) (х^(£),ук(*)) = ^(уФ) +АкУ2(Ук(*)), где Ак(*)) = (Ук+1 (¿)) — (уй(^)).
(6) V (х,у) =
Определение 2. Дифференциальный нелинейный повторяющийся процесс (1) с граничными условиями (2) называется экспоненциально С-пассивным, если существует векторная функция (6) и положительные скаляры с1, с2, сз такие, что
с1|х|2 ^ У1(ж) ^ с2|х|2, С11У|2 < ^2(у) < С2|у|2,
(8) (хк+1 (¿), у к (*)) < хТ+^Си^) -
- Сз( |ж^+1 (¿) |2 + |ук (¿)|2),
где С - постоянная матрица соответствующего размера.
Это определение является 2Б-аналогом определения, данного в [11] для Ш-систем.
Теорема 1. Пусть нелинейный дифференциальный повторяющийся процесс (1) с граничными условиями (2) экспоненциально С-пассивен и функция У1(ж) удовлетворяет условию
(9) |< СМ.
Предположим также, что существует функция <^(х) вида (4) такая, что, хтС^>(х) > 0, если х = 0. Тогда система (1) с граничными условиями (2) и законом управления (4) является экспоненциально устойчивой.
Доказательство. Из последнего неравенства (8) следует,
что для —з < с3 справедливо неравенство -сз(|^+1(£)|2 + |у*(¿)|2) < -сз(|ж^+1(^)|2 + |ук(¿)|2) и —з можно выбрать настолько малым, чтобы выполнялось соотношение
(10) х| < 1 - — < 1.
а С2
Учитывая первые два неравенства из (8), получим
(11) ё1уУ(жк+1(*),у*(*)) < -хт+1 (*)Ср(хк+1(*))-
- — з(|а*+1 (¿)|2 + |у^(^)|2) < -(Ых^) + (у к(*))).
С2
С учетом (7), неравенство (11) может быть переписано как
(12) ^у» + А*(х*+1(*)) +
где А = ^, £ = 1 — € (0,1). Решая неравенство (12) относи-
+ ^2(ук+1^)) — (*)) < 0,
_ _ 1). тельно У1(хк+1(£)), получим
(13) ^+1^)) < ^(хк+1(0))е-Лг—
— I е-Л(4-^)[У2(ук+1 (*)) — <^2(у*(в))]^,
и, обозначив
^к+1(*) = ^(хк+1(0))е-Лг — ^+1^)),
Як(*) = [ е-Л(г-*Ч(ук(в))^, Jo
запишем (13) в виде
(14) Я*+1(*) < СН(*) + Жк+1(*). Решая неравенство (14), имеем
п
лп и /+\ I \ л тлл /-А^п—к
(15) Яп(*) < СпЯо(£) + ^ ^к(¿)С
к=1
или
п ¡-г
У;У1(хк(¿))Сп-к + / е-Л(г-*Ч(уп(5))^ < к=1 70
п
< е-Лг £ У1(хк(0))Сп-к+ к=1
+ Сп Г е-Л(г-*Ч(уо(5))^. Jo
Последнее неравенство эквивалентно следующему
п л
(16) еЛг£ У1(хк(¿Ж-к + С-п еЛ^У2(уп(в))^ < к=1 70
п
< с-п Е у1(хк (0))сп-к+ к=1
+ еЛг Г е-Л(г-*Ч(уо(5))^. ■)о
Преобразуя правую часть (16) с учетом (2) и (10), можно записать
п ¡-г
(17) С-гаЕ ^(жк (0))С-к + еЛг/ е-л(г-*Ч(уо(5))^ < к=1 7о
C2Mf (елт - 1) , _ ^
< "2~ д-- + С'
к=0
_ С2Mf (елт - 1) С2ка _
= д +1-С =С
Из (16) и (17) следует, что
С
(18) Ы£)|2 < ССгае-Лг
для всех í € [0, то], п = 0,1, 2,... В силу условия Липшица и (9) имеем
(19) = /М),»(.),.) >
> -
дУ1(жк+1(*))
джк+^г) ^ -2^ |ж| + ^|у|) ^
> И) 2 + 2(^е|у|)Ч >
^ -аУ1 (жк+1 (*) - (*)),
е4Ь(е+1)2 0 4с4 Ь где а = 4 С , в = , а в - произвольное положительное
число. С учетом (19) из (12) следует
(20) ^2(ук+1^)) - хо^2(ук (*)) < аУ1(жк+1(*)),
где х0 = £ + вв. Выбирая в настолько малым, что 0 < х0 < 1, и
решая разностное неравенство (20) с учетом (18), имеем
п
^Ы*)) < хПУ2(уо№) + — Е хп-кСке-Лг.
С1 к=1
Из последнего неравенства, принимая во внимание ограничения (3) на граничные условия (2), для любого > х0 получим, что 68
функция У2(уо(¿))Со ПеЛ ограничена при £ е [0, то], п = 0,1,.. Тогда с учётом второго неравенства (8)
(21)
Ы*)|2 < С<?е
о„— Л4
где (7 некоторая положительная константа. Из (18), (21) легко видеть, что справедливо (5). Теорема доказана. Рассмотрим случай, когда (1) имеет вид
Ж = АЦЖй+1(£)+ А^Щ; (¿) +
(22) + «ЫЖ^!^),^ (*Ж+1(*), Уй+1 = А21Ж^+1(^) + (¿) +
и выберем функцию накопления в виде (6) где VI (ж^^)) = жт+1(*)Р1Ж*+1(*) и VI(*)) = (*); Р и Р2 - сим-
метричные положительно определенные матрицы (обозначим это символом >-) соответствующих размерностей Р1 = Р^ > 0 и Р2 = РТ > 0, удовлетворяющие неравенству Ляпунова
(23) АТР !'0 + Р !'0А + АТР0'!А - Р0'1 + д ^ 0,
где А =
Р
= ^[Р! Р2],
Р2],д = дТ
ТТ
Р
1,0
Ац А12
А21 А22
^[Р! 0], Р0'1 = diag[0 Р2],д = дТ ^ 0. Обозначим Ж^!^) = [ж^) уТ(£)]Т и ф(Жй+!Ж^)) = [фТ(жй+!(¿),Уй(¿)) фТ(ж^+!(¿), (¿))]Т и определим вспомогательный выходной вектор для (22) в виде
(24) **+!(*) = фТ(Жй+1(;£))Р 1,0жй+1(^)+
+ фТ(Ж^))Р 0,1А Жй+!(^) +
1
0,1 ,Т/
2
Вычисляя дивергенцию векторной функции (6) получим
(25) ё1уУ (Жк+1^)) =
= Жк+1(*)Т[А—ТР1'0 + Р1'0А + А—ТР0'1 А - Р0'1]Жк+1(*) +
+ 2Жк+1(*)ТР 1,0ф(Жк+1(*))ик+1(*) +
+ 2Жк+1(*)ТА1ТР 0,1ф(Жк+1(*))ик+1(*) +
+ йк+1 (*)ТфТ(Жк+1 (¿))Р0,1ф(Жк+1(*))ик+1(*) <
^ 2хк+1(*)Тик+1(*) - Жк+1(*)Т^Жк+1(*). Из (25) следует, что система (22), (24) экспоненциально С-пассивна при С = 2/ (где / единичная матрица соответствующей размерности). Тогда согласно теореме 1 закон управления
(26)
«*+!(*) = -[/+1 фТ(Жк+1(*))Р 0,1ф(Жк+1 (*))]-1фТ(Жк+1 (*))[Р 1,0+
+ Р 0,1А4]Жк+1(*) обеспечит экспоненциальную устойчивость системы (22), (26).
2. Пассивность и стабилизация повторяющихся процессов при случайных нарушениях
В данном разделе полученные результаты распространены для случая дифференциальных повторяющихся процессов при наличии нарушений. Нарушения описываются моделью в пространстве состояний в виде скачкообразных изменений параметров или структуры, управляемых однородной марковской цепью с конечным числом состояний. Такие модели получили название систем с марковскими скачками, или систем со случайной структурой [1,15].
Пусть нелинейный дифференциальный повторяющийся процесс описывается следующей моделью в пространстве состояний
ук+1 (*) = #2(Жк+1 (*), у*(*), ик+1 (*), г(*)), где г(*) ^ 0) представляет собой марковскую цепь с дискретным числом состояний N = {1,..., V} и вероятностями перехода,
допускающими разложение
(28)
Р(г(г + т) = з | г(г) = г) =
П7т + о(т), = ^
1 + пйт + о(т), з = г,
г,3 = 1,...,^, Пу > 0, пц = - Пу и #1 и $2 - нелинейные функции, такие что для всех г е N $1 (0,0,0, г) = 0, $2(0, 0, 0, г) = 0.
Дальнейшие обозначения аналогичны принятым в (1), граничные условия по-прежнему задаются в виде (2). Введем определения экспоненциальной устойчивости и экспоненциальной С-пассивности для системы (27).
Предположим, что измерению доступен вектор г е :
(29) гй+! (г) = Л(жк+!(г),ук (г), и+1(г), г(г)),
где Л, - нелинейная функция такая, что для всех г е N Л(0, 0, 0, г) = 0. Предположим далее, что входная переменная формируется в виде (4) и при подстановке (29) в (27) функция $2 в правой части (27) удовлетворяет условию Липшица, т.е.
|<71(ж', у', р(г'), г) -01(ж", у", ^(г"), г)| < Р(|ж' - ж"| + |у' - у''|),
ж', ж" е М°х, у',у'' е МПу, где г' и г'' соответствуют значениям функции Л в точках (ж', у')(ж'', у'').
Определение 3. Нелинейный повторяющийся процесс (27), (4) называется экспоненциально устойчивым в среднем квадратическом, если для любых граничных условий (2), удовлетворяющих (3), существуют к > 0, А> 0, и 0 < ( < 1, такие, что
(30) Б[|жк(г)|2 + |ук(г)|2] < к ехр(-Аг)Ск, где Б - оператор математического ожидания.
Выберем векторную функцию накопления в виде
V! (жк+! (г),г(г))
(31) V (Жк+!(г),ук (г),г(г)) =
^2(ук (г),г(г))
где У1(ж,г) > 0, ж = 0, У2(у,г) > 0, у = 0, У1(0,г) = 0, У2(0, г) = 0, и введем операторы и £2, определяемые вдоль траекторий системы (27):
£>1^(е, П, ¿) = 11Ш (Жк+1 (Г + АГ),г(Г + АГ)-
д^о Аг
- ^1(Ж*+1(Г),г(Г)) | Жк+1(г) = £,у*(г) = П,г(г) = г], ^(£, П, г) =Е[У2(у*+1 (*),/•(*))-
- ^(у*(Г),г(Г)) | Ж*+1(Г) = £,у*(Г) = П,г(Г) = г]. Оператор £1 впервые введен в работе [2], где он получил естественное название усреднённой производной в силу системы, которое в дальнейшем, к сожалению, было утрачено и вместо него стали использоваться более формализованные названия (инфинитезимальный оператор, производящий дифференциальный оператор). Если и определяется соотношением (4) и У1(£, г) дифференцируема по £ для каждого г € N то, следуя [1,2], в силу (27) и (28) получим, что
(32) (£,п,г) = #1 (£,п, -р,г)+
V
+ Е И. ).
.7 = 1
Запишем стохастический аналог оператора дивергенции
(33) (£, п, г) = (£, п, г) + ^ (£, п, г)). Определение 4. Нелинейный дифференциальный повторяющийся процесс (27) с граничными условиями (2) называется экспоненциально С-пассивным в среднем квадратическом, если существует векторная функция (31) и положительные скалярные величины с1, с2, с3 такие, что
С11£|2 < У1(£,г) < С2|£|2, С1|п|2 < ^!(п,г) < С2|п|2,
(34) (£, П, г) < хТСи - сз(|£|2 + |п|2),
где вектор х определяется из (29), С - постоянная матрица соответствующей размерности. 72
Теорема 2. Пусть нелинейный повторяющийся процесс (27) с граничными условиями (2) экспоненциально С-пассивен в среднем квадратическом. Предположим также, что функция У удовлетворяет условию
д^(£,г)
< С4|£|
де
и существует функция <^(г) вида (4) такая, что ^>(0) = 0 и гтС^>(г) > 0, если г = 0. Тогда система (27) с граничными условиями (2) и законом управления (4) экспоненциально устойчива в среднем квадратическом.
Доказательство. Из последнего неравенства (34) с уче-
1 _
том (4) следует, что существует —3 < с3 такая, что < 1 — ^ < 1 и
(35) РУ(£,п,г) < ——з(|е|2 + |П|2).
Применяя к (35) оператор математического ожидания, с учетом свойства условных математических ожиданий и первых двух неравенств (34) получим
(36) (жк+1(*),ук + АБ[ VI (ж&+1 (¿), г (¿))] +
+ Е[У2(ук+1(*),г(*))] — СЕ[У2(ук(¿),г(^))] < 0, где А = , С = 1 — е (0,1). В силу условий регулярности, гарантированных выполнением условий Липшица по аналогии с [1] (Теорема 5.2), [2] (теорема 4.1):
д
Е[Р1У (а*+1 (*),ук (¿),г(^))] = - Е[У1(ж*+1(*),у* (4),г(^))].
Решая, с учетом этого, неравенство (36) относительно У1(ж^+1 (£)), имеем
(37) Е^ж^), г(Щ < Е[У (жк+1(0), г(0))]е-Л4—
— [ е-Л(^Е[У>(^+1(5),ф)) — СУ2(ук(*),ф))]^. Обозначим
Ж*+1(*) = Е[У1(жк+1(0), г(0))е-Л — У (ж^), г(*))],
Н (*) = Г е-Л(4-8)Е[У2(ук(«), г(«))]дз. Jo
и запишем неравенство (37) в следующем виде
(38) Н*+1(Г) < (Н(Г) + ^к+1(Г). Решая неравенство (38), получим
п
(39) Нп(Г) < СпНо(Г) + Е ^(¿)Сп-к
к=1
или
п
(40) Е Е[^1(Жк(Г),г(Г))]Сп-к+ к=1
+ Ге-Л(4-4)Е[У2(уп(5),г(5))]^5 < 0
п
< е-Л ЕЕ[^1(Жк(0),г(0))]Сп-к+
к=1
+ (п Г е-Л(4-5)Е[У2(уо(5), ф))]^. 0
Последнее неравенство эквивалентно следующему:
п
(41) еЛ* Е Е[^1(Жк(Г),г(Г))](-к+
к=1
+ С-п ГеЛ5Е[^2(уп(*),ф))]^ <
■)о
п
< С-п Е Е[^1(Жк(0),г(0))]Сп-к+
к=1
+ еЛ / е^^Е^Ы^Ф))]^. Jо
Дальнейшее повторяет заключительную часть доказательства теоремы 1 с очевидными изменениями в обозначениях. Рассмотрим частный случай системы (27):
Ж к+1(Г) = Ап(г(ГЖ+1(Г) + А12(г(Г))ук (Г) +
(42) +ф1(Жк+1(*),ук (Г),г(Г))ик+1 (Г), ук+1(Г) = А21(г(Г))Жк+1(Г) + А22(г(Г))ук (Г) +
+Ф2(ж*+1 (Г), У*(Г), г(Г))ик+1 (Г).
Выберем функцию накопления (31) с У^ж^^)) = жТ+1(*)Р1(г(*))ж*+1 (*) и (*)) = уТ(^)Р2(г(*)Ь(*), где
Р1(г) > 0 и Р2(г)(г) > 0, г е М, которые удовлетворяют следующей системе билинейных матричных неравенств
(43) АТ(г)Р (г) + Р (г)Л (г) + АТ(г)Р (г)А2(г) +
где Ах (г) =
А2(г) =
+ Е пу 11,0Р(г) — /0'1р(г) + ^(г) ^ 0, г е М,
у=1
Аи(г) А12(г) 1 1,0 = Г I 0
0 0 ]' [00
0 0 1 .0,1 _ Г 0 0
0 I
А21(г) А22(г)
Г
Р(г) = diag[Pl(г) Р2(г)] и д(г) = ^(г) ^ 0.
Обозначим — = [—т ПТ]Т, Ф(Жк+1(*), г(*)) = [фТ(жк+1 г(^)) ф^Ж^^), г(*))]Т и определим вспомогательный вектор вида
(44) **+!(*) = 2[фТ(Ж,к+1(*), г(*)К1,0Р(г(*))Ж^(*) +
+ 2фТ(Жк+1(*), К*))!0^(^^(г^Ж^Н 1
+ ^ФТ (жк+хС*), г(^))10,1Р(г(*))ф(Ж*+1(*), г(*Ж+1(*)]. Вычисляя дивергенцию (31) вдоль траекторий (42), получим
(45) РУ(—, п, г) = —Т[АТ(г)Р(г) + Р(г)А1(г) +
V
+ АТ(г)Р (г)А2(г) + £ пу I ^Р (г) — у=1
— 10,1Р(г)]— + гТи < гТи — —Гд—. Из (45) следует, что процесс (42) и (44) экспоненциально С-пассивен в среднем квадратическом при С = I. Тогда согласно теореме 2 закон управления
(46) и*+1(*) =
— [I + фТ(Жк+1(*),г)10,1Р(г)ф(Жк+1(*), г)]-1 х х ф^Ж^)^1,0Р(г) +
+ !0,1Р(г)А2(г)])Ж/+1 (*), если г(*) = г,
обеспечивает экспоненциальную устойчивость системы в среднем квадратическом. Реализация управления (46), как видно из формулы, предполагает наблюдаемость моментов смены состояний марковской цепи r(t). Если эти моменты не наблюдаемы, что часто имеет место на практике, можно попытаться построить алгоритм постоянной структуры или алгоритм оценивания состояния марковской цепи. Эти вопросы требуют отдельного самостоятельного рассмотрения.
3. Управление с итеративным обучением при наличии неопределенностей в информационном канале
В данном разделе полученные результаты применяются для построения закона управления с итеративным обучением [4, 5, 9] для линейной системы, описываемой следующей моделью в пространстве состояний:
(47) X(t) = Ax(t) + Bu(t), () y(t) = с (r(t))x(t),
где x £ Rn - вектор состояния, u £ Rm - вектор входных значений, y £ Rp - вектор выходных значений и r(t) - марковская цепь с конечным числом состояний N = {1,..., v}, соответствующим числу возможных нарушений и вероятностями перехода, описываемыми (28). Чтобы сформулировать задачу синтеза управления с итеративным обучением, введем целочисленную величину k, определяющую номер повторения, а также Uk(t),Xk(t) и yk(t) -входной вектор, вектор состояний и выходной вектор соответственно, 0 ^ t ^ T, где T - длительность повторения. Динамика системы с учетом повторений будет иметь вид
(48) X k (t) = Axk (t) + Buk (t),
(48) yk (t) = C (r(t))xk(t) с граничными условиями
(49) yo(t) = 0, 0 < t < T, Xk(0) = xo, k = 0,1,...
Пусть yre/ (t) - заданный опорный сигнал при 0 ^ t ^ T, где каждый элемент yre/ (t) дифференцируем. Тогда ek (t) = yre/(t) — 76
yk (t) - ошибка на текущем шаге k и целью является построение последовательности входных функций, таких что качество управляемого процесса будет улучшаться от повторения к повторению. Для этого достаточно, чтобы выполнялись следующие условия сходимости:
(50) lim |ek(t)| = 0, lim |ufc(t) - u<»(t)| = 0,
k^-то k^-то
где пределы понимаются в среднем квадратическом. Задачей закона управления с итеративным обучением является формирования входного управления на текущем шаге, используя информацию с предыдущего шага:
(51) uk+i(t) = ufc (t) + Aufc+i(t),
где Auk+i(t) - корректирующая поправка. Важной особенностью управления с итеративным обучением является использование информации с пройденного шага для расчёта Auk+i(t). Это позволяет использовать информацию, которая не является причинно-следственной в общепринятом смысле, а создается и хранится на предыдущем шаге. Учитывая стохастический характер нарушений, введем строгое понятие сходимости в соответствии со следующим определением.
Определение 5. Закон управления (51) системой (48) называется сходящимся, если для всех 0 ^ t ^ T
(52) E[|efc(t)|2] = E[|yre/(t) - yfc(t)|2] ^ 0, k ^ то, и
(53) E[|uk(t) - UTO(t)|2] ^ 0, k ^то.
Чтобы описать динамику управления с итеративным обучением в стандартной форме повторяющегося дифференциального процесса, введем в рассмотрение вспомогательный вектор вида
(54) Uk+i(t) = Xk+i(t) - Xk(t), и
(55) ek+i(t) - ek(t) = -C(r(t))A / (Xfe+i(T) - Xk(т))dr-
J0
- C(r(t))B / (Uk+i(T) - Uk(т))dT. J0
Тогда, с учетом того, что в силу повторяющегося характера функционирования системы Xk+i(0) = Xk(0), динамика управления с
77
итеративным обучением может быть записана в виде линейного дифференциального повторяющегося процесса с неопределённостями:
(56) иик+1(*) = + б/ Ди^т)йт,
0
ек+1(*) = —С (г(*))Лгъ+1(*) + (*) —
— С(г(*))В / Ди/+1(т)^т.
0
Эти уравнения справедливы, если С(г)В = 0, г е М, т.е., если относительный порядок системы равен единице. Для систем более высокого относительного порядка должны использоваться производные от ошибки. Техника построения 2Э-модели в этом случае продемонстрирована в разделе 4 при рассмотрении примера.
Представим корректирующую поправку в виде суммы двух компонент:
(57) Д^+1 (*) = Д 1ик+1 (*) + Д2ик+1 (*). Компонента Д^^х^) должна обеспечивать экспоненциальную устойчивость в среднем квадратическом (56) при Д2и^+1(*) = 0.
Предположим также, что вектор состояния ж доступен измерению, тогда компоненту Д1 можно сформировать в виде
(58) Дх^+хОО = ^(г)^^) + Р2(г)ёк(*), если г(*) = г.
Если (58) гарантирует экспоненциальную устойчивость в среднем квадратическом системы (56) тогда, согласно определению 5, закон управления с итеративным обучением является сходящимся.
Для нахождения матриц усиления стабилизирующего управления (г) и ^2(г), г е М, воспользуемся условиями теоремы 2. Выберем векторную функцию Ляпунова (6) где
У(^+1(*),г(*)) = иТ+1(*)Р1(г(*))ш+1(*), У2(е/(*),г(*)) = еТ(*)Р2(г(*))ек(*), при рх >- 0, Р2 >- 0. Для вычисления
стохастического оператора дивергенции V вдоль траектории системы (56) и (58) запишем, в соответствии с теоремой 2, условия экспоненциальной устойчивости в среднем квадратическом:
(59) Р(г) = ^[Р(г) Р2(г)] ^ 0, А£(г)Р(г) +
+ Р(г)Ас1(г) + ^ ^/1'°Р(;) - /°'1Р(г) +
¿=1
+ АТ2(г)Р(г)АС2(г) + ф(г) ^ 0, г е М,
где
АС2(г) =
0
0
-С(г)А - С(г)В^1(г) I - С(г)В^г(г)
АС1(г) =
А + ВД(г) 0
(г)
0
Обозначив Х1(г) = Р-1(г),Х2(г) = Р2-1(г), У = ^1(г)Х1 (г), У2(г) = .Р2(г)Х2(г), после громоздких, но простых преобразований с использованием леммы Шура о дополнении [8] получим набор линейных матричных неравенств относительно переменных Хг(г), Уг(г), I = 1,2: 5ц (г) ад) 51э(г)
(60)
512 (г) I ^Тз (г)
X 0, X ^ 0, I = 1,2, г е М,
где 5ц(г) =
00
АС12(г) АС22(г) + (АХ (г) + ВГ1(г))Т С(г)ВУ1(г), АС22(г)
-X (г) 0
0 5зз(г)
АсП(г) ВУ1(г) (ВУ1(г))Т -Х2(г)
Асц(г) = АХ (г) + ВУ1(г) +
512(г) =
Т
+ пггХ1(г), АС12(г) = -С(г)АХ1(г) -= Х2(г) - С(г)ВУ2(г), 51з(г) =
[п*Х(г)/1'° ... Х(г)/^п/^Х(г)/1'° ... 4Х(г)/1'° Х(г)], 5зз(г) = ^[-Х(1).. .-Х(г-1) -Х(г+1).. .-Х(V) -^(г)]. Таким образом, справедливо следующее утверждение.
Теорема 3. Рассмотрим систему (56) и предположим, что соотношения (60) при г е N разрешимы относительно переменных Хг(г), У(г), I = 1,2 и ^(г) = У1(г)Х_1(г) и ^(г) =
79
У2(^)Х-1(г), г е N. Тогда закон управления с итеративным обучением (51) сходится.
Доказательство. Из разрешимости (60) следует справедливость (59), что гарантирует экспоненциальную устойчивость в среднем квадратичном системы (56). Отсюда немедленно следует предельное свойство (52) и, с учетом (51), (54) и (56), предельное свойство (53), что означает сходимость закона управления (51) системой (48).
Компонента Д2Мк+1(£) в законе управления может быть использована для обеспечения пассивности и по теореме 2 это дает робастность управления относительно возможных нелинейно-стей на входе. Рассмотрим вспомогательный вектор
(61) **+!(*) = 2Вт(г(£))1 1,0Р (г(*))х*+1(*) +
+ 2В—т(г(£))/ 0,1Р (г(;))АС2(г(;))Хк+1(*)+
+ 2 Вт(г(;))/ 0,1Р (гф)в (гф)«,^),
где Хй+1(^) = [и^+1 (¿) вй(¿)]т, (¿) = /0 Д2Ий+1(т)^т,
- В
В(г(^ = _с(Г(^))В , для которого
^ (—, п, г) = —т[АТ1(г)Р (г) + Р (г)АС1(г)+
V
+ АТ2(г)Р (г)Ас2(г) + £ п. 11,0Р (г)_
.7 = 1
_ 10,1Р(г)] — + Л < Л _ —тд(г)—, где, как и ранее, — = [—т пт] .т
Тогда, согласно теореме 2, при С = I обеспечивается экспоненциальная С-пассивность в среднем квадратическом и для
(62) Д2ик+1С0 =
_ [I + Вт(г)/0'1Р(г)в— (г)]_1[Бт(г)11>0Р(г) +
+ Бт(г)10,1Р(г)А2(г)];Хк+х(^>, если г(*) = г, обеспечивается экспоненциальная устойчивость в среднем квад-ратическом. Существенно отметить две особенности, которые
могут создать определенные трудности при практической реализации алгоритма управления. Первая состоит в необходимости использования производной от ошибки. Эта принципиальная особенность управления с итеративным обучением хорошо известна и широко обсуждается в литературе [4,5,9]. Вторая особенность состоит в том, что моменты смены состояний марковской цепи, моделирующей нарушения, должны наблюдаться.
Эта особенность характерна и для обычных систем с марковскими переключениями. В широко распространенном на практике случае, когда эти моменты не наблюдаются, можно делать попытку построения алгоритма постоянной структуры, а если она оказывается безуспешной, строить алгоритм оценивания состояния марковской цепи.
4. Пример
Рассмотрим простейший жесткий однозвенный манипулятор, динамика которого в вертикальной плоскости описывается уравнением
(63) 7в = _(0, 5тд1 + Мд1)вт в + и,
где в - угол поворота звена; М - масса груза; т - масса звена; д - ускорение свободного падения; I - длина звена; 7 - момент инерции нагруженного звена; и - управляющий крутящий момент. Введем переменные состояния как х = в, Х2 = в и запишем уравнения состояния (63) в виде
(64) X = Ах + Вд(и, у), где
А =
У
д(и,у)
В=
0 1 00
Сх, С = [1 0],
0
1/7
= —(0, 5тд1 + Мд1) 8т у + и.
Предположим, что этот манипулятор выполняет операции схватывания и перемещения, т.е повторяет циклы движения одинаковой продолжительности с возвращением в начальное состо-
81
яние по окончанию каждого цикла. В этом случае с целью достижения требуемой точности перемещения, в соответствии с заданной траекторией движения 0re/ (t), можно использовать управление с итеративным обучением.
Для решения задачи управления с итеративным обучением заметим, что в силу особенностей динамики манипулятора можно предварительно воспользоваться линеаризацией обратной связью [3]. С этой целью сформируем управление из двух составляющих
(65) u = u + u,
где U - линеаризующая составляющая, U - составляющая, с помощью которой будет реализоваться итеративное обучение. Выберем
(66) U = (0,5mgl + Mgl) sin y,
тогда (64) на k-м цикле повторения запишется в виде
ж k = Axfc + Bufc,
(67) yk = Сжк.
Относительный порядок (67) равен двум, поскольку CB = 0,CAB = 0, поэтому процедура построения 2D-модели, изложенная в разделе 3, не может быть непосредственно применена здесь, но ее можно модифицировать за счет использования производной ошибки второго порядка. Обозначим
£k = ёк = Уге/-Ук, Uk+l(t) = Xk+l(t)-Xk(t), Auk+1 = uk+1 -uk,
тогда из (67) легко следует 2D-модель процесса управления с итеративным обучением:
Uk+i = Auk+i + B Auk+i,
(68) £k+i = -CA2Uk+i + £k - CABAuk+i,
Выберем корректирующую поправку в виде
(69) Auk+i (t) = KiUk+i(t) + K2^k (t).
а) Желаемая траектория
Номер шага к - - Вреияцис)
б) Выходной сигнал
Рис. 1. Выходной сигнал
Подставляя (69) в (68) получим
(70)
Ьк+1 = (А + БК1)ьк+1 + БК2ек (О, £к+1 = -(С А2 + ОАБК1)Ук+1 + + (I - САБК2)£к(Ь).
Укг)(0)= У^/(0) (г = 0,1, к = 0,1,...),
Если управление (69) обеспечивает экспоненциальную устойчивость (70) и выполнены условия
(71)
то |ек(¿)| ^ 0 при к ^ то.
Для расчетов были взяты следующие числовые данные [16]. дге/(^ = (п£2)/6 - (п£3)/27, т = 1,5 кг, М = 3 кг, д = 9,8 м/сек2, I = 0,5 м, J = М12 + 3т12 кг м2. Решая линейные матричные неравенства (60) при соответствующем их упрощении с учетом, того, что структура рассматриваемой системы постоянна, получим К1 = [-0,0001, -0,0106], К2 = 0,8330. Результаты моделирования представлены на рис. 1-2. Ошибка обучения е(£) = 9ге/(¿) - 0(£) сходится менее чем за 5 шагов.
5. Заключение
В данной статье представлены новые результаты по развитию теории пассивности и стабилизации применительно к зада-
83
Динамика изменения управления и
Динамика изменения ошибки е
"3000
Номер шага к
Бремя t (мс)
Номер шага к
о о
Бремя t(мс)
а) Управление
б) Сходимость ошибки обучения
Рис. 2. Управление и ошибка обучения
че синтеза законов управления для нелинейных повторяющихся процессов, включая случай возможных нарушений. Чтобы продемонстрировать эффективность полученных теоретических результатов, показано, как они могут быть применены для построения управления с итеративным обучением при информационных нарушениях. Эти результаты могут рассматриваться как базовые для дальнейших исследований нелинейных повторяющихся процессов, с целью более полного раскрытия их потенциала. В частности, результаты примера справедливы при точном выполнении условий (66) и (70), которые на практике, очевидно будут выполняться с определенными погрешностями, поэтому в дальнейших исследованиях здесь важную роль приобретает анализ робастно-сти полученного решения.
1. КАЦ И.Я. Метод функций Ляпунова в задачах устойчивости и стабилизации систем случайной структуры. -Екатеринбург: Изд-во Уральской государственной академии путей сообщения, 1998. - 222 с.
2. КАЦ И.Я., КРАСОВСКИЙ Н.Н. Об устойчивости систем со случайными параметрами // Прикладная математика и механика. - 1960. - XXIV. - С. 809-823.
Литература
3. ХАЛИЛ Х.К. Нелинейные системы. - М.: Ин-т компьют. исслед.; Ижевск: РХД, 2009. - 832 с.
4. AHN H.-S., CHEN Y.Q., MOORE K.L. Iterative Learning Control. Brief Survey and Categorization // IEEE Trans. Circuits Syst. I. Fundamental Theory and Application. -2007. - Vol. 37. - P. 1099-1121.
5. AHN H.-S., CHEN Y. Q., MOORE K. L. Iterative Learning Control: Robustness and Monotonic Convergence for Interval Systems. Communications and Control Engineering Series. -London: Springer-Verlag, 2007. - 230 p.
6. AZEVEDO-PERDICOULIS T.P., JANK G. Disturbance attenuation of linear quadratic OL-Nash games on repetitive proceses with smoothing on the gas dynamics // Multidimensional Systems and Signal Processing. - 2012. -Vol. 23. - P. 135-153.
7. BARTON K., KINGSTON D. Systematic Surveillance for UAVs: A Feedforward Iterative Learning Control Approach // American Control Conference (ACC'2013). - 2013. -P. 5917-5922.
8. BOYD S., EL GHAOUI L., FERON E. AND BALAKRISHNAN V. Linear matrix inequalities in control and system theory. - Philadelphia: SIAM, 1994. - 193 p.
9. BRISTOW D.A., THARAYIL M., ALLEYNE A. A Survey of Iterative Learning Control // IEEE Control Syst. Magazine. -2006. - Vol. 26. - P. 96-114.
10. BYRNES C., ISIDORI A., WILLEMS J. Passivity, feedback equivalence and the global stabilization of minimun phase nonlinear systems // IEEE Trans. Automat. Contr. - 1991. -Vol. 36. - P. 1228-1240.
11. FRADKOV A., HILL D. Exponential feedback passivity and stabilizability of nonlineaqr systems // Automatica. - 1998. -Vol. 34. - P. 697-703.
12. HADDAD W., HUI Q., CHELLABONA V., NERSESOV S. Vector dissipativity theory for discrete-time large-scale nonlinear dynamical systems // Advances in Difference
Equations. - 2001. - Vol. 1. - P. 37-66.
13. HLADOWSKI L., GALKOWSKI K., CAI Z., ROGERS E., FREEMAN C.T., LEWIN P.L. Experimentally supported 2D systems based iterative learning control law design for error convergence and performance // Control Engineering Practice. - 2010. -Vol. 18. - P. 339-348.
14. LIU Y., JIA Y. An iterative learning approach to formation control of multi-agent systems // Systems & Control Letters. -
2012. - Vol. 61. - P. 148-154.
15. MARITON M. Jump linear systems in automatic control. -N-Y: Marcel Dekker, 1990. - 320 p.
16. PAN Y.J., MARQUEZ H.J., CHEN T. Sampled data iterative learning control for a class of nonlinear networked control systems // Proc. American Control Conference (ACC'2006). -2006. - P. 3494-3499.
17. ROGERS E., GALKOWSKI K., OWENS D.H. Control Systems Theory and Applications for Linear Repetitive Processes. Lecture Notes in Control and Information Sciences.- N-Y: Springer-Verlag. - 2007.- 466 p.
18. SAMMONS P.M., BRISTOW D.A., LANDERS R.G. Iterative learning control of bead morphology in laser metal deposition processes // Proc. American Control Conference,
2013. - P. 5962-5967.
19. TUTTY O., BLACKWELL M., ROGERS E., SANDBERG R. Iterative Learning Control for Improved Aerodynamic Load Performance ofWind Turbines With Smart Rotors // IEEE Transaction on control systems technolog. -2013. - Vol. 22. - P. 967-979.
20. WILLEMS J.C. Dissipative dynamical systems part i: General theory // Arch. Rational Mech. Analysis. - 1972. -Vol. 45. - P. 325-351.
PASSIVITY BASED STABILIZATION OF NONLINEAR DIFFERENTIAL REPETITIVE PROCESSES WITH APPLICATION TO ITERATIVE LEARNING CONTROL
Mikhail Emelianov, Arzamas Polytechnical Institute of R.E. Alekseev Nizhny Novgorod State Technical University, Arzamas, postgraduate student, ([email protected]).
Abstract: Repetitive processes propagate information in two independent directions. They arise in the modeling of industrial systems such as metal rolling and can be used as a setting for control law design. The latter area has seen experimental verification for designs based on linear dynamic models. This paper addresses stabilization and disturbance attenuation for differential nonlinear repetitive processes where vector Lyapunov functions are used to characterize a physically relevant stability property and the disturbance attenuation is expressed in terms of an Hnorm. An extension to processes with failures modeled by a finite state Markov chain is also developed and applied to iterative learning control design in the presence of model uncertainty and information channel failures. An illustrative example is also given.
Keywords: repetitive process, nonlinear 2D-systems, differential nonlinear repetitive processes, passivity, stability, iterative learning control.
Статья представлена к публикации членом редакционной коллегии И.Б. Фуртатом.
Поступила в редакцию 31.01.2015. Дата опубликования 31.05.2016.