УДК 517.977
В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева
Итерационные процедуры на основе метода глобального улучшения управления
Аннотация. Рассматриваются конструктивные методы итерационной оптимизации управления на основе минимаксного принципа В. Ф. Кротова и родственные ему локализованные методы. В серии вычислительных экспериментов исследуются свойства улучшаемости и сходимости соответствующих алгоритмов. По результатам намечаются направления дальнейших исследований.
Ключевые слова и фразы: оптимальное управление, динамические системы, скользящий режим.
Введение
Практическое использование известных классических методов математической теории управления оказалось весьма ограниченным из-за сложностей реализации теоретических соотношений, описывающих искомое решение. Это послужило мотивом для разработки приближенных методов, позволяющих искать оптимальное решение напрямую, минуя условия оптимальности, посредством операций улучшения управления, повторяемых в итерационной процедуре. При этом косвенно использовались как сами основополагающие результаты теории оптимального управления, так и принципы, лежащие в их основе. В целом представление о состоянии дел и направлениях в этой области дают обзоры в недавних монографиях [1], [2] и статье [3].
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект 12-01-00256-а).
© В. И. Гурман, О. В. ФЕсько, И. С. Гусева, С. Н. Насатуева, 2014
© Институт программных систем имени А. К. Айламазяна РАН, 2014
© Бурятский государственный университет, 2014
© Программные системы: теория и приложения, 2014
Одно из направлений базируется на достаточных условиях оптимальности [4], [5] и принципе расширения [6], отличающихся значительным многообразием подходов и результатов. Спецификой является априорно приближенный подход, возможность оценивания получаемых приближенных решений и использование характерного свойства вырожденности прикладных задач и соответствующих специальных методов для поиска начальных приближений, что, как известно, является критическим моментом при использовании итерационных улучшающих алгоритмов.
В [7] сформулирована абстрактная задача улучшения: пусть на некотором множестве М, называемом основным, задан фукционал I и элемент то1 из множества О С М, называемого допустимым. Требуется найти элемент то11 € О, на котором I меньше: I(т11) < I(т1). Решая эту задачу последовательно, можно получить улучшающую, в частности минимизирующую, последовательность |тоя}. Введено понятие оператора улучшения 9(т), такого, что I(9(т)) < I(то), и неподвижного элемента: I(в(то)) = I(то). Представлена общая схема построения операторов улучшения и соответствующих итерационных процедур на основе локализации и упрощения глобальных условий улучшения и оптимальности в окрестности элемента, получаемого на текущей итерации, с анализом их общих свойств, в том числе монотонности и сходимости.
В этой статье приводятся результаты серии вычислительных экспериментов на представительных примерах, в которых исследуются свойства метода глобального улучшения управления [5, 8-11] и его локализованных версий, родственных другим локальным методам, в том числе известным градиентным методам. Основная цель — исследовать возможности улучшения характерных неподвижных элементов, таких как классические экстремали Эйлера-Лагранжа или Понтрягина (в частности, так называемых особых режимов), если они не оптимальны.
На основании этих результатов делаются практические выводы об их эффективности и намечаются направления дальнейших исследований.
1. Задачи улучшения управления дискретными и непрерывными динамическими системами
Пусть имеется динамическая управляемая система — дискретная
(1) х(г + !) = Цг ,х(г),и), ге т = [г 1,..., гр},
или непрерывная
(2) х(г) = $ (г,х,и), ье [гI,],
() х е мп, и(г) е и (г, х) с Кр, х(г 1) = х1,
при традиционных для работ прикладного направления предположениях. В частности, для непрерывных систем предполагается кусочная непрерывность и(Ь) и кусочная гладкость х(Ь). Множество решений каждой из этих систем — процессов т = (х(Ь),и(Ь)) — обозначим О. Задан функционал как некоторая непрерывная функция конечного состояния I = Р (х(Ьр)) и некоторый процесс т1. Требуется найти другой (лучший) процесс т11, такой что 1(т11) < 1(т1). Рекурсивное повторение операции улучшения приводит к итерационной процедуре, порождающей улучшающую, в частности минимизирующую, последовательность.
Эта задача решается по принципу расширения [4] заменой исходной задачи (О, I) на ее расширение (Е, Ь), где Е получается исключением дискретной или дифференциальной связи, а Ь — обобщенный лагранжиан Кротова.
Для дискретной системы имеем
-1 Е
ь = с(х(гр)) - V н(г, х(ь), и(ь)),
где
, х, и) = р(Ь + 1, , х, и)) — р(Ь, х),
С(х) = Р(х) + р(Ьр, х) — р(ЬI, х1),
р(Ь, х) — произвольная функция, определяющая функционал Ь, которая задается так, чтобы разрешалась задача улучшения.
Следуя [11], будем искать р из рекуррентных соотношений
(3) р(г ,х) = р (* + 1, ¡(г ,х,и1(г))), íе[í I,..., 1р — 1},
р(Ьр, х) = —Р(х).
Решая систему
x(t + 1) = f (t, x(t), u(t, x(t))), x(tj) = Xj,
(4) u(t,x) = arg max (f°(t + 1,f (t,x,u)) — <p°(t,x)),
tt£U(i,lI(i))
находим улучшенный допустимый процесс (xll(t), u11(t) = u(t, xu(t))). Аналогично для непрерывной задачи:
tF
L = G(x(tp)) — J R(t, x(t), u(t))dt, ti
где
G(x) = F(x) + <p(tF, x) — y(ti, x(ti)), R(t, x, u) = (t, x)f (t, x, u) + (pt(t, x).
ip(t, x) — гладкая функция, которая задается как решение задачи Ко-ши для линейного уравнения в частных производных
(5) vTx f (t, х, u1(t)) + Vt = 0, F(x) + <p(tF, x) = 0.
Решение задачи Коши для обыкновенного дифференциального уравнения
x(t) = f (t, X, u(t, x)) , x(t[) = X[,
(6) u(t,x) = arg max (R(t,x,u)),
ueu(t,xI(t))
выдаёт улучшенный допустимый процесс (xu(t), u11(t) = u(t,xu(t))).
Как видно, указанные операции улучшают или, по крайней мере, не ухудшают исходное управление. Другими словами, получается монотонная невозрастающая числовая последовательность I(ms). Если функционал I(т) ограничен снизу на множестве D, то, как известно из анализа, эта последовательность имеет предел, что означает сходимость построенного итерационного процесса по функционалу. Для линейных относительно переменных состояния задач
(7) f (t,x,u) = A(t,u)x + B(t,u), F (x) = rf^x,
<p находится в виде ip(t,x) = v(t) + фТ(Ь)х, где v(t), ф(t) получаются из решения задачи Коши для системы п +1 дискретных цепочек
ф(г) = AT(t, u1(t))^(t +1), ф(гР) = —п, v (t + 1) = BT(t, и1(г))ф(г + 1), v (tF) = о,
или обыкновенных дифференциальных уравнений
ф(г) = —Ат (г, и\г))ф(г), ф(г р) = -п,
¡>(г) = — вт(г, и1(г))ф(г), р) = 0.
Для линейно-квадратических относительно переменных состояния задач — дискретной
х(г +1) = А(г, и)х(г) + в (г, и),
(8) х0(г + 1) = х°(г) + хта(г ,и)х,
I = х0(г р) + г]тх(г р) + хт(г р )рх( гр)
и непрерывной
х = А( , и) х( ) + в( , и),
(9) х0 =хта(1 ,и)х,
I = х0(г р) + г]тх(г р) + хт(г р )рх( гр)
глобальным соотношениям (3), (5) удовлетворяют линейно-квадрати-ческие р
р(Ь, х, х0) = V(1) — х0 + ф(Ь)х + 1/2хта(1)х,
коэффициенты которых определяются подстановкой этой формы в указанные соотношения.
В общем случае нелинейных систем операторы улучшения могут строиться путем задания функции в форме многомерных степенных полиномов и такой же полиномиальной аппроксимации в заданной области соотношений (3), (5) на некоторой сетке узлов в окрестности текущего приближения. Размеры окрестности могут регулироваться по принципу локализации во взаимосвязи с порядком аппроксимирующих полиномов. Это дает возможность строить разнообразные итерационные процедуры различных порядков, в том числе — мно-гометодные, с учетом специфики конкретных задач и с ориентацией на параллельные вычисления.
2. Вычислительные эксперименты (ВЭ)
Была проведена серия ВЭ с четырьмя алгоритмами (№ 1 — № 4), реализующими метод глобального улучшения и его локализованные версии с целью изучения их поведения в окрестности неподвижных элементов.
Первые два (№ 1, № 2) — алгоритмы первого и второго порядка без локализации, улучшающие управления в непрерывных системах вида (7) и (9) соответственно.
Алгоритм № 3 — дискретный 1-го порядка, локализованный путем штрафования за отклонение от текущего приближения: исходный функционал I заменялся функционалом вида 1а = (1 — а)1 + а.1 (т — т1), где J — функционал типа нормы, 0 < а < 1.
Алгоритм № 4 — также дискретный 1-го порядка, локализованный путем сужения допустимого множества в окрестности текущего приближения.
Для алгоритмов 1-го порядка процессы, удовлетворяющие уравнениям принципа максимума Понтрягина (ПМП), являются неподвижными элементами.
В качестве тестовых примеров рассматривались следующие 4 задачи.
Задача 1 (Управление линейным осциллятором).
, , х1 = х2и, х2 = — 1 — х1 и, |и| < a, t € [0, tp], tp = 3, х(0)=х0, 1 = cx2(tp) ^ inf, c = ±1.
В качестве неподвижного элемента рассматривался особый режим ПМП:
Н = ф1х2и + ф2( — 1 — х1и) = —ф2 + (ф1х2 — ф2х1)и, ф1 = ф2и, ф2 = —ф1и, ф1(tp) = о, ф2(гp) = — с, ф1х2 — ф2х1 = 0, с1/сМ(ф1х2 — ф2х1) = 0 ArgmaxH = [—a, a],
и
ф2их2 + ф1их1 + ф1( — 1 — х1и) — ф2х2и = 0 =^ф1 =0=^ф1 =0=^и = 0=^х1 =х0 = 0.
Оптимальное решение при с = 1 получается переходом к производной системе [6]. Записывается предельная система и находится ее интеграл
¿х1 /<1т = х2и, ¿х2/<1т = —1 — х1и, у = |х|.
После удобной замены переменных х1 = у cos в, х2 = у sin в получается производная задача (1-го порядка)
у= — sin в, уо = |хо|, 1 = cy(t p )sin9(t p) ^ inf.
Ее решение (почти очевидное): sin в = -1, sin Q(tp) = —с. Из сопоставлений видно, что на [0,tp) это решение соответствует особому режиму исходной задачи, поскольку при подстановке получается u(t) = 0, и соответствующая траектория удовлетворяет заданному начальному условию: x1(t) = ж1(0) = 0. Этот режим при с = 1 дает оптимальное решение исходной задачи, поскольку x2(t) = y(t) sin Q(t) непрерывна в точке tp. При с = —1 найденный особый режим не оптимален. Заметим, что при неограниченном и на оптимальном решении производной задачи sin 9(t) в точке tp претерпевает скачок с -1 на +1, т.е. отличается от оптимального для случая с = 1 в единственной точке.
Задача 2 (Нелинейная невыпуклая задача с особыми режимами).
X1 = cosX2, X2 = и, X2 е [—к/2, —3-п/2], t е [0, 4-п], ж1(0) = 0, х2(0) = 0, |м|< 1, I = х1(А'к) ^ inf. Условия ПМП для этой задачи:
1 ОО * 1 * О 1 О
Н = ф1 cos х2 + ф2и ^ max, ф =0, ф = ф sin х ,
и
ф1 = —1, ф2 = — sin X2, ф2(4-к)=0, и = signф2, ф2 =0, и е [—1,1], ф2 =0. При ф2 =0 управление, максимизирующее Н, неединственно (особый режим). При этом из условия ф2 =0 получаем sinх2 = 0.
Рассмотрим возможные решения уравнений ПМП в области
—3ъ/2 < X2 < Зъ/2, 0 < t <
на плоскости (x2,t"j. Имеем: ф2 < 0 при 0 < х2 < п; ф2 > 0 при —п < х2 < 0. В указанной области этим уравнениям удовлетворяют решения, обозначенные номерами 1, 2, 3 на рис. 1, причем, как нетрудно видеть, имеется континуальное семейство решений типа 3 соответственно точкам схода с особого режима х2 = -к в диапазоне [0, к] и такое же множество симметричных им решений соответственно точкам схода с особого режима х2 = —п.
Два симметричных решения типа 2 — оптимальные. Это выясняется непосредственно из решения производной задачи, которая в данном случае получается исключением уравнения х2 = и. В этой задаче х2 играет роль управления, при дополнительных ограничениях х2 е [—t, t], которые представляют собой границы решений уравнения х2 = и при и е [—1, 1].
Рис. 1.
Задача 3 (Классическая невыпуклая квадратическая задача).
(11) í ((и)2 - (х)2)dt^ inf, х = и, х(0) = 0.
Jo
В стандартной форме:
(12)
X1 = (и)2 - (х2)2, X2 = и, хх(0) = х2(0) = 0, x\tF) ^ min .
В этой задаче процесс х(Ь) = u(t) = 0 оптимален при íf < к/2 и не оптимален при tf > к/2. Действительно, из условий принципа максимума
Н = фи - (и)2 + (х2)2, ф = -2х2, Ни = ф - 2и = 0
находим семейство экстремалей х2 = с sin t, а из условия ф(íf) = 0 получаем с = 0. На данном семействе экстремалей
tF
I(tF) = (с)2 j((cos t)2 - (sin t)2) dt = 1/2(с)2 sin 2tF.
o
Видно, что если tf < к/2, то минимум достигается при с = 0, а если íf > к/2, то минимума нет.
Задача 4 (Случай вырожденной 2-й вариации [12]).
х1 = (и)4 - (х2)2, х2 = и, |и|< 1, T = [0,tF],
х1(0) = 0, х2(0)=хj, х2 (tF)=х]р, х1 (tF) ^ inf .
Таблица 1.
1.2 2.1 2.3 3.2 4.2
Алг.1 2 1
Алг.2 3 2 3
Алг.3 4 8 6 9 5
Алг.4 3 3 2
Применим условия принципа максимума Понтрягина:
Н = ф1((и)4 - (х2)2)+ 'ф2и ^ max, ф1 = -1, ф2 = -2х2.
и
Рассмотрим следующее решение:
ж2 = ф2 = и = 0, Н = -(и)4 + (х2)2.
Здесь, как видно, понтрягиан имеет в точке и = 0 строгий глобальный максимум. Тем не менее, в отличие от регулярных решений, этот режим не оптимален ни на каком сколь угодно малом отрезке T [12].
Таким образом, в задачах рассматриваются по 2-3 варианта, один из которых оптимальный (обозначим его номером 1, другие (с номерами 2, 3) — не оптимальные). Соответственно этим вариантам проводилась серия ВЭ с различными из указанных алгоритмов. Поскольку алгоритмы 3 и 4 дискретные, то проводилась дискретизация рассматриваемых непрерывных задач: в алгоритме 3 посредством решений непрерывной системы при кусочно-постоянных управлениях, а в алгоритме 4 — полная по методу Эйлера.
Все варианты представляют собой неподвижные элементы для рассматриваемых алгоритмов 1-го порядка и непосредственно ими не улучшаются. Однако представляет интерес выяснение возможности улучшения небольших возмущений неподвижных элементов, на что и нацелена вся серия. Кроме того выяснялась возможность улучшения и невозмущенной неоптимальной экстремали Понтрягина в квадратической задаче методом второго порядка.
Сразу же отметим, что поскольку оптимальные элементы заведомо неулучшаемы, эксперименты с ними проводились лишь для проверки алгоритмов, и их результаты не приводятся.
Каждому ВЭ был присвоен свой шифр: [номер задачи][номер ва-рианта][номер алгоритма].
Общая сводка ВЭ дана в таблице 1. В ячейках этой таблицы указано число итераций в каждом из экспериментов.
Рис. 2.
2 Хи1 иск
1
/
4 зек
О 2 4 6 8 10 12
Рис. 3.
Таблица 2. Задача 1.2
ВЭ 1.2.1
№ 0 1 2
I -2.9996 -0.1413 -0.1413
ВЭ 1.2.3
№ 0 2 4
I -2.9996 -0.8576 -0.1414
Таблица 3. Задача 2.1
ВЭ 2.1.1
№ I 0 12.53 1 -9.42
ВЭ 2.1.3
№ I 0 12.53 2 -7.46 4 -9.31 8 -9.42
ВЭ 2.1.4
№ I 0 12.53 1 -2.21 2 -4.06 3 -8.17
3. Результаты вычислительных экспериментов
Основные результаты ВЭ представлены на рис. 2-6 и в таблицах 2-6. На рисунках в характерных координатах представлены траектории начального приближения и заключительной итерации, обеспечивающей сходимость по функционалу (13) с точностью до 1% по формуле
(13) _1з - 1з+1_
(3) шах(|и |/я+1|) •
В таблицах показано изменение функционала по итерациям.
Таблица 4. Задача 2.3
Рис. 4.
ВЭ 2.3.2
№ I 0 -3.14 1 -8.45 2 -9.40 3 -9.42
ВЭ 2.3.3
№ I 0 -3.14 2 -8.10 4 -9.39 6 -9.42
ВЭ 2.3.4
№ I 0 -1.02 1 -9.39 2 -9.40
-- х2 пасЪ
N
\ 2
\
\
\
\
Таблица 5. Задача 3.2
ВЭ 3.2.2
№ I 0 -0.06 1 -5.34 2 -6.11
ВЭ 3.2.3
№ I 0 -0.06 2 -2.05 6 -6.09 9 -6.11
Рис. 5.
4. Обсуждение
Приведенные результаты показывают, что все рассматриваемые алгоритмы:
а) улучшают возмущенный оптимальный режим до ближайшего оптимального;
б) обеспечивают улучшение возмущенных неоптимальных неподвижных элементов.
Алгоритм 3 при малых возмущениях привел к исходному неопти-
мальному элементу, а при больших — улучшил его до оптимального. Это говорит об относительной оптимальности исследуемого элемента №3 (рис. 1). Дополнительный анализ показал, что функционал инвариантен на семействе аналогичных элементов с точками схода в диапазоне (-к, к), (2-л,-л).
В ВЭ 1.1.1 управление, по крайней мере, на конечных итерациях получалось в виде скользящего режима, интегрально эквивалентного исходному особому, что характерно для данного алгоритма глобального улучшения в приложениях к задачам с линейным управлением. В [10] предложена модификация, позволяющая оперировать с особыми режимами вместо скользящих. Однако для рассматриваемой проблемы улучшаемости неподвижных элементов это принципиального значения не имеет. ВЭ 1.2.1 был повторен для других ограничений вида |м| < а, а = 2; 5; 10, чтобы проследить приближение результата к найденному оптимальному разрывному решению импульсного типа при а = то. Результаты представлены на рис. 7. При этом обнаружилась высокая чувствительность алгоритма к изменению этого параметра, что уже при а = 2 потребовало существенного повышения точности численного интегрирования соответствующих дифференциальных уравнений, но и этого оказалось недостаточно при а = 5 для его устойчивости. Выход видится в задании лучшего начального приближения посредством естественной аппроксимации разрывной траектории с последующим применением двухуровневой дискретно-непрерывной модели процесса для таких случаев [13]. В данном конкретном примере было применено более простое преобразование —
а = а =
а-
/ 71
7Т а =
/
Рис. 7.
переход к новому «времени» т по формуле
А _ 1
¿т 1 + |м|
5. Заключение
Любая экстремаль Понтрягина (решение уравнений ПМП) для рассматриваемого алгоритма глобального улучшения и его модификаций является неподвижным элементом соответствующего оператора улучшения. Однако неподвижность элемента не означает, что он не улучшаем тем же самым итерационным алгоритмом. Как показывает обширная вычислительная практика и наглядно демонстрируют проведенные вычислительные эксперименты, малое возмущение не оптимального (хотя бы локально) неподвижного элемента активизирует итерационный процесс улучшения вплоть до достижения глобального оптимума. С другой стороны, попытка улучшить оптимальный элемент за счет его малого возмущения возвращает к исходному. Иными словами, оптимальность в терминах алгоритмов улучшения непосредственно связана с устойчивостью итерационного процесса. Это относится и к таким специфическим неподвижным элементам как особые режимы экстремалей Понтрягина, где соответствующее управление в результате операции улучшения определяется неоднозначно. Более того, это обстоятельство на самом деле открывает дополнительные возможности улучшения управления. Как эти возможности могут быть использованы для повышения эффективности итерационного процесса, еще предстоит выяснить, в том числе и с использованием вычислительных экспериментов.
Список литературы
[1] А. С. Булдаев. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурятск. гос. ун-та, 2008. — 260 c. 147
[2] В. А. Срочко. Итерационные методы решения задач оптимального управления. М.: Физматлит, 2000.—160 c. 147
[3] В. И. Гурман, И. В. Расина, А. О. Блинов. Эволюция и перспективы, приближенных методов оптимального управления // Программные системы: теория и приложения : электрон. научн. журн., 2011. Т. 2(6), с. 11—29. 1-47
[4] В. Ф. Кротов, В. И. Гурман. Методы и задачи оптимального управления. М.: Наука, 1973. —448 с. 148, 49
[5] V. F. Krotov. Global methods in optimal control theory. New York: Marcel Dekker, 1996. —408 p. 148
[6] В. И. Гурман. Принцип расширения в задачах управления. М.: Физматлит, 1997. —288 c. 148, 52
[7] В. И. Гурман. Абстрактные .задачи оптимизации и улучшения // Программные системы: теория и приложения : электрон. научн. журн., 2011. Т. 5(9), с. 14-20. 148
[8] В. Ф. Кротов, В. И. Фельдман. Итерационный метод решения задач оптимального управления // Изв. АН СССР. Техн. киберн., 1983. Т. 2, с. 160— 168. 148
[9] В. Ф. Кротов. Об оптимизации управления квантовыми системами // Доклады РАН, 2008. Т. 3, с. 316-319. 148
[10] В. Ф. Кротов. Управление квантовыми системами и некоторые идеи теории оптимального управления // Автоматика и телемеханика, 2009. Т. 3, с. 15-23. 148, 58
[11] Е. А. Трушкова. Алгоритмы глобального поиска оптимального управления // Автоматика и телемеханика, 2011. Т. 6, с. 151-159. 148, 49
[12] В. И. Гурман, Ни Минь Кань. Вырожденные задачи оптимального управления. I // Автоматика и телемеханика, 2011. Т. 3, с. 36—50. 154, 55
[13] И. В. Расина. Дискретно-непрерывные модели и оптимизация управляемых процессов // Программные системы: теория и приложения : электрон. научн. журн., 2011. Т. 5(9), с. 49-72. 158
Рекомендовал к публикации д.ф.-м.н. Ю.Л. Сачков
Об авторах:
Владимир Иосифович Гурман
Доктор технических наук, главный научный сотрудник ИПС им. А.К. Айламазяна РАН
e-mail: [email protected]
Олесь Владимирович Фесько
Кандидат технических наук, инженер ИПС им. А.К. Айла-мазяна РАН
e-mail: [email protected]
Ирина Сергеевна Гусева
Ассистент кафедры прикладной математики Бурятского Государственного Университета
e-mail: [email protected]
Соелма Номтоевна Насатуева
Аспирант Бурятского Государственного Университета по направлению «Математическое моделирование, численные методы и комплексы программ»
e-mail: [email protected]
Образец ссылки на эту публикацию:
В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева. Итерационные процедуры на основе метода глобального улучшения управления // Программные системы: теория и приложения: электрон. научн. журн. 2014. T. 5, №2(20), с. 47-61.
URL: http://psta.psiras.ru/read/psta2014_2_47-61.pdf
Vladimir Gurman, Oles Fesko, Irina Guseva, Soelma Nasatueva. Iterative procedures based on the method of global control improvement.
Abstract. Constructive methods of iterative control optimization on the basis of V. F. Krotov's minimax principle and related to it the localized methods are considered. In a series of computational experiments properties of improvement and convergence of the corresponding algorithms are investigated. By results the directions of further researches are outlined. (in Russian).
Key Words and Phrases: optimal control, dynamic systems, sliding mode.