УДК 517.977
О. В. Моржин Методы нелокального улучшения в задачах оптимального управления на основе точных формул приращения
Аннотация. Статья посвящена методам нелокального улучшения в задачах оптимального управления. Приведены примеры.
Ключевые слова и фразы: управляемые системы, нелокальное улучшение.
Введение
Рассматриваются общие нелинейные задачи оптимального управления [25] для непрерывной
(1) х(£) = /(£, х(£), и(£)), х(£0) = х0, и(£) € и, при £ € [¿0,^1] и дискретной
(2) х(£ + 1) = /(£, х(£), и(£)), х(£0) = х0, и(£) € и,
при £ € {¿0,£о + 1, ...,¿1 — 1} систем с целевыми критериями
t1
(3) I(у) = Д(х(£1)) + У / 0(£, х(£), и(£))Л ^ М,
to
¿1-1
(4) I (у) = д (х(*1))+ £ /0(£, х(£), и(£)) ^ inf,
ь=ьа
соответственно, где х(£) € Д”, и(£) € Дг. Моменты ¿0, ¿1 и состояние
х0 заданы. Множество и С Дг выпуклое. Функции Д(х), /0(£, х,и), /(¿, х,и) удовлетворяют стандартным условиям [12,25,30].
Обозначим через М множество допустимых управлений, через
V—множество допустимых процессов. В задаче (1), (3) рассматриваются кусочно-непрерывные управления. В рамках оптимизационных
Работа выполнена при финансовой поддержке РФФИ (проект 10-01-90718-моб_ст).
© О. В. Моржин, 2010
© Программные системы: теория и приложения, 2010
задач (1), (3) и (2), (4) изучается задача улучшения заданного процесса v1 = (ж1,«1} G D: требуется вычислить процесс v11 = (ж11,«11) G D такой, что приращение Д/(v11) = /(v11) — /(v1) < 0 [6,15,16,28,32].
Значительный вклад в становление и развитие теории оптимального управления внесли отечественные научные школы. В начале 1950-х гг. А.А. Фельдбаум впервые сформулировал общую задачу оптимального управления дифференциальными системами, а затем Л.С. Понтрягиным и учениками был предложен и обоснован принцип максимума - необходимое условие оптимальности 1-го порядка [12]. В 1959 г. Л.И. Розоноэром дано доказательство принципа максимума, отличающееся от подхода группы Л.С. Понтрягина, и состоящее в изучении приращения целевого функционала [12].
В начале 1960-х гг. В.Ф. Кротовым [15, 16] предложены достаточные условия оптимальности с разрешающей функцией (Кротова). Принцип максимума Л.С. Понтрягина следует при линейной по фазовой переменной разрешающей функции. В середине 1960-х гг. Р.Ф. Габасов получил необходимое условие оптимальности 2-го порядка для непрерывных процессов [12]. Впервые аналог принципа максимума Л.С. Понтрягина в дискретных системах был получен в 1959 г. Л.И. Розоноэром для линейных по состоянию систем. Им же высказано сомнение в возможности перенесения результата на нелинейные системы. В 1963 г. А.Г. Бутковским построен пример, в котором функция Гамильтона на оптимальном процессе имеет лишь локальный максимум. Достаточные условия, при которых справедлив дискретный принцип максимума, установлены Р.Ф. Габасовым, А.И. Пропоем [12,25,27].
Одновременно в трудах В.Ф. Кротова, В.И. Гурмана развита теории достаточных условий оптимальности дискретных процессов [13, 15,16,32].
Начиная с 1960-х гг. было разработано большое число разнообразных численных и приближенных методов решения задач оптимального управления дифференциальными и дискретными системами в трудах А.П. Афанасьва, В.А. Батурина, А.С. Булдаева, О.В. Васильева, В.И. Гурмана, В.Ф. Демьянова, В.В. Дикусара, Н.Н. Кра-совского, В.Ф. Кротова, И.А. Крылова, А.И. Пропоя, Б.Н. Пшеничного, В.А. Срочко, A.B. Тятюшкина, Р.П. Федоренко, Ф.Л. Черно-усько, Л.И. Шатровского, Т.М. Энеева и многих других [1,5,6,8-19, 25,27-32]. Основой ряда методов выступило доказательство принципа максимума, данное Л.И. Розоноэром.
В рамках теории В.Ф. Кротова поиск разрешающей функции в линейной и линейно-квадратической по состоянию формах дал возможность в работах В.Ф. Кротова, В.И. Гурмана, В.А. Батурина [5, 13, 16, 17, 32] построить итерационные методы улучшения 1-го и 2го порядков были обозначены подходы к нелокальному улучшению в задачах оптимального управления. В методах нелокального улучшения, в отличие от методов условного градиента и других методов локального улучшения, не рассматриваются (трудоемкие) операции варьирования управления относительно улучшаемого управления с параметрическим поиском.
Конструктивной основой нелокального улучшения в различных классах задач оптимального управления является получение точных (без остаточных членов разложений по ж, u) формул приращения целевых функционалов. А.С. Булдаевым, В.А. Срочко [6, 28] были получены результаты по нелокальному улучшению в линейных, линейно-квадратических и полиномиальных по состоянию задачах оптимального управления на основе точных формул приращения. Открывается возможность улучшения неоптимальных управлений, удовлетворяющих принципу максимума. А.В. Аргучинцевым подход реализован в классе задач оптимального управления гиперболическими системами [2].
Начиная с работы А.Н. Тихонова [29], значительное внимание уделяется способам регуляризации методов улучшения и оптимизации. В монографии [28] В.А. Срочко рассматривается подход, названный фазовой регуляризацией, в соответствии с котором вводится параметризованный целевой функционал с фазовым отклонением. Подход позволяет регулировать фазовое варьирование, получаем возможность улучшения неоптимальных экстремалей. Подход В.А. Сроч-ко представляет частную реализацию принципа локализации, ранее предложенного и примененного В.И. Гурманом, В.А. Батуриным [5, 13] при построении методов улучшения, основанных на условиях оптимальности В.Ф. Кротова.
Наряду с методами оптимизации, действующими в функциональных пространствах, применяются методы, основанные на редукции к задачам конечномерной оптимизации большой размерности за счет частичной (по управлению) или полной (по управлению и состоянию) дискретизации [14,31]. В редуцированной задаче применяется богатый арсенал методов конечномерной оптимизации.
В работах В.Ф. Кротова, В.И. Гурмана, В.А. Батурина, А.С. Бор-таковского и других теория достаточных условий оптимальности и соответствующие методы перенесены на многоэтапные процессы, дискретно-непрерывные, логико-динамические системы [4,13,25], а также в работах А.Л. Ащепкова -- на задачи оптимального управления дифференциальными системами с разрывной правой частью [3].
Конструктивным представляется мультиметодный подход, позволяющий в последовательном и/или параллельном режиме организовать решение задачи оптимального управления разными методами.
Несмотря на многообразие методов решения задач оптимального управления, представляется актуальной разработка методов нелокального улучшения в классах общих нелинейных непрерывных и дискретных задач (1), (3) и (2), (4) на основе точных формул приращения целевых функционалов [7,20-22].
1. Точные формулы приращения, специальные сопряженные системы
Основой аппарата улучшения управлений в непрерывной задаче (1), (3) выступает обобщенный лагранжиан [15,32]
tl
L(v) = G(x(ti)) — j R(t, x(t), u(t))dt,
to
G(x) = F (ж) + y>(ti, ж) — y>(to, жо),
R(t, ж, u) = (y>x(t, ж), f (t, ж, u)) — f 0(t, ж, u) + ^t(t, ж),
где функция <^(t, ж) непрерывная по (t, ж), непрерывно-дифференцируемая по ж и кусочно-дифференцируемая по t G [to, ti]. Для любых y>(t,ж) и v = (ж,u) G D имеем L(v) = /(v) [32].
Аналогично, для дискретной задачи (2), (4) рассматриваем [32]
ti-i
L(v) = С(ж(^)) — R(t, ж(t), u(t)),
t=to
С(ж) = F (ж) + y>(ti, ж) — y>(to, жо),
R(t, ж, u) = y>(t + 1, f (t, ж, u)) — y>(t, ж) — f0(t, ж, u).
В нелинейных задачах (1), (3) и (2), (4) с линейной по ж функцией y>(t, ж) = (р^),ж) получены А.С. Булдаевым и автором точные (без остаточных членов разложений) формулы приращения целевых функционалов (3), (4) при специальных дифференциально-и-дискретно-алгебраических сопряженных системах [7,21]. Функция y>(t, ж) = (р^),ж) становится разрешающей — функцией Кротова [16, 32].
Точные формулы приращения в непрерывной задаче (1), (3): tl
(5) A/(v) = — J (H(t^t^^Xt)) — H(t,p(t),ж(t),uI(t))) dt,
to
ti
(6) А/(v) = — J (Hu(t,p(t),x(t),uI(t)) + d(t), Au(t))dt.
to
Дифференциально-алгебраическая сопряженная система в связи с формулой (5):
(7) P(t) = —Hx(t,p(t), жI(t), uI(t)) — r(t),
p(ti) = — Fx^^ti)) — q,
(8) H (^(^ж^У^)) — H (^(^ж^УИ) =
= (Hx^y^y^y (t)), Аж) + (r(t), Aж(t)),
(9) F(ж(У) — F(жI(tl)) = (Fr^ti)), Aж(tl)) + (q, Aж(tl)).
Дополнительное уравнение к сопряженной системе (7) --(9) в связи с (6):
(10)
H(t,p(t), ж^), u(t)) — H(t,p(t), ж^), uI(t)) =
= (H„(t,p(t), ж(t), uI(t)) + d(t), Au(t)).
Точные формулы приращения в дискретной задаче (2), (4) [21]:
tl-i (
A/(v) = — I- (H(t,P(t + У^У^Ь
(11) t=to )
—H(t,p(t + 1), ж^), uI(t)^, ti — i
(12) A/(v) = — ^ (H„(t,p(t + 1), ж^), uI(t)) + d(t), Au(t)).
t=to
Дискретно-алгебраическая сопряженная система к (11):
( ) p(t) = Hx (t,p(t + 1),жI(t),uI(t)) + r(t),
p(ti) = — Fx^^ti)) — q,
( ) H(t,p(t + 1), ж^),^^)) — H(t,p(t + 1), жI(t),uI(t)) =
= (Hx(t,p(t + 1),жI(t),uI(t)), Aж) + (r(t), Aж(t)),
(15) F(ж(tl)) — F(жI(tl)) = (Fx(жI(tl)), Aж(tl)) + (q, Aж(tl)).
Дополнительное уравнение к сопряженной системе (13) — (15) в связи с (12):
(16) H(t,P(t + 1),ж(^, u(t)) — H(t,p(t + ^ж^),^^)) =
= (H„(t,p(t + ^ж^),^^)) + d(t), Au(t)).
Максимизирующее и проекционные зависимости в непрерывной задаче (1), (3):
u* (t, p, ж) = arg max H(t, p, ж, u),
uEU
u“(t,p, ж) = Pu (uI(t) + a(Hu(t,p, ж, uI(t)) + d(t))),
A“(u(t)) = Pu (uI(t) + а^и^р^ж^), uI(t)) + d(t))),
Aa,T (u(t)) = Pu (u(t) + т (Aa(u(t)) — u(t))), т = 0, а > 0, t G [to, ti].
Оценки приращения A/(v) в контексте (5) — (16) [20]:
tl
(v)S-i/ l|A“(u(t)) - u^"2'
Д/(«) <------/ ||А“(м(£)) — и1^)!2^,
а ]
¿0
Д1 (V) < —1 / ||А“’Т(«(¿)) — и1^)!!2^. а ]
¿0
В дискретной задаче (2), (4) оценки аналогичные.
2. Условия и процедуры улучшения
Далее изложение методики нелокального улучшения ограничивается случаем непрерывной задачи (1), (3), поскольку в дискретных задачах имеем аналогию.
В терминах формул приращения и специальных сопряженных систем формулируются (достаточные) условия улучшения процесса
V1 е V.
Сформулируем общее условие улучшения в непрерывной задаче
(1), (3).
Утверждение. Для того, чтобы в непрерывной задаче (1), (3) процесс V11 = (ж11,^11) е V был лучше заданного процесса V1 е V, достаточно существования такой функции ^(£,ж), при которой
ДС(жп(£х)) = С(жп(£х)) — ^(ж1^!)) < 0,
ДЯ(£,жп(£),ип(£)) = й(£,жп(£),ип(£)) — .Я^ж1^),^1^)) > 0
V* е [¿о,^],
причем функция ДЯ(£,жп(£),ип(£)) > 0 на некотором ненулевой меры подмножестве из [¿о ,¿1].
Данное утверждение в терминах полученных конструкций для задачи (1), (3) может быть представлено в форме операторных уравнений в пространстве управлений [20]:
(17) и = Аа(и), и = Аа’Т(и), и е и,
где и — класс ^-измеримых управлений.
Реализация условий улучшения, с учетом свойств максимизирующих и проекционных зависимостей, представляет методы нелокального улучшения [20] двух категорий: 1) решение краевых задач для сопряженных систем, связанных с фазовыми системами максимизирующим или проекционным отображениями; 2) построение последовательных проекционных приближений в пространстве (u) для решения операторных уравнений (17). На рис. 1 схематически представлены процедуры нелокального улучшения.
Изучены вопросы сходимости последовательных приближений к выполнению условий улучшения. Развивая подход, названный В.А. Срочко фазовой регуляризацией [28], рассмотрим вспомогательный целевой критерий [21]
tl
(18) IY (v, v1) = I(v) + 71||ЛДж(£1)||2 + Y2 J ||SAx(t)||2dt ^ inf,
to
где Yi,Y2 > 0; Л, S — диагональные матрицы, причем по главной диагонали 0, 1.
Модифицированная сопряженная система [21]:
(t) = -Hx(t,pY(t),xI(t),uI(t)) - rY(t,pY(t),xY(t)),
(ti) = -Fx(xI(ti)) - (x(ti)),
H(t,pY(t),x(t),uI(t)) - 72|SДж(t)|2 - H(t,pY(t),xI(t),uI(t)) =
= (Hx(t,p7(t),xI(t),uI(t)), Дж(^) + (rY(t,pY(t),xY(t)), Дж^)),
F(x(ti)) + Yi||ЛДж(^)||2 - F(xI(ti)) =
= (Fx(xI(ti)), Дж(^)) + (qY(x(ti)), Дж(^)).
Формула приращения функционала (2) в связи с (18):
Д1 (v) = ^1||ЛДж(^)||2-
ti
- / (H(t,pY(t),x(t),u(t)) - H(t,pY(t),x(t),uI(t)) + Y2||ЕДж^)||2)dt.
to
Пример 1 (улучшение неособой экстремали Понтрягина). Требуется улучшить процесс (xI(t) = 0, uI(t) = 0) в невыпуклой задаче
П
I = / (м2 - ж2) dt ^ inf, ж = u, ж(0) = 0, u(t) G Д, t G [0, п].
0
Применены процедуры, основанные на решении краевых задач для дифференциально-алгебраических систем с максимизирующим и проекционным отображениями.
В случае максимизирующего отображения положительный результат достигается [21] после модификации с целевым функциона-
П П
лом I7 = J(u2 — x2)dt + 72/(Ax(t))2dt, 72 > 0.
0 0
В случае проекционного отображения параметр проектирования а > 0 позволяет регулировать вопрос о разрешимости краевой задачи, и в результате без модификации получаем улучшение экстремали.
Предложенные методы применяются при решении более сложных задач, например по аппроксимации множеств достижимости [23, 24].
3. Вычислительные эксперименты
Сравнительная эффективность того или иного метода зависит от алгоритмов, используемых для решения вспомогательных задач (интегрирование дифференциальных систем, интерполяция и т.д). Так, в методе игольчатой линеаризации [9,11,28] рассматривается вспомогательная задача минимизации функции от параметра игольчатого варьирования, причем эта функция не обязана быть унимодальной; и от качестве решения этой вспомогательной задачи зависит эффективность самого метода. За единицу трудоемкости взято решение задачи Коши отдельно для фазовой и сопряженной систем. Трудоемкость того или иного метода зависит от алгоритмической реализации метода.
В плане изучения сравнительной эффективности автором проведена программно-алгоритмическая реализация новых, нелокальных методов и стандартных методов условного градиента, проекции градиента, игольчатой линеаризации [9,10,28,30].
Программа разработана на языке Fortran современного стандарта, ориентирована на Microsoft Visual Studio 2008 [26] с интегрированным компилятором Intel Visual Fortran 11 (2009). Современная среда программирования позволяет автоматически распараллеливать потоки (директива /Qparaiiei компилятору в Windows), что существенно повышает скорость выполнения программы. Вообще говоря, распараллеливание — это современный инструмент вычислительных экспериментов.
Программа достаточно универсальная: постановка задачи вида (1), (3) осуществляется в отдельном fQO-файле, в основной программе используются абстрактные конструкции с динамическими массивами, а при выполнении программы из указанного файла передаются конкретные данные. Результаты расчетов записываются в текстовый файл resuits.m по правилам представления массивов в языке Matlab. Открывается возможность применения средств системы Matlab 7 по графической визуализации числовой информации и обработке графики. Программа по ходу расчетов создает протокол в XML-формате.
Решены тестовые задачи оптимального управления дифференциальными системами: стабилизация маятниковых систем (с учетом трения и без); стабилизация шагового электродвигателя при минимальных энергозатратах; стабилизация вращения спутника в тремя реактивными двигателями, моделируемого при помощи управляемых уравнений типа Эйлера; оптимизация управления потоком хладагента в химическом реакторе; максимизация массы выходного продукта химической реакции; типовые задачи при реализации алгоритма сечений по аппроксимации границ множеств достижимости.
3.1. Оптимальное управление потоком хладагента в химическом реакторе
Рассматривается задача [31, с. 407 - 409] стабилизации химического реактора, представляющего собой аппарат с мешалкой и подведенным каналом поступления хладагента:
0.78
I = / (ж2 + x|) dt ^ inf,
о
25xi
xi = —2(xi + 0.25) + (x2 + 0.5) exp----------— (xi + 0.25)u,
xi + 2
xi(0) = 0.05,
25xi
x2 = 0.5 — x2 — (x2 + 0.5) exp ——-, x2(0) = 0,
x1(0.78) = 0, x2(0.78) = 0, u(t) e [—1,1], t e [0,0.78].
Функции xi(t), X2(t) описывают соответственно отклонения температуры и концентрации. Управление u(t) характеризует поток хладагента, регулирующего необратимую экзотермическую реакцию.
В книге [31, с. 407 - 409] производится редукция к задаче конечномерной оптимизации за счет дискретизации по функциям состояния и управления, замены производных конечными разностями по схеме Эйлера. Число моментов дискретизации не указано. Конечно, такая схема является грубым приближением непрерывной задачи, но при реализации более точных схем интегрирования задача конечномерной оптимизации получилась бы сложнее. В книге указаны следующие результаты: I* « 0.00220, xi(0.78) = -6.167 • 10-6, x2(0.78) = -0.631 • 10-6.
Следуя методу штрафов, перейдем к вспомогательной задаче со свободным правым концом при достаточно большом фиксированном штрафном коэффициенте в > 0:
Iв = в(ж1(0.78) + x2(0.78)) + x3(0.78) —— inf,
25xi
xi = —2(xi + 0.25) + (x2 + 0.5) exp----------— (xi + 0.25)u,
xi + 2
xi(0) = 0.05,
25xi
x2 = 0.5 — x2 — (x2 + 0.5) exp ——-, x2(0) = 0, x3 = x2 + x2, x3(0) = 0, u(t) G [—1, 1], t G [0, 0.78].
Функция Понтрягина и ее градиенты (символ “в’ не пишем):
25xi
H = pi Г — 2(xi + 0.25) + (x2 + 0.5) exp-----------(xi + 0.25)w] +
xi + 2
Г / \ 25xi и г 2 21
+P2 0.5 — x2 — (x2 + 0.5) exp-------- + P3\x1 + x2 ,
xi +2
г 25xi i 50 25xi
[exp xr+21 ■■ '(xr+ipexp '
50(x2 + 0. 5) 25x1
Hxi = (Pi — P2) 7---, 0S2 exP------— (2 + u)Pi + 2P3xb
(xi + 2)2 xi + 2
25x1
Hx2 = (Pi — P2) exp-----— — P2 + 2P3x2, Hx3 =0,
xi + 2
H„ = —Pi(xi + 0.25).
Стандартная сопряженная система имеет вид
• 50(x2 +0.5) 25xi ,
' = W'2 - *) (xi + 2)2 eXP XT+2 +
+(2 + u)'i — 2'зХ1, 'i(0.78) = —2вхг(0.78),
25xi
'2 = ('2 — '1) exp-— + '2 — 2'зХ2, '2(0.78) = -2^x2(0.78),
xi + 2
¿•3 = 0, 'з(0.78) = —1.
Проекционные приближения в пространстве управлений на основе дифференциально-алгебраической сопряж.ен-ной системы [20]
г / т 50 25x1 ,
и = I2 — (х2 + »■5> (ХГ+2)2 exp хг+^ + ”Ь+
x2 + 0.5 25x1 т
+50P2 , т 2 exP -Y-— — 2P3xi — гъ (x1 + 2)2 xl +2
25x1 г 25x1 , т
P2 = —Pi exp т + Р2 1 + exp т — 2рзХ2 — Г2,
xl + 2 xl + 2
P3 = —гз, Pi(0.78) = —2^x|(0.78) — qi, i = 1, 2, рз(0.78) = —1 — 93,
3 3
£(i,p,x) = ^ Hxi(t,p, хт, мт)Дх* + ^ Гдх*, i=1 i=1
3
в Г(Дхг)2 + (Дх2 )2] + Дх3 = Дх3 + ^ д^Дх*,
i=1
£(t,p, x) = H(t,p, x, ит) — H(t,p, хт, ит) =
= —ргДхг(2 + U) + (х2 + 0.5) exp 25x1 [pi — P2]+
xi + 2
т 25xi г ,
+ (х2 + 0.5) exp |р2 — PiJ — P2 Дх2 +
Xl + 2
+P3 [(xi + х1)Дх1 + (x2 + х2)Дх2.
Функция Понтрягина не зависит от X3, и полагаем r3(t) = 0. Если Дхг(£) =0 и Дх2(4) = 0, то можно положить, например, Г2 (t) = 0. И тогда определяем
ri(t,p,x) = Д— [£(i,p,x) — Hx2 (¿,р,хт ,ит)Дх2, — НЖ1 (¿,р,хт,мт).
Если одна компонента Дж®(і) =0, і Є 1, 2, а другая компонента, Дж](і), не равна нулю, то рассматриваем
Г](і,Р,ж) = -1-£(і,р,ж) - Нхі(¿,р,жт,мт), гі(і) = 0.
Дж]
Если Джі(і) = 0, Дж2(і) = 0, то считаем г(і) = 0.
Терминант функционала Iв линеен по жз, и считаем дз =0. Полагаем вДх* — ф =0, і =1, 2. Тогда д®(ж) = вДж®.
При гз(і) = 0, дз = 0 определяем рз(і) = —1.
Вспомогательная система получается вида
г / т 50 25ж1 т
Рі = [2 — (ж2 + 0.5) (жі + 2)2 ехР ЖГ+-2 + МЬ+
ж2 + 0.5 25ж1 т _
+50Р2, і , 0ч2 ехР^Г^ + 2жі — rl(t,P,ж),
(жі + 2)2 жі + 2
25ж1 г 25ж1 т т _
Р2 = —Рі ехр т + р2 1 + ехр т І +2ж2 — Г2(і,р,ж), жі + 2 жі +2
Р®(0.78) = —в(ж,(0.78) + жї(0.78)), і = 1,2.
Организуем итерационный процесс
и(к+і)(і) = и(к)(і) + т (А“(и(к)(і)) — «(к)(і)),
А“(м(к)(і)) = Р[_і,і] («т(і) — арік)(і)(жік)(і) + 0.25)), а > 0, т Є (0,1], к > 0,
где функции ж(к)(і), р(к)(і) находятся в результате интегрирования фазовой и сопряженной систем на текущем приближении.
Таблица 1.
Метод Задачи Коши Значение I жі(0.78) ж2(0.78)
МНУ 90 2.0084 • 10_з — 2 -I СО -I 1 о 1 —4.3140 • 10_4
МУГ 96 2.2553 • 10_з 2.2773 • 10_з 2.3493 • 10_з
Пусть в = 2, а = 90, т = 0.05 и начальное приближение м1^) = 1. Шаг дискретизации Д£ = 10-3.
Ценою решения 90 задач Коши получаем Ж]_(0.78) = -7.2737 • 10-4, ж2(0.78) = -4.3140 • 10-4, ж3(0.78) = 2.0084 • 10-3. На рис. 2 представлен расчетный оптимальный процесс.
Расчет стандартным методом условного градиента. Погрешность метода золотого сечения 10-3 в схеме параметрической оптимизации. На 5-й итерации метод условного градиента (МУГ) имеем Ж1(0.78) = 2.2773 • 10-3, х2(0.78) = 2.3493 • 10-3, х3(0.78) = = 2.2553 • 10-3 с трудоемкостью 96 задач Коши. На 27-й итерации МУГ вычисляем х1(0.78) = -4.7247 • 10-4, х2(0.78) = -2.4720 • 10-3, х3(0.78) = 2.0003• 10-3 с трудоемкостью 514 задач Коши; на 53-й итерации МУГ дает х1(0.78) = -6.7428 • 10-4, х2(0.78) = -1.9587 • 10-3, х3(0.78) = 1.9947 • 10-3 ценою решения 1008 задач Коши. В таблице 1 сведены сравнительные результаты. Проекционный метод нелокального улучшения (МНУ) оказывается менее трудоемким.
Заключение
В классах общих нелинейных задач оптимального управления дифференциальными системами предложены точные формулы приращения и дифференциально-алгебраические сопряженные системы в результате преобразования обобщенного лагранжиана при функции Кротова, линейной по переменной состояния. Полученные конструкции модифицированы на основе параметризованного целевого функционала с фазовым отклонением; приращение исходного целевого функционала выражено в терминах модифицированного. Сформулированы условия нелокального улучшения в форме функциональных уравнений в пространстве управлений.
Разработаны методы нелокального улучшения для реализации условий нелокального улучшения за счет построения последовательных приближений (проекционных и максимизирующих) в пространстве управлений, а также в результате решения специальных краевых задач. Проведена регуляризация методов нелокального улучшения на
основе специальных параметризованных комбинаций в пространстве управлений.
Предложенные методы нелокального улучшения распространены на класс общих нелинейных задач оптимального управления дискретными системами.
Проведено исследование сравнительной эффективности методов нелокального улучшения в вычислительных экспериментах по тестовым задачам (оптимальное управление колебаниями маятников, электродвигателем, вращением спутника, химическими реакторами), включая иллюстрацию возможности улучшения особых и неособых управлений, удовлетворяющих принципу максимума.
Представляется перспективным распространение подхода на классы гибридных систем (непрерывно-дискретные, логико-динамические) в контексте современных исследований по сложным задачам оптимального управления.
Список литературы
[1] Антоник В. Г., Срочко В. А. Метод нелокального улучшения экстремальных управлений в задаче на максимум нормы конечного состояния // Журн. вычисл. математики и мат. физики, 2009. 49, № 5, с. 791—804. Т[]
[2] Аргучинцев А. В. Решение задачи оптимального управления начальнокраевыми условиями гиперболической системы на основе точных формул приращения // Изв. вузов. Математика, 2002, № 12, с. 23—29. Т[]
[3] Ащепков Л. Т. Оптимальное управление разрывными системами. М. : Наука, 1987, 227 с. |[]
[4] Батурин В. А., Малтугуева Н. С. Метод слабого улучшения первого порядка для задач оптимального управления логико-динамическими системами // Изв. Иркутского гос. ун-та. Математика, 2009. 2, № 1, с. 83—93. Т[]
[5] Батурин В. А., Урбанович Д. Е. Приближенные методы оптимального управления, основанные на принципе расширения. Новосибирск, 1997, 175
с. Т[]
[6] Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ, 2008, 256 с. Т[]
[7] Булдаев А. С., Моржин О. В. Улучшение управлений в нелинейных системах на основе краевых задач // Изв. Иркутского гос. ун-та. Математика, 2009. 2, № 1, с. 94-107. Т[], 1
[8] Булдаев А. С. Нелокальное улучшение управлений в линейных по состоянию системах с терминальными ограничениями // Автоматика и телемеханика, 2009, № 5, с. 7-12. Т[]
[9] Васильев О. В. Лекции по методам оптимизации. Иркутск : Изд-во Иркутск. ун-та, 1994, 344 с. Т3
10
Васильев О. В., Аргучинцев А. В. Методы оптимизации в задачах и упражнениях. М. : Физматлит, 1999, 208 с. Î3
Васильев О. В., Тятюшкин А. И. Об одном методе решения задач оптимального управления, основанном на принципе максимума // Журн. вы-числ. математики и мат. физики, 1981, № 6, с. 1376—1384. |3 Габасов Р., Кириллова Ф. М. Качественная теория оптимальных процессов. М. : Наука, 1971, 508 с. Î[]
Гурман В. И. Принцип расширения в задачах управления. М. : Наука. Физматлит, 1997, 288 с. Î[]
Евтушенко Ю. Г. Методы решения экстремальных задач и их применение в системах оптимизации. М. : Наука, 1982, 432 с. Î[]
Кротов В. Ф., Букреев В. З., Гурман В. И. Новые методы вариационного исчисления в динамике полета. М. : Машиностроение, 1969, 288 с. |[], 1 Кротов В. Ф., Гурман В. И. Методы и задачи оптимального управления. М. : Наука, 1973, 448 с. Î[], 1
Кротов В. Ф., Фельдман Н. Н. Итерационный метод решения задач оптимального управления // Изв. АН СССР. Техн. киберн., 1983, № 2, с. 160—168.
ÎD
Любушин А. А., Черноусько Ф. Л. Метод последовательных приближений для расчета оптимального управления // Изв. АН СССР. Техн. киберн., 1983, № 2, с. 147-159. Î
Мордухович Б. Ш. Методы аппроксимаций в задачах оптимизации и управления. М. : Наука, 1988, 360 с. Î[]
Моржин О. В. Методы нелокального улучшения управлений дифференциальными и дискретными системами // Управление, информация и оптимизация : Сб. тр. II Всерос. традиционной молодежной летней школы. — М. : Изд-во ИПУ РАН, 2010. Î[], 1, 2, 2, 3.1
Моржин О. В. Нелокальное улучшение нелинейных управляемых процессов на основе достаточных условий оптимальности // Автоматика и телемеханика, 2010, № 8, с. 24-37. Î1, 1, 2, 2
Моржин О. В. Нелокальное улучшение управлений нелинейными дискретными системами // Программные продукты и системы: теория и приложения, 2010. 1, http://psta.psiras.ru/2010/01(001)/r1/0002.pdf. Î[]
Моржин О. В., Тятюшкин А. И. Алгоритм метода сечений и программные средства для построения множеств достижимости // Изв. РАН. Теория и системы управления, 2008, № 1, с. 5-11. Î2
Моржин О. В., Тятюшкин А. И. Аппроксимация множеств достижимости и разрешимости нелинейных управляемых дифференциальных систем // Мехатроника, автоматизация, управление, 2010, № 2, с. 16-23. Î 2 Пантелеев А. В., Бортаковский А. С. Теория управления в примерах и задачах. М. : Высшая школа, 2003, 583 с. Î[]
Пауэрс Л., Снелл М. Mid*osoft Visual Studio 2008. СПб. : БХВ-Петербург, 2009, 1200. Î3
Пропой А. И. Элементы теории оптимальных дискретных процессов. М. :
Физматлит, 2000, 160 с. Î[]
[28] Срочко В. А. Итерационные методы решения задач оптимального управления. М. : Наука, 2000, 160 с. |[], 2, 3
[29] Тихонов А. Н. О методах регуляризации задач оптимального управления // Докл. АН СССР, 1965. 162, № 4, с. 763-765. Т[]
[30] Федоренко Р. П. Приближенное решение задач оптимального управления. М. : Наука, 1978, 408 с. |[], 3
[31] Kirk D. Optimal control theory. An introduction. New York : Dover Publ., 2004, 472 p. T[], 3.1
[32] Krotov V. F. Global methods in optimal control theory. New York : Marcel Dekker, 1996, 408 p. T[], 1
O. V. Morzhin. Nonlocal improvement methods in optimal control problems on based on exact formulas for the cost functional’s increment.
Abstract. The article is devoted to nonlocal improvement methods in optimal control problems. There are some examples.
Key Words and Phrases: control systems, nonlocal improvement.
Поступила в редакцию 26.09.2010. Образец ссылки на статью:
О. В. Моржин. Методы нелокального улучшения в задачах оптимального управления
на основе точных формул приращения // Программные системы: теория и приложения : электрон. научн. журн. 2010. № 4(4), с. 67-83. URL: http:// psta.psiras.ru/read/psta2010_4_67-83.pdf (дата обращения: 13.10.2010)