Серия «Математика»
2011. Т. 4, № 3. С. 146-157
Онлайн-доступ к журналу: http://isu.ru/izvestia
УДК 517.977
Методы билинейных аппроксимаций для решения задач оптимального управления *
В. А. Срочко
Иркутский государственный университет В. Г. Антоник
Иркутский государственный университет
Н. С. Розинова
Иркутский государственный университет
Аннотация. Решение нелинейной по фазовому состоянию задачи оптимального управления проводится на основе квадратичной аппроксимации функционала и процедуры слабого варьирования управлений. Вспомогательная задача является билинейной относительно пары "вариация управления - вариация состояния" и содержит параметр, характеризующий локальность варьирования. Предлагаемая итерационная процедура улучшает допустимые управления, не удовлетворяющие принципу максимума и особые управления, не удовлетворяющие условию оптимальности второго порядка. Проведен численный эксперимент по реализации метода на ряде задач прикладного содержания.
Ключевые слова: задача оптимального управления; квадратичная аппроксимация функционала; методы улучшения допустимых процессов.
Вопросы построения, обоснования и реализации численных методов оптимального управления рассматривались в работах многих авторов (см., например, обзор [1]). Вариационная специфика задач динамической оптимизации породила большое разнообразие идей, подходов и процедур решения. На этом многозначном поле выделим класс методов, в которых вспомогательную задачу на каждой итерации необходимо решать в некоторой допустимой окрестности рассматриваемого управления, которая задается в параметрической форме. Такое требование отражает
Введение
* Работа выполнена при частичной финансовой поддержке РФФИ (грант 11-0100713) и федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг.
вполне очевидный факт, что любая аппроксимация хорошо моделирует исходный функционал лишь в некоторой окрестности изучаемого процесса. При этом уменьшение функционала реализуется с помощью варьирования параметров, входящих во вспомогательную задачу. Отметим, что в математическом программировании подобные процедуры решения называют методами доверительной области [2; 3].
В данной работе рассматривается обыкновенная задача оптимального управления без фазовых ограничений. Динамическая система линейно зависит от управления, которое ограничено с помощью выпуклого компактного множества. Формирование семейства допустимых окрестностей производится на основе выпуклой комбинации управлений. В качестве аппроксимации функционала используется билинейная модель в рамках пары "вариация управления, вариация состояния которая обеспечивает второй порядок точности относительно параметра выпуклой комбинации. Решение билинейной вспомогательной задачи предлагается проводить с помощью методов нелокального улучшения [4]. Потенциал улучшения построенной итерационной процедуры включает допустимые управления, не удовлетворяющие принципу максимума и особые управления, не удовлетворяющие условию неотрицательности второй вариации. Проведен численный эксперимент по реализации метода для решения некоторых задач прикладного содержания.
1. Постановка задачи. Квадратичная аппроксимация.
Представим основную задачу оптимального управления относительно вектор-функций и(і) Є Кт (управление), х(і) Є Еп (фазовое состояние) на фиксированном отрезке времени Т = [іо,іі]
Внесем необходимые предположения:
1) функция <^(х) непрерывно дифференцируема на Еп;
2) функция ^(х,и, £) и вектор-функция /(х,и, £) непрерывно дифференцируемы по х € Кп, линейны по и € Ет и непрерывны по £ € Т;
3) множество и С Ет выпукло и компактно.
Отметим, что класс допустимых управлений V определен как множество кусочно-непрерывных вектор-функций и,(Ь),Ь € Т с ограничением типа включения.
х = / (х,п,і), х(і0) = х0,
(1.1)
V = [п(-) Є РС(Т) : и(і) Є и, і Є Т}.
Введем в рассмотрение функцию Понтрягина
Н(ф, х, и, Ь) = (ф, /(х, и, Ь)) — Г(х, и, Ь) и две сопряженные системы (векторную и матричную)
ф = —Нх, ф(Ь\) = —рх,
(1.2)
Ф = —Нхф Ф — фЩх — ^Іхх, Ф(і0 = — 1£хх
(1.3)
Пусть (и(Ь),х(Ь,и)), Ь € Т - допустимый процесс в задаче (1.1), ф(Ь,и), Ф(Ь,и) - соответствующие решения сопряженных систем (1.2), (1.3). Выделим другой допустимый процесс ^(Ь),х(Ь^)) и обозначим фазовое приращение Ах(Ь) = х(Ь,'ш) — х(Ь,и), Ь € Т.
Формула приращения функционала Ф на управлениях и,,ш € V с квадратичной аппроксимацией по Ах имеет вид [4]
Проведем варьирование управления и(Ь) на основе выпуклой комбинации с параметром а € [0,1] и управлением у(-) € V
Тогда фазовая вариация 5х(Ь), Ь € Т определяется представлением Ах(Ь) = а5х(Ь) + о(а) и удовлетворяет линейной системе в вариациях
Здесь и далее запись [Ь, и] следует понимать как значение соответствующей вектор-функции на процессе (и(Ь),х(Ь,и)) с сопряженной траекторией ф(Ь, и).
Рассмотрим формулу (1.4) при и> = иь,а и выделим главные члены порядка а и а2 приращения функционала. Введем обозначения
в котором 52Ф - квадратичная аппроксимация функционала на вариации (1.5).
(1.4)
+Ах(і),і),-ш(і) — и(ї))йі + п, П = о(||Лх||2).
и€,а(і) = и(і) + а(у(і) — и(і)), і Є Т.
(1.5)
5х = /х[і, и]5х + /и[і, и](у — и(і)), 5х(і0) = 0.
Я[і,и] = Ниф [і,и]Ф(і,и) + Них[і,и], 52Ф(и,у,а) =
= —а[ {Ни[і,и],у(і) — и(і))йі — а2 [ ^[і,и]5х(і),у(і) — и(і))йі.
ЗТ ит
В результате получаем представление
Ф(^,а) — Ф(и) = 52Ф(и, V, а) + о(а2),
(1.6)
Аппроксимация является точной (остаток равен нулю) для квадратичной задачи следующего вида
Ф(и) = (c,x(ti)) + 1 (x(ti),Dx(ti)) +
+ f ((b(t),u(t)) + (a(t) + Ao(t)u(t),x(t)) + 1 (x(t),P(t)x(t)))dt,
JT 2
x = A(t)x + B(t)u, x(t0) = x0.
2. Задача улучшения. Нелокальные методы
На основе представления (1.6) сформулируем вспомогательную задачу на минимум квадратичной аппроксимации для фиксированного значения а Є (0,1]
62Ф(и,у,а) ^ min, v Є V. (2.1)
В развернутой форме задача представляется следующим образом
/ (Hu[t,u],v(t) — u(t))dt+
T
(2.2)
+а / (Q[t,u]5x(t),v(t) — u(t))dt ^ max, v Є V.
T
Это билинейная задача относительно управления v(t) и фазовой переменной öx(t) с параметром а.
Приведем базовые соотношения принципа максимума (ПМ) для задачи (2.2):
функция Понтрягина с сопряженной вектор-функцией 5ф(t) -
Н(5ф, öx, v, t) = (5ф, fx[t, u]5x + fu[t, u](v — u(t))) +
+ (Hu[t, u],v — u(t)) + a(Q[t, u]öx, v — u(t)); сопряженная система -
ö^(t) = ap(t), t Є T,
p = —fx[t,u]Tp — Q[t,u]T (v — u(t)), p(ti) = 0; h-максимизирующее управление -
v(p, öx, t) = argmax((Hu[t, u],v) + a(fu[t, u]Tp + Q[t, u]öx, v)); vEU
проекционное управление -
v(p, öx, t) = Pu(v(t) + hv(p, öx, t)).
Для решения билинейной задачи (2.2) целесообразно использовать различные методы нелокального типа [4].
Представим, например, две альтернативные процедуры улучшения для управления V € V с сопряженной траекторией р(Ь,у):
1.1) сформировать вектор-функцию v*(6x,t) = V(p(t,v),5x,t),
1.2) сформировать вектор-функцию v*(6x,t) = V(p(t,v),5x,t),
2) найти решение 5х(Ь) системы в вариациях
$х = /х[Ь, и]5х + /и[Ь, и]^*(5х, Ь) — и(Ь)), 5х(Ь0) = 0,
3) вычислить управление w(t) = v*(5x(t), Ь), Ь € Т.
В результате имеет место улучшение в рамках задачи (2.1)
52Ф(и^,а) < 52Ф(и^,а).
3. Обоснование свойств улучшения
Пусть va Е V - решение вспомогательной задачи (2.1). Образуем семейство управлений варьирования
Ua(t) = u(t) + a(va(t) - u(t)), t Е T
и обсудим возможности улучшения управления и Е V в задаче (1.1) в зависимости от его статуса.
Введем множество Н-максимизирующих управлений
V(и) = {v Е V : v(t) = argmax{Hu[t,u],w), t Е T}.
w£U
Тогда принцип максимума (ПМ) для управления и Е V равносилен включению и Е V(и).
Условие оптимальности второго порядка определяется интегральным неравенством для второй вариации функционала Ф(и)
i {Qlty^öx^yv)^^) — и^))М < 0, Vv Е V(и), (3.1)
JT
в котором фазовая вариация öx(t,v) порождается управлением v(t). Рассмотрим основной случай, когда управление и’,(t), t Е T не удовлетворяет ПМ: и / V(и). Это значит, что 3v Е V(и) :
[ {Ни^,и]^(Ь) — и^))(М = 5\(и) > 0.
T
При этом
02Ф(и, v, а) = —а5\(и) + о\(а).
Согласно определению %)а
52Ф(и^а,а) < 62Ф(и^,а).
Отсюда получаем свойство локального улучшения
Ф(иа) — Ф(и) = 62Ф(и, va, а) + о(а2) < —а6\(и) + о(а).
Рассмотрим второй случай, когда управление и(Ь) удовлетворяет ПМ, но не удовлетворяет условию (3.1). Это значит, что ЭV € V(и) :
[ ^[Ь, и]5х(Ь, V),V(t) — и(Ь))йЬ = 52(и) > 0.
Зт
Отметим, что
/ (Ии[Ь, и],,и(Ь) — и(Ь))йЬ = 0 ^ 52Ф(и, И, а) = —а252(и). т
Следовательно,
Ф(иа) — Ф(и) < 62Ф(и, I), а) + о(а2) = —а252(и) + о(а2), что обеспечивает локальное улучшение.
Таким образом, вспомогательная задача (2.1) на минимум квадратичной аппроксимации функционала позволяет конструктивно улучшать допустимые управления, не удовлетворяющие ПМ и особые управления, не удовлетворяющие условию (3.1).
4. Задача без ограничений на управление
Внесем следующие изменения в задачу (1.1):
1) дополним функционал Ф(и) квадратичным членом
Ф+(и) = Ф(и) + 1 [ (u(t), Gu(t))dt
2 J т
с условием G = GT, G > 0,
2) снимем ограничение на управление, т. е. положим U = Rm.
В результате получаем задачу
Ф+(и) ^ min, и Є V, (4.1)
в которой функция Понтрягина является сильно вогнутой по переменной и
H(ф, х, и, t) = H0(ф, x, t) + (Н\(ф, x, t),u) — 1 {и, Gu).
Следовательно, принцип максимума для управления u(t) в задаче (4.1) равносилен условию стационарности: Hu[t,u] =0, t G T .В качестве невязки ПМ определим величину
öi(u) = i (Hu[t,u},Hu[t,u})dt.
JT
Приращение функционала Ф+(и) на управлениях u,w Є V в данном случае представляется формулой [4]
AwФ+(и) = — / Aw/t)H(ÿ(t,u) + ty(t,u)Ax(t),x(t,u) +
Jt (4.2)
+Ax(t),u(t),t)dt + o(A||x||2).
Процедура варьирования допустимого процесса (u(t),x(t,u)), t Є T определяется соотношениями
uv,a(t) = u(t) + av(t), a > 0, v(-) Є V,
Ax(t) = aöx(t) + o(a),
Sx = fx[t,u]öx + fu[t,u}v, Sx(t0) = 0.
На основании формулы (4.2) при w = uv,a квадратичная аппроксимация функционала представляется выражением
AwФ+^) = 62Ф+(щ v, a) + o(a2),
S^+(u,v,a) = —ai {Hu[t,u],v(t))dt + 1 a2 i (v(t),Gv(t))dt—
Jt 2 Jt
—a2[ {Q[t,u]öx(t),v(t))dt.
Jt
Зафиксируем параметр a Є (0,1} и поставим вспомогательную задачу
62Ф+(щ v, a) ^ min, v Є V. (4.3)
Применительно к этой задаче без ограничений на управление соотношения принципа максимума имеют следующий вид: функция Понтрягина -
h(ôÿ, Sx, v, t) = {Sÿ, öx ) + {Hu[t, u],v) + a{Q[t, u]Sx, v) — 2 a{v, Gv); сопряженная система -
Sÿ(t) = ap(t), t Є T,
P = —fx[t,u]Tp — Q[t,u]Tv, p(ti)=0;
Н - максимизирующее управление -
у(р,5х,і) =— С 1Иик,и] + С 1(/иН,и]тр + <^[і,и]5х). (4.4)
а
Пусть управление иа(Ь) является решением задачи (4.3) с траекториями 5ах(Ь), ра(Ь) фазовой и сопряженной систем. Тогда выполняется ПМ, т. е.
1^(Ь) = ■Ъ(ра(Ь), 5ах(Ь), Ь), Ь € Т.
Введем семейство управлений варьирования
иа(Ь) = и(Ь) + аVa(Ь), Ь € Т.
Рассмотрим первый случай, когда управление и(Ь) не удовлетворяет ПМ в задаче (4.1), т. е. 61(и) > 0. Тогда согласно выражению (4.4) управление va(t) имеет порядок (а), и прирашение иа(Ь) — и(Ь) не имеет малости относительно а: \\иа(Ь) — и(Ь)\\ = 0(1). Следовательно, вопрос об улучшении управления и(Ь) в рамках вспомогательной задачи (4.3) остается открытым.
Ситуация нормализуется в особом случае, когда управление и(Ь) удовлетворяет ПМ, но не удовлетворяет условию второго порядка (условие неотрицательности второй вариации функционала)
В этом случае управление уа (Ь) не зависит от параметра а, и вопрос об улучшении решается положительно:
Ф+(иа) —Ф+(и) = ¿2Ф+(и,уа,а)+о(а2) < ¿2(и)а2+о(а2) < 0, а є (0,ао).
Вернемся к вопросу об улучшении управления и(Ь) со свойством 5\(и) > 0. Проведем коррекцию вспомогательной задачи (4.3) следующим образом
т
(коэффициент а перед вторым интегралом опущен).
Тогда ^-максимизирующее управление выражается по формуле
Это значит, что 'ЗУ(-) є V :
1 [ (У(і),СУ(і))йІ — ( (<3[І,и]6х(І,у),у(і)) = ¿2(и) < 0
(4.5)
■а ^[і,и]5х(і),у(і))М ^ шіп, и є V
у(р,5х,і) = ау(р,5х,і).
Пусть управление vа(t) удовлетворяет ПМ в задаче (4.5) и порождает траектории 5ах(Ь), ра(Ь), Ь € Т. Это значит, что
Vа(t) = С-1Ии[Ь, и] + аС-1(1и[Ь,и]тра(Ь) + Q[t,u\5аx(t)).
В результате имеет место представление
Ф(иа) — Ф(и) = —а\ (Ии[Ь,и\,С-1Ии[Ь,и\)М + о(а), т
которое обеспечивает свойство локального улучшения.
Процедура нелокального улучшения для управления v(t) в задаче (4.5) представляется следующим образом:
1) сформировать вектор-функцию
v^(5x, Ь) = 'Ъ(р(Ь, v),Sx, Ь);
2) найти решение 5х(Ь) системы в вариациях
$х = ¡Х[Ь, и\5х + /и[Ь, и^*(5х, Ь), 6х(Ьо) = 0;
3) вычислить улучшающее управление
•ш(Ь) = v*(6x(t),t), Ь € Т.
5. Численная реализация
Перейдем на уровень вычислительного эксперимента, связанного с реализацией предложенных методов. В качестве тестовых примеров были взяты задачи из [5], которые решались с помощью квазиградиентных методов. Прикладные аспекты рассматриваемых задач охарактеризованы в [5].
Предваряя описание расчетов, остановимся на процедуре поиска параметра а.
Выбор а € (0,1\ проводился по способу половинного деления:
а0 = а, а^+1 = 2ак, к = 0,1,.... Условие окончания этой процедуры
имело следующий вид:
Ф(иак ) < ШШ^и«^), Ф(и)}, Ф(иак+1) > Ф(иак), к = 1, 2,...,
т. е. половинное деление выполнялось до тех пор, пока функционал Ф уменьшался.
Стартовая величина для параметра а равна 1. В ходе итераций ее значение полагалось равным итоговой величине параметра, полученной на предыдущей итерации метода.
В качестве единицы трудоемкости методов использована, как обычно, задача Коши для системы n уравнений.
Наконец, условием остановки методов являлось выполнение оценки для невязки соответствующего условия оптимальности с константой е (точность решения задачи) в правой части.
Результаты расчетов оформлены в виде таблиц со следующими обозначениями:
Ф* - наилучшее расчетное значение функционала;
N - общее число задач Коши;
K - количество итераций;
Ml - метод с операцией arg max;
M2 - метод с операцией проецирования.
Задача 1.
г- 0,05
Ф(и) = / (xl(t) + klul(t) + k2u2(t) + k3u3(t))dt ^ min,
0
x l = x2,
2n 2n
x2 = -ax2 — b[ul sin(2xl) + u2 sin(2xl + —) + u3 sin(2xl ——)],
3 3
П
xi(0) = 3, x2(0) = 0,
ui(t) e [0,16], i = 1, 2, 3, t e [0, 0.05],
ki = 0, 001, i = 1, 2, 3, a = 50, b = 1000.
Начальное управление u0(t) = 1, шаг интегрирования h = 0,00025, точность е = 10-4.
Результаты расчетов отражены в следующей таблице.
Ф* N K
Ml M2 7, 8372 ■10-3 8,0313■10-3 1988 12046 46 241
Задача 2.
[ 6
Ф(п) = / (clxl(t) + c2x2(t) — ui(t) — u2(t))dt ^ max,
0
xl = klul(1 — x\) — k2xl, xl(0) = 0,15^, x2
x2 = k3u2(1---------) — k4x2, x2(0) = 0,13,
u(t) e U, t e T, U = {u e R2 : ul > 0, u2 > 0, ul + u2 < 1}, cl = 10, c2 = 10, kl = 0, 8, k2 = 0, 2, k3 = 0, 4, k4 = 0, 3.
Начальное управление п°(Ь) = (0; 1), шаг интегрирования Н = 0, 02, точность е = 10-4.
Результаты расчетов отражает следующая таблица.
ф* N К
М1 М2 43,8059 43,8056 294 12926 13 14
Задача 3.
111 С10 ф(и) = -х2і(іо) + -х2(10) + - (и\(г) + и1(г))(И ^ шіп,
2 2 2 „/ 0
х1 = и1х2, х2 = и2, х1(0) = 0,1, х2(0) = 1, і Є [0,10].
Начальное управление и0(і) = (0;1), шаг интегрирования Н = 0, 02, точность є = 10-4.
Отметим, что это задача без ограничений на управление. Результаты расчетов отражены в следующей таблице.
Ф* N М
4, 65)25) • 10-2 964 22
По части сравнения результатов отметим, что для всех трёх задач расчётные значения Ф* оказались лучше аналогичных величин (Ф*), приведённых в [5].
Задачи Ф* Ф*
1 2 (на шах) 3 0,00783 43,8059 0,04653 0, 00792 43,8039 0,04692
В плане сравнения трудоёмкости по числу задач Коши выводы не такие однозначные. Очевидно, что основные вычислительные затраты приходятся на вспомогательную задачу (2.1), где для заданного значения параметра а необходимо найти минимум квадратичной аппроксимации. Поэтому одним из возможных путей повышения эффективности построенных методов является совершенствование процедуры а-поиска.
Список литературы
1. Аргучинцев А. В. Оптимальное управление: нелокальные условия, вычислительные методы и вариационный принцип максимума / А. В. Аргучинцев, В. А. Дыхта, В. А. Срочко // Изв. вузов. Математика. - 2009. - № 1. - С. 3-43.
2. Дэннис Д. Численные методы безусловной оптимизации и решения уравнений / Д. Дэннис, Р. Шнабель. - М. : Мир, 1988. - 440 с.
3. Измаилов А. Ф. Численные методы оптимизации / А. Ф. Измаилов, М. В. Солодов. - М. : Физматлит, 2005. - 304 с.
4. Срочко В. А. Итерационные методы решения задач оптимального управления / В. А. Срочко. - М. : Физматлит, 2000. - 160 с.
5. Срочко В. А. Вычислительное сравнение методов градиентного типа в задачах оптимального управления / В. А. Срочко, В. Г. Антоник, Н. В. Мамонова // Изв. Иркут. гос. ун-та. Сер. Математика. - 2007. - Т. 1, № 1. - С. 247-262.
V. A. Srochko, V. G. Antonik, N. S. Rozinova Methods of bilinear approximations for solving optimal control problems
Abstract. We attempt to solve a nonlinear for phase state optimal control problem basing on a quadratic approximation of the functional and on a procedure of weakly varying the controls. The auxiliary problem is bilinear for a pair "control variation - phase variation" and contains a parameter that characterizes the locality of the variation. The suggested iteration procedure improves the admissible controls that don’t satisfy the maximum principle and also the singular controls that don’t satisfy the second order optimality condition. A computational experiment for implementing the method to a number of applied problems was made.
Keywords: optimal control problem; quadratic approximation of the functional; methods of improving the admissible processes.
Срочко Владимир Андреевич, доктор физико-математических наук, профессор, Институт математики, экономики и информатики, Иркутский государственный университет, 664003, Иркутск, ул. К. Маркса, 1 тел.: (3952)242210 ([email protected])
Антоник Владимир Георгиевич, кандидат физико-математических наук, доцент, Институт математики, экономики и информатики, Иркутский государственный университет, 664003, Иркутск, ул. К. Маркса,
1 тел.: (3952)242210 ([email protected])
Розинова Надежда Сергеевна, младший научный сотрудник, НИЧ, Иркутский государственный университет, 664003, Иркутск, ул. К. Маркса, 1 тел.: (3952)242210 ([email protected])
Srochko Vladimir, Irkutsk State University, 1, K. Marks St., Irkutsk, 664003 professor, Phone: (3952)242210 ([email protected])
Antonik Vladimir, Irkutsk State University, 1, K. Marks St., Irkutsk, 664003 associated professor, Phone: (3952)242210 ([email protected]) Rozinova Nadezda, Irkutsk State University, 1, K. Marks St., Irkutsk, 664003 junior researcher, Phone: (3952)242210 ([email protected])