Операторные уравнения и алгоритмы принципа максимума в задачах оптимального управления

Булдаев Александр Сергеевич

УПРАВЛЯЕМЫЕ СИСТЕМЫ И МЕТОДЫ ОПТИМИЗАЦИИ

УДК 517.977

DOI: 10.18101/2304-5728-2020-1-35-53

ОПЕРАТОРНЫЕ УРАВНЕНИЯ И АЛГОРИТМЫ ПРИНЦИПА МАКСИМУМА В ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 1

доктор физико-математических наук, профессор, Бурятский государственный университет имени Доржи Банзарова Россия, 670000, г. Улан-Удэ, ул. Смолина, 24а E-mail: buldaev@mail.ru

Развивается новый подход для численного решения нелинейных задач оптимального управления, основывающийся на построении операторных уравнений в форме задач о неподвижной точке, характеризующих условия оптимальности управления. Такая форма дает возможность применить и модифицировать известный аппарат теории и методов неподвижных точек для поиска экстремальных управлений. Предлагаемые итерационные алгоритмы неподвижных точек принципа максимума обладают свойством нелокальности последовательных приближений управления и отсутствием процедуры параметрического поиска улучшающего приближения на каждой итерации, характерной для известных стандартных методов принципа максимума градиентного типа. Рассматриваются условия сходимости конструируемых итерационных процессов на основе принципа сжимающих отображений. Ключевые слова: управляемая система; операторы управления; принцип максимума; задача о неподвижной точке; итерационный алгоритм; сходимость итерационного процесса.

Для цитирования:

Булдаев А. С. Операторные уравнения и алгоритмы принципа максимума в задачах оптимального управления // Вестник Бурятского государственного университета. Математика, информатика. 2020. № 1. С. 35-53.

Введение

Известный подход для решения задач оптимального управления состоит в построении и решении систем необходимых условий оптимальности управления. В частности, строят и решают краевую задачу принципа максимума [1; 2]. Другим распространенным подходом является построение релаксационных последовательностей управления на основе последовательного решения задач локального улучшения управления. При определенных условиях такие последовательности сходятся к экстремальным управлениям (удовлетворяющим необходимым условиям оптимальности). Пример такого подхода представляют известные градиентные методы [1-3].

1 Работа выполнена при финансовой поддержке РФФИ, проект 18-41-030005-р-а.

35

В статье рассматривается новый подход к поиску экстремальных управлений, состоящий в построении необходимых условий оптимальности управления в форме операторных уравнений, интерпретируемых как задачи о неподвижной точке. Такая форма позволяет применить и адаптировать известные в вычислительной математике теорию и алгоритмы [4] для поиска неподвижных точек конструируемых операторных уравнений. Операторный подход неподвижных точек иллюстрируется в рамках класса задач оптимального управления со свободным правым концом. В работах [5-7] были предложены задачи и методы неподвижных точек принципа максимума на основе операции на максимум функции Понтрягина. В данной работе рассматриваемый подход неподвижных точек дополняется операторными уравнениями принципа максимума на основе операции проектирования и анализом сходимости проекционных итерационных процессов.

1 Задача оптимального управления со свободным правым концом

Рассматривается задача оптимального управления:

ф(и) = р(х(^)) +Г F(x(t),и(:),t)dt ® т^ (1)

* Т ые¥

x(:) = f (x(t),и(:), :), x(t0) = x0, u(:) е и, t е Т = [t0, tl], (2) в которой x(t) = (хД:),...,xn(t)) — состояние системы, и(:) = (^ (:),...,ит(t)) — управление. Множество допустимых управлений состоит из кусочно-непрерывных функций, принимающих значения в выпуклом компактном множестве и с Ят:

V = (V е РС (Т): v(t) е и,: е Т} . Начальное состояние х0 и интервал времени Т заданы.

Используется следующая система обозначений: дх — частная производная первого порядка функции д по соответствующему аргумен-

п

ту х; ^х,у) = ^х1у1 — скалярное произведение векторов х, у в

I=1

т^п II II

евклидовом пространстве Е ; х — норма вектора х в евклидовом пространстве.

Предполагается, что функция р(х) непрерывно дифференцируема на Яп; функции F(х,и,:), f (х ,и,:) и их производные Fx(х,и,:), Fu (х,и,:), fx(х,и,:), / (х,и,:) непрерывны по совокупности аргументов на множестве Яп х и х Т; функция f (х,и,:) удовлетворяет условию Липшица по х в Яп х и х Т с константой Ь > 0 :

||/(х, и,:) - /(у, и, :)|| < Ь||х - у ||.

Рассмотрим функцию Понтрягина с сопряженной переменной у е Яп Н(у, х,и,:) = (/(х,и,:),у)- F(х,и,:).

Стандартная сопряженная система имеет вид:

y(t) = -Hx (y(t), x(t), u(t), t), y(ti) = -(px (x(ti)). Для допустимого управления v eV обозначим x(t, v), t eT — решение системы (2); y(t,v), t eT — решение сопряженной системы при u(t) = v(t), x(t) = x(t,v), t eT . С помощью отображения

u * (y, x, t) = argmax H(y, x, w, t),ye Rn, x e Rn, t eT (3)

weU

известное необходимое условие оптимальности управления v eV (принцип максимума) [1-3] можно представить в следующей форме:

v(t) = u*(y(t,v),x(t,v),t), t eT . (4)

Соотношение (4) на множестве допустимых управлений является эквивалентным краевой задаче принципа максимума в пространстве состояний:

x(t) = f (x(t),u*(y(t),x(t),t),t), x(t0) = x0, (5)

y(t) = -Hx(y(t),x(t),u*(y(t),x(t),t),t),y(ti) = -px(x(ti)). (6)

Эквивалентность понимается в следующем смысле. Пусть пара (x(t),y(t)), t eT является решением краевой задачи (5), (6). Тогда формируемое по правилу (3) выходное управление v(t) = u * (y(t), x(t), t) удовлетворяет условию (4). Обратно, пусть управление v eV является решением задачи (4). Тогда формируемая пара функций (x(t,v),y(t,v)), t eT в силу их определения удовлетворяет

краевой задаче (5), (6).

В общем случае правые части краевой задачи (5), (6) разрывны и многозначны по фазовым переменным x, y .

Из принципа максимума (4) следует ослабленное необходимое условие оптимальности, известное как дифференциальный принцип максимума [2; 3], который в форме неравенства имеет вид:

(Hu (y(t, u), x (t, u), u(t), t), w - u (t)) < 0, w eU, t e T. (7)

Введем отображение wa , a> 0 с помощью соотношения

w"(y, x, u, t) = PU (u +aHu (y, x, u, t)), ye Rn, x e Rn, u eU, t e T, где PU — оператор проектирования на множество U в евклидовой норме PU (z) = arg min(||w - ZI), z e Rm .

weU

На основании условия Липшица для оператора PU функция wa непрерывна по совокупности (y,x,u, t) e Rn x Rn x U x T . При этом имеет место неравенство

/ \ U ||2

(Hu(y,x,u,t),wa(y,x,u,t) -u) wa(y,x,u,t) -u .

\ ' a 11

Указанная оценка обеспечивается свойствами операции проектирования.

Дифференциальный принцип максимума (7) для управления u e V с помощью отображения wa можно записать в следующей форме:

u(t) = wa (y(t,u), x(t,u),u(t), t), t е T, a > 0. (8)

Отметим, что для выполнения (7) достаточно проверить условие (8) хотя бы для одного a > 0. Обратно, из условия (7) следует выполнение (8) для всех a > 0 .

Условие (8) можно представить в форме эквивалентной дифференциально-алгебраической краевой задачи дифференциального принципа максимума:

X(t) = f (x(t),u(t),t), x(t0) = x0, y(t) = -Hx (y(t), x(t),u (t), t) ,y(ti) = -jx (x(ti)), u(t) = wa(y(t),x(t),u(t),t), t eT .

Выделим важный для приложений подкласс линейных по управлению задач (функции f (x,u, t), F(x,u, t) линейны по u), представляемый в виде:

F(u) = j(x(t1)) +f (/a(x(t),t),u(t)) + d(x(t),t))dt ® inf, (9)

JT ^ ' ueV

x(t) = A(x(t), t)u(t) + b(x(t), t), x(t0) = x0, u(t) e U, t e T . (10)

В задаче (9), (10) функция Понтрягина имеет следующую структуру H(y, x,u,t) = H0 (y, x, t) + (Hi (y, x, t),u), H0(y,x, t) = y,b(x,t^ - d(x, t), H1(y, x, t) = AT (x,t)y - a(x, t) .

Отображение u* представляется в форме

u*(y,x,t) = argmax/H1(y,x,t),w).

weU

В частности, для скалярного управления (m = 1) с областью значений U = [u-, u + ] (двусторонние ограничения) имеем:

u -, H1(y, x, t) < 0, u*(y, x,t) = i u+, H1(y, x,t) > 0,

w eU, H1(y, x, t) = 0.

При этом если U = [—1, l], то отображение u* можно представить в форме u* (y, x, t) = l ■ sign(g (y, x, t)), в которой значение

—1, g(y, x, t) < 0, sign (y, x, t) = i+1, g(y, x, t) > 0,

w e [—1,1], g(y,x, t) = 0 определяется знаком функции переключения g(y, x, t) = H1(y, x, t) .

В задаче (9), (10) дифференциальный принцип максимума (7) является эквивалентным принципу максимума (4). Таким образом, в линейной по управлению задаче для поиска экстремальных управлений, удовлетворяющих принципу максимума, можно использовать проекционную форму

(8) дифференциального принципа максимума, которая проще по свойствам гладкости, чем условие принципа максимума (4).

Трудности решения краевой задачи принципа максимума (5), (6) известными методами (метод стрельбы, метод линеаризации, конечно-разностный метод), в том числе и в случае гладкости и однозначности правых частей краевой задачи, связаны с вычислительной неустойчивостью методов, обусловленной наличием положительных вещественных значений собственных чисел соответствующей матрицы Якоби.

В данной работе развивается подход [5-7] к поиску экстремальных управлений, основанный на переходе от решения краевых задач принципа максимума в пространстве состояний к решению эквивалентных операторных уравнений принципа максимума в пространстве управлений, рассматриваемых как задачи о неподвижной точке конструируемых операторов управления.

2 Операторные уравнения на основе операции на максимум

Условие принципа максимума (4) с помощью применяемой системы обозначений решений фазовой и сопряженной систем в форме зависимости от управления можно интерпретировать как задачу о неподвижной точке некоторого оператора управления:

V = G1* (у), V е V.

Оператор G1* можно формализовать в виде суперпозиции трех отображений.

Первое отображение X определим с помощью соотношения X(у) = х, V е V, х(х) = х(х, V), х еТ . Второе отображение У сконструируем аналогичным образом: ад = у , V е V, у(х) = у(х, V), х е Т .

Третье отображение V* построим в виде

V * (у, х) = V*, уе С (Т), х е С(Т), V* (0 = и * (у(х), х(х), X), х е Т, где С(Т) — пространство непрерывных на Т функций.

В результате задачу (4) можно представить как операторное уравнение в пространстве управлений:

V = V* (У (V), X(V)), V е V. (11)

Уравнение (11) можно записать в канонической форме задачи о неподвижной точке с оператором G1*, определяемым в виде суперпозиции:

^ (V) = V* (У (V), X(V)).

Построим новые операторные задачи о неподвижной точке, эквивалентные краевой задаче принципа максимума (5), (6) и условию (4).

Введем отображение X* следующим образом:

X * (у) = х , у е С (Т), х е С (Т), где х(х), х е Т является решением специальной задачи Коши

х(:) = / (х(:), и * (у(:), х(:),:),:), х(:0) = х0. Рассмотрим операторное уравнение

V = V* (ад, X* (Ч(V))), V е V. (12) Покажем, что уравнение (12) эквивалентно уравнению (11). Действительно, пусть VеV является решением уравнения (11), т. е.

пара (х(:,v),y(t,V)), : е Т является решением краевой задачи (5), (6). Тогда функция х(:, V), : еТ является решением задачи Коши х(:) = / (х(:), и * (у(:, V), х(:),:),:), х(:0) = х0, т. е. X(V) = X*(4^)). Отсюда получаем, что

V* (Ч(V), X* (Ч(V))) = V* (Ч(V), X(V)) = V .

Обратно, пусть V е V является решением уравнения (12), т. е.

v(t) = и * (у(:, V), х(:),:), где х(:), : е Т является решением специальной задачи Коши

х(:) = / (х(:), и * (у(:, V), х(:),:),:), х(:0) = х0. Следовательно, х(:) = х(:, V), : е Т, т.е. X*(Ч(V)) = X(V). Таким образом получаем:

V* (Ч(V), X(V)) = V* (Ч(V), X* (Ч(V))) = V .

Рассмотрим оператор управления О* в форме суперпозиции отображений:

а* (V) = V * (ад, X * (ад)).

Тогда операторное уравнение (12) представляется в форме канонической задачи о неподвижной точке:

V = О* (V), V е V. В поточечной форме задачу (12) можно записать в виде:

V(t) = и * (у(:, V), х(:, V * (ад, X * (Ч (V)))),:), : е Т. Еще одну операторную задачу о неподвижной точке, эквивалентную краевой задаче принципа максимума и условию (4), получаем с помощью следующего отображения:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ч* (х) = у , х е С (Т), уе С(Т), в котором у(:), : е Т является решением специальной сопряженной задачи Коши

у(:) = -Нх (у(:), х(:), и * (у(:), х(:),:),:), у(^) = -рх (х(:1)). Рассмотрим операторное уравнение

V = V*(Ч*(X(V)),X(V)), V е V. (13) Аналогично проведенному рассуждению можно показать эквивалентность уравнений (13) и (11).

Построим оператор управления О* по формуле:

о; (V)=V * (У* (X (V)), X (V)).

Тогда уравнение (13) представляется в канонической форме задачи о

неподвижной точке

V = О; (V), V е V.

В поточечной форме задача (13) записывается в виде:

v(t) = и* (у(Х, V * (У* (X (V)), X (V))), х(Х, V), X), X е Т .

Операторные формы задач о неподвижной точке на основе операции на максимум (11), (12), (13) являются основой для конструирования численных методов поиска экстремальных управлений.

3 Операторные уравнения на основе операции проектирования

Условие дифференциального принципа максимума в проекционной форме (8) можно представить в виде эквивалентных операторных уравнений на множестве допустимых управлений, интерпретируемых как задачи о неподвижной точке.

Введем вспомогательный оператор V« , а > 0 соотношением V« (у, х, V) = va, уе С (Т), х е С(Т), V еV, va (X) = (у (X), х(Х), v(t), X) = Ри МХ) + аНи (у (X), х(X), V(X), X)), X е Т .

Определим оператор Xа , а > 0:

X а(у, V) = ха, уе С (Т), V е V, х«(Х) = ха(Х,у, V), X еТ, где xa(t,у,V), X е Т — решение задачи Коши:

х() = f (х(Х),),х(Х),v(t),X),X), х(Х0) = х0.

Построим оператор У« , а > 0 :

Уа(х,V) = уа, х е С(Т), V е V, уа(Х) = уа(Х,х,V), где у<х(Х, х,V), X е Т — решение сопряженной задачи Коши:

у(X) = -Нх (у(X), х(х), wa (у(X), х(х),v(t),X), X), у= -(рх (х(х1 )). На основе введенных ранее отображений У:и ®у(Х,и), XеТ и X : и ® х(Х,и), X е Т сконструируем операторы О< , О< , О< в форме: О<< (V) = Vа(У(V), X (V), V), V еV, = Vа(ад, Xа(У(V), V), V), V е V, Оа< (V) = Vа (Уа (X(V), V), X(V), V), V е V.

Рассмотрим три операторных уравнения в виде задач о неподвижной точке

V = V «т^, X (V), V) = О< (V), V еV, а> 0, (14)

V = Vа(У (V),Xа(У (V), V), V) = О« (V), V е V, а> 0, (15)

V = Vа (Уа (X (V), V), X (V), V) = О<^), V еV, а> 0. (16)

Эквивалентность задач (14), (15), (16) и условия дифференциального

принципа максимума (8) показываются аналогично предыдущему разделу.

Выделим следующие важные особенности проекционных операторных уравнений. Конструируемые проекционные операторы управления в силу свойств операции проектирования являются непрерывными и удовлетворяют условию Липшица в отличие от разрывных и многозначных в общем случае операторов управления на основе операции на максимум.

Экстремальные управления, интерпретируемые как неподвижные точки операторных проекционных задач (14-16), могут определяться при любом значении параметра проектирования а > 0, в том числе при достаточно малом значении.

Указанные особенности являются существенными факторами повышения эффективности численного поиска экстремальных управлений на основе проекционных операторных уравнений.

4 Итерационные алгоритмы на основе операции на максимум

Рассмотрим задачу о неподвижной точке

V = в(у), V еУв, (17)

в которой G: УЕ ® УЕ является оператором, действующим на множестве УЕ в полном нормированном пространстве Е с нормой ||-||Е .

Для численного решения задачи (17) можно использовать известный в вычислительной математике метод последовательных приближений и его модификации [4]. В частности, метод простой итерации при к > 0, имеющий вид:

Vм = ), V0 еУЕ . (18)

Для того чтобы улучшить сходимость итерационного процесса метода последовательных приближений, задача (17) может быть преобразована к эквивалентной задаче о неподвижной точке с параметром 3 е Я :

V = V + 3^ - в(у)), V е УЕ, 3* 0. Метод простой итерации для преобразованной задачи принимает вид:

Vм = vk +8^к - )), V0 еУЕ, 3 * 0. Выбором параметра 3 Ф 0 можно регулировать сходимость указанной модификации метода простой итерации.

Задачи о неподвижной точке принципа максимума (11), (12), (13) являются основой для соответствующих методов простой итерации при к > 0 :

Vk+1 = У * (^ V), X V)), V0 еУ, Vk+1 = У * (^ V), X * (^ V))), V0 е У, Vм = У * (¥* (X V)), X V)), V0 е У .

В поточечной форме первый метод имеет вид:

vk+1(0 = и * (¥(г, Vк), х(Г, Vк), 0, V0 еУ, г е Т . (19)

В соответствии с определением отображений имеет место следующее соотношение:

X (V* (У (V), X* (У (V)))) = X * (ад), V е V. (20)

Действительно, для любого р е С(Т) по определению получаем:

X * (р )| = х(Х), X еТ, где х(Х), X е Т является решением задачи Коши:

х(Х) = f (х(Х), и * (р(Х), х(Х), X), X), х(Х0) = х0 .

Далее, согласно определению имеем:

V * (р, X * (р))[ = и * (р(Х), х(Х), X), X е Т, где х(Х), X е Т является решением задачи Коши:

х(Х) = f (х(Х), и * (р(Х), х(Х), X), X), х(Х0) = х0 .

Следовательно,

х(Х) = X*(V*(р,X*(р)))|Х, X е Т .

Таким образом, из поточечных равенств получаем операторное равенство:

X (V* (р, X * (р))) = X * (р), р е С (Т), из которого следует (20).

Согласно итерационному процессу из (20) следует:

X * )) = X (V * (У (V*), X * (У (V*)))) = X (/+1). Следовательно, второй метод простой итерации представляется в следующем неявном виде:

V*+1 = V* (У (V*), X(V*+1)), V0 е V, или в поточечной форме:

V*+1(Х) = и * (у(Х, V*), х(Х, V*+1), X), V0 е V, X е Т . (21)

Аналогично из определения рассматриваемых отображений следует выполнение следующего соотношения:

уу * (у* (X (V)), X (V))) = У* (X (V)), V е V. (22)

Отсюда получаем:

У*(X(V*)) = ад*(У*(X(V*)),X(V*))) = +1).

В итоге, третий метод простой итерации принимает следующий неявный вид:

V*+1 = V* (У (V*+1), X (V*)), V0 е V, или в поточечной форме:

V*+1(Х) = и * (у(Х, Vм), х(Х, V*), X), V0 е V, X е Т . (23)

Для оценки вычислительной эффективности итерационных алгоритмов важно отметить, что трудоемкость реализации одной итерации неявных методов (21), (23) аналогична трудоемкости реализации явного метода (19) и составляет две задачи Коши для фазовых и сопряженных переменных.

Действительно, на k -й итерации при к > 0 процесса (21) после вычисления решения задачи Коши y(t,vk), t eT находится решение x(t), t eT фазовой системы:

X(t) = f (x(t),u*(y(t,vk), x(t), t), t), x(to) = x0. Затем строится выходное управление по правилу:

vk+1(t) = u*(y(t,vk),x(t),t), t e T . При этом в силу построения выполняется соотношение:

x(t) = x(t, vk+1), t eT .

Аналогично, на k -й итерации процесса (23) после вычисления x(t, vk), t eT находится решение y(t), t eT сопряженной системы:

y(t) = -Hx (y (t), x(t, vk), u * (y (t), x(t, vk), t), t), y(ti) = -jx (x(ti, vk)) . Затем строится выходное управление по правилу:

vk+1(t) = u*(y(t),x(t,vk),t), t e T, для которого по построению выполняется соотношение:

y(t) = y(t,vk+1), t e T .

Отметим, что только на начальной итерации процесса (21) при k = 0 для вычисления y(t,v0), t eT требуется решить дополнительную задачу Коши, чтобы получить решение x(t,v0), t eT .

Сравнивая предлагаемые алгоритмы с другими известными итерационными методами принципа максимума, отметим, что явный метод (19) совпадает с простейшим методом последовательных приближений [8] для решения уравнения (4). Известных аналогов неявных итерационных методов неподвижных точек (21) и (23) в литературе не найдено.

Для сравнительного выделения характерных особенностей предлагаемых операторных методов неподвижных точек (19), (21), (23) рассмотрим структуру двух распространенных известных методов принципа максимума в используемых обозначениях.

Стандартный метод условного градиента [2; 3] для решения (4) описывается соотношениями:

vk (t) = u * (y(t, vk), x(t, vk), t), t eT, v0 eV, k > 0,

vk (t) = vk (t) + 1(vk (t) - vk (t)), t e T, l e [0,1]: F(v1) <F(vk) ^ vk+1(t) = v* (t), t eT .

Метод игольчатой линеаризации [3] для решения уравнения (4) характеризуется соотношениями:

vk (t) = u * (y(t, vk), x(t, vk), t), t eT, v0 eV, k > 0, gk (t) = D_kH yt, vk), x1(t, vk), vk (t), t), t eT, lin = infgk(t), Imax = supgk(t),

teT teT

*(л КО £1' з г; ^ 1 , т

1 £ Г1тт, Лпах1: Ф(^) £ф(ук) ^ ^к+1(*) = V*(*), *еТ .

Характерным для указанных известных методов является поиск первого приближения V* управления, которое затем варьируется в окрестности улучшаемого управления Vк с целью улучшения по целевому функционалу задачи.

Таким образом, в предлагаемых операторных методах неподвижных точек, в отличие от известных градиентных методов и методов принципа максимума, не гарантируется релаксация по целевому функционалу на каждой итерации методов. Компенсируют свойство релаксации нелокальность последовательных приближений управления и отсутствие на каждой итерации достаточно трудоемкой операции выпуклого или игольчатого варьирования управления в окрестности текущего управления.

5 Итерационные алгоритмы на основе операции проектирования

Для решения операторных задач о неподвижной точке дифференциального принципа максимума (14), (15), (16) можно применить соответствующие методы простой итерации при к > 0, которые в операторной форме имеют вид:

Vм = ), X V), 'Vе), V0 еУ, а > 0,

Vм = Уа(Ч^к), Ха(Ч^к), ), ), V0 еУ, а > 0,

V''+1 = У а(Уа( X (vk), V''), X V), V''), V0 еУ, а> 0.

Аналогично получению в предыдущем разделе соотношений (20) и

(22) можно получить следующие операторные соотношения:

X (У а( р, X а( р, V), V)) = X а( р, V), р е С (Т), V еУ, У(У а(Уа( х, V), х, V)) = Уа( х, V), х еС (Т), V еУ.

Отсюда имеем:

X), vk) = X(У), Xа ('), vk), vk)) = X(vk+1), Уа (XV),vk) = У(Уа (Уа (XV),vk),XV),vk)) = Y(vk+1) . Таким образом, второй и третий методы простой итерации для поиска неподвижных точек дифференциального принципа максимума можно записать в неявном виде:

^^+1 = Уа (ад), X V+1), ), V0 еУ, а > 0, vk+1 = У а(^к+1), X (vk), vk), V0 еУ, а > 0.

В поточечной форме итерационные методы дифференциального принципа максимума принимают вид:

vk+1(X) = wa{W(X, vk), х^, V), vk (X), X), V0 еУ, а > 0, X е Т, (24)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

vk+1(X) = wa(y(X, vk), х(х, Vм), vk (X), X), V0 еУ, а> 0, X е Т, (25) vk+1(X) = wa(W(X, vk+1), х(Х, vk), vk (X), X), V0 еУ, а> 0, X еТ . (26)

Трудоемкость вычислительной реализации одной итерации явных и неявных проекционных методов составляют две задачи Коши для фазовых и сопряженных переменных.

Известных аналогов проекционных итерационных методов неподвижных точек (24), (25) и (26) в литературе не найдено.

Для сравнения разработанных проекционных методов неподвижных точек представим в используемых обозначениях стандартный метод проекции градиента с а > 0 [2; 3]:

va (X) = wa(W(X, vk), х^,vk), vk (X), X), X е Т, ае (0, ¥): Ф^) <Ф^к) ^ vk+1 ^ .

На каждой итерации рассматриваемого метода проекции градиента проекционный параметр варьируется для обеспечения улучшения имеющегося управления.

В построенных проекционных методах неподвижных точек, в отличие от стандартного метода проекции градиента, параметр проектирования а > 0 фиксируется в итерационном процессе последовательных приближений управления. Таким образом, на каждой итерации предлагаемых методов релаксация по целевому функционалу не гарантируется, но это свойство компенсируется нелокальностью последовательных приближений управления, отсутствием операции варьирования управления в окрестности текущего приближения для обеспечения улучшения по функционалу задачи, возможностью получения экстремальных управлений при достаточно малых параметрах проектирования, обеспечивающих принципиальную сходимость итерационных процессов.

6 Условия сходимости итерационных процессов

Анализ сходимости построенных итерационных процессов можно осуществить на основе известного принципа сжимающих отображений. Операторный аналог известной теоремы [4] можно сформулировать следующим образом.

Теорема 1. Пусть оператор О: УЕ ® УЕ, действующий на множестве УЕ в полном нормированном пространстве Е с нормой ||-||Е , удовлетворяет условию Липшица в шаре:

Б^0,1) = {V е Уе : |V -|Е < I,Vo е Уе,I > 0} с константой 0 <М = М(v0,1) < 1:

\\ОМ - О (и )||Е< - и\\Е , V е Б (VI), и е Б^, I). (27)

При этом выполняется условие:

||G(v0) - v0||E< (1 -M)l. (28)

Тогда задача о неподвижной точке (17) имеет единственное решение v e B(v0,l) и итерационный процесс (18) сходится к v в норме ||-||E для

любого начального приближении v0 е B(v0, l). Для погрешности метода выполняется оценка:

11/ - v|| < Mk||v0 - v|| , к > 0. II IIb II IIB

Доказательство теоремы несложно проводится по методике аналогично работе [4].

Следует отметить, что условие (28) вводится для того, чтобы обеспечить невыход итерационных приближений процесса (18) за пределы множества B(v0,l), на котором выполняется условие Липшица (27).

В работах [5-7] рассмотрены условия сходимости для явных итерационных процессов (19), (24). Анализ сходимости предлагаемых неявных процессов можно провести аналогично.

В качестве примера сформируем с помощью теоремы 1 следующие условия сходимости явного (23) и неявных (24), (25) процессов к решению уравнения (8) на подмножестве непрерывных допустимых управлений: VC = {v е C (T): v (t) eU, t е T} с V

с нормой ||v|| = maxi|v(t)||, v eVC .

II IIе teT C

Пусть семейство фазовых траекторий системы (2) на множестве V является ограниченным:

x(t, v) e X, t e T, v eV, (29)

где X с Rn — выпуклое компактное множество.

Отметим, что достаточным условием ограниченности (29) может быть выполнение известной оценки [1; 3] с константой C > 0 :

||/(X, u, t )|| < C (|| XI +1), x e Rn, u eU, t e T . Предположим дополнительно, что функции /(x, u, t), F(x, u, t), j(x) дважды непрерывно дифференцируемы по совокупности переменных на соответствующих множествах Rn x U x T и Rn.

При выполнении ограничения (29) на основе достаточного условия применительно к сопряженной системе с учетом ее линейности получаем условие ограниченности семейства траекторий сопряженной системы:

y(t, v) e P, t e T, v eV, (30)

где P с Rn — выпуклое компактное множество.

При сделанных предположениях можно показать аналогично [2] , что операторы X, Y удовлетворяют условию Липшица с константами

C1 > 0, C2 > 0 :

\\X (v) - X (u )|| c < Ci| V - u\\C , v eVc, u eVc , | |Y (v) - Y(u )|| c < C21 |v - u||c , v eVc, u eVc . Используя условие Липшица для оператора проектирования PU и условий ограниченности (29), (30), получаем: \xa(t, p, u) - xa(t, q, v)|| =

= | |x(t ,V a( p, X a( p, u), u)) - x(t, V a(q, X a(q, v), v))|| < <Mi j|\Va(p,Xa(p,u),u) -Va(q,Xa(q,v),v) |,||dt <

T

< M 2 ||| u(t) - v(t )|| dt +

T

+aM21|\Hu (p(t),xa(t,p,u),u(t),t) -Hu(q(t),xa(t,q,v),v(t),t)||dt,

T

где t e T, u, v eVc , p,q e c(T), M1 = const > 0, M2 = const > 0. Аналогично получаем:

||ya(t, x, u) -ya(t, y, v)|| =

= |(t, Va (Ya(x,u),x,u)) - |(t, Va (Ya (y,v),y,v))|| < <M31|\Va(Ya(x,u),x,u)|( -Va(Ya(y,v),y,v)|^|dt <

T

< M 41| u(t) - v(t dt +

T

+aM411|Hu (|a (t,x,u),x(t),u(t),t) - Hu (|a (t,y,v),y(t),v(t),t)||dt,

T

где t e T, u, v e Vc , x,y e c(T), M3 = const > 0, M4 = const > 0. Отсюда нетрудно обосновать при достаточно малом a > 0 оценки:

(1 + a) M5

llc (1 -aM 6)1

|Ya(X(u),u)-Ya(X(v),v)|c < ((1 + a)M7 I|u - v|c,

11 llc (1 -^M8r

где u eVc , v eVc, константы Mi > 0 , i = 5,6,7,8.

Для оператора проектирования PU на основе выполнения условия Липшица имеет место следующее неравенство:

II ||2 II ||2

||wa(p,x,u,t) - wa(q,y,v,t^ <||(u - v) +a(Hu(p,x,u,t) -Hu(q,y,v,t))|| <

< I|u - v||2 + 2^u - v,Hu (p,x,u, t) - Hu(q,y,v, t)) + ^

+a21\Hu (p, x, u, t) - Hu (q, y, v, t)||2,

u,v eU, p,q e P, x,y e X, t eT .

||Xa(Y(u),u) -Xa(Y(v),v)l < ^-I|u - v||c ,

Предположим, что в шаре Б(у0,1) с УС радиусом I > 0 с центром в точке v0 еУС для вектор-функции Ии(у,х,и,*) выполняется условие: (и(Г) - v(t),Ии (у (*,и),х(*,и),и(*),*) - Ии(у(*,V), х(*, V),v(t),*)) £

£- К,|\и ) - v(í)||2, и, V е Б^0,1), * еТ,

где К1 = сопи* > 0 .

Тогда на основе неравенства (31) при достаточно малом а > 0 можно получить оценку:

1

||Уа(^ (и), X (и), и) - У а( X (V), V)] £ (1 - 2аК1 + а2М9)2 ||и - v||C ,

где М9 = сопи* > 0, и,V е Б^0,1).

Аналогично предположим, что в шаре Б^0,1) с УС радиусом I > 0 с центром в точке v0 еУС для вектор-функции Ии(у,х,и,*) выполняется условие:

(и(*) -v(t),Ии(у(*,и),х(*,Уа(^(и),Xа(У(и),и),и)),и(*),*) -

- Ии (у(*, V), х(* ,У а(ад, X а(ад, V), V)), v(t), *)) £- К 2\ \и(*) - v(t )||2, и,V е Б^0,1), * е Т,

где К2 = сопи* > 0 .

Тогда на основе неравенства (31) при достаточно малом а > 0 можно получить оценку:

||у а(^(и), X а(Ч(и), и), и) - У а(ад, X а(ад, V), V)! |С £

1

£ (1 - 2аК2 + а2М10)21|и -где М10 = сопи* > 0, и,V е Б^0,1).

Также предположим, что в шаре Б^0,1) с УС радиусом I > 0 с центром в точке v0 еУС для вектор-функции Ии(у,х,и,*) выполняется условие: (и(*) -v(t),Ии(у(*,Уа(X(и),и),X(и),и)),х(*,и),и(*),*) -

-Ии(у(*,Уа(^а(X(V),V),X(V),V)),х(*,V),v(t),*)) £ -К\и(*) -v(t)||2, и,V е Б^0,1), * е Т,

где К2 = сопи* > 0 .

Тогда на основе неравенства (31) при достаточно малом а > 0 можно получить оценку:

Уа(^а(X(и),и),X(и),и) - Уа(^а(X(V), V),X(V), V)!|С £

1

£ (1 - 2аК3 +а2М11)2||и -где М11 = сопи* > 0, и,V е Б^0,1).

Таким образом, в сделанных предположениях при достаточно малых a > 0 операторы G^, , G^ удовлетворяют условию Липшица с константой меньше единицы на множестве B(v0, l).

В силу определения при достаточно малых a > 0 операторы Gо , G2 , GO? удовлетворяют условию (28) в норме ||-|| пространства непрерывных функций c (T) для любого v0 e Vc . Таким образом, при достаточно малых a > 0 итерационные приближения процессов (24), (25) и (26) остаются в пределах множества B(v0, l) для любого начального приближения v0 e B(v0, l).

В результате на основе теоремы 1 можно сформировать соответствующие утверждения о сходимости процессов (24), (25) и (26). В частности, следующее утверждение о сходимости явного итерационного процесса (24).

Теорема 2. Пусть

1) семейство фазовых траекторий в задаче (1), (2) ограничено:

x(t, u) e X , t e T, u eV, где X с Rn — выпуклое компактное множество;

2) вектор-функция f (x,u,t), функции F(x,u,t), j(x) дважды непрерывно дифференцируемы по совокупности переменных на соответствующих множествах Rn x U x T и Rn;

3) для вектор-функции Hu (|, x,u,t) в шаре B(v0,l) с Vc радиусом l > 0 с центром в точке v0 e Vc выполняется условие:

(u(t) - v(t),Hu (|(t,u),x(t,u),u(t), t) - Hu(|(t,v), x(t, v),v(t), t)) < <- K||u (t) - v(t)\f , u, v e B(v0, l), t eT,

где K = const > 0 .

Тогда для достаточно малых параметрах проектирования a > 0 итерационный процесс (24) сходится в норме ||-||c к единственному

решению v a e B(v0, l) уравнения (8) для любого начального приближения v0 e B(v0, l) при к = 0.

Утверждения о сходимости неявных итерационных процессов (25) и (26) формулируются аналогично. Теорема 3. Пусть

1) семейство фазовых траекторий в задаче (1), (2) ограничено:

x(t, u) e X , t e T, u eV, где X с Rn — выпуклое компактное множество;

2) вектор-функция f (x,u,t), функции F(x,u,t), j(x) дважды непрерывно дифференцируемы по совокупности переменных на соответствующих множествах Rn x U x T и Rn;

3) для вектор-функции Hu (|, x,u,t) в шаре B(v0,l) с Vc радиусом l > 0 с центром в точке v0 e Vc выполняется условие:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(u(t) - v(t),Hu (y(t,u),x(t,u),u(t), t) - Hu(y (t,v), x(t, v),v(t), t)) <

<- K||u (t) - v(0||2, u, v e B(v0, l), t eT, где K = const > 0, функция x(t,u), t eT — решение задачи Коши: x(t) = f (x(t),wa(y(t,u),x(t),u(t),t),t), x(to) = x0. Тогда для достаточно малых параметрах проектирования а > 0 итерационный процесс (25) сходится в норме ||-||с к единственному

решению v а e B(v0, l) уравнения (8) для любого начального приближения v0 e B(v0, l) при к = 0. Теорема 4. Пусть

1) семейство фазовых траекторий в задаче (1), (2) ограничено:

x(t,u) e X , t e T, u eV, где X с Rn — выпуклое компактное множество;

2) вектор-функция f (x,u,t), функции F(x,u,t), j(x) дважды непрерывно дифференцируемы по совокупности переменных на соответствующих множествах Rn х U х T и Rn;

3) для вектор-функции Hu (y, x,u,t) в шаре B(v0,l) с Vc радиусом l > 0 с центром в точке v0 e Vc выполняется условие:

(u(t) - v(t),Hu (y%(t,u),x(t,u),u(t), t) - Hu(y%(t,v), x(t, v),v(t), t)) < <- ^||u (t) - v(0||2, u, v e B(v0, l), t eT, где K = const > 0, функция (t,u), t eT — решение задачи Коши:

y(t) = -Hx (y(t), x(t, u), wa (y(t), x(t,u),u(t), t), t) , y(ti) = -(px (x(ti,u)). Тогда для достаточно малых параметрах проектирования а > 0 итерационный процесс (26) сходится в норме ||-||с к единственному

решению v а e B(v0, l) уравнения (8) для любого начального приближения v0 e B(v0, l) при к = 0.

Следствие. Пусть в условиях теорем 2, 3, 4 центр v0 e Vc шара B(v0, l) удовлетворяет уравнению (8). Тогда va = v0.

В условиях теорем 2, 3, 4 итерационные процессы для непрерывных начальных приближений v0 e B(v0, l) могут сходиться только к непрерывным экстремальным управлениям.

Результаты теорем 2, 3, 4 могут быть обобщены на более широкий класс измеримых функций:

V с V, = {v e Z„ (T): v(t) eU, t eT}

с нормой ||v||¥ = ess sup ||v(t)||, v eVL. В этом случае появляется принципи-

¥ teT

альная возможность сходимости итерационных процессов к экстремальным управлениям в классе кусочно-непрерывных управлений.

Таким образом, при достаточно малых параметрах проектирования операторы процессов (24), (25) и (26) определяют последовательности итерационных приближений, однозначно определенных и непрерывно зависящих от параметра проектирования, которые обладают принципиальной сходимостью к экстремальному управлению, удовлетворяющему дифференциальному принципу максимума (8). Результаты сходимости итерационных процессов зависят от выбора начального приближения процессов. В частности, в случае не единственного решения уравнения (8) сходимость итерационных процессов к тому или иному экстремальному управлению определяется выбором начального приближения.

Заключение

Предложены новые операторные формы принципа максимума в виде задач о неподвижной точке в пространстве управлений, которые позволяют эффективно применить и модифицировать известный аппарат теории и методов неподвижных точек для конструирования итерационных алгоритмов поиска экстремальных управлений.

Разработанные итерационные операторные методы поиска экстремальных управлений характеризуются нелокальностью последовательных приближений управления, отсутствием трудоемкой процедуры игольчатого или выпуклого варьирования управления в малой окрестности рассматриваемого приближения, характерной для градиентных методов, наличием в проекционных методах одного основного настроечного проекционного параметра, регулирующего сходимость итерационного процесса. В целом трудоемкость каждой итерации предлагаемых алгоритмов последовательных приближений определяется последовательным решением двух задач Коши для фазовых и сопряженных переменных.

Указанные свойства предлагаемых методов поиска экстремальных управлений принципиально важны для повышения эффективности решения задач оптимального управления и определяют перспективное направление развития методов оптимизации нелинейных динамических систем.

Литература

1. Васильев Ф. П. Численные методы решения экстремальных задач. М.: Наука, 1980. 518 с.

2. Васильев О. В. Лекции по методам оптимизации. Иркутск: Изд-во ИГУ, 1994. 340 с.

3. Срочко В. А. Итерационные методы решения задач оптимального управления. М.: Физматлит, 2000. 160 с.

4. Самарский А. А., Гулин А. В. Численные методы. М.: Наука, 1989. 432 с.

5. Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. 260 с.

6. Булдаев А. С. Методы неподвижных точек принципа максимума // Вестник Бурятского госуниверситета. Математика, информатика. 2015. № 4. С. 36-46.

7. Булдаев А. С. Задачи и методы неподвижных точек принципа максимума // Известия Иркутского государственного университета. Сер. Математика. 2015. Т. 14. С. 31-41.

8. Черноусько Ф. Л. Оценивание фазового состояния динамических систем. М.: Наука, 1988. 320 с.

OPERATOR EQUATIONS AND MAXIMUM PRINCIPLE

ALGORITHMS IN OPTIMAL CONTROL PROBLEMS

Aleksandr S. Buldaev

Dr. Sci. (Phys. and Math.), Prof.,

Dorzhi Banzarov Buryat State University

24a Smolina St., Ulan-Ude 670000, Russia

E-mail: buldaev@mail.ru

The article deals with a new developing approach to the numerical solution of nonlinear optimal control problems, based on the construction of operator equations in the form of fixed point problems characterizing optimal control conditions. This form makes it possible to apply and modify the well-known apparatus of the theory and methods of fixed points for searching of extremal controls. The proposed iterative algorithms of fixed points of the maximum principle have the nonlocality property of successive control approximations and the absence of a parametric search procedure for improving approximations at each iteration, which is characteristic of the well-known standard methods of the gradient maximum principle. We have considered the conditions for convergence of the constructed iterative processes based on the principle of contracting mappings.

Keywords: controllable system; control statement; maximum principle; fixed point problem; iterative algorithm; convergence of the iterative process.

References

1. Vasilyev F. P. Chislennye metody resheniya ekstremalnykh zadach [Numerical Methods for Solving Extremal Problems]. Moscow: Nauka Publ., 1980. 518 p.

2. Vasilyev O. V. Lektsii po metodam optimizatsii [Lectures on Optimization Methods]. Irkutsk: Irkutsk State Univ., 1994. 340 p.

3. Srochko V. A. Iteratsionnye metody resheniya zadach optimalnogo upavleniya [Iterative Methods for Solving Optimal Control Problems]. Moscow: Fizmatlit Publ., 2000. 160 p.

4. Samarskii A. A., Gulin A. V. Chislennye metody [Numerical Methods]. M.: Nauka Publ., 1989. 432 p.

5. Buldaev A. S. Metody vozmushchenii v zadachakh uluchsheniya i op-timizatsii upravlyaemykh system [Perturbation Methods in the Problems of Improving and Optimizing Controllable Systems]. Ulan-Ude: Buryat State Univ. Publ., 2008. 260 p.

6. Buldaev A. S. Metody nepodvizhnykh tochek printsipa maksimuma [Methods of Fixed Points of the Maximum Principle]. Vestnik Buryatskogo gosuniversiteta. Matematika, informatika. 2015. No. 4. P. 36-46.

7. Buldaev A. S. Zadachi i metody nepodvizhnykh tochek printsipa maksimuma [Problems and Methods of Fixed Points of the Maximum Principle]. Izvestiya Irkut-skogo gosudarstvennogo universiteta. Ser. Matematika. 2015. Vol. 14. Pp. 31-41.

8. Chernousko F. L. Otsenivanie fazovogo sostoyaniya dinamicheskikh system [Derivation of Estimate for the Phase State of Dynamical Systems]. Moscow: Nauka Publ., 1988. 320 p.

Операторные уравнения и алгоритмы принципа максимума в задачах оптимального управления Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Булдаев Александр Сергеевич

Похожие темы научных работ по математике , автор научной работы — Булдаев Александр Сергеевич

OPERATOR EQUATIONS AND MAXIMUM PRINCIPLE ALGORITHMS IN OPTIMAL CONTROL PROBLEMS

Текст научной работы на тему «Операторные уравнения и алгоритмы принципа максимума в задачах оптимального управления»