Научная статья на тему 'Методы приближенного решения задач оптимального управления'

Методы приближенного решения задач оптимального управления Текст научной статьи по специальности «Математика»

CC BY
389
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
EXTENSION AND LOCALIZATION PRINCIPLES / GLOBAL METHOD OF CONTROL IMPROVEMENT / MINIMAX PRINCIPLE / NEW VERSION OF PENALTY METHOD / МЕТОД ГЛОБАЛЬНОГО УЛУЧШЕНИЯ УПРАВЛЕНИЯ / МИНИМАКСНЫЙ ПРИНЦИП / НОВЫЙ ВАРИАНТ МЕТОДА ШТРАФОВ / ПРИНЦИПЫ РАСШИРЕНИЯ И ЛОКАЛИЗАЦИИ

Аннотация научной статьи по математике, автор научной работы — Гурман Владимир Иосифович, Расина Ирина Викторовна, Гусева Ирина Сергеевна, Фесько Олесь Владимирович

Рассматривается общий подход к приближенному решению задач оптимального управления, включающий глобальный поиск начального приближения, и построению эффективных итерационных процедур его улучшения с использованием принципов расширения, локализации, достаточных условий оптимальности и глобальных оценок. Предлагается новый вариант метода штрафов. Значительное внимание уделяется новым конструктивным методам на основе минимаксного принципа В.Ф. Кротова улучшения управления

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гурман Владимир Иосифович, Расина Ирина Викторовна, Гусева Ирина Сергеевна, Фесько Олесь Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы приближенного решения задач оптимального управления»

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №4(27), 2015, с. 113-137 УДК 517.977

В. И. Гурман, И. В. Расина, И. С. Гусева, О. В. Фесько

Методы приближенного решения задач оптимального управления

Аннотация. Рассматривается общий подход к приближенному решению задач оптимального управления, включающий глобальный поиск начального приближения, и построению эффективных итерационных процедур его улучшения с использованием принципов расширения, локализации, достаточных условий оптимальности и глобальных оценок. Предлагается новый вариант метода штрафов. Значительное внимание уделяется новым конструктивным методам на основе минимаксного принципа В.Ф. Кротова улучшения управления.

Ключевые слова и фразы: принципы расширения и локализации, минимаксный принцип, метод глобального улучшения управления, новый вариант метода штрафов.

Введение

В [1] представлен краткий обзор приближенных методов оптимального управления, а в [2] предложена схема приближенной оптимизации, включающая поиск начального приближения глобально-оптимального решения, его уточнение в некоторой итерационной процедуре последовательного улучшения и оценку точности полученного приближенного решения. Поиск начального приближения с использованием эффективных методов теории вырожденных задач и магистральных решений детально рассмотрен в [3,4].

В данной статье дается теоретическое обоснование новых методов приближенной оптимизации управления, в том числе — с применением нестандартного метода штрафов. Значительное внимание уделяется новым реализациям общего подхода к глобальному улучшению управления [5-9] (получившего название минимаксного принципа). Приводятся иллюстративные и содержательные примеры.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проекты 15-01-01915 А, 15-01-01923 А, 15-07-09091 Л).

© В. И. Гурман!, И. В. Расина! , И. С. Гусева( , О. В. Фесько!, 2015

© Институт программных систем имени А. К. Айламазяна РАН!1'2, , 2015

© Бурятский государственный университет! , 2015

© Программные системы: теория и приложения, 2015

1. Абстрактная схема итерационной оптимизации

Абстрактная задача оптимизации формулируется следующим образом. Рассматривается некоторое множество М, называемое основным, на котором задан функционал I(то), I : М ^ М. Задано множество О С М (как правило, с помощью некоторых условий и ограничений), называемое допустимым множеством. Требуется найти минимизирующую последовательность [т8} С О : I(то8) ^ МI.

Основной подход к решению этой задачи — принцип расширения: вводятся множество Е — расширение О, и функционал Ь(т), Ь : М ^ М, такой что Ь(т) = I(то) на О. Цель — замена исходной задачи более простой, как правило, путем исключения тех или иных сложных связей и ограничений, но так, чтобы ее решение принадлежало исходному множеству О.

Пусть множество О задано в виде О = {то € Е: д(т) = 0}, где д: М ^ М3 — некоторый оператор. Зададим семейство Ьа как

Ьа(т) = (1 — а)1 (то) + аЛа(д(т)), 0 < а < 1,

Ла : М3 ^ М, где каждый элемент семейства Ьа — некоторый функционал, который назовем обобщенным лагранжианом. Частный случай: Ьа — штрафной функционал, когда

Ла(0)=0, Ла(д) > 0, д = 0.

Такая конструкция составляет основу известного метода штрафов. Идея метода состоит в том, что при а ^ 1 соответствующая последовательность решений та задач (Е, Ьа) (не обязательно из О) аппроксимирует с любой точностью, по крайней мере по функционалу I, искомое решение: I(та) ^ МI.

Рассмотрим подробнее его конкретизацию для случая Б = {то € Е : то = (тх, ти), тх = /(ти)} : д(т) = тх — /(ти), Ьа(т) = (1 — а)1 (тх, ти) + аЛ(тх — /(ти)). Пусть ТОа = (ТОха,ТОиа) — решение задачи (Е,Ьа). Тогда в соответствии с методом штрафов при а ^ 1:

Л(тха — / (ТО иа.)) ^ 0, I (ТО ха, ТО иа) ^ Ш I,

где ('ТОха = /(ТОиа)) € О,

I ('ТО ха, ТО иа) ^ М I,

т.е. 'ТОа = (ТОха,ТОиа) — приближенное решение из О.

Итерационная процедура решения сформулированной абстрактной задачи генерируется посредством некоторого оператора улучшения в(т), такого что I(в (то)) < I(то), который строится с использованием принципов расширения, локализации и минимаксного принципа.

Пусть имеется оператор 9(т), такой что:

1) Ь(в(т)) < Ь(то) при то £ Е, в(т) £ Е,

2) в (то) £ Б, если то £ Б.

Тогда I(в(т)) < I(то).

Такой оператор генерирует улучшающую последовательность тоя £ Б, такую что 1(то8+{) < I(т3). Для того чтобы она была

минимизирующей, достаточно, чтобы I(то3) ^ I = inf Ь.

Е

Принцип локализации [10,11] состоит в том, чтобы сводить задачу улучшения к задаче глобальной оптимизации или глобального улучшения на приближенной упрощенной модели (описании функционала I на Б) в окрестности улучшаемого элемента то1. Для того, чтобы решение не вышло из этой окрестности, задача локализуется различными способами.

Один из способов — «штрафовать» отклонение то от то1 путем добавления с определенным весом к I функционала J(то1, то) типа нормы, такого, что

J(то1,то1)=0, J(то1, то) > 0, то = то1.

Получается вспомогательный функционал

1а(то) = а1 (то) + (1 — а)1 (то1, то), 0 < а < 1.

В [10] показано, что при естественных предположениях существует такое 0 < а < 1, при котором приближенная минимизация вспомогательного функционала 1а(то) на упрощенной модели приводит к уменьшению исходного функционала I. Другой путь — ввести ограничение J(то1, то) < а, чтобы непосредственно выделить желаемую окрестность. В обоих случаях, меняя параметр а, можно добиться наиболее эффективного улучшения, т.е. его можно рассматривать как регулятор метода улучшения.

Минимаксный принцип [5, 6] состоит в следующем. Пусть то = (тох, тои), на множестве Б действует операторная связь тох = /(тои) и имеется некоторая пара (тох,тои)1 £ Б. Задается множество Е и строится функционал Ь такой, что Ь = I на Б. Если задать Ь так,

чтобы

(1) Ь((тох,тои)1) =вир Ь(тох ,то1и),

а тои*(тох) — из условия шш Ь(тох, тои), то

т„

I((тох,тои)п) < I((

тох ,тои) ),

где ((тох,тои)и) получается в результате решения уравнения тох = /(тои!¥ (тох)) и то= тои„ (то^). Такое улучшение называется глобальным.

Рассмотрим далее свойства итерационных процессов и их связь с условиями оптимальности. Назовем то обобщенным неподвижным элементом оператора в, если I(то) = I(в(т)). Будем говорить, что последовательность {то3}, генерируемая оператором в, сходится к обобщенному неподвижному элементу, если I(то3+х) — I(то3) ^ 0.

Теорема 1. Пусть функционал I непрерывен и ограничен снизу, в (то) — монотонный оператор улучшения,, порождающий итерационный процесс то8+1 = в(то8) и улучшающую последовательность {то8}, такую что I(тое+^) < I(то8). Тогда эта последовательность сходится к обобщенному неподвижному элементу.

Доказательство. По определению оператора в (то) он порождает монотонную невозрастающую числовую последовательность 18 = I(то8), сходящуюся к некоторому пределу I. Но тогда эта последовательность фундаментальная: 18+1 — 18 ^ 0, т.е. I(тое+^) — I(тое) ^ 0. □

С использованием введенных абстрактных понятий нетрудно сформулировать почти очевидные утверждения, устанавливающие связь методов (алгоритмов) улучшения с необходимыми условиями оптимальности:

Лемма 1. Пусть имеется элемент то* £ Б. Для того, чтобы он доставлял минимум функционалу I на Б, необходимо, чтобы он был обобщенным неподвижным элементом для некоторого оператора улучшения.

Лемма 2. Пусть имеется последовательность {то8} С Б. Для того чтобы она была минимизирующей, необходимо, чтобы она сходилась к обобщенному неподвижному элементу некоторого оператора улучшения.

При конкретизации алгоритмов улучшения возникают и конкретные условия неподвижности, которые и становятся необходимыми условиями оптимальности. Примерами могут служить необходимые условия оптимальности, отличные от традиционных, полученные в [12,13] из свойств конкретных алгоритмов улучшения.

Неподвижность элемента еще не означает, что он не улучшаем посредством того же оператора улучшения. Улучшение можно пытаться получить за счет возмущения неподвижного элемента — замены его другим из допустимого множества. Если при всех возмущениях из некоторого подмножества О с (ТО) С О, содержащего ТО, соответствующий итерационный процесс сходится (по функционалу) к рассматриваемому неподвижному элементу, то последний можно рассматривать как устойчивый (по функционалу).

Пусть ТО — обобщенный неподвижный элемент оператора улучшения в, в (то) € О с, то € О с • Без ограничения общности будем считать, что I(то) = 0. Свойство устойчивости можно охарактеризовать условием 13 ^ 0 для любых тоо € О с (примем его за определение). Поскольку в — оператор улучшения, то это означает, что I(ТО) < I(то) для всех то € О с, т.е. ТО оптимален на О с. Таким образом, справедлива

Теорема 2. Для того чтобы элемент то € О с был оптимальным на этом множестве, необходимо и достаточно, чтобы он был устойчивым для некоторого оператора улучшения, действующего на О с ■

Оценка точности приближенного решения 'ТО получается из неравенства

I(ТО) — МI < Д = I(ТО) — М Ь,

Ю Е

которое непосредственно следует из принципа расширения. Величина Д определяется при конкретном конструктивном задании Е, Ь, например, на этапах поиска начального приближения и построения итерационного процесса. Если разрешающее расширение найдется в некотором специальном классе расширений вида (Е, I) (т.е. таких, где в качестве функционала Ь задается сам исходный функционал I), то исходная задача называется вырожденной относительно этого класса [3]. Такие задачи характерны для практических приложений. Для них разработаны специальные методы оптимизации, связанные с упрощающими преобразованиями на содержательном уровне, которые используются в следующих разделах этой части статьи.

Отметим, что несколько иной подход, связанный с расширением экстремальных задач, вместе с примерами его использования предложен А.М. Цирлиным [14].

2. Общая задача оптимального управления непрерывной системой

Применим теперь намеченные выше подходы к задаче оптимального управления непрерывной системой:

(2) х = f (t,x,u), х G M", и G U (t,x) С W,

t G [ti,tF], x(ti) = xi, I = F(x(tp)), где f (t, x, u), F(x) непрерывны, x (t) кусочно-гладкие, а и (t) кусочно-непрерывные. Здесь m G M — произвольная пара (x(t),u(t)), а D выделяется из M указанными условиями.

Рассмотрим два семейства задач, полученных двумя последовательными расширениями: первое (Ei,Lia) — по методу штрафов, где Ei получается заменой исходной дифференциальной связи более слабой x = V при неограниченном v, а

rtF

Lia = & (v — f (t,x, u))2dt + (1 — a)F(x(tp)), x = v, 0 < a < 1.

J11

При втором расширении (Е2,^2а) множество E2 получается исключением дифференциальной связи, а L2a задается как обобщенный лагранжиан с помощью гладкой функции Кротова tp(t,x):

/'t F

L2a = Ga(x(tp)) — Ra (t,x,u,v))dt,

Jti

Ra = yxv — a(v — f (t, x, u))2 + ipt, Ga(x) = (1 — a)F(x) + (p(tp, x) — tp(ti, xi).

Для произвольной кусочно-непрерывной u(t) зададим ip из условий, обеспечивающих минимум L2 a по остальным функциональным аргументам:

max Ra = 0, Ga = const = —<p(ti, xi) :

+ f (t,x,u(t)),

1

Vxf + -¡—(Px) + ft = 0, f(tp, x) = —(1 — a)F(x) 4a

v

где vФа — точка максимума Ra по v, которая получается из условия стационарности (Ra)v =0 с учетом вогнутости Ra по этой переменной. Отсюда видно, что p ^ 0, v ^ f(t,х,и) при а ^ 1. Это означает, что при любом методе поиска оптимального управления для задачи, где используются указанные условия, решение задачи (Ei,Lia) сколь угодно точно удовлетворяет дифференциальной связи в (2) при а ^ 1. С другой стороны, управление ua(t) (программное), либо ua(t,х) (позиционное), получаемое в результате дальнейшей процедуры оптимизации, задает приближенное решение исходной задачи (D, I), если его подставить непосредственно в исходную дифференциальную связь: X = f (t, х, u).

Пример 1. Линейно-квадратическая задача оптимального управления

X0 = (х)2 + (u)2, X = Ах + Bu, te [0,1], х0(0) =0, I = х0(1) ^ min. По методу штрафов она преобразуется к задаче

(3)

х0 = (1 -а)((х)2 + (u)2)+a(v -Ах - Bu)2, х = v, х°(1) ^ min .

Здесь управления u и v независимы и u не связано с дифференциальной связью, поэтому минимизируем правую часть (3) по u непосредственно с учетом ее выпуклости:

2(1 - a)u + 2a(v -Ах - Bu)(-B) = 0.

Тогда управление, доставляющее минимум (3), определяется по формуле:

аВ

ua = q(a)(v - Ах), q(a) = {i -а) + аВ2 , а функционал принимает вид:

J = min ((1 - а)х2 +p(a)(v - Ах)2) dt, х = v.

и J о

р(а) = (1-а)q2(a)+a(1-aBq(а)), р(0) = р(1) = q(0) = 0, q(1) = 1/В.

Решение этой задачи легко получается, например, с использованием простейшего уравнения Риккати (на чем не останавливаемся). Нетрудно видеть, что

х = va = Ах + Büa = Ах + Bд(а)(va - Ах),

va ^ Ах + Büa = Ах + B</(1)(va - Ах),

при а ^ 1 дифференциальная связь выполняется, в то время как априори в оштрафованной задаче положить а = 1 нельзя (так же как и а = 0). С другой стороны, йа можно рассматривать как приближенное управление, после того как найдено va из оштрафованной задачи.

К задаче (Ei,Lia) можно применять метод глобального улучшения управления с использованием линейного уравнения относительно p ([9], [15]):

(4) pxv\t) — a((v\t) — f (t,x,ul(t)))2) + pt = 0, p(tF,x) = —F(x)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и максимизируя Ra по обоим управляющим переменным и, v в процессе интегрирования уравнения X = v, x(tj) = xi. В результате получится улучшенная тройка (x(t),u(t), , при этом, с учетом

предыдущих рассуждений, x„ = v„ (t) ^ f(t,x^ (t),u^ (t)) при а ^ 1, а решение уравнения x = f(t,x,u^(t)), x(ti) = xj, можно рассматривать как приближенное решение исходной задачи из D.

3. Глобальный метод улучшения для полиномиальной основной задачи вариационного исчисления

Задача (Ei, L\a) близка по форме к основной задаче вариационного исчисления. Важное преимущество задач такого типа— возможность точного решения задачи Коши (4), когда правые части системы и функция F (x) — некоторые степенные полиномы по состоянию (с учетом того, что нелинейные системы общего вида аппроксимируются таковыми при естественных предположениях). В таких случаях, как нетрудно заметить, уравнению (4) с краевым условием удовлетворяет p в форме полинома соответствующей степени относительно x. Рассмотрим это подробнее tF

'=!' 0(t+F (x) ^ w'x=и

ti

f = f8(t, и) + f°(t, u)x + ■■■ + f°(t, u)(x)k, F0 = F0 + F0x + ■■■ + F°(x)1. Соотношения метода

pïu\t) — f(t, x, u\t)) + pt = 0, p(tF, x) = —F(x)

выполняются, если задать в форме

Ф = + щ(¿)(х) +-----+ ^ (¿)(ХУ, 3 = тах(к, I).

Подставив эту конструкцию в указанные соотношения, получим

ф0 = -ср1и\г) + (г)), ) = -г0, ф1 = -&Р2и1(г) + /0(г,и1(г)), ^(гР) =

^ = ъ(гР) = ,

= 0, если ]> к, = 0, если з > I. Цепочка этих соотношений разрешается последовательно, начиная с номера к.

4. Различные реализации глобальных методов улучшения

В ходе вычислительных экспериментов выявилась такая особенность глобальных методов улучшения, как их зависимость от формализации задачи оптимального управления. Например, система (2) может быть записана в форме

(5) х = V, V е V (t, х), V (t,x) = f (t, X, U (t, x)),

I = F(x(tF)) ^ inf.

Для этой формы основное уравнение в частных производных относительно ф и соответствующая задача Коши получаются отличными от (4), записанных в терминах исходной системы (2) (и существенно более простыми):

(6) ^'¡v1(t) + ^t = 0, ф f ,х) = -F (х).

В этом отличие рассматриваемых методов улучшения от методов, описывающих непосредственно оптимальную траекторию x(t) например, от ПМП и метода Беллмана оптимизации управления, соотношения которых не зависят от формализации задачи:

х = Hp, р= -Нх, p(t f ) = -Fx(t f ), х = x(t), = -H(t, X, фх), ф(tF, x) = -F(x), H(t,x,p)= max pTv = max pT f (t,x,u).

vev(t,x) ueu(t ,x)

Рассмотрим это подробнее. Задача (6) допускает почти аналитическое решение путем известной процедуры интегрирования ее характеристической системы

a: = vI(t): p(t ,х)=ц(у(Ь ,х)), t

(7) У = х -J vI(r)dT, г](у) = -F(у + с),

ti

tF

= I( ) d . ti

Тем самым задаются конкретные функции p(t,х) и R(t,х, v). Дальнейшие шаги метода не меняются.

Особенно простой получается процедура, когда функция F( х) линейна: F(х) = атх + Ь, и функция г/(у) и вслед за ней функция p(t, х) выражаются явно. Чтобы получить этот случай, достаточно исходный функционал I = F(х(Ьр)) представить в форме

1 = х0(г р), х0 = Fxv, х0(0)=0.

Рассмотрим для иллюстрации следующий пример.

Пример 2. Линейно-квадратическая по состоянию задача оптимального управления

х0 = ^х1 )2, х1 = -ах1, te [0,1], х0(0) = 0,

х1(0) = 1, 1 = х0(1) ^ min .

Вначале применим метод глобального улучшения управления непосредственно к задаче в исходной форме (положим для определенности uI(t) = 1). Уравнения (4) здесь принимают вид:

(8) рхоу1(г)(х1)2 +рхгу1(г)х1 + pt = 0, p(t р ,х) = -х0.

Им удовлетворяет 'решение вида p = ф0(1)х0 + ф1(Ь)х1 + 1 /2а(х1)2, после подстановки которого в (8) они сводятся к следующем обыкновенным уравнениям

ф0 = 0, ф1 = -ф1, & = -2(а + ф0),

Ф0(1) = -1, Ф1(1)=0, а(1)=0,

которые имеют решение

ф0(г) = -1, ф1(г) = 0, a(t) = 1 - e-2(t-1) < 0, t< 1.

Отсюда p = —x0 + (1 — е 2(t 1))(x1)2,

R = —е-2(t-1)(x1)2u + pt ^ max, uu(t) = —1,

М<1

x0ll(t) = 1/2(е-2t — 1), x1l\t) = e . Рассмотрим теперь другую формализацию задачи

Х0 = v0, X1 = v1, v0 = u(x1)2, v1 = их1, v0l(t) = 1/2( e2t — 1), w1l(i) = е\ (9) pxo 1/2(е2t — 1)+pxi el + pt = 0, p(t p ,x) = —x0.

Отсюда

p = —x0 + 1/4(e2t — 2t), R = —v0 + 1/2(e2t — 1) ^ max , ull(t) = —1.

v°=u(x1 )2

Как видим, решение задачи в целом получается тем же, хотя определяющая его функция p получается как решение более простого уравнения и не квадратической, а линейной.

Если видоизменить задачу, положив x0 = v0, v0 = (x1 )2, то получаются те же выражения для p и R, однако теперь для выполнения дальнейших шагов процедуры метода — увеличения R и выполнения дифференциальных связей — достаточно максимизировать R по x1 в границах, получаемых из условий

x1 = v1 =ux1, |u|< 1, x1(0) = 1.

Решением служит нижняя границу x1, получаемая при u = —1, т.е. улучшенное управление: ull(t) = —1. В данном случае оно и оптимально, поскольку выполняются достаточные условия оптимальности в терминах R11 = maxR(t, x, u), G(x) = const. Как видно, для этой за-

x,u

дачи процедура метода родственна процедуре поиска магистральных решений, рассмотренной в [2].

5. Применение модели дискретно-непрерывной системы для повышения эффективности итерационной процедуры

Хотя начальное приближение на первом этапе (идеальное магистральное решение) может быть получено в терминах исходной системы и к нему может быть непосредственно применен некоторый алгоритм итерационного улучшения для непрерывных систем, эффективность всей процедуры реализации идеального магистрального решения может быть повышена за счет перехода к модели дискретно-непрерывной системы (ДНС). Также известно, что исходная система

может допускать многократный переход к производным системам. Тогда имеем последовательность решений производных систем различных ступеней. В таких случаях переход к ДНС эффективен для организации итерационных процессов на стадиях последовательной аппроксимации идеального магистрального решения высшей ступени решениями производных систем низших ступеней.

Как показано в [2], на каждой стадии мы имеем некоторую дифференциальную систему, которая в специальных переменных может быть представлена в виде

(10) у = ду (1, у, г), ¿ = <?(1, у, г) + К(I, у, г)и, и е Мк.

Предполагается, что имеются оценки границ изменения всех переменных, полученные с учетом исходных априорных ограничений и дифференциальных связей известными методами оценок множеств достижимости, в частности с использованием конкретной методики, приведенной в [2]. Соответственно записывается задача оптимального управления:

у(*I) = У1, уе У(г) с М"- к, у(±р) е гу, 1 = Р(фр, у(гр), г(Ьр))) ^ ш.

Если исключить второе уравнение (10), получим производную систему следующей ступени, где г играет роль управления.

Построим модель ДНС. Разобьем заданный отрезок на К этапов к = 0,1, 2,..., К = кр — 1 соответственно точкам разрыва г(Ь) на идеальном магистральном решении. Этапы имеют следующее содержание. Этап к = 0 — выход из начальной точки на магистраль. Этап к = К — сход с магистрали в конечную точку. Остальные четные к — переходы между магистралями. Нечетные к — движения по магистралям.

Обозначим векторы состояния верхнего (дискретного) уровня через (у0, у, г), а нижнего (непрерывного) уровня — через (ус, гс). Их размерности будут меняться по этапам. Изменение переменных описывается следующими уравнениями (по шагам):

у0(к + 1) = у0(к) + и1, у0(к) Ки1 <иатах, к = 0,1,...К.

Для четных к:

(11) ус = Г^, ус, гс), ¿с = ис, ге [у0(к), и1], УС (к) = у(к), у(к + 1) = уср (к), г^к) = г(к).

Для нечетных к:

(12) ус = , ус, ис), (ис = гс), í € [у0(к), и"],

уС(к) = у(к), у(к + 1) = уср (к), г (к + 1) = и2.

Здесь управление и1 определяет моменты окончания этапов, а переменная у0 играет роль времени. Дифференциальное уравнение ¿с = ис действует на переходных (четных) этапах, а на нечетных (магистральных) исключается.

В этой формализации рассматривается задача о минимуме функционала I = Р(у(кр),и2) = ст(г(кр))у(кр) при заданном у(к[) = У1, ,г(0) = г1. Для ее решения может быть применен итерационный алгоритм глобального улучшения типа Кротова, построенный в [15].

6. Итерационное улучшение управления лечебным воздействием

В качестве содержательного примера рассматривается задача управления лечебным воздействием [16] на основе простейшей модели иммунного процесса при вирусном заболевании [17]:

У = Ъ1У — Ъ2РУ — иУ, 0 < и(г) < итах, С = Ъ3РУ — Ъ5(С — 1), Р = ЪА(С — Р) — ЬцРУ, т = Ъ&У — Ъ^т, Ь € Т = [0,Ьр].

Здесь У — инфекционное начало (вирус), С, Р — защитные силы организма (плазмоклетки, антитела), т — степень поражения организма, 0 < т < 1, Ъ > 0, 1=1, 8 — постоянные коэффициенты. Управление и характеризует интенсивность введения иммуноглобулинов. Начальные условия

У(0) = У0 > 0, Р(0) = Р0, С(0) = С0, т(0) = т0

имитируют заражение организма в момент Ь = 0 начальной дозой вируса У0 > 0. Задача состоит в минимизации степени поражения т в конце срока лечения при заданном (приемлемом) количестве вируса:

л = т(гр) ^ м/У(гр) < Ур.

Применим описанную в [2] процедуру преобразований исходной модели и оценок. Вначале (этап 1) построим простую оценку допустимой области рассматриваемой задачи для системы (13) (границы значений каждой переменной на всевозможных траекториях системы)

(13)

О 20 40 60 80 100 0 20 40 60 80 100

Рис. 1: Границы и траектории исходной системы при разных управлениях

по методике из [18]. Очевидно, V > 0, т > 0, С > 0, Р > 0, что определяет априорные нижние границы этих переменных. Априорные верхние границы получаются при естественном предположении об отсутствии лечебного воздействия: и(Ъ) = 0 (рис. 1).

В целом границы построенной допустимой области представлены на рис. 1. Расчеты проводились для данных таблицы 1.

Таблица 1: Таблица данных

Параметр Значение Парам. Знач-е Парам. Знач-е

10-6 1 0.5

1 0.8 к 6 10

Со 1 кз 103 1г7 0.12

то 0 Л-4 0.17 к« 8

100 ^шах 0.1

На этапе 2 выполняется преобразование системы (13) к системам с линейными управлениями. Заметим, что система (13) вида х = д(Ь,х) + к(Ъ,х)и) (аффинная), т.е. может быть непосредственно преобразована к производной системе первой ступени (3-го порядка)

а) при С = 0, F = 0.99, т = 0 б) при С = 1.5, F = 1.4, т = 1

Рис. 2: Овыпукление множества скоростей второй производной системы

исключением первого из уравнений (13). Она, как видно, зависит от нового управления V линейно, и следовательно, может быть преобразована к производной системе второй ступени с помощью интегралов соответствующей предельной системы

(1С/(1т = h3FV, (Ш/(1т = —к^У, с],т/с],т = к6У :

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У1 = С + У2 =lnF + к8/к6т.

Вторая производная система:

У1 = а1У1 — а^ + к5, (14) . 2 У1 2

У2 = к4 — — к7У2 + к7 lnF — а2к4 F

(выражения коэффициентов здесь и далее сведены в таблице 2). Здесь роль управления играет F, которое входит нелинейно. Проведем овыпукление множества скоростей с учетом построенных границ. При этом получаются характерные фигуры, показанные на рис. 2: в качестве нижней границы F^ взято F = 0.99 (как видно из рис. 1, нижняя граница стремится к этому значению).

Учитывая, что кривизна нелинейной части невелика, аппроксимируем каждую из них «срединным» отрезком прямой, как показано на рис. 2, т.е. выпуклой комбинацией правых частей (14), соответствующих выбранным значениям F = 0.99, 1.4 (рис. 2а и 2б соответственно):

У1 = а1У1 — а4 — 0.41а3ш, У2 = а5У1 — к7У2 —а6 + (а8 — а7У 1)ш.

Таблица 2: Таблица данных

Парам. Расшифровка Знач-е Парам. Расшифровка Знач-е

а1 Т3Т4 - 20.7 а8 к7(1п(1.4) — 1п(0.99)) 4.16 • 10-2

62 ТЦ + 1 126 Ь1 ат (а1 + ^) 1.05

аз (а1 + -4 ) 2.61 • 103 Ь2 а8(а1 + -7) + 124127 + +0.41азаб 3.15 • 102

64 0.99а3 — 2.59 • 103 Ъз 6,46,8 + 0.41азаб 2.31 • 104

65 0.99 0.172 У1 Со + Т3ро 126

ав - к7 1п(0.99) +а2к4 21.4 У 2 1п(Ро) + т^то 0

67 (—Г? + ож) -4 5.03 • 10-2 7о — 0.416зУ2 — 68УО1 + +ъ (Уо1)2 3.94 • 102

Полученная система линейна по управлению, а значит вновь с помощью интеграла предельной системы

СУ1 ¿У2 , Л,.

—-— = —0.41а3-ш, —-— = (а^ — а7У :

с с

7 = —0.41азУ2 — а8У1 + О7 (У1 )2

можно получить производную систему третьей ступени (первого порядка):

г = —к7г + ъ,(У 1)2 — Ь2У1 + ъ3.

Присоединим остальные уравнения в новых переменных, тогда получим следующую цепочку, представляющую исходную задачу в новых переменных:

(15)

г = —к7г + Ъ1(У1)2 — Ь2У1 + ъ3,

У1 =а1У1 — а3Р + к5, Р = к4(У1 — а2Р) — к8РУ,

У = н1у — ь2ру — иУ, о < и(г) < итах, г е т = [о, гР],

(-7.п.оУ 1(^) + (У 1а„))2\_

J = ^ (—7 С -) — ^ -) + От (^ ^ - ))0 — -й (* -),

J ^ М.

Начальные условия:

у (0) = Уо, Р (0) = Ро, У 1(0)=Уо1, 7 (0) = 7о,

Таблица 3: Допустимое решение

Ступень Допустимое управление Функционал (знач-е)

3 рис. 3а 0

2 рис. 3б 0

1 рис. 3в 3.37 • 10-3

0 (исх.) рис. 3г 3.61 • 10-3

где

10 = ^о + ^*о, ^о = -0.41азУ02 - «8101 + ^ (101)2 ,

у02 ) + ^ ТО.

пе

Отсюда по цепочке находится подходящая аппроксимация полученного решения третьей производной задачи, вплоть до допустимого м(£) и соответствующей допустимой траектории исходной системы (таблица 3). Расчеты проводились для данных в таблице 1, 2.

Подставляя найденное магистральное и (рис. 3) в исходную систему, находим V(£), Р(£), С(£) и то(£) (рис. 1). В результате .1 = то(Ьр) = 3.61 • 10-3.

Из анализа полученного решения и в ходе экспериментов выявилась необходимость корректировки параметров модели, поскольку при заданном сочетании Л-1, Л-2 и мтах начальное количество вируса V (0) не могло быть уменьшено ни при какой длительности процесса Ьр, что противоречит практическому смыслу модели. Были заданы значения Л-2 = = 1 и соответственно пересчитано начальное приближение по описанной выше схеме.

В результате реализации той же процедуры, основанной на магистральных решениях, было найдено приближенное глобально-оптимальное решение (рис. 4, 5). Оно оказалось неподвижным элементом как для локализованного алгоритма глобального улучшения, так и для обычного градиентного алгоритма. После его достаточно грубой модификации итерационный процесс активизировался и закончился практически на 3-й итерации алгоритма глобального улучшения (рис. 6) с возвращением на тот же неподвижный элемент.

Для оценки полученного приближенного решения (в то время как точное решение неизвестно) может быть использовано магистральное решение 3-й ступени, на котором значение функционала равно

170 160 150 140 130

0,00020 0,00015 0,00010 0,00005

20 40 60 80

а

1,4

40

V

80 100

вг Рис. 3: Допустимое управление

и(0 одо-

0,08 0,06 0,040,02

1

^возм

0 20 40 60 80 100

Рис. 4: Магистральное и возмущенное управление

20 40 60 80

о-

80 100

б

априорной нижней границе то(Ьр) = 0, т.е. полученное фактическое значение то(Ьр) характеризует точность решения для различных Ьр.

Рис. 5: Границы и траектории исходной системы при разных управлениях

Рис. 6: Изменение значения функционала по итерациям

7. Заключение

Отмеченные свойства монотонных алгоритмов (операторов улучшения) в значительной мере проясняют проблему сходимости: генерируемые такими операторами улучшающие итерационные процессы сходятся по минимизируемому функционалу, если он ограничен снизу. Этого достаточно для оптимизационных задач, решаемых в терминах минимизирующей последовательности функционала, заданного по содержанию прикладной задачи. Если задавать функционал типа нормы, то они могут быть применены и для решения уравнений вариационными методами. Важно отметить установленную на абстрактном уровне связь между условиями оптимальности, с одной стороны, и условиями обобщенной неподвижности операторов улучшения и устойчивости генерируемых ими итерационных процессов.

Разумеется, сформулированные выше общие принципы построения итерационных алгоритмов улучшения и оптимизации не ведут непосредственно к конкретным алгоритмам. Требуются конструктивные шаги — задание конкретных расширений (Ь, О), способов локализации и аппроксимации и пр., что может показаться обременительным, однако оставляет достаточно свободы для творчества и возможностей учесть специфику той или иной конкретной задачи. Это наглядно иллюстрируют рассмотренные выше новые подходы к приближенной оптимизации, в частности, использование нестандартного метода штрафов, в котором штрафуется невязка дифференциальной связи. Поскольку сколь-либо сложные дифференциальные уравнения решаются численно, т.е. дифференциальная связь всегда выполняется приближенно, то при достаточно сильном штрафе такое приближение, сравнимое по точности с результатом численного интегрирования, получается автоматически.

На содержательном уровне основное внимание уделено аналогам и модификациям метода глобального улучшения, построенным по минимаксному принципу Кротова с использованием линейного уравнения в частных производных относительно разрешающей функции. Показано, что в отличие от методов улучшения, основанных на локализации глобальных условий оптимальности, они допускают различные реализации вплоть до аналитически разрешимых уравнений в частных производных в зависимости от способов формализации исходной задачи, разнообразие которых для многомерных задач оптимального управления чрезвычайно велико. Насколько соответствующие методы улучшения эффективны для построения итерационных процессов,

еще предстоит изучить в вычислительных экспериментах и теоретических исследованиях. Отметим еще одну важную модификацию этого метода, предложенную в [2] с применением операции овыпукле-ния множества скоростей дифференциальной системы, позволяющую повысить эффективность за счет расширения области поиска улучшенных режимов и упрощения основной операции метода — сведения ее к задаче о максимуме линейной формы на выпуклом множестве.

Вычислительные эксперименты, проведенные на содержательном примере из области иммунологии и представленные в данной статье, подтверждают эффективность предложенной комплексной схемы приближенной оптимизации управления, в которой важная роль отводится не только построению итерационной процедуры, но и поиску начального глобально оптимального приближения. В данном случае для этой цели систематически применяются методы теории вырожденных задач и глобальные оценки областей достижимости, позволяющие упростить исходную задачу путем понижения ее порядка вплоть до первого. Рассмотренный содержательный пример иллюстрирует типичную для практики ситуацию, когда исследование прикладной задачи математическими методами, начиная от ее практической постановки, переплетено с процессом моделирования и требует многовариантного анализа и корректировки модели и математической постановки задачи в зависимости от его результатов. Это лишний раз подчеркивает важность и практическую ценность высокоэффективных приближенных методов.

Список литературы

[1] В. И. Гурман, И. В. Расина, А. О. Блинов. «Эволюция и перспективы приближенных методов оптимального управления», Программные системы: теория и приложения, 2:2(6) (2011), с. 11-29, URL: http://psta.psiras.ru/read/psta2011_2_11-29.pdf t113

[2] В. И. Гурман, И. В. Расина, И. С. Гусева. «Преобразования дифференциальных управляемых систем для поиска приближенно-оптимального управления», Программные системы: теория и приложения, 5:4(22) (2014), с. 123-157, URL: http://psta.psiras.ru/ read/psta2014_4_123- 157.pdf t113,1123,124,125,133

[3] В. И. Гурман. Вырожденные .задачи оптимального управления, Наука, М., 1997, 304 с.t113,117

[4] В. И. Гурман. «Магистральные решения в процедурах поиска оптимальных управлений», Автоматика и телемеханика, 2003, №3, с. 61-71. t113

В. Ф. Кротов, И. Н. Фельдман. «Итерационный метод решения задач оптимального управления», Изв. АН СССР. Техн. киберн., 1983, №2, с. 160-168. t113'115

V. F. Krotov. Global methods in optimal control, Marcel Dekker, New York, 1996, 385 p. t113'115

В. Ф. Кротов. «Об оптимизации управления квантовыми системами», Докл. РАН, 423:3 (2008), с. 316-319. t113

В. Ф. Кротов. «Управление квантовыми системами и некоторые идеи теории оптимального управления», Автоматика и телемеханика, 2009, №3, с. 15-23. t113

Е. А. Трушкова. «Алгоритмы глобального поиска оптимального управления», Автоматика и телемеханика, 2011, №6, с. 151-159. t113'120 В. И. Гурман. Принцип расширения в задачах управления, Наука. Физматлит, М., 1985, 288 с. t115

В. И. Гурман, И. В. Расина. «О практических приложениях достаточных условий сильного относительного минимума», Автоматика и телемеханика, 1979, №10, с. 12-18.t115

В. А. Срочко. Итерационные методы решения задач оптимального управления, Физматлит, М., 2000, 160 с. t117

А. С. Булдаев. «Проекционные процедуры нелокального улучшения линейно управляемых процессов», Известия вузов. Математика, 2004, №1, с. 18-24. t117

А. М. Цирлин. «Преобразования задач оптимального управления», Моделирование и анализ информационных систем,, 20:3 (2013), с. 130-152. t118

И. В. Расина. «Итерационные алгоритмы оптимизации дискретно-непрерывных процессов», Автоматика и телемеханика, 2012, №10,

с. 3-17. '120'125

A. С. Булдаев. Методы возмущений в задачах улучшения и оптимизации управляемых систем, Изд-во Бурят. гос. ун-та, Улан-Удэ, 2008, 259 с. t125

Г. И. Марчук. Математические методы в иммунологии. Вычислительные методы и алгоритмы, Наука, М., 1991, 304 с. t125

B. Ф. Кротов, В. И. Гурман. Методы и задачи оптимального управления, Наука, М., 1973, 448 с. t126

Д. В. Белышев, В. И. Гурман. «Интеллектуальные процедуры оптимального управления», Автоматика и телемеханика, 2002, №5, с. 147-155. t

20] А. И. Тятюшкин. Многометодная оптимизация управляемых систем,

LAP LAMBERT Academic Publishing, 2013. t Рекомендовал к публикации д.т.н. А. М. Цирлин

Об авторах:

Владимир Иосифович Гурман

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

д.т.н., профессор, зав. кафедрой системного анализа УГП им. А.К. Айламазяна, известный специалист в области теории управления, системного анализа и их приложений, автор и соавтор более 200 статей и 20 монографий e-mail: [email protected]

Ирина Викторовна Расина

г.н.с. Исследовательского центра системного анализа Института программных систем им. А. К. Айламазяна РАН,

д.ф.-м.н., специалист в области моделирования и управления гибридными системами, автор и соавтор более 100 статей и 5 монографий

e-mail: [email protected]

Ирина Сергеевна Гусева к.ф.-м.н., Бурятский Государственный Университет, область научных интересов - приближенные методы в теории управления

e-mail: ig [email protected]

Олесь Владимирович Фесько к.т.н., н.с. ИЦСА Института программных систем им. А.К. Айламазяна РАН, область научных интересов: приближенные методы оптимального управления, достаточные условия оптимальности, дискретно-непрерывные модели

e-mail: [email protected]

Пример ссылки на эту публикацию:

В. И. Гурман, И. В. Расина, И. С. Гусева, О. В. Фесько. «Методы приближенного решения задач оптимального управления», Программные системы: теория и приложения, 2015, 6:4(27), с. 113-137. 1ЖЬ: http://psta.psiras.ru/read/psta2015_4_113- 137.pdf

Vladimir Gurman, Irina Rasina, Irina Guseva, Oles Fesko. Methods for approximate

solution of optimal control problems.

Abstract. A general approach to approximate solution of optimal control problems which includes global search of initial approximation is considered. Effective iterational procedures for its iprovement using the extension and localization principles, sufficient conditions of optimality, and global estimates are developed. Special attention to the new practical methods of control improvement on the base of the Krotov's minimax principle is given. (In Russian).

Key Words and Phrases: extension and localization principles, minimax principle, global method

of control improvement, new version of penalty method.

References

[1] V. I. Gurman, I. V. Rasina, A. O. Blinov. "Evolution and prospects of approximate methods of optimal control", Programmnye Sistemy: Teoriya i Prilozheniya, 2:2(6) (2011), pp. 11-29 (in Russian), URL: http://psta.psiras.ru/read/psta2011_2_11-29.pdf

[2] V.I. Gurman, I.V. Rasina, I.S. Guseva. "Differential control systems transformations to approximate optimal control search", Programmnyye sistemy: teoriya i prilozheniya, 5:4(22) (2014), pp. 123-157 (in Russian), URL: http://psta.psiras.ru/read/psta2014_4_123-157.pdf

[3] V.I. Gurman. Singular optimal control problem, Nauka, M., 1997 (in Russian), 304 p.

[4] V. I. Gurman. "Turnpike solutions in the procedures seeking optimal controls", Autom. Remote Control, 64:3 (2003), pp. 399-408.

[5] V. F. Krotov, I. N. Fel'dman. "An iterative method for solving optimal control", Izv. ANSSSR. Tekhn. kibern., 1983, no.2, pp. 160-168 (in Russian).

[6] V. F. Krotov. Global methods in optimal control, Marcel Dekker, New York, 1996, 385 p.

[7] V. F. Krotov. "Optimization of the control of quantum systems", Dokl. RAN, 423:3 (2008), pp. 316-319 (in Russian).

[8] V. F. Krotov. "Control of the quantum systems and some ideas of the optimal control theory", Autom. Remote Control, 70:3 (2009), pp. 357-365.

[9] Ye. A. Trushkova. "Global control improvement algorithms", Autom. Remote Control,, 72:6 (2011), pp. 1282-1290.

[10] V. I. Gurman. The principle of enlargement in control, Nauka. Fizmatlit, M., 1985 (in Russian), 288 p.

[11] V. I. Gurman, I. V. Rasina. "On practical applications of conditions sufficient for a strong relative minimum", Autom. Remote Control, 40:10 (1980), pp. 1410-1415.

[12] V. A. Srochko. Iteration methods for the solution of optimal control problems, Fizmatlit, M., 2000 (in Russian), 160 p.

[13] A. S. Buldayev. "Projection procedures for the nonlocal improvement of linearly controlled processes", Russian Math. (Iz. VUZ), 48:1 (2004), pp. 16-22.

© V. I. Gurman(1, I. V. Rasina!2, I. S. Guseva!3, O. V. Fesko!1, 2015

© Ailamazyan Program System Institute of RAS(1>2>4, 2015

© Buryat State University(3, 2015

© Program systems: Theory and Applications, 2015

[14] A.M. Tsirlin. "Transformations of Optimal Control Problems", Model. Anal. Inform. Sist., 20:3 (2013), pp. 130-152 (in Russian).

[15] I. V. Rasina. "Iterative optimization algorithms for discrete-continuous processes", Autom. Remote Control, 73:10 (2012), pp. 1591-1603.

[16] A. S. Buldayev. Perturbation methods in improvement and optimization problems for controllable systems, Izd-vo Buryat. gos. un-ta, Ulan-Udye, 2008 (in Russian), 259 p.

[17] G. I. Marchuk. Mathematical methods in immunology. Computational methods and, algorithms, Nauka, M., 1991 (in Russian), 304 p.

[18] V. F. Krotov, V. I. Gurman. Methods and problems of optimal control, Nauka, M., 1973 (in Russian), 448 p.

[19] D. V. Belyshev, V. I. Gurman. "Intelligence procedures of optimal control", Autom. Remote Control, 63:5 (2002), pp. 829-837.

[20] A. I. Tyatyushkin. The multi-dimensional optimization of control systems, LAP LAMBERT Academic Publishing, 2013 (in Russian).

Sample citation of this publication:

Vladimir Gurman, Irina Rasina, Irina Guseva, Oles Fesko. "Methods for approximate solution of optimal control problems", Program systems: theory and applications, 2015, 6:4(27), pp. 113-137. (In Russian). URL: http://psta.psiras.ru/read/psta2015_4_113- 137.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.