Научная статья на тему 'Численные методы построения функций цены в задачах оптимального управления на бесконечном горизонте'

Численные методы построения функций цены в задачах оптимального управления на бесконечном горизонте Текст научной статьи по специальности «Математика»

CC BY
111
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ / ОБОБЩЕННЫЕ РЕШЕНИЯ УРАВНЕНИЙ ГАМИЛЬТОНА-ЯКОБИ / ФУНКЦИЯ ЦЕНЫ / АППРОКСИМАЦИОННЫЕ СХЕМЫ / ПОПЯТНЫЕ ПРОЦЕДУРЫ / OPTIMAL CONTROL / GENERALIZED SOLUTIONS OF HAMILTON-JACOBI EQUATIONS / VALUE FUNCTION / APPROXIMATION SCHEMES / BACKWARD PROCEDURES

Аннотация научной статьи по математике, автор научной работы — Багно Александр Леонидович, Тарасьев Александр Михайлович

В статье рассматривается задача оптимального управления на бесконечном горизонте, функционал качества которой содержит подынтегральную функцию и дисконтирующий множитель. Особенностью постановки изучаемой задачи является предположение о возможной неограниченности подынтегральной функции. Задача сводится к эквивалентной задаче оптимального управления со стационарной функцией цены как обобщенного (минимаксного, вязкостного) решения уравнения Гамильтона-Якоби, удовлетворяющего условию Гёльдера и условию подлинейного роста. Описывается метод численного приближения обобщенного решения уравнения Гамильтона-Якоби попятная процедура на бесконечном горизонте. Основным результатом статьи является оценка точности аппроксимации попятной процедурой решения исходной задачи. Задачи исследуемого типа встречаются при моделировании процессов экономического роста и в задачах стабилизации динамических систем. Полученные результаты могут быть использованы при построении численных конечно-разностных схем вычисления функции цены задач оптимального управления или дифференциальных игр.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Багно Александр Леонидович, Тарасьев Александр Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Numerical methods for construction of value functions in optimal control problems on an infinite horizon

This article deals with the optimal control problem on an infinite horizon, the quality functional of which is contained in the integrand index and the discounting factor. A special feature of this formulation of the problem is the assumption of the possible unboundedness of the integrand index. The problem reduces to an equivalent optimal control problem with a stationary value function as a generalized (minimax, viscosity) solution of the Hamilton-Jacobi equation satisfying the Hölder condition and the condition of linear growth. The article describes the backward procedure on an infinite horizon. It is the method of numerical approximation of the generalized solution of the Hamilton-Jacobi equation. The main result of the article is an estimate of the accuracy of approximation of a backward procedure for solving the original problem. Problems of the analyzed type are related to modeling processes of economic growth and to problems of stabilizing dynamic systems. The results obtained can be used to construct numerical finite-difference schemes for calculating the value function of optimal control problems or differential games.

Текст научной работы на тему «Численные методы построения функций цены в задачах оптимального управления на бесконечном горизонте»

Известия Института математики и информатики Удмуртского государственного университета

2019. Том 53

УДК 517.977

© А. Л. Багно, А. М. Тарасьев

ЧИСЛЕННЫЕ МЕТОДЫ ПОСТРОЕНИЯ ФУНКЦИЙ ЦЕНЫ В ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ НА БЕСКОНЕЧНОМ ГОРИЗОНТЕ

В статье рассматривается задача оптимального управления на бесконечном горизонте, функционал качества которой содержит подынтегральную функцию и дисконтирующий множитель. Особенностью постановки изучаемой задачи является предположение о возможной неограниченности подынтегральной функции. Задача сводится к эквивалентной задаче оптимального управления со стационарной функцией цены как обобщенного (минимаксного, вязкостного) решения уравнения Гамильтона-Якоби, удовлетворяющего условию Гёльдера и условию подлинейного роста. Описывается метод численного приближения обобщенного решения уравнения Гамильтона-Якоби — попятная процедура на бесконечном горизонте. Основным результатом статьи является оценка точности аппроксимации попятной процедурой решения исходной задачи. Задачи исследуемого типа встречаются при моделировании процессов экономического роста и в задачах стабилизации динамических систем. Полученные результаты могут быть использованы при построении численных конечно-разностных схем вычисления функции цены задач оптимального управления или дифференциальных игр.

Ключевые слова: оптимальное управление, обобщенные решения уравнений Гамильтона-Якоби, функция цены, аппроксимационные схемы, попятные процедуры.

Б01: 10.20537/2226-3594-2019-53-02

Введение

При решении прикладных задач методами теории оптимального управления возникают уравнения Гамильтона-Якоби, не имеющие гладких решений. Это вызывает затруднения в получении аналитических решений исходных задач и разработке вычислительных методов. Одним из наиболее популярных методов их разрешения является построение конечно-разностных схем для приближения решений уравнения Гамильтона-Якоби, в частности, приближение функции цены задачи оптимального управления при помощи попятной процедуры.

Метод попятной процедуры восходит к принципу динамического программирования, описанному в монографии Р. Беллмана [14]. Н. Н. Красовский и А. И. Субботин в работе [16] предложили ее применение для численных методов построения стабильных мостов в теории дифференциальных игр. В дальнейшем эти идеи были развиты в исследованиях В.Н. Ушакова и его сотрудников [17] по алгоритмам решения игровых задач управления и в работе Р. А. Адиатулиной и А. М. Тарасье-ва [8] для аппроксимации функции цены дифференциальной игры как обобщенного минимаксного решения уравнения Гамильтона-Якоби в задачах с бесконечным горизонтом.

В работе [8] рассматривались управляемые системы на бесконечном горизонте с функционалом качества, содержащим дисконтирующий множитель. Схожая задача изучалась в статье И. Ц. Ка-пуццо Дольчетта [3], где была получена оценка метода дискретной аппроксимации для уравнения Гамильтона-Якоби. В следующей работе, написанной в соавторстве с Х. Ишии [4], авторы показали сходимость функции цены этой задачи к функции цены задачи с непрерывным временем. Исследование продолжил М. Фальконе в статье [5], где были построены аппроксимационные решения уравнения Гамильтона-Якоби, связанного с задачей управления на бесконечном горизонте, а также приведен алгоритм их вычисления.

В перечисленных исследованиях существенным условием, стесняющим постановку задачи, являлось условие ограниченности функции полезности — интегранта в функционале качества. Долгое время без внимания оставался вопрос, как построить метод вычисления функции цены задачи оптимального управления при помощи попятной процедуры в случае, когда функция полезности не ограничена. Настоящая работа посвящена получению оценки точности попятной процедуры, аппроксимирующей задачу управления на неограниченном интервале времени с неограниченным

подынтегральной функцией. Заметим, что условие ограниченности интегранта является обременительным, например, для моделей экономического роста, в которых используются логарифмические или степенные функции полезности. В работах авторов [10-13] были проведены исследования по изучению свойств функций цены в таких задачах, в том числе, инфинитезимальных свойств для получения дифференциальных неравенств, заменяющих уравнение Гамильтона-Якоби, и построению метода приближения функции цены при помощи дискретной аппроксимации обобщенного решения уравнения Гамильтона-Якоби.

Так как функция полезности изучаемой задачи может расти неограниченно с течением времени, полученные результаты имеют некоторые отличия от работ предшественников. Так, условие ограниченности функция цены, показанное в работах [3] и [5] заменяется на условие подлинейного роста. Это было показано авторами в статье [13]. Еще одно существенное отличие изучаемой авторами задачи оптимального управления — более сложное уравнение Гамильтона-Якоби.

Следует отметить, что в последнее время исследованием задач оптимального управления с бесконечным горизонтом в рамках принципа максимума Л. С. Понтрягина посвящены работы многих авторов. Основополагающей работой в этом направлении является монография С. М. Асеева и А. В. Кряжимского [9]. Среди работ последних лет можно указать следующие. В статье [1] рассматриваются условия принципа максимума в случае бесконечных значений функции цены. В работе [15] описываются необходимые условия оптимальности для локально неограниченной функции мгновенной полезности. Работа [6] посвящена исследованию модели экономического роста с динамикой, описывающей гетерогенные объекты.

Структура статьи следующая. В параграфе 1 приводятся необходимые для изложения результатов определения, обозначения и утверждения. В параграфе 2 осуществляется переход к эквивалентной задаче оптимального управления со стационарной функцией цены и описываются основные результаты. В частности, дается описание аппроксимационной схемы для построения функции цены, выводятся оценки точности попятной процедуры.

§ 1. Постановка задачи и основные определения

Будем рассматривать задачу оптимального управления для динамической системы

Здесь Х € Кга — фазовый вектор, и € Р С Кр — управляющий параметр, Р — компактное множество.

Функционал качества, который требуется максимизировать, задается следующим соотношением на бесконечном интервале времени:

Предполагается, что в задаче оптимального управления (1.1), (1.2) выполнены следующие условия:

1) функции / и д непрерывны по совокупности переменных на Мга х Р;

2) для любых Х1,Х2 € Мга, при любом и € Р справедливы соотношения Липшица по аргументу х:

II/(Х1,и) - /(Х2,и)|| ^ Ь||Х1 - Х2||, |д(Х1,и) - д(Х2,и)| ^ ¿||Х1 - Х2||, где Ь - константа Липшица;

3) для любых Х € Кга, и € Р выполняется условие подлинейного роста по аргументу х:

Х(£) = /(Х(£),и(£)), £ € [¿0, х(*о) = Хо-

(1.1)

(1.2)

||/(Х,и)|| < к(1 + ||Х||),

|д(Х,и)| < к(1 + ||х||),

(1.3)

где к — положительная константа.

Ставится задача максимизации функционала (1.2) с бесконечным горизонтом на траекториях системы (1.1), построенных на множестве и измеримых по Лебегу управлений и( ) со значениями в компакте Р.

Определение 1.1. Функцией цены в задаче с бесконечным горизонтом называется функция,

ставящая в соответствие каждой начальной позиции (¿0,г0), где ¿0 € (0,Т), го = ( Хо |, Х0 € Мп,

\Уо/

у0 € М, Х0 = х(£0), наибольшее значение функционала качества

гТ По

w(t0, z0) = lim sum y0 + / e Arg(x(r),u(t)) dr ).

V JtQ )

Функция цены обладает следующими важными свойствами при условии Л > к. Она непрерывна по Гёльдеру и удовлетворяет условию подлинейного роста. Справедливость условия подлинейного роста для функции цены была показана в работе [13, теорема 1], а выполнение условия Гёльдера — в работе [12, теорема 2]. Приведем здесь формулировки упомянутых утверждений.

Утверждение 1.1. Если Л > к, тогда для функции цены в задаче с бесконечным горизонтом справедлива оценка подлинейного роста

ИМ)| < А + В||х||, г =( Х ) , £ ^ ¿о, х € Мп, у € М, (1.4)

где

А = \у\ + В = —^—e~xt.

Л Л — к

Для упрощения дальнейших выкладок нам будет удобнее взять константу B = (ке-^)/(Л — к). Утверждение 1.2. Для любых xi и x2 справедливо условие непрерывности по Гёльдеру

|w(0,xb0) — w(0,X2,0)| < C||xi — Ж2У7, (1.5)

где C > 0, 7 > 0.

Значения констант C и 7 в зависимости от соотношения между параметрами к, L и Л введены в [12, теорема 2].

Определим гамильтониан задачи управления соотношением

Н(х, s) = \ min((s, f(x, и)) + g(x, и)). (1.6)

Л neP

Здесь x € s €

Будем рассматривать для функции ^: Rn ^ R уравнение Гамильтона-Якоби вида

—^(x)+ H(x, Vp(x))=0, x € Rn. (1.7)

Здесь V^(x) — вектор частных производных функции <^(x). Отметим, что, как правило, уравнение Гамильтона-Якоби не имеет гладких решений.

Для введения определения обобщенного минимаксного решения [18] уравнения (1.7) дадим определения производных Дини по направлению.

Нижней (верхней) производной Дини в точке x по направлению d называется функция

дМ*)№= inf + м+ *(*))-"(*)

в(-)еА г^о о

(дМ*)№= sup ш^ + м + f))

V £(0еД <^0 д I

где х € Rra, d € Rra, А — класс функций е(-): [0, +оо) —>• Rra таких, что lim ММ. = 0.

Рассмотрим вспомогательный гамильтониан

Íe~t\m\H(x, e-t,m¡), гп ф 0, lime тН(х, 4 ), m = 0,

где t ^ 0, x € Rn, s € Rn, m € R.

Символом S обозначим шар единичного радиуса

5 = {s = (si,s2) € Rra x R: ||s|| = 1}.

Введем также следующие обозначения для множеств, определяющих динамические возможности системы

Мх) = {7 = (/ь /2)еГхК: II/H < у/2к{1 + ||Ж||)}.

Ограничимся рассмотрением гамильтониана для момента времени t = 0

Ав(х, gi, 92) = {/ € А(х): (/ь Qi) + (f2, 92) ^ Я(0, ж, 91, <?2)}, Л,(ж,р1,р2) = {/ € А(ж): </i,pi) + (/2,^2) < Н(0,х,р!,р2)},

где qi,pi € Rn, 92, Р2 € R.

Теперь мы можем привести определение обобщенного минимаксного решения в терминах производных по направлению [18] или сопряженных производных [19].

Определение 1.2. Обобщенным минимаксным решением уравнения (1.7) называется функция ^: Rn — R, удовлетворяющая условию непрерывности по Гёльдеру (1.4) и условию подлиней-ного роста (1.5), для которой справедливы дифференциальные неравенства в терминах производных по направлению:

min {d2 + d-<p(x)\(di)} -tp(x) < 0, УжеГ, q = (q1,q2)eS,

(di ,d2)€AB(x,qi,q2)

max {d2 + d+<p(x)\(di)} - <p(x) ^ 0, Уж € Rra, p = (pi,p2)GS,

(dl ,d2) € Ан(х ,pi ,p2)

или дифференциальные неравенства в терминах сопряженных производных

sup {(s,d)- 9_^(x)|(d)} ^ -<p(x)+ H(x,s), Vs € Rn, x € Rn,

d€Rn

d€Rn{(s, d) - d+p(x)|(d)} < -p(x) + H(x, s), Vs € Rn, x € Rn.

Введем определение обобщенного вязкостного решения уравнения (1.7) в смысле Крэндалла-Лионса [2].

Определение 1.3. Непрерывная по Гёльдеру функция ^: Rn — R, удовлетворяющая условию подлинейного роста, называется обобщенным вязкостным решением уравнения (1.7), если для каждой непрерывно дифференцируемой функции ш: Rn — R выполняются следующие условия: если (^ — ш) достигает локального максимума в точке xo, то

H(xo, Vw(xo)) - ^(xo) ^ 0,

и если (^ - ш) достигает локального минимума в точке xo, то

H(xo, Vш(xo)) - ^(xo) ^ 0.

В статье [10, теорема 2] было показано, что функция <^(x) является функцией цены задачи оптимального управления (1.1), (1.2) тогда и только тогда, когда она является единственным минимаксным решением уравнения (1.7). По аналогии с работой [18] можно показать, что вязкостное решение совпадает с минимаксным решением. И следовательно, можно говорить об эквивалентности понятий минимаксного решения, вязкостного решения и функции цены задачи оптимального управления (1.1), (1.2).

§ 2. Попятная процедура

Наше уравнение Гамильтона-Якоби содержит гамильтониан (1.6), который неограниченно растет при ж, стремящемся к бесконечности. Поэтому для удобства дальнейшего исследования нам будет удобно сделать замену

ф(х) = „, (2.1)

где M и N — некоторые положительные константы, M > 0, N > 0. Отметим, что функция <р(ж)

^ ^ —- не является гладкой в точке х = 0, но ее можно сгладить в окрестности нуля. В качестве сглаживающей для функции нормы ||ж|| в е-окрестности нуля, е > 0, введем функцию

/ ч I ||ж||, если ||ж|| > е,

т£(ж) = < 11 2 (2.2)

I ||ж||2/(2е) + е/2, если ||ж|| ^ е.

Вернемся к функции ^(ж) (2.1), заменив норму ||ж|| на сглаживающую функцию г£(ж) (2.2). Возьмем M = N = к и подставим нашу замену в уравнение Гамильтона-Якоби (1.7). Тогда уравнение Гамильтона-Якоби примет вид

—гр(х)(я( 1 + re(x))) + \ min ((Х7гр(х)(и( 1 + re(x))) + ip(x)Vre(x), /(ж, и)) + д(х, и)) = 0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Л ueP

Эта запись эквивалентна следующему уравнению Гамильтона-Якоби:

min (-А«*, + .)) + «*<*) (vr.(s), + з^^Ь) = 0. (2.3)

в которое входит гамильтониан задачи управления (1.1)

Н(х,ф(х),Уф(х)) = min ( <У^(ж),/(ж,и)> + к-ф{х) Nre{x), ) + Д

ueP \ \ к(1 + г£(ж))/ к(1 + r£(ж))/

и уравнение (2.3) можно переписать в виде

-Л^(ж) + HH (ж, ^(ж), V^(x)) = 0. (2.4)

По формуле Тейлора функцию ^(ж) можно приблизить функцией ^(ж):

+ hf (ж, u)) - ^(ж) ^ Л,(^(ж), f (ж, u)). Подставляя это выражение в уравнение (2.3) и домножая его на h, получим

min ( - ЛЛ,^(ж + hf (ж, u)) + ^(ж + hf (ж, u)) - ^(ж) + ueP \

+ hf(x,u)) (Vr£(ж), лЛ + y^f.J = о.

Или, что то же самое,

min (-^(ж) + (1 - Л/г + xh /vre(ж), .Л) ^(ж + /г/(ж,и)) +

ueP V V \ к(1 + r£(ж))//

%(ж,ц) \ =

х(1 + г£(ж))У •

(2.5)

Здесь ж € Rn, h > 0.

Введем обозначения

/ (ж, и)

р(ж, и, Л, Л, к) = 1 — АЛ, + кЛ ( Уг£(ж) д(ж, и, Л, к) =

' к(1 + г£(ж)) Лд(ж, и)

к(1 + г£(ж)) и подставим в выражение (2.5). Получим

Введем оператор

шт(—ф (ж) + р(ж,и, Л, Л, к)ф (ж + Л/(ж,и))+ д(ж,и, Л, к)).

п£Р

Оф(ж) = ш1п (р(ж, и, Л, Л, к)ф(ж + Л/(ж, и)) + д(ж, и, Л, к))

п£Р

и рассмотрим отрезок времени [¿о, ¿п], где ¿о — начальный момент, ¿п — некоторый достаточно большой момент времени. Возьмем разбиение этого отрезка {Д(£г)} и построим процедуру вычисления значений функции фд, аппроксимирующей функцию цены ф, начиная с момента времени ¿п:

Фд(ж„-1) = ^фд (жп), фд(ж„) = ф(ж(^)).

Определение 2.1. Метод вычисления функций фд, задающийся данным соотношением, называется попятной процедурой.

В статье П. Е. Суганидиса [7, теорема 2.1] утверждается, что построенная таким образом попятная процедура приближает обобщенное вязкостное решение уравнения Гамильтона-Якоби (2.4) с точностью

||фд — ф|| < СЛ1/2,

где С — положительная константа. В его работе рассматривается более общий случай гамильтониана, который включает в себя гамильтониан уравнения (2.4). Приведем упомянутую теорему 2.1.

Утверждение 2.1. Обозначим выражением С(X) пространство ограниченных липшице-вых функций, определенных на множестве X. Пусть ф € С(Мп х [0, Т]) является обобщенным вязкостным решением уравнения (2.4) на С(Мп х [0, Т]) для краевого условия ф0 = ф(ж, 0) € С(Мп) и для функции Н: [0, Т] х Мп х М х Мп ^ М, удовлетворяющей условиям:

1) гамильтониан Н равномерно непрерывен на [0, Т] х Мп х [—Я, Я] х Вп(0, Я), где Вп(ж0, Я) = = {ж € Мп: |ж — Жо| < я};

2) существует константа С > 0 такая, что

С = 8ир_ \Н(Ь, ж, 0,0)| < оо,

где~дТ = Мга х [0,Т];

3) для Я ^ 0 существует константа Си > 0 такая, что

|Н(¿,ж,г,р) — Н(¿,у, г,р)| < Си(1 + |р|)|ж — у| для í € [0, Т], |г| < Я, ж, у, р € Мп;

4) для Я > 0 существует константа Ьц > 0, зависящая от Я такая, что

|ж, г,р) — х, вур)| ^ Ьц(г — в) для ж € Мп, —Я ^ 8 ^ г ^ Я, 0 ^ £ ^ Т, р € Мп;

5) для R ^ 0 существует константа NR > 0 такая, что

|H(t,x,r,p) - H(t,x,r,p)I < Nr( 1 + |p|)|i -i| для t,te [О, T], \r\ < R,x,pe Mn;

6) для R ^ 0 существует константа MR > 0 такая, что

|H(t, x, r,p) — H(t, x, r, q)| ^ MR|p — q| для t € [0,T], x € Rn, |r|, |p|, |q| ^ R, p, q € Rn.

Пусть для пары (t,p) € {[0,T] x [0,po]: 0 ^ p ^ t}, где po = PodlV'oll) > 0, функция F(t,p, •,•): C(Rra) x C(Rra) ->• C(Rra) является такой, что для каждых ф, ф, £ € C(Rra) она удовлетворяет условиям:

1) f(t,0,^,0 = С;

2) отображение (t, р) ^ F(t, р, непрерывно;

3) F(t, р, { + k) = F(t, р, С) + k для всех k € R;

4) |№р,^) — < Оъгде Ci = ^ 0;

5) существуют константы г > 0 и L\ > 0 такие, что если ¿¡(ж) ^ ¿¡(ж) для каждого х € Rra, то для любого y € Rn такого, что

\£(y + w) -£(y + w)I, + ги) -£(y + w)\ ^ L|w

для любых w, w € {ж € Rra: |ж| ^ рг}, выполнено неравенство

где L = sup ||1>0(-,т)|| м L = max(Li,L) + 1;

6) существует константа С2 такая, что

l|F(t,< epC(||^|| + рС2),

при условии, что \\Оф\\ ^ L;

7) существуют константы С3, С4 > 0 такие, что

еТ1-см\\\Оф0\\+ТСА) ^Ь

и

||DF(t,< ep(C3+C4)(||D^|| + рС4), при условии, что ^ еТС2(||^о|| + ТС2) и \\Оф\\ ^ L;

8) для любых из пространства дважды дифференцируемых на Rn функций, у которых все частные производные первого и второго порядка ограничены, и x € Rn таких, что |D^(x)| < L + 1, выполнено неравенство

р

где L = sup и С5 = Сб(|^|, ||D^||,L).

0<т <T

< С5(1 + + ||^2^|)р,

Возьмем разбиение А = {0 = t0 < ¿i < ■ ■ ■ < ín(A) = T} отрезка [0, T] и определим на нем отображение 0A: Rn х [0, T] ^ R:

0A(x, 0) = 0o (x),

0a(x,¿) = F(í,í¿-i^a(-,í¿-i),^a(-,t¿-i))(x) при t € (ti-1,ti], где i = 1,...,n(A). Тогда существует константа C > 0, зависящая только от ||0o|| и ||D0o|| такая, что

II0A - 0II < C|h|1/2

при достаточно малом |h|.

Для того чтобы показать, что наша попятная процедура удовлетворяет условиям приведенной утверждения 2.1, в [11] была доказана теорема.

Теорема 2.1. Пусть Л > к. Оператор Q удовлетворяет следующим условиям:

1) Q0(0) = ■0(0);

2) Q0(x) непрерывен;

3) |Q0(x) — 0(x)| ^ C1t C1 = 2K + h, K — константа из [13, оценка (2.6)];

4) Q0(x) > Q^>(x) при 0(x) > ^>(x);

5) ||Q0(x)|| < e^(H0(x)|| +ЛС2), C2 = > 0;

6) |Q0(x1) — Q0(x2)| ^ ehC3C|x1 — x2||, C — константа из (1.2),

_ L 1 KL кК kK

7) |Q0(x) — H(x,0(x), V0(x)| < hC4, C4 = |к — Л + 1|.

Данная теорема, как и утверждение 2.1, оценивают приближение функции цены при помощи попятной процедуры на отрезке времени от начального момента до момента окончания выполнения процедуры [to,T]. Оценим приближение функции цены на интервале [to, +гс>). Отметим, что константа C, фигурирующая в формулировке утверждения 2.1, вообще говоря, зависит от выбора момента T. Рассмотрим самый худший случай, когда эта зависимость имеет вид C(T) = АекТ.

Теорема 2.2. Пусть Л > к, C(T) = АекТ. Тогда попятная процедура, введенная согласно определению 2.1, приближает на интервале [t0, функцию 0 не хуже, чем

л /i i \ Л

л) _ + _ MxWa кЛ

Доказательство. В смысле определения 1.1 функции цены и замены (2.1) имеем

Í,, , ^ , íе-Лтg(x,u) , / 0(х(т)) IÍT = / ,, (1т.

Jt Jt "(1 + imi)

Так как функция g(x,u) удовлетворяет неравенству (1.3), имеем

r+ж f+ж i

/ Ф(х(т))с1т^ е_Лт dr = —е~хт. Jt Jt л

Согласно формулировке утверждения 2.1, на интервале [t0, T] попятная процедура приближает функцию 0 с точностью

II0A — 0|| < C(T)|h|1/2.

Добавляя к этому выражению оценку хвоста функции 0, получим, что на всей числовой полуоси [¿0, справедливо соотношение

^д -011 < С{Т)\Ц1/2 + ^е"ЛТ = Ае^Щ1'2 + ^е"Лт. (2.6)

Л Л

Данная оценка зависит от момента времени, до которого осуществляется попятная процедура. Оценку можно улучшить, найдя момент времени, при котором выражение принимает наименьшее значение. Для этого в необходимых условиях минимума вычислим производную суммы в правой части (2.6) и приравняем ее к нулю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[с{Т)\Ц1/2 + ^е"Лту = (а^Щ1!2 + = Ахе^Щ1'2 - е~хт = 0.

Решение полученного уравнения имеет вид

- 1п(Ах|Л,|1/2)

T =

к + Л

При этом значении правая часть (2.6) достигает минимума согласно достаточным условиям минимума. Действительно, вторая производная правой части равна

^С|Л,|1/2 + = (Ае*т Щ1'2 + ^е"^)" = Ак2е^\Ц1'2 + е~хт.

Это выражение всегда положительно. Подставим значение Т* в соотношение (2.6), получим

-к\п{АкЩ1/2) ---L-J—-

+ \е~хт ^A\h\l'2e ^ + А +е * + Х

ЛЛ

— и А Л Л

_ АяЩ1/2 (АяЩ1'2) (Ax\h\l/2)«+x _(Ax\h\l/2)«+x (Ax\h\l/2)«+x к Л к Л

Теорема доказана. □

Список литературы

1. Aseev S.M., Veliov V.M. Maximum principle for infinite-horizon optimal control problems under weak regularity assumptions // Proceedings of the Steklov Institute of Mathematics. 2015. Vol. 291. Suppl. 1. P. 22-39. https://doi.org/10.1134/S0081543815090023

2. Crandall M.G., Lions P.-L. Viscosity solutions of Hamilton-Jacobi equations // Trans. Amer. Math. Soc. 1983. Vol. 277. No. 1. P. 1-42. https://doi.org/10.1090/S0002-9947-1983-0690039-8

3. Capuzzo Dolcetta I. On a discrete approximation of the Hamilton-Jacobi equation of dynamic programming // Applied Mathematics and Optimization. 1983. Vol. 10. Issue 1. P. 367-377. https://doi.org/10.1007/BF01448394

4. Capuzzo Dolcetta I., Ishii H. Approximate solution of the Bellman equation of deterministic control theory //Applied Mathematics and Optimization. 1984. Vol. 11. Issue 1. P. 161-181.

https://doi. org/10.1007/BF01442176

5. Falcone M. A numerical approach to the infinite horizon problem of deterministic control theory // Applied Mathematics and Optimization. 1987. Vol. 15. Issue 1. P. 1-13. https://doi.org/10.1007/BF01442644

6. Skritek B., Veliov V.M. On the infinite-horizon optimal control of age-structured systems // Journal of Optimization Theory and Applications. 2015. Vol. 167. Issue 1. P. 243-271. https://doi.org/10.1007/s10957-014-0680-x

7. Souganidis P.E. Approximation schemes for viscosity solutions of Hamilton-Jacobi equations // Journal of Differential Equations. 1985. Vol. 59. Issue 1. P. 1-43. https://doi.org/10.1016/0022-0396(85)90136-6

8. Адиатулина Р.А., Тарасьев А.М. Дифференциальная игра неограниченной продолжительности // Прикладная математика и механика. 1987. Т. 51. Вып. 4. С. 531-537.

9. Асеев С.М., Кряжимский А.В. Принцип максимума Понтрягина и задачи оптимального экономического роста // Труды МИАН. 2007. Т. 257. С. 3-271.

10. Багно А.Л., Тарасьев А.М. Дискретная аппроксимация уравнения Гамильтона-Якоби для функции цены в задаче оптимального управления с бесконечным горизонтом // Труды ИММ УрО РАН. 2018. Т. 24. № 1. С. 27-39. https://doi.org/10.21538/0134-4889-2018-24-1-27-39

11. Багно А.Л., Тарасьев А.М. Оценка точности попятной процедуры для уравнения Гамильтона-Якоби в задаче оптимального управления с бесконечным горизонтом // Труды МИАН. 2019. Т. 304. С. 123-136. https://doi.org/10.4213/tm3963

12. Багно А.Л., Тарасьев А.М. Свойства функции цены в задачах оптимального управления с бесконечным горизонтом // Вестник Удмуртского университета. Математика. Механика. Компьютерные науки. 2016. Т. 26. Вып. 1. C. 3-14. https://doi.org/10.20537/vm160101

13. Багно А.Л., Тарасьев А.М. Свойства стабильности функции цены в задаче оптимального управления с бесконечным горизонтом // Труды ИММ УрО РАН. 2017. Т. 23. № 1. C. 43-56.

14. Беллман Р. Динамическое программирование. М.: Изд-во иностранной литературы, 1960. 400 с.

15. Бесов К.О. О необходимых условиях оптимальности для задач экономического роста с бесконечным горизонтом и локально неограниченной функцией мгновенной полезности // Труды МИАН. 2014. Т. 284. С. 56-88. https://doi.org/10.1134/S037196851401004X

16. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.

17. Тарасьев А.М., Ушаков В.Н., Хрипунов А.П. Об одном вычислительном алгоритме решения игровых задач управления // Прикладная математика и механика. 1987. Т. 51. № 2. C. 216-222.

18. Субботин А.И. Минимаксные неравенства и уравнения Гамильтона-Якоби. М.: Наука, 1991.

19. Субботин А.И., Тарасьев А.М. Сопряженные производные функции цены дифференциальной игры // Докл. АН СССР. 1985. Т. 283. № 3. С. 559-564.

Поступила в редакцию 13.04.2019

Багно Александр Леонидович, ассистент, кафедра прикладной математики и механики, Уральский федеральный университет, 620083, Россия, г. Екатеринбург, пр. Ленина, 51. E-mail: bagno.alexander@gmail.com

Тарасьев Александр Михайлович, д. ф.-м. н., зав. отделом динамических систем, Институт математики и механики им. Н.Н. Красовского УрО РАН, 620990, Россия, г. Екатеринбург, ул. С. Ковалевской, 16.

E-mail: tam@imm.uran.ru

Уральский федеральный университет, 620083, Россия, г. Екатеринбург, пр. Ленина, 51. E-mail: a.m.tarasyev@urfu.ru

A.L. Bagno, A.M. Tarasyev

Numerical methods for construction of value functions in optimal control problems on an infinite horizon

Citation: Izvestiya Instituía Matematiki i Informatiki Udmurtskogo Gosudarstvennogo Univiversiteta, 2019, vol. 53, pp. 15-26 (in Russian).

Keywords: optimal control, generalized solutions of Hamilton-Jacobi equations, value function, approximation schemes, backward procedures.

MSC2010: 49K15

DOI: 10.20537/2226-3594-2019-53-02

This article deals with the optimal control problem on an infinite horizon, the quality functional of which is contained in the integrand index and the discounting factor. A special feature of this formulation of the problem is the assumption of the possible unboundedness of the integrand index. The problem reduces to an equivalent optimal control problem with a stationary value function as a generalized (minimax, viscosity) solution of the Hamilton-Jacobi equation satisfying the Holder condition and the condition of linear growth. The article describes the backward procedure on an infinite horizon. It is the method of numerical approximation of the generalized solution of the Hamilton-Jacobi equation. The main result of the article is an estimate of the accuracy of approximation of a backward procedure for solving the original problem. Problems of the analyzed type are related to modeling processes of economic growth and to problems of stabilizing dynamic systems. The results obtained can be used to construct numerical finite-difference schemes for calculating the value function of optimal control problems or differential games.

REFERENCES

1. Aseev S.M., Veliov V.M. Maximum principle for infinite-horizon optimal control problems under weak regularity assumptions, Proceedings of the Steklov Institute of Mathematics, 2015, vol. 291, suppl. 1, pp. 22-39. https://doi.org/10.1134/S0081543815090023

2. Crandall M.G., Lions P.-L. Viscosity solutions of Hamilton-Jacobi equations, Trans. Amer. Math. Soc., 1983, vol. 277, no. 1, pp. 1-42. https://doi.org/10.1090/S0002-9947-1983-0690039-8

3. Capuzzo Dolcetta I. On a discrete approximation of the Hamilton-Jacobi equation of dynamic programming, Applied Mathematics and Optimization, 1983, vol. 10, issue 1, pp. 367-377. https://doi.org/10.1007/BF01448394

4. Capuzzo Dolcetta I., Ishii H. Approximate solution of the Bellman equation of deterministic control theory, Applied Mathematics and Optimization, 1984, vol. 11, issue 1, pp. 161-181. https://doi.org/10.1007/BF01442176

5. Falcone M. A numerical approach to the infinite horizon problem of deterministic control theory, Applied Mathematics and Optimization, 1987, vol. 15, issue 1, pp. 1-13. https://doi.org/10.1007/BF01442644

6. Skritek B., Veliov V.M. On the infinite-horizon optimal control of age-structured systems, Journal of Optimization Theory and Applications, 2015, vol. 167, issue 1, pp. 243-271. https://doi.org/10.1007/s10957-014-0680-x

7. Souganidis P.E. Approximation schemes for viscosity solutions of Hamilton-Jacobi equations, Journal of Differential Equations, 1985, vol. 59, issue 1, pp. 1-43. https://doi.org/10.1016/0022-0396(85)90136-6

8. Adiatulina R.A., Taras'ev A.M. A differential game of unlimited duration, Journal of Applied Mathematics and Mechanics, 1987, vol. 51, no. 4, pp. 415-420. https://doi.org/10.1016/0021-8928(87)90077-3

9. Aseev S.M., Kryazhimskii A.V. The Pontryagin maximum principle and optimal economic growth problems, Proceedings of the Steklov Institute of Mathematics, 2007, vol. 257, issue 1, pp. 1-255. https://doi.org/10.1134/S0081543807020010

10. Bagno A.L., Taras'ev A.M. Discrete approximation of the Hamilton-Jacobi equation for the value function in an optimal control problem with infinitesimal horizon, Tr. Inst. Mat. Mekh. Ural. Otd. Ross. Akad. Nauk, 2018, vol. 24, no. 1, pp. 27-39 (in Russian). https://doi.org/10.21538/0134-4889-2018-24-1-27-39

11. Bagno A.L., Tarasyev A.M. Estimate for the accuracy of a backward procedure for the Hamilton-Jacobi equation in an infinite-horizon optimal control problem, Proceedings of the Steklov Institute of Mathematics, 2019, vol. 304, issue 1, pp. 110-123. https://doi.org/10.1134/S0081543819010073

12. Bagno A.L., Tarasyev A.M. Properties of the value function in optimal control problems with infinite horizon, Vestnik Udmurtskogo Universiteta. Matematika. Mekhanika. Komp'yuternye Nauki, 2016, vol. 26, issue 1, pp. 3-14 (in Russian). https://doi.org/10.20537/vm160101

13. Bagno A.L., Taras'ev A.M. Stability properties of the value function in an infinite horizon optimal control problem, Proceedings of the Steklov Institute of Mathematics, 2018, vol. 301, suppl. 1, pp. 1-14. https://doi.org/10.1134/S0081543818050012

14. Bellman R. Dynamic programming, New York: Princeton University Press, 1957.

15. Besov K.O. On necessary optimality conditions for infinite-horizon economic growth problems with locally unbounded instantaneous utility function, Proceedings of the Steklov Institute of Mathematics, 2014, vol. 284, issue 1, pp. 50-80. https://doi.org/10.1134/S0081543814010040

16. Krasovskii N.N., Subbotin A.I. Pozitsionnye differentsial'nye igry (Positional differential games), Moscow: Nauka, 1974.

17. Taras'yev A.M., Ushakov V.N., Khripunov A.P. On a computational algorithm for solving game control problems, Journal of Applied Mathematics and Mechanics, 1987, vol. 51, issue 2, pp. 167-172. https://doi.org/10.1016/0021-8928(87)90059-1

18. Subbotin A.I. Minimaksnye neravenstva i uravneniya Gamil'tona-Yakobi (Minimax inequalities and Hamilton-Jacobi equations), Moscow: Nauka, 1991.

19. Subbotin A.I., Taras'ev A.M. Conjugate derivatives of the value function of a differential game, Soviet Math. Dokl., 1985, vol. 32, pp. 162-166.

Received 13.04.2019

Bagno Alexander Leonidovich, Assistant Lecturer, Department of Applied Mathematics and Mechanics,

Ural Federal University, pr. Lenina, 51, Yekaterinburg, 620083, Russia.

E-mail: bagno.alexander@gmail.com

Tarasyev Alexander Mikhailovich, Doctor of Physics and Mathematics, Head of Department of Dynamic

Systems, Krasovskii Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of

Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620990, Russia.

E-mail: tam@imm.uran.ru

Ural Federal University, pr. Lenina, 51, Yekaterinburg, 620083, Russia.

E-mail: a.m.tarasyev@urfu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.