УДК 519.7
Ю.Н. Киселёв, М.В. Орлов2
ОПТИМАЛЬНЫЕ ЗАКОНЫ УПРАВЛЕНИЯ В НЕАВТОНОМНОЙ ДИНАМИЧЕСКОЙ МОДЕЛИ ГАЗОВЫХ МЕСТОРОЖДЕНИЙ
В статье изучается модель разработки газового месторождения, описанная как нелинейная задача оптимального управления с бесконечным горизонтом планирования. Ее решение строится на основе принципа максимума Понтрягина. Для обоснования оптимальности экстремального решения привлекается теорема о достаточных условиях оптимальности в терминах конструкций принципа максимума Понтрягина. В статье описана процедура построения оптимального решения методом динамического программирования, представляющая определенный методический интерес. Функция Беллмана строится на основе полученного оптимального решения. Приводится ссылка на работу, содержащую экономическую интерпретацию задачи.
Ключевые слова: оптимальное управление, принцип максимума Понтрягина, динамическое программирование, математические модели, динамическая модель газового месторождения.
1. Постановка задачи. Основные результаты. Рассмотрим следующую одномерную задачу оптимального управления с бесконечным горизонтом планирования:
1
у = --иу,
+ ОС
у(0) = уо > О, 0 < t < +оо,
L\u]
е utp(t)^/v,y dt ^ max.
и(-)
(1)
Здесь у — положительная одномерная фазовая переменная; и — скалярное управление, подчиненное геометрическому ограничению и ^ 0; V — положительный коэффициент дисконтирования; р(1) — недисконтированная "функция цены" — известная неотрицательная функция времени, удовлетворяющая условию равномерной ограниченности при £ ^ 0. Для дальнейших рассуждений удобно ввести обозначение
Р(г) = е-"*р(*) (2)
1 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: kiselevQcs.msu.su
2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: orlovQcs.msu.su
дисконтированная "функция цены". Допустимыми управлениями и = и(1), 0 ^ £ < +оо, считаются
кусочно-непрерывные функции времени, такие, что функция = уоехр^- J и(в) определе-
о
на на любом промежутке [О,Т], Т € (0,+оо), и продолжима на весь бесконечный интервал времени
+ ОС
[О, +»), причем несобственный интеграл ОД = / <* является сход,„имея.
О
В статье доказана следующая теорема.
Теорема 1. Оптимальное управление в задаче (1) имеет вид
«(¿) =
р2(г)
„2
р2(Ь)
О < I < +оо,
(3)
где Р(1) — дисконтированная "функция цены" (2), а функция
"ТОО
(4)
Управлению (3) отвечает оптимальная траектория
= Уо1
1<№ <Э(0У
(5)
при этом у(1), монотонно убывая, стремится к нулю при I +оо. Оптимальный закон управления (3) описывает влияние недисконтированной "функции цены" р(1) на оптимальную программу и(1).
Из теоремы 1 вытекает возможность построения оптимального закона управления в форме обратной связи.
Теорема 2. Оптимальный синтез в задаче (1) имеет вид
и = и(1, у)
1
<2(0)
Уо
р(г)
(6)
Действительно, из (5) следует, что С^Н) = ( — ] <2(0), откуда в силу (3) получаем формулу (6)
\Уо,
для синтезирующей функции
и =
Р2(1) Р2(1)
(у/у0)2<2(0)
Уо У
р(г)
1
и(г,у).
Подстановка управления (6) в уравнение движения позволяет получить формулу (5) для оптимальной траектории.
Полученный теоретический результат об оптимальном решении задачи (1) иллюстрируется изучением ряда специальных случаев функции цены. В частности, для постоянной "функции цены" р(1) = 1 имеем
«(¿) = 2!/, у (г) = Уое-"*, о < г < +ос. (7)
Здесь
Замечание 1. В публикации [1] рассматривалась следующая задача оптимального управления (для динамической модели газового месторождения):
х = —их, ж(0) = жо > 0, 0 ^ t < +оо,
(8)
J = р ■ / е vt,u£x£ dt —> max, и ^ О,
J и(')
О
где р = const >0 — постоянная цена на газ, v — положительный коэффициент дисконтирования, £ £ (о, 1) — параметр вогнутости задачи. При е = 1/2, р = 1 задача (8) после введения новой фазовой переменной у = yfx принимает вид (1) с оптимальным решением (7). При любом е£ (0,1) оптимальное
управление в задаче (8) определяется равенством и = --, которое при е = 1/2 принимает вид и = 2и
1-е
(см. (7)). Модель (1), где е = 1/2, с переменной функцией ценыр(^), описывающей различные сценарии динамики цены на газ, позволяет обнаружить более интересные нетривиальные законы управления. Аналогичным образом может быть изучена задача управления
х = —их, ж(0) = жо > 0, 0 ^ t < +оо,
+ ОС
L[u] = / e~vtp(t)u£x£ dt —> max, и ^ 0,
J «(•)
о
при £ G (0,1). Экономическая интерпретация этой задачи для динамической модели газового месторождения в случае постоянной "функции цены" p(t) обсуждается в [1]. Полагая здесь у = же, от последней задачи можно перейти к следующей:
у = -£иу, у(0) = уо > 0, 0 < t < +оо, +оо
L[u) = / e~utp{t)u£у dt ^ max, и ^ 0,
J и(-)
0
которая при е = 1/2 совпадает с (1). В данной статье мы ограничимся случаем е = 1/2.
2. Анализ задачи на основе принципа максимума Понтрягина. Запишем функцию Гамильтона-Понтрягина для задачи (1), полагая ф0 = 1:
K(t,y,ip,u) = y^P{t)y/u- T^j • (9)
Предполагая у > 0, ф > 0, найдем максимизатор функции (9)
u*(t, ф) = argmaxK(i, у, ф, и). (10)
и^О
Pit) 1 Pit)
Уравнение К'и = 0 принимает вид — -ф = 0, откуда находим у/й = —-—, т. е. максимизатор
Zyj и Z 1р
(И)
Заметим, что формула (11) для максимизатора справедлива и в такие моменты времени t, когда
1
P(t) = 0. Сопряженное уравнение ф = —К'у разворачивается как ф = -иф — P(t)y/u. Добавив к сопряженному уравнению условие трансверсальности в виде ф(+оо) = 0, можно записать краевую задачу
принципа максимума в форме
1
у = --иу, у(0) = уо > О, 1
ф =-иф - Р(£)у/й, ф(+оо) = 0, (12)
и = и^ф)= .
Опираясь на (9)—(11), построим функцию максимума
1 р2а\
М&у,ф) = К = (13)
которая содержит фазовую переменную у в первой степени. Сопряженное уравнение в краевой задаче (12) принимает вид
1 Р2(1)
или
1 р2а) Ф = ~Му(1,у,ф) = ——
Краевая задача (12) распадается на две задачи Коши: задачу Коши (14) для сопряженной переменной, где отсутствует фазовая переменная у, и задачу Коши для фазовой траектории
1 1 [ Р(£)\ 2
У = = ( ) у"- У(°) = Уо- (15)
Уравнение (14) можно переписать в виде \ф2(1)) = —Р2(1), ф(+оо) = 0, откуда находим ф2(1) =
т
+оо
= J Р2(,э) йя = д(^), т. е. Ф(г) = у^ОЩ. Из уравнений (14), (15) г
1 р2(г) 1 р2(г)
Ф = ^2—' У = ^2—У
йф ф
следует, что — = — => ум) = Сфм), т.е. траектория ум) пропорциональна сопряженной переменной
ау У
с константой С = -тШ" = —> 0. Таким образом, доказано следующее утверждение.
Ф( °) л/ощ
Утверждение 1. Экстремальная тройка (у(1),ф(1),и(1)), 0 ^ £ < +оо, задачи оптимального управления (1) допускает явное представление: траектория
где функция (¿(1) определяется формулой (4); сопряженная переменная
ф(г) = у/ОЩ >0 V* ^ 0, = 0; (17)
управление
«(*) = Ш > 0, (18)
где функция Р(1) — дисконтированная "функция цены" — определяется формулой (2).
Замечание 2. Для экстремального процесса (пары "траектория-управление") задачи (1)
(у(г),«(г)), скг<+оо, (19)
(см. (16), (18)), может быть доказана его оптимальность. Это сделано в следующем разделе, где воспроизводится доказательство теоремы о достаточных условиях оптимальности в терминах конструкций принципа максимума Понтрягина [2] применительно к задаче (1). Тем самым устанавливается справедливость теоремы 1.
3. Обоснование оптимальности экстремальной пары (19). Рассмотрим произвольный допустимый процесс
(у(г),й(г)), (кг<+оо. (20)
Определим приращения АЬ = Ь[й] — Ь[и], Ау(1) = у(1) — у(1) для функционала и траектории соответственно. Здесь (у(-),и(-)) — экстремальный процесс (19).
Утверждение 2. Для любого допустимого управления й(-) имеет место неравенство А Ь ^ О, т. е. экстремальная пара (19) является оптимальной в задаче (1).
Доказательство. Имеет место равенство
¿=+ос
О = ф{1)Ау{1) , (21)
так как Ду(0) = 0, ф(+оо) = 0 и Ау(-) является равномерно ограниченной функцией. Положим
у=у
и=й
1 •"-• /°(г,у,и) = р(г)у/йу, /(г,у,и) =--иу, к = /° + ф/, к = к
Исходя из (21), имеем
+ ОС
0= I {ф(г)Ау(г) + ф(г)А№}М-
о
В силу соотношений
Фтт = ФШ - ФШ =
Ф(г)Ау(г) = ■ Ау(г) приращение АЬ функционала допускает следующее интегральное представление:
+ ОС
Аь = I - К(г,у(г),ф(г),и(г)) - м^,у(г),ф(г))Ау(г)}м,
о
из которого следует неравенство
+ ОС
о
Формула (13) для функции максимума дает
1 Р2Н\
- м{1,у{г),ф{г)) = --^Ду(г), 1 р2а\
(23)
Из (22), (23) вытекает неравенство АЬ ^ 0. Утверждение 2 доказано.
Вместе с этим можно считать доказанной теорему 1 об оптимальном решении задачи (1). Обратим внимание на то, что данный порядок исследования задачи (1) позволяет не обращаться к теоремам существования оптимального решения. В силу специфики задачи (1) получен более сильный результат: экстремальное решение описано конструктивно и доказана его оптимальность.
4. Применение метода динамического программирования к задаче (1). На основании теоремы 1 и формул (3)-(5) находим оптимальное значение функционала в задаче (1)
-гоо -|-оо
Lop= J P(t)y/Hydt= J P{t),
Q(t) у <2(o)
P2{t) dt,
или окончательно
Lop = Уол/ОЩ-
(24)
Обсудим сейчас вопрос о построении оптимального решения задачи (1) методом динамического программирования [3]. Выполняя погружение задачи (1) в семейство задач
1
У = ^т;иУ-! У
t = T
= Tj, т ^t < +оо,
~гОО
L(Tn)= / P(t)y/uy dtmax,
J
вводим функцию Беллмана V(r,r]) = max Ь(Т)Ч), т ^ 0, г] ^ 0. В дальнейшем изменим обозначения аргументов функции Беллмана на более привычные: г заменим на t, г/ заменим на у. Запишем дифференциальное уравнение Беллмана
Vi(t,y) + ma x{f°(t,y,u) + V'(t,y)f(t,y,u)} = О,
и>0
V
= 0.
t=+oc
Уравнение Беллмана можно переписать в терминах функции максимума (13)
Vt'(t,y) + M(t,y,iP)
t=V'(t,y)
= 0,
или у) + | у'(?у)У = или = у) + Р2(% = 0. Для построения решения у)
записанного уравнения Беллмана можно воспользоваться полученной выше формулой (24), выполняя
замены: у0 на у, <2(0) на С^^). Рассмотрим функцию у) = ууОЩ, V = 0, V = 0.
¿=+ос у=0
Проверим, что эта функция является решением уравнения Беллмана. Прямые вычисления дают
Vi{t,y) =
У
2 л/Ш
Q{t) =
У
2 л/Ш
P2(t),
L[V] = 2 U—J==P2{t)\ у/Щ + P2(t)y = -P2(t)y + P2(t)y = 0.
Наконец, найдем максимизатор в уравнении Беллмана
P(t)
ш
P2(t) Q(t) '
который определяет оптимальное управление, приведенное в теореме 1. Заметим, что функция Беллмана V(t,y) является гладкой при непрерывной функции p(t). Как известно [3], решение, найденное методом динамического программирования, обладает свойством оптимальности. Обратим внимание на то, что при построении функции Беллмана в этой задаче использовались результаты разделов 1-3. Решение этого уравнения Беллмана можно также найти методом разделения переменных.
5. Исследование оптимальных режимов управления для ряда конкретных примеров "функции цены" /;(/).
Пример 1. При постоянном прогнозе цен p(t) = 1 Vi ^ 0 оптимальное решение u(t) = 2v, y(t) = yc>e~vt, t ^ О, обсуждалось в разделе 1 (см. (7)).
Пример 2. Функция p(t) ступенчатая с одной точкой скачка т:
p(t) = ih< iG[M'
[pi, i€(r,+oo),
if™.,
■Pi, t € (r, +oo).
где т, р\ — заданные положительные числа, р\ ф 1. Имеем
I '
, _ Г^л 1 I -
е
ке~2игр1 ¿е(г,+ сю), ] е~2р*
Оптимальный режим управления (3) принимает вид
[2г/, ¿€(г, + оо).
Р12 - 1
Эта функция имеет точку разрыва г со скачком Аи(т) = и(т + 0) — 0) = 2и-т—, знак которого
р I2
зависит от параметра Р1: signДи(т) = sign(pl — 1).
В случае р\ > 1 (оптимистический сценарий: цена повышается скачком в момент времени г) скачок управления Аи(т) > 0. Тогда и^) < 2г/, ¿(¿) < 0, 0 ^ Ь ^ г, интенсивность управляющего воздействия и(1) на начальном участке времени [0, г] убывает, двойное неравенство и(т) ^ и(1) ^ и(0) Ш € [0, г], где
и{т) = ^ Ц(0)= 1 + (р12^1)е_2ут, 0 < «(г) < «(0) < 21/,
характеризует диапазон значений функции на начальном участке времени [0, г], где вторая производная й(1) может менять знак в зависимости от параметров задачи.
В случае р\ € (0,1) (пессимистический сценарий: цена понижается скачком в момент времени г) скачок управления Аи(т) < 0. Тогда и^) > 2г/, ¿(¿) > 0, 0 ^ Ь ^ г, интенсивность управляющего воздействия и(1) на начальном участке времени [0, г] возрастает, двойное неравенство и(0) ^ и(1) ^ и(т) Ш € [0, г], где
и(0) = -^, = < «(0) < «(г),
характеризует диапазон значений функции и(1) на начальном участке времени [0, г], где вторая производная й(1) > 0.
Оптимальная траектория у(1) и оптимальное значение Ьор функционала определяются формулами (5) и (24). Аналогичный результат получается и для ступенчатой "функции цены" р(1) с несколькими скачками.
Пример 3. Функция р{Ь) является 2-7г-периодической и имеет вид
р(г) = у^ + вт^- сро), г 0, где А > 1, € [0, 2ж) — заданные параметры. Отметим, что
р(г) б =I, л/А+Т] V* ^ 0.
Имеем
РЦг) = е~2иг [А+ мп(*-¥><,)],
+оо
Г е~2и* г (¿{Ь) = / Р2(я)с18=—- А + СОБ^! • — (р0 + (рх)
где
1 \ 2v
(pi = arcsm , - , cos9?i =
л/Аv2 + 1/ ' л/Аи2 + 1
Оптимальное управление u(t) в соответствии с формулой (3) определяется равенством
А + sin(i — (pQ)
u(t) = 2v
А + cos<pi ■ sm(i — (pQ + (pi)
и является непрерывной 2-7г-периодической функцией времени. Функцию u(t) можно представить в форме
u(t) = 2v{\ + v(t)}, где
sincpi ■ cos(t - (ро + (рг)
v(t) =
А + cos <pi • sin(i — (pa + <pi)' причем
■Umax = maxv(t) = G ^ Vmin = minv(i) = 'Umax G (-1,0).
* y'A2- COS2 ip 1 *
Диапазон значений оптимального управления u(t) характеризуется включением
u(t) G [2l/(l - Umax), 2l/(l + Vmax)], t ^ 0, так что u(t) >0 Vi ^ 0. Оптимальная траектория определяется формулой (5):
y{t)=yQ\jm>(h t$?ooy®=0-
Оптимальное значение функционала определяется формулой (24):
Lop = VoVQi0)-
В двух последних формулах участвуют выражения
^ОЩ = e-vt lA + cos Ч>\ ' sin(^ ~ Уо + <Pi) ^/оЩ = IA + C0S!Pi -si^-yo+ yi) V 2v V 2v
Оптимальное управление u(t) совершает периодические колебания вблизи значения и = 2и в указанном выше диапазоне.
Замечание 3. Степень превосходства оптимального управления над допустимым управлением й(-) будем характеризовать величиной q[u] = L[u]/Lop G [0,1], которая равна нулю при й = 0 и единице при й = и0р- В данном примере для допустимого управления й = u(t) = 2v Ш ^ 0 (оптимального в примере 1) при некоторых параметрах задачи наблюдается неравенство q[u] ^ 0.9. Другими словами, оптимальный способ управления может давать не менее 10-процентного выигрыша по сравнению с простым пробным управлением u(t) = 2v. Заметим, что для величины Ь[Щ точное аналитическое представление отсутствует, а получение ее приближенных оценок сопряжено с выполнением нетривиальных вычислений.
СПИСОК ЛИТЕРАТУРЫ
1. Скиба А.К. Исследование задачи оптимального управления для динамической модели газового месторождения // Труды VI Московской международной конференции по исследованию операций. М.: МАКС Пресс, 2010. С. 118-119.
2. Киселёв Ю.Н. Достаточные условия оптимальности в терминах конструкций принципа максимума Пон-трягина // Материалы научного семинара "Математические модели в экономике и биологии". М.: МАКС Пресс, 2003. С. 57-67.
3. Беллман Р. и др. Методы оптимизации с приложениями к механике космического полета. М.: Наука, 1965.
Поступила в редакцию 28.03.11
OPTIMAL CONTROL LAWS IN A NON-AUTONOMOUS DYNAMICAL MODEL OF GAS MINING
Kiselev Yu. N., Orlov M. V.
A dynamical model of gas mining is studied in the article. The model is described as a nonlinear optimal control problem with infinite horizon of planning. Based on the Pontryagin maximum principle an extremal solution can be found. Sufficient conditions in terms of the maximum principle constructions are used to prove optimality of the extremal solution. Dynamical programming method is also used for the optimal solution searching. Bellman function is found using obtained optimal solution. There is a reference to the article where one can get economical interpretation of the problem.
Keywords: optimal control, Pontryagin maximum principle, dynamical programming, mathematical models, dynamical model of gas mining.