УДК 519.83 JEL C73 F19 DOI 10.26425/2309-3633-2018-2-45-51 Получено 06.03.2018 Одобрено 27.03.2018 Опубликовано 05.04.2018
Применение дифференциальной теории
Королев И.В.
кандидат физико-
математических наук, ФГБОУ ВО ИГР В МОДеЛЯХ ТОРГОВЫХ ОТНОШеНИИ
«Государственный университет -г» тт "
управления», г. Москва ВеликОбритании с ПОртугалиеи
e-mail: iv_korolev@guu.ru
и России с Белоруссией
Korolyov I.V.
Candidate of Physico-mathematical Sciences, State University of Management, Moscow
e-mail: iv_korolev@guu.ru
Аннотация
Статья включает анализ современного состояния теории дифференциальных игр, базируемой на принципе максимума академика Л. С. Понтрягина. Исследованы оптимальное решение конфликтных, но не (строго) аналитических игр, и вопрос о единственности оптимального решения. Автор составляет и анализирует систему из четырех нелинейных обыкновенных дифференциальных уравнений с параметрами, причем их (динамическая) вариация ведет к улучшению последовательных приближений точного решения, нахождение которого весьма проблематично. Статья включает несколько примеров: модель боевых действий при определенном арсенале и разбор двух неантагонистических игр - динамической модели торговли между Великобританией и Португалией, а также между Россией и Белоруссией.
В статье показано, как из простейших задач классического вариационного исчисления возникает задача дифференциальной экономико-математической игры. Исследованы достаточные условия максимума Пон-трягина-Мангасариана и их приложения к исследованию экономических задач. Показан переход к изучению непрерывно-дифференциальной игры международной торговли. Исследованы возможные стратегии поведения игроков в неантогонистических (позиционных) играх. Проблема отсутствия статистической информации (базы) сведена к исследованию не абсолютных, а относительных значений фазовых переменных, что гарантируется устойчивой структурой соответствующей экономико-статистической модели. Выводы могут быть полезны для студентов старших курсов и аспирантов экономико-математического профиля. Реализация предложенных автором разработок предполагает наличие весомой базы экономико-статистических (экспериментальных) данных и акцентирования соответствующего лица, принимающего решение. Для практики анализа и прогнозирования результаты статьи могут оказаться полезными.
Ключевые слова:
дифференциальные игры, антагонистические игры, неантагонистические игры, коалиционные игры, динамические игры, торговые отношения.
Differential game theory application in models of trade relations of Great Britain with Portugal and Russia with Belarus
Abstract
The article includes the analysis of the current state of differential games theory based on the maximum principle of academician L. S. Pontryagin. The optimal solution of conflict, but not (strictly) analytical games and the question of the uniqueness of the optimal solution are investigated. The author composes and analyzes a system of four nonlinear ordinary differential equations with parameters, and their (dynamic) variation leads to the improvement of successive approximations of the exact solution, the finding of which is very problematic. The article includes several examples: the model of military operations with a certain arsenal and the analysis of two non-antagonistic games -the dynamic model of trade between Great Britain and Portugal, as well as between Russia and Belarus.
The article shows how the problem of differential economic-mathematical game arises from the simplest problems of classical variational calculus. Sufficient conditions for the Pontryagin Mangasarian maximum and their applications to the study of economic problems are investigated. The transition to the study of the continuously differential game of international trade is shown. Possible strategies of players' behavior in non-antagonistic (positional) games are investigated. The problem of the lack of statistical information (base) is reduced to the study of not absolute, but relative values of phase variables, which is guaranteed by the stable structure of the corresponding economic and statistical model. The conclusions can be useful for undergraduate and postgraduate students of economic and mathematical profile. The implementation of the proposed development of the author assumes the existence of a strong base of economic-statistical (experimental) data and the emphasis of the relevant decision-maker. The results of the article can be useful for the practice of analysis and forecasting.
Keywords:
differential games, antagonistic games, non zero-sum games, coalitional games, dynamic games, trade relations..
Теория дифференциальных игр анализирует конфликтно управляемые процессы, описываемые обыкновенными дифференциальными уравнениями. Первые работы в этой области опубликовал в 1960-е гг. американский математик Руфус Айзекс. В частности, им была разобрана задача, в которой
медленный, но маневренный катер пытается уйти от быстрой, но неповоротливой торпеды. Существенный вклад в теорию дифференциальных игр внесли такие советские математики, как Л. С. Пон-трягин и Н. Н. Красовский. На ранних этапах исследователей интересовало моделирование боевых
действии, затем теория нашла свое применение в инженерном деле и экономике.
Настоящая статья включает теоретическую часть и разбор трех примеров дифференциальных игр: простейшую модель боевых действий и две модели торговых отношений (товарообмен Великобритании с Португалией и России с Белоруссией).
Теоретические предпосылки теории
дифференциальных игр
Напомним необходимое условие разрешимости задачи вариационного исчисления:
х, 5с)Л ■
шах.
(1)
При граничных условиях:
= *М = х\ (2)
Неизвестная непрерывно-дифференцируемая функция х = х(/) удовлетворяет уравнению Эйлера-Лагранжа
дх Л\дх) ' (3)
которое можно «развернуть» в обыкновенные дифференциальные уравнения (далее — ОДУ) второго порядка относительно х(1):
д2Р
д2Р д2Р дР
дхдх дхдх дtдx дх
--= 0 .
(За)
Условие Лежандра ^(7; х(7); х(7))<0 для всех является необходимым условием
разрешимости задачи на максимум, причем равенство 7л" (V; = 0 приводит к особым решениям.
Если целевая функция выпукла вверх по переменным (х; х), то допустимая функция х = х(^), удовлетворяющая уравнению Эйлера-Лагранжа, является решением задачи (1)—(2).
В экономических задачах оптимального управления пара функций называется допустимой, если она удовлетворяет дифференциальному уравнению:
с начальным условием:
М
= X
(4)
(5)
Тогда кусочно-непрерывная функция управления и = «(/) называется оптимальной, если она максимизирует функционал:
а
х,
—» шах,
(6)
причем х(?) и «(/) удовлетворяет ОДУ (4) с условием (5).
На множестве кусочно-непрерывных управлений (функций управления) и = «(/) определяем функцию Гамильтона 11(1, х, и, р), являющуюся полной энергией изучаемой экосистемы:
#(/, х, и, р) = /(х, |/) + /?<р(*, х, и)
(7)
Можно показать, что гамильтониан #является преобразованием Лежандра от скорости х к импульсу р, примененному к функции Лагранжа (лагранжиану) ^(Л л", х) в условиях управляемой системы, где и = и (О — функция управления.
Принцип максимума Л. С. Понтрягина в современной формулировке Мангасариана состоит в том, что если пара функций м (0) является рас-
ширением задачи управления (6), то найдется такая непрерывно-дифференцируемая «импульсная» функция р(Г), что для любого {е 1Л' выполняются два условия.
1. Оптимальное управление » (?) доставляет (нестрогий) максимум гамильтониану
х*(?); и: р^))< Н х*(?); г/*(/); р^)), (8)
для всех допустимых функций управления, в частей//
ности— (к X (г) ; и (г) ; р(г)) = 0 для всех Ге[Г0; , 1фоме, может быть, точек разрыва первого рода для функции управления.
2. Импульсная функция удовлетворяет ОДУ Гамильтона:
дх
(9)
и начальному условию р{1 ¡) = 0, которое называется условием трансверсальности.
Ясно, что допустимая функция л: = л: (') при выполнении всех указанных условий удовлетворяет уравнению:
дН /
др
I- х(г); (10)
которое, совместно с ОДУ (9), называется системой Гамильтона.
Достаточные условия разрешимости задачи оптимального управления Л. С. Понтрягина, усовершенствованные Мангасарианом, состоят в том, что оптимальная пара " (')) удовлетворяет ука-
занным выше двум условиям, а полная энергия экосистемы, гамильтониан Н (I, х, и, р), является выпуклой вверх функцией по переменным.
Будет ли при этом пара (* ('); » (')) единственным решением задачи оптимального управления — вопрос открытый.
Для современных экономических задач характерно наличие нескольких переменных состояния экосистемы и векторного управления ею. Задачу управления экосистемой с фиксированным горизонтом планирования и замкнутой областью управления можно сформулировать следующим образом: исследуется на максимум функционал:
]f(t, x(t), il(t))dt
—> max
(П)
с ограничениями (условия связи)
j-tx(t) = v(t:i(t):u(t)): x(t0) = x° е R";
u(t) = {nl(t): u2(t): ... : !i,„(f)}ef/cRm;
при начальных условиях:
xi (А) = х) при i = 1, 2, .... s: х, (tx) > х) при i = s +1, s + 2, ..., q: xi (A) free ' = q + Ь q + 2, ...,;?.
(12)
(13)
Для данного функционала составляется гамильтониан (полная энергия системы):
п
Я(/\ х, ¿7, р) =/(г, X, + (14)
причем
дН
— = y1=x1(t); dpj
дН
— = ф2 =x2(t):
др2
Ч*)=Ы*)>рЛ*)>~>РЛ*)}, (16)
что для всех t е [?0; /, | оптимальная вектор-
функция управления и' (/) = {г/*^ ... ; и*т (/)} доставляет max полной энергии экосистемы гамильтониану Н, т. е.
Н(к * (i); u;p(t))<H(f, ?*(i); u(t);p(t)) для любого и е U . причем
dPj_ = дН'
dt дх,
dxi дН*
dt dp,
(17)
где Я = Я (?; х (?); й (?); р (?)) — значение гамильтониана на оптимальной траектории экосистемы. Если же в придачу к сформулированным условиям
3-Я
симметрическая матрица (аналог Гессиана) гхгт отрицательно определена, то необходимые условия экстремума превратятся в достаточные условия максимума. Следует отметить, что требование выпуклости вверх гамильтониана я (л »- /НО) по переменным (х; «) можно заменить более слабым достаточным условием Эрроу: максимизированный гамильтониан .5: р^)) = тахх й: р^)) является выпуюгым вверх по * .
В теории дифференциальных игр, базирующейся на принципе максимума Л. С. Понтрягина, функция выигрыша /-го игрока задается функционалом:
Т
J¡(u1, и2, ... . .,„! <!> ('/. .VI / !)•//• I/. .5. Щ. ... ,иИ)<Ь, (18)
/л
определенном на решениях (траекториях) системы ОДУ:
-^-х = х = /(?, X, щ, и2, ... ,ит)г (19)
(15)
где X = X =
{хг\ х2\ ...; хп) и / = Ц; /2; ...; /„}
дН
—— = фх =
Ф„
Допустим, что вектор |.т* (/); ?7* (/)| является решением задачи оптимального управления; тогда найдется такая импульсная вектор-функция:
с начальными условиями = ={хП1; ... ; Х1]п } . Точку (г0, ,т0)еК"+1 называют начальной пози-
т
цией игры. Составляющая | /•; (/, х, //(/))"'' есть ин-
тегральная функция выигрыша, а — терминальная функция выигрыша, а Ф(Г, x(T)) — терминальная функция выигрыша. Конкретика задачи диктует выбор поверхности П, на которую должны выйти в момент окончания игры все траектории экосистемы.
Управляющие воздействия и1 = и^, х(^); и2 = и2(?, х(^); ... ; ит = ит(?, х, (?)) предполагаются кусочно-непрерывными функциями времени г е [г0; Т ].
Прежде чем решать задачу игры двух экосистем (например, фирм), необходимо определить:
1) систему ОДУ, описывающую вариацию во времени фазовых переменных экосистем;
2) начальное и терминальное (конечное) условия функционирования экосистемы;
3) допустимый класс управлений: как правило, это множество кусочно-непрерывных функций управления;
4) две или более целей игроков: как правило, в виде функционалов, определенных на решениях заданной системы ОДУ;
5) информацию, доступную игрокам, а также возможность объединения игроков (коалиционная игра) [1; 3].
Вопросы, которые следует разрешить лицу, принимающему решения (далее — ЛПР) при исследовании игры, перечислены ниже.
1. Что такое решение игры и в чем состоит ее оптимальный критерий?
2. Каким является решение игры?
3. Как найти оптимальное решение игры?
4. Единственно ли оптимальное решение игры?
Под решением дифференциальной игры понимается
вектор допустимых стратегий игроков, т. е. вектор
управляющих воздействий и = {и\; и2; ■■■ ; ит} , реализующий выбранный критерий оптимальности,
причем этот вектор и* = {м* (7, х(7)); ... ; ит х(7))} определен на решениях системы (19).
Как правило, точное решение дифференциальной игры аналитически найти не удается: строится итерационный процесс, сходящийся (по норме заранее выбранного пространства) к точному решению, а затем исследуется вопрос единственности (множественности) решения. «Выходной» показатель — последовательность приближенных (допустимых) стратегий управления [2].
Примеры дифференциальных игр
I. Модель боевьх действий
Данная модель может быть обобщена на информационные и/или экономические войны: таким образом, коалиции игроков вряд ли возможны.
Две противоборствующие стороны А и В имеют каждая по две группировки. Во-первых, средства нанесения ударов (или экономического урона противнику):
z2(í) — средства нанесения ударов стороны А; z4(t) — средства нанесения ударов стороны В. Во-вторых, обороняемые противниками объекты, сохранение которых является целью игры: z1(t) — обороняемые объекты стороны А; z3(t) — обороняемые объекты стороны В. Система дифференциальных уравнений фазовых активных z2(í), z4(í) и пассивных z1(í), z3(í) переменных такова:
2 =- ¿4 ад + с;
2 2 = — 2 4 Р42У2 + С2 '
23 = — 22 р23и1 + С3;
24 = — 22 Р24и2 + С4'
Поясним условные обозначения: Р 41 — эффективность («скорострельность») уничтожения объектов z1(/) объектами z4(í); аналогично р42 — эффективность уничтожения z4( ?) с помощью z2(í) и т. д.;
у1 — доля объектов z4(í), направленных против z1(t), у1 — доля z4(í), направленных против z2(í), причем 0<у1+у2<1;
и1 — доля объектов z2(í) , направленных против z3(í), и2 — доля z2(í) , направленных против z4(í), причем 0<и1+и2<1 ;
с1, с2, с3, с4 - возможность пополнения (реновации) объектов этих четырех видов за счет введения резервных объектов (привлечения фондов). Пример функции выигрыша для стороны А:
^ [и; V] = 10(Т)- 7 (Т) .
Она максимальна, если z3(T) = 0, т. е. к моменту окончания боевых действий (Т) пассивные (обороняемые) объекты противника полностью уничтожены, а z1(T) = z1(t0). Коэффициент 10 означает, что свои пассивные объекты в данном случае в 10 раз важнее чужих. Аналогично !][и; V] = 10z3(T)—z1(T).
Если же /А[и;у] = z1(T) — z3(T) и /В[и;у] = z3(T) — z1(T) , то /А+/В=0 и получается дифференциальная (учебная) игра с нулевой суммой, что более характерно для матричных («дискретных») игр, а также для игр учебного характера, когда ни одна из сторон в итоге не имеет серьезного преимущества и сумма выигрышей сторон нулевая.
Возьмем в качестве альтернативной спецификации модель боевых действий сторон А и В, не обладающих обороняемыми объектами, а лишь активными. Пусть
каждая из сторон имеет по два вида принципиально различных боевых средств нанесения удара.
Сторона А располагает орудиями |х1(?); х2(?)|, имеющими скорострельность {р11; р21} для нанесения ударов х1(?) по у^) и у2(0 соответственно и скорострельность{р12; р22} для нанесения ударов х2(^ по у1(?) и у2{(). Вектор эффективности их воздействия равен {а1; а2}. Далее: и11 и и12 - доли орудий х1(?) и х2(^, бьющих по у^), а и21 и и22 - доли орудий х1(?) и х2(^, уничтожающих у2(?) .
Аналогично д11 и д12 — доли орудий у1(?) и у2(!), бьющих по х1(?), а д21 и д22 — доли орудий у1(?) и у2(?) , уничтожающих х2^) . Вектор эффективности их воздействия равен {р1; р2}.
Модель работает только на уничтожение, без реновации, а целью боевых действий для каждой из сторон является минимизация потерь своего активного оружия. При этом модель может быть применена для строго антагонистических финансовых (экономических) войн, где используются санкции, ультиматумы и т. п.
Система ОДУ имеет вид:
х =-Яп№п У - 2 У2;
У; =-Рла«пХ - Р12а2и^2Х2 *
Заметим, что при одной и той же системе ОДУ можно вводить различные функции выигрыша противоборствующих сторон. Рассмотрим, например, случай, когда цель игры — минимизировать ответный удар противника, т. е.
т
■1А(и, V) = |[>1 (г)у (г)+Р2 (г)у2 (г)]л ^ шт;
о
т
JB (и, V) = |[а1 (г) х1 (г)+а2 (г) х2 (г)] А ^ шт.
о
Кроме того, заданы начальная позиция игры хг(0); уг(0) и момент окончания игры (V) . Равновесные функции управления, зависящие только от времени ^ но не от фазовых переменных, могут быть найдены по принципу максимума Л. С. Понтрягина [4; 5].
II. Модель торговли между Великобританией и Португалией
Рассмотрим примеры неантагонистических игр [6].
Пусть Великобритания производит и продает шерсть Португалии, которая сама шерсть (в значимых количествах) не производит; в свою очередь, Португалия продает Великобритании свой фирменный португальский портвейн, который не производится в Великобритании.
Набор фазовых переменных:
х1(?) — запас шерсти, имеющийся у Великобритании в момент времени г е \г0; Т] ;
х2(?) — запас шерсти у Португалии, пополнение которого возможно лишь за счет купленной у Великобритании шерсти;
у2(?) — запас портвейна у Португалии;
у1(?) — запас португальского портвейна, которым располагает Великобритания;
а — скорость производства шерсти Великобританией;
Ь — скорость производства портвейна Португалией.
Параметры а и Ь могут быть управляемыми.
Список функций управления (кусочно-постоянных):
и2 — скорость потребления портвейна Великобританией;
у2 — скорость потребления шерсти Португалией;
и1 — скорость импорта портвейна Великобританией;
у1 — скорость импорта шерсти Португалией.
Система ОДУ для четырех фазовых переменных имеет вид
х1 = а - кв х1 - у1;
Х2 = У1 - кп х2;
У = и1 - «2; У2 = Ь - и1 - ^2-
Здесь кв и кп — норма потребления шерсти в Великобритании и Португалии, соответственно (либо на душу населения — тогда надо умножить этот параметр на число жителей страны, либо для всего населения).
Если изучаемая дифференциальная игра рассматривается с позиции Великобритании, то можно добавочно рассмотреть ОДУ динамики ее золотовалютного запаса, пополняемого за счет данной торговли:
ds
-= 5 = М, V, - V, и, .
dt 3 13 1
Здесь и 3 — цена единицы шерсти, у3 — цена литра портвейна. Это наиболее важные функции управления.
Все переменные модели неотрицательны. Заметим, что максимальные скорости импорта шерсти и экспорта портвейна Португалией, а также экспорта шерсти и импорта портвейна Великобританией ограничены пропускной способностью границ и государственными законами этих стран.
Целевые функции /в, /п, игроков Великобритании и Португалии, соответственно, могут быть взяты в следующем виде:
Jb (ti, v) = Ф (Г)) + J.Tj (t)ii2 (t)dt max;
0
T
Jn (t!, v) = -ф(^(Г)) + J.T2 (ф>2 (t)dt-> max.
0
Здесь и = {mj(0; w2(?)}; v = v2(0}-Решение дифференциальной игры находится по конфетной информации о параметрах и начальных данных для Великобритании и Португалии с применением принципа максимума JI. С. Понтрягина.
III. Модель торговли между Россией и Республикой Беларусь
Игровая ситуация торговли двух и более стран может быть перенесена на случай торговли, например, между Российской Федерацией и Республикой Беларусь. Россия поставляет в Беларусь природный газ по трубопроводам и нефть — по нефтепроводу. Беларусь поставляет в Россию молочную продукцию и колбасы, текстиль и мебель, причем значительная часть этой продукции не подлежит длительному хранению. Продолжительность торговли Т, в течение которой цены на единицы продукции являются конечно-постоянными функциями управления, может быть статистически оценена (математическое ожидание и дисперсия величины Т).
Введем в рассмотрение фазовые (л'Д/); x2{t)\ у ¡(1): y2(t)) и вспомогательные переменные модели торговли между Россией и Беларусью:
Xj(t) - (добыча) запас природного газа (нефти), имеющийся в наличии у России в момент времени ie[i„; Т];
x2(t) — количество газа (нефти) у Беларуси, причем (в данной модели) своим собственным газом (нефтью) республика располагает в незначительных количествах;
1 (/) — количество продукции молочного ассортимента («ширпотреб»), импортируемого Россией из Беларуси;
у2{1) — количество этой же продукции у Беларуси; s(t) — золотовалютный запас (объем валютных средств в Резервном фонде) России.
Потоки товаров описываются функциями управления:
у , - цена 1 м3 природного газа (1 барреля нефти); и2 и v2 — скорости потребления молочной продукции Россией и Беларусью, соответственно; Vj — скорость импорта газа из России в Беларусь; и1 — скорость импорта молочной продукции из Беларуси в Россию;
а — скорость добычи газа Россией;
Ь — скорость производства молочной продукции Беларусью.
Запишем систему пяти ОДУ, описывающую потоки товаров в данной модели:
сЬс,
— =а-к.х, -V.;
Л 111 = У1
М
Ф1
—- = и, - и,
Л 1 2
и
Л
Ф> ,
—- = о-и, — V-.
.А 12
Допустимо также рассмотрение динамики золотовалютных запасов Республики Беларусь:
л
Заключение
Была проиллюстрирована на трех примерах возможность применения теории дифференциальных игр в военном деле и экономике. Модели носят достаточно огрубленный характер, однако могут быть уточнены путем введения новых параметров. Данная статья может быть использована студентами старших курсов и аспирантами при разработке и реализации инвестиционных стратегий развития региона, построения и компьютеризации региональных и городских программ оптимального развития.
Библиографический список
1. Беллман, Р. Динамическое программирование / Р. Белман. — М. : Иностранная литература, 1960. — 232 с.
2. Вайсброд, Э. М. Введение в дифференциальные игры нескольких лиц и их приложения / Э. М. Вайсброд, В. И. Жуковский. — М. : Советское радио, 1980. — 304 с.
3. Рокафеллар, Т. Выпуклый анализ / Т. Рокафеллар. — М. : Мир, 1973. - 472 с.
4. Kamien, M. I., Schwartz N. I. Dynamic Optimization: the Calculus of Variations and Optimal Control in Economics and Management. Amsterdam, North-Holland, 1991.
5. Leonard, D., Van Long, N. Optimal Control Theory and Static Optimization in Economics. Cambridge, Cambridge University Press, 1992.
6. Seierstad, A., Sydseter, K. Optimal Control Theory with Economic Applications. Amsterdam, North-Holland, 1987.
References
1. Bellman R. Dinamicheskoe programmirovanie [Dynamic programming]. Moscow, Foreign literature, 1960. 232 p.
2. Weisbrod E. M., Zhukovsky V. I. Vvedenie v differen-cial'nye igry neskol'kikh lic i ikh prilozheniya [Introduction to differential games of several persons and their applications]. Moscow, Soviet radio, 1980. 304 p.
3. Rockafellar T. Vypuklyj analiz [Convexanalysis]. Moscow, Mir, 1973. 472 p.
4. Kamien M. I., Schwartz N. I. Dynamic Optimization: the Calculus ofVariations and Optimal Control in Economics and Management. Amsterdam: North-Holland, 1991.
5. Leonard D., Van Long N. Optimal Control Theory and Static Optimization in Economics. Cambridge, Cambridge University Press, 1992.
6. Seierstad A., Sydseter K. Optimal Control Theory with Economic Applications. Amsterdam, North-Holland, 1987.