Научная статья на тему 'Об асимптотиках цен в динамических играх с платежом, усредненным по большому промежутку'

Об асимптотиках цен в динамических играх с платежом, усредненным по большому промежутку Текст научной статьи по специальности «Математика»

CC BY
79
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИНАМИЧЕСКИЕ ИГРЫ / СРЕДНЕЕ ПО АБЕЛЮ / СРЕДНЕЕ ПО ЧЕЗАРО / БЕСКОНЕЧНЫЙ ПРОМЕЖУТОК / ДИСКОНТИРОВАНИЕ / ПРИНЦИП ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ / АСИМПТОТИЧЕСКАЯ ЦЕНА / ВЕРОЯТНОСТНОЕ РАСПРЕДЕЛЕНИЕ / DYNAMIC GAMES / ABEL MEAN / CESARO MEAN / INFINITE HORIZON / DYNAMIC PROGRAMMING PRINCIPLE / PROBABILITY DENSITY / ASYMPTOTIC VALUE FUNCTION

Аннотация научной статьи по математике, автор научной работы — Хлопин Дмитрий Валерьевич

В работе исследуются асимптотики цен для антагонистических динамических играх с платежами, усредненными по времени в силу заданного направленного семейства вероятностных распределений (в том числе равномерные распределения на все больших промежутках и экспоненциальные распределения с все меньшим параметром дисконтирования). Исследуются условия как на игру, так и на возможные семейства распределений, при которых асимптотика цен не зависит от выбора семейства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON ASYMPTOTIC VALUE FUNCTION FOR DYNAMIC GAMES WITH LONG- TIME-AVERAGE PAYOFF

The work is devoted to value functions of dynamic zero-sum games. The asymptotics of value functions is considered when each payoff averages over time by a given probability density (in particular for longtime-average payoff and discounted average payoff). For dynamics and families of probability densities, we found the conditions guaranteeing that the asymptotics, if present, is independent of the chosen family of probability densities.

Текст научной работы на тему «Об асимптотиках цен в динамических играх с платежом, усредненным по большому промежутку»

Filippova O.V. ABOUT WELL-POSEDNESS OF A CONTROLLABLE IMPULSE SYSTEM WITH DELAY AND WITH PHASE CONSTRAINTS ON CONTROL

A controllable impulse system with delay and with phase constraints on control is considered. It is shown that if at some point of parameter the set of the system phase trajectories is a-priori bounded, then it is a-priori bounded for all parameter values from some neighborhood of this point. The deviation estimates of the phase trajectories set from a given function are obtained in the space of piecewise continuous functions. The continuous dependence of phase trajectories on parameters and on the initial data is derived.

Key words: controllable impulse system with delay; differential inclusion; a-priori boundedness in total on a set.

Филиппова Ольга Викторовна, Тамбовский государственный университет имени Г.Р. Державина, г. Тамбов, Российская Федерация, кандидат физико-математических наук, доцент кафедры алгебры и геометрии, e-mail: philippova.olga@rambler.ru

Filippova Olga Viktorovna, Tambov State University named after G.R. Derzhavin, Tambov, the Russian Federation, Candidate of Physics and Mathematics, Associate Professor of the Algebra and Geometry Department, e-mail: philippova.olga@rambler.ru

УДК 517.977

ОБ АСИМПТОТИКАХ ЦЕН В ДИНАМИЧЕСКИХ ИГРАХ С ПЛАТЕЖОМ, УСРЕДНЕННЫМ ПО БОЛЬШОМУ ПРОМЕЖУТКУ

Ключевые слова: динамические игры; среднее по Абелю; среднее по Чезаро; бесконечный промежуток; дисконтирование; принцип динамического программирования; асимптотическая цена; вероятностное распределение.

В работе исследуются асимптотики цен для антагонистических динамических играх с платежами, усредненными по времени в силу заданного направленного семейства вероятностных распределений (в том числе равномерные распределения на все больших промежутках и экспоненциальные распределения с все меньшим параметром дисконтирования). Исследуются условия как на игру, так и на возможные семейства распределений, при которых асимптотика цен не зависит от выбора семейства.

Рассмотрим два семейства интегралов:

Как было показано Феллером (а для последовательностей еще Харди) для всякой ограниченной функции д , если одно из выражений имеет предел (при Л | 0), то такой предел имеет место и для другого выражения, и эти пределы совпадают. Такого рода асимптотические результаты называют тауберовыми теоремами

Можно поставить вопрос о равенстве асимптотик и в теории управления, в том числе для антагонистических игр. Пусть имеется некоторая динамическая система, движение которой определяют один (задача управления) или два (антагонистическая игра) игрока. Пусть для

© Д.В. Хлопин

(среднее по Абелю).

всякого реализовавшегося движения г корректно определены два семейства интегральных показателей:

Л / д(г(£)) ^ (среднее по Чезаро), Л / е-Лгд(г(Ь)) ^ (среднее по Абелю).

./0 ./0

Каждый интегральный показатель вообще говоря задает свою задачу (или игру), а значит и цену (как функцию от начального положения). Для каждого направленного семейства показателей получаем направленное семейство цен. Оказывается из существования асимптотики для одного из них, следует та же асимптотика и для другого семейства.

Для задач управления это было показано в [1]: если имеется равномерный предел цен для одного из семейств, то такой же предел имеет место и для другого семейства, и эти пределы совпадают. Соответствующая тауберова теорема имеет место для дифференциальных игр, см. [2]. Общий результат для динамических игр показан в [3]. Независимо от этих работ, общий случай для стохастических игр с дискретным временем рассмотрен в [4]. Первым же в этом ряду следует ставить классический результат [5]: с помощью соответствующей (показанной там же) тауберовой теоремы было доказано существование цены игры в стохастической игре с конечным числом состояний и действий.

Помимо семейств Л1 [о,1/л] , Ле-Л (равномерных и экспоненциальных распределений) можно рассмотреть произвольные семейства вероятностных распределений, и с каждым из них — асимптотическое поведение получившихся цен в соответствующих играх. Подобный результат (о совпадении асимптотик вне зависимости от выбора семейства распределений из достаточно широкого класса) был показан в [6] для задач управления с дискретным временем.

Для дифференциальных игр тауберова теорема с вероятностными распределениями достаточно общего вида показана в [7], здесь анонсируется соответствующий результат для динамических игр, см. [8].

Постановка игры

Пусть даны:

• множество О состояний;

• множество К допустимых процессов как некоторое подмножество отображений из М^0 в О ;

• текущий платеж д : О м- [0,1].

Пусть они таковы, что для всякого процесса г € К, отображение £ м д(г(£)) измеримо по Борелю.

Для каждого и € О через Г(и) обозначим множество всех допустимых процессов г € € К, начинающихся в и .

Назовем множество А С К стратегией, если для всякой начальной позиции и € О множество А П Г(и) непусто.

Пусть первый игрок желает максимизировать суммарный платеж; второй игрок — минимизировать. Пусть каждый из них обладает также своим семейством стратегий (множествами А^ , А^ соответственно).

Рассмотрим пока в качестве суммарного платежа произвольную функцию с : К м [0,1]. В зависимости от того, кто из игроков предъявляет другому свою стратегию, фактически

предоставляя ему выбор процесса, реализующегося в ходе игры, мы получаем цены:

В силу ограниченности с, и того, что все элементы в А^ , А^ — стратегии, эти цены корректно определены.

Требования на стратегии игроков

Прежде всего потребуем:

(з) множество А П В П Г(ш) непусто для всех А € А^, В € А^, ш € П .

Это условие используется лишь для того, чтобы обеспечить неравенство Vь[с] < V»[с] .

Пусть т € М^о, г', г'' € К таковы, что г'(т) = г''(0). Тогда можно ввести их «склейку» — конкатенацию — г'от г''. Теперь для всякой пары стратегий А', А'' и момента времени т € € М^о определим «склейку» этих стратегий правилом:

(о) замкнуто относительно конкатенации о : Ут > 0, С', С'' € А С' от С'' € А;

(т) инвариантно относительно сдвига по времени назад; при любых С € А, т > 0 для некоторого С' € А выполнено С = С от С'.

Аксиома (ш) нужна, чтобы для всякого е > 0 гарантировать каждому игроку существование стратегии, е -оптимальной для всех начальных позиций сразу. Фактически, с помощью (ш), (о) , каждый игрок может уже в начале игры запланировать переключение в определенный заранее момент времени с одной стратегии на другую, воспользовавшись при этом информацию о реализовавшейся в этот момент позиции.

О платежной функции в силу вероятностного распределения

Рассмотрим произвольную измеримую по Борелю, суммируемую функцию д из В(М^о, М^0) со свойством

Уш € П,

V»[с](ш) △ вир с(г) Уш € П.

Бе% геБПГ(ш)

А' От А''△{г' От г'' | г' € А', г'' € А'', г' (т) = г''(0)}.

Потребуем также, чтобы каждое из семейств А^ , А^ также было: (ш) позиционно в начальный момент: для всякого отображения £ : П ^ А

ЗС € А Уш € П £(ш) П Г(ш) = С П Г(ш);

Введем платежную функцию С[д ] : К ^ [0,1] следующим правилом:

Поскольку С[д] ограничено, корректно определены при любых ш € П :

Из (т) и (w) следует (см. [3]) выполнение для цен YY N принципа динамического программирования. В частности, всюду далее аксиома (т) может быть опущена, если этот принцип верен для Y Y N ; или верен некоторый его асимптотический аналог, см [8].

Для всякой плотности q и числа r € (0,1) введем квантиль q[Q](r) как минимальное число со свойством

гФ](r)

/ Q(t) dt = r.

Jo

Далее, для всякого отрезка [а, b] С R и функции f : [а, b) ^ R U {то} обозначим через Var^ [f ] полную вариацию функции f на [a, b] .

Основной результат

Теорема 1. Пусть семейства A^, A^ стратегий удовлетворяют аксиомам (т), (w), (о), (s).

Если функция V* : Q ^ [0,1] является при Л ^ +0 общим 'равномерным на Q пределом у цен Yb[QA], Yn[qa] :

lim Y b[qa](w) = lim Y b[QA](w) = V*(w) Vw € Q

для семейства Лв-Л4 (Л > 0) или семейства Л1[01/д] (Л > 0) вероятностных распределений, то функция V* является общим равномерным на Q пределом для всякого семейства вероятностных распределений, удовлетворяющего условиям

lim / ßÄ(i) dt = 0 VT> 0,

40 Jo [

r o

lim Varq[eAl(r) [ln pä] € R Vr € [0,1).

Ä|0 0

Доказательство этого результата см. в [8].

Первое из условий, предъявляемых для семейств вероятностных распределений, фактически требует лишь, чтобы никакой конечный промежуток не давал значимый вклад в усредненный платеж. Второе условие обеспечивает для разных промежутков асимптотически сравнимые между собой вклады в усредненный платеж.

Замечание1.В качестве семейств вероятностных распределений, удовлетворяющих этим двум условиям, можно взять семейство Ae-At (Л > 0) или семейство A1[o,i/a] (Л > 0) .

Замечание2. Теорема 1 содержит тауберову теорему для динамических игр (достаточно ограничиться семействами из замечания 1).

Замечание 3. В случае, если верхние и нижние цены заведомо совпадают (игры имеют седловую точку), в теореме достаточно проверить один равномерный предел.

Замечание 4. Вообще говоря, опустить условие равномерности предела нельзя даже в тауберовой теореме для задач управления, соответствующий контрпример смотрите в [1].

ЛИТЕРАТУРА

1. Oliu-Barton M., Vigeral G. A uniform Tauberian theorem in optimal control // in: Advances in Dynamic Games. Boston: Birkhauser, 2013. P. 199-215.

2. Хлопин Д.В. Тауберова теорема для дифференциальных игр // МТИП. 2015. 7. № 1. C. 93-120.

3. Khlopin D. V. On uniform Tauberian theorems for dynamic games // arXiv preprint arXiv:1412.7331 (2014).

4. Ziliotto B. A Tauberian theorem for nonexpansive operators and applications to zero-sum stochastic games // arXiv preprint arXiv:1501.06525 (2015).

5. Mertens J.F., Neyman A. Stochastic Games // Int. J. of Game Theory. 1981. 10. P. 53-66.

6. Monderer D., Sorin S. Asymptotic properties in Dynamic Programming // Int. J. of Game Theory. 1993. 22. P. 1-11.

7. Хлопин Д.В. Об асимптотике цен в дифференциальных играх при усреднении платежей по большим промежуткам // Труды Международной конференции Международной конференции «Динамика систем и процессы управления» (SDCP-2014), посвященной 90-летию со дня рождения академика Н.Н.Красовского, Изд-во УМЦ УПИ, Екатеринбург, 2015. C. 341-348.

8. Khlopin D. V. On asymptotic value for dynamic games with saddle point // arXiv preprint arXiv:1501.06933 (2015).

БЛАГОДАРНОСТИ: Работа частично поддержана грантом РФФИ № 13-01-00304.

Поступила в редакцию 5 мая 2015 г.

Khlopin D.V. ON ASYMPTOTIC VALUE FUNCTION FOR DYNAMIC GAMES WITH LONGTIME-AVERAGE PAYOFF

The work is devoted to value functions of dynamic zero-sum games. The asymptotics of value functions is considered when each payoff averages over time by a given probability density (in particular for longtime-average payoff and discounted average payoff). For dynamics and families of probability densities, we found the conditions guaranteeing that the asymptotics, if present, is independent of the chosen family of probability densities.

Key words: dynamic games; Abel mean; Cesaro mean; infinite horizon; dynamic programming principle; probability density; asymptotic value function.

Хлопин Дмитрий Валерьевич, Институт математики и механики имени Н.Н.Красовского, г. Екатеринбург, Российская Федерация, кандидат физико-математических наук, заведующий отделом, e-mail: khlopin@imm.uran.ru

Khlopin Dmitrii Valer'evich, Institute for Mathematics and Mechanics named after N.N. Krasovskii, Ekaterinburg, the Russian Federation, Candidate of Physics and Mathematics, Head of Department, e-mail: khlopin@imm.uran.ru

УДК 517.977.5

О ЗАДАЧАХ УПРАВЛЕНИЯ НА БЕСКОНЕЧНОМ ПРОМЕЖУТКЕ С ЛОКАЛЬНО ЛИПШИЦЕВОЙ ФУНКЦИЕЙ ЦЕНЫ

© Д.В. Хлопин

Ключевые слова: задача управления; задача на бесконечном промежутке; необходимые условия оптимальности; принцип максимума Понтрягина; функция цены; скрытая цена; предельный градиент.

Принцип максимума Понтрягина является необходимым условием оптимальности в задачах управления на бесконечном промежутке, однако в таких задачах он может оказаться вырожденным. Аннонсируется, что если у задачи управления функция цены существует и липшицева, то принцип максимума выполнен в нормальной форме, а сопряженная переменная (из решения соотношений принципа максимума) будет градиентом функции цены (скрытой ценой).

Для задач управления на бесконечном промежутке времени принцип максимума Понтрягина является необходимым условием оптимальности [1], но его применение затрудняется следующим: 1) он не содержит (см. [2, §6]) удобного условия на выбор сопряженной переменной, 2) множитель Лагранжа при целевой функции может равняться нулю даже в задачах со свободным правым концом.

i Надоели баннеры? Вы всегда можете отключить рекламу.