Игра n лиц с оптимальной остановкой

Ивашко Анна Антоновна; Ивашко Евгений Евгеньевич

Труды Карельского научного центра РАН № 5. 2011. С. 28-32

УДК 519.833

ИГРА N ЛИЦ С ОПТИМАЛЬНОЙ ОСТАНОВКОЙ

А. А. Ивашко, Е. Е. Ивашко

Институт прикладных математических исследовании Карельского научного центра РАН

Рассматривается следующая игра n лиц с оптимальной остановкой. Каждый из n игроков независимо от остальных получает в качестве очков значение случайной величины, равномерно распределенной на [0, b], b ^ 1. Игрок должен принять решение: остановиться после первого шага или продолжить и получить дополнительно значение следующей независимой случайной величины, которое прибавляется к полученным ранее очкам. Игроки не знают ни значений наблюдений, ни решений, принятых другими игроками. Побеждает тот игрок, чья сумма очков окажется наиболее близкой, но не превышающей 1. Если сумма очков каждого из игроков превысила 1, то побеждает игрок, получивший наименьшее число очков. Каждый игрок стремится максимизировать вероятность своего выигрыша. Найдены оптимальные стратегии игроков в данной задаче. Рассмотрено обобщение игры на случай разладки.

Ключевые слова: игры с оптимальной остановкой, пороговая стратегия, разладка.

A. A. Ivashko, E. E. Ivashko. N-PERSON OPTIMAL STOPPING GAME

The following n-person optimal stopping game is considered. Each of n players gets a random number from [0, b], b > 1 as a score. A player has to decide whether to stop after the first draw or to continue to a second draw, in which case the value of a second random variable is added to their score. Players do not know the scores or the decisions of other players. The player with the largest total score not exceeding 1 wins. In the case the total scores of each player exceeds 1, the player with the lowest score closest to 1 wins. The objective of each player is to maximize the probability of one’s win. Optimal strategies of the players are presented. The disorder version of the game is also investigated.

Key words: optimal stopping games, threshold strategy, disorder.

Введение

Рассматривается следующая игра п лиц с оптимальной остановкой. Игрок г независимо от остальных участников получает в качестве очков значение случайной величины УЦ, г = 1,.., п. Игрок должен принять решение: остановиться после первого шага или продолжить и получить дополнительно значение

случайной величины У;, г = 1,..,п, которое прибавляется к полученным ранее очкам. У[ и У; — независимые равномерно распределенные на отрезке [0, Ь], Ь ^ 1, случайные величины. Побеждает тот игрок, чья сумма очков окажется наиболее близкой, но не превышающей 1. Если сумма очков каждого из игроков превысила 1, то побеждает игрок, получивший

0

наименьшее число очков. Игроки не знают ни значений наблюдений, ни решений, принятых другими игроками. Каждый игрок стремится максимизировать вероятность своего выигрыша.

Данная задача является моделью популярного в США телевизионного игрового шоу «The Price is Right». В работе [Kaynar, 2009] было представлено решение этой задачи при b =1, основанное на перечислении всех вероятностей выигрыша игрока. Такой метод приводит к необходимости перебора большого числа вариантов и построению объемных формул при большом числе игроков. Как следствие, в указанной статье представлено решение только для случаев двух и трех игроков. В данной статье решение получено методом динамического программирования в общем виде для случая n игроков и при различных значениях параметра равномерного распределения наблюдаемых случайных величин. Также рассмотрено обобщение задачи на случай разладки, в котором распределение поступающих случайных величин может измениться в случайный момент времени.

Другие задачи с оптимальной остановкой были исследованы в работах [Coe, Butterworth, 1995; Tijms, 2007]. Метод динамического программирования для решения задач с оптимальной остановкой применялся в работах [Mazalov, 1996; Sakaguchi, 2005, 2007]. В работе [Mazalov, Ivashko, 2010] рассмотрена многошаговая игра с оптимальной остановкой.

Равномерное распределение наблюдений на отрезке [0,1]

Рассмотрим случай b = 1, т. е. наблюдаемые игроками случайные величины независимы и равномерно распределены на отрезке [0,1].

Предположим, что каждый из игроков i, i = 1, ...,n для принятия решения об остановке/продолжении использует следующую однопороговую стратегию: остановиться на первом шаге, если полученное значение случайной величины У^ больше или равно пороговому значению, и продолжить в противном случае. Пусть Игроки 1,...,n — 1 используют пороговую стратегию 0 < t < 1, а Игрок n ищет свою наилучшую ответную стратегию t < v < 1.

Обозначим X* — сумма очков, полученных игроком i (i = 1,..., n — 1) в результате использования стратегии t. X* равно У] при остановке на первом шаге или У^ + У2 при продолжении.

Для вычисления ожидаемого выигрыша Игрока n рассмотрим вероятности следующих

событий:

Р(X; < у) = у - * + / (у - ж)Жк, * < у < 1;

о

Р(Х; > 1) = / ж^ж;

о

Ру> 1 (X; > у) = / (1 - (у - ж))^ж, у > 1, у- 1

где г = 1,..., п - 1. Так как игроки независимы друг от друга, то получим, что рассмотренные вероятности одинаковы для всех игроков.

Обозначим Н(V, *) ожидаемый выигрыш Игрока п при остановке на первом шаге в случае, когда общее число его очков равно V. Тогда

П— 1

H(v, t) = £ ak—A P(Xi < v) )n—1—k ( P(Xi > 1) k=0 \

= (v — t + vt)n—1,

так как Р(Х1 ^ V) = Р(Х2 ^ V) = ... = Р(Хп-1 < V), и Р(XI > 1) = Р(Х2 > 1) = ... = Р (Хга-1 > 1).

Н^,*) — ожидаемый выигрыш Игрока п, если он продолжит игру, и число его очков на первом шаге равно V. Получим

\П— 1

1 v+1

H'(v,t) = /H(y,t)dy + j (Py>1(X1 >y))

v 1

1 — (v — t + vt)n t2n—1 — (t—v)2n—1

n(t + 1)

2n—1(2n — 1)

т.к. Ру>1(Х1 > у) = Ру>1(Х2 > у) = ... =

Ру>1(ХП- 1 >у).

Нетрудно показать, что для любого 0 < £ < 1 функция Н(и,*) возрастает, а функция Н/(^,£) убывает по V. Значение оптимального порога * таково, что ожидаемый выигрыш Игрока п при продолжении равен ожидаемому выигрышу при остановке, т. е. Н(V,*) = Н >,*).

В силу симметрии задачи положим V = *. Окончательно получим, что значением оптимального порога * для принятия первого наблюдения является корень уравнения:

t

2га— 1

п(* + 1) 2п-1(2п - 1)'

При п = 2 эта формула дает то же решение, что и представленное в работе [Каупаг, 2009]: 2*3 + 3*2 + 3* - 3 = 0.

Значения оптимальных порогов для различных значений п представлены в табл. 1.

29

Таблица 1. Оптимальные пороги для различных значений п

п 2 3 4 5 6 7 8 9 10 100 500

і 0,563 0,661 0,718 0,757 0,785 0,806 0, 823 0, 837 0, 849 0, 974 0, 993

Равномерное распределение наблюдений на отрезке [0, Ь], где Ь > 1

Рассмотрим случай, когда наблюдаемые случайные величины распределены на отрезке [0, Ь], где Ь > 1. Отметим, что изменение параметра распределения уменьшит значение оптимального порога * по сравнению с вариантом задачи, рассмотренной в предыдущем пункте. Это является следствием того, что при принятии решения о продолжении увеличивается вероятность превышения 1.

Действуя методом, использованным ранее, получаем, что выигрыши игроков Н(V,*) и Н^,*) при остановке и при продолжении, соответственно, имеют следующий вид:

П— 1

Н(V, *)= £ СП—1 (Р(Х1 < v)ra-fc-1) (Р(Х1 > 1))к

п— 1

_(Р(Хі < ^}+Р(Хі > 1))

__ Ьь-і+іь+Ь(Ь- 1)іп 1

_ Ь2

так как Р(Х1 ^ V) _ Р(Х2 ^ V) _ ... _

Р(Хп-1 < V), Р(Хі > 1) _ Р(Х2 > 1) _ ... _

Р (Хп-1 > 1), и

/Я (у,і)Йу

ь+Ь

+ / (Ру>1(Х1 >у))п-1 ^у

1

ь

1_ь

ь+Ь

/Н(У,і)ЙУ + /(РЬ>у>1(Х1 >у))п 1

+ / (Ру>Ь(Х1 >у))п-1 ^у

(Ь2)п- (Ьь-і+іь+Ь(Ь- 1))п п(Ь+і)Ь2(п-1)

+ (*(Ь-1+2 )+Ь(Ь-1))п-( ^2- )п + ^2п-1-(^-у)2п-1 + Ь2(п-1) (і+Ь)п + 2п-1(2п-1)Ь2(п-1)

так как Ру>1(Х1 > у) = Ру>1(Х2 > у) = ... = Ру>1(Хп-1 > y), РЬ>у>1 (Х1 > у) = РЬ>у> 1 (Х2 > у) = ... = Рь>у>1(Х„-1 > у) и Ру>ь(Х1 > у) =

Ру>Ь(Х2 >у) = ... = Ру>Ь(Хга-1 >у).

Решая уравнение Н(V, *) = Н^, *), а затем полагая V = *, получим:

На рис. 1 изображены значения оптимальных порогов *(Ь) как функции от Ь при п = 2.

ь

Рис. 1. Значения оптимальных порогов *(Ь) при п = 2

Заметим, что оптимальный порог для Ь ^ 2 равен 0. Это означает, что игрок должен всегда останавливаться на первом шаге независимо от полученного количества очков.

Комбинированный вариант

Интерес представляет следующий комбинированный вариант исходной задачи. Рассмотрим задачу, в которой распределение на первом шаге является равномерным на отрезке [0,1], а на втором — на отрезке [0, Ь], Ь > 1. Тогда, учитывая различные распределения получаемых значений, ожидаемые выигрыши игроков примут вид:

Н(М) _ [V

_ IV + IV -Ьг1

п- 1

Ьп-(ьЬ+Іь-1)п пЬп-1 (Ь+1)

\п-1 (Ь-1 + 2 )п-( 2 )п + («)2п-1-(«-у)2п-1 ^Ь/ п + 2п-1(2п- 1)Ьп-1

Следовательно, значение оптимального порога будет удовлетворять уравнению

[5і-і+і2+5(5-1)]п _ 1

(1(Ь-1+2 )+Ь(Ь-1))п-( 22)

Ь2п-(Ь«-«+«2+Ь(Ь-1))п

п(Ь+1)

+

(1+Ь)п

+

2п-1(2п-1)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[і5 + і2 - і]п-1 _ І

Ьп-(«Ь+«2-)п

п(Ь+І)

2п-1(2п-1)

и

2п- 1

2п — 1

І

На рис. 2 представлены значения оптимальных порогов *(Ь) для п = 2.

кь)

дения для выигрыша при продолжении. Далее, приравнивая выигрыш при остановке и выигрыш при продолжении, получаем, что оптимальные пороги находятся из следующего уравнения:

а

2*2(п 1) + а(1 - а) [*Ь + *2 - *]

П— 1

+(1 - а) [Ь* - * + *2 + Ь(Ь - 1)]

П1

=а

1-*2

________I____4_______

п(4+1)+ 2п-1(2п-1)

п- 1(ь-1 + 2)"-(2)" '

Рис. 2. Значения оптимальных порогов *(Ь) при п = 2

При Ь ^ те значение оптимального порога стремится к нулю.

Вариант задачи с разладкой

Рассмотрим обобщение исходной задачи на случай «разладки». Пусть изначально распределение обоих наблюдений является равномерным на отрезке [0,1]. В случайный момент времени (перед первым или вторым шагом) одновременно для всех наблюдателей может произойти разладка, и распределение случайных величин изменится на равномерное на отрезке [0, Ь], где Ь > 1. Момент разладки — это случайная величина, имеющая геометрическое распределение с параметром 1 - а (0 ^ а ^ 1). Игрокам известны параметры а и Ь, но они не обладают информацией, в какой момент произошла разладка. Будем искать однопороговую стратегию, которая устанавливается игроками в начале игры и не меняется в дальнейшем.

Решение данной задачи строится на основе комбинации трех предыдущих игр. Ожидаемый выигрыш игрока зависит от того, на каком шаге произойдет разладка. С вероятностью а2 распределение случайных величин не изменится ни перед первым шагом, ни перед вторым. В этом случае игрок, использующий стратегию *, получает выигрыш

*2(п-1).

С вероятностью а(1 - а) разладка произойдет только перед вторым шагом, тогда игрок получит выигрыш [*Ь + *2 - *]П , соответствующий комбинированному варианту задачи. Наконец, с вероятностью 1 - а разладка произойдет перед первым шагом, и тогда каждый игрок получит в качестве выигрыша величину [Ь* - * + *2 + Ь(Ь - 1)]П 1, которая равна выигрышу игрока в задаче с равномерным распределением обеих случайных величин на отрезке [0, Ь]. Аналогично можно провести рассуж-

+а(1-а)1 г2"-1

(4Ь+42-4)п п(Ь+*)

+

п ' 2"-1(2п-1)

Ь2"-(Ь*-*+*2+Ь(Ь-1))п п(Ь+*)

, (*(Ь-1+2)+Ь(Ь-1))п-(^)" , + (*+Ь)п +

или

2"-1 (2п-1)

а

2*2(п 1) + а(1 - а) [*Ь + *2 - *]

п-1

+(1 - а) [Ы - * + *2 + Ь(Ь - 1)] = а2 П-1) + а(1 - а) ьП '

П— 1

а

+П— 1

Ьп

+*п-1 ((ь -1 + 2 )п - (2 )п)]

+(1 - а)Ь(*+Ь)П [ь2п —(Ь*—*+*2 + Ь(Ь - 1))П +*(Ь -1+2 )+ь(ь - 1))П-(*2 )П-

Ьп-(*Ь+*2-*)" (ь+4)

+(а2 - а2 + 6

Ь) 2"-1(2п-1)'

Значения оптимальных порогов для различных п, а = 0,1, Ь = 1, 5 представлены в табл. 2.

Таблица 2. Значения оптимальных порогов * для различных п (а = 0,1, Ь =1, 5)

п 2 3 4 5 10 20 50

* 0,277 0,424 0,516 0,579 0,735 0,839 0,920

Заключение

В представленной статье рассмотрена игровая задача оптимальной остановки для п игроков. Для данной задачи рассмотрены три варианта с различными параметрами равномерного распределения наблюдаемых игроками случайных величин. Представлено обобщение задачи на случай разладки. Для иллюстрации полученных решений приведены результаты численного моделирования значений оптимальных порогов.

Авторы выражают благодарность проф. В. В. Мазалову за его помощь в постановке задачи и обсуждении полученных результатов. Исследования поддержаны грантом РФФИ, проект 10-01-00089-а и Отделением математических наук РАН.

2п— 1

*

2п — 1

*

■©

Литература

Coe P. R., Butterworth W. Optimal stopping in «The Showcase Showdow» // The American Statistician. 1995. N. 49. P. 271-275.

Kaynar B. Optimal stopping in a stochastic game // Probability in the Engeneering and Information Sciences. 2009. N. 23. P. 51-60.

Mazalov V. V. A Game related to optimal stopping of two sequences of independent random variables having different distributions // Mathematica Japonica. 1996. 43. N. 1. P. 121128.

СВЕДЕНИЯ ОБ АВТОРАХ:

Ивашко Анна Антоновна

научный сотрудник

Институт прикладных математических исследований КарНЦ РАН

ул. Пушкинская, 11, Петрозаводск, Республика Карелия, Россия, 185910 эл. почта: aivashko@krc.karelia.ru тел.: (8142) 766312

Ивашко Евгений Евгеньевич

научный сотрудник

Институт прикладных математических исследований КарНЦ РАН

ул. Пушкинская, 11, Петрозаводск, Республика Карелия, Россия, 185910 эл. почта: ivashko@krc.karelia.ru тел.: (8142) 766312

Sakaguchi M. Equilibrium in two-player games of «Showcase Showdown» // Scientiae Mathematicae Japonicae. 2005. N. 61. P. 145-151.

Sakaguchi M. Players’ information in two-player games of «Score Showdown» // Game Theory and Applications. 2007. N. 11 / Edit. Petrosjan and Mazalov N.Y. Nova Science Publ. P. 111-124.

Tijms H. C. Understanding probability, 2nd ed. Cambridge: Cambridge Univ. Press. 2007.

Mazalov V. V., Ivashko A. A. Equilibrium in n-person game of Showcase-Showdown // Probability in the Engineering and Informational Sciences, Cambridge Univ. Press, 2010. N. 24. P. 397-403.

Ivashko, Anna

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Science

11 Pushkinskaya St., 185910 Petrozavodsk,

Karelia, Russia

e-mail: aivashko@krc.karelia.ru tel.: (8142) 766312

Ivashko, Evgeny

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Science

11 Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: ivashko@krc.karelia.ru tel.: (8142) 766312

Игра n лиц с оптимальной остановкой Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Ивашко Анна Антоновна, Ивашко Евгений Евгеньевич

Похожие темы научных работ по математике , автор научной работы — Ивашко Анна Антоновна, Ивашко Евгений Евгеньевич

N-PERSON OPTIMAL STOPPING GAME

Текст научной работы на тему «Игра n лиц с оптимальной остановкой»