Научная статья на тему 'Максимизация вероятности успеха в задаче оптимальной двукратной остановки для урновой схемы'

Максимизация вероятности успеха в задаче оптимальной двукратной остановки для урновой схемы Текст научной статьи по специальности «Математика»

CC BY
318
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИМАЛЬНАЯ ОСТАНОВКА / ВЫБОРКА ИЗ УРНЫ / ЗАДАЧА О БАЛЛОТИРОВКЕ / OPTIMAL STOPPING / URN SAMPLING / BALLOT PROBLEM

Аннотация научной статьи по математике, автор научной работы — Ивашко Анна Антоновна

Рассматривается задача оптимальной двукратной остановки в урновой схеме. Урна содержит положительные и отрицательные шары. В каждый момент времени из урны вынимаются шары без возвращения. Значение —1 соответствует отрицательному шару, а значение +1 — положительному. Ведется наблюдение за суммой поступающих случайных величин. В работе рассматривается задача оптимальной остановки, в которой необходимо с максимальной вероятностью остановиться сначала на наименьшем значении суммы, а затем — на наибольшем. Найдены оптимальные стратегии, а также проведено численное моделирование для нахождения значений порогов принятия решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MAXIMIZATION OF SUCCESS PROBABILITY IN THE OPTIMAL DOUBLE STOPPING PROBLEM FOR AN URN SCHEME

The optimal double-stopping problem for the urn scheme is considered. An urn contains minus balls and plus balls. One draws balls from the urn sequentially one at a time without replacement. The value —1 is attached to minus ball and value +1 to plus ball. One observes the sum of input random variables. The goal is to stop with maximum probability first on the minimum and then on the maximum of the sum. The optimal stopping strategies and the numerical results on decision-making thresholds are obtained.

Текст научной работы на тему «Максимизация вероятности успеха в задаче оптимальной двукратной остановки для урновой схемы»

Труды Карельского научного центра РАН № 5. 2012. С. 33-37

УДК 519.216.5

МАКСИМИЗАЦИЯ ВЕРОЯТНОСТИ УСПЕХА В ЗАДАЧЕ ОПТИМАЛЬНОЙ ДВУКРАТНОЙ ОСТАНОВКИ ДЛЯ УРНОВОЙ СХЕМЫ

А. А. Ивашко

Институт прикладных математических исследовании Карельского научного центра РАН

Рассматривается задача оптимальной двукратной остановки в урновой схеме. Урна содержит положительные и отрицательные шары. В каждый момент времени из урны вынимаются шары без возвращения. Значение —1 соответствует отрицательному шару, а значение +1 — положительному. Ведется наблюдение за суммой поступающих случайных величин. В работе рассматривается задача оптимальной остановки, в которой необходимо с максимальной вероятностью остановиться сначала на наименьшем значении суммы, а затем — на наибольшем. Найдены оптимальные стратегии, а также проведено численное моделирование для нахождения значений порогов принятия решений.

Ключевые слова: оптимальная остановка, выборка из урны, задача о баллотировке.

A. A. Ivashko. MAXIMIZATION OF SUCCESS PROBABILITY IN THE OPTIMAL DOUBLE STOPPING PROBLEM FOR AN URN SCHEME

The optimal double-stopping problem for the urn scheme is considered. An urn contains minus balls and plus balls. One draws balls from the urn sequentially one at a time without replacement. The value —1 is attached to minus ball and value +1 to plus ball. One observes the sum of input random variables. The goal is to stop with maximum probability first on the minimum and then on the maximum of the sum. The optimal stopping strategies and the numerical results on decision-making thresholds are obtained.

Key words: optimal stopping, urn sampling, ballot problem.

Введение

В работе рассматривается следующая задача оптимальной двукратной остановки. Пусть в урне имеется то отрицательных и ро положительных шаров. Значение —1 соответствует отрицательному шару, а значение +1 — положительному. Из урны вынимаются шары последовательно по одному в каждый момент

времени без возвращения. Обозначим последо-

П

вательность ^0 = 0, Zn = ^ Хк, 1 ^ п ^

к= 1

т0 + р0, где Хк — значение шара, выбранного в момент времени к. Данная последовательность формирует некоторую траекторию (см., например, рис. 1). В каждый момент времени при выборе шара необходимо решить: остановиться или продолжить процесс

выбора. В работе рассматривается задача оптимальной остановки, в которой необходимо с максимальной вероятностью остановиться сначала на наименьшем значении траектории, а затем — на наибольшем. Такие модели могут быть использованы, например, при принятии решений о покупке-продаже финансового актива в случае, если вероятность успешного выбора на каждом шаге меняется.

Рис. 1. Пример траектории Zn для p0 = 8, т0 = 7

В задаче двукратной остановки необходимо найти правило принятия решения, т. е. оптимальные моменты остановки (а*,г*) такие, что

P[Za* = min Zn, ZT* = max Zi}

0^n^m0+p0 0^l^m0+p0

= sup P[Za = min Zl, ZT = max Zn},

(a,T)eC,a<T O^l^mo+po 0^n^m0+p0

где C — класс всех моментов двукратной остановки.

Модели с одной остановкой в урновой схеме были рассмотрены в различных вариантах в зависимости от целей игрока. В работе Л. Шеппа [6] была исследована задача, в которой необходимо максимизировать значение траектории. М. Тамаки [8] получил решение в задаче максимизации вероятности остановки на наибольшем значении траектории. В. Ма-залов, М. Тамаки [5] рассмотрели вариант задачи о продолжительности нахождения случайного блуждания в наилучшем состоянии. Модели двукратной остановки последовательностей одинаково распределенных случайных величин можно найти в работах М. Л. Николаева [2], Г. Софронова и др. [7], В. В. Маза-лова, А. А. Фалько (Ивашко) [1], А. А. Фалько (Ивашко) [3]. В настоящей работе рассмотрено обобщение задачи М. Тамаки [8] на случай двукратной остановки.

Предположим без потери общности, что р0 > т0. Пусть из урны уже вынули к шаров. Также известно, что в урне еще осталось т отрицательных шаров и p положительных, т. е. изначально было к + m + p = p0 + m0 шаров. Обозначим данное состояние (m,p).

Исходная задача двукратной остановки решается в два этапа. Сначала необходимо най-

ти правило остановки траектории на максимальном значении при условии, что известно значение минимума. А затем требуется найти значение оптимального момента остановки на минимальном значении. В следующем разделе приводится решение первого этапа задачи.

Принятие решения при выборе максимума

Пусть наблюдатель уже остановился на минимальном значении —х в состоянии (т\,р1), р1 ^ т1, х = р1 — т1 — (ро — то). Для нахождения максимального значения необходимо также знать значение локального максимума траектории, обозначим его у' = р0—т0+тах{т/— р', 0} в состоянии (т',р'), т' ^ р' (рис. 2).

Рис. 2. Zn для ро = 8, т0 = 7 Введем обозначения:

v(m,p, mi,pi) — вероятность того, что в состоянии (т,р) выбрано наибольшее значение траектории, если наименьшее значение было выбрано в состоянии (mi,pi) (вероятность успеха в состоянии (т, p)),

s(m,p,mi,pi) — вероятность успеха при остановке процесса выбора,

c(m,p,mi ,pi) — вероятность успеха при продолжении процесса выбора в состоянии (m,p).

Из теории оптимальной остановки следует

v(m,p, mi,pi)=max{s(m,p, mi,pi), c(m,p, mi,pi)},

где m — p ^ max{m' — p, 0}.

При вычислении вероятности успеха при продолжении используется правило «one-stage look-ahead stopping policy», согласно которому наблюдатель продолжает процесс выбора до следующего локального максимума и затем останавливается.

Для вычисления вероятности успеха применяется следующая лемма [4].

Лемма 1 [Феллер] Пусть Nn,x — число траекторий из начала координат в точку (n, x). Пусть а > 0, b > 0 и —b<c<a. Число траекторий, ведущих в точку (n, с) и не имеющих

общих точек с прямыми х = —Ь и х = а равно где у + х + 2 = т — р + р1 — т1 + 2 = г.

Вероятность успеха при продолжении (рис. 4) равна

keZ

Заметим, что п = р + т,х = р — т, р + т

с(т,р, т1,р1) = д1(т,р)в(т,р — 1, т1,р1)+ р

+ Е Я2% (т,р,т1,р1)в(т — г,р—г,т1,р{),

г=1

^п,х ----

р

п

(п + х)/2

где д1(т,р) =

р

т+р'

Рис. 3. Принятие решения об остановке в состоянии (т,р)

Из леммы 1 следует, что вероятность успеха при остановке равна

в(т,р, т1,р1) = Р({— х — у — 1 < Zj < 1}1+т), ='

Ч2г(т,р, т1,р{) = Р{тт{п: Zn = 0, Zj ^ — х—у, 1 ^] < п ^ т + р } = 2г| выбрано г отр. и

(т) ' (Р)

г пол. шаров за 2гшагов}- (т+р) =

I 2г )

-2 ) _ ( 2г—2 )

\г- 1+к(у+х+1)) \г-1+к(у+х+1)+1) (т\ /р\

\г) Ч г)__

г1

т — р ^ тах{т' — р', 0}, где у = т — р + р0 — т0 — текущее значение максимума (рис. 3). При вычислении вероятности успеха воспользуемся леммой 1 а = 1, Ь = у + х + 1 = т — р + р1 — т1 + 1, с = р — т.

(т+р\

( 2г )

2к(у+х+1)+1 гтр-И)

2 2 , ■ ■ - ч т-г

к^\г+к(у+х + 1У г — 1 — к(у+х+1) (т+р)

в(т,р,т1,р1) =

Е

keZ

(т+р\ _ / т+р \ \р+кт) \т+кт+1)

(Т(

/т+р\ _/ т+р \

\р+кт) \р-1-кт/

Е

keZ

(Т)

■У, /т +р\ т—р—2кг+1

\р+кг) т — кг+1

(Т)

При выводе формулы использовалась лемма 1 (Ь = у + х, а = 1, с = 0) и тождество

^пЧ _ ( п \ _ / п \ 2а-п+1

\а) \а+и \а+и п-а '

Процесс выбора останавливается, если з(т,р,т1,р1) ^ с(т,р,т1,р1), т — р ^

тах{т' — р', 0}.

Принятие решения при выборе минимума

Теперь перейдем ко второму этапу задачи.

Пусть локальный максимум траектории был достигнут в состоянии (т', р') и равен у' = р0 — т0 + тах{т' — р', 0}. В состоянии (т,р) наблюдается значение -х, х = р0 - т0 + р - т (рис. 5).

35

Рис. 5. Принятие решения при выборе минимума в состоянии (т,р)

Обозначим:

I = х + у' = р — т + тах{т' — р', 0};

и(т,р,т',р') — вероятность того, что минимальное значение выбрано в состоянии (т, р) , а затем будет выбрано максимальное значение позже (вероятность успеха в состоянии (т, р));

в1(т,р,т',р') — вероятность успеха при остановке процесса выбора;

с1(т,р,т',р') — вероятность успеха при продолжении процесса выбора в состоянии (т, р).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Так же как и ранее

u(m,p, m',pt) = max{si(m,p, m',p'),ci(m,p, m', P)}, где p ^ m.

Вероятность успеха при остановке (рис. 6) равна

min{m,p-l}

si(m,p,m',p') = p2i+i(m,p,m' ,p')-

i=0

■v(m — i,p — (i + l),m,p),

Рис. 6. Вероятность того, что траектория поднимется до уровня у' за 2г + I шагов и при этом не опустится ниже — х

p2i+i(m,p,m',p') = P{min{n: Zn = l,Zj ^ 0, 1 ^ j < n ^ m + p } = 2i + l| выбрано i отр. и

(m) ( p )

i+1 пол. шаров за 2i+1 шагов} +

f 2i+l-i \ ^ \i+k(l+i)) keZ У 1

f 2i+l-i \

\i+l—i+k(l+i)+l)

______i + lJ

(m+p)

V 2i+l J

m

2i+l

m+p

2i+l

Вероятность успеха при продолжении вычисляется по формуле:

с-\_(т,р, т',р') = р1(т,р)з1(т — 1,р, т',р') +

т

Е р2г(т,р, у')в1(т — г,р — г, т',р')+

г=1

тт

+ Е Е р2г(т,р,у' + ^>1(т — г,р — г,т',р' — 3), г=1 j=1

Рис. 7. Вероятность того, что траектория вернется на уровень -х через 2г шагов

pi(m,p) =

m+ p

р2г(т,р, у'+3) — вероятность того, что траектория достигнет уровня -х через 2г шагов и при этом не поднимется выше уровня у' (рис. 7),

р2г(т,р, у'+3) — вероятность того, что траектория достигнет уровня -х через 2г шагов и до этого момента достигнет уровня у' + 3.

р2г(т,р,у' + 3)= Р{тт{п : Zn = 0,

Zk ^ х + у' + 3,1 ^ к < п ^ т + р } =2г| выбрано г отр. и г пол. шаров за 2г шагов} — —Р{тт{п: Zn = 0, Zk ^ х + у' + 3 — 1,

1 ^ к < п ^ т + р } = 2г| выбрано г отр. и

С Ш

i пол. шаров за 2i шагов}

("2+”)

Процесс выбора останавливается, если з1(т,р, т',р') ^ с1(т,р, т',р'), р ^ т.

На рис. 8 показаны оптимальные пороги для принятия решения об остановке при выборе минимального и максимального значений для случая т0 = р0 = 10. Различными линиями показаны пороги для ситуаций, в которых может находиться игрок. На данном

m

примере видно, что с ростом значений у' пороги остановки на минимальном значении приближаются к оптимальным порогам для случая р = т, а с уменьшением выбранного минимального значения пороги для наибольшего значения становятся ниже.

Рис. 8. Оптимальные пороги для принятия решения об остановке, то = ро = 10

Заключение

В статье рассмотрена задача оптимальной двукратной остановки в урновой схеме. Получено аналитическое решение, позволяющее вычислить значения выигрышей и оптимальных порогов принятия решений. Представлены результаты численного моделирования.

СВЕДЕНИЯ ОБ АВТОРЕ:

Ивашко Анна Антоновна

научный сотрудник, к. ф.-м. н.

Институт прикладных математических исследований Карельского научного центра РАН ул. Пушкинская, 11, Петрозаводск, Республика Карелия, Россия, 185910 эл. почта: [email protected] тел.: (8142) 766312

Автор выражает благодарность проф.

В. В. Мазалову за помощь в постановке задачи и обсуждении полученных результатов.

Работа поддержана грантом РФФИ, проект 10-01-00089а и Отделением математических наук.

ЛИТЕРАТУРА

1. Мазалов В. В., Фалько (Ивашко) А. А. Задача наилучшего выбора и ее применение в рекламных кампаниях поисковой системы Яндекс // Интернет-Математика 2007. Яндекс, 2007. C. 126-134.

2. Николаев М. Л. Об оптимальной многократной остановке марковских последовательностей // Теория вероятностей и ее применения. 1998. Т. 43, вып. 2. С. 374-382.

3. Фалько (Ивашко) А. А. Задача наилучшего выбора двух объектов // Методы математич. моделирования и информационные технологии. Труды ИПМИ Карельский НЦ РАН. Вып. 8. Петрозаводск: Карельский НЦ РАН, 2007. C. 3442.

4. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1. М: Мир, 1984. 738 с.

5. Mazalov V. V., Tamaki M. Duration problem on trajectories // Stochastics: An International Journal of Probability and Stochastic Processes. 2007. Vol. 79(3-4). P. 211-218.

6. Shepp L. A. Explicit solutions to some problems of optimal stopping // Annals of Mathematical Statistics. 1969. N 40. P. 993-1010.

7. Sofronov G, Keith J., Kroe_.se D. An optimal sequential procedure for a buying-selling problem with independent observations // J. Appl. Prob. 2006. Vol. 43. P. 454-462.

8. Tamaki M. Optimal stopping on trajectories and the ballot problem // Journal of Applied Probability. 2001. N 38. P. 946-959.

Ivashko, Anna

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11 Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: [email protected] tel.: (8142) 766312

i Надоели баннеры? Вы всегда можете отключить рекламу.