Научная статья на тему 'Задача максимизации прибыли в урновой схеме'

Задача максимизации прибыли в урновой схеме Текст научной статьи по специальности «Математика»

CC BY
283
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИМАЛЬНАЯ ОСТАНОВКА / ВЫБОРКА ИЗ УРНЫ / ЗАДАЧА О БАЛЛОТИРОВКЕ / OPTIMAL STOPPING / URN SAMPLING / BALLOT PROBLEM

Аннотация научной статьи по математике, автор научной работы — Ивашко Анна Антоновна

Рассмотрена задача оптимальной двукратной остановки, в которой необходимо максимизировать значение полученной прибыли при покупке, а затем продаже финансового актива. Найдены оптимальные стратегии и выигрыши в данной задаче.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GAIN MAXIMIZATION PROBLEM IN THE URN SCHEME

The optimal double-stopping problem of gain maximization when buying and selling financial assets is considered. The optimal stopping strategies and payoffs axe obtained.

Текст научной работы на тему «Задача максимизации прибыли в урновой схеме»

Труды Карельского научного центра РАН №4. 2014. С. 62-66

УДК 519.216.5

ЗАДАЧА МАКСИМИЗАЦИИ ПРИБЫЛИ В УРНОВОЙ СХЕМЕ

А. А. Ивашко

Институт прикладных математических исследований Карельского научного центра РАН

Рассмотрена задача оптимальной двукратной остановки, в которой необходимо максимизировать значение полученной прибыли при покупке, а затем продаже финансового актива. Найдены оптимальные стратегии и выигрыши в данной задаче.

Ключевые слова: оптимальная остановка, выборка из урны, задача о баллотировке.

A. A. Ivashko. GAIN MAXIMIZATION PROBLEM IN THE URN SCHEME

The optimal double-stopping problem of gain maximization when buying and selling financial assets is considered. The optimal stopping strategies and payoffs are obtained.

Key words: optimal stopping, urn sampling, ballot problem.

Введение

В работе рассматривается следующая многошаговая модель покупки-продажи финансового актива в дискретном времени. Ведется наблюдение за изменением цен на финансовый актив в течение заданного промежутка времени. Цель наблюдателя — сначала купить, а потом продать актив, при этом максимизировав свою прибыль — разность между ценой продажи и покупки. В каждый момент времени необходимо решить: остановиться на текущем уровне цены или продолжить процесс выбора. Предполагается, что значения цен распределены согласно урновой схеме.

Данная ситуация моделируется с помощью следующей задачи оптимальной двукратной остановки в урновой схеме. Пусть в урне имеется то отрицательных и ро положительных шаров. Из урны вынимаются шары последовательно по одному в каждый момент времени

без возвращения. Значение —1 соответствует отрицательному шару, а значение +1 — положительному. Обозначим последовательность

П

г0 = о, гп = ^2хк, 1^п^т0+р0, к=1

где Хь — значение шара, выбранного в момент к. Данная последовательность формирует некоторую траекторию (см., например, рис. 1). В каждый момент времени при выборе шара необходимо принять решение об остановке или продолжении наблюдения. В задаче необходимо максимизировать среднее значение разности между максимальным и минимальным выбранным значением. Будем называть первую остановку покупкой финансового актива, а вторую — продажей.

®

тельного шара с вероятностью т^_р и вниз при выборе отрицательного шара с вероятностью

т

Рис. 1. Пример траектории Zn для ро = 8, то = 7

Модели с одной остановкой в урновой схеме были рассмотрены в различных вариантах в зависимости от целей игрока. В работе Л. Шеппа [6] была исследована задача, в которой необходимо максимизировать значение полученного выигрыша от одной остановки. М. Тамаки [8] получил решение в задаче максимизации вероятности остановки на наибольшем значении траектории. В работе

А. А. Ивашко [1] было рассмотрено обобщение задачи М. Тамаки на случай двукратной остановки. В. В. Мазалов, М. Тамаки [5] рассмотрели вариант задачи о продолжительности нахождения случайного блуждания в наилучшем состоянии. Модели двукратной остановки последовательностей одинаково распределенных случайных величин можно найти в работах М. Л. Николаева [3], Г. Софронова и др. [7], В. В. Мазалова, А. А. Фалько [2, 4].

В данной работе рассмотрено обобщение задачи Л. Шеппа [6] на случай двукратной остановки. Найдено оптимальное поведение наблюдателя в классе пороговых стратегий, а также получены значения его выигрыша.

Решение задачи с одной остановкой

Предположим ДЛЯ определенности Ро = то. Пусть из урны уже вынули п шаров и известны значения {^}™=1. Также известно, что в урне все еще осталось т отрицательных шаров и р положительных, т. е. изначально было п + т + р = ро + то шаров. Обозначим данное состояние (т,р).

Исходная задача двукратной остановки решается методом динамического программирования в два этапа. Сначала необходимо найти правило остановки траектории для продажи финансового актива при условии, что покупка уже сделана. А затем найти оптимальное значение момента остановки для покупки.

Сначала рассмотрим задачу с одной остановкой, в которой необходимо продать финансовый актив по наибольшей цене. Обозначим У(т,р) — выигрыш в состоянии (т,р). Так как при нахождении в состоянии (т,р) траектория может пойти вверх при выборе положи-

т+р, то выигрыш V(m,p) равен

Р

V(m,p) = max^ т — р,-------------V(m,p — 1)+

1 т + р

+

т

-У(т

~ !.Р)

т + р

Выигрыш при продолжении наблюдения равен

О ТП

У(т,р) = -—У(т,р- 1)Н--------—У(т- 1 ,р),

т+р т+р

У(0,р) = 0.

(1)

Рассмотрим выигрыш при продолжении в следующем виде

V(m,p) =

Qn(m) p + n ’

(2)

где ап(т) — некоторые числовые коэффициенты.

Теорема 1. Выигрыш при продолжении У(т,р) имеет вид

т п ^ ^“1(0^ ш~{ /о\

У{т,р) = X, -г- 11.0 (3)

1=1 I i=o ты "Ь Р ®

где числовые коэффициенты а\(I) вычисляются рекурсивно.

Доказательство. Подставляя значение

тп ч ^ ап(т)

У{т,р) = > --------- в уравнение (1), полу-

П=1 Р + п

чим

П=1 Р + п т + р П=1 р + п — 1

т Оп(т — 1) ' '

р + т п= 1 р + п '

Сгруппируем слагаемые с одинаковым знаменателем и рассмотрим отдельно выражения следующего вида:

рап(т) + man-i(m — 1)

, п = 2,..., т.

(р + т)(р + п — 1)

Представим данное выражение в виде суммы двух дробей:

рап(т) + man-i(m - 1) _ Ап

+

(р + т) {р + п — 1) р + т р + п — 1 ’

п = 2,..., 771,

и найдем коэффициенты Ап и Вп методом неопределенных коэффициентов.

Решая систему уравнений

{

Ап Вп — ап(т),

(п — 1 )Ап + тВп = тап-1(т — 1),

получим, что

Ап — ап(т) Вп,

тап-\{т — 1) — (п — 1 )ап(т)

Вп =

т — п + 1

Далее, приравнивая выражения с одинаковыми знаменателями в левой и правой частях (4), находим, что

• Предполагаются известными все

= 1,2,...,т — 1, и оптимальное значение Рт-1 = шах{р : V(т — 1 ,р) = 77г—1 — р} для заданного 771— 1 (начальные значения 01(1) = 1, р\ = 0);

• Находим <11(771) из уравнения V (т,р^п_1) = т~Рт-1>

• Если У(771,р^_! + 1) > т- 04_1 + 1), то Рт = Р*т-Ъ

• Если У(77+ 1) ^ 771- (р^_1 + 1), то Рт = Рт-1 + 1 и «1(^71) — решение уравнения У(гг+ 1) = 771 - (р^_! + 1).

о,п—\(тп) — Вп — 77 = 2, ..., 771.

тап-\{т — 1) — (гг — 1)ап(77г)

771 — 77+1

Отсюда выразим ап(т)

тап-1(т — 1) — (т — п+ 1)ап-1(т)

77 — 1

ап(т) =

77 = 2, ..., 771.

(5)

Отдельно рассмотрим числители дробей со знаменателем р +т. Получим

агп(т) = а1(т)+'^2 (ап(га) - ап_1(77г)) = аш(77г).

п=2

Используя рекурсию (5), находим формулу для вычисления коэффициентов ап(т), п =

ап(т) = ”£? а,(т - (":Э (V) X

к=0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

777(777—1) 71^,1 . ,

х7------IV--------м = ^ ^(т - к)(-1)п+к+ х

(77- 1) (777 -к) к=0

777!

(777 — 77)!/с!(77 — к — 1)1(777 — /с)

Преобразовывая это выражение и подставляя его в формулу (2), получим (3).

Для того чтобы найти точное выражение выигрыша, необходимо последовательно определить I = 1, 2, ...,777, используя следую-

щий алгоритм (см. рис. 2):

Рис. 2. Границы принятия решения для

т0=р0 = Ю

В таблице 1 представлены значения коэффициентов 01(777)/777 для различных т = 1,—,10.

Таблица 1. Значения а\(т) /т для различных знаг чений т

777 1 2 3 4 5 6 7 8 9 10

<11 (т) т 1 1 3 5 7 23 49 52 76 99

Выигрыши при продолжении имеют следующий вид для 777 = 1,2,3,4:

У(1 ,р) = 1

р+ 1’ 2

р+ 1’ 9

У(2,р) =

У(з,р) = ,

р+ 1 р+2 р + 3

т,,, 20 24 0

У{^р) = —гг-----------— +

12 6

+

р+1 р+2 р+3 р+4

Задача двукратной остановки

Рассмотрим задачу двукратной остановки, в которой необходимо максимизировать среднее значение разности между максимальным и минимальным выбранными значениями цены финансового актива.

Так же, как и ранее, для простоты положим ро = то. Пусть траектория находится в состоянии (т,р).

Обозначим У(тъР1) (т, р) - выигрыш при продаже в состоянии (т,р), если покупка была сделана в состоянии (т\,р\), U(m,p) - выигрыш при покупке в состоянии (т,р).

Выигрыш в задаче оптимальной однократной остановки вычисляется по формуле

V(m,p) = maxjm-p, 1)4-

Выигрыш при продаже в состоянии (т,р), если покупка была сделана в состоянии (rrii,pi), имеет вид

У{тг,рг){т^р) = maxjm-p- (mi - pi),

т+р^(mi ,P^(miP— ■0 + ^zp^(mi,pi)(m— =

= max{m - p, ^у{т,р - 1) +

+ ^P)} - (mi-Pi)-

Из вида выигрыша получаем, что пороги принятия решения об остановке при продаже актива в задаче двукратной остановки совпадают с порогами в задаче с однократной остановкой.

Выигрыш при покупке в состоянии (т,р) вычисляется по формуле

U (т, р) =

= m^^V(rn,p)(rn,p-l) + ^V{m!p)(m-l,p),

J^U{m,p - 1) + ^U{m - 1,р) J = = maxjy(m,p) - (т - p),7^U(m,p - 1) +

Обозначим т*, т| — оптимальные моменты остановки для покупки и продажи соответ-

ственно. Тогда

т* =min{/c : 1 ^ к ^ ро+тпо — 1, Zk^V(m,p)-^U(m,p-l)-^U(m-l,p)y,

т| = min{n : т]* ^ п ^ ро + то,

Zn ^ ^V(m,p-l) + ^v{m-l,p)}}.

Найдем выражения для вычисления выигрыша U(m,p) при продолжении наблюдения аналогичным образом, как и в предыдущем разделе. Выигрыш при продолжении равен

Т) тп,

U (m, р) = —-U(m,p- 1)Н----—U(m-l,p).

т+р т+р

Справедлива следующая теорема:

Теорема 2. Выигрыш при продолжении U(m,p) имеет вид

ТТ ( ^ Р-*

U{m,p) = £ —— П —т---------:»

1=1 I i=o m + p-i

где числовые коэффициенты Ъ\(I) вычисляются рекурсивно.

Доказательство теоремы проводится аналогично теореме 1.

Для нахождения I = 1,2,...,р используем следующий алгоритм (начальные значения &i(l) = 1, т\ = 1):

• Знаем I = 1,2,...,р— 1, т*_1 =

= max{m : U(m,p — 1) = V(m,p — 1) —

- (т-р+ 1)};

• Находим Ъ\(т) из уравнения U(m*_1,p) =

= у{т*Р-пР) ~ {т1-1~Р)\

• Если U(m*_ 1 + 1 ,р) > V(m*_: + 1 ,р) —

- (m*_! + 1 - р), то т* = т*_1,

• Если + 1 ,р) ^ V(m*_! + 1 ,р) -

-{rrip^ + l-p), ТО т* = т'£_1 +1 и Ъ^р) -решение уравнения U (т*_ х + 1, р) =

= + 1 ,р) ~ {т*р_ 1 + 1 -р).

В таблице 2 представлены значения коэффициентов Ь\{р)/р для различных р = 1,..., 10.

Таблица 2. Значения bi(p)/p для различных знаг чений р

р 1 2 3 4 5 6 7 8 9 10

blip) р 1 2 3 6 13 32 44 88 179 322

На рисунке 3 представлены границы принятия решений при покупке (нижняя) и продаже (верхняя) финансового актива для то =

ро = 100. Оптимальная стратегия наблюдателя — принять решение о покупке актива, как только траектория достигнет нижней границы, а затем принять решение о продаже актива, как только траектория достигнет верхней границы.

ю

-5

10

50

100

150

Рис. 3. Границы принятия решения для

то = ро = 100

Как видно на рисунке, граница принятия решения о покупке актива ближе к оси абсцисс, чем граница принятия решения о его продаже. Это связано с тем, что наблюдателю необходимо сделать двойной выбор, поэтому после того, как он уже купил акцию, его шансы получить больший выигрыш растут.

Заключение

В статье рассмотрена задача оптимальной двукратной остановки, в которой необходимо максимизировать значение полученной прибыли при покупке, а затем продаже финансового актива. Получено оптимальное поведение наблюдателя в классе пороговых стратегий. Представлены результаты численного моделирования.

Автор выражает благодарность проф.

В. В. Мазалову за помощь в постановке задачи и обсуждении полученных результатов.

Работа поддержана грантами РФФИ, проект 10-01-00089а, проект 13-01-91158-ГФЕНа, а также Отделением математических наук и Программой стратегического развития ПетрГУ.

Литература

1. Ивашко А. А. Максимизация вероятности успеха в задаче оптимальной двукратной остановки для урновой схемы // Труды КарНЦ РАН. Сер. Математическое моделирование и информационные технологии, вып. 3. Петрозаводск: КарНЦ РАН, 2012. № 5. С. 33-37.

2. Мазалов В. В., Фалько А. А. Задача наилучшего выбора и ее применение в рекламных кампаниях поисковой системы Яндекс // Интернет-Математика 2007. Яндекс, 2007. С. 126-134.

3. Николаев М. Л. Об оптимальной многократной остановке марковских последовательностей // Теория вероятностей и ее применения. 1998. Т. 43, вып. 2. С. 374-382.

4. Фалько А. А. Задача наилучшего выбора двух объектов // Методы математич. моделирования и информационные технологии. Труды ИПМИ Карельского НЦ РАН. Вып. 8. Петрозаводск: КарНЦ РАН, 2007. С. 34-42.

5. Mazalov V. V., Tamaki М. Duration problem on trajectories // Stochastics: An International Journal of Probability and Stochastic Processes. 2007. Vol. 79(3-4). P. 211-218.

6. Shepp L. A. Explicit solutions to some problems of optimal stopping // Annals of Mathematical Statistics. 1969. N 40. P. 993-1010.

7. Sofronov G., Keith J., Kroese D. An optimal sequential procedure for a buying-selling problem with independent observations // J. Appl. Prob. 2006. Vol. 43. P. 454-462.

8. Tamaki M. Optimal stopping on trajectories and the ballot problem // Journal of Applied Probability. 2001. N 38. P. 946-959.

СВЕДЕНИЯ ОБ АВТОРЕ:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ивашко Анна Антоновна

научный сотрудник, к. ф.-м. н.

Институт прикладных математических исследований Карельского научного центра РАН ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910 эл. почта: [email protected] тел.: (8142) 766312

Ivashko, Anna

Institute of Applied Mathematical Research,

Karelian Research Centre, Russian Academy of Sciences 11 Pushkinskaya St., 185910 Petrozavodsk,

Karelia, Russia

e-mail: [email protected] tel.: (8142) 766312

i Надоели баннеры? Вы всегда можете отключить рекламу.