Труды Карельского научного центра РАН №4. 2014. С. 62-66
УДК 519.216.5
ЗАДАЧА МАКСИМИЗАЦИИ ПРИБЫЛИ В УРНОВОЙ СХЕМЕ
А. А. Ивашко
Институт прикладных математических исследований Карельского научного центра РАН
Рассмотрена задача оптимальной двукратной остановки, в которой необходимо максимизировать значение полученной прибыли при покупке, а затем продаже финансового актива. Найдены оптимальные стратегии и выигрыши в данной задаче.
Ключевые слова: оптимальная остановка, выборка из урны, задача о баллотировке.
A. A. Ivashko. GAIN MAXIMIZATION PROBLEM IN THE URN SCHEME
The optimal double-stopping problem of gain maximization when buying and selling financial assets is considered. The optimal stopping strategies and payoffs are obtained.
Key words: optimal stopping, urn sampling, ballot problem.
Введение
В работе рассматривается следующая многошаговая модель покупки-продажи финансового актива в дискретном времени. Ведется наблюдение за изменением цен на финансовый актив в течение заданного промежутка времени. Цель наблюдателя — сначала купить, а потом продать актив, при этом максимизировав свою прибыль — разность между ценой продажи и покупки. В каждый момент времени необходимо решить: остановиться на текущем уровне цены или продолжить процесс выбора. Предполагается, что значения цен распределены согласно урновой схеме.
Данная ситуация моделируется с помощью следующей задачи оптимальной двукратной остановки в урновой схеме. Пусть в урне имеется то отрицательных и ро положительных шаров. Из урны вынимаются шары последовательно по одному в каждый момент времени
без возвращения. Значение —1 соответствует отрицательному шару, а значение +1 — положительному. Обозначим последовательность
П
г0 = о, гп = ^2хк, 1^п^т0+р0, к=1
где Хь — значение шара, выбранного в момент к. Данная последовательность формирует некоторую траекторию (см., например, рис. 1). В каждый момент времени при выборе шара необходимо принять решение об остановке или продолжении наблюдения. В задаче необходимо максимизировать среднее значение разности между максимальным и минимальным выбранным значением. Будем называть первую остановку покупкой финансового актива, а вторую — продажей.
®
тельного шара с вероятностью т^_р и вниз при выборе отрицательного шара с вероятностью
т
Рис. 1. Пример траектории Zn для ро = 8, то = 7
Модели с одной остановкой в урновой схеме были рассмотрены в различных вариантах в зависимости от целей игрока. В работе Л. Шеппа [6] была исследована задача, в которой необходимо максимизировать значение полученного выигрыша от одной остановки. М. Тамаки [8] получил решение в задаче максимизации вероятности остановки на наибольшем значении траектории. В работе
А. А. Ивашко [1] было рассмотрено обобщение задачи М. Тамаки на случай двукратной остановки. В. В. Мазалов, М. Тамаки [5] рассмотрели вариант задачи о продолжительности нахождения случайного блуждания в наилучшем состоянии. Модели двукратной остановки последовательностей одинаково распределенных случайных величин можно найти в работах М. Л. Николаева [3], Г. Софронова и др. [7], В. В. Мазалова, А. А. Фалько [2, 4].
В данной работе рассмотрено обобщение задачи Л. Шеппа [6] на случай двукратной остановки. Найдено оптимальное поведение наблюдателя в классе пороговых стратегий, а также получены значения его выигрыша.
Решение задачи с одной остановкой
Предположим ДЛЯ определенности Ро = то. Пусть из урны уже вынули п шаров и известны значения {^}™=1. Также известно, что в урне все еще осталось т отрицательных шаров и р положительных, т. е. изначально было п + т + р = ро + то шаров. Обозначим данное состояние (т,р).
Исходная задача двукратной остановки решается методом динамического программирования в два этапа. Сначала необходимо найти правило остановки траектории для продажи финансового актива при условии, что покупка уже сделана. А затем найти оптимальное значение момента остановки для покупки.
Сначала рассмотрим задачу с одной остановкой, в которой необходимо продать финансовый актив по наибольшей цене. Обозначим У(т,р) — выигрыш в состоянии (т,р). Так как при нахождении в состоянии (т,р) траектория может пойти вверх при выборе положи-
т+р, то выигрыш V(m,p) равен
Р
V(m,p) = max^ т — р,-------------V(m,p — 1)+
1 т + р
+
т
-У(т
~ !.Р)
т + р
Выигрыш при продолжении наблюдения равен
О ТП
У(т,р) = -—У(т,р- 1)Н--------—У(т- 1 ,р),
т+р т+р
У(0,р) = 0.
(1)
Рассмотрим выигрыш при продолжении в следующем виде
V(m,p) =
Qn(m) p + n ’
(2)
где ап(т) — некоторые числовые коэффициенты.
Теорема 1. Выигрыш при продолжении У(т,р) имеет вид
т п ^ ^“1(0^ ш~{ /о\
У{т,р) = X, -г- 11.0 (3)
1=1 I i=o ты "Ь Р ®
где числовые коэффициенты а\(I) вычисляются рекурсивно.
Доказательство. Подставляя значение
тп ч ^ ап(т)
У{т,р) = > --------- в уравнение (1), полу-
П=1 Р + п
чим
П=1 Р + п т + р П=1 р + п — 1
т Оп(т — 1) ' '
р + т п= 1 р + п '
Сгруппируем слагаемые с одинаковым знаменателем и рассмотрим отдельно выражения следующего вида:
рап(т) + man-i(m — 1)
, п = 2,..., т.
(р + т)(р + п — 1)
Представим данное выражение в виде суммы двух дробей:
рап(т) + man-i(m - 1) _ Ап
+
(р + т) {р + п — 1) р + т р + п — 1 ’
п = 2,..., 771,
и найдем коэффициенты Ап и Вп методом неопределенных коэффициентов.
Решая систему уравнений
{
Ап Вп — ап(т),
(п — 1 )Ап + тВп = тап-1(т — 1),
получим, что
Ап — ап(т) Вп,
тап-\{т — 1) — (п — 1 )ап(т)
Вп =
т — п + 1
Далее, приравнивая выражения с одинаковыми знаменателями в левой и правой частях (4), находим, что
• Предполагаются известными все
= 1,2,...,т — 1, и оптимальное значение Рт-1 = шах{р : V(т — 1 ,р) = 77г—1 — р} для заданного 771— 1 (начальные значения 01(1) = 1, р\ = 0);
• Находим <11(771) из уравнения V (т,р^п_1) = т~Рт-1>
• Если У(771,р^_! + 1) > т- 04_1 + 1), то Рт = Р*т-Ъ
• Если У(77+ 1) ^ 771- (р^_1 + 1), то Рт = Рт-1 + 1 и «1(^71) — решение уравнения У(гг+ 1) = 771 - (р^_! + 1).
о,п—\(тп) — Вп — 77 = 2, ..., 771.
тап-\{т — 1) — (гг — 1)ап(77г)
771 — 77+1
Отсюда выразим ап(т)
тап-1(т — 1) — (т — п+ 1)ап-1(т)
77 — 1
ап(т) =
77 = 2, ..., 771.
(5)
Отдельно рассмотрим числители дробей со знаменателем р +т. Получим
агп(т) = а1(т)+'^2 (ап(га) - ап_1(77г)) = аш(77г).
п=2
Используя рекурсию (5), находим формулу для вычисления коэффициентов ап(т), п =
ап(т) = ”£? а,(т - (":Э (V) X
к=0
777(777—1) 71^,1 . ,
х7------IV--------м = ^ ^(т - к)(-1)п+к+ х
(77- 1) (777 -к) к=0
777!
(777 — 77)!/с!(77 — к — 1)1(777 — /с)
Преобразовывая это выражение и подставляя его в формулу (2), получим (3).
□
Для того чтобы найти точное выражение выигрыша, необходимо последовательно определить I = 1, 2, ...,777, используя следую-
щий алгоритм (см. рис. 2):
Рис. 2. Границы принятия решения для
т0=р0 = Ю
В таблице 1 представлены значения коэффициентов 01(777)/777 для различных т = 1,—,10.
Таблица 1. Значения а\(т) /т для различных знаг чений т
777 1 2 3 4 5 6 7 8 9 10
<11 (т) т 1 1 3 5 7 23 49 52 76 99
Выигрыши при продолжении имеют следующий вид для 777 = 1,2,3,4:
У(1 ,р) = 1
р+ 1’ 2
р+ 1’ 9
У(2,р) =
У(з,р) = ,
р+ 1 р+2 р + 3
т,,, 20 24 0
У{^р) = —гг-----------— +
12 6
+
р+1 р+2 р+3 р+4
Задача двукратной остановки
Рассмотрим задачу двукратной остановки, в которой необходимо максимизировать среднее значение разности между максимальным и минимальным выбранными значениями цены финансового актива.
Так же, как и ранее, для простоты положим ро = то. Пусть траектория находится в состоянии (т,р).
Обозначим У(тъР1) (т, р) - выигрыш при продаже в состоянии (т,р), если покупка была сделана в состоянии (т\,р\), U(m,p) - выигрыш при покупке в состоянии (т,р).
Выигрыш в задаче оптимальной однократной остановки вычисляется по формуле
V(m,p) = maxjm-p, 1)4-
Выигрыш при продаже в состоянии (т,р), если покупка была сделана в состоянии (rrii,pi), имеет вид
У{тг,рг){т^р) = maxjm-p- (mi - pi),
т+р^(mi ,P^(miP— ■0 + ^zp^(mi,pi)(m— =
= max{m - p, ^у{т,р - 1) +
+ ^P)} - (mi-Pi)-
Из вида выигрыша получаем, что пороги принятия решения об остановке при продаже актива в задаче двукратной остановки совпадают с порогами в задаче с однократной остановкой.
Выигрыш при покупке в состоянии (т,р) вычисляется по формуле
U (т, р) =
= m^^V(rn,p)(rn,p-l) + ^V{m!p)(m-l,p),
J^U{m,p - 1) + ^U{m - 1,р) J = = maxjy(m,p) - (т - p),7^U(m,p - 1) +
Обозначим т*, т| — оптимальные моменты остановки для покупки и продажи соответ-
ственно. Тогда
т* =min{/c : 1 ^ к ^ ро+тпо — 1, Zk^V(m,p)-^U(m,p-l)-^U(m-l,p)y,
т| = min{n : т]* ^ п ^ ро + то,
Zn ^ ^V(m,p-l) + ^v{m-l,p)}}.
Найдем выражения для вычисления выигрыша U(m,p) при продолжении наблюдения аналогичным образом, как и в предыдущем разделе. Выигрыш при продолжении равен
Т) тп,
U (m, р) = —-U(m,p- 1)Н----—U(m-l,p).
т+р т+р
Справедлива следующая теорема:
Теорема 2. Выигрыш при продолжении U(m,p) имеет вид
ТТ ( ^ Р-*
U{m,p) = £ —— П —т---------:»
1=1 I i=o m + p-i
где числовые коэффициенты Ъ\(I) вычисляются рекурсивно.
Доказательство теоремы проводится аналогично теореме 1.
Для нахождения I = 1,2,...,р используем следующий алгоритм (начальные значения &i(l) = 1, т\ = 1):
• Знаем I = 1,2,...,р— 1, т*_1 =
= max{m : U(m,p — 1) = V(m,p — 1) —
- (т-р+ 1)};
• Находим Ъ\(т) из уравнения U(m*_1,p) =
= у{т*Р-пР) ~ {т1-1~Р)\
• Если U(m*_ 1 + 1 ,р) > V(m*_: + 1 ,р) —
- (m*_! + 1 - р), то т* = т*_1,
• Если + 1 ,р) ^ V(m*_! + 1 ,р) -
-{rrip^ + l-p), ТО т* = т'£_1 +1 и Ъ^р) -решение уравнения U (т*_ х + 1, р) =
= + 1 ,р) ~ {т*р_ 1 + 1 -р).
В таблице 2 представлены значения коэффициентов Ь\{р)/р для различных р = 1,..., 10.
Таблица 2. Значения bi(p)/p для различных знаг чений р
р 1 2 3 4 5 6 7 8 9 10
blip) р 1 2 3 6 13 32 44 88 179 322
На рисунке 3 представлены границы принятия решений при покупке (нижняя) и продаже (верхняя) финансового актива для то =
ро = 100. Оптимальная стратегия наблюдателя — принять решение о покупке актива, как только траектория достигнет нижней границы, а затем принять решение о продаже актива, как только траектория достигнет верхней границы.
ю
-5
10
50
100
150
Рис. 3. Границы принятия решения для
то = ро = 100
Как видно на рисунке, граница принятия решения о покупке актива ближе к оси абсцисс, чем граница принятия решения о его продаже. Это связано с тем, что наблюдателю необходимо сделать двойной выбор, поэтому после того, как он уже купил акцию, его шансы получить больший выигрыш растут.
Заключение
В статье рассмотрена задача оптимальной двукратной остановки, в которой необходимо максимизировать значение полученной прибыли при покупке, а затем продаже финансового актива. Получено оптимальное поведение наблюдателя в классе пороговых стратегий. Представлены результаты численного моделирования.
Автор выражает благодарность проф.
В. В. Мазалову за помощь в постановке задачи и обсуждении полученных результатов.
Работа поддержана грантами РФФИ, проект 10-01-00089а, проект 13-01-91158-ГФЕНа, а также Отделением математических наук и Программой стратегического развития ПетрГУ.
Литература
1. Ивашко А. А. Максимизация вероятности успеха в задаче оптимальной двукратной остановки для урновой схемы // Труды КарНЦ РАН. Сер. Математическое моделирование и информационные технологии, вып. 3. Петрозаводск: КарНЦ РАН, 2012. № 5. С. 33-37.
2. Мазалов В. В., Фалько А. А. Задача наилучшего выбора и ее применение в рекламных кампаниях поисковой системы Яндекс // Интернет-Математика 2007. Яндекс, 2007. С. 126-134.
3. Николаев М. Л. Об оптимальной многократной остановке марковских последовательностей // Теория вероятностей и ее применения. 1998. Т. 43, вып. 2. С. 374-382.
4. Фалько А. А. Задача наилучшего выбора двух объектов // Методы математич. моделирования и информационные технологии. Труды ИПМИ Карельского НЦ РАН. Вып. 8. Петрозаводск: КарНЦ РАН, 2007. С. 34-42.
5. Mazalov V. V., Tamaki М. Duration problem on trajectories // Stochastics: An International Journal of Probability and Stochastic Processes. 2007. Vol. 79(3-4). P. 211-218.
6. Shepp L. A. Explicit solutions to some problems of optimal stopping // Annals of Mathematical Statistics. 1969. N 40. P. 993-1010.
7. Sofronov G., Keith J., Kroese D. An optimal sequential procedure for a buying-selling problem with independent observations // J. Appl. Prob. 2006. Vol. 43. P. 454-462.
8. Tamaki M. Optimal stopping on trajectories and the ballot problem // Journal of Applied Probability. 2001. N 38. P. 946-959.
СВЕДЕНИЯ ОБ АВТОРЕ:
Ивашко Анна Антоновна
научный сотрудник, к. ф.-м. н.
Институт прикладных математических исследований Карельского научного центра РАН ул. Пушкинская, 11, Петрозаводск,
Республика Карелия, Россия, 185910 эл. почта: [email protected] тел.: (8142) 766312
Ivashko, Anna
Institute of Applied Mathematical Research,
Karelian Research Centre, Russian Academy of Sciences 11 Pushkinskaya St., 185910 Petrozavodsk,
Karelia, Russia
e-mail: [email protected] tel.: (8142) 766312