Научная статья на тему 'Асимптотические свойства оптимального момента остановки в задаче с ненулевой платой за наблюдения'

Асимптотические свойства оптимального момента остановки в задаче с ненулевой платой за наблюдения Текст научной статьи по специальности «Математика»

CC BY
79
24
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Мазалов В. В., Пешков Н. В.

Показано, что оптимальный момент остановки N независимых одинаково распределенных случай­ных величин в задаче с полной информацией и платой с за наблюдения имеет следующие асимптоти­ческие свойства: Er N к, « Библиогр. 6 назв. Табл 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Asymptotic properties of optimal stopping time in the problem with non-zero pay for observation

It is show that the optimal stopping time of N independent identically distributed random variables in the problem with complete information and pay с for observation has the following asymptotic properties: Et n и Dt n ~

Текст научной работы на тему «Асимптотические свойства оптимального момента остановки в задаче с ненулевой платой за наблюдения»

УДК 539.3 Вестник СПбГУ. Сер. 10, 2005, вып. 2

В. В. Мазалов, Н. В. Пешков

АСИМПТОТИЧЕСКИЕ СВОЙСТВА ОПТИМАЛЬНОГО МОМЕНТА ОСТАНОВКИ В ЗАДАЧЕ С НЕНУЛЕВОЙ ПЛАТОЙ ЗА НАБЛЮДЕНИЯ

1. Введение. Рассмотрим задачу оптимальной остановки последовательности независимых одинаково распределенных случайных величин Х\,Х2, с платой с за наблюдения, в которой необходимо определить момент остановки т, максимизирующий среднее значение выигрыша Е[ХТ — ст]. При этом без ограничения общности можно предположить, что Х{ равномерно распределены на отрезке [0,1], а плата с < 0,5. Если с ^ 0,5, решение тривиально и вообще не следует вступать в игру. Для определения оптимальной стратегии [1-4] используется уравнение оптимальности

ум = 0,

Уг = ^|тах{^+1, Хг+\} | - с, г = 1,

которое можно представить в виде

= 0, ^ = г = 7\Г-1,...,1. (1)

При этом оптимальный момент остановки

1, если Х\ ^ г>1, тм = если Х\ < < ^ г;*,

АГ, если Х\ < г>1, < ^лг-ь

определяется набором из N — 1 порогов (^х, ...,1^-1).

Последовательность (1) часто возникает в задачах оптимальной остановки и называется последовательностью Мозера [1, 5]. Цель данной работы - найти асимптотику Етн и Вт\у при N оо. В работе [6] эта задача была решена для случая нулевой платы за наблюдения.

2. Асимптотические свойства оптимального момента остановки. Отметим вначале некоторые свойства последовательности (1).

Лемма 1. Функция г;(г) = г;/ монотонно убывает и выпукла вверх в интервале

Доказательство. Монотонность легко устанавливается с помощью определения (1) индукцией с конца, а выпуклость следует из эквивалентности неравенств

ь({-1) + ь{% + 1) ^ ^ ^ ^. _ _ ^ ^ ^ _ ^. + ^

А

(1 — г>(»))2 _ (1-^(г + 1))2

--2---2--С'

Последнее же неравенство справедливо в силу монотонности г;(г).

© В. В. Мазалов, Н. В. Пешков, 2005

Последовательность порогов У{ = У{(1\/"), г = 1,...,ЛГ, зависит от горизонта N. Нетрудно видеть, что для фиксированного г она возрастает. Покажем, что для любого фиксированного г эта последовательность стремится к у = 1 - \/2с. ' Лемма 2. Для любого { Vi(N) -у V = 1-л/2с при N —У оо.

Доказательство. Вначале зафиксируем N. Непрерывный аналог уравнения

XV = — -

с начальным тсл

= 0.

(3)

Общее решение этого уравнения

к = 1 + \РГс -

Из условия (3) натпигм

да(,-) = Ш, = 1-

2 у/2с

I _ ел/2с«+С0 ' 2>/2с

(1 + у/Еря*"-** - (1 - у/Тс).

(4)

Покажем, что для порога и,, 1 = ЛГ,..., 1, можно использовать в качестве нижней и верхней оценок выражения ш, и г = 1 — у/2с соответственно, т. е.

$ г» ^ 1 - л/2с, г = АГ,..., 1.

Правая часть неравенства ¿5) легко проверяется индукцией по г. Теперь обратимся к левому неравенству. Обозначим

(5)

Тогда уравнение {1}

переписать в виде

- »(I + 1) = /(»(» + 1)),

а уравнение (2) как

= /МО), ю(Л0=О. (7)

Так как /(ги) убывающая, неотрицательная функция и ио" = -^¡¡п)1 = ^ О,

то решение уравневия (7) - убывающая выпуклая вверх функция. Из выпуклости и монотонности ) вытекает

ШГ(. - »(« + 1) ^ /(ги(г + 1)), г = 1,АГ - 1. Из неравенств б , 5 по индукции получаем, что

г^'(г) ^ г;(г), г = 1,ЛГ.

(8)

Действительно, w(N) = v(N) по условию. Предположим, что w(i) ^ v(i) для г — к,..., N. Тогда для i = к - 1 из (6), (8) следует

w(k - 1) < w(k) + f(w(k)) = 1 + ^(fc)2 - с ^ 1 + -c = v(k- 1).

Итак, (5) доказано. Теперь утверждение леммы следует из неравенств (5) и выражения (4), где N оо. Теорема. При N —> оо

1 ^ 1-л/2с

N 2с

Доказательство. Последовательность порогов Vi(N) для фиксированного г монотонно возрастает по N. Следовательно, последовательность моментов остановки гдг почти наверное также монотонно возрастает. Покажем, что она сходится почти наверное к моменту остановки Too, который равен первому п, для которого Хп ^ 1 — у/2с.

Соединим отрезком точки (г = l,ui) и (г = N, vn = 0). Поскольку ^ выпукла вверх, ее значения лежат над отрезком, т. е. Vi ^ , г = 1,..., iV.

Теперь можно оценить P{rjv ф т^}. Так как т,оо ^ тдг почти наверное, то

P{TN Ф TOO} = P{TN < Too ^ N} + P{TN < Too > TQO

< P{rw < Too ^ iV} + P{Toc > iV}. (9)

Второе слагаемое в (9) стремится к нулю при N -ь оо, так как

Р{тоо >N} = (1 -s/2C)n,

а для первого слагаемого справедлива следующая оценка:

N-1

P{tn <t00^N}=Y/ P{tn = t,t + 1 ^ Too ^ N} ^ t=l

N-1 N-lt-1

^ E piT°° >= о ^ E П vJ(v ~ v*> ^ t=i t=i j=i

JV-l N-1 , . , V

^ E («- ^ E ^ к-- ^i)) <

OO OO ^ 4

< <• -B'"' + В« - ч«'-' = Нг + <"»

¿=1 ¿=1 4 У

В силу леммы 2 (v- v\ (N)) -> 0 при N -)• оо. Следовательно, последнее выражение в (10) с ростом N становится бесконечно малым.

Итак, показали, что гдг монотонно почти наверное сходится к Too- Согласно теореме Лебега о монотонной сходимости,

оо оо ^

EtN Етоо = ^Р{Тоо > «} = - = -/5=-£=0 ¿=0

Из сходимости rjy —> т^ вытекает

00 00 9 _ РГп

Ет% Erl = + 1)piroo >t} = £(21 + 1)(1 - VS)' -

¿=0 ¿=0 zc

следовательно,

lim DrN = lim Erb - (£тдг)2 = TV—>oo TV—»oo _ V '

_ 2 - x/2c _ _ 1 - >/2c ~ 2c ~ 2c ~ 2c

Теорема доказана.

В таблице приведены значения Er# и Е'гоо для различных с и N. Видно, что для с, близких к 0,5, сходимость наступает уже при небольших N.

Значения Еги и —= для различных N и с

_у 2с_

с N 1 л/2с

10 50 100 500 1000 5000

0,0001 4,5967 18,0614 32,8881 70,0551 70,7095 70,7107 70,7107

0,001 4,5503 15,3962 20,9077 22,3607 22,3607 22,3607 22,3607

0,01 4,1314 7,0408 7,0711 7,0711 7,0711 7,0711 7,0711

0,1 2,2128 2,2361 2,2361 2,2361 2,2361 2,2361 2,2361

0,2 1,5808 1,5811 1,5811 1,5811 1,5811 1,5811 1,5811

0,4 1,1180 1,1180 1,1180 1,1180 1,1180 1,1180 1,1180

Замечание. В задаче оптимальной остановки с возможностью возвращения к уже просмотренным наблюдениям, где ищется максимум выигрыша 23[max{Xi, ...,ХТ} — ст], оптимальное правило определяется с помощью только одного порога (см. [3]) v = 1 — у/2с, поэтому теорема справедлива и для данного случая.

3. Заключение. Выше показано, что при больших N Егм и Drjsr ведут себя как и соответственно. Таким образом, при с —» 0 среднее время и дисперсия

оптимального выбора растут неограниченно. В работе [б] было установлено, что при больших N Егн ведет себя как N/3, a Drдг как N2/18.

Авторы благодарны акад. С. С. Григоряну, обратившему их внимание на эту задачу во время IV симпозиума по прикладной и промышленной математике, и рецензенту за полезные замечания.

Summary

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Mazalov V. V., Peshkov N. V. Asymptotic properties of optimal stopping time in the problem with non-zero pay for observation.

It is show that the optimal stopping time of N independent identically distributed random variables in the problem with complete information and pay с for observation has the following asymptotic properties: ErN и Dtn ~

Литература

1. Gilbert J., Mosteller F. Recognizing the maximum of a sequence // J. of Amer. Stat. Ass. 1966. Vol. 61. P. 35-73.

2. Ширяев А. Н. Статистический последовательный анализ. М., 1976. 272 с.

3. Роббинс Г., Сигмунд Д., Чао И. Теория оптимальных правил остановки / Пер. с англ.; Под ред. А. Н. Ширяева. М., 1977. 168 с.

4. Мазалов В. В., Винниченко С. В. Моменты остановки и управляемые случайные блуждания. Новосибирск, 1992. 199 с.

5. Moser L. On a problem of Cayley // Scripta Mathematica. 1956. Vol. 22. P. 289-292.

6. Мазалов В. В., Пешков Н. В. Об асимптотических свойствах оптимального момента остановки // Теория вероятностей и ее применение. 2003. Т. 48, вып. 3. С. 583-589.

Статья поступила в редакцию 21 апреля 2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.