УДК 519.2
Вестник СПбГУ. Сер. 1. Т. 1 (59). 2014. Вып. 2
О МАКСИМАЛЬНОМ ЗНАЧЕНИИ СРЕДНЕГО ЧИСЛА РЕКОРДОВ*
В. Б. Невзоров, С. А. Товмасян
Санкт-Петербургский государственный университет,
Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7/9
Имеются п независимых случайных величин с общей непрерывной функцией распределения. Рассматривается проблема как, получая по очереди значения этих величин, выбрать одну из них в качестве начала отсчета, чтобы максимизировать при этом математическое ожидание числа рекордов среди оставшихся случайных величин, значения которых нам не известны. Библиогр. 4 назв. Табл. 1.
Ключевые слова: рекордные моменты, рекордные величины, индикаторы рекордов.
1. Рассмотрим последовательность независимых случайных величин (с.в.) XI, Х2,... с общей непрерывной функцией распределения (ф.р.) —(ж) и порядковые статистики Х1,П<Х2,П<... <Х„ „, п =1, 2,..., построенные по этой последовательности. Каждой из величин Хп соответствует последовательный ранг Д„, принимающий с равными вероятностями 1/п значения 1, 2,..., п. Справедливы равенства
Р{Д„ = т} = Р|Х„ = Хт,п}, 1 < т < п, п = 1, 2,... (1)
Определим рекордные индикаторы £ь£2,... таким образом, что £п = 1, если Д„ = п, и £п = 0, если Д„ < п. Если £п = 1, то это означает, что Хп представляет собой верхнее рекордное значение, т. е. Хп > тах{Х1, Х2,..., Х„_1}. Заметим, что если ф.р. - непрерывна, то
Р {£п = 1} = 1/п, п =1, 2,...
Верхние рекордные величины Х(1) < Х(2) < ..., где Х(1) = Х1, образуют монотонно возрастающую подпоследовательность Хд1) < Хд2) < ... последовательности
Х1, Х2, . . .
Случайные индексы 1 = Ь(1) < ¿(2) < ... называют рекордными моментами. Имеется большое число работ (см., например, [1-3]), в которых исследуются распределения и свойства рекордных величин Х(п) и рекордных моментов Ь(п). Рассмотрим следующую проблему. Пусть
N (п) = £1 + ... + £„, п =1, 2,... (2)
обозначает число рекордных значений среди величин Х1,Х2,...,Хп и а(п) = Е^(п) — среднее число рекордов среди первых п Х-ов. Отметим, что а(п) = 1 + 1/2 + ... + 1/п и а(п) ~ 1п п, п ^ то.
Если нам становится известным значение Ж1 случайной величины Х1, то среднее число рекордов в наборе ж1, Х2, Х3,..., Хп будет больше а(п), если наблюдаемое значение Ж1 достаточно мало, или меньше а(п) —при больших значениях ж1. Возникает вопрос, насколько мы можем увеличить значение EN(п), если начнём отсчёт рекордов не с Х1 (в случае, когда эта величина принимает слишком большие значения),
* Работа выполнена при финансовой поддержке СПбГУ (грант №6.38.672.2013) и РГНФ (грант №13-02-00338).
не с Х2 (если соответствующее значение Х2 также слишком велико), а подсчитаем, дождавшись появления некоторого достаточно малого значения Хк, среднее число рекордов в наборе Хк, Хк+1, Хк+2, • • •, Хп. Каждый раз, получив очередное наблюдение Хк, нужно решать, начать ли отсчёт рекордов со случайной величины Хк = Хк или, отвергнув её (и уже не имея возможности в дальнейшем к ней вернуться), продолжить процедуру, рассматривая значение Хк+1 следующей в нашей последовательности с.в. Хк+1. Наша цель — получить в результате такого процесса максимально возможное среднее значение числа рекордов.
Естественно, что эта задача близка по постановке к классической «проблеме секретаря» («задаче о разборчивой невесте»), в которой с помощью подобной процедуры нужно по сути максимизировать вероятность выбора последней рекордной величины в наборе Х1, Х2,..., Хп. Также близкой к данной задаче (но только существенно более сложной по процедуре) является другая классическая проблема, связанная с нахождением математического ожидания максимального числа элементов монотонно возрастающей подпоследовательности Х-ов, которую можно зафиксировать в наборе Х1, Х2, • • •, Хп. В этой проблеме представляют интерес два её варианта. В первом из них, зафиксировав в качестве очередного к-го элемента монотонной подпоследовательности некоторое наблюдаемое значение ха(к), переходят последовательно к следующим наблюдениям Ха(к)+1, ха(к)+2, • • •, чтобы, дождавшись появления нужного значения ха(к+1), отвечающего процедуре, взять его в качестве следующего элемента подпоследовательности. Ещё раз подчеркнём, что в этом варианте задачи, каждый раз выбирая (или отвергая) в качестве элемента монотонной подпоследовательности некоторое очередное наблюдаемое значение Хт, мы не знаем значений с.в. Хт+1, Хт+2, • • •, Хп. Было показано [4], что при такой процедуре выбора максимальное среднее число ЕТ!(п) элементов монотонной подпоследовательности удовлетворяет соотношению
ЕТ1(п) - (2п)1/2, п ^^ (3)
Во втором варианте задачи, когда выбор нужных элементов будет производиться после знакомства с наблюдаемыми значениями всех Х-ов, соответствующее математическое ожидание ЕТ2 (п) числа элементов подпоследовательности имеет порядок
ЕТ2(п) —
2п1/2,
п ^ ^ (4)
Рассматриваемая нами модель имеет более простую конструкцию, чем в первом варианте задаче о выборе максимальной монотонной подпоследовательности, что позволяет получить более точные соотношения для соответствующих математических ожиданий а(п).
2. Пусть независимые случайные величины (с.в.) Х1, Х2, • • • имеют общую непрерывную функцию распределения (ф.р.) —(х). Предполагается последовательно получать значения Х1 , Х2 , • • • этих случайных величин и, наблюдая каждый раз очередное значение, решать, что делать дальше. Можно начать отсчёт рекордов с данного наблюдаемого значения или, отвергнув его, продолжить процедуру, переходя к следующей случайной величине. Для описания соответствующей процедуры достаточно рассмотреть случай, когда исходные случайные величины (обозначим их в этой ситуации ^1, Ц^, • • •, ип, • • •) имеют равномерное и([0,1]) распределение с ф.р. -(х) = х, 0 < х < 1.
Пусть N (п, ж) обозначает число рекордов среди величин Ц = ж, ^2,...,^, а Т(п, ж) = Е(п, ж). Рассмотрим также индикаторы , к = 2, 3,..., такие, что = 1, если Цк > тах{ж, ..., и =0 иначе. Получаем, что
P(6 = 1} = / = (1 - xk-1 )/(k - 1)
J X
n л n-1
T(n, ж) = 1 + Y, I-j;(l " *fc_1) = 1 + a(n - 1) - (5)
k=2 fc=1
Сравнивая T(n, x) со средним числом a(n-1) рекордных значений в наборе U2,..., Un, к которому мы можем перейти при слишком больших значениях x с.в. Ui, видим, что T(n, x) < a(n — 1), если
n-1
E(xfc/k) > 1. (6)
k=1
В этом случае мы отвергаем U1 = x, переходим к с.в. U2 и так далее.
Таким образом, при фиксированном n = 3,4,... процедура максимизации среднего числа рекордов сводится к нахождению критических значений x(n), x(n — 1),..., являющихся корнями уравнений
r-1
(x
k=1
^(x(r)fc/k) = 1, r = 3,4,... (7)
Как только происходит первое из событий {Ц < ж(п)}, {Ц > ж(п),^2 < ж(п — 1)},..., {Ц1 > ж(п), Ц2 > ж(п — 1),..., Цг-1 > ж(п — г + 2), Ц < ж(п — г — 1)}, выбираем значение с.в. Ц в качестве начальной точки отсчета рекордов.
Обозначим через е(п) среднее число рекордов, которое обеспечивает данная процедура начала их отсчёта. Очевидно, что е(1) = 1, е(2) = 3/2, поскольку при п =1 и п = 2 невозможно увеличить эти значения за счёт переноса начала отсчёта рекордов. Если п = 3 и мы имеем три величины Ц., Ц и Цз, то ищем соответствующее решение 0 < ж(3) < 1 уравнения
ж(3)2/2 + ж(3) = 1
и получаем, что если 11\ > ж(3) = а/3 — 1 = 0, 73205..., то переходим (и уже окончательно останавливаемся) к набору 112, и^, гарантирующему среднее число рекордов а(2) = 3/2. Если же 11\ = < а/3 — 1, то останавливаемся на наборе (х\, II2, [/3). В итоге получаем, что
, х(3)
е(3) = (1 + а(2) — и — и2/2)йи + 3(1 — ж(3))/2 = 1, 898717 ... Jo
и среднее число рекордов в результате применения такой процедуры увеличивается на величину ¿(3) = е(3) — а(3) = 0, 065384 ...
и
Для п > 2 нужно использовать рекуррентное соотношение
г х(п)
е(п) = Т(п,+ (1 — х(п))е(п — 1), п = 3, 4
Jo
которое сводится к равенству
г—1
x(n)k+1
e(n) = х(п)( 1 + а(п - 1)) - ^ f^yy + (1 - х{п))е{п - 1). (8)
Учитывая, что
n — 1
]T(x(n)k/k) = 1,
к
Х(п
к=1
получаем, что справедливо соотношение
е(п) = х(п)а(п — 1) + (1 — х(п))(1 + е(п — 1)) + (х(п))п/п (9)
Для разностей ¿(п) = е(п) — а(п), п = 3, 4, • • •, будут тогда выполняться равенства
¿(п) = (1 — х(п))<п — 1) + (1 — х(п)) — 1/п + (х(п))п/п (10)
Соотношения (7), (9) и (10) позволили получить следующие (приведённые в таблице) значения величин х(п), е(п) и ¿(п).
га ж (га) е(га) d(n) га ж (га) е(га) d(n)
3 0,732050808 1,898717474 0,065384141 24 0,632121207 4,290253984 0,514295807
4 0,672495811 2,233383757 0,150050424 25 0,632120953 4,333036295 0,517078117
5 0,651099053 2,50798968 0,224656347 30 0,632120592 4,523125871 0,52813874
6 0,641771969 2,733684397 0,283684397 35 0,632120562 4,682756211 0,535974792
7 0,637265996 2,921733417 0,328876274 40 0,632120559 4,820361162 0,541818123
8 0,634949572 3,081266352 0,363409209 41 0,632120559 4,845746228 0,542812946
9 0,633709492 3,219092336 0,390124082 45 0,632120559 4,941291656 0,54634354
10 0,633026867 3,340139731 0,411171477 46 0,632120559 4,963816113 0,547128867
11 0,632643531 3,447961911 0,428084566 47 0,632120559 4,985844149 0,547880307
12 0,632425057 3,545146583 0,441935905 48 0,632120559 5,007397184 0,548600009
13 0,632299128 3,6336104 0,453476645 49 0,632120559 5,028495281 0,549289943
14 0,632225894 3,714801263 0,463238937 50 0,632120559 5,049157257 0,549951918
15 0,632183 3,789835118 0,471606125 60 0,632120559 5,235215378 0,555344965
20 0,632125377 4,098013975 0,500274317 70 0,632120559 5,392019831 0,559183073
21 0,632123469 4,149658493 0,504299788 80 0,632120559 5,527533376 0,562054097
22 0,632122319 4,198758906 0,507945656 90 0,632120559 5,646853299 0,564282696
23 0,632121626 4,245554985 0,511263474 100 0,632120559 5,753440335 0,566062818
Мы рассмотрели в качестве исходной последовательность случайных величин Ц1, и2, • • •, имеющих равномерное и([0,1]) распределение. При переходе к независимым с.в. Х^,^ с произвольной непрерывной ф.р. — (х) изменятся лишь значения х(п), п = 3,4, • • • Вместо табличных значений х(п) нужно будет брать величины С(х(п)), где С(х) = — (х)-1 —функция, обратная функции распределения — (х)
3. Отметим, что величины х(п) монотонно убывают и их предел х* можно найти, учитывая, что при п ^ то из соотношения (7) получим равенство
— 1п(1 — х*) = 1, (11)
из которого следует, что ж* = 1 — 1/е = 0, 63212... Теперь уже нетрудно найти и предельное значение в* монотонно возрастающей последовательности 0 = ¿(2) < ¿(3) < ... Из равенства (10) получаем, что для этого предела справедливо соотношение
в* = (1 — ж* )в* + (1 — ж*). (12)
Таким образом получаем, что
в* = (1 — ж*)ж* = 1/(е — 1) = 0, 58197 ... (13)
Литература
1. Ahsanullah M., Nevzorov V. B. Ordered random variables. New York: Nova Science Publishers, 2001. 412 p.
2. Arnold C., Balakrishnan N., Nagaraja H.N. Records. New York: John Wiley and Sons, 1998. 312 p.
3. Невзоров В. Б. Рекорды. Математическая теория. М.: ФАЗИС, 2000. 244 с.
4. Samuels S. M., Steele J. M. Optimal sequential selection of a monotone sequence from a random sample // Ann. Probab., 1981. Vol.9, N6. P. 937-947.
Статья поступила в редакцию 26 декабря 2013 г.
Сведения об авторах
Невзоров Валерий Борисович —доктор физико-математических наук, профессор; proba-bil@pisem.net
Товмасян Сергей Ашотович — аспирант; sergei_tovmasyan@mail.ru
ON THE MAXIMAL VALUE OF EXPECTATION OF RECORD NUMBERS
Valery B. Nevzorov, Sergey A. Tovmasyan
St.Petersburg State University, Universitetskaya nab., 7/9, St.Petersburg, 199034, Russian Federation; probabil@pisem.net, sergei_tovmasyan@mail.ru
There are n independent random variables with some continuous distribution function. We consider the problem, how getting sequentially values of this variables and selecting one of them as the initial point to maximize (without knowledge of future values) the expected number of records among the rest in this sequence random variables. Refs 4. Tables 1.
Keywords: record times, record values, record indicators.