УДК 519.119
Н. М. Меженная
ПРЕДЕЛЬНАЯ ТЕОРЕМА ПУАССОНА ДЛЯ ЧИСЛА ПЛОТНЫХ СЕРИЙ ЗАДАННОЙ ДЛИНЫ И ВЕСА
Изучено распределение числа плотных 1-серий длины s и веса w в последовательности Бернулли. Получены оценки расстояния по вариации между распределением вектора из чисел плотных 1-серий, длина и вес которых находятся в заданном диапазоне, и сопровождающим многомерным пуассоновским распределением. Из них выведены предельные теоремы для ряда важных случайных величин, используемых в практических приложениях.
E-mail: [email protected]
Ключевые слова: пуассоновская аппроксимация, расстояние по вариации,
предельные теоремы, плотные серии, метод Чена-Стейна.
Пусть yn = {yi,...,yn} и zm = {zi, ...,zm} — последовательности знаков алфавита AN = {0,1 ,...,N — 1}. Согласно [1] последовательность yn плотно вкладывается в начало последовательности zm, если найдутся такие натуральные числа 1 = ii < i2 < ... < in ^ m, ik+i — ik £{1, 2}, k = 1 ,...,n — 1, что yk = Zik, k = 1 ,...,n.
Задача о нахождении оценок для вероятности плотного вложения заданной двоичной последовательности в равновероятную случайную двоичную последовательность была поставлена и частично решена в работе [1]. В ней была найдена верхняя оценка для этой вероятности. В работе [2] результаты работы [1] были распространены на последовательности над произвольным конечным алфавитом и было показано, что вероятность плотного вложения принимает свое минимальное значение, когда вкладываемая последовательность состоит из одинаковых знаков.
Задача о плотном вложении, рассмотренная в работах [1 и 2], интересна при специальном изучении плотно заполненных отрезков в случайной последовательности. Отрезок последовательности xi,...,xk из знаков алфавита AN мы называем плотно заполненным знаком а £ AN, если а £ {xi,xi+i}, i = 1,...,k — 1, т.е. пропуски между знаками а в нем могут состоять не более чем из одного символа, отличного от а, и на концах содержится не более одного знака из An \{а}. Распределение числа плотно заполненных отрезков в случайной последовательности можно вывести из распределения числа плотно заполненных серий. Плотно заполненный (знаком а) отрезок назовем плотной заполненной (знаком а) серией (или просто плотной а-серией), если он не содержится ни в каком плотно заполненном отрезке большей длины.
Началом плотной а-серии будем считать место появления первого знака а. (Отметим, что при таком определении появлению знака а предшествует появление двух знаков, отличных от а.) Длиной плотной а-серии назовем длину минимального отрезка, содержащего все знаки а плотной а-серии. Число входящих в плотную а-серию знаков а будем называть ее весом.
Рассмотрим пример. Пусть X = 0,1, 0, 0,0,1,1,0,1, 0,1,1, 0, 0. Согласно нашим определениям, в последовательности X на месте 6 началась плотная 1-серия (выделена жирным) длины 7 и веса 5.
Далее заметим, что если нас интересует распределение характеристик, определяемых плотными а-сериями, то, не ограничивая общности, исходную последовательность можно считать состоящей только из двух знаков а и а. Далее полагаем а = 1, а = 0.
Асимптотические свойства распределения числа плотных серий заданных длин и распределения числа плотных серий заданных весов были изучены в работе [3]. Настоящая работа посвящена обобщению этих результатов на распределение числа плотных серий заданной длины и (одновременно) заданного веса. Доказательство оценок расстояния по вариации между описанными объектами и сопровождающим многомерным пуассоновским распределением проводится так же, как в работе [3], с помощью функциональной версии известного метода Чена-Стейна (см. [4]).
Пусть X = {...,Х-1,Х0,Х1,Х2,...} — последовательность Бер-нулли с вероятностью успеха р, 0 < р < 1. Пусть заданы числа ы(ы ^ 1) и ^ 8 ^ 2ы — 1). При £ = 1,...,п введем события Е^^, состоящие в том, что в последовательности X в момент £ началась плотная 1-серия веса ы и длины 8.
Пусть = I}.
Лемма 1. При ы ^ 1, ы ^ 8 ^ 2ы — 1 и £ = 1,...,п
Свойства вероятностей в (1) описаны в следующем утверждении.
Лемма 2. При ы(ы > 1), < 8 < 2ы — 1)
Значение 8*(ы) можно понимать как наиболее вероятную длину плотной 1-серии, которая имеет вес ы. Определим случайные величины
P{It,s,w = 1} = Ps,w = (1 - p)4CW-W(1 - P)S->W• (!)
w
(2)
n
равные числу плотных 1-серии, имеющих длину 8 и вес ь, начинающихся в последовательности X на местах с номерами {1, 2,...,п}.
Далее изучим случайные векторы, составленные из случайных величин Дз^. Пусть Zw = ), Д = ,...,Д,,и+г-1).
Через р(У1,У2) обозначим расстояние по вариации между распределениями случайных величин У1 и У2. Для случайных величин У1 и У2, распределенных на множестве {у1,у2,...,ут,...}, оно определяется как
1 то
р(У1,У2) = -^2 \Р{У1 = Ук} - Р{У2 = Ук}|.
к=0
Теорема 1. При ь0,ь0 ^ 1, г ^ 1 и п ^ 1 (Г7 А ^ 7пг2(ьо + г)3 2 (1 - Р)
где , ...,п2ы- ), п (пыо , ...,пыо+г-1), пв,ы, 8 ь,....1
2ь-1,ь = ь0,...,ь0+г-1, — независимые в совокупности случайные величины, каждая из которых распределена по закону Пуассона с параметром Хз>ы = прз,ы соответственно.
Распределение вектора п является сопровождающим пуассонов-ским распределением для вектора Д.
Из теоремы 1 и оценки (1) непосредственно вытекает следующее утверждение.
Следствие 1. Пусть число г ^ 1 фиксировано, п а параметр ь0 меняется так, что ь0 ^ ж, Ыо ^ 0 и существуют константы С1,С2 > 0, такие что
ыо+г-1
с < ^
< С2 ■
Тогда случайные величины, образующие вектор Д, асимптотически независимы, а его распределение сближается с распределением вектора п (в смысле сходимости к нулю расстояния по вариации).
Замечание. Условиям следствия 1 удовлетворяет параметр ь0 = = С 1п п.
Однако в задачах часто бывает интересно поведение не всего набора случайных величин Д, а только некоторой его части или линейной комбинации его компонент. Оценка позволяет получить расстояния по вариации между распределением нескольких плотных 1-серий, длина и вес которых удовлетворяют некоторым ограничениям, и соответствующим сопровождающим пуассоновским распределениям. А значит, теорема 1 позволяет также получить предельную теорему пуассонов-ского типа для случайных величин, равных числам плотных 1-серий, у
которых длина и вес лежат в заданных диапазонах. Например, из теоремы 1 может быть выведена предельная теорема для плотных 1-серий заданного веса (теорема 7 работы [3]).
Сформулируем несколько таких утверждений в виде следствий. Следствие 2. Пусть параметры n, s, w ^ то так, что As w ^ ^ A > 0. Тогда закон распределения случайной величины Zs w сходится к закону распределения Пуассона с параметром A.
Замечание. В этом случае одномерный вариант метода Чена-Стейна позволяет получить более точную оценку расстояния по вариации (см. [4]). Пусть
YsjW Zs,w + Zs+1,w + ••• + Z2w-1,w
— случайная величина, равная числу плотных 1-серий, имеющих веса w и длины не меньше s, которые начинаются в последовательности X на местах с номерами {1,2,...,n}.
Следствие 3. Пусть n, s, w ^то и
EYs,w = n(ps,w + Ps+1,w + ... + P2w-1,w) ^ Ц > 0.
Тогда закон распределения случайной величины YsiW сходится к закону распределения Пуассона с параметром ц.
Следствие 4. Пусть n, w ^ то так, что As *(«))«) —^ A > 0, а число m ^ 0 фиксировано. Тогда случайные величины Zs*(w)-m w, Zs*(w)-m+1, w, ...,Zs*(W)+m,w асимптотически независимы в совокупности и каждая из них в пределе имеет распределение Пуассона с параметром A.
Доказательства. Доказательство леммы 1. В силу однородности последовательности X P{It s w = 1} = P{I1is,W = 1}. Событие {I1is,w = 1} означает, что на первом месте последовательности X началась плотная 1-серия длины s и веса w, значит X-1 = X0 = Xs+1 = = Xs+2. На первом месте последовательности X начинается участок, состоящий из w единиц, между которыми находятся s - w нулей. При этом никакие два нуля не стоят рядом. Вероятность этого события найдем как вероятность выпадения одной такой комбинации pw(1 — p)s-w, умноженную на число различных последовательностей, обладающих этим свойством, которое равно числу способов выбора мест для s - w нулей среди w - 1 промежутка между единицами. Поэтому
P {I1,s,w = 1} = P {X-1 = Xo = Xs+1 = Xs+2 = 0}pw (1 — p)s-w CW-W.
Лемма 1 доказана.
Доказательство леммы 2. Заметим, что
arg max (ps,w) = arg max (1 — p)s-w) .
Пусть 81 = 8 — ь, /(81) = СЫ1-1 (1 — р)31. Воспользуемся известными свойствами биномиальных коэффициентов. Если в точке 81 достигается максимум /(81), то /(81) ^ /(81 + 1),/(в1) ^ /(81 — 1). Значит,
/(81) _ СЫ-1(1 — р)^_ = (1 — р) ь — В! ^ 1
f (si -1) cw-a - p) 1 — p
т.е. si ^ --w. Аналогично,
si-
Si
2 — p f (si)
CW- i(i — p)
si
si + 1
f (si + 1) С^_+/(1 — p)si+i (1 — p)(w — 1 — Si)
^ 1.
1 — p 1 — p 1 — p Следовательно, si ^ --w—1. Неравенства--w—1 ^ si ^ --w
2 — p
выполнены одновременно, если si ^
1 — p
-1
2 — p
2 — p
2 — p
w
. Таким образом,
arg max
s:w<s<2w— i
i (cw-w (1 — p)s~n = w +
1 — p 2 — p *
w
Лемма 2 доказана.
Доказательство теоремы 1. Пусть
U = < (t, s, w0) : t = 1,...,n; w = w, ...,w + r — 1,
8 = ь,...,ь + г — 11, ^ = , П = ,
где случайные величины, образующие набор П, независимы в совокупности и имеют распределения Пуассона с параметрами =
= Р{Ем,ы} = Рз,ы, (Ь, 8, ь) е и.
Сначала найдем оценку для расстояния по вариации между наборами W и П. Для этого воспользуемся функциональным вариантом метода Чена—Стейна. Для каждой точки (Ь, 8,ь) е и выберем такое множество 0(Ь,8,ь) С и, что событие не зависит от совокупности событий , (Ь',8',ь') е и\0(Ь, 8,ь)}. В нашем случае в множество 0(Ь, 8, ь), (Ь, 8, ь) е и, попадут все такие точки (Ь',8',ь'), при которых события з ы и зависят хотя бы от одного общего члена последовательности Х-1,Х0,Х1,...,ХТ,.... Поэтому
0(Ь, 8, ь) = {(г',8',ь') : шах{М — 8' — 3} < Ь < Ь + 8 + 3, ь' = ь0,...,ь0 + г — 1,8' = ь,..., 2ь' — 1} .
Тогда расстояние по вариации между распределениями наборов W и П согласно теореме 10. А из книги [4] оценивается неравенством
р^, П) < б! + Я (4)
где
й = Е I] = 1}^»/ = 1},
(4/,в/,'Ш/)€0(М1'ш)
$2 = ^^ ^^ Р = = 1}-
Сначала оценим сумму 51. В силу определения окрестностей 0(£, 8, ад) и (1) имеем
п адо+г— 1 2ад— 1 адо+г—1 2ад/-1 4+в+3
^^ ^ ^ Е р*^р^-^. (5)
4=1 «=и> ад/=ад0 в/ =ад/ 4/=тах{1,4—в/ —3}
Вычисление суммы в правой части последней формулы является трудоемкой задачей, поэтому мы оценим ее сверху таким образом, чтобы порядки суммы и ее оценки совпадали при интересующем нас изменении параметров. Воспользуемся леммой 2. Для любого ад е {адо,...,адо + г - 1} р^ < Р^),™ < Рз*(™о),<шо. Кроме того, несколько изменим область суммирования в правой части (5), каждый раз проводя суммирование по более большой области. Тогда
п адо+г— 1 2ад-1 адо+г—1 2ад/ — 1 4+(2ад/ —1)+3
4=1 «=и> ад/=адо в/ =ад/ 4/=4—(2ад/ —1)—3
п адо+г—1 2ад—1 адо+г—1
= Е Е Е Е (2(2«/ -1) + 7) р2*(^о),™о <
4=1 ад/=адо
п адо+г—1 2ад—1
^ Е Е Е г(«о + г - 1) (4(адо + г - 1) + 5) р^о),^ <
4=1
^ пг2(«0 + г - 1)2 (4(«0 + г) + 1) р2*(адо),адо .
(6)
Теперь перейдем к оцениванию суммы $2. Нетрудно проверить, что при / { - в' - 3,£ - в' - 2,£, £ + 8 + 2, £ + 8 + 3} события в и , (¿',з',ад') е 0(^,8,ад), несовместны. Если ¿' е { - в' - 3,£ + 8 + + 3}, события в и зависят от одного общего знака в/_ 1
или Х4+3+1 и
Р = = 1} = -Р = 1}Р {14/,в/,ад/ = 1} =
1 - р
1
1 - р
а при ¿' е { - в' - 2,£ + 8 + 2} от двух общих знаков
Р= = 1} = 7 Т2= 1}Р{14/,в,ад = 1} =
(1 - р) 1
- р ) 2
С учетом двух последних равенств и определения суммы £2, пользуясь теми же приемами, что и при вычислении суммы й1, получаем
п адо+г—1 2ад—1 адо+г— 1 2ад/ — 1 / ,,,
2 - р
й < 2Е Е Е Е Ер^р—1( р)2
2(2 р) п ™о+г— 1 2ад — 1 адо +г—1
= р)2 Е Е Е Е «'р2*(^о),™о <
Ч п адо+г— 1 2ад—1
< (1_рр2Е Е Ег(«о+г- 1)р2*(™о),™о <
< 2(2-р)Пг2(«о + г - 1)2р2*(^о).о . (7)
(1 - р)
Подставив оценки (6) и (7) в правую часть неравенства (4), получим
Р^, П) < пг2(«о + г - 1)2 ^4(«о + г) + 1 + 212-1) р2*(™о),™о.
Немного упростим правую часть последнего неравенства. Заметим, что
4(«о + г) + 1 + 2^ < Л + (1 - р)2 + 2(2 - рЛ <
(1 - р)2 (1 - р)2 V 4(«о + г) )
< 4(«о + г) Л + < 7(«о + г)
(1 - р)2 V 8 У (1 - р)2'
Значит,
(ЛКГ ГП ^ 7пг2(«о + г)3 2
П) < -(1 _р)2 р2*(™о)>™о .
Для доказательства теоремы 1 остается заметить, что вектор Z может быть получен из набора W в результате применения к нему некоторой
функции p : z+nr(w0+r-1) ^ z+r(w0+r-1), Z = p(W). Распределение вектора п выбрано так, что оно совпадает с распределением вектора р(П). Поэтому
p(Z,n) = р (p(W),p(n)) < p(W, П).
Теорема 1 доказана.
Автор выражает признательность В.Г. Михайлову за ряд полезных замечаний, сделанных при подготовке рукописи.
Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект 11.01.00139).
СПИСОК ЛИТЕРАТУРЫ
1. G o l i c J. Dj. Constrained embedding probability for two binary strings // SIAM J. Discrete Math. - 1996. - Vol. 9. No. 3. - P. 360-364.
2. Михайлов В. Г., Меженная Н. М. Оценки для вероятности плотного вложения одной дискретной последовательности в другую // Дискретная математика. - 2005. - T. 17, вып. 3. - C. 19-27.
3. Меженная Н. М. Предельные теоремы для числа плотных серий в случайной последовательности // Дискретная математика. - 2009. - T. 21, вып. 1. -C. 105-116.
4. Barbour A. D., Holst L., J a n s o n S. Poisson Approximation. - Oxford, Oxford Univ. Press, 1992.
Статья поступила в редакцию 25.10.2011