Научная статья на тему 'Предельная теорема Пуассона для числа плотных серий заданной длины и веса'

Предельная теорема Пуассона для числа плотных серий заданной длины и веса Текст научной статьи по специальности «Математика»

CC BY
336
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПУАССОНОВСКАЯ АППРОКСИМАЦИЯ / РАССТОЯНИЕ ПО ВАРИАЦИИ / ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ / ПЛОТНЫЕ СЕРИИ / МЕТОД ЧЕНА-СТЕЙНА

Аннотация научной статьи по математике, автор научной работы — Меженная Наталья Михайловна

Изучено распределение числа плотных 1-серий длины s и веса w в последовательности Бернулли. Получены оценки расстояния по вариации между распределением вектора из чисел плотных 1-серий, длина и вес которых находятся в заданном диапазоне, и сопровождающим многомерным пуассоновским распределением. Из них выведены предельные теоремы для ряда важных случайных величин, используемых в практических приложениях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Меженная Наталья Михайловна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предельная теорема Пуассона для числа плотных серий заданной длины и веса»

УДК 519.119

Н. М. Меженная

ПРЕДЕЛЬНАЯ ТЕОРЕМА ПУАССОНА ДЛЯ ЧИСЛА ПЛОТНЫХ СЕРИЙ ЗАДАННОЙ ДЛИНЫ И ВЕСА

Изучено распределение числа плотных 1-серий длины s и веса w в последовательности Бернулли. Получены оценки расстояния по вариации между распределением вектора из чисел плотных 1-серий, длина и вес которых находятся в заданном диапазоне, и сопровождающим многомерным пуассоновским распределением. Из них выведены предельные теоремы для ряда важных случайных величин, используемых в практических приложениях.

E-mail: [email protected]

Ключевые слова: пуассоновская аппроксимация, расстояние по вариации,

предельные теоремы, плотные серии, метод Чена-Стейна.

Пусть yn = {yi,...,yn} и zm = {zi, ...,zm} — последовательности знаков алфавита AN = {0,1 ,...,N — 1}. Согласно [1] последовательность yn плотно вкладывается в начало последовательности zm, если найдутся такие натуральные числа 1 = ii < i2 < ... < in ^ m, ik+i — ik £{1, 2}, k = 1 ,...,n — 1, что yk = Zik, k = 1 ,...,n.

Задача о нахождении оценок для вероятности плотного вложения заданной двоичной последовательности в равновероятную случайную двоичную последовательность была поставлена и частично решена в работе [1]. В ней была найдена верхняя оценка для этой вероятности. В работе [2] результаты работы [1] были распространены на последовательности над произвольным конечным алфавитом и было показано, что вероятность плотного вложения принимает свое минимальное значение, когда вкладываемая последовательность состоит из одинаковых знаков.

Задача о плотном вложении, рассмотренная в работах [1 и 2], интересна при специальном изучении плотно заполненных отрезков в случайной последовательности. Отрезок последовательности xi,...,xk из знаков алфавита AN мы называем плотно заполненным знаком а £ AN, если а £ {xi,xi+i}, i = 1,...,k — 1, т.е. пропуски между знаками а в нем могут состоять не более чем из одного символа, отличного от а, и на концах содержится не более одного знака из An \{а}. Распределение числа плотно заполненных отрезков в случайной последовательности можно вывести из распределения числа плотно заполненных серий. Плотно заполненный (знаком а) отрезок назовем плотной заполненной (знаком а) серией (или просто плотной а-серией), если он не содержится ни в каком плотно заполненном отрезке большей длины.

Началом плотной а-серии будем считать место появления первого знака а. (Отметим, что при таком определении появлению знака а предшествует появление двух знаков, отличных от а.) Длиной плотной а-серии назовем длину минимального отрезка, содержащего все знаки а плотной а-серии. Число входящих в плотную а-серию знаков а будем называть ее весом.

Рассмотрим пример. Пусть X = 0,1, 0, 0,0,1,1,0,1, 0,1,1, 0, 0. Согласно нашим определениям, в последовательности X на месте 6 началась плотная 1-серия (выделена жирным) длины 7 и веса 5.

Далее заметим, что если нас интересует распределение характеристик, определяемых плотными а-сериями, то, не ограничивая общности, исходную последовательность можно считать состоящей только из двух знаков а и а. Далее полагаем а = 1, а = 0.

Асимптотические свойства распределения числа плотных серий заданных длин и распределения числа плотных серий заданных весов были изучены в работе [3]. Настоящая работа посвящена обобщению этих результатов на распределение числа плотных серий заданной длины и (одновременно) заданного веса. Доказательство оценок расстояния по вариации между описанными объектами и сопровождающим многомерным пуассоновским распределением проводится так же, как в работе [3], с помощью функциональной версии известного метода Чена-Стейна (см. [4]).

Пусть X = {...,Х-1,Х0,Х1,Х2,...} — последовательность Бер-нулли с вероятностью успеха р, 0 < р < 1. Пусть заданы числа ы(ы ^ 1) и ^ 8 ^ 2ы — 1). При £ = 1,...,п введем события Е^^, состоящие в том, что в последовательности X в момент £ началась плотная 1-серия веса ы и длины 8.

Пусть = I}.

Лемма 1. При ы ^ 1, ы ^ 8 ^ 2ы — 1 и £ = 1,...,п

Свойства вероятностей в (1) описаны в следующем утверждении.

Лемма 2. При ы(ы > 1), < 8 < 2ы — 1)

Значение 8*(ы) можно понимать как наиболее вероятную длину плотной 1-серии, которая имеет вес ы. Определим случайные величины

P{It,s,w = 1} = Ps,w = (1 - p)4CW-W(1 - P)S->W• (!)

w

(2)

n

равные числу плотных 1-серии, имеющих длину 8 и вес ь, начинающихся в последовательности X на местах с номерами {1, 2,...,п}.

Далее изучим случайные векторы, составленные из случайных величин Дз^. Пусть Zw = ), Д = ,...,Д,,и+г-1).

Через р(У1,У2) обозначим расстояние по вариации между распределениями случайных величин У1 и У2. Для случайных величин У1 и У2, распределенных на множестве {у1,у2,...,ут,...}, оно определяется как

1 то

р(У1,У2) = -^2 \Р{У1 = Ук} - Р{У2 = Ук}|.

к=0

Теорема 1. При ь0,ь0 ^ 1, г ^ 1 и п ^ 1 (Г7 А ^ 7пг2(ьо + г)3 2 (1 - Р)

где , ...,п2ы- ), п (пыо , ...,пыо+г-1), пв,ы, 8 ь,....1

2ь-1,ь = ь0,...,ь0+г-1, — независимые в совокупности случайные величины, каждая из которых распределена по закону Пуассона с параметром Хз>ы = прз,ы соответственно.

Распределение вектора п является сопровождающим пуассонов-ским распределением для вектора Д.

Из теоремы 1 и оценки (1) непосредственно вытекает следующее утверждение.

Следствие 1. Пусть число г ^ 1 фиксировано, п а параметр ь0 меняется так, что ь0 ^ ж, Ыо ^ 0 и существуют константы С1,С2 > 0, такие что

ыо+г-1

с < ^

< С2 ■

Тогда случайные величины, образующие вектор Д, асимптотически независимы, а его распределение сближается с распределением вектора п (в смысле сходимости к нулю расстояния по вариации).

Замечание. Условиям следствия 1 удовлетворяет параметр ь0 = = С 1п п.

Однако в задачах часто бывает интересно поведение не всего набора случайных величин Д, а только некоторой его части или линейной комбинации его компонент. Оценка позволяет получить расстояния по вариации между распределением нескольких плотных 1-серий, длина и вес которых удовлетворяют некоторым ограничениям, и соответствующим сопровождающим пуассоновским распределениям. А значит, теорема 1 позволяет также получить предельную теорему пуассонов-ского типа для случайных величин, равных числам плотных 1-серий, у

которых длина и вес лежат в заданных диапазонах. Например, из теоремы 1 может быть выведена предельная теорема для плотных 1-серий заданного веса (теорема 7 работы [3]).

Сформулируем несколько таких утверждений в виде следствий. Следствие 2. Пусть параметры n, s, w ^ то так, что As w ^ ^ A > 0. Тогда закон распределения случайной величины Zs w сходится к закону распределения Пуассона с параметром A.

Замечание. В этом случае одномерный вариант метода Чена-Стейна позволяет получить более точную оценку расстояния по вариации (см. [4]). Пусть

YsjW Zs,w + Zs+1,w + ••• + Z2w-1,w

— случайная величина, равная числу плотных 1-серий, имеющих веса w и длины не меньше s, которые начинаются в последовательности X на местах с номерами {1,2,...,n}.

Следствие 3. Пусть n, s, w ^то и

EYs,w = n(ps,w + Ps+1,w + ... + P2w-1,w) ^ Ц > 0.

Тогда закон распределения случайной величины YsiW сходится к закону распределения Пуассона с параметром ц.

Следствие 4. Пусть n, w ^ то так, что As *(«))«) —^ A > 0, а число m ^ 0 фиксировано. Тогда случайные величины Zs*(w)-m w, Zs*(w)-m+1, w, ...,Zs*(W)+m,w асимптотически независимы в совокупности и каждая из них в пределе имеет распределение Пуассона с параметром A.

Доказательства. Доказательство леммы 1. В силу однородности последовательности X P{It s w = 1} = P{I1is,W = 1}. Событие {I1is,w = 1} означает, что на первом месте последовательности X началась плотная 1-серия длины s и веса w, значит X-1 = X0 = Xs+1 = = Xs+2. На первом месте последовательности X начинается участок, состоящий из w единиц, между которыми находятся s - w нулей. При этом никакие два нуля не стоят рядом. Вероятность этого события найдем как вероятность выпадения одной такой комбинации pw(1 — p)s-w, умноженную на число различных последовательностей, обладающих этим свойством, которое равно числу способов выбора мест для s - w нулей среди w - 1 промежутка между единицами. Поэтому

P {I1,s,w = 1} = P {X-1 = Xo = Xs+1 = Xs+2 = 0}pw (1 — p)s-w CW-W.

Лемма 1 доказана.

Доказательство леммы 2. Заметим, что

arg max (ps,w) = arg max (1 — p)s-w) .

Пусть 81 = 8 — ь, /(81) = СЫ1-1 (1 — р)31. Воспользуемся известными свойствами биномиальных коэффициентов. Если в точке 81 достигается максимум /(81), то /(81) ^ /(81 + 1),/(в1) ^ /(81 — 1). Значит,

/(81) _ СЫ-1(1 — р)^_ = (1 — р) ь — В! ^ 1

f (si -1) cw-a - p) 1 — p

т.е. si ^ --w. Аналогично,

si-

Si

2 — p f (si)

CW- i(i — p)

si

si + 1

f (si + 1) С^_+/(1 — p)si+i (1 — p)(w — 1 — Si)

^ 1.

1 — p 1 — p 1 — p Следовательно, si ^ --w—1. Неравенства--w—1 ^ si ^ --w

2 — p

выполнены одновременно, если si ^

1 — p

-1

2 — p

2 — p

2 — p

w

. Таким образом,

arg max

s:w<s<2w— i

i (cw-w (1 — p)s~n = w +

1 — p 2 — p *

w

Лемма 2 доказана.

Доказательство теоремы 1. Пусть

U = < (t, s, w0) : t = 1,...,n; w = w, ...,w + r — 1,

8 = ь,...,ь + г — 11, ^ = , П = ,

где случайные величины, образующие набор П, независимы в совокупности и имеют распределения Пуассона с параметрами =

= Р{Ем,ы} = Рз,ы, (Ь, 8, ь) е и.

Сначала найдем оценку для расстояния по вариации между наборами W и П. Для этого воспользуемся функциональным вариантом метода Чена—Стейна. Для каждой точки (Ь, 8,ь) е и выберем такое множество 0(Ь,8,ь) С и, что событие не зависит от совокупности событий , (Ь',8',ь') е и\0(Ь, 8,ь)}. В нашем случае в множество 0(Ь, 8, ь), (Ь, 8, ь) е и, попадут все такие точки (Ь',8',ь'), при которых события з ы и зависят хотя бы от одного общего члена последовательности Х-1,Х0,Х1,...,ХТ,.... Поэтому

0(Ь, 8, ь) = {(г',8',ь') : шах{М — 8' — 3} < Ь < Ь + 8 + 3, ь' = ь0,...,ь0 + г — 1,8' = ь,..., 2ь' — 1} .

Тогда расстояние по вариации между распределениями наборов W и П согласно теореме 10. А из книги [4] оценивается неравенством

р^, П) < б! + Я (4)

где

й = Е I] = 1}^»/ = 1},

(4/,в/,'Ш/)€0(М1'ш)

$2 = ^^ ^^ Р = = 1}-

Сначала оценим сумму 51. В силу определения окрестностей 0(£, 8, ад) и (1) имеем

п адо+г— 1 2ад— 1 адо+г—1 2ад/-1 4+в+3

^^ ^ ^ Е р*^р^-^. (5)

4=1 «=и> ад/=ад0 в/ =ад/ 4/=тах{1,4—в/ —3}

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Вычисление суммы в правой части последней формулы является трудоемкой задачей, поэтому мы оценим ее сверху таким образом, чтобы порядки суммы и ее оценки совпадали при интересующем нас изменении параметров. Воспользуемся леммой 2. Для любого ад е {адо,...,адо + г - 1} р^ < Р^),™ < Рз*(™о),<шо. Кроме того, несколько изменим область суммирования в правой части (5), каждый раз проводя суммирование по более большой области. Тогда

п адо+г— 1 2ад-1 адо+г—1 2ад/ — 1 4+(2ад/ —1)+3

4=1 «=и> ад/=адо в/ =ад/ 4/=4—(2ад/ —1)—3

п адо+г—1 2ад—1 адо+г—1

= Е Е Е Е (2(2«/ -1) + 7) р2*(^о),™о <

4=1 ад/=адо

п адо+г—1 2ад—1

^ Е Е Е г(«о + г - 1) (4(адо + г - 1) + 5) р^о),^ <

4=1

^ пг2(«0 + г - 1)2 (4(«0 + г) + 1) р2*(адо),адо .

(6)

Теперь перейдем к оцениванию суммы $2. Нетрудно проверить, что при / { - в' - 3,£ - в' - 2,£, £ + 8 + 2, £ + 8 + 3} события в и , (¿',з',ад') е 0(^,8,ад), несовместны. Если ¿' е { - в' - 3,£ + 8 + + 3}, события в и зависят от одного общего знака в/_ 1

или Х4+3+1 и

Р = = 1} = -Р = 1}Р {14/,в/,ад/ = 1} =

1 - р

1

1 - р

а при ¿' е { - в' - 2,£ + 8 + 2} от двух общих знаков

Р= = 1} = 7 Т2= 1}Р{14/,в,ад = 1} =

(1 - р) 1

- р ) 2

С учетом двух последних равенств и определения суммы £2, пользуясь теми же приемами, что и при вычислении суммы й1, получаем

п адо+г—1 2ад—1 адо+г— 1 2ад/ — 1 / ,,,

2 - р

й < 2Е Е Е Е Ер^р—1( р)2

2(2 р) п ™о+г— 1 2ад — 1 адо +г—1

= р)2 Е Е Е Е «'р2*(^о),™о <

Ч п адо+г— 1 2ад—1

< (1_рр2Е Е Ег(«о+г- 1)р2*(™о),™о <

< 2(2-р)Пг2(«о + г - 1)2р2*(^о).о . (7)

(1 - р)

Подставив оценки (6) и (7) в правую часть неравенства (4), получим

Р^, П) < пг2(«о + г - 1)2 ^4(«о + г) + 1 + 212-1) р2*(™о),™о.

Немного упростим правую часть последнего неравенства. Заметим, что

4(«о + г) + 1 + 2^ < Л + (1 - р)2 + 2(2 - рЛ <

(1 - р)2 (1 - р)2 V 4(«о + г) )

< 4(«о + г) Л + < 7(«о + г)

(1 - р)2 V 8 У (1 - р)2'

Значит,

(ЛКГ ГП ^ 7пг2(«о + г)3 2

П) < -(1 _р)2 р2*(™о)>™о .

Для доказательства теоремы 1 остается заметить, что вектор Z может быть получен из набора W в результате применения к нему некоторой

функции p : z+nr(w0+r-1) ^ z+r(w0+r-1), Z = p(W). Распределение вектора п выбрано так, что оно совпадает с распределением вектора р(П). Поэтому

p(Z,n) = р (p(W),p(n)) < p(W, П).

Теорема 1 доказана.

Автор выражает признательность В.Г. Михайлову за ряд полезных замечаний, сделанных при подготовке рукописи.

Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект 11.01.00139).

СПИСОК ЛИТЕРАТУРЫ

1. G o l i c J. Dj. Constrained embedding probability for two binary strings // SIAM J. Discrete Math. - 1996. - Vol. 9. No. 3. - P. 360-364.

2. Михайлов В. Г., Меженная Н. М. Оценки для вероятности плотного вложения одной дискретной последовательности в другую // Дискретная математика. - 2005. - T. 17, вып. 3. - C. 19-27.

3. Меженная Н. М. Предельные теоремы для числа плотных серий в случайной последовательности // Дискретная математика. - 2009. - T. 21, вып. 1. -C. 105-116.

4. Barbour A. D., Holst L., J a n s o n S. Poisson Approximation. - Oxford, Oxford Univ. Press, 1992.

Статья поступила в редакцию 25.10.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.