Об асимптотическом приближении статистики, построенной по выборке объема отрицательно биномиального распределения
Р.В. Пирогов
Аннотация—В работе доказана теорема о предельном распределении отрицательно биномиальных случайных сумм. Продемонстрированы результаты моделирования отрицательно биномиальных случайных сумм с помощью языка программирования R
Как известно, в классических задачах математической статистики объем выборки является известным параметром. В таких задачах обычно статистика случайных сумм сходится к распределению Гаусса. Дополнительно можно утверждать, что математические ожидания независимых случайных слагаемых не влияют на структурные особенности самого предельного распределения, не считая математического ожидания предельного распределения. В случае случайных сумм, где объем выборки также является статистикой, предельное распределение случайных сумм со слагаемыми с нулевым математическим ожиданием от предельного распределения случайных сумм со слагаемыми с ненулевым математическим ожиданием может отличаться. Сформулированная теорема показывает, что в случае, если накопление слагаемых в случайных суммах имеет характер отрицательного биномиального распределения, то структура предельного распределения зависит от симметричности случайных слагаемых.
Для оценки скорости сходимости доказана Лемма, что отрицательно биномиальные случайные суммы являются смешанными пуассоновскими случайными суммами со смешивающим гамма распределением. Поэтому точность асимптотических моделей отрицательно биномиальных случайных сумм можно оценивать по оценкам скорости сходимости смешанных пуассоновских сумм.
Ключевые слова—Смешанная пуассоновская случайная сумма; отрицательно биномиальная случайная сумма; геометрическая случайная сумма; функция распределения; выборка случайного объёма; распределение Лапласа; гамма распределение; экспоненциальное распределение.
I. Введение
В классических задачах математической статистики объем выборки считается известным параметром. На практике же объем выборки чаще всего также неизвестен и является случайной величиной. Обычно задачи с подобной особенностью могут предоставить исследователю временной интервал, в течение которого с определенной вероятностью происходят случайные события, то есть статистические данные накапливаются в течение фиксированного промежутка времени. Примеры выборок со случайным количеством исходов проявляются в страховании, когда страховые случаи случайным образом накапливаются за фиксированный страховой период, и их число варьируется от периода к периоду. Данная особенность может быть справедлива и к другим областям, таким как медицина, где число пациентов варьируется от
года к году, технике, где фиксируется количество отказов, и прочим сферам, где вместо детерминированного объема дан промежуток времени, в течение которого фиксируется наступления случайных событий. Таким образом, число наблюдений перестает быть параметром и становится наблюдением, то есть статистикой. В силу указанных обстоятельств вполне естественным становится изучение асимптотического поведения статистик достаточно общего вида, основанных на выборках случайного объёма.
Примером использования количества наблюдений в качестве статистики является работа Б.В. Гнеденко [1], в которой рассматриваются асимптотические свойства распределений выборочных квантилей, построенных по выборкам случайного объема и показано, что при замене неслучайного объема выборки случайной величиной асимптотические свойства статистик могут быть радикально разными. К примеру, если объем выборки является геометрически распределенной случайной величиной, то вместо ожидаемого, в соответствии с классической теорией нормального закона, в качестве асимптотического распределения выборочной медианы возникает распределение Стьюдента с двумя степенями свободы, хвосты которого столь тяжелы, что у него отсутствуют моменты больше второго порядка. «Тяжесть» хвостов асимптотических распределений играет ключевую роль в задачах проверки гипотез и расчета квантилей.
В данной работе получены предельные распределения для сумм наблюдений со случайным объемом отрицательно биномиального распределения. Далее будем называть такие суммы отрицательно биномиальными случайными суммами. Предельный закон для отрицательно биномиальных случайных сумм отличается от классических предельных законов. Предельное распределение зависит от математического ожидания случайных слагаемых и имеет тяжелые хвосты.
II. Предельное распределение для отрицательно
биномиальных случайных сумм
Для начала дадим определение случайным суммам и напишем некоторые их свойства.
Определение 1. Пусть К,Х\,Х2,... - независимые случайные величины на некотором вероятностном пространстве (И, А, Р), N принимает целые неотрицательные значения, что формально означает Р(Ж € N0) = 1. Тогда случайная величина
N (ш)
Sn(Ш) Xi(Ш),Ш G l
(1)
E[Sn] = E[N] E[X], D[Sn ] = E[N ] D[X ] + D[N ](E[X ])2,
если соответствующие моменты случайных величин N и X конечны. 2) Характеристическая функция случайной суммы
fsN (t) := E[eitSN] = ф(f (z)),t G R,
Nr
Si = Vp ^ X ^ Ci + • • • + Cr, p ^ о
i=i
fs1 (t)= ФNrp (fxi (tVP)),
fSi(t) =
p
где, по определению будем полагать := 0,
называется случайной суммой.
Свойства случайных сумм:
1) Математическое ожидание и дисперсия случайной суммы
.1 - (1 - P)fxi (VP) '_p_
Д - (1 - p) E[eitXiVp]
Воспользуемся разложением Тейлора для асимптотического разложения характеристической функции случайной величины Х1 и получим
fsi (t) =
(2)
(
1 - (1 - p) E[eitXiVP
r
1 - (1 - p) (1 + it^pE[X] - + o(t3p3/2)Sj
(3)
1 - (1 - p) (1 - t2p + o(t3p3/2))
где ф(-) - производящая функция случайной величины N, /(■) - характеристическая функция случайной величины X.
Предельное распределение отрицательно биномиальных случайных сумм с нулевым математическим ожиданием у слагаемых отличается от предельного распределения отрицательно биномиальных случайных сумм с ненулевым математическим ожиданием у слагаемых. Сформулируем следующую теорему и докажем её методом характеристических функций.
Теорема 1. Пусть Х1,Х2,... - независимые одинаково распределенные случайные величины с Е[Х2] = 1, ~ NB(г,р) и Х1,Х2,... независимы на некотором вероятностном пространстве (П, А,Р).
Если Е[Х1] = 0, то
1 + (1 - p) 2 - o(t3pi/2)
p ^ 0
p ^ о
(2-212)
= f (t))r
где (£) - характеристическая функция распределения Лапласа. Первая часть теоремы доказана.
Если Е[Х1] = 0. Используя 3 получим характеристическую функцию суммы Б2 и произведем те же операции, что и в доказательстве первой части теоремы
fS2 (t) = фN,
p
E[Xi],
(4)
1 - (1 - p)fxi (t Eh).
1 - (1 - p) E[eitXi 4*n ]
где Сг11=1 - независимые одинаково распределенные случайные величины, имеющие распределение Лапласа. Если Е[Х1] = 0, то
N, р
£ = ёХ-1 Е Хг ^ Г(г, 1) = ¿1 + ■ ■ ■ + ¿г,р ^ 0, (5)
[ 1] г=1
где ¿гГ=1 - независимые одинаково распределенные случайные величины, имеющие экспоненциальное распределение Ехр(1).
Доказательство. Если Е[Х1] = 0. Используя 3 получим характеристическую функцию суммы £1:
1 -(1 - p) (1 + it E[XeXi] ] - o(tV)) _p_
1 - (1 - p)(1 + itp - o(t2p2)) _p_
1 - 1 - itp + p + itp2 + o(t2p2 ) 1 )r
p ^ 0
1 - it + itp - o(t3p) 1
p ^ 0
1 it
= f (t))r
(6)
где фыГрР ( ) - производящая функция случайной величины /Х1 (■) - характеристическая функция случайной величины Х1 . Подставим производящую функцию отрицательного биномиального распределения
фМг, р М= (1-(1%)г) в6
где /1 (¿) - характеристическая функция экспоненциального распределения. Вторая часть теоремы доказана.
□
Для моделирования отрицательно биномиальных случайных сумм, в качестве распределения объема возьмем геометрическое распределение, то есть N ~ Овот(р) = NB (1, р) с р = -, где п = 106 и назовем такую сумму геометрической случайной суммой. Смоделируем оба случая из теоремы 1:
r
p
r
p
r
p
r
1
p
r
p
r
p
1) В качестве слагаемых с нулевым математическим ожиданием возьмем £ — 2, где £ ~ В1(4,0.5). Частотная гистограмма (рисунок 1) и нормальный qq-график (рисунок 2) указывают на симметричное распределение с тяжелыми хвостами.
Сеот Эиттеэ
Рис. 1. Частотная диаграмма выборки геометрических случайных сумм с нулевым математическим ожиданием у слагаемых.
Theoretical Quantiles
Рис. 2. Нормальный qq-график выборки геометрических случайных сумм с нулевым математическим ожиданием у слагаемых.
Вероятностная гистограмма выборки геометрических случайных сумм с нулевым математическим ожиданием у слагаемых графически аппроксимируется распределением Лапласа (рисунок 3). На диаграммах разброса (рисунок 4) у выборки пик выражен сильнее, чем у распределения Лапласа. По теореме 1 пик будет сглаживаться при p ^ 0. Дополнительно можно сделать вывод, что в районе высоких квантилей аппроксимация по распределению Лапласа даст оценки сверху, что с практической точки зрения важнее.
2) В качестве слагаемых с ненулевым математическим ожиданием возьмем £ — 1, где £ ~ Bi(4,0.5). Частотная гистограмма (рисунок 5) и нормальный qq-график (рисунок 6) показывают ассиметрию и тяжесть единственного хвоста. Вероятностная гистограмма выборки геометрических случайных сумм с ненулевым математиче-
attempt approximate Geom Summes
Рис. 3. Вероятностная гистограмма выборки геометрических случайных сумм с нулевым математическим ожиданием у слагаемых, с плотностью распределения Лапласа.
1 2 Рис. 4. Диаграммы разброса выборки геометрических случайных сумм с нулевым математическим ожиданием у слагаемых и выборки распределения Лапласа.
Рис. 5. Частотная диаграмма выборки геометрических случайных сумм с ненулевым математическим ожиданием у слагаемых.
ским ожиданием у слагаемых графически аппроксимируется плотностью от распределения Ехр(1) (рисунок 7). Диаграммы разброса (рисунок 8) показывают, что распределения имеют одинаковую структуру
Theoretical Quantiles
Рис. 6. Нормальный qq-график выборки геометрических случайных сумм с ненулевым математическим ожиданием у слагаемых.
attempt approximate Geom Summes
Рис. 7. Вероятностная гистограмма выборки геометрических случайных сумм, с ненулевым математическим ожиданием у слагаемых, с плотностью от распределения Exp(1).
Рис. 8. Диаграммы разброса выборки геометрических случайных сумм с ненулевых математическим ожиданием у слагаемых и выборки распределения Ехр(1).
III. Оценка точности асимптотических моделей
отрицательно биномиальных случайных сумм
Отрицательно биномиальные случайные суммы относятся к смешанным пуассоновским случайным суммам.
Смешанные пуассоновские случайные суммы охватывают целый класс случайных сумм, где закон накопления случайных слагаемых может описываться различными распределениями.
Определение 2. Пусть Л - почти наверное положительная случайная величина с функцией распределения О. Будем говорить, что целочисленная неотрицательная случайная величина N имеет смешанное распределение Пуассона со структурным (смешивающим) распределением Л (или О) и писать N ~ МР(Л), если
1 Г
РN = к) = — / Хкв-х1О(Х), к = 0,1,2,... (8) к! 70
Если ввести случайную величину N\ ~ Рогв(Х), независимую от Л при каждом X > 0, то можно записать
N = NЛ
Определение 3. Если Х1, Х2,... одинаково распределены, N ~ МР (Л) и N,X1,X2,... независимы на некотором вероятностном пространстве (О, А, Р), то случайная величина
S(ш) := Xi (Ш) ------h Xn(ш)(Ш), Ш G О,
(9)
называется смешанной пуассоновской случайной суммой, а её распределение — обощенным смешанным пуассоновским (compound mixed Poisson). Примем, что если N = 0, то S = 0.
п.н.
Пусть теперь Л = At > 0 - случайная величина, распределение которой зависит от параметра t > 0, и случайная величина N(t) ~ MP(At) такова, что N(t),Xi,X2,... независимы при каждом t > 0. Тогда такую случайную сумму будем обозначать следующим образом
S (t) := Xi + ••• + XN (t). (10)
Для оценки смешанных пуассоновских случайных сумм существуют аналоги неравенства Берри-Эссеена [2]. К примеру для оценки скорости сходимости смешанных пуассоновских случайных сумм с нулевым математическим ожиданием у слагаемых есть следующие две теоремы, взятые из [3]:
Теорема 2. Пусть X1,X2- одинаково распределенные случайные величины. Предположим, что E[X] = 0, E[X2] = 1 и At œ при t — œ. Тогда для положительной неограниченно возрастающей функции d(t) имеет место слабая сходимость
S (t) лЩ)
Y
к некоторой случайной величине Y, тогда и только тогда, когда найдется такая случайная величина Л, что при той же функции (1(1)
^ Л и Y = Z/Л,
d(t)
где Z — N(0,1).
(11)
Теорема 3. Пусть E[X] = 0, E[X2] = 1, E[ | X | 2+0] < œ для некоторого S G (0,1], случайные величины Z —
N(0,1), Л > 0, Л( - независимы при каждом Ь > 0, и ¿(Ь) - положительная функция, определенная для всех Ь > 0. Положим
△ = \ % z • * := ,Z 10
В частности для одинаково распределенных слагаемых
St ^ Р
1 /At
— п -
Г \d(t) Тогда для всех t > 0
t > 0.
Д( < М(5) Е[ I X I 2+й] ЕЛ 3]+ 5и (12) где М(5) - константа, которая минимизируется по
5.
С константами в неравенстве Берри-Эссеена можно ознакомиться в [5].
С доказательством теоремы 3 можно ознакомиться в [10].
Получается для того, чтобы оценить отрицательно биномиальные случайные суммы, требуется найти смешивающее распределение для объема. Сформулируем и докажем следующую Лемму.
Лемма 1. Отрицательно биномиальная случайная сумма с N ~ N3 ^г, , У0,г € N - смешанная пуассонов-ская случайная сумма со смешивающим гамма распределением Г(г, 0) с плотностью /(х) = де Г(г) 1 (х ^ 0), где Г(г) - гамма-функция Эйлера.
Доказательство. Докажем Лемму подставив Г(г, 0) в 8.
Список литературы
[1] Гнеденко Б.В. Об оценке неизвестных параметров распределения при случайном числе независимых наблюдений 1989: Труды Тбилисского Государственного Университета.
[2] Berry A. C. The accuracy of the Gaussian approximation to the sum of independent variates // Trans. Amer. Math. Soc. - 1941. - Vol. 49. - P. 122-136.
[3] Шевцова И.Г. Оценки точности асимтотических вероятностных моделей 2018.
[4] Шевцова И.Г Об абсолютных константах в неравенстве Берри-Эссеена и его структурных и неравномерных уточнениях // Ин-форм. и её примен. - 2013. - Т. 7, № 1. - С. 124-125.
[5] Шевцова И.Г Об абсолютных константах в неравенствах типа Берри-Эссеена // ДАН. - 2014. - Т. 456, № 6. - С. 650-654.
[6] Grandell J. Mixed Poisson processes. - London : Chapman and Hall, 1997.
[7] Б. В. Гнеденко, Гуссейн Фахим, Об одной теореме переноса, Докл. АН СССР, 1969, том 187, номер 1, C. 15-17.
[8] Bening V. E., Korolev V. Y. Generalized Poisson Models and their Applications in Insurance and Finance. - Utrecht, The Netherlands : VSP, 2002.
[9] Korolev V. Y. A general theorem on the limit behavior of superpositions of independent random processes with applications to Cox processes. Journal of Mathematical Sciences // J. Math. Sci. -1996. - Vol. 81, no. 5. - P. 2951-2956.
[10] Гавриличенко С.В., Королев В.Ю. Оценки скорости сходимости смешанных пуассоновских случайных сумм // Системы и средства информатики. Специальный выпуск. - 2006. - С. 248-257.
[11] Петров В.В. Суммы независимых случайных величин. //М.: Наука, 1972.
[12] https://www.rdocumentation.org RDocumentation 2018. Пирогов Роман Владимирович, магистрант кафедры
математической статистики факультета вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова.
Россия, 119992, г. Москва, ГСП - 1, Воробьёвы горы, МГУ им. М.В. Ломоносова.
E - mail: pirogov1007@gmail.com.
1
P(N = k) = — Xke-x\r-1 k! J0
_ x
e в
^Г(т)
1
вгк!Г(т) У0
г(т + к)
Xk+r-1e-X(1+e-1)dX
1
к!Г(т) 0r (1 + i)r+k
в+1/ U+i
MШ = N4«ir)
□
IV. Заключение
В работе была сформулирована и доказана теорема о предельном распределении отрицательно биномиальных случайных сумм. Была проанализирована выборка отрицательно биномиальных случайных сумм. Результаты анализа не противоречат сформулированной теореме.
Была сформулирована и доказана Лемма о принадлежности отрицательно биномиальных случайных сумм смешанным пуассоновским случайным суммам со смешивающим гамма распределением. Был описан способ оценки точности асимптотических моделей отрицательно биномиальных случайных сумм.
Asymptotic approximation of statistics based on the sample of negative binomial distribution
Roman Pirogov
Abstract—The paper proves the theorem on the limit distribution of negative binomial random sums. The results of modeling negative binomial random sums using the R programming language are demonstrated.
As is well-known, in classical problems of mathematical statistics sample volume is a known parameter. In these problems, the statistics of random sums usually converges to the distribution of Gauss. Additionally, it can be stated that mathematical expectations of independent random terms do not affect the structural features of the limit distribution itself, except mathematical expectations of the limit distribution. In case of random sums, where the sample volume is also a statistic, the limit distribution of random sums with the sums of terms with zero mathematical expectation from the limit distribution of random sums with the sums of terms with non-zero mathematical expectation may be different. The formulated theorem shows that if the accumulation of terms in random sums has the character of a negative binomial distribution, the structure of the limit distribution depends on the symmetry of the random terms.
To estimate the convergence rate, Lemma proved that negative binomial random sums are mixed Poisson random sums with a mixing gamma distribution. Therefore, accuracy of asymptotic models of negative binomial random sums can be estimated by estimating the convergence rate of mixed Poisson sums.
Keywords—Mixed poisson random sum; negative binomial random sum; geometric random sum; distribution function; random volume sampling; Laplace distribution; gamma distribution; exponential distribution.
References
[1] Gnedenko B.V. Estimation of unknown distribution parameters at a random number of independent observations 1989: Works of Tbilisi State University.
[2] Berry A. C. The accuracy of the Gaussian approximation to the sum of independent variates // Trans. Amer. Math. Soc. - 1941. - Vol. 49. - P. 122-136.
[3] SHevtsova I.G. Estimates of the accuracy of asymmetric probabilistic models 2018.
[4] SHevtsova I.G. Absolute constants in the Berry-Esseen inequality and its structural and non-uniform clarifications - 2013. - vol. 7, no. 1. -p. 124-125.
[5] SHevtsova I.G. Absolute constants in inequalities like Berry-Esseen -2014. - vol. 456, no. 6. - p. 650-654.
[6] Grandell J. Mixed Poisson processes. - London : Chapman and Hall, 1997.
[7] Gnedenko B.V., Gussein Fakhim, One transfer theorem 1969, vol. 187, no. 1, p. 15-17.
[8] Bening V. E., Korolev V. Y. Generalized Poisson Models and their Applications in Insurance and Finance. - Utrecht, The Netherlands : VSP, 2002.
[9] Korolev V. Y. A general theorem on the limit behavior of superpositions of independent random processes with applications to Cox processes. Journal of Mathematical Sciences // J. Math. Sci. -1996. - Vol. 81, no. 5. - P. 2951-2956.
[10] Gavrilichenko S.V., Korolev V.U. Estimates of the convergence rate of mixed Poisson random sums // Systems and tools of informatics. Special edition. - 2006. - p. 248-257.
[11] Petrov V.V. Sums of independent random variables. - 1972.
[12] https://www.rdocumentation.org RDocumentation 2018.