Научная статья на тему 'Оценка вероятности ни разу не наблюдённого события'

Оценка вероятности ни разу не наблюдённого события Текст научной статьи по специальности «Математика»

CC BY
69
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Гуров С.И.

Предлагаются и обосновываются точечная и интервальная оценки вероятности события, ни разу не наблюдавшегося в серии испытаний по схеме Бернулли, для которого классические статистические методы дают на практике часто неприемлемую нулевую оценку.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Point and interval estimators of probability of the event never observed in a series of tests under the scheme Bernoulli for which classical statistical methods give in practice often unacceptable zero estimator are offered and proved. Bibl. 7.

Текст научной работы на тему «Оценка вероятности ни разу не наблюдённого события»

УДК 519.233.22, 519.233.24

ОЦЕНКА ВЕРОЯТНОСТИ НИ РАЗУ НЕ НАБЛЮДЕННОГО

СОБЫТИЯ

© Гуров С.И.

Ф-т ВМиК МГУ им. М.В. Ломоносова, 119992, г. Москва, Ленинские горы, МГУ, 2-й уч. корпус, ВМиК, e-mail: sgur@cs.msu.ru

Abstract. Point and interval estimators of probability of the event never observed in a series of tests under the scheme Bernoulli for which classical statistical methods give in practice often unacceptable zero estimator are offered and proved. Bibl. 7.

При испытаниях одного изделия произошёл один отказ. Какова вероятность безотказной работы изделия?

Занаучный юмор. М,: МФТИ, 2000.

Введение. Постановка проблемы

Рассматривается оценивание неслучайной, но неизвестной вероятности р осуществления некоторого случайного события X в единичном испытании. В п > 0 испытаниях по схеме Берпулли случайная величина числа успехов m Е { 0, 1, ,,,, п }

имеет биномиальное распределение Bim{n, р) = ( П ]pm(l — p)n^m, р Е 0,

\rnj

где 0 = (0,1) - пространство изменения параметра р (в данном случае - открытый одномерный интервал).

Точечная оценка pmi максимального правдоподобия величины р даётся элементарной формулой

^ п

pml = arg max L(p, х) = -VV = — . (1)

Г) ' J Г)

Здесь

рев п f п

i=1

—: Ь(р, х) = рт( 1 — р)п т - функция правдоподобия величины р для биномиальной статистической модели; —: х = (.г |. ..., .г„} - выборка, полученная в результате проведения п элементарных экспериментов по наблюдению события X. а^ & {0, 1}, г = 1,п, причём в

гошеется т значений 1 ип-т значений 0; _. 0 = [о, 1] - замыкание множества 0.

Данная оценка является является несмещенной, эффективной и состоятельной. Несмещенная функция оценки её дисперсии есть

При т = 0 говорят, что имеет место 0-событие. В том случае формула (1) даёт нулевую точечную оценку вероятности наблюдения X. а формула (2) - нулевое оценочное значение её дисперсии. Всё это приводит к тому, что на практике оценка р = О часто неприемлема, В этом и состоит основная проблема оценки вероятности некоторого ни разу не наблюдённого события. Автору неизвестны публикации по данной проблеме.

Целью работы является предложение и обоснование ненулевой точечной оценки некоторого случайного события при осуществлении 0-еобытия,

1, Доверительное оценивание

Частотный подход, В случае 0-еобытия классические методы частотного подхода к решению задач математической статистики [1, 5] определяют нижнюю границу р^(п) доверительного интервала при коэффициенте доверия г/ как нулевую, а верхнюю р+(п) - как решение (относительно х) уравнения

4(1, п) = Г].

Здесь - отношение неполной В(бетта)-функции к полной В-функции с со-

ответствующими параметрами. Для практических целей обычно достаточно считать // = 0,95 или // = 0,99, Таким образом, имеем

X

/,(!,»)= »/(1-О""1* = 1-(1-*)"=Ч,

О

откуда

р+(п) = 1 - у/1 - Г).

Так, при г/ = 0,95 получаем р+(10) = 0,2589 и р+(100) = 0,02951, Для п > 50 можно считать р+(п) « 3/п.

Использование р+(п) в качестве точечной оценки р, как правило, является неоправданным, дающим слишком завышенное значение вероятности: с достоверностью г/ будем иметь р ^ р+. Однако от точечной оценки не требуется, чтобы отклонение её значения от истинного было односторонним почти всегда,

Бейесовский подход. При использования бейесовского подхода к решению статистических задач встаёт вопрос о конкретизации априорного распределения.

Будем рассматривать наиболее интересную ситуацию отсутствия результатов аналогичных экспериментов, проводимых ранее, т.е. когда использование того или иного метода восстановления априорного распределения (эмпирический бейесовский подход) невозможно, В этих случаях обычно прибегают к закону недостаточного

1как обычно, значения приводятся с точностью до последнего знака

основания Лапласа, который устанавливает, что если ничего не известно о параметре и он изменяется на конечном интервале, то в качестве априорного распределения принимают равномерное. Равномерное априорное распределение представим В-раепределением

Вер(а,Ъ) = ЩЩР^Ч^РГ1 (3)

с параметрами а = b = 1 (Г(-) - гамма-функция). Плотность вероятности апостериорного распределения будет равняться Вер( 1, п + 1) = (п + 1)(1 — р)п, его математическое ожидание ц = 1/(п + 2), а медиана - med =1 — 1/ \/2,

Бейесовскую точечную оценку определяемой величины обычно полагают равной математическому ожиданию или медиане апостериорного распределения, как доставляющие минимумы ереднеквадратичееких потерь и среднего отклонения соответственно, Таким образом, имеем две оценки

РвЛп) = и PBmed(n) = 1- v/Öl)-

Поскольку 1 —

—>• In2/п при п —>• оо, то PBmed(n) ~ 1/(1,443п). Отметим, что оценка по медиане имеет большую практическую ценность, как более робастная [7].

В любом случае ясно, что обе данные оценки являются завышенными, поскольку основаны на предположении о равномерном априорном распределении р на интервале [0,1], что мало согласуется с фактом 0-еобытия при не слишком малых п.

2, Оценка %

0-еобытие имеет место, кода в результате проведения п элементарных экспериментов по наблюдению события X получают выборку х° = (0, ,,,, 0) длины п ^ 1, Считаем, что любая другая информация о событии X отсутствует и не может быть дополнительно получена.

Далее для оценки вероятности р появления X в единичном эксперименте будет использоваться понятие коэффициента доверия г/ Е (0,1), Пусть р- выбранная оценка вероятности р события X. а Р(п,р) - вероятность некоторого события, связанного с наблюдённым 0-событием, и на основании которого делаются те или иные выводы, относительно X. Будем считать значение Р = Р(п,р) превосходящим выбранный коэффициент доверия:

Р^г]. (4)

При этом будет иметь место непривычная зависимость Р(п,р) —1 при р —0, что связано с нулевой оценкой р по (1), Поэтому здесь коэффициент доверия (не будем менять терминологию) выражает не степень достоверности некоторого события, а степень «уступки», на которую мы можем пойти для получения оценки, уклоняющийся от теоретически истинного, но неприемлемого для нас значения, В силу этого, интерес будет представлять оценка, максимально возможная при данных предположениях (наиболее удалённая от 0),

Построим две оценки вероятности 0-еобытия, свободные от указанных выше недостатков и основанные на разных идеях,

Оценка рТ1. При истинном значении оцениваемой вероятности р вероятность Р наблюдённого 0-еобытия есть Р = (1 — р)п. По (4) полагаем

Р = (1 -р)п ^ п,

откуда

1п(1/»7)

Р ^ Рг] = 1 — </Ч —

п

Оценка рг. Мы будем говорить, что некоторое случайное событие X, наблюдаемое в единичном эксперименте по схеме Бернулли с вероятностью р £ [0,1], определяет случайный процесс Жр с дискретным временем, который и порождает выборку х° как реализацию этого процесса.

Идея получения оценки рг(п) состоит в замене рассмотрения реализации х° процесса Жр некоторой другой его реализацией х1, которая содержит хотя бы одно значение 1,

Построим требуемую реализацию х1. Рассмотрим процесс Жя определяемый вероятностью д наблюдения события X в единичном эксперименте по схеме Бернулли и х1 - реализация указанного процесса. Пусть объём выборки х1 есть N ^ 1, из которых М ^ 1 значений нулевые. Далее воспользуемся оценкой (1), Определим допустимые значения М и N из достоверности совпадения параметров /> = ч биномиальных распределений не менее // и естественном требовании минимальности N.

Для решения поставленной задачи воспользуемся точным критерием Фишера для сравнения вероятностей, лежащих в основе двух биномиальных распределений при малых объёмах выборок [5, п, 4,6,7], Метод основан на анализе т.н. таблиц 2x2, В нашем случае имеем таблицу

0 п М М-М п N

М М-М+п М+п

Применение данного критерия вызвано тем, что использования общего критерия анализа 2x2 таблиц возможно лишь при достаточно больших значениях элементов таблицы, что в нашем случае заведомо не имеет места, поскольку одно из таких значений нулевое.

Вероятность Р того, что таблица порождена одним значением вероятности, будет равна

п\тм\{ы - м + п)\ 1 _ т{ы-м + п)\ _ О

{М + п)! п\ М\ {М — М)! (М - М)! {М + п)! ("+") '

Известна (см., например, [2]) асимптотика

(V) _ З2к + зк2

~ бхр "л

(I) п 2 гг2

справедливая при s + к = о(пЛ 1) и п оо, В нашем случае это даёт

(("+«)-«) Г пМ ( М + п

с сохранением условия представления (как легко показать, для Р —max должно выполняться М2 = o(N) , откуда и п + Л/ = o((N + п)3/<2) при N —оо, п = const). Тогда по (4) имеем

п М (л М + п\

м

а полагая по (1), что рг = — и считая Л 1. получим

1

прг (1 +Рг) > In- . (5)

Отсюда, пренебрегая величиной 2, получим pr ~ —= р _

п

Таким образом обе построенные оценки практически совпадают. Данную оценку обозначим р0:

1п(1 /т]) 1 — 71 — Т]

Ро(п) = 1 - ф} ~ - ~ —- ~ -. (6)

п 2г]п r/n

Её и предлагается принимать как точечную оценку вероятности 0-еобытия, Приведённые асимптотики (перечисленные в порядке понижения точности с завышением оценки) справедливы для практических значений г/ и не слишком малых п.

Несколько более грубые рассуждения, основанные на фиксации определённого значения N, приводят, как следствие Р —max, к

М = 1. (7)

Тогда Р = N/(N + п). По (4) имеем

Г]П

N

и по (1) сразу получаем

Р ^ Р

1 — 7]

М _ 1 — т]

N r/n

(8)

)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

что совпадает с (6),

Ясно, что для реальных значений г/ и п > 3

Ро < РвтпЫ < Рви < Р+ ■

«ТаврШсысий eicHMK ¡нформатики та математики», №2'2009

3, Интервальное согласованное оценивание

Полученная точечная оценка ра даёт интервальную оценку р на основе принципа согласованности [3, 4]. Данный принцип, основанный на идее Э, Лемана [6], позволяет в рамках бейесовского подхода конкретизировать априорное распределение оцениваемого параметра. Метод направлен именно на малые вероятности событий. По принципу согласованности априорное распределение выбираться, в частности, из условия совпадения бейесовской и частотной точечных оценок определяемого параметра. При этом получаемое априорное распределение (укажем что оно есть fa priori(р) = Bep(l,b), где значение 6, определяемое по принципу согласованности, см, ниже) в большей степени, чем равномерное распределение, согласуется с наблюдённым 0-событием, Далее, по принципу согласованности, апостериорное распределение есть /а post(p) = Bep(l,b + п) и верхняя граница р^ доверительного интервала (0, р£) для оцениваемой вероятности р, имеющей точечную оценку р, есть решение уравнения

1х(1,п + Ь-1) = г/.

Здесь параметр 6 определяется из условия р = 1/N = 1/(6 + n + 1), и, таким образом, 6 = iV" — п — 1. Тогда уравнение для определения х = р£ принимает вид

4(1, 1/р- 2) = ц или 4(1, N -2) = ц (9)

и в последнем случае значение N берётся из (8),

Например, при г/ = 0,95 н п = 10 имеем N = 190, рт = 0,0053, Уравнение (9) конкретизируется как /ж(1, 188) = 0,95, откуда по Таблице 5,2 из [1] получим р£ Ri 0, 016, Для сравнения: классические методы для данных параметров M и N дают доверительный интервал (0, 0,024),

Заключение

Проблема оценки вероятности 0-события не решена окончательно. Предложенная оценка интуитивно кажется слишком заниженной при малых значениях п, когда факт 0-события не противоречит предположению о достаточно больших значениях вероятности р. Перспективным дальнейшим исследованием, является обоснование точечной оценки вероятности 0-события для малых выборок,

список литературы

1. Большее Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983. - 464 с.

2. Гаврилов Г.П., Сапоженко А.А. Задачи и упражения по дискретной математике. - М.: ФИЗ-МАТЛИТ, 2004. - 416 с.

3. Гуров С.И. Принцип согласованности и бейесовское интервальное оценивание // Таврический вестник информатики и математики, 2003, JY4 2. - С. 14-27.

4. Гуров С. И. Интервальное оценивание на основе принципа согласованности // Вестник Тверского гос. университета. Серия «Прикладная математика», .Y"l I (74), вып. 9, 2008. - С. 77-93.

5. Закс Л. Статистическое оценивание. - М.: Статистика, 1976. - 560 с.

6. Леман Э. Теория точечного оценивания. - М.: Наука, 1991. -448 с.

7. Смоляк С. А., Титаренко Б.П. Устойчивые методы оценивания: (Статистическая обработка неоднородных совкупностей). - М.: Статистика, 1980. - 208 с.

Статья поступила в редакцию 01.09.2009 «Таврический вестник информатики и математики», №2'2009

i Надоели баннеры? Вы всегда можете отключить рекламу.