Научная статья на тему 'Оценки вероятностей событий при наличии данных с пропусками'

Оценки вероятностей событий при наличии данных с пропусками Текст научной статьи по специальности «Математика»

CC BY
92
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЛЕКТНЫЕ И НЕКОМПЛЕКТНЫЕ НАБЛЮДЕНИЯ / ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ / АДАПТИВНЫЕ ОЦЕНКИ ВЕРОЯТНОСТЕЙ / COMPLETE AND INCOMPLETE OBSERVATIONS / ADDITIONAL INFORMATION / ADAPTIVE ESTIMATION OF THE PROBABILITY

Аннотация научной статьи по математике, автор научной работы — Дмитриев Юрий Глебович, Князева Анна Анатольевна

Рассматривается задача статистического оценивания вероятности произведения двух событий на основе комплектных и некомплектных наблюдений. Предлагаются оценки с привлечением дополнительной информации, содержащейся в некомплектных наблюдениях, и исследуются их свойства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

There is considered a problem of statistical estimation of a probability of the product of two events on the basis of complete and incomplete observations. The estimators with using additional information by incomplete observations are suggested and investigated. * 0, ( ) 0, ( ) ( ) ( ) 0. ( ) ( ), ( ) n n XY n n m n P B n P A B P A B n m P B P A B m P B n m P B = ⎧⎪⎪  + ⎪  = + ⎨  ⎪  + ⎪ + ⎪⎩ Here Pn(A×B) and Pn(B), Pm(B) are empirical probabilities, n is a size incomplete observations, m is a size complete observations. The results are illustrated by numerical examples. There is considered a problem of statistical estimation of a probability of the product of two events on the basis of complete and incomplete observations. The estimators with using additional information by incomplete observations are suggested and investigated.

Текст научной работы на тему «Оценки вероятностей событий при наличии данных с пропусками»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2009 Управление, вычислительная техника и информатика № 4(9)

УДК 519.2

Ю.Г. Дмитриев, А. А. Князева

ОЦЕНКИ ВЕРОЯТНОСТЕЙ СОБЫТИЙ ПРИ НАЛИЧИИ ДАННЫХ С ПРОПУСКАМИ

Рассматривается задача статистического оценивания вероятности произведения двух событий на основе комплектных и некомплектных наблюдений. Предлагаются оценки с привлечением дополнительной информации, содержащейся в некомплектных наблюдениях, и исследуются их свойства.

Ключевые слова: комплектные и некомплектные наблюдения, дополнительная информация, адаптивные оценки вероятностей.

В социологических [1] и маркетинговых исследованиях [2], при наблюдении объектов, характеризуемых многомерным вектором признаков, случаются пропуски в компонентах вектора, что приводит к некомплектным наблюдениям. Статистическое оценивание долей объектов с заданными значениями признаков представляет в такой ситуации важную научную и практическую задачу. В статистической практике известны следующие методы статистического анализа данных с пропусками [3,4]:

- исключение некомплектных наблюдений из рассмотрения и построение статистических выводов на основе полных (комплектных) данных;

- методы, основанные на моделировании (строится модель порождения пропусков, параметры модели оцениваются с помощью функции правдоподобия);

- восстановление пропусков;

- методы взвешивания (суть заключается в том, что каждое наблюдение выбирается в выборку с некоторой вероятностью);

Представляет интерес разработка методов статистического анализа данных с одновременным использованием как комплектных, так и некомплектных наблюдении с целью увеличения качества оценивания за счет привлечения дополнительной информации, содержащейся в некомплектных наблюдениях. Рассмотрение этой проблемы на примере оценивания вероятности событий по наблюдениям двумерного вектора признаков приводится в данной работе.

1. Постановка задачи

Пусть X и У - случайные величины, заданные на вероятностном пространстве (О, 3, Р) и осуществляющие измеримое отображение (О, 3) на пространство (Я2, Н2). Среди всех наблюдений над парой (X, У) имеется п пар (Х1, У1), (Х2, У2),...,(Хп, Уп), для которых получены значения по обеим компонентам (далее будем именовать такие наблюдения комплектными), и имеются т наблюдений, в которых известны значения только второй компоненты, обозначим их Уп+1, Уп+2, ... Уп+ти назовем некомплектными. Предполагается, что все наблюдения У1, У2, ... Уп, Уп+1, Уп+2, ... Уп+т. независимы между собой. На основе этих данных требуется построить оценку вероятности Р(Л*Б), где событие Л^Я, Б^Я. Как известно, несмещенной и наилучшей в смысле минимума дисперсии оценкой вероятности

Р(Л хБ), построенной по комплектным наблюдениям, является эмпирическое распределение

Рп (Л х Б) =1 ]Т/л (X,) 1б (У-), (1)

п, =1

Г1, X, е Л, Г1, У- е Б,

где (X) = 1 г 1Б (У,) = 1 г

(о, X, г Л, [о, у, г б,

являются индикаторными функциями соответствующих событий. Эмпирическое распределение (1) имеет математическое ожидание ЕР^ЛхБ^РуЛхБ) и дисперсию БРп(ЛхБ)=(1/п) РУЛхБ)(1 - Р^ЛхБ)). Рассмотрим задачу оценивания Р(Л хБ), используя наряду с комплектными и некомплектные наблюдения с целью повышения точности оценки.

2. Построение оценок

2.1. Оценка с использованием формулы условной вероятности

Воспользуемся формулой умножения вероятностей Р(ЛхБ) = Р(Л|Б)Р(Б) и запишем аналогичную формулу для эмпирических вероятностей:

Рп*(Л хБ) = Рп(Л|Б)Рп+т(Б) = (Рп(ЛхБ)/Рп(Б))-Рп+т(Б), где Рп+т(Б) = (п/(п+т))Рп(Б) + + (т/(п+т))Рт(Б), а

Г 0, Рп (Б) = 0,

Рп (Л Х Б) = Г Р (Л х Б) (2)

Р( Б) I—------ , Рп (Б) * 0.

п1 ; [ Рп (Б) п

С учетом (2) и того, что при Рп(Б) = 0 и Рп(ЛБ) = 0, имеем Г0, Рп (Б) = 0,

Рш (Л х Б) =

п -Рп (Л х Б) + т Рп(Л 1Б) Рт (Б), Рп (Б) *0. (3)

п + т п + т Рп (Б)

2.2. Оценка по методу коррелированных процессов

В соответствии с методом коррелированных процессов, рассмотрим класс оценок вида

Р]у (Л хБ) = Рп(Л хБ) - 1(Рп(Б) - Рп+т(Б)), (4)

где параметр X выбирается из условия минимума дисперсии оценки и имеет вид

х = Е{Рп (Л х Б)(Рп (Б) - Рп+т (Б))} = Рш (Л х Б)

Е{( Рп (Б) - Рп+т (Б))2} РУ(Б) .

Поскольку вероятности РУЛ хБ) и РУ(Б) неизвестны, то заменив их на эмпирические вероятности Рп(Л хБ) и Рп(Б), получим X . Подставив это значение в (5), получим адаптивную оценку по методу коррелированных процессов

Р-С Л х Б) = 0+^ Р, (Л х Б) + Рт (Б).

п + т п + т Рп (Б)

Эта оценка совпадает с (3) при выполнении условия (2). Отметим также, что если взять в выражении (4) вместо (Рп(Б) - Рп+т(Б)) разность (Рп(Б) - Рт(Б)), то также придем к адаптивной оценке, совпадающей с (3).

3. Свойства оценки

Исследуем свойства оценки (3) в рамках схемы Бернулли. Найдем математическое ожидание

ЕР*у (Л х Б) = Е |Рп (Л х Б) + т РпРЛ( ББ Рт (Б)} =

(п + т п + т Рп (Б) }

-+~руг (4 х В) + -т-РТ (В)ЕI п + — п + — | Рп (В)

С учетом (2)

>п (4 х В)

Е

= 0 + £Р| Рп(В) = ^ |ЕI Рп(4 Х В) | Рп(В) = І Рп (В) | £ I п | 1 Рп (В) ' ^ ' п

і=1

= РАГ (4 | В)£ РІ Рп (В) = І ] = р^ (4 | В)(1 - Р(Рп (В) = 0)).

Следовательно,

* п т

ЕР]су (Л х Б) =---Р}у (Л х Б) +-Ру (Б)Р}у (Л | Б)(1 - Р(Рп (Б) = 0)) =

п + т п + т

т

= Р^ (Л х Б)--Ру (Б)Р^ (Л | Б)Р(Рп (Б) = 0) =

п + т

т

= Pxy (Л х Б)---------------------Рет (Л х Б)Рп (Б),

п + т

где Б - противоположное событие. Как видно, оценка (3) имеет смещение, равное Д = ЕР*}У (Л х Б) - Рш (Л х Б) = -(т /(п + т))Р^ (Л х Б)Рп (Б).

Найдем среднеквадратическое отклонение (СКО) оценки

Имеем

5РГГ (А хВ) = Е(Р*УА *В) - Р хг (4 хВ))2.

БРХу (4 х В) = ЕР*2(4 х В) - Руг (4 х В) - 2Д- Руу (4 х В) =

п“ -ЕРп 2( 4 х В) + 2 п— 2 ЕI Рп (4 х В)Р *В) Р- (В) 1 +

(п + —)

(п + —)

Рп (В )

(п + —)2 I Рп (В)

Заметим, что

+ —\ЕI Рп(4хВ)Р— (В) I -^(4хВ)-2Д• Р^(4хВ).

Е(Рп*2(4 хВ)) = P2уг(A хВ) + (І/пруг^ хВ)(1 - Ру^ хВ)),

ЕІ Рп (4В) Рр4(В)Д) Р— (В) | = Ру (В)Е

I Рп 2( 4 х В) ]

Рп (В)

= 0 + Ру (В)£ Е

І=1

1 Рп2( 4 х В) Рп (В)

Рп (В) = І / п

Р( Рп (В) = І / п).

Для каждого / = 1,.,п

Е

^ >Р-(Б» =1

Рп (Б) п.

= Е

(V п 2) |£ 1лб (X,, У,)

,=1

У/п

■|РИ( Б) = —

п

=1 Руу (Л | Б) + ^ Р'2у (Л | Б) =1 Pxy (Л | Б)(1 - РХу (Л | Б)) + ^Р/ (Л | 2). п п п п

С учетом этого

(и2

Е

Рп (Л х Б) Рп (Б)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п РУ (Б)

+ 1 РуУ (Л х Б)

1 Рш (Л х Б) (, - Рш (А х Б> £(р (В) = //п) +

Ру (Б)

/=1

п Р2У (Б) /=

£ /Р( Рп (Б) = /п).

Поскольку £ /Р(Рп (Б) = //п) = пРу (Б),

то

/=1

Е|Рп (Л х Б)Р (Б)! =

= -Руу (Л х Б) | 1 - РрУЛ^) (1 - Р(Рп (Б) = 0)) + р1у (Л х Б).

Аналогично получаем

Е,^:^Рт(Б) I = 0 + £Е

Р. (Б)

Далее, при / = 1,.,п

/=1

РпРЛ( ББ) Рт (Б) V |Рп (Б) = ^

Рп(Б) V1 п

Р( Р„( Б) =^).

п

Е

^ ^ п ^

(1/п2)| £ 1лб(X,,У-)

= Е

,=1

• 2 / 2 / / п

Рп (Б) = 1

Е

п V

1 А п + т

■У 2; /б (у, )

т | ,=п+1

2

Рту (Л|Б)/ + Р2у (Л | Б)/(/ -1) _ тРу (Б) + т(т -1)Р/(2)

' -2 * 2 / т

=1 Руу (Л | Б) (1 - Руу (Л | Б)) ) - Ру (Б) +—РУ (Б) 1 + / | т т V

+Р2У (Л | Б) ((1/ т)РУ (Б) + ((т -1) / т)РУ2 (Б)).

С учетом этого получим

£р 1 Рп (В) = І Е

І=1

Рп (4 х В) Р— (В) I | Рп (В) = 1

Рп (В) 'і'--' п

= - Р^ (4 | В)(1 - Р^ (4 | В)) Рг (В)(1 - Рг (В))£ -Р1 Рп (В) =1 +

— 1=1 У V п|

+Руг (4 х В)(Ру (В) - Р^ (4 х В))£1Р ГРп (В) = ^ + Ріг (4 х В) +

у=1 І 1 п 1

+-Р2г (4 | В)Ру (В)(1 - Ру (В)) - Руг (4 х В)Р(Рп (В) = 0) -

- -Ру (В)(1 - Ру (В))Р^у (4 | В)Р(Рп (В) = 0).

Введем обозначение

у(В,п) = £п• Р1 Рп(В) =1|.

І=1 І 1 п 1

Рассмотрим

ЕРуу (4 х В) = Руу (4 х В) + (1 /(п + —))Р^ (4 х В)(1 - Руу (4 х В)) +

— ™ ^ пчК Р;^ (4 х В)

+----7Рет(4х В)I 1 -^^-------------| +

(п + —) V Р (В)

+—^-7 Руг (4 х В) [1 - | Ру (В)у(В, п) +

п(п + —) I Ру (В)

+ ------------гг Руг (4 х В)

п(п + —)

Ру (В)

(1 - Ь) у (В, п) + 0(п, —)Р(Рп (В) = 0),

где 0(п,—) = (—2/(п + — хВ) -

- (—/(п + — ^Руу^ хВ)[2 - Р^ хВ) - (Руу (4 хВ)/Р(В))].

Отсюда получим окончательное выражение для СКО:

БР^ (4 х В) =1Р^ (4 х В)(1 - Руг (4 х В)) - — Рш (4 х В)(1 - Руу (4 х В)) +

п п(п + —)

+-—7 Р»- (4 х В) [1 - ругМх« '| +

(п + — )2 V Ру (В)

— Р^ (4 х В) [1 - ^ (4 х В) | Ру (В)У(В, п) +

п(п + — )2 у V Ру (В)

/уу (4 х В)

Руг (4 х В) | 1 - ' | (1 - Ру (В))у (В, п) +

п(п + — )2 у V Ру (В)

+б(п, —) Р( Рп (В) = 0). (6)

Полученное выражение позволяет вычислить СКО оценки (3) при конечных объемах комплектной и некомплектной выборок. Кроме того, представляет интерес случай, когда n и m возрастают.

4. Асимптотическое поведение оценки

Рассмотрим асимптотическое поведение СКО оценки (3) в условиях схемы Бернулли, полагая m = kn, k > 0.

Как было показано в [5]

lim X(B, п) = 1/PY (B). (7)

n"да

Рассмотрим предельный переход в выражении (6). С учетом условия (7), получим

lim nSPX*Y (A x B) = (1/(k +1))PXY (A x B)(1 - PXY (A x B)) +

n"да

+-Ц- Pxy (A x B) (1 - PXJSA^ )+_kI_ Pj (A x B) (1 - ?XJ±X (k +1)2 ^ I Pj (B) ) (k +1)2 ^ я PY(B)

= PXY (A X B)(1 — PXY (A X B)) — 7 PXY (A X B) n . Dч . (8)

k +1 PY (B)

Таким образом, lim nSPX*Y (A x B) < lim nDPn (A x B) на величину

n"да n"да

(k/(k +1))p2y (A x B) • ((1 - Py (B)VPy (B)).

5. Иллюстрации асимптотического поведения оценки

Чтобы понять, как соотносятся дисперсия оценки (1) и среднеквадратическое отклонение оценки (3), произведем замену m=kn и рассмотрим следующий показатель:

W = nSPxY (A x B) = 1 - k Pxy (A x B)(1 - Pj (B)) (9)

lim nDPn (AB) k +1 PY (B)(1 - PXJ (A x B))'

n"W

Рассмотрим влияние величины k (соотношение объема некомплектных наблюдений к объему комплектных) на показатель W. Отметим, что коэффициент k е [0,да). Рассмотрим поведение оценки на границах этого промежутка. Значение k = 0 означает, что объем некомплектных наблюдений равен нулю. Это равносильно отсутствию дополнительной информации и в этом случае W = 1. При k " да показатель W примет вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

W = W = 1 - PXY (A x B)/PY (B) . (10)

1 1-Pxy (A x B)

Заметим, что наименьшее значение величина W1 принимает в случае, когда PXY(AXB) = PY(B) (легко видеть, что тогда Wx = 0). Чтобы проиллюстрировать соотношение между оценками вида (1) и (3), зафиксируем в выражениях (9) и (10) вероятность PY(B) = 0,8 и рассмотрим значения вероятности PXY(A xB) из интервала [0,1; 0,8] (рис. 1).

Рис. 1. Параметр Ж при фиксированной Ру(В) = 0,8 и РхИА хВ)є [0,1; 0,8]

Результаты расчетов приведены в табл. 1.

Т аблица 1

Значения показателя при Р^(Б) = 0,8 и РХу(ЛхВ)е. [0,1; 0,8]

рху(АхВ) к = 0,5 к = 1 к = 2 к = 50 к = да

0,1 0,99 0,99 0,98 0,97 0,97

0,2 0,98 0,97 0,96 0,94 0,94

0,3 0,96 0,95 0,93 0,90 0,89

0,4 0,94 0,92 0,89 0,84 0,83

0,5 0,92 0,88 0,83 0,76 0,75

0,6 0,88 0,81 0,75 0,63 0,63

0,7 0,81 0,71 0,61 0,43 0,42

0,8 0,67 0,50 0,33 0,02 0,00

Аналогично зафиксируем РХу(А*В)=0,2 и рассмотрим значения вероятности РИР) из промежутка [0,2; 1] (рис. 2). Результаты расчетов приведены в табл. 2.

Рис. 2. Параметр Ж при фиксированной Рхг(ЛхВ) = 0,2 и РХВ)є[0,2; 1]

Т аблица 2

Значения показателя W при PXY(AxB) = 0,2 и Pj<B)e [0,2; 1]

Pr(B) k = 0,5 k = 1 k = 2 k = 50 k = да

0,2 0,67 0,50 0,33 0,02 0,00

0,3 0,81 0,71 0,61 0,43 0,42

0,4 0,88 0,81 0,75 0,63 0,63

0,5 0,92 0,88 0,83 0,76 0,75

0,6 0,94 0,92 0,89 0,84 0,83

0,7 0,96 0,95 0,93 0,90 0,89

0,8 0,98 0,97 0,96 0,94 0,94

0,9 0,99 0,99 0,98 0,97 0,97

1 1,00 1,00 1,00 1,00 1,00

Заметим, что случай k = ж эквивалентен ситуации, когда значение вероятности PY(B) известно, и это соответствует самому большому выигрышу в СКО.

6. Иллюстрации поведения оценки при конечных объемах выборки

По аналогии с исследованием асимптотического поведения оценки рассмотрим величину

V = SPxr (A х B) (11)

DPn (A х B) ’

зафиксировав конкретные значения вероятностей Pxr(Ay-B) и Pr(B) и изменяя объемы комплектной и некомплектной выборок. Для начала рассмотрим, как влияет на поведение оценки привлечение небольшого количества некомплектных наблюдений. В табл. 3 приведены значения выигрыша в СКО, полученные для разных объемов комплектных выборок.

Т аблица 3

Значения показателя V при PXY(A^B) = 0,2 и Pj-(B) = 0,4

M n = 4 n = 10 n = 20 n = 50

0 1 1 1 1

1 0,951 0,976 0,985 0,993

2 0,919 0,956 0,971 0,986

3 0,895 0,939 0,958 0,980

4 0,878 0,926 0,946 0,974

5 0,864 0,914 0,936 0,968

6 0,854 0,904 0,926 0,962

7 0,845 0,895 0,917 0,956

8 0,837 0,887 0,908 0,951

Из табл. 3 видно, что привлечение даже одного дополнительного наблюдения уменьшает СКО оценки, при этом чем меньше размерность комплектной выборки, тем значительнее эффект привлечения информации из некомплектной. Далее рассмотрим обратную ситуацию: некомплектная выборка более многочисленна, чем комплектная (табл. 4).

Т аблица 4

Значения показателя V при PXI(A^B) = 0,2 и Py(B) = 0,4

m n = 5 n = 10 n = 20 n = 50

10 0,77б5 0,801б 0,7738 0,8225

20 0,7б84 0,78б4 0,7370 0,7б34

30 0,7б5б 0,7808 0,7220 0,7339

40 0,7б41 0,7779 0,7138 0,71б2

50 0,7б33 0,77б1 0,708б 0,7044

б0 0,7б27 0,7749 0,7051 0,б9б0

70 0,7б23 0,7740 0,7025 0,б897

80 0,7б20 0,7734 0,7005 0,б848

90 0,7б17 0,7729 0,б990 0,б808

Таким образом, и при конечных объемах выборки привлечение дополнительной информации позволяет уменьшить СКО оценки вероятности РуЛу-Б).

Заключение

Построены оценка с использованием формулы условной вероятности и адаптивная оценка по методу коррелированных процессов (вид оценок совпадает). Исследованы свойства оценок и асимптотическое поведение. Приведены примеры выигрыша в СКО для конечных объемов комплектной и некомплектной выборок. Проведенное исследование учета дополнительной информации позволяет утверждать, что выигрыш в СКО оценки вероятности Рху(ЛуБ) вида (3) по сравнению с эмпирической вероятностью (1) зависит от соотношения между комплектной и некомплектной выборками, а также значений вероятностей Рху(ЛуБ) и PY(B).

ЛИТЕРАТУРА

1. Ядов В.А. Стратегия социологического исследования. М.: Омега-Л, 2007. 567 с.

2. Котлер Ф. Основы маркетинга: пер. с англ. М.: РосИнтер, 1996. 698 с.

3. Литтл Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 430 с.

4. Чурилова А.А. Корректировка неответов // Материалы матем. семинара «Несплошные статистические исследования». Нижний Новгород, 2000. С. 27.

5. Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. ... канд. техн. наук. Томск: ТГУ, 2001. 149 с.

Дмитриев Юрий Глебович Князева Анна Анатольевна Томский государственный университет

E-mail: [email protected]; [email protected] Поступила в редакцию 16 апреля 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.