Научная статья на тему 'Непараметрическая оценка смеси плотностей вероятности, основанная на технологии размножения статистических данных'

Непараметрическая оценка смеси плотностей вероятности, основанная на технологии размножения статистических данных Текст научной статьи по специальности «Математика»

CC BY
144
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛОТНОСТЬ ВЕРОЯТНОСТИ / НЕПАРАМЕТРИЧЕСКАЯ ОЦЕНКА / РАЗМНОЖЕНИЕ ДАННЫХ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / PROBABILITY DENSITY / NONPARAMETRIC ESTIMATION / DATA DUPLICATION / ASYMPTOTIC PROPERTIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

Исследована непараметрическая оценка смеси плотностей вероятности, синтез которой основан на технологии размножения статистических данных. Установлены условия ее асимптотической несмещенности и состоятельности. На этой основе проведено сравнение свойств предлагаемой оценки смеси плотностей вероятности с непараметрической оценкой Розенблатта-Парзена.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric estimation of a mix probability density, based on technology duplication of statistical data

The nonparametric estimation of the mix probability density which synthesis is based on technology duplication of statistical data is investigated. The asymptotic unbiasedness conditions and solvencies are determined. On this basis the properties comparison of the offered estimation of the mix probability density with the nonparametric estimation such as Rozenblatt-Parzen is carried out.

Текст научной работы на тему «Непараметрическая оценка смеси плотностей вероятности, основанная на технологии размножения статистических данных»

УДК 519.2

А. В. Лапко, В. А. Лапко

НЕПАРАМЕТРИЧЕСКАЯ ОЦЕНКА СМЕСИ ПЛОТНОСТЕЙ ВЕРОЯТНОСТИ, ОСНОВАННАЯ НА ТЕХНОЛОГИИ РАЗМНОЖЕНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ

Исследована непараметрическая оценка смеси плотностей вероятности, синтез которой основан на технологии размножения статистических данных. Установлены условия ее асимптотической несмещенности и состоятельности. На этой основе проведено сравнение свойств предлагаемой оценки смеси плотностей вероятности с непараметрической оценкой Розенблатта-Парзена.

Ключевые слова: плотность вероятности, непараметрическая оценка, размножение данных, асимптотические свойства.

Большинство статистических методов обработки информации ориентировано на представительные обучающие выборки. Однако при решении прикладных задач часто имеется ограниченный объем наблюдений - короткая либо малая выборка, что обусловливается неста-ционарностью объекта исследования, высокой стоимостью и сложностью получения дополнительной информации. Получаемые на их основе решающие правила не всегда обеспечивают приемлемые результаты, так как информации малых выборок недостаточно для оценивания вероятностных характеристик изучаемых закономерностей.

Проблемы малых выборок можно разрешить с помощью технологий обработки информации, основанных на бутстреп-методах. Ниже на основе результатов аналитических исследований будет обоснована эффективность его применения при непараметрическом оценивании плотностей вероятности.

Синтез непараметрической оценки смеси плотностей вероятности, основанной на технологии бутстреп-мето-да. Пусть V = ( х1', I = 1, п ) - выборка из п независимых наблюдений случайной величины х = ( хп, V = 1, к) с плотностью вероятности р(х), вид которой априори неизвестен.

Сформируем на основе исходной выборки N групп наблюдений выборку Vj = (х1, I е Ij), где I. - множество номеров элементов из V, составляющих]-ю группу. Количество элементов в группах одинаково и равно п = п - п'. Каждая пара групп Vj, Vt, j, / = 1, N, j Ф / отличается п' элементами. Количество групп элементов N = п/п'.

По каждой выборке Vj построим непараметрические оценки плотностей вероятности [1; 2]:

Р] (х) = -

1

(1)

j = 1, N,

где ф(и) - ядерные функции, удовлетворяющие условиям Н:

ф(и ) = ф(-и), 0 <ф(и) <¥,

|ф(и)й?и = 1, | и 2ф(и)й?и = 1,

|итф(и)ёи <¥, 0 < т <¥;

С = С (п) - коэффициенты размытости ядерных функций, значения которых убывают с ростом п. Здесь и далее бесконечные пределы интегрирования опускаются.

В качестве приближения р(х) по статистической выборке V примем смесь непараметрических оценок р] (х) плотности вероятности

р( х)=^ X Р(х). (2)

Статистика (2) построена в соответствии с бутстреп-методом и допускает использование технологии параллельных вычислений.

Исследуем асимптотические свойства оценки плотности вероятности (2) в условиях, когда к = 1 .

Теорема. Пусть р(х) и первые две ее производные ограничены и непрерывны; ядерные функции ф(и) удовлетворяют условиям нормированности, положительности и симметричности Н; последовательность с(п) = с коэффициентов размытости ядерных функций такова, что

при п значения с ® 0, а при пс и 1 ® 0 ,

п

п

^2 ® 0 . Тогда при конечных значениях N непарамет-

п _

рическая оценка р(х) смеси плотности вероятности р( х) обладает свойством асимптотической несмещенности и состоятельности.

Д о к а з а т е л ь с т в о. По определению

М ( р( х) ) = N х

хХМ ( р] (х) ) =1 / фГ '] р(1 =

j■=l с V с 0

= | ф(и) р( х - си)ёи, где М - знак математического ожидания.

Разлагая р (х - си) в ряд Тейлора и ограничиваясь первыми двумя членами ряда при п , имеем

W1 = М(р(х)-р(х))~ р ^х)с2, (3)

где р(2) (х) - вторая производная плотности вероятности р(х) по х. Отсюда из условия с = с(п) и с ® 0 при п следует свойство асимптотической несмещенно-

сти непараметрической оценки смеси плотностей вероятности (2).

Для доказательства сходимости р(х) в среднеквадратическом отклонении рассмотрим выражение

Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева

М|(р(х) - р(х)) йх =

МI N X(р(х) - р](х))

N 2

ЕДр(х)-р](х)) йх-

]=1

X X |(р( х) - р](х))

йх =

Отсюда, пренебрегая величинами малости 01 —

п

01 __ |, получим

= —т- М

N2

]=1 ,=1

г ф ]

М| (р(х) - р(х))2 йх ~ I

(4)

(п - п') (N -1)) С4 р(2)(х)

1 + ------ ------- +—и---------11

(8)

<(р(х) - р,(х))йх

Найдем асимптотическое выражение функционала

МI (р(х) - р] (х)) (р(х) - р, (х)) йх =

= | р2( х)йх - М | р1 (х) р( х)йх -

-М | р] (х) р( х)йх+М | р] (х) р, (х)йх. Преобразуем его последнее слагаемое:

М | р] (х) р1 (х)йх =

(5)

= -1_ Г

—2 2 I

п г ^

п С

+Х X м ф

/е!, пе!, \I

Нетрудно заметить, что при выполнении условий с ® 0 , пс при п оценка плотности вероятно-

сти (2) сходится в среднеквадратическом отклонении к р(х), а с учетом свойства ее асимптотической несмещенности является состоятельной.

Сравнение асимптотических свойств статистики (2) и непараметрической оценки Розенблатта-Парзена. Определим минимальное значение W2 выражения (8) при оптимальных значениях с коэффициентов размытости ядерных функций непараметрических оценок р, (х), ] = 1, N, составляющих их смесь р (х) (2).

В принятых допущениях значение

X М ф2

/е!], х - х1

С =

М ф

11ф(и )|Г Щр(2) (х)||

йх,

Тогда

■1 , ]

которое при достаточно большом объеме п элементов в группах V., ] = 1, N, может быть представлено в виде

W2 =

п - п' ,, , , ,||2 п 2 -(п - п')

/|| ||2\4 1 ф(и)2

р(2)( х)||

пВ |ф(и¥ +:

С п

:|(р(х) + с2р(2)(х)/2) йх

(6)

(- 01+41=

где ||ф(и)|| =|ф2 (и)йм.

Заметим, что при п

^2

М | р1 (х) р( х)йх ~| |р( х)||2 + — | р(2)( х) р( х)йх,

где ||р (х)|| =| р2 (х)йх. Тогда асимптотическое выражение для функционала (5) соответствует выражению

— I 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п - п II ^ , ч||2 С

р(2)( х)||

п - п' 1

п 4

(9)

Если п' = 0 , то W2 совпадает с минимальным значением асимптотического выражения среднеквадратического отклонения 1

ч||2 Л4

птА|ф(и)|2 + V р(2)(х) + п с 11 11 4 11 11

W,' = -

+ п_2п |(р(х) + С2р(2)(х)/2) йх.

(7)

11ф(и)|

р(2)( х)||

для оценки плотности вероятности типа Розенблатта-Пар-зена

С учетом (7) и справедливости при п утвержде-

ния [2]

р (х) = — Xф

М| (р(х) - р, (х))2 * ~ Ии! + С«р <х)!

х - х

при оптимальных значениях с = с* . При этом

пс 4

запишем асимптотическое выражение для (4):

— 2 1 м|(р(х) - р(х)) йх ~ —

WL = 4

^' = 5 V п - п'0 V п 4

5 ( п - п' + 1

(10)

(11)

||ф(и)||2 С* р(2)(х)|| и------11_ + —у-------

N 2 Л

По аналогии сравним главные дисперсионные составляющие

Wз =

п - п

N-1

N

п -п',,Л, 112 С р< )(х)

ф(и) + ^^-------------------^ +

п с 11 11 4

+ п_2п |(р(х) + с2р(2)(х)/2) йх

W¡ =

Г||ф(и)|Р У

п - п’

V 0

24

р(2)( х)||

4

+

непараметрических оценок плотностей вероятностей (2), (10). Их отношение будет следующим

1

Щ _ (П - п' ^5

Так как объем статистических данных при синтезе составляющих (1) статистики (2) меньше, чем при формировании непараметрической оценки плотности вероятности (10), то очевидно, что ее смещение меньше по сравнению с оценкой плотности вероятности (2). Действительно, отношение их минимальных асимптотических выражений смещений при оптимальных значениях коэффициентов размытости имеет вид

W_

w;

> і.

(13)

Значения отношений (11), (12), (13) при п' _ ап приведены в таблице.

Использование статистики (2) позволяет несколько улучшить эффективность оценивания плотности вероятности по сравнению с оценкой Розенблатта-Парзена (10).

С уменьшением п' _а п растет количество групп наблюдений V, ] _ 1, N, но снижается уровень их разнообразия. При этом состав групп наблюдений незначительно отличается. Поэтому в данных условиях аппроксимацион-ные свойства статистик (2) и (10) практически одинаковы.

При увеличении п уменьшается количество составляющих смеси непараметрических оценок плотностей

вероятности (2), что приводит к снижению ее аппрокси-мационных свойств, несмотря на рост разнообразия групп наблюдений Vj, j = 1, N. При этом уменьшение дисперсии смеси (2) объясняется различными темпами изменения значений ее смещения и среднеквадратического отклонения от искомой плотности вероятности.

Таким образом, использование технологии бутстреп-метода позволяет повысить эффективность оценивания плотностей вероятности. Получаемые при этом непараметрические оценки смеси плотностей вероятности обладают повышенными аппроксимационными свойствами, что особенно наблюдается в снижении их дисперсии и среднеквадратического отклонения. Определены условия их асимптотической сходимости и преимущества перед традиционной непараметрической оценкой Розенблатта-Парзена. Следует ожидать более значительного преимущества предлагаемой методики оценивания плотностей вероятности в условиях малых выборок.

Библиографический список

1. Parzen, E. On estimation of a probability density function and mode / E. Parzen // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.

2. Епанечников, В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

Зависимость отношений WjWt', i = 1,3 от значений n'

W; a

W 0 1 1 1 1 1 1

2 4 8 16 20 40

(іі) 1 1,044 1,002 0,998 0,999 0,999 0,999

(12) 1 0,87 0,94 0,97 0,987 0,989 0,995

(13) 1 1,32 1,12 1,054 1,024 1,020 1,008

A. V Lapko, V. A. Lapko

NONPARAMETRIC ESTIMATION OF A MIX PROBABILITY DENSITY, BASED ON TECHNOLOGY DUPLICATION OF STATISTICAL DATA

The nonparametric estimation of the mix probability density which synthesis is based on technology duplication of statistical data is investigated. The asymptotic unbiasedness conditions and solvencies are determined. On this basis the properties comparison of the offered estimation of the mix probability density with the nonparametric estimation such as Rozenblatt-Parzen is carried out.

Keywords: probability density, nonparametric estimation, data duplication, asymptotic properties.

© Лапко А. В., Лапко В. А., 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.