УДК 519.7
А. В. Лапко, В. А. Лапко
АНАЛИЗ СВОЙСТВ СМЕСИ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ПЛОТНОСТИ ВЕРОЯТНОСТИ МНОГОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ*
Исследуются асимптотические свойства смеси непараметрических оценок плотности вероятности многомерной случайной величины. Проводится их сравнение со свойствами традиционной непараметрической оценки плотности вероятности типа Розенблатта-Парзена в зависимости от количества составляющих смеси и размерности случайной величины.
Ключевые слова: смесь плотностей вероятности, непараметрическая оценка, большие выборки, асимптотические свойства.
Использование методов непараметрической статистики, основанных на оценках плотности вероятности типа Розенблатта-Парзена [1; 2] является одним из активно развивающихся направлений моделирования систем при априорной неопределённости. Однако при усложнении условий исследования систем появляются методические и вычислительные трудности применения традиционных непараметрических алгоритмов и моделей, что особенно наблюдается при обработке статистических данных большого объёма.
Перспективное направление «обхода» возникающих проблем состоит в применении принципов декомпозиции обучающих выборок по их объёму и использовании технологии параллельных вычислений.
Цель данной работы: на основе анализа асимптотических свойств непараметрической оценки смеси плотностей вероятности обосновать эффективность использования принципов декомпозиции при обработке больших массивов статистических данных.
Непараметрическая оценка смеси плотности вероятности и её свойства. Пусть выборка V = (х', ' = 1, п) из п независимых наблюдений к -мерной случайной величины х = (ху, V = 1, к) с плотностью вероятности р (х). Вид р (х) априори неизвестен.
Разобьём выборку V на Т групп наблюдений Vj = (х',' е I]), j = 1, Т . Множество номеров наблюдений х в группе под номером ] обозначим через I].
Т ____
Причем и I, = I = (' = 1, п) . Количество п
]= / ' \ элементов в выборках V, = (х',' е I,)
_ п но п = —.
Т
По каждой выборке V] построим непараметрическую оценку плотности вероятности многомерной случайной величины х [1]:
Р](х) = -
1
п
ХП®
/е/, V = 1
] = 1, Т
(1)
Пусть интервалы изменения значений компонент х. вектора х одинаковы. В этих условиях появляется возможность полагать, что значения коэффициентов с. непараметрических оценок плотностей вероятности Р](х), ] = 1, Т одинаковы и равны с. Тогда непараметрическая оценка (1) плотности вероятности принимает вид 1 к ( х — \ р, м=Лхп® х х
/е/, .=1
] = 1, Т.
(2)
В качестве приближения р (х) по статистической выборке V будем использовать смесь непараметрических оценок плотности вероятности типа
Р(х ) = Т X Р](х).
(3)
]=1
одинаково и рав-
В статистике (1) ядерные функции Ф (и.), удовлетворяют условиям нормированное™, положительности и симметричности. Параметры ядерных функций с. = с. (п) убывают с ростом п .
Статистика (3) допускает использование технологии параллельных вычислений при оценивании плотности вероятности в условиях больших выборок.
Асимптотические свойства р (х) определяются следующим утверждением.
Теорема. Пусть р (х) и первые две ее производные по каждой компоненте х., . = 1, к ограничены и непрерывны; ядерные функции Ф (и.) удовлетворяют условиям
Ф(и. ) = Ф(— и. ) , 0 <Ф(и. )<¥,
|ф(и.)йиу = 1, |и.; Ф(и.)йиу = 1,
|и’т Ф(и.)ёиу <¥, 0 < т <¥; . = 1, к ,
последовательности с = с (п) коэффициентов размытости ядерных функций непараметрических оценок плотности вероятности (1) таковы, что при п значения
с ® 0, а пск ®¥.
Тогда при конечных значениях Т непараметрическая оценка (3) плотности вероятности р (х) обладает свойством асимптотической несмещённости и состоятельности.
Здесь и далее бесконечные пределы интегрирования опускаются.
Доказательство.
По определению имеем
м (р( х)) =1X м(р](х)) = Т £ х
]=1
Т
]=1
пс
хХ|-Щф
р( х1, к, х’к) йх[.
,ёх'к =
* Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 20092013 гг., ГК № 02.740.11.0621.
xv - tv
P(t1,к, tk ) dt1 ... dtk =
точке X = X.,
нами ряда, имеем
, xk и ограничиваясь первыми двумя чле-
W = M (p(x) - p(x)) Ъ p(2 (x)
2 v =1
(4)
= ^- M T2
dx1 к dxk = ZI к Kp( X) - —і■ (X) ) dx1 к dxk +
j=1
TT
~ ZZI к I (p( X) - pj ( X) ) {p( X) - p, ( X) ) t) к dXk
j=1 t =1
t * j
. (5)
I к I| p (X)+ Ъ pp2) (X) 1 dX1 к dX
(7)
~2 k
I к I| p (X)+ — Ъ pp2) (X) l p (X) dX1 к dXk . (В)
MI к I (p( X) - p, (x)) (p( x) - pt (x)) dx1 ...dxk
к
= | к ЩФ(и . )р(х1 — си1 , к, хк — сик ) ^и1 к Й?ик ,
.=1
где М - знак математического ожидания. При выполнении преобразований учитывается, что элементы статистических выборок Vj, ] = 1, Т являются значениями одной и той же случайной величины t с плотностью вероятности р(/1, к , tk ) .
Разложим р(х1 — си1,..., хк — сик) в ряд Тейлора в
c
4
I■■■ ПЪ pp2,(x )
dx1 к dxk = — 4 . (9)
В работе В. А. Епанечникова [2] получено асимптотическое выражение для среднеквадратического отклонения непараметрической оценки плотности вероятности от р(х), составляющих первую часть выражения (5):
М{к 1 (р(х) — р](х)) кёхк ~
к
П!Ф2 (uv)duv
+—B. 4
(10)
где р.2"1 (х) - вторая производная плотности вероятности р (х) по компоненте х..
Отсюда, из условия с ® 0 при п следует свой-
ство асимптотической несмещенности смеси непараметрических оценок плотности вероятности (3).
Для доказательства сходимости р(х) в среднеквадратическом рассмотрим выражение
М{к { (р(х) — р(х)) йх1 к йхк =
= М {к { Т ^ (р( х) — р] (х))
ё1 ]=1
С учётом (9), (10) выражение (5) при достаточно больших значений п представляется в виде
MIкp(X)-p(x)) dx1 ...dxk
П _[Ф2 puv) duv
+++11)
к
nc
Нетрудно заметить, что в условиях c ® 0 при n оценка смеси плотностей вероятности (З) схо-
дится в среднеквадратическом к p (x), а с учетом свойства ее асимптотической несмещенности является состоятельной.
При T = 1 и n = n полученный результат (11) совпадает с утверждением теоремы В. А. Епанечникова [2], что подтверждает корректность выполненных преобразований.
Анализ аппроксимационных свойств статистики
p(x). Для анализа эффективности непараметрической оценки смеси плотностей вероятности (З) и оценки плотности вероятности типа Розенблатта-Парзена
1
Найдем асимптотическое выражение составляющих второй части выражения (5):
М{к{(р(х) — р](х))(р(х) — р,(х))«х кЙхк =
= { к { р2 (х) йх1 к йхк —
—М{к{р1 (х)р(х)Йх1 ...Йхк — М х
х{ к 1 р] (х)р(х) Йх1 к Йхк + М{к {РJ (х)р (х) Йх1 ... Йхк . (6)
Преобразуем его последнее слагаемое
М { к { р) (х) р{ (х) Йх1 к Йхк =
= { к { М (р] (х)) М ( р, (х)) йхх ... йхк ,
которое при достаточно большом объеме статистических данных с учётом выражения (4) представляется в виде
p (x )=—т ЪПФ
(12)
рассмотрим отношение соответствующих им асимптотических выражений среднеквадратических отклонений при оптимальных значениях коэффициентов размытости ядерных функций.
Определим минимальное значение Ш2 выражения (11) при оптимальных значениях с коэффициентов размытости непараметрических оценок р] (х) составляющих смеси плотностей вероятности. В принятых допущениях значение
(
c=
к
к П Ф2 (uv) du,
Y
nB
(к+4)
с
"2^1
Заметим, что асимптотическое выражение статистики типа
М {к { р, (х) р( х) Йх1 к Йхк
соответствует
с2 2 ^
Подставляя выражения (7), (8) в (6), после несложных преобразований получим
Тогда
к
П Ф2 (uv) duv
Bk
і к +4)
. (1З)
4Tk
/(к+4)
Если к = 1, то совпадает с минимальным асимп-
тотическим выражением среднеквадратического отклонения для смеси непараметрических оценок плотностей вероятности, полученного в работе [3].
n c
2 к
ЗЗ
При T = 1 и n = n выражение (13) соответствует минимальному асимптотическому выражению W[ среднеквадратического отклонения для непараметрической оценки плотности вероятности (12) типа Розенблатта-Парзена [2].
Отсюда, после несложных преобразований, получим
4 + Tk
/(к+4)
( 4 + k )T/
По аналогии вычислим отношение минимальных значений главных дисперсионных составляющих статистик p (x) и p (x) :
W3 =-
Tk
\k+4)
к
П|Ф2 (uv)duv
Bk
\k+4)
W ' =-----
3 к/
/(p + 4)
( к
П|Ф2 (uv(duv
Bk
Их отношение имеет вид
R3 = Wl = 3 w;
/(p +4)
T
/(k+4)
гомерной случайной величины обоснована возможность декомпозиции исходных статистических данных при синтезе непараметрических статистик в условиях больших выборок. Исследуемая статистика по сравнению с традиционной непараметрической оценкой плотности вероятности типа Розенблатта-Парзена имеет значительно меньшую дисперсию и позволяет использовать технологию параллельных вычислений.
Нетрудно убедиться, что отношение асимптотических выражений смещений Ж1, анализируемых оценок плотности вероятности р (х) и р (х) при оптимальных коэффициентах размытости ядерных функций соответствует значению
я = К = т 2//(к+4) 1 Г/
С ростом количества Т составляющих смеси непараметрических оценок плотности вероятности наблюдается увеличение значений отношений Я2 > 1 (см. рисунок, часть а), Я1> 1 (см. рисунок, часть б). Отмеченное ухуд -шение аппроксимационных свойств смеси р (х) по сравнению с традиционной непараметрической оценкой плотности вероятности р (х) (12) объясняется снижением объёмов выборок, используемых при оценивании составляющих р (х). Данная тенденция особенно характерна для малых размерностей к случайной величины х. При усложнении условий оценивания плотности вероятности с ростом к эффективность непараметрических оценок р (х) и р (х) снижается. Соответствующие им критерии Ж2, W'2 и Ж1, Ж1' становятся соизмеримыми, что проявляется в снижении значений их отношений Я2 и Я1.
Предлагаемая смесь р (х) оценок плотности вероятности обладает меньшей дисперсией по сравнению с непараметрической оценкой р (х), что обусловлено её структурой, так как синтез статистики р (х) осуществляется на основе усредняющего оператора (см. рисунок, часть в). Причём с увеличением количества Т составляющих смеси непараметрических оценок р (х) плотности вероятности и размерности к случайной величины её преимущество возрастает.
На основе анализа асимптотических свойств смеси непараметрических оценок плотности вероятности мно-
Зависимости отношений: R2 (а), R (б), R3 (в) от размерности к случайной величины x = (xv, v = 1, к) и количества T = 1-10 (кривые 1, 10)
составляющих смеси непараметрических оценок плотности вероятности p ( x) (3)
Библиографические ссылки
1. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.
a
1
б
в
2. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.
3. Лапко В. А., Варочкин С. С., Егорочкин И. А. Разработка и исследование непараметрической оценки плот-
ности вероятности, основанной на принципе декомпозиции обучающей выборки по её объему // Вестник СибГАУ 2009. № 1(22). Ч. 1. С. 45-49.
A. V. Lapko, V A. Lapko
ANALYSIS OF PROPERTIES OF MIXTURE OF NONPARAMETRIC ESTIMATIONS OF A PROBABILITY DENSITY OF A MULTIDIMENSIONAL RANDOM VARIABLE
Asymptotic properties of mixture of nonparametric estimations of a probability density of a multidimensional random variable are researched. Their correlation with properties of a traditional nonparametric estimation of a probability density of Rosenblatt-Parzen type, in accordance with quantity of components of mixture and dimension of a random variable is arranged.
Keywords: mixture of probability densities, nonparametric estimation, the big samples, asymptotic properties.
© Лапко А. В., Лапко В. А., 2010
УДК 6В1.513
А. В. Лапко, В. А. Лапко
СВОЙСТВА НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ УРАВНЕНИЯ РАЗДЕЛЯЮЩЕЙ ПОВЕРХНОСТИ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ОБРАЗОВ ПРИ СЛУЧАЙНЫХ ЗНАЧЕНИЯХ КОЭФФИЦИЕНТОВ РАЗМЫТОСТИ ЯДЕРНЫХ ФУНКЦИЙ*
Исследуются асимптотические свойства непараметрической оценки уравнения разделяющей поверхности, основанной на рандомизированном методе её оптимизации. Проводится их сравнение со свойствами традиционной непараметрической решающей функции парзеновского типа.
Ключевые слова: непараметрическая статистика, распознавание образов, случайные коэффициенты размытости, асимптотические свойства.
Существующий парадокс традиционных методов идентификации стохастических моделей состоит в сопоставлении конечной случайной выборке наблюдений переменных изучаемых объектов конкретного набора параметров модели, оптимальных в некотором смысле.
Впервые возможность случайного выбора коэффициентов размытости ядерных функций при синтезе непараметрической оценки плотности вероятности типа Розенблатта-Парзена была реализована в 1975 г. Т. Вагнером [1]. В работе [2] была предложена методика синтеза непараметрических алгоритмов распознавания образов, основанная на рандомизированном методе её оптимизации. Её идея состоит в признании случайного характера коэффициентов размытости ядерных функций в условиях обучающей выборки конечного объёма и выборе параметров закона их распределения при оптимизации непараметрических решающих правил. На основе анализа асимптотических свойств непараметрической оценки
плотности вероятности типа Розенблатта-Парзена со случайными коэффициентами размытости ядерных функций показана возможность нахождения рационального закона распределения в классе степенных функций. Однако исследование соответствующих непараметрических алгоритмов распознавания образов осуществлялось по данным вычислительных экспериментов.
Цель данной работы состоит в установлении асимптотических свойств непараметрической оценки уравнения разделяющей поверхности, основанной на рандомизированном методе её оптимизации, и их количественной зависимости от параметров закона распределения коэффициентов размытости ядерных функций.
Непараметрический алгоритм распознавания образов со случайныши коэффициентами размыгтости ядерных функций. Рассмотрим методику построения непараметрического классификатора на примере двуальтернативной задачи распознавания образов в пространстве непрерывного признака x .
* Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 20092013 гг., ГК № 02.740.11.0621.