УДК 519.2
01.00.00 Физико-математические науки
НЕПАРАМЕТРИЧЕСКИЕ ЯДЕРНЫЕ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ В ДИСКРЕТНЫХ ПРОСТРАНСТВАХ
Орлов Александр Иванович д.э.н., д.т.н., к.ф.-м.н., профессор РИНЦ БРШ-код: 4342-4994 Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5, prof-orlov@Jmail т Московский физико-технический институт, 141700, Моск. обл., г. Долгопрудный, Институтский пер., 9
Оценки плотности распределения вероятностей в пространствах произвольной природы используют для решения различных задач нечисловой статистики. Систематическое изложение теории таких оценок начато в наших статьях [3, 4], непосредственным продолжением которых является настоящая статья. Регулярно используются ссылки на условия и утверждения из статей [3, 4], в которой введено несколько видов непараметрических оценок плотности вероятности по выборке. Подробнее изучены линейные оценки. В настоящей статье рассмотрим их частные случаи - ядерные оценки плотности в дискретных пространствах. При оценивании плотности числовой случайной величины ядерные оценки переходят в оценки Парзена-Розенблатта. При различных условиях доказана состоятельность и асимптотическая нормальность ядерных оценок плотности. Введено понятие "предпочтительный показатель различия" и изучены ядерные оценки плотности на его основе. Введены и изучены естественные меры близости, используемые при анализе асимптотического поведения ядерных оценок плотности. Ядерные оценки плотности рассмотрены для последовательностей пространств с мерами. Найдены условия, при которых разность плотностей распределений вероятностей и математических ожиданий их ядерных оценок равномерно стремится к 0. Установлена равномерная сходимость для дисперсий. Выявлены условия на ядерные функции, при которых имеют место указанные равномерные сходимости. В качестве примеров рассмотрены пространства нечетких подмножеств конечных множеств и пространства всех подмножеств конечных множеств. Найдено условие, обеспечивающее возможность применения ядерных оценок плотности в конечных пространствах. Приведен контрпример пространства ранжировок, в котором применение ядерных оценок плотности нельзя признать корректным
Ключевые слова: СТАТИСТИЧЕСКИЕ МЕТОДЫ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА,
UDC 519.2
Physics and mathematical sciences
NONPARAMETRIC KERNEL ESTIMATORS OF PROBABILITY DENSITY IN THE DISCRETE SPACES
Orlov Alexander Ivanovich
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,
professor
Bauman Moscow State Technical University, Moscow, Russia
Moscow Physics-Technical Institute; Moscow region, Dolgoprudny, Russia
Some estimators of the probability density function in spaces of arbitrary nature are used for various tasks in statistics of non-numerical data. Systematic exposition of the theory of such estimators has been started in our articles [3, 4]. This article is a direct continuation of these works [3, 4]. We will regularly use references to conditions and theorems of the articles [3, 4], in which introduced several types of nonparametric estimators of the probability density. We have studied linear estimators. In this article, we consider particular cases - kernel density estimates in discrete spaces. When estimating the density of the one-dimensional random variable, kernel estimators become the Parzen-Rosenblatt estimators. Under different conditions, we prove the consistency and asymptotic normality of kernel density estimators. We have introduced the concept of "preferred rate differences" and are studied nuclear density estimators based on it. We have introduced and studied natural affinity measures which are used in the analysis of the asymptotic behavior of kernel density estimators. Kernel density estimates are considered for sequences of spaces with measures. We give the conditions under which the difference between the densities of probability distributions and of the mathematical expectations of their nuclear estimates uniformly tends to 0. Is established the uniform convergence of the variances. We find the conditions on the kernel functions, in which take place these theorems about uniform convergence. As examples, there are considered the spaces of fuzzy subsets of finite sets and the spaces of all subsets of finite sets. We give the condition to support the use of kernel density estimation in finite spaces. We discuss the counterexample of space of rankings in which the application of kernel density estimators can not be correct
Keywords: STATISTICAL METHODS, MATHEMATICAL STATISTICS,
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, НЕЧИСЛОВАЯ СТАТИСТИКА, ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ, ДИСКРЕТНЫЕ ПРОСТРАНСТВА, ЯДЕРНЫЕ ОЦЕНКИ ПЛОТНОСТИ, ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ, СОСТОЯТЕЛЬНЫЕ ОЦЕНКИ, АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ, РАВНОМЕРНАЯ СХОДИМОСТЬ
NONPARAMETRIC STATISTICS, NON-NUMERIC STATISTICS, PROBABILITY DENSITY FUNCTION, THE DISCRETE SPACES, KERNEL DENSITY ESTIMATORS, LIMIT THEOREMS, CONSISTENT ESTIMATORS, ASYMPTOTIC NORMALITY, UNIFORM CONVERGENCE
1. Введение
Непараметрические оценки плотности распределения вероятностей в пространствах произвольной природы - один из основных инструментов нечисловой статистики [1, 2], называемой также статистикой объектов нечисловой природы или статистикой нечисловых данных. Систематическое изложение теории таких оценок начато в статьях [3, 4], непосредственным продолжением которых является настоящая статья. Регулярно используются ссылки на условия и утверждения из статей [3, 4].
Пусть (2, А) - измеримое пространство, р и q - сигма-конечные меры на (2, А), причем р абсолютно непрерывна относительно q, т.е. из q(B) = 0 следует р(В) = 0 для любого множества В из сигма-алгебры А. В этом случае на (2, А) существует неотрицательная измеримая функция Дх) такая, что
q(c) = | / (х )йр (1)
с
для любого множества С из сигма-алгебры измеримых множеств А. Функция Д(х) называется производной Радона - Никодима меры q по мере р, а в случае, когда q - вероятностная мера, также плотностью вероятности q по отношению к мерер [5, с.460].
Пусть Х1, Х2 ,..., Хп - независимые одинаково распределенные случайные элементы (величины), распределение которых задается вероятностной мерой q. В статье [3] введено несколько видов непараметрических оценок плотности вероятности q по выборке Х1, Х2 ,..., Хп. Подробнее изучены линейные оценки. В статье [4] рассмотрены их
частные случаи - ядерные оценки плотности в пространствах произвольной природы. Однако асимптотическая теория оценок плотности развита прежде всего для нужд статистики конкретных видов объектов нечисловой природы, в которой основной интерес представляют конечные пространства 2. Мера р при этом не непрерывная, а дискретная, например, считающая. Таким образом, в рамках единого подхода рассматриваем оценки плотностей и оценки вероятностей.
Для конечных пространств 2 полученные в [3, 4] результаты нельзя применять непосредственно, поскольку, в частности, не выполнено условие (VIII') статьи [4], функция Рх(1) - функция дискретного распределения (а не непрерывного), а потому "не проходят" приведенные в [4] доказательства теорем 3 - 8. Нами развита теория, охватывающая случай конечных пространств 2 (пространств бинарных отношений, подмножеств конечных множеств и др.). Этой теории посвящена настоящая статья.
2. Последовательности моделей оценивания плотностей
Будем изучать асимптотику последовательностей пространств с мерами (с целью в дальнейшем рассмотреть последовательности конечных пространств). Введем новый параметр m и рассмотрим последовательность пространств с мерами (Zm, pm) и соответствующих функций Fm(x, t), задающих зависимость мер шаров с центром в точке x из Zm от радиуса t,
Fm(x, t) = Pm{y: dm(x, y) < t}, m = 1, 2, ..., (1)
где dm - мера близости в Zm (здесь мы несколько модернизируем обозначения, использованные в формулах (6) и (7) статьи [4]). Предположим, что
ft, 0 < t £ C <¥, mimFm(x,0=Fx(t)=| C ,>c. (2)
Рассмотрим также плотности /т в пространствах (2т, рт), задающие непараметрические оценки плотности с ядрами Кт, т = 1, 2, ... Укажем условия, при которых полученные в статьях [3, 4] результаты оказываются асимптотически (при т ® ¥ и п ® ¥) справедливыми для последовательности вероятностных моделей оценивания плотности, задаваемых кортежами (2т, рт, dm,/т, Кт).
Поскольку вместо одной плотности / появляется последовательность плотностей /т, то условия на плотность, в частности, условие (IV) статьи [3], необходимо изменить. Пусть выполнено следующее условие.
(IX) Для любого е> 0 существует д> 0 такое, что | /т (х) - /т (у) |< е, если dm (х, у) <д.
Для упрощения рассуждений наложим на ядра Кт условие равномерной финитности и ограниченности.
(X) Существуют константы О и Е такие, что |Кт(?)| < О при всех t > 0 и Кт(0 = 0 при Т > Е.
Рассмотрим ядерные оценки /пт(х) плотностей /т(х), которые будем изучать,
(х) = П^тЪ) ^ Кт Н^] • Кт ^ ^ ® ^ ' (3)
ПОт (Пп, х)1<г<п V Пп У
где Кт = Кт(и) - ядра (ядерные функции), Нп - последовательность положительных чисел (показателей размытости), От(Ип, х) -нормировочные множители. Согласно формулам (1) и (4) статьи [3]
(d (г У) ^ ¥ ( t ^
От (Л, х) = \Кт ^^^ рт Ш = ¡Кя ^ dFn (х, t). (4)
2т V Лп У 0 V Лп У
Повторим проведенные ранее в статьях [3, 4] рассуждения, отмечая новые моменты, связанные с введением параметра т.
Согласно условию (X) в определении /пт(х) участвуют лишь те элементы выборки X, для которых
dm(x, X) < ЕЛп . (5)
Правая часть неравенства (5) задает радиус окрестности U(x) точки x пространства Zm (в смысле меры близости dm), рассмотрением которого достаточно ограничиться.
Примем, как и в [3, 4], что при п ® ¥ показатель размытости
к . (6) Тогда радиус рассматриваемой окрестности стремится к 0. В силу (2) при 0 < I < Екп < С предельная функция имеет вид = ?. Положим
Гт(х, 0 = Гх^) + Нт(х, (7)
Тогда
Екп / \ Екп / \ Екп / \ Е
/ g\-dFn (х, 0 = / g\-dFx (1) + / g\-dHm (х, I) = ^(и^и + 0 &). (8)
7 — т '
0 V кп )
0 V кп Г х
----т х
0 V к )
Нам понадобится соотношение (8) для g = Кт, g = \Кт\, g = \Кт\ , а качество аппроксимации будет определяться скоростью сходимости атп ^) к 0 при
т ® ¥, п ® ¥.
Имеем согласно (4), условию (X) и (8):
Екп Г \ Е
Ьт (к„, х) = / Кт - ^Гт (х, /) = к„ ¡Кя (u)du + О (Кт ). (9)
0
V кп )
Примем
п
|Кт (и)Ф = 1, О (Кт ) = в(кп ).
(10)
Аналогично (9) имеем
Екп
\' ]
Кт
т V кп )
/ Кт - dFm (х, I) = кп / IКт (И)|du + О (Кт |)
0
(11)
Для справедливости формулы (9) статьи [4] и условия (V) статьи [3] достаточно, чтобы
О (| Кт|) = 0(кп ), (12)
поскольку согласно условию (X)
с, с,
/IКт (и)|du < Б/du = БЕ .
0
0
0
Е
0
0
0
Теорема 1. Если выполнены условия (IX), (X) и справедливы соотношения (6), (10), (12), то разность математических ожиданий оценок М/пт(х) и плотностей /т(х) равномерно стремится к 0 при т , п :
НшЯф/ (х) - /т (х)| = 0. (14)
Доказательство. Возьмем е > 0 и согласно условию (IX) выберем 8> 0, обладающее указанным в этом условии свойством. Пусть БНп < 8 при п > п0. Согласно условию (X) и соотношению (11) статьи [3]
/ (X) - /т (X) = |^пт (х, У)(/п (У) - /т Х)Рт (Ф), (15)
U ( х)
где функции gnm(x) определены формулой (4) статьи [3]. При n > n0 согласно соотношению (12) статьи [3], формулам (9) и (11)
If (Х) - fm (х)| £ e JI gnm (X, >)Pm Ш =
U ( х)
Г я 1 . (16)
= e(hn + amn(Km))-1 \hnJ|K(u) |du + am(|Km |)|
Из (10) и (12) следует, что правая часть (16) не превосходит Fe, где F = const, равномерно по всем х из Zm и n > n0, откуда и вытекает (14). Теорема 1 доказана.
Согласно соотношению (12) статьи [4] для существования дисперсии у оценки fnm(x) достаточно справедливости условия
An К(К, х)J K Учитывая (8) - (10), получаем
¥ f t Л
v hn j
dFm (X, t) <¥ .
(17)
A =
1
(hn +®mn (Km ))2
f я Л
in J Km (u )du + amn (Km)
v 0 J
(18)
Теорема 2. Пусть дополнительно к условиям теоремы 1
amn Ю = o(hn) nhn
Тогда
m®
Нш Бир
хеХ„
пЬЖт(х) -/т(х){К2т(и)йи
0.
(20)
Доказательство проводится аналогично доказательству теорем 6 и 7 статьи [4].
Как видно из проведенных выше рассуждений, при рассмотрении последовательностей моделей оценивания плотностей в пространствах с
мерой принципиально новыми являются условия
Щ, ( I \
\
8 т
V Кп у
й(рт (X, г) - г) = а(Ип),
(21)
2
где = Кт, = \Кт\, = \Кт\ (ср. (8)). С помощью замены переменных и = г/Ип от (21) перейдем к условиям
' Рт (X \и)
|8 т (и)й(Рт (X, Ки) - Ки) = Кп 18т ОМ
0 0
т.е. к условиям
Е
[ 8т (и)й
П®¥ J т®¥ 0
Введем условие
К
- и
■а(К ):
(22)
( ¥т ( х, Ипи) Л
т\ ? п /__..
и
К
= 0.
(23)
у
Нш Рт (X, К,и) = и, и е (0,Е].
п®¥ к
(24)
В [1, с.230] показано, что для вывода (23) из (24) необходимо и достаточно (в указанном там смысле), чтобы функции (и) были равностепенно (по т) интегрируемы по Риману. В частности, достаточно, чтобы они были равностепенно непрерывными.
Теорема 3. Соотношения (10), (12), (19) выполнены, если ядерные функции Кт равностепенно непрерывны и справедливо (24).
Требование равностепенной непрерывности связано с тем, что ядра Кт могут зависеть от параметра т. В приложениях обычно достаточно положить Кт = К и вместо условия (X) принять условие (X'):
(X') Ядро К: [0, +¥] ® я1 - непрерывная финитная функция.
0
т®
0
т®¥
Рассмотрим примеры применения развитой выше теории для построения ядерных оценок плотности в конкретных дискретных пространствах.
3. Нечеткие подмножества конечных множеств
Пример 1. Рассмотрим последовательность Zm, m = (r, q), пространств нечетких множеств, являющихся подмножествами конечных множеств
Y = {• ,1,..., i,..., ,ll r = 1,2,... , (25)
[ r r r r J
функции принадлежности которых принимают значения из конечных множеств
Wq = Jo, -1, 2, ..., j, ..., , ll q = 1,2,... . (26) I q q q q J
Очевидно, число элементов пространства Zm равно
Card(Zm ) = (q + 1)r. (27)
Пусть f и g - функции принадлежности нечетких множеств, т.е. функции, отображающие Yr в Wq. Естественно рассмотреть меру близости d (f, g) = sup |f (y) - g (y )| (28)
y6 Yr
и окрестности
Lt/ (f) = \ g: sup | f (y) - g (y) |< ¥ \, t = 0,1,2,... . (29)
/q I yeYr / yj
Если
- < min f (y) < max f (y) < 1 - -, (30)
q y^Yy ycYr q
то, как нетрудно видеть, число элементов в рассматриваемой окрестности равно
Card^L^ (f) j = (2t + 1)r. (31)
Пусть pm - вероятностная мера на Zm, приписывающая всем элементам Zm одну и ту же вероятность. Тогда при справедливости (30)
(/) I =
СаМ\Ь(/ (/) | г 2, +1 ^
(ч+1)г
V ч +1 у
г,л 1
— + —
V ч у ч
1+ 1
ч
(32)
Положим
4( /, Е ) =
2вир| / (у) - е (у)| +1
уеТг Ч
1 +1 ч
(33)
Тогда
Рт(/, 0 = Рт{& ¿) < ,} = t в точках , в которых
2s +1
(34)
Г
Ч +1
(35)
при некотором целом неотрицательном я. Функция Бт(/, ,) имеет скачки в точках
^ =
Г +1У
V ч +1 у
, я = 0,1,2,...,
(36)
и кусочно постоянна между ними. Значит, при любых ,, таких, что . 1 < , < 4, имеем
0 < , - Бт(/, 0 < ^ - 4 . 1 . (37)
Элементарные выкладки дают
, -, , = —
я я-1
Ч
(38)
Следовательно,
^(/, = и +
А.
2г , 1-х
Л
—А „ и
V Ч у
(39)
Для справедливости (24) и, следовательно, для применимости развитой выше теории ядерных оценок плотности достаточно, чтобы двумерный параметр т = (г, ч) был связан с объемом выборки п таким образом, чтобы
-к-/- ® 0. (40)
ч
г
2
г
ч
г
-г
Если r = na, q = nb, то
h~K < П
(41)
и для справедливости (40) необходимо и достаточно, чтобы /3>а. Ядерная оценка плотности имеет вид
1
1 n
fnm ( x) =~Г Z Km nh 77
2sup| x( y) - Xi (y)\ +
yeYr q
h
+1 у
v q)
. (42)
a
4. Пространства всех подмножеств конечных множеств
Пример 2. Рассмотрим последовательность Zm пространств всех подмножеств множеств D(m) из m элементов, т.е. Zm = 2D(m). Пространство Zm состоит из 2m элементов. Пусть pm - вероятностная мера, соответствующая равномерному распределению на Zm. Известно [1], что из некоторой естественной системы аксиом вытекает, что в качестве расстояния между двумя множествами A, B следует использовать меру симметрической разности этих множеств:
Card (ADB)
dm( A, B) = Pm (ADB) =
2"
(43)
Вычислимpm{B: dm(A, B) < t}. В силу изотропности пространства Zm (см. [1]) достаточно рассмотреть случай A = 0 . Тогда условие Card(ADB) < s переходит в условие Card (B) < s, а потому
Z
( m^
B : dm (A, B) <— I = ^
m \ ' / 2 m I 2 m
v i )
(44)
Поскольку в силу интегральной теоремы Муавра-Лапласа
lim sup
Z 0<i<s ' m ^ v i )
2 m
f
-Ф
2s - m
= 0.
(45)
m
s
то естественно рассмотреть меру близости
, , , Пч 2Сагё(ЛАБ) - т < (Л, Б) = Ф 4 7
и ядерную оценку плотности
(46)
/пт (Л) =4" £ К
г Фг 2Сагё (ЛАХ1) - т
т
пАп 1<?<п
к
(47)
Таким образом, функция Бт(Л, ,) кусочно постоянна, имеет скачки в точках
(
I, =Ф
- т
я = 0,1,2,...
(48)
и в этих точках принимает значения
т
Рт (Л, К ) = 2-т £
0£г'£з\ ' У
(49)
Следовательно,
Р (Л, кпи) = Р
X <
4тФ 1(Апи) + т
(50)
где X имеет биномиальное распределение с параметрами т и р =0,5. Для справедливости (24) необходимо, чтобы
Рт (ф~1(Апи))) ) 1
к и
(51)
где
Рт (Ф-1 (кпи))) = РГ^^ < Ф-1 (кпи)
V л/да
Обозначим
Сп = Сп (и) = Ф-1(Апи).
Тогда сп ® -¥ при п ® ¥, и (51) переходит в условие
Рт (Сп )
Ф(Сп )
® 1.
(52)
(53)
(54)
По известной теореме [6, с.207] для справедливости (54) достаточно, чтобы
2
С" 0. (55)
/т
Согласно известной формуле [, с.11] об асимптотике нормального распределения
^ -V- 2(1пИп + 1пи)). (56)
Следовательно, если
т > О[1пкп]6+г, О > 0, у> 0, (57)
то выполнены соотношения (55), (54), а потому (51) и (24), и использование ядерной оценки плотности (47) корректно.
5. Широкая распространенность условия (24)
В примерах 1 и 2 использовались свойства конкретных дискретных пространств нечисловой природы. Продемонстрируем, что справедливость условия (24) широко распространена, а не является исключением.
Пусть 7т - последовательность конечных пространств нечисловой природы,
Рт(А) = А £ ¿т, (58)
и dm - расстояние (мера близости) в 7т. Тогда
Рт(АМ) = СаЫУ'1У7,Х £= ^(х,0. (59)
СаМ{7т}
Как обычно, положим
d\m (У, X) = X, dm (У, X)) (60)
и рассмотрим
Рт (х, 0 =Рт {у : d\m (У, х) < (}. (61)
Тогда ¥т(х, 0 кусочно постоянна и имеет скачки в точках i = 1, 2, ..., причем
Рт(х, ^ = ^ . (62)
Кроме того, при ti - 1 < t < ti имеем
0 < t - Fm(x, t) < ti - ti .
Чтобы можно было приблизить дискретную модель непрерывной, необходимо потребовать, чтобы при m ® ¥
max(t; - ti_1) ® 0. (64)
Из (64) согласно (63) следует, что
lim Fm (x, t) = t (65)
для любого t > 0.
Если зафиксировать n, то (24) эквивалентно условию
(66)
lim Fm (Xt) = 1, t > 0.
Пусть выполнено (65). Покажем, что можно построить последовательность тп = т(кп), п = 1, 2, ..., так, чтобы было справедливо соотношение (24).
Рассмотрим убывающую ип и возрастающую тп последовательности такие, что
hnun = tn, un ® 0, sup
t>tn
Fm (X, t)
_ 1
< —, m > mn. n
(67)
Покажем, что удовлетворяющая (67) последовательность тп существует. Как известно, их поточечной сходимости (65) вытекает равномерная сходимость функций распределения:
8^1 (х, г) - А <е (68)
при m > m(e). Следовательно, при любом t
Fm ( X , t )
e
< —.
t
(69)
Поскольку t > tn, то из (69) следует, что Fm ( X, t)
sup
t>t,
<e
1
t
1
t
t
t
n
Следовательно, положив е = , получим, что при тп >
т > т гпу
п ' ^ А п /п
справедливо (67).
Рассмотрим последовательность чп = Ипи, п = 1, 2, ..., Тогда при п > п0 имеем ип < и. В соответствии с (67)
Рт (^ Ипи)
К
<и (71)
п
при т > тп. Следовательно, если при п параметр т меняется так, что т > тп, то справедливо (24).
Таким образом, условие (64) оказывается достаточным для обоснования корректности применения ядерных оценок плотности.
6. Контрпример
Приведем пример пространства, в котором применение ядерных оценок плотности нельзя признать корректным.
В пространствах объектов нечисловой природы расстояния могут вводиться с помощью понятия "соседства". Некоторые пары объектов объявляют "соседями" и расстояние между ними принимают равным 1. Чтобы измерить расстояние между объектами а и Ь, строят всевозможные последовательности объектов из этого пространства а1 = а, а2, а3, ..., аь = Ь такие, что а1 и аг+1 являются соседями, г = 1, 2, ..., к - 1. Расстоянием (1(а, Ь) между а и Ь объявляют наименьшую из длин последовательностей рассматриваемого вида [8, 9].
Пример 3. В качестве примера рассмотрим пространство 2т ранжировок (без связей) т объектов (в терминах комбинаторики -пространство перестановок т объектов). Тогда
Саг((2т) = т! (72)
"Соседями" назовем ранжировки, отличающиеся одной инверсией. Тогда у
т
ранжировки Я имеется соседей. Условию
V 2 У
d(Я, X) = 2 удовлетворяют
С т Л V 2 У
С т Л V 2 У
1
ранжировок, поскольку для каждой из
удовлетворяющих условию d(Я, У) = 1, одна из
С т Л V 2 У
С т Л V 2 У
(73)
(74)
ранжировок У, инверсий приводит
опять к Я, а остальные
С т Л V 2 У
1 инверсий - к ранжировкам X,
удовлетворяющих условию (73). Можно показать, что при малых (по сравнению с т) значениях t справедлива аппроксимация
СаМ (Ц (Я))
/ у
т 2
(75)
Пусть Рт - вероятностная мера, соответствующая равномерному распределению на 7т. Тогда согласно (75) естественно рассмотреть ядерную оценку плотности
Сг ^ (Я,х) Л
!пт (Я):
пк
2 к.
\<г■<n
V 2 У
кт!
(76)
Проверим справедливость соотношения (64). В силу (75)
I _
С т Л
_ V 2 У
т!
I С тЛ
V 2 У
(77)
Значит, соотношение (64) не может быть выполнено, и полученные выше в настоящей статье результаты не применимы к статистике (76). Причина
1
t
■ -1
состоит в слишком быстром росте Card(Lt(R)) согласно (75) (ср. (77) с ростом аналогичных величин в других пространствах объектов нечисловой природы - пространстве нечетких множеств (см. (31)) и пространстве подмножеств конечного множества (см. (44)).
Таким образом, примеры 1 и 2 показывают, что результаты настоящей статьи позволяют строить ядерные оценки плотности в конкретных дискретных (конечных) пространствах нечисловой природы. В следующем разделе 5 сформулировано общее свойство рассматриваемых пространств, позволяющее обосновать корректность ядерных оценок. Пример 3 является контрпримером, демонстрирующим, что проведенные в настоящей статье рассмотрения применимы не ко всем пространствам объектов нечисловой природы.
7. Роль ядерных оценок плотности в статистике в пространствах произвольной природы
Статистика в пространствах произвольной природы - сердцевина статистики объектов нечисловой природы (статистики нечисловых данных, нечисловой статистики) [1, 2]. В этой научной области есть ряд ключевых понятий. К ним относятся прежде всего понятия эмпирических и теоретических средних.
Вначале эмпирические и теоретические средние в пространствах произвольной природы были введены и законы больших чисел для них получены на языке теории случайных множеств в работах 1978 г. [10, 11]. В первой научной монографии автора настоящей статьи (написана летом 1977 г., вышла в 1979 г. в серии «Проблемы советской экономики») были подведены итоги исследований в конкретных направлениях статистики объектов нечисловой природы (теории измерений, теории нечеткости, теории толерантностей, теории конечных случайных множеств и др.), установлены связи между отдельными видами объектов нечисловой
природы, появился (в предисловии) сам термин «статистика объектов нечисловой природы» [12]. Однако в ней еще не была выявлена роль статистики в пространствах общей (т.е. произвольной) природы. Например, законы больших чисел формулировались для случайных множеств, а не для эмпирических и теоретических средних в пространствах общей природы.
Надо отметить, что термин «устойчивость» в массовом сознании специалистов до сих пор часто ассоциируется с устойчивостью по Ляпунову и иной тематикой динамических систем, описываемых дифференциальными уравнениями. Поэтому название нашей первой научной монографии [12], хотя и верное по существу дела, при поверхностном восприятии порождало неверные ассоциации.
После выхода первой научной монографии автор настоящей статьи сузил область исследований, сосредоточившись на статистике объектов нечисловой природы. Название «статистика объектов нечисловой природы» ассоциируется правильно - с прикладной (математической) статистикой. Неправильные ассоциации с официальной государственной статистикой (ЦСУ, Госкомстат, Росстат) имеются на более высоком уровне иерархии понятий. Заслуживает обсуждения предложение заменить термин «прикладная статистика» на иной термин для ликвидации ложных ассоциаций, например, на термин «анализ данных», чтобы окончательно отмежеваться от официальной государственной статистики.
Следующий принципиально важный шаг был сделан в написанной годом позже (в 1978 г.) работе [13]. В ней была разработана программа развития нового направления прикладной статистики - статистики объектов нечисловой природы, реализованная позже, в основном в 80-х годах. Сформулированы все основные постановки и результаты. Показано, что стимулом к развитию статистики объектов нечисловой природы является теория и практика экспертных оценок. Статистика объектов
нечисловой природы является частью общей теории устойчивости, выделенной нами в качестве наиболее актуальной и перспективной.
Важным этапом в становлении и развитии статистики в пространствах общей природы является небольшая книга (брошюра) [14]. Она представляет собой «выжимку» моих работ 70-х годов, т.е. теории устойчивости и в особенности статистики объектов нечисловой природы, с уклоном в методологию. Эта книга включает в себя основные результаты по теории нечеткости и ее сведению к теории случайных множеств, а также новые результаты (первая публикация!) по статистике нечетких и случайных множеств. Задачи оптимизации увязывались с медианой Кемени, эмпирическими и теоретическими средними в пространствах произвольной природы. Именно с этой небольшой книги можно посоветовать начинать знакомство с рассматриваемым научным направлением. С брошюрой [14] тоже связано недоразумение - она вышла в научно-популярной серии "Математика, кибернетика" издательства "Знание", хотя по существу была научной монографией. Поэтому, несмотря на солидный тираж (40 тыс. экз.), эта брошюра сравнительно редко упоминается в научных изданиях.
Принципиально важной является работа [15]. В ней получены наиболее общие результаты, касающиеся законов больших чисел и асимптотики решений экстремальных (т.е. оптимизационных) статистических задач в пространствах общей природы. Доказательства нигде больше не публиковались. Работу целесообразно переиздать, чтобы сделать формулировки и доказательства теорем доступными современным читателям.
Краткое описание полученных в статье 1982 г. [15] результатов дано в заметке, посвященной их применению в конкретных задачах прикладной статистики [16]. На основе общих результатов об асимптотическом
поведении решения экстремальных статистических задач изучены, в частности, свойства нового метода экспертных оценок [17].
Важный частный случай асимптотики решений экстремальных статистических задач - оптимизационный подход к определению средних величин и законы больших чисел в пространствах общей природы -рассмотрен в серии статей [18 - 21].
Непараметрические оценки плотности распределения вероятностей в произвольных пространствах были введены в программной статье 1979 г. [13], "породившей" новую область прикладной статистики - статистику объектов нечисловой природы. Весьма важна новаторская фундаментальная работа [22], полностью посвященная непараметрическим оценкам плотности в топологических пространствах. В ней впервые введен ряд классов непараметрических оценок плотности в пространствах произвольной природы и доказана их состоятельность. Доказательства нигде больше не публиковались. Работу целесообразно переиздать, чтобы сделать формулировки и доказательства теорем доступными современным читателям.
Дальнейшее развитие теории непараметрических оценок плотности в пространствах произвольной природы дано в статьях [23 - 25]. Показано, что оптимальная скорость сходимости - та же, что и для непараметрических оценок плотности для числовых случайных величин. Поэтому можно сказать, что рассматриваемая теория доведена до ее естественных границ.
В этих статьях указано также на использование ядерных (и иных) оценок плотности для решения задач классификации [26, 27], прежде всего дискриминации (диагностики) [28, 29].
Современный этап углубленного изучения непараметрических оценки плотности в пространствах произвольной природы, в том числе
ядерных оценок, отражен в работах [3, 4], а также [30, 31]. Нужны дальнейшие исследования.
Литература
1. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. 2009. - 541 с.
2. Орлов А.И. О развитии статистики объектов нечисловой природы // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2013. № 93. С. 41-50.
3. Орлов А.И. Оценки плотности распределения вероятностей в пространствах произвольной природы // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 99. С. 15-32.
4. Орлов А.И. Предельные теоремы для ядерных оценок плотности в пространствах произвольной природы // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 108. С. 316 - 333.
5. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. - М.: Большая Российская Энциклопедия, 1999. - 910 с.
6. Феллер В. Введение в теорию вероятностей и её приложения: Том 1. - М.: Мир, 1984. - 528 с.
7. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики / 3-е изд. - М.: Наука, 1983. - 416 с.
8. Куликов С.М. Структурные меры близости в пространстве классификаций и разбиений // Прикладная статистика. - М.: Наука, 1983. - С. 282-286.
9. Тюрин Ю.Н. Экспертная классификация // Экспертные методы в системных исследованиях / Сборник трудов ВНИИСИ. - 1979. - Вып.4. - С.5-15.
10. Орлов А.И. Элементы теории конечных случайных множеств // Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - М.: Наука, 1978. С.301-307.
11. Орлов А.И. Случайные множества: законы больших чисел, проверка статистических гипотез // Теория вероятностей и ее применения. 1978. Т. XXIII. №2. С. 462-464.
12. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
13. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки // Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1979. С.17-33.
14. Орлов А.И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980. - 64 с.
15. Орлов А.И. Асимптотика решений экстремальных статистических задач // Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып. 10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. С. 412.
16. Орлов А.И. Асимптотическое поведение решений экстремальных статистических задач // Заводская лаборатория. Диагностика материалов. 1996. Т.62. №10. С. 45-46.
17. Орлов А.И. Теоретическое обоснование «турнирного» метода ранжирования вариантов // Заводская лаборатория. Диагностика материалов. 2005. Т.71. №7. С.60-61.
18. Орлов А.И., Жихарев В.Н. Законы больших чисел и состоятельность статистических оценок в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. -Пермь; Изд-во Пермского государственного университета, 1998. С.65-84.
19. Орлов А. И. Средние величины и законы больших чисел в пространствах произвольной природы // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2013. № 89. С. 175-200.
20. Орлов А.И. Средние величины и законы больших чисел в топологических пространствах с показателями различия // Статистика и её применения. Материалы республиканской научно-практической конференции (Ташкент, 17-18 октября 2013 г.). - Ташкент; Изд-во «Университет», 2013. - С.30-37.
21. Орлов А. И. О средних величинах // Управление большими системами. Выпуск 46. М.: ИПУ РАН, 2013. С.88-117.
22. Орлов А.И. Непараметрические оценки плотности в топологических пространствах // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С. 12-40.
23. Орлов А.И. Классификация объектов нечисловой природы на основе непараметрических оценок плотности // Проблемы компьютерного анализа данных и моделирования: Сборник научных статей. - Минск: Изд-во Белорусского государственного университета, 1991. С.141-148.
24. Орлов А.И. Ядерные оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Пермский госуниверситет, 1996. С.68-75.
25. Орлов А.И. Математические методы исследования и диагностика материалов (Обобщающая статья) // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №3. С.53-64.
26. Орлов А.И. О развитии математических методов теории классификации // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №7. С. 51-63.
27. Орлов А.И. Математические методы теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 95. С. 23 - 45.
28. Орлов А.И. Базовые результаты математической теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 110. С. 219-239.
29. Орлов А. И. Три основных результата математической теории классификации // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №5. С. 63-70.
30. Орлов А. И. Оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. - Пермь, 2013. - Вып. 25. - С.21-33.
31. Орлов А. И. Ядерные оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. - Пермь, 2015. - Вып. 26. - С. 43-57.
References
1. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik : v 3 ch. Chast' 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. 2009. - 541 s.
2. Orlov A.I. O razvitii statistiki ob#ektov nechislovoj prirody // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2013. № 93. S. 41-50.
3. Orlov A.I. Ocenki plotnosti raspredelenija verojatnostej v prostranstvah proizvol'noj prirody // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 99. S. 15-32.
4. Orlov A.I. Predel'nye teoremy dlja jadernyh ocenok plotnosti v prostranstvah proizvol'noj prirody // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. № 108. S. 316 - 333.
5. Verojatnost' i matematicheskaja statistika: Jenciklopedija / Gl. red. Ju.V. Prohorov. - M.: Bol'shaja Rossijskaja Jenciklopedija, 1999. - 910 s.
6. Feller V. Vvedenie v teoriju verojatnostej i ejo prilozhenija: Tom 1. - M.: Mir, 1984. - 528 s.
7. Bol'shev L.N., Smirnov N.V. Tablicy matematicheskoj statistiki / 3-e izd. - M.: Nauka, 1983. - 416 s.
8. Kulikov S.M. Strukturnye mery blizosti v prostranstve klassifikacij i razbienij // Prikladnaja statistika. - M.: Nauka, 1983. - S. 282-286.
9. Tjurin Ju.N. Jekspertnaja klassifikacija // Jekspertnye metody v sistemnyh issledovanijah / Sbornik trudov VNIISI. - 1979. - Vyp.4. - S.5-15.
10. Orlov A.I. Jelementy teorii konechnyh sluchajnyh mnozhestv // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.301-307.
11. Orlov A.I. Sluchajnye mnozhestva: zakony bol'shih chisel, proverka statisticheskih gipotez // Teorija verojatnostej i ee primenenija. 1978. T. XXIII. №2. S. 462464.
12. Orlov A.I. Ustojchivost' v social'no-jekonomicheskih modeljah. - M.: Nauka, 1979. - 296 s.
13. Orlov A.I. Statistika ob#ektov nechislovoj prirody i jekspertnye ocenki // Jekspertnye ocenki / Voprosy kibernetiki. Vyp.58. - M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme «Kibernetika», 1979. S.17-33.
14. Orlov A.I. Zadachi optimizacii i nechetkie peremennye. - M.: Znanie, 1980. -
64 s.
15. Orlov A.I. Asimptotika reshenij jekstremal'nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel'skij institut sistemnyh issledovanij, 1982. S. 4-12.
16. Orlov A.I. Asimptoticheskoe povedenie reshenij jekstremal'nyh statisticheskih zadach // Zavodskaja laboratorija. Diagnostika materialov. 1996. T.62. №10. S. 45-46.
17. Orlov A.I. Teoreticheskoe obosnovanie «turnirnogo» metoda ranzhirovanija variantov // Zavodskaja laboratorija. Diagnostika materialov. 2005. T.71. №7. S.60-61.
18. Orlov A.I., Zhiharev V.N. Zakony bol'shih chisel i sostojatel'nost' statisticheskih ocenok v prostranstvah proizvol'noj prirody // Statisticheskie metody ocenivanija i proverki gipotez. Mezhvuzovskij sbornik nauchnyh trudov. - Perm': Izd-vo Permskogo gosudarstvennogo universiteta, 1998. S.65-84.
19. Orlov A.I. Srednie velichiny i zakony bol'shih chisel v prostranstvah proizvol'noj prirody // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2013. № 89. S. 175-200.
20. Orlov A.I. Srednie velichiny i zakony bol'shih chisel v topologicheskih prostranstvah s pokazateljami razlichija // Statistika i ejo primenenija. Materialy respublikanskoj nauchno-prakticheskoj konferencii (Tashkent, 17-18 oktjabrja 2013 g.). -Tashkent: Izd-vo «Universitet», 2013. - S.30-37.
21. Orlov A. I. O srednih velichinah // Upravlenie bol'shimi sistemami. Vypusk 46. M.: IPU RAN, 2013. S.88-117.
22. Orlov A.I. Neparametricheskie ocenki plotnosti v topologicheskih prostranstvah // Prikladnaja statistika. Uchenye zapiski po statistike, t.45. - M.: Nauka, 1983. S. 12-40.
23. Orlov A.I. Klassifikacija ob#ektov nechislovoj prirody na osnove neparametricheskih ocenok plotnosti // Problemy komp'juternogo analiza dannyh i modelirovanija: Sbornik nauchnyh statej. - Minsk: Izd-vo Belorusskogo gosudarstvennogo universiteta, 1991. S.141-148.
24. Orlov A.I. Jadernye ocenki plotnosti v prostranstvah proizvol'noj prirody // Statisticheskie metody ocenivanija i proverki gipotez. Mezhvuzovskij sbornik nauchnyh trudov. - Perm': Permskij gosuniversitet, 1996. S.68-75.
25. Orlov A.I. Matematicheskie metody issledovanija i diagnostika materialov (Obobshhajushhaja stat'ja) // Zavodskaja laboratorija. Diagnostika materialov. 2003. T.69. №3. S.53-64.
26. Orlov A.I. O razvitii matematicheskih metodov teorii klassifikacii // Zavodskaja laboratorija. Diagnostika materialov. 2009. T.75. №7. S.51-63.
27. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 95. S. 23 - 45.
28. Orlov A.I. Bazovye rezul'taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. № 110. S. 219-239.
29. Orlov A.I. Tri osnovnyh rezul'tata matematicheskoj teorii klassifikacii // Zavodskaja laboratorija. Diagnostika materialov. 2016. T.82. №5. S. 63-70.
30. Orlov A.I. Ocenki plotnosti v prostranstvah proizvol'noj prirody // Statisticheskie metody ocenivanija i proverki gipotez: mezhvuz. sb. nauch. tr. / Perm. gos. nac. issl. un-t. - Perm', 2013. - Vyp. 25. - S.21-33.
31. Orlov A.I. Jadernye ocenki plotnosti v prostranstvah proizvol'noj prirody // Statisticheskie metody ocenivanija i proverki gipotez: mezhvuz. sb. nauch. tr. / Perm. gos. nac. issl. un-t. - Perm', 2015. - Vyp. 26. - S. 43-57.