Научная статья на тему 'Зависимость свойств регрессионной оценки плотности вероятности от особенностей методики её синтеза'

Зависимость свойств регрессионной оценки плотности вероятности от особенностей методики её синтеза Текст научной статьи по специальности «Математика»

CC BY
127
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛОТНОСТЬ ВЕРОЯТНОСТИ / РЕГРЕССИОННАЯ ОЦЕНКА / АППРОКСИМАЦИОННЫЕ СВОЙСТВА / МЕТОДЫ ДИСКРЕТИЗАЦИИ / PROBABILITY DENSITY / REGRESSION ESTIMATOR / APPROXIMATING PROPERTIES / DIGITIZATION METHODS

Аннотация научной статьи по математике, автор научной работы — Борисов Дмитрий Владимирович, Лапко Александр Васильевич, Лапко Василий Александрович

Исследуются аппроксимационные свойства регрессионной оценки плотности вероятности. Синтез оценки основывается на декомпозиции исходных статистических данных и анализе вероятностных характеристик получаемых множеств случайных величин. Устанавливается зависимость свойств регрессионной оценки плотности вероятности от методов дискретизации интервала значений случайной величины. Из условия минимума асимптотического выражения среднеквадратического отклонения определена процедура оптимального выбора количества интервалов дискретизации. Полученная формула зависит от вида восстанавливаемой плотности вероятности и объёма априорных данных. Результаты исследований имеют важное значение при решении задач проверки гипотез о распределениях случайных величин и доверительного оценивания плотности вероятности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Dependence of the regression estimator properties of a probability density on singularities of its synthesis technique

Approximating properties of the regression estimator of a probability density are investigated. Estimation synthesis is based on decomposition of initial statistical data and the analysis ofprobabilistic characteristics of received sets of random variables. Dependence of the regression estimator properties of a probability density on methods of digitization of an interval of values of a random variable is established. A deviation mean square procedure of an optimum choice of an amount of intervals of digitization is defined from a condition of a minimum of asymptotic expression. The received formula depends on an aspect of a restored probability density and volume of a priori data. Outcomes of researches are important to the solution of the problems of a hypothesis test about distributions of random variables and a confidential estimation of a probability density.

Текст научной работы на тему «Зависимость свойств регрессионной оценки плотности вероятности от особенностей методики её синтеза»

УДК 519.7

ЗАВИСИМОСТЬ СВОЙСТВ РЕГРЕССИОННОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ ОТ ОСОБЕННОСТЕЙ МЕТОДИКИ ЕЁ СИНТЕЗА*

Д. В. Борисов1, А. В. Лапко1, 2, В. А. Лапко1, 2

1 Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: valapko@yandex.ru 2Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50, стр. 44. Е-mail: lapko@icm.krasn.ru

Исследуются аппроксимационные свойства регрессионной оценки плотности вероятности. Синтез оценки основывается на декомпозиции исходных статистических данных и анализе вероятностных характеристик получаемых множеств случайных величин. Устанавливается зависимость свойств регрессионной оценки плотности вероятности от методов дискретизации интервала значений случайной величины. Из условия минимума асимптотического выражения среднеквадратического отклонения определена процедура оптимального выбора количества интервалов дискретизации. Полученная формула зависит от вида восстанавливаемой плотности вероятности и объёма априорных данных. Результаты исследований имеют важное значение при решении задач проверки гипотез о распределениях случайных величин и доверительного оценивания плотности вероятности.

Ключевые слова: плотность вероятности, регрессионная оценка, аппроксимационные свойства, методы дискретизации.

DEPENDENCE OF THE REGRESSION ESTIMATOR PROPERTIES OF A PROBABILITY DENSITY ON SINGULARITIES OF ITS SYNTHESIS TECHNIQUE

D. V. Borisov1, A. V. Lapko1, 2, V. A. Lapko1, 2

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation Е-mail: valapko@yandex.ru 2Institute of Computational Modeling, Siberian Branch of RAS 50, Akademgorodok, Krasnoyarsk, 660036, Russian Federation Е-mail: lapko@icm.krasn.ru

Approximating properties of the regression estimator of a probability density are investigated. Estimation synthesis is based on decomposition of initial statistical data and the analysis ofprobabilistic characteristics of received sets of random variables. Dependence of the regression estimator properties of a probability density on methods of digitization of an interval of values of a random variable is established. A deviation mean square procedure of an optimum choice of an amount of intervals of digitization is defined from a condition of a minimum of asymptotic expression. The received formula depends on an aspect of a restored probability density and volume of a priori data. Outcomes of researches are important to the solution of the problems of a hypothesis test about distributions of random variables and a confidential estimation of a probability density.

Keywords: probability density, regression estimator, approximating properties, digitization methods.

Непараметрические оценки плотности вероятности типа Розенблатта-Парзена широко используются при синтезе алгоритмов обработки информации и принятии решений в условиях априорной неопределённости [1-11]. Однако их вычислительная эффективность во многом определяется объёмом статистических данных и снижается по мере его увеличения.

В данных условиях целесообразно использовать принципы декомпозиции исходных статистических данных по их объёму и технологию параллельных вычислений. С этих позиций предложена и исследована смесь непараметрических оценок плотностей вероят-

ности для одномерных и многомерных случайных величин [4; 12; 13].

Перспективное направление решения проблем больших выборок связано с декомпозицией исходных статистических данных и последующим анализом вероятностных характеристик получаемых множеств случайных величин [14; 15].

Пусть имеется выборка V = (, I = 1, п) из п независимых значений одномерной случайной величины x с неизвестной плотностью вероятности p(x). Разобьем область определения p(x) на N непересекающихся

* Работа выполнена в рамках базовой части государственного задания Минобрнауки РФ (СибГАУ № Б121/14).

интервалов длиной 2р и сформируем множества случайных величин X', ' = 1, N . В качестве характеристик X' примем частоту Р' попадания случайной величины х в '-й интервал и его центр . На основе полученной информации определим массив данных

V = (, Р' /(2Р), ' = 1, N), составленный из центров

2' введенных интервалов и соответствующих им значений оценок плотности вероятности. Объём N полученных данных V может быть значительно меньше объёма п исходной статистической информации V. В качестве приближения по эмпирическим данным

V искомой плотности вероятности р(х) примем статистику [15]

Р (х ) = с X Р'ф

'=1

(1)

в которой ядерные функции ф(и) являются положительными, симметричными и нормированными [16]. Коэффициенты размытости с ядерных функций характеризуют область их определения.

В работе исследуется зависимость аппроксимаци-онных свойств регрессионной оценки плотности вероятности (1) от известных методов дискретизации области изменения значений случайной величины.

Выбор оптимального количества интервалов дискретизации области значений случайной величины. В работе [17] исследованы свойства средне-квадратического отклонения

М | (р (х)- р (х))2 ёх

W2 ^ ) =

(И" )2 )1 Р (2)(х )|

1

2 Л 5

2 N4

(2)

3 И р (х )12 Г

N2

\1/5

где

N =

\Р (х )|2

(3)

которая определяется видом восстанавливаемой плотности вероятности, значением Д и объёмом п исходных статистических данных. Полученная закономерность является объективной, так как не зависит от вида ядерных функций оценки плотности вероятности (1).

Исследование аппроксимационной регрессионной оценки плотности вероятности. Будем восстанавливать плотность вероятности случайной величины с нормальным законом распределения

Р(х ) = ^=ехР I

\/2л

- х

Т

Для выбора количества интервалов дискретизации области изменения значений случайной величины используется выражение (3), а также следующие формулы:

- Хайнкольда и Гаеде

N = 4п ; (4)

- Брукса и Каррузера

N = 5 п ; (5)

- Старджесса

N = 1оя2 п +1. (6)

Синтез непараметрической оценки плотности вероятности (1) осуществлялся на основе ядерных функций В. А. Епанечникова [16]

3 3 и2

ф(и ) =

V

4л/5 20 75 0 V

В данных условиях выражение (2) запишется в виде

|и| <л/5, |и| > у/5 .

оценки р (х) (1) от восстанавливаемой плотности

вероятности р(х) при больших объёмах исходных статистических данных, где М - знак математического ожидания. При оптимальных значениях коэффициентов размытости получено его асимптотическое выражение

'2 10

1

~5(

N

15 N4

При увеличении объёма п исходных статистических данных применение исследуемых методов дискретизации интервала изменения значений случайной

величины приводит к уменьшению значений

Ж,

(Д|| р (х )|2)

+да +да

ф (и)||2 = | Ф2 (и)ёи , ||р (х)2 = | р2 (х) ёх ,

—да —да

||р(2) (х)|2 = | (р(2) (х))2 ёх;

Д - длина интервала изменения значений случайной величины.

Из условия минимума асимптотического выражения среднеквадратического отклонения р (х) от р(х)

получена процедура оптимального выбора количества интервалов дискретизации [17; 18]

(см. рисунок). Наблюдаемое улучшение аппроксима-ционных свойств р (х) объясняется увеличением объёма N массива данных Ух, используемого при построении регрессионной оценки плотности вероятности (см. таблицу). Данный факт согласуется с условиями её асимптотической сходимости [15].

Зависимость количества интервалов N от значений п и используемых формул дискретизации

п Формулы дискретизации

(3) (4) (5) (6)

50 9 7 8 7

100 13 10 10 8

150 16 12 11 8

200 18 14 12 9

250 21 16 12 9

300 23 17 12 9

Окончание таблицы

n Формулы дискретизации

(3) (4) (5) (6)

350 24 19 13 9

400 26 20 13 10

450 28 21 13 10

500 29 22 13 10

Применение формулы (3) при выборе количества N интервалов дискретизации является более предпочтительным по сравнению с другими, так как она получена на основе минимизации асимптотического выражения среднеквадратического отклонения (2).

Зависимости W2 от объёма п исходных данных при использовании формул (3), (4) являются близкими. Им свойственны сопоставимые значения количества N интервалов дискретизации области изменения случайной величины (см. таблицу). При малых п < 100 количество N интервалов дискретизации, которые определяются формулами (3)-(6), и соответствующие им значения W2 отличаются незначительно.

При восстановлении плотности вероятности с нормальным законом распределения целесообразно использовать формулы (3), (4). Менее предпочтительными являются формулы (5), (6). Полученные выводы согласуются с результатами исследований асимптотических свойств регрессионной оценки плотности вероятности.

Зависимость среднеквадратического отклонения W2 (N)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

от объёма п значений случайной величины с нормальным законом распределения: кривые 1, 2, 3, 4 соответствуют значениям N вычисленным по формулам (3)-(6)

Библиографические ссылки

1. Лапко А. В., Лапко В. А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.

2. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. Т. 42, № 6. С. 26-33.

3. Лапко А. В., Лапко В. А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных // Автометрия. 2008. Т. 44, № 3. С. 65-74.

4. Лапко А. В., Лапко В. А., Егорочкин И. А. Непараметрические оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. № 1 (35). С. 60-64.

5. Лапко А. В., Лапко В. А. Коллектив непараметрических решающих функций в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2009. № 3.1 (37). С. 156-160.

6. Лапко А. В., Лапко В. А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. 2010. Т. 46, № 1. С. 70-78.

7. Лапко А. В., Лапко В. А. Асимптотические свойства многомерной непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2010. № 1 (39). С. 16-19.

8. Лапко А. В., Лапко В. А. Непараметрическая оценка уравнения разделяющей поверхности в условиях больших выборок и её свойства // Системы управления и информационные технологии. 2010. № 1.2 (39). С. 300-304.

9. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. № 3 (41). С. 8-11.

10. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. Т. 46, № 6. С. 47-53.

11. Лапко А. В., Лапко В. А. Синтез структуры семейства непараметрических решающих функций в задаче распознавания образов // Автометрия. 2011. Т. 47, № 4. С. 76-82.

12. Лапко А. В., Лапко В. А. Синтез структуры смеси непараметрических оценок плотности вероятности многомерной случайной величины // Системы управления и информационные технологии. 2011. № 1 (43). С. 12-15.

13. Лапко А. В., Лапко В. А. Анализ свойств непараметрических оценок смеси плотностей вероятности при различных условиях распределения статистических данных // Информатика и системы управления. 2013. № 1 (35). С. 119-126.

14. Лапко А. В., Лапко В. А. Непараметрические методики анализа множеств случайных величин // Автометрия. 2003. Т. 39, № 1. С. 54-61.

15. Лапко А. В., Лапко В. А. Регрессионная оценка плотности вероятности и ее свойства // Системы управления и информационные технологии. 2012. № 3 (49). С. 152-156.

16. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

17. Лапко А. В., Лапко В. А. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. № 7. С. 24-27.

18. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, no. 7. P. 24-27 (DOI: 10.1007/s11018-013-0279-x).

References

1. Lapko A. V., Lapko V. A. Avtometriya. 2002, no. 5, p. 38-48.

2. Lapko V. A., Kapustin A. N. Avtometriya. 2006, vol. 42, no. 6, p. 26-33.

3. Lapko A. V., Lapko V. A. Avtometriya. 2008, vol. 44, no. 3, p. 65-74.

4. Lapko A. V., Lapko V. A., Egorochkin I. A. Sistemy upravlenija i informacionnye tehnologii. 2009, no. 1 (35), p. 60-64.

5. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologii. 2009, no. 3.1 (37), p. 156-160.

6. Lapko A. V., Lapko V. A. Avtometriya. 2010, vol. 46, no. 1, p. 70-78.

7. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologii. 2010, no. 1 (39), p. 16-19.

8. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologii. 2010, no. 1.2 (39), p. 300-304.

9. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologii. 2010, no. 3 (41), p. 8-11.

10. Lapko A. V., Lapko V. A. Avtometriya. 2010, vol. 46, no. 6, p. 47-53.

11. Lapko A. V., Lapko V. A. Avtometriya. 2011, vol. 47, no. 4, p. 76-82.

12. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologiju. 2011, no. 1 (43), p. 12-15.

13. Lapko A. V., Lapko V. A. Informatika i sistemy upravlenija. 2013, no. 1 (35), p. 119-126.

14. Lapko A. V., Lapko V. A. Avtometriya. 2003, vol. 39, no. 1, p. 54-61.

15. Lapko A. V., Lapko V. A. Sistemy upravlenija i informacionnye tehnologii. 2012, no. 3 (49), p. 152-156.

16. Epanechnikov V. A. Teorija verojatnosti i ee primenenija. 1969, vol. 14, no. 1, p. 156-161.

17. Lapko A. V., Lapko V. A. Izmeritel'naja tehnika. 2013, no. 7, p. 24-27.

18. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density (2013) Measurement Techniques, 56 (7), p. 24-27. doi: 10.1007/s11018-013-0279-x.

© Борисов Д. В., Лапко А. В., Лапко В. А., 2014

УДК 004.93

INFORMATIVE ATTRIBUTE SELECTION WITH HYBRID SELF-ADJUSTED EVOLUTIONARY

OPTIMIZATION ALGORITHM*

S. S. Volkova

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarskiy Rabochiy Av., Krasnoyarsk, 660014, Russian Federation E-mail: Svetlana.volkova.mail@yandex.ru

An informative attribute selection problem is considered. The problem is solved with the hybrid self-adjusted evolutionary algorithm. The algorithm is used as an optimization method of bandwidth parameters in kernel regression. The algorithm is experimented on the test function with various dimensions. Reliability depends on the dimension function which is also presented. The results of the hybrid self-adjusted algorithm are presented too.

Keywords: informative attribute selection, kernel regression, genetic algorithm, hybrid self-adjusted genetic algorithm.

* The study was supported by The Ministry of education and science of Russian Federation, project № 14.B37.21.1521. The second International Workshop on Mathematical Models and its Applications (IWMMA 2013).

i Надоели баннеры? Вы всегда можете отключить рекламу.