Научная статья на тему 'Проверка гипотезы о независимости двумерных случайных величин на основе алгоритма распознавания образов'

Проверка гипотезы о независимости двумерных случайных величин на основе алгоритма распознавания образов Текст научной статьи по специальности «Математика»

CC BY
313
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ПРОВЕРКА ГИПОТЕЗ / РАСПОЗНАВАНИЕ ОБРАЗОВ / НЕЗАВИСИМЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ / ОЦЕНКА РОЗЕНБЛАТТА-ПАРЗЕНА / TESTING OF HYPOTHESIS / PATTERN RECOGNITION / INDEPENDENT RANDOM VARIABLES / PARZEN-ROSENBLATT ESTIMATE

Аннотация научной статьи по математике, автор научной работы — Лапко А.В., Лапко В.А., Юронен Е.А.

Предлагается новая методика проверки гипотезы о независимости случайных величин. Её основу составляет непараметрический алгоритм распознавания образов. Рассматриваемая методика не требует дискретизации области значений случайных величин.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко А.В., Лапко В.А., Юронен Е.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Testing hypothesis of two-dimensional random variables independence on the basis of algorithm of pattern recognition

The new technique of testing hypothesis of random variables independence is proposed. Its basis is made by nonparametric algorithm of pattern recognition. The considered technique does not demand sampling of area of values of random variables.

Текст научной работы на тему «Проверка гипотезы о независимости двумерных случайных величин на основе алгоритма распознавания образов»

<Тешетневс^ие чтения. 2016

4. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications [Electronic resource] // RUTCOR Research Report 10-2005, 2005. URL: http://rutcor.rutgers. edu/pub/rrr/reports2005/10_2005.pdf (дата обращения: 20.02.2016).

5. Кузьмич Р. И., Масич И. С. Построение модели классификации как композиции информативных паттернов // Системы управления и информационные технологии. 2012. № 2(48). С. 18-22.

6. UCI Machine Learning Repository [Electronic resource]. URL: http://archive.ics.uci.edu/ml/index.html.

References

1. Classification and Regression Tree / L. Breiman, J. H. Friedman, R. Olshen, C. J. Stone // Wadsworth & Brooks/Cole Advanced Books & Software, Pacific California, 1984.

2. Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of 13th National Conference on Artificial Intelligence. 1996. Pp. 725-730.

3. Breiman L. Random Forests // Machine Learning 45 (1): 5-32, 2001.

4. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications // RUTCOR Research Report 10-2005, 2005. [Electronic resource]. URL: http://rutcor.rutgers. edu/pub/rrr/reports2005/10_2005.pdf.

5. Kuzmich R. I., Masich I. S. Constructing a classification model as a composition of informative patterns // Control Systems and Information Technology : Scientific and Technical Journal. № 2 (48), 2012, рр. 18-22.

6. UCI Machine Learning Repository [Electronic resource]. URL: http://archive.ics.uci.edu/ml/index.html.

© Кузьмич Р. И., Масич И. С., 2016

УДК 519.24

ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ ДВУМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН НА ОСНОВЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ОБРАЗОВ1

А. В. Лапко1,2*, В. А. Лапко1,2, Е. А. Юронен1

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 E-mail: lapko@icm.krasn.ru

Предлагается новая методика проверки гипотезы о независимости случайных величин. Её основу составляет непараметрический алгоритм распознавания образов. Рассматриваемая методика не требует дискретизации области значений случайных величин.

Ключевые слова: проверка гипотез, распознавание образов, независимые случайные величины, оценка Розенблатта-Парзена.

TESTING HYPOTHESIS OF TWO-DIMENSIONAL RANDOM VARIABLES INDEPENDENCE ON THE BASIS OF ALGORITHM OF PATTERN RECOGNITION

A. V. Lapko1, 2*, V. A. Lapko1, 2, E. A. Yuronen1

1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

2Institute of Computational Modeling SB RAS 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation E-mail: lapko@icm.krasn.ru

The new technique of testing hypothesis of random variables independence is proposed. Its basis is made by nonparametric algorithm ofpattern recognition. The considered technique does not demand sampling of area of values of random variables.

Keywords: testing of hypothesis, pattern recognition, independent random variables, Parzen-Rosenblatt estimate.

Проверка гипотез о распределениях случайных величин с использованием непараметрических алго-

1 Работа выполнена в рамках государственного задания Минобрнауки РФ № 2.914.2014/K.

ритмов распознавания образов рассмотрена в работах [1; 2]. Обоснована возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы о равенстве вероятности ошибки распознавания образов пороговому значению. Этот

Математические методы моделирования, управления и анализа данных.

подход позволяет обойти проблему декомпозиции области значений случайных величин, которая свойственна критерию Пирсона.

В данной работе непараметрические алгоритмы распознавания образов используются при решении задачи проверки гипотезы о независимости двумерных случайных величин. Полученные результаты имеют важное значение при обработке данных дистанционного зондирования Земли.

В работе [3] исследованы асимптотические свойства непараметрической оценки плотности вероятности р(,...,хк) в условиях зависимых случайных

величин. Используя предложенную технологию анализа, определены асимптотические свойства непараметрической оценки многомерной плотности вероят-

к

ности ^ р (ху) независимых случайных величин [4; 5].

Установлено, что порядки их сходимости в смысле среднеквадратического отклонения значительно отличаются.

Различие аппроксимационных свойств непараметрических оценок плотности вероятности в случае зависимых и независимых случайных величин являются основой методики проверки гипотезы о независимости случайных величин с использованием непараметрических алгоритмов распознавания образов.

Пусть имеется выборка V = ( , х'2 ,1 = 1, п) из п

статистически независимых наблюдений двумерной случайной величины х = (х1, х2). Случайные величины характеризуются плотностями вероятности р (х1, х2), р1 (х1), р2 (х2). Необходимо подтвердить либо опровергнуть гипотезу Н0 о независимости законов распределения случайных величин х1 , х2 .

Предположим, что существуют два класса 01, 02. Первый класс 01 характеризуется плотностью вероятности р1 (х1) р2 (х2). Она может быть определена как непараметрическая оценка плотности вероятности р1 (х1) р2 (х2). Здесь

1 n

Pv (v )=— Е

ф

А x, - х ^

, v = 1, 2.

(1)

Ядерные функции Ф(иг) удовлетворяют условиям положительности, симметричности и нормирован-ности [3].

Второй класс 02 определяется плотностью вероятности р (х1, х2 ) и оценивается статистикой

P (хи x2 ) = -

1

-ЕПф

' x - х ^

1l-2 '=1 v=i

(2)

На этой основе построим непараметрический алгоритм распознавания образов:

4х):

I х efi1, если f12 (х) > 0, I х еП2 , если f12 (х)< 0,

(3)

где f12 (х) = P1 (х1) P2 (х2 ) - P (х^ х2 ) .

Выбор оптимальных значений с*, v = 1,2, осуществляется из условия минимума оценки вероятности ошибки распознавания образов

1 "

р =1 Е (j), —(j))

n j=1

по обучающей выборке V' = (', — ('),i = 1, n). Здесь все —(') - указания о принадлежности ситуации х' к первому классу Q1. Решения — (') определяются

алгоритмом (3).

Индикаторная функция:

1( ( л — ( Л) |0,если —(j) = —(j),

1(—(j), — (j )Н (-w—(л

' , если —(j )#— (j).

При формировании «решения» — (j) ситуация х] исключается из процесса вычисления статистик

p1 (х1 )p2 (х2 ), Р (хи х2 ).

Используя традиционные критерии, проверим гипотезу H1 о равенстве вероятности ошибки распознавания образов значению 1/2. Исходная гипотеза H0 справедлива, если выполняется гипотеза H1 , иначе гипотеза H0 отвергается.

Предлагаемая методика может быть обобщена на задачу проверку гипотезы о независимости наборов случайных величин

х (1) = ^v, v = 1,Й), х (2 ) = (v, v = k1 +1, k).

Установлено отличие аппроксимационных свойств непараметрических оценок плотностей вероятности зависимых и независимых случайных величин. На этой основе обоснована возможность применения непараметрического алгоритма распознавания образов в задаче проверки гипотезы о независимости случайных величин. Предложенная методика позволяет обойти трудно формализуемую процедуру декомпозиции области значений случайных величин. Дальнейшее развитие предлагаемого подхода связано с его обобщением на задачу проверки гипотезы о независимости наборов случайных величин.

Библиографические ссылки

1. Lapko A. V., Lapko V. A. Nonparametric algorithms of pattern recognition in the problem of testing a statistical hypothesis on identity of two distribution laws of random variables // Optoelectronics, Instrumentation and Data Processing. 2010. Vol. 46, No. 6. P. 545-550.

2. Lapko A. V., Lapko V. A. Comparison of empirical and theoretical distribution functions of a random variable on the basis of a nonparametric classifier // Optoelectronics, Instrumentation and Data Processing. 2012. Vol. 48, No. 1. P. 37-41.

3. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, № 1. С. 156-161.

4. Лапко А. В., Лапко В. А. Свойства непараметрической оценки многомерной плотности вероятно-

Решетневс^ие чтения. 2016

сти независимых случайных величин // Информатика и системы управления. 2012. № 1(31). С. 166-174.

5. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, No. 7. Рр. 763-767.

References

1. Lapko A. V., Lapko V. A. Nonparametric algorithms of pattern recognition in the problem of testing a statistical hypothesis on identity of two distribution laws of random variables. Optoelectronics, Instrumentation and Data Processing, 2010. Vol. 46, No. 6, pр. 545-550.

2. Lapko A. V., Lapko V. A. Comparison of empirical and theoretical distribution functions of a random variable on the basis of a nonparametric classifier. Optoelectro-

nics, Instrumentation and Data Processing, 2012. Vol. 48, No. 1, pp. 37-41.

3. Epanechnikov V. A. [Nonparametric estimator of multidimensional probability density]. Teoriya veroyatnosti i ee primeneniya. 1969, Vol. 14, No. 1, pp. 156-161 (In Russ.).

4. Lapko A. V., Lapko V. A. [Properties of nonparametric estimates of multidimensional probability density of independent random variables]. Informatika i systemy upravleniya. 2012, Vol. 31, No. 1, pp. 166-174 (In Russ.).

5. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density. Measurement Techniques. 2013. Vol. 56, No. 7, pp. 763-767.

© HanKO A. B., HanKO B. A., MpoHeH E. A., 2016

УДК 519.24

ПРОВЕРКА ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИЯХ СЛУЧАЙНЫХ ВЕЛИЧИН НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКОГО МЕТОДА ДОВЕРИТЕЛЬНОГО ОЦЕНИВАНИЯ ПЛОТНОСТИ

ВЕРОЯТНОСТИ1

А. В. Лапко1, 2*, В. А. Лапко1, 2, Е. А. Юронен1

1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 E-mail: lapko@icm.krasn.ru

Предлагаются алгоритмический подход проверки гипотезы о тождественности законов распределения случайных величин. Его основу составляет методика построения доверительных границ для плотности вероятности.

Ключевые слова: проверка гипотез, плотности вероятности, оценка Розенблатта-Парзена, асимптотические свойства, доверительное оценивание.

TESTING HYPOTHESIS OF RANDOM VARIABLES INDEPENDENCE ON THE BASIS OF NONPARAMETRIC METHOD OF CONFIDENCE ESTIMATION OF PROBABILITY DENSITY

A. V. Lapko1, 2*, V. A. Lapko1, 2, E. A. Yuronen1

1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

2Institute of Computational Modeling SB RAS 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation E-mail: lapko@icm.krasn.ru

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

The paper proposes algorithmic approach of hypothesis testing of identity of distribution laws of random values. Its basis is developed by a technique of creation of confidence borders for a probability density.

Keywords: testing of hypothesis, probability densities, Rosenblatt-Parzen's assessment, asymptotic properties, confidence estimation.

1 Работа выполнена в рамках базовой части государственного задания Минобрнауки РФ (СибГАУ № Б121/14) и программы СО РАН ГУ.35.1.

i Надоели баннеры? Вы всегда можете отключить рекламу.