Научная статья на тему 'Непараметрический алгоритм автоматической классификации многомерных случайных величин в условиях больших выборок'

Непараметрический алгоритм автоматической классификации многомерных случайных величин в условиях больших выборок Текст научной статьи по специальности «Математика»

CC BY
71
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ / БОЛЬШИЕ ВЫБОРКИ / ЯДЕРНАЯ ОЦЕНКА ПЛОТНОСТИ ВЕРОЯТНОСТИ / ДИСКРЕТИЗАЦИЯ ОБЛАСТИ ЗНАЧЕНИЙ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН / ДАННЫЕ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ / AUTOMATIC CLASSIFICATION / LARGE SAMPLES / KERNEL DENSITY ESTIMATE / DISCRETIZATION OF THE RANGE OF VALUES OF MULTIDIMENSIONAL RANDOM VARIABLES / REMOTE SENSING DATA

Аннотация научной статьи по математике, автор научной работы — Лапко А.В., Лапко В.А.

Предлагается непараметрический алгоритм автоматической классификации больших массивов статистических данных. Его синтез основан на декомпозиции исходных статистических данных и использовании ядерных оценок плотности вероятности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко А.В., Лапко В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric algorithm of automatic classification of a multidimensional random variables in large samples

A nonparametric algorithm for automatic classification of large-scale statistical data is proposed. Its synthesis is based on the decomposition of the initial statistical data and the use of kernel density estimate.

Текст научной работы на тему «Непараметрический алгоритм автоматической классификации многомерных случайных величин в условиях больших выборок»

Использование космических^средств, технологий и геоинформационны^систем для мониторинга и моделирования природной среды

УДК 519.24

НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН В УСЛОВИЯХ БОЛЬШИХ ВЫБОРОК*

А. В. Лапко1, 2 а, В. А. Лапко1, 2

1Институт вычислительного моделирования Сибирского отделения Российской академии наук Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 2Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

аЕ-таП: lapko@icm.krasn.ru

Предлагается непараметрический алгоритм автоматической классификации больших массивов статистических данных. Его синтез основан на декомпозиции исходных статистических данных и использовании ядерных оценок плотности вероятности.

Ключевые слова: автоматическая классификация, большие выборки, ядерная оценка плотности вероятности, дискретизация области значений многомерных случайных величин, данные дистанционного зондирования.

NONPARAMETRIC ALGORITHM OF AUTOMATIC CLASSIFICATION OF A MULTIDIMENSIONAL RANDOM VARIABLES IN LARGE SAMPLES

A. V. Lapko1, 2 а, V. A. Lapko1, 2

institute of Computer Modeling Siberian Branch of the Russian Academy of Sciences 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation 2Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation ""E-mail: lapko@icm.krasn.ru

A nonparametric algorithm for automatic classification of large-scale statistical data is proposed. Its synthesis is based on the decomposition of the initial statistical data and the use of kernel density estimate.

Keywords: automatic classification, large samples, kernel density estimate, discretization of the range of values of multidimensional random variables, remote sensing data.

Алгоритмы автоматической классификации широко используются при создании математического обеспечения аппаратно-программных комплексов обработки данных дистанционного зондирования природных объектов. В работах [1; 2] под классом понимается множество значений случайных величин, соответствующих одномодальному фрагменту плотности вероятности в пространстве признаков анализируемых объектов. Для оценивания плотности вероятности используется непараметрическая оценка плотности вероятности типа Розенблатта-Парзена.

В работе [3] обоснована возможность решения задачи автоматической классификации в рамках задачи распознавания образов с помощью итерационной процедуры последовательного непараметрического оценивания байесовских уравнений разделяющих поверхностей между классами. Цель данной работы состоит в обобщении полученных результатов на условия больших выборок с использованием методики дискретизации области значений случайных величин.

Дискретизация области значений многомерной

случайной величины х = (xv, v = 1, kI позволяет ис-

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-01-00251.

ходную информацию V = (X,' = 1, п | большого объёма п преобразовать в массив данных V = (7'', Р1, ' = 1, N|. Здесь 7'' - центр ' -го интервала дискретизации; Р1 - оценка вероятности принадлежности случайной величины х этому интервалу, А N - количество интервалов дискретизации.

Для восстановления плотности вероятности р (х) предложена статистика [4]

1 N к ( х _ 71 \

р (,..., Хк X Р' Пф5-^ , (1)

п ^ ^ 1 с ;

У=1

где ядерные функции Ф(uv) удовлетворяют условиям положительности, симметричности и нормированно-сти, а су, V = 1, к - коэффициенты их размытости.

Из анализа асимптотических свойств р (х) получена формула оптимальной дискретизации области значений многомерной случайной величины [5].

Решетневскуе чтения. 2018

Предлагаемый алгоритм автоматической классификации основан на выполнении следующих действий:

1. Провести анализ массива данных V и исключить информацию её элементов Si, для которых Р' = 0. Полученный массив преобразованных данных обозначим через V , количество их элементов как N, а множество их номеров через I.

2. Обнаружить элемент Sq из V с максимальной частотой Pq = тах Pi, который отнести к классу .

¿=1, N

3. Определить множество смежных к Sq элементов S(у) = ^', ' е 11 (q)), ближайших к нему на расстоянии длинны интервала дискретизации РУ по каждому признаку ху, V = 1, к. При этом должно соблюдается условия Р' < Рч , ' е 1Х (у) , ' Ф q .

Множество элементов S (q) отнести к классу Ц

и положить Рч = 0 .

4. Провести анализ каждого элемента из множества S (д) по аналогии с этапом 3. Пусть элемент Sr принадлежит множеству S (q). В соответствии с рекомендациями этапа 3 определим новые элементы класса Ц.

Значения соответствующих им частот Рг в массиве данных V обнуляются. Выбирается новый элемент Sr из массива S ^) и описанная процедура этапа 3 повторяется для всех его элементов.

Если на первом этапе к классу ^ отнесён элемент

Sq, то при реализации этапа 2 классу Ц будут отнесены элементы с номерами I (у). Анализ этих элементов в соответствии с используемым правилом этапа 3 позволяет определить множество номеров элементов дискретизации 11 {2}, которые будут отнесены

к классу Ц .

5. Следуя предложенной выше методике, осуществить анализ элементов дискретизации с номерами I {2}. Пусть элемент Sr е I {2} . Тогда, используя правило классификации типа (2) при ' е I \ ^) ( 11 {2}). Можно обнаружить множество элементов дискретизации пространства признаков с номерами 11 {3} , принадлежащих классу Ц .

6. Предложенный выше процесс автоматической классификации продолжается до тех пор, пока на его X -этапе множество I {X} будет определено как пус-

тое. В этом случае множество элементов дискретизации /1 = ^/1 (q)[_J /1 {e}| образует первый класс Ц .

7. Исключить элементы с номерами /1 из массива данных V . Обозначим полученные данные через Vj.

8. Обнаружить множество элементов дискретизации принадлежащих второму классу Q2. Для этого в соответствии с этапами 1 - 6 провести анализ массива данных V2 = (x', P', i e / \ /1).

9. Процесс автоматической классификации про-

M

должается до тех пор, пока J /j = I.

j=j

Библиографические ссылки

1. Цыпкин Я. З. Основы теории обучающихся систем. М. : Наука, 1970. 251 с.

2. Васильев В. И., Эш С. Н. Особенности алгоритмов самообучения и кластеризации // Управляющие системы и машины. 2011. № 3. С. 3-9.

3. Лапко А. В., Лапко В. А., Хлопов А. Н. Непараметрический алгоритм автоматической классификации статистических данных // Изв. вузов. Приборостроение. 2011. Т. 54, № 4. С. 72-78.

4. Лапко А. В., Лапко В. А. Регрессионная оценка многомерной плотности вероятности и её свойства // Автометрия. 2014. Т. 50, № 2. С. 50-56.

5. Лапко А. В., Лапко В. А. Выбор оптимального количества интервалов дискретизации области значений двухмерной случайной величины // Измерительная техника. 2016. № 2. С. 14-17.

References

1. Tsypkin Ya. Z. Osnovy teorii obuchayushhikhsya sistem [Fundamentals of the theory of learning systems]. Moscow, Nauka Publ., 1970. 251 p.

2. Vasil'ev V. I., Ehsh S. N. [Features of self-learning and clustering algorithms]. Upravlyayushhie sistemy i mashiny. 2011. No. 3. P. 3-9. (In Russ.)

3. Lapko A. V., Lapko V. A., Khlopov А. N. [Non-parametric algorithm of automatic classification of statistical data]. /zvestiya vuzov. Priborostroenie [Journal of Instrument Engineering]. 2011. Vol. 54, No. 4. P. 73-79. (In Russ.)

4. Lapko A. V., Lapko V. A. Regression estimate of the multidimensional probability density and its properties. Optoelectronics, Instrumentation and Data Processing, 2014. Vol. 50, No. 2. P. 148-153.

5. Lapko A. V., Lapko V. A. Selection of the optimal number of intervals sampling the region of values of a two-dimensional random variable. Measurement Techniques. 2016. Vol. 59, No. 2. P. 122-126.

© Лапко А. В., Лапко В. А., 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.