Научная статья на тему 'Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение'

Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение Текст научной статьи по специальности «Математика»

CC BY
131
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
алгоритм автоматической классификации / многомерная гистограмма / регрессионная оценка плотности вероятности / дискретизация области значений случайной величины / выборки большого объёма / коэффициент контрэксцесса / данные дистанционного зондирования. / automatic classification algorithm / multidimensional histogram / regression probability density estimate / discretization of the range of values of a random variable / large samples / antikurtosis coefficient / remote sensing data.

Аннотация научной статьи по математике, автор научной работы — И.В. Зеньков, А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев

Предлагается непараметрический алгоритм автоматической классификации статистических данных большого объёма. Основу алгоритма составляет процедура оптимальной дискретизации области значений случайной величины. Под классом понимается компактная группа наблюдений случайной величины, соответствующих одномодальному фрагменту плотности вероятности. Рассматриваемый алгоритм автоматической классификации основан на «сжатии» исходной информации на основе декомпозиции многомерного пространства признаков. В результате статистическая выборка большого объёма преобразуется в массив данных, составленный из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин. Для обоснования процедуры оптимальной дискретизации используются результаты исследования асимптотических свойств регрессионной оценки плотности вероятности ядерного типа. Из условия минимума среднеквадратического отклонения регрессионной оценки плотности вероятности определяются оптимальные количества интервалов дискретизации области значений одномерной и двухмерной случайных величин. Полученные результаты обобщаются на дискретизацию области значений многомерной случайной величины. Формула оптимальной дискретизации содержит составляющую, которая характеризуется нелинейным функционалом от плотности вероятности. Устанавливается аналитическая зависимость обнаруженной составляющей от коэффициента контрэксцесса одномерной случайной величины. Для независимых компонент многомерной случайной величины определяется методика расчёта оценок оптимального количества интервалов дискретизации случайных величин и их длин. На этой основе разрабатывается непараметрический алгоритм автоматической классификации, который основан на последовательной процедуре проверки близости центров многомерных интервалов дискретизации и соотношений между частотами принадлежности случайных величин из исходной выборки этим интервалам. Для дополнительного повышения вычислительной эффективности предлагаемого алгоритма автоматической классификации используется многопоточный метод его программной реализации. Практическая значимость разработанных алгоритмов подтверждается результатами их применения при обработке данных дистанционного зондирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — И.В. Зеньков, А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A nonparametric algorithm for automatic classification of large multivariate statistical data sets and its application

A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the «compression» of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of oneand two-dimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data.

Текст научной работы на тему «Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение»

Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение

И.В. Зеньков1'5, А.В. Лапко2'4, В.А. Лапко2'4, С.Т. Им134, В.П. Тубольцев4, В.Л. Авдеенок4 1 Сибирский федеральный университет, 660041, г. Красноярск, Россия, просп. Свободный, д. 79, стр. 3, 2 Институт вычислительного моделирования СО РАН,

660036, Россия, г. Красноярск, Академгородок, д. 50, стр. 44, 3 Институт леса им. В.Н. Сукачева СО РАН,

660036, Россия, г. Красноярск, Академгородок, д. 50, стр. 28,

4 Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева,

660037, г. Красноярск, просп. «Красноярскийрабочий», д. 31,

5 Федеральный исследовательский центр информационных и вычислительных технологий, 660049, Россия, г. Красноярск, просп. Мира, д. 53

Аннотация

Предлагается непараметрический алгоритм автоматической классификации статистических данных большого объёма. Основу алгоритма составляет процедура оптимальной дискретизации области значений случайной величины. Под классом понимается компактная группа наблюдений случайной величины, соответствующих одномодальному фрагменту плотности вероятности. Рассматриваемый алгоритм автоматической классификации основан на «сжатии» исходной информации на основе декомпозиции многомерного пространства признаков. В результате статистическая выборка большого объёма преобразуется в массив данных, составленный из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин. Для обоснования процедуры оптимальной дискретизации используются результаты исследования асимптотических свойств регрессионной оценки плотности вероятности ядерного типа. Из условия минимума среднеквадратического отклонения регрессионной оценки плотности вероятности определяются оптимальные количества интервалов дискретизации области значений одномерной и двухмерной случайных величин. Полученные результаты обобщаются на дискретизацию области значений многомерной случайной величины. Формула оптимальной дискретизации содержит составляющую, которая характеризуется нелинейным функционалом от плотности вероятности. Устанавливается аналитическая зависимость обнаруженной составляющей от коэффициента контрэксцесса одномерной случайной величины. Для независимых компонент многомерной случайной величины определяется методика расчёта оценок оптимального количества интервалов дискретизации случайных величин и их длин. На этой основе разрабатывается непараметрический алгоритм автоматической классификации, который основан на последовательной процедуре проверки близости центров многомерных интервалов дискретизации и соотношений между частотами принадлежности случайных величин из исходной выборки этим интервалам. Для дополнительного повышения вычислительной эффективности предлагаемого алгоритма автоматической классификации используется многопоточный метод его программной реализации. Практическая значимость разработанных алгоритмов подтверждается результатами их применения при обработке данных дистанционного зондирования.

Ключевые слова: алгоритм автоматической классификации, многомерная гистограмма, регрессионная оценка плотности вероятности, дискретизация области значений случайной величины, выборки большого объёма, коэффициент контрэксцесса, данные дистанционного зондирования.

Цитирование: Зеньков, И.В. Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение / И.В. Зеньков, А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев, В.Л. Авдеенок // Компьютерная оптика. -2021. - Т. 45, № 2. - С. 253-260. - DOI: I0.18287/2412-6179-C0-801.

Citation: Zenkov IV, Lapko AV, Lapko VA, Im ST, Tuboltsev VP, Аvdeenok VL. A nonpara-metric algorithm for automatic classification of large multivariate statistical data sets and its application. Computer Optics 2021; 45(2): 253-260. DOI: 10.18287/2412-6179-C0-801.

Введение

Обнаружение компактных групп наблюдений в статистических данных является первоначальной задачей исследования закономерностей, свойственных объектам различной природы, которая решается алгоритмами автоматической классификации. Систематизация методов автоматической классификации представлена в работах [1, 2].

Активно развивается направление синтеза алгоритмов автоматической классификации, направленных на обнаружение компактных групп наблюдений (классов), соответствующих одномодальным фрагментам плотности вероятности признаков исследуемых объектов. Подобное определение класса было введено Я.З. Цыпкиным [3] и развито в работах В.И. Васильева с использованием непараметрической оценки плотности вероятности случайных величин [4].

В работах [5] обоснована возможность решения задачи автоматической классификации в рамках задачи распознавания образов с помощью итерационной процедуры последовательного непараметрического оценивания байесовских уравнений разделяющих поверхностей между классами, которые соответствуют одномодальным симметричным фрагментам совместной плотности вероятности распределения признаков классифицируемых объектов. Предложенный подход развит при решении задачи автоматической классификации в условиях больших объёмов статистических данных [6]. Его идея состоит в «сжатии» исходной информации путём декомпозиции пространства признаков в массив данных, состоящий из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин.

Цель данной статьи состоит в развитии непараметрических алгоритмов автоматической классификации статистических данных большого объёма для обнаружения классов, соответствующих одномодаль-ным фрагментам плотности вероятности. Их синтез основан на использовании новой методики декомпозиции области значений многомерной случайной величины и применении технологии параллельных вычислений при разработке программных средств анализа данных дистанционного зондирования.

Методика дискретизации области значений многомерной случайной величины

Для анализа законов распределения многомерных случайных величин х = (х„, V = 1, к) в условиях статистических данных V = (х', i = 1, п) большого объёма п используется модификация непараметрической оценки плотности вероятности р(х) [7]. Синтез р( х) основан на «сжатии» исходной информации V путём декомпозиции пространства значений (х„, V = 1, к) на многомерные интервалы. В результате исходная выборка V преобразуется в массив данных V = (, Р', ' = 1, N), составленный из центров

= (, V = 1, к) многомерных интервалов дискретизации в количестве N и соответствующих им частот Р' появления случайных величин. Полученные данные V позволяют оценить плотность вероятности р (х) многомерной случайной величины х = (х,, V = 1, к) в виде статистики

р(,..., хк) = -7^¿Р'ПФГ * "*

П с

'=1 1=1

(1)

Ядерные функции Ф(и„) в статистике (1) удовлетворяют условиям:

Ф(и„ ) = Ф(-и„), 0 <ф(и„ )<да,

да да

| Ф(и„)(и„ = 1, | и2 ф(и„)(и„ = 1,

—да —да

да

| ит Ф(и„)(и„ <да , 0 < т <да ,

—да

V = Г7к.

Коэффициенты размытости с„ = с„ (п), V = 1, к, ядерных функций убывают с ростом объёма п исходных статистических данных.

Рассматриваемая непараметрическая оценка плотности вероятности (1) относится к семейству нормированных функций, обладает свойствами асимптотической несмещённости и состоятельности.

Из условия минимума асимптотического выражения среднеквадратического отклонения р(х) от р (х) по значению N получены оптимальные формулы дискретизации области значений одномерной и двухмерной случайных величин [8, 9]. В частности, для одномерной случайной величины предлагаемая формула близка к формуле Гаеде и совпадает с ней при оценивании плотности вероятности с равномерным законом распределения х. Разработанная методика была использована при определении оптимального количества N интервалов дискретизации области значений многомерной случайной величины

(

N =

к +да +да

а( к) п ПД |...| Р2 (х1,..., хк) скхх...скхк

V/2

(2)

= аk^/n,

где Д! - длина интервала значений xv, V = 1, к. Коэффициент а(к) = (2к - 1) / к 2 < 1 и его значения уменьшаются с ростом размерности к случайной величины.

В работе [10] вычисляются оптимальные количества интервалов дискретизации для плотностей вероятностей конкретного вида (равномерные, нормальные, экспоненциальные) и отмечается перспективность создания общей методики.

Предположим, что случайные величины xv, V = 1, к, независимые. Тогда выражение (2) запишется в виде

V

Г=1

( (

щ =

где

П

V=1

= П N * (

v=1

N * (v ) =

2 k-1

n I Av J p2 (xv) dxv

у /

у/2

2 k -1

n I Av J p2 (xv) dxv

(3)

В работе [11] показано, что для одномерного случая выражение

(

W =

Av J p2 (xv) dxv

y/2

может быть оценено по значению коэффициента контрэксцесса 5, функциональными зависимостями

(8„) = 31,2754 - 62,735, + 46,3452 -16,185, + 3,8 ,(4)

либо

Г2 (5, ) = 1,065-0'386. (5)

В этих условиях средняя относительная ошибка аппроксимации для модели (4) определяется значением 0,0275, а для модели (5) - 0,037. Оценивание коэффициента контрэксцесса 5, осуществляется по каждой компоненте х„, V = 1, к.

Тогда методика дискретизации области значений случайной величины х = (х,, V = 1, к) на многомерные интервалы предполагает выполнение следующих действий:

1. По исходным статистическим данным V = (х', ' = 1, п) определить оценки Д„ длин интервалов изменения значений случайных величин как разности между минимальными и максимальными значениями х,, ' = 1, п, и оценить коэффициенты контрэксцесса = ,

где

1

^v =-

i( -Xv)4 n i=1_

'-1 i( -%)

1 n

=n i

V = 1, k .

2. Используя формулу (4) либо (5), вычислить оценку константы W2 (5„), , = 1, к._

3. По значениям Д„, W2 (5,), , = 1, к, п и к в соответствии с выражением (3) определить количество интервалов дискретизации случайных величин

N * (v ) =

( i Y/2

2k -1 XkW2 (Sv)

и их длину

Av = AvjN * (v), v = T7k.

Непараметрический алгоритм обнаружения компактных групп наблюдений

Имеются статистические данные V = (xi, i = 1, n) наблюдений случайных величин x = (xv, v = 1, k), которые необходимо разделить на множества Vj=(x', i е Ij), j = 1, M , соответствующих одномодаль-ным фрагментам плотности вероятности p(x). Количество M компактных групп наблюдений неизвестно.

Пусть в результате использования предложенной выше методики декомпозиции исходной информации получены данные V = (zj,..., zk, , i = 1, N), составленные из значений центров z'v, v = 1, k интервалов (элементов) дискретизации S1 пространства признаков x анализируемых объектов и частот P1 принадлежности наблюдений выборки V элементам S 1, i = 1, n. Тем самым для преодоления проблемы больших объёмов статистических данных плотность вероятности p(x) заменяется на её оценку типа гистограммы.

Предлагаемый алгоритм автоматической классификации основан на выполнении следующих действий [6]:

1. Провести анализ массива данных V и исключить информацию элементов S1, для которых P1 = 0 . Полученный массив преобразованных данных обозначим через V , а количество их элементов - как N. Множество их номеров обозначим через I.

2. Обнаружить элемент Sq из V с максимальной частотой

Pq = max P',

1=1, N

который отнести к классу Q1.

3. Множество смежных с Sq элементов S (q) = (S i, i е I1 (q)) будут отнесены к первому классу, так как априори значения Pq > P1 , i е I1(q) = I1. Под смежными к Sq понимаются элементы S i, координаты которых удовлетворяют условиям:

\z'v - zq| = р„, v = 1, k , i е I, i Ф q ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Pv - длина интервала дискретизации по признаку xv, v = 1, k .

Элементы, принадлежащие множеству S(q), относятся к классу Q1 и исключаются из множества S1, i е I, при последующей их идентификации.

4. Каждый элемент из множества S1 е S(q) является одним из центров для идентификации к классу Q1 остальных ситуаций I \ I1 (q).

По аналогии с пунктом 3 из множества Б(д) выбрать элемент £' и провести идентификацию к классу смежных с ним элементов по правилу: элемент £ i относится к классу , если

2 - = р„, V = 1Д, а Pt > Р', i е(( \ 11 (д )= 1}).

При соблюдении этих условий элемент £ ' относится к множеству Б2 в качестве центра для последующей идентификации.

5. Повторить этап 4 для всех элементов £

' е ((\ 11 (д) = ). В результате получим множество элементов Б2, отнесённых к первому классу на данном этапе их идентификации. Множество номеров элементов Б2 обозначим через I}2.

6. Следуя предложенной методике, на г-м этапе обнаружения элементов, принадлежащих первому классу, осуществить их идентификацию по правилу:

Б' е , если|2\ -2'\ = р„,V = 1, к,

- - г-1 (6)

а Р1 > Р',' е I \ У Ц, ' е Ц-1. t=1

Процесс автоматической классификации в соответствии с этапом 6 продолжается до тех пор, пока при некотором значении г условие (6) не будет выполняться. Первый класс образуют множество элементов

Б', ' е 0 И .

t=1

7. Обнаружение множества элементов дискретизации, принадлежащих второму классу. Для этого по аналогии с этапами 2- 6 провести анализ множества элементов

г-1

Б', ' е I \ 0 Ц .

t=1

8. Процесс автоматической классификации продолжается до полного разбиения множества элементов

г-1

Б', ' е I \ 0Ц

t=1

на компактные группы элементов в соответствии с принятым определением класса. Рассмотрим предложенный подход к решению задачи автоматической классификации для одномерного случая при к = 1, результаты дискретизации для которого представлены на рис. 1.

В результате дискретизации области значений случайной_величины х исходная выборка

V = (х',' = 1, п) преобразуется в массив данных

V = (2', Р',' е I), для которых Р' Ф 0 . В соответствии с этапом 2 непараметрического алгоритма автоматической классификации к классу будет отне-

сён интервал дискретизации Б 9 с параметрами (29, Р9), который соответствует моде р1 (х). Тогда на этапе 3 классификации к первому классу ^ однозначно будут отнесены интервалы дискретизации Б 8 и Б 10 с параметрами (28, Р8), (210, Р10) соответственно. Данное утверждение основывается на справедливости неравенств Р9 > Р8 и Р9 > Р10. Эти интервалы Б 8 и Б 10 образуют множество Б (9). Следуя этапу 4 алгоритма классификации, для анализа выбирается, например, интервал Б 8еБ (9). В соответствии с решением алгоритма классификации этого этапа интервал Б 7 будет отнесён к классу □1, так как справедливо соотношение Р8 > Р7. По аналогии относительно Б 10 е Б (9) интервал Б 11 будет отнесён также к классу □1, так как Р10 > Р11. Далее проводится анализ интервалов Б (7) и Б (11), которые содержат только по одному интервалу Б 6 и Б 12 соответственно. Нетрудно заметить, что интервал Б 6 не будет отнесён к первому классу □1, так как выполняется неравенство Р6 > Р7. Интервал Б 12 будет отнесён с первому классу, потому что справедливо соотношение Р11 > Р12. В данном примере к первому классу будут отнесены интервалы

Б', ' = 7,12.

0,5"

0,4-

0,3-

0,2-

0,1-

0-

Рис. 1. Графическая иллюстрация результатов дискретизации V области значений случайной величины х (2>, '=1, 12 - центры интервалов дискретизации)

Для обнаружения класса необходимо из оставшегося массива данных V выбрать интервал Б 4 с максимальной частотой встречаемости Р4 случайной величины из исходной выборки, и описанный выше процесс классификации повторяется. В результате обнаруживаются интервалы дискретизации Б', ' = 1,6, принадлежащие классу ^2.

Нетрудно заметить, что основу предлагаемой процедуры классификации составляют оценка близости центров многомерных интервалов дискретизации и соотношений между их частотами. При этом осуществляется выделение классов, соответствующих одномодальным фрагментам совместной плотности вероятности анализируемых случайных величин.

Вычислительную эффективность предложенного алгоритма автоматической классификации в условиях больших объёмов статистических данных дополнительно можно повысить за счёт организации многопоточных вычислений при программной реализации процесса классификации. Для работы многопоточной обработки данных была использована встроенная в

язык C++ библиотека «Thread», из которой был использован класс «Std::thread». Сравнительные тесты для проверки эффективности многопоточных вычислений выполнялись на компьютере с процессором Intel® Core™ i5-6200U CPU@2,4 GHz (2 ядра, 4 потока).

По результатам вычислительных экспериментов многопоточный вариант программы автоматической классификации имеет двухкратное преимущество по времени по сравнению с однопоточным вариантом.

Оценивание состояний темнохвойных древостоев, повреждённых сибирским шелкопрядом, по данным дистанционного зондирования

На исследуемой территории Ирбейского района Красноярского края преобладают пихтовые и кедровые древостои на высотах 300 - 1600 метров над уровнем моря. В период массового размножения сибирского шелкопряда на этой территории в 2018 - 2019 гг. погибло более 32 тысяч гектаров древостоев [12, 13].

Исходная информация сформирована 9 сентября 2019 года по данным дистанционного зондирования с помощью аппарата Landsat-8. Снимок получен с геопортала Earth Explorer, из которого вырезан тестовый участок в 11 тысяч гектар (рис. 2а). Он определялся 123134 пикселями. Каждый пиксель характеризовался семью спектральными признаками x = (x1v.., x7), которым соответствуют следующие длины волн (нанометры): 433 -453 (Х1), 450 - 515 X), 525 - 600 (xs), 630 - 680 (Х4), 845 -885 (X5), 1560 - 1660 (X6), 2100 - 2300 (X7). Полученные данные подвергались атмосферной коррекции с помощью алгоритмов Land Surface Reflectance Code.

Для обнаружения компактных групп наблюдений в пространстве спектральных признаков x = (x1,., x7) использовался предлагаемый непараметрический алгоритм автоматической классификации. Его программная реализация Autoclass 2.0 позволяет загружать изображения в формате GeoTIFF, производить классификацию с заданными параметрами и представлять сформированное классификационное изображение для дальнейшей геообрабоки. Рассматривались два варианта анализа исходного снимка без его топографической нормализации (рис. 2а) и с топографической нормализацией (рис. 3а). Топографическая нормализация снимка методом C-коррекции и использованием цифровой модели рельефа SRTM 1 arc с пространственным разрешением 30 метров значительно уменьшает эффект разной освещённости и выравнивает яркости однотипных поверхностей, что влияет на результаты автоматической классификации.

Применение программы Autoclass 2.0 при топографической нормализации (рис. 36) сопровождается сокращением количества классов с M = 18 до 11 по сравнению с условиями рис. 26. Обнаруженные классы соответствуют лесным массивам с различной степенью поражения сибирским шелкопрядом, усохшим и лиственным древостоям, вырубкам, травяно-кустарниковым сообществам и заболоченным участкам.

95°50'В 95°55'В

Рис. 2. Сопоставление исходного снимка (а) без топографической нормализации и результаты автоматической классификации непараметрическим алгоритмом (б) и методом ISODATA (в)

Результаты автоматической классификации в указанных условиях методом ISODATA средствами программного пакета Erdas Imagine приведены на рис. 2в и рис. 3в. При этом количество классов устанавливалось равным количеству классов, обнаруженных непараметрическим алгоритмом автоматической классификации.

Большую часть исследуемой территории представляют лесные массивы усохших темнохвойных древостоев, повреждённых сибирским шелкопрядом. Участки, близкие к правильной форме, соответствуют вырубкам. Светлыми тонами на рисунках показаны участки лиственных древостоев. Фоном, близким к

красному, определены участки темнохвойных древо-стоев, повреждённых сибирским шелкопрядом. Экспертный анализ показал, что результаты классификации указанными методами сопоставимы. Они хорошо выделяют зоны повреждённых древостоев на осве-щённых склонах и менее успешно - на затемнённых участках, что указывает на целесообразность предва-

95°50'В 95°55'В

рительной топографической нормализации снимков до процедуры автоматической классификации. Оба метода классификации не позволяют отделить свежие вырубки от других поверхностей, таких как травянисто-кустарниковые сообщества и заболоченности. Однако применение непараметрического алгоритма позволяет получить более чёткие контуры вырубок (рис. 3).

95°50'В

95°55'В

a)

Рис. 3. Сопоставление исходного снимка (а) с топографической нормализацией и результаты автоматической классификации непараметрическим алгоритмом (б) и методом ШОБЛТЛ (в)

Заключение

Непараметрический алгоритм автоматической классификации статистических данных большого объёма основан на их «сжатии» путём декомпозиции многомерного пространства признаков исследуемых объектов. Полученная информация позволяет осуществить синтез регрессионной оценки плотности вероятности, асимптотические свойства которой определяют количество интервалов дискретизации области значений случайных величин. На этой основе формируется процедура автоматической классификации статистических данных, которая учитывает близость центров многомерных интервалов дискретизации и соотношения между частотами попадания случайных величин в эти интервалы. Вычислительная эффективность непараметрического алгоритма автоматической классификации повышается в два раза при использовании многопоточной технологии обработки данных при его программной реализации. Результаты исследования подтверждаются применением непараметри-

ческого алгоритма автоматической классификации при обработке спектральных данных дистанционного зондирования лесных массивов, повреждённых сибирским шелкопрядом. Топографическая нормализация исходного снимка позволяет повысить эффективность обнаружения состояний повреждённых лесных древостоев. Результаты автоматической классификации непараметрическим алгоритмом и методом программного продукта Erdas Imagine сопоставимы.

Благодарности

Исследование выполнено при финансовой поддержке РФФИ, Правительства Красноярского края и Красноярского краевого фонда науки в рамках научного проекта № 20-41-240001.

Литература

1. Дорофеюк, А.А. Алгоритмы автоматической классификации (обзор) / А.А. Дорофеюк // Автоматика и телемеханика. - 1971. - № 12. - С. 78-113.

2. Дорофеюк, А.А. Методология экспертно-классифика-ционного анализа в задачах управления и обработки

сложноорганизованных данных (история и перспективы развития) / А.А. Дорофеюк // Проблемы управления. -2009. - № 3(1). - С. 19-28.

3. Цыпкин, Я.З. Основы теории обучающихся систем / Я.З. Цыпкин. - М.: Наука, 1970. - 252 с.

4. Васильев, В.И. Особенности алгоритмов самообучения и кластеризации / В.И. Васильев, С.Н. Эш // Управляющие системы и машины. - 2011. - № 3. - С. 3-9.

5. Лапко, А.В. Непараметрический алгоритм автоматической классификации в условиях статистических данных большого объема / А.В. Лапко, В.А. Лапко // Информатика и системы управления. - 2018. - Т. 57, № 3. -С. 59-70. - DOI: 10.22250/isu.2018.57.59-70.

6. Лапко, А.В. Непараметрический алгоритм выделения классов, соответствующих одномодальным фрагментам плотности вероятности многомерных случайных величин / А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев,

B.Л. Авдеенок // Автометрия. - 2019. - Т. 55, № 3. -

C. 22-30. - DOI: 10.15372/AUT20190303.

7. Лапко, А.В. Регрессионная оценка многомерной плотности вероятности и её свойства / А.В. Лапко, В.А. Лапко // Автометрия. - 2014. - Т. 50, № 2. - С. 50-56.

8. Лапко, А.В. Оптимальный выбор количества интервалов дискретизации области изменения одномерной слу-

чайной величины при оценивании плотности вероятности / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2013. - № 7. - С. 24-27.

9. Лапко, А.В. Выбор оптимального количества интервалов дискретизации области значений двухмерной случайной величины / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2016. - № 2. - С. 14-17.

10. Лапко, А.В. Метод дискретизации области значений многомерной случайной величины / А.В. Лапко,

B.А. Лапко // Измерительная техника. - 2019. - № 1. -

C. 16-20. - DOI: 10.32446/0368-1025it.2019-1-16-20.

11. Лапко, А.В. Оценивание интеграла от квадрата плотности вероятности одномерной случайной величины / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2020. - № 7. - С. 2228. - DOI: 10.32446/0368-1025it.2020-7-22-28.

12. Kharuk, V.I. Climate-induced northerly expansion of Siberian silkmoth range / V.I. Kharuk, S.T. Im, K.J. Ranson, M.N. Yagunov // Forests. - 2017. - Vol. 8, Issue 8. - 301. -DOI: 10.3390/f8080301.

13. Kharuk, V.I. Siberian silkmoth outbreaks surpassed geocli-matic barrier in Siberian Mountains / V.I. Kharuk, S.T. Im, V.V. Soldatov // Journal of Mountain Science. - 2020. -Vol. 17. - P. 1891-1900. - DOI: 10.1007/s11629-020-5989-3.

Сведения об авторах

Зеньков Игорь Владимирович, 1963 года рождения, в 1985 г. окончил Красноярский институт цветных металлов по специальности «Технология и комплексная механизация открытой разработки месторождений полезных ископаемых», доктор технических наук, профессор, профессор кафедры систем автоматики, автоматизированного управления и проектирования Сибирского федерального университета, ведущий научный сотрудник Красноярского филиала Федерального исследовательского центра информационных и вычислительных технологий. Область научных интересов: решение задач горнодобывающей промышленности с использованием ресурсов дистанционного зондирования; информационное обеспечение мониторинга технологических, логистических параметров предприятий горной промышленности; дистанционное зондирование. E-mail: zenkoviv@mail.ru .

Лапко Александр Васильевич, 1949 года рождения, в 1971 году окончил Фрунзенский политехнический институт по специальности «Автоматика и телемеханика», доктор технических наук, профессор, заслуженный деятель науки РФ, главный научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, профессор кафедры космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавание образов и анализ изображений; моделирование и оптимизация неопределённых систем, дистанционное зондирование. E-mail: lapko@icm.krasn.ru .

Лапко Василий Александрович, 1974 года рождения, в 1996 году окончил Красноярский государственный технический университет по специальности «Управление и информатика в технических системах», доктор технических наук, профессор, ведущий научный сотрудник Института вычислительного моделирования Сибирского отделения Российской академии наук, заведующий кафедрой космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Область научных интересов: непараметрическая статистика; распознавание образов и анализ изображений; моделирование неопределённых систем, дистанционное зондирование. E-mail: valapko@yandex.ru .

Им Сергей Тхекдеевич, 1979 года рождения, в 2001 году окончил Красноярский государственный технический университет по специальности «Информационные системы в геоинформационных системах», кандидат технических наук, доцент кафедры географии Сибирского федерального университета, ведущий научный сотрудник Института леса имени В.Н. Сукачева Сибирского отделения Российской академии наук, доцент кафедры космических средств и технологий Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева. Основная область научных интересов: исследование пространственно-временной

динамики и состояния лесных территорий на основе данных дистанционного зондирование Земли и геоинформационных систем. E-mail: stim@ksc.krasn.ru .

Тубольцев Виталий Павлович, 1998 год рождения, в 2020 году окончил Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева по направлению 21.03.03 «Геодезия и дистанционное зондирование» со степенью бакалавра. Поступил на первый курс магистратуры Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева по направлению 09.04.02 «Информационные системы и технологии» по профилю «Информационные системы обработки данных дистанционного зондирования». Область научных интересов: разработка информационных средств, непараметрические системы классификации, быстрые алгоритмы оптимизации решающих правил, обработка данных дистанционного зондирования. E-mail: vitalya.98@mail.ru .

Авдеенок Валерий Леонидович, 1998 год рождения, в 2020 году окончил Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева по направлению 21.03.03 «Геодезия и дистанционное зондирование» со степенью бакалавра. Поступил на первый курс магистратуры Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева по направлению 09.04.02 «Информационные системы и технологии» по профилю «Информационные системы обработки данных дистанционного зондирования». Область научных интересов: разработка информационных средств, параллельные вычислительные технологии, непараметрические системы классификации, дистанционное зондирование. E-mail: avdeyonok@gmail.com .

ГРНТИ: 28.23.15

Поступила в редакцию 21 августа 2020 г. Окончательный вариант - 3 декабря 2020 г.

A nonparametric algorithm for automatic classification of large multivariate

statistical data sets and its application

I. V. Zenkov15, A.V. Lapko 2-4, VA. Lapko 24, S. T. Im '-3-4, V.P. Tuboltsev 4, V.L. Аvdeenok4

'Siberian Federal University, 660041, Krasnoyarsk, Russia, Svobodny Av. 79, 2Institute of Computational Modelling SB RAS, 660036, Krasnoyarsk, Russia, Akademgorodok 50,

3Sukachev Institute of Forest SB RAS, 660036, Krasnoyarsk, Russia, Akademgorodok 50, 4Reshetnev Siberian State University of Science and Technology, 660037, Krasnoyarsk, Russia, Krasnoyarsky Rabochy Av. 31, 5Krasnoyarsk Branch of the Federal Research Center for Information and Computational Technologies,

660049, Krasnoyarsk, Russia, Mira Av. 53

Abstract

A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the «compression» of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of one- and two-dimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Keywords: automatic classification algorithm, multidimensional histogram, regression probability density estimate, discretization of the range of values of a random variable, large samples, antikurtosis coefficient, remote sensing data.

Citation: Zenkov IV, Lapko AV, Lapko VA, Im ST, Tuboltsev VP, Avdeenok VL. A nonparametric algorithm for automatic classification of large multivariate statistical data sets and its application. Computer Optics 2021; 45(2): 253-260. DOI: I0.18287/2412-6179-C0-801.

Acknowledgements: The research was funded by RFBR, Krasnoyarsk Territory and Krasnoyarsk Regional Fund of Science, project number 20-41-240001.

References

[1] Dorofeyuk АА. Algorithms of automatic classification (review) [In Russian]. Automation and Remote Control 1971; 12: 78-113.

[2] Dorofeyuk АА. Methodology of expert classification analysis in the management and processing of complex

data (history and prospects of development) [In Russian]. Control Sciences 2009; 3(1): 19-28.

[3] Tsypkin YaZ. Fundamentals of the theory of learning systems [In Russian]. Moscow: "Nauka" Publisher; 1970.

[4] Vasil'ev VI, Ehsh SN. Features of self-learning algorithms and clustering [In Russian]. Control Systems and Machines 2011; 3: 3-9.

[5] Lapko AV, Lapko VA. Nonparametric algorithm of automatic classification under conditions of large-scale statistical data [In Russian]. Informatika i Sistemy Upravleniya 2018; 57(3): 5970. DOI: 10.22250/isu.2018.57.59-70.

[6] Lapko AV, Lapko VA, Im ST, Tuboltsev VP, Avdeenok VL. Nonparametric algorithm of identification of classes corresponding to single-mode fragments of the probability density of multidimensional random variables. Optoelectronics, Instrumentation and Data Processing 2019; 55(3): 230-236. DOI: 10.3103/S8756699019030038.

[7] Lapko AV, Lapko VA. Regression estimate of the multidimensional probability density and its properties. Optoelectronics, Instrumentation and Data Processing 2014; 50(2): 148-153. DOI: 10.3103/S875669901402006X.

[8] Lapko AV, Lapko VA. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density. Measurement Techniques 2013; 56(7): 763-767. DOI: 10.1007/s11018-013-0279-x.

[9] Lapko AV, Lapko VA. Selection of the optimal number of intervals sampling the region of values of a two-dimensional random variable. Measurement Techniques 2016; 59(2): 122-126. DOI: 10.1007/s11018-016-0928-y.

[10] Lapko AV, Lapko VA. Discretization method for the range of values of a multi-dimensional random variable. Measurement Techniques 2019; 62(1): 16-22. DOI: 10.1007/s11018-019-01579-0.

[11] Lapko AV, Lapko VA. Estimating the integral of the square of the probability density of a one-dimensional random variable. Measurement Techniques 2020; 63: 534-542. DOI: 10.1007/s11018-020-01820-1.

[12] Kharuk VI, Im ST, Ranson KJ, Yagunov MN. Climate-induced northerly expansion of Siberian silkmoth range. Forests 2017; 8(8): 301. DOI: 10.3390/f8080301.

[13] Kharuk VI, Im ST, Soldatov VV. Siberian silkmoth outbreaks surpassed geoclimatic barrier in Siberian Mountains. Journal of Mountain Science 2020; 17: 1891-1900. DOI: 10.1007/s11629-020-5989-3.

Authors' information

Igor Vladimirovich Zenkov (b. 1963), graduated from Krasnoyarsk Institute of Non-ferrous Metals on speciality "Technology and Complex Mechanization of Opencast Mining of Mineral Deposits" in 1985. Doctor of Science in Technology, professor, professor of the Automation Systems, Automated Control and Design department at Siberian Federal University; leading researcher at the Krasnoyarsk Branch of the Federal Research Center for Information and Computational Technologies. Research interests: solving problems in the mining industry using remote sensing resources; information support for monitoring technological, logistic parameters of mining enterprises; remote sensing. E-mail: zenkoviv@mail.ru .

Alexander Vasilievich Lapko (b. 1949), graduated from Frunze Polytechnic Institute on speciality "Automation and Telemechanics" in 1971. Doctor of Science in Technology, professor, honored worker of science of the Russian Federation, chief researcher of the Institute of Computational Modeling of the Siberian Branch of the Russian Academy of Sciences; Professor of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling and optimization of uncertain systems; remote sensing. E-mail: lapko@icm.krasn.ru .

Vasiliy Аleksandrovich Lapko (b. 1974), graduated from Krasnoyarsk State Technical University on speciality "Management and Informatics in Technical Systems" in 1996. Doctor of Science in Technology, professor, leading researcher at the Institute of Computational Modeling of the Siberian Branch of the Russian Academy of Sciences; Head of Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: nonparametric statistics; pattern recognition and image analysis; modeling of uncertain systems; remote sensing. E-mail: valapko@yandex. ru .

Sergei Thekdeyevich Im (b. 1979), graduated from Krasnoyarsk State Technical University on speciality "Information Systems in Geoinfromation Systems" in 2001. Candidate of Sciences in Technology, Docent, Leading Researcher at the Institute of Forest of the Siberian Branch of the Russian Academy of Sciences; Docent of the Space Facilities and Technologies department of the Reshetnev Siberian State University of Science and Technology. Research interests: analysis of spatial-temporal dynamics and monitoring of forest based on the remote sensing data and geoin-formation systems. E-mail: stim@ksc.krasn.ru .

Vitaly Pavlovich Tuboltsev (b. 1998), graduated from the Reshetnev Siberian State University of Science and Technology on speciality 21.03.03 «Geodesy and Remote Sensing» in 2020. First-year graduate student at the Reshetnev Siberian State University of Science and Technology on speciality 09.04.02 «Information Systems and Technologies». Research interests: development of information tools, nonparametric classification systems, fast optimization algorithms for decision rules, remote sensing processing. E-mail: vitalya.98@mail.ru .

Valery Leonidovich Avdeenok (b. 1998), graduated from the Reshetnev Siberian State University of Science and Technology on speciality 21.03.03 «Geodesy and Remote Sensing» in 2020. First-year graduate student at the Reshetnev Siberian State University of Science and Technology on speciality 09.04.02 «Information Systems and Technolo-

gies». Research interests: development of information tools, parallel computing technologies, nonparametric classification systems, remote sensing. E-mail: avdevonok@smail.com .

Received August 21, 2020. The final version - December 3, 2021.

i Надоели баннеры? Вы всегда можете отключить рекламу.