Научная статья на тему 'ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКОГО МЕТОДА АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ'

ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКОГО МЕТОДА АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
автоматическая классификация / нормализация / большие данные / дискретизация области значений многомерных случайных величин / данные дистанционного зондирования / automatic classification / normalizing / big data / discretization of value area multidimensional random variables / remote sensing data

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В.Л. Авдеенок, В.П. Тубольцев

Рассматриваются результаты исследования непараметрического метода автоматической классификации с использованием нормализации данных дистанционного зондирования лесных массивов. Для обнаружения классов используются непараметрические алгоритмы, основанные на дискретизации и анализе области значений многомерных случайных величин.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В.Л. Авдеенок, В.П. Тубольцев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH NON-PARAMETRIC ALGORITHMS OF AUTOMATIC CLASSIFICATION

The article consider results of automatic classification with using normalization on remote sense data of woodlands. For the detection of classes used nonparametric algorithms based on discretization and analysis of value area multidimensional random variables.

Текст научной работы на тему «ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКОГО МЕТОДА АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ»

УДК 004.93

ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКОГО МЕТОДА АВТОМАТИЧЕСКОЙ

КЛАССИФИКАЦИИ

1 2* 1 2 В. Л. Авдеенок ' , В. П. Тубольцев'

1 Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2Центр защиты леса Красноярского края - филиал ФБУ «Рослесозащита» Российская Федерация, 660036, Красноярск, Академгородок, д. 50 «а», к. 2 E-mail: avdeyonok@gmail.com

Рассматриваются результаты исследования непараметрического метода автоматической классификации с использованием нормализации данных дистанционного зондирования лесных массивов. Для обнаружения классов используются непараметрические алгоритмы, основанные на дискретизации и анализе области значений многомерных случайных величин.

Ключевые слова: автоматическая классификация, нормализация, большие данные, дискретизация области значений многомерных случайных величин, данные дистанционного зондирования.

RESEARCH NON-PARAMETRIC ALGORITHMS OF AUTOMATIC CLASSIFICATION

V. L. Avdeenok1, 2*, V. P. Tuboltsev1, 2

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation Branch of FBI "RCFH" Centre of Forest Health of Krasnoyarsk Region 50a bldg.2, str. Akademgorodok, Krasnoyarsk, 660036, Russian Federation *E-mail: avdeyonok@gmail.com

The article consider results of automatic classification with using normalization on remote sense data of woodlands. For the detection of classes used nonparametric algorithms based on discretization and analysis of value area multidimensional random variables.

Keywords: automatic classification, normalizing, big data, discretization of value area multidimensional random variables, remote sensing data.

Методы автоматической классификации используются при создании математического обеспечения аппаратно-программных комплексов обработки данных дистанционного зондирования природных объектов. В работах [1, 2] под классом понимается множество значений случайных величин, соответствующих одномодальному фрагменту плотности вероятности в пространстве признаков исследуемых объектов. В данном направлении разработаны непараметрические алгоритмы автоматической классификации, которые позволяют обнаруживать классы с использованием итерационных процедур распознавания образов ядерного типа [3, 4]. Однако их вычислительная эффективность имеет тенденцию к снижению по мере роста объёмов обрабатываемой информации.

Также данные космической съемки неравномерно распределены, что дает отрицательное влияние на скорость обработки входных данных. Из этого исходит необходимость

Секция «Математические методы моделирования, управления и анализа данных»

нормализации данных дистанционного зондирования для повышения точности классификации, а также скорости обработки.

Целью данной работы является исследование влияния нормализации данных дистанционного зондирования на результаты работы непараметрического алгоритма автоматической классификации статистических данных большого объема.

Методика нормализации данных. Нормализация необходима по причине повышения качества исходных данных. Основной проблемой разнотипных данных можно назвать несоответствие их друг-другу в рамках одной шкалы. Возможны ситуации, когда более значимый параметр, с небольшим значением величины, перекрывается менее значимым, у которого, значение больше. Из этого следует, что мы получаем данные плохого качества, т.е. данные могут быть «несравнимыми». Для минимизации таких случаев вводится нормализация.

Для повышения качества оцениваемых данных была применена минимаксная нормализация

[5].

Данный вид нормализации является линейным переводом данных из одного интервала в другой. Формула преобразования выглядит следующим образом:

X' = a + Х ~ Xmm (b - a), x + x ■

max mm

где a, b- значения диапазонов, x- значение выборки, xmin, xmax- максимальное и минимальное значения выборки.

Плюсом данного метода можно назвать его простоту, которая положительно сказывается на скорость вычислений при большом количестве исходных данных. Существенным минусом данного подхода является то, что величины xmjn, xmax должны бы определены заранее и не быть динамическими.

Результаты применения. Исследуемая территория соответствует холмистой местности со смешанными лесами, расположенной в 15 км на юг от посёлка Танзыбей Ермаковского района. Исходная информация была сформирована по фрагменту спутниковой съемки Sentinel-2A с пространственным разрешением 10 метров. Размеры фрагмента составляют 461x422 пикселей. Каждый из пикселей характеризуется тремя спектральными каналами: красный (хД ближний инфракрасный (Х2), коротковолновый инфракрасный (хД

Рис. 1. Фрагмент спутниковой съемки 8епйпе1-2А в инфракрасном диапазоне (А). Пространственное отображение результатов работы непараметрического алгоритма автоматической классификации, полученных без использования нормализации данных (Б) при количестве классов М = 69 и с использованием нормализации данных (В) при количестве классов М = 35

На снимке детектируются светлохвойные и темнохвойные породы деревьев, а также открытые почвы, дороги и вырубки. Результаты работы алгоритма с нормализацией и без

визуально сопоставимы. Растровое изображение, полученное в результате применения алгоритма автоматической классификации к нормализованными данными дистанционного зондирования, имеет меньшее количество классов, чем без нормализации. В ходе анализа результатов классификации можно смело говорить о положительном влиянии нормализации на точность классификации. Лучше выражены и различимы границы между полученными классами.

Использование нормализации исходных данных совместно с непараметрическим алгоритмом автоматической классификации оказывает положительное влияние на результат классификации.

Рекомендуется использовать непараметрический алгоритм автоматической классификации совместно с нормализацией исходных данных дистанционного зондирования на территориях лесных массивов.

Исследование выполнено при финансовой поддержке РФФИ, Правительства Красноярского края и Красноярского краевого фонда науки в рамках научного проекта № 2041-240001.

Библиографические ссылки

1. Цыпкин Я. З. Основы теории обучающихся систем. М.: Наука, 1970. 251 с.

2. Васильев В. И., Эш С. Н. Особенности алгоритмов самообучения и кластеризации // Управляющие системы и машины. 2011. №3. С. 3-9

3. Лапко А. В., Лапко В. А., Хлопов А. Н. Непараметрический алгоритм автоматической классификации статистических данных // Изв. вузов. Приборостроение. 2011. Т.54, №4. С. 7278.

4. Лапко А. В., Лапко В. А. Непараметрический алгоритм автоматической классификации в условиях статистических данных большого объема // Информатика и системы управления. 2018. Т. 57, №3. С. 59 - 70.

5. Сёмкин Б.И., Двойченков В.И. Об эквивалентности мер сходства и различия // Исследование систем. - Владивосток: ДВНЦ АН СССР, 1973. С. 18-43.

© Авдеенок В.Л., Тубольцев В.П., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.