УДК 528.852
КЛАСТЕРЫ С ОБЪЕМНЫМИ ПРОТОТИПАМИ В РАСПОЗНАВАНИИ СПУТНИКОВЫХ ДАННЫХ
Алексей Александрович Бучнев
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, старший научный сотрудник лаборатории обработки изображений, тел. (383)333-73-32, e-mail: [email protected]
Валерий Павлович Пяткин
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, зав. лабораторией обработки изображений, тел. (383)333-73-32, e-mail: [email protected]
Рассматривается технология нечеткой кластеризации данных дистанционного зондирования Земли (ДЗЗ) расширенными алгоритмами С-средних и Густафсона - Кесселя. Расширения алгоритмов состоят в использовании объемных прототипов и меры сходства кластеров.
Ключевые слова: дистанционное зондирование, нечеткая кластеризация, объемные прототипы, степень сходства кластеров.
CLUSTERS WITH VOLUME PROTOTYPES IN RECOGNITION OF SATELLITE DATA
Aleksey A. Buchnev
Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia, Novosibirsk, acad. Lavrent'ev av., 6, lab of the images processing senior researcher, tel. (383)333-73-32, e-mail: [email protected]
Valeriy P. Pyatkin
Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia, Novosibirsk, acad. Lavrent'ev av., 6, lab of the images processing head, tel. (383)333-73-32, e-mail: [email protected]
The fuzzy clustering technology of the Earth remote sensing data, based on extended C-means and Gustafson-Kessel algorithms, is discussed. The algorithms extensions consists of using clusters volume prototypes and measure of clusters similarity.
Key words: remote sensing, fuzzy clustering, volume prototypes, measure of clusters similarity.
Одним из основных вопросов тематической обработки (интерпретации) данных ДЗЗ является вопрос повышения качества распознавания. Возникающие трудности обусловлены, в частности, "загрязнением" выборок смешанными векторами признаков, т.е. векторами, которые образуются при попадании в элемент разрешения съемочной системы нескольких природных объектов [1, 2]. Большинство алгоритмов классификации для отнесения векторов признаков классам вычисляют для каждого вектора значения подходящей функции «правдоподобия». В случае зачисления вектора признаков в класс по максимальному
значению функции правдоподобия получается так называемая жесткая кластеризация (например, так работает классический алгоритм K-средних).
Альтернативным подходом является нечеткая кластеризация, которая позволяет каждому вектору признаков принадлежать одновременно всем кластерам с определенной степенью членства (принадлежности) в каждом кластере. Одним из первых алгоритмов нечеткой кластеризации является, вероятно, алгоритм С-средних [3]. Вопросы реализации и использования этого алгоритма в обработке данных ДЗЗ освещаются в [4].
Дальнейшим развитием системы нечеткой кластеризации данных ДЗЗ является реализация нечеткой кластеризации расширенными алгоритмами С-средних (Fuzzy C-means - FCM) и Густафсона-Кесселя (Gustafson-Kessel - GK) [5]. В алгоритме FCM выбранная метрика, определяющая форму получаемых кластеров, одинакова для всех кластеров и не меняется в процессе работы. Принципиальное отличие алгоритма GK от алгоритма FCM состоит в том, что каждый кластер имеет индивидуальную метрику, основанную на нечеткой ковариационной матрице кластера (метрика Махаланобиса). Эта метрика динамически меняется в процессе выполнения итераций алгоритма.
Расширения FCM и GK алгоритмов (получаются E-FCM и E-GK алгоритмы) состоят в следующем:
1. В качестве прототипов кластеров используются объемные прототипы (volume prototypes). В частности, если в алгоритме E-FCM используется евклидова метрика, тогда таким прототипом будет гипершар. В алгоритме E-GK объемным прототипом кластера является гиперэллипсоид. Размеры объемных прототипов определяются на основе объемов кластеров. Такие прототипы менее чувствительны к отклонениям в распределении данных.
2. Вводится понятие «сходства» (similarity) кластеров. Начиная с заведомо большего числа кластеров, кластеры, степень сходства которых превышает заданный порог, объединяются в итерационном процессе кластеризации для того, чтобы получить подходящее разбиение данных.
Приведенные выше рисунки демонстрируют процесс построения карты нечеткой кластеризации алгоритмом E-FCM. На рис. 1 приведено исходное изображение бассейна Обского водохранилища, полученное 19.04.2011 г. (спутник Modis/Terra). На рис. 2 представлен результат работы алгоритма. Во входных данных было задано 7 кластеров, в результате работы алгоритма все векторы признаков были разбиты по двум кластерам.
Заметим, что в качестве начального разбиения векторов признаков по нечетким кластерам используются выходные данные алгоритма С-средних.
Включение алгоритмов E-FCM и E-GK в состав программного комплекса по обработке спутниковых данных PlanetaMonitoring позволяет расширить возможности системы кластеризации комплекса по построению разбиения, наиболее полно соответствующего внутренней структуре данных.
Рис. 1 Рис. 2
Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 16-07-00066) и Программы 133П фундаментальных исследований Президиума РАН (проект № 0315-2015-0012).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Асмус В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды. Диссертация в виде научного доклада на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва - 2002, -75 с.
2. Шовенгердт Р.А. Дистанционное зондирование. Модели и методы обработки изображений. Пер. с англ. Москва: Техносфера, 2010.
3. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York, 1981.
4. Асмус В. В., Бучнев А. А., Пяткин В. П. Кластерный анализ в обработке данных дистанционного зондирования Земли // Интерэкспо ГЕ0-Сибирь-2015. XI Междунар. науч. конгр. : Пленарное заседание : сб. материалов (Новосибирск, 13-25 апреля 2015 г.). - Новосибирск : СГУГиТ, 2015. - С. 71-78.
5. Uzay Kaimak and Magne Setnes. Extended Fuzzy Clustering Algorithms. ERIM report series ERS-2000-51-LIS. Rotterdam, Netherlands, November 2000, 24 pp.
© А. А. Бучнев, В. П. Пяткин, 2016