УДК 528.852
НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ
Алексей Александрович Бучнев
Институт вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, кандидат технических наук, старший научный сотрудник лаборатории обработки изображений, тел. (383)333-73-
32,
e-mail: [email protected] Валерий Павлович Пяткин
Институт вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, доктор технических наук, профессор, заведующий лабораторией обработки изображений, тел. (383)333-73-32, e-mail: [email protected]
Рассматривается система нечеткой кластеризации, которая включена в состав модуля распознавания, разрабатываемого в ИВМиМГпрограммного комплекса по обработке данных дистанционного зондирования Земли (ДЗЗ). Нечеткая кластеризация, в отличие от жесткой кластеризации, назначающей каждый вектор признаков строго одному кластеру, позволяет разделять вектор признаков между несколькими кластерами. Эта особенность нечеткой кластеризации вполне соответствует природе данных ДЗЗ, среди которых всегда присутствуют смешанные векторы признаков. Система включает два алгоритма нечеткой кластеризации - алгоритм С-средних (FCM), известный как вероятностный алгоритм нечеткой кластеризации, и алгоритм С-средних с регуляризацией (PCM), известный как возможностный алгоритм нечеткой кластеризации. Разработанная система нечеткой кластеризации способствует получению карты классификации, наилучшим образом соответствующей истинным тематическим классам в данных ДЗЗ.
Ключевые слова: дистанционное зондирование, кластерный анализ, жесткая кластеризация, нечеткая кластеризация, вероятностная нечеткая кластеризация, возможностная нечеткая кластеризация.
FUZZY CLUSTERING OF THE EARTH REMOTE SENSING DATA
Aleksey A. Buchnev
Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Russia, Novosibirsk, acad. Lavrent'ev av., 6, lab of the images processing senior researcher, tel. (383)333-73-32, e-mail:[email protected]
Valeriy P. Pyatkin
Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Russia, Novosibirsk, acad. Lavrent'ev av., 6, lab of the images processing head, tel. (383)333-73-32, e-mail:[email protected]
The system of fuzzy clusteringis discussed.This system is included into the pattern recognition module of software complex for data processing of Earth remote sensing (ERS) data, which is developed in the ICMMG.Fuzzy clustering, unlike hard clustering, which assigns each feature vector(pattern) strictly to one cluster, shares the feature vector between many clusters.In ERS dataset there are always mixed feature vectors, which are the results of more than one
natural categoryregistration.For such data, it is more appropriate to use the fuzzy classification. Our system includes two algorithms of fuzzy clustering - fuzzy C-means, which is known as probabilistic fuzzy clustering (FCM), the second is fuzzy C-means with regularization, which is known as possibilistic fuzzy clustering (PCM). The developed clustering system provides the map of classification that fits best true thematic classes in the ERS dataset.
Key words: remotesensing, clustering, hardclustering, fuzzyclustering, probabilistic fuzzy clustering, possibilistic fuzzy clustering.
Характерной особенностью данных ДЗЗ является "загрязнение" выборок смешанными векторами признаков, т.е. векторами, которые образуются при попадании в элемент разрешения съемочной системы нескольких природных объектов.Это обстоятельство является одним из источников ошибок при построении карты классификации [1]. Большинство алгоритмов кластеризации для отнесения векторов признаков кластерам вычисляют для каждого вектора значения подходящей функции «правдоподобия». В случае зачисления вектора признаков в кластер по максимальному значению функции правдоподобия получается так называемая жесткая кластеризация.
Альтернативой жесткой разделяющей кластеризации является мягкая или нечеткая кластеризация, разрешающаявекторам измерений принадлежать всем кластерам с коэффициентом членства иу е [0,1],
определяющим степень принадлежности j-говектора i-му кластеру:
IX = ^ V,
i=1
(1)
L
0 < < L, Wi,
j=1
(2)
определяя этими соотношениями нечеткую кластеризацию. Здесь C - число кластеров, L- количество векторов признаков. В недавнее время нами в состав системы кластеризации программного комплекса по обработке данных ДЗЗ была включена реализация широко используемого алгоритма нечеткой кластеризации, известного как метод C-cpedHUx(FuzzyC-means, FCM) [2].Это итерационный алгоритм, который используется для разделения смешанных векторовпризнаков в данных ДДЗ. Идея метода заключается в описании сходства вектора с каждым кластером с помощью функции уровней принадлежности, принимающей значения отнуля до единицы. Значения функции, близкие к единице, означают высокую степень сходства вектора с кластером.Здесь сумма значений функции уровней принадлежности для каждого пиксела равняется единице. Параметрами соответствующей процедуры (кроме числа кластеров) являются тип метрики и вариант выбора начальных центров кластеров. Дополнительным
параметром является показатель нечеткости, значения которого для ДДЗ предлагается брать близкими к двум (см., например, Шовенгердт[1]).
Вторым алгоритмом нечеткой кластеризации, включенным в состав программного комплекса по обработке данных ДЗЗ, является алгоритм нечеткой кластеризации с регуляризацией - так называемый алгоритм Possibilistic C-means, PCM. Принципиальное отличие алгоритма PCM от алгоритма FCM состоит в снятии ограничения (1) на элементы матрицы принадлежности вектора признаков кластерам: в алгоритме FCM для каждого вектора признаков сумма элементов матрицы принадлежности по всем кластерам должна равняться единице (вероятностное - probabilistic -свойство алгоритма FCM). Таким образом, в алгоритме FCM членство вектора в кластере является относительным, т.к. оно зависит от членства этого вектора во всех других кластерах, в то время как в алгоритме PCM значение членства вектора в кластере является абсолютным (т.е. не зависящим от значений членства этого вектора в других кластерах) и может интерпретироваться в терминах типичности вектора. Алгоритм PCM пытается найти моды в наборе данных, так как каждый полученный кластер соответствует плотной области в этом наборе. В процессе выполнения итераций алгоритма прототипы кластеров последовательно перемещаются в плотные области в пространстве признаков.
PCM алгоритм является робастным методом кластеризации, который может быть использован для обнаружения плотных областей в данных. Степень членства вектора признаков в кластере определяется двумя величинами: расстоянием вектора до прототипа кластера и параметром^, называемым ссылочным расстоянием кластера. Значение этого параметра индивидуально для каждого кластера и зависит от среднего размера кластера.
Авторы алгоритма (Krishnapuram&Keller [3]) отмечают, что для получения качественных результатов кластеризации требуется хорошая инициализация ссылочных расстояний кластеров. Следуя их рекомендациям, в качестве начального приближения матрицы степеней членства векторов признаков в кластерах используется результат выполнения алгоритма нечеткой кластеризации методом FCM. Т.е. необходимым условием выполнения алгоритма PCM для какого-либо набора данных является предварительное выполнение алгоритма FCM для этого набора данных.
Нижеследующие рисунки демонстрируют результаты работы алгоритмов С-средних. На рис. 1 представлен фрагмент снимка ИСЗ SPOT-4, полученного 04.05.2011 г., с паводковой ситуацией в районе Камня-на-Оби (снимок предоставлен Сибирским центром НИЦ «Планета»). На рис. 2 приведен результат обработки алгоритмом FCM. Фрагменты исходного изображения, являющиеся «шумом» по отношению к области интереса, исключены из процесса обработки. На рис. 3 и 4 представлены результаты обработкиалгоритмом PCM^ значениями ссылочных расстояний K=1 иК=0.8 соответственно. Выделялось 10 кластеров, выполнялось 50 итераций алгоритмов.
Рис. 1. Исходное изображение Рис. 2. Кластеризация методом FCM
Рис. 3. Кластеризация методом РСМс K=1 Рис. 4. Кластеризация методом
Основная часть работы алгоритмов FCMиPCMсостоит в итерационном перестроении матрицы уровней принадлежности векторов признаков кластерам и пересчете центров кластеров. Алгоритмы заканчивают работу при выполнении заданного числа итераций либо при достижении матрицы уровней принадлежности состояния стабильности, т.е. состояния, при котором норма разности матриц в двух последовательных итерациях не превосходит заданного порога. Эта работа требует больших временн'ых
затрат при ее PCMc K=0.8 последовательном выполнении, особенно в случае, когда показатель нечеткости неравен двум, в связи с чем реализованы параллельные версии алгоритмов. Параллельная реализация алгоритмов осуществляется средствами ОС Windows в рамках одного процесса путем запуска нескольких параллельных потоков. Количество запускаемых потоков равно количеству логических процессоров компьютера. Каждый поток перестраивает соответствующую часть матрицы уровней принадлежности. Необходимая при работе параллельных потоков синхронизация достигается с помощью механизма событий ОС Windows. В табл. 1 содержатся данные о времени выполнения параллельной процедуры нечеткой кластеризации методом FCM набора векторов признаков рис. 1. Приводятся результаты измерений времени (в секундах) для значений параметра нечеткости m=2 и m=2.2. Измерения проводились под управлением Windows-7 на аппаратной платформе с четырьмя логическими процессорами. Выполнялось 50 итераций. Аналогичные данные для алгоритма РСМприведены в табл. 2.
_Таблица 1
Значение m Количество запускаемых потоков
1 2 3 4
m=2 76.18 52.87 44.52 40.65
m=2.2 305.56 189.14 140.04 116.92
Таблица 2
Значение m Количество запускаемых потоков
1 2 3 4
m=2 50.71 33.03 30.95 28.80
m=2.2 228.60 123.51 99.12 82.66
В заключение отметим, чтовключение алгоритмовнечеткой кластеризации FCMи РСМв состав системы кластерного анализа программного комплекса по обработке данных ДЗЗ позволяет построить карту классификации, более полно соответствующую истинным тематическим классам в наборе данных.
Работа частично поддержана грантом РФФИ 13-07-00068.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Шовенгердт Р.А. Дистанционное зондирование. Модели и методы обработки изображений. Пер. с англ. Москва: Техносфера, 2010.
2. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York, 1981.
3. R. Krishnapuram and J.M. Keller. A possibilistic approach to clustering. IEEE TransactionsonFuzzySystems, 1:98-110, 1993.
© A.A. Eynnee, B. n. nnmKun, 2014