Научная статья на тему 'Кластерный анализ данных дистанционного зондирования Земли'

Кластерный анализ данных дистанционного зондирования Земли Текст научной статьи по специальности «Математика»

CC BY
102
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Бучнев А.А., Пяткин В.П.

The description of the extended version of the cluster analysis (unsupervised classification) system of the Earth multispectral remote sensing data is presented in this article. The choice of the some parameters, which are affect to K-means cluster results, was included in the corresponding software. These parameters are: the K-means algoriphm (Lloyd or MacQueen), type of metric (Euclidian, City-block, Chebychev), algorithm initialization methods and others. The complex procedure, consists of two steps, was realized. The first step is the preliminary clustering, based on the multidimensional histogram modes analysis, and the second is the merging hierarchical clustering, which used the results of the first step as input data.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

СLUSTER ANALYSIS OF THE EARTH REMOTE SENSING DATA

The description of the extended version of the cluster analysis (unsupervised classification) system of the Earth multispectral remote sensing data is presented in this article. The choice of the some parameters, which are affect to K-means cluster results, was included in the corresponding software. These parameters are: the K-means algoriphm (Lloyd or MacQueen), type of metric (Euclidian, City-block, Chebychev), algorithm initialization methods and others. The complex procedure, consists of two steps, was realized. The first step is the preliminary clustering, based on the multidimensional histogram modes analysis, and the second is the merging hierarchical clustering, which used the results of the first step as input data.

Текст научной работы на тему «Кластерный анализ данных дистанционного зондирования Земли»

УДК 528.852 А.А. Бучнев, В.П. Пяткин ИВМиМГ СО РАН, Новосибирск СГГА, Новосибирск

КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ

А.А. Buchnev, V.P. Pyatkin ICM&MG SB RAS, Novosibirsk

CLUSTER ANALYSIS OF THE EARTH REMOTE SENSING DATA

Abstract. The description of the extended version of the cluster analysis (unsupervised classification) system of the Earth multispectral remote sensing data is presented in this article. The choice of the some parameters, which are affect to ^-means cluster results, was included in the corresponding software. These parameters are: the ^-means algoriphm (Lloyd or MacQueen), type of metric (Euclidian, City-block, Chebychev), algorithm initialization methods and others. The complex procedure, consists of two steps, was realized. The first step is the preliminary clustering, based on the multidimensional histogram modes analysis, and the second is the merging hierarchical clustering, which used the results of the first step as input data.

В настоящей работе представлено описание дальнейшего развития системы кластерного анализа (неконтролируемой классификации) многоспектральных данных дистанционного зондирования Земли (ДДЗЗ) в программном комплексе обработки ДДЗЗ, разработанного в ИВМиМГ СО РАН совместно с НИЦ «Планета» Роскомгидромета РФ [1]. Напомним, что кластерный анализ в программном комплексе был представлен двумя алгоритмами - методом K -средних и методом анализа мод многомерной гистограммы [2].

1.1.Метод K -средних. Первый подход основан на итеративной процедуре отнесения векторов признаков классам по критерию минимума расстояния от вектора до центра класса. Оптимальным считается такое разбиение входных векторов на кластеры, при котором внутриклассовый разброс не может быть уменьшен при переносе какого-либо вектора из одного кластера в другой.

Алгоритм К-средних, согласно [3], является одним из способов, называемых «Методы центра тяжести», которые используются в задачах автоматической классификации данных, и представляет собой вариант метода динамических сгущений.

В свою очередь для алгоритма К-средних существуют два способа пересчета центров кластеров при выполнении итерационных операций. В соответствии с первым методом (метод Ллойда [4]) выполнение каждой итерации алгоритма состоит в распределении всех векторов данных по кластерам по минимуму расстояния до центров кластеров и последующем пересчете центров кластеров в соответствии с полученным распределением. В варианте, предложенном Мак-Квином [5], во время выполнения итерации алгоритма каждый раз, когда выясняется, что вектор, находящийся в j-ом

кластере, на самом деле ближе к центру k-го кластера, то этот вектор переводится из кластера j в кластер k с пересчетом центров и объемов этих кластеров.

В обоих вариантах количество выполняемых алгоритмами итераций ограничивается значением параметра Iterations. Дополнительным параметром управления временем работы алгоримта является значение Delta - точность вычислений. В первом варианте алгоритм заканчивает работу на итерации с номером к, если \Кк , -Ек\<Delta, где Ек - сумма квадратов расстояний (ошибок)

всех векторов до центров соответствующих кластеров на k-ой итерации. В варианте Мак-Квина алгоритм заканчивает работу на очередной итерации, если число векторов, переведенных из одного кластера в другой, не превосходит заданной величины VTransp.

Описанная в [2] процедура кластеризации является реализацией алгоритма Мак-Квина для векторов, являющихся векторами средних связных компонент, получаемых разбиением исходной выборки на чистые и смешанные векторы. Это разбиение реализуется с помощью нахождения связных компонент на градиентном изображении на основе заданного соотношения чистых и смешанных векторов.

Такой подход позволяет существенно уменьшить время кластеризации за счет снижения объема данных. В то же время процесс разбиения векторов на чистые и смешанные является в большой степени эвристическим механизмом: небольшие изменения параметра, задающего соотношение чистых и смешанных векторов, могут приводить к большим изменениям в получаемых результатах.

В настоящее время алгоритмы Ллойда и Мак-Квина могут быть использованы для кластеризации как связных компонент, так и всей исходной выборки векторов данных.

1.2.Выбор метрики. В процессе работы алгоритмов расстояние между векторами x и y определяется на основе одной из трех метрик (норм):

!

- Евклидова метрика (Ь2- норма) р{х, у) =.

со

- City-block метрика (Lx - норма) р{х, у) = ^ |- уг |,

г=1

- Чебышева метрика (Lx -норма) р(х,у) = шахЬг -у\, i=l,... ,сап.

Здесь сап - размерность векторов (количество спектральных диапазонов). Выбор метрики определяет форму получаемых кластеров. Для метрики Евклида эквидистантными поверхностями являются гиперсферы, центры которых совпадают с центрами кластеров.

Для Ьх -нормы эквидистантными поверхностями являются поверхности выпуклых гипермногогранников, которые можно определить как гипероктаэдры; в случае сап=3 для кластера с центром хс ={х1,хс2,хс3)точки х = (х17х2,х3) эквидистантной поверхности должны удовлетворять уравнению р(х, хс ) = х1 - х^ + \х2 - хс2 + х3 - хсъ = К , К — СОШР,

это уравнение определяет октаэдр с центром в точке хс и координатами вершин -К,х2,х3с), (х^ +К,х2,х3с), (xi,xz - К,хс3), (х^х' +К,хс3), (x[,xc2,xl - К),

(X1,X2,X3C +ÄT).

Для метрики Чебышева эквидистантными поверхностями являются поверхности гиперкубов, центры которых находятся в центрах кластеров.

1.3.Выбор начальных центров кластеров. Известно (см., например, [6]), что результаты кластеризации методом ^-средних зависят от выбора начальных центров кластеров, а в некоторых случаях даже от порядка, в котором расположены входные данные. Нами реализованы следующие варианты выбора начальных центров кластеров.

1.3.1. Пусть m - вектор средних исходной выборки. Вычисляется значение квадратного корня из суммы дисперсий в каналах:

Dispers_S = (^aff2, где ст; - дисперсия в /-ом канале.

i

Вычисляется значение переменной Ak = CSdisp *Dispers_S, где CSdisp -входной параметр программы, C_Sdisp> = 0.05. В качестве первого начального центра кластера берется первый вектор. Затем, если расстояние от очередного вектора до ближайшего центра кластера больше Ak, этот вектор образует центр нового кластера; в противном случае, если выбран алгоритм Мак-Квина, вектор присоединяется к ближайшему кластеру. Как только получится нужное число центров кластеров, остальные векторы относятся к ближайшим кластерам. Заметим, что при таком выборе начальных центров количество кластеров может оказаться меньше требуемого (если не найдется нужного количества векторов, отстоящих друг от друга на расстояние, большее Ak). Кроме того, именно при таком выборе начальных центров результат кластеризации зависит от порядка векторов в исходной выборке.

1.3.2. По полученным значениям компонент среднего вектора m и стандартным отклонениям формируются векторы v b и v в с компонентами

v_Ъ = (тп1 - (т1,т2 - <т2,...,тп - сгп), v_е = (т1 + сг1,т2 + сг2,...,тп + сгп) (п —

количество каналов). Центры кластеров распределяются равномерно вдоль вектора, соединящего векторы v_b и v_e, т. е. для i-го кластера центр находится в позиции с координатами v i = v_b + i * dv, i = 0, 1, ..., Kk -1, где dv - вектор с

кластерам в соответствии с критерием близости к центрам (здесь Kk -требуемое количество кластеров). По такой схеме определяются начальные центры кластеров в программном комплексе Erdas Imagine. При таком выборе начальных центров количество кластеров может оказаться меньше требуемого (для некоторых центров может не оказаться векторов, наиболее близких к ним).

1.4.Отбор векторов для кластеризации. Как известно (см., например, [7]), результаты кластеризации методом ^-средних в большой степени зависят от дисперсии входных данных: большая дисперсия стремится нарушить форму получаемых кластеров. В связи с этим предусмотрена возможность ограничения набора векторов для кластеризации: обрабатываются только те векторы, которые не выходят за границу эквидистантной поверхности (в случае

координатами

Затем все векторы распределяются по

евклидовой метрики это гипершар) р{х, у) = /)1*1апсе М*Г)1.чрегх $ с центром в векторе средних т (векторы, не удовлетворящие этому условию, назовем «далёкими»). 0181апее_М - параметр программы. По окончании процесса кластеризации «далёкие» векторы, в зависимости от значений некоторых параметров, могут быть полностью либо частично распределены по кластерам на основе минимума расстояния до центра кластеров.

Кроме того, на исходном изображении могут присутствовать объекты, которые фактически являются шумом по отношению к интересующей эксперта части изображения (например, таким объектом при анализе прибрежных водных акваторий является суша). В связи с этим для исключения из процесса обработки ненужных объектов предусмотрен механизм маскирования векторов изображения: с обрабатываемым изображением связывается одноканальное

изображение, в котором пикселы со значением 255 разрешают обработку соответствующих векторов исходного изображения (физические размеры обоих изображений должны быть одинаковыми). Рис. 1-3 демонстрируют влияние маски на результат кластеризации. На рис. 1 приведено исходное изображение части прибрежной акватории Черного моря. На рис. 2 и 3 приведены результаты кластеризации этого изображения алгоритмом Ллойда (выделялось 10 кластеров). На рис. 2 результат кластеризации всего изображения. Рис. 3 демонстрирует эффект маскирования суши и облачности.

Рис. 2 Рис. 3

2. Комплексный метод: анализ мод многомерной гистограммы с последующей иерархической группировкой. Второй метод, включеный в систему кластерного анализа, основан на анализе мод многомерной гистограммы [2, 8]. Практическое использование этого метода показывает, что

Рис. 1

зачастую получение приемлемого результата является весьма трудоемким процессом и требует высокой квалификации эксперта-исследователя. Причиной этого является, вероятно, то, что алгоритм является многопараметрическим (в частности, на решение оказывает большое влияние способ сглаживания гистограммы). В связи с этим, система кластеризации дополнена двухэтапной процедурой (с сохранением всех ранее существовавших функций): на первом этапе выполняется предварительное разбиение исходной выборки на кластеры с помощью модального анализа, а затем для получения окончательного результата используется иерархическая группировка [9].

Заметим, что применение иерархической группировки для кластеризации исходного набора векторов нереально из-за того, что используемая в алгоритме матрица расстояний состоит (в начале работы алгоритма) из N(N-1)/2 элементов, где N - количество векторов. Предварительное использование модального анализа позволяет сократить объем данных до разумных пределов. В качестве входных данных для иерархической группировки используются векторы средних группы векторов, связанных с каждой модой многомерной гистограммы. Напомним, что на каждом шаге восходящей иерархической классификации объединяются два кластера, расстояние между которыми минимально. Среди всех возможных расстояний между кластерами (см. [7, 9]) для ускорения вычислений используется простейшее - расстояние между векторами средних кластеров.

Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № G7-G7-GGGS5).

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Асмус В.В., Бучнев A.A., Пяткин В.П. Программный комплекс для обработки данных дистанционного зондирования Земли // Труды XXXII Международной конференции «Информационные технологии в науке, образовании, телекоммуникации и бизнесе IT+SE'2005», 2G-30 мая 2005 г., Украина, Крым, Ялта - Гурзуф, с. 229-232.

2. Бучнев A.A., Пяткин В.П. Контролируемая и неконтролируемая классификация в обработке данных дистанционного зондирования Земли. Труды Международного научного конгресса «ГЕ0-Сибирь-2007», 23-27 апреля 2007, Новосибирск, Россия, т. 3, ч. 1. «Мониторинг окружающей среды, геоэкология, дистанционные методы зондирования Земли и фотограмметрия».

3. Дидэ Э. Методы анализа данных. Пер. с фр. - М.: Финансы и статистика, 1985.

4. Lloyd S.P. Least Squares Quantizathion in PCM. IEEE Trans. Information Theory, vol. 28, 129-137, 1982.

5. MacQueen J.B. Some Methods for Classification and analysis of multivariate observations. Proc. of the 5-th Berkley Symposium on Mathematical Statistical and Probability, 1967, vol. 1, p. 281-297.

6. Pena J.M., Lozano J.A., Larranaga P. An empirical comparision of four initialization methods for the ^-Means algorithm. Pattern Recognit. Lett., vol. 2G, pp. 1G27-1G4G, 1999.

7. J.P. Marques de Sa. Pattern Recognition: concepts, methods and applications. SpringerVerlag, 2GG1.

S. Aсмyс В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды // Диссертация (научный доклад) на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва. - 2GG2. - 75 с.

9. Жамбю М. Иерархический кластер-анализ и соответствия. Пер. с фр. - М.: Финансы и статистика, 1988.

© А.А. Бучнев, В.П. Пяткин, 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.