Научная статья на тему 'Иерархический кластерный алгоритм для анализа изображения лесных ландшафтов'

Иерархический кластерный алгоритм для анализа изображения лесных ландшафтов Текст научной статьи по специальности «Математика»

CC BY
125
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Сидорова В. С.

Рассмотрен гистограммный кластерный алгоритм, выстраивающий иерархию распределений, лучших по изолированности кластеров, и его приложение для классификации изображения лесных ландшафтов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HIERARCHICAL ALGORITHM FOR CLUSTERIG FOREST AEROIMAGE

Histogram cluster algorithm, creating hierarchy of distributions of most isolated clusters is considered, as well as its using for clustering forest aeroimage.

Текст научной работы на тему «Иерархический кластерный алгоритм для анализа изображения лесных ландшафтов»

УДК 528.852

В.С. Сидорова ИВМиМГ, Новосибирск

ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АЛГОРИТМ ДЛЯ АНАЛИЗА ИЗОБРАЖЕНИЯ ЛЕСНЫХ ЛАНДШАФТОВ1

Рассмотрен гистограммный кластерный алгоритм, выстраивающий иерархию распределений, лучших по изолированности кластеров, и его приложение для классификации изображения лесных ландшафтов.

V.S. Sidorova

Institute of Computational Mathematics and Mathematical Geophysics SB RAS (IofCMandMG),

6 Lavrentjev avenu, Novosibirsk, 630090, Russian Federation

HIERARCHICAL ALGORITHM FOR CLUSTERIG FOREST AEROIMAGE

Histogram cluster algorithm, creating hierarchy of distributions of most isolated clusters is considered, as well as its using for clustering forest aeroimage.

Спецификой данных дистанционного зондирования Земли является не только их очень большой объем, но также высокая корреляция. Поэтому алгоритмы кластеризации должны быть способны находить границы между тесно расположенными, плохо разделенными кластерами. Подходящими являются методы, основанные на использовании многомерной гистограммы признаков. Популярным является метод Фукунаги [1], который разделяет векторное пространство признаков по унимодальным кластерам. Метод определяет кластеры как естественные пики гистограммы, т. е. каждому локальному максимуму многомерной гистограммы сопоставляется модальный вектор кластера, границы кластера соответствуют долинам или оврагам гистограммы, т. е. областям низкой плотности векторов кластера. Достоинством метода является отсутствие заранее заданных свойств распределения и каких бы то ни было параметров, в отличие от альтернативного алгоритма К -средних, результат кластеризации по которому существенно зависит от числа заданных кластеров. Это число определить заранее для большого объема разнородных данных, каковыми являются данные дистанционного зондирования, часто невозможно. Метод Фукунаги автоматически определяет число кластеров. Развитие этого метода осуществилось в известном алгоритме Нарендры [2], который предложил накапливать данные в виде списка векторов, упорядоченных по возрастанию и строить гистограмму за один просмотр исходной информации, сохраняя лишь присутствующие вектора и используя систему хэширования для быстрого доступа к данным. Этот алгоритм построения гистограммы и последующей классификации с использованием графов, является быстрым, т. е. линейно зависит от числа векторов. Нарендра

1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 10- 07-00131).

также предложил квантование векторного пространства для предварительного объединения векторов. Сначала это делалось для уменьшения объема хранимых данных, т. к. возможности компьютерной памяти того времени были весьма ограниченны. Для таких сжатых данных можно было получить не очень большое число крупных одномодальных кластеров. Однако, с развитием техники, стало возможным уменьшить предварительное сжатие, т.е. увеличить число уровней квантования векторного пространства признаков. Тогда появились новые вопросы. Возникла проблема большого числа полученных кластеров, каждый из которых соответствовал локальному максимуму гистограммы. Также появилась задача выбора числа уровней квантования, т.к. каждому такому числу соответствует свое распределение, свои максимумы и кластеры. В [3] было предложено рассматривать ряд распределений, соответствующих последовательности значений количества уровней квантования пространства признаков, и выбирать те распределения (и соответствующее число уровней), которые соответствуют лучшей разделимости полученных кластеров. Хорошая разделимость кластеров соответствует достоверности классификации. Была предложена мера изолированности распределения как средняя изолированность по всем кластерам [3]. Лучшие кластерные распределения соответствуют минимумам меры. Значение мер качества для одного унимодального кластера и всего распределения всегда меньше единицы. Было показано, что для пространства плотно расположенных векторов эта мера соответствует требованиям, предъявляемым к индикаторным мерам кластерной достоверности [4,5]. А именно: ее значение уменьшается с увеличением компактности кластеров (в смысле концентрации векторов в области модального вектора) и увеличением расстояния между кластерами. Исследования показали, что кластеры лучших (в смысле разделимости) распределений соответствовали природным кластерам для многоспектральных данных, а также для текстурных признаков при анализе леса по аэрофотоснимкам [3, 4, 5].

Если структура природных объектов иерархична, то это находит отражение и в структуре данных: мелкие, довольно хорошо разделенные кластеры группируются в более крупные. Дальнейшее развитие гистограммного алгоритма было предложено в [6]. Так как степень детальности представления данных (в рассматриваемом алгоритме соответствует числу уровней квантования) определяет качество полученных классификаций, т.е. значение разделимости кластеров, то можно предположить, что для различных объектов одного изображения и соответствующих им областей данных требуется своя степень детальности. Поэтому в [6] был предложен следующий иерархический алгоритм. Сначала находится кластерное распределение для минимального значения меры разделимости (первый уровень иерархии). Затем для каждого полученного кластера отыскивается свое значение числа уровней квантования, свой минимум меры разделимости и свои новые кластеры (второй уровень иерархии) и т. д. Значение разделимости, качества классификации на каждом уровне иерархии определяется по-прежнему как среднее по всем кластерам.

С ростом числа уровней квантования и уровня иерархии наблюдается тенденция к ухудшению качества распределений, хотя структура данных в некоторых областях может дать более качественное распределение и на высоком уровне, даже настолько, что общее распределение для этого уровня окажется лучше начального. Построение иерархии можно прекратить для такого кластера, при делении которого будет достигнут, например, заданный порог разделимости, или для такого, который не делится далее, и дальнейшее увеличение числа уровней квантования не улучшает ситуацию.

В [7] было показано применение алгоритма для классификации многоспектрального изображения. Здесь покажем пример использования иерархического алгоритма для кластеризации изображения ландшафта леса по текстурным признакам. На рис. 1 фрагмент черно-белого аэроснимка лесного ландшафта Западной Сибири масштаба 1 : 50 ООО. Размер электронной версии изображения 685 х 292, разрешение: 5x5 кв. м/пиксель. На рис. 2 представлена картосхема выделов изображения, построенная по данным наземной таксации. Выдел соответствует насаждениям определенного типа и возраста, но может включать определенный процент других элементов. Представлены выделы сосняков в трех фазах развития и кедровников. Текстуры этих типов леса близки для определенных фаз развития, но специалисты различают их при визуальном дешифрировании. В качестве признаков вычислялись параметр pN статистической текстурной модели SAR (Simultaneus Autoregressive)[7] и средний тон. Параметр pN отражает степень зернистости текстуры.

Рис. 1. На изображении лесного ландшафта кедровые и сосновые насаждения различных фаз. Наиболее темные области соответствуют кедровникам старших фаз (справа). В правой части видны светлые вытянутые по диагонали пятна -

полупрозрачные облака

Предварительно пространство признаков точек изображения классифицировалось по алгоритму для текстурных изображений [5]. В результате был получен размер окна для сбора статистик 16x16.

Рис. 2. Картосхема изображения, сосновые насаждения: 1 - XIII фазы, 2 - VI фазы, 4 - III фазы; 3 - кедровники различных фаз

На рис. 3 показана классификация первого уровня иерархии. Минимум меры (2), равный 0,31 достигнут при числе уровней квантования п = 29. Получено 4 больших и 5 маленьких кластеров. Этот уровень квантования не позволил разделить сосновые и кедровые насаждения. Для их различения число уровней квантования п достигло 112. Причем, сосновые насаждения оказались представлены одним кластером, кедровники же, напротив, множеством кластеров, однако их разделимость оказалась выше заданного порога 0.6, поэтому некоторые кластеры были возвращены на предыдущие уровни иерархии и тем самым объединены. Сосняки младших фаз отделились от кластера болота при довольно низком уровне п = 35 (значение меры качества 0.20), но дальнейшее иерархическое продвижение вызвало рост меры разделимости выше 0.6.

Рис. 3. Кластерная карта первого уровня иерархии

Всего было найдено 125 унимодальных кластеров. На рис. 4 показана кластерная карта, полученная иерархическим методом. Возможно дальнейшее уменьшение числа кластеров за счет объединения узких, ложных кластеров,

возникающих на границах текстур [5]. Значение меры разделимости, вычисленной как среднее по всем кластерам, равно 0.40. Между тем, прямая кластеризация в интервале 112 < п < 255 дает минимум меры при п = 113. Число кластеров при этом 498 и средняя разделимость 0.53.

Рис. 4. Кластерная карта, полученная иерархическим методом

Таким образом, применяя предложенный иерархический кластерный алгоритм, получаем более качественное в смысле разделимости кластеров, распределение, с существенно меньшим числом кластеров, чем для прямой кластеризации. Это достигнуто за счет того, что детальность предварительного объединения векторов квантованием векторного пространства автоматически выбиралось в зависимости от разделимости кластеров для разных областей.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. W. Koontz, P.M. Narendra and K.Fukunaga. A graph theoretic approach to non-parametric cluster analysis // IEEE Trans. Comput. - 1967. - C. 23. - P. 936-944.

2. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977. - 9. P. 207.

3. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Том 43. - № 1. - С. 37.-43.

4. V.S. Sidorova. Unsupervised Classification of Image Texture //Pattern Recognition and Image Analysis. - 2008. - Vol. 18. - No. 4. - P. 694-700.

5. V.S. Sidorova. Unsupervised Classification of Forest’s Image by Texture Model Features. // Pattern Recognition and Image Analysis. - 2009. - Vol. 19. - No. 4. - P. 698-703.

6. В.С. Сидорова. Иерархический кластерный алгоритм для данных дистанционного зондирования. Труды международного конгресса “ГЕО-СИБИР -2009” - 2009, Новосибирск. -

C. 126-131.

7. Kashyap R.L., Chellapa R. Estimation and Choice of Neighbors in Spatial Interaction Models of Images // IEEE Trans. Inform. Theory. - 1983. - Vol. 1 - P. 60-72.

© В.С. Сидорова, 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.