Научная статья на тему 'Анализ многоспектральных данных дистанционного зондирования покрова земли с помощью гистограммного иерархического кластерного алгоритма'

Анализ многоспектральных данных дистанционного зондирования покрова земли с помощью гистограммного иерархического кластерного алгоритма Текст научной статьи по специальности «Математика»

CC BY
132
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Сидорова В. С.

Анализируется приложение гистограммного иерархического алгоритма к многоспектральным данным дистанционного зондирования. Предложен алгоритм оптимизация выбора детальности кластеризации для подобластей пространства признаков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTISPECTRAL REMOTE SENSING DATA ANALYSIS FOR THE EARTH COVER WITH THE HISTOGRAM HIERARCHICAL CLUSTERING ALGORITHM

Exhibit of histogram hierarchical clustering algorithm to remote sensing data is analyzed. The technique for an optimization of minuteness choice for sub regions of feature space is proposed.

Текст научной работы на тему «Анализ многоспектральных данных дистанционного зондирования покрова земли с помощью гистограммного иерархического кластерного алгоритма»

УДК 528.852

В.С. Сидорова ИВМиМГ, Новосибирск

АНАЛИЗ МНОГОСПЕКТРАЛЬНЫХ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ПОКРОВА ЗЕМЛИ С ПОМОЩЬЮ ГИСТОГРАММ НОГО ИЕРАРХИЧЕСКОГО КЛАСТЕРНОГО АЛГОРИТМА1

Анализируется приложение гистограммного иерархического алгоритма к многоспектральным данным дистанционного зондирования. Предложен алгоритм оптимизация выбора детальности кластеризации для подобластей пространства признаков.

V.S. Sidorova

Institute of Computational Mathematics and Mathematical Geophysics SB RAS (IofCMandMG),

6 Lavrentjev avenu 6, Novosibirsk, 630090, Russian Federation

MULTISPECTRAL REMOTE SENSING DATA ANALYSIS FOR THE EARTH COVER WITH THE HISTOGRAM HIERARCHICAL CLUSTERING ALGORITHM

Exhibit of histogram hierarchical clustering algorithm to remote sensing data is analyzed. The technique for an optimization of minuteness choice for sub regions of feature space is proposed.

Для анализа многоспектральных спутниковых данных, когда обучающие образцы трудно или невозможно получить, актуален подход распознавания, основанный на неконтролируемой классификации [1]. Особенно привлекателен гистограммный алгоритм Нарендры [2]. Быстрый и непараметрический, этот алгоритм разделяет векторное пространство признаков по унимодальным кластерам, модальные векторы которых соответствуют локальным максимумам, а границы долинам гистограммы. Для регулирования детальностью кластеризации в алгоритме Нарендры осуществлялось предварительное квантование дискретного векторного пространства. Однако выбор числа уровней квантования не был автоматизирован. В [3] был предложен иерархический алгоритм для автоматического выбора детальности в зависимости от кластерной разделимости.

В настоящей работе рассмотрено развитие иерархического алгоритма, использующего оценку разделимости кластеров в процессе кластеризации.

1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 10- 07-00131).

Алгоритм дополнен выбором этапов иерархии для кластеров, минимизирующим их среднюю разделимость.

Параметром детальности кластеризации является число уровней квантования векторного пространства, обозначим его п. В [4] были предложены меры разделимости распределения, как среднее по всем кластерам, и разделимости каждого унимодального кластера, определенная как отношение плотности векторов на его границе к плотности модального вектора. Эта мера разделимости кластера не зависит от остальных кластеров. Для иерархического алгоритма в качестве меры разделимости распределения в целом по К кластерам также возьмем среднюю разделимость Мк:

1 к ■ ■

Мк= — Е т (П). (1)

К 3=1

где т3(п3) разделимость кластера/

Но П теперь - это набор чисел уровней квантования, полученный при построении К кластеров, а не одно, общее для всех значение. Всегда (п)< 1 и Мк< 1. Иерархический алгоритм находит сначала число уровней квантования, при котором получается новая система объединенных квантованием векторов такая, что ее унимодальные кластеры наилучшим образом разделены, изменяя п от 0 до п1<256. Затем внутри каждого полученного кластера начальное значение п увеличивается на единицу от полученного на предыдущем этапе. И в новом диапазоне алгоритм находит свое лучшее кластерное распределение и новое число уровней, и так далее. Для минимизации Мг предлагается осуществлять возврат к предыдущему этапу иерархии для определенной части данных. Когда п достигнет или станет больше заданного п1 (п1<255) при делении всех кластеров, начиная от старшего этапа иерархии в обратном порядке, последовательно сравниваются значения средней меры разделимости (1) группы кластеров, полученных делением родительского кластера и меры разделимости самого родительского кластера. В результате окончательной классификации получается распределение данных по кластерам, представленных с дифференцированной детальностью в соответствии со степенью их разделимости.

Рассмотрим фрагмент изображения земной поверхности, охватывающий части Западной Сибири и Казахстана; получен со спутника NOAA 24 апреля 2003г. Изображение пятиспектральное: сканировано в двух диапазонах видимой части спектра, в трех инфракрасных - 3.7 мкм, а также 11 и 12 мкм.

Сначала рассмотрим классификацию по двум каналам: ближнему

инфракрасному и голубому видимого спектра. Снимок в цветосовмещенном формате на рис.1а. Вверху изображения - тающие снега, внизу - оттаявшая поверхность почти без снега. По диагонали вниз от города Омска река Иртыш.

На первом этапе иерархии было найдено число уровней квантования п=8, для которого мера (1) достигла минимума Мк =0. 18 в диапазоне изменения п: 0<п<256. Количество кластеров 3. Полученный минимум соответствует лучшей классификации для алгоритма без иерархии. Между тем, новый иерархический

алгоритм обнаружил кластерное распределение с лучшей разделимостью кластеров по мере (1). Лучшая классификация иерархического алгоритма соответствует минимуму меры (1) Мг =0.06, число кластеров К=13. Минимум получен для четвертого этапа иерархии. При этом число уровней квантования п для заснеженной области достигло п = 23, а для оттаявшей п = 48. Для сравнения отметим, что достижение наибольшей детальности (п = 48) без иерархии приводит к 55 кластерам и значению меры разделимости (2) т(п)=0.43.

а Ь

Рис. 1. а) Фрагмент спутникового снимка. Ь) Карта автоматической кластеризации иерархическим алгоритмом:

1, 2 - тающий снег; 3, 4 - хвойный лес под снегом; 5 - не сплошной снежный покров; 6, 7, 8, 9 - озера; 10 - снег местами; 11, 12 - снега нет; 13 - хвойный лес

В табл. 1 показано полученное иерархическое дерево. Сплошными линиями обозначены те ветви, которые были оставлены при минимизации средней меры (1). Если разделимость кластера оказывалась меньше, чем разделимость (1) всей совокупности его подкластеров на последнем этапе иерархии, то он оставлялся на том этапе, где сам был получен. На рис. 1Ь полученная кластерная карта. Кластер 2 выделил озеро Чаны под снегом, к кластеру 4 относятся диагональные полосы Сузунских ленточных боров. Кластер 11, видимо, связан с высотой рельефа, его границы на карте близки к границам Казахского мелкосопочника.

Таблица 1. Иерархическое представление кластеров. Римские цифры нумеруют этапы иерархии, арабские показывают разделимость каждого кластера

Все данные

1/ 3

I 0.07 0.11 0.34

с N л

\ \ / \

п 0.27 0.10 0.13 0.22 0.04 0.16 0.00

/ \ Л \ / \

/ \ / \ \ / \

ш 0.20 0.35 0.23 0.00 0.11 0.15 0.00 0.33 0.00 0.33 0.03

и 1 \ /¡V \ 23 \ 48

/ \ \ \ \ \

IV 0.25 0.20 0.03 0.24 0.25 0.67 0.06 0.32 0.00 0.00 0.22 0.21 0.08 0.05 0.27 0.06 0.01

Рассмотрим классификацию по пяти спектральным каналам. На рис. 2 представлены изображения фрагмента в пяти спектральных каналах.

с1 е

Рис. 2. a), Ь) диапазоны видимой части спектра, с) ближний инфракрасный 3.7 мкм, d) инфракрасный 11 мкм, e) инфракрасный 12 мкм

Лучшая классификация, соответствующая минимуму меры (3) Мк = 0.02 получена на третьем этапе иерархии. Число кластеров К=15. Карта кластеров представлена на рис. 3 а. Достижение полученной детальности оттаявшей части (п =16) основным алгоритмом (без иерархии) приводит к 58 кластерам вместо 15 и значению меры разделимости (2) т(п )=0.18.

Для снегов (в выделенном фрагменте) видно хорошее соответствие с классификацией схемы рис. 3Ь, полученной Гидрометцентром (также три кластера).

• • • 80-100% тающий снег '/^//^30-80% не сплошной

I V V И1

V / 5-30% снег местами

а Ь

Рис.3.a) Карта автоматической кластеризации пятиспектрального снимка, Ь) классификация тающего снега в указанном на рис. 3a квадрате; выполнена

Гидрометцентром

Представим более детальную кластеризацию самого крупного кластера оттаявшей поверхности. Этот кластер распадается на ряд подкластеров. Появился новый большой подкластер, отличающийся также и хорошей разделимостью. При достижении п = 22 его разделимость уменьшилась до нуля. На рис. 4а показана новая карта. (Достижение полученной детальности (п =22) основным алгоритмом по всему объему данных приводит к 260 кластерам).

а Ь

Рис. 4. a) Карта детальной кластеризации оттаявшей области пятиспектрального снимка. Ь) картосхема Павлодарской области.

Выделенный кластер (показан белым цветом на рис.3а) отражает поведение данных для спектральных каналов среднего инфракрасного диапазона на рис. 2d и 2є. Классификация по двум каналам не нашла соответствующего кластера. Интересно отметить, что его размещение на кластерной карте совпадает с разработками полезных ископаемых. Карта Павлодарской области показана на рис. 4б (Интернет). Экибастуз, Баянаул -

центры угледобычи открытым способом. Также известны и другие разработки цветных металлов и угля Казахстана слева от Иртыша: Майкаин, Шоптыколь, Коктобе. Справа от Иртыша ведется добыча природных строительных материалов и некоторая обработка угля и руды. Автомобильные и железные дороги соединяют берега. Поселок Бозшаколь на запад от Экибастуза по железной дороге также известен как пункт добычи полезных ископаемых открытым способом.

Эти пункты нанесены на спутниковое изображение рис. 1 и хорошо попадают в область полученного кластера. В озерах Калкаман и Таволжан ведется добыча соли, южнее городов Курчатова и Семипалатинска в Восточном Казахстане добыча цветных металлов. Возможно, нарушение почвенных покровов как-то влияет на изменение спектральных характеристик инфракрасного диапазона в областях разработок.

Новый иерархический алгоритм позволяет дифференцированно подойти к различным областям многоспектральных данных. Сравнение с прямым алгоритмом при анализе земной поверхности показывает, что новый алгоритм существенно сокращает число кластеров, улучшая их соответствие информационным классам земного покрова. Алгоритм позволяет выбирать границы исследуемых объектов, подробно и выборочно исследовать структуру данных в автоматическом и интерактивном режимах.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. P. Gong & P.J. Howarth. An assessment of some factors influencing multispectral land-cover classification. // Photogrametric Engineering and Remote Sensing. 1990 56(5), pp. 597-621.

2. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT. // Pattern Recognition. - 1977. - 9. P. 207.

3. В.С. Сидорова. Иерархический кластерный алгоритм для данных дистанционного зондирования. // Вестник Бурятского государственного университета. 2010/9. - Вып. «Математика и информатика», с. 125-130.

4. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом. // Автометрия. - 2007. - Том 43. - № 1. -

С. 37-43.

© В.С. Сидорова, 2011

i Надоели баннеры? Вы всегда можете отключить рекламу.