Научная статья на тему 'Меры достоверности неконтролируемой классификации данных дистанционного зондирования'

Меры достоверности неконтролируемой классификации данных дистанционного зондирования Текст научной статьи по специальности «Математика»

CC BY
127
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Сидорова В. С.

Some measures of cluster validity are analyzed and compared. The automatic choice of valid clustering forest on the image is shown.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ADEQUACY MEASURES OF THE REMOTE SENCING DATA UNCONTROLLED CLASSIFICATION

Some measures of cluster validity are analyzed and compared. The automatic choice of valid clustering forest on the image is shown.

Текст научной работы на тему «Меры достоверности неконтролируемой классификации данных дистанционного зондирования»

УДК 528.852 В.С. Сидорова ИВМиМГ, Новосибирск

МЕРЫ ДОСТОВЕРНОСТИ НЕКОНТРОЛИРУЕМОЙ КЛАССИФИКАЦИИ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ

V.S. Sidorova

Institute of Computational Mathematics and Mathematical Geophysics SB RAS prospect Akademika Lavrentjeva, 6, Novosibirsk, 630090, Russia

ADEQUACY MEASURES OF THE REMOTE SENCING DATA UNCONTROLLED CLASSIFICATION

Some measures of cluster validity are analyzed and compared. The automatic choice of valid clustering forest on the image is shown.

Алгоритмы неконтролируемой классификации не обеспечивают хорошую изолированность полученных кластеров, и требуется дополнительный анализ результатов. После классификации остаются вопросы: какое распределение лучше, есть ли соответствие между

полученными группами и реальными объектами. Это вопросы кластерной достоверности. Меры качества распределений векторов по классам для контролируемой классификации известны давно [1]. Для кластерных алгоритмов интерес к этим вопросам возрос в последние годы. Обзор методов может быть найден в [2]. В обзоре показано, что как выбор критериев классификации, так и выбор критериев качества полученных распределений зависит от природы данных и задачи исследования. Общее требование, которое предъявляется к качеству классификации в задачах кластерной достоверности: близость векторов к центрам кластеров,

удаленность кластеров друг от друга. Индикаторные меры являются наиболее дешевыми в вычислительном отношении и могут быть применены к анализу больших объемов данных дистанционного зондирования. Большая часть этих мер связывает близость векторов к центрам кластеров с дисперсией, а удаленность с расстоянием между центрами кластеров. Эти же категории использовались для индикаторных мер качества классификации с обучением. Но есть существенная разница в оценке результатов этих подходов классификации, как и в их принципах. Для контролируемой классификации каждый класс представлен своим распределение векторов - гистограммой. Дисперсия класса связана с функцией плотности полного распределения, для которой значение гистограммы изменяется от максимума до нуля, и характеризует разброс значений векторов от среднего. Поиск лучшего качества классификации сводится к минимизации области перекрытия классов. Так как существуют трудности вычисления многомерных интегралов для больших объемов данных, то используются индикаторные меры.

Неконтролируемая классификация обычно применяет жесткие кластерные алгоритмы, которые разделяют векторное пространство на непересекающиеся кластеры. Но теперь нет полной функции распределения для каждого кластера, как при контролируемой классификации. В этом случае некорректно связывать степень концентрации векторов у центра с дисперсией. Здесь дисперсия зависит не только от поведения функции плотности распределения, но и от размеров кластера. Увеличение расстояний между центрами означает для такой классификации увеличение размеров кластеров. Возможна неопределенность, если уменьшение дисперсии кластера вызвано уменьшением его размера. Маленькие кластеры с более пологой функцией плотности распределения могут оказаться лучше больших, т. е. не выполнится ни одно из двух требований к качеству классификации. Подобные эффекты будут тем больше, чем ближе классифицируемые объекты по значениям признаков. Для данных дистанционного зондирования это частое явление.

В обзоре также представлены кластерные алгоритмы и меры качества, основанные на измерении плотности точек в векторном пространстве и установлении границ между кластерами в областях низкой плотности. Предложенные алгоритмы являются параметрическими и требуют много компьютерного времени, так как многократно производятся вычисления расстояний в многомерном пространстве признаков. Альтернативным подходом к классификации и оценке качества являются гистограммные методы (в указанном обзоре не рассмотрены). Они вычисляют многомерную гистограмму признаков, которая содержит исчерпывающую информацию о функции распределения и для большого числа векторов рассматривается как аппроксимация плотности вероятности. Максимумы гистограммы соответствуют модальным векторам кластеров, а границы между кластерами проходят по долинам гистограммы, т. е. областям низкой плотности. Например, алгоритм [3] является быстрым, непараметрическим, не требует никакой априорной информации. Скорость достигается за счет того, что гистограмма и вектора хранятся в упорядоченном по возрастанию векторов списке, а поиск максимумов производятся по скалярным значениям гистограммы. Список содержит только присутствующие на изображении вектора, поэтому довольно большая размерность векторного пространства не является помехой для размещения его в оперативной памяти. Различные системы хеширования применяются при построении гистограммы. Другое дело, что локальных максимумов гистограммы получается очень много. Они могут соответствовать очень близким кластерам или оказаться мелкими случайными всплесками на поверхности гистограммы. Кластеры можно объединить. Здесь важно оценить качество распределений, чтобы выбрать лучшее. Можно менять детальность до классификации, объединяя предварительно вектора. Параметром объединения может быть число уровней квантования векторного пространства. Для выбора лучшего из распределений векторов по унимодальным кластерам предложена мера

качества М(Ы), которая вычисляется как средняя мера по всем кластерам [4]. Мера для отдельного кластера:

В1 (Ы)

X Ь){М)

1 ,=1

Мг(Ат) =-------^--------, (1)

В’(И) Н'{Щ

где N - число уровней квантования, И\(N) - значение гистограммы в у-й точке границы кластера /, В'(N) - число точек границы кластера, и' (N) -максимальное значение гистограммы.

Всегда м'(N) <= 1 и <= 1. Чем меньше мера (1), тем лучше

кластер. Мера Ы(Щ также имеет минимальные значения для лучших распределений. Вычисление меры связано со скалярными значениями гистограммы. Границу каждого кластера легко вычислить по таблице соседей для всех векторов, которая уже была построена ранее для алгоритма классификации.

Достоинство меры (1) в том, что она непосредственно сопоставляет среднее число граничных точек кластера числу модальных. Рассмотрим поведение функции распределения (гистограммы) кластера / вдоль одного направления, определенного двумя точками: модальная - граничная у. Предположим, что ее одномерная функция плотности вдоль выбранного направления представляет собой кусок нормальной функции на отрезке [0, Я], где 0 соответствует модальному вектору, а Я - расстояние до границы кластера у. Пусть у = к,]{Ы)1 н'{Ы) . В одномерном случае нормальная функция

плотности для класса I имеет вид:

1 (х-м,У

А^) = -Г—Т71—ехР (2 л) а

2 а2

(2)

где ц- среднее значение, а] - дисперсия для класса /.

Найдем отношение у для нормальной функции плотности вероятности:

Л

Г = —г^>= е?Ф

н СО

(3)

(для данного отрезка а. >= о).

у уменьшается с увеличением Я - размером кластера в данном направлении и уменьшением а. , но а. здесь - неизвестная дисперсия полного распределения, а не измеренная на отрезке Я, определяет скорость убывания функции плотности. Теперь нет неопределенности: качество кластера тем лучше, чем меньше измеренное по гистограмме значение у, оно зависит от соотношения скорости убывания гистограммы и размера кластера, которые теперь изменяются независимо. Размер Я соответствует степени удаленности от других кластеров, скорость убывания - степени концентрации векторов в центре. Требования к мере качества кластера выполняются.

Пусть О(х) гистограмма, поведение которой на отрезке [0, Я] соответствует распределению с нормальной функцией плотности р(х) (2). Можно вывести:

0{х) = Н\Ы)*7я =Н\Ы)

(4)

Н'(Щ

Анализ (4) показывает, чем меньше у, тем меньше доля граничных точек от объема кластера для функций с одинаковым размером Я. Для кластеров с одинаковыми значениями у доля граничных точек тем меньше, чем больше размер Я. Доля граничных точек зависит также от формы функции плотности, которая может не соответствовать нормальной. По определению унимодального кластера, значение гистограммы на границах кластера всегда меньше, чем для модального вектора. Хотя по некоторым направлениям I возможны даже колебания функции и снижение ее вплоть до нуля. Но амплитуда колебаний обычно убывает. В противном случае для плохого кластера значение меры будет велико. Для задач распознавания особенно важно, как ведет себя кластер на границе, поэтому мы ограничились отношением числа точек границы к числу модальных. Чем меньше это отношение, тем вероятней, что большая часть векторов кластера сосредоточена возле модального вектора, а меньшая у границ. Учтем также, что мы вычисляем среднюю долю границ по всем направлениям, связанным со всеми граничными точками кластера, т. е. присутствует элемент сглаживания для каждого кластера.

Светло-серый оттенок относится к луговой пойме реки и болотам, все кластеры этих объектов на рис. 2 выделены одним оттенком. Контурами показаны таксационные выделы.

Рис. 2. Кластерная карта

Рис. 3. Картосхема наземной таксации для выбранного участка.Большие цифры на карте - номера фаз кедровников, 7 С - чередованиеучастков кедровников седьмой фазы и сосняков, С - сосняки

Мера качества всего распределения векторов по кластерам также является статистической.

Достоверность классификации означает соответствие кластеров формальной классификации информационным классам данных. Эксперименты показали, что хорошо разделенные унимодальные кластеры распределений соответствуют представительным информационным классам зондируемой поверхности Земли. В работе [4] рассматривалась классификация многоспектральных изображений, в [5] особенности классификации текстурных. Здесь также покажем классификацию леса по текстурным признакам. Особенностью изображения является то, что представлен ряд объектов, близких по признакам, поэтому уровень изолированности соседних кластеров не высок. На рис. 1 аэроснимок лесного ландшафта Западной Сибири масштаба 1 : 25 000. Размер электронной версии изображения 1300*1400, разрешение: 2.5 м/пиксель. На изображении присутствуют насаждения кедровников всех семи фаз развития. Лес данного типа представляет собой березово-кедровое сообщество. Возобновляясь на гарях, этот тип проходит определенный путь развития, на ранних стадиях преобладает береза, затем ее вытесняет кедр. При данном разрешении текстуру леса составляют чередующиеся светлые группы берез (осенняя съемка) и темные группы кедра. На изображении есть также сосновые насаждения, близкие по признакам кедровникам. На рис. 3 представлена карта участка, построенная лесоводами с помощью наземной таксации. Средний возраст леса для выделов одной фазы может быть различным. Классификация

проводилась среднему тону TONE и признакам Харалика. Лучшие результаты получены для пары MEAN и TONE. Эти признаки позволили различить сосновые и все фазы кедровых насаждений. Лучшее распределение (в интервале от 60 до 90 уровней квантования) соответствует минимальному значению меры M(78) = 0.45 для 78 уровней квантования. Размер окна для сбора статистик был также автоматически получен 18*18 пикселей. Меньшая детальность квантования не обеспечивает различение сосновых насаждений. Дальнейшее повышение детальности ухудшает качество и увеличивает число кластеров. Лесу соответствует семнадцать кластеров, по два, три кластера каждой фазе кедровников и сосновым насаждениям. Кластерная карта показана на рис. 2. Все фазы кедровников и сосна автоматически выделены и соответствуют их расположению на карте рис. 3.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Дистанционное зондирование: количественный подход / М.: «НЕДРА», 1983.

2. Halkidi M. On clustering validation techniques / M. Halkidi, Y. Batistakis, M. Vazirgiannis / Journal of Intelligent Information Systems. 2001. № 17 (2-3). P. 107.

3. Narendra P.M. A non-parametric clustering scheme for LANDSAT. / P.M. Narendra, M. Goldberg / Pattern Recognition. 1977. 9. P. 207.

4. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом. / В.С. Сидорова / Автометрия №1, Новосибирск, 2007, с. 37-43.

5. Сидорова В.С. Неконтролируемая классификация текстурных изображений. / Сидорова В.С. / Труды международного конгресса “ГЕО-СИБИРЬ - 2007”, Новосибирск, 2007, С.178 - 183.

© В.С. Сидорова 2008

i Надоели баннеры? Вы всегда можете отключить рекламу.