ИССЛЕДОВАНИЕ РАЗДЕЛИМОСТИ КЛАСТЕРОВ, ПОЛУЧЕННЫХ С ИСПОЛЬЗОВАНИЕМ ГИСТОГРАММНОГО АЛГОРИТМА НАРЕНДРЫ 1
Валерия Сергеевна Сидорова
Институт вычислительной математики и математической геофизики Сибирского отделения Российской академии наук, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383)330-73-32, email: svs@ooi.sscc.ru
Исследована отделимость кластеров с ростом детальности представления данных по этапам иерархического алгоритма на основе гистограммы Нарендры. Предлагаются рекомендации задания минимальной отделимости при кластеризации пятиспектрального спутникового снимка поверхности Земли.
Ключевые слова: дистанционное зондирование, обработка изображений, кластеризация, многомерная гистограмма, кластерная разделимость.
SEPARABILITY ANALYSIS OF THE CLUSTERS OBTAINED WITH USE OF NARENDRA HISTOGRAM ALGORITHM
Valerija S. Sidorova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS, 630090, Russia, Novosibirsk, Lavrentjev avenu, 6, scientific researcher, laboratory of Image Processing, tel. (383)330-73-32, e-mail: svs@ooi.sscc.ru
Cluster separability has investigated for minuteness growth on stages of the hierarchical technique with use of Narendra histogram. The advices to assign minimum separability for clustering five spectral satellite data of Earth’s surface are given.
Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability.
Кластеризация многоспектральных данных ДЗЗ является важной составляющей их анализа. Значительное число спектральных каналов, в основном, в невидимой части спектра, огромный объем данных, иерархическая структура объектов поверхности Земли требуют автоматизации в нахождении скоплений спектральных характеристик, т.е. кластеризации. Особенно, если каналов больше трех, то получить наглядное отображение данных одновременно во всех каналах невозможно. В настоящее время из методов кластеризации данных ДЗЗ, не использующих пространственную информацию, наиболее популярны методы, основанные на двух подходах [1]: ^-средних и гистограммных. Построение карт кластеров представляет собой способ сегментации исходных данных, формируемых в виде спектральных характеристик пикселей изображения поверхности Земли. Обычно цвет на карте соответствует отдельному кластеру. Методы, использующие ^-средних кластеризацию, требуют задания
1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 13-07-00068).
правильного числа кластеров, и предварительного распределения, близкого к правильному [2]. Кроме того, форма кластера должна быть выпуклой. Скорость этих алгоритмов низка - второго порядка. Методы ^-средних могут быть применены, когда уже достаточно известно о структуре данных. Исторически эти методы предложены раньше гистограммных, так как гистограммные требуют много оперативной памяти и были ограничены возможностями ЭВМ.
Многомерные гистограммы непосредственно отображают распределение многомерных векторов, и могут быть рассмотрены как их плотности вероятностей. Задачей гистограммной кластеризации является обнаружение максимумов - мод кластеров, и их границ. Алгоритм, широко используемый (как для данных ДЗЗ, так и химии, биологии), - это алгоритм Наредры [3], - быстрый, непараметрический, не итеративный, без всяких требований a priory к числу, форме кластеров. Он разделяет векторное пространство признаков по унимодальным кластерам, модальные векторы которых соответствуют локальным гистограмм-ным максимумам, а границы проходят по долинам гистограммы. Основные идеи алгоритма. Для кластеризации использован подход построения графов и деревьев. Гистограмма строится (используя хеширование), и хранится только для присутствующих многомерных векторов данных и поэтому занимает существенно меньше места в памяти, чем 255**N слов (где N размерность векторного пространства). Вектора и их частоты хранятся в специально упорядоченном виде (аналогично словарю): сначала по возрастанию первой компоненты, затем внутри по возрастанию второй и т. д. Благодаря такому упорядочению скорость алгоритма линейно зависит от числа векторов, включая построение списка соседей каждого вектора. Этот алгоритм описан также в [4,5,6], в [4] он был реализован еще на БЭСМ- 6. Для современных компьютеров было показано, что не требуется хэширования для хранения в памяти гистограммы, если число спектральных каналов не больше трех [5]. Кластеризация фрагмента трехспектрального изображения ДДЗ была осуществлена в [5]. Затем предложена эффективная схема хэширования, позволяющая обрабатывать до 8 -10 спектральных каналов [6]. Отметим, что для старых ЭВМ недостаточно было памяти для хранения даже списка присутствующих векторов. Поэтому часть младших битов в каждом спектральном канале отсекалась. Это соответствует квантованию векторного пространства признаков (отсечение бита уменьшает число квантовых уровней в два раза по каждой компоненте). В результате уменьшалась и детальность кластеризации. Полученных кластеров было довольно мало и они были обычно хорошо разделены. Число кластеров менялось на порядки, а сглаживание гистограммы по ближайшим соседям давало слабый эффект.
Было замечено, что с увеличением детальности кластеры хуже отделяются, значения гистограммы растут на их границах (ввиду корреляции данных, близко расположенных в векторном пространстве). Тогда был предложено [7]: 1) квантование векторного пространства осуществлять более плавно, меняя число уровней квантования, 2) из всех полученных распределений различной детальности выбирать лучшие минимизацией меры средней разделимости кластеров, 3) мера разделимости унимодальных кластеров. Показано также [7], что эта мера удовлетворяет требованиям, предъявляемым к мерам разделимости кластеров, или качества кластеризации [8,9]. Предложенная мера может быть исполь-
зована для оценки качества отдельного кластера (в дальнейшем будем называть ее отделимостью кластера). Она соотносит среднее значение гистограммы на границе унимодального кластера и ее максимальное значение (для модального вектора). Это отношение косвенно связывает компактность и радиус кластера (эквивалент расстояния между центрами кластеров, в случае их соприкосновения)^]. Достоинство меры в том, что эти две характеристики меры измеряются независимо друг от друга. Разделимость по распределению определяется как среднее по полученным кластерам. В [7] показано, что хорошо разделенные унимодальные кластеры распределений соответствуют представительным информационным классам зондируемой поверхности Земли. Алгоритм также успешно был применен к неконтролируемой классификации текстур леса [10]. Учитывая, что разделимость кластеров в разных подобластях векторного пространства и для различной детальности различна, в дальнейшем был предложен иерархический алгоритм с поиском сеток квантования, оптимизирующий среднюю разделимость всех полученных кластеров [11].
Другой целью иерархического алгоритма стал поиск наибольшей детальности для подобластей, при которой отделимости отдельных кластеров не превышают заданную величину d [12]. Эта отделимость теоретически может меняется от 0 до 1, реально зависит от структуры данных и задач пользователя. Проиллюстрируем применение подхода, позволяющего исследовать данные, выявляя хорошо отделимые кластеры на разных иерархических этапах. Некоторые рекомендации по заданию d можно получить автоматически. Распределение по кластерам для первого уровня иерархии не зависит от разделимости. Получается грубая классификация по самым крупным кластерам, их обычно немного. Эти большие кластеры обычно хорошо разделены, их отделимости имеют низкие значения. Они могут быть ориентиром при задании d. Можно еще использовать тот же иерархический алгоритм, но имеющий другую цель: получение оптимальной разделимости. Оптимальная разделимость может быть меньше “исходной”. Рассмотрим на рис.1 спутниковый снимок. Размер полного кадра 1328x624 пикселей. Размер файла 1328х624 х5, чуть больше 4 мегабайт.
Лучшая кластеризация первого этапа иерархии дала 4 кластера при числе уровней квантования 7. Отделимости по кластерам получены: d1=0,031, d2=0,023, d1=0,043, d1=0,033. Для дальнейшей кластеризации было задано d=0,04. Для семи этапов иерархии получено: 60 кластеров, максимальное число уровней квантования равно 48. Карта кластеров (сегментация представлена на рис. 2). Фонового кластера нет. В фоновый попадают те кластеры, отделимость которых больше d, если они не могут быть возвращены к тем родительским кластерам, для которых d не превышалось. (Однако, уже при задании d=0,03 этот кластер появляется). Для d=0,04 при дальнейшем увеличении числа этапов иерархии лишь небольшая доля мелких, граничных кластеров не может быть возвращена и попадает в фоновый кластер.
(а) 0,58-0,68 мкм (Ь) 0,725 -1мкм. (с) 3,55- 3,93 мкм
(с!) 10,3-11,3 мкм (е) 1,5- 12,5 мкм Класт. карта уровня 1
Рис. 1. а) - е) изображение поверхности Земли со спутника КОАА 17 от 7.04.2003, представлено в пяти спектральных каналах (один в видимой части спектра, остальные в инфракрасной). В нижней части снимка зарождение циклона, в верхней - тающие снега, тайга Сибири. 1} Кластерная карта первого
этапа иерархии (4 кластера)
Рис. 2. Кластерная карта. Розовые и серые тона кластеров соответствуют облакам различной высоты, прозрачности, голубые - заснеженной части, темные вверху - тайге, синие - воде озер, красный цвет оттаявшей поверхности без облаков. Ярко желтый соответствует кластеру, основная часть которого лежит в области активной человеческой деятельности при нарушении поверхности Земли (Кузбасс, Кемеровская область, угольные разрезы)
Увеличение порога d приводит к увеличению числа кластеров при равном числе этапов, так как учитываются кластеры с худшей отделимостью: при
^=0,1 получено 127 кластеров, при ^=0,5 - 181 кластер. Однако эти кластеры часто малы, и беглый взгляд на карту почти не замечает отличий. Важно представлять задачу пользователя: более детальное исследование объекта вплоть до всех пиков гистограммы, или получение наиболее общей качественной картины с хорошо разделенными кластерами. В последнем случае порог d должен быть задан как можно меньше. Вариант d=0,04 представляется в этом случае идеальным. На рисунках 3а и 3б показаны кластерные карты для маленького d=0,015 и разного числа этапов иерархии. Самый светлый тон здесь соответствует большому фоновому кластеру. Кластеры, соответствующие облакам и снегу в основном, оказываются хуже разделимыми. На рис. 3б 28 этапов иерархии, 25 кластеров, максимальное значение числа уровней квантования равно 110 - это соответствует примерно: чуть больше среза одного бита в канале. Но и эти классификации могут представлять интерес, так как характеризуют объект с точки зрения разделимости его кластеров и выявляют наиболее отделимые кластеры на глубоком уровне.
(а) (Ъ)
Рис. 2. Кластерные карты для d=0,015: а) 2 этапа иерархии, Ь) 28 этапов иерархии
В новом иерархическом алгоритме для определения детальности кластеризации задается минимальная отделимость кластеров, а максимально возможное число уровней квантования пространства признаков автоматически вычисляется, причем оно может быть различно в зависимости от разделимости подобластей данных. Это позволяет получить распределение с хорошо разделимыми кластерами, причем число их существенно меньше, чем для прямого алгоритма Нарендры, определяющего детальность заданием числа уровней квантования.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Gong P. & P.J. Howarth. An assessment of some factors influencing multispectral landcover classification. // J. Photogrametric Engineering and Remote Sensing, 56(5), 1990. P.597-603.
[1] 2. Свейн Ф. , Дэйвис Ш. // Дистанционное зондирование: количественный подход. -1983. - Москва, “Недра”.
[2] 3. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977 - 9 - P. 207 -215.
4. Сидорова В.С. Кластеризация многоспектральных изображений с помощью анализа многомерной гистограммы // Новосибирск. Сб.: Математические и технические проблемы обработки изображений. СО АН СССР. 1986. С. 52-57.
5. Сидорова В.С. Классификация многоспектральных космических изображений поверхности Земли с помощью разделения многомерной гистограммы по унимодальным кластерам // Ж. Вестник КазНУ., сер. географическая. 2004. N 2(19). С. 206-210.
6. V. S. Sidorova. Separating of the Multivariate Histogram on the Unimodal Clusters. // Proceedings of the Second IASTED International Conference “Automation Control and Information Technology”. - Novosibirsk. - 2005. - P. 267-274.
7. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Том 43. - №1. - С. 37- 43.
8. M. Halkidi, Y. Batistakis and M. Vazirgiannis. // Journal of Intelligent Information Systems - 2001 - No.17 (2-3) - P.107-132.
9. Fukunaga K. Introduction to Statistical Pattern Recognition. // Academic Press. New York and London. 1972.
10. В.С. Сидорова. Алгоритм кластеризации текстурных данных дистанционного зондирования. // Ж. Автометрия - 2010 - Т. 46, № 5, С. 43-52.
11. V.S. Sidorova. Automatic Hierarchical Clustering Algorithm for Remote Sensing Data // Pattern Recognition and Image Analysis. - 2011 - Vol. 2 - No. 2 - P. 318-321.
12. Сидорова В.С. Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров. Труды международного конгресса “ГЕО-СИБИРЬ - 2012”, Новосибирск, 2012, С. 149-154
© В.С. Сидорова, 2013