Научная статья на тему 'Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров'

Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров Текст научной статьи по специальности «Математика»

CC BY
123
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / ОБРАБОТКА ИЗОБРАЖЕНИЙ / КЛАСТЕРИЗАЦИЯ / МНОГОМЕРНАЯ ГИСТОГРАММА / КЛАСТЕРНАЯ РАЗДЕЛИМОСТЬ / REMOTE SENSING / IMAGE PROCESSING / CLUSTERING / MULTIDIMENSIONAL HISTOGRAM / CLUSTER SEPARABILITY

Аннотация научной статьи по математике, автор научной работы — Сидорова Валерия Сергеевна

Предложен новый гистограммный иерархический алгоритм. Целью иерархического деления кластеров является достижение предельной детальности по заданной разделимости кластеров. Рассмотрено приложение алгоритма к пятиспектральному спутниковому снимку.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEW Histogram ALGORITHM for automatic choice of clusterization detail on given cluster separability

Histogram clustering algorithm finds clusters with separability below assigned. Different detail of the data areas is in accordance with average separability of their internal clusters due to the hierarchical technique. Application of the algorithm for uncontrolled Earth's surface classification by five spectral satellite data is shown.

Текст научной работы на тему «Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров»

УДК 528.852

НОВЫЙ ГИСТОГРАММНЫЙ АЛГОРИТМ С АВТОМАТИЧЕСКИМ ВЫБОРОМ ДЕТАЛЬНОСТИ КЛАСТЕРИЗАЦИИ ПО ЗАДАННОЙ РАЗДЕЛИМОСТИ КЛАСТЕРОВ1

Валерия Сергеевна Сидорова

Институт вычислительной математики и математической геофизики Сибирского отделения Российской академии наук, 630090, г. Новосибирск, проспект Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383) 330-73-32, e-mail: svs@ooi.sscc.ru

Предложен новый гистограммный иерархический алгоритм. Целью иерархического деления кластеров является достижение предельной детальности по заданной разделимости кластеров. Рассмотрено приложение алгоритма к пятиспектральному спутниковому снимку.

Ключевые слова: дистанционное зондирование, обработка изображений, кластеризация, многомерная гистограмма, кластерная разделимость.

NEW HISTOGRAM ALGORITHM FOR AUTOMATIC CHOICE OF CLUSTERIZATION DETAIL ON GIVEN CLUSTER SEPARABILITY

Valerija S. Sidorova

Institute of Computational Mathematics and Mathematical Geophysics SB RAS, Lavrentjev avenu, 6, Novosibirsk, 630090, scientific researcher, laboratory of Image Processing, tel.: (383) 330-73-32, email: svs@ooi.sscc.ru

Histogram clustering algorithm finds clusters with separability below assigned. Different detail of the data areas is in accordance with average separability of their internal clusters due to the hierarchical technique. Application of the algorithm for uncontrolled Earth's surface classification by five spectral satellite data is shown.

Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability.

Предлагается развитие гистограммного алгоритма, использующего оценку кластерной разделимости [1,2]. Он основан на методе Нарендры [3]. Гистограмма рассматривается как аппроксимация плотности вероятности векторов признаков. Быстрый непараметрический не итеративный алгоритм Нарендры разделяет векторное пространство признаков по унимодальным кластерам, модальные векторы которых соответствуют локальным гистограммным максимумам, а границы проходят по долинам гистограммы. Детальность кластеризации в алгоритме Нарендры регулируется заданием числа уровней предварительного квантования, одинакового для всего векторного пространства. В [2] был предложен иерархический алгоритм, который определяет различную детальность в зависимости от кластерной

1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 10- 07-00131).

разделимости подобластей, оптимизируя среднюю кластерную разделимость по всему пространству признаков. Согласно исследованиям, наблюдается тенденция к уменьшению средней разделимости с ростом числа уровней квантования. Хотя разделимость индивидуальных кластеров может оставаться удовлетворительной существенно дольше.

В новом иерархическом алгоритме предлагается другая цель: в подобластях пространства найти такие максимальные детальности, при которых порождаются дочерние кластеры с разделимостью ниже назначенной точности.

Меры разделимости отдельного кластера и совокупности к(п) кластеров определены в [1]:

/ 1 В](п) 1

т (п)=—.-х и (п), (1)

В-1(п)*И-1(п) г=1 ' 1 К(п) .

т(п) = X т (п), (2)

к(п) ]=1

где параметр п - число уровней квантования векторного пространства, к! (п) - значение гистограммы в ¡-ой точке границы кластера j, В (п) - число

точек границы кластера j, И^(п) - максимальное значение гистограммы.

В [1] показано, что (2) удовлетворяет требованиям, предъявляемым к мере изолированности кластеров или мере качества кластеризации [4]. Минимумы (2) соответствуют лучшим классификациям. Чем меньше значение (1), тем

лучше изолированность отдельного унимодального кластера. Всегда т-1 (п) < 1 и

т (п) < 1.

Квантование пространства признаков предложено осуществлять гораздо более плавно [1], чем в алгоритме Нарендры, когда срезался бит в каждом спектральном канале, т.е. число уровней можно было уменьшать только вдвое: 256, 128, 64 и т.д. Теперь число уровней можно изменять на 1. Пусть их начальное значение п<п0, п0=256. Размер ячейки для произвольного уровня квантования ^ = (п0-1)/ (п-1). Тогда, если L - число признаков, а /=[/(1)/(2),.../(Ь)] - вектор признаков, то новый вектор g=[g(1),g(2),...,g(L)] как результат квантования:

ф) = №1, к = 1,...,Ь,

_ 5 _

где [•] часть целого числа.

На первом этапе нашего иерархического алгоритма находим такое число п (и соответствующие новые векторы g), при котором распределение по унимодальным кластерам, полученное методом Нарендры, дает абсолютный минимум мере (2), в диапазоне изменения 255>п> п1. Затем, для данных внутри каждого кластера, предложенный алгоритм увеличивает начальное число уровней квантования (детальность) и находит свое собственное новое число и соответствующее собственное наилучшее кластерное распределение в смысле меры (2) и так далее. Кластерная нумерация - сквозная. Для каждого

дочернего кластера алгоритм сохраняет значение меры (1) и номер родительского кластера. До сих пор описание алгоритма совпадает с предложенным в [2]. Однако, цель нового алгоритма другая. Предыдущая версия предлагала получать распределение, оптимальное в смысле средней меры кластерной разделимости.

Для последующего деления, новый алгоритм рассматривает каждый дочерний кластер как отдельную область, если его разделимость удовлетворяет условию (3). Плохо разделенные его подкластеры (не удовлетворяющие (3)) рассматриваются как одна область.

т (п) < £, (3)

где £ заданная точность.

Задача ставится так: увеличивать детальность квантования пространства и продолжать делить кластеры, пока п<п 1. Затем результаты анализируются снизу вверх. Если условие (3) нарушено, то данные кластера могут быть возвращены к родительскому кластеру. Процесс продолжается, пока в иерархическом дереве не попадется хороший в смысле (3) предок. Когда анализ закончится, для каждого полученного кластера будет определена детальность квантования соответствующей области пространства признаков.

Рассмотрим изображение земной поверхности (рис.1); получен со спутника NOAA_17 24 апреля 2003г. Изображение пятиспектральное. Его объем около 1,7 мегабайт, размер 1480*1124 пикселей. Алгоритм построения многомерной гистограммы с использованием хеширования был предложен в [5].

Верхнюю левую часть изображения занимают тающие снега тайги Сибири, внизу оттаявшая поверхность Казахстана. Правую часть снимка покрывают сплошные и полупрозрачные облака.

Было пройдено девять этапов иерархического алгоритма, дальнейшее деление кластеров приводило к нарушению условия разделимости (3). Для кластеров заснеженной части тайги был получен 41 кластер, число уровней квантования изменялось между 20 и 37. Пространственное расположение кластеров на карте хорошо соответствуют земным объектам. Прослеживается русло Оби и ее притоки, озеро Чаны под снегом. Несколько кластеров соответствуют проступающим через снег темным хвойным лесам. Полупрозрачные облака создают дополнительные кластеры. Вода озер уже после второго этапа иерархии выделилась в различные кластеры, дальнейшее увеличение детальности позволило отделить берега озер, однако они весьма неоднородны и составляют плохо разделимые кластеры. Областям, покрытым облаками, соответствуют 32 кластера, число уровней квантования изменялось между 16 до 32. Для свободной от облаков и снега поверхности Земли получено 58 кластеров. Максимум числа уровней квантования векторного пространства -50. Интересно заметить, что три кластера соответствуют районам добычи полезных ископаемых открытым способом. Они отмечены черным и желтым тонами на карте и локализуются в районах Экибастуза, Баянаула - угледобыча, в Майкаине золото открытым способом; южнее Семипалатинска также уголь и

золото. Эти кластеры отражают распределение яркостей в инфракрасном диапазоне на 11 и 12 мкм (Рис. Ы, Видны темные пятна, соответствующие сегментам кластеров. В других спектральных диапазонах нет контрастных объектов в этих областях изображения. Справа от Иртыша ведется добыча природных строительных материалов, соли. В районе городов Алтай, Фуюнь Китая также добыча золота, возле селений Самарское и Курчум строительные материалы, полиметаллы. Зоны отечественных разработок, в частности, Кузбасс закрывает облако, однако, в небольшом просвете обнаруживается небольшой компактный сегмент черного кластера немного южнее города Ленинска-Кузнецкого. Также маленькие сегменты кластера расположены поблизости от Ак-Довурака и озера Ачит-Нуур в Монголии.

Рис. 1. Изображение со спутника NOAA_17 24 апреля 2003г: a), Ь) области видимой части спектра, инфракрасный: с) 3.7 мкм, d) 11 мкм, e) 12 мкм

Рис. 2. Кластерная карта

Для всего изображения получено 120 кластеров, включая кластеры всех размеров. Максимальная детальность - 50 уровней квантования. Разделимость почти каждого кластера < е = 0.07. Доля остальных кластеров очень мала. Для сравнения: при той же максимальной детальности n = 50, одинаковой для всего пятиспектрального изображения, алгоритмом Нарендры получается 4686 кластеров.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. 1. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом [Текст] / В.С. Сидорова // Автометрия. - 2007. - Том 43. - №1. - С. 37- 43.

2. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT [Text] / Narendra P.M. and Goldberg M. // Pattern Recognition. - 1977 - 9 - P. 207.

3. V.S. Sidorova. Automatic Hierarchical Clustering Algorithm for Remote Sensing Data [Text] / V.S. Sidorova // Pattern Recognition and Image Analysis. - 2011 - Vol. 2 - No. 2 - P. 318-321.

4. 4. M. Halkidi, Y. Batistakis and M. Vazirgiannis. [Text] / M. Halkidi, Y. Batistakis and M. Vazirgiannis. On clustering validation techniques. // Journal of Intelligent Information Systems - 2001 - No.17 (2-3) - P.107-132.

5. 5. V. S. Sidorova. Separating of the Multivariate Histogram on the Unimodal Clusters. [Text] /V. S. Sidorova. // Proceedings of the Second IASTED International Conference "Automation Control and Information Technology". - Novosibirsk. - 2005. - P. 267-274.

© В.С. Сидорова, 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.