УДК 528.852
ИЕРАРХИЧЕСКИЙ ГИСТОГРАММНЫЙ АЛГОРИТМ ДЛЯ ПОИСКА КЛАСТЕРОВ C ОТДЕЛИМОСТЬЮ НИЖЕ ЗАДАННОЙ ПО ТЕКСТУРНЫМ ДАННЫМ 1
Валерия Сергеевна Сидорова
Институт вычислительной математики и математической геофизики Сибирского отделения Российской академии наук, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383)330-73-32, e-mail: svs@ooi.sscc.ru
Предложена автоматическая кластеризация и последующая сегментация аэроснимков по текстурным признакам. Использован дивизимный гистограммный иерархический алгоритм с поиском кластеров ниже заданной отделимости. Учтены особенности сегментации по статистическим текстурным признакам. Параметры модели изображения, известной как SAR, используются в качестве текстурных признаков для автоматической неконтролируемой классификации лесных ландшафтов на аэроснимке.
Ключевые слова: дистанционное зондирование, обработка изображений, кластеризация, многомерная гистограмма, кластерная разделимость, текстура.
HIERARCHICAL ALGORITHM TO SEARCH ASSIGNED SEPARABILITY CLUSTERS OF TEXTURAL REMOTE SENSING DATA
Valerija S. Sidorova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS, 630090, Novosibirsk, Russia, Lavrentjev avenu, 6, scientific researcher, laboratory of Image Processing, tel. (383)330-73-32, e-mail: svs@ooi.sscc.ru
The clusterization and subsequent image segmentation of aerial images by texture features are considered. Dividual hierarchical histogram algorithm for searching clusters of a given separability is used. The parameters of image model, known as SAR, are used as features for automatic unlabeled classification of forest landscapes on aerial image.
Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability, texture features.
Сегментация изображения может быть осуществлена локальным и глобальным способом. Локальный способ оценивает наличие границы между областями по поведению признаков в окрестности точки изображения. Глобальный способ предполагает предварительную кластеризацию пространства признаков, и затем установление соответствия между пикселем изображения и кластером, в который попадает его вектор признаков. Обычно кластеру присваивается индивидуальный цвет, и сегментация изображения тождественна карте кластеров. Преимущество глобальной сегментации в том, что могут быть выделены кластеры,
1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 13-07-00068).
представленные в виде россыпи. В данной работе рассматривается глобальный способ сегментации.
Предложена модификация для текстурных изображений делимого иерархического алгоритма кластеризации с поиском унимодальных кластеров заданной отделимости при максимальной детальности [1,2,3]. Алгоритм [1] использует на каждом этапе иерархии метод Нарендры [4,5,6] и сохраняет его достоинства, т.е. он является быстрым, непараметрическим, не требует a priory никаких предположений ни о форме распределений, ни о числе кластеров. Это очень важный момент, так как эти сведения обычно не доступны для данных ДЗЗ. Однако параметром детальности кластеризации является не формальный уровень предварительного квантования пространства признаков, как у Нарендры, а заданное значение отделимости кластера d.
Мера отделимости для отдельного унимодального кластера и мера качества распределения в целом по кластерам были определены в [7]. Мера качества удовлетворяет условиям кластерной достоверности [8]. Она уменьшается с ростом компактности кластеров и с ростом расстояния между модальными векторами кластеров. Часто предлагается измерять компактность кластера среднеквадратичным отклонением признаков. Но среднеквадратичное отклонение признаков для кластеров зависит не только от их компактности, но и от их радиуса. Используемая мера [7] соотносит не зависимые расстояния, а плотности вероятности.
В результате работы делимого иерархического алгоритма получаются унимодальные кластеры для ячеек квантования векторного пространства текстурных признаков, минимальный размер которых определяется разделимостью кластеров соответствующей области данных. Автоматический выбор различной детальности в подобластях данных позволяет плохо разделенным кластерам объединяться на уровне векторов путем выбора более крупной ячейки квантования. Это обеспечивает существенное сокращение числа кластеров. Алгоритм был, в частности, успешно применен к 5-спектральным данным спутника NOAA и позволил автоматически разделить: снег, облака, озера, леса, области оттаявшей поверхности и др. [1,2].
Модификация алгоритма для текстур. Это: 1) определение размера окна для сбора статистик и 2) устранение ложных кластеров с узкими сегментами, возникающих на границах различных текстур. Размер окна (одинакового для всего изображения) предложено выбирать, учитывая минимальное изменение числа кластеров при постепенном увеличении окна. Ложные кластеры присоединяются к основным, основываясь на контексте по предварительной карте кластеров и наименьшей разделимости в пространстве текстурных признаков по аналогии с алгоритмом [9]. Однако в новом алгоритме учитывается различный размер ячеек квантования в кластерах, полученных иерархическим алгоритмом.
Алгоритм применялся для изображений лесных ландшафтов на черно-белых аэроснимках масштаба 1:50000. Именно этот масштаб используется лесоводами для дешифрирования леса, используя текстурные свойства, проецирующие в плоскость изображения закономерную структуру лесных сообществ, состав пород деревьев для различных типов леса и динамику состава с возрастом. Поэтому алгоритм использовал только три текстурных признака, основанных на статистической модели SAR [9,10,11], хотя могут быть включены также спектральные признаки. На рис. 1, a - аэроснимок леса 1:50000, размер 1178*1157, разрешение: 1 пиксель / 5*5 м , эквализован с сохранением 30 уровней яркости. На рис. 1, б - картосхема выделов наземной таксации. Выдел определяется по возрастной фазе преобладающего типа леса. На изображении находятся насаждения кедровников и сосняков определенных типов в различных фазах развития, лиственные насаждения: березовые и осиновые. В левой части снимка большое болото и круглое озеро.
а) б)
Рис. 1.
а) Эквализованное изображение лесного ландшафта на аэроснимке; б) Картосхема выделов наземной таксации, их описание: 17, 38- озера, 18, 23, 41, 49 - болота, 2,16 - осиновые леса, 3, 4,20,22,36,26,32 - березовые леса, 7,9, 19,14, 44-кедровые леса старших фаз,40,42, 46 - кедровые леса фазы IV, 21 -чередование кедровых лесов различных фаз; сосновые леса: 30, 24, 10, 12, 13, 27 - IV фазы, 28, 31, 33, 48 - XIII фазы,37 - XIV фазы, 45- XV фазы, 1, 5, 15, 25 - XVI фазы; 11 -чередование кедровых и сосновых насаждений
Для вычисления текстурных признаков размер окна был определен 16 х 16 . Число кластеров К, полученное для различных значений размера окна для сбора текстурных статистик при d=0.06, указано в табл. 1. Также в таблице приводятся значения е ^1=| К+1 - К |/ К^. е характеризует долю изменения числа кластеров. Заметим, что только для размеров окна при 1=3 и 1=4 (с близкими значениями числа кластеров, е достигает минимума) 16*16
4
и 18*18, кластеры различных типов леса хорошо разделились с заданной отделимостью d=0.06. Для кластеризации был выбран размер 16*16. При разрешении 1 пиксель/5*5 м это близко к единице таксации в лесоводстве -1 га (100*100 м2).
Таблица 1
Таблица для определения размера окна для сбора текстурных статистик
i Размер окна Число кластеров К
1 12*12 36
2 14*14 53 0.47
3 16*16 103 0.94
4 18*18 117 0.13
5 20*20 32 0.64
Исследуем результаты кластеризации для постепенно увеличивающегося порога d отделимости кластера (1). Для d=0,01 и меньше не нашлось ни одного кластера, отделимость которого была бы меньше этого порога, поэтому на этапе возврата алгоритм все кластеры объединил в один фоновый. Только при d=0.06 сосновые и кедровые леса старших возрастных фаз попали в разные кластеры. Число уровней квантования достигло 97 для этих кластеров. Глубина просмотра данных увеличивалась вплоть до 197 уровней (7 этапов иерархии). Однако алгоритм вернул данные к тем детальностям, на которых удовлетворялось условие: отделимость каждого кластера меньше d. На рис. 2, а показана предварительная кластерная карта для d=0.06. Получено 93 кластера (алгоритм Нарендры для детальности 97 уровней квантования дает тысячи кластеров).
Дальнейшее увеличение порога d вызывает увеличение числа узких ложных сегментов кластеров на границах текстур. По предложенному критерию все полученные кластеры узкие, т.е. в среднем тоньше окна для сбора статистик. Тогда подсчитаем среднее отношение периметра к площади, и те кластеры, для которых это отношение меньше среднего, будем считать основными, остальные ложными. Ложных оказалось 42 из 93. На карте рис. 2, а они показаны черным цветом. Затем производится их обработка, и окончательная кластерная карта представлена на рис. 2, б. Здесь всего 51 кластер. Деление на кластеры соответствует карте выделов рис. 1, б. К лесу относится 22 кластера. При этом в разные кластеры попали не только хвойные и лиственные леса, но даже возрастные фазы кедровых и сосновых насаждений. Таким образом, проведена глобальная сегментация текстурного изображения на основе делимой иерархической гистограммной кластеризации пространства текстурных признаков. Причем каждый кластер является унимодальным в своем пространстве сжатых данных путем простого квантования плюс небольшой объем ложных граничных кластеров,
отделимость каждого кластера меньше 0.06. Используя текстурные признаки аэроснимка, автоматически построена карта кластеров, которая соответствует карте лесных насаждений, полученной лесоводами с помощью наземной таксации. Удалось даже автоматически правильно различить кедровый и сосновый лес не только по типам, но и по возрастным фазам развития.
Рис. 2. d = 0.06
а) Область плохо отделенных кластеров мала, почти вся она относится к болоту. Черным показаны ложные кластеры с узкими сегментами; б) Кластерная карта после обработки ложных кластеров. Самые темные кластеры (зеленые) относятся к кедровникам. Более светлые - лиловые, оранжевые, розовые - к соснякам, еще более светлые к лиственным лесам, и самые светлые к болоту
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. V.S. Sidorova. Hierarchical Algorithm to Search Assigned Separability Clusters of Remote Sensing Data // German-Russian Workshop 0GRW-8-2011. - Nizhny Novgorod, 2011. - P.269 - 272.
2. Сидорова В.С. Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров // Интерэкспо ГЕО-Сибирь-2012. VIII Междунар. науч. конгр. : Междунар. науч. конф. «Геодезия, геоинформатика, картография, маркшейдерия» : сб. материалов в 3 т. (Новосибирск, 1020 апреля 2012 г.). - Новосибирск: СГГА, 2012. Т. 2. - С. 149-154.
3. V. S. Sidorova. Hierarchical Cluster Algorithm for Remote Sensing Data of Earth. // Pattern Recognition and Image Analysis. - 2012. - Vol. 22, No. 2. - P. 373-379.
4. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977 - 9 - P. 207 -215.
5. Сидорова В.С. Кластеризация многоспектральных изображений с помощью анализа многомерной гистограммы // Сб.: Математические и технические проблемы обработки изображений. СО АН СССР. Новосибирск, 1986. С. 52-57.
6. Сидорова В.С. Классификация многоспектральных космических изображений поверхности Земли с помощью разделения многомерной гистограммы по унимодальным кластерам // Ж. Вестник КазНУ., сер. географическая. 2004. - N 2(19). - С. 206-210.
7. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Том 43. - №1. - С. 37- 43.
8. M. Halkidi, Y. Batistakis and M. Vazirgiannis. // Journal of Intelligent Information Systems - 2001 - No.17 (2-3) - P.107-132.
9. В.С. Сидорова. Алгоритм кластеризации текстурных данных дистанционного зондирования. // Ж. Автометрия - 2010 - Т. 46, № 5. - С. 43-52.
10. Kashyap R.L., Chellapa R. Estimation and Choice of Neighbors in Spatial Interaction Models of Images. // IEEE Trans. Inform. Theory - 1983. - vol.1. - P. 60-72.
11. V.S. Sidorova. Unsupervised Classification of Forest's Image by Texture Model Features. // Pattern Recognition and Image Analysis. - 2009. - Vol. 19, N 4. - P. 698-703.
© В. С. Сидорова, 2014