Научная статья на тему 'Детальность кластеризации и сокращение размерности пространства спектральных признаков данных ДЗЗ'

Детальность кластеризации и сокращение размерности пространства спектральных признаков данных ДЗЗ Текст научной статьи по специальности «Математика»

CC BY
247
106
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / КЛАСТЕРИЗАЦИЯ / МНОГОМЕРНАЯ ГИСТОГРАММА / КЛАСТЕРНАЯ РАЗДЕЛИМОСТЬ / СОБСТВЕННОЕ ПРОСТРАНСТВО ВЕКТОРОВ / REMOTE SENSING / IMAGE PROCESSING / CLUSTERING / MULTIDIMENSIONAL HISTOGRAM / CLUSTER SEPARABILITY / OWN SPACE VECTORS

Аннотация научной статьи по математике, автор научной работы — Сидорова Валерия Сергеевна

Рассматривается возможность сокращения размерности векторного пространства спектральных признаков, связанная с выбором детальности кластеризации данных ДЗЗ. Сокращение размерности используется в делимом иерархическом гистограммном алгоритме кластеризации с отделимостью кластеров, не хуже заданной. Иллюстрируется приложение алгоритма для картирования загрязнений территории промышленными отходами по спектральным признакам спутника Земли.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETAIL OF CLUSTERING AND REDUCING THE SPACE SPECTRAL FEATURES DIMENSION FOR REMOTE SENSING DATA

Reducing the dimension of the vector space with the detail choice for the spectral features clustering is considered. This is used in the hierarchical divisible histogram algorithm to cluster separability, not worse given. The application of the algorithm for the territory mapping of industrial waste pollution is illustrated on spectral features of the Earth satellite.

Текст научной работы на тему «Детальность кластеризации и сокращение размерности пространства спектральных признаков данных ДЗЗ»

УДК 528.852

ДЕТАЛЬНОСТЬ КЛАСТЕРИЗАЦИИ И СОКРАЩЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СПЕКТРАЛЬНЫХ ПРИЗНАКОВ ДАННЫХ ДЗЗ1

Валерия Сергеевна Сидорова

Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383)330-73-32, e-mail: svs@ooi.sscc.ru

Рассматривается возможность сокращения размерности векторного пространства спектральных признаков, связанная с выбором детальности кластеризации данных ДЗЗ. Сокращение размерности используется в делимом иерархическом гистограммном алгоритме кластеризации с отделимостью кластеров, не хуже заданной. Иллюстрируется приложение алгоритма для картирования загрязнений территории промышленными отходами по спектральным признакам спутника Земли.

Ключевые слова: дистанционное зондирование, кластеризация, многомерная гистограмма, кластерная разделимость, собственное пространство векторов.

DETAIL OF CLUSTERING AND REDUCING THE SPACE SPECTRAL FEATURES DIMENSION FOR REMOTE SENSING DATA

Valeria S. Sidorova

Institute of Computational Mathematics and Mathematical Geophysics SB RAS, 630090, Russia, Novosibirsk, 6 Lavrentjev avenu, scientific researcher, laboratory of Image Processing, tel. (383)330-73-32, e-mail: svs@ooi.sscc.ru

Reducing the dimension of the vector space with the detail choice for the spectral features clustering is considered. This is used in the hierarchical divisible histogram algorithm to cluster separability, not worse given. The application of the algorithm for the territory mapping of industrial waste pollution is illustrated on spectral features of the Earth satellite.

Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability, own space vectors.

Кластеризация данных дистанционного зондирования Земли (ДЗЗ), полученных со спутников Земли, может быть представлена с различной детальностью. Это соответствует структуре данных, отображающих природные объекты различных масштабов. Например, можно разделить объекты изображения по спектральным признакам на леса, поля, воду при грубой детализации. Но более детальное рассмотрение может найти более детальную структуру внутри этих объектов. (Лес хвойный и лиственный, поля различных культур и т.д.). Для кластеризации таких данных хорошо подходит алгоритм Нарендры [1]. Этот быстрый алгоритм позволяет находить кластеры произвольной формы и размеров. Он не требует задания числа кластеров и вообще каких-либо предвари-

1 Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 13- 07- 00068) и программы № 43 Президиума РАН (проект № 32).

тельных предположений о форме распределений. Алгоритм находит скопления векторов, анализируя многомерную гистограмму и разделяя данные по унимодальным кластерам. Однако в этом алгоритме произвольно заранее определяется детальность кластеризации предварительным квантованием векторного пространства признаков. То есть, предварительно вектора группируются более простым правилом. Алгоритм Нарендры был реализован и описан в [2-5].

Если пространство многоспектральных векторов преобразовать в собственное, то его размерность может оказаться ниже исходного. В этой статье анализируется возможность сокращения размерности пространства признаков, связанная с выбором различной детальности кластеризации.

Квантование пространства признаков может производиться по разным правилам. У Нарендры оно достигается отсечением младших битов в каждом спектральном канале. Каждое отсечение уменьшает число уровней квантования вдвое. В работе [5] был предложен другой способ, более плавный, но по-прежнему в каждом направлении число уровней квантования сохранялось одинаковым. Однако, в общем случае, данные вытянуты вдоль какого-то направления, и правило квантования, обеспечивающее наименьшую потерю информации, требует различного подхода в различных направлениях, а именно: квантование должно сохранять ячейку квантования в форме гиперкуба (а не гиперпараллелепипеда). Это условие будет выполнено, если число уровней квантования вдоль каждой оси собственного пространства пропорционально квадратному корню из соответствующего собственного числа. (Собственное число характеризует разброс вдоль оси), а именно:

с с с > (1)

$в1 $в2 $вк

где N1, N2, ..., числа уровней квантования вдоль для соответствующих собственных векторов по к

ортонормированным осям, а $2е1, $2в2, ... , ¿2вк

собственные числа.

Зададим максимальное число уровней квантования в собственном пространстве равным Ыет =255, таково обычное число уровней серого для данных дистанционного зондирования по каждому измерению. Тогда, в соответствии с пропорциями (1) может быть найдено число уровней квантования и по другим осям собственного пространства. Для задач кластеризации это число должно быть больше или равно 2, иначе эта компонента одинакова для всех векторов и никакой роли в кластеризации не играет. Таким образом, если отношение / < 2, то соответствующая ось х может не рассматриваться, и мы получаем сокращение размерности пространства признаков.

В работе [5] предложено автоматизировать выбор детальности (или иначе: выбор числа уровней квантования), основываясь на разделимости кластеров. Анализ показал, что с увеличением детальности большую роль начинает играть шум. Иерархический алгоритм [6,7] предлагает для заданной разделимости находить предельную детальность, причем в различных областях данных свою. Таким образом, предельная детальность ограничена заданной отделимостью

кластера, поэтому и размерность векторного пространства будет зависеть от задания отделимости кластера. Реально, максимальное число уровней квантования бывает меньше 255, соответственно, размерность собственного пространства также может оказаться меньше.

Приведем пример для реальных данных. Изображение Омской области в семи спектральных каналах (видимых и инфракрасных диапазонах) со спутника ИСЗ "Landsat-8" (разрешение 15 м; 08.02.2014) было любезно предоставлено сибирским центром ФГПУ "НИЦ "ПЛАНЕТА" (рис. 1). Цель исследования состояла в возможности применения полученной карты кластеризации данных по спектральным спутниковым данным ДЗЗ для помощи при оценке загрязнений отходами производств территории.

Рис. 1. Изображение 3161*2590 пикселей в семи спектральных каналах с ИСЗ "Landsat-8" Омская область 08.02.2014

Новый алгоритм кластеризации предварительно осуществляет сокращение размерности векторного пространства спектральных признаков с семи до трех следующим образом. Вычисляется ковариационная матрица всех данных (по семи спектральным каналам). Затем матрица приводится к диагональному виду методом Якоби [8]. Сравниваются корни из полученных собственных чисел матрицы. Максимальное число Sem = 31. При нормальном распределении признака по каждой оси 97% векторов попадет в интервал 4.2S. Положим квантование вдоль оси m на 130 уровней. Используя впоследствии делимый иерархический кластерный алгоритм, мы начинаем с маленькой детальности (малого числа уровней) и постепенно увеличиваем ее. Знаем, что доходим вдоль оси m только до 60 уровней. Учитывая соотношение с шестью другими собственными числами и (1), получаем, что только еще для двух измерений собственного пространства число уровней квантования может достигнуть 2. Поэтому оставляем три измерения. Эти три новые координаты трехмерных векторов в собственном пространстве получаем линейным преобразованием семи старых координат.

Матрица перехода от исходной системы координат к ортонормированной системе собственного пространства определяется в методе Якоби [8].

Затем используется делимый иерархический гистограммный алгоритм для собственного трехмерного пространства векторов [6,7] с заданной предельной отделимостью кластеров d=0.15 (0<^<1). Этот алгоритм, сохраняя достоинства алгоритма Нарендры (быстрый, автоматический, не требует задания числа кластеров и никаких других данных), переходя от одного этапа иерархии к другому, увеличивает детальность рассмотрения в соответствии со средней разделимостью кластеров и анализирует отделимость каждого кластера. После прохождения заданного числа этапов иерархии полученные кластеры анализируются на предмет отделимости и при нарушении условия отделимости отправляются на тот этап, где они были хороши. На первом этапе иерархии (рис. 3) получено всего 6 кластеров. Два из них (красный и черный) соответствуют дымам ТЭЦ Омской области (координаты ТЭЦ на географической карте подтверждают это). Они выглядят в виде язычков, видно их скопление на северо-северо-западе. Для десяти этапов иерархии получено 27 унимодальных кластеров (рис. 4). Максимальная детальность при этом соответствует 60 уровням квантования (как указывалось выше). Углы розового и фиолетового кластеров на северо-востоке соответствуют загрязнению снега территории Омской области. Это соответствует преобладанию юго-западных ветров в области. Дальнейшее увеличение детальности (числа этапов иерархии) ведет к тому, что увеличивается доля кластеров с отделимостью хуже заданной d=0.15. Время работы программы не превышает несколько минут на РС с конфигурацией: 1. ГГц, 512 МБ.

' и

'■/Г А

4 ^З^ЛР ' л*

* Ы-

Я/г »,•

КЙ ■■ 5

• « *

Ч: '' »

\ - • V \ /,

Рис. 2. Первый этап иерархии. Получено 6 кластеров. Два из них (красный и черный) соответствуют дымам ТЭЦ Омской обл.

Дальнейшее развитие алгоритма предполагает индивидуальное сокращение размерности внутри каждого кластера при иерархическом подходе.

Рис. 3. Кластеризация (10 этапов иерархии). Получено 27 унимодальных кластеров

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977 - 9 - P. 207 -215.

2. Здорова В.С. Кластеризация многоспектральных изображений с помощью анализа многомерной гистограммы // Новосибирск. Сб.: Математические и технические проблемы обработки изображений. СО АН СССР. 1986. С. 52-57.

3. Сидорова В.С. Классификация многоспектральных космических изображений поверхности Земли с помощью разделения многомерной гистограммы по унимодальным кластерам // Ж. Вестник КазНУ., сер. географическая. 2004. N 2(19). С. 206-210.

4. V. S. Sidorova. Separating of the Multivariate Histogram on the Unimodal Clusters. // Proceedings of the Second IASTED International Conference "Automation Control and Information Technology". - Novosibirsk. - 2005. - P. 267-274.

5. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Том 43. - №1. - С. 37- 43.

6. V.S. Sidorova. Detecting Clusters of Specified Separability for Multispectral Data on Various Hierarchical Levels // Pattern Recognition and Image Analysis. 2014, Vol. 24, No. 1. - P. 151-155.

7. Сидорова В.С. Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров. // Интерэкспо ГЕ0-Сибирь-2012. VIII Междунар. науч. конгр. - Новосибирск: СГГА, 2012, T.2, С. 149-154

8. Калиткин Н.Н. Численные методы. Москва. " Наука ". 1978. СС. 512.

© В. С. Сидорова, 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.