Научная статья на тему 'Кластеризация данных в программном комплексе PlanetaMonitoring'

Кластеризация данных в программном комплексе PlanetaMonitoring Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
317
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / КЛАСТЕРНЫЙ АНАЛИЗ / ЖЕСТКАЯ КЛАСТЕРИЗАЦИЯ / НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ / REMOTE SENSING / CLUSTERING / HARD CLUSTERING / FUZZY CLUSTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Асмус Василий Валентинович, Бучнев Алексей Александрович, Пяткин Валерий Павлович

Рассматривается система кластерного анализа (неконтролируемой классификации) данных дистанционного зондирования Земли в программном комплексе PlanetaMonitoring. Система представлена следующими методами: методом K средних, методом анализа мод многомерных гистограмм, гибридным методом, объединяющим метод анализа мод многомерных гистограмм с последующей иерархической группировкой и нечеткой кластеризацией алгоритмом Ссредних.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Асмус Василий Валентинович, Бучнев Алексей Александрович, Пяткин Валерий Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA CLUSTERING IN PLANETAMONITORING SOFTWARE COMPLEX

The clustering system (unsupervised classification) of the Earth remote sensing data in PlanetaMonitoring software complex is discussed. The system consists of the next methods: Kmeans method, method of the multidimensional histograms modes analysis, hybrid method, which involves method of the multidimensional histograms modes analysis and the subsequent hierarchical grouping, and fuzzy clustering algorithm C -means.

Текст научной работы на тему «Кластеризация данных в программном комплексе PlanetaMonitoring»

КЛАСТЕРИЗАЦИЯ ДАННЫХ В ПРОГРАММНОМ КОМПЛЕКСЕ PLANETAMONITORING

Василий Валентинович Асмус

Научно-исследовательский центр “Планета”, РОСКОМГИДРОМЕТ, 123242, Россия, г. Москва, Большой Предтеченский пер., 7, директор, тел. (8499)255-69-14, e-mail: asmus@planet.iitp.ru

Алексей Александрович Бучнев

Институт Вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, г. Новосибирск, Россия, пр. акад. Лаврентьева, 6, старший научный сотрудник лаборатории обработки изображений, тел. (383)333-73-32, e-mail: baa@ooi.sscc.ru

Валерий Павлович Пяткин

Институт Вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, г. Новосибирск, Россия, пр. акад. Лаврентьева, 6, заведующий лабораторией обработки изображений, тел. (383)333-73-32, e-mail: pvp@ooi.sscc.ru

Рассматривается система кластерного анализа (неконтролируемой классификации) данных дистанционного зондирования Земли в программном комплексе PlanetaMonitoring. Система представлена следующими методами: методом K-средних, методом анализа мод многомерных гистограмм, гибридным методом, объединяющим метод анализа мод многомерных гистограмм с последующей иерархической группировкой и нечеткой кластеризацией алгоритмом С-средних.

Ключевые слова: дистанционное зондирование, кластерный анализ, жесткая кластеризация, нечеткая кластеризация.

DATA CLUSTERING IN PLANETAMONITORING SOFTWARE COMPLEX

Vasiliy V. Asmus

Planeta Research and Development Center, Roscomhydromet, 123242, Moscow, Russia, Bol’shoi Predtechenskii per., 7, director, tel. (8499)255-69-14, e-mail: asmus@planet.iitp.ru

Aleksey A. Buchnev

Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Novosibirsk, Russia, acad. Lavrent’ev av., 6, lab of the images processing senior researc her, tel. (383)333-73-32, e-mail: baa@ooi.sscc.ru

Valeriy P. Pyatkin

Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Novosibirsk, Russia, acad. Lavrent’ev av., 6, lab of the images pro cessing head, tel. (383)333-73-32, e-mail: baa@ooi.sscc.ru

The clustering system (unsupervised classification) of the Earth remote sensing data in PlanetaMonitoring software complex is discussed. The system consists of the next methods: K-means method, method of the multidimensional histograms modes analysis, hybrid method, which involves method of the multidimensional histograms modes analysis and the subsequent hierarchical grouping, and fuzzy clustering algorithm C-means.

Key words: remote sensing, clustering, hard clustering, fuzzy clustering.

Программный комплекс PlanetaMonitoring, в течение длительного времени разрабатываемый совместными усилиями НИЦ «Планета» Росгидромета РФ и ИВМиМГ СО РАН, является функционально полным набором программных технологий, позволяющих решать различные задачи обработки данных дистанционного зондирования (ДДЗ) Земли [1]:

1. Контрастные и яркостные преобразования;

2. Геокодирование, формирование мозаик из спутниковых изображений;

3. Статистический анализ (декорреляция, выделение главных компонент);

4. Контролируемая классификация;

5. Кластерный анализ (автоматическая классификация);

6. Построений векторных полей пространственных перемещений природных объектов;

7. Выделение линейных и кольцевых структур на космических изображениях.

Данная работа посвящена описанию одной из центральных технологий комплекса - кластеризации многоспектральных (многомерных) ДДЗ.

Прежде всего заметим, что к исходному набору данных могут быть применены следующие операции предварительной обработки:

1. Декорреляция исходных данных с одновременным выделением главных компонент (отбор признаков в многомерных данных) [2]; главные компоненты могут выделяться либо на основе кумулятивной дисперсии в каналах либо с использованием правила Крамера [3] - все компоненты, для которых значения собственных чисел меньше единицы, отбрасываются.

2. Контрастное преобразование представленного в виде изображения набора данных. Программный комплекс включает ряд основанных на видоизменении гистограмм контрастных преобразований. В частности, реализован механизм референтного выравнивания [4], при котором яркостные и контрастные характеристики изображений приводятся либо к характеристикам некоторого изображения, выбранного в качестве референтного (базового), либо к характеристикам гауссового распределения с заданными параметрами.

Характерной особенностью ДДЗ является “загрязнение” выборок смешанными векторами измерений, т.е. векторами, которые образуются при попадании в элемент разрешения съемочной системы нескольких природных объектов. Это обстоятельство является одним из источников ошибок при построении карты классификации [2,4]. Большинство алгоритмов кластеризации для отнесения векторов признаков кластерам вычисляют для каждого вектора значения подходящей функции «правдоподобия». В случае зачисления вектора признаков в кластер по максимальному значению функции правдоподобия получается так называемая жесткая кластеризация.

В состав программного комплекса входит реализация классического алгоритма жесткой кластеризации - алгоритма ^"-средних, широко используемого для разбиения на кластеры больших объемов многомерных данных [5]. Алгоритм K-средних может быть отнесен к классу параметрических, т.к. он неявным образом предполагает природу плотности вероятности: кластеры стремятся

иметь конкретную геометрическую форму, зависящую от выбранной метрики [5]. Мы используем следующие метрики: Евклидова, Махаланобиса, Чебышева, сйу-Ыоск расстояние. Известно также, что результат кластеризации методом К-средних зависит от задания начальных центров кластеров. Предоставляется выбор одного из трех вариантов, два из которых определяются на основе статистических характеристик набора данных и один основан на случайной выборке. Один из вариантов алгоритма позволяет учитывать влияние смешанных векторов [2]. Дополнительным параметром в этом случае является выбираемое эмпирически соотношение чистых и смешанных векторов в наборе данных. На основе этого соотношения и градиентного изображения, сформированного подходящим градиентным оператором (Робертса/Превитта/Собела), выделяются связные компоненты, состоящие из чистых векторов. Кластеризации подвергаются средние векторы связных компонент. В дальнейшем смешанные векторы распределяются по полученным кластерам на основе минимального расстояния до центра кластера.

Альтернативный подход, позволяющий получать разбиение векторов измерений на кластеры произвольной формы, основан на предположении, что исходные данные являются выборкой из многомодового закона распределения, причем векторы, отвечающие отдельной моде, образуют кластер [2]. Таким образом, задача сводится к анализу мод многомерных гистограмм.

Одним из известных методов жесткой кластеризации является иерархическая группировка [6]. Однако прямое использование данного алгоритма для кластеризации больших объемов данных является нереальным. В программный комплекс включена двухэтапная процедура кластеризации: на первом этапе выполняется предварительное разбиение исходной выборки на кластеры с помощью модального анализа, а затем для получения окончательного результата используется иерархическая группировка. Предварительное использование модального анализа позволяет сократить объем данных до разумных пределов. В качестве входных данных для иерархической группировки используются векторы средних группы векторов, связанных с каждой модой многомерной гистограммы.

Альтернативой жесткой разделяющей кластеризации является мягкая или нечеткая кластеризация, разрешающая векторам принадлежать всем кластерам с коэффициентом членства пу е [0,1], определяющим степень принадлежности ]-

го вектора 1-му кластеру:

с ь

2 = 1 , У/ и £ и < ь , У/ ,

‘=1 /=1

определяя этими соотношениями нечеткую кластеризацию. Здесь С - число кластеров, Ь - количество векторов измерений. В недавнее время нами в состав системы кластеризации программного комплекса была включена реализация широко используемого алгоритма нечеткой кластеризации, известного как метод С-средних [7]. Это итерационный алгоритм, который используется для разделения смешанных векторов измерений в ДДЗ. Идея метода заключается в

описании сходства вектора с каждым кластером с помощью функции уровней принадлежности, принимающей значения от нуля до единицы. Значения функции, близкие к единице, означают высокую степень сходства вектора с кластером. Очевидно, что сумма значений функции уровней принадлежности для каждого пиксела должна равняться единице. Также, как и в алгоритме К-средних, параметрами соответствующей процедуры (кроме количества кластеров) являются тип метрики и вариант выбора начальных центров кластеров. Дополнительным параметром является показатель нечеткости, значения которого для ДДЗ предлагается брать близкими к двум (см., например, Шо-венгердт [3]).

Нижеследующие рисунки демонстрируют результаты работы алгоритмов К- и С-средних. На рис. 1 представлен фрагмент снимка ИСЗ БРОТ-4, полученного 04.05.2011 г. с паводковой ситуацией в районе Камня-на-Оби (снимок предоставлен Сибирским центром НИЦ «Планета»). Рис. 2 содержит изображение файла-маски, позволяющего исключить из процесса обработки фрагменты исходного изображения, являющиеся «шумом» по отношению к области интереса. На рис. 3 и 4 представлены результаты обработки. Выделялось 10 кластеров, выполнялось 50 итераций алгоритмов.

Основная часть работы алгоритма С-средних состоит в итерационном перестроении матрицы уровней принадлежности векторов признаков кластерам и пересчете центров кластеров. Алгоритм заканчивает работу при выполнении заданного числа итераций либо при достижении матрицы уровней принадлежности состояния стабильности, т.е. состояния, при котором норма разности матриц в двух последовательных итерациях не превосходит заданного порога. Эта работа требует больших временных затрат при ее последовательном выполнении, особенно в случае, когда показатель нечеткости неравен двум, в связи с чем реализована параллельная версия алгоритма. Параллельная реализация алгоритма осуществляется средствами ОС ’^пёо,№8 в рамках одного процесса путем запуска нескольких параллельных потоков. Количество запускаемых потоков равно количеству логических процессоров компьютера. Каждый поток перестраивает соответствующую часть матрицы уровней принадлежности. Необходимая при работе параллельных потоков синхронизация достигается с помощью механизма событий ОС ’Шпёо,№8. В таблице 1 содержатся данные о времени выполнения параллельной процедуры нечеткой кластеризации методом С-средних набора векторов признаков рис. 1. Приводятся результаты измерений времени (в секундах) для значений параметра нечеткости т=2 и т=2.2. Измерения проводились под управлением Windows-7 на аппаратной платформе с четырьмя логическими процессорами. Выполнялось 50 итераций.

Рис. 3. Кластеризация методом К-средних

Рис. 4 Кластеризация методом С-средних

Таблица 1

Значение m Количество запускаемых потоков

1 2 З 4

m=2 76.1S 52.S7 44.52 4G.6 5

2. 2 305.5 6 1S9.14 14G.G4 6. 2 9

В заключение отметим, что широкий набор возможностей системы кластеризации программного комплекса позволяет эксперту-исследователю выбирать адекватные решения задач дешифрирования ДДЗ.

Работа частично поддержана грантом РФФИ 13 -G7-GGG6S.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Asmus V.V., Buchnev A.A., Pyatkin V.P., Salov G.I. Software System for Satellite Data Processing of Applied Tasks in Remote Sensing of the Earth. //Pattern Recognition and Image Analysis, vol. 19, NoJ, 2GG9.

2. Асмус В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды. Диссертация в виде научного доклада на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва - 2GG2, -75 с.

3. Marques de Sa J.P. Pattern Recognition: Concepts, Methods and Applications. Springer-Verlag, Berlin, Heidelberg, 2GG1, -З1в р.

4. Шовенгердт Р.А. Дистанционное зондирование. Модели и методы обработки изображений. Пер. с англ. Москва: Техносфера, 2010.

5. Jain A.K. Data clustering: 5G years beyond K-means. Pattern Recognition Letters. З1 (2G1G), p. 651-666.

6. М. Жамбю. Иерархический кластер-анализ и соответствия. Пер. с фр. М., Финансы и статистика, 1988.

7. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York, 1981.

© В.В. Асмус, А.А. Бучнев, В.П. Пяткин, 2013

i Надоели баннеры? Вы всегда можете отключить рекламу.