НЕКОТОРЫЕ ВОПРОСЫ ТЕМАТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ
Алексей Александрович Бучнев
Институт Вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, г. Новосибирск, пр. акад. Лаврентьева, 6, старший научный сотрудник лаборатории обработки изображений, тел. (383)333-73-32, e-mail: [email protected]
Валерий Павлович Пяткин
Институт Вычислительной математики и математической геофизики (ИВМиМГ) СО РАН, 630090, г. Новосибирск, пр. акад. Лаврентьева, 6, заведующий лабораторией обработки изображений, тел. (383)333-73-32, e-mail: [email protected]
В статье рассматриваются вопросы, связанные с адекватным дешифрированием (классификацией) данных дистанционного зондирования Земли. Обсуждаются проблема смешанных векторов признаков и один из способов ее решения - нечеткая классификация. Анализируются алгоритмы контролируемой классификации и кластерного анализа.
Ключевые слова: контролируемая классификация, класс, кластер, кластерный анализ, жесткая классификация, нечеткая кластеризация, алгоритм ^-средних, алгоритм С-средних.
SOME PROBLEMS OF THE EARTH REMOTE SENSING DATA THEMATIC PROCESSING
Aleksey A. Buchnev
Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, Novosibirsk 630090, acad. Lavrent’ev av., 6, lab of the images processing senior researcher, tel. (383)333-73-32, e-mail: [email protected]
Valeriy P. Pyatkin
Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, Novosibirsk 630090, acad. Lavrent’ev av., 6, lab of the images processing head, tel. (383)333-73-32, e-mail: [email protected]
The questions, deals with Earth remote sensing data adequate recognition (classification), are discussed in this paper. The problem of the mixed vectors of features and one method of it solution - fuzzy classification - are discussed also. Supervised classification algorithms and clustering algorithms are analysed.
Key words: supervised classification, class, cluster, cluster analyses, hard classification, fuzzy clustering, ^-means algorithms, С-means algorithms.
Центральные вопросы тематической обработки (интерпретации) данных дистанционного зондирования Земли (ДДЗЗ) - вопросы повышения качества дешифрирования - непосредственно связаны с проблемой выбора адекватных алгоритмов распознавания. Возникающие при этом трудности обусловлены следующими причинами [1]:
1. Структура реальных данных не соответствует модели данных, используемой в алгоритме. Например, невыполнение предположения о нормальном распределении векторов данных или невыполнение условия, что поле измерений является случайным. Опыт показывает, что такие ситуации возникают тогда, когда излучение от сканируемого объекта выходит за пределы динамического диапазона съемочной аппаратуры. В этих случаях приходится либо вообще отказываться от методов, требующих обращения ковариационных матриц, либо прибегать к приемам, повышающим дисперсию данных.
2. Непрезентативность обучающих последовательностей - недостаточное количество данных для восстановления параметров решающего правила.
3. Несоответствие обучающих данных и данных, предъявляемых на распознавание (“загрязнение” выборок смешанными векторами измерений, т.е. векторами, которые образуются при попадании в элемент разрешения съемочной системы нескольких природных объектов).
4. Неточное соответствие обучающих данных, получаемых с помощью кластеризации, истинным тематическим классам.
5. Помехи аппаратуры, влияние атмосферных условий и т.п.
Таким образом, можно сказать, что современный опыт автоматизированного распознавания ДДЗЗ показывает: заранее практически невозможно установить, какой алгоритм будет лучше с точки зрения точности классификации. Поэтому в распознающую систему целесообразно закладывать несколько алгоритмов и выбор оптимального алгоритма проводить эмпирически.
Наличие смешанных векторов в ДДЗЗ является, вероятно, одним из наиболее серьезных источников ошибок при построении тематической карты классификации [1-3]. Понятие тематической карты предполагает, что каждый участок земной поверхности можно пометить как принадлежащий к одному и только одному классу поверхности. В действительности же (см., например, Шовенгердт [3]) дистанционное зондирование реализует функцию получения векторов измерений с 2КМ возможных значений для К уровней дискретизации и N спектральных полос. Когда это пространство измерений сжимается с помощью классификации до нескольких классов, мы пренебрегаем большим количеством информации для того, чтобы получить упрощенную тематическую карту.
В свою очередь Чандра и Гош [2] отмечают, что поскольку разрешение первых съемочных систем было невысоким, считалось, что проблема смешанных векторов исчезнет с увеличением разрешения. Однако оказалось, что это не так. При низком разрешении высокая вероятность вкладов от объектов разных классов в один и тот же смешанный вектор сочетается с относительно небольшим их количеством. При увеличении разрешения количество классов, представленных в каждом векторе, уменьшается, но увеличивается число самих смешанных векторов. Таким образом, смешанные векторы всегда являются источником ошибок при классификации ДДЗЗ.
Большинство алгоритмов классификации для отнесения векторов признаков классам вычисляют для каждого вектора значения подходящей функции «правдоподобия». В случае зачисления вектора признаков в класс по максимальному значению функции правдоподобия получается так называемая жесткая кластеризация. Разделяющие границы в пространстве признаков для полученных при жесткой классификации классов являются четко определенными. Если же величины правдоподобия используются так, что допускается возможность существования множественных классов для каждого вектора, то получается мягкая или нечеткая классификация. Величины правдоподобия представляют в этом случае относительные пропорции каждого класса в пределах многоспектрального вектора признаков [3].
В классификации ДДЗЗ чаще других используются методы, которые можно разбить на две группы: классификация с обучением (контролируемая
классификация) и кластерный анализ (автоматическая классификация).
В классификации с обучением для распределения векторов признаков по представляющим интерес классам используется процесс обучения классификатора способности различать эти классы на основе репрезентативных выборок представителей классов. Эти выборки называются обучающими. Процесс обучения фактически является процессом построения функций правдоподобия (или решающих функций) для классов. Эти функции будут затем использоваться для классификации каждого вектора признаков как принадлежащему только одному классу (жесткая классификация) либо нескольким классам (нечеткая классификация). Обучение классификатора может быть проконтролировано путем определения вероятности правильной классификации (для этого часть из обучающих выборок переводится в разряд контрольных).
Один из распространенных алгоритмов классификации с обучением основан на использовании байесовской стратегии максимального правдоподобия для нормально распределенных векторов признаков.
Пусть x - N -мерный вектор признаков х = (хх# )т, где N - число спектральных диапазонов. Предполагается, что векторы х имеют в классе щ нормальное распределение N(тг , В) со средним ж и ковариационной матрицей В. В этом случае байесовская стратегия максимального правдоподобия для поэлементного классификатора формулируется следующим образом [4].
Пусть Q = (щ,...,щ) - конечное множество классов, р(щ) - априорная вероятность класса щ. Тогда решающая функция класса щ имеет вид
8(х) = 1п(р(щ )) - 0.51п(| В1 |) - 0.5(х - т1 )Т В;1 (х - т ). (1)
Классическое решающее правило для жесткой классификации принимает следующий вид: вектор х заносится в класс щ, если ^ (х) > (х) для всех
У * ^.
Поскольку физические размеры реально сканируемых пространственных объектов, как правило, больше разрешения съемочных систем, между векторами признаков существуют взаимосвязи [1]. Использование информации
подобного рода дает возможность повысить точность классификации, если пытаться распознавать одновременно блок смежных векторов квадратной или крестообразной формы. Будем называть такой блок векторов объектом. Рассмотрим объект X = (xxxL)т, состоящий из смежных N-мерных векторов X, i = 1,. .,L(например, в окрестности 3*3, 5*5,... элементов). Решение об отнесении центрального элемента объекта тому или иному классу принимается на основе результата классификации всего объекта.
Такой подход порождает целое семейство решающих правил. Во-первых, это использование принципа голосования, т.е. независимая классификация элементов объекта и отнесение центрального элемента к тому классу, которому было отнесено большинство элементов объекта. Во-вторых, это применение текстурных операторов (простейший пример - описание объекта Х через вектор средних составляющих его элементов) с последующим отнесением центрального элемента классу, к которому был отнесен параметр, характеризующий Х. В-третьих, описание объекта Х случайным марковским полем, т.е. p(X\щ) = p(x11x2,...,xL;щ)p(x2\x3,...,xL;щ)...p(xL\щ). В этом случае модель выглядит следующим образом. Пусть вектор x имеет в классе щ нормальное распределение N(mt, B) со средним m и ковариационной матрицей B. Тогда вектор Х также нормально распределен в классе щ со средним Mt размерности NL и ковариационной матрицей Кг размерности NL х NL. Оценка этой матрицы при больших значениях NL (требуется очень большое количество обучающих данных), а также ее обращение на практике трудно реализуемо. Поэтому вводятся упрощающие структурные предположения. Если считать, что корреляция между элементами объекта во всех зонах съемки одинакова, то ковариационную матрицу К можно представить в виде прямого произведения матрицы пространственной корреляции R на ковариационную матрицу B.
L
Если R является единичной, то p(X \щ) = П p( xi \ Щ) и мы имеем известное
l=1
решающее правило при предположении, что элементы объекта независимы. Более адекватные модели возникают при других предположениях о структуре корреляционных связей. Например, вводя допущение о разделимости автокорреляционной функции элементов объекта по вертикали и горизонтали, получаем каузальную авторегрессионную модель первого либо третьего порядка (в зависимости от формы объекта).
Необходимые для построения решающих функций классов оценки статистических характеристик - векторов средних и ковариационных матриц, коэффициентов пространственной корреляции между значениями координат соседних векторов в горизонтальном и вертикальном направлениях -определяются на основе векторов из обучающих выборок (полей).
Характеризуя методы кластеризации в целом, следует отметить, что в основном они отыскивают в данных не те структуры, которые там реально существуют, а те, для поиска которых они предназначены [1]. Jain [5] отмечает, что кластеризация имеет длительную и богатую историю, но на сегодняшний
день не существует универсального алгоритма, применимого в различных областей приложений.
Целью кластеризации, называемой также неконтролируемой классификацией, является разделение конечного набора объектов на конечное и дискретное семейство скрытых, “естественных” структур. Как отмечается в [6], в кластерном анализе группа объектов расщепляется на некоторое число болеее или менее однородных подгрупп на основе часто субъективно выбранной меры схожести (т.е., выбираемой субъективно, основываясь на её возможности создания “интересных” кластеров) таким образом, что схожесть между объектами внутри подгруппы больше, чем схожесть между объектами, принадлежащими разным подгруппам.
Алгоритмы кластеризации делят данные на некоторое число кластеров. Большинство исследователей описывают кластер оценкой внутренней однородности и внешней разделимости, т.е. объекты в одном кластере должны быть похожи друг на друга, в то время как объекты в разных кластерах нет.
Пусть задан набор векторов X = {x1v..,xj,...,xL } где x} = (xj1,...,xjN) e RN и каждая компонента x]t называется признаком. Жесткая (hard) разделяющая кластеризация пытается найти K частей Х, С = (Q,..., СК} (К < L), таких, что
1. С фФ, i=1,-,K;
2. UK=1 С = X;
3. С1 n Cj = Ф, ij=1,...,K и 1 ф j.
Иерархическая кластеризация пытается построить древовидную вложенную структуру разбиений Х, H = (И,..., Ие} (Q < N), такую, что
С eИт,С eИ и m >l ^С eС или С nС =Ф для всех i, j фi,m.l = 1,...,Q.
Одним из важных факторов разделяющей кластеризации является критерий кластеризации. Наиболее широко используется критерий минимизации суммы квадратов ошибок. Этот критерий формулируется следующим образом:
К L
E = ЪЪг«Р2(xj -mi), (2)
i=1 j=1
f 1, если x . e i - ому кластеру
где yif =< j , p(x, y) - расстояние между векторами x и
[ 0 в противном случае
y, - прототип i-го кластера.
Наиболее известным алгоритмом жесткой кластеризации, доставляющим локальный минимум функции ошибок (2), является алгоритм K-средних [7,8]. Широкому распространению этого алгоритма способствует его простота. На его основе разработаны многочисленные модификации [5], в частности, алгоритм, известный под названием ISODATA, который динамически меняет число кластеров за счет их объединения либо расщепления согласно значениям предопределенных порогов. Многие авторы (см., например, [9]) справедливо полагают, что использование таких порогов является дополнительным
источником субъективизма (наряду со значением К) в построении кластерного разбиения.
Алгоритм К-средних может быть отнесен к классу параметрических, т.к. он неявным образом предполагает природу плотности вероятности: кластеры стремятся иметь конкретную геометрическую форму, зависящую от выбранной метрики [10]. Альтернативой является подход, основанный на предположении, что исходные данные являются выборкой из многомодового закона распределения, причем векторы, отвечающие отдельной моде, образуют кластер [11,12]. Таким образом, задача сводится к анализу мод многомерных гистограмм.
В жесткой разделяющей кластеризации каждый вектор принадлежит строго одному кластеру. Однако можно разрешить векторам принадлежать всем кластерам с коэффициентом членства иг] е [0,1], определяющим степень
принадлежности]'-го вектора /-му кластеру:
с ь
Хи/ = 1, V/ и Х иу < ь , V/,
/=1 /=1
определяя этими соотношениями нечеткую кластеризацию. Здесь С -число кластеров.
В настоящее время широко используется алгоритм нечеткой кластеризации, известный как метод С-средних [13]. Это итерационный алгоритм, который используется для разделения смешанных векторов. Идея метода заключается в описании сходства вектора с каждым кластером с помощью функции уровней принадлежности, принимающей значения от нуля до единицы. Значения функции, близкие к единице, означают высокую степень сходства вектора с кластером. Очевидно, что сумма значений функции уровней принадлежности для каждого пиксела должна равняться единице. В результате
задачу разбиения можно сформулировать как задачу минимизации функции:
ь с
Е = ХЕ (ич )т Р2( Ъ, т/ ) (3)
/=1 /=1
при следующих дополнительных ограничениях:
с
Х и у = 1 для любого /
/=1
ь
Х и у > 1 для любого /
/=1
0 < иу < 1 для любых / и /.
У и
Здесь - /-ый вектор признаков, — прототип (центр) ]'-го кластера; иу -
коэффициенты, определяющие уровень принадлежности вектора тому или иному кластеру (элементы матрицы и размерности С£); С и L - количество кластеров и векторов соответственно; т — показатель степени, характеризующий степень нечеткости кластеризации (1 < т <да); р2(хг,ту) -квадрат расстояния ^ между векторами х г и т}, определяемый следующим образом:
= Р2(Хг,т/ ) = (Х - т/ )Т А(УХ, - т/ X (4)
где А — матрица весовых коэффициентов.
Параметрами функции Е являются т и А. От показателя степени т зависит относительный вес каждого элемента . Значение т = 1 соответствует четкой
классификации, при т ^ ю классификация становится полностью нечеткой. Каждому т соответствует отдельное решение при прочих фиксированных параметрах. На сегодняшний день не существует каких-либо теоретических или практических рекомендаций по выбору оптимального значения т. Для определения этого показателя можно использовать тестовые наборы данных. Bezdek [13] считает, что интервал полезных значений равен [1,30], а для большинства исследуемых данных значения т в пределах 1.5 <т< 3.0 приводят к хорошему результату. Шовенгердт [3] предлагает брать значения т, близкие к двум. Еще одним важным параметром функции Е является матрица весовых коэффициентов А, характеризующая форму кластеров и определяющая расстояние в формуле (3). В настоящее время в основном используются следующие матрицы [13]:
А = I - евклидово расстояние, (5)
А = Б 1 - диагональное расстояние, (6)
А = С - расстояние Махаланобиса, (7)
где 1 — единичная матрица, а Б — диагональная матрица, элементами которой являются собственные значения ковариационной матрицы С.
При выборе диагонального расстояния масштаб по координатным осям задается собственными значениями ковариационной матрицы. Евклидово расстояние позволяет использовать уже накопленный опыт работы с данными. После определения всех параметров запускается итерационная процедура для получения нечеткого С-разбиения, обеспечивая сходимость функции (3) к локальному минимуму [13]. При этом для переопределения центров кластеров используется следующее выражение:
£
т
иу Х і
7 Ь
т
«и
£
і=і
а элементы и/ матрицы уровней принадлежности к кластерам и ю на к-ом шаге процедуры определяются как
1
=
1] С ( л2Л1/(т_1)
£'
к=1
V1к
и(к) _ и(к-1)
<£
, где є - заданная
Процедура завершает работу, когда точность вычислений. Полученные значения уровней принадлежности векторов
характеризуют доли различных кластеров, которые, в свою очередь, можно рассматривать как результаты нечеткой классификации данного вектора.
В ИВМиМГ СО РАН совместно с ГУ «НИЦ «Планета» Росгидромета РФ в течение ряда лет была создана система жесткой классификации ДДЗЗ. Система состоит из двух частей: классификации с обучением [14] и кластерного анализа
[15].
Комплекс процедур классификации с обучением (контролируемой классификации) ДДЗЗ состоит из семи классификаторов (один поэлементный классификатор и шесть объектных), основанных на использовании байесовской стратегии максимального правдоподобия, и двух объектных классификаторов, основанных на минимуме расстояния. Под элементом мы подразумеваем вектор признаков, а понятие объекта определялось выше. Поэлементный классификатор фактически работает в соответствии с выражением для решающей функции (1). Объектные классификаторы, в зависимости от предположений о связях векторов внутри объекта, в качестве решающих функций используют различные обобщения выражения (1). Используются следующие предположения: векторы внутри блока независимы и составляют один вектор соответствующей размерности; векторы внутри блока независимы и классифицируется вектор, равный среднему по всем векторам объекта; классифицируется средний вектор блока в предположении, что векторы внутри блока независимы и ковариационные матрицы равны единичной; векторы внутри блока связаны моделью каузального марковского случайного поля первого или третьего порядка.
Кластерный анализ в системе классификации представлен двумя алгоритмами - методом К -средних и методом анализа мод многомерной гистограммы, а также гибридным методом, объединяющим метод анализа мод многомерной гистограммы с последующей иерархической группировкой.
Метод ^-средних реализован в двух вариантах - Мак-Квина [7] и Ллойда [8]. В качестве мер расстояния, наряду с расстояниями (5) - (7), используются следующие метрики:
N
р(х,у) = Х|х, - у,| - Сити-блок расстояние (8)
7=1
р(х,у) = шах|хг -уг|, ¡=1,...,Ы- Чебышева расстояние. (9)
Учитывая чувствительность метода ^-средних к заданию начальных центров кластеров, предлагается выбор одного из трех способов этого задания, два из которых основаны на использовании статистических характеристик исходного набора векторов признаков и один использует случайное распределение векторов по кластерам.
В последнее время система классификации дополнена реализацией алгоритма нечеткой кластеризации С-средних в соответствии с выражениями (3) - (7). В сравнении с результатами кластеризации по методу ^-средних нечеткая кластеризация алгоритмом С-средних приводит к более равномерному распределению векторов признаков по кластерам. На рис. 1 приведены объемы
кластеров, полученные двумя методами при кластеризации одного и того же набора векторов признаков (выделялось 10 кластеров).
В заключение отметим, что разработанная система классификации в течение длительного времени с успехом используется при решении разнообразных задач космического мониторинга.
В перспективе предполагается включить в систему нечеткой классификации реализацию алгоритма С-средних с регуляризацией [2] и нечеткую контролируемую классификацию [3].
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Асмус В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды. Диссертация в виде научного доклада на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва - 2002, -75 с.
2. Чандра А.М., Гош С.К. Дистанционное зондирование и географические информационные системы. Пер. с англ. Москва: Техносфера, 2008.
3. Шовенгердт Р.А. Дистанционное зондирование. Модели и методы обработки изображений. Пер. с англ. Москва: Техносфера, 2010.
4. Дж. Ту, Р. Гонсалес. Принципы распознавания образов. - М., Мир, 1978, - 411 с.
5. Jain A.K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters. 31 (2010), pp. 651-666.
6. Rui Xu, Donald Wunsh. Survey of Clustering Algorithms. IEEE Trans. On Neural Networks, v. 16, No. 3, May 2005, pp. 645 - 678.
7. MacQueen J.B. Some Methods for Classification and analysis of multivariate observations. Proc. of the 5-th Berkley Symposium on Mathematical Statistical and Probability, 1967, vol. 1, pp. 281-297.
8. Lloyd S.P. Least Squares Quantizathion in PCM. IEEE Trans. Information Theory, vol. 28, pp. 129-137, 1982.
9. М. Жамбю. Иерархический кластер-анализ и соответствия. Пер. с фр. М., Финансы и статистика, 1988.
10. Marques de Sa J.P. Pattern Recognition: Concepts, Methods and Applications. SpringerVerlag, Berlin, Heidelberg, 2001, -318 р.
11. P.M. Narendra, Goldberg. A non-parametric clustering scheme for landsat. Pattern Recognition, vol. 9, 1977, pp. 207-215.
12. В.А. Красиков, В.А. Шамис. Кластерная процедура на базе многомерной гистограммы распределения. Исследование Земли из космоса, № 2, 1982, с. 107-114.
13. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York, 1981.
14. Асмус В.В., Бучнев А.А., Пяткин В.П. Контролируемая классификация данных дистанционного зондирования Земли. Автометрия, 2008, № 4.
15. Асмус В.В., Бучнев А.А., Пяткин В.П. Кластерный анализ данных дистанционного зондирования Земли. Автометрия, 2010, № 2.
© А.А. Бучнев, В.П. Пяткин, 2012