Научная статья на тему 'Непараметрическая классификация спутниковых данных с полуобучением'

Непараметрическая классификация спутниковых данных с полуобучением Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
208
52
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куликова Е. А.

Предлагается непараметрический алгоритм классификации спутниковых данных с полуобучением, не требующий наличия обучающей выборки для всех классов. Приводятся результаты экспериментальных исследований на модельных и реальных данных, подтверждающие эффективность предлагаемого метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NONPARAMETRIC SEMI-SUPERVISED SATELLITE IMAGE CLASSIFICATION

The nonparametric semi-supervised satellite image classification algorithm which does not require training set for all classes is proposed. The results of experiments performed on models and real dataset which confirm the effectiveness of the algorithm are demonstrated.

Текст научной работы на тему «Непараметрическая классификация спутниковых данных с полуобучением»

УДК 004.9 Е.А. Куликова

ИВТ СО РАН, Новосибирск

НЕПАРАМЕТРИЧЕСКАЯ КЛАССИФИКАЦИЯ СПУТНИКОВЫХ ДАННЫХ С ПОЛУОБУЧЕНИЕМ

Предлагается непараметрический алгоритм классификации спутниковых данных с полуобучением, не требующий наличия обучающей выборки для всех классов. Приводятся результаты экспериментальных исследований на модельных и реальных данных, подтверждающие эффективность предлагаемого метода.

E.A. Kulikova

Institute of Computational Technologies SB RAS 6 acad. Lavrentieva ave., Novosibirsk, 630090, Russian Federation

NONPARAMETRIC SEMI-SUPERVISED SATELLITE IMAGE CLASSIFICATION

The nonparametric semi-supervised satellite image classification algorithm which does not require training set for all classes is proposed. The results of experiments performed on models and real dataset which confirm the effectiveness of the algorithm are demonstrated.

В задачах классификации аэрокосмических изображений (АКИ) процесс получения обучающей выборки (помеченных данных), необходимой для построения решающего правила, зачастую связан со значительными материальными и временными затратами. Поэтому на практике обучающая выборка (ОВ), как правило, непредставительна, а для некоторых классов отсутствует вовсе. Более того, отсутствуют сведения о вероятностных характеристиках классов. В то же время при классификации изображений всегда имеется большой объем непомеченных данных. В условиях непредставительности ОВ, для ее расширения, можно использовать непараметрические методы классификации с полуобучением (semi-supervized classification)[1]. Они не требуют практически никаких сведений о вероятностных характеристиках классов и позволяют использовать информацию о безусловной плотности распределения, содержащуюся в непомеченных данных. Однако большинство алгоритмов классификации с полуобучением требуют наличия ОВ для всех классов. При обработке АКИ это условие, как правило, не выполняется.

В докладе представлен эффективный непараметрический алгоритм классификации АКИ с полуобучением, не требующий наличия ОВ для всех классов. Данный алгоритм может применяться для наращивания исходной ОВ, использующейся при построении классификатора.

КРАТКОЕ ОПИСАНИЕ АЛГОРИТМА Пусть X = {x\,...,xn) - множество реализаций £-мерного случайного вектора К, плотность распределения которого /(jc) неизвестна, но имеется ОВ V = {{xj,yj): е {1, , М<М , где М - число классов,

представленных на изображении. Тогда предлагаемый алгоритм классификации с полуобучением можно условно разбить на два этапа.

На первом этапе выполняется кластеризация данных с помощью сеточного алгоритма ECCA[2]. Алгоритм основан на выполнении кластеризации на последовательности различных сеток с фиксированным шагом. Финальное решение формируется из предыдущих с помощью ансамблевого подхода, основанного на попарной кластеризации объектов. Алгоритм ECCA позволяет распознавать кластеры сложных форм. Его результаты являются устойчивыми к изменению шага сетки, что упрощает поиск оптимальных параметров алгоритма. В результате его применения пространство признаков разбивается на клетки, вычисляется оценка плотности

f(x) и находятся кластеры G\G к+\ = (’фон • На множестве кластеров

задается отношение смежности (смежными называются кластеры, имеющие общую границу). Выделенные кластеры разбиваются на три группы: 1) Ti ={Gb... ,G¿}~ кластеры, содержащие точки из V ; 2)Г2 ={Gi+\,...,Gj}-

кластеры, смежные с G¡,...,G¿; 3)Гз = к+\ остальные кластеры.

Кластеры из Г3 не влияют на решающие границы интересующих классов, поэтому их можно исключить из рассмотрения. Будем предполагать, что множество точек локальных максимумов Z¡ функции f (х) , попавших в кластер G¡ е Г] иГ2 , принадлежит одному информационному классу. Локальные максимумы Z¡ могут быть добавлены в ОВ соответствующего

класса. Вследствие «грубости» оценки f (х) , связанной с сеточной структурой, кластер из Ц может «захватить» точки ОВ соседнего класса (так называемый граничный эффект). В случае, когда кластер содержит ОВ нескольких классов, соответствующие ему локальные максимумы добавляются к ОВ того класса, чей представитель лежит в наиболее плотной части кластера.

Дополненная ОВ V не является представительной, но она содержит точки из всех интересующих классов и смежных с ними кластеров. Более того, первый этап позволяет исключить из рассмотрения кластеры, заведомо не принадлежащие интересующим классам.

На втором этапе V наращивается с помощью непараметрического алгоритма классификации с полуобучением sq/í-PARZEN[3]. В связи с высокой вычислительной сложностью этот алгоритм применяется не ко всему множеству непомеченных данных, а лишь к небольшому его подмножеству точек S , отнесенных к кластерам групп Г, и Г2 . Размер множества S выбирается так, чтобы расширенная OB V являлась представительной и могла быть использована для построения классификатора с целью выделения классов, представленных в исходной ОВ. Разработанный по такой ОВ классификатор будет применен к объектам кластеров групп и Г2-

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ

Предложенный метод программно реализован на языке программирования C++ (в среде Microsoft Visual Studio). Далее приведены результаты экспериментов на модельных и реальных данных. Перед обработкой данные приводились к диапазону [0,...,255] по каждому

признаку. Это преобразование позволяет значительно упростить процесс подбора параметров. Оценка информативности построенных ОВ производилась с помощью непараметрического классификатора Розенблатта - Парзена (с нормальным ядром).

Эксперимент1. Использовались трёхмерные данные, состоящие из 80000 точек, сгруппированных в восемь классов Q,...,Cg по 10000 точек, распределённых по нормальному закону [2] (рис. 1а). ОВ имелась для классов Ci, C4, C5 и состояла из 15 точек (по 5 точек на класс). Для расширения ОВ в множество S случайным образом отбирались по 100p точек из каждого кластера, /?е{0.5,1,...,4.5,5} . Остальные параметры классификации были фиксированы. С помощью алгоритма ЕССА = 20, Мтах = 24, Г = 0.8,

7/, = 0.5 ) были выделены 8 кластеров. Для алгоритма ,vo//-PARZEN

—3 —3

использовались следующие параметры: £ = 10 , / = 10 , оптимальное

значение сг определялось из множества {1,2,...,10} . Для оценки качества выделения интересующих классов вычислялись точность и мера покрытия

по формулам | сР nCf \ / \ cf \ и | С® ncf \ / \ С® | соответственно, где

O S

| Cj | - фактическое количество точек i-го класса, | Q | - число точек,

содержащихся в i-м классе, выделенным алгоритмом (/ = 1,3). Результаты применения классификатора Розенблатта - Парзена, разработанного по исходной ОВ, для этих классов следующие: (а) точность: 0.78, 0.59, 1; (б) мера покрытия: 0.96, 0.99, 0.99. На рис. 1б приведены графики зависимости средней точности и средняя мера покрытия, вычисленных по 50 запускам процедуры для каждого p , от параметра p . Из графиков видно, что

предложенный алгоритм обеспечивает высокое качество классификации, а точность классификатора Розенблатта - Парзена, построенного на основе исходной ОВ.

Эксперимент 2. Исследовался фрагмент снимка Караканского бора (юг Новосибирской области) размером 547 х 544 элементов разрешения, полученный со спутника LandSat7 в июле 2002 года. Предварительно, с помощью пороговой сегментации по нормализованному вегетационному индексу (NDVI) были отделены не покрытые растительностью территории. Обработка проводилась по четырем каналам (3-5, 7). Для 4 информационных классов («сосновые насаждения», «вырубки», «березовые насаждения» и «смешанный лес») имелась ОВ объемом 3, 1, 3 и 11 элементов

соответственно. Сравнивались результаты работы классификаторов, построенных по V и V . Кластеризация (^min=35, MmaX =45, Г = 1, 7^ =0.5 , кластеры, содержащие менее 0.3% точек, относились в фон)

позволила выделить 21 кластер (фон составил 4.8%). Вмножество £ были добавлены по 200 выбранных случайным образом точек от каждого кластера

—8

групп Г| и Г2. В результате выполнения процедуры наращивания (¿- = 10 ,

у = 0.0005) расширенная ОВ составила 886 точек. Классификатор Розенблатта -Парзена, построенный на основе расширенной ОВ, обеспечил более высокую достоверность распознавания и позволил выделить класссы интереса и дополнительно классы «луг» и «относительно молодые сосновые насаждения». Качество картосхем оценивалось специалистами-дешифровщиками и признано удовлетворительным. Результаты эксперимента для двух фрагментов изображения представлены на рис.2.

Точность Покюытие

Рис. 1. Результаты эксперимента 1: а - проекция исходных данных и ОВ на двумерную плоскость (значками «x», «j » «□» обозначены точки ОВ для классов 1, 4, 5 соответственно, «•» - непомеченные данные); б - зависимость средней точности и средней меры покрытия отзыва от параметра р.

ЗАКЛЮЧЕНИЕ

В докладе предложен непараметрический алгоритм классификации с полуобучением для выделения заданных пользователем классов на

аэрокосмических изображениях. Алгоритм расширяет возможности применения традиционных классификаторов для решения практических задач, в которых обучающая выборка для интересующих классов мала, а для

остальных отсутствует вовсе. Предложенный алгоритм основан на

использовании непараметрических алгоритмов кластеризации и

классификации с полуобучением, результаты которых являются устойчивыми к изменению входных параметров. Это позволяет упростить настройку параметров алгоритма. Приведены результаты экспериментальных исследований алгоритма на модельных и реальных данных, подтверждающие его эффективность.

б

В

г Д

Рис. 2. Исходное изображение с выделенными и увеличенными фрагментами 1 и 2 (а); результаты работы классификатора, построенного по исходной(б, г)

и расширенной(<?, д) ОВ

На фрагментах приведены 8 выделенных классов: 1- территории, не покрытые растительностью; 2- «старовозрастные сосновые насаждения»; 3-«молодые сосновые насаждения»; 4- «смешанный лес»; 5- «береза»; 6-

«луг»; 7- «вырубки»; 8- класс-фон

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Chapelle, O., Scholkopf, B., Zien, A. Semi-Supervised Learning/ O. Chapelle // MIT Press, Cambridge, MA. - 2006.

2. Пестунов, И.А., Куликова, Е.А., Бериков, В.Б., Махатков, И.Д. Сеточный алгоритмкластеризации с использованием ансамблевого подхода к принятию решений / И.А. Пестунов //Горный информационно-аналитический бюллетень. Серия: Отдельный выпуск<Кузбасс 2>. - 2009. - С. 52 - 64.

3. Juszczak P., Duin, R.P. W.Learning from a test set / P. Juszczak// Proc. of 4th Intern. Conf. on Computer Recognition Systems. LNCS, Springer Verlag. - 2005. P.203 - 210.

© E.A. KynuKoea, 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.