Научная статья на тему 'Сегментация многоспектральных изображений на основе ансамбля непараметрических алгоритмов кластеризации'

Сегментация многоспектральных изображений на основе ансамбля непараметрических алгоритмов кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
573
120
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТАЦИЯ МНОГОСПЕКТРАЛЬНЫХ ИЗОБРАЖЕНИЙ / НЕПАРАМЕТРИЧЕСКИЕ АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ / АНСАМБЛЕВЫЙ ПОДХОД / MULTISPECTRAL IMAGE SEGMENTATION / NONPARAMETRIC CLUSTERING ALGORITHMS / ENSEMBLE APPROACH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пестунов Игорь Алексеевич, Бериков Владимир Борисович, Синявский Юрий Николаевич

Предложен метод сегментации многоспектральных изображений на основе ансамбля непараметрических алгоритмов; дано теоретическое обоснование метода. Результаты статистического моделирования на модельных данных и реальных изображениях подтверждают эффективность предложенного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пестунов Игорь Алексеевич, Бериков Владимир Борисович, Синявский Юрий Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR MULTISPECTRAL IMAGE SEGMENTATION BASED ON ENSEMBLE OF NONPARAMETRIC CLUSTERING ALGORITHMS

The method for constructing an ensemble of nonparametric clustering algorithms is proposed. Its theoretical substantiation is resulted. Results of the model data and real images confirm the efficiency of the proposed method.

Текст научной работы на тему «Сегментация многоспектральных изображений на основе ансамбля непараметрических алгоритмов кластеризации»

A. A. Novosyolov

PARAMETRIZATION OF MODELS OF CONTROLLED SYSTEMS

The paper describes application of orthogonal series method for construction of controlled systems models under non-parametric uncertainty. A key element of the method is draw of orthogonal expansion length based on observations, in other words, defining parametric structure of the model. The method is demonstrated for estimation of distribution density and regression function. Directions for generalizing onto multi-dimensional case are also presented.

Keywords: distribution density, regression function, orthogonal series, non-parametric estimate.

© Новоселов А. А., 2010

УДК 004.932.2

И. А. Пестунов, В. Б. Бериков, Ю. Н. Синявский

СЕГМЕНТАЦИЯ МНОГОСПЕКТРАЛЬНЫХ ИЗОБРАЖЕНИЙ НА ОСНОВЕ АНСАМБЛЯ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ*

Предложен метод сегментации многоспектральных изображений на основе ансамбля непараметрических алгоритмов; дано теоретическое обоснование метода. Результаты статистического моделирования на модельных данных и реальных изображениях подтверждают эффективность предложенного метода.

Ключевые слова: сегментация многоспектральных изображений, непараметрические алгоритмы кластеризации, ансамблевый подход.

Сегментация является одним из важнейших этапов анализа цифровых изображений [1]. Она заключается в разбиении изображения на сегменты на основе подобия спектральных, текстурных и других характеристик пикселов. Методы сегментации нашли широкое применение во многих прикладных областях, в том числе в дистанционном зондировании Земли (ДЗЗ) [2; 3], интерес к которому в последние годы непрерывно возрастает.

Один из наиболее распространенных подходов к сегментации многоспектральных изображений основан на статистических методах кластеризации [4; 5]. В этом случае задачу кластеризации, как правило, приходится решать при отсутствии каких-либо априорных сведений о числе классов и их вероятностных характеристиках. Для этого наиболее подходящими являются непараметрические алгоритмы, позволяющие получить хорошие результаты при минимальной априорной информации. Их общим недостатком является высокая чувствительность к входным параметрам, что существенно усложняет процесс настройки алгоритма для решения конкретной задачи.

Известно [6-8], что устойчивость решений в задачах кластеризации может быть повышена благодаря формированию ансамбля алгоритмов и построению на его основе коллективного решения. При этом используются результаты, полученные различными алгоритмами либо одним алгоритмом с различными

значениями параметров, по разным подсистемам переменных и т. д. В настоящее время ансамблевый подход является одним из наиболее перспективных направлений в кластерном анализе [9].

В данной работе предложен алгоритм сегментации многоспектральных изображений с использованием ансамбля непараметрических алгоритмов кластеризации, основанных на оценках плотности Розенблатта-Парзена [10; 11]. Для формирования ансамбля используются результаты выполнения непараметрического алгоритма Меа^С (представляющего собой оптимизацию предложенного ранее алгоритма [12]) с различными значениями параметра сглаживания h. Итоговое коллективное решение строится на основе попарной классификации объектов. Дано теоретическое обоснование предложенного алгоритма, приведены результаты статистического моделирования на модельных данных и реальных изображениях, подтверждающие его эффективность.

Непараметрический подход к задаче кластеризации данных ДЗЗ. Предположим, что произведена ^-спектральная съемка участка местности, содержащего N элементов разрешения, тогда результат съемки можно представить в виде множества

X = {х(1) = (х1('),..., хк-) е , г = 1, N}, где х(!) - значение яркости г-го элемента разрешения в ]-м диапазоне спектра (] = 1, к).

* Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта 09-07-12087-офи_м).

Пусть каждый вектор х(1) - реализация к-мерного случайного вектора х, плотность распределения которого /(х), х = (х1,..., хк)е Rk неизвестна и нет какой-либо априорной информации о ее параметрическом виде. В этих условиях для оценивания плотности /(х) в точке х е целесообразно воспользоваться непараметрической оценкой Розенблатта-Парзена (х), определяемой выражением

1 N ( х _ х(г) }

^(х) = Т^Т £ф

мък

V h )

где h - параметр сглаживания; Ф(х) - колоколообразная функция (ядро), удовлетворяющая определенным условиям сходимости [10; 13].

Среди ядер, удовлетворяющих этим условиям, наибольшей популярностью пользуются радиальносимметричные ядра, представимые в виде

ф( х) = ск Ф(|1 х ||2),

где константа ск > 0; ф :[0; да) ^ R - непрерывная функция, удовлетворяющая условиям:

да

ф(0 > 0; ф(/1) > ф(/2), если /1 <|ф(t)dt <да.

0

К таким ядрам относятся, например, ядро Епанеч-никова [13]:

Фе =

1 Ук1(к + 2)(1 -||х||2), если ||х|| < 1,

0,

иначе,

где Vk - объем к-мерного единичного шара и многомерное нормальное ядро;

||х||2

Ф*(х) = (2л)_к/22 .

При использовании радиально-симметричных ядер, оценки неизвестной плотности распределения /(х) и ее градиента V/(х) могут быть записаны ([14]) в виде

Ґ

їм (х) =

М1

-ІФ

2 Л

)

2 ^

х - х

h

)

2с N

^ (х) = (х) = ттк+2 X(х _ х) ф'

ш ,=1

Обозначим y(t) = _ф'(t) = _dф(t) / dt, предполагая, что функция ф(t) дифференцируема Vt е [0; да) за исключением конечного множества точек.

Тогда, согласно [15; 16]

( 2 ^

X - Хі

Ъ

V )

( 2 ^

X - Хі

ъ

V )

- X-

Этот вектор интересен тем, что его направление совпадает с направлением градиента оценки плотности / (х) в точке х.

Итерационную процедуру, заключающуюся в переходе от х0 е Rk к х0 = х0 + ть (х0), затем от х^ к

2 1 / 1 \ * х0 = х0 + тк (х0) и т. д. до точки х0, для которой

т!г (х0*) = 0, называют алгоритмом среднего сдвига. Доказано [14], что эта процедура сходится к локальным максимумам (модам) плотности распределения

/(х). Путь, пройденный от точки х0 до моды х*, будем называть траекторией среднего сдвига и обозначать х0,..., х*^.

Процедура среднего сдвига порождает естественное разбиение множества X на компоненты связности: точки х, и х■ связны, если итеративные процессы

среднего сдвига, начинающиеся с этих точек, сходятся к одной и той же моде. Эта процедура достаточно трудоемка, поэтому ее непосредственное применение ограничено выборками небольшого объема. В работах [17; 18] процедура среднего сдвига применяется не ко всей исходной выборке, а к некоторому ее подмножеству значительно меньшего объема.

В следующем разделе приведено описание быстрого алгоритма кластеризации многоспектральных данных Меа^С (являющегося оптимизацией предложенного ранее алгоритма [12]), в котором стартовое множество точек для запуска процедуры среднего сдвига порождается клеточной структурой данных, формируемой в пространстве спектральных признаков. В этом алгоритме вектор тк (х) и оценка плотности fN (х) вычисляются с использованием финитных радиально-симметричных ядер.

Описание алгоритма MeanSC. Предлагаемый алгоритм опирается на использование двух характерных особенностей многоспектральных данных. Первая из них заключается в ограниченности диапазонов изменения значений спектральных признаков (значения лежат в диапазоне целых чисел от 0 до К _ 1, где К -число уровней квантования видеосигнала, обычно не превышающее 256), а вторая - в высокой частоте повторяемости векторов спектральных яркостей. Повторяемость обусловливается ограниченностью диапазона спектральных яркостей, наличием корреляции между спектральными диапазонами, а также относительной однородностью и достаточной протяженностью природных объектов. Для описания алгоритма Меа^С с параметрами h, е, Т введем следующие определения.

Определение 1. Пусть в точке х* е Rk достигается локальный максимум оценки плотности fN (х). Тогда

пк * _ _

точка х е R связна с х , если процедура среднего сдвига, стартовавшая из х, сходится к х*. В дальнейшем через а* будем обозначать моду плотности, к ко-

вектор среднего сдвига.

с

к

h

торой сойдется процедура среднего сдвига, стартовавшая в а.

Определение 2. Компонентой связности, определяемой локальным максимумом х* ((х*) >е), назовем непустое подмножество точек Q(х*) с X, связных с х*. Точку х е X будем считать «шумом»,

*

если она связна с локальным максимум х0:

(х*) < е. Здесь е > 0 - порог «шума».

Определение 3. Кластером назовем подмножество С с X, которое либо задано одной компонентой связности, либо задано множеством компонент связности С и удовлетворяет условиям:

1) V х е С выполнено Q(х*) е С;

2) V х*, х* таких, что Q(х*), Q(х*) е С существует непрерывная траектория Р с Rk, соединяющая х* и

*

х2, вдоль которой

fN ( х)

in (Л(х*), Л(х*))

> Т. Здесь

тш

Т > 1 - параметр, задаваемый пользователем и отвечающий за уровень детализации результата.

В соответствии с введенными определениями, алгоритм Меа^С можно записать в виде следующей последовательности шагов.

1. Формируем клеточную структуру данных в пространстве спектральных признаков. Для этого разбиваем все пространство значений спектральных признаков [0; К _ 1]1 х.. .х [0; К _ 1]к на гиперкубические клетки со стороной 2h (h - параметр сглаживания). Вводим общую нумерацию клеток (последовательно от одного слоя клеток к другому) и с каждой клеткой связываем набор попавших в нее спектральных векторов из X.

2. Формируем таблицу «весов» векторов множества X. Здесь под «весом» вектора х понимаем число вхождений х в множество X. При обработке спутниковых изображений таблица «весов» позволяет значительно (иногда в несколько десятков раз) сократить объем вычислений при выполнении процедуры среднего сдвига и вычислении оценок плотности распределения.

3. Формируем множество начальных (стартовых) векторов £ для запуска процедуры среднего сдвига. Для каждой клетки, которая содержит векторы из X, вычисляем вектор средних значений по всем точкам, попавшим в эту клетку. Совокупность полученных таким образом векторов образуют множество £.

4. Для каждого вектора 5 е £ находим моду 5* оценки плотности распределения ^ (х), связную с 5. Из найденных мод формируется множество 20 = |5* | 5 е £, /'Ъ1 (5*) > е|. По мере нахождения мод

заполняем множество £ = и {50 = ^..., 5 =

(5,_1),...,5*|, которое содержит все точки,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пройденные при выполнении процедуры среднего сдвига.

5. Связываем каждую точку х е X с ближайшей точкой из множества £, используя для сокращения вычислительных расходов введенную клеточную структуру. В результате множество X разбивается на компоненты связности в соответствии с определением 2.

6. Формируем кластеры из выделенных компонент связности. Если искомая траектория Р, соединяющая

Q(x*) и Q(x*) (определение 3), существует, она, наиболее вероятно, проходит через общую границу Q(x1*) и Q(x2). Поэтому для ее нахождения выбираем точки х е Q(х*) и х2 е Q(х*), расположенные ближе всего к общей границе, и проверяем выполнение условий из определения 3 для

Р = |^х, •••, х*]и[х1, х2]и|^х2,..., х*^. Здесь [х1,х2] -

отрезок прямой, соединяющей точки х и х2. Исходя из определения процедуры среднего сдвига, точка х е Р с наименьшей плотностью находится на отрезке [ х; х2 ]. Точки отрезка проверяем последовательно с шагом h.

Заметим, что благодаря финитности используемого ядра, при вычислении оценки плотности и векторов среднего сдвига достаточно использовать только векторы из клеток, которые являются соседними к клетке, содержащей точку х. Это позволяет значительно уменьшить объем вычислений.

Метод построения коллективного решения. Результаты кластеризации, получаемые с помощью алгоритма Меа^С, являются неустойчивыми к изменению параметра сглаживания h. Известно [6-8], что устойчивость результатов кластеризации может быть повышена путем использования ансамблевого подхода. При этом для построения коллективного решения используются различные принципы. Так, в [7] предлагается принцип максимизации количества взаимной информации, которую разделяет итоговое группиро-вочное решение с исходными кластеризациями. В ряде работ используется принцип, основанный на нахождении согласованной матрицы подобия (или различия) объектов. В данной работе будет использован именно этот принцип; ансамбль предлагается формировать из L частных решений, полученных в результате выполнения алгоритма Меа^С с различными значениями параметра сглаживания h.

Предлагаемый метод построения коллективного решения может быть описан следующим образом.

Пусть с помощью некоторого алгоритма кластеризации ц = ц(9), зависящего от случайного вектора параметров © е 0 (где 0 - некоторое допустимое множество параметров), получен набор частных решений С = {б(1),..., G(l),..., G(L)}, где G(l) - 1-й вариант кластеризации, содержащий М(Г) кластеров.

Обозначим через Н (91) бинарную матрицу Н(91) = {н,у (91)} размерности N х N, которая водится для 1-й группировки, следующим образом:

[0, если объекты отнесены в один кластер,

11, иначе,

где г, ] = 1, ., N, г Ф ].

После построения 1 частных решений можно сформировать согласованную матрицу различий

1 1 н = К), Ни = 1X Ни (91),

і=i

алгоритм ц каждую пару объектов в один и тот же класс либо в разные классы. Определим для каждой пары объектов а и Ь следующую величину:

Ha,b (ц) =

0, если объекты отнесены в один кластер,

1, иначе,

где г,] = 1,...,N . Величина Н^. равна частоте классификации х, и х^ в разные группы в наборе группировок С . Близкое к нулю значение величины означает, что данные объекты имеют большой шанс попадания в одну и ту же группу. Близкое к единице значение этой величины говорит о том, что шанс оказаться в одной группе у объектов незначителен.

После вычисления согласованной матрицы различий, для нахождения коллективного решения будем применять стандартный агломеративный метод построения дендрограммы, который в качестве входной информации использует попарные расстояния между объектами [9]. При этом расстояния между группами будем определять по принципу «средней связи», т. е. как среднее арифметическое попарных расстояний между объектами, входящими в группы. Процесс объединения продолжается до тех пор, пока расстояние между ближайшими группами не превысит заданное пороговое значение Тй. Этот метод является очень привлекательным, потому что он позволяет выделять иерархическую структуру кластеров, которая упрощает процесс интерпретации результатов.

Для исследования свойств предложенного метода формирования коллективного решения рассмотрим его вероятностную модель.

Предположим, что имеется некоторая скрытая (непосредственно ненаблюдаемая) переменная и, которая задает принадлежность каждого объекта к некоторому из М > 2 классов. Каждый класс характеризуется определенным законом условного распределения р(х | и = г) = / (х), г = 1,., М. Рассмотрим

следующую вероятностную модель генерации данных. Пусть для каждого объекта определяется класс, к которому он относится, в соответствии с априорными вероятностями Рг = Р(и = г), г = 1,..., М, где

М

X Рг = 1. Затем в соответствии с распределением

г=1

/г (х) определяется значение х. Указанная процедура проводится независимо для каждого объекта.

Пусть с помощью некоторого алгоритма кластерного анализа ц строится разбиение множества объектов X на М подмножеств. Поскольку нумерация кластеров не играет роли, удобнее рассматривать отношение эквивалентности, т. е. указывать, относит ли

где а, Ь е X, а Ф Ь.

Выберем произвольную пару а и Ь различных объектов выборки.

Пусть Ри = Р(и(а) Ф и(Ь)) - вероятность отнесения объектов к различным классам. Например, при М = 2 указанная вероятность равна

Ри = 1 _ Р(и(а) = 11 а)Р(и(Ь) = 1| Ь) _ Р(и(а) =

= 2 | а)Р(и(Ь) = 2 | Ь) = 1 _]Т /г(а/ЪУ?,

г=1 р(а)р(Ь)

2

где р(ю) = X /г (®)Рг, ю = а, ь.

г =1

Обозначим вероятность ошибки, которую может совершить алгоритм ц при классификации а и Ь через

РДцХ где

Pe» =

PU, если H , (ц) = 0,

[1 _ Ри , если На,ь (Ц) = 1

Легко заметить, что

РеГ(ц) = (1 _ На,ь (ц)) Ри + На,ь (ц)(1 _ Ри ) =

= Ри + (1 _ 2Ри )На,ь (ц).

Алгоритм ц зависит от случайного вектора параметров © е 0 : ц = ц(©). Чтобы подчеркнуть зависимость результатов работы от параметра ©, в дальнейшем будем обозначать НаЬ (ц(©)) = НаЬ (©),

Рег(ц(©)) = Рег(©).

Пусть в результате 1-кратного применения алгоритма ц со случайно и независимо отобранными параметрами 91,..., 91 получен набор решений Н(91),..., Н(91). Для определенности, будем считать, что 1 - нечетно. Коллективным (ансамблевым) решением по большинству голосов будем называть функцию

1 1 1

0, если -X Н (91) < ~,

H(H(0i), ..., H(0Ь)) =

2'

1, иначе.

В рамках описанной модели для предложенного коллективного решения справедливы следующие утверждения [6].

Утверждение 1. Математическое ожидание и дисперсия величины вероятности ошибки для алгоритма ц(©) равны соответственно:

Рет(©) = Pv + (1 - 2Pu )PH,

Var0Per(©) = (1 - 2PV )2 Ph (1 - Ph ), где Ph = P(H (©) = 1).

Обозначим через />ег(©1,..., ©L) случайную функцию, принимающую при фиксированных аргументах значение, равное вероятности ошибки, которую может совершить ансамблевый алгоритм при классификации а и b. Здесь через ©1,..., ©L обозначены статистические копии случайного вектора ©. Рассмотрим поведение вероятности ошибки для коллективного решения.

Утверждение 2. Математическое ожидание и дисперсия величины вероятности ошибки для коллективного решения равны соответственно:

Е©,,.Л Р, (©1.© l ) = Р, + (1 - 2Pu )Ph,l ,

Var©i,. ©l Р. (©i.©l ) = (1 - 2P„ )2 Ph,l (1 - Ph, l ),

г 1 ] = L 2 J '■[ L ]+'

[•] означает целую часть числа.

Воспользуемся следующей априорной информацией об алгоритме кластерного анализа. Будем считать, что ожидаемая вероятность ошибочной классификации Е©Рег(©) < 1/2, т. е. ожидается, что алгоритм ц проводит классификацию с лучшим качеством, нежели алгоритм случайного равновероятного выбора. Из утверждения 1 следует, что выполняется один из двух вариантов: Рн > 1/2 и Ри > 1/2;

Рн < 1/2 и Ри < 1/2. Рассмотрим, для определенности, первый случай.

Утверждение 3. Если Е©Рег(©) < 1/2 и при этом Рн > 1/2 и Ри > 1/2, то при увеличении мощности ансамбля ожидаемая вероятность ошибочной классификации уменьшается, стремясь в пределе к 1 - Ри, а дисперсия величины вероятности ошибки стремится к нулю.

Последнее утверждение позволяет сделать вывод о том, что при выполнении вполне естественных условий использование ансамблевого подхода позволяет улучшить качество кластеризации.

Результаты экспериментальных исследований. В соответствии с описанной выше схемой, разработан и программно реализован на языке программирования C++ ансамблевый алгоритм

EMeanSC(h = {hj,..., hL}, e, T, Td). Здесь hl,..., hL -значения параметра сглаживания; e - порог «шума»; T - порог объединения компонент связности, а Td -параметр дендрограммы.

Ниже приведены результаты нескольких экспериментов на модельных данных и реальных изображениях. Эксперименты 1 и 2 подтверждают эффективность алгоритма для выделения классов сложной формы. Эксперимент 3 демонстрирует возможность разделения пересекающихся классов разной плотности. Эксперимент 4 демонстрирует применение алгоритма для обработки спутниковых изображений. В эксперименте 5 показано влияние параметра Td на

уровень детализации картосхемы.

Эксперимент 1. Использовались двумерные данные, состоящие из 400 точек, сгруппированных в два равновеликих линейно неразделимых класса (рис. 1), имеющих форму бананов (рис. 1, а). Модель построена с помощью инструментария PRTools (PRTools: the Matlab Toolbox for Pattern Recognition -http://www.prtools.org). Результаты кластеризации, построенные по ансамблю из шести элементов, представлены на рис. 1, б. Выделено 2 кластера, содержащих по 200 точек.

Эксперимент 2. Использовались двумерные данные (рис. 2), состоящие из 200 двумерных точек, сгруппированных в два спиралевидных класса по 100 точек (рис. 2, а). Сложность этой модели заключается в том, что плотность точек по мере удаления от центра спирали уменьшается. На рис. 2, б представлены результаты выполнения алгоритма MeanSC с двумя значениями параметра сглаживания. Несложно заметить, что искомые классы оказались раздробленными. Ансамбль, сформированный на основе указанных результатов, успешно выделил кластеры, совпадающие с искомыми классами (рис. 2, в).

гДе PH L = Р | 1ХЯ(01 )

V L l=1

CP (1 - Ph ) ,

* 220— + +

V " • , , • 200— S +++ + + + ++ +

• i о ++#%+ 4 + 4-|-+ 4- "i+4-

ф •. -. :.а: . . * 160— Оо О о <*>о О 4»<х> 50 О +++-^ф+ + +ч++++

.* Л* # ** ..V* о <*><* О ОЛ Оа Л -Нг + + +-Н- # +

•/; .»*.** * . * * . * Ли"' .«V*: \ .• . .4:- * - 140120— <><30 <> .. К * О І++ О ++ + ++#_^ + +

Л-.. ■••Г Г : . :•*/ • , * •!.•*• - 100— + + + + + + +++ ++ , +Ф+ + +4++ fVt + ++ +

. %*■*.* * * * * - 60- О W> ++ + +

* . V # ° о %<**>

- 40- о<>о о&

• * . О V о

1 1 1 1 1 1 1 1 1 1 1 20- 1 1 1 —і 1 1 1— —і 1 1

а б

Рис. 1. Двумерные данные, состоящие из 400 точек: а - исходные данные; б - результат выполнения EMeanSC с параметрами

И = {10; 10,5; 11;11,5; 12; 12,5}, є = 0 , Т = 4, ТЛ = 0,99 (2 кластера)

Рис. 2. Двумерные данные, состоящие из 200 точек: а - исходные данные; б - результаты выполнения алгоритма MeanSC (12, 14 и 12 кластеров соответственно) с параметрами И є {8; 8,5; 9}, є = 0, Т = 5,5; в - результат выполнения алгоритма EMeanSC

с параметрами И = {8; 8,5; 9}, є = 0, Т = 5,5, Т, = 0,999 (2 кластера)

Эксперимент 3. Использовались двумерные данные, состоящие из 3 000 точек (рис. 3), сгруппированных в 3 нормально распределенных класса (рис. 3, а). Большинство кластеризаций, на основе которых формировался ансамбль, содержат достаточно грубые ошибки (дробление и пересечение классов) (рис. 3, б). При этом результаты выполнения ансамблевого алгоритма (рис. 3, в) не содержат грубых ошибок.

Эксперимент 4. Использовался фрагмент снимка Болотнинского района Новосибирской области (размером 500 х 450), полученного со спутника ALOS/ANVIR-2 17 июня 2007 г. (рис. 4). Исследуемый участок ограничен 55°52'14.8'' и 55°55'2.13" северной широты и 83°50'45.41'' и 83°54'51.6'' восточной долготы. Исходный фрагмент представлен на рис. 4, а. Обработка выполнялась по трем спектральным каналам. Обработка производилась на ПК с тактовой частотой 2,4 ГГц (объем оперативной памяти 2 Гб). Время обработки с двумя значениями параметра сглаживания составляет 18 с. Алгоритм выделил пять классов (рис. 4, б).

Эксперимент 5. Использовалось цветное изображение (рис. 5, а) размером 510 х 604 пикселов. Кластеризация выполнялась в цветовом пространстве R х G х В. Каждый кластер соответствовал однород-

ной области на изображении. Срезам дендрограммы, построенной в ходе выполнения алгоритма ЕМеа^С, на уровнях, соответствующих различным значениям параметра Та, соответствуют рис. 5, б-г. Параметр

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

дендрограммы управляет степенью раздробленности получаемых кластеров, что позволяет получить картосхему с необходимым пользователю уровнем детализации.

В работе представлен метод комбинирования ансамблевого и непараметрического подходов для кластеризации изображений, позволяющий повысить качество и устойчивость получаемых результатов. Дано его теоретическое обоснование. В соответствии с этим методом создан алгоритм ЕМеа^С, основанный на непараметрических оценках плотности Розенблат-та-Парзена. Показано, что алгоритм способен разделять кластеры сложной структуры и может быть использован для сегментации многоспектральных изображений.

Заметим, что предложенный метод построения ансамблевых алгоритмов допускает распараллеливание наиболее трудоемких этапов обработки, позволяющее повысить быстродействие при реализации его на многопроцессорных вычислительных системах.

0 50 100 150 200 250 0 50 100 150 200 250 0 50 100 150 200 250

б

Рис. 3. Двумерные данные, состоящие из 3 000 точек: а - исходные данные; б - 3 из 5 элементов ансамбля (19, 8 и 5 кластеров, соответствующих значениям h е {10; 15; 20} );

в - результат выполнения ЕМеап8С с параметрами h = {5; 10; 15; 20; 25}, е = 0, Т = 2,5, Т = 0,75 (3 кластера)

Рис. 4. Фрагмент снимка Болотнинского района Новосибирской области: а - снимок АЬ08; б - результаты выполнения ЕМеап8С с параметрами h = {5; 10; 15}, е = 0, Т = 1,3, ТЛ = 0,5. Выделено 6 кластеров: 1 - песчаные отложения; 2 - березовые и березово-осиновые травяные леса; 3 - луговая и кустарниковая растительность в пойме реки; 4 - сосновые травяные и травяно-кустарничковые леса; 5 - река Обь

Рис. 5. Изображение:

а - исходное изображение; б, в, г - результаты выполнения ЕМеап8С с параметрами И = {5; 7; 9}, є = 0, Т = 1,5, Td = 0,4 (18 кластеров), 0,6 (12 кластеров) и 0,95 (6 кластеров) соответственно

Библиографические ссылки

1. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М. : Техносфера, 2006. С. 812.

2. Dey V., Zhang Y., Zhong M. A review on image segmentation techniques with remote sensing perspective // ISPRS TC VII Symposium - 100 Years ISPRS, Vienna. Austria. July 5-7 2010. IAPRS. Vol. XXXVIII. Part 7A. P. 31-42.

3. Rekik A., Zribi M., Hamida A., Benjelloun1 M. Review of satellite image segmentation for an optimal fusion system based on the edge and region approaches // IJCSNS International Journal of Computer Science and Network 242 Security. 2007. Vol. 7. № 10. P. 242-250.

4. Jain A. K., Duin R. P. W., Mao J. Statistical Pattern Recognition: A Review // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. Vol. 22. № 1. P. 4-37.

5. Clausi D. A. K-means Iterative Fisher (KIF) unsupervised clustering algorithm applied to image texture segmentation // Pattern Recognition. 2002. Vol. 35. № 9. P. 1959-1972.

6. Бериков В. Б. Построение ансамбля деревьев решений в кластерном анализе // Вычислительные технологии. 2010. Т. 15. № 1. С. 40-52.

7. Strehl A., Ghosh J. Clustering ensembles - a knowledge reuse framework for combining multiple partitions // The Journal of Machine Learning Research. 2002. Vol. 38. P. 583-617.

8. Hong Y., Kwong S. To combine steady-state genetic algorithm and ensemble learning for data clustering // Pattern Recognition Letters. 2008. Vol. 29(9). P. 1416-1423.

9. Jain A. K. Data clustering: 50 years beyond K-means // Pattern Recognition Letters. 2010. Vol. 31, Is. 8. P. 651-666.

10. Parzen E. On the estimation of a probability density function and the mode // The Annals of Mathematical Statistics. 1962. Vol. 33. P. 1065-1076.

11. Rosenblatt M. Remarks on some nonparametric estimates of a density function // The Annals of Mathematical Statistics. 1956. Vol. 27. P. 832-837.

12. Пестунов И. А., Синявский Ю. Н. Непараметрический алгоритм кластеризации данных дистанци-

а

в

г

онного зондирования на основе grid-подхода // Автометрия. 2006. Т. 42. № 2. С. 90-99.

13. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятностей и ее применение. 1969. Т. 14. № 1. С. 156-160.

14. Comaniciu D., Meer P. Mean shift: A Robust Approach toward Feature Space Analysis // IEEE Transactions on Pattern Analysis Machine Intelligence. 2002. Vol. 24. № 5. P. 603-619.

15. Fukunaga K., Hosteeler L. D. The estimation of the gradient of a density function, with applications in

patter recognition // IEEE Trasactions on Informational Theory. 1975. Vol. 21. P. 32-40.

16. Cheng Y. Mean shift, mode seeking, and clustering // IEEE Tans. Pattern Analysis and Machine Intelligence. 1995. Vol. 17. P. 790-799.

17. Comaniciu D., Meer P. Distribution Free Decomposition of Multivariate Data // Pattern Analysis and Applications. 1999. Vol. 2. P. 22-30.

18. Freedman D., Kisilev P. Fast Mean Shift by Compact Density Representation // IEEE Conference on Computer Vision and Pattern Recognition. 2009. P. 1818-1825.

I. A. Pestunov, V. B. Berikov, Yu. N. Sinyavskiy

ALGORITHM FOR MULTISPECTRAL IMAGE SEGMENTATION BASED ON ENSEMBLE OF NONPARAMETRIC CLUSTERING ALGORITHMS

The method for constructing an ensemble of nonparametric clustering algorithms is proposed. Its theoretical substantiation is resulted. Results of the model data and real images confirm the efficiency of the proposed method.

Keywords: multispectral image segmentation, nonparametric clustering algorithms, ensemble approach.

© Пестунов И. А., Бериков В. Б., Синявский Ю. Н., 2010

УДК 519.24

А. Н. Сергеев

О НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМАХ ПРИНЯТИЯ РЕШЕНИЙ

Рассматриваются особенности и параметры, влияющие на деятельность организаций, осуществляется постановка задачи моделирования и управления организационной системой. Приводятся математические непараметрические модели организационных систем.

Ключевые слова: организационные системы, управление, измерения, неопределенность, случайные факторы, непараметрическое моделирование, алгоритмы принятия решений.

В понятии «организационная система» используются одновременно два нетривиальных термина: «организация» и «система».

Организация может рассматриваться как процесс либо как сущность [1]. Как процесс организация - это совокупность действий, ведущих к образованию и совершенствованию взаимосвязей между частями целого. Как сущность организация - это целевое объединение под единым началом ресурсов для реализации определенной программы на основании определенных правил и процедур.

Здесь надо отметить, что некоторые организации могут сами являться ресурсами для более крупных структур, в которые они входят. Одним из наиболее важных ресурсов, несомненно, является человеческий.

Термин «система» имеет множество вариантов определений в разной литературе. Рассел Л. Акофф [1] попытался сформулировать «ядро» определения: «Система есть целое, состоящее из двух или более частей, которое удовлетворяет следующим 6 условиям:

- целое обладает одним или более определяющими свойствами или функциями;

- каждая часть в этом множестве может влиять на поведение или свойства целого;

- существует подмножество частей, которое достаточно в одном или нескольких внешних условиях для выполнения определяющей функции целого;

- способ, которым любая существенная часть воздействует на поведение или свойства системы, зависит от поведения или свойств по крайнем мере одной другой существенной части системы;

- воздействие любого подмножества существенных частей на систему в целом зависит от поведения по крайней мере еще одного другого такого подмножества;

- система есть целое, которое не может быть разделено на независимые части без потери ее существенных свойств или функций».

Акофф вводит для ресурса два различаемых свойства-термина: «целенаправленный» и «целеориентированный».

«Некая сущность является целеустремленной, если она может выбирать цели и средства в двух или более разных обстоятельствах» [1]. Если же сущность, имея

i Надоели баннеры? Вы всегда можете отключить рекламу.