Вычислительные машины и программное обеспечение
УДК 004.932.2:519.254
Л.А. Демидова, Н.И. Нестеров, Р.В. Тишкин ВОЗМОЖНОСТНО-НЕЧЕТКАЯ СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИй
земной поверхности с применением генетических алгоритмов и искусственных нейронных сетей
L.A. Demidova, N.I. Nesterov, R.V. Tishkin
POSSIBILISTIC-FUZZY SEGMENTATION OF EARTH SURFACE IMAGES BY MEANS OF GENETIC ALGORITHMS AND ARTIFICIAL NEURAL NETWORKS
Рассмотрена задача сегментации изображений земной поверхности с применением интеллектуальных информационных технологий. Показана целесообразность применения генетических алгоритмов для получения субоптимальных результатов сегментации изображений с использованием алгоритмов кластеризации в условиях неопределенности. Предложено для уточнения результатов сегментации, полученных с применением алгоритмов кластеризации в условиях неопределенности, использовать инструментарий искусственных нейронных сетей.
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ ЗЕМЛИ; ГИПЕРСПЕКТРАЛЬНАЯ СЪЁМКА; СЕГМЕНТАЦИЯ; КЛАСТЕРИЗАЦИЯ; АЛГОРИТМ НЕЧЕТКИХ С-СРЕДНИХ; ГЕНЕТИЧЕСКИЙ АЛГОРИТМ; ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ.
We have focused on the problem of image segmentation of earth surface using intelligent information technologies. The application expediency of genetic algorithms to receive suboptimum results of the image segmentation on the basis of clustering algorithms under uncertainty has been shown. We have offered to use artificial neural networks to specify segmentation results received on the base of clustering algorithms under uncertainty.
EARTH REMOTE SENSING; HYPER SPECTRAL SHOOTING; SEGMENTATION; CLUSTERING; FUZZY С-MEANS ALGORITHM; GENETIC ALGORITHM; ARTIFICIAL NEURAL NETWORK.
Сегментация изображений — одна из важных задач, решаемых системами дистанционного зондирования Земли, применяется для реализации распознавания сцен и заключается в упрощении описания изображений посредством перехода от представления в виде множества точек к представлению в виде множества классов объектов. Этот переход основан на выделении областей, имеющих схожие визуальные характеристики.
В последнее время особый интерес
представляет решение задачи сегментации гиперспектральных изображений (ГСИ), получаемых от систем дистанционного зондирования Земли в процессе гиперспектральной съемки, предполагающей одновременное формирование сотен и тысяч изображений одной и той же сцены, зафиксированных в очень узких соприкасающихся диапазонах спектра. При этом ГСИ представляется как куб данных, включающий в себя пространственную информацию (2Б) об объекте, дополненную
спектральной информацией (1D) по каждой пространственной координате. Таким образом, каждой точке ГСИ соответствует спектр, полученный в этой точке анализируемой сцены.
Одной из главных задач, возникающих при сегментации ГСИ, является задача распознавания принадлежности тому или иному известному классу выявленных неопределенных зон местности. Как правило, для решения подобных задач распознавания используются технологии, основанные на применении аппарата линейного дискриминантного анализа [1], алгоритма AdaBoost [2], метода опорных векторов [2], инструментария искусственных нейронных сетей [3]. Однако, как показывает анализ, известные на данный момент технологии распознавания неопределенных зон местности являются недостаточно эффективными при решении задачи сегментации ГСИ [4].
В связи с этим можно говорить о целесообразности разработки новой интеллектуальной технологии сегментации ГСИ, основанной на комплексном использовании алгоритмов кластеризации в условиях неопределенности, генетических алгоритмов (ГА) и искусственных нейронных сетей (ИНС).
Так как задача распознавания неопределенных зон местности на ГСИ предполагает проведение анализа данных в условиях неопределенности, то для ее решения обоснованным является использование т. н. алгоритмов кластеризации в условиях неопределенности (в частности, FCM-, PCM- и PFCM-алгоритмов) [4—10], применение которых позволит адекватно разделить спектры различных поверхностей местности, соответствующие материалам искусственного и природного происхождения. При этом совместное использование алгоритмов кластеризации в условиях неопределенности и ГА обеспечит получение субоптимального решения о результатах сегментации, которое в дальнейшем может быть уточнено с использованием инструментария ИНС.
Теоретическая часть. Пусть R — множество точек ГСИ, подлежащих сегментации.
Каждой такой точке соответствует вектор числовых значений спектральных характеристик rt = (г{т;.2, ..., г!), где rtJ — числовое значение j-й спектральной характеристики для i-й точки (i = 1, щ j = 1, l).
В качестве функции расстояния d (г,, rq) в /-мерном пространстве спектральных характеристик может использоваться функция, основанная на вычислении евклидовой метрики:
d(т, rq) = (r j - rj )2. (1)
Поскольку задаче сегментации ГСИ присуща неопределенность, обусловленная невозможностью однозначной классификации изображенных объектов, то целесообразно применять алгоритмы кластеризации, основанные на применении инструментария теории нечетких множеств, реализующие ту или иную интерпретацию неопределенности и допускающие принадлежность точки ГСИ к нескольким кластерам одновременно, что обеспечивает гибкость анализа ГСИ. Наиболее известны такие алгоритмы кластеризации в условиях неопределенности, как алгоритм нечетких с-средних (FCM-алгоритм, fuzzy c-means), алгоритм возможностных с-средних (PCM-алгоритм, possibilistic c-means) и алгоритм возможностно-нечетких с-средних (PFCM-алгоритм, possibilistic fuzzy c-means).
FCM-алгоритм реализует нечеткую интерпретацию неопределенности и является итерационным алгоритмом, вычисляющим-значения функций принадлежности точек ГСИ кластерам и координаты центров кластеров в соответствии со значениями функций принадлежности [6, 8, 11].
FCM-алгоритм выполняет минимизацию целевой функции:
J(U,V) = ±±(щ(гг)Г ■d\vk,r) (2)
k=1 i=1
при
с _
X uk (r) = 1 (се N и с > 1; i = 1, и), (3)
k=1
где U = [wk (r)] — нечеткое с-разбиение множества точек ГСИ R на основе функций принадлежности uk (ri), определяющих сте-
пень принадлежности /-й точки ГСИ к-му кластеру; V = (у1, ..., V ) — центры кластеров; Л(ук,г) — расстояние между центром кластера ук и точкой ГСИ г в соответствии с формулой (1); т — фаззификатор (т е Я, т > 1); с — количество кластеров; п —количество точек ГСИ; / = 1, и; к = 1, с.
Функции принадлежности ик (//■) играют роль весовых коэффициентов, определяя степень принадлежности /-й точки ГСИ к-му кластеру, а также вклад /-й точки ГСИ в оценку координат центра к-го кластера.
БСМ-алгоритм предполагает выполнение следующих шагов [6, 8, 11].
Шаг 1. Инициализация начального нечеткого разбиения и = [ик(г)], удовлетворяющего условию (3).
Ш а г 2. Вычисление координат центров кластеров:
* = ^
I ик (Г У
(4)
I ик (ГГ
Ш а г 3. Вычисление новых значений функций принадлежности:
1
ик(Г ) =
(5)
I
(
л К, Г) л <Л, г)
Ш а г 4. Шаги 2 и 3 повторяются до тех пор, пока не будет выполнено заданное количество итераций я или не будет достигнута заданная точность |/(и, V) - /'(и, V)| < е, где / (и, V), / '(и, V) — значения целевой функции на двух последовательных итерациях.
БСМ-алгоритм не всегда точно оценивает координаты центров кластеров по причине используемого в нем ограничения (3), устанавливающего, что степени принадлежности кластерам для любой -й точки ГСИ в сумме должны давать единицу [5, 7]. Поэтому атипичные точки ГСИ (точки-шумы), расположенные на одинаковом расстоянии от реальных центров кластеров, могут сильно влиять на оценки координат центров кластеров и, следовательно, на окончательный результат кластеризации. Для решения проблемы, связанной с нега-
тивным влиянием атипичных точек ГСИ, следует отказаться от ограничения (3) и модифицировать целевую функцию.
Для уменьшения влияния атипичных точек ГСИ на результаты сегментации может использоваться РСМ-алгоритм [12], реализующий возможностную интерпретацию неопределенности и являющийся итерационным алгоритмом, вычисляющим значения функций типичности точек ГСИ кластерам и координаты центров кластеров в соответствии со значениями функций типичности.
РСМ-алгоритм выполняет минимизацию целевой функции [6, 8, 12]:
/ (Ж, V) = 11К (Г ))т • л 2(ук, г )■ к=1 /=1
+1 -I (1 - ^(г))т,
к=1 ;=1
(6)
где Ж = [кк (г)] — возможностное с-разбие-ние множества точек ГСИ Я на основе функций типичности Кк(г/ ), определяющих степень типичности -й точки ГСИ к-му кластеру; V = (г1, ..., Ус) — центры кластеров; Л(ук,г/ ) — расстояние между центром
кластера Ук
и точкой ГСИ г в соответ-
ствии с формулой (1); т — фаззификатор (т е Я, т > 1); цк (к = 1,с) — «ширина зоны», определяющая расстояние, на котором значение функции типичности точки ГСИ к-му кластеру равно 0,5; с — количество кластеров; п — количество точек ГСИ; / = 1, и; к = 1, с.
В РСМ-алгоритме отбрасывается ограничение (3), что снижает влияние точек-шумов ГСИ, расположенных на равном расстоянии от центров кластеров, на результаты кластеризации.
Функции типичности могут быть вычислены как [6, 8, 12]
К (Г) =-1--, (7)
Л
1 +
2
Лт-1
Пк _
при этом для каждого к-го кластера (к = 1, с) должно выполняться условие:
I ^ (х,.) = 1.
(8)
=1
2
(=1
В РСМ-алгоритме координаты центров кластеров находятся как
I ^ (VУ
I Мк (V)"
(9)
Так как обычно РСМ-алгоритм инициализируется с помощью одного шага ЯСМ-алгоритма, то значения «ширины зоны» (к = 1> с ) могут быть определены как [6, 8, 12]
(
П =
I(ик(п))т • й\ук, П) I(ик(V ))т
V
(10)
Применение РСМ-алгоритма является эффективным, если множество точек ГСИ содержит точки-шумы, что является характерным для ГСИ. Однако применение РСМ-алгоритма может привести к формированию совпадающих кластеров, если центры кластеров (и, следовательно, спектральные характеристики выделяемых классов объектов) близки друг к другу, т. к. функции типичности точек ГСИ некоторому кластеру не зависят от расстояний точек ГСИ до центров других кластеров. В этом случае целесообразным является использование РЯСМ-алгоритма, реализующего одновременный учет свойств кластерной относительности и кластерной типичности точек ГСИ [6, 13].
РЯСМ-алгоритм реализует возмож-ностно-нечеткую интерпретацию неопределенности и является итерационным алгоритмом, вычисляющим значения функций принадлежности (5) и типичности (7) точек ГСИ кластерам, а также координаты центров кластеров в соответствии со значениями функций принадлежности и типичности.
РЯСМ-алгоритм выполняет минимизацию целевой функции [6, 13]:
I (и ,Ж ,¥) = Ц ((ик (V Г +
к=1 /=1
+ К(V)Г') • й2(ук, V) ^ Ш1п,
(11)
множества точек ГСИ Я на основе функций принадлежности ик (V), определяющих степень принадлежности -й точки ГСИ к-му кластеру; Ж = [мк (т{)] — возможност-ное с-разбиение множества точек ГСИ Я на основе функций типичности мк(т/ ), определяющих степень типичности /-й точки ГСИ к-му кластеру; V = (у1з ..., Ус) — центры кластеров; й(vk,v■ ) — расстояние между центром кластера Ук и точкой ГСИ V в соответствии с формулой (1); т и т' — фаз-зификаторы (т,т' е Я; т, т' > 1; обычно т = т' = 2); с — количество кластеров; п — количество точек ГСИ; / = 1, п; к = 1, с.
При реализации РЯСМ-алгоритма координаты центров кластеров находятся как [6, 13]
< = — к п
I ((ик (V ))т + К (V г у*
(12)
I ((ик (V ))т + К (V Г)
где и = [ик (V)] — нечеткое с-разбиение
и для каждой точки ГСИ V (/ = 1, п) должно выполняться ограничение (3), а для каждого к-го (к = 1, с) кластера должно выполняться ограничение (8).
Как и РСМ-алгоритм, РЯСМ-алгоритм обычно инициализируется с помощью одного шага ЯСМ-алгоритма с последующим вычислением значений «ширины зоны» пк (к = 1, с) по формуле (10) [6, 13], а затем осуществляется итерационное уточнение значений функций принадлежности ик (V), функций типичности мО и расчет координат центров кластеров по формулам (5), (7) и (12) соответственно.
РЯСМ-алгоритм предполагает выполнение следующих шагов [6, 13].
Шаг 1. Инициализация начального нечеткого разбиения и = [ик (V)], удовлетворяющего условию (3) с использованием одного шага ЯСМ-алгоритма.
Шаг 2. Вычисление значений «ширины зоны» пк (к = 1, с) в соответствии с формулой (10).
Ш а г 3. Вычисление значений функций принадлежности и типичности в соответствии с формулами (5) и (7).
Шаг 4. Вычисление координат центров кластеров в соответствии с формулой (12).
Ш а г 5. Шаги 3 и 4 повторяют-
/=1
=
к
=1
(=1
ся до тех пор, пока не будет выполнено заданное количество итераций я или не будет достигнута заданная точность |/(и, Ж, V) - I \и, Ж, V)| < е, где I(и, Ж, V), I '(и, Ж, V) — значения целевой функции на двух последовательных итерациях.
При применении алгоритмов кластеризации в условиях неопределенности определяются локально-оптимальные разбиения точек ГСИ на кластеры, описываемые совокупностью функций принадлежности или/и функций типичности, и координаты центров кластеров. Для принятия адекватного решения о результатах кластеризации необходимо многократное выполнение данных алгоритмов при заданном количестве кластеров для различных исходных разбиений точек ГСИ на кластеры [6, 14].
Применение ГА при реализации такого алгоритма кластеризации позволяет значительно сократить время поиска субоптимального разбиения (разбиения, для которого значение функции соответствия ГА, в качестве которой используется, например, целевая функция алгоритма кластеризации, будет минимальным) на кластеры [4—8]. Так как количество кластеров обычно заранее неизвестно, то целесообразно использовать ГА с хромосомой переменной длины, что позволит одновременно найти как самое оптимальное количество кластеров, так и соответствующее ему субоптимальное разбиение на кластеры. При этом хромосому следует кодировать координатами центров всех кластеров [6], в качестве которых в контексте задачи сегментации ГСИ будут выступать спектральные характеристики эталонных классов объектов. Если искомое количество кластеров заранее неизвестно, а ст)п и — минимально и максимально возможное количество кластеров, то длина хромосомы может принимать значения от ст;п • I до стах • I (кратные I), где I — количество спектральных каналов точки ГСИ.
В общем случае хромосома, закодированная координатами центров кластеров, может быть представлена как
я = (V1, г?, ..., у[, ..., V,1, гс2, ..., VI), (13)
где VI — ]-я координата к-го центра кластера; с — количество кластеров; I — количе-
ство спектральных характеристик; к = 1, с; ] = 1,1-
При этом первые I элементов хромосомы соответствуют координатам центра первого кластера, вторые I элементов — координатам центра второго кластера и т. п.
В контексте решения задачи сегментации ГСИ диапазон изменения значения каждого гена (некоторой координаты центра кластера) определяется интервалом
[Лтт, Лтах], ВДе Лтп и Лтах — минимальное
и максимальное значения яркости одного спектрального канала.
При создании начальной популяции хромосом размером О необходимо обеспечить формирование такой популяции, которая содержала бы только «жизнеспособные» хромосомы. В данном случае под «жизнеспособностью» понимается способность хромосомы обеспечить разбиение точек ГСИ на заданное количество кластеров с*. Так как начальная популяция хромосом создается случайным образом, то могут быть сформированы хромосомы, реально обеспечивающие кластеризацию на количество кластеров с, меньшее, чем «назначенное» для данной хромосомы количество кластеров с (с < с *; с . < с * < стах). «Жизнеспособность» популяции хромосом должна поддерживаться и при смене поколений ГА. Использование популяции хромосом, состоящей только из «жизнеспособных» хромосом, позволяет повысить эффективность применения ГА.
При реализации ГА для выбора хромосом-родителей предлагается использовать процедуру вероятностного отбора [3, 6]. В контексте решения задачи сегментации ГСИ следует использовать 3—5 точек скрещивания и мутации ввиду работы с хромосомами существенно большей длины, чем при решении большинства аналогичных задач кластеризации данных, при этом значения коэффициентов скрещивания Яс и мутации Ят следует выбирать из отрезков [0,7; 0,8] и [0,01; 0,02] соответственно [3, 6].
В качестве условия завершения ГА наиболее часто используется условие генерации наперед заданного количества поколений Ж Однако могут применяться и другие
условия завершения, в частности, условие сходимости «среднего здоровья» популяции к «лучшему (максимальному) здоровью» популяции, под которыми в данном случае понимаются соответственно усредненная сумма значений функций соответствия хромосом текущей популяции и значение функции соответствия лучшей (первой) хромосомы, являющееся минимальным в текущей популяции хромосом. В связи с тем, что могут использоваться различные условия завершения (продолжения) ГА, в дальнейшем при описании шагов реализации ГА будет говориться об этих условиях в общем виде.
В качестве функции соответствия ГА обычно выбирается целевая функция алгоритма кластеризации в условиях неопределенности (или сопоставленный этому алгоритму кластеризации показатель кластеризации, например, индекс Се—Бени для FCM-алгоритма) [6].
Комбинированный алгоритм кластеризации, реализующий совместное использование одного из алгоритмов кластеризации в условиях неопределенности и ГА, обеспечивает поиск субоптимального разбиения на кластеры и может быть описан следующей последовательностью шагов [6].
Шаг 1. Для формирования начальной популяции хромосом размером G выполняется один шаг алгоритма кластеризации в условиях неопределенности (FCM-, PCM-или PFCM-алгоритма).
Шаг 2. При выполнении условия продолжения ГА осуществляется один шаг ГА с реализацией операций скрещивания и мутации и вычислением значений функции соответствия для хромосом популяции размером (G + Rc ■ G), состоящей из хромосом-родителей и хромосом-потомков.
Шаг 3. Для популяции размером (G + RcG) выполняется один шаг алгоритма кластеризации в условиях неопределенности (FCM-, PCM- или PFCM-алгоритма) с вычислением значений функций принадлежности (или/и функций типичности) точек ГСИ центрам кластеров и координат центров кластеров. Затем осуществляется уточняющий пересчет значений функций принадлежности (или/и функций типично-
сти) точек ГСИ центрам кластеров и вычисление значений функции соответствия.
Ш а г 4. Из расширенной популяции хромосом размером (20 + Яс0), полученной путем объединения популяции размером 0 предыдущего поколения и популяции размером (О + 1{с0) текущего поколения, удаляются «нежизнеспособные» (О + 1{с0) хромосом с худшими (максимальными) значениями функции соответствия. Если выполняется условие продолжения ГА, осуществляется переход к шагу 2. Если выполняется условие завершения ГА, то работа ГА завершается и осуществляется переход к шагу 5.
Ш а г 5. Выбирается лучшая хромосома, которая минимизирует функцию соответствия. В качестве искомых координат центров кластеров берутся координаты центров кластеров, соответствующие лучшей хромосоме. В качестве искомых степеней принадлежности (или/и степеней типичности) точек ГСИ центрам кластеров полагаются степени принадлежности (или/и степени типичности) точек ГСИ центрам кластеров, соответствующие лучшей хромосоме.
Как показывают экспериментальные исследования, совместное использование алгоритма кластеризации в условиях неопределенности и ГА позволяет получить адекватные субоптимальные результаты кластеризации точек ГСИ с приемлемыми временными затратами.
По результатам экспериментальных исследований установлено, что в контексте решения задачи сегментации ГСИ при совместном применении алгоритмов кластеризации в условиях неопределенности и ГА в большинстве случаев для обеспечения нахождения субоптимального решения с приемлемыми временными затратами целесообразно работать с популяцией размером в 40—60 хромосом при смене 500—1000 поколений.
Сегментация точек ГСИ с использованием рассмотренных алгоритмов кластеризации в условиях неопределенности основана на предположении, что кластеры, образуемые точками ГСИ, имеют гиперсферическую форму или форму, близкую к ней. Поскольку в реальности кластеры
могут иметь произвольную форму, а в анализируемых данных могут присутствовать точки-шумы, то полученные с помощью того или иного алгоритма кластеризации в условиях неопределенности (БСМ-, РСМ-или РБСМ-алгоритма) результаты сегментации, даже если они признаны удовлетворительными, могут содержать те или иные ошибки относительно кластерной принадлежности некоторых точек ГСИ (не говоря уже о возможных погрешностях оценки координат центров кластеров).
В связи с этим целесообразно использовать алгоритмы уточнения результатов сегментации, полученных с помощью алгоритмов кластеризации в условиях неопределенности, для разработки которых предлагается использовать ИНС, хорошо зарекомендовавшие себя в качестве универсальных аппроксиматоров при решении различных прикладных задач.
В контексте задачи уточнения результатов сегментации предлагается на основе уже имеющихся данных о принадлежности точек ГСИ к некоторому кластеру сформировать обучающую выборку данных, выбрав в каждом кластере 50 % точек ГСИ, наиболее близко расположенных к центру кластера. Принадлежность к кластеру для таких близко расположенных к центру кластера точек ГСИ полагается эталонной. Обучив ИНС на выборке точек ГСИ, чья принадлежность к своим кластерам является эталонной, и, оценив весовые коэффициенты ИНС, можно выполнить уточнение принадлежности к кластерам для других точек ГСИ, не попавших в обучающую выборку.
При разработке ИНС предлагается использовать нейронную сеть с тремя или более слоями [3]. Использование скрытых слоев вызвано необходимостью более точного приближения набора сигналов на входе множеству сигналов на выходе. При этом увеличение количества скрытых слоев позволяет выделить статистические закономерности высших порядков. Количество входных и выходных нейронов в многослойной ИНС соответствует размерностям входного и выходного векторов соответственно.
В контексте задачи уточнения результатов сегментации размерность входного вектора равна количеству спектральных характеристик, а выходного — количеству кластеров. При этом в идеале только один выходной нейрон может иметь значение, равное единице (и именно номер этого нейрона определяет номер искомого кластера принадлежности точки ГСИ), в то время как все остальные выходные нейроны имеют значения, равные нулю. Так как на практике обычно все выходные нейроны имеют значения, отличные от нуля, то номер искомого кластера принадлежности точки ГСИ определяют по номеру выходного нейрона с максимальным вычисленным выходным значением.
Процедура функционирования ИНС может быть описана следующей последовательностью шагов.
Шаг 1. На каждый входной нейрон (вход) ИНС подается определенный сигнал, представляющий собой спектральную характеристику: яркость точки ГСИ в одном из спектральных каналов.
Шаг 2. Входные нейроны ИНС передают их нейронам скрытого слоя.
Ш а г 3. Каждый нейрон скрытого слоя принимает выходные значения с предшествующего слоя и модифицирует их с учетом весовых коэффициентов, которые инициализируются случайным образом и уточняются в процессе обучения.
Шаг 4. Находится сумма скорректированных с учетом весовых коэффициентов значений, на основании которой рассчитывается выходное значение нейрона скрытого слоя с учетом вида функции активации.
Шаг 5. Посчитанные таким образом выходные значения нейронов одного скрытого слоя передаются нейронам следующего скрытого слоя.
Шаг 6. Выходные нейроны последнего (выходного) слоя формируют выход ИНС, который трактуется по правилу «победитель забирает всё», в результате применения которого точка ГСИ, чьи значения спектральных характеристик поданы на вход ИНС, интерпретируется как принадлежащая к кластеру с номером, соответствующим самому возбужденному (имею-
щему максимальное значение) выходному нейрону ИНС.
Данная процедура функционирования ИНС называется прямым ходом и используется для определения выходов ИНС при обучении и при функционировании обученной ИНС.
Во время обучения ИНС необходимо проводить процедуру обратного хода для изменения весов в соответствии с подсчитанным значением ошибки выхода ИНС. Модификация весов выполняется в соответствии с некоторым алгоритмом обучения, обеспечивающим уменьшение ошибки по всем выходам ИНС.
Процесс обучения ИНС в данном случае представляет собой, в частности, процедуру настройки весовых коэффициентов. При этом последовательная настройка весовых коэффициентов осуществляется при использовании данных обучающей выборки и предполагается, что реализуется парадигма обучения с учителем, когда для каждого входного примера известно значение выхода ИНС.
Таким образом, при разработке алгоритмов уточнения результатов сегментации, полученных с помощью алгоритмов кластеризации в условиях неопределенности, для каждой точки ГСИ с некоторыми известными значениями спектральных характеристик, содержащейся в обучающей выборке, должен быть известен номер кластера, которому принадлежит эта точка ГСИ. При этом веса подстраиваются так, чтобы значения выходов ИНС были как можно ближе к требуемым результатам кластеризации.
В частности, обучение ИНС может быть основано на коррекции ошибки между требуемым (обучающим) и реальным выходами сети посредством изменения весов ИНС таким образом, чтобы минимизировать эту ошибку.
Комплексное использование алгоритмов кластеризации в условиях неопределенности, ГА и ИНС при решении задачи сегментации ГСИ позволяет говорить о создании новой интеллектуальной технологии сегментации ГСИ.
Экспериментальные исследования. Апробация предлагаемой интеллектуальной тех-
нологии сегментации ГСИ была выполнена на реальных данных, в качестве которых использовались ГСИ от гиперспектральной аппаратуры Hyperion (220 спектральных каналов), AVIRIS (224 спектральных канала) и Сокол-ГЦП (75 спектральных каналов).
При проведении экспериментальных исследований по оценке ошибок ложных идентификаций точек ГСИ в качестве эталонных изображений использовались изображения, сегментация которых была выполнена экспертом вручную.
При этом для всех рассматриваемых алгоритмов кластеризации в условиях неопределенности были получены результаты, подтверждающие целесообразность использования ГА и ИНС для повышения качества сегментации ГСИ. Однако результаты сегментации с применением PFCM-алгоритма в большинстве случаев оказались несколько лучше (на 3—7 %), результатов сегментации с применением FCM- и PCM-алгоритмов, что объясняется реализацией одновременного сбалансированного учета свойств кластерной относительности и кластерной типичности точек ГСИ. В связи с этим ниже приведен пример, демонстрирующий эффективность использования интеллектуальной технологии сегментации ГСИ, реализующей кластеризацию точек ГСИ именно с применением PFCM-алгоритма.
На рис. 1 приведено цветосинтезиро-ванное изображение размером 550^460 пикселей, полученное на основе ГСИ от датчика AVIRIS. На рис. 2 показаны соответствующие ему результаты ручной сегментации исходного ГСИ. На рис. 3, 4 и 5 приведены соответственно результаты сегментации исходного ГСИ с применением PFCM-алгоритма, результаты сегментации с применением PFCM-алгоритма и ГА, результаты сегментации с применением PFCM-алгоритма, ГА и ИНС. Полученные результаты свидетельствуют о наличии трех кластеров, группирующих точки ГСИ в три класса: вода, растительность и земля (соответствующие трем оттенкам цвета от черного до светло-серого). Значения ошибок ложных идентификаций точек ГСИ с применением PFCM-алгоритма, с применением PFCM-алгоритма и ГА, с применением
Результаты классификации точек ГСИ
Вариант сегментации Точки ГСИ Точки ГСИ, классифицированные, %
Всего Классифицированные
верно ошибочно верно ошибочно
РБСМ-алгоритм 253 000 217 148 35 852 85,83 14,17
РБСМ-алгоритм и ГА 253 000 224 961 28 039 88,92 11,08
РБСМ-алгоритм, ГА и ИНС 253 000 230 663 22 337 91,17 8,83
РБСМ-алгоритма, ГА и ИНС приведены ляет существенно снизить значения оши-
в таблице, из которой видно, что комбинирование РБСМ-алгоритма с ГА, а затем использование ИНС для уточнения полученных результатов кластеризации позво-
бок ложных идентификаций точек ГСИ.
В данном примере использование именно РБСМ-алгоритма позволило получить более высокое качество сегментации (ко-
Рис. 1. Цветосинтезированное изображение района от датчика АУТЯК
Рис. 3. Сегментация с применением РБСМ-алгоритма
Рис. 2. Результаты ручной сегментации изображения
Рис. 4. Сегментация с применением РБСМ-алгоритма и ГА
Рис. 5. Сегментация с применением PFCM-алгоритма, ГА и ИНС
личество ошибочно классифицированных точек ГСИ с использованием интеллектуальной технологии сегментации ГСИ с применением PFCM-алгоритма оказалось на 4 и 2 % меньше, чем с применением FCM-и PCM-алгоритмов соответственно).
Тем не менее, несмотря на полученные для данного ГСИ результаты, нельзя однозначно говорить о явном преимуществе PFCM-алгоритма перед FCM- и PCM-алгоритмами. Как показывают экспериментальные исследования, в каждом конкретном случае при сегментации того или иного ГСИ «лучшим» в смысле обеспечения более высокого качества сегментации может оказаться любой из трех рассмотренных алгоритмов кластеризации в условиях неопределенности (FCM-, PCM- или PFCM-алгоритм), что может быть объяснено невозможностью точного
априорного выявления кластерных свойств (в частности, свойств кластерной относительности и кластерной типичности), присущих большинству точек анализируемого ГСИ. В связи с этим целесообразным является применение кластерных ансамблей [4, 15], обеспечивающих высококачественную консолидацию частных результатов сегментации ГСИ, полученных с применением алгоритмов кластеризации в условиях неопределенности (FCM- , PCM- и PFCM-алгоритмов), ГА и ИНС.
Результаты экспериментальных исследований подтверждают эффективность интеллектуальной технологии сегментации ГСИ, основанной на комплексном использовании одного из алгоритмов кластеризации в условиях неопределенности, ГА и ИНС, и позволяют говорить о перспективности дальнейшей проработки предложенного подхода к сегментации ГСИ.
По результатам выполненных исследований предлагается использовать интеллектуальную технологию сегментации ГСИ, реализующую:
применение к ГСИ алгоритмов кластеризации в условиях неопределенности (FCM- , PCM- и PFCM-алгоритмов) совместно с соответствующими ГА, позволяющими получить субоптимальные результаты кластеризации с приемлемыми временными затратами;
уточнение полученных с применением алгоритмов кластеризации в условиях неопределенности (FCM- , PCM- и PFCM-алгоритмов) результатов сегментации посредством использования алгоритмов, основанных на применении ИНС.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин л.Д. Прикладная статистика. Классификации и снижение размерности. М.: Финансы и статистика, 1989. 607 с.
2. Вьюгин В.В. Элементы математической теории машинного обучения: учеб. пособие. М.: Изд-во МФТИ, 2010. 252 с.
3. Рутковская Д., Пилиньский М., Рутков-ский л. Нейронные сети, генетические алгоритмы, нечеткие системы: Пер. с польск. И.Д. Рудинского. М.: Горячая линия — Телеком,
2004. 452 с.
4. Демидова л.А., Тишкин Р.В., Юдаков А.А.
Разработка ансамбля алгоритмов кластеризации на основе матриц подобия меток кластеров и алгоритма спектральной факторизации // Вестник Рязанского государственного радиотехнического университета. 2013. № 4-1 (46). С. 9-17.
5. Демидова л.А., Кираковский В.В. Методы кластеризации обьектов на основе нечетких множеств второго типа и генетического алгоритма // Научно-технические ведомости СПбГПУ.
Информатика. Телекоммуникации. Управление. 2008. № 6 (69). С. 136-142.
6. Демидова л.А., Кираковский В.В., Пыль-кин А.Н. Принятие решений в условиях неопределенности. М.: Горячая линия — Телеком, 2012. 288 с.
7. Демидова л.А., Коняева Е.И. Кластеризация объектов с использованием БСМ-алгоритма на основе нечетких множеств второго типа и генетического алгоритма // Вестник Рязанского государственного радиотехнического университета. 2008. № 26. С. 46—54.
8. Демидова л.А., Нестеров Н.И., Тишкин Р.В. Сегментация спутниковых изображений с применением аппарата теории нечетких множеств // Вестник Рязанского государственного радиотехнического университета. 2012. № 3(41). С. 11—17.
9. Демидова л. А., Титов С.Б. Подход к проблеме нечеткой кластеризации в условиях неопределенности выбора целевой функции // Вестник Рязанского государственного радиотех-
нического университета. 2009. № 29. С. 54—60.
10. Тишкин Р.В. Мягкие вычисления в задачах сегментации космических изображений // Цифровая обработка сигналов. 2010. № 3. С. 25-29.
11. Bezdek J.C., Ehrlich R., Full W. FCM: Fuzzy C-Means Algorithm // Computers and Geoscience. 1984. No. 2. Vol. 10. Pp. 191-203.
12. Bezdek J.C., Keller J.M., Pal N.R., Pal K.
A Possibilistic Fuzzy c-Means Clustering Algorithm // IEEE Transactions on Fuzzy Systems. 2005. Vol. 13 (4). Pp. 517-530.
13. Krishnapuram R., Keller J. A possibilistic approach to clustering // IEEE Transactions on Fuzzy Systems. 1993. Vol. 1. Pp. 98-109.
14. леоненков А. Нечеткое моделирование в среде MATLAB и fozzyTECH. СПб.: БХВ-Петербург, 2003. 736 с.
15. Strehl A., Ghosh J. Cluster Ensembles A Knowledge Reuse Framework for Combining Multiple Partitions // J. of Machine Learning Research. 2002. No. 3. Pp. 583-617.
REFERENCES
1. Ayvazyan S.A., Bukhshtaber V.M., Yenyukov
I.S., Meshalkin L.D. Prikladnaya statistika. Klassifikatsii i snizheniye razmernosti. Moscow: Finansy i statistika Publ., 1989, 607 p. (rus)
2. Vyugin V.V. Elementy matematicheskoy teorii mashinnogo obucheniya: uchebnoye posobiye. Moscow: MFTI Publ., 2010, 252 p. (rus)
3. Rutkovskaya D., Pilinskiy M., Rutkovskiy L. Neyronnyye seti, geneticheskiye algoritmy, nechetkiye sistemy, Moscow: Goryachaya liniya — Telekom Publ., 2004, 452 p. (rus)
4. Demidova L.A., Tishkin R.V., Yudakov A.A. Razrabotka ansamblya algoritmov klasterizatsii na osnove matrits podobiya metok klasterov i algoritma spektralnoy faktorizatsii, Vestnik RGRTU. Ryazan, 2013, No. 4, Pp. 9-17. (rus)
5. Demidova L.A., Kirakovskiy V.V. Metody klasterizatsii obyektov na osnove nechetkikh mnozhestv vtorogo tipa i geneticheskogo algoritma, Nauchno-tekhnicheskiye vedomosti SPbGPU. Informatika. Telekommunikatsii. Upravleniye, St. Petersburg: SPbGPU Publ., 2008, No. 6(69), Pp. 136-142. (rus)
6. Demidova L.A., Kirakovskiy V.V., Pylkin A.N. Prinyatiye resheniy v usloviyakh neopredelennosti. Moscow: Goryachaya liniya — Telekom Publ., 2012, 288 p. (rus)
7. Demidova L.A., Konyayeva Ye.I. Klasterizatsiya obyektov s ispolzovaniyem FCM-algoritma na osnove nechetkikh mnozhestv vtorogo tipa i geneticheskogo algoritma, Vestnik RGRTU, Ryazan,
2008, No. 4(26), Pp. 46-54. (rus)
8. Demidova L.A., Nesterov N.I., Tishkin
R.V. Segmentatsiya sputnikovykh izobrazheniy s primeneniyem apparata teorii nechetkikh mno-zhestv, Vestnik RGRTU, Ryazan, 2012. No. 3(41), Pp. 11-17. (rus)
9. Demidova L.A., Titov S.B. Podkhod k probleme nechetkoy klasterizatsii v usloviyakh neopredelennosti vybora tselevoy funktsii, Vestnik RGRTU, Ryazan,
2009. No. 3(29), Pp. 54-60. (rus)
10. Tishkin R.V. Myagkiye vychisleniya v zadachakh segmentatsii kosmicheskikh izobrazheniy, Tsifrovaya obrabotka signalov, 2010, No. 3, Pp. 25-29. (rus)
11. Bezdek J.C., Ehrlich R., Full W. FCM: Fuzzy C-Means Algorithm, Computers and Geoscience, 1984. No. 2, Vol. 10, Pp. 191-203.
12. Bezdek J.C., Keller J.M., Pal N.R., Pal K. A Possibilistic Fuzzy c-Means Clustering Algorithm, IEEE Transactions on Fuzzy Systems, 2005, Vol. 13 (4), Pp. 517-530.
13. Krishnapuram R., Keller J. A possibilistic approach to clustering, IEEE Transactions on Fuzzy Systems, 1993, Vol. 1, Pp. 98-109.
14. Leonenkov A. Nechetkoye modelirovaniye v srede MATLAB i fuzzyTECH, St. Petersburg: BKhV-Petersburg Publ., 2003, 736 p. (rus)
15. Strehl A., Ghosh J. Cluster Ensembles A Knowledge Reuse Framework for Combining Multiple Partitions, Journal of Machine Learning Research, 2002, No. 3, Pp. 583-617.
ДЕмИДовА Лилия Анатольевна — профессор кафедры вычислительной и прикладной математики Рязанского государственного радиотехнического университета, доктор технических наук.
390005, Россия, г. Рязань, ул. Гагарина, д. 59/1. E-mail: [email protected]
DEMIDOVA, Liliya A. Ryazan State Radio Engineering University. 390005, Gagarina Str. 59/1, Ryazan, Russia. E-mail: [email protected]
Нестеров Николай игоревич — инженер кафедры вычислительной и прикладной математики Рязанского государственного радиотехнического университета. 390005, Россия, г. Рязань, ул. Гагарина, д. 59/1. E-mail: [email protected]
NESTEROV, Nikolay I. Ryazan State Radio Engineering University. 390005, Gagarina Str. 59/1, Ryazan, Russia. E-mail: [email protected]
тишкиН Роман валентинович — доцент кафедры вычислительной и прикладной математики Рязанского государственного радиотехнического университета, кандидат технических наук. 390005, Россия, г. Рязань, ул. Гагарина, д. 59/1. E-mail: [email protected]
TISHKIN, Roman V. Ryazan State Radio Engineering University. 390005, Gagarina Str. 59/1, Ryazan, Russia. E-mail: [email protected]
© Санкт-Петербургский государственный политехнический университет, 2014