УДК 681.518:004.93
DOI: 10.18698/0236-3933-2022-1-100-118
КЛАССИФИКАЦИЯ ГИПЕРСПЕКТРАЛЬНЫХ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ С ИСПОЛЬЗОВАНИЕМ КОМБИНИРОВАННЫХ 3Э-2Э СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ
А.И. Гаврилов М.Ч. До
Л.Т. Ньян
[email protected] [email protected] [email protected]
МГТУ им. Н.Э. Баумана, Москва, Российская Федерация
Аннотация
Ключевые слова
Классификацию гиперспектральных изображений Сверточные нейронные сети, используют для анализа данных дистанционного гиперспектральное изображе-зондирования Земли. Сверточная нейронная сеть — ние, обучение, дистанционное один из наиболее часто используемых методов об- зондирование Земли работки визуальных данных на основе глубокого обучения. Предложена комбинированная спектральная сверточная нейронная сеть для классификации гиперспектральных изображений. На начальном этапе предложена простая комбинированная обученная модель глубокого обучения, которая строится путем объединения 2D и 3D сверточных нейронных сетей для извлечения более глубоких пространственно-спектральных объектов с меньшим числом 3D-2D-сверток. облегчает совместное пространственно-спектральное представление объектов из стека спектральных полос. Для классификации гиперспектральных изображений использованы функции 3D-2D сверточных нейронных сетей. Для уменьшения размерности применен алгоритм метода главных компонент. Эксперименты по классификации изображений гиперспектральных изображений проведены над наборами данных дистанционного зондирования индийских сосен (Indian Pines), университета Павии (University of Pavia) и сцены Салинаса (Salinas Scene). Первый слой карты объектов использован в качестве входных данных для последующих слоев при прогнозировании конечных меток для каждого гиперспектрального пикселя. Предлагаемый метод не только включает в себя преимущества расширен-
ного извлечения признаков из сверточных нейронных сетей, но и полностью использует спектральную и пространственную информацию. Эффективность предложенного метода проверена на трех эталонных наборах данных. Результаты показывают, что основанная на таких сетях многофункциональная систе- Поступила 19.04.2021 ма обучения значительно повышает точность клас- Принята 04.08.2021 сификации (более 99 %) © Автор(ы), 2022
Введение. Компьютерная классификация изображений дистанционного зондирования заключается в выявлении и классификации информации о земной поверхности и окружающей ее среде на снимках дистанционного зондирования в целях выявления характерной информации, соответствующей изображению, и ее извлечения [1]. Гиперспектральные изображения (ГСИ) снимают специализированными дистанционными датчиками на летательном аппарате и собирают из спектральных данных, отраженных наземными объектами в определенном районе Земли. Гиперспектральная визуализация приводит к появлению многочисленных полос изображений, которые затрудняют анализ изображения вследствие увеличенного объема данных [2]. Гиперспектральное изображение — трехмерный куб данных, содержащий двумерную пространственную информацию (объект изображения признаков) и одномерную спектральную информацию (спектральные полосы). Как правило, спектральные полосы встречаются в виде тонких длин волн, в то время как особенности наземного покрова и формы демонстрируют неравенство и ассоциацию между соседними пикселями с различных направлений на определенной длине волны [3].
Иерархическая архитектура сверточных нейронных сетей (СНС) — наиболее эффективный способ изучения визуальных представлений. Такая сеть предлагает потенциал для описания структурных характеристик на высоких уровнях в соответствии с процедурой извлечения иерархических признаков [4, 5]. Фундаментальной проблемой в этих визуальных задачах является моделирование внутриклассового внешнего вида и изменения формы объектов. В настоящей работе предложен новый подход, основанный на глубоком обучении, который использует 3Б-2Б СНС для эффективного использования спектральной и пространственной информации из гиперспектральных данных (рис. 1).
Наборы данных и обучение. Научному сообществу доступно несколько наборов данных, полученных с использованием гиперспектрального датчика. Обычно данные приходят вместе с аннотациями для оценки эффективности классификации. Здесь использованы три набора данных ди-
Карта классификации
Пространственная информация
РСА С^Р
НГСЩ^*^**)
Изучение пространственно-спектральных признаков
1
Изучение пространственных признаков
Рис. 1. Структура предлагаемой комбинированной ЗП-21)-модели
станционного зондирования: 1) индийские сосны (Indian Pines, IP); 2) университет Павии (University of Pavia, PU); 3) сцены Салинаса (Salinas Scene, SA) [6]. Набор данных IP содержит изображения с пространственными размерами 145 х 145 пикселей и 224 спектральными полосами в диапазоне значений длин волн 400.2500 нм, из которых 24 спектральные полосы, охватывающие область поглощения воды, исключены. Набор данных IP имеет 16 классов растительности. Размерность пространственной размерной информации набора данных 610 х 340 пикселей, 103 спектральные полосы в диапазоне значений длин волн 430.8600 нм. Набор данных PU разделен на девять классов городского типа подстилающей поверхности [7-9]. Функция изображения набора данных SA содержит 512 х 217 пикселей и 224 спектральные полосы в диапазоне значений длин волн 360.2500 нм. Из набора данных SA удалены 20 полос, связанных с водой. Эти наборы данных дистанционного зондирования имеют 3D-^6 данных, который состоит из 2D пространственной информации (функции изображения) и 1D спектральной информации (спектральные полосы).
Уменьшение размерности 3D кубических данных. Большие наборы данных и высокие размерности изображения все более распространены и часто трудны для интерпретации. Здесь использован алгоритм анализа главных компонент (PCA) для уменьшения размерности данных 3D-куба. Данные гиперспектральных изображений имеют высокую размерность. Для устранения спектральной избыточности сначала применяют традиционный анализ главных компонент (PCA) по исходным данным ГСИ(/) наряду со спектральными полосами. Гиперспектральные пиксели демонстрируют смешанные классы почвенного покрова, внося высокую внутриклассовую изменчивость и межклассовое сходство в исходные входные данные. Пусть спектрально-пространственный гиперспектральный куб
данных обозначен через I е RM х N х D, где I — исходные входные данные; M — ширина; N — высота; D — число спектральных полос/глубина. Каждый пиксель ГСИ в данных I содержит D спектральных мер и образует вектор метки Y = (y1, y2,..., yc e R1x1xC), где С — категория растительного покрова. Алгоритм анализа главных компонент уменьшает число спектральных полос от D до B, сохраняя при этом те же пространственные размеры (т. е. ширину M и высоту N). Сокращены только спектральные полосы так, что сохраняется пространственная информация, которая очень важна для распознавания любого объекта. Представление уменьшенного куба данных PCA на X е НГСИ (RM х Nх B), где Х — модифици-
рованный входной сигнал после РСА; В — число спектральных полос после РСА.
Для использования методов классификации изображений куб данных ГСИ разделен на небольшие перекрывающиеся ЭБ-патчи, метки истинности которых определяются меткой центрального пикселя. Созданы ЭБ соседние патчи из куба X, Р е Я5 х 5 х В, центрированного в пространственном положении (а, Р), патчи покрывают окно 5 х 5 или пространственный экстент и все спектральные группы В. Общее число генерированных ЭБ-патчей п из X задают через (М - 5 +1)(№ - 5 +1). Таким образом, ЭБ-патч на месте (а, Р) обозначен как Ра, р, охватывает ширину от а -(Б — 1) / 2 до а+ (5 -1)/2, высоту от Р-(5 -1)/2 к Р + (5 -1)/2 и по всем В спектральным полосам РСА уменьшает куб данных X.
После уменьшения размерности раздела РСА сети выдают входные данные с четырех сверточных слоев для получения карты объектов, которая генерируется с использованием ЭБ-свертки по нескольким смежным полосам во входном слое, что захватывает спектральную информацию [10-12]. За 2Б сверточным слоем следует ЭБ сверточный слой для выполнения извлечения объектов из ЭБ-слоя, чтобы создать лучшую карту объектов без преобразования знаков данных ГСИ. 2Б сверточный слой только занимает пространственную информацию. 2Б-сети не могут обрабатывать спектральную информацию:
( У 5 Л
X V ^ 1 V ^ V Р X + ст, у + р , _
у*;? = о к} + Е Е Е Ш,Хм-ъг . (1)
^ т = 1 р = -у ст = -5 )
Уравнение (1) можно рассматривать как 2Б-свертку, которая генерирует
у*ху карту объектов на особенность признака } в пространственном положении (х, у) на г'-м слое путем вычисления суммы точечного произведения входа и 2Б-фильтра:
X, У r*
v- • = G t, j
dl-1 a J 5 , ,, Л
, x-i x-i P> ^ x + y + p, z+Л,
bt,j + E ZEE ®t, j,x vt /
(2)
т = 1 X = -a р = -уст = -5
Уравнение (2) можно рассматривать как ЭБ-свертку, которая может извлекать спектральные и пространственные характеристики представления одновременно из данных ГСИ. Структура предлагаемой комбинированной сети (см. рис. 1) состоит из одной 2Б-свертки (уравнение (1)), трехмерных сверток (уравнение (2)) и трех полносвязных слоев.
В (1) и (2) введены следующие обозначения: G — функция активации; bi, j — параметр смещения (bias) для j-й карты пространственных объектов
/-го слоя; di-i — число объектов на карте на (l - 1)-го слоя; 2у + 1, 25 + 1, 2a +1 — ширина, высота и глубина ядра; Ш/, j — значение весового параметра для j-й карты пространственных объектов /-го слоя. В предлагаемой модели использованы размеры трех сверточных слоев с SD-ядрами свертки. Для сверточных ядер первого слоя SD-размеры содержат восемь узлов, размер ядра 3 х 3 х 3, для второго слоя — 16 узлов, размер ядра 3 х 3 х 5, третьего слоя — 32 узла, размер ядра 3 х 3 х 3, четвертого слоя — 64 узла, размер ядра 3 х 3 х 3. После проведения 3D-сверток применяют один сверточный слой с 2D-ядром, содержащим 64 узла, размер ядра 3 х 3. 2D-слой различает пространственную информацию в различных спектральных диапазонах без значительной потери спектральной информации, что очень важно для данных ГСИ. Слой объединения (max-pooling layer) выполняется после 2D сверточного слоя для фильтрации и уменьшения числа выходов. В предлагаемой модели общее число узлов конечного выходного слоя или плотного слоя зависит от числа классов трех эталонных наборов данных. Например, число узлов в последнем плотном слое равно 16, что соответствует числу классов в наборе данных IP (рис. 2).
Layer (type) Output Shape Param #
input_2 (InputLayer) (None, 21, 21, 30, 1) 0
conv3d_5 (Conv3D) (None, 19, 19, 24, 8) 512
conv3d_6 (Conv3D) (None, 17, 17, 20, 16) 5776
conv3d_7 (Conv3D) (None, IS, 15, 18, 32) 13856
conv3d_8 (Conv3D) (None, 13, 13, 16, 64) 55360
reshape_2 (Reshape) (None, 13, 13, 1024) 0
dropout_5 (Dropout) (None, 13, 13, 1024) 0
conv2d_2 (Conv2D) (None, 11, 11, 64) 589888
max_pooling2d_2 (MaxPooling2 (None, 5, 5 , 64) 0
dropout_6 (Dropout) (None, 5, 5, 64) 0
flatten_2 (Flatten) (None, 1600) 0
dense_4 (Dense) (None, 256) 409856
dropout_7 (Dropout) (None, 256) 0
dense_5 (Dense) (None, 128) 32896
dropout_8 (Dropout) (None, 128) 0
dense_6 (Dense) (None, 16) 2064
Total params: 1,110,208.0 Trainable params: 1,110,208.0 Non-trainable params: 0.0
Рис. 2. Набор параметров комбинированной модели 3Б-2Б СНС для набора данных 1Р и окна размером 21 х 21 пикселей и 30 полос
Постановка эксперимента. Как уже было отмечено выше, использованы три набора ГСИ. После выбора наборов данных выполнено уменьшение размерности исходных данных алгоритмом PCA, затем — уменьшение размерности из предыдущего состояния. Предлагаемая модель содержит четыре сверточных слоя (четыре 3D сверточных слоя и один 2D сверточный слой), слой объединения, выравнивающий слой (flatten layer), два полностью связанных слоя и выходной слой (или плотный). Кроме выходного слоя, во всех слоях добавлена функция активации ReLU. Нелинейность ReLU применена к выходу каждого сверточного и двух полностью связанных слоев. Принятая в работе функция ReLU представляет собой простую нелинейную функцию, которая производит значения 0 или 1, соответствующие положительному или отрицательному входу нейрона. Подтверждено, что функция ReLU может повысить производительность сетей во многих случаях [13]. Классификационная модель Softmax добавлена к выходу последнего полностью подключенного слоя. Для выполнения классификации с изученными репрезентативными признаками к верхнему слою предлагаемой сети применен оператор Softmax. Этот оператор — одна из вероятностных классификационных моделей, которая измеряет корреляцию выходного и эталонного значений с помощью оценки вероятности. Следует отметить, что в конструкции СНС Softmax может быть применен по всем спектральным каналам для всех пространственных местоположений свер-точным способом [14]. Функция потерь (categorical_cross entropy) использована для определения пригодности предложенной модели при достижении заданной цели. Оптимизатор Adam применен для минимизации функции потерь (целей) путем обновления весов с помощью градиентов [15]. По результатам классификации определена оптимальная скорость обучения 0,001. Размер входного окна каждого объекта для трех наборов данных IP, UP и SA, пиксель: 11 х 11; 13 х 13; 15 х 15; 17 х 17; 19 х 19; 21 х 21; 25 х 25 (рис. 3, табл. 1). Чтобы выполнить сравнение, извлекли одно и то же пространственное измерение в 3Б-патчах входного объема для различных наборов данных: 11 х 11 х 30 для IP; 11 х 11 х 15 для PU и SA.
Решение задачи. Для оценки эффективности классификации ГСИ использованы общая (ОТ) и средняя (СТ) точности, а также коэффициент Каппа (КК). Общая точность (рис. 4) представляет собой число правильно классифицированных выборок из общего числа тестовых выборок, СТ — среднее значение точности классификации по классам. Коэффициентом Каппа оценивают результаты деления изображений (учитывает число образцов точек, которые правильно разделены, и число неправильных делений для оценки результатов классификации) [15, 16]. Наборы данных раз-
Ложное Ground 11 x 11 13 x 13 15 x 15 17x 17 19 x 19 21 x21 25 x25 цветное Truth
Рис. 3. Карты классификации по наборам данных IP, PU, SA с использованием окна размерами 11 х 11; 13 х 13; 15 х 15; 17 х 17; 19 х 19;
21 х 21; 25 х 25 предлагаемой модели 3D-2D СНС
деляют случайным образом, например, 30 % обучающих групп и 70 % тестовых (рис. 5). Точности обучения в зависимости от размеров окна для наборов данных SA, PU и IP приведены на рис. 6. Для трех наборов данных СТ более 99 %. Проведено сравнение результатов классификационных карт (см. рис. 3). Использованы методы 1D [8], 2D [9], 3D [10], Hybrid:SN [11] и предлагаемая модель 3D-2D СНС для наборов данных IP, UP и SA (табл. 2). Точности классификации и качество классификационной карты предлагаемой модели (3D-2D СНС) лучше, чем моделей 1D СНС, 2D СНС, 3D СНС, Hybrid:SN (рис. 7). Предлагаемая модель уменьшает погрешность обобщения (переоснащения и недостаточной подгонки) во время обучения и позволяет снизить вес модели. Модель разработана не только для уменьшения переоснащения, но и для быстрой оптимизации модели и лучшей общей производительности, чем модель Hybrid:SN. Модель значительно сократила число параметров (более 4 млн), чем Hybrid:SN. Все эксперименты проведены с исполь-зованием компьютера на базе шестиядерного процессора AMD Ryzen5 с тактовой частотой 3,6 ГГц и графическим процессором GTX 1070 (GPU) с 8 и 32 ГБ оперативной памяти.
Таблица 1
Точность классификации наборов данных 1Р, PU, БЛ в зависимости от размеров окна для предлагаемой модели 30-20 СНС и время обработки обучения tо и тестирования tт
Набор данных Точность классификации предложенной модели t о (за 100 эпох), с tT, с Число параметров
ОТ КК СТ
1Р 91,38 ± 0,6 90,15 ± 0,3 11 х 11 88,56 ± 0,6 « 55,09 » 14,6 716 992
ри 99,93 ± 0,0 99,92 ± 0,0 99,88 ± 0,0 » 85,2 « 53,8 294 201
8А 99,97 ± 0,0 99,96 ± 0,0 99,96 ± 0,0 » 82,8 » 64,2 164 0Э2
1Р 98,22 ± 0,2 97,22 ± 0,2 13 х 13 88,11 ± 0,4 « 74,4 «14,2 716 992
Ри 99,94 ± 0,0 99,93 ± 0,0 99,91 ± 0,0 « 85,8 « 52,5 16Э 129
8А 99,94 ± 0,0 99,93 ± 0,0 99,94 ± 0,0 » 123,6 » 66,2 164 0Э2
1Р 99,38 ± 0,0 99,30 ± 0,0 15 х 15 97,06 ± 0,2 « 128 » 15,4 766 144
Ри 99,96 ± 0,0 99,95 ± 0,0 99,92 ± 0,0 » 133 » 48,6 212 281
8А 99,99 ± 0,0 99,99 ± 0,0 99,99 ± 0,0 » 144,6 » 63,7 21Э 184
1Р 99,20 ± 0,0 99,09 ± 0,0 17 х 17 90,82 ± 0,0 « 210 » 12,8 848 064
Ри 99,94 ± 0,0 99,93 ± 0,0 99,90 ± 0,0 » 180 » 50,4 294 201
8А 100,0 ± 0,0 100,0 ± 0,0 100,0 ± 0,0 » 206,4 » 64,2 295 104
1Р 99,67 ± 0,0 99,61 ± 0,0 19 х 19 99,38 ± 0,0 » 249,6 » 14,9 962 752
Ри 99,94 ± 0,0 99,92 ± 0,0 99,90 ± 0,0 » 254,4 » 54,4 408 889
8А 100,0 ± 0,0 100,0 ± 0,0 100,0 ± 0,0 » 62,4 » 64,2 409 792
1Р 99,86 ± 0,0 99,84 ± 0,0 21 х 21 99,74 ± 0,0 » 325 » 15,3 1 110 208
Ри 99,97 ± 0,0 99,96 ± 0,0 99,92 ± 0,0 «315 « 52,5 556 Э45
8А 100,0 ± 0,0 100,0 ± 0,0 100,0 ± 0,0 « 437 » 64,2 557 248
1Р 99,80 ± 0,0 99,77 ± 0,0 25 х 25 99,37 ± 0,0 » 510 » 19,7 1 50Э 424
Ри 99,99 ± 0,0 99,99 ± 0,0 99,99 ± 0,0 » 141,6 « 55,8 949 561
8А 100,0 ± 0,0 100,0 ± 0,0 100,0 ± 0,0 » 543,4 » 67,2 950 464
О 20
0 20
/Г
0 20
2,5 -
& 2,0 g -
я!'5 -
- Обучение - Утверждение |l,0 © 0,5 - 1 -
-
0 - - -
40 60 а
80 Эпоха
0 20
Обучение Утверждение
1,0
0,8 л '
Рн
5Г
g о,б
40 60 в
80 Эпоха
- Обучение
- Утверждение
1,0
0,8
Л
&
о и 0,6
§
в 0,4
£
© 0,2
0
Утверждение
40 60
б
80 Эпоха
Обучение Утверждение
80 Эпоха
- Обучение
- Утверждение
^хаЧьаА_A^JL^L^w-Jiro^JLv««
40 60
д
80 Эпоха
0 20
40 60
е
80 Эпоха
Рис. 4. Общая точность и функция потерь для трех наборов данных 1Р, 8А и Ри с использованием окна размером 25 х 25 для предлагаемой модели 3Б-2Б СНС
№ Цвет Категория Образец Обучение 70% Тестирование 30% ID СНС 2D СНС 3D СНС Hybrid: SN 3D-2D СНС
1 2 Люцерна 46 32 1+ 100% 97.33% 100% 100% 90%
■■ Кукуруза no till 1428 1000 428 99.60% 94.82% 97.90% 99% 100%
3 4 5 6 7 S 9 Кукурузная мята S30 581 249 99.14% 97,23% 96.39% 100% 100%
Кукуруза 237 166 71 93.20% 99.58% 95.73% 93% 100%
Трава-пастбшце 483 338 145 97.35% 99.59% 97.63% 100% 99 %
Трава деревья 730 511 219 99.30% 99.59% 99.02% 100% 100%
Скошенная трава—пастбище 28 20 8 100« 100 % 85% 100% 100%
Сено валковское 473 335 143 100 4 100 4 93.31% 100% 100%
Овсянка 20 14 6 100»» 100 % 85.71% 83% 100%
10 Соя no till 97! 630 292 99.12% 93 93% 96.62% 99% 100%
11 13 Соя min till 2455 1718 737 97.71% 97,23% 99.53% 100% 100%
Соя чистая 553 + 15 173 97.34% 9S.99% 97.35% 100% 100%
13 14 Пшеница 205 143 62 100 % 100 % 96.60% 100% 100%
■ Леса 1265 335 380 99.77% 99.76% 99.21% 100% 100%
15 16 Здания-Трава-Деревья-Приводы 386 270 116 95.57% 97,93% 100% 98% 100%
Камень—Сталь-Башни 93 65 28 86.36% 98.92% 81.54% 96% 100%
а
№ Цвет Категория С бразе Обуче-ц ние 70% Тестирование 30% 1D СНС 2D СНС 3D СНС Hybrid: SN 3D-2D СНС
1 Зеленые_сорняки_брокколи_1 46 32 14 100 °/о 100 % 100 о/о 100 о/о 100%
2 3 s Зеленые_сорняки_брокколи_2 1428 1000 428 100 о/о 99.92 % 100 о/о 98.41 % 100 0/4,
Под паром 830 581 249 100 о/о 99.65 % 99.86 % 100 о/о 100 0/4,
1 5 ■■ Паровой грубый плуг 237 166 71 100 о/о 99.78 % 99.59 % 100 о/о 100О/4»
■■ Пар гладкий 483 338 145 99.89 % 99.07 % 100 о/о 100 о/о 100 о/о
6 ■■ Стерня пшеницы 730 511 219 100 о/о 99.97 % 100 о/о 98.65 % 100 o/i,
7 ■■ Сельдерей 28 20 8 100 % 99.75 % 100 % 100 % 100 %
S ■■ Винохраднеобученный 478 335 143 99.82 % 94.28 % 99.96 % 100 о/о 100 o/i,
9 Почва виноградника 20 14 6 100 о/о 99.97 % 100 о/о 100 о/о 100 <И>
10 Кукуруза с зелеными сорняками 972 680 292 99.66 % 99.63% 99.97 % 100 о/о 100 0/4,
11 Салат ромэн 4wk 2455 1718 737 100 % 99.91 % 98.66 % 100 о/о 100 0/4,
12 ■Ш Салат ромэн 5шк 593 415 178 100 о/о 100 о/о 100 о/о 99.90 % 100 о/о
1? ш Салат ромэн 6\ук 205 143 62 100 о/о 100 о/о 100 о/о 100 о/о 100 о/о
14 Салат ромэн 7\ук 1265 885 380 99 J 3 % 99.91 % 100 о/о 100 о/о 100 ЧЬ
15 м Виноградные лозы 386 270 116 99.57 % 97.40 % 9921 % 100 о/о 100 0/4,
16 Вертикальная шпалера Виньярда 93 65 28 99.92 % 100 % 100 о/о 100 о/о 100 0/4,
б
№ 1 Категория О бразеи Обуче-1 ние 70% Тестирование 30% ID СНС 2D СНС 3D СНС Hybrid: SN 3D-2D СНС
Асфальт 46 32 1+ 99.70% 99.27% 99.35% 100% 100%
2 Луга 1428 1000 428 99.95% 99.89% 99.92% 100% 100%
3 — Гравий 830 531 249 98.37% 36.79% 97.32% 100% 100%
4 Деревья 237 166 71 99.44% 98.14% 98.55% 100% 100%
5 Окрашенные металлические листы 483 338 145 100% 100% 100% 100% 100%
6 7 Голая почва 730 511 219 100% 99.86% 98.21% 100% 100%
Битум 28 20 3 99.39% 94.52% 99.46% 100% 100%
S Самоблокирующиеся кирпичи 473 335 143 93.33% 98.29% 99.26% 99% 100%
9 Тшж 20 14 6 99.50% 99.85% 98.34% 100% 100%
в
Рис. 5. Сравнение точности методов Ш СНС, 2D СНС, 3D СНС и Hybrid:SN для наборов данных № (а), SA (б) и PU (в)
1,0 0,8
Д
S 0,6
о и tf
Ü 0,4 0,2 0
/—'--
- 11x11
13x13
15x15
17x17
19x19
21x21
25x25
20 40 60 а
80 Эпоха
1,0 0,8
Д
Ö 0,6 о м а*
| 0,4 0,2 0
- гг
11x11
13x13
15x15
17x17
19x19
21x21
25x25
0 20 40 60 80 Эпоха б
Рис. 6. Точность обучения в зависимости от размеров окна для наборов данных 1Р (а), Ри (б) и БЛ (б)
1,0 0,8
й
Ö 0,6
о
№
S 0,4 0,2 0
. „ • V ^
11x11
13x13
15x15
17x17
19x19
21x21
25x25
20 40 60 80 Эпоха в
Таблица 2
Точность классификации по эталонным трем наборам данных (№, PU, SA) с использованием предложенной модели и современных методов глубокого обучения для объема обучающих данных 70 и 10 %
Метод IP PU SA
ОТ КК СТ ОТ КК СТ ОТ КК СТ
Результаты классификации по эталонным трем наборам данных для объема обучающих данных 70 %
1D СНС 99,18 ± 99,06 ± 98,85 ± 99,66 ± 99,55 ± 99,50 ± 99,88 ± 99,87 ± 99,91 ±
± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0
2D СНС 99,76 ± 99,73 ± 99,03 ± 99,49 ± 99,44 ± 99,78 ± 99,90 ± 99,86 ± 99,78 ±
± 0,2 ± 0,5 ± 0,8 ± 0,2 ± 0,5 ± 0,2 ± 0,2 ± 0,1 ± 0,6
3D СНС 98,40 ± 97,89 ± 97,89 ± 98,34 ± 98,90 ± 98,91 ± 98,01± 97,90 ± 97,68 ±
± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0
Hybrid:SN 99,75 ± ± 0,1 99,71 ± ± 0,1 99,63 ± ± 0,2 99,98 ± ± 0,0 99,98 ± ± 0,0 99,97 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0
3D-2D СНС 99,86 ± ± 0,1 99,84 ± ± 0,1 99,44 ± ± 0,2 99,99 ± ± 0,0 99,99 ± ± 0,0 99,99 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0
Окончание табл. 2
Метод IP PU SA
ОТ КК СТ ОТ КК СТ ОТ КК СТ
Результаты классификации по эталонным трем наборам данных для объема обучающих данных 10 %
1D СНС 97,18 ± ± 0,0 - - 99,28 ± ± 0,0 - - 99,56 ± ± 0,0 - -
2D СНС 97,57 ± ± 0,0 97,23 ± ± 0,0 98,46 ± ± 0,0 99,64 ± ± 0,0 99,53 ± ± 0,0 99,74 ± ± 0,0 98,34 ± ± 0,0 98,15 ± 0,0 99,33 ± ± 0,0
3D СНС 82,62 ± 79,25 ± 76,51 ± 94,90 ± 94,90 ± 97,03 ± 85,00 ± 83,20 ± 89,63 ±
± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0 ± 0,0
Hybrid:SN 98,39 ± ± 0,0 98,16 ± ± 0,0 98,01 ± ± 0,0 99,72 ± ± 0,0 99,64 ± ± 0,0 99,20 ± ± 0,0 99,98 ± ± 0,0 99,98 ± ± 0,0 99,98 ± ± 0,0
3D-2D СНС 98,26 ± ± 0,0 98,02 ± ± 0,0 98,03 ± ± 0,0 99,74 ± ± 0,0 99,66 ± ± 0,0 99,27 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0 100,0 ± ± 0,0
Ложное цветное
Ground Truth
1DCHC
3D СНС Hybrid: SN 3D-2D CHC
2БСНС в
Рис. 7. Классификационные карты для набора данных 1Р (а), Ри (б), БА (в) с использованием различных сверточных нейронных сетей (Ш, 2Э, ЭЭ, НуЬп&БК, ЭЭ-2Э СНС)
В работе реализованы следующие глубокие методы обучения с различными типичными структурами сверточных нейронных сетей (Ш, 20 и 3Б СНС, НуЬп&БЫ, модель 3Б-2Б СНС) и проведено сравнение эффективности вычислительной точности (рис. 8). Установлено, что размер окна 21 х 21 наиболее удобен для классификации ГСИ по наборам данных.
Рис. 8. Точность обучения в зависимости от методов обучения н о 6 для наборов данных 1Р (а), Ри (б) и БА (в)
Комбинированная модель 3Б-2Б СНС аналогична НуЬп&БЫ [11], за исключением глубокой сетевой архитектуры (более трех трехмерных слоев), применено четыре модуля регуляризации отсева для уменьшения переобучения и улучшения обобщения глубоких нейронных сетей. Во время обучения использован модуль максимального объединения для уменьшения числа параметров и размеров данных ГСИ.
Заключение. Основная проблема при использовании методов пространственно-спектрального выделения признаков — возможная высокая размерность векторов признаков, применяемых классификатором.
Введена комбинированная 3Б-2Б-модель для классификации ГСИ [18]. Предложенная комбинированная модель объединяет комплементарную информацию пространственно-спектрального и спектрального характера в виде 3D- и 2Б-сверток. Эксперименты, проведенные над тремя эталонными наборами данных (см. табл. 2), подтверждают превосходство предложенного метода. Согласно изложенному, такая СНС имеет больше преимуществ по сравнению с другими традиционными методами глубокого обучения с позиции визуальных классификационных карт и количественных результатов (см. рис. 7). Предложенная модель 3D-2D СНС более эффективна по вычислительной точности, чем 1D СНС, 2D СНС, 3D СНС и Hybrid:SN.
ЛИТЕРАТУРА
[1] Camps-Valls G., Tuia D., Bruzzone L., et al. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods. IEEE Signal Process. Mag., 2014, vol. 31, iss. 1, pp. 45-54. DOI: https://doi.org/10.1109/MSP.2013.2279179
[2] Tun N.L., Gavrilov A., Tun N.M., et al. Hyperspectral remote sensing images classification using fully convolutional neural network. IEEE ElConRus, 2021.
DOI: https://doi.org/10.1109/ElConRus51938.2021.9396673
[3] Liang H., Li Q. Hyperspectral imagery classification using sparse representations of convolutional neural network features. Remote Sens., 2016, vol. 8, no. 2, art. 99.
DOI: https://doi.org/10.3390/rs8020099
[4] Tun N.L., Gavrilov A., Tun N.M., et al. Remote sensing data classification using a hybrid pre-trained VGG16 CNN-SVM classifier. IEEE ElConRus, 2021.
DOI: https://doi.org/10.1109/ElConRus51938.2021.9396706
[5] Tun N.L., Gavrilov A., Tun N.M. Multi-classification of satellite imagery using fully convolutional neural network. IEEE ICIEAM, 2020.
DOI: https://doi.org/10.1109/ICIEAM48468.2020.9111928
[6] Liu S., Luo H., Tu Y., et al. Wide contextual residual network with active learning for remote sensing image classification. IGARSS, 2018.
DOI: https://doi.org/10.1109/IGARSS.2018.8517855
[7] Tun N.L., Gavrilov A., Tun N.M. Facial image denoising using convolutional autoencoder network. IEEE ICIEAM, 2020.
DOI: https://doi.org/10.1109/ICIEAM48468.2020.9112080
[8] Zhang H., Meng L., Wei X., et al. 1D-convolutional capsule network for hyperspectral image classification. Computer Vision and Pattern Recognition.
URL: https://arxiv.org/abs/1903.09834
[9] Gao Q., Lim S., Jia X. Hyperspectral image classification using convolutional neural networks and multiple feature learning. Remote Sens., 2018, vol. 8, no. 2, art. 299. DOI: https://doi.org/10.3390/rs10020299
[10] Ahmad M. A fast 3D CNN for hyperspectral image classification. Image and Video Processing. URL: https://arxiv.org/abs/2004.14152
[11] Roy S.K., Krishna G., Dubey S.R., et al. HybridSN: exploring 3-D-2-D CNN feature hierarchy for hyperspectral image classification. IEEE Geosci. Remote Sens. Lett., 2020, vol. 17, iss. 2, pp. 277-281. DOI: https://doi.org/10.1109/LGRS.2019.2918719
[12] He M., Li B., Chen H. Multi-scale 3D deep convolutional neural network for hyperspectral image classification. IEEE ICIP, 2017, pp. 3904-3908.
DOI: https://doi.org/10.1109/ICIP.2017.8297014
[13] Mou L., Ghamisi P., Zhu X.X. Unsupervised spectral-spatial feature learning via deep residual conv-deconv network for hyperspectral image classification. IEEE Trans. Geosci. Remote Sens., 2018, vol. 56, iss. 1, pp. 391-406.
DOI: https://doi.org/10.1109/TGRS.2017.2748160
[14] Paoletti M.E., Haut J.M., Fernandez-Beltran R., et al. Capsule networks for hyperspectral image classification. IEEE Trans. Geosci. Remote Sens., 2019, vol. 57, iss. 4, pp. 2145-2160. DOI: https://doi.org/10.1109/TGRS.2018.2871782
[15] Ji S., Xu W., Yang M., et al. 3D convolutional neural networks for human action recognition. IEEE Trans. Pattern Anal. Mach. Intell., 2013, vol. 35, iss. 1, pp. 221-231. DOI: https://doi.org/10.1109/TPAMI.2012.59
[16] Lv W., Wang X. Overview of hyperspectral image classification. J. Sens., 2020, vol. 2020, art. ID 4817234. DOI: https://doi.org/10.1155/2020/4817234
[17] Song W., Li S., Fang L., et al. Hyperspectral image classification with deep feature fusion network. IEEE Trans. Pattern Anal. Mach. Intell., 2018, vol. 56, iss. 6, pp. 31733184. DOI: https://doi.org/10.1109/TGRS.2018.2794326
[18] Congalton R.G., Mead R.A. A quantitative method to test for consistency and correctness in photointerpretation. Photogramm. Eng. Remote Sensing, 1983, vol. 49, no. 1, pp. 69-74.
Ньян Линн Тун — аспирант кафедры «Системы автоматического управления» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
Гаврилов Александр Игоревич — канд. техн. наук, доцент кафедры «Системы автоматического управления» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
До Минь Чиеу — аспирант кафедры «Системы автоматического управления» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
Просьба ссылаться на эту статью следующим образом:
Ньян Л.Т., Гаврилов А.И., До М.Ч. Классификация гиперспектральных данных дистанционного зондирования Земли с использованием комбинированных 3D-2D сверточных нейронных сетей. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2022, № 1 (138), с. 100-118.
DOI: https://doi.org/10.18698/0236-3933-2022-1-100-118
CLASSIFICATION OF HYPERSPECTRAL REMOTE EARTH SENSING DATA USING COMBINED 3D-2D CONVOLUTIONAL NEURAL NETWORKS
L.T. Nyan [email protected]
A.I. Gavrilov [email protected]
M.T. Do [email protected]
Bauman Moscow State Technical University, Moscow, Russian Federation
Abstract
Hyperspectral image classification is used for analyzing remote Earth sensing data. Convolutional neural network is one of the most commonly used methods for processing visual data based on deep learning. The article considers the proposed hybrid 3D-2D spectral convolutional neural network for hyperspectral image classification. At the initial stage, a simple combined trained deep learning model was proposed, which was constructed by combining 2D and 3D convolutional neural networks to extract deeper spatial-spectral features with fewer 3D-2D convolutions. The 3D network facilitates the joint spatial-spectral representation of objects from a stack of spectral bands. Functions of 3D-2D convolutional neural networks were used for classifying hyperspectral images. The algorithm of the method of principal components is applied to reduce the dimension. Hyperspectral image classification experiments were performed on Indian Pines, University of Pavia and Salinas Scene remote sensing datasets. The first layer of the feature map is used as input for subsequent layers in predicting final labels for each hyperspectral pixel. The proposed method not only includes the benefits of advanced feature extraction from con-volutional neural networks, but also makes full use of spectral and spatial information. The effectiveness of the proposed method was tested on three reference data sets. The results show that a multifunctional learning system based on such networks significantly improves classification accuracy (more than 99 %)
Keywords
Deep learning, convolutional neural networks, hyperspectral image classification
Received 19.04.2021 Accepted 04.08.2021 © Author(s), 2022
REFERENCES
[1] Camps-Valls G., Tuia D., Bruzzone L., et al. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods. IEEE Signal Process. Mag., 2014, vol. 31, iss. 1, pp. 45-54. DOI: https://doi.org/10.1109/MSP.2013.2279179
[2] Tun N.L., Gavrilov A., Tun N.M., et al. Hyperspectral remote sensing images classification using fully convolutional neural network. IEEE ElConRus, 2021.
DOI: https://doi.org/10.1109/ElConRus51938.2021.9396673
[3] Liang H., Li Q. Hyperspectral imagery classification using sparse representations of convolutional neural network features. Remote Sens., 2016, vol. 8, no. 2, art. 99.
DOI: https://doi.org/10.3390/rs8020099
[4] Tun N.L., Gavrilov A., Tun N.M., et al. Remote sensing data classification using a hybrid pre-trained VGG16 CNN-SVM classifier. IEEE ElConRus, 2021.
DOI: https://doi.org/10.1109/ElConRus51938.2021.9396706
[5] Tun N.L., Gavrilov A., Tun N.M. Multi-classification of satellite imagery using fully convolutional neural network. IEEE ICIEAM, 2020.
DOI: https://doi.org/10.1109/ICIEAM48468.2020.9111928
[6] Liu S., Luo H., Tu Y., et al. Wide contextual residual network with active learning for remote sensing image classification. IGARSS, 2018.
DOI: https://doi.org/10.1109/IGARSS.2018.8517855
[7] Tun N.L., Gavrilov A., Tun N.M. Facial image denoising using convolutional autoencoder network. IEEE ICIEAM, 2020.
DOI: https://doi.org/10.1109/ICIEAM48468.2020.9112080
[8] Zhang H., Meng L., Wei X., et al. 1D-convolutional capsule network for hyperspectral image classification. Computer Vision and Pattern Recognition.
Available at: https://arxiv.org/abs/1903.09834
[9] Gao Q., Lim S., Jia X. Hyperspectral image classification using convolutional neural networks and multiple feature learning. Remote Sens., 2018, vol. 8, no. 2, art. 299.
DOI: https://doi.org/10.3390/rs10020299
[10] Ahmad M. A fast 3D CNN for hyperspectral image classification. Image and Video Processing. Available at: https://arxiv.org/abs/2004.14152
[11] Roy S.K., Krishna G., Dubey S.R., et al. HybridSN: exploring 3-D-2-D CNN feature hierarchy for hyperspectral image classification. IEEE Geosci. Remote Sens. Lett., 2020, vol. 17, iss. 2, pp. 277-281. DOI: https://doi.org/10.1109/LGRS.2019.2918719
[12] He M., Li B., Chen H. Multi-scale 3D deep convolutional neural network for hyperspectral image classification. IEEE ICIP, 2017, pp. 3904-3908.
DOI: https://doi.org/10.1109/ICIP.2017.8297014
[13] Mou L., Ghamisi P., Zhu X.X. Unsupervised spectral-spatial feature learning via deep residual conv-deconv network for hyperspectral image classification. IEEE Trans. Geosci. Remote Sens., 2018, vol. 56, iss. 1, pp. 391-406.
DOI: https://doi.org/10.1109/TGRS.2017.2748160
[14] Paoletti M.E., Haut J.M., Fernandez-Beltran R., et al. Capsule networks for hyperspectral image classification. IEEE Trans. Geosci. Remote Sens., 2019, vol. 57, iss. 4, pp. 2145-2160. DOI: https://doi.org/10.1109/TGRS.2018.2871782
[15] Ji S., Xu W., Yang M., et al. 3D convolutional neural networks for human action recognition. IEEE Trans. Pattern Anal. Mach. Intell., 2013, vol. 35, iss. 1, pp. 221-231. DOI: https://doi.org/10.1109/TPAMI.2012.59
[16] Lv W., Wang X. Overview of hyperspectral image classification. J. Sens., 2020, vol. 2020, art. ID 4817234. DOI: https://doi.org/10.1155/2020/4817234
[17] Song W., Li S., Fang L., et al. Hyperspectral image classification with deep feature fusion network. IEEE Trans. Pattern Anal. Mach. Intell., 2018, vol. 56, iss. 6, pp. 31733184. DOI: https://doi.org/10.1109/TGRS.2018.2794326
[18] Congalton R.G., Mead R.A. A quantitative method to test for consistency and correctness in photointerpretation. Photogramm. Eng. Remote Sensing, 1983, vol. 49, no. 1, pp. 69-74.
Nyan L.T. — Post-Graduate Student, Department of Automatic Control Systems, Bau-man Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Gavrilov A.I. — Cand. Sc. (Eng.), Assoc. Professor, Department of Automatic Control Systems, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Do M.T. — Post-Graduate Student, Department of Automatic Control Systems, Bau-man Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Please cite this article in English as:
Nyan L.T., Gavrilov A.I., Do M.T. Classification of hyperspectral remote Earth sensing data using combined 3D-2D convolutional neural networks. Herald of the Bauman Moscow State Technical University, Series Instrument Engineering, 2022, no. 1 (138), pp. 100-118 (in Russ.). DOI: https://doi.org/10.18698/0236-3933-2022-1-100-118