Научная статья на тему 'ГЛУБОКАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ СЕМАНТИЧЕСКОМ СЕГМЕНТАЦИИ СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ'

ГЛУБОКАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ СЕМАНТИЧЕСКОМ СЕГМЕНТАЦИИ СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сегментация изображений / архитектура кодер-декодер / глубинная свертка / image segmentation / codec-decoder architecture / deep convolution

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гришкин Валерий Михаилович, Каримов Сардор Илхом Угли

Введение: Семантическая сегментация изображений, получаемых при дистанционном зондировании Земли является достаточно актуальной задачей. В настоящее время эта задача решается с помощью глубоких нейронных сетей. Однако эти сети требуют больших вычислительных затрат, как на этапе обучения, так и при их использовании. Методы: Несмотря на значительное развитие методов и алгоритмов классификации объектов на изображениях, задача сегментации остается частично нерешенной. Отсутствует универсальный и широко принятый подход, лежащий в основе большинства алгоритмов. Общего алгоритма, который бы обеспечивал оптимальную сегментацию для любого изображения, также не существует. Одним из методов повышения производительности такой архитектуры является применение высокопроизводительных кодеров. Для сравнения результатов сегментации было также проведено обучение сети с архитектурой Unet, настроенной на работу с теми же изображениями. Обучение этой сети проводилось на том же наборе данных и с теми же метапараметрами обучения. Результаты: В данной работе предлагается архитектура нейронной сети, позволяющая снизить эти затраты и увеличить точность семантической сегментации спутниковых изображений. Тестирование проводилось на тестовом множестве изображений с использованием обученной нейронной сети. Архитектура основывается на структурах кодер декодер, где в кодере и декодере используются глубинные свертки, существенно уменьшающие вычислительные затраты. В работе приводятся экспериментальные результаты, показывающие эффективность предлагаемой архитектуры.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гришкин Валерий Михаилович, Каримов Сардор Илхом Угли

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEEP NEURAL NETWORK FOR SEMANTIC SEGMENTATION OF SATELLITE IMAGES

Introduction: Semantic segmentation of images obtained from remote sensing of the Earth is a fairly urgent task. Currently, this problem is solved using deep neural networks. However, these networks require large computational costs, both during the training phase and during their use. This paper proposes a neural network architecture that can reduce these costs and increase the accuracy of semantic segmentation of satellite images. Result: The architecture is based on encoder-decoder structures, where deep convolutions are used in the encoder and decoder, which significantly reduces computational costs. The paper presents experimental results showing the effectiveness of the proposed architecture.

Текст научной работы на тему «ГЛУБОКАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ СЕМАНТИЧЕСКОМ СЕГМЕНТАЦИИ СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ»

с1сн: 10.36724/2409-5419-2024-16-3-12-17

ГЛУБОКАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ

ГРИШКИН

Валерий Михаилович 1 КАРИМОВ

Сардор Илхом угли 2

Сведения об авторах:

1 кандидат технических наук, доцент, Санкт-Петербургский государственный университет, г. Санкт-Петербург, Россия,

orciC.org/0000-0002-2080-1898

АННОТАЦИЯ

Введение: Семантическая сегментация изображений, получаемых при дистанционном зондировании Земли является достаточно актуальной задачей. В настоящее время эта задача решается с помощью глубоких нейронных сетей. Однако эти сети требуют больших вычислительных затрат, как на этапе обучения, так и при их использовании. Методы: Несмотря на значительное развитие методов и алгоритмов классификации объектов на изображениях, задача сегментации остается частично нерешенной. Отсутствует универсальный и широко принятый подход, лежащий в основе большинства алгоритмов. Общего алгоритма, который бы обеспечивал оптимальную сегментацию для любого изображения, также не существует. Одним из методов повышения производительности такой архитектуры является применение высокопроизводительных кодеров. Для сравнения результатов сегментации было также проведено обучение сети с архитектурой ипе1, настроенной на работу с теми же изображениями. Обучение этой сети проводилось на том же наборе данных и с теми же метапараметрами обучения. Результаты: В данной работе предлагается архитектура нейронной сети, позволяющая снизить эти затраты и увеличить точность семантической сегментации спутниковых изображений. Тестирование проводилось на тестовом множестве изображений с использованием обученной нейронной сети. Архитектура основывается на структурах кодер - декодер, где в кодере и декодере используются глубинные свертки, существенно уменьшающие вычислительные затраты. В работе приводятся экспериментальные результаты, показывающие эффективность предлагаемой архитектуры.

2 аспирант, Санкт-Петербургский государственный университет,

г. Санкт-Петербург, Россия, КЛЮЧЕВЫЕ СЛОВА: сегментация изображений, архитектура кодер-декодер,

orciC.org/0000-0002-3035-0330 глубинная свертка.

Для цитирования: Гришкин В.М., Каримов С.И. Глубокая нейронная сеть для семантической сегментации спутниковых изображений // Наукоемкие технологии в космических исследованиях Земли. 2024. Т. 16. № 3. С. 12-17. СЫ: 10.36724/2409-5419-2024-16-3-12-17

Введение

Семантическая сегментация изображений представляет собой процесс выделения локальных областей на изображении, соответствующих различным классам объектов. В контексте сегментации изображений дистанционного зондирования Земли (ДЗЗ), этот метод находит применение в различных областях, таких как геоинформатика, георесурсотех-ника, автоматическое создание карт рельефа, градостроительство, анализ землепользования, а также при мониторинге ледовой обстановки, и др.

Несмотря на значительное развитие методов и алгоритмов классификации объектов на изображениях, задача сегментации остается частично нерешенной. Во многих случаях некоторые этапы процесса все еще выполняются операторами вручную, что приводит к значительным временным затратам. Кроме того, отсутствует универсальный и широко принятый подход, лежащий в основе большинства алгоритмов. Общего алгоритма, который бы обеспечивал оптимальную сегментацию для любого изображения, также не существует.

В настоящее время существует множество методов семантической сегментации изображений, основанных на применении сверточных нейронных сетей (CNN). В целом такие методы обеспечивают достаточно хорошую производительность и точность сегментации относительно небольших изображений. При этом различные архитектуры CNN используются для классификации и плотной маркировки этих изображений. Однако эти нейросетевые методы обработки изображений имеют определенные недостатки и далеки от совершенства. Изображения земной поверхности, получаемые со спутников, имеют высокое разрешение, что приводит к большим вычислительным затратам при их сегментации. Таким образом, разработка методов, позволяющих снизить вычислительные затраты и повысить качество сегментации, является достаточно актуальной.

В настоящее время нет четко регламентированных правил реализации структуры CNN - количество слоев, количество и размер карт признаков, размер матриц свертки, выбор алгоритма обучения. При проектировании структуры CNN следует учитывать, что небольшое количество сетевых параметров может снизить точность классификации. Однако большое количество параметров увеличивает вычислительную сложность и не всегда улучшает классификационные возможности сети.

Семантическая сегментация в компьютерном зрении заключается в назначении семантической метки каждой связанной области изображения. Почти все современные архитектуры CNN для сегментации изображений следуют принципам, изложенным в [1]. Основная идея состоит в том, чтобы изменить традиционную классификацию CNN таким образом, чтобы на выходе был не вектор вероятности, а карта вероятности классов. Как правило, стандартная CNN используется в качестве кодировщика, который формирует карты признаков для различных уровней разложения изображения. За кодировщиком следует декодер, который масштабирует карты признаков до исходных пространственных размеров входного изображения. Затем для каждого класса полу-

чается тепловая карта. Глубокие сети семантической сегментации, обычно основаны на принципах полной свертки и архитектурах кодер - декодер [2].

Как правило кодер представляет собой последовательность сверточных слоев с последующей пакетной нормализацией (BN) и выпрямленной линейной функцией активации (ReLU). За блоками свертки следует слой пуллинга. Фактически кодер - это обычная сверточная сеть, обучаемая для классификации входного изображения. Декодер имеет такое же количество слоев и выполняет функцию интерполяции выхода кодера. На последнем уровне декодера, для формирования выходного сегментированного изображения, как правило, используется свертка 1x1с последующей сигмои-дальной функцией активации.

Нейроные сети SegNet [2] и Unet [3], которые показали хорошие результаты в области семантической сегментации изображений, имеют структуру кодер - декодер. Архитектура SegNet основана на сверточных слоях VGG-16 [4]. Особенность этой архитектуры заключается в том, что интерполирующие слои декодера соединены с соответствующими пулинг слоями кодера. При этом, по сохраненным индексам максимальных значений карты признаков из слоя пуллинга кодера, формируется интерполированная карта признаков соответствующего слоя декодера. Таким образом уменьшаются вычислительные затраты при обучении всей сети. Основным достоинствам данной архитектуры является относительно высокая производительность. Однако, на практике они показывают невысокое разрешение карт сегментации и недостаточную точность для изображений высокого разрешения.

В сети Unet, также, как и в сети SegNet, при выполнении пулинга применяется максимизация по области 2*2 пикселя. После прохождения нескольких серий сверточных и субдис-кретизирующих слоев входное изображение преобразуется в абстрактные карты признаков, являющиеся выходами соответствующих кодирующих блоков. Сеть Unet можно рассматривать как модифицированную версию первой, в которой объединяются выходные данные слоев декодера с картами признаков из кодера на том же уровне. При этом интерполяция в слоях декодера производится с помощью транспонированной свертки [5]. Данная архитектура показала существенное повышение точности сегментации изображений различной природы, а также возможность обучаться на небольшом объеме данных. Недостатками Unet, является относительно низкая производительность и большая ресурсоем-кость. Эти недостатки связаны с достаточно сложными и ресурсоемкими архитектурами, применяемых кодеров, таких KaKResNet [6], Inception [7], EfficientNet [8].

Предлагаемый метод

Используемые архитектуры

Изображения, получаемые при дистанционном зондировании Земли, характеризуются высоким разрешением. Средние размеры этих изображений, как правило, составляют даже более чем 2000x2000 пикселей, в то время как большинство CNN рассчитано на входное разрешение 256^256 пикселей.

При пропорциональном разделении исходного изображения на соответствующие фрагменты общее время сегментации возрастает пропорционально количеству фрагментов. Для сегментации изображений больших размеров необходимо, по мере возможности, повышать производительность используемой архитектуры нейронной сети, соблюдая необходимую точность сегментации. Как уже отмечалось, архитектура сети Цпе1 обладает хорошей точностью, поэтому именно эта архитектура и используется далее. Одним из методов повышения производительности такой архитектуры является применение высокопроизводительных кодеров. В настоящее время, одним из таких кодеров является сеть МоЫШе1 [9], которая уменьшает количество используемой памяти для вычислений, сохраняя при этом высокую точность предсказаний. Эта, предварительно обученная, сеть работает даже на мобильных устройствах.

В архитектуре сети используются два типа блоков, показанных на рисунке 1. Первый тип реализует глубинную разделяемую свертку DSW, с применением пакетных нормали-заций и функций активаций Relu. Второй тип представляет собой глубинную свертку с пакетной нормализацией и такой же функцией активации. В основном, в этих блоках используются свертки с шагом равным 1 (stride = 1). Шаг свертки равный двум (stride = 2) применяется для понижения пространственной размерности.

Из сверточных блоков, формируется два типа базовых блоков сверточного уровня. Структура блоков первого и второго типов показана на рисунках 2иЗ. Базовый блок первого типа использует остаточное соединение (residual connection). При этом результат применения ко входу последовательных сверток типа DS и DW суммируется с результатом отдельной глубинной свертки.

stride

_D.G.___

DS

convqlulitm block

ЗяЗ DW convolution

Batch Norma I i/a lion

Rdu act i val ion

Ixl convolution

I

Batch Normalization

D, С»

DW

convoi ut i

stride on

1 block

Ы DW

convolution

Batch

Normalization

[D.G,*

Relu activation

I___

\ d"c.

a)

6)

3S convolution h block

С,

block

"RfllJ

UMlYlHiun

L>w com olutiun block

l.aycr base block 1

C„.=C,

Рис. 2. Структура базового блока сверточного уровня первого типа: Ст, Сои! — количество входных и выходных каналов; С1 - количество каналов глубинной разделяемой свертки, С 2 - количество каналов глубинной свертки

convolution n DW convolution _^ _^ Relu

block block ictivation

Laver base bJock2

Рис. 1. Сверточные блоки: а) блок глубинной разделяемой свертки (DS); б) блок глубинной свертки (DW); D - размерность изображения, Cin, Cout— количество входных и выходных каналов, stride - шаг свертки

Архитектура MobilNet основана на применении глубинной разделяемой свертке DSW (depthwise separable convolution), которая разлагает стандартную свертку на глубинную свертку DW (depthwise convolution) и свертку 1*1, называемую точечной сверткой (pointwise convolution). Стандартная свертка одновременно фильтрует и объединяет входы в новый набор выходов за один шаг. В то время как, глубинная разделяемая свертка выполняется в два этапа.

На первом этапе глубинная свертка применяет один фильтр к каждому входному каналу. На втором этапе точечная свертка объединяет выходные данные с глубинной сверткой. Таким образом разделяемая по глубине свертка разбивает стандартную свертку на два слоя: отдельный слой для фильтрации и отдельный слой для объединения. Такая схема приводит к резкому сокращению вычислений и размера модели.

Рис. 3. Структура базового блока сверточного уровня второго типа: Ст, Сой — количество входных и выходных каналов;

С1 - количество каналов глубинной разделяемой свертки, Сг - количество каналов глубинной свертки

Каждый сверточный слой сети образуется комбинацией этих базовых блоков. На рисунке 4 показана структура сверточного слоя сети, состоящего из базового блока первого типа и N базовых блоков второго типа.

Рис. 4. Сверточный слой сети: Din, Dout - размерности входных и выходных карт признаков; Cin, Cout - входное и выходное количество каналов; Ci - количество каналов базового блока первого типа, Сг, ... Cn+i - количество каналов в соответствующих блоках второго типа

Кодирующая часть сети начинается обычным свёрточ-ным слоем со свёрткой 3x3 и шагом свертки 2, с последую-

щей пакетной нормализацией и использованием максимального пуллинга. Затем следуют несколько сверточных слоев. Каждый такой сверточный слой представляет собой последовательность базовых блоков сверточного уровня (рис. 4). Каждом слой традиционно увеличивает число фильтров и понижает пространственную размерность карт признаков.

В данной работе применяется кодер, состоящий из четырех сверточных слоев. Параметры используемых сверхточных слоев приведены в таблице 1.

Таблица 1

Параметры сверточных слоев кодера

Декодирующая часть сети представляет собой несколько уровней, каждый из которых сначала повышает размерность входной карты признаков и объединяет этот результат с картой признаков, полученной с предыдущего уровня кодера. Затем результат объединения обрабатывается глубинными свертками с применением пакетной нормализации и функции активации Relu. На рисунке 5 показана структура декодирующего слоя сети, используемая в данной работе.

Рис. 5. Структура декодирующего слоя: Din, Dout - размерности входных и выходных карт признаков; Cin, Cout - входное и выходное количество каналов

Для повышения размерности входной карты признаков используется свертка транспонирования, повышающая размерность карты признаков в два раза. При этом количество каналов уменьшается в два раза. Эти изменения позволяют согласовать размерность и количество каналов, с картой признаков, поступающих с предыдущего слоя кодера. После объединения этих карт формируется новая карта признаков, размерность которой соответствует размерности соответствующего слоя кодера, а число каналов равно количеству каналов входа. Эта полученная карта признаков обрабатывается с помощью двух блоков глубинной свертки. Выходом декодирующего слоя является карта признаков, которая подается на следующий слой декодирования.

Входами последнего декодирующего слоя служат карта признаков предпоследнего слоя декодера и входное изображение. Этот слой содержит дополнительную глубокую свертку с числом каналов равным числу классов, распознаваемых на изображении, и сигмоидальной функцией активации. Выходом слоя является «тепловая» карта, представляющая собой сегментированное изображение.

Предварительная обработка

Спутниковые изображения с высоким разрешением слишком велики, чтобы их можно было обработать непосредственно на нейронной сети. Простое уменьшение масштаба исходных изображений приведет к потере точности сегментации. Поэтому первым этапом предварительной обработки является разделение изображений набора данных и соответствующих им масок на фрагменты. При проектировании сети была выбрана размерность входных изображений 512x512 пикселей, которая позволяет с одной стороны уменьшить вычислительные затраты при обучении и использовании сети, а, с другой стороны, обеспечит достаточную точность сегментации. Полученные фрагменты изображений и масок масштабируются до указанной размерности. В данной работе каждое исходное изображение разбивается на16 фрагментов

Каждый цветовой канал фрагмента изображения нормализуется к единичному диапазону. Трехканальные изображения фрагментов масок преобразуется в многоканальные изображения, где каждый канал соответствует тому или иному типу. При этом пиксель каждого канала, соответствующий типу данного канала, кодируется единичным значением, а пиксель, не соответствующий типу канала, кодируется нулем. В результате формируется рабочий набор данных, состоящий из фрагментов изображений и соответствующих им масок.

Экспериментальные результаты

Набор данных

Для обучения сети используется предварительно подготовленный набор данных ЬаМСоуег [10], дополненный размеченными снимками, относящимися к районам Центральной Азии. Набор содержит 1146 спутниковых изображений районов земной поверхности высокого разрешения. Помимо самих изображений в него входят маски, отображающие тип земной поверхности для каждого пикселя соответствующего изображения. В наборе данных присутствуют следующие типы - сельскохозяйственные земли, пастбища, бесплодные земли, здания и сооружения, лесные массивы, водные массивы. Остальные типы поверхности, не входящие в этот перечень, отображаются как неизвестный тип. Маска представляет собой обычное изображение, где значение каждого пикселя кодируется определенным цветом, соответствующим типу поверхности.

Все изображения из исходного набора данных подвергаются предварительной обработке в соответствии с описанной выше процедурой. В результате формируется рабочий набор данных, состоящий из 18336 фрагментов изображений и соответствующих им масок. Полученный рабочий набор разбивается случайным образом на обучающий, валидаци-онный и тестовый наборы данных, которые составляют 60%, 20% и 20% от объема рабочего набора.

Обучение сети

При обучении сети используется метод трансферного обучения. Кодирующая часть сети построена на описанной выше модификации архитектуры МоЫШе!, обученной на

Но- Размер- Размер- Число Число Количе- Количе-

мер ность ность каналов каналов ство бло- ство бло-

слоя входа Din выхода входа выхода ков типа 1 ков типа 2

Dout Cin Cout

1 512 128 3 64 - -

2 128 128 64 256 1 2

3 128 64 256 512 1 3

4 64 32 512 1024 1 5

наборе данных ImageNet [11]. Поэтому начальная инициализация весов кодера производится непосредственно весами этой обученной модели. Веса декодирующей части сети инициализируются случайным и числами. Такой подход позволяет существенно сократить время, затрачиваемое на обучение предлагаемой сети для сегментации спутниковых изображений.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для обучения сети используется функция потерь, основанная на коэффициенте Дайса. Он представляет собой метрику сходства двух множеств и вычисляется следующим образом:

dsc = 2 *(\хПу) / (\x\ + \у\)

где x - предсказанный класс пикселя, ау - истинный класс того же пикселя, полученный из соответствующего канала маски. \ x \ и \ у \ - количество элементов в каждом наборе. Тогда соответствующая функция потерь определяется как

Loss dsc = 1- dsc

Для для итеративного обновления весов сети в процессе обучения используется алгоритм оптимизации Adam [12]. Этот алгоритм является расширением стохастического градиентного спуска. При обучении сети применялся рекомендуемый параметр скорости обучения равный 10 5, а также применялись алгоритмы автоматического уменьшения скорости обучения и ранней остановки обучения, если потери не снижались в течение нескольких эпох. Сеть обучалаась с использованием пакетной нормализации, при этом был экспериментально выбран размер пакета равный 4.

Для сравнения результатов сегментации было также проведено обучение сети с архитектурой Unet, настроенной на работу с теми же изображениями. Обучение этой сети проводилось на том же наборе данных и с теми же метапара-метрами обучения. При этом в процессе обучения сети Unet настраивается около 31,4 миллиона параметров. Обучение предлагаемой сети MbUnet требует настройки 20,6 миллиона параметров. Таким образом, при использовании предлагаемой сети, вычислительные затраты существенно снижаются. На рисунке 6 показаны графики обучения сети Unet и предлагаемой сети MbUnet. Графики показывают, что предлагаемая архитектура MbUnet, позволила повысить точность сегментации на 3%.

2 3 4 5 End of Epoch

Рис. 6. Графики обучения сетей ипй и МТОпе! в зависмости от эпох обучения: а) изменение точности для ипе!; б) изменение точности для МТОпе!

Тестирование

Тестирование проводилось на тестовом множестве изображений с использованием обученной нейронной сети.

Результатом обработки каждого из тестовых изображений являются 16 частей сегментированного изображения. Каждая из этих частей представляют собой многоканальное бинарное изображение. Количество каналов равно числу сегментируемых типов земной поверхности.

Для визуализации эти многоканальные изображения преобразуются в обычные RGB изображения с помощью таблицы, в которой каждому типу поверхности соответствует определенный цвет. Затем из 16 таких изображений формируется полноразмерное изображение, отражающее результат сегментации. Пример сегментации спутникового изображения показан на рисунке 7.

б)

д.

% Щ

в)

. J

ГУ-

Рис. 7. Пример сегментации спутникового изображения: а) исходное изображение; б) размеченная маска; в) результат сегментации

При тестировании, с помощью соответствующих размеченных масок из тестового набора, определяется также по-пиксельная точность сегментации. Средняя точность на тестовом наборе составила около 64%, что соответствует точности на валидационном наборе, использовавшемся при обучении сети.

Заключение

Предложенный подход позволяет получить достаточно высокую точность сегментации спутниковых изображений по сравнению с существующими решениями. Подход основан на применении архитектуры кодер - декодер анологич-ный архитектуре сети ипе! При этом в качестве кодера используется модификация сети МоЫШе! В декодере для каждого слоя размерность карт входных признаков повышается с помощью свертки транспонировавния и объединяется с картами признаков соответствующего ему слоя кодера и обрабатывается глубинной сверткой.

Применение глубинных сверток как в кодере, так и в декодере, позволило достичь существенного сокращении вычислительных затрат при обучении глубокой нейронной сети и повысить ее быстродействие.

Литература

1. Long J., Shelhamer E., Darrell T. Fully Convolutional Networks for Semantic Segmentation II Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. pp. 3431-3440, doi: 10.48550/arXiv. 1411.4038

2. Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, doi: 10.48550/arXiv. 1511.00561

3. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation II Conf. on Medical image computing and computer-assisted intervention, Springer, Cham, 2015. pp. 234-241, doi: 10.48550/arXiv.l505.04597

4. Simonyan K., Zisserman A. Very deep convolutional networks for large-scaleimagerecognition. doi: 10.48550/arXiv.l409.1556

5. Zeiler M., Taylor G., Fergus R. Adaptive Deconvolutional Networks for Mid and High Level Feature Learning II Proc. of the Int. Conf. on Computer Vision, Washington, DC, USA, IEEE Computer

Society, 2011., pp. 2018-2025, doi:10.1109/ICCV.2011.6126474.

6. He K., Zhang X., Ren S., Sun J. Identity Mappings in Deep Residual Networks II Computer Vision - ECCV 2016. ECCV 2016. Lecture Notes in Computer Science, vol 9908. Springer, Cham, doi:10.1007/978-3-319-46493-0_

7. Szegedy C., Vanhoucke V., Ioffe S., Shlens J., Wojna Z. Rethinking the Inception Architecture for Computer Vision II IEEE Conf. on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016, pp. 2818-2826, doi: 10.1109/CVPR.2016.308.

8. Tan M., Quoc. V. Le. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. doi:10.48550/arXiv. 1905.11946

9. HowardA.G., Zhu M., et al. MobileNets - Efficient Convolutional Neural Networks for Mobile Vision Applications, doi: 10.48550/arXiv. 1704.04861

10. Boguszewski A., Batorski D., et al. LandCover.ai: Dataset for Automatic Mapping of Buildings, Woodlands, Water and Roads from Aerial Imagery, doi: 10.48550/arXiv.2005.02264

11. Deng J., Dong W., Socher R., Li L.-J., Li K., Li F.-F. ImageNet: A large-scale hierarchical image database II IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848.

12. Kingma D., Ba J. Adam: A Method for Stochastic Optimization, doi: 10.48550/arXiv. 1412.6980

DEEP NEURAL NETWORK FOR SEMANTIC SEGMENTATION OF SATELLITE IMAGES

VALERY M. GRISHKIN

St. Petersburg, Russia

SARDOR I. KARIMOV

St. Petersburg, Russia

KEYWORDS: image segmentation, codec-decoder architecture, deep convolution.

ABSTRACT

Introduction: Semantic segmentation of images obtained from remote sensing of the Earth is a fairly urgent task. Currently, this problem is solved using deep neural networks. However, these networks require large computational costs, both during the training phase and during their use. This paper proposes a neural network architecture that

can reduce these costs and increase the accuracy of semantic segmentation of satellite images. Result: The architecture is based on encoder-decoder structures, where deep convolutions are used in the encoder and decoder, which significantly reduces computational costs. The paper presents experimental results showing the effectiveness of the proposed architecture.

REFERENCES

1. J. Long, E. Shelhamer, T Darrell, "Fully Convolutional Networks for Semantic Segmentation," Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3431-3440, doi: 10.48550/arXiv.1411.4038

2. V. Badrinarayanan, A. Kendall, R. Cipolla, "SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation", doi: 10.48550/arXiv.1511.00561

3. O. Ronneberger, P. Fischer, T. Brox, "U-net: Convolutional networks for biomedical image segmentation," Int. Conf. on Medical image computing and computer-assisted intervention, Springer, Cham, 2015, pp. 234241, doi: 10.48550/arXiv.1505.04597

4. K. Simonyan, A. Zisserman, "Very deep convolutional networks for large-scale image recognition," doi: 10.48550/arXiv.1409.1556

5. M. Zeiler, G. Taylor, and R. Fergus, "Adaptive Deconvolutional Networks for Mid and High Level Feature Learning," Proc. of the Int. Conf. on Computer Vision, Washington, DC, USA, IEEE Computer Society, 2011., pp. 2018-2025, doi:10.1109/ICCV.2011.6126474.

6. K. He, X. Zhang, S. Ren, J.Sun "Identity Mappings in Deep Residual

Networks," Computer Vision - ECCV 2016. ECCV 2016. Lecture Notes in Computer Science, vol. 9908. Springer; Cham, doi:10.1007/978-3-319-46493-0_38

7. C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens and Z. Wojna, "Rethinking the Inception Architecture for Computer Vision," IEEE Conf. on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016, pp. 2818-2826, doi: 10.1109/CVPR.2016.308.

8. M. Tan, Quoc. V. Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks," doi:10.48550/arXiv.1905.11946

9. A. G. Howard, M. Zhu, et al., "MobileNets - Efficient Convolutional Neural Networks for Mobile Vision Applications," doi: 10.48550/arXiv.1704.04861

10. A. Boguszewski, D. Batorski, et al., "LandCover.ai: Dataset for Automatic Mapping of Buildings, Woodlands, Water and Roads from Aerial Imagery," doi: 10.48550/arXiv.2005.02264

11. J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li and F.-F Li, "ImageNet: A large-scale hierarchical image database," IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848.

12. D. Kingma, J. Ba. "Adam: A Method for Stochastic Optimization," doi: 10.48550/arXiv. 1412.6980

INFORMATION ABOUT AUTHORS:

Valery M. Grishkin, Candidate of Technical Sciences, Associate Professor, St. Petersburg State University, St. Petersburg, Russia Sardor I. Karimov, graduate student, St. Petersburg State University, St. Petersburg, Russia

For citation: Grishkin V.M., Karimov S.I. Deep neural network for semantic segmentation of satellite images. H&ES Reserch. 2024. Vol. 16. No. 3. P. 12-17. doi: 10.36724/2409-5419-2024-16-3-12-17 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.