Научная статья на тему 'ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕГМЕНТАЦИИ ЛЕСНЫХ ПОЖАРОВ НА СПУТНИКОВЫХ СНИМКАХ'

ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕГМЕНТАЦИИ ЛЕСНЫХ ПОЖАРОВ НА СПУТНИКОВЫХ СНИМКАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
648
114
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / СЕМАНТИЧЕСКАЯ СЕГМЕНТАЦИЯ / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / ОБРАБОТКА ИЗОБРАЖЕНИЙ / ИЗОБРАЖЕНИЯ ПОВЕРХНОСТИ ЗЕМЛИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вик Ксения Васильевна, Друки Алексей Алексеевич, Григорьев Дмитрий Сергеевич, Спицын Владимир Григорьевич

Целью работы является разработка алгоритмов семантической сегментации областей лесных пожаров на спутниковых снимках земной поверхности. При активном развитии алгоритмов компьютерного зрения сегодня существует ряд задач в данной области, которые не решены в полной мере и не обеспечивают требуемую точность работы. Поэтому существует потребность в разработке алгоритмов и программных средств, которые обеспечили бы высокое качество сегментации изображений. На основе анализа существующих методов и алгоритмов сегментации изображений было принято решение использовать нейросетевые алгоритмы. В процессе выполнения работы разработана сверточная нейронная сеть, а также сформирована обучающая выборка. Для разработки нейронной сети применялась библиотека машинного обучения Keras, также использовались оптимизации алгоритма обратного распространения ошибки. В результате была осуществлена программная реализация алгоритма, позволяющего выполнять сегментацию областей лесных пожаров на спутниковых снимках земной поверхности. Представлены результаты работы, а также сравнение их эффективности с существующими аналогами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вик Ксения Васильевна, Друки Алексей Алексеевич, Григорьев Дмитрий Сергеевич, Спицын Владимир Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF DEEP LEARNING NEURAL NETWORKS FOR SOLVING THE PROBLEM OF FOREST FIRE SEGMENTATION ON SATELLITE IMAGES

The aim of the work is to develop algorithms for the semantic segmentation of forest fire areas on satellite images. Despite the active development of computer vision algorithms, today there are a number of problems in this area that have not been fully solved and do not provide the required accuracy of work. Therefore, today there is a need for the development of algorithms and software that provide high quality image segmentation. The analysis of existing algorithms for image segmentation was carried out and it was revealed that the most suitable algorithms for solving this problem are deep learning neural networks. The machine learning libraries Keras, TensorFlow and PyTorch were reviewed. The library performance was tested on a set of 60,000 images. In the process of research, the PyTorch library showed the best results, so it was decided to use it to develop algorithms. Convolutional neural network consisting of 20 layers has been developed. The neural network was trained using a generated set of 50 images of Earth remote sensing with a resolution of 8000x8000. The set of images was selected from the Landsat 8 satellite database. The main selection criteria concerned the size of the scene, as well as the number of images taken by the satellite during the day. The generated set of images contains data of the following classes: forest fire (red); burnt-out area (black); smoke from a fire (white); reservoirs (blue); forest (green). For a set of images, augmentation was performed, that is, modification of the data for training. Using this method improves the generalizing ability of the neural network, adds new training examples that the neural network has not yet seen and does not provide an opportunity to retrain. As augmentation, the following modifications were performed: image rotation by an arbitrary degree; compression along the axes; stretching along the axes; mirroring along the axes; Gaussian Blur; change in brightness and contrast. The training included 50 epochs, each of which contains 2000 iterations. When choosing an algorithm for learning a neural network, the following algorithms were considered: Adam - adaptive moment estimation; Adagrad - adaptive gradient; RMSProp - gradient descent with momentum. During the research, the best results were obtained using the Adam algorithm. A comparison of the results of the proposed neural network with some analogues is presented. A comparative study of the accuracy of the segmentation algorithms was carried out on a set of reference and test images subjected to noise distortions. To compare the segmentation results, the boundaries of the segmented objects were used, which is a set of points that do not depend on the shading of the segments. To measure the segmentation results, two metrics were used: mean and Hausdorff distance. The study of the quality of work of a number of algorithms showed that they behave unstably when the image is noisy and blurred. Thus, we can conclude that it is advisable to clean the image from noise and increase its clarity before the segmentation procedure. The accuracy of the developed neural network is 94.22%. For the classes of objects, the accuracy was the following: fire - 93.6%; burnt-out area - 95.7; smoke - 87.6; reservoirs - 96.9; forest - 97.3. This result is the best in comparison with the presented analogs. However, the developed system is somewhat inferior to some analogues in terms of such indicators as fire, burnt out area, smoke. However, in such classes as forests, reservoirs, it wins.

Текст научной работы на тему «ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕГМЕНТАЦИИ ЛЕСНЫХ ПОЖАРОВ НА СПУТНИКОВЫХ СНИМКАХ»

2021

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Управление, вычислительная техника и информатика

№ 55

ОБРАБОТКА ИНФОРМАЦИИ

УДК 004.855

DOI: 10.17223/19988605/55/3

К.В. Вик, А.А. Друки, Д.С. Григорьев, В.Г. Спицын

ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕГМЕНТАЦИИ ЛЕСНЫХ ПОЖАРОВ НА СПУТНИКОВЫХ СНИМКАХ

Работа выполнена при поддержке РФФИ в рамках научного проекта № 18-08-00977 и программы повышения конкурентоспособности Томского политехнического университета.

Целью работы является разработка алгоритмов семантической сегментации областей лесных пожаров на спутниковых снимках земной поверхности. При активном развитии алгоритмов компьютерного зрения сегодня существует ряд задач в данной области, которые не решены в полной мере и не обеспечивают требуемую точность работы. Поэтому существует потребность в разработке алгоритмов и программных средств, которые обеспечили бы высокое качество сегментации изображений. На основе анализа существующих методов и алгоритмов сегментации изображений было принято решение использовать нейросетевые алгоритмы. В процессе выполнения работы разработана сверточная нейронная сеть, а также сформирована обучающая выборка. Для разработки нейронной сети применялась библиотека машинного обучения Keras, также использовались оптимизации алгоритма обратного распространения ошибки. В результате была осуществлена программная реализация алгоритма, позволяющего выполнять сегментацию областей лесных пожаров на спутниковых снимках земной поверхности. Представлены результаты работы, а также сравнение их эффективности с существующими аналогами.

Ключевые слова: нейронные сети; семантическая сегментация; компьютерное зрение; обработка изображений; изображения поверхности Земли.

Семантическая сегментация изображений является процессом разделения изображения на отдельные составные части, которые соответствуют различным объектам, и последующего выполнения классификации данных объектов. Сегодня семантическая сегментация применяется в различных областях, например в системах видеонаблюдения для распознавания людей, в беспилотных автомобилях для анализа окружающей среды, в смартфонах для классификации объектов, в медицине для анализа рентгеновских снимков и т.д. Данная область является одной из самых активно развивающихся, однако качество работы большинства современных алгоритмов еще не достигло максимума. Поэтому зачастую часть работы, требующая высокой ответственности, выполняется людьми в ручном режиме, из-за чего могут возникать ошибки и увеличиваться время выполнения работы [1].

Сегодня существует ряд эффективных алгоритмов, которые применяются в задачах сегментации. Как правило, в основе большинства из них лежат поиск ключевых характеристик объектов на изображениях и последующая классификация данных объектов [2]. В качестве ключевых характеристик могут использоваться различные параметры: цвет, форма, размер, текстура и т.д. [3].

Алгоритмы, основанные на поиске особых точек для описания объектов на изображениях: SURF [2]; SIFT [3]; MSER [4]; FAST; FAST-9; FAST-ER [5]; HOG [6]. Особыми точками являются такие области изображения, которые сохраняют свои характеристики при различных изменениях условий сьемки и смещениях камеры. К достоинствам методов поиска особых точек можно отнести их высокую устойчивость к масштабированию и незначительному повороту изображения объекта. Недостаток подобных методов - неустойчивость к специфичным изображениям объекта, на которых нельзя определить направления дескрипторов, к смене освещения [5, 6].

Алгоритмов классификаторов большое множество. Например, можно выделить следующие: SVM, Bag of words. Также к алгоритмам классификаторов можно отнести искусственные нейронные сети [7].

В основе алгоритма SVM лежит принцип нахождения гиперплоскости, которая разделяет объекты на несколько классов. Для выполнения качественной классификации необходимо нахождение данной гиперплоскости на достаточном расстоянии от объектов. Применение данного алгоритма не требует наличия большой обучающей выборки, так как используется не все множество, а лишь некоторая часть объектов на границах областей, что может быть причиной ошибок при классификации [8].

В основе работы алгоритма Bag of words лежат нахождение ключевых точек изображения и построение нормированной гистограммы встречаемости «слов», описывающей изображение. Недостаток данного алгоритма заключается в том, что он не учитывает пространственную информацию объектов, поэтому могут возникать ошибки классификации при наличии схожих ключевых точек объектов.

Классические полносвязные искусственные нейронные сети, также называемые многослойным персептроном [9], не очень подходят для обработки изображений. Это связано с тем, что изображения, как правило, имеют большой размер и состоят из большого количества пикселей, поэтому необходимо, чтобы нейронная сеть состояла из большого количества нейронов и связей. Это приводит к тому, что нейронная сеть становится очень громоздкой и сложнообучаемой. Еще один недостаток заключается в том, что классические нейронные сети не учитывают двумерную структуру изображений и плохо запоминают пространственную взаимосвязь объектов и их составных частей [9].

В 1998 г. был разработан тип нейронных сетей, которые хорошо подходят для обработки изображений. Такие нейронные сети называются сверточными нейронными сетями, они обеспечивают высокую устойчивость к искажениям объектов, наличию шумов, сдвигам и смене ракурса сьемки. Они имеют двумерную структуру, аналогичную структуре изображений, и анализируют изображение не целиком, а по отдельным частям. Этот процесс обеспечивается наличием специальных сверточных и подвыборочных слоев, которые от слоя к слою уменьшают размер входного сигнала. Таким образом, создается пирамида из слоев нейронной сети, где каждый отдельный слой содержит набор плоскостей. В рамках каждой плоскости применяется свой набор весов. Каждый нейрон выполняет операцию свертки двумерной области нейронов предыдущего слоя. Сверточные нейронные сети обеспечивают более быстрое и эффективное обучение, так как содержат меньшее количество настраиваемых весовых коэффициентов.

Целью работы является разработка алгоритмов семантической сегментации областей лесных пожаров на спутниковых снимках земной поверхности.

Основные задачи:

1. Выбор среды разработки и программных библиотек для реализации алгоритмов.

2. Создание и подготовка обучающей выборки снимков дистанционного зондирования Земли.

3. Разработка нейронной сети.

4. Сравнение реализованных алгоритмов с аналогами.

1. Выбор библиотеки машинного обучения

При выборе программных средств для разработки нейронных сетей было изучено несколько библиотек машинного обучения:

Keras - открытая библиотека машинного обучения, которая поддерживается компанией Google. Данная библиотека является надстройкой для более низкоуровневой библиотеки TensorFlow, содержит очень удобный функционал для реализации и обучения нейронных сетей, в том числе и в задачах компьютерного зрения [10].

PyTorch - библиотека машинного обучения, разработанная NEC Laboratories America и New York University. Библиотека включает широкий выбор алгоритмов машинного обучения и подходит для научных вычислений [11]. Использует динамический граф вычислений, что обеспечивает удоб-

ство и снижение временных затрат, так как позволяет изменять структуру нейронной сети перед каждым запуском без предварительной компиляции.

Эффективность применения библиотек исследовалась на наборе изображений CIFAR-10. Данный набор содержит изображения различных классов объектов: животные, автомобили, самолеты, техника и т.д. Количество изображений - 60 000. Для тестирования библиотек применялась классическая сверточная нейронная сеть VGG16.

В результате тестирования библиотеки Keras и TensorFlow показали результат скорости работы на уровне 236 с. Библиотека PyTorch показала результат 153 с. Все библиотеки показали точность работы на уровне 79%. Исходя из полученных результатов было принято решение использовать PyTorch для дальнейшей работы.

2. Структура нейронной сети

Как правило, архитектура и различные параметры нейронной сети выбираются экспериментальным путем. Это обусловлено тем, что сверточные нейронные сети содержат большое количество параметров, и на сегодняшний день не существует строго формализованных правил подбора этих параметров и структуры сети в целом. Рассматривались следующие варианты: U-Net [12], ENet [13], SegNet [14].

U-Net состоит из двух частей: сжимающейся части для вычисления характеристик и расширяющейся части для пространственной локализации объектов на изображении. В данной модели не используется полносвязный слой. Как следствие, число параметров модели уменьшается, и ее можно обучить с помощью небольшого набора данных.

SegNet, как и состоит из двух частей. Сжимающая часть содержит несколько сверточ-

ных слоев с функцией активации ReLU, пакетную нормализацию и операции подвыборки. Это обеспечивает важные преимущества сохранения высокочастотных деталей в сегментированных изображениях, а также уменьшения общего количества настраиваемых параметров в декодерах.

Enet имеет более компактную структуру и содержит в несколько раз меньше параметров, что обеспечивает более высокую скорость работы и возможность применения на мобильных устройствах в режиме реального времени.

В процессе проведенных экспериментов архитектура SegNet показала лучшие результаты в сравнении с аналогами, поэтому было решено использовать ее в качестве основы с дальнейшей модификацией ее архитектуры. В итоге после проведения ряда вычислительных экспериментов была разработана архитектура нейронной сети (рис. 1).

Рис. 1. Архитектура сверточной нейронной сети Fig. 1. Architecture of the convolutional neural network

Нейронная сеть состоит из двадцати слоев: 10 сверточных слоев, 5 слоев Max pooling, 5 слоев Upsampling, и выходного слоя.

Работу нейронной сети можно разделить на два этапа: свертка входного изображения и развертка полученного вектора.

Как показано на рис. 1, входное изображение проходит через пять слоев (обозначены синим и зеленым цветом), и выполняется свертка изображения в вектор. Далее следуют пять слоев (обозначены синим и красным цветом), которые выполняют функцию Upsampling и предназначены для развертывания полученного вектора в исходный размер изображения. На последних этапах полученные данные переводятся в три цветовых канала, и на выходе получаем результат сегментации.

3. Обучение нейронной сети

Обучение нейронной сети выполнялось с помощью сформированного набора из 50 снимков дистанционного зондирования Земли с разрешением 8 000 х 8 000. Набор изображений был отобран из базы спутника Landsat 8 [15]. Основные критерии выбора касались размера сцены, а также количества снимков, которые делает спутник в течении суток.

Сформированный набор изображений содержит данные следующих классов:

- лесной пожар (красный цвет);

- выгоревшая площадь (черный цвет);

- дым от пожара (белый цвет);

- водоемы (синий цвет);

- лес (зеленый цвет).

Создание сегментированных масок изображений производилось с помощью преобразований и фильтрации в программе Adobe Photoshop (рис. 2).

Рис. 2. Изображения для обучения нейронной сети: а - входное изображение; b - сегментированное изображение.

Fig. 2. Images for neural network training: а - input image; b - segmented image.

Так же для набора изображений была проведена аугментация, т.е. модификация данных для обучения. Использование данного метода улучшает обобщающую способность нейронной сети, добавляет новые примеры для обучения, которые нейросеть еще не видела, и не дает возможности переобучаться.

В качестве аугментации были выполнены следующие модификации: поворот изображения на произвольный градус; сжатие по осям; растяжение по осям; зеркальное отображение по осям; Гауссово размытие; изменение яркости и контраста. Обучение включало 50 эпох, каждая из которых содержит 2 000 итерации.

На сегодняшний день существует множество алгоритмов обучения нейронных сетей. Один из наиболее известных - алгоритм обратного распространения ошибки. Алгоритм применяется для минимизации отклонения текущего значения выходного сигнала сети от требуемого. Недостаток данно-

го алгоритма заключается в возможности переобучения при выборе малой скорости обучения или, наоборот, расходимости при выборе слишком большой скорости обучения.

Для устранения данных недостатков существуют различные модификации алгоритма обратного распространения ошибки. Проведен анализ трех модификаций данного алгоритма с целью выбора наилучшего: Adam - adaptive moment estimation; Adagrad - adaptive gradient; RMSProp - gradient descent with momentum. Основное отличие данных алгоритмов от классического алгоритма обратного распространения ошибки заключается в том, что в них используется адаптивная скорость обучения для каждого веса сети, которая адаптируется в процессе обучения [16, 17].

Для более стабильного обучения применялся метод регуляризации DropOut, который предназначен для уменьшения переобучения сети за счет случайного обновления весов в некоторых областях сети. Вероятность попадания нейронов в область обновления: 0,5. Для стабильной работы применялся метод нормализации Mini-batch. В данном методе на вход нейронной сети подаются данные, которые были предварительно обработаны и имеют нулевое математическое ожидание и единичную дисперсию. Для регуляризации весов сети применялся метод L2, который назначает размер штрафной коррекции для слишком больших и малых значений весов.

Параметры нейронной сети, использованные при обучении и тестировании:

- коэффициент обучения: 0,0005;

- изменение коэффициента обучения: 0,1;

- частота изменения коэффициента обучения: 104.

Аппаратное обеспечение, используемое для экспериментов: Intel(R) Core(TM)6 CPU (3.7GHz), ОЗУ 32ГБ, GeForce RTX 2080 SUPER.

Результаты обучения представлены в табл. 1.

Таблица 1

Результаты обучения сверточной нейронной сети

Adam Adagrad RMSProp

Количество эпох: 50 Количество эпох: 50 Количество эпох: 50

Точность при обучении: 98,828 Точность при обучении: 95,761 Точность при обучении: 94,179

Точность при тестировании: 96,033 Точность при тестировании: 94,975 Точность при тестировании: 91,107

Очевидно, что алгоритм Adam показывает лучшие результаты по сравнению с двумя другими алгоритмами: точность классификации 96,033 %.

Преимущества алгоритма Adam в задачах оптимизации состоят в следующем: достаточно прост в реализации; вычислительно эффективен в применении; инвариантен к изменению масштаба градиента по диагонали; эффективен для задач с большим количеством параметров и данных; эффективен для задач с очень шумными или редкими градиентами.

Результаты обучения нейронной сети представлены на рис. 3.

Рис. 3. Результат сегментации: а - исходное изображение; b - полученный результат Fig. 3. Image segmentation result: а - original image; b - the result obtained

В табл. 2 представлено сравнение результатов работы предложенной нейронной сети с некоторыми аналогами.

Таблица 2

Сравнение результатов с аналогами

Название Пожар (%) Выгоревшая площадь (%) Дым (%) Водоемы (%) Лес (%) Итого (%)

Edge Flow [18] 90,6 93,2 82 88,8 86,6 88,24

PSO K-Means [Ibid.] 88,7 92,3 88,6 90,2 94,8 90,92

Multi scale [19] 93,7 96,4 88,2 89,5 96 92,76

Edison [Ibid.] 93,9 96 85,6 94,8 95,8 93,22

JSEG [Ibid.] 91,4 92,1 89,7 95,3 92,4 92,18

Разработанная нейронная сеть 93,6 95,7 87,6 96,9 97,3 94,22

Сравнительное исследование точности работы алгоритмов сегментации проводилось на наборе эталонных и тестовых изображений, подвергаемых шумовым искажениям. Для сравнения результатов сегментации использовались границы сегментированных объектов, которые представляет собой набор точек, не зависящих от закраски сегментов. Для измерения результатов сегментации использовались две метрики: среднее и Хаусдорфово расстояние. Исследование качества работы ряда алгоритмов показало, что они ведут себя неустойчиво при зашумлении и размытии изображения. Таким образом, можно сделать вывод, что целесообразно до процедуры сегментации выполнить очистку изображения от шума и повысить его четкость.

Точность работы разработанной нейронной сети составляет 94,22%. Данный результат является лучшим в сравнении с представленными аналогами. Как можно заметить, разработанная система несколько уступает некоторым аналогам по таким показателям, как пожар, выгоревшая площадь, дым. Однако по таким показателям, как леса, водоемы, она побеждает.

Заключение

В данной работе рассматривалась задача семантической сегментации областей лесных пожаров на спутниковых снимках земной поверхности. Изображение сегментировалось на пять различных объектов: лесной пожар; выгоревшая площадь; дым от пожара; водоемы; лес. Разработана сверточная нейронная сеть глубокого обучения, которая обеспечивает точность работы на уровне 94,22%. Также было проведено сравнение эффективности работы алгоритмов обучения, в результате чего лучшие показатели были получены с помощью алгоритма Adam.

ЛИТЕРАТУРА

1. Bundzel M., Hashimoto S. Object identification in dynamic images based on the memory-prediction theory of brain function //

Journal of Intelligent Learning Systems and Applications. 2010. V. 2, № 4. P. 212-220.

2. Tawfiq A., Ahmed J. Object detection and recognition by usingenhanced Speeded Up Robust Feature // International Journal

of Computer Science and Network Security. 2016. V. 16, № 4. P. 66-71.

3. Park S., Yoo J.H. Realtime face recognition with SIFT based local feature points for mobile devices // The 1st International

Conference of Artificial Intelligence, Modelling and Simulation (AIMS 13). Malaysia, 2013. P. 304-308.

4. Mammeri A., Boukerche A., Khiari E. MSER based text detection and communication algorithm for autonomous vehicles // IEEE

Symposium of Computers and Communication. Messina, Italy. 2016. P. 456-460.

5. Tore V., Chawan P.M. FAST Clustering based feature subset selection algorithm for high dimensional data // International Journal

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

of Computer Science and Mobile Computing. 2016. V. 5, № 7. P. 234-238

6. Dalal N., Triggs B. Histograms of oriented gradients for human detection // IEEE Computer Society Conference on Computer

Vision and Pattern Recognition (CVPR). San Diego, USA. 2005. V. 1. P. 886-893.

7. Mohey D.E. Enhancement bagofwords model for solving the challenges of sentiment analysis // International Journal of Advanced

Computer Science and Applications. 2016. V. 7, № 1. P. 244-251.

8. Kecman V., Melki G. Fast online algorithms for Support Vector Machines // IEEE South East Conference. Virginia, USA. 2016.

P. 26-31.

9. Le Cun Y., Bengio Y. Convolutional networks for images, speech and time series // The handbook of brain theory and neural

networks. 1998. V. 7, № 1. P. 255-258.

10. TensorFlow: the Python Deep Learning library. URL: https://www.tensorflow.org (accessed: 02.12.2020).

11. Deep Learning Frameworks: a Survey of TensorFlow, Torch, Theano, Caffe, Neon, and the IBM Machine Learning Stack. URL: https://www.microway.com/hpc-tech-tips/deep-learning-frameworks-survey-tensorflow-torch-theano-caffe-neon-ibm-machine-learning-stack (accessed: 02.12.20).

12. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional networks for biomedical image segmentation // International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI-2015). 2015. V. 93. P. 234-241.

13. Paszke A., Chaurasia A., Kim S., Culurciello E. ENet: a Deep Neural Network Architecture for Real-Time Semantic Segmentation // 5th International Conference on Learning Representations. 2017. Toulon, France. 2017. P. 1-10.

14. Badrinarayanan V., Kendall A., Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation // IEEE transactions on pattern analysis and machine intelligence. 2017. V. 39, № 12. P. 54-62.

15. Sharing Earth Observation Resourses. URL: https://directory.eoportal.org/web/eoportal/satellite-missions/l/landsat-8-ldcm (accessed: 02.12.20).

16. Kingma D.P. Adam: a Method for Stochastic Optimization // International Conference of Learning Representations. San Diego, USA. 2015. P. 1-13.

17. Nguyen V., Kim H., Jun S. A Study on Real-Time Detection Method of Lane and Vehicle for Lane Change Assistant System Using Vision System on Highway // Engineering Science and Technology. 2018. V. 21. P. 822-833.

18. El-Khatib S.A. Image segmentation using a mixed and exponential particle-based algorithm // Computer Science and Cybernetics. 2015. № 1. P. 126-133.

19. Koltsov P.P. The use of metrics in a comparative study of the quality of work of image segmentation algorithms // Informatics and Its Applications. 2011. № 5. P. 53-63.

Поступила в редакцию 18 декабря 2020 г.

Vik K.V., Druki A.A., Grigoriev D.S., Spitsyn V.G. (2021) APPLICATION OF DEEP LEARNING NEURAL NETWORKS FOR SOLVING THE PROBLEM OF FOREST FIRE SEGMENTATION ON SATELLITE IMAGES. Vestnik Tomskogo gosudarstven-nogo universiteta. Upravlenie, vychislitelnaja tehnika i informatika [Tomsk State University Journal of Control and Computer Science]. 55. pp. 18-25

DOI: 10.17223/19988605/55/3

The aim of the work is to develop algorithms for the semantic segmentation of forest fire areas on satellite images. Despite the active development of computer vision algorithms, today there are a number of problems in this area that have not been fully solved and do not provide the required accuracy of work. Therefore, today there is a need for the development of algorithms and software that provide high quality image segmentation.

The analysis of existing algorithms for image segmentation was carried out and it was revealed that the most suitable algorithms for solving this problem are deep learning neural networks. The machine learning libraries Keras, TensorFlow and PyTorch were reviewed. The library performance was tested on a set of 60,000 images. In the process of research, the PyTorch library showed the best results, so it was decided to use it to develop algorithms. Convolutional neural network consisting of 20 layers has been developed.

The neural network was trained using a generated set of 50 images of Earth remote sensing with a resolution of 8000x8000. The set of images was selected from the Landsat 8 satellite database. The main selection criteria concerned the size of the scene, as well as the number of images taken by the satellite during the day.

The generated set of images contains data of the following classes: forest fire (red); burnt-out area (black); smoke from a fire (white); reservoirs (blue); forest (green).

For a set of images, augmentation was performed, that is, modification of the data for training. Using this method improves the generalizing ability of the neural network, adds new training examples that the neural network has not yet seen and does not provide an opportunity to retrain. As augmentation, the following modifications were performed: image rotation by an arbitrary degree; compression along the axes; stretching along the axes; mirroring along the axes; Gaussian Blur; change in brightness and contrast. The training included 50 epochs, each of which contains 2000 iterations.

When choosing an algorithm for learning a neural network, the following algorithms were considered: Adam - adaptive moment estimation; Adagrad - adaptive gradient; RMSProp - gradient descent with momentum. During the research, the best results were obtained using the Adam algorithm.

A comparison of the results of the proposed neural network with some analogues is presented. A comparative study of the accuracy of the segmentation algorithms was carried out on a set of reference and test images subjected to noise distortions. To compare the segmentation results, the boundaries of the segmented objects were used, which is a set of points that do not depend on the shading of the segments. To measure the segmentation results, two metrics were used: mean and Hausdorff distance. The study of the quality of work of a number of algorithms showed that they behave unstably when the image is noisy and blurred. Thus, we can conclude that it is advisable to clean the image from noise and increase its clarity before the segmentation procedure.

The accuracy of the developed neural network is 94.22%. For the classes of objects, the accuracy was the following: fire - 93.6%; burnt-out area - 95.7; smoke - 87.6; reservoirs - 96.9; forest - 97.3. This result is the best in comparison with the presented analogs. However, the developed system is somewhat inferior to some analogues in terms of such indicators as fire, burnt out area, smoke. However, in such classes as forests, reservoirs, it wins.

Keywords: neural networks; semantic segmentation; computer vision; image processing; images of the Earth's surface.

VIK Ksenia Vasilievna (Post-graduate Student of National Research Tomsk Polytechnic University, Tomsk, Russian Federation). E-mail: [email protected]

DRUKI Alexey Alexeevich (Candidate of Technical Sciences, Associate Professor of Department of Information Technologies of National Research Tomsk Polytechnic University, Tomsk, Russian Federation). Email: [email protected]

GRIGORIEVDmitriy Sergeevich (Assistant of National Research Tomsk Polytechnic University, Tomsk, Russian Federation). E-mail: [email protected]

SPITSYN Vladimir Grigorievich (Doctor of Technical Sciences, Professor of the Department of Information Technologies of National Research Tomsk Polytechnic University, Tomsk, Russian Federation). Email: [email protected]

REFERENCES

1. Bundzel, M. & Hashimoto, S. (2010) Object identification in dynamic images based on the memory-prediction theory of brain

function. Journal of Intelligent Learning Systems and Applications. 2(4). pp. 212-220. DOI: 10.4236/jilsa.2010.24024

2. Tawfiq, A. & Ahmed, J. (2016) Object detection and recognition by usingenhanced Speeded Up Robust Feature. International

Journal of Computer Science and Network Security. 16(4). pp. 66-71.

3. Park, S. & Yoo, J.H. (2013) Realtime face recognition with SIFT based local feature points for mobile devices. The 1st Interna-

tional Conference of Artificial Intelligence, Modelling and Simulation (AIMS 13). pp. 304-308. DOI: 10.1109/AIMS.2013.56

4. Mammeri, A., Boukerche, A. & Khiari, E. (2016) MSER based text detection and communication algorithm for autonomous

vehicles. IEEE Symposium of Computers and Communication. pp. 456-460. DOI: 10.1109/ISCC.2016.7543902

5. Tore, V. & Chawan, P.M. (2016) FAST Clustering based feature subset selection algorithm for high dimensional data. Interna-

tional Journal of Computer Science and Mobile Computing. 5(7). pp. 234-238. DOI: 10.1109/TKDE.2011.181

6. Dalal, N. & Triggs, B. (2005) Histograms of oriented gradients for human detection. IEEE Computer Society Conference on Com-

puter Vision and Pattern Recognition (CVPR). 1. pp. 886-893. DOI: 10.1109/CVPR.2005.177

7. Mohey, D.E. (2016) Enhancement bag-of-words model for solving the challenges of sentiment analysis. International Journal of

Advanced Computer Science and Applications. 7(1). pp. 244-251. DOI: 10.14569/IJACSA.2016.070134

8. Kecman V. & Melki G. (2016) Fast online algorithms for Support Vector Machines. IEEE South East Conference. pp. 26-31.

DOI: 10.1109/SECON.2016.7506733

9. Le Cun, Y. & Bengio, Y. (1998) Convolutional networks for images, speech and time series. The Handbook of Brain Theory and

Neural Networks. 7(1). pp. 255-258.

10. TensorFlow: The Python Deep Learning library. [Online] Available from: https://www.tensorflow.org (Accessed: 2nd December 2020).

11. Deep Learning Frameworks. (n.d.) A Survey of TensorFlow, Torch, Theano, Caffe, Neon, and the IBM Machine Learning Stack. [Online] Available from: https://www.microway.com/hpc-tech-tips/deep-learning-frameworks-survey-tensorflow-torch-theano-caffe-neon-ibm-machine-learning-stack (Accessed: 2nd December 2020).

12. Ronneberger, O., Fischer, P. & Brox, T. (2015) U-Net: Convolutional networks for biomedical image segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI-2015). 93. pp. 234-241. DOI: 10.1007/978-3-319-24574-4_28

13. Paszke, A., Chaurasia, A., Kim, S. & Culurciello, E. (2017) ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation. 5-th International Conference on Learning Representations. pp. 1 -10.

14. Badrinarayanan, V., Kendall, A. & Cipolla, R. (2017) SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence. 39(12). pp. 54-62. DOI: 10.1109/TPAMI.2016.2644615

15. Sharing Earth Observation Resourses. (n.d.) [Online] Available from: https://directory.eoportal.org/web/eoportal/satellite-missions/l/landsat-8-ldcm (Accessed: 2nd December 2020).

16. Kingma, D.P. (2015) Adam: a Method for Stochastic Optimization. International Conference of Learning Representations. pp. 1-13.

17. Nguyen, V., Kim, H. & Jun, S. (2018) A Study on Real-Time Detection Method of Lane and Vehicle for Lane Change Assistant System Using Vision System on Highway. Engineering Science and Technology. 21. pp. 822-833. DOI: 10.1016/j.jestch.2018.06.006

18. El-Khatib, S.A. Image segmentation using a mixed and exponential particle-based algorithm. Computer Science and Cybernetics. 1. pp. 126-133.

19. Koltsov, P.P. (2011) The use of metrics in a comparative study of the quality of work of image segmentation algorithms. Informatics and its Applications. 5. pp. 53-63.

i Надоели баннеры? Вы всегда можете отключить рекламу.