Семантическая сегментация изображений с применением сверточных нейронных сетей

Доррер Г.А.; Корюкин М.С.

УДК 004.93

СЕМАНТИЧЕСКАЯ СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ С ПРИМЕНЕНИЕМ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Г. А. Доррер, М. С. Корюкин*

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: maxfashko@gmail.com

Семантическая сегментация изображений обладает широким спектром применений - от распознавания сцены изображения и установления связей между объектами до автономного вождения транспорта. Представлена технология обработки изображений с применением сверточной нейронной сети архитектуры SegNet, обученной на размеченной ручным способом выборке, включающей в себя два класса - объект (человек) и фон.

Ключевые слова: сверточная нейронная сеть, алгоритм обратного распространения ошибки, человеко-машинное взаимодействие, семантическая сегментация, информационная система.

SEMANTIC IMAGE SEGMENTATION OF CONVOLUTIONAL NEURAL NETWORKS

G. A. Dorrer, M. S. Koriukin*

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation *E-mail: maxfashko@gmail.com

Semantic segmentation of images has a wide range of applications from recognition of the stage and establishment of connections between the objects to autonomous driving. This article presents the image processing technology using the convolutional neural network with SegNet architecture, trained on the manually marked samples that include two classes - the object (person) and the background.

Keywords: convolutional neural network, back-propagation algorithm, human-computer interaction, semantic segmentation, information system.

Введение. Алгоритмы автоматического анализа сигналов постепенно внедряются во всевозможные области человеческой деятельности, в частности, в медицину, биологию, полиграфию. Большинство существующих алгоритмов используют машинное обучение. В полиграфических приложениях данный метод находит применение для автоматизации процесса сегментации изображений, что особенно актуально при больших объемах данных и сложности ручной сегментации самих данных. На текущий момент в задачах автоматической сегментации объектов на изображениях положительные результаты показали сверточные нейронные сети. Архитектура искусственных нейронных сетей была предложена Яном Лекуном [1] для эффективного распознавания изображений.

В качестве практической задачи сегментации было выбрано распознавание человека на статичном фотоснимке. Данное действие является частью более общей задачи автоматизации производственного процесса в полиграфической отрасли. Сложность данного процесса обусловлена тем, что на статичном фотоснимке объект имеет различные размеры, цветовую гамму и геометрию, а также необходимостью работы с большими изображениями.

Архитектура сверточной нейронной сети. Архитектура нейронной сети SegNet[2] представляет собой 13 последовательно расположенных слоев свертки, которые соответствуют первым 13 сверточным слоям в нейронной сети VGG16 [3], предназначенным для классификации

Актуальные проблемы авиации и космонавтики - 2017. Том 2

объектов. Рассматриваемая сеть известна под названием fully convolutional network [4]. На рис. 1 представлено схематичное изображение архитектуры нейронной сети SegNet.

Рис. 1. Архитектура сверточной нейронной сети SegNet

Обучение нейронной сети. Для обучения нейронной сети были использованы реальные изображения людей, предоставленные полиграфическим предприятием ООО «Объемный мир». Данный набор состоит из 48000 изображений в формате JPEG. Для создания разметки изображения были приведены к единому размеру и при помощи графического редактора были размечены двумя цветами посредством наложения PNG изображения на оригинальное изображение (рис. 2, а).

На рис. 2, б представлены результаты сегментации изображений обученной нейросетью.

lia

- JL tí.

а б

Рис. 2. Исходные изображения необходимого размера с заливкой цветом (верхний ряд)

и аннотированные изображения (нижний ряд) (а); результат сегментации исходных изображений (б)

Для разметки изображений было выбрано цветовое пространство LAB, в котором значение светлоты отделено от значения хроматической составляющей цвета (тон, насыщенность). Для каждого класса на изображении необходимо указать собственный индекс светлого со значением от 0 до 100. В данном случае фон имеет значение 0, а человек - 1. Количество изображений, использованных для обучения и тестирования сети, указано в табл. 1.

Таблица 1

Информация о изображениях в обучающей и тестовой выборках

Исходные изображения (RGB) Аннотированные изображения (LAB) Размер изображений, пикс.

Обучающая выборка 48000 48000 360x480

Тестовая выборка 6000 6000 360x480

Тестирование. Для тестирования обученной модели нейронной сети были использованы изображения из тестовой выборки. Использовался один объективный критерий качества сегмен-

тации, который вычисляется по размеченной тестовой выборке: точность (accuracy). Точность -это доля корректно распознанных пикселей тестовой выборки. Данные об обучении и тестировании представлены в табл. 2.

Таблица 2

Информация о стадии обучения и тестирования

Обучение Тестирование

Время обучения, час Потребление ресурсов (RAM), ГБ Размер обученной модели, МБ Средняя точность Время классификации, с Количество изображений

240 3.8 117.8 0.9906 0.2 6000

Заключение. Сверточная нейронная сеть, предназначенная для разбиения изображений на заданный набор областей, неоднородных по интенсивности, прошла процесс обучения. После завершения данного процесса нейронная сеть применима к задачам сегментации статичных фотоснимков с изображением людей. В отличие от ручного способа сегментирования, программное средство, внедренное на предприятие ООО «Объемный мир» и использующее нейронную сеть, осуществляет действия без подсказок пользователя и полностью автоматическим образом, что можно рассматривать в качестве новой технологии обработки изображений в полиграфической отрасли.

Библиографические ссылки

1. Cun Y. Le, et al. Learning Hierarchical Features for Scene Labeling [Электронный ресурс]. URL: http://yann.lecun.com/exdb/publis/pdf/farabet-pami-13.pdf (дата обращения: 02.02.2017).

2. Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation [Электронный ресурс]. URL: http://arxiv.org/abs/1511.0051 (дата обращения: 22.02.2017).

3. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition [Электронный ресурс]. URL: https://arxiv.org/pdf/1409.1556.pdf (дата обращения: 02.12.2016).

4. Long J., Shelhamer E., Darrell T., Fully Convolutional Networks for Semantic Segmentation [Электронный ресурс]. URL: https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf (дата обращения: 02.02.2017).

Семантическая сегментация изображений с применением сверточных нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Доррер Г. А., Корюкин М. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Доррер Г. А., Корюкин М. С.

SEMANTIC IMAGE SEGMENTATION OF CONVOLUTIONAL NEURAL NETWORKS

Текст научной работы на тему «Семантическая сегментация изображений с применением сверточных нейронных сетей»