Решетневские чтения. 2018
УДК 004.932.2
ПРИМЕНЕНИЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБНАРУЖЕНИЯ ДЫМА
ПО ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
В. В. Хомякова*, А. Н. Хомяков
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
*Е-шаП: [email protected]
Предложен алгоритм визуального обнаружения дыма, основанный на применении свёрточной нейронной сети. Произведено сравнение результатов работы алгоритма при использовании различных архитектур свёр-точных нейронных сетей. Оценена эффективность предложенного алгоритма.
Ключевые слова: детектирование дыма, свёрточные нейронные сети, Faster Region-based Convolutional Neural Network, Single Shot Detector.
CONVOLUTIONAL NEURAL NETWORK FOR VIDEO-BASED SMOKE DETECTION
V. V. Khomyakova*, A. N. Khomyakov
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]
This paper gives an overview on the use convolutional neural networks as an algorithm for video-based smoke detection task. Paper aims to evaluate the effectiveness of different convolutional neural networks architectures.
Keywords: smoke detection, convolutional neural network, Faster Region-based Convolutional Neural Network, Single Shot Detector.
Визуальные системы детектирования дыма позволяют обнаружить пожар на ранних стадиях и, как следствие, ускорить процесс его ликвидации. Существуют различные алгоритмические подходы, позволяющие обнаружить дым по видеопоследовательности. В большей части методов визуального обнаружения дыма основной упор делается на выявление статических и динамических характеристик дыма.
Стоит отметить, что задача распознавания дыма является задачей классификации: необходимо классифицировать образы по категориям «есть дым/нет дыма». Одним из основных инструментов решения задачи классификации являются нейронные сети. При использовании свёрточных нейронных сетей этап выделения признаков не требуется. Данное свойство нейронных сетей имеет большое значение в случаях, когда обнаружение признаков дыма на изображении или видеопоследовательности традиционными методами затруднено.
Входными данными в задаче визуального обнаружения дыма является изображение или видеопоследовательность. По отношению к изображению задача классификации обычно заключается в присвоении метки целому изображению. Однако при обнаружении дыма важно определить местоположение области задымления на изображении. При этом найденная область выделяется ограничивающим прямоугольником. Таким образом, выходными данными является набор областей, подозрительных на наличие дыма, заключенных в прямоугольники.
Для задачи классификации образов и локализации объектов на изображении существует две основные
вариации на архитектуры свёрточной нейронной сети. Первая группа архитектур - семейство one stage detectors, вторая - семейство two stage detectors. Сети первой группы рассматривают обнаружение объектов как задачу регрессии. Процесс обнаружения объектов при помощи нейронных сетей, относящихся ко второй группе, состоит из двух этапов: из поиска областей на изображении, которые соответствуют объектам, и классификации каждой области для определения класса найденного объекта [1].
Известным представителем первой группы является сеть Single Shot Detector (SSD). Первой частью модели SSD является сверточная нейронная сеть классической архитектуры, например, VGG-16. После базовой сети добавляется несколько свёрточных слоев, которые предназначены для формирования предсказаний ограничивающих прямоугольников, потенциально содержащих объекты, а также определения вероятности принадлежности этих объектов к заданным классам. Для уточнения местоположений объектов применяется процедура подавления немаксимумов [2]. Этап подавления немаксимумов заключается в выборе прямоугольника с максимальным показателем распознавания и удалении остальных прямоугольников, которые имеют площадь пересечения с ним больше некоторого порога [3].
Ко второй группе моделей обнаружения объектов относится семейство архитектур Region-Based Convolutional Neural Network (R-CNN). В R-CNN на первом этапе генерируются области-кандидаты с помощью алгоритма селективного поиска. Полученные области подаются на вход нейронной сети классической архитектуры, например, AlexNet.
Программные средства и информационные технологии
Эффективность свёрточных нейронных сетей
Архитектура Число кадров в секунду Точность Распознавания, % Процент ошибок первого рода, % Процент ошибок второго рода, %
SSD 10 74 28 21
Faster R-CNN 4 89 15 10
Полученный вектор признаков подается на вход набору линейных классификаторов на основе метода опорных векторов для выполнения классификации. После чего выполняется регрессия для вычисления координат ограничивающего прямоугольника и алгоритм подавления немаксимумов [4]. Обнаружение объектов при помощи модели R-CNN требует длительного времени выполнения. Для увеличения скорости обработки изображения была разработана архитектура Faster R-CNN, в которой для предположения регионов-кандидата используется специальная сеть Region Proposal Network (RPN). RPN получена из сети VGG-16 путем удаления полносвязных слоев и добавления свёрточных слоев, которые используются для определения координат предполагаемых прямоугольников [5].
Задача обнаружения дыма требует высокой точности распознавания. Скорость работы алгоритма обнаружения дыма также должна быть высокой. В связи с этим требуется выбрать наиболее оптимальную архитектуру нейронной сети, показывающую высокое быстродействие и точность обнаружения объектов. По этой причине было произведено сравнение алгоритмов обнаружения дыма с использованием сетей SSD и Faster R-CNN.
Для применения свёрточных нейронных сетей для обнаружения дыма по видеопоследовательности была использована библиотека TensorFlow. Для обучения нейронных сетей была создана база из 900 изображений из базы данных ViSOR, базы данных университета Билькент, базы данных ImageNET, а также из изображений, находящихся в свободном доступе в сети Интернет. Тестирование сети производилось на 20 видеопоследовательностях, содержащих сцены присутствия дыма как на открытых пространствах, так и в помещениях. Перед подачей на вход нейронной сети кадры видеопоследовательности преобразовывались к размеру 480*320 пикселов. Тестирование проводилось на компьютере с процессором Intel Core /'3-3110М с таковой частотой 2,4 ГГц.
Для всего набора тестовых данных была вычислена точность классификации и локализации областей с дымом на кадрах видеопоследовательностей, процент ошибок первого и второго рода (см. таблицу). Ошибкой первого рода называется пропуск цели: область, содержащая дым, не выделяется прямоугольником. Ошибкой второго рода считается принятие ложной гипотезы. В случае, если была найдена только часть области задымления, считалось, что распознавание произведено верно. Быстродействие оценивалось в количестве обрабатываемых нейронной сетью кадров в секунду.
На основании проведенных экспериментов можно сделать вывод, что свёрточные нейронные сети пока-
зывают большой процент верно распознанных областей задымления на кадрах видеопоследовательностей. Нейросети способны распознавать ближний и дальний дым, а также дым разных оттенков: от светлосерого до темно-серого.
Модель SSD имеет высокую скорость работы, но точность распознавания несколько ниже, чем у Faster R-CNN. По этой причине в случае, когда точность обнаружения дыма важнее скорости, более предпочтительной является архитектура Faster R-CNN. Если требуется производить видеомониторинг в режиме реального времени, то более подходящей архитектурой для процесса обнаружения дыма является модель SSD.
Библиографические ссылки
1. Jianjun L., Kangjian P. An efficient object detection algorithm based on compressed networks // Symmetry. 2018. Vol. 10. P. 235-249.
2. Воронов С. В., Мухометзянов Р. Н., Воронов И. В. Обнаружение и распознавание дорожных знаков в реальном времени на мобильных устройствах // Автоматизация процессов управления. 2018. № 2 (52). С. 105-111.
3. Hosang J., Benenson R. Learning non-maximum suppression // IEEE Conference on Computer Vision and Pattern Recognition. 2017. P. 1-16.
4. Girshick R., Donahue J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation // IEEE Conference on Computer Vision and Pattern Recognition. 2014. P. 580-587.
5. Долотов Е. А., Кустикова В. Д. Сравнение некоторых методов решения задачи детектирования лиц на изображениях // GraphiCon. 2017. С. 202-207.
References
1. Jianjun L., Kangjian P. An efficient object detection algorithm based on compressed networks, Symmetry. 2018. Vol. 10. P. 235-249.
2. Voronov S. V., Mukhometzyanov R. N., Voronov I. V. [Trafic sign detection and recognition in real time on mobile devices]. Avtomatizatsiya protsessov upravleniya. 2018. № 2 (52). P. 105-111 (In Russ.).
3. Hosang J., Benenson R. Learning non-maximum suppression, IEEE Conference on Computer Vision and Pattern Recognition. 2017. P. 1-16.
4. Girshick R., Donahue J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation, IEEE Conference on Computer Vision and Pattern Recognition. 2014. P. 580-587.
5. Dolotov E. A., Kustikova V. D. [Comparison of some methods for solving the problem of face detection in images]. GraphiCon, 2017. P. 202-207. (In Russ.)
© Хомякова В. В., Хомяков А. Н., 2018