УДК ЗЗ2.85
ОБ ИССЛЕДОВАНИИ ЭФФЕКТИВНОСТИ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧАХ КЛАССИФИКАЦИИ ВИЗУАЛЬНЫХ ДАННЫХ
М. В. Гордиенко Научный руководитель - Е. С. Семёнкин
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, бб00З7, г. Красноярск, просп. им. газеты «Красноярский рабочий», З1
E-mail: Manamah24@yandex.ru
В представленной работе проведено исследование свёрточных нейронных сетей в задаче детектирования объектов.
Ключевые слова: свёрточные нейронные сети, задача детектирования объектов.
ON INVESTIGATION OF CONVOLUTIONAL NEURAL NETWORKS EFFECTIVENES IN VISUAL CLASSIFICATION PROBLEMS
M. V. Gordienko Scientific supervisor - E. S. Semenkin
Reshetnev Siberian State University of Science and Technology З1, Krasnoyarskii rabochii prospekt, Krasnoyarsk, бб00З7, Russian Federation E-mail: Manamah24@yandex.ru
In this paper, the convolutional neural networks are tested in objects detection task.
Keywords: convolutional neural networks, objects detection.
В настоящее время свёрточные нейронные сети (СНС) показывают хорошие результаты в решении задачах распознавания изображений и детектирования объектов на изображении. В работе представлено сравнение эффективности двух архитектур СНС для решения задачи детектирования цветов. Для решения задачи использовалась такие архитектуры как RetinaNet [4], YOLOv3, YOLOv3-tiny - урезанная версия модели YOLOv3 [1,2,З].
You Only Look Once (YOLO) — это one stage detector [б], использующий подход наложения сетки SXS на входное изображение, каждая ячейка которой имеет ряд параметров:
• Количество предсказанных рамок B х 5, каждая рамка содержит 5 параметров x,y,w,h и уверенность предсказания. Координаты (x,y) представляют центр рамки, w и h - ширина и высота изображения.
• C - вероятностей принадлежности к классу, равное количеству классов.
Общее количество параметров определяется, как S х S х (B * 5 + C). Далее используя алгоритм non maximum suppression выбирающий наиболее подходящие кандидаты -регионы.
RetinaNet — это one stage detector, использующий Feature pyramid net (FPN) [7] и focal [4] loss для обучения. FPN - это структура для обнаружения многомасштабных объектов. Она сочетает в себе семантически сильные объекты с низким разрешением и семантически слабые объекты с высоким разрешением через нисходящий путь и боковые связи. Конечным результатом являются карты признаков различного масштаба на различных уровнях сети. Полученная карта признаков используется для классификации объекта и нахождения
Актуальные проблемы авиации и космонавтики - 2020. Том 2
наиболее подходящих кандидатов - регионов подсетями классификации и регрессии. Также модель использует модифицированную функцию потерь focal loss для фокусировки на более сложных примерах во время обучения.
Рис. 1. Пример работы YOLO
[a) ResHet (b) feature pyramid ret (d class subnet [Top) (d) box subnet (bottom)
Рис. 2. Архитектура RetinaNet
Для обучения архитектур CHC использовались данные Flower recognition [5]. Данные включают в себя 4242 изображения 5 видов цветов: ромашка, подсолнух, роза, тюльпан и одуванчик. Для обучения СНС использовалось 824 фотографии. Для создания аннотаций была использована программа Labellmg [8]. При создании наборов данных необходимо выделить области с цветами. Всего было сделано 5 603 аннотаций.
Для определения скорости работоспособности использовались 9 разных по длине видео с цветами. Результаты работы представлены в таблице.
Сравнение характеристик CHC
Архитектура СНС Время обработки видео СНС, с mAP Объем весовых коэффициентов СНС, МБ
YOLOv3 27.119 0.6757 241
RetinaNet 36.488 0.6809 426
YOLOv3-tiny 9.312 0.3529 33
Были обучены две архитектуры свёрточных нейронных сетей типа УОЬОуЗ и ЯеЦпаКе^ а также урезанная версия УОЬОуЗ - УОЬОу3-Цпу. Для обучения использовалось 824 изображения цветов, по 164 изображений на каждый из 5-х классов. Для каждого
изображения была сделана аннотация. Эффективность СНС оценивалась при помощи двух критериев - mAP и скорость обработки видео в секундах. По результатам таблицы 1 можно заметить, что архитектура СНС типа YOLO обрабатывает видео быстрее, но проигрывает в точности архитектуре типа RetinaNet. В свою очередь YOLOv3-tiny намного быстрее, что дает возможность использовать ее на устройствах с небольшой производительностью
Библиографические ссылки
1. J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013 -2016.
2. J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 6517-6525. IEEE, 2017.
3. J. Redmon and A. Farhadi. Yolov3: An incremental improvement. arXiv, 2018.
4. T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. Focal loss for dense object detection. arXiv preprint arXiv:1708.02002, 2017.
5. Flower recognition [Электронный ресурс] - URL: https://www.kaggle.com/ alxmamaev/flowers-recognition#102841525_bd6628ae3c.jpg (дата обращения 14.04.2020)
6. Jianjun L., Kangjian P. An efficient object detection algorithm based on compressed networks [Text] // Symmetry. - 2018, Vol. 10. - Pp. 235-249.
7. T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2117-2125, 2017.
8. Labelimg [Электронный ресурс]. URL: https://github.com/tzutalin/labelImg (дата обращения 14.04.2020)
© Гордиенко М. В., 2020