Научная статья на тему 'СИСТЕМА ОБНАРУЖЕНИЯ НОШЕНИЯ МАСКИ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ'

СИСТЕМА ОБНАРУЖЕНИЯ НОШЕНИЯ МАСКИ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
85
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРОНАВИРУС / НЕЙРОННЫЕ СЕТИ / ГЛУБОКОЕ ОБУЧЕНИЕ / YOLO V5

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ли Кай, Лу Чжоюе

В данной работе была разработана система обнаружения изображений, позволяющая обнаружить ношение маски. Описываются основные задачи обнаружения объектов. В работе были проанализированы существующие фреймворки глубокого обучения. Был выбран фреймворк глубокого обучения YOLO v5 и описана его структура. В статье рассматривается подход к обнаружению изображений с использованием фреймворка YOLO v5. Был разработан графический интерфейс для обнаружения изображений и видеозаписей. Кроме того, были проанализированы результаты обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ли Кай, Лу Чжоюе

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A MASK-WEARING DETECTION SYSTEM BASED ON DEEP LEARNING

In this article, an image detection system has been developed to detect the wearing of a mask. The main tasks of object detection are described. Existing deep learning frameworks have been analyzed in this article. The deep learning framework YOLO v5 was chosen and its structure is described. In this article, an image detection approach using YOLO v5 framework is discussed. A graphical interface for image and video detection has been developed. In addition, the training results have been analyzed.

Текст научной работы на тему «СИСТЕМА ОБНАРУЖЕНИЯ НОШЕНИЯ МАСКИ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ»

Научно-образовательный журнал для студентов и преподавателей «StudNet» №5/2022

Научная статья Original article УДК 004.048

СИСТЕМА ОБНАРУЖЕНИЯ НОШЕНИЯ МАСКИ НА ОСНОВЕ

ГЛУБОКОГО ОБУЧЕНИЯ

A MASK-WEARING DETECTION SYSTEM BASED ON DEEP LEARNING

Ли Кай, студент факультета специального машиностроения, Московский государственный технический университет имени Н. Э. Баумана, г. Москова. likai226717@gmail.com

Лу Чжоюе, студентка факультета специального машиностроения, Московский государственный технический университет имени Н. Э. Баумана, г. Москова. 1153670428@qq.com

Li kai, Li Kai, student of the Faculty of Special Engineering, Bauman Moscow State Technical University, Moscow. Iikai2267i7@gmaii.com

Lu Zhuoyue, student of the Faculty of Special Engineering, Bauman Moscow State Technical University, Moscow. ii53670428@qq.com

Аннотация. В данной работе была разработана система обнаружения изображений, позволяющая обнаружить ношение маски. Описываются основные задачи обнаружения объектов. В работе были проанализированы существующие фреймворки глубокого обучения. Был выбран фреймворк глубокого обучения YOLO v5 и описана его структура. В статье рассматривается подход к обнаружению изображений с использованием фреймворка YOLO v5. Был разработан графический интерфейс для обнаружения изображений и видеозаписей. Кроме того, были проанализированы результаты обучения.

4232

Abstract. In this article, an image detection system has been developed to detect the wearing of a mask. The main tasks of object detection are described. Existing deep learning frameworks have been analyzed in this article. The deep learning framework YOLO v5 was chosen and its structure is described. In this article, an image detection approach using YOLO v5 framework is discussed. A graphical interface for image and video detection has been developed. In addition, the training results have been analyzed.

Ключевые слова: коронавирус, нейронные сети, глубокое обучение, YOLO v5

Keywords: coronavirus, neural networks, deep learning, YOLO v5 Введение

В условиях нынешней глобальной эпидемии ношение маски имеет большое значение для здоровья людей. Можно разработать автоматизированную систему обнаружения, которая будет анализировать изображение и определять, носит ли человек на изображении маску. Анализ изображений может быть автоматизирован с помощью компьютерного зрения и алгоритмов глубокого обучения на основе сверточнных нейронных сетей CNN (сокращение от «Convolutional Neural Network»). Как широко используемая и легко внедряемая система глубокого обучения, YOLO (сокращение от «You Only Look Once») [1] хорошо подходит для этой задачи.

4233

1. Задачи обнаружения объектов

Рис. 1 задачи обнаружения объектов

Задачи обнаружения объектов определяются следующим образом [2]: получив произвольное изображение, определить, есть ли в нем экземпляры семантических объектов из заранее определенных категорий, и, если есть, вернуть пространственное расположение и протяженность.

2. фреймворки обнаружения С тех пор как глубокое обучение вошло в область обнаружения объектов, фреймворки обнаружения в целом можно разделить на две основные категории:

a) Двухэтапная система обнаружения, которая включает этап предварительной обработки для предложения региона, что делает общий конвейер двухэтапным.

b) Одноэтапная система обнаружения, или система без предложения региона, которая представляет собой единственный предложенный метод, не разделяющий предложение обнаружения, что делает общий конвейер одноэтапным.

Как показано на рисунке 2, двухэтапные системы обнаружения находятся над осями, а одноэтапные системы обнаружения - под ними.

4234

Рис. 2 вехи в обнаружении объектов

Благодаря своей архитектуре, которая была создана для того, чтобы легко находить и извлекать признаки на изображении, CNN широко используются при классификации, сегментации и в задачх распознавания. Существует множество архитектур CNN, подходящих для распознавания объектов, и R-CNN [3] является одной из них.

R-CNN (сокращение от «Region Based CNN»), это основная модель, предложенная для детектирования объектов. Работает как обычный классификатор изображений. На вход сети подаются разные регионы изображения и для них делается предсказания. К сожалению, изначальная модель уже устарела, но архитектура R-CNN породила серию предметно ориентированных улучшенных моделей, в том числе: сеть Fast R-CNN [4] (быстрая R-CNN) для задачи классификации и регрессии покрывающего объект прямоугольника; сеть Faster R-CNN [5] (ускоренная Fast R-CNN), использующую вспомогательную подсеть для генерации регионов интереса. В 2016, Redmon предложил end-to-end метод детектирования объектов YOLO. YOLO является наиболее быстрой моделью нейронной сети, подход, используемый в ней, значительно отличается от R-CNN. Эта архитектура и была выбрана для реализации, т.к. она является наиболее быстрой и простой в программной реализации. В данной работе для детектирования масок на фото мы будем использовать архитектуру YOLO, а именно её последнюю модификацию YOLOv5.

4235

Рис. 3 схемы высокого уровня фреймворков для обнаружения объектов 3. Архитектур YOLOv5 и процесс обучения

В целом такую архитектуру можно представить в следующем виде:

4236

Рис. 4 сетевая структура Yolov5s

3.1. наборы данных

В данной работе эксперименты проводились на основе двух общедоступных наборов данных медицинских лицевых масок и данных, обработанных самостоятельно.

Первый общедоступный набор данных - это «COVID-19 Medical Face Mask Detection Dataset» (MFMDD) (https://www.kaggle.com/datasets/mloey1/medical-face-mask-detection-dataset). Набор данных MFMDD состоит из 682 изображений. На рис.5 показаны примеры изображений из MFMDD [6]. Второй общедоступный набор данных - это «Face Mask Dataset» (FMD) (https://www.kaggle.com/andrewmvd/face-mask-detection). Набор данных FMD состоит из 853 изображений. Некоторые образцы FMD представлены на рис.6.

Рис. 5 примеры изображений из MFMDD

4237

Рис. 6 примеры изображений из FMD

Третий набор данных - это изображения, полученные из публичного интернета с помощью поискового робота и маркированные с помощью программы labelimg.

Рис. 7 примеры изображений из публичного интернета

тренировочные данные валидационные данные тестовые данные

А

А

А

1200

400

400

Рис. 8 количество компонентов данных

Общее количество подготовленных изображений составило 2000, которые были разделены на три части: тренировочные, валидационные и тестовые. Соответствующие номера изображений - 1200, 400 и 400.

3.2. процесс маркировки данных В программе labelimg лица на фотографии выделяются прямоугольной рамкой и маркируются как «mask» и «face» соответственно.

4238

Рис. 9 процесс маркировки данных При каждом сохранении процесса маркировки создается файл в формате txt, в котором хранится информация о классификации изображений. 3.3. Процесс обучения и графический интерфейс

Рис. 10 блок-схема системы обнаружения изображений

Графический интерфейс был разработан в работе с помощью pyqt5. С помощью этого интерфейса можно выполнить функции распознавания изображений и видео.

4239

Результаты распознавания доступны после загрузки выбранного изображения в интерфейс, как показано на рисунках 11 и 12. В дополнение к результатам, отмеченным квадратиками в интерфейсе, количество масок и лиц можно увидеть в терминале python.

Рис. 11 Графический интерфейс 1

Ç* image detection О video detectic

image detection

update image

start detect

Run: window

(J 0:/yolov5-mask_detect/images/mask_detect4.jpg

j, Y0L0V5 2022-1-26 torch 1.8.6 CUDA:8 (NVIDIA GeForce RTX 3068 Laptop GPU, 6144H1B)

B 79 image 1/1 D:\yolov5-mask_detect\images\mask_detect4.jpg: 448x640 3 masks, 5 faces. Done. (8.825s)

- l

Рис. 12 Функция обнаружения изображений

4240

Рис. 13 Графический интерфейс 2

Рис. 14 Функция обнаружения видео

В интерфейсе обнаружения видео можно выбрать видео, вводимое камерой, или выбрать видеофайл. На рисунке 14 показаны результаты обнаружения видеоизображения, поступающего с камеры. 3.4. Анализ результатов

Данные импортируются в систему обучения, обучение завершается, и получаются два файла, содержащие информацию о весах: last.pt и best.pt, а

4241

также несколько графиков, показывающих хорошие и плохие результаты обучения. Точность распознавания для масок составляет 69,4%, а для лиц -97%.

Рис. 15 результаты обучения

Как видно на рисунке 12, ошибка детектирования постепенно уменьшается, а точность детектирования увеличивается в процессе обучения.

50 100

Рис. 16

4242

Обученная модель способна обвести лицо на входном изображении прямоугольной рамкой и пометить его словами mask и face. Результаты детектирования показаны на рисунках 12.

Рис. 17 результаты детектирования 1

Рис. 18 результаты детектирования 2

4. Заключение

Модель для определения того, надета ли маска, была обучена в работе с использованием YOLOv5. Модель обладает хорошей точностью при обнаружении лиц с масками и без масок на изображениях, содержащих множество объектов. Однако количество данных, используемых для обучения, невелико, и увеличение количества данных повысило бы точность модели.

4243

Литература

1. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779-788. https://doi.org/10.1109/CVPR.2016.91

2. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M., Berg A., Li F. (2015) ImageNet large scale visual recognition challenge.

3. Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 580-587. https://doi.org/10.1109/CVPR.2014.81

4. Girshick, R. (2015). Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), 1440-1448. https://doi.org/10.1109/ICCV.2015.169

5. Ren S., He K., Girshick R., Sun J. (2015) Faster R-CNN: Towards real time object detection with region proposal networks.

6. Mohamed Loey, Gunasekaran Manogaran, Mohamed Hamed N. Taha, Nour Eldeen M. Khalifa, Fighting against COVID-19: A novel deep learning model based on YOLO-v2 with ResNet-50 for medical face mask detection,Sustainable Cities and Society, Volume 65, 2021, https://doi.org/10.1016/j.scs.2020.102600

References

1. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779-788. https://doi.org/10.1109/CVPR.2016.91

2. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M., Berg A., Li F. (2015) ImageNet large scale visual recognition challenge.

4244

3. Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 580-587. https://doi.org/10.1109/CVPR.2014.81

4. Girshick, R. (2015). Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), 1440-1448. https://doi.org/10.1109/ICCV.2015.169

5. Ren S., He K., Girshick R., Sun J. (2015) Faster R-CNN: Towards real time object detection with region proposal networks.

6. Mohamed Loey, Gunasekaran Manogaran, Mohamed Hamed N. Taha, Nour Eldeen M. Khalifa, Fighting against COVID-19: A novel deep learning model based on YOLO-v2 with ResNet-50 for medical face mask detection,Sustainable Cities and Society, Volume 65, 2021, https://doi.org/10.1016/j.scs.2020.102600

© Ли Кай, Лу Чжоюе, 2022 Научно-образовательный журнал для студентов и преподавателей «StudNet» №5/2022.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для цитирования: Иванов И.И., Петров П.П. Система обнаружения ношения маски на основе глубокого обучения// Научно-образовательный журнал для студентов и преподавателей «ЗШёКеЪ» №5/2022.

4245

i Надоели баннеры? Вы всегда можете отключить рекламу.