Интеллектуальные, информационные и программные системы
УДК 004.8: 504.3 DOI:10.38028/ESI.2022.28.4.010
Решение проблемы объединения прогнозов выделенных на изображении объектов дыма Лаптев Никита Витальевич, Гергет Ольга Михайловна, Кравченко Андрей Александрович, Лаптев Владислав Витальевич, Колпащиков Дмитрий Юрьевич
Национальный исследовательский Томский политехнический университет, Россия, Томск, [email protected]
Аннотация. В работе представлен алгоритм кластеризации прогнозируемых областей, реализованный в системе раннего обнаружения лесных пожаров. В основе системы лежит модель нейронной сети для поиска объекта возгорания (технология «Object detection»). На выходе модели нейронной сети формируется массив ограничивающих рамок предполагаемого местоположения объектов данного класса, метки классов и оценки вероятности принадлежности к классу. Задача рассмотренного в статье алгоритма состоит в выделении ограничивающей рамкой искомых объектов и расчете среднего значения вероятности принадлежности классу, посредством объединения и усреднения координат углов ограничивающих рамок, которые имеют пересечения с искомым объектом. В статье приведен краткий обзор существующих алгоритмов для вывода результирующей ограничивающей рамки на изображении. Приведено обоснование выбора модели нейронной сети для системы раннего обнаружения пожаров (технология «Object detection»). Представлены результаты работы сравнения алгоритмов NMS, Soft-NMS и алгоритма кластеризации площадей, для решения задачи обнаружения дымового облака на изображении.
Ключевые слова: обнаружение объектов, ограничивающая рамка, алгоритм, классификация, локализация
Цитирование: Лаптев Н.В. Решение проблемы объединения прогнозов выделенных на изображении объектов дыма / Н.В. Лаптев, О.М. Гергет, А.А. Кравченко, В.В. Лаптев, Д.Ю. Колпащиков // Информационные и математические технологии в науке и управлении. - 2022. - № 4(28). - С. 136-143. -DOI:10.38028/ESI.2022.28.4.010.
Введение. Раннее обнаружение источника возгорания в лесном массиве, точная локализация и принятие своевременных мер имеют решающее значение для минимизации нанесенного окружающей среде ущерба и предотвращения экологических катастроф. Обнаружение дыма на видео - нетривиальная задача для нейронной сети из-за большого разнообразия форм, скорости, направления движения, цветовых тонов и плотности дымового облака, так как интенсивность истечения дыма зависит от длительности и количества вещества, подвергшегося горению. Может возникнуть ситуация, связанная с отсутствием дыма на изображениях в разные моменты времени. Для решения данной проблемы авторами была разработана система раннего обнаружения пожаров в лесном массиве [1], анализирующая не отдельно взятые кадры видеофрагмента, а последовательность изображений, содержащая информацию о динамике объектов. В основе данной системы лежит технология «Object detection» (Обнаружение объектов).
Обнаружение объектов - это задача обнаружения экземпляров семантических объектов определенного класса на изображениях и видео посредством технологий компьютерного зрения [2]. Обнаружение является важной задачей для ряда практических задач, таких как: обнаружение пожаров [3-5], автономное вождение [6, 7], медицинская визуализация [8, 9], робототехника и другие. Модели обнаружения объектов обычно возвращают предлагаемые местоположения объектов данного класса, метки классов и оценки достоверности. В нашем случае для анализа в систему подается серия изображений, охватывающая весь временной отрезок видеофрагмента. В результате работы система выдает несколько объектов детекти-
рования (прогнозов) с расчетом степени уверенности отношения класса к объекту возгорания и координаты углов ограничивающей рамки (границы детектируемых объектов). В итоге стоит задача объединить координаты углов, выявленных посредством работы нейронной сети, относящиеся к одному объекту, и получить среднее значение вероятности.
Как правило, прогнозируемые рамки выбираются с использованием метода не максимального подавления (NMS) [10]. Суть данного метода заключается в следующем: 1) осуществляется сортировка всех ограничивающих рамок по их показателям вероятности принадлежности к классу; 2) вычисляется ограничивающая рамка с максимальной оценкой вероятности принадлежности к классу; 3) все оставшиеся поля отфильтровываются. Алгоритм опирается на пороговую фильтрацию для отбрасывания избыточных блоков. В работе [11] использовалась дифференцируемая модель для изучения NMS и рассмотрена её модификация Soft-NMS для улучшения производительности фильтрации.
Алгоритмы NMS и Soft-NMS хорошо работают на одной модели нейронной сети, когда не требуется объединять обнаружения с ансамбля моделей нейронных сетей или серии изображений. Рассматриваемые алгоритмы фильтруют ограничивающие рамки и не производят расчет усреднения локализации прогнозов обнаруженных объектов, объединенных с серии изображений. Анализ последовательности изображений, а также ансамблирование моделей нейронных сетей используются в системах, не требующих логического вывода в реальном времени. Объединение прогнозов с последовательности изображений или нескольких моделей нейронных сетей и вывод результата на итоговом изображении обычно дают более точные прогнозы в сравнении с одной моделью нейронной сети [12].
В этой статье мы предлагаем метод для объединения (прогнозов) координат углов ограничивающих рамок (границы детектируемых объектов) и их уверенности отношения класса к объекту возгорания. В отличие от методов NMS и Soft-NMS, которые просто удаляют часть прогнозов, предлагаемый алгоритм использует все координаты углов ограничивающих рамок и их оценки уверенности, для расчета итоговой огранивающий рамки.
1. Описание системы раннего обнаружения пожароопасных объектов в лесном массиве. Постановка задачи. Алгоритм кластеризации прогнозов является составляющей частью системы раннего обнаружения пожаров в лесном массиве, которая представлена в статье [1]. Суть данной системы заключается в следующем: 1) в систему на вход подается видеофрагмент продолжительностью 10 секунд; 2) видеофрагмент делится на кадры, из которых выбираются 7 изображений; 3) на выбранных кадрах выделяются динамические признаки объектов, в частности, присущие дымовому облаку; 4) каждый полученный кадр последовательно обрабатывается моделью распознавания объектов; 5) на выходе сеть выдает координаты углов прямоугольной рамки, включающие обнаруженные объекты и вероятность принадлежности объекта к классу. Таким образом, формируется массив ограничивающих рамок, описывающих один или несколько объектов. Предлагаемый алгоритм объединяет данный массив в одну или несколько ограничивающих рамок в зависимости от количества обнаруженных объектов.
В основе системы раннего обнаружения пожаров лежит модель нейронной сети (НС) EfficientDet-D1. Предложенная модель НС была выбрана на основе результатов, представленных в таблице 1, раздел «Результаты». Данные для обучения и тестирования системы получены из открытых источников, в частности, данные открытых онлайн ресурсов Nevada Seismological Laboratory (University of Nevada) [13, 14], Center for wildfire research (основанного при поддержке University of Split) [15], видеозаписи съемки лесных пожаров Пермского лесного хозяйства [16], видеозаписи базы данных Калифорнийского университета в Сан-Диего HPWREN [17]. С целью непосредственного обучения все данные были предварительно размечены с использованием средств web-сервиса «SuperVisely»[18]. Общее количество
собранных видеозаписей составило 550 единиц, из них содержащих очаги возгорания - 350 единиц и 200 видеозаписей без пожаров. Для обучения из каждой видеозаписи взята последовательность из 7 кадров, это количество кадров получено экспериментально.
2. Описание алгоритма кластеризации площадей. В основе алгоритма обобщения кластеров обнаруженных объектов лежит принцип работы алгоритма БББСЛК [19]. Отличительной особенностью предлагаемого алгоритма является использование расчета площади пересечения ограничивающих рамок вместо результатов расчета расстояния между точками. Если представить матрицу расстояний как матрицу смежности, то для алгоритма БББСЛК она будет выглядеть неориентированным графом, а для алгоритма кластеризации площадей будет соответствовать двунаправленному ориентированному графу.
Блок-схема работы алгоритма постобработки проиллюстрирована на рис. 1 и заключается в следующей последовательности действий. На вход нейронной сети поступают 5 кадров одного ракурса, но разнесенные во временном промежутке. Так как дым имеет весьма нестабильную структуру (плотность, изменчивость формы, направление движения), то на каждом кадре имеем отличную от других кадров уникальную форму дымового облака. Таким образом, алгоритм в большинстве случаев выделяет наиболее характерные участки дыма в данный момент времени, что отчетливо прослеживается на рис. 2, представленном в разделе 3.
При таком подходе возможны случаи, когда на результирующем кадре может быть до 25 ограничивающих рамок, которые с разной степенью уверенностью выделяют один и тот же объект. Эти боксы группируются в кластеры по признаку процента перекрытия при наличии в кластере 2-х и более боксов.
Алгоритм кластеризации прогнозов:
1. На вход алгоритма поступает список всех обнаруженных ограничивающих рамок (боксов) на кадре, а также их вероятности. Данный список фильтруется на предмет прохождения минимального порога по вероятности ограничивающей рамки. Итоговый список содержит в себе все детекции, отсортированные в порядке уменьшения степени уверенности.
2. Затем формируется матрица размерностью пХп, где п - количество элементов списка. Ячейки матрицы заполняются по схеме, где каждая ячейка матрицы - это метрика пересечения каждого бокса с каждым боксом. Пересечение боксов рассчитывается по формуле.
Л; П Л,-/■■ =—--
11 4
где /¿у - площадь пересечения / - го и -го боксов, Л^и Лу площади соответствующих боксов. Главная диагональ матрицы отводится под хранение номеров кластеров конкретного бокса. На данном этапе все боксы в кластере нумеруются, как не вошедшие в кластер.
3. Далее запускается цикл, операции в котором будут выполняться до тех пор, пока меняются значения в главной диагонали матрицы на новые номера кластеров.
4. Если находится минимальное необходимое количество ограничивающих рамок (МтБатр^), то найденным ограничивающим рамкам присваивается номер кластера. Рекурсивно для каждой из найденных рамок запускается алгоритм формирования кластеров для нахождения цепочек связей внутри кластера.
5. После нахождения всех рамок в кластере номер кластера инкрементируется и запускается новый поиск по матрице.
6. После определения всех кластеров определяются центры масс координат, верхнего и
нижнего углов ограничивающей рамки для по формуле:
=
где хс - координата нового центра угла, х£ - координата угла обнаруженного объекта, -вероятность обнаруженного объекта.
Рис. 1. Блок схема алгоритма кластеризации прогнозов 7. Вычисление новой вероятности прогнозируемой рамки или рамок в зависимости от количества обнаруженных кластеров.
5С =
где 5С - вероятность целевого бокса, - вероятность обнаруженного объекта.
3. Результаты. Для тестирования алгоритма была использована система раннего обнаружения пожаров в лесном массиве, описанная в статье [1]. В исследовании были рассмотрены модели обнаружения объектов: EfficientDet-D0, EfficientDet-D1, SSD ResNet50 v1, SSD MobileNet v2, Faster R-CNN ResNet50 V1, Faster R-CNN Inception ResNet. Все модели обучены в одинаковых условиях. Оценка качества работы нейросетевых моделей проведена по 3 метрикам: Mean average precision (mAP) при пороговом значение IoU в 50%, Accuracy (точность классификации) и Speed (время обработки одного кадра). По результатам тестирования различных моделей нейронных сетей наилучший результат продемонстрировала модель Effi-cientDet-D1, точность классификации которой составила 69% и средняя точность 51,4%.
Таблица 1. Оценка результативности моделей НС на тестовой выборке
Model name Input size Weight,mb Accuracy MAP Speed, s
EfficientDet-D0 512x512 18,6 0,6 0,336 0,03
EfficientDet-D1 640x640 24.9 0,69 0,514 0,11
SSD ResNet50 v1 640x640 10,1 0,39 0,64 0.08
SSD MobileNet v2 640x640 7,215 0,64 0,46 0,04
Faster R-CNN ResNet50 V1 640x640 4,597 0.45 0,32 0,26
Faster R-CNN Inception Res-Net V2 640x640 18,2 0.55 0,12 0.58
Оценка результативности алгоритмов кластеризации площадей оценивалась по следующим метрикам: Precision (Точность), Recall (Полнота), Mean Average Precision (средняя точность AP) при пороговом значении IoU в 25% (порог рассчитан эмпирическим путем), IOU (Площадь пересечения). Результаты тестирования алгоритма представлены в таблице 2. Тестирование алгоритма проходило для 2-5 кадров. Показатель точности (Precision) для разработанного алгоритма составил 89%, что на 17% выше, чем у алгоритма NMS и на 13% выше, чем у Soft-NMS. Данная метрика показывает, что разработанный алгоритм хорошо справляется с фильтрацией единично обнаруженных объектов. Показатель полноты отличается в пределах погрешности, что указывает на то, что алгоритм не отсекает истинно верные обнаруженные объекты. Средняя точность системы с использованием разработанного алгоритма выше на 6% относительно использования аналоговых алгоритмов. Точность локализации составила 56%, что также выше, чем у аналогов.
Рис. 2. Пример результата работы алгоритма кластеризации прогнозов 4104 0 «Information and mathematical technologies in science and management» 2022 № 4 (28)
Таблица 2. Оценка результативности работы алгоритмов вывода прогнозов
АКП NMS Soft-NMS
№ Pr Rc mAP IOU Pr Rc mAP IOU Pr Rc mAP IOU
2 0,92 0,79 0,84 0,59 0,82 0,9 0,86 0,52 0,76 0,9 0,84 0,25
3 0,9 0,9 0,86 0,56 0,74 0,92 0,85 0,53 0,75 0,9 0,86 0,24
4 0,89 0,91 0,89 0,56 0,72 0,92 0,83 0,52 0,76 0,87 0,83 0,23
5 0,84 0,91 0,88 0,58 0,69 0,93 0,83 0,53 0,72 0,9 0,83 0,23
Заключение. Рассмотренный в статье алгоритм входит в состав системы обнаружения пожароопасных объектов на видеоряде и позволяет объединить ограничивающие рамки предсказанных объектов с нескольких изображений на результирующем изображении с повышением точности локализации. В отличие от алгоритмов NMS и Soft-NMS, предлагаемый алгоритм использует все координаты углов ограничивающих рамок и их оценки уверенности, для расчета итоговой огранивающей рамки. Таким образом, анализ последовательности изображений и усреднение предсказаний позитивно влияют на точности детектирования и локализации. Применение алгоритма объединения предсказаний результатов работы нейронной сети повысило точность локализации на 4% и среднюю точность работы системы на 6%. В результате проведенного исследования можно сказать о высокой эффективности алгоритма.
Список источников
1. Laptev N. Visualization System for Fire Detection in the Video Sequences. Scientific Visualization, 2021, vol. 13, no. 2, pp. 1-9.
2. Szeliski R. Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
3. Jindal P. Real-time wildfire detection via image-based deep learning algorithm. Soft computing: theories and application. Singapore: Springer Singapore, 2021, pp. 539-550.
4. Oh S.H. Early wildfire detection using convolutional neural network. Frontiers of computer visio. Singapore: Springer Singapore, 2020, pp. 18-30.
5. Gaur A. Video flame and smoke based fire detection algorithms: A literature review. Fire technol, 2020, vol. 56, no. 5, pp. 1943-1980.
6. Geiger A. Vision meets robotics: The kitti dataset. Int. J. Rob. Res. Sage Publications Sage UK: London, England, 2013, vol. 32, no. 11, pp. 1231-1237.
7. Dollar P. Pedestrian detection: A benchmark. 200 IEEE conference on computer vision and pattern recognition. IEEE, 2009, pp. 304-311
8. Danilov V. Comparative study of deep learning models for automatic coronary stenosis detection in x-ray angiography. CEUR Workshop Proc. CEUR-WS, 2020, vol. 2744.
9. Danilov V.V. Boosting segmentation accuracy of the deep learning models based on the synthetic data generation. Available at: http://noa.gwlb.de (accessed: 02.12.2022).
10. Neubeck A., Van Gool L. Efficient non-maximum suppression. 18th International Conference on Pattern Recognition (ICPR'06). IEEE, 2006, vol. 3, pp. 850-855.
11. Bodla N. Soft-NMS--improving object detection with one line of code. Proceedings of the IEEE international conference on computer vision, 2017, pp. 5561-5569
12. Okun O., Valentini G., Re M. Ensembles in machine learning applications. Springer Science & Business Media, 2011, vol. 373.
13. Nevada Seismological Laboratory. Available at: https://www.youtube.com/user/ nvseismolab/about (accessed: 02.12.2022).
14. Nevada Seismological Laboratory,University of Nevada. Available at: http://www.seismo. unr.edu (accessed: 02.12.2022).
15. Wildfire Observers and Smoke Recognition Available at: http://wildfire.fesb.hr (accessed: 19.11.2022).
16. Perm forest fire center. Available at: https://www.youtube.com/channel/ UCsKn1hQgGh5n7NGoqLNoh_Q/videos (accessed: 19.11.2022).
17. Cameras from various HPWREN related sites. Available at: http://hpwren.ucsd.edu/ cameras/ (accessed: 16.04.2022).
18. Supervisely - Web platform for computer vision. Annotation, training and deploy. Available at: https://supervise.ly/ (accessed: 02.12.2022).
19. Ester M.A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, 1996.
Лаптев Никита Витальевич. Аспирант ФГАОУ ВО НИ ТПУ, инженер лаборатории НОЛ ОАБД ИШИТР, AuthorID: 1084295, SPIN: 2735-2600, ORCID: 0000-0003-0709-9974, [email protected], Россия, Томск.
Гергет Ольга Михайловна. Д.т.н., профессор, ФГАОУ ВО НИ ТПУ, профессор отделения информационных технологий, AuthorID: 115286, SPIN: 9352-4215, ORCID: 0000-0002-6242-9502, [email protected], Россия, Томск.
Кравченко Андрей Александрович. Магистрант, ФГАОУ ВО НИ ТПУ, AuthorID: 1091199, SPIN: 9114-4226, ORCID: 0000-0001-6828-3279, [email protected], Россия, Томск.
Лаптев Владислав Витальевич. Аспирант, ФГАОУ ВО НИ ТПУ, AuthorID: 1091296, SPIN: 6814-2465, ORCID: 0000-0001-8639-8889, [email protected], Россия, Томск.
Колпащиков Дмитрий Юрьевич. Аспирант, ФГАОУ ВО НИ ТПУ, Инженер лаборатории НОЛ ОАБД ИШИТР, AuthorID: 912859, SPIN: 8652-2223, ORCID: 0000-0001-8915-0918, [email protected], Россия, Томск.
UDC 004.8:504.3 D01:10.38028/ESI.2022.28.4.010
Solving the issue of combining predictions of smoke objects highlighted in images
Nikita V. Laptev, Olga M. Gerget, Andrey A. Kravchenko, Vladislav V. Laptev, Dmitry Yu. Kolpashchikov
National Research Tomsk Polytechnic University, Russia, Tomsk, [email protected]
Abstract. The paper presents an algorithm for clustering the areas of predicted areas, implemented in a system for the early detection of forest fires. The system is based on a neural network model for searching for a fire object detection. At the output of the neural network model, an array of bounding boxes, the estimated location of objects of a given class, class labels, and estimates of the probability of belonging to a class are formed. The task of the algorithm considered in the article is to select the desired objects with a bounding box and calculate the average value of the probability of belonging to a class by combining and averaging the bounding boxes that have intersections with the desired object. The article provides a brief overview of existing algorithms for displaying the resulting bounding box on an image. The rationale for choosing a neural network model for an early fire detection system is given. The results of the comparison of the NMS, Soft-NMS algorithms and the area clustering algorithm for solving the problem of detecting a smoke cloud in an image are presented. Keywords: object detection, bounding box, algorithm, classification, localization
References
1. Laptev N. Visualization System for Fire Detection in the Video Sequences. Scientific Visualization, 2021, vol. 13, no. 2, pp. 1-9.
2. Szeliski R. Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
3. Jindal P. Real-time wildfire detection via image-based deep learning algorithm. Soft computing: theories and application. Singapore: Springer Singapore, 2021, pp. 539-550.
4. Oh S.H. Early wildfire detection using convolutional neural network. Frontiers of computer visio. Singapore: Springer Singapore, 2020, pp. 18-30.
5. Gaur A. Video flame and smoke based fire detection algorithms: A literature review. Fire technol, 2020, vol. 56, no. 5, pp. 1943-1980.
6. Geiger A. Vision meets robotics: The kitti dataset. Int. J. Rob. Res. Sage Publications Sage UK: London, England, 2013, vol. 32, no. 11, pp. 1231-1237.
7. Dollar P. Pedestrian detection: A benchmark. 200 IEEE conference on computer vision and pattern recognition. IEEE, 2009, pp. 304-311
8. Danilov V. Comparative study of deep learning models for automatic coronary stenosis detection in x-ray angi-ography. CEUR Workshop Proc. CEUR-WS, 2020, vol. 2744.
9. Danilov V.V. Boosting segmentation accuracy of the deep learning models based on the synthetic data generation. Available at: http://noa.gwlb.de (accessed: 02.12.2022).
10. Neubeck A., Van Gool L. Efficient non-maximum suppression. 18th International Conference on Pattern Recognition (ICPR'06). IEEE, 2006, vol. 3, pp. 850-855.
11. Bodla N. Soft-NMS--improving object detection with one line of code. Proceedings of the IEEE international conference on computer vision, 2017, pp. 5561-5569
12. Okun O., Valentini G., Re M. Ensembles in machine learning applications. Springer Science & Business Media, 2011, vol. 373.
13. Nevada Seismological Laboratory. Available at: https://www.youtube.com/user/ nvseismolab/about (accessed: 02.12.2022).
14. Nevada Seismological Laboratory,University of Nevada. Available at: http://www.seismo. unr.edu (accessed: 02.12.2022).
15. Wildfire Observers and Smoke Recognition Available at: http://wildfire.fesb.hr (accessed: 19.11.2022).
16. Perm forest fire center. Available at: https://www.youtube.com/channel/ UCsKn1hQgGh5n7NGoqLNoh_Q/videos (accessed: 19.11.2022).
17. Cameras from various HPWREN related sites. Available at: http://hpwren.ucsd.edu/ cameras/ (accessed: 16.04.2022).
18. Supervisely - Web platform for computer vision. Annotation, training and deploy. Available at: https://supervise.ly/ (accessed: 02.12.2022).
19. Ester M.A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, 1996.
Nikita V. Laptev. Рostgraduate student, National Research Tomsk Polytechnic University, Engineer of Research Laboratory for Processing and Analysis of Big Data, AuthorlD: 1084295, SPIN: 2735-2600, ORCID: 0000-0003-07099974, [email protected], Russia, Tomsk.
Olga M. Gerget. Professor, National Research Tomsk Polytechnic University, Professor of Division for Information Technology, AuthorlD: 115286, SPIN: 9352-4215, ORCID: 0000-0002-6242-9502, [email protected], Russia, Tomsk.
Andrey A. Kravchenko. Undergraduate student, National Research Tomsk Polytechnic University, AuthorID: 1091199, SPIN: 9114-4226, ORCID: 0000-0001-6828-3279, [email protected], Russia, Tomsk.
Vladislav V. Laptev. Рostgraduate student, National Research Tomsk Polytechnic University, AuthorID: 1091296, SPIN: 6814-2465, ORCID: 0000-0001-8639-8889, [email protected], Russia, Tomsk.
Dmitry Yu. Kolpashchikov. Postgraduate student, National Research Tomsk Polytechnic University, engineer of the laboratory of NOL OABD ISHITR, AuthorID: 912859, SPIN: 8652-2223, ORCID: 0000-0001-8915-0918, [email protected], Russia, Tomsk.
Статья поступила в редакцию 26.09.2022; одобрена после рецензирования 21.11.2022; принята к публикации 25.11 2022.
The article was submitted 09/26/2022; approved after reviewing 11/21/2022; accepted for publication 11/25/2022.