Шаг в науку • № 3, 2024
ТЕХНИЧЕСКИЕ НАУКИ
УДК 004.89:656.021.2
ИСПОЛЬЗОВАНИЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЗАЦИИ УЧЕТА ТРАНСПОРТНОГО ПОТОКА
Белый Александр Александрович, магистрант, направление подготовки 09.04.02 Информационные системы и технологии, Оренбургский государственный университет, Оренбург e-mail: sashabelyy123@gmail.com
Научный руководитель Болодурина Ирина Павловна, доктор технических наук, профессор, заведующий кафедрой прикладной математики, Оренбургский государственный университет, Оренбург e-mail: ipbolodurina@yandex.ru
Аннотация. В связи с растущим количеством транспорта у населения России возникает необходимость создания эффективных транспортных систем, что, в свою очередь, требует оценки текущего состояния о ее нагрузке и определении мест, где могут возникать заторы. В представленной статье рассматривается процесс разработки программного обеспечения, которое позволяет автоматически вести учет транспортного потока на видео с помощью сверточных нейронных сетей.
Ключевые слова: искусственный интеллект, сверточные нейронные сети, транспортный поток. Для цитирования: Белый А. А. Использование сверточных нейронных сетей для автоматизации учета транспортного потока // Шаг в науку. - 2024. - № 3. - С. 20-24.
USING CONVOLUTIONAL NEURAL NETWORKS TO AUTOMATE TRAFFIC FLOW ACCOUNTING
Belyy Alexander Alexandrovich, postgraduate student, training program 09.04.02 Information systems and technologies, Orenburg State University, Orenburg e-mail: sashabelyy123@gmail.com
Research advisor: Bolodurina Irina Pavlovna, Doctor of Technical Sciences, Professor, Head of the Department of Applied Mathematics, Orenburg State University, Orenburg e-mail: ipbolodurina@yandex.ru
Abstract. In connection with the growing number of transport, the Russian population has a need to create effective transport systems, which, in turn, requires an assessment of the current state of its load and identification of places where congestion may occur. This article discusses the process of developing software that allows you to automatically record traffic flow on video using convolutional neural networks.
Key words: artificial intelligence, convolutional neural networks, traffic flow.
Cite as: Belyy, A. A. (2024) [Using convolutional neural networks to automate traffic flow accounting]. Shag v nauku [Step into science]. Vol. 3, рр. 20-24.
Согласно данным Росстата с 2000 по 2022 год в Российской Федерации наблюдается рост собственного транспорта [3]. Большое количество транспортных средств в городах провоцирует рост протяженности
и вместе с ней сложности дорожной сети. Из-за нагрузок, которые приходятся на транспортную сеть города, возникает проблема заторов. Для решения этой проблемы необходимо проводить мониторинг теку-
Контент достутен под лицензией Creative Commons Attribution 4.0 International License. This work is licensed under a Creative Commons Attribution 4.0 International License. OA. А. Белый, 2024
щего состояния загруженности транспортного потока, а затем принимать решения на основе полученных данных. Так как транспортная сеть городов имеет большое количество дорог, перекрестков и развязок, обработка такого объема данных человеком может занять большое количество времени, а также привести к неустранимым погрешностям. Целью работы является создание приложения для автоматизированного учета транспортного потока.
Для получения данных о направлении движения автотранспорта применяются различные технические средства. Например, это могут быть магнитно-индуктивные, радиолокационные или инфракрасные детекторы [1]. В данной работе предлагается использование видеокамер, которые в дальнейшем позволяют посредством нейронной сети производить обнаружение и классификацию различных типов транспортных средств.
В рамках данной работы приводится описание разработанного приложения для автоматического учета транспортного потока.
Для распознавания объектов на изображении применяются сверточные нейронные сети (convolutional neural networks, CNN), представляющие собой широкий класс архитектур, основная идея которых состоит в переиспользовании одних и тех же частей нейронной сети для работы с разными маленькими локальными участками входов [2]. CNN часто используются для обработки изображений, так как они обладают свойством учитывать информацию не только непосредственно о самих пикселях изображения, но и об их расположении относительно друг друга.
Существует несколько популярных архитектур нейронных сетей для решения задачи распознавания объектов, например, Region-based CNN (R-CNN) [4] или Faster R-CNN [6]. В данной работе использовалась модель YOLOv8 (You Only Look Once, архитектура нейронной сети для обнаружения объектов в реальном времени [5]). Ключевая идея, лежащая в основе работы данной архитектуры, заключается в использовании предобученной модели для классификации изображений, в которой последние слои заменены на слои для предсказания информации об ограничивающих рамках (bounding box) и классе объекта, который содержится в конкретной рамке.
В качестве набора данных использовались фотографии, полученные с помощью сервиса maps.ufanet. ru, позволяющего пользователю получать прямую трансляцию с камер видеонаблюдения, находящихся в различных городах России. Для данной работы был собран и размечен набор из 170 изображений, на которых каждое транспортное средство подпадает в один из четырех возможных классов: мотоцикл
(motorcycle), легковой автомобиль (car), грузовой транспорт (truck), автобус (bus). Разметка изображения проводилась в системе Roboflow, обладающей удобными инструментами для проведения разметки данных и автоматического создания аугментации.
Продолжительность обучения модели составила 100 эпох, в результате которой модель достигла следующих показателей:
- точность (Precision) модели составляет 67,7%;
- полнота (Recall) составляет 62,8%;
- средняя точность (mAP) составляет 64,9%.
Для того чтобы определить степень совпадения
двух ограничивающих рамок, используют метрику Intersection of Union (IoU). Ее значение равно отношению площади пересечения двух рамок к площади фигуры, полученной объединением двух рамок.
Для оценки качества работы модели изображение, размеченное человеком, сравнивается с аналогом, размеченным моделью. В результате сравнения возможны несколько вариантов:
- TruePositive (TP) - это случай, когда модель правильно обнаружила объект, то есть ограничивающая рамка и класс объекта на обоих изображениях совпадают. Для того чтобы определить степень совпадения двух ограничивающих рамок, используют метрику IoU. Будем считать, что рамки совпадают, если значение IoU > 0.5;
- FalsePositive (FP) - случай, когда модель обнаружила объект на изображении, но неверно определен класс или IoU между предсказанной и истинной ограничивающей рамкой меньше 0.5;
- FalseNegative (FN) - случай, когда IoU = 0, то есть модель не обнаружила объект на изображении.
Посчитав количество таких случаев на тестовом наборе данных, можно вычислить значения precision и recall по следующим формулам:
Значение precision отображает долю объектов, верно классифицированных среди всех объектов, отнесенных классификатором к этому классу. Значение recall показывает отношение верно классифицированных объектов класса к общему числу элементов этого класса. Полученные значения precision, recall и mAP означают, что в среднем 6 из 10 транспортных средств будут верно распознаны на изображении.
Также для учета транспортного потока на видео необходимо сопоставлять обнаруживаемый транспорт между кадрами. Для решения данной задачи ис-
пользуются различные алгоритмы отслеживания, лучшим из которых, согласно исследованию [7], является алгоритм Bytetrack.
В разрабатываемом программном обеспечении пользователь имеет возможность по нажатию кнопки мыши устанавливать отрезки для различных частей
Таблица 1. Таблица учета транспортного потока
перекрестка. При пересечении транспортным средством двух отрезков программное средство регистрирует данные в табличной форме (таблица 1). В столбце date фиксируется время пересечения, столбцы from и to содержат в себе ID отрезков, которые транспортное средство пересекло, столбец class указывает его тип.
date from to class
0 2024-05-01 07:00:46.705198 1 4 car
1 2024-05-01 07:00:54.556439 2 1 car
2 2024-05-01 07:00:57.116173 1 3 car
Источник: разработано автором
На рисунке 1 представлен пример размеченного пользователем перекрестка.
Рисунок 1. Отображение отрезков перекрестка
Источник: разработано автором
С помощью разработанного приложения удалось получить данные об интенсивности движения на четырехстороннем перекрестке в течение пяти часов.
Как можно заметить из рисунка 2, из рассматриваемого периода максимальная интенсивность движения на представленном перекрестке составляет чуть
более 450 транспортных средств в час.
Полученные данные позволяют учитывать также направление движения транспорта. На рисунке 3 можно заметить, что самым частым направлением движения на исследуемом перекрестке является направление от отрезка 1 до отрезка 4.
Рисунок 2. Диаграмма почасовой интенсивности движения транспортных средств на перекрестке
Источник: разработано автором
й н
Л 120 О С о
д
й 100 ^
н
к
н
£
8:00 Время суток
2->1
1->3
Рисунок 3. Изменение количества транспортных средств в зависимости от времени и направления движения
Источник: разработано автором
В данной статье представлен процесс разработки программного обеспечения для учета транспортного потока на видео с помощью сверточной нейронной сети. В ходе работы произведена разметка изображений городского транспорта города Оренбург, а также
успешно создано клиент-серверное приложение, позволяющее пользователю загрузить видеофрагмент для анализа, установить линии перекрестка, на котором требуется учитывать направление движения тран-спорта,и дождатьсязавершенияработы программы.
180
160
140
80
60
40
20
0
Учитывая, что разработанное приложение позволяет сократить время на подсчет трафика и получить более точные данные о ситуации на дорогах, интерес к нему проявляют специалисты в области обеспечения транспортной инфраструктуры. Приложение требует дополнительных исследований и улучшений. Например, предлагается использовать параллельную
обработку данных с нескольких камер наблюдения, а также использовать системы управления базами данных для создания более подробной схемы загруженности транспортного потока, что, в свою очередь, может стать основой для различных интеллектуальных систем его регулирования или предсказания.
Литература
1. Мосева М. С. О методах сбора и анализа основных характеристик транспортного потока // T-comm: Телекоммуникации и транспорт. - 2022. - Т. 16, № 2. - С. 29-38. - https://doi.org/10.36724/2072-8735-2022-16-2-29-38.
2. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей -СПб.: Питер, 2018. - 480 с.
3. Число собственных транспортных средств на 1000 человек населения по субъектам Российской Федерации // Федеральная служба государственной статистики. - URL: https://rosstat.gov.ru/storage/mediabank/ obesp_legk_avto.xls (дата обращения: 28.03.2024).
4. Girshick R. B. et al. (2014) Rich feature hierarchies for accurate object detection and se-mantic segmentation.
2014 IEEE Conference on Computer Vision and Pattern Recognition. pp. 580-587. - https://doi.org/10.1109/ CVPR.2014.81 (In Eng.).
5. Redmon J. et al. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 779-788. - https://doi.org/10.1109/CVPR.2016.91. (In Eng.).
6. Ren S. et al. (2016) Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence. Т. 39, No. 6, pp. 1137-1149. -https://doi.org/10.1109/ TPAMI.2016.2577031. (In Eng.).
7. Zhang Y. et al. (2022) Bytetrack: Multi-object tracking by associating every detection box. European conference on computer vision. -https://doi.org/10.1007/978-3-031-20047-2_1. (In Eng.).
Статья поступила в редакцию: 03.05.2024; принята в печать: 03.09.2024.
Автор прочитал и одобрил окончательный вариант рукописи.