Научная статья на тему 'РАЗРАБОТКА ПРИЛОЖЕНИЯ РАЗМЕТКИ АВТОТРАНСПОРТА ДЛЯ РЕШЕНИЯ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ: АНАЛИЗ СУЩЕСТВУЮЩИХ РЕШЕНИЙ'

РАЗРАБОТКА ПРИЛОЖЕНИЯ РАЗМЕТКИ АВТОТРАНСПОРТА ДЛЯ РЕШЕНИЯ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ: АНАЛИЗ СУЩЕСТВУЮЩИХ РЕШЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
120
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
компьютерное зрение / нейронные сети / разработка приложений / датасет / 3D аннотация / 3D разметка / разметка изображений / computer vision / neural networks / application development / dataset / 3D annotation / 3D markup / image markup

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Маштаков Максим Михайлович, Хуторной Ярослав Викторович, Болсуновская Марина Владимировна, Широкова Светлана Владимировна

В статье приводится обзор существующих подходов к созданию датасетов и приложений для разметки данных на изображениях, используемых в решении задач компьютерного зрения. Цель обзора заключается в определении существующего уровня проработки данной научной тематики, а также в определении наиболее подходящих способов решения данных задач в случае конкретного этапа проекта. В качестве информационной базы аналитического исследования используются научные труды, опубликованные в международных рецензируемых журналах и сборниках докладов конференций за последние 10 лет. В статье рассмотрены 3 вида научных работ. Во-первых, статьи, связанные с проектами по созданию датасетов, авторы которых сопровождали своё исследование созданием приложения для разметки изображений с открытым кодом. Во-вторых, были рассмотрены статьи, связанные с симуляторами дорожного движения, которые используются для обучения и тестирования нейронных сетей, решающих, например, задачи определения. В-третьих, были рассмотрены статьи, посвященные уже готовым датасетам, которые используются в решении задач обучения нейронных сетей в сфере компьютерного зрения. Результаты работы подтверждают перспективность данного направления, а способствует реализации собственного приложения авторов для разметки изображений. Результаты работы могут быть использованы исследователями при обосновании актуальности собственных исследований по данной тематике.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Маштаков Максим Михайлович, Хуторной Ярослав Викторович, Болсуновская Марина Владимировна, Широкова Светлана Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A VEHICLE MARKING APP FOR SOLVING COMPUTER VISION PROBLEMS: A LITERATURE REVIEW

The article provides an overview of existing approaches to creating datasets and applications for labeling data on images used in solving computer vision problems. The purpose of the review is to determine the current level of elaboration of this scientific subject, as well as to determine the most appropriate ways to solve these problems in the case of a particular stage of the project. As an information base for analytical research, scientific papers published in international peer-reviewed journals and collections of conference reports over the past 10 years are used. The article considers 3 types of scientific works. First, articles related to dataset projects, the authors of which accompanied their research with the creation of an open-source image markup application. Secondly, articles related to traffic simulators were reviewed, which are used to train and test neural networks that solve, for example, determination problems. Thirdly, articles were considered on ready-made datasets that are used in solving the problems of training neural networks in the field of computer vision. The results of the work confirm the prospects of this direction and contribute to the implementation of the authors’ own application for marking images. The results of the work can be used by researchers in substantiating the relevance of their own research on this topic.

Текст научной работы на тему «РАЗРАБОТКА ПРИЛОЖЕНИЯ РАЗМЕТКИ АВТОТРАНСПОРТА ДЛЯ РЕШЕНИЯ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ: АНАЛИЗ СУЩЕСТВУЮЩИХ РЕШЕНИЙ»

УДК 004.8

doi:10.18720/SPBPU/2/id23-71

Маштаков Максим Михайлович \

специалист лаборатории «Промышленные системы

потоковой обработки данных»;

Хуторной Ярослав Викторович ,

аспирант;

-5

Болсуновская Марина Владимировна ,

заведующий лабораторией «Промышленные системы потоковой

обработки данных», канд. техн. наук, доцент;

Широкова Светлана Владимировна 4, доцент ВШУБ ИПМЭиТ, канд. техн. наук, доцент

РАЗРАБОТКА ПРИЛОЖЕНИЯ РАЗМЕТКИ АВТОТРАНСПОРТА ДЛЯ РЕШЕНИЯ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ: АНАЛИЗ СУЩЕСТВУЮЩИХ РЕШЕНИЙ

2, з, 4 Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

1 2 mashtakov.mm@mail.ru, hutornoj_yav@spbstu.ru,

3 bolsun_mv@spbstu.ru, 4 swchirokov@mail.ru

Аннотация. В статье приводится обзор существующих подходов к созданию датасетов и приложений для разметки данных на изображениях, используемых в решении задач компьютерного зрения. Цель обзора заключается в определении существующего уровня проработки данной научной тематики, а также в определении наиболее подходящих способов решения данных задач в случае конкретного этапа проекта. В качестве информационной базы аналитического исследования используются научные труды, опубликованные в международных рецензируемых журналах и сборниках докладов конференций за последние 10 лет. В статье рассмотрены 3 вида научных работ. Во-первых, статьи, связанные с проектами по созданию датасетов, авторы которых сопровождали своё исследование созданием приложения для разметки изображений с открытым кодом. Во-вторых, были рассмотрены статьи, связанные с симуляторами дорожного движения, которые используются для обучения и тестирования нейронных сетей, решающих, например, задачи определения. В-третьих, были рассмотрены статьи, посвященные уже готовым датасетам, которые используются в решении задач обучения нейронных сетей в сфере компьютерного зрения. Результаты работы подтверждают перспективность данного направления, а способствует реализации собственного приложения авторов для разметки изображений. Результаты работы могут быть использованы исследователями при обосновании актуальности собственных исследований по данной тематике.

Ключевые слова: компьютерное зрение, нейронные сети, разработка приложений, датасет, 3D аннотация, 3D разметка, разметка изображений.

Maxim M. Mashtakov 1,

Student;

Yaroslav V. Khutornoy ,

Graduate Student;

-5

Marina V. Bolsunovskaya ,

Head of the laboratory "Industrial systems of streaming data processing", Associate Professor, Candidate of Technical Sciences;

Svetlana V. Shirokova 4, Associate Professor of Institute of Industrial Management, Economics and Trade, Candidate of Technical Sciences

DEVELOPMENT OF A VEHICLE MARKING APP FOR SOLVING

COMPUTER VISION PROBLEMS: A LITERATURE REVIEW

1 2' 3' 4 Peter the Great St. Petersburg Polytechnic University,

St. Petersburg, Russia, 1 2 mashtakov.mm@mail.ru, hutornoj_yav@spbstu.ru,

3 bolsun_mv@spbstu.ru, 4 swchirokov@mail.ru

Abstract. The article provides an overview of existing approaches to creating datasets and applications for labeling data on images used in solving computer vision problems. The purpose of the review is to determine the current level of elaboration of this scientific subject, as well as to determine the most appropriate ways to solve these problems in the case of a particular stage of the project. As an information base for analytical research, scientific papers published in international peer-reviewed journals and collections of conference reports over the past 10 years are used. The article considers 3 types of scientific works. First, articles related to dataset projects, the authors of which accompanied their research with the creation of an open-source image markup application. Secondly, articles related to traffic simulators were reviewed, which are used to train and test neural networks that solve, for example, determination problems. Thirdly, articles were considered on ready-made datasets that are used in solving the problems of training neural networks in the field of computer vision. The results of the work confirm the prospects of this direction and contribute to the implementation of the authors' own application for marking images. The results of the work can be used by researchers in substantiating the relevance of their own research on this topic.

Keywords: computer vision, neural networks, application development, dataset, 3D annotation, 3D markup, image markup.

Введение

Всё более широкое распространение за последние годы получают свёрточные нейронные сети, которые применяются, например, для решения задач по детекции объектов и восстановлению изображений. Область применения нейронных сетей включается в себя медицину, безопасность, военную отрасль, ритейл, транспорт и так далее.

По данным маркетингового отчета американской исследовательской и консалтинговой компании Grand View Research, в 2019 году размер

мирового рынка компьютерного зрения оценивался в 10,6 млрд. долларов США и будет расти со среднегодовым темпом роста в 7,6 % с 2020 по 2027 год [1].

В рамках выполнения проекта, направленного на решение прикладной задачи из сферы компьютерного зрения, возникла необходимость в создании приложения для разметки ключевых точек автомобилей на фотографиях и последующего сохранения координат этих точек в отдельных файл.

Для реализации данного приложения было проведено исследования научных статей, авторы которых решали задачи, связанные с компьютерным зрением и задачами распознавания объектов на изображениях. Приоритет в исследовании отдавался статьям, авторы которых не использовали сторонние наборы данных и приложения, а создавали свои собственные.

В качестве финального продукта данного проекта предполагается получить рабочую программу для разметки фотографий и сохранения координат размеченных объектов в отдельный файл JSON, а также сами размеченные с помощью этой программы изображения.

Анализ научных источников по связанным тематикам

В рамках изучения научных источников было обнаружено 2 работы, авторы которых также разрабатывали собственные решения для разметки. Это работы, посвященные проекту PASCAL3D+, а также проекту NYC3DCars. Для начала рассмотрим работы авторов данных проектов.

Статья, посвященная проекту PASCAL3D+ — "Beyond PASCAL: A Benchmark for 3D Object Detection in the Wild" за авторством Yu Xiang, Roozbeh Mottaghi, Silvio Savarese. Авторы являются представителями Станфордского университета и Мичиганского университета. Авторы данной статьи изучали вопросы решения задач детекции 3D объектов на изображениях, а также задач оценки 3D позиции данных объектов. Данная статья является частью большого исследования и в первую очередь затрагивает создание датасета для решения вышеупомянутых задач.

В первую очередь, стоит отметить мотивацию авторов для создания данного датасета — малое количество находящихся в открытом доступе качественных датасетов с 3D аннотацией объектов, которые содержали больше количество объектов. Данная проблема сохраняется до сих пор и затрудняет проведение исследований по данной тематике. Ещё одна замеченная авторами проблема — имеющиеся в доступе датасеты содержат в небольшое количество классов.

Разметка объектов, представленная авторами, содержит большое количество данных. Во-первых, метрики объекта в пространстве: азимут, высота подъема и расстояние до камеры. Также авторами определена видимость объекта. Они выделяют следующие категории: объект виден,

скрыт собственной геометрией, скрыт иным объектом, объект усечен, неизвестно.

Для создания датасета авторами была применена собственная разработка, которая находится в открытом доступе. Авторами были определены 3D CAD модели объектов, а затем перенесены на изображения [2, 3].

Рассмотрим статью авторов проекта NYC3DCars "NYC3DCars: A Dataset of 3D Vehicles in Geographic Context". Авторы статьи — Kevin Matzen и Noah Snavely, представители Корнелльского университета. Авторами данной статьи затронута проблема взаимосвязи качества определения объектов на изображениях и географических метрик. Авторы сфокусировались на создании на создании датасета с изображениями города Нью-Йорк. Стоит отметить большое количество различных метрик, которые затронули авторы. К ним относятся как стандартные, например, уровень видимости объекта, так и более специфичные — географические координаты и время суток на изображении.

Для создания данного датасета авторами также была разработана собственная программа для разметки изображений. В ходе разметки авторами и разметчиками были выполнены следующие этапы: разметка автомобилей на фото с помощью 3D моделей с возможностью изменения высоты камеры; коррекция 2D определения объектов на фото; определение объектов, которые вызывают затруднения при выполнении задачи; определение времени суток на изображении [4, 5].

Внимание также привлекла статья "ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving". Авторы данной статьи поставили себе цель создать наиболее современный и большой датасет с 3D аннотацией автомобилей. Данный датасет содержит в 20 раз больше данных, чем PASCAL3D+.

Чтобы обеспечить эффективную разметку в 3D, авторы построили pipeline, в котором рассматриваются соответствия ключевых точек 2D-3D для одного экземпляра и трехмерные отношения между несколькими экземплярами. Имея такой набор данных, авторы построили различные базовые алгоритмы с использованием глубоких сверточных нейронных сетей и алгоритма Mask R-CNN [6].

Стоит отметить важность статьи "Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite". Хоть данный датасет и является относительно старым, он всё ещё крайне полезен для современных исследований. Авторы данной статьи использовали свои автомобили-платформы для записи, чтобы создать датасет для решения задач стерео, оптического потока, визуальной одометрии/SLAM и 3D обнаружения объектов. Для решения поставленной им задачи, авторы использовали платформы, оснащенные четырьмя видеокамерами высокого разрешения, лазерный сканер Velodyne и современные системы отслеживания позиции транспорта [7].

Стоит отметить 2 работы, результаты которых мы посчитали менее подходящими для решения нашей задаче, но интересными для дальнейшего исследования.

Во-первых, "Robust Object Detection under Occlusion with Context-Aware CompositionalNets". В данной работе авторы решают проблему создания контекстно-зависимого алгоритма, а также создания датасета для решения задач детекции объектов, скрытых за другими объектами.

Для создания датасета авторы использовали данные из PASCAL3D+ и скрывали их, используя результаты датасета MS-COCO. Авторами была предпринята попытка симулировать реальные ситуации скрытия объектов за другими объектами с учетом контекста ситуации. Результатом работы авторов стал успешно работающий алгоритм, обученный на дата-сете, который был создан в ходе данного исследования. Датасет получил название OccludedPASCAL3D+ и находится в свободном доступе [8].

Финальной рассмотренной на данной момент работой, связанной с датасетами, является "Microsoft COCO: Common Objects in Context". Целью авторов являлось создание датасета для улучшения алгоритмов, решающих задачи определения объектов. Авторы добились успеха путем помещения вопроса распознавания объектов в контекст более широкого вопроса понимания сцены с помощью сбора изображений сложных повседневных сцен, содержащих обычные объекты в их естественном контексте. Результатом работы авторов стал крупный датасет, содержащий в себе 91 класс с более чем 2.5 миллионами вхождений на 328 тысячах изображений [9]. Данный датасет хоть и является одним из крупнейших, но его наполнение не подходит для задач детекции объектов в дорожном трафике.

В ходе исследования тематики также были затронуты статьи, посвященные симуляторам дорожного движения, так как они также позволяют создавать датасеты для исследования дорожного движения с помощью технологий компьютерного зрения. Была рассмотрена статья "CARLA: An Open Urban Driving Simulator". В данной статье авторы представили симулятор дорожного движения CARLA, который находится в открытом доступе и может быть использован для разработки нейронных сетей для определения объектов, а также для разработки и валидации нейронных сетей для беспилотных автомобилей. Авторы мотивируют свою разработку сложностью и высокой стоимостью проведения исследований и испытаний беспилотных автомобилей в реальном мире. Стоит отметить, что статья фокусируется на проблеме разработки беспилотников, однако продукт может быть использован и для создания других нейронных сетей. Для наибольшего реализма физики и гибкости разработки авторами был выбран игровой движок Unreal Engine 4, что позволяет легко дополнить симулятор собственными силами, например, импортировать собственные модели. Исходных код симулятора авторы

выложили на github. Симулятор состоит из динамических объектов: пешеходы и автомобили, а также статических: здания, деревья, знаки и так далее.

На данный момент CARLA является одним из наиболее гибких и лучших для решения задач компьютерного зрения симуляторов дорожного движения [10, 11].

Логичным продолжением исследования стал проект SUMMIT и статья "SUMMIT: A Simulator for Urban Driving in Massive Mixed Traffic". Одной из основных целью авторов являлось улучшение CARLA путем добавления возможности использования открытой базы данных карт OpenStreetMap и симуляции дорожного движения в условиях реального градостроительства и трафика. Ещё одним дополнением является улучшенная симуляция агентов трафика с помощью Context-GAMMA. Context-GAMMA — контекстно-зависимая модель поведения толпы для создания сложного интерактивного поведения дорожных агентов. Результатом работы авторов стал симулятор генерации интерактивных данных высокой точности для разработки, обучения и тестирования алгоритмов с массовым трафиком [12].

Следующим рассмотренным симулятором стал PGDrive и статья его авторов "Improving the Generalization of End-to-End Driving through Procedural Generation". Авторы статьи сравнивают свою работу с CARLA и другими аналогами, отмечая, что PGDrive является более гибким решением за счет простоты изменения моделей городов и дорог. Авторы также отмечают, что низкое разнообразие моделей может привести к переобучению нейронной сети, что приведет к серьезным проблемам при тестировании и эксплуатации обучаемого автопилота. PGDrive имеет процедурную генерацию моделей городов и дорог [13].

Интересное исследование было проведенно в статье "Beyond grand theft auto V for training, testing and enhancing deep learning in self driving cars", где авторы использовали компьютерную игру в качестве симулято-ра для обучения нейронных сетей. GTA V — мультиплатформенная компьютерная игра в жанре actionadventure с открытым миром, разработанная компанией Rockstar North и изданная компанией Rockstar Games. Представители Принстонского университета в своей работе «Beyond Grand Theft Auto V for Training, Testing and Enhancing Deep Learning in Self Driving Cars» исследовали возможность использования открытого мира данной игры для обучения CNN. Авторы выделили ряд ограничений, связанных с использованием игры.

Во-первых, данный продукт был разработан как игра и не предназначен для академических исследований и экспериментов, хоть и является, по мнению авторов, отличной средой для обучения и тестирования моделей автопилотов. Во-вторых, данный продукт разработан с коммерческой целью и его использование для создания автопилотов может по-

влечь за собой юридические проблемы. В-третьих, при использовании данного продукта для обучения и тестирования возникает проблема экспорта данных из игры. Для успешного использования авторы рекомендуют модификацию Rage Hook. Авторы также отмечают необходимость глубокого понимания API и структуры игры, что является серьезным осложнением при использовании данного продукта не по назначению, которое было предусмотрено разработчиками.

На основе исследования авторы сделали вывод о модели, которая была бы, по их мнению, идеальна для поставленных ими целей. Это модель, в которой пользователь имеет полный контроль над всем, включая время суток, погоду, дорожные условия, модели автомобилей, окружающую среду и т. д. Идеальная система должна быть легко расширяемой, позволяя пользователю импортировать свои собственные SD-модели, текстуры и т. д., и позволить пользователю писать сценарии для управления различными аспектами сцен и «актеров» в них [14].

Заключение

В ходе работы авторами было проведено исследование работ различных авторов, которые решали прикладные задачи детекции объектов на изображениях, создания датасетов для решения задач детекции объектов на изображениях, а также создания симуляторов дорожного движения для решения задач компьютерного зрения в сфере транспорта.

Данное исследование проходило в рамках выполнения этапа проекта, результатом которого стала разработанная программа для разметки ключевых точек автомобилей на фотографиях дорог города Санкт-Петербург.

Данная разработка была применена в рамках проекта. С помощью программы были размечены более 1000 изображений разной сложности.

Результаты исследований авторов повлияли на выбранную архитектуру программы и подход к её разработке, а также на подход к созданию собственного датасета с использованием разработанной программы.

Список литературы

1. Научно-технический центр ФГУП «ГРЧЦ» (НТЦ) // Компьютерное зрение: технологии, компании, тренды. [Электронный ресурс]. - URL: https://rdc.grfc.ru/2021/04/analytics-computer-vision/ (дата обращения: 01.07.2022).

2. Xiang, Y. Beyond pascal: A benchmark for 3d object detection in the wild / R. Mottaghi, S. Savarese // IEEE winter conference on applications of computer vision. -IEEE, 2014. - Pp. 75-82.

3. Stanford Computational Vision and Geometry Lab // Beyond PASCAL: A Benchmark for 3D Object Detection in the Wild. [Электронный ресурс] - Режим доступа: https://cvgl.stanford.edu/projects/pascal3d.html (дата обращения: 03.07.2022).

4. Department of Computer Science - Cornell University // ny3dcars. [Электронный ресурс]. - URL: http://nyc3d.cs.cornell.edu (дата обращения: 03.07.2022).

5. Matzen, K. Nyc3dcars: A dataset of 3d vehicles in geographic context / K. Matzen, N. Snavely // Proceedings of the IEEE International Conference on Computer Vision. -2013. - Pp. 761-768.

6. Song, X. Apollocar3d: A large 3d car instance understanding benchmark for autonomous driving / X. Song, P. Wang, D. Zhou, R. Zhu, C. Guan, Y. Dai, H. Su, H. Li, R. Yang // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. - 2019. - С. 5452-5462.

7. Geiger, A. Are we ready for autonomous driving? the kitti vision benchmark suite / A. Geiger, P. Lenz, R. Urtasun //2012 IEEE conference on computer vision and pattern recognition. - IEEE, 2012. - Pp. 3354-3361.

8. Wang A., Sun Y., Kortylewski A., Yuille A.Robust object detection under occlusion with context-aware compositionalnets // Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. - 2020. - Pp. 12645-12654.

9. Lin T. Y. Microsoft coco: Common objects in context / T. Y. Lin, M. Maire, S. Be-longie, J. Hays, P. Perona, D. Ramanan, P. Dollâr, C. L. Zitnick // European conference on computer vision. - Springer, Cham, 2014. - Pp. 740-755.

10. CARLA Simulator // CARLA. [Электронный ресурс]. - URL: https://carla.org/ (дата обращения: 04.07.2022).

11. Dosovitskiy, A. CARLA: An open urban driving simulator / A. Dosovitskiy. G. Ros, F. Codevilla, A. Lopez, V. Koltun // Conference on robot learning. - PMLR, 2017.

- Pp. 1-16.

12. Cai, P. Summit: A simulator for urban driving in massive mixed traffic / P. Cai, Y. Lee, Y. Luo, D. Hsu // 2020 IEEE International Conference on Robotics and Automation (ICRA). - IEEE, 2020. - Pp. 4023-4029.

13. Li, Q. Improving the generalization of end-to-end driving through procedural generation / Q. Li, Z. Peng, Q. Zhang, C. Liu, B. Zhou // arXiv preprint arXiv:2012.13681.

- 2020.

14. Martinez, M. A. Beyond grand theft auto V for training, testing and enhancing deep learning in self driving cars / M.A. Martinez, C. Sitawarin, K. Finch, L. Meincke, A. Yablonski, A. Kornhauser // arXiv preprint arXiv:1712.01397. - 2017.

i Надоели баннеры? Вы всегда можете отключить рекламу.