ISSN 0868-5886
НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2023, том 33, № 3, c. 37-48 РАЗРАБОТКА ПРИБОРОВ И СИСТЕМ =
УДК 004.05, 004.932.2
© Д. А. Гаврилов, Е. А. Татаринова, А. А. Фортунатов,
В. Э. Буздин, Д. В. Учаев, Дм. В. Учаев, И. М. Михайлов,
М. В. Терентьев, Д. Н. Щелкунов, Я. Мурхиж, О. А. Поткин, 2023
РАЗРАБОТКА ПРОТОТИПА МНОГОФУНКЦИОНАЛЬНОЙ ОПТИКО-ЭЛЕКТРОННОЙ СИСТЕМЫ КРУГОВОГО ОБЗОРА ДЛЯ ОБЕСПЕЧЕНИЯ ВИЗУАЛЬНОГО ОРИЕНТИРОВАНИЯ БЕСПИЛОТНЫХ ТРАНСПОРТНЫХ СРЕДСТВ
В настоящей работе представлен прототип многофункциональной оптико-электронной системы кругового обзора для обеспечения визуального ориентирования беспилотных транспортных средств. Разработанный прототип предназначен для размещения на багажнике легкового автомобиля и позволяет осуществлять управление беспилотным транспортным средством с помощью оперативного анализа окружающей обстановки. Сенсорные устройства собирают информацию об окружающем мире, передают ее в систему управления, где производится анализ поступающих данных и планирование действий на основе этой информации, а также данных карт и локализации. Алгоритмическое обеспечение для построения карты и локализации на ней по камерам в реальном времени позволяет беспилотному устройству ориентироваться в пространстве только по визуальной информации и решать задачу автономного движения наряду с ориентированием по заданной карте местности.
Кл. сл.: оптико-электронная система, круговой обзор, беспилотное транспортное средство, ситуационная осведомленность, визуальное ориентирование
ВВЕДЕНИЕ
Беспилотными автомобилями и автомобилями высокой степени автоматизации являются транспортные средства, которые позволяют осуществлять движение как без контроля со стороны человека за процессом управления, так и в рамках контроля (в большей или меньшей степени) за движением с возможностью в случае необходимости взять управление в свои руки [1]. Создание беспилотных автомобилей стало возможным благодаря развитию новых технологий и появлению специального оборудования, созданного на их основе [2]. Наиболее распространенная концепция беспилотного автомобиля подразумевает единовременную работу аппаратных и программных компонент, которые можно условно разделить на 3 функциональных блока. Различные сенсорные устройства собирают информацию об окружающем мире, передают ее в систему управления, где производится анализ поступающих данных и планирование действий на основе этой информации, а также данных карт и локализации. Устройства панорамного обзора позволяют фиксировать окружающую обстановку максимально приближенно к возможностям человеческого зрения и обеспечи-
вать ситуационную осведомленность автономного транспортного средства [3]. Система управления формирует командные решения для блока, который непосредственно осуществляет управление автомобилем и направляет его по заданной траектории. Для формирования управляющих воздействий используются алгоритмы, позволяющие беспилотному автомобилю ориентироваться в пространстве.
ПРИНЦИП ДЕЙСТВИЯ МНОГОФУНКЦИОНАЛЬНОЙ ОПТИКО-ЭЛЕКТРОННОЙ СИСТЕМЫ КРУГОВОГО ОБЗОРА
Эффективное функционирование транспортного средства с различной степенью автоматизации движения возможно за счет работы специального компьютерного программного обеспечения, а также различных систем и датчиков. Это:
- датчики положения колес, позволяющие с высокой точностью определять скорость транспортного средства;
- система глобального позиционирования (GPS) для определения положения транспортного средства;
- лидар, обеспечивающий моделирование окружающей обстановки;
- радар, обеспечивающий обнаружение объектов в "слепой" зоне;
- камеры для контроля полосы движения;
- стереоскопические пары для построения панорамного изображения высокого разрешения;
- тепловизионные камеры для движения в условиях ограниченной видимости.
Одним из основных требований к многофункциональной оптико-электронной системе является способность без участия оператора выделять во входном видеопотоке объекты интереса и осуществлять слежение за данными объектами. При этом обработка информации, получаемой оптико-электронной системой, должна осуществляться в автоматическом режиме. Таким образом, оптико-электронная система приобретает роль "органов зрения", ключевым моментом построения которых является необходимость реализации качественного алгоритма обнаружения объектов [4, 5].
"Компьютерное зрение" — набор методов и алгоритмов, позволяющих производить обнаружение, отслеживание, классификацию и идентификацию объектов с помощью вычислительных машин [6]. "Техническое", или "машинное зрение", в свою очередь, — процесс интеграции и адаптации компьютерного зрения для решения научных, производственных и промышленных задач с помощью технических механизмов, устройств или машин. Таким образом, термин "компьютерное зрение" обозначает общее название набора технологий, а "техническое зрение" есть результат применения этих технологий.
Устройства получения и формирования изображений не эквивалентны глазам человека. Там, где человек мгновенно определяет линии, контуры и объекты, опираясь на умозрительные догадки и предположения, компьютер "видит" лишь огромные числовые матрицы. Тем не менее, в отличие от биологического зрения человека, системы техничного зрения могут использовать различные способы формирования изображений, что существенно расширяет их возможности. Системы технического зрения, в отличие от человека, могут неутомимо работать в непрерывном режиме. Несмотря на то что алгоритмическое обеспечение систем технического зрения пока еще уступает зрению человека, тем не менее, способности таких систем получения информации о наблюдаемых объектах уже существенно превосходят биологическое зрение [7].
Компьютерное зрение может рассматриваться как составная часть технологий в области искусственного интеллекта. В свою очередь, распознавание образов является одной из важнейших задач искусственного интеллекта, целью которого явля-
ется копирование и имитация интеллектуальной деятельности человека. В то же время компьютерное зрение представляет собой особую задачу логического вывода, т.к. изначально на изображении имеется избыточное количество информации [8], из которой требуется выделить пертинентную часть, необходимую для дальнейшей обработки.
Технически системы компьютерного зрения представляют собой программно-аппаратные комплексы, состоящие из устройства получения и фиксации изображения, которое может включать различные компоненты, и компьютера со специализированным программным обеспечением. Программное обеспечение является основной составляющей компьютерного зрения, на него возложена главная задача обработки цифровой информации [8]. Выбор метода обработки изображения, полученного техническими средствами, определяется, исходя из характера данного изображения: вида объектов на нем и задач, которые необходимо решить при использовании данного изображения [5].
КОНСТРУКЦИЯ МНОГОФУНКЦИОНАЛЬНОЙ ОПТИКО-ЭЛЕКТРОННОЙ СИСТЕМЫ КРУГОВОГО ОБЗОРА
Разрабатываемая многофункциональная система предназначена для размещения на багажнике легкового автомобиля и позволяет осуществлять управление беспилотным транспортным средством с помощью оперативного анализа окружающей обстановки, формирования изображения для построения карты местности, определения параметров курса, локализации и навигации в режиме реального времени. Пример размещения многофункциональной оптико-электронной системы на багажнике автомобиля представлен на рис. 1.
Рис. 1. Пример размещения многофункциональной оптико-электронной системы на багажнике автомобиля
Конструктивно многофункциональная оптико-электронная система представляет собой единую конструкцию с корпусом, в котором расположены четыре ортогональных стереомодуля, оптический коммутатор, две антенны, навигационный приемник, лидар, блок питания, кабель синхронизации. С помощью кабеля синхронизации обеспечивается синхронизация работы всех элементов устройства. Питание всех элементов системы осуществляется от блока питания. Оптический коммутатор, навигационный приемник и лидар подключены к бортовому компьютеру беспилотного транспортного
средства, который обеспечивает возможность автоматического управления.
Технические характеристики:
• корпус со степенью защиты 1Р65;
• установка на стандартные багажные дуги;
• масса: 25 кг;
• габариты: 840x840x150 мм.
Схема внутреннего устройства многофункциональной оптико-электронной системы кругового обзора представлена на рис. 2.
Рис. 2. Схема внутреннего устройства многофункциональной оптико-электронной системы кругового обзора. Обозначения на схеме: ГНСС — Глонасс (глобальная навигационная спутниковая система); ИНС — информационно-навигационная система; PCIe — Peripheral Component Interconnect Express; CAN-шина — элемент электронной системы автомобиля
Рис. 3. Вид (а), (б) ортогонального стереомодуля
Каждый ортогональный стереомодуль состоит из четырех стереопар высокого разрешения для точного определения расстояний до объектов в различных диапазонах дальностей. Вид стерео-модуля представлен на рис. 3.
Конструктивное исполнение и состав разработанной многофункциональной оптико-электронной системы кругового обзора обеспечивает выполнение следующих функций:
- полный обзор окружающего пространства на 360°;
- сбор визуальной информации для построения 3D-карты местности в режиме реального времени;
- сбор визуальной информации об окружающей обстановке для системы управления беспилотным транспортным средством;
- определение параметров курса, локализация, навигация беспилотного транспортного средства;
- обучение алгоритмов технического зрения реального времени;
- обеспечение возможности автоматического движения без участия водителя по траекториям, формируемым в режиме реального времени;
- управление движением беспилотного транспортного средства посредством технологий технического зрения без необходимости наличия инфраструктурной сети, встроенной в дорогу или около нее.
АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
ОБРАБОТКИ ВИЗУАЛЬНОЙ ИНФОРМАЦИИ
Разработанный прототип многофункциональной оптико-электронной системы предназначен для мониторинга окружающей обстановки и использования в системе ориентирования и ситуационной осведомленности беспилотного транспортного средства, реализующей алгоритмы построения карты и локализации на ней по камерам в реальном времени (Visual Simultaneous Localization and Mapping, vSLAM) [9]. Алгоритмическое обеспечение vSLAM позволяет беспилотному устройству ориентироваться в пространстве только по визуальной информации и решать задачу автономного движения наряду с ориентированием по заданной карте местности.
Современные решения vSLAM можно разделить на прямые vSLAM-решения и непрямые vSLAM-решения, или просто прямые vSLAM (direct vSLAM) и непрямые vSLAM (indirect vSLAM). В прямых vSLAM напрямую используются яркости пикселей изображения. При этом оценки позы камеры получаются путем минимизации фотометрической ошибки между соответствующими пикселями
изображений. В непрямых vSLAM, с другой стороны, сначала извлекаются признаки изображения. Затем признаки описываются и сопоставляются для оценки позы путем минимизации ошибки перепроецирования. Наибольшее применение сегодня находят следующие vSLAM-решения: RTAB-Map [10], OKVIS [11], DVO-SLAM [12], LSD-SLAM [13], ORB-SLAM2 [14], maplab [15], ProSLAM [16], DSM [17], Kimera [18], ORB-SLAM3 [19]. Богатыми возможностями для автономной навигации беспилотных транспортных средств располагают также следующие VO-решения (решения в области визуальной одометрии) DSO [20], BASALT [21], SVO [22] и VINS-Fusion [23].
Современные vSLAM-решения включают следующие четыре основных этапа:
1) инициализация,
2) отслеживание перемещения,
3) построение карты,
4) замыкание петли.
На этапе инициализации алгоритма определяется система координат в окружающей среде для оценки положения камеры и построения трехмерной карты. Затем извлекаются данные для построения карты. После инициализации алгоритма наступает этап отслеживания (сопровождения). На этом этапе vSLAM-решения используют алгоритмы визуальной одометрии. Построение карты происходит по нескольким изображениям, полученным во время движения камеры. Координаты точек, представляющие карту, описываются с помощью трехмерной параметризации, например, с помощью инверсной глубины. На следующем этапе происходит замыкание петли. Для того чтобы уменьшить ошибку, обычно выполняется оптимизация глобальной карты. Для этого необходимо обнаружить петлю, т.е. распознать, что камера в этом месте ранее уже находилась. Затем вычисляется накопленная ошибка (разница между текущим предсказанным местом и обнаруженным). Вычисленную ошибку используют в алгоритмах глобальной оптимизации.
Для совершенствования существующих и разработки новых vSLAM-решений используются методы семантической сегментации изображений [24]. Семантическая сегментация изображений — это разбиение изображения на отдельные группы пикселей (области), соответствующие объектам с одновременным определением типа объектов. Для семантической сегментации изображений в режиме реального времени чаще всего прибегают к использованию глубоких нейронных сетей, которые позволяют повысить эффективность методов сегментации [25].
РАЗРАБОТКА ПРОТОТИПА Табл. Классификация примененных условий сбора данных
——Сценарий Модификаторы сценария ———^^ Парк/ закрытая территория Шоссе Открытая местность/ поле Город
Сезон Условия освещения
Зима Слабая освещенность + + + +
Нормальная освещенность + + + +
Весна/ Осень Слабая освещенность (утро/вечер) Сплошной снежный покров + + + +
Несплошной снежный покров + + + +
Нормальная освещенность (день) Сплошнойснежныйпокров + + + +
Несплошной снежный покров + + + +
Лето Слабая освещенность (утро) + + + +
Нормальная освещенность (день) + + + +
Слабая освещенность (вечер) + + + +
Очень слабая освещенность (поздний вечер) + + + +
ТРЕБОВАНИЯ К СБОРУ ДАННЫХ
Для исследования эффективности разработанной многофункциональной оптико-электронной системы были сформулированы следующие требования к сбору данных на ее основе:
1. Формируемые отдельные наборы данных, соответствующие непрерывным периодам движения автомобиля, (последовательности) должны отражать различные сезонные процессы (дождь, солнечная погода, пасмурная погода и т.п.), характерные для региона, в котором предполагается использовать разработанную систему.
2. При формировании наборов данных необходимо отражать ключевые ситуации, возникающие из-за различий освещенности окружающих автомобиль объектов.
Характерные условия сбора данных представлены в табл. Также следует отметить, что при подготовке тестовых наборов данных на базе разработанного прототипа оптико-электронной системы необходимо учитывать опыт создания хорошо известных открытых наборов данных, таких как KITTI Vision Benchmark Dataset [26], Driving Stereo [27], 4Seasons [28], а также практику разработки наборов данных посредством фотореалистичных симуляторов городской среды [29, 30].
ЗАКЛЮЧЕНИЕ
В работе представлен прототип многофункциональной оптико-электронной системы кругового обзора для обеспечения визуального ориентирования беспилотных транспортных средств. Описан принцип действия, позволяющий обеспечить эффективное функционирование транспортного средства с различной степенью автоматизации движения за счет работы специального компьютерного программного обеспечения, а также различных систем и датчиков. Разработана конструкция прототипа многофункциональной оптико-электронной системы кругового обзора, предназначенная для размещения на багажнике легкового автомобиля и позволяющая осуществлять управление беспилотным транспортным средством с помощью оперативного анализа окружающей обстановки, формирования изображения для построения карты местности, определения параметров курса, локализации и навигации в режиме реального времени. Представлено описание основного алгоритмического обеспечения для построения карты и локализации на ней по камерам в реальном времени. Разработаны требования к сбору данных для исследования эффективности алгоритмов локализации и картографирования на основе данных,
получаемых с прототипа разработанной оптико-электронной системы.
СПИСОК ЛИТЕРАТУРЫ
1. Исследование состояния и перспектив рынка автономных автомобилей, платформ для электротранспорта и топливных элементов, оценка влияния на развитие российского и международного рынка "Автонет". Аналитический отчет 2019. М.: Некоммерческая организация Ассоциация "ГЛОНАСС/ГНСС-Форум", 2019. 245 с. URL:
www.aggfm/projects/%D0%A0%D1%8B%D0%BD%D 0%BE%D0%BA%20%D0%B0%D0%B2%D 1%82%D0 %BE%D0%BD%D0%BE%D0%BC%D0%BD%D 1%8B %D1%85%20%D0%B8%20%D1%8D%D0%BB%D0% B5%D0%BA%D1%82%D1%80%D0%B8%D1%87%D0 %B5%D 1%81 %D0%BA%D0%B8%D 1%85%20%D0% B0%D0%B2%D 1%82%D0%BE%D0%BC%D0%BE%D 0%B1%D0%B8%D0%BB%D0%B5%D0%B8%CC%86. pdf
2. Кондратьев В.В., Пивоваров И.О., Горбачев Р.А., Ма-тюхин В.В., Корнев Д.А., Гаврилов Д.А., Татарино-ва Е.А., Буздин В.Э., Михайлов И.М., Поткин О.А. Перспективы применения искусственного интеллекта в прикладных бизнес-задачах // ДАН. Математика, информатика, процессы управления. 2022. Т. 508, № 1. С. 41-49.
URL: https://www.elibrary.ru/item.asp?id=49991309
3. Ващенко А.П., Гаврилов Д.А., Лапушкин А.Г. Разработка прототипа аппаратно-программного устройства панорамного обзора для систем безопасности и ситуационной осведомленности беспилотного транспортного средства // Вопросы кибербезопасности. 2021. № 5(45). С. 87-95. DOI: 10.21681/2311-3456-2021-587-95
4. Ловцов Д.А., Гаврилов Д.А. Моделирование оптико-электронных систем дистанционно пилотируемых аппаратов: Монография. М.: "Технолоджи-3000", 2019. 164 с.
5. Ловцов Д.А., Гаврилов Д.А. Эффективная автоматизированная оптико-электронная система аэрокосмического мониторинга // Правовая информатика. 2019. № 2. С. 29-35. URL:
https://cyberleninka.ru/article/n/effektivnaya-
avtomatizirovannaya-optiko-elektronnaya-sistema-
aerokosmicheskogo-monitoringa
6. Ловцов Д.А., Гаврилов Д.А., Татаринова Е.А. Эффективная автоматизированная переработка визуальной информации в оптико-электронной системе наземно-космического мониторинга // Профессорский журнал. Сер. Технические науки. 2019. № 3. С. 26-40. DOI: 10.18572/2686-8598-2019-3-3-26-40
7. Потапов А. Системы компьютерного зрения: современные задачи и методы // Control Engineering Россия. 2014. № 1. С. 22-28. URL: https://rucont.ru/efd/437978
8. Нестеров А.В. Анализ методов цифровой обработки информации в системах компьютерного зрения //
Вестник РГРТУ. 2008. № 4. С. 3-5. URL: http://vestnik.rsreu.ru/ru/archive/2008/4-vypusk-26 9. Гаврилов Д.А., Щелкунов Н.Н., Фортунатов А.А., Молчанов В.С. Многофункциональное оптико-электронное устройство кругового обзора для управления движением беспилотного транспортного средства. Патент на полезную модель RU 210565 U1, 21.04.2022. Заявка № 2021139054 от 27.12.2021. URL: https://yandex.ru/patents/doc/RU210565U1_20220421
10. Labbe M., Michaud F. RTAB-Map as an open-source li-dar and visual simultaneous localization and mapping library for large-scale and long-term online operation // J. Field Robot. 2019. Vol. 36, iss. 2. P. 416-446. DOI: 10.1002/rob.21831
11. Leutenegger S. et al. Keyframe-based visual-inertial odometry using nonlinear optimization // Int. J. Robot. Res. 2015. Vol. 34, iss. 3. P. 314-334. DOI: 10.1177/0278364914554813
12. Kerl C., Sturm J., Cremers D. Dense visual SLAM for RGB-D cameras // IROS 2013 - IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo: IEEE, 2013. P. 2100-2106.
DOI: 10.1109/IR0S.2013.6696650
13. Engel J., Stuckler J., Cremers D. Large-scale direct SLAM with stereo cameras // IROS 2015 - IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE Press., 2015. P. 1935-1942.
DOI: 10.1109/IROS.2015.7353631
14. Mur-Artal R., Tardos J.D. Visual-Inertial Monocular SLAM with Map Reuse // IEEE Robot. Autom. Lett. 2017. Vol. 2, iss. 2. P. 796-803.
DOI: 10.1109/LRA.2017.2653359
15. Schneider T. et al. Maplab: An Open Framework for Research in Visual-Inertial Mapping and Localization // IEEE Robot. Autom. Lett. 2018. Vol. 3, iss. 3. P. 14181425. DOI: 10.1109/LRA.2018.2800113
16. Schlegel D., Colosi M., Grisetti G. ProSLAM: Graph SLAM from a Programmer's Perspective // ICRA 2018 -IEEE International Conference on Robotics and Automation. 2018. P. 3833-3840.
URL: https://www.proceedings.com/40565.html
17. Zubizarreta J., Aguinaga I., Montiel J.M.M. Direct Sparse Mapping // IEEE Trans. Robot. 2020. Vol. 36, iss. 4. P. 1363-1370. DOI: 10.1109/TRO.2020.2991614
18. Rosinol A. Kimera: an Open-Source Library for RealTime Metric-Semantic Localization and Mapping // ICRA 2020 - IEEE International Conference on Robotics and Automation. Paris, France: IEEE, 2020. P. 1689-1696. URL:
www.proceedings.com/content/055/055762webtoc.pdf
19. Campos C. et al. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual Inertial, and Multimap SLAM // IEEE Trans. Robot. 2021. Vol. 37, iss. 6. Р. 1874-1890. DOI: 10.1109/TRO.2021.3075644
20. Gao X. et al. LDSO: Direct Sparse Odometry with Loop Closure // IROS 2018 - IEEE/RSJ International Conference on Intelligent Robots and Systems. 2018. P. 21982204. URL: https://www.proceedings.com/42518.html
21. Usenko V. et al. Visual-Inertial Mapping With Non-Linear Factor Recovery // IEEE Robot. Autom. Lett. 2020. Vol. 5, iss. 2. P. 422-429. DOI: 10.1109/LRA.2019.2961227
22. Forster C. et al. SVO: Semidirect Visual Odometry for Monocular and Multicamera Systems // IEEE Trans. Robot. 2017. Vol. 33, iss. 2. P. 249-265.
DOI: 10.1109/TRO.2016.2623335
23. Qin T, Li P., Shen S. VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator // IEEE Trans. Robot. 2018. Vol. 34, iss. 4. P. 1004-1020. DOI: 10.1109/TRO.2018.2853729
24. Гаврилов Д.А. Исследование применимости сверточ-ной нейронной сети U-Net к задаче сегментации изображений авиационной техники // Компьютерная оптика. 2021. Т. 45, № 4. С. 575-579.
DOI: 10.18287/2412-6179-ТО-804
25. Гаврилов Д.А., Ловцов Д.А. Автоматизированная переработка визуальной информации с помощью технологий искусственного интеллекта // Искусственный интеллект и принятие решений. 2020. № 4. С. 33-46. DOI: 10.14357/20718594200404
26. Geiger A., Lenz P., Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite // 2012 IEEE - Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012. P. 3354-3361. DOI: 10.1109/CVPR.2012.6248074
27. Yang G. et al. DrivingStereo: A Large-Scale Dataset for Stereo Matching in Autonomous Driving Scenarios // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019. P. 899-908. DOI: 10.1109/CVPR.2019.00099
28. Wenzel P. et al. 4Seasons: A Cross-Season Dataset for Multi-Weather SLAM in Autonomous Driving // Proceedings of the German Conference on Pattern Recognition (GCPR), 2020. P. 404-417. DOI: 10.1007/978-3-030-71278-5_29
29. Лапушкин А.Г., Гаврилов Д.А. Программное обеспечение для создания синтезированных данных и симулятор с обратной связью для тестирования алгоритмов машинного обучения // Научное приборостроение. 2023. Т. 33, № 1. С. 95-108.
URL: http://iairas.ru/mag/2023/abst1.php#abst8
30. Лапушкин А.Г., Гаврилов Д.А., Щелкунов Н.Н., Баке-ев Р.Н. Основные подходы к подготовке визуальных данных для обучения нейросетевых алгоритмов // Искусственный интеллект и принятие решений. 2021. № 4. С. 62-74. DOI: 10.14357/20718594210406
Работа выполнена в рамках договора № 70-202100138 от 1 ноября 2021 г. с АНО "Аналитический центр при Правительстве Российской Федерации" на реализацию программы исследовательского центра в сфере искусственного интеллекта, ИГК 00000D730321P5Q0002.
Московский физико-технический институт (национальный исследовательский университет, г. Долгопрудный (Гаврилов Д.А., Татаринова Е.А., Фортунатов А.А., Буздин В.Э., Учаев Д.В., Учаев Дм.В., Михайлов И.М., Терентьев М.В., Щелкунов Д.Н., Мур-хиж Я.)
ООО СберАвтомотив Технологии, Москва
(Поткин О.А.)
Контакты: Татаринова Елена Александровна, [email protected]
Материал поступил в редакцию 08.04.2023
ISSN 0868-5886
NAUCHNOE PRIBOROSTROENIE, 2023, Vol. 33, No. 3, pp. 37-48
DEVELOPMENT OF A PROTOTYPE OF A MULTIFUNCTIONAL OPTICAL-ELECTRONIC ALL-ROUND VIEWING SYSTEM TO PROVIDE VISUAL ORIENTATION OF UNMANNED VEHICLES
D. A. Gavrilov1, E. A. Tatarinova1, A. A. Fortunatov1, V. E. Buzdin1, D. V. Uchaev1, Dm. V. Uchaev1, I. M. Mikhailov1, M. V. Terentiev1, D. N. Shchelkunov1, Ya. Murhizh1, O. A. Potkin2
1 Moscow Institute of Physics and Technology (National Research University), Dolgoprudny, Russia 2Sber Automotive Technologies, Moscow, Russia
This paper presents a prototype of a multifunctional optical-electronic system for all-round viewing to provide visual orientation for unmanned vehicles. The developed prototype is designed to be placed on the car roof rack and allows you to control an unmanned vehicle using an online analysis of the environment. Sensor devices collect information about the environment and transmit it to the control system, in which input data is analyzed and actions are planned based on this information, as well as map data and localization. Algorithmic software for building a map and localizing on it using cameras operating in real time allows an unmanned device to navigate in space only using visual information and solve the task of autonomous movement along with orientation on a given terrain map.
Keywords: optoelectronic systems, all-round view, unmanned vehicle, situational awareness, visual orientation
INTRODUCTION
Unmanned and highly automated cars are vehicles that allow movement both without human control over driving and with such control (to a greater or lesser extent) and the capacity to perform manual driving if necessary. [1]. The emergence of unmanned vehicles became possible due to the development of new technologies and special equipment based on them [2]. The most common concept of an unmanned vehicle implies the simultaneous operation of hardware and software components, which can be imaginably divided into 3 functional blocks. Various sensory devices collect information about the surrounding environment, transfer it to the control system, in which the analysis of incoming data, the planning of actions based on this information, map data and localization, are carried out. Panoramic devices allow you to capture the environment as close as possible to the capabilities of human vision and provide situational awareness in an autonomous vehicle [3]. The control system generates decisions for the control unit, which manages the vehicle and directs it along a given path. For the formation of control actions, algorithms are used that allow an unmanned vehicle to navigate in an environment.
OPERATING PRINCIPLE OF MULTIPURPOSE OPTOELECTRONIC ALL ROUND VIEW SYSTEM
The efficient functioning of a vehicle with varying
degrees of traffic automation is possible due to the operation of special computer software, various systems, and sensors. These are:
- wheel position sensors allowing to determine the vehicle speed with high accuracy;
-global positioning system (GPS) for determining the vehicle position;
- lidar providing environmental modeling;
- radar providing detection of objects in the "blind" zone;
- lane control cameras;
- stereoscopic pairs for high-resolution panoramic imaging;
- thermal imaging cameras for movement in conditions of limited visibility.
One of the main requirements for a multifunctional optical-electronic system is the ability to select objects of interest in the input video stream without the participation of the operator, and track these objects. The processing of information received by the optoelectronic system should be carried out in automatic mode. Thus, the optoelectronic system acquires the role of "organs of vision", the key point in its construction being the need to implement a high-quality algorithm for detecting objects [4, 5].
"Computer vision" is a set of methods and algorithms that allow detecting, tracking, classifying and identifying objects using computers [6]. "Technical" or "machine vision", in turn, is a process of integrating and adapting computer vision to solve scientific and industrial problems using technical mechanisms, devices, or machines. Thus, the term "computer vision"
refers to the general name of a set of technologies, and "technical vision" is the result of the application of these technologies.
Devices for receiving and forming images are not equivalent to human eyes. If a person instantly determines lines, contours, and objects, based on speculative guesses and assumptions, the computer "sees" only huge numerical matrices. However, unlike human biological vision, technical vision systems can use various imaging methods, which significantly expand their capabilities. Vision systems, unlike humans, can work tirelessly in a continuous mode. Despite the fact that the algorithmic support of vision systems is still inferior to human vision, the abilities of such systems to obtain information about observed objects are already significantly superior to biological vision [7].
Computer vision can be considered an integral part of technologies in the field of artificial intelligence. In turn, pattern recognition is one of the most important tasks of artificial intelligence, the purpose of which is to copy and imitate human intellectual activity. At the same time, computer vision is a special task of logical inference because, initially, the image contains an excessive amount of information [8], from which it is required to select the pertinent part, which is necessary for further processing.
Technically, computer vision systems are software and hardware systems consisting of a device for obtaining and capturing an image, which may include various components, and a computer with specialized software. Software is the main component of computer vision, it is entrusted with the main task of processing digital information [8]. The choice of a method for processing an image obtained by technical means is determined based on the nature of the image: the type of objects on it, and the tasks that need to be solved when using this image [5].
DESIGN OF MULTIFUNCTIONAL
OPTOELECTRONIC ALL ROUND VIEW SYSTEM
The developed multifunctional system is designed to be placed on the car roof rack and allows you to control an unmanned vehicle using operational analysis of the environment, image formation for building a map of the area, determining course parameters, localization and navigation in real time. An example of the placement of a multi-functional optical-electronic system on the car roof rack is shown in Fig. 1.
Fig. 1. An example of placing a multifunctional optoelectronic system on a car rack
Structurally, the multifunctional opto-electronic system is a single structure with a housing that contains four orthogonal stereo modules, an optical switch, two antennas, a navigation receiver, a lidar, a power supply, and a synchronization cable. With the help of a synchronization cable, the operation of all elements of the device is synchronized. All elements of the system are powered by the power supply unit. The optical switch, navigation receiver and lidar are connected to the on-board computer of the unmanned vehicle, which provides automatic control.
Specification:
• housing with a degree of protection IP65;
• installation on standard baggage railings;
• weight: 25 kg;
• dimensions: 840x840x150 mm.
The layout of the internal structure of the multifunctional optical-electronic system with an all-round view is shown in Fig. 2.
Fig. 2. Internal layout of the multifunctional optical-electronic all-round viewing system. Designations on the scheme: THCC — Glonass (global navigation satellite system); HHC — information and navigation system; PCIe — Peripheral Component Interconnect Express; CAN-bus — an element of the electronic system of the car
Each orthogonal stereo module consists of four high-resolution stereo pairs for accurate determination of distances to objects in various ranges. The appearance of the stereo module is shown in Fig. 3.
Fig. 3. View (a, 6) of an orthogonal stereo module
The design and composition of the developed multifunctional optical-electronic all-round viewing system ensure the following functions:
- full view of the surrounding space at 360°;
- collection of visual information for building a 3D map of the area in real time;
- collection of visual information on the environment for the unmanned vehicle control system;
- determination of course parameters, localization, and navigation of an unmanned vehicle;
- training of real-time vision algorithms;
- ensuring the possibility of automatic non-driver movement along trajectories formed in real time;
- controlling the movement of an unmanned vehicle by means of vision technologies without the need for an infrastructure network built into or near the road.
ALGORITHMIC SUPPORT
FOR VISUAL INFORMATION PROCESSING
The developed prototype of a multifunctional optical-electronic system is designed to monitor the environment and be used as part of the orientation and situational awareness unit of an unmanned vehicle. The system implements algorithms for building a map and localizing on it using cameras in real time (Visual Simular Localization and Mapping, vSLAM) [9]. Algorithmic software vSLAM allows an unmanned device to navigate in space only using visual information and solves the problem of autonomous movement along with orientation on a given terrain map.
Modern vSLAM solutions can be divided into direct vSLAM (solutions) and indirect vSLAM (solutions).
Direct vSLAMs use the brightness of image pixels. The camera pose is estimated using the minimization of the photometric error between the corresponding pixels. In indirect vSLAMs, on the other hand, image features are extracted first. The features are then described and matched to evaluate the pose by minimizing the reprojection error. The following vSLAM solutions are most widely used today: RTAB-Map [10], OKVIS [11], DVO-SLAM [12], LSD-SLAM [13], ORB-SLAM2 [14], maplab [15], ProSLAM [16], DSM [17], Kimera [18], ORB-SLAM3 [19]. The following VO solutions (solutions for visual odometry) DSO [20], BASALT [21], SVO [22] and VINS-Fusion [23] also have rich capabilities for autonomous navigation of unmanned vehicles.
Modern vSLAM solutions include the following four main stages:
1) initialization,
2) movement tracking,
3) map construction,
4) loop closure.
The algorithm initialization step determines a coordinate system for estimating the camera position and constructing a three-dimensional environment map. Then the tracking (support) stage begins. At this stage, vSLAM solutions use visual odometry algorithms. The map is drawn from several images obtained while the camera is moving. The coordinates of the points comprising the map are described using a three-dimensional parameterization, for example, inverted depth. In the next stage, the loop is closed. In order to reduce the error, optimization of the global map is usually performed. To do this, it is necessary to detect a loop, i.e., recognize that the camera has already been in this place before. Then the accumulated error (the difference between the current predicted location and the detected one) is calculated. The computed error is used in global optimization algorithms.
Semantic image segmentation methods are used to improve existing and develop new vSLAM solutions
[24]. Semantic image segmentation implies the splitting of an image into separate groups of pixels (regions) corresponding to objects, along with the definition of the object type. For semantic image segmentation in real time, deep neural networks are most often used, which make it possible to increase the efficiency of segmentation methods [25].
DATA COLLECTION REQUIREMENTS
To study the effectiveness of the developed multifunctional optical-electronic system, the following requirements for data collection were formulated:
1) Formed separate data sets corresponding to continuous periods of vehicle movement (sequences) should reflect various seasonal processes (rain, sunny weather, cloudy weather, etc.) characteristic of the region in which the developed system is supposed to be used.
2) When forming data sets, it is necessary to reflect the key situations that arise due to differences in the illumination of objects surrounding the car.
Typical data collection conditions are presented in Tab.
Tab. Set of weather conditions applied for data collection
It should also be noted that when preparing test data sets based on the developed prototype of an optical-electronic system, it is necessary to take into account the experience of creating well-known open data sets, such as KITTI Vision Benchmark Dataset [26], Driving Stereo [27], 4Seasons [28], as well as the practice of developing data sets using photorealistic simulators of the urban environment [29, 30].
CONCLUSION
The work presents a prototype of a multifunctional optical-electronic all-round viewing system to provide visual orientation for unmanned vehicles. The principle of operation is described, which makes it possible to ensure the efficient functioning of a vehicle with varying degrees of movement automation due to the special computer software as well as various systems and sensors. The prototype of a multifunctional optical-electronic system of all-round visibility has been developed, designed to be placed on the roof rack of a car and allowing control of an unmanned vehicle using online analysis of the environment, image formation for building a map of the area, determining the parameters of the course, localization, and navigation in real time. A description of the main algorithmic support for building a map and localizing it
with cameras in real time is presented. The requirements for data collection to study the effectiveness of localization and mapping algorithms based on data obtained from the prototype of the developed optical-electronic system have been developed.
REFERENСES
1. Issledovanie sostoyaniya i perspektiv rynka avtonomnykh avtomobilei, platform dlya ehlektrotransporta i toplivnykh ehlementov, otsenka vliyaniya na razvitie rossiiskogo i mezhdunarodnogo rynka "Avtonet". Analiticheskii otchet 2019 [Study of the state and prospects of the market for autonomous cars, platforms for electric transport and fuel cells, assessment of the impact on the development of the Russian and international market "Autonet." Analytical Report 2019]. Moscow, Nekommercheskaya organizatsiya Assotsiatsiya "GLONASS/GNSS-Forum", 2019. 245 p. URL:
www.aggf.m/projects/%D0%A0%D1%8B%D0%BD%D 0%BE%D0%BA%20%D0%B0%D0%B2%D 1%82%D0 %BE%D0%BD%D0%BE%D0%BC%D0%BD%D 1%8B %D1%85%20%D0%B8%20%D1%8D%D0%BB%D0% B5%D0%BA%D1%82%D1%80%D0%B8%D1%87%D0 %B5%D 1%81 %D0%BA%D0%B8%D 1%85%20%D0% B0%D0%B2%D 1%82%D0%BE%D0%BC%D0%BE%D 0%B1%D0%B8%D0%BB%D0%B5%D0%B8%CC%86. pdf
2. Kondrat'ev V.V., Pivovarov I.O., Gorbachev R.A., Ma-tyukhin V.V., Kornev D.A., Gavrilov D.A., Tatarinova E.A., Buzdin V.Eh., Mikhailov I.M., Potkin O.A. [Prospects for the use of artificial intelligence in applied business tasks]. Doklady Rossijskoj Akademii Nauk. Matema-tika, informatika, processy upravleniya [DAN. Mathematics, Computer Science, Management Processes], 2022, vol. 508, no. 1, pp. 41-49.
DOI: 10.31857/S2686954322070104 (In Russ.).
3. Vashchenko A.P., Gavrilov D.A., Lapushkin A.G. [Development of a prototype of a hardware and software device for panoramic viewing for security systems and situa-tional awareness of an unmanned vehicle]. Voprosy kiber-bezopasnosti [Cybersecurity issues], 2021, no. 5(45), pp. 87-95. DOI: 10.21681/2311-3456-2021-5-87-95 (In Russ.).
4. Lovtsov D.A., Gavrilov D.A. Modelirovanie optiko-ehlektronnykh sistem distantsionno pilotiruemykh appara-tov: Monografiya [Modeling of optoelectronic systems of remotely manned vehicles: Monograph]. Moscow, "Tekh-nolodzhi-3000", 2019. 164 p. (In Russ.).
5. Lovtsov D.A., Gavrilov D.A. [An efficient automated electronic optical system for aerospace monitoring]. Pravovaya informatika [Legal Informatics], 2019, no. 2, pp. 29-35. (In Russ.). URL: https://cyberleninka.ru/article/n/effektivnaya-avtomatizirovannaya-optiko-elektronnaya-sistema-aerokosmicheskogo-monitoringa
6. Lovtsov D.A., Gavrilov D.A., Tatarinova E.A. [Theoretical foundations of effective processing visual information in the automated optical-electronic system of ground-
space monitoring]. Professorskii zhurnal. Seriya: Tekhni-cheskie nauki [Professorship Journal. Series: Technical Sciences], 2019, no. 3, pp. 26-40. DOI: 10.18572/26868598-2019-3-3-26-40 (In Russ.).
7. Potapov A. [Computer vision systems: modern tasks and methods]. Control Engineering Rossiya [Control Engineering Russia], 2014, no. 1, pp. 22-28. URL: https://rucont.ru/efd/437978 (In Russ.).
8. Nesterov A.V. [Analysis of digital information processing methods in computer vision systems]. Vestnik RGRTU [Vestnik of RSREU], 2008, no. 4, pp. 3-5. (In Russ.). URL: http://vestnik.rsreu.ru/ru/archive/2008/4-vypusk-26
9. Gavrilov D.A., Shchelkunov N.N., Fortunatov A.A., Mol-chanov V.S. Mnogofunktsional'noe optiko-ehlektronnoe ustroistvo krugovogo obzora dlya upravleniya dvizheniem bespilotnogo transportnogo sredstva. Patent for useful model RU 210565 U1. [Patent for useful model Multifunctional optical-electronic device for all-round viewing for controlling the movement of an unmanned vehicle]. Prioritet 27.12.2021. (In Russ.). URL: https://yandex.ru/patents/doc/RU210565U1_20220421
10. Labbé M., Michaud F. RTAB-Map as an open-source li-dar and visual simultaneous localization and mapping library for large-scale and long-term online operation. J. Field Robot, 2019, vol. 36, iss. 2, pp. 416-446. DOI: 10.1002/rob.21831
11. Leutenegger S., Lynen S., Bosse M., Siegwart R., Fur-gale P. Keyframe-based visual-inertial odometry using nonlinear optimization. Int. J. Robot. Res., 2015, vol. 34, iss. 3, pp. 314-334. DOI: 10.1177/0278364914554813
12. Kerl C., Sturm J., Cremers D. Dense visual SLAM for RGB-D cameras. IROS 2013 - IEEE/RSJInternational Conference on Intelligent Robots and Systems. Tokyo, IEEE, 2013. P. 2100-2106. DOI: 10.1109/IR0S.2013.6696650
13. Engel J., Stuckler J., Cremers D. Large-scale direct SLAM with stereo cameras. IROS 2015 - IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE Press., 2015. P. 1935-1942.
DOI: 10.1109/IROS.2015.7353631
14. Mur-Artal R., Tardés J.D. Visual-Inertial Monocular SLAM with Map Reuse. IEEE Robot. Autom. Lett, 2017, vol. 2, iss. 2, pp. 796-803.
DOI: 10.1109/LRA.2017.2653359
15. Schneider T., Dymczyk M., Fehr M., Egger K., Lynen S., Gilitschenski I., Siegwart R. Maplab: An Open Framework for Research in Visual-Inertial Mapping and Localization. IEEE Robot. Autom. Lett., 2018, vol. 3, iss. 3, pp. 1418-1425. DOI: 10.1109/LRA.2018.2800113
16. Schlegel D., Colosi M., Grisetti G. ProSLAM: Graph SLAM from a Programmer's Perspective. ICRA 2018 -IEEE International Conference on Robotics and Automation. 2018. P. 3833-3840.
DOI: 10.1109/ICRA.2018.8461180
17. Zubizarreta J., Aguinaga I., Montiel J.M.M. Direct Sparse Mapping. IEEE Trans. Robot., 2020, vol. 36, iss. 4, pp. 1363-1370. DOI: 10.1109/TRO.2020.2991614
18. Rosinol A. Kimera: an Open-Source Library for RealTime Metric-Semantic Localization and Mapping. ICRA 2020 - IEEE International Conference on Robotics and
Automation. Paris, France: IEEE, 2020. P. 1689-1696. DOI: 10.1109/ICRA40945.2020.9196885
19. Campos C., Elvira R., Gómez Rodríguez J.J., Montiel J.M.M., Tardós J.D. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual Inertial, and Multimap SLAM. IEEE Trans. Robot, 2021, vol. 37, iss. 6, pp. 1874-1890. DOI: 10.1109/TRO.2021.3075644
20. Gao X., Wang R., Demmel N., Cremers D. LDSO: Direct Sparse Odometry with Loop Closure. IROS 2018 -IEEE/RSJ International Conference on Intelligent Robots and Systems. 2018. P. 2198-2204.
DOI: 10.1109/IROS.2018.8593376
21. Usenko V., Demmel N., Schubert D., Stückler J., Cremers D. Visual-Inertial Mapping With Non-Linear Factor Recovery. IEEE Robot. Autom. Lett., 2020, vol. 5, iss. 2, pp. 422-429. DOI: 10.1109/LRA.2019.2961227
22. Forster C., Zhang Z., Gassner M., Werlberger M., Scara-muzza D. SVO: Semidirect Visual Odometry for Monocular and Multicamera Systems. IEEE Trans. Robot., 2017, vol. 33, iss. 2, pp. 249-265.
DOI: 10.1109/TRO.2016.2623335
23. Qin T., Li P., Shen S. VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator. IEEE Trans. Robot., 2018, vol. 34, iss. 4, pp. 1004-1020. DOI: 10.1109/TRO.2018.2853729
24. Gavrilov D.A. [Investigation of the applicability of the convolutional neural network u-net to a problem of segmentation of aircraft images]. Komp'yuternaya optika [Computer optics], 2021, vol. 45, no. 4, pp. 575-579. DOI: 10.18287/2412-6179-TO-804 (In Russ.).
25. Gavrilov D.A., Lovtsov D.A. [Efficient automated processing visual information using artificial intelligence technologies]. Iskusstvennyi intellekt iprinyatie reshenii
[Artificial intelligence and decision making], 2020, no. 4, pp. 33-46. DOI: 10.14357/20718594200404 (In Russ.).
26. Geiger A., Lenz P., Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite. 2012 IEEE - Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012. P. 3354-3361. DOI: 10.1109/CVPR.2012.6248074
27. Yang G., Song X., Huang C., Deng Z., Shi J., Zhou B. DrivingStereo: A Large-Scale Dataset for Stereo Matching in Autonomous Driving Scenarios. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019. P. 899908. DOI: 10.1109/CVPR.2019.00099
28. Wenzel P., Wang R., Yang N., Cheng Q., Khan Q., von Stumberg L., Zeller N., Cremers D. 4Seasons: A Cross-Season Dataset for Multi-Weather SLAM in Autonomous Driving. Proceedings of the German Conference on Pattern Recognition (GCPR), 2020. P. 404-417. DOI: 10.1007/978-3-030-71278-5_29
29. Lapushkin A.G., Gavrilov D.A., Potkin O.A. [Synthesized data creation software and feedback simulator for testing machine learning algorithms]. Nauchnoe Priborostroenie [Scientific Instrumentation], 2023, vol. 33, no. 1, pp. 95-108. URL: http://iairas.ru/mag/2023/abst1.php#abst8 (In Russ.).
30. Lapushkin A.G., Gavrilov D.A., Shchelkunov N.N., Ba-keev R.N. [The main approaches to the preparation of visual data for training neural network algorithms]. Iskusstvennyi intellekt i prinyatie reshenii [Artificial intelligence and decision making], 2021, no. 4, pp. 62-74. DOI: 10.14357/20718594210406 (In Russ.).
Contacts: Tatarinova Elena Aleksandrovna,
[email protected] Article received by the editorial office on 08.04.2023