Научная статья на тему 'ОГИБАНИЕ ПРЕПЯТСТВИЙ ПРИ ПЕРЕМЕЩЕНИИ МОБИЛЬНОГО РОБОТА'

ОГИБАНИЕ ПРЕПЯТСТВИЙ ПРИ ПЕРЕМЕЩЕНИИ МОБИЛЬНОГО РОБОТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
62
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБОТ / МАШИННОЕ ОБУЧЕНИЕ / Q-ОБУЧЕНИЕ / ПЕРЕМЕЩЕНИЕ / ПРЕПЯТСТВИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сидоренко А.В., Солодухо Н.А.

Рассмотрены вопросы моделирования при навигации с огибанием препятствий мобильного робота с использованием методов машинного обучения: Q-обучения, алгоритма SARSA, глубокого Q-обучения и двойного глубокого Q-обучения. Разработанное программное обеспечение включает средства Mobile Robotics Simulation Toolbox, Reinforcement Learning Toolbox и пакет визуализации Gazebo для моделирования среды. Результаты вычислительного эксперимента показывают, что для моделируемой среды размером 17 на 17 клеток и препятствия длиной в 12 клеток обучение при использовании алгоритма SARSA происходит с лучшей производительностью, чем для остальных.Предложен алгоритм огибания препятствий с исключением методов машинного обучения, и показано, что скорость огибания препятствий роботом с использования данного алгоритма выше, чем скорость обучения при применении глубокого Q-обучения и двойного глубокого Q-обучения, но ниже, чем с использованием алгоритмов SARSA и Q-обучения. Для предложенного алгоритма проведен вычислительный эксперимент с использованием среды моделирования движения робота. В пакете визуализации Gazebo 11 показано, что препятствия кубической формы огибаются быстрее, чем цилиндрической.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BENDING OBSTACLES WHEN MOVING A MOBILE ROBOT

The issues of modeling when navigating around obstacles of a mobile robot using machine learning methods are considered: Q-learning, SARSA algorithm, deep Q-learning and double deep Q-learning. The developed software includes the Mobile Robotics Simulation Toolbox, Reinforcement Learning Toolbox, and the Gazebo visualization package for environment simulation. The results of the computational experiment show that for a simulated environment with a size of 17 by 17 cells and an obstacle 12 cells long, training using the SARSA algorithm occurs with better performance than for the others.An algorithm for avoiding obstacles without the use of machine learning is proposed, and it was shown that the speed of avoiding obstacles using this algorithm is higher than the learning speed using deep Q-learning and double deep Q-learning, but lower than using the SARSA and Q-learning algorithms. . For the proposed algorithm, a numerical experiment was carried out using the robot movement simulation environment in Gazebo 11 and it was shown that cubic obstacles are being avoided faster than cylindrical ones.

Текст научной работы на тему «ОГИБАНИЕ ПРЕПЯТСТВИЙ ПРИ ПЕРЕМЕЩЕНИИ МОБИЛЬНОГО РОБОТА»

УДК 62-503.55 DOI: 10.21122/2309-4923-2023-1-4-9

СИДОРЕНКО А.В., СОЛОДУХО Н.А. ОГИБАНИЕ ПРЕПЯТСТВИЙ ПРИ ПЕРЕМЕЩЕНИИ МОБИЛЬНОГО РОБОТА

Факультет радиофизики и компьютерных технологий Белорусского государственного университета г. Минск, Республика Беларусь

Рассмотрены вопросы моделирования при навигации с огибанием препятствий мобильного робота с использованием методов машинного обучения: Q-обучения, алгоритма SARSA, глубокого Q-обучения и двойного глубокого Q-обучения. Разработанное программное обеспечение включает средства Mobile Robotics Simulation Toolbox, Reinforcement Learning Toolbox и пакет визуализации Gazebo для моделирования среды. Результаты вычислительного эксперимента показывают, что для моделируемой среды размером 17 на 17 клеток и препятствия длиной в 12 клеток обучение при использовании алгоритма SARSA происходит с лучшей производительностью, чем для остальных.

Предложен алгоритм огибания препятствий с исключением методов машинного обучения, и показано, что скорость огибания препятствий роботом с использования данного алгоритма выше, чем скорость обучения при применении глубокого Q-обучения и двойного глубокого Q-обучения, но ниже, чем с использованием алгоритмов SARSA и Q-обучения. Для предложенного алгоритма проведен вычислительный эксперимент с использованием среды моделирования движения робота. В пакете визуализации Gazebo 11 показано, что препятствия кубической формы огибаются быстрее, чем цилиндрической.

Ключевые слова: робот, машинное обучение, Q-обучение, перемещение, препятствия.

Введение

Интеграция мобильных роботов в военную, производственную, космическую сферы деятельности человека сталкивается с одной из актуальных проблем - управление движением мобильного робота в некоторой среде при известном местоположении робота, расположении целевых точек, в которые должен переместиться робот [1]. При этом существенным является обеспечение безопасного движения робота без столкновения со встречающимися на его пути препятствиями.

При решении подобных задач, как правило, используются алгоритмы машинного обучения, включающие алгоритмы обучения с подкреплением, нейросетевые алгоритмы, алгоритмы глубокого обучения [2-4]. Использование указанных алгоритмов основано на принципах моделирования. Критерием оптимизации в каждой из указанных моделей является определение количества эпизодов для обучения алгоритма.

В работе [4] проведены исследования и проанализирована реализация алгоритмов алгоритмов машинного обучения с подкреплением при использовании симуляции движения робота в пакете Matlab и определены значения вознаграждения.

В данной работе проводится сравнительный анализ алгоритмов машинного обучения для безопасного движения мобильного робота, демонстрация возможностей созданного программного обеспечения и проведение вычислительного эксперимента при навигации робота с использованием пакета визуализации Gazebo 11.

Проведение вычислительного эксперимента

Программно реализованные алгоритмы обучения, примененные к разработанной нами модели управления системы мобильных роботов, позволили провести вычислительный эксперимент с использованием разработанной компьютерной программы. Для реализации алгоритма обучения использовался пакет для Matlab Reinforcement Learning Toolbox [5]. В модели, описывающей движение робота, применялся пакет Mobile Robotics Simulation Toolbox [6] на операционной системе Linux при использовании пакета визуализации среды Gazebo 11. Взаимодействие агентов обеспечивается через пакет для Matlab ROS Toolbox [7]. В основе пространства, в котором обучался двигаться робот лежит симуляционное пространство в Gazebo 11 (рисунок 1).

Рисунок 1. Симуляционное пространство в пакете визуализации Gazebo 11

При проведении вычислительного эксперимента в качестве среды использовалась поверхность 17 на 17 клеток с препятствием в 12 клеток (рисунок 2). Для достижения защиты от ошибочного пересечения препятствий клетки стены из Gazebo в симуляции Matlab были окружены дополнительным слоем стены сверху, снизу и справа. В процессе экс-

перимента при перемещении робота достижение значения вознаграждения в численном выражении, равное 500, определялось как целевое. В любом другом местоположении отмечалось как "-1". Обучение прекращается, когда суммарное среднее (среднее значение за последние 30 эпизодов обучения) значение вознаграждения достигает "450".

Рисунок 2. Вид симуляции движения робота в пакете Matlab при обучении с помощью алгоритмов ^-обучения (а), SARSA (б), глубокого ^-обучения (в) и двойного глубокого ^-обучения (г)

При выполнении исследования мультиагент- обучения приведенных выше алгоритмов машинного ная система проходила оптимальный путь следова- обучения. Результаты вычислительного эксперимен-ния при огибании препятствия и использовании для та приведены на рисунке 3.

б

а

Рисунок 3. Графики зависимостей значений вознаграждений от количества итераций при обучении с помощью

алгоритмов ^-обучения (а), SARSA (б). Голубая линия означает мгновенное значение вознаграждения, синяя линия - усредненное за 30 эпизодов значение вознаграждения, желтая - начальное значение Q0 за эпизод

В работе предложен алгоритм огибания препятствий роботизированной систем в отсутствие алгоритмов машинного обучения. Используемый алгоритм движения робота с огибанием препятствий состоит из следующих этапов. В начале движения робота определяем прямую линию L, расположенную между начальной и конечной точками. Далее робот поворачивается таким образом, чтобы смотреть на конечную точку и начинает движение по прямой к конечной точке. Если в процессе движения встречается препятствие, он огибает его, двигаясь вдоль препятствия до тех пор, пока не станет на начальной

линии между начальной и конечной точками. Более подробно алгоритм движения робота представлен на рисунке 4.

При работе со симуляцией движения робота использовался визуализатор Gazebo 11 и ROS 2 Humble Hawksbill. Для управления роботом использовались команды командной оболочки UNIX bash в OC Linux Ubuntu 22.04 Jammy Jellyfish. Исходный код представлен в [8]. Для работы алгоритма необходимо запустить скрипт bash lines.sh. Для задания конечной точки движения необходимо задать координаты Х и У в строчках 332 и 333 файла lines.sh. В вычислитель-

ном эксперименте начальные координаты робота в пакете Gazebo 11 составили: (0;-2), конечные - (0;9). Диаметр цилиндрических препятствий составил 0,8 единицы координатной сетки. Высота цилиндриче-

ских препятствий составила 0,5 единицы координатной сетки. Размер кубических препятствий составил 0,8х0,8х0,8 единицы координатной сетки. Размещение препятствий представлено на рисунке 5.

Рисунок 4. Алгоритм движения робота

б

а

в

г

Рисунок 5. Симуляционное пространство в пакете визуализации Gazebo 11 при 2 (а), 1 (б), 2 (в), 1 (г) цилиндрических и

кубических препятствий

Изменение времени движения при применении кубических и цилиндрических препятствиях показано на рисунке 6.

Разница времени при 1 препятствии составила 0,08 минуты, при 2 препятствиях - 4,15 минуты, при

3 препятствиях - 3,87 минуты, при 4 препятствиях -3,24 минуты, при 5 препятствиях - 4,97 минуты. Т.е. при использовании предложенного нами алгоритма препятствия в виде кубов огибаются быстрее, чем препятствия в виде цилиндров.

Время движения

0 12 3 4 5

количество препятствии

Рисунок 6. График зависимость времени движения робота до цели от количества препятствий

На огибание препятствий при использовании данного алгоритма по пути к цели в симуляционном пространстве Gazebo 11, представленном на рисунке 1, у робота уходило 21,21+3,97 минуты. Данное время меньше, чем время, необходимое на обучение в аналогичном пространстве в пакете Matlab при использовании алгоритмов глубокого Q-обучения и двойного глубокого Q-обучения, но больше, чем время, необходимое на обучение с помощью алгоритмов SARSA и Q-обучения (рисунок 2).

Заключение

В процессе выполнения исследований проанализирована работа алгоритмов машинного обучения с подкреплением для безопасного движения при перемещении мобильного робота: SARSA, Q-обучение, глубокое Q-обучение и двойное глубокое Q-обуче-ние. Разработано программное обеспечение, проведен вычислительный эксперимент по обучению роботизированной системы.

Результаты анализа показали, что быстрее всего обучается робот при использовании алгоритма SARSA, а медленнее всего - алгоритма глубокого Q-обучения. Полученные результаты коррелируют с результатами, представленными в [4], с той лишь разницей, что в работе [4] медленнее всего обучался алгоритм двойного глубокого Q-обучения,

а в данной работе - алгоритм глубокого Q-обуче-ния. Следует отметить, что длина траекторий движения робота для двойного глубокого Q-обучения оказалась наибольшей и составила 21 шаг, а для глубокого Q-обучения - наименьшей, и составила 10 шагов.

В данной работе в предложенном нами алгоритме огибания препятствий отсутствует алгоритм машинного обучения. При использовании данного алгоритма проведен вычислительный эксперимент по огибанию цилиндрических и кубических препятствий. Выявлено, что с использованием данного алгоритма кубические препятствия огибаются быстрее цилиндрических. Оценено время движения до цели с огибанием препятствий в пространстве визуализации Gazebo 11 (рисунок 1), аналогичное пространству обучения в Matlab (рисунок 2). Данное время значительно меньше, чем время, необходимое на обучение с помощью алгоритмов глубокого Q-обу-чения и двойного глубокого Q-обучения, но больше, чем время, необходимое на обучение с помощью алгоритмов SARSA и Q-обучения.

Резюмируя, можно сказать, что верификация нашего алгоритма позволила выявить преимущество нашего алгоритма над алгоритмом машинного обучения с подкреплением в контексте более высокой скорости достижения препятствия по сравнению со скоростью обучения.

ЛИТЕРАТУРА

1. Назарова, А.В. Методы и алгоритмы мультиагентного управления робототехнической системой / А.В. Назарова, Т.П. Рыжова // Вестник МГТУ им. Н. Э. Баумана. Сер. Приборостроение. - 2012. Спец. вып. 6 : Робототехнические системы. - С. 93-105.

2. Fu Yiuwi. Neural Network-Based Learning from Demonstration of an Autonomous Ground Robot / Yiuwi Fu [et al.] // Machines. - 2019. - Vol. 7, № 2. - P. 1-14.

3. Altuntas N. Reinforcement learning based mobile robot navigation / N. Altuntas [et al.] // Turkish Journal of electrical engineering & Computer sciences. - 2016. - Vol. 24, № 3. - P. 1747-1767.

4. Сидоренко, А.В. Машинное обучение при перемещении мобильного робота / А.В. Сидоренко, Н.А. Солодухо // Компьютерные технологии и анализ данных (CTDA'2022): материалы III Междунар. науч.-практ. конф., Минск, 21-22 апр. 2022 г. / Белорус. гос. ун-т ; редкол.: В. В. Скакун (отв. ред.) [и др.]. - Минск : РИВШ, 2022. - С. 68-72.

5. Описание пакета Reinforcement Learning Toolbox [Электронный ресурс]. - Режим доступа: https://www. mathworksxom/help/reinforcement-learmng/index.html?s_tid=CRUX_lftnav - Дата доступа: 11.03.2023.

6. Описание пакета Mobile Robotics Simulation Toolbox [Электронный ресурс]. - Режим доступа: https://www. mathworks.com/matlabcentral/fileexchange/66586-mobile-robotics-simulation-toolbox - Дата доступа: 11.03.2023.

7. Описание пакета ROS Toolbox [Электронный ресурс]. - Режим доступа: https://www.mathworks.com/products/ ros.html - Дата доступа: 11.03.2023.

8. GitHub [Электронный ресурс]. - Режим доступа: https://github.com/MikitaSaladukha/ROSproject - Дата доступа: 11.03.2023.

REFERENCES

1. Nazarova, A.V. Methods and algorithms for multi-agent control of robotic system / A.V. Nazarova, T.P. Ryzhova // Vestnik MGTU im. N.E. Baumana. Ser. Priborostroenie. - 2012. - Spec. iss. 6 : Robototekhnicheskie sistemy. - P. 93-105.

2. Fu Yiuwi. Neural Network-Based Learning from Demonstration of an Autonomous Ground Robot / Yiuwi Fu [et al.] // Machines. - 2019. - Vol. 7, № 2. - P. 1-14.

3. Altuntas N. Reinforcement learning based mobile robot navigation / N. Altuntas [et al.] // Turkish Journal of electrical engineering & Computer sciences. - 2016. - Vol. 24, № 3. - P. 1747-1767.

4. Sidorenko, A.V. Machine learning in mobile robot movement / A.V. Sidorenko, M.A. Saladukha // Computer technology and data analysis (CTDA'2022) : materials of III Intern. sci.-pract. conf., Minsk, 21-22 apr. 2022 y. / Belarusian state university; ed.: V.V. Skakun (main ed.) [et al.]. - Minsk : RIVSH, 2022. - P. 68-72.

5. Description of Reinforcement Learning Toolbox [Electronic resourse]. - Access: https://www.mathworks.com/help/ reinforcement-learning/index.html?s_tid=CRUX_lftnav - Access date: 11.03.2023.

6. Description of Mobile Robotics Simulation Toolbox [Electronic resourse]. - Access: https://www.mathworks.com/ matlabcentral/fileexchange/66586-mobile-robotics-simulation-toolbox - Access date: 11.03.2023.

7. Description of ROS Toolbox [Electronic resourse]. - Access: https://www.mathworks.com/products/ros.html -Access date: 11.03.2023.

8. GitHub [Electronic resourse]. - Access: https://github.com/MikitaSaladukha/ROSproject - Access date: 11.03.2023.

SIDORENKO A.V, SALADUKHA N.A.

BENDING OBSTACLES WHEN MOVING A MOBILE ROBOT

Belarusian State University Minsk, Republic of Belarus

The issues of modeling when navigating around obstacles of a mobile robot using machine learning methods are considered: Q-learning, SARSA algorithm, deep Q-learning and double deep Q-learning. The developed software includes the Mobile Robotics Simulation Toolbox, Reinforcement Learning Toolbox, and the Gazebo visualization package for environment simulation. The results of the computational experiment show that for a simulated environment with a size of 17 by 17 cells and an obstacle 12 cells long, training using the SARSA algorithm occurs with better performance than for the others.

An algorithm for avoiding obstacles without the use of machine learning is proposed, and it was shown that the speed of avoiding obstacles using this algorithm is higher than the learning speed using deep Q-learning and double deep Q-learning, but lower than using the SARSA and Q-learning algorithms. . For the proposed algorithm, a numerical experiment was carried out using the robot movement simulation environment in Gazebo 11 and it was shown that cubic obstacles are being avoided faster than cylindrical ones.

Keywords: robot, machine learning, Q-learning, movement, obstacles.

Сидоренко А.В., профессор факультета радиофизики и компьютерных технологий Белорусского государственного университета, доктор технических наук

E-mail: sidorenkoa@yandex.by

Солодухо Н.А., старший преподаватель факультета радиофизики и компьютерных технологий Белорусского государственного университета, магистр физико-математических наук

i Надоели баннеры? Вы всегда можете отключить рекламу.