Научная статья на тему 'МЕТОД ОПТИМИЗАЦИИ ПАРАМЕТРОВ КОНТРОЛЛЕРА БЕСПИЛОТНОГО ТРАНСПОРТНОГО СРЕДСТВА НА ОСНОВЕ ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ'

МЕТОД ОПТИМИЗАЦИИ ПАРАМЕТРОВ КОНТРОЛЛЕРА БЕСПИЛОТНОГО ТРАНСПОРТНОГО СРЕДСТВА НА ОСНОВЕ ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
75
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЕСПИЛОТНОЕ ТРАНСПОРТНОЕ СРЕДСТВО / МОДЕЛЬ ПРОГНОСТИЧЕСКОГО УПРАВЛЕНИЯ / НЕЙРОННАЯ СЕТЬ / МЕТОД ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дарьина А.Н., Прокопьев И.В.

Для беспилотного транспортного средства, в сложных условиях, когда пространственные ограничения серьезно сужают про-странство допустимых состояний, стратегия выбора пространства состояний более эффективна, чем выборка в пространстве управлений. Хотя это было очевидно, практический вопрос заключается в том, как его достичь, одновременно удовлетворяя жестким ограничениям динамической осуществимости транспортного средства. В этой статье представлена система управления беспилотного транспортного средства на основе контроллера модели прогнози-рующего интегрального пути (MPPI), глубокой сверточной нейронной сети (CNN) для понимания сцены в реальном времени и метода оптимизации роя частиц (PSO) для нахождения вектора оптимальных параметров функции стоимости. Метод основан на оптимиза-ции функции стоимости, которая определяет, где на поверхности пути должно двигаться транспортное средство.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дарьина А.Н., Прокопьев И.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МЕТОД ОПТИМИЗАЦИИ ПАРАМЕТРОВ КОНТРОЛЛЕРА БЕСПИЛОТНОГО ТРАНСПОРТНОГО СРЕДСТВА НА ОСНОВЕ ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ»

обеспечивают точное движение объекта по сложной траектории. В то же время длительность вычисления управления для прогнозного управления была в 500 раз больше, чем для остальных методов, что предъявляет определенные требования к бортовому компьютеру. Кроме того, в реальной машине управляющая команда не будет выполняться мгновенно,

а будет задержка, поскольку команда распространяется по системе. Способствующим задержке фактором является динамика привода, например, время, прошедшее с момента, когда угол поворота был задан, до того момента, когда этот угол фактически достигнут.

Рисунок 14 - Рулевой управление, полученное с помощью П- регулятора

Рисунок 15 - Рулевой управление, полученное с помощью прогнозного управления

Рисунок 16 - Рулевой управление, полученное с помощью ИНС с оптимизированными гиперпараметрами

Во всех трех экспериментах более лучшие результаты по значению значений среднеквадратических ошибок показал метод прогнозного управления. П-регулятор и ИНС показывают сравнимые результаты, но хуже примерно в 2 раза чем контроллер, построенный на основе прогнозного управления.

Более точным может быть контроллер на основе ИНС, обученный с помощью прогнозного управления по модели транспортного средства, учитывающей динамику привода.

Работа выполнена по гранту РФФИ №18-2 9-03 0 61, результаты главы 2 получены при поддержке РНФ, проект № 19-11-00258.

ЛИТЕРАТУРА

1. Льюнг, Л. Идентификация систем / Л. Льюнг. - М.: Наука. 1991. - 432 с.

2. Paden, В., Cap, M., Yong, S.Z., Yershov, D., Frazzoli, E. A Survey of Motion Planning and Control Techniques for Self-driving Urban Vehicles, arXiv:1604.07446.

3. Gu, D., Hu, H., Brady, M., Li, F. Navigation System for Autonomous Mobile Robots at Oxford, Proceedings of International Workshop on Recent Advances in Mobile Robots, Leicester, UK, 1-2 July 1997, pp. 24-33.

4. Clarke, D., Mohtadi, C., Tuffs, P., Generalized Predictive Control-Part I. The Basic Algorithm, Automatica, Vol. 23, No. 2, pp. 137-148, 1987.

5. Rawlings, J.B. Tutorial Overview of Model Predictive Control, IEEE Control Systems Magazine, Vol. 20, No. 3, June 2000, pp. 38-52.

6. Haykin, S. Neural Networks. A Comprehensive Foundation, 1999, Prentice Hall, 842 p.

7. Koza, J.R. Genetic Programming: on the Programming of Computers by Means of Natural Selection, MIT Press. 1992. 819 p.

8. Ryan, C., O'Neill, M., Collins, J.J. Handbook of Grammatical Evolution, Springer, 2018. 507

9. Diveev, A., Sofronova, E. The Network Operator Method for Search of the Most Suitable Mathematical Equation, in: Bio-Inspired Computational Algorithms and Their Applications, Edited by Dr. Shangce Gao, InTech, 2012. pp. 19-42.

10. Diveev, A. I., Kazaryan, D.E., .Sofronova, E.A. Symbolic Regression Methods for Control System Synthesis, In: 22nd Mediterranean Conference on Control and Automation (MED'14), 2014. p. 587-592.

11. Diveev, A.I. A Numerical Method for Network Operator for Synthesis of a Control System with Uncertain Initial Values, Journal of Computer and Systems Sciences International, 2012, Vol. 51, No. 2, pp. 228-243.

12. Дарьина, А.Н., Дивеев, А.И., Прокопьев, И.В. Робототехнический центр ФИЦ ИУ РАН // Вопросы теории безопасности и устойчивости систем, выпуск 21. М.: ФИЦ ИУ РАН. 2019. C. 66-77.

13. Kennedy, J., Eberhart, R. Particle Swarm Optimization, in Proceedings of IEEE International Conference on Neural Networks IV, 1995. pp. 1942-1948.

14. Marquardt, D. An algorithm for least-squares estimation of nonlinear parameters // SIAM J. Appl. Math. - 1963. - No 11. pp. 164 - 168.

15. Levenberg, K. A Method for the solution of certain nonlinear problems in least squares // Quart. Appl. Math. - 1944. - No. 2. pp. 164 - 168.

16. Broyden, C.G. Quasi-Newton methods and their applications to function minimization // Math Comp. - 1967. - Vol. 21. pp. 368 - 381.

УДК 658.62.018.012 Дарьина А.Н., Прокопьев И.В.

Федеральный исследовательский центр «Информатика и управление» Российской академии наук (ФИЦ ИУ РАН), Москва, Россия

МЕТОД ОПТИМИЗАЦИИ ПАРАМЕТРОВ КОНТРОЛЛЕРА БЕСПИЛОТНОГО ТРАНСПОРТНОГО СРЕДСТВА НА ОСНОВЕ ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ

Для беспилотного транспортного средства, в сложных условиях, когда пространственные ограничения серьезно сужают пространство допустимых состояний, стратегия выбора пространства состояний более эффективна, чем выборка в пространстве управлений. Хотя это было очевидно, практический вопрос заключается в том, как его достичь, одновременно удовлетворяя жестким ограничениям динамической осуществимости транспортного средства.

В этой статье представлена система управления беспилотного транспортного средства на основе контроллера модели прогнозирующего интегрального пути (MPPI), глубокой сверточной нейронной сети (CNN) для понимания сцены в реальном времени и метода оптимизации роя частиц (PSO) для нахождения вектора оптимальных параметров функции стоимости. Метод основан на оптимизации функции стоимости, которая определяет, где на поверхности пути должно двигаться транспортное средство.

Ключевые слова:

БЕСПИЛОТНОЕ ТРАНСПОРТНОЕ СРЕДСТВО, МОДЕЛЬ ПРОГНОСТИЧЕСКОГО УПРАВЛЕНИЯ, НЕЙРОННАЯ СЕТЬ, МЕТОД ОПТИМИЗАЦИИ РОЯ ЧАСТИЦ

Введение

Целью управления беспилотного транспортного средства (БТС) обычно является перевод БТС из начального состояния в заданное конечное состояние или осуществление (отслеживание) заданного программного движения БТС. Синтезируемые законы управления должны обеспечивать требуемые показатели качества (точность, быстродействие и т.п.) по всем управляемым координатам с учётом заданных ограничений на управления и состояния БТС. Кроме того, практически важно, чтобы эти законы управления были оптимальными по отношению к заданному функционалу качества. Однако в ряде случаев этого недостаточно и требуется синтезировать законы управления, обеспечивающие достижение цели управления в широком классе неопределённости модели динамики БТС. С другой стороны, система управления должна обеспечить управление с учетом динамических ограничений в реальном времени, параметры которых заранее не известны.

Сложность решения рассматриваемой задачи классическими методами (метод Понтрягина, метод редукции к задаче нелинейного программирования и другие эвристические методы) заключается в том, что требуется большое количество вычислений, и он не может быть реализован на борту робота в процессе его эксплуатации.

Наиболее общий подход к решению задач управления в реальном времени основан на использовании метода предсказания траектории, обеспечивающей возможность добиться прогресса на пути достижения цели [1]. Основная проблема реализации этого подхода состоит в том, что при моделировании необходимо знать не только информацию о модели, но и информацию об окружающей среде. В работе [2] предлагается генерировать множество траекторий с различным управлением и выбирать их по дополнительному функционалу, который учитывает внешние факторы, в том числе и динамические фазовые ограничения. Данный функционал определяется разработчиком системы управления и ставится на борт объекта до реализации алгоритма управления. Построение такой функции требует существенного предварительного анализа внешней среды и сопряжено с возможностью внесения корректировки при выборе траектории.

Тем не менее, все эти подходы основаны на очень точной позиции из внешнего источника (либо GPS либо захват движения). Рассматривается автономное вождение в сложных условиях с активным вождением, используя только внутренние датчики, такие как камеры и ИДУ. Есть несколько способов решения этой проблемы. Существует много подходов SLAM, в которых для обеспечения точного положения используются камеры [3, 4], LIDAR [5] или другие комбинации датчиков [6]. Эти системы обычно обеспечивают положение относительно сгенерированной карты. Эти методы имеют тенденцию быть вычислительно дорогими. Альтернативный метод обеспечения абсолютной позиции использует глубокие нейронные сети для прямой регрессии позиции оценки в районе, посещенном ранее [7]. Однако этот метод локализации еще недостаточно точен, чтобы его можно было напрямую использовать для контроля.

В данной работе применяется модель прогностического интегрального управления (MPPI) [8],[9]. Метод основан на оптимизации функции стоимости, которая определяет, где на поверхности пути должно двигаться транспортному средству. Поэтому поверхность должна кодировать текущее и будущее положение дороги, препятствий, пешеходов, и другие транспортные средства. Сеть обучена так, чтобы стоимость была самая низкая в центре дорожки, и выше от центра. Эта карта стоимости может затем непосредственно вводиться в алгоритм прогнозного управления моделью. Прогнозное управление моделью работает путем чередования оптимизации и выполнения: сначала оптимизируется последовательность управления с разомкнутым контуром (генерируются тысячи траекторий после чего

считается их стоимость на основе функционала, конкретный вид и параметры которого зависят от ручной настройки и личного опыта разработчика), затем первое управление в этой последовательности выполняется транспортным средством, и затем принимается обратная связь о состоянии, и весь процесс повторяется.

Параметры оператора стоимости в алгоритме MPPI настраиваются вручную, а перспективным подходом является применение методов обучения с подкреплением (RL). Большинство предыдущих работ с MPC фокусируется на задачах стабилизации или отслеживания траектории. Ключевая разница между классическими MPC и MPC для обучения с подкреплением, является то, что задачи RL являются сложными задачами. Сложность целей в задачах обучения с подкреплением заключается в том, что увеличиваются вычислительные затраты на оптимизацию, так как оптимизация должна происходить также в режиме реального времени.

Алгоритм MPPI позволяет в реальном времени обрабатывать сложные нелинейные функции динамики и стоимости (тысячи траекторий), но, как и классические MPC алгоритм страдает от ухудшения устойчивости, когда моделируемая динамика отличается от истинной динамики транспортного средства. Стратегией борьбы с этой проблемой может быть настройка параметров модели объекта управления и параметров функции стоимости с помощью эволюционного метода обучения с подкреплением, а также применения глубокой сверточной нейронной сети (CNN) для понимания сцены в реальном времени.

Идентификация модели беспилотного транспортного средства

Объектом управления является БТС, построенное с использованием автомобильного шасси 1/10 масштаба, рис. 1б. БТС весит 1,5 кг и способен развивать скорость до 10 м/с.

Вычисления выполняются с помощью комплекта NVIDIA Jetson TX2. Измерение локальных координат движения БТС проводилось в Робототехническом центре ФИЦ ИУ РАН [10].

Два передних колеса БТС служат для рулевого управления, а два задних колеса - для отслеживания. Кинематическая схема управления движением БТС показана на рис. 1.

На рис. 1а а - угол поворота руля; в - угол ориентации БТС относительно оси х; H - расстояние между передней и задней осями робота; R -базовая точка, расположенная по середине задней оси робота; х,у - координаты.

Задача идентификации обычно формулируется как задача оценивания параметров модели системы, которая обладает существенными чертами реальной системы и характеризует её динамические свойства в удобной для синтеза управления форме.

Традиционным методом построения моделей динамических объектов является реализация процедуры идентификации с использованием регрессионных модельных структур.

Регрессия непосредственно связана с задачей прогнозирования величины выхода y(t) на основе информации, полученной при измерении других величин ipir i = l,d, содержащих информацию о прошлом поведении системы.

Для БТС, изображенного на рис. 1б, задача идентификации состоит в нахождении функции д(<р) такой, чтобы оценка у = д(<р) удовлетворяла некоторому критерию и была прогнозом величины y(t). Функция д(<р) - функция регрессии, должна быть некоторым методом оценена по экспериментальным данным, т.е. g(ip) = g(ip,q), где q - вектор настраиваемых параметров.

Задача состоит в сборе необходимого количества экспериментальных данных во всем рабочем диапазоне системы ZL = {u(t),y(t)}, t = l,L. Полнота и достоверность полученных данных во многом определяют качество идентификации.

Рисунок 1 - Кинематическая схема управления движением БТС

Таким образом, динамический объект может быть представлен в следующем виде:

9Ш) = 3(<P(t,q),q). (1)

Прогнозирующая модель динамики модели мобильного робота g(<p(k,q),q) может быть реализована на нейросетевой модельной структуре, имеющей следующее математическое представление

gt(<p(t,q),q) = Шч) = Ш™,Ю = = Fi Wtjfj Щ1 Vi + wjo) + Wia)r (2) где fj(x) = tanh(x) - активационная функция нейронов скрытого слоя; Fi(x) = ax; a = const - активационная функция нейронов выходного слоя; nраз-мерность регрессионного вектора (число входов ИНС); nh - число нейронов в скрытом слое; q -вектор настраиваемых параметров нейронной сети, включающий весовые коэффициенты и нейронные смещения (Wjl,Wij).

При использовании выражения (2) оптимизация параметров q представляет собой отображение множества экспериментальных данных на множество параметров модели (1). Традиционно используемым критерием оптимальности является среднеквадратичная ошибка прогнозирования

«L(4,ZL) = ln=i(y(k)-y(km2- (3)

Таким образом, идентификация параметров модели (1) состоит в нахождении вектора параметров q, минимизирующих критерий (3)

q = argminaL(qZL) . (4)

ч

Краткий обзор MPPI

Рассмотрим формальную постановку задачи синтеза управления движением по траектории с дискретным временем. Задана математическая модель объекта управления

Xt+1 = i(xt,vt) (5)

где xt - вектор состояния объекта, vt - фактический вектор управления, xt Е Rn, vt~N(ut, q3), ut Е U£ Rmr U - замкнутое ограниченное множество, m<n, N(ut,q3) - Гауссов шум с математическим ожиданием ut. Управление должно пройти через контроллер нижнего уровня со стохастической добавкой в виде Гауссова шума, в результате фактический вектор управления определим как V =

(v0,v1____vT-1) - последовательность входов через

некоторое количество шагов T. Нас интересует вычисление среднего управления U = (u0,u1____uT-1),

которое минимизирует функцию стоимости

](U) = [q1(xT) +I,T-äq2(xt) + q3uTq4-1ut]]r (6) где q1(-) - терминальная стоимость состояния, а q2(') - мгновенная стоимость состояния, S(Vm) = q-iix^+S-oqAx?) - часть стоимости, зависящая от состояния.

Алгоритм MPPI начинается с инициализации вектора состояния x0. Вычисление управления начинается с учета управляющей последовательности из предыдущей итерации Uk-1, симуляции (тысячи) тра-

ектории параллельно, каждая с различном последовательностью управления V™, где т - реализация случайной траектории.

Затраты на управление собираются для каждого развертывания и сопоставлены с весами траектории:

w(Vm) = exp (~^(S(Vm) - Y,T=ouTk-1q-3-1vm - p))r

(7)

р - устанавливается в минимальное значение затрат среди всех выбранных траекторий, предназначен для арифметического недопущения. Квазиоптимальное управление на каждом временном шаге вычисляется как:

1

ut,k = u

■ tk-1

^-^Гт-^ПП, (8)

где %т~Ы(0,ч3)- Гауссов шум с нулевым средним, М - число реализаций траекторий, q - вектор идентифицируемых параметров функции стоимости, q =

[Ч^ Ч2, Чз,Ч^\Т ■

Оптимизация параметров функции стоимости

В настоящей работе рассматривается подход, при котором параметры q в (6) и нахождения управления (8) определяется методом оптимизации роя частиц ^0) [11],[12].

В общем случае для нелинейной модели объекта (5) и функционала произвольного вида не известны универсальные методы построения синтезирующей функции (8) даже для решения частной задачи синтеза. Заметим также, что синтезирующая функция (8) может явно не зависеть от начальных значений [13]. Тем более нет универсальных методов для нахождения параметров функции стоимости. Тогда с помощью вычислительной машины можно организовать поиск решения й(-) на множестве параметров q по дополнительному функционалу в виде определения терминальных условий.

В реальности основной задачей регулирования является максимальное приближение выхода объекта к желаемому значению, определяемому уставкой. Таким образом, более естественно выглядит критерий типа

КФ^ЫН^-гЩ)^^ ш!п, (9)

где г(¡) - уставка, траектория для численного синтеза может быть в виде сплайна для дискретного набора точек количеством Ы, q - вектор идентифицируемых параметров функции стоимости, q = [Чи Ч2, Чз, Ч4\Т - вычисленные для оптимального управления й(-), полученного методом РБО, используя следующие процедуры

Чк+1 = Чк + рк+1, ик+1 =

= + С1Г1(р'к - чк) + С2Г2&1 - ч'к),(10)

где чк - величина параметра, к - текущая итерация, - величина и направление вектора скорости

каждого параметра, параметры ускорения,

wk - постоянный

с

с2 -

2 - случайные числа от

0 до 1, pk - лучшая найденная точка варианта

б

а

1

параметра, pjj - лучшая найденная точка всех вариантов параметра.

После вычисления направления вектора V, параметр перемещается в точку В случае необходимости обновляются значения лучших точек для каждого параметра и для всех параметров в целом. После этого цикл повторяется. Так как plk , pj® находятся после вычисления (9) (движение БТС по траектории), то алгоритм требует значительных ресурсов и запускается десятки тысяч итераций на симуляторе.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для сужения области поиска используется принцип базисного решения. Согласно этому принципу [13] мы определяем начальные значения параметров, которые называем базисным. Тогда поиск решения сосредотачиваем в окрестности базисного решения. Если базисное решение выбрано удачно, то время поиска решения можно существенно сократить. В любом случаем базисное решение можно всегда заменить хорошим решением, найденным в процессе поиска. Принцип поиска решения на основе базисного удобен при решении практических задач синтеза управления, где структуру управления может задать инженер, руководствуясь здравым смыслом и опытом.

Сверточная нейронная сеть (CNN)

Для того чтобы моделируемая динамика не отличалась от истинной динамики транспортного средства необходимо точно вычислять свое состояние относительно затрат на пути к цели в прогнозируемом пространстве. На прогнозируемом пространстве в статье [14] предлагается использовать монокулярное зрение и глубокую сверточную

нейронную сеть (CNN) для преобразования сцены в карту затрат в реальном времени.

Чтобы изучить функцию регрессии по пикселям, способную производить затраты на прохождение для каждого пикселя, данные обучения нужны порядка сотен тысяч кадров. Маркировка всех этих данных вручную трудоемкий, медленный и склонный к ошибкам процесс. Необходимы датчики и камеры, которые могут связывать каждое изображение с полной оценкой состояния, включая ориентацию и положение в сочетании с обзорной картой трека, зарегистрированного по координатам GPS, они могут быть используется для создания сотен тысяч маркированных изображений без какой-либо ручной маркировки отдельных картинок.

Наиболее простой подход в создании обучающей маркированной выборки состоит в преобразовании реальной сцены с одной камеры с помощью библиотеки OpenCV в плотную карту затрат. На первом этапе находятся ключевые точки, выделяются ограничения трека (рисунок 2b). На втором этапе необходимо произвести трансформацию изображения с помощью матрицы гомографии по четырем или более точкам. На третьем этапе происходит кодировка изображения. Ограничения кодируются числом 255, а предпочтительный путь нулем. Пиксели от 0 до 255 изменяются по градиенту. Сгенерированная методом MPPI траектория будет стоить меньше, если будет условно проходить по пикселям с меньшим числом.

Кроме того, подъемы и спуски могут кодироваться определенным числом в зависимости от крутизны.

Рисунок 2

С помощью камеры БТС (рис. 1), который мы использовали в наших экспериментах, были сохранены 15000 последовательных изображений размером 160x120 пикселей. С помощью программы преобразования были получены соответствующие изображениям карты затрат непосредственно перед транспортным средством (в координатах транспортного средства). Это включает в себя значительные изменения в условиях освещения, ограничений и позы БТС на треке. После чего была обучена сверточная нейронная сеть. Архитектура CNN ограничена для работы в режиме реального времени на Nvidia Jet-son TX2.

Сеть принимает входные изображения 160x120 и передает их через несколько фильтров свертки и 2 объединенных слоя, за которыми следует набор из 4 расширенных фильтров сверток. Наши сети используют сверточные блоки 3x3 с BatchNorm и ReLU. По сравнению с прямым методом получения

Работа выполнена при частичной поддержке РФФИ получены при поддержке РНФ (проект № 19-11-00258).

карты затрат с помощью ОрепСУ, обученная таким образом сеть может терпеть удаление небольших областей трека из-за засвечивания и все еще производить карты стоимости, пригодные для использования.

Вывод

В этой работе представлены полевые эксперименты, демонстрирующие новые возможности синтеза системы управления на основе прогнозирующего контроллера, использующего информацию, в выводе нейронной сети. Карта затрат подходит для планирования, когда точное местоположение на трассе не верно.

Параметры контроллера оптимизируются с помощью эволюционного алгоритма метода оптимизации роя частиц. Моделирование показывает улучшение работы прогнозирующего контроллера МРР1, но зависят от инициализации параметров и выбора критерия оптимизации, (грант №18-2 9-03 0 61-мк), результаты раздела 3

ЛИТЕРАТУРА

1. D. Q. Mayne, "Model predictive control: Recent developments and future promise," Automatica, vol. 50, no. 12, pp. 2967-2986, 2014

2. T. Howard and A. Kelly, "Optimal rough terrain trajectory generation for wheeled mobile robots," International Journal of Robotics Research, vol. 26, no. 2, pp. 141-166, 2007.

3. J. Engel, T. Schops, and D. Cremers. Lsd-slam: Large-scale direct monocular slam. In " European Conference on Computer Vision, pages 834-849. Springer, 2014.

3. R. Mur-Artal, J. M. M. Montiel, and J. D. Tardos. Orb-slam: a versatile and accurate monocular slam system. IEEE Transactions on Robotics, 31(5):1147-1163, 2015.

4. J. Zhang and S. Singh. Loam: Lidar odometry and mapping in real-time. In Robotics: Science and Systems, volume 2, 2014.

5. R. A. Newcombe, S. Izadi, O. Hilliges, D. Molyneaux, D. Kim, A. J. Davison, P. Kohi, J. Shotton, S. Hodges, and A. Fitzgibbon. Kinectfusion: Real-time dense surface mapping and tracking. In Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on, pages 127-136. IEEE, 2011.

6. A. Kendall and R. Cipolla. Modelling uncertainty in deep learning for camera relocalization. Proceedings of the International Conference on Robotics and Automation (ICRA), 2016.

7. G. Williams, P. Drews, B. Goldfain, J. M. Rehg, and E. A. Theodorou, "Aggressive driving with model predictive path integral control," in 2016 IEEE International Conference on Robotics and Autoation (ICRA), May 2016, pp. 1433-1440.

8. G. Williams, A. Aldrich, and E. A. Theodorou, "Model predictive path integral control: From theory to parallel computation," Journal of Guidance, Control, and Dynamics, pp. 1-14, 2017.

9. Дарьина, А.Н., Дивеев, А.И., Прокопьев, И.В. Робототехнический центр ФИЦ ИУ РАН // Вопросы теории безопасности и устойчивости систем, выпуск 21. М.: ФИЦ ИУ РАН. 2019. C. 66-77.

10. T. Weise. Global Optimization Algorithms - Theory and Application: Ph.D Thesis. -University of Kassel, 2008.

11. J Kennedy, R Eberhart. Particle swarm optimization. // Proceedings of IEEE International conference on Neural Networks. - 1995, pp. 1942 - 1948.

12. Diveev A., Sofronova E., The Network Operator Method for Search of the Most Suitable Mathematical Equation, in: Bio-Inspired Computational Algorithms and Their Applications, Edited by Dr. Shangce Gao, InTech, 2012. pp. 19-42.

13. Grady Williams, Nolan Wagener, Brian Goldfain, Paul Drews, James M. Rehg, Byron Boots, and Evangelos A. Theodorou Information Theoretic MPC for Model-Based Reinforcement Learning Conference: 2017 IEEE International Conference on Robotics and Automation (ICRA) 29 May-3 June 2017

УДК 519.71 Березнев В.А.

Федеральный исследовательский центр «Информатика и управление» Российской академии наук (ФИЦ ИУ РАН), Москва, Россия

СИСТЕМА БЕЗАВАРИЙНОГО УПРАВЛЕНИЯ ГРУППОЙ РОБОТОВ

Рассматривается задача одновременного управления группой роботов. Для каждого робота заданы начальная и конечная точки пути. Особенность заключается в том, что прямолинейное движение роботов из начальной точки в конечную невозможно из-за наличия препятствий. Предполагается, что препятствия имеют круговую форму. Наличие препятствий делает весьма проблематичным использование классических методов синтеза оптимального управления или математического программирования в силу невыпуклости области допустимых траекторий роботов. В основе предлагаемого подхода лежит разделение искомых траекторий роботов на отдельные участки, на каждом из которых нет препятствий. Поиск различных вариантов таких траекторий базируется на теории графов, а движение на каждом из участков без препятствий сводится к задаче синтеза оптимального быстродействия с фазовыми ограничениями. Кроме того, предлагается алгоритм, исключающий возможность столновения роботов во время движения.

Ключевые слова:

ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ. ТЕОРИЯ ГРАФОВ, ЗАДАЧА О КРАТЧАЙШЕМ ПУТИ, УПРАВЛЕНИЕ РОБОТОМ

Традиционным подходом к решению этой задачи является использование методов оптимального управления, основанных на принципе максимума Л.С. Понтрягина (см., например, [1], [2], а также [3] - [5]) . В этом случае поведение роботов описывается дифференциальными уравнениями второго порядка

Xk = f(xk, хк,ик), к el, К (1) где ик = uk(t) — действительный управляющий параметр, подчиненный условию

и-<uk(t)u+ (2)

а xk(t) e R2. Условие непересечения траекторий роботов xk(t) с круговыми областями препятствий означает, что для любого t должны выполняться неравенства

lxk(t) - q] > rj kE%K,jElj (3)

Эти условия означают невыпуклость области допустимых траекторий роботов, в силу чего использование методов оптимального управления, как и методов математического программирования (см., например, [6] - [9]) становится весьма проблематичным. Известны и некоторые эвристические походы ([10] - [11]).

Предлагаемые результаты основаны на известной теории синтеза оптимальных управлений в нелинейных системах второго порядка (см., например, [2]), а также на методе построения кратчайшего пути на связном ориентированном плоском графе [12]. В частности, предлагаемый подход является некоторой модификацией предложенного в [13] метода и заключается в следующем.

Окружности, являющиеся границами круговых препятствий, снабжаются некоторыми точками, объявляемыми вершинами vir i£l,n связного ориентированного графа r(5,F), где V = {vi} — множество

Рассмотрим задачу управления группой из К роботов, для каждого из которых заданы начальная точка траектории хк0 и конечная точка хк, к=1,К, где к — индекс робота. Предполагается также, что роботы начинают движение одновременно.Пусть на плоскости заданы круговые препятствия так, что траектории движения роботов, которыми предстоит управлять, не должны иметь общих точек с этими кругами. Круговые препятствия заданы координатами своих центров С](х1],х2]) и длинами радиусов Г/, ¡ = 1,]. Целью управления является минимизация времени, затрачиваемого каждым роботом на перемещение из точки хк0 в точку хк (см. рис.1) .

i Надоели баннеры? Вы всегда можете отключить рекламу.