СИНТЕЗ СИСТЕМЫ ПРОСТРАНСТВЕННОЙ СТАБИЛИЗАЦИИ МОБИЛЬНОГО РОБОТА НА ОСНОВЕ ОБУЧЕНИЯ МЕТОДОМ СИМВОЛЬНОЙ РЕГРЕССИИ

Дивеев Асхат Ибрагимович; Мендес Флорес Недер Хаир

Вестник РУДН. Серия: Инженерные исследования

RUDN Journal of Engineering Researches. ISSN 2312-8143 (Print). ISSN 2312-8151 (Online)

2021;22(2):129-138 journals.rudn.ru/engineering-researches

OF ENGINEERING RESEARCHES

DOI: 10.22363/2312-8143-2021-22-2-129-138 УДК 62-50:519.7

Научная статья / Research article

Синтез системы пространственной стабилизации мобильного робота на основе обучения методом символьной регрессии

А.И. Дивеев" Н.Х. Мендес Флоресь

"Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Российская Федерация, 119333, Москва, ул. Вавилова, д. 44/2 •"Российский университет дружбы народов, Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6 E-mail: [email protected]

История статьи

Поступила в редакцию: 25 января 2021 г. Доработана: 11 марта 2021 г. Принята к публикации: 24 апреля 2021 г.

Ключевые слова: синтез управления, машинное обучение управления, символьная регрессия

Аннотация. Рассматривается задача синтеза системы пространственной стабилизации робота. Приведен исторический обзор методов и подходов решения задачи синтеза управления. Показано, что задача синтеза системы управления является важнейшей задачей в области управления, для которой не существует универсальных численных методов ее решения. В качестве одного из путей решения данной проблемы предложено использовать методы машинного обучения на основе применения современных методов символьной регрессии. Для автоматического решения задачи предлагается использовать обучение системы управления методами символьной регрессии. Это позволяет построить универсальные алгоритмы решения задач синтеза управления. Рассмотрено несколько наиболее перспективных для применения в задачах управления методов символьной регрессии. Приведена формальная постановка задачи синтеза управления для ее численного решения. Приведены примеры решения задач синтеза системы пространственной стабилизации мобильного робота методом сетевого оператора и вариационного декартова генетического программирования. В задаче требовалось найти одну нелинейную функцию обратной связи, чтобы переместить робот из тридцати начальных условий в одну терминальную точку. Представлены результаты моделирования, полученные методами символьной регрессии систем управления.

Для цитирования

Дивеев А.И., Мендес Флорес Н.Х. Синтез системы пространственной стабилизации мобильного робота на основе обучения методом символьной регрессии // Вестник Российского университета дружбы народов. Серия: Инженерные исследования. 2021. Т. 22. № 2. С. 129-138. doi: 10.22363/2312-8143-2021-22-2-129-138

This work is licensed under a Creative Commons Attribution 4.0 International License https://creativecommons.Org/licenses/by/4.0/

Synthesis of a mobile robot spatial stabilization system based on machine learning

control by symbolic regression

Askhat I. Diveeva Neder Jair Mendez Florezb

aFederal Research Center "Computer Science and Control" of the Russian Academy of Sciences, 44/2 Vavilova St, Moscow, 119333, Russian Federation bPeoples' Friendship University of Russia (RUDN University), 6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation El E-mail: [email protected]

Article history Abstract. The spatial stabilization system synthesis problem of the robot is

Received: January 25, 2021 considered. The historical overview of methods and approaches for solving the problem

Revised: March 11, 2021 of control synthesis is given. It is shown that the control synthesis problem is the most

Accepted: April 24, 2021 important task in the field of control, for which there are no universal numerical methods

for solving it. As one of the ways to solve this problem, it is proposed to use the method of

machine learning based on the application of modern symbolic regression methods. This

allows you to build universal algorithms for solving control synthesis problems. Several

most promising symbolic regression methods are considered for application in control

tasks. The formal statement of the control synthesis problem for its numerical solution

is given. Examples of solving problems of synthesis of system of spatial stabilization of

mobile robot by method of network operator and variation Cartesian genetic programming

are given. The problem required finding one nonlinear feedback function to move the

- robot from thirty initial conditions to one terminal point. Mathematical records of the

Keywords: synthesis of control, machine , . , r ■ • r • i • i i •

learning control symbolic regression obtained control functions are given. Results of simulation of control systems obtained

by symbolic regression methods are given.

For citation

Diveev AI, Mendez Florez NJ. Synthesis of a mobile robot spatial stabilization system based on machine learning control by symbolic regression. RUDN Journal of Engineering Researches. 2021;22(2):129-138. (In Russ.) doi: 10.22363/2312-81432021-22-2-129-138

Введение

Синтез системы управления — важнейшая задача в области теории управления. Ее математическая постановка не имеет сегодня никаких общих аналитических или численных методов решения. В результате решения этой задачи получаем математическое выражение для функции управления. Реализация этой функции на бортовом процессоре объекта управления представляет собой блок управления в обратной связи, который по сигналам с датчиков, определяющих состояние объекта управления, вырабатывает управляющие воздействия на объект управления с целью решения поставленной перед объектом задачи. Все

остальные задачи управления, а именно: оптимального управления, идентификации, фильтрации, навигации и т.п. — являются в общем случае подзадачами задачи синтеза управления.

На заре создания теории управления в шестидесятые годы прошлого столетия при исследовании математической постановки задачи оптимального управления Р. Беллманом была сформулирована задача синтеза управления и выведено уравнение Бел-лмана [1]. Уравнение представляет собой уравнение в частных производных. Решением этого уравнения является функция Беллмана, одним из аргументов, которой является вектор управления. Нахождение управления, обеспечивающего максимум функции

Беллмана, является решением задачи синтеза. Заметим, что уравнения в частных производных намного сложнее обыкновенных дифференциальных уравнений и в общем случае практически никогда не имеют общего решения. Беллманом была предложена численная процедура нахождения решения в виде метода динамического программирования [2; 3]. В результате применения этой процедуры для огромного количества численных значений векторов состояний получаем огромное количество векторов управлений, при этом не получаем никакой аналитической зависимости управления от состояния.

Другие попытки решать уравнение Беллмана заключаются в том, чтобы найти особые случаи и для них получить аналитическую формулу для функции Беллмана. К таким случаям относятся линейные системы управления с квадратичным функционалом качества. Предложено в этом случае искать управление в виде линейной зависимости от вектора координат пространства состояний. Далее было доказано, что такое представление является оптимальным решением. Метод получил название АКОР (аналитическое конструирование оптимальных регуляторов) [4]. Метод работает только для узкого класса задач.

В то же время было решено полностью несколько задач синтеза управления на основе принципа максимума Понтрягина [5]. Это удалось сделать, так как были выбраны несложные модели объектов управления, в основном второго порядка, и были найдены общие решения для дифференциальных уравнений объекта управления и сопряженных переменных. При этом решалась задача быстродействия. Далее на основе построенных решений из разных начальных условий были определены точки переключения управления. Этот подход не является универсальным, но при применении этого подхода В.Г. Болтянским [6] была сформулирована задача общего синтеза управления, которая является актуальной математической задачей до настоящего времени.

Наиболее известным аналитическим методом решения задачи синтеза управления является метод Backstepping integrator, который не имеет в русском языке эквивалентного перевода, иногда его называют «обратный шаг интегратора», что не совсем соответствует английскому названию и поэтому оно не утвердилось среди российских специалистов в области

управления. Метод был разработан в 1992 г. Петаром Кокотовичем [7]. Суть этого метода заключается в том, чтобы на основе анализа правых частей дифференциальных уравнений включать в функцию управления некоторые нелинейности, чтобы компенсировать их и получить для замкнутой системы управления знакопостоянную функцию Ляпунова, например с четными степенями компонент вектора состояний, причем с одним и тем же знаком. Метод реализуется вручную исследователем, зависит от модели объекта управления и особенно хорошо работает для каскадных систем, в которых одни координаты вектора состояния являются управлением для других координат, например, некоторые воздушные летательные аппараты угловым положением управляют пространственным перемещением. Применение этого метода эффективно для систем невысокого порядка.

В русскоязычной литературе популярен метод аналитического конструирования агрегированных регуляторов (АКАР), разработанный на рубеже веков Колесниковым А.А. старшим [8], профессором Таганрогского радиотехнического института. Метод состоит в том, что вводятся агрегированные переменные, которые описывают цель управления, например, терминальное состояние. Эти переменные вводятся в функционал и далее, при составлении уравнения Беллмана, по ним берется производная по времени. При аналитическом вычислении производных в агрегированные переменные попадают правые части модели объекта управления. Таким образом, агрегированные переменные начинают зависеть от вектора управления. Далее получаем систему нелинейных уравнений, количество которых практически всегда равно размерности вектора состояний. В эти уравнения входит вектор управления. Разрешив эти уравнения относительно вектора управления, получаем функцию управления как функцию координат пространства состояний. Существует несколько научных работ, показывающих, что метод АКАР эффективнее бэкстеп-пинга (backstepping). Заметим, что, во-первых, вектор управления, как правило, имеет размерность меньше, чем вектор состояния, поэтому у системы нелинейных уравнений много решений относительно управления. Во-вторых, нет строгого доказательства оптимальности полученных решений. В основном это работает только для терминальных задач. В-третьих, как и бэкстеппинг,

это ручной метод, который не поддается машинной автоматизации.

Сегодня задачу синтеза управления решают специалисты вручную. Они по модели определяют каналы управления, т. е. определяют, какие компоненты вектора управления влияют на компоненты вектора состояния. Далее в эти каналы вставляются регуляторы, чаще всего ПИД-регулятор или какой-либо другой регулятор, даже возможно нелинейный. Затем с помощью вычислительной машины находятся параметры этих регуляторов. Этот метод называется техническим. С помощью этого метода построены сложные системы управления ракетами, самолетами и другими сложными объектами. В настоящий период этот метод применяется и для роботов, но это направление абсолютно бесперспективно.

Ранее системы автоматического управления использовались только в ракетах и автопилотах самолетов и подводных лодок. Сейчас появились роботы, причем количество этих роботов с учетом аддитивных технологий с каждым годом нарастает катастрофически, и применение технических методов создания систем автоматического управления для них является основным препятствием развития и внедрения. Написать вручную программу системы управления для роботов становится крайне сложной задачей. Например, сколько операторов будет содержать программа управления роботом, который имитирует действия мухи? Муха управляет сложным движением крыльев, которое позволяет ей висеть неподвижно в воздухе, она может двигаться по вертикальной поверхности и даже с отрицательным наклоном. Далее муха видит опасности и совершает сложные движения чтобы не быть пойманной. При этом как обычное животное она ищет корм и возможность размножения. При несложной, самой оптимистической оценке система управления таким объектом должна содержать более миллиона операторов программирования. Наверное, написание такой программы возможно крупным коллективом программистов. Но здесь, и при создании еще более сложных систем управления очевидна необходимость автоматизации процесса синтеза системы управления.

В конце XX в. в Стэнфордском университете ученик Джона Холланда, автора генетического алгоритма, профессор Джон Коза разработал метод генетического программирования [9]. Этот метод был предназначен для

решения задачи автоматического написания программ. Суть этого метода заключалась в том, что программа записывалась в универсальной форме в виде последовательности префиксных операторов. Любое действие программы описывалось в виде оператора и следующих за ним операндов, среди которых могли быть другие операторы. В результате вся программа схематически изображалась в виде дерева. Для поиска нужного дерева Дж. Коза применил генетический алгоритм. Для этого он изменил основную операцию генетического алгоритма, операцию скрещивания. В генетическом программировании скрещивание происходит в виде обмена поддеревьев, что совсем не соответствует скрещиванию генов живых организмов.

Очевидно, что если машина может писать программу, то она может и искать математическое выражение для формулы. С начала 2000-х гг. эта технология развивается для решения задачи синтеза управления [10; 11]. Метод генетического программирования обладает определенными недостатками, среди которых, например, разные коды деревьев имеют разную длину, при этом эти длины меняются после операции скрещивания. Сегодня существует более десяти подобных методов [12], которые называются методами символьной регрессии и в отличие от метода генетического программирования не имеют этих вычислительных недостатков. Суть работы всех методов состоит в том, что определенным методом кодируются возможные решения, в случае задачи синтеза это математические выражения для функции управления. Затем разрабатывается операция скрещивания для кодов и применяется генетический алгоритм с этой операцией скрещивания для поиска оптимального математического выражения на пространстве кодов. В 2017 г. появилась монография [13], в которой авторы, по их мнению, впервые, естественно без ссылок на российских ученых, которые применяют эти методы более десяти лет, предложили использовать метод генетического программирования для синтеза управления, назвав его методом машинного обучения управления. Кстати, в монографии не приведено ни одного примера решения задачи синтеза методом генетического программирования, но авторы были так вдохновлены открытием, что тут же выложили в открытом доступе курс по машинному обучению управления из сорока одной лекции для неподготовленных слушателей.

Необходимо найти управление в форме и = Ь(х) е и.

(5)

В настоящей работе показано применение методов символьной регрессии, в частности метода сетевого оператора и метода вариационного декартова генетического программирования для решения задачи синтеза системы стабилизации мобильным роботом.

1. Общая задача синтеза управления

В задаче по математической модели объекта управления, заданным ограничениям на управление, заданному множеству начальных условий, заданным терминальным условиям, заданному критерию качества

в виде интегрального функционала, необходимо найти начального состояния из области (2) х0 е Х0, которое функцию управления, аргументами которой являются достигнет терминального условия (3)

Если подставить найденную функцию управления (5) в математическую модель объекта (1), то полученная система дифференциальных уравнений

x = f (x, h(x))

(6)

будет иметь частное решение х(/, х ) из любого

компоненты вектора состояния объекта управления. Если функцию подставить в правые части дифференциальных уравнений, то любое частное решение полученной системы уравнений из начального условия из заданной области начальных условий достигнет заданного терминального состояния с оптимальным значением критерия качества.

Приведем математическую формулировку общей задачи синтеза управления.

x(tf,X0) = XJ , (7)

с оптимальным значением критерия качества (4)

tf

J(h(x)) = f fo(x(t,x0),h(x(t,x0)))dt = min . (8)

J h(x )eü

Для решения задачи используем численные ме-Задана математическая модель объекта управления тоды символьной регрессии [12]. Методы кодируют

математическое выражение в форме специального кода (1) и осуществляют поиск специальным генетическим алгоритмом на пространстве кодов.

Очевидно, что при машинном поиске решения проверить всю непрерывную область начальных усло-и — вий (2) невозможно, поэтому заменяем ее на конечное множество точек начальных условий.

х = {(х, и),

где х — вектор состояния объекта управления;

х е М ; и — вектор управления, и е и с

компактное множество, т < П .

Задана область начальных значений

Х0 с МП. Заданы терминальные условия

X

о

{X 0,\...,

X°K }.

(9)

<tf )

J

(2)

(3)

где t у — время достижения терминальных условий, не задано, но ограничено.

Задан критерий качества

При численном решении точность попадания в терминальные условия (3) является дополнительным критерием качества, поэтому включим его в критерий качества (4) с весовым коэффициентом. В результате критерий качества для численного решения методом символьной регрессии имеет следующий вид:

Л

K

J =Е

i=1

f ,i

j f°(x(t,x0,i),h(x(t,x0,i)))dt +

lf

jVo(x,u)d(

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ min.

ueU

(4) + Pi

I( xj (t,

j=1

x°J) - xf )2

^ min

h( x)eU

(10)

где Pi— весовой коэффициент,

t, если t < t+ и (Xj (t, х0'1') - xj )2 < б

Ь=1 ' (11)

t+ - иначе

£ и t — заданные положительные, величины.

2. Методы символьной регрессии

Численные методы символьной регрессии позволяют решать задачи синтеза управления. Поиск решения осуществляется на пространстве кодов специальным генетическим алгоритмом. Приведем краткие описание наиболее эффективных методов символьной регрессии для решения задачи синтеза управления, метода сетевого оператора и метода вариационного декартова генетического программирования. Более подробно с этими и другими методами символьной регрессии можно ознакомиться в монографии [12].

2.1. Метод сетевого оператора

Метод сетевого оператора кодирует математическое выражение в виде ориентированного графа [14]. Метод использует только функции с одним и двумя аргументами, причем функции с двумя аргументами должны быть ассоциативны, коммутативны и иметь единичный элемент. В ориентированном графе функции с одним аргументом связаны с дугами графа, функции с двумя аргументами связаны с узлами графа, аргументы математического выражения связаны с узлами источниками графа.

Рассмотрим пример кодирования. Пусть задано математическое выражение

y = qx sin (costea ) + exp(~q2x2 )), (12)

где , q2 — постоянные параметры математического выражения, которые также ищутся вместе со структурой формулы, Х^, Х2 — переменные.

Для кодирования математического выражения зададим следующие множества:

- множество аргументов математического выражения

Р = {ХЪх2,qъЯ2}, (13)

- множество функций с одним аргументом

= {/ц( *) = * > /1,2 (2) = - 2 > Лз( *) =

= 8Ш( * ), /1,4( * ) = С08( *), /1,5( * ) = ехр( *)}, (14)

- множество функций с двумя аргументами

Р2 = {./2,1(*1> *2) = *1 + + *2, /2,2( *2) = *1*2} . (15)

В индексах обозначения функций первым индексом указывается число аргументов, вторым индексом — номер функции.

Ориентированный граф сетевого оператора для данного математического выражения приведен на рис. 1.

Рис. 1. Граф сетевого оператора математического выражения Figure 1. Graph of the network operator for a mathematical expression

На графе цифры в узлах графа обозначают номер функции с двумя аргументами, цифры возле дуг графа указывают на номер функции с одним аргументом, цифры в верхних частях узлов графа — это номер узла. Если пронумеровать граф так, чтобы номер узла, откуда дуга выходит, был меньше номера узла, куда дуга входит, а это всегда можно сделать в графе без циклов, то матрица смежности графа будет иметь верхний треугольный вид. Для хранения графа в памяти компьютера используется матрица сетевого оператора.

Эта матрица строится по матрице см ежн ости граф а с заменой единиц на номера функций с одним аргументом и добавлением номеров функций с двумя аргументами в соответствующую номеру узла строку на диагональ матрицы. Матрица сетевого оператора для рассматриваемого математического выражения имеет следующий вид:

= 8Ш(7X у4(7) = С08(7X /5 (7) = ехр(7X

/б(72) = °1 + ^У? (,72) = °1°2} • (18)

Код декартова генетического программирования для математического выражения (12) имеет следующий вид:

0 0 0 0 1 ООО 00000200 0 0 0 0 0 0 0 1 0 0 0 0 110 0 00002040 00000250 0 0 0 0 0 0 1 3 00000002

-0

{a1

Х2, «з

qx,= ^2} . (17)

D

3 10

4

2 11 3

(19)

(16)

2.2. Метод вариационного декартова генетического программирования

Метод вариационного декартова генетического программирования является модификацией метода декартова генетического программирования [15] с использованием в нем принципа малых вариаций базисного решения [16]. Для кодирования математического выражения этим методом используются множество аргументов и множество всех примитивных функций. Кодирование представляет собой последовательное описание вызовов функций. Для описания вызова функции используется целочисленный вектор. Первая компонента вектора указывает на номер функции, остальные компоненты — на номер аргумента, после вычисления функции ее результат добавляется к множеству аргументов и поэтому он тоже может быть записан в качестве аргумента последующих вызовов.

Рассмотрим пример кодирования математического выражения (12).

Задаем расширяемое при вычислении множество аргументов

Определяем объединенное множество необходимых функций

Ц = {/1( 7) = 7, /2( 7) = - 7, /з( 7) =

В примере первый вектор колирует . Первая компонента 7 обозначает функцию умножения, 1 обозначает элемент из множества аргументов, это Х^, 2 обозначает ^. Результат вычислений добавляется ко множеству аргументов в качестве пятого аргумента.

3. Вычислительный эксперимент

Рассмотрим пример решения задачи синтеза системы пространственной стабилизации мобильного робота. Математическая модель объекта управления имеет следующий вид:

^ =0.5(М! +М2)С08(Х3)

х2 = 0.5(м! + М2)81п(л;з), (20) х3 =0.5(м1 -и2У

На управление наложены ограничения

-10 <щ < 10, / = 1,2. (21)

Заданы тридцать начальных значений Х0 = {ход = [-2 -2.5 -5я / 12]г, хо,2 = _2 -2.5 0]г ,х0'3 = [-2 -2.5 5я/12]г,

х0,4=[-2 2.5 -5тг/12]г, ,х0'5 =[-2 2.5 0]г,х0'6 =[-2 2.5 5тт/12]г,

х0'7 =[-1 -2.5 -5я / 12]г,х0'8 = [-1 -2.5 0]г

х0,9 = _25 ря / 12]т,

х0,10 =[_1 2 5 _5л/щТ)Хо,11 =[-1 2 5 0]г

х0Д2=[-1 2.5 5я/12]г, ходз=[0 -2.5 -5л/12]г ,хОД4=[0 -2.5 Of,

xo,i5 =[0 _2 5 5jI/12f,

х0Д6 =[0 2.5 -5л/12]' ,хи,1/ =[0 2.5 0]',

х0'18 =[0 2.5 5л/12]г, х0'19 =[1 -2.5 -5я/12]г ,х0,20 =[1 -2.5 0]г,

Т 0,17

,0,22

х0,21 _2 5 57I/12f, = [1 2.5 -5л/12]г,х0'23 =[1 2.5 Of,

,0,24

= [1 2.5 5я/12] ,

х0'25=[2 -2.5 -5я/12]г,х0'26=[2 -2.5 0]г,

х0'27 =[2 -2.5 5тг/12]г, х0,28 =[2 2.5 -5я/12]г,х0'29 =[2 2.5 Of,

х°'30=[2 2.5 5л/12]г}.

где

м, - иначе

щ = В + sgn(^)(exp(| А |) -1) +

1 / / , чч2

+

и

■ +

(93(^-^3))

Чъ хъ ) 2 +A-Â3 +

+ Sgn^x/ - Х3 ) + sin~ Х2 )) +

+^JqiXl arctan(^2) + sgn^x/ -х3х/ -х3 |+lj + sgn(x{ - хх У\х{ -Xj I,

+

А = [х{ + q3(х{ -xъ} + q2[х{ -х2) В = А + ехр^з (х{ - ^з)) + (х( "*з) + + ехр^2(х{ -х2)| + -х2У\х{ -х2 | +

ql =11.78540 =13.77734, =10.04736.

Графики моделирования объекта управления (20) с найденной функцией управления (24) - (26) для

~ 0,1 0,3 0,13 0,15

восьми начальных условий х , х , х , х ,

0,16 0,18 х0,28 х0,30

х ' , х , х , х приведены на рис. 2.

(22)

Задано одно терминальное условие

х/ = [0 0 0]г. (23)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Задан функционал качества в виде (10), (11), -2>5

в котором К = 30, I + = 1.5 с, £ = 0.01.

Метод сетевого оператора нашел следующее математическое выражение:

10, если щ >10 -10, если й <-10, 1 = 1,2,

1 *2

/ . ( X

-4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2

Рис. 2. Траектории движения робота из восьми начальных условий для управления (24) - (26) Figure 2. Robot trajectories from eight initial conditions at the control (24) - (26)

(24)

(25)

Метод вариационного декартова генетического программирования получил следующее решение:

где

flO, если £¿>10

-10, если й2 <-10, | щ - иначе

10, если А>В 10 - иначе '

(27)

(28)

(26) 136

щ = sgn(-g2 (х{- - х3 )sgn(arctan(x^ - х2))) х

xVl " x3)sSn(arctan(x( - х2)) |,

А = (х{ - х,) + CD tanh(-qrj2 (х{ - х3 )sgn(arctan(xf - х2 ))), В = tanh(-^,2 (х{ - хъ )sgn(arctan(jc/ - х2 ))),

(29)

£ _ 11апЬ(со8(;с/ - хъ)), если 1апЬ(соз(х/ - хъ)) > агсХап(х{ -х2) [-1апЬ(со8(х/ -х3)) - иначе

£) = а 11, если х{ - х2 > О [1/х2,-иначе

ql = 15.3283 q2 = 10.9794.

Графики моделирования объекта управления (20) с найденной функцией управления (27)—(29) для

- 0,1 0,3 0,13 0,15

тех же восьми начальных условий х ' , х , х , х ,

0,16 „0,18 0,28 0,30

x , x , x , x приведены на рис. 3.

Рис. 3. Траектории движения робота из восьми начальных условий для управления (27)-(29)

Figure 3. Robot trajectories from eight initial conditions at the control (27) - (29)

Заключение

В работе представлен подход к решению задачи синтеза управления на основе обучения методом символьной регрессии. Приведено краткое описание двух методов символьной регрессии и представлено решение этими методами прикладной задачи синтеза системы пространственной стабилизации мобильного робота.

Список литературы

1. Bellman R., Glickberg I., Gross O. Some Aspects of the Mathematical Theory of Control Processes. Rand Corporation. Santa Monica, California, 1958.

2. Bellman R., Kalaba R. Dynamic Programming and Modern Control Theory. New York: London Academic Press, 1966.

3. Bellman R.E., Dreyfus S.E. Applied Dynamic Programming. Princeton, New Jersey: Princeton University Press, 1962.

4. Летов А.М. Аналитическое конструирование регуляторов. I // Автоматика и телемеханика. 1960. № 21 (4). С. 436—441.

5. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. 4-е изд. М.: Наука, Главное издательство физико-математической литературы, 1983. 392 с.

6. Boltyanskii V.G. Mathematical Methods of Optimal Control. Holt, Rinehart & Winston in New York, 1971. 272 p.

7. Khalil H.K. Nonlinear Systems. New York: Prentice Hall, 2002.

8. Колесников А.А., Колесников А.А., Кузьменко А.А. Метод АКАР и теория адаптивного управления в задачах синтеза нелинейных систем управления // Мехатроника, автоматизация, управление. 2017. № 18 (9). С. 579—589. doi: 10.17587/mau.18.579-589

9. Koza J.R. Genetic Programming: On the Programming of Computers by Means of Natural Selection. Cambridge, Massachusetts, London, MA: MIT Press, 1992. 819 p.

10. Diveev A.I., Sofronova E.A. Numerical method of network operator for multiobjective synthesis of optimal control system // Proceedings of Seventh International Conference on Control and Automation (ICCA'09) Christchurch, New Zealand, December 9—11, 2009. P. 701—708.

11. Дивеев А.И. Численный метод сетевого оператора для синтеза системы управления с неопределенными начальными значениями // Известия РАН. Теория и системы управления. 2012. № 2. С. 63—78.

12. Дивеев А.И. Численные методы решения задачи синтеза управления. М.: Изд-во РУДН, 2019. 192 с.

13. Duriez T., Brunton S.L., Noak B.R. Machine Learning Control — Taming Nonlinear Dynamics and Turbulence. Part of the Fluid Mechanics and Its Applications book series (FMIA, vol. 116). Springer, 2017. 211 p. doi: 10.1007/978-3-319-40624-4

14. Дивеев А.И. Метод сетевого оператора. М.: Изд-во ВЦ РАН, 2010. 178 с.

15. Miller J., Thomas P., Cartesian Genetic Programming. Proceedings EuroGP' 200R. 3-rd European Conference genetic Programming. R. Poly et al. (eds.) Edinburgh, Scotland. Vol. 1802. Berlin: Springer-Verlag, 2000. P. 121—132. doi: 10.1007/978-3-540-46239-2_9

16. Diveev A. Small Variations of Basic Solution Method for Non-numerical Optimization // IfacPapers-OnLine. 2015. Vol. 48. Is. 25. P. 28—33. doi: 10.1016/j.ifacol.2015.11.054

References

1. Bellman R, Glickberg I, Gross O. Some Aspects of the Mathematical Theory of Control Processes. Rand Corporation. Santa Monica, California; 1958.

2. Bellman R, Kalaba R. Dynamic Programming and Modern Control Theory. New York London Academic Press; 1966.

3. Bellman RE, Dreyfus SE. Applied Dynamic Programming. Princeton, New Jersey: Princeton University Press; 1962.

4. Letov AM. Analytical design of controllers. I. Automatica I Telechanika, 1960;21(4):436—441. (In Russ.)

5. Pontryagin LS, Boltyanskii VG, Gamkrelidze RV, Mishchenko EF. The Mathematical Theory of Optimal Processess. Ed. 4. Moscow: Nauka Press; 1983. (In Russ.)

6. Boltyanskii VG. Mathematical Methods of Optimal Control. Holt, Rinehart & Winston in New York; 1971.

7. Khalil HK. Nonlinear Systems. New York: Prentice Hall; 2002.

8. Kolesnikov AA. ADAR Method and theory of adaptive control in the tasks of synthesis of the nonlinear control systems. Mechatronics, Automation, Control. 2017;18(9):579—589. doi: 10.17587/mau.18.579-589

9. Koza JR. Genetic Programming: On the Programming of Computers by Means of Natural Selection. Cambridge, Massachusetts, London, MA: MIT Press; 1992.

10. Diveev AI, Sofronova EA. Numerical method of network operator for multiobjective synthesis of optimal control system. In: 2009 IEEE International Conference on Control and

Automation, ICCA 2009. Christchurch; 2009. p. 701-708. doi: 10.1109/ICCA.2009.5410619

11. Diveev A. A Numerical Method for Network Operator for Synthesis of a Control System with Uncertain Initial Values. Journal of Computer and Systems Sciences International. 2012;51(2):228—243.

12. Diveev A. Chislennye metody resheniya zadachi sinteza upravleniya [A Numerical Methods for solution of Control Synthesis Problem]. Moscow: Peoples' Friendship University of Russia Press; 2019. (In Russ.)

13. Duriez T, Brunton SL, Noak BR. Machine Learning Control—Taming Nonlinear Dynamics and Turbulence. Part of the Fluid Mechanics and Its Applications book series (FMIA, vol. 116). Springer Publ.; 2017. doi: 10.1007/97-3-319-40624-4

14. Diveev AI. Metod setevogo operatora [The Network Operator Method]. Moscow: Dorodnitsyn Computing Center Press; 2010. (In Russ.)

15. Miller J, Thomas P. Cartesian Genetic Programming. In: Poly R et al. (eds.). Proceedings EuroGP'200R. 3-rd European Conference genetic Programming (vol. 1802). Edinburgh, Scotland, Berlin: Springer-Verlag; 2000. p. 121—132. doi: 10.1007/978-3-540-46239-2_9

16. Diveev A. Small Variations of Basic Solution Method for Non-numerical Optimization. IfacPapers-OnLine, 2015;48(25):28—33. doi: 10.1016/j.ifacol.2015.11.054

Сведения об авторах

Дивеев Асхат Ибрагимович, главный научный сотрудник Федерального исследовательского центра «Информатика и управление» РАН, доктор технических наук, профессор; Scopus Author ID: 6507267391, eLIBRARI SPIN-код: 5726-6572; е-mail: [email protected]

Мендес Флорес Недер Хаир, аспирант департамента механики и мехатроники , инженерная академия, Российский университет дружбы народов; е-mail: [email protected]

About the authors

Askhat I. Diveev, Chief Researcher, Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences, Doctor of Technical Sciences, Professor; Scopus Author ID: 6507267391, eLIBRARI SPIN-code: 5726-6572; е-mail: [email protected] Neder Jair Mendez Florez, Graduate Student at the Department of Mechanics and Mechatronics, Engineering Academy, Peoples' Friendship University of Russia (RUDN University); е-mail: [email protected]

Аннотация научной статьи по математике, автор научной работы — Дивеев Асхат Ибрагимович, Мендес Флорес Недер Хаир

Похожие темы научных работ по математике , автор научной работы — Дивеев Асхат Ибрагимович, Мендес Флорес Недер Хаир

SYNTHESIS OF A MOBILE ROBOT SPATIAL STABILIZATION SYSTEM BASED ON MACHINE LEARNING CONTROL BY SYMBOLIC REGRESSION

Текст научной работы на тему «СИНТЕЗ СИСТЕМЫ ПРОСТРАНСТВЕННОЙ СТАБИЛИЗАЦИИ МОБИЛЬНОГО РОБОТА НА ОСНОВЕ ОБУЧЕНИЯ МЕТОДОМ СИМВОЛЬНОЙ РЕГРЕССИИ»