Научная статья на тему 'МАШИННОЕ ОБУЧЕНИЕ СИСТЕМ УПРАВЛЕНИЯ С ОБРАТНОЙ СВЯЗЬЮ НА БАЗЕ ПРИНЦИПА СИНТЕЗИРОВАННОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ'

МАШИННОЕ ОБУЧЕНИЕ СИСТЕМ УПРАВЛЕНИЯ С ОБРАТНОЙ СВЯЗЬЮ НА БАЗЕ ПРИНЦИПА СИНТЕЗИРОВАННОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Текст научной статьи по специальности «Математика»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / оптимальное управление / модель / синтез / квадрокоптер / machine learning / optimal control / model / synthesis / quadcopter

Аннотация научной статьи по математике, автор научной работы — Елизавета Юрьевна Шмалько

Актуальность и цели. В стремлении к автоматизации различных процессов жизнедеятельности для повышения их качества очевидной становится необходимость автоматизировать и сам процесс автоматизации, т.е. разработки систем управления, чтобы сделать его быстрым и универсальным. Это звучит особенно актуально в условиях всевозрастающей роботизации и появления разнообразных роботов в качестве объектов управления. Наиболее общей задачей робототехники является синтез управления с обратной связью. Она предполагает, что система управления, обеспечивающая достижение объектом цели, проектируется в зависимости от состояния объекта оптимально по заданным критериям. Задача синтеза является актуальной, но общих подходов к ее решению на сегодняшний день не существует. В данной работе предлагается инверсный подход к синтезу оптимальной системы управления с обратной связью на основе методов машинного обучения для получения реализуемых решений задачи оптимального управления. Материалы и методы. В работе представлен принцип синтезированного оптимального управления. Общая идея состоит в следующем. Сначала стабилизируем объект относительно некоторой точки пространства состояний, решая задачу синтеза системы стабилизации. Добавление системы стабилизации в модель объекта придает ей новое свойство: в каждый момент времени объект имеет точку равновесия. Вблизи точки равновесия все решения сходятся. Таким образом, задача оптимального управления решается через оптимальное положение точки равновесия. Результаты. Приведены обоснования и сформулирован принцип синтезированного оптимального управления, включающий этап синтеза системы стабилизации. Представлена реализация системы управления квадрокоптером на основе принципа синтезированного оптимального управления. Выводы. При решении задачи оптимального управления необходимо дополнительно обеспечить движение объекта по полученной траектории для компенсации возможных постоянно существующих неопределенностей. В представленном синтезированном подходе оптимального управления неопределенность компенсируется устойчивостью системы относительно точки в пространстве состояний.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Елизавета Юрьевна Шмалько

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE LEARNING OF CONTROL SYSTEMS WITH FEEDBACK BASED ON THE PRINCIPLE OF SYNTHESIZED OPTIMAL CONTROL

Background. In an effort to automate various life processes to improve their quality, the need to automate the development of control systems becomes obvious to make it fast and universal. This sounds especially relevant in the context of ever-increasing robotization and the emergence of various robots as control objects. The most common task of robotics is the synthesis of feedback control. It assumes that the control system that ensures the achievement of the goal by the object is designed, depending on the state of the object, optimally according to specified criteria. The task of synthesis is relevant, but there are no general approaches to its solution today. In this paper, an inverse approach is proposed to the synthesis of an optimal feedback control system based on machine learning methods to obtain realizable solutions to the optimal control problem. Materials and methods. The paper presents the principle of synthesized optimal control. The general idea is as follows. First, the object is stabilized with respect to some point in the state space, through the solution of the problem of synthesis of the stabilization system. Adding a stabilization system to the object model gives it a new property: at each moment of time, the object has a point of equilibrium. Near the equilibrium point, all solutions converge. Thus, the problem of optimal control is solved through the optimal position of the equilibrium point. Results. Substantiations are given and the principle of synthesized optimal control is formulated, which includes the stage of synthesis of the stabilization system. The implementation of the quadrocopter control system based on the principle of synthesized optimal control is presented. Conclusions. When solving the problem of optimal control, it is necessary to additionally ensure the movement of the object along the obtained trajectory to compensate for possible constantly existing uncertainties. In the presented synthesized optimal control approach, the uncertainty is compensated by the stability of the system with respect to a point in the state space. The approach is universal and is not limited to certain types of control object models or control quality functionals. It can be argued that this approach is machine learning of control systems with feedback.

Текст научной работы на тему «МАШИННОЕ ОБУЧЕНИЕ СИСТЕМ УПРАВЛЕНИЯ С ОБРАТНОЙ СВЯЗЬЮ НА БАЗЕ ПРИНЦИПА СИНТЕЗИРОВАННОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ»

УДК 51-74, 519.6

doi: 10.21685/2307-4205-2023-4-2

МАШИННОЕ ОБУЧЕНИЕ СИСТЕМ УПРАВЛЕНИЯ С ОБРАТНОЙ СВЯЗЬЮ НА БАЗЕ ПРИНЦИПА СИНТЕЗИРОВАННОГО ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

Е. Ю. Шмалько

Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия;

Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия

e.shmalko@gmail.ru

Аннотация. Актуальность и цели. В стремлении к автоматизации различных процессов жизнедеятельности для повышения их качества очевидной становится необходимость автоматизировать и сам процесс автоматизации, т.е. разработки систем управления, чтобы сделать его быстрым и универсальным. Это звучит особенно актуально в условиях всевозрастающей роботизации и появления разнообразных роботов в качестве объектов управления. Наиболее общей задачей робототехники является синтез управления с обратной связью. Она предполагает, что система управления, обеспечивающая достижение объектом цели, проектируется в зависимости от состояния объекта оптимально по заданным критериям. Задача синтеза является актуальной, но общих подходов к ее решению на сегодняшний день не существует. В данной работе предлагается инверсный подход к синтезу оптимальной системы управления с обратной связью на основе методов машинного обучения для получения реализуемых решений задачи оптимального управления. Материалы и методы. В работе представлен принцип синтезированного оптимального управления. Общая идея состоит в следующем. Сначала стабилизируем объект относительно некоторой точки пространства состояний, решая задачу синтеза системы стабилизации. Добавление системы стабилизации в модель объекта придает ей новое свойство: в каждый момент времени объект имеет точку равновесия. Вблизи точки равновесия все решения сходятся. Таким образом, задача оптимального управления решается через оптимальное положение точки равновесия. Результаты. Приведены обоснования и сформулирован принцип синтезированного оптимального управления, включающий этап синтеза системы стабилизации. Представлена реализация системы управления квадрокоптером на основе принципа синтезированного оптимального управления. Выводы. При решении задачи оптимального управления необходимо дополнительно обеспечить движение объекта по полученной траектории для компенсации возможных постоянно существующих неопределенностей. В представленном синтезированном подходе оптимального управления неопределенность компенсируется устойчивостью системы относительно точки в пространстве состояний.

Ключевые слова: машинное обучение, оптимальное управление, модель, синтез, квадрокоптер

Для цитирования: Шмалько Е. Ю. Машинное обучение систем управления с обратной связью на базе принципа синтезированного оптимального управления // Надежность и качество сложных систем. 2023. № 4. С. 18-29. doi: 10.21685/ 2307-4205-2023-4-2

MACHINE LEARNING OF CONTROL SYSTEMS WITH FEEDBACK BASED ON THE PRINCIPLE OF SYNTHESIZED OPTIMAL CONTROL

Е.Уц. Shmalko

Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences, Moscow, Russia;

Bauman Moscow State Technical University, Moscow, Russia e.shmalko@gmail.ru

Abstract. Background. In an effort to automate various life processes to improve their quality, the need to automate the development of control systems becomes obvious to make it fast and universal. This sounds especially relevant in the context of ever-increasing robotization and the emergence of various robots as control objects. The most common task of robotics is the synthesis of feedback control. It assumes that the control system that ensures the achievement of the goal by the object is designed, depending on the state of the object, optimally according to specified criteria. The

© Шмалько Е. Ю., 2023. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

task of synthesis is relevant, but there are no general approaches to its solution today. In this paper, an inverse approach is proposed to the synthesis of an optimal feedback control system based on machine learning methods to obtain realizable solutions to the optimal control problem. Materials and methods. The paper presents the principle of synthesized optimal control. The general idea is as follows. First, the object is stabilized with respect to some point in the state space, through the solution of the problem of synthesis of the stabilization system. Adding a stabilization system to the object model gives it a new property: at each moment of time, the object has a point of equilibrium. Near the equilibrium point, all solutions converge. Thus, the problem of optimal control is solved through the optimal position of the equilibrium point. Results. Substantiations are given and the principle of synthesized optimal control is formulated, which includes the stage of synthesis of the stabilization system. The implementation of the quadrocopter control system based on the principle of synthesized optimal control is presented. Conclusions. When solving the problem of optimal control, it is necessary to additionally ensure the movement of the object along the obtained trajectory to compensate for possible constantly existing uncertainties. In the presented synthesized optimal control approach, the uncertainty is compensated by the stability of the system with respect to a point in the state space. The approach is universal and is not limited to certain types of control object models or control quality functionals. It can be argued that this approach is machine learning of control systems with feedback.

Keywords: machine learning, optimal control, model, synthesis, quadcopter

For citation: Shmalko Е.У^ Machine learning of control systems with feedback based on the principle of synthesized optimal control. Nadezhnost' i kachestvo slozhnykh sistem = Reliability and quality of complex systems. 2023;(4): 18-29. (In Russ.). doi: 10.21685/2307-4205-2023-4-2

Введение

В области робототехники большинство современных систем управления роботами программируются вручную, и инженеры даже не ставят общих задач, потому что нет общих способов их решения. Разработчик, исходя из своего опыта, задает структуру системы управления, определяет каналы управления, типы регуляторов, а затем настраивает параметры данной системы так, чтобы они соответствовали определенным требованиям [1]. Современные цифровые системы управления роботами выполнены в виде программ. В таком случае, если робот должен выполнять достаточно простые действия, например, перемещаться из одной точки в другую и объезжать какие-то препятствия, то программный код его системы управления может содержать несколько сотен строк. В более сложных задачах управления программы, которые должны управлять роботами, могут включать несколько десятков или сотен тысяч строк. Эти программы будут расширяться по мере усложнения задач или структуры роботов. Можно предположить, что система управления роботом, повторяющим действия мухи, должна содержать несколько миллионов строк. Из изложенного выше следует, что ручное создание системы управления роботом является бесперспективным направлением. Необходимо автоматизировать этот процесс. При этом любую задачу можно и нужно считать оптимальной, определяя не только параметры, но и структуру системы управления оптимально, и при этом автоматически.

Для достижения цели всесторонней автоматизации необходимо обобщить решаемые задачи, а значит сформулировать их в общих математических постановках, а затем разработать универсальные методы их решения. Однако проблема здесь в том, что, несмотря на обширную фундаментальную базу теории управления, сегодня существует широкий круг прикладных задач, не имеющих точных аналитических решений. В то же время существует объективная потребность в их решении.

Любая задача для роботов, как и любых других объектов управления, может быть сформулирована как задача математической оптимизации, например, задача оптимального управления для нахождения оптимального пути в текущих условиях, задача стабилизации движения по оптимальной траектории, задача предотвращения столкновений со статическими и динамическими препятствиями, задача взаимодействия с другими объектами управления, задача точного достижения некоторых заданных граничных условий и т. д.

Наиболее общей задачей робототехники является синтез управления с обратной связью. Предполагается, что система управления, обеспечивающая достижение цели объектом управления, проектируется в зависимости от состояния объекта оптимально по заданным критериям. Даже если задача оптимального управления решена и оптимальный путь найден, необходимо дополнительно обеспечить движение объекта по полученной траектории для компенсации возможных постоянно существующих неопределенностей.

Общая задача синтеза была сформулирована еще в начале 1960-х гг. Беллманом [2], когда непрерывная по времени нелинейная задача оптимального управления решалась через уравнение Гамильтона - Якоби - Беллмана (HJB), представляющего собой нелинейное дифференциальное

уравнение в частных производных. Даже в простых случаях уравнение HJB может не иметь глобальных аналитических решений. В литературе [3-5] были предложены различные численные методы, основанные на методе динамического программирования, включая современный метод адаптивного динамического программирования [6] и обучение с подкреплением [7]. Однако основным недостатком методов динамического программирования сегодня по-прежнему является вычислительная сложность, необходимая для нахождения функции Беллмана (value function), которая экспоненциально растет с ростом размерности ее области определения.

Другой способ построения оптимального управления с обратной связью состоит в том, чтобы сначала решить задачу оптимального управления любым из доступных методов [8, 9], а затем синтезировать систему стабилизации с обратной связью для обеспечения движения по полученной оптимальной траектории. Например, в работе [10] на траектории выбираются точки, и объект стабилизируется в этих точках. Это наиболее популярный практический подход к проектированию оптимальной системы управления с обратной связью.

Однако по критерию оптимальности такой подход некорректен, так как получается, что оптимальная траектория рассчитывается для одного объекта управления, а введенная система стабилизации изменяет объект, так что рассчитанная изначально траектория может быть неоптимальной для модифицированной модели объекта. Кроме того, при приближении к заданной точке траектории система замедляется, что также не является оптимальным движением в том случае, если функционал объекта учитывал быстродействие системы, поэтому в каждой конкретной задаче необходимо проводить дополнительные оценки по оптимальным моментам переключения точек.

В данной работе предлагается инверсный подход к синтезу оптимальной системы управления с обратной связью [11]. Общая идея состоит в следующем. Сначала решается задача синтеза системы стабилизации и объект стабилизируется в некоторую точку пространства состояний. Обратим внимание, что эта задача вычислительно проще, чем общая задача синтеза. Задача стабилизации может решаться самыми разными методами аналитически или технически в зависимости от сложности и специфики математической модели объекта [12-16]. Сегодня современные численные методы машинного обучения могут быть применены для поиска решения задачи синтеза системы стабилизации для динамических объектов общего вида [17-19].

Добавление системы стабилизации в модель объекта придает ей новое свойство: в каждый момент времени объект имеет точку равновесия. Таким образом, в синтезированном подходе оптимального управления возможная неопределенность в правых частях дифференциальных уравнений модели или в начальных условиях компенсируется устойчивостью системы относительно точки в пространстве состояний. Вблизи точки равновесия все решения сходятся.

Теперь мы можем решить задачу оптимального управления через оптимальное положение точки равновесия. Управление объектом осуществляется путем изменения положения точки устойчивого равновесия, осуществляя переключение через заданный интервал времени между оптимально расположенными точками стабилизации. Поиск координат точек стабилизации реализуется как задача конечномерной оптимизации. Найденное синтезированное оптимальное управление может быть реализовано в реальном объекте непосредственно без дополнительных контуров стабилизации с обратной связью.

Машинное обучение системы управления с обратной связью

С целью автоматизации проектирования системы автоматического управления необходимо сформулировать для ЭВМ задачу управления и заставить вычислительную машину решать ее автоматически без участия человека.

Для этого сформулируем задачу в общей математической постановке оптимального управления. Задана математическая модель объекта управления в виде системы обыкновенных дифференциальных уравнений, записанных в форме Коши

x = f (x, u), (1)

где x - вектор состояния объекта управления, x е XQ Rn, u - вектор управления, u е U с R m , U -компактное множество, m < n .

Для системы (1) заданы начальные и терминальные условия

x(0) = x0, (2)

x(tf) = xf, (3)

где tf - терминальное время окончания процесса управления, которое не задано, но ограничено, и

определяется по достижению терминального состояния (3).

Задан критерий качества управления в виде интегрального функционала

J0 = jff0 (x, u)dt— min . (4)

Необходимо найти функцию управления в виде

U = g (x, t), (5)

где g(x,t) = [g1 (x, t)...gm (x, t) , что позволяет объекту (1) достичь заданной цели (3) с оптимальным

значением критерия качества (4). Найденная функция управления (5) должна удовлетворять ограничениям:

"—<g,(x,t)< "+, i = 1•••>m . (6)

Мы ищем управление как функцию состояния объекта, что соответствует принципу управления с обратной связью. Принято считать, что данный вид управления реализуется в реальных системах, поскольку позволяет нивелировать неточности модели.

Для того, чтобы математическая модель соответствовала динамическому реальному объекту, необходимо и достаточно, чтобы погрешность математической оценки состояния реального объекта не возрастала во времени.

Тогда введем следующее определение.

Определение. Модель объекта управления является реализуемой на интервале [t0, T], если ее

ошибка на требуемом интервале не увеличивается более, чем на некоторую заданную погрешность 8.

Получается, что введение управления с обратной связью в систему дифференциальных уравнений, описывающих динамику объекта управления, придает системе некоторое свойство, позволяющее достичь цели с оптимальным значением качества, т.е. быть реализуемым.

Фактически, вводя систему с обратной связью, мы изменяем дифференциальные уравнения системы так, что вокруг некоторого частного решения системы (оптимальной траектории при найденном оптимальном управлении)

x = f (x, g (x, t)) (7)

появляется определенная область, из которой другие траектории, попадающие в эту область, не выходят.

Согласно теории устойчивости движения [20], частное решение x(t,x0) дифференциального уравнения (7) обладает свойством сжимаемости, если для любого другого частного решения x(t, x *)

выполняются следующие условия: если

x x0)-x x* )<o, (8)

где t' > 0, G> 0 , тогда 3 а > 0, что Ve+ > 0

x ( + а, x0) — x ( + а, x* )<e+ . (9)

Гипотеза. Для того, чтобы найденная функция оптимального управления (5) была реализуемой на объекте управления, соответствующая оптимальная траектория должна обладать свойством сжимаемости (8) и (9).

Действительно, если функция управления обеспечивает выполнение свойства сжимаемости (8) и (9), то эта функция управления согласно определению может быть реализована непосредственно в реальном объекте. Таким образом, для решения поставленной задачи оптимального управления с обратной связью необходимо построить такую функцию управления (5), которая позволяет объекту (1)

достигать заданной цели (3) с оптимальным значением критерия качества (4) и получить требуемые свойства (8) и (9).

Принцип синтезированного оптимального управления

Для решения поставленной задачи оптимального управления с дополнительными свойствами реализуемости рассмотрим принцип синтезированного оптимального управления [21, 22].

Идея подхода состоит в том, чтобы обеспечить объекту существование некоторой точки равновесия в пространстве состояний, а затем построить такую функцию управления, которая управляет положением точки равновесия так, чтобы объект достиг цели с оптимальным значением критерия качества.

Первоначально решается задача синтеза системы стабилизации, обеспечивающая существование точки равновесия. В результате находится функция управления в следующем виде:

и = Ь(х* -х), (10)

где х в каждый фиксированный момент времени - некоторая точка в пространстве состояний, влияющая на положение точки равновесия дифференциального уравнения:

х = г(х,Ь(х* -х)), (11)

Ь(х* -х)) = [й, (х* -х)...кт(х* -х)] .

*

Функция управления (10) должна удовлетворять ограничениям для любого положения точки х

и- <й (х* - х)<и+ , г = 1,...,т . (12)

*

Для любого значения х система дифференциальных уравнений (11) имеет точку равновесия х (х*): Г (х (х*), Ь (х* - х (х* ))) = 0. Матрица Якоби

дГ (х, х* - х)

A (x* ) = -

dx

вычисляемая в точке равновесия х (х*), имеет все собственные значения в левой полуплоскости комплексной плоскости:

det (A (x* )-XE ) = П(-М =

где Xj = aj + ißj, aj < j = 1,...,n, i = V-1.

~ *

Во многих случаях точка равновесия x совпадает с точкой x , но иногда это невозможно.

Например, если система дифференциальных уравнений включает уравнение Хк = хг, то компонента

*

xk точки равновесия будет иметь только значение 0 при любых значениях компонент xk .

С вычислительной точки зрения, чтобы обеспечить системе существование устойчивой точки равновесия x, решается задача синтеза функции управления. Для этого необходимо задать область определения X eRn и затем определить точку равновесия x . Если точка равновесия равна точке x ,

то функция управления ищется в виде (1°), где x = x. Таким образом, решается задача синтеза (1) -

f ""

(5) с заданным терминальным состоянием x = x, с определенной областью возможных начальных состояний X° с X и критерием качества

Ji = max|?/д,..., tf K} + üi^i=Af. ^ min , (13)

где a1 - весовой коэффициент,

Дл, = xf -x((,x0,i), (14)

условий X0 = {x0Д,...,x0'K} , ie{1,...,K},

* / 0,1 . - время достижения конечного положения х из начального условия x множества начальных

( = к если ^ < е и А, . <е, (15) ('' [ ^ + - иначе,

где и е - заданные положительные величины; х ((, х0,1) - частное решение системы

х = Г(х,И( -х)), (16) для начальных условий х) = х0'1, 1 е {1,..К} ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-х = ^1^(4 . (17)

x f

На втором этапе решается следующая задача оптимального управления через определение оптимального расположения точек равновесия. Математическая модель объекта управления задается в виде (11), а начальные условия задаются в виде (2). Необходимо найти управление как функцию времени, определяющую в каждый момент времени положение точки равновесия:

X* = V* (), (18)

доставляющую минимум функционалу

J2 = [ f0(x,x* -x)dt^ min. (19)

0 ^ ' x*eX

Найденное управление

u = g (x, t ) = h (v * (t)-X )

удовлетворяет условиям (8) и (9) в виду наличия устойчивой точки равновесия в каждый момент времени, следовательно, является реализуемым на объекте.

Вычислительный эксперимент

Рассмотрим задачу оптимального управления пространственным движением квадрокоптера в пространстве с фазовыми ограничениями.

В общем случае математическая модель квадрокоптера как твердого тела имеет следующий

вид:

x = F (cos (у) sin (0)cos (y) + sin (y)sin (y))/m,

y = Fcos(y)cos(0)/m-g, z = F(cos(y)sin(0)sin(y) + sin(y)cos(y))/m , (20)

У = ((( + Izz )0 У + Mx )/Ixx ,

V = ((( +Ixx )) +My )/ Iy ,

0 = ((( +Iyy )) +Mz / Iz ,

где ^ - суммарная сила тяги всех винтов квадрокоптера; т - масса квадрокоптера; g - ускорение

свободного падения, g = 9,80665; Мх, Му, Мг - управляющие моменты, создаваемые винтами

квадрокоптера вокруг соответствующих осей.

На рис. 1 представлена связь углов поворота квадрокоптера с его осями.

Рис. 1. Система координат квадрокоптера

Для преобразования модели в векторную запись вводятся следующие обозначения: х = х1, у = х2, z = х3, х = х4, х2 = х5, х3 = х6, у = х7, у = х8, 0 = х9, у = х10, = хп, 9 = х12, М1 = Мх, М2 = Му, М3 = М .

2 у ? 3 2

В результате получается следующая математическая модель:

х4 = ^(соэ(х7) эт(х9)соэ(х8) + эт(х7)эт(х8)) /т ,

х5 = ^(соэ (х7 )соэ (х9)/т - g, х6 = ^(соэ(х7)эт(х9)зт(х8) + эт(х7)соэ(х8))/т ,

(21)

х© — хл

х10 = (((у + 4 )х11х12 + М1 )/Ьх ,

х11 = ((( + 1хх )х10х12 + М2 )/ !уу ,

х12 = ((( + 1уу )х10 х11 + М3 )/4 ,

где х - вектор пространства состояний, х = [хх... хп ] ; М - вектор управляющих моментов, М = [М1 М2 М3 ]т.

Как правило, квадрокоптеры, предлагаемые сегодня на рынке, выпускаются с предустановленной системой угловой стабилизации. Система стабилизации углов обеспечивает устойчивое положение квадрокоптера относительно заданных углов управляющими моментами:

Mi = W (X7 - X7, X8 - X8, X9 - X9,X10'X11'X12 ), * = 1,2>3- (22)

Предположим, что система угловой стабилизации достаточно быстро отрабатывает заданные углы квадрокоптера, по крайней мере, по сравнению с пространственным перемещением. В этом случае можно предположить, что управление пространственным перемещением квадрокоптера осуществляется с помощью его углового положения и силы тяги. Определим компоненты вектора пространственного управления: x7 = u1, x8 = u2, x9 = u3, F / m = u4 -

Тогда математическая модель пространственного движение квадрокоптера имеет следующий

вид:

X = X4 , XX 2 ,

X3 = X6 , (23)

X4 = u4 (sin (u3 )cos (u2 )cos (uj ) + sin (u1 )sin (u2 )),

X5 = u4cos (u3 )cos (u1 )-g, X6 = u4 (cos (u2 )sin (u1 ) - cos (u1 )sin (u2 )sin (u3 ))-

Математическая модель объекта управления (23) описывает пространственное перемещение центра масс квадрокоптера за счет изменения его углов u1, u2, u3 и суммарной тяги винтов u4 -

В модели вектор пространства состояний x е Ж6, вектор управления uе Uе М4, где U - компактное множество, определяемое ограничениями на значения компонент вектора управления- Ограничения на управление имеют следующие значения:

- п ^ п +

u =--<u1 < — = u ,

1 12 1 12

u- =-7U< u2 <П = u+ ,

- П ^ П +

u3 =--< u3 < — = u3,

3 12 3 12

u- = 0 < u4 < 12 = u+ - (24)

Задано начальное положение квадрокоптера:

x0 = [0 5 0 0 0 0f - (25)

Определено целевое терминальное состояние:

x(tf ) = xf =[10 5 10 0 0 0]г , (26)

где tf - время достижения терминального состояния (26), tf не задано, но ограничено tf < t +, где

t + = 5, 6 - заданное предельное время-

Фазовые ограничения заданы в виде цилиндров:

ф, (x) = r -^(XM- X1 )2 + (X{3,,}- X3 )2 < 0, * = Ï,2, (27)

где r1 = 2,5, r2 = 2,5, X11 = 2,5, X12 = 7,5 , X31 = 2,5, x32 = 7,5-Функционал качества задан в следующем виде:

t 2

J = tf + p1 J (ф, (x ))dt + p2xf - x (tf min , (28)

i=1

где p1 = 2, p2 = 1 - заданные весовые коэффициенты; tf - время достижения терминального состояния, t + = 5,6, е = 0,01.

Необходимо найти управление u(x,t), переводящее объект (23) из начального состояния (25) в

терминальное (26) с минимальным значением функционала качества (28) с учетом фазовых ограничений (27) и с учетом имеющихся ограничений на управление (24).

Согласно принципу синтезированного оптимального управления, на первом этапе решается задача пространственной стабилизации квадрокоптера с целью получения устойчивой точки равновесия в пространстве состояний. Для решения этой задачи был применен метод машинного обучения на основе символьной регрессии - метод сетевого оператора [23]. В результате была получена следующая система стабилизации:

U , если ut > и+ ,

U , если ut > ut ,

и, — иначе,

i = 1,2,3,4

5 1 5

(10)

где математические выражения для Ui , г = 1, 2, 3, 4, определяются как выходные элементы матрицы сетевого оператора, представленной на рис. 2, с параметрами д1 = 7,26733, д2 = 11,46021, д3 = 12,77271, д4 = 3,20630, д5 = 8,36914 , д6 = 5,50562 . Значения управлений в каждый момент времени по матрице сетевого оператора на борту объекта вычисляются с помощью бортового программного модуля [24].

Рис. 2. Матрица сетевого оператора для вычисления математического выражения функции управления квадрокоптером

На втором этапе находились положения точек стабилизации для оптимального управления объектом. Точки переключались с временным интервалом 0,4. На каждом интервале нужно было найти

три координаты точки х = [х* х2 х3 ^ . Остальные координаты точек равны нулю. Так как

t+ = 5,6, то число интервалов было 5,6/0,4 = 1 4, тогда необходимо было найти 14• 3 = 42 параметра. Задача решалась методом оптимизации Р80 [25]. На рис. 3 представлена полученная проекция движения квадрокоптера на горизонтальную плоскость.

Рис. 3. Проекция движения квадрокоптера на горизонтальную плоскость. Черными квадратиками изображены проекции найденных управляющих точек равновесия

Заключение

Рассмотрена проблема реализации решения задачи оптимального управления. Показано, что для реализации решения необходимо сконструировать систему с обратной связью от состояния объекта управления. Формализованы свойства, которые приобретает система в результате введения системы стабилизации в обратной связи. Предложен принцип синтезированного управления для решения задачи оптимального управления с обратной связью. С помощью представленного подхода все этапы разработки системы управления реализуются автоматически на ЭВМ на основе классической математической постановки задачи. Подход является универсальным и не ограничивается определенными типами моделей объектов управления или функционалов качества управления. Можно утверждать, что данный подход является машинным обучением систем управления. Приведен пример решения задачи машинного обучения системы управления с обратной связью на основе принципа синтезированного оптимального управления для квадрокоптера.

Список литературы

1. Egerstedt M. Motion Planning and Control of Mobile Robots : Ph.D. Thesis, Royal Institute of Technology. Stockholm, Sweden, 2000.

2. Беллман Р. Динамическое программирование. М. : Изд-во иностранной литературы, 1960. 400 с.

3. Jones M., Peet M. M. A generalization of Bellmans equation with application to path planning, obstacle avoidance and invariant set estimation // Automatica. 2021. Vol. 127. P. 109510.

4. Aguilar C. O., Krener A. J. Numerical solutions to the Bellman equation of optimal control // J. Optim. Theory Appl. 2014. Vol. 160. P. 527-552.

5. Fraga S. L., Pereira F. L. Hamilton-Jacobi-Bellman Equation and Feedback Synthesis for Impulsive Control // IEEE Trans. Autom. Control. 2012. Vol. 57. P. 244-249.

6. Liu D., Xue S., Zhao B. [et al.]. Adaptive Dynamic Programming for Control: A Survey and Recent Advances // IEEE Trans. Syst. Man, Cybern. Syst. 2021. Vol. 51. P. 142-160.

7. Lewis F. L., Vrabie D., Vamvoudakis K. G. Reinforcement learning and feedback control: Using natural decision methods to design optimal adaptive controllers // IEEE Control Syst. 2012. Vol. 32. P. 76-105.

8. Болтянский В. Г. Математические методы оптимального управления. М. : Наука, 1969. 408 с.

9. Федоренко Р. П. Приближенное решение задач оптимального управления. М. : Наука, 1978. 488 с.

10. Walsh G., Tilbury D., Sastry S. [et al.]. Stabilization of trajectories for systems with nonholonomic constraints // IEEE Trans. Autom. Control. 1994. Vol. 39. P. 216-222. doi: 10.1109/9.273373

11. Шмалько Е. Ю. Машинно-синтезированное управление нелинейным динамическим объектом на основе оптимального расположения точек равновесия // Информатика и автоматизация. 2023. Т. 22, № 1. С. 87-109.

12. Wang S., Dai M., Wang Y. Robust Adaptive Backstepping Sliding Mode Control for a Class of Uncertain Nonlinear System // Proceedings of the 2018 Chinese Automation Congress (CAC) (Xi'an, China, 30 November -2 December 2018). Xi'an, China, 2018. P. 3534-3538. doi: 10.1109/CAC.2018.8623057

13. Clarke F. Lyapunov Functions and Feedback in Nonlinear Control // Optimal Control, Stabilization and Non-smooth Analysis / ed. by M. S. de Queiroz, M. Malisoff, P. Wolenski. LNCIS 301. Berlin ; Heidelberg : Springer, 2004. P. 267-282.

14. Уткин А. В., Уткин В. А. Синтез систем стабилизации при односторонних ограничениях на управляющие воздействия // Проблемы управления. 2020. № 3. С. 3-13.

15. Cherroun L., Nadour M., Kouzou A. Type-1 and Type-2 Fuzzy Logic Controllers for Autonomous Robotic Motion // Proceedings of the 2019 International Conference on Applied Automation and Industrial Diagnostics (ICAAID) (Elazig, Turkey, 25-27 September 2019). Elazig, Turkey, 2019. P. 1-5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

16. Ahmed A. A., Alshandoli A. F. S. On replacing a PID controller with Neural Network controller for Segway // Proceedings of the 2020 International Conference on Electrical Engineering (ICEE) (Takamatsu, Japan, 28 June -2 July 2020). Takamatsu, Japan, 2020. P. 1-4. doi: 10.1109/ICEE49691.2020.9249811

17. Diveev A. I., Shmalko E. Yu. Machine-Made Synthesis of Stabilization System by Modified Cartesian Genetic Programming // IEEE Trans. Cybern. 2022. Vol. 52. P. 6627-6637. doi: 10.1109/TCYB.2020.3039693

18. Румянцев Ю. А., Шмалько Е. Ю., Ямшанов К. Л. Синтез контроллера обратной связи методом сетевого оператора для мобильного робота Rosbot в иммитационной среде Gazebo // Вопросы теории безопасности и устойчивости систем. 2022. № 24. С. 98-109.

19. Shmalko E., Diveev A. Control synthesis as machine learning control by symbolic regression methods // Applied Sciences (Switzerland). 2021. Vol. 11 (12), № 5468.

20. Малкин И. Г. Теория устойчивости движения. 4-е изд. M. : URSS, 2017. 432 c.

21. Дивеев А. И., Шмалько Е. Ю. Метод синтезированного оптимального управления для группы роботов // Надежность и качество сложных систем. 2018. № 4. С. 40-47.

22. Shmalko E. Feasibility of Synthesized Optimal Control Approach on Model of Robotic System with Uncertainties // Electromechanics and Robotics. Smart Innovation, Systems and Technologies / ed. by A. Ronzhin, V. Shishlakov. Vol 232. Singapore : Springer, 2022. 508 p.

23. Diveev A., Shmalko E. Symbolic Regression Methods. In: Machine Learning Control by Symbolic Regression. Springer, Cham, 2021.

24. Программный модуль сетевого оператора. URL: https://github.com/KostyaYamshanov/Machine-Learning-Control-kit/tree/main/network_operator

25. Шмалько Е. Ю., Румянцев Ю. А. Численное решение задачи оптимального управления методом роя частиц на основе нейросетевой модели // Труды Международного симпозиума Надежность и качество. 2022. Т. 1. С. 108-110.

References

1. Egerstedt M. Motion Planning and Control of Mobile Robots: Ph.D. Thesis. Stockholm, Sweden : Royal Institute of Technology, 2000.

2. Bellman R. Dinamicheskoe programmirovanie = Dynamic programming. Moscow: Izd-vo inostrannoy literatury, 1960:400. (In Russ.)

3. Jones M., Peet M.M. A generalization of Bellmans equation with application to path planning, obstacle avoidance and invariant set estimation. Automatica. 2021;127:109510.

4. Aguilar C.O., Krener A.J. Numerical solutions to the Bellman equation of optimal control. J. Optim. TheoryAppl. 2014;160:527-552.

5. Fraga S.L., Pereira F.L. Hamilton-Jacobi-Bellman Equation and Feedback Synthesis for Impulsive Control. IEEE Trans. Autom. Control. 2012;57:244-249.

6. Liu D., Xue S., Zhao B. et al. Adaptive Dynamic Programming for Control: A Survey and Recent Advances. IEEE Trans. Syst. Man, Cybern. Syst. 2021;51:142-160.

7. Lewis F.L., Vrabie D., Vamvoudakis K.G. Reinforcement learning and feedback control: Using natural decision methods to design optimal adaptive controllers. IEEE Control Syst. 2012;32:76-105.

8. Boltyanskiy V.G. Matematicheskie metody optimal'nogo upravleniya = Mathematical methods optimal control. Moscow: Nauka, 1969:408. (In Russ.)

9. Fedorenko R.P. Priblizhennoe reshenie zadach optimal'nogo upravleniya = Approximate solution of optimal control problems. Moscow: Nauka, 1978:488. (In Russ.)

10. Walsh G., Tilbury D., Sastry S. et al. Stabilization of trajectories for systems with nonholonomic constraints. IEEE Trans. Autom. Control. 1994;39:216-222. doi: 10.1109/9.273373

11. Shmal'ko E.Yu. Machine-synthesized control of a nonlinear dynamic object based on the optimal location of equilibrium points. Informatika i avtomatizatsiya = Informatics and automation. 2023;22(1):87-109. (In Russ.)

12. Wang S., Dai M., Wang Y. Robust Adaptive Backstepping Sliding Mode Control for a Class of Uncertain Nonlinear System. Proceedings of the 2018 Chinese Automation Congress (CAC) (Xi'an, China, 30 November - 2 December 2018). Xi'an, China, 2018:3534-3538. doi: 10.1109/CAC.2018.8623057

13. Clarke F. Lyapunov Functions and Feedback in Nonlinear Control. Optimal Control, Stabilization andNonsmooth Analysis. LNCIS 301. Berlin; Heidelberg: Springer, 2004:267-282.

14. Utkin A.V., Utkin V.A. Synthesis of stabilization systems with unilateral restrictions on control actions. Problemy upravleniya = Management problems. 2020;(3):3-13. (In Russ.)

15. Cherroun L., Nadour M., Kouzou A. Type-1 and Type-2 Fuzzy Logic Controllers for Autonomous Robotic Motion. Proceedings of the 2019 International Conference on Applied Automation and Industrial Diagnostics (ICAAID) (Elazig, Turkey, 25-27 September 2019). Elazig, Turkey, 2019:1-5.

16. Ahmed A.A., Alshandoli A.F.S. On replacing a PID controller with Neural Network controller for Segway. Proceedings of the 2020 International Conference on Electrical Engineering (ICEE) (Takamatsu, Japan, 28 June - 2 July 2020). Takamatsu, Japan, 2020:1-4. doi: 10.1109/ICEE49691.2020.9249811

17. Diveev A.I., Shmalko E.Yu. Machine-Made Synthesis of Stabilization System by Modified Cartesian Genetic Programming. IEEE Trans. Cybern. 2022;52:6627-6637. doi: 10.1109/TCYB.2020.3039693

18. Rumyantsev Yu.A., Shmal'ko E.Yu., Yamshanov K.L. Synthesis of a feedback controller by a network operator method for a mobile robot Rosbot in an imitation environment of Gazebo. Voprosy teorii bezopasnosti i ustoychivosti system = Questions of the theory of safety and stability of systems. 2022;(24):98-109. (In Russ.)

19. Shmalko E., Diveev A. Control synthesis as machine learning control by symbolic regression methods. Applied Sciences (Switzerland). 2021;11(5468).

20. Malkin I.G. Teoriya ustoychivosti dvizheniya. 4-e izd = Theory of motion stability. 4th ed. Moscow: URSS, 2017:432. (In Russ.)

21. Diveev A.I., Shmal'ko E.Yu. The method of synthesized optimal control for a group of robots. Nadezhnost' i kachestvo slozhnykh system = Reliability and quality of complex systems. 2018;(4):40-47. (In Russ.)

22. Shmalko E. Feasibility of Synthesized Optimal Control Approach on Model of Robotic System with Uncertainties.

Electromechanics and Robotics. Smart Innovation, Systems and Technologies. Vol 232. Singapore: Springer, 2022:508.

23. Diveev A., Shmalko E. Symbolic Regression Methods. Machine Learning Control by Symbolic Regression. Springer, Cham, 2021.

24. Programmnyy modul' setevogo operatora. Available at: https://github.com/KostyaYamshanov/Machine-Learning-Control-kit/tree/main/network_operator

25. Shmal'ko E.Yu., Rumyantsev Yu.A. Numerical solution of the optimal control problem by the particle swarm method based on a neural network model. Trudy Mezhdunarodnogo simpoziuma Nadezhnost' i kachestvo = Proceedings of the International Symposium Reliability and Quality. 2022;1:108-110. (In Russ.)

Информация об авторах | Information about the authors

Елизавета Юрьевна Шмалько

кандидат технических наук, старший научный сотрудник отдела роботизированного управления, Федеральный исследовательский центр «Информатика и управление» Российской академии наук (Россия, г. Москва, ул. Вавилова, 44); доцент кафедры робототехнических систем и мехатроники,

Московский государственный технический университет имени Н. Э. Баумана (Россия, г. Москва, 2-я Бауманская ул., 5, стр. 4) E-mail: e.shmalko@gmail.ru

Elizaveta Yu. Shmalko

Candidate of technical sciences, senior researcher of the department of robotic control, Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences (44 Vavilova street, Moscow, Russia); associate professor of the sub-department of robotic systems and mechatronics, Bauman Moscow State Technical University (build. 4, 5 2nd Baumanskaya street, Moscow, Russia)

Автор заявляет об отсутствии конфликта интересов / The author declares no conflicts of interests.

Поступила в редакцию/Received 17.09.2023 Поступила после рецензирования/Revised 10.10.2023 Принята к публикации/Accepted 06.11.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.