Научная статья на тему 'Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями'

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями Текст научной статьи по специальности «Математика»

CC BY
125
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Cloud of science
ВАК
Область наук
Ключевые слова
ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С ФАЗОВЫМИ ОГРАНИЧЕНИЯМИ / УПРАВЛЕНИЕ ГРУППОЙ РОБОТОВ / УНИМОДАЛЬНОСТЬ ФУНКЦИОНАЛА / СКОРОСТЬ СХОДИМОСТИ ЭВОЛЮЦИОННОГО АЛГОРИТМА

Аннотация научной статьи по математике, автор научной работы — Дивеев А.И.

Статья посвящена исследованию свойств унимодальности функционала в задаче оптимального управления. В статье доказано, что при определенных условиях фазовые ограничения, включенные в функционал в виде штрафной функции, делают функционал не унимодальным. Отсутствие унимодальности функционала указывает на малую эффективность использования в этих задачах градиентных методов. Предложено использовать для численного решения задач оптимального управления с фазовыми ограничениями эволюционные алгоритмы. Приведено доказательство теоремы о том, что при выполнении определенных условий эволюционные алгоритмы сходятся быстрее, чем случайный поиск. Приведены результаты вычислительного эксперимента, в котором сравнивались алгоритмы решения задачи оптимального управления двумя мобильными роботами с фазовыми ограничениями. Результаты эксперимента показали эффективность применения эволюционных алгоритмов для численного решения задач оптимального управления с фазовыми ограничениями по сравнению с градиентными методами и случайным поиском.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Conditions of not unimodality of functional in problem of optimal control with phase restrictions

The paper is devoted a research of properties of an unimodality of a functional in a problem of optimal control. In the paper it is proved that under certain conditions the phase restrictions included in a functional in the form of a penalty function make a functional not unimodal. The lack of an unimodality of a functional indicates small effectiveness of use in these problems of gradient methods. It is offered to use evolutionary algorithms for numerical problem solving of optimum control with phase restrictions. The proof of the theorem is provided, that when performing determinate conditions evolutionary algorithms have convergence higher than a random search. Results of a computing experiment in which algorithms of the solution of a problem of optimal control of two mobile robots were compared to phase restrictions are given. Results of an experiment showed effectiveness of application of evolutionary algorithms for numerical problem solving of optimum control with phase restrictions in comparison with gradient methods and a random search.

Текст научной работы на тему «Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями»

Cloud of Science. 2018. T. 5. № 2 http:/ / cloudofscience.ru

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями1

А. И. Дивеев

Федеральный исследовательский центр «Информатика и управление» РАН 119333, Москва, ул. Вавилова, 44, корп. 2

e-mail: aidiveev@mail.ru

Аннотация. Статья посвящена исследованию свойств унимодальности функционала в задаче оптимального управления. В статье доказано, что при определенных условиях фазовые ограничения, включенные в функционал в виде штрафной функции, делают функционал не унимодальным. Отсутствие унимодальности функционала указывает на малую эффективность использования в этих задачах градиентных методов. Предложено использовать для численного решения задач оптимального управления с фазовыми ограничениями эволюционные алгоритмы. Приведено доказательство теоремы о том, что при выполнении определенных условий эволюционные алгоритмы сходятся быстрее, чем случайный поиск. Приведены результаты вычислительного эксперимента, в котором сравнивались алгоритмы решения задачи оптимального управления двумя мобильными роботами с фазовыми ограничениями. Результаты эксперимента показали эффективность применения эволюционных алгоритмов для численного решения задач оптимального управления с фазовыми ограничениями по сравнению с градиентными методами и случайным поиском.

Ключевые слова: задача оптимального управления с фазовыми ограничениями, управление группой роботов, унимодальность функционала, скорость сходимости эволюционного алгоритма.

1. Введение

Наиболее общий прием решения задачи оптимального управления — это редукция задачи оптимального управления к задаче нелинейного программирования и ее решение классическими или современными численными методами [1].

Как показывают исследования, переход от задачи оптимального управления к задаче нелинейного программирования выполнить не сложно, но в результате мы получаем задачу нелинейного программирования высокой размерности, и, что более важно, в большинстве случаев с неунимодальной целевой функцией.

1 Работа выполнена при финансовой поддержке грантов РФФИ 16-29-04224-офи_м и 17-08-01203-a.

Высокая размерность задачи оптимизации с неунимодальной целевой функцией не позволяет применять к ее решению точные методы глобальной оптимизации. Например, для использования метода неравномерного покрытия [2] необходимо вычислять оценки целевой функции для каждой из областей, на которые разбивается пространство поиска. Количество областей для оценки функционала при этом превышает величину 2г, где г — размерность пространства поиска. Заметим, что при редукции задачи оптимального управления к задаче нелинейного программирования ситуация, когда г > 100, является типичной, например, если объект содержит т управлений и мы разбиваем время управления на к интервалов, то получаем г = тк, причем, чем больше к, тем точнее решение задачи. Данная проблема была бы легко решена при использовании современных методов решения задачи нелинейного программирования, например, методов стохастического градиентного поиска, которые используются сегодня успешно для обучения нейронных сетей, но в этом случае мы должны быть уверены, что целевая функция является унимодальной. К сожалению, большинство прикладных задач оптимального управления имеют не унимодальный функционал, особенно задачи с фазовыми ограничениями, что часто встречается при управлении роботами или группой роботов, где каждый объект является фазовым ограничением для других объектов. Этим обстоятельством вызвана большая популярность в последнее время эволюционных алгоритмов, которые можно отнести к методам адаптивного случайного поиска. Данные методы малочувствительны к размерности задачи и форме функционала, но почти всегда при использовании этих методов достаточно трудно определить, как далеко расположено найденное ими решение от оптимального решения.

В настоящей работе рассматриваем некоторые условия, при которых функционал в задаче оптимального управления теряет свойство унимодальности. Мы вводим меру, независящую от времени, в пространстве решений дифференциальных уравнений, и доказываем теорему, что при определенных условиях наличие фазовых ограничений приводит к неунимодальности функционала. Далее рассматриваем задачу управления группой объектов и показываем, что с мерой, зависящей от времени, каждый объект является фазовым ограничением для других объектов, а для специальных симметричных систем при определенных начальных и терминальных условиях функционал всегда является неунимодальным.

2. Решения системы дифференциальных уравнений в задаче оптимального управления

Рассмотрим систему из п обыкновенных дифференциальных уравнений в форме Коши со свободным вектором и управления в правой части.

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

x = f(x, и), (1)

Rn _ т» m

, u е R .

Пусть значения вектора управления u определены функциями времени

u = v (t), (2)

где u = [«! ... um]T, v = [Vj(t)... vm(t)f.

Рассмотрим множество таких функций

V = {v!(t): i = 1,..., M}, (3)

при которых решение x(t) системы дифференциальных уравнений (1),

х = f(х, v'(t)), v'(t)eY, (4)

если будет начинаться в момент t0 = 0 в точке

x0 = [x0...XnO]T, (5)

то в момент t будет заканчиваться в точке

xf = [xf ... xf ]T, xf Ф x0. (6)

Пусть выполняется условие

ti < t+, i = 1,..., M. (7)

Дополним все решения системы условиями терминальной устойчивости

ix' (0, если t < t

t'(o= ; (8)

[х- -иначе

где xi (t) — решение системы (1) при управлении u = vi (t). Пусть

X = {i(t):i=l,...,M} (9)

множество решений системы (1) дополненных условиями терминальной устойчивости (8).

Введем расстояние между двумя решениями из X

А(х', х') = max<max min || х'(а)-х'(ß) ||,

!ae[0;f+] ße[0;f+ 1

V (10)

max min II x'(ß)-х'(а) ||>,

ae[0;f+] ße[0;f+] J

где || x || — любая выпуклая норма вектора в Rn, например,

II x L = max{| Xi |: i = 1 ..., f} или ||x ||2 1 X,2.

Определение 1. Фундаментальной последовательностью 1' (\ , х') решений

называется множество решений {х*: к = 0,..., Ь + 1, х° = х , хм = х'} с: X, для которого выполняются условия:

А(х, хм)<г,к = 0,..., Ь, (11)

где е — малое положительное число.

Определение 2. Множество X решений непрерывно, если для любых двух решений их этого множества х , х' е X и любого положительного малого числа е всегда можно построить фундаментальную последовательность /^(х , х' )сХ,

Определение 3. е- окрестностью решения в непрерывном множестве решений называется множество всех решений, для которых выполняются условия

Д(х, Х-' ) < 8.

Пусть на непрерывном множестве решений X задан неотрицательный функционал

У(х(г)):К" ^К1. (12)

Пусть функционал обладает следующим свойством: для любого решения х' е X и заданной положительной величины 5 всегда существует решение х' е X и величина е>0, такие, что выполняются условия

А(х , 2)<е. (13)

Это означает, что функционал имеет непрерывные значения оценок на множестве решений X.

Теорема 1. Если на непрерывном множестве решений X функционал имеет унимодальный минимум для решения х е X, то для любого решения х е X, х Ф х всегда можно построить фундаментальную последовательность

{ж* :к = 0, ...,Ь + \, х° = х , хм = х } с X, (14)

для которой выполняются условия

J(xl(tУ) <: J(xl+1(t)).

Доказательство. Рассмотрим решение х еХ. В ее е-окрестности находим решение х'1, для которого функционал дает меньшее значение оценки J(x1 (I)) <: ,/(х (I)). Если такого решения нет, то решение х' е X является локальным минимумом, а так как по условию оно не совпадает с минимумом х е X, то функционал не является унимодальным. Следовательно, такое решение существу-

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

ет. Рассмотрим теперь е-окрестиости решения х'1 и вновь находим в ее окрестности решение х'2, для которого функционал имеет меньшее значение, ■1{хг (I)) <: (I)). Повторяем процесс до того момента, пока в окрестности одного из решений не будет найден минимум функционала х е X. Все найденные в е-окрестностях решения, взятые в обратном порядке, будут составлять фундаментальную последовательность (14). Теорема доказана.

Теорема 2. Пусть в непрерывном множестве решений X существуют такие два решения х, х' е X, что в любой фундаментальной последовательности /^(х , г')сХ всегда существует решение хА е 1<(\ , х'), для которого выполняются условия

J(x(t)) > J(x(t)) и Дх(0) > УС&СО). (15)

Тогда функционал ./(х(/)) не является унимодальным в задаче минимума

J(x(/)) —>пцп.

Доказательство. Рассмотрим е-окрестности каждого из решений х,х^еХ. Найдем в этих окрестностях решения, которые дают меньшие значения оценок функционалов /(х1 (?)) <:/(х (?)) и ,/(х'1 (!)) <:,/(х'(/)). Рассмотрим теперь

е-окрестности найденных решений х1, хл е X. И снова в их е-окрестностях найдем решения с меньшими значениями оценок функционала. Повторяем процесс до тех пор, пока не найдем минимумы и х'/:, в е-окрестностях которых уже нет решений с меньшими значениями оценок функционалов. Если эти минимумы совпадают, х'1 =х''-, то это означает, что между решениями х , х' еХ можно построить фундаментальную последовательность, для которой не выполняются условия (15) теоремы. Следовательно, эти решения не совпадают х1 Фхк. Это означает, что функционал на множестве решений не является унимодальным. Теорема доказана. Рассмотрим проекции решений в Я2 Из всех компонент решений

х = [х1 ... нас интересуют только две компоненты. Пусть это будут компоненты

Х[, х2. Таким образом мы рассматриваем подпространство I*2 в К" с преобразованием

У = Сх, (16)

где х е Яп, у е Я2,

С =

10 0 0 1 0

Пусть в Я2 задана замкнутая область Б с Я2. Размер области определим по ее диаметру.

Определение 4. Конструктивным диаметром замкнутой области называется диаметр максимальной сферы, вписанной в эту область.

Пусть 5 максимального размера окружность, вписанная в Б

Я(*1, *2) = (х - X*)2 + (Х2 - X*)2 - Я2 = 0,

* *

где X*, х2 — координаты центра окружности.

Тогда диаметр области Б равен 2Я и Ух1, х2, для которых Я(Х, х) - 0, X, X е Б.

Рассмотрим множество решений в Я из точки у = Сх , в точку у^ = Сх1. Множество решений в Я2, которые начинаются из у0 в у^, дополненные условиями терминальной устойчивости (8), обозначим У.

Аксиома 1. Если во множестве решений Y существуют два решения у' и у'' с расстоянием Л(у',у/), то между этими решениями нельзя поместить область с

диаметром 2И > А(у , у]) так , чтобы решения у' и у' не пересекали данную область.

Пусть в Я2 задана область Б с диаметром 2Я . Возьмем в области Б точку (хр, хр). Построим полярную систему координат {р, ф} с центром в точке

(X, хр). Преобразование координат из декартовых координат в Я2 в полярные осуществляем по формулам

Ф =

агйап

Р =

Х1 - Х1 )2 + (х2 - Х2 )2 ,

± 2 л, если х - хр > 0

(,

8£п(х - хр- атСап

± 2л, если х - хр < 0 •

(17)

(18)

8£п(х - хр)— ± 2л, если х - хр = 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Все решения ук (г) = [х|; (г) хк2 (/)]' из У преобразуем в полярные координаты {р,ф} и записываем в виде рА (0 = [рА (0 <р (0]Г •

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

Теорема 3. Пусть во множестве решений У, которые начинаются в момент 0 в

ООО?7 / / /'у1

точке у = [х х° ] , в момент ^ проходят точку у^ = [х х2 ] , есть два решения у', у', не пересекающие область О с конструктивным диаметром 2 Я, т.е.

V? е[0;?г] Я(х(?),х2(?)) >0 и Я(х((?),х:2(?)) >0, гдеБ(х1,х) = (х -х*)2 + (х -х*)2-Я2 =

2 2

= 0, х , х* е Б и для которых выполняются условия

|фЧ^)-ф^/)| = 271, (19)

где ф' (?), ф/ (?) — угловые компоненты в представлении решений у', у' в полярных координатах рЧО = [р' (0, ФЧОГ, рЧО = [рЧО, ФЧОГ по формулам (17), (18), то этого достаточно, чтобы расстояние между решениями у', у'' было не менее 2Я:

А(у',уО>2Л Доказательство. Рассмотрим рис. 1.

Рисунок 1. Решения в полярных координатах

На рисунке представлен случай, когда углы ф'(^) и фЧУ , ) отличаются на величину 2л. Решения в полярных координатах р' (?) = [р' (?), ф' (I)]', р (?) = [(5' (?), ф' (?)]г стартуют в момент ? = 0 с одного угла ф" и завершаются на угле ф^, при этом решение р'(?) перемещается по часовой стрелке, а решение р '(?) — против часовой стрелки. Так как ф" > ф' , а решение р (/) движется в сторону увеличения угла, то ф' (0) = ф" — 2л. Следовательно,

ф'(?/) = Ф°+(ф/-ф0+27г),

ФЧ?,) = ф°-(Ф/-Ф°).

Откуда получаем ф'(^)-(¡У^) = 2л. Согласно аксиоме 1, если расстояние

между решениями меньше 2Я, то эти решения пересекут область Б, т. е. не будут соответствовать условиям теоремы. Теорема доказана.

Введем на множестве решений функционал (12). Пусть в Я2 определена область ЭсК2 такая, что, если решение уА(/) попадает в область Б, то значение функционала существенно увеличивается: Уу(0 е У. Справедливо условие

J(S(t))<J(Sk(t)), если УГе[0;^] УуСО^О и при котором Уу'^еВ.

Пусть во множестве решений У существуют два решения у'(/) и у'(7), которые не пересекают область Б и удовлетворяют условиям (16). Это означает, что любая фундаментальная последовательность, построенная между ними, будет содержать решение у" (/), которое пересекает область Б, поэтому J(yk(t))>J(y(t)) и АУ(Г))>АП0). Следовательно, по теореме 2 функционал не будет унимодальным на множестве решений У.

3. Эволюционные алгоритмы

Эволюционные алгоритмы часто используются для решения задачи глобальной оптимизации. Общими свойствами эволюционных алгоритмов являются применение при поиске множества возможных решений и эволюционные преобразования элементов этого множества на основе их оценок по значениям функционала с целью получения новых возможных решений с более лучшими оценками. Эволюционные преобразования определяют различия между эволюционными алгоритмами. Часто авторы эволюционных алгоритмов обосновывают эволюционные преобразования поведением некоторых животных, названиями которых называют эти эволюционные алгоритмы. Во всех эволюционных алгоритмах при выполнении эволюционных преобразований используют генератор случайных чисел.

Сходимость эволюционных алгоритмов, как правило, рассматривается отдельно для каждого вида алгоритма и доказывается, что при увеличении числа эволюционных преобразований, которые не ухудшают оценки возможных решений, всегда эволюционный алгоритм приведет к ситуации, когда множество возможных решений содержит решение задачи. Сгенерируем новое возможное решение случайно без эволюционных преобразований. Оценим его по значению функционала и, если оно оказалось лучше, чем предшествующее, оставим его вместо предшествующего возможного решения. В результате получаем алгоритм случайного поиска, который также никогда не ухудшает оценку возможного решения и на бесконечном количестве итераций находит оптимальное решение задачи.

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

Поскольку алгоритм случайного поиска и все эволюционные алгоритмы при построении нового возможного решения используют генератор случайных чисел, то важным вопросом становится не сходимость эволюционного алгоритма, а эффективность эволюционных преобразований, которые должны увеличить вероятность нахождения оптимального решения по сравнению с алгоритмом случайного поиска. Покажем, что при определенных свойствах эволюционного алгоритма вероятность нахождения решения с более лучшей оценкой целевой функции у эволюционного алгоритма выше, чем у алгоритма случайного поиска.

Определение 5. Коэффициентом похожести двух кодов возможных решений S и Sp называется величина p(Sa,Sp), которая обладает следующими свойствами:

p(Sa,Sp) = p(Sp,Sa), VSa и VSp , 0 < p(Sa,Sp) < 1, если p(Sa,Sp) = 1, то Sa = Sp, если p(Sa,Sp) > p(Sa,Sy), то код Sp более похож на код Sa, чем Sy.

Коэффициент похожести (resembling) для двоичных кодов можно вычислять как разность между единицей и отношением количества несовпадающих бит к общему количеству бит в коде

( L Y1 L Pj

p(Sa,Sp) = 1 -

I Pj IIka,j - Sj, (20)

V j= / j= i=

где =(8аЛ,...,8аХ), 8р =(8^,...,^), ...,-Г,

е {0,1}, е {0,1}, 7 = 1,...,Рр 7 = 1,..., Ь.

Для кодов числовых векторов, 8а = (8а) = .... ]Т, ^ = (^) = [51Р ... 5в]Т,

еИ1, /=1, ...,р, при условии, что известны ограничения на значения компонент векторов

/=1,...,А (21)

где . , .V, , 7=1, ... ,р — известные величины, коэффициент похожести можно вычислить по разности между единицей и средней нормой разности нормированных векторов

1 р | 5а - |

р(Sа,Sp) = 1 -(22)

р .-=1 5 - 5

В общем случае формулы для вычисления коэффициента похожести могут не совпадать с (21), (22) и зависеть от особенностей кодировки возможного решения и алгоритма поиска.

Определение 6. Множество кодов возможных решений S = {S1,...,SH-} с заданной функцией оценки F(S) обладает свойством преемственности (succession), если для определенной величины коэффициента похожести р, существует величина 5 < Sj (pj), такая, что с вероятностью Pr > p (р ) выполняется соотношение

| F (Sa) - F (Sp )|< 5, (23)

где Sa,Sp е S, P(Sa,Sp) > Pi.

Согласно определению, похожие коды возможных решений в эволюционных алгоритмах с некоторой не нулевой вероятностью дают близкие значения оценок

Pr[|F(Sa) - F (Sp )|< 5] > pi(pi). (24)

Предположим, что оценки всех возможных кодов определенной длины лежат в ограниченном диапазоне значений

VS f< F (S) < f. (25)

Тогда вероятность генерации кода Sp возможного решения с оценкой fр = F (Sp ) меньше заданного значения f пропорциональна величине

prf > fp] = (fe - г)/(г-f). (26)

Теорема 4. Если эволюционный алгоритм порождает новые возможные решения со свойством преемственности, то существует такая величина оценки f возможного решения, что после определенного количества K эволюционных преобразований вероятность нахождения решения с более лучшей оценкой

Prf >f'(K+1)] в эволюционном алгоритме больше вероятности возникновения этого же события в алгоритме случайного поиска.

Доказательство. Пусть в результате случайного поиска и эволюционных вычислений было найдено возможное решение с оценкой f . Вероятность нахождения более лучшего возможного решения S алгоритмом случайного поиска определяется соотношением (30).

Рг[Г>^(§)] = (/*-/-)/(/+-/-).

Пусть эволюционный алгоритм обладает свойством преемственности. Тогда для кода возможного решения S с величиной коэффициента похожести р, (S , S) с кодом S* наилучшего найденного к данному моменту возможного решения вероятность получения оценки, лучше f определяется соотношением (23)

Pr[F(S*)-F(S)<5]>0.5A(Pl).

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

Коэффициент 0.5 введен в формулу для учета только тех возможных решений 8 из интервала | ) -Р(Б)|< 5, которые дают меньшее значение оценки

Р(Б) <F(Б*).

Для доказательства теоремы необходимо выполнение неравенства Рг[/* <Рг[^(8*)-^(§) <8]

или

(/* -/ )/(/+-/ ) < 0.5рМ), /* < 0.5/+-/ )Р1(Р1) + / , /* <0.5/^М) + (1-0.5^)/-Неравенство не выполнимо только при условии р (р ) = 0. Следовательно, если в эволюционном алгоритме новые возможные решения создаются со свойством преемственности, то вероятность получения возможного решения с более лучшей оценкой у эволюционного алгоритма выше, чем у алгоритма случайного поиска. Теорема доказана.

4. Вычислительный эксперимент

Рассмотрим задачу оптимального управления группой объектов с фазовыми ограничениями.

Заданы математические модели мобильных роботов [3, 4]

х/ = 0.5(м/ + г/2') со8(х3'),

х/ = 0.5(1// + г//) 8т(х/), (27)

Х'1 = 0.5(и{ — г/2),

где / — номер робота в группе, 7=1,..., А''; х15 х2 — координаты центра масс робота; х — угол поворота оси робота; щ, и2 — управляющие сигналы на вращение колес робота.

Управление ограничено

<»/<»,, 1=1,2, 7 = 1, (28) Заданы начальные состояния роботов:

Л-;«») X /' = 1,2,3, 7 = 1,..., Ж (29)

Заданы статические фазовые ограничения:

Р(х') = г2 - (х,* - х/ )2 - (х; - х/)2 < 0, 7 = 1, ■ •К (30)

где г — радиус статических ограничений

Заданы динамические фазовые ограничения как условия запрета сближения роботов между собой

Ы х-, ) = /-f - (х[ - х[+г~ )2 - (xt, - х£к )2 < 0, (31) где г0 — предельное расстояние сближения роботов; к = 1,..N - /'; / = 1, ..N -1. Заданы терминальные состояния роботов:

х/ - xf-J = О, г =1,2,3, 7=1,..., N. (32) Задан критерий качества:

J = tf —> min, (33)

где

tf H

[JpXm^X^: j=1,..., n |< e,

t+ - иначе

t — максимальное предельное время процесса управления; 8 — малая положительная величина.

Включим фазовые ограничения в критерий качества:

N tf N—1 N — i tf

J = tf + Xj ^(ß(xj ))dt + X X j ОД*, *+ k ))dt ^ min,

j=1 0 i=1 k=i+1 0

где ß(x(t)) и 5t(x(t)) определяются по формулам (30) и (31) соответственно,

П, если A > 1

А) = ■

[0 — иначе

Мы используем следующие значения постоянных параметров модели: п = 3,

m = 2, Ы = 4, X = 0, х0 = 0, х30=0, х4°=0, х50=10, х6°=0, х7°=10, х8°=0, х0 = 0, х°о =10, х^ =10, х2 = 0, х7 =10, =10, х^, х10 =10, x4 = 0, x4=0, х70 = 0, х0 = 10, x4 = 0, хо = 0, х01 = 0, х0 =0, г2 = 2.8, е = 0.01, и— = —10, м— = —10, =10, =10.

5. Трансформация к задаче нелинейного программирования

Для решения задачи оптимального управления (27)-(33) бесконечномерной размерности трансформируем ее в задачу нелинейного программирования конечномерной размерности. Выберем интервал и разобьем время управления на Ь интервалов

t, если t < t и max

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

Ь =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1.

.л? _

В каждом интервале мы аппроксимируем управление функцией, зависящей от конечного числа параметров.

Заменяем управление полученной аппроксимирующей функцией и обрезаем эти функции при нарушении ограничений на управление:

и+, если г/.(?) > мД?) = < гГ, если мД?)<гГ, /' = \,...,тЫ, ?7( (?) - иначе

где й. (?) — аппроксимирующая функция.

Для аппроксимации мы используем полиномы Эрмита четвертого порядка

»,■ (0 = 2(?" /А?) + <74(,_1+ЛЫ)+2 (4(? - /А?)2 - 2) +

(«С - /А?)3 -12?) + <74,_1+ЛЫ)+4 (16(? - /А?)4 - 48(? - /А?)2 -12?), где 7 = 1, ..., N111, ?е[/А?,(/ + 1)А7), / = 0,...,£-1..

Находим значения 4ЫшЬ параметров:

Ч = [<7| ••• ЯлмГ-

На значения параметров задаем ограничения

-2<^ <2, / = \,...,4Жт.

В эксперименте значения Л? = 1.4, Ь = 2.

Размерность искомого вектора параметров составила

4Жт = 4 • 4 • 2 • 2 = 64.

Следующий тип аппроксимации с помощью кривых Безье [5]:

(0 = <74(,-1+™ (!-('- ш)3) + 3<?4(,--™+2 (1-С - '¿О2 )(' - /А?) +

+3^4(,-1+«)+з (1-С - /Л?)Х? - /А?)2 + <74(,_1+ЛЫ)+4(? - /А?)3, где 7 = 1, ..., N111; ?е[/А?,(/ + 1)А?); / = 0, ...,1-1.

В эксперименте мы использовали следующие ограничения:

д~ = -8, =8, / = 1,..., 4Жт и А? = 1.4, 1 = 2.

Размерность вектора параметров составила

4Жт = 4 • 4 • 2 • 2 = 64.

Наиболее часто при аппроксимации функций управления используют кубические полиномы, которые позволяют получить непрерывные по значению, а также первой и второй производной функции. В данном случае ограничиваемся непрерывностью самой функции и по первой производной. На интервале 0, ? е [0; Л?) мы

ищем все четыре коэффициента, а на последующих интервалах по два коэффициента, так как два коэффициента определяются из равенства значений полиномов и их производных с обеих сторон границы интервала

-1)+/ + + <74(7-1 )+4> '

е [0; М),

(о=с - Ао3+с - Ао2+«з,/ с - А/ )+«4,г, ' 2АО,

а3,1 = 3#4(г—12№т(1—1))21 (М) 2 2q4(i—\+Nm(l—\))+2М 2 q4(¡—1+Nm(l—1))+3 , а4,1 = q4(¡—1+Nm(l—1))+1 (М) 2 #4(1—12^1)+2(М) 2 #4(1—12Nm(l—1))+3М 2 q4(¡—1+Nm(l—1))+4, (0 = «4(,-1+ЛЫ)+5 С "/А' У 2 ^4(,-1+«)+6 С " Ш)2 2 «3,/ С " /А/ ) 2 «4/,

Ге[/АГ;(/ + 1)А0, / = 2,...,£-1,

а3,1 = 3#4(г—12Мт(1—1))25 (!А0 2 4(j—l+Nm(l—l))+6l М 2 аз,/—1,

где / = 1, ..., Ми, / = О, ...,1,-1.

В эксперименте были заданы следующие значения ограничений:

с]Т = -2.8, =2.8, /=1.....(4 + 2(X - 1) Ж/и

и значения Аг = 0.95, Ь = 3.

Размерность вектора искомых параметров составила

(4 2 2(Ь—1))№т = (4 2 2 • 2) • 4 • 2 = 64. При кусочно-линейной аппроксимации ищем управления как линейные функции:

т = + А/

где / =1, ..., Шг, ? е [/А/;(/21)А/); / = 0,..., Ь-1.

В эксперименте использовали следующие значения ограничений: ц: = -20, =20, / = 1, ..., Жт и значения Аг = 0.255, Ь = 11.

Размерность вектора параметров составила LNm = 11 • 4 • 2 = 88. Наиболее простая аппроксимация с помощью кусочно-постоянной функции

где / =1, ..., Шг, ? е [/А/; (/21)А/); 1 = 0,..., Ь-1.

В эксперименте использовали следующие ограничения с/, = -20, с/, =20, / = 1, ..., Жт и значения Аг = 0.255, Ь = 11.

Размерность вектора управления составила LNm = 11 • 4 • 2 = 88.

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

6. Алгоритмы

Для решения задачи используем пять различных алгоритмов: известный алгоритм наискорейшего градиентного спуска (FGDA), алгоритм роя частиц (PSO) [6-8], генетический алгоритм (GA) [6, 7, 9], простой случайный поиск (RS) и стохастический градиентный алгоритм (ADAM) [6, 10]. Качество поиска эволюционных алгоритмов зависит от количества возможных решений в начальном множестве и числа эволюционных преобразований, поэтому оценивали эффективность алгоритмов по числу вычислений целевого функционала. Параметры алгоритмов были выбраны так, чтобы количество вычислений целевого функционала для каждого алгоритма было приблизительно одинаковым. Заметим, что для вычисления одного значения градиента вектора в алгоритме градиентного спуска количество вычислений значений равно размерности искомого вектора параметров. Результаты вычислительного эксперимента приведены в табл.

Таблица. Результаты эксперимента

PSO

Cube 7.6864 8.917237 0.892737 2500511

Hermit 5.1408 9.686063 2.117146 2500511

Bezier 4.1660 8.023544 2.758620 2500511

Linear 3.4987 5.497326 1.427645 2501011

Constant 3.8021 5.437543 1.165168 2501011

RS

Cube 12.0909 13.080324 0.868641 2500021

Hermit 14.0148 15.897309 1.245307 2500021

Bezier 9.2596 14.768950 2.760597 2500021

Linear 5.6273 12.238500 4.751106 2500021

Constant 9.4286 12.790501 2.640101 2500021

GA

Cube 6.0272 9.299249 1.57050 2494205

Hermit 5.8111 7.282453 1.158785 2488467

Bezier 7.1604 10.165712 1.366374 2491811

Linear 4.8372 7.036774 1.704026 2496725

Constant 9.5319 11.932227 1.859405 2497143

FGDA

Cube 18.5099 21.604358 3.912750 2594575

Hermit 18.4947 21.301057 1.686402 2591268

Bezier 22.3052 23.314141 1.006914 2606501

Linear 21.4992 22.366198 0.942382 2743742

Constant 23.5008 24.782348 0.779497 2715137

ADAM

Cube 18.0045 18.743846 0.905551 2550251

Hermit 13.8628 16.149400 2.229859 2550261

Bezier 6.0134 8.905433 1.194444 2550261

Linear 7.6490 9.294152 1.144378 2522661

Constant 7.4528 8.841364 1.026492 2522661

В табл. приведены методы трансформации к задаче нелинейного программирования: Cube с помощью кубического полинома; Hermit — с помощью полиномов Эрмита; Bezier — на основе кривых Безье; Linear — с помощью кусочно-линейной аппроксимации; Constant — с помощью кусочно-постоянной аппроксимации. В колонке 4 указана величина среднеквадратичного отклонения. В пятом столбце показано количество вычислений целевого функционала.

Из таблицы видим, что эволюционные алгоритмы дают лучшие результаты, чем другие алгоритмы. Градиентный спуск работает хуже, чем случайный поиск. Лучшее решение было получено алгоритмом роя частиц. Значение функционала для лучшего решения составило 3.4987.

Лучшее решение имеет следующее значение вектора параметров q = [-19.386 -15.424 -19.758 -11.291 -19.995 -7.217 15.213 19.166 14.471 -17.018 -0.104 19.665 5.433 -19.988 -11.661 -16.911 19.884 19.914 3.138 -11.472 -19.991 -11.169 13.684 - 7.503 -14.478 -11.982 -17.202 16.257 19.916 19.959 19.839-19.877 4.265 18.173 -10.405 -19.970 -19.448 8.587 12.291 18.394 14.360 9.441 19.842-19.933 -18.911 - 8.419 4.644 8.434 11.161 12.217 15.492 -7.754 -18.977 -10.800-10.910 18.196 -18.076 -19.996 13.777 -1.032 16.507 11.284 9.916-19.273 -14.311 -19.925 - 9.799 -19.950 - 0.301 -17.725 19.832 12.084- 20.000 -10.225 18.007 11.890 19.008 -17.670 -19.971 - 7.332 -19.675 -19.948 18.937 10.148 16.420 14.907 19.959 3.142]г.

На рис. 2 показаны траектории движения четырех мобильных роботов на плоскости для наилучшего найденного управления

-2 -1 1 2 3 4 5 в 7 8 в 10 11 12 13

Рисунок 2. Траектории роботов на плоскости для наилучшего решения

Условия отсутствия свойств унимодальности функционала в задаче оптимального управления с фазовыми ограничениями

7. Выводы

В статье рассмотрены условия, при которых функционал в задаче оптимального управления теряет свойства унимодальности. Эти условия связаны с наличием фазовых ограничений и управлением несколькими объектами.

Приведен вычислительный эксперимент, результаты которого показали, что при наличие фазовых ограничений и при управлении несколькими объектами более эффективно использовать эволюционные алгоритмы, чем классические градиентные методы.

Литература

[1] Евтушенко Ю. Г. Оптимизация и быстрое автоматическое дифференцирование. — М. : ВЦ РАН, 2013.

[2] Евтушенко Ю. Г., Посыпкин М. А. Метод неравномерных покрытий для решения задач многокритериальной оптимизации с заданной точностью // Автоматика и телемеханика. 2014, № 6. С. 49-68.

[3] Leena N., Saju K. K. Modelling and trajectory tracking of wheeled mobile robots // Procedia Technology. 2016. Vol. 24. P. 538-545.

[4] Suster P., Jadlovska A. Tracking trajectory of the mobile robot Khepera II using approaches of artificial intelligence // Acta Electrotechnica etInformatica. 2011. Vol. 11. No. 1. P. 38-43.

[5] Дивеев А. И., Шмалько Е. Ю. Метод аппроксимации кривыми Безье для решения задачи оптимального управления посадкой космического аппарата // Труды института Системного анализа РАН. Динамика неоднородных систем. 2007. Т. 31, № 1. С. 8-13.

[6] Дивеев А. И., Константинов С. В. Исследование эволюционных алгоритмов для решения задачи оптимального управления // Труды МФТИ. 2017. T. 9, № 3 (35). С. 76-85.

[7] Карпенко А. П. Современные алгоритмы поисковой оптимизации. Алгоритмы, вдохновленные природой. — М. : Изд-во МГТУ им. Н. Э. Баумана, 2014.

[8] Kennedy J., Eberhart R. Particle Swarm Optimization // IEEE International Conference on Neural Networks IV. — Perth, 1995. P. 1942-1948.

[9] Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization // 3rd International Conference for Learning Representations. arXiv:1412.6980v8 [cs.LG], 2015 (https://arxiv.org/pdf/ 1412.6980v8.pdf).

[10] Goldberg D. E. Genetic Algorithms in Search, Optimization, and Machine Learning. Addison-Wesley, 1989.

Автор:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Асхат Ибрагимович Дивеев — доктор технических наук, профессор, главный научный сотрудник, Федеральный исследовательский центр «Информатика и управление» РАН

Conditions of not unimodality of functional in problem of optimal control with phase restrictions

A. Diveev

Federal Research Center "Computer Science and Control" of Russian Academy of Sciences Vavilova str., 44, build. 2, Moscow, Russian Federation, 119333

e-mail: aidiveev@mail.ru

Abstract. The paper is devoted a research of properties of an unimodality of a functional in a problem of optimal control. In the paper it is proved that under certain conditions the phase restrictions included in a functional in the form of a penalty function make a functional not unimodal. The lack of an unimodali-ty of a functional indicates small effectiveness of use in these problems of gradient methods. It is offered to use evolutionary algorithms for numerical problem solving of optimum control with phase restrictions. The proof of the theorem is provided, that when performing determinate conditions evolutionary algorithms have convergence higher than a random search. Results of a com-putting experiment in which algorithms of the solution of a problem of optimal control of two mobile robots were compared to phase restrictions are given. Results of an experiment showed effectiveness of application of evolutionary algorithms for numerical problem solving of optimum control with phase restrictions in comparison with gradient methods and a random search. Key words: problem of optimal control with phase restrictions, control of group of robots, functional unimodality, convergence of evolutionary algorithm.

References

[1] Evtushenko Yu. G. (2013) Optimizatsiya i bystroye avtomaticheskoye differentsirovaniye. Moscow, Computing Center of RAS. [In Rus]

[2] Yevtushenko Yu. G., Posypkin M. A. (2014) Autom. and Remote Control, 75(6):1025-1040.

[3] Leena N., Saju K. K. (2016) Procedia Technology. 24:538-545.

[4] Suster P., Jadlovska A. (2011) Acta Electrotechnica et Informatica, 11(1):38-43.

[5] Diveev A. I., Shmalko E. Yu. (2007) Proceedings of the Institute of the system analysis of the Russian Academy of Sciences. Dynamics of inhomogeneous systems, 31(1):8-13.

[6] Diveev A. I., Konstantinov S. V. (2017) Trudy MFTI. 9(3):76-85 [In Rus]

[7] Karpenko A. (2014) Modern algorithms of search optimization. Algorithms inspired by nature. Moscow, Izd-vo MSTU them. N. E. Bauman. [In Rus]

[8] Kennedy J., Eberhart R. (1995) Particle Swarm Optimization. Proceedings of the IEEE International Conference on Neural Networks IV, Perth. P. 1942-1948.

[9] Kingma D. P., Ba J. (2015) Adam: A Method for Stochastic Optimization. 3rd International Conferencing for Learning Representations. arXiv: 1412.6980v8 [cs.LG].

[10] Goldberg D. E. (1989) Genetic Algorithms in Search, Optimization, and Machine Learning. Addison-Wesley.

i Надоели баннеры? Вы всегда можете отключить рекламу.