Application of hybrid memetic algorithm in optimal control nonlinear stochastic Systems with Incomplete feedback Problems

Пантелеев Андрей Владимирович; Пановский Валентин Николаевич

Vol. 21, No. 02, 2018

Ovil Aviation High Technologies

УДК 519.85, 517.977.58

DOI: 10.26467/2079-0619-2018-21-2-59-70

ПРИМЕНЕНИЕ ГИБРИДНОГО МЕМЕТИЧЕСКОГО АЛГОРИТМА В ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ НЕЛИНЕЙНЫМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ С НЕПОЛНОЙ ОБРАТНОЙ СВЯЗЬЮ

А.В. ПАНТЕЛЕЕВ1, В.Н. ПАНОВСКИЙ1

1Московский авиационный институт (национальный исследовательский университет),

г. Москва, Россия

Работа выполнена при финансовой поддержке РФФИ, грант № 16-07-00419 А

В работе исследуется применение гибридного меметического алгоритма глобальной условной оптимизации в задаче поиска оптимального управления нелинейными стохастическими системами. Предлагаемый подход основывается на параметризации искомого управления, что позволяет свести задачу поиска оптимального управления к задаче нелинейного программирования. Решение последней предлагается искать с помощью метаэвристического алгоритма глобальной оптимизации - меметического алгоритма. Термин меметические алгоритмы широко используется в качестве обозначения взаимодействия эволюционного, культурно-эволюционного или другого подхода, основанного на понятии популяции, и индивидуального обучения особей либо другой локальной процедуры улучшения для решения задач поиска глобального экстремума. В разработанном алгоритме культурная эволюционная составляющая реализуется в ходе решения подзадачи оптимизации любым из двух методов: с помощью метода муравьиных колоний или метода имитации отжига. При этом в ходе культурной эволюции мемы (единицы передачи культурной информации) используются для генерации более совершенной (в терминах решаемой задачи - более эффективной) особи. В данном исследовании рассматривается несколько альтернативных способов параметризации управления: в виде разложения по системе полиномов Лежандра и косинусоид. Эффективность предложенных алгоритмов исследована с помощью созданного комплекса программ. В качестве тестового примера использована задача гашения вращательного движения спутника с помощью установленных на нем двигателей. О корректности решений, полученных с помощью предложенного подхода, можно судить путем сравнения с решением, найденным с помощью метода локальных вариаций. Полученные данные позволяют говорить о достаточной эффективности предложенного подхода.

Ключевые слова: оптимальное управление, глобальный экстремум, нелинейные стохастические системы, неполная обратная связь, меметические алгоритмы, стабилизация спутника.

ВВЕДЕНИЕ

Рассматривается проблема приближенного решения задачи поиска оптимального в среднем управления нелинейными стохастическими системами в условиях неполной текущей информации о координатах вектора состояния [1-3]. Задачи синтеза оптимальных стохастических систем ранее изучались в [1-6], где были сформулированы и доказаны различные условия оптимальности, а также разработаны численные методы их удовлетворения.

В работе предлагается искать приближенное решение в параметрическом виде путем подбора коэффициентов, входящих в функцию разложения компонент управления. Функция разложения представляет собой сумму произведений элементов систем ортонор-мированных базисных функций, применяемых в спектральном методе анализа и синтеза нелинейных систем [7], и искомых коэффициентов. Структура функции разложения определяется набором измеряемых координат вектора состояния, используемых в управлении. Ограничения на управление учитываются с помощью применения функции насыщения. Задача нахождения оптимального управления с неполной обратной связью сводится к решению параметрической задачи нелинейного программирования относительно коэффициентов разло-

Civil Aviation High Technologies

Vol. 21, No. 02, 2018

жения. Для ее решения предлагается применить гибридный меметический алгоритм [8, 9] поиска глобального условного экстремума, относящийся к метаэвристическим [10]. Его применение приводит к получению решения, близкого к оптимальному, за приемлемое время. Эффективность предложенного подхода демонстрируется на задаче оптимальной стабилизации спутника [11].

ПОСТАНОВКА ЗАДАЧИ

Поведение модели объекта управления описывается стохастическим дифференциальным уравнением Ито:

dX = f (t, X (t), u(t)) dt + a(t, X (t), u (t)) dW, X (t0) = X0, (1)

где X - вектор состояния системы, X = (XX2)T e №n, X1 = (X,,..., Xm)T, X2 = (Xm+1,..., Xn)T, 0 < m < n; u - вектор управления, u e U ^ №q, U - множество допустимых значений управления, представляющее собой прямое произведение отрезков [ai,bi], i = 1,2,...,q; t e T = [t0,tj, T - промежуток времени функционирования системы, моменты времени t0 и t1 заданы; W (t) - k-мерный стандартный винеровский случайный процесс.

Предполагается, что о компонентах вектора X1 е №m текущая информация известна, а о компонентах вектора X2 е №n-m отсутствует.

Начальное состояние X0 определяется плотностью вероятности

p(t0, x) = p0(x) e №n Vx e №n, (2)

где P = {p(x) | p(x) e C2(№n), J p(x) dx = 1, p(x) > 0 Vx e №n}, Ck (№n) - множество k-раз непре-

Kn

рывно дифференцируемых на №n функций.

Предполагается, что при управлении используется информация только о времени t и о компонентах вектора X1, т. е. управление, применяемое в каждый момент времени t e T, имеет

вид управления с неполной обратной связью u(t) = u(t, X1 (t)).

Число m, 0 < m < n, определяется условиями информированности. При m = n имеется информация о всех координатах вектора Х, т. е. система будет системой с полной обратной связью, а при m = 0 - системой, разомкнутой по состоянию. В последнем случае рассматривается так называемое программное управление u(t).

Множество допустимых управлений с неполной обратной связью Um образует функции

u(t, x1): T х №m ^ U такие, что для всех i = 1,..., n; j = 1,..., k функции fiu()(t, x) = f (t, x, u(t, x1)), aj ()(t, x) = aij (t, x, u(t, x1)) удовлетворяют условиям, при которых решение уравнения (1) существует, единственно и является непрерывным марковским процессом. Если плотность вероятности этого процесса p(t, x) e CU(T х №n), то она V(t, x) e T х №n удовлетворяет уравнению Фоккера - Планка - Колмогорова

^Рг^ = -£f [f(t,x,u(t,x1))p(t,x)] + ij j"TIT[a-j(t,x,u(t,x1))p(t,x)] = Au()[p(t,x)], (3)

Оt ¿=1 О xi 2 ¿=1 j=1 О xi О xj

Vol. 21, No. 02, 2018 Civil Aviation High Technologies

с начальным условием (2). Здесь: Л" ()[ • ] - дифференциальный оператор,

(t, х,") = 2 0ц (t, x,") а}, (t, x,"). (4)

aij i=i

Обозначим через Dm('0,р0(х)) множество пар ёп = (р(',х),u(',х1)), где функции р(х) е С1,2(Т х №п), u(', х1) е Uт и удовлетворяют уравнению (3) с начальным условием (2). Определим на множестве Dm ('0, р0( х)) функционал качества управления

'1 Г к Г

3(4) = Ц f(t,x,u(t,xl))p(t,x)dxdt +1 Дх)р((,х)х = ы\ |/0((,Х((), и((, Х:(()))# +ДХ(()) I (5)

'о Кп К" Г 'о \

где непрерывные функции /0( х, и): Т х №п х и ^ №, ^(х) : №п ^ № удовлетворяют условию полиномиального роста [6].

Требуется найти такой элемент ёп * = (р *(', х ), u *(х1)) е Dm ( '0, р0 (х)), что

3{йп *) = ^ 1ШП ( 3{йп). (6)

Лт е Гп р0( х))

Искомое управление и *(', х1) называется оптимальным в среднем.

СТРАТЕГИЯ ПОИСКА РЕШЕНИЯ

Будем предполагать, что:

1) известна оценка множества возможных состояний, которая представляется прямым произведением [х1,х1]х---х[хп,хп], где xi,х^ - нижняя и верхняя граница по каждой координате

соответственно;

2) компоненты закона управления и(', х1 (')) = (и1 (', х1 (')),..., и (', х1 (')))Т ищутся в виде

"

(t,X(t)) = sat{gt(t,Xj(t),...,xm(t))}, i = 1,...,q, (7)

ГДО sat { (t, xj(t),..., xm (t ))} =

'gi (t, Xj (t),..., Xm (t)), a (t) < gl (t, X (t),..., Xm (t)) < b (t), a(t),gi(t, Xj(t),...,Xm(t)) < a(t), bi(t),gi(t,Xj(t),...,Xm(t)) > bi(t);

3) функции gi (t,x1,...,Xm) предлагается искать в виде

L0 1 Li_1 Lm 1

gl (t, Xm ) = SS * " Ё "й-Л» ^ q (( , t) (i1, X1 ) • " Pm (im , Xm ) > (8)

i0 =0 i =0 im =0

и*1 (', х1)

где и1^ п - неизвестные коэффициенты; Ь0,Ьх,...,Ьп - масштабы усечения по времени и координатам вектора состояния, используемым в управлении.

Civil Aviation High Technologies

Vol. 21, No. 02, 2018

В качестве функций q (/0, Г), р1 (гг, х1 ) Рт (гт, хт ) могут использоваться: а) полиномы Лежандра:

q(io,t) = 'о = 0,1,-, L-1, где lok

\ tN k =0 %

Pj ((, XJ К P-^XV Т^^ j =1'-''j = 0'1— Lj-1, где j =(-11rk Cl+kCjk

(9)

j ( - Xj)

б)косинусоиды:

q ('o't) =

—> '0 = 0,

N

Y

l0Kt

t N t N

Pj ('j , Xj ) =

'0 = 1'2'...'L0 -1'

, i. = 0,

j

(10)

i .ж(X . - X .)

j v j jJ

j = 1,...,да,i. = 1,2,...,L. -1.

j ' ' ' j ' ' ' .

Стратегия решения заключается в переходе от задачи (6) к задаче поиска минимума функционала с помощью подбора коэффициентов и\ ^ i , образующих функцию (7). Для формализации задачи предлагается использовать вектор

и =

(ul . uq. . )

(11)

который представляет собой гиперстолбцовую матрицу, состоящую из q компонент - векторов

= и (т +1,0):

u

и.

и,

00...0 l

00...1

00...( Lm-1)

и,

l

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

*0( ^-1)...0 l

<0(L1 1)... 1

и

l

0(L1 1). .. (-1)

l

'(L0-1)0...0 l

(L-1)0...1

и,

l

и,

(L0-1)0...(Lm -1)

и

\ L0 -1)(L -1)...0 l

( L0 -1)( L1 1 )...1

и,

l

'( L0 -1)( I,-1)...( Lm -1)

, l = 1,..., q. (12)

Для решения задачи поиска наилучшего вектора (12) и, как следствие, управления и (г, х1) = (и1(г, х1),..., и (г, х:))Т, применяется модифицированный гибридный меметический алгоритм поиска глобального условного экстремума функций многих переменных.

Для нахождения значения критерия (5) для некоторого вектора и = (к т ,...,т ) необходимо:

1) с помощью начальной плотности вероятности р0( х) генерировать начальное состояние Х0;;

2) по вектору и = (и1 ^ т ,...,и^ т )Т найти соответствующее управление и(г, х1) = (и1 (г, х1),..., Uq (г, х1 ))Т;

1

Vol. 21, No. 02, 2018

Civil Aviation High Technologies

3) найти решение X1 () уравнения модели (1) с управлением и(V, х1) и начальным

условием Хц1, используя один из численных методов решения стохастических дифференциальных уравнений, например, метод Эйлера - Иосиды:

Х;+1 = XI + /(к, XI, и)И + л/И а(к, XI, ик)АЖ,

где И - шаг дискретизации, АЖ ~ N(0,1) - случайный гауссовский к-мерный вектор;

4) повторить пп. 1-3 при 1 = 1,..., N, где N - число генерируемых траекторий, и вычислить значение J функционала (5), усредняя значения функционала, определенного на отдельных траекториях.

В качестве решения задачи выбирается наилучший вектор и = (иЦ ^ ^ ,...,и^ i )т и соответствующее ему управление.

Таким образом, приведенный выше алгоритм, с помощью которого произвольному вектору ставится в соответствие некоторое число, можно рассматривать как целевую оптимизируемую функцию. Вследствие того, что предлагаемый модифицированный гибридный меметический алгоритм относится к эволюционным метаэври-стическим алгоритмам поиска глобального условного экстремума функций многих переменных, полученную функцию можно рассматривать с точки зрения природного понятия приспособленности живого организма, а каждый допустимый вектор - как некоторую особь. Генерируемое на каждой итерации алгоритма множество особей рассматривается как популяция.

АЛГОРИТМ РЕШЕНИЯ ЗАДАЧИ

Шаг 1. Подготовительный этап:

• задать число N генерируемых траекторий;

• генерировать N начальных точек по заданной плотности вероятности р0 (х) ;

• задать векторы, определяющие оценку множества достижимости: х^=,(,...,хт

х1 =

u

((..., xm ) ;масштабы усечения вектора u0h . m : L0, L,..., Lm.

Шаг 2. Определение целевой оптимизируемой функции. Зададим правило h: u ^ v, ставящее в соответствие вектору u = (uj ^ . ,...,uq ^ . )T некоторое число v.

Шаг 2.1. Найти решение x1 (7) уравнения модели (1) с управлением u(t, x1) и начальным условием X0, где каждая компонента управления определяется по формуле (t,x1 ) = sat{g. (t,x1,...,xm),i = 1,...,q. Получим пару d1 = (x1 (t),u(t) = u(t,xl(t))).

Шаг 2.3. Подсчитать значение функционала (4): I (x0, d1), j = 1,..., N.

1 N

Шаг 2.4. Найти значение критерия J [u] = — ^ I (, d1) .

N 1=1

Шаг 2.5. Положить v = J[u].

Шаг 3. Применяя модифицированный гибридный меметический алгоритм к функции f : u ^ v, получим требуемое управление.

Civil Aviation High Technologies

Vol. 21, No. 02, 2018

АЛГОРИТМ МОДИФИЦИРОВАННОГО ГИБРИДНОГО МЕМЕТИЧЕСКОГО АЛГОРИТМА

Шаг 1. Задать область поиска [а1,bjх...х[an,Ъп], максимальное число итераций Mmax , размер популяции m, параметр а - некоторый порог расстояния между точками, K - максимальное количество элементов множества Pool, q - количество удаляемых решений из множества Pool на каждой итерации, количество итераций PRmax и LImax процедур Path-Relinking и локального улучшения соответственно, параметры Apr и Al, область определения C коэффициентов c1,..., ck, параметры метода муравьиных колоний или имитации отжига в зависимости от сделанного выбора. Положить k = 0 - количество элементов в множестве Pool; M = 0 -номер итерации.

Шаг 2. Формирование множества Pool.

Шаг 2.1. Случайным образом сформировать популяцию IM. Для этого с помощью равномерного распределения m раз сгенерировать последовательность из n случайных точек (PMР}П=1, i = 1,. .,п, p = 1,2,...,m на отрезке [0,1]. Используя линейное преобразование, каждая точка отображается на соответствующий ей промежуток [a., bi ]: Pip = (Ъ. - ai )PM,p + ai. Составляя векторы из точек последовательности (Pp }г"=1 при фиксированном p , получаем m начальных векторов xp = (x1p,xp,...,xp)T, xp = Pip, i = 1,2,...,n, координаты которых xp имеют равномерное распределение на отрезках [ai,bi], i = 1,...,п. Таким образом может быть сформирована начальная популяция IM = {xp,p = 1,2,...,m | xp = (xp,xp,...,xp)T e D}.

Шаг 2.2. Вычислить значение функции приспособленности для каждой особи xp e IM : fp = f (xp), p = 1,...,m . В соответствии со значениями функции приспособленности f (xp) упорядочить векторы xp от лучшего (обеспечивающего наименьшее значение f (xp) ) к худшему (обеспечивающему наибольшее значение f (xp)).

Шаг 2.3. Лучшее решение xbest поместить в множество Pool. Положить x^ = xbest. Если M = 0 , то перейти к шагу 2.4. Иначе перейти к шагу 3.

Шаг 2.4. Решение x1, следующее за xbest в упорядоченном списке и удовлетворяющее

Р _

условию d(xbest,x1) = (xbiest -x/)2 >а поместить в множество Pool. Положить x^ = x1.

Положить k = k + 2. Если такого решения нет, то перейти к шагу 2.1.

Шаг 3. Решение задачи локального поиска.

Шаг 3.1. решить задачу f(xnew ) ^ c niin , где xnew = c, xlpo0l + c2x2po0l +... + ckxkpool;

c1 ,c2 ,■■■,ck

c1,..., ck e С; xnew e D; xlpool, x2pool,..., xkpool e Pool. Для решения этой задачи применить метод муравьиных колоний или метод имитации отжига.

Шаг 3.2. Поместить xnew в множество Pool. Положить xpHi = xnew, k = k +1.

Шаг 3.3. Если k < K, то перейти к шагу 3.1. Если k = K, перейти к шагу 4.

Шаг 4. Процедура Path-Relinking.

Шаг 4.1. Положить pr = 1.

Шаг 4.2. Выбрать тройку случайных особей xppool, xqpool, xrpool.

Шаг 4.3. Найти особь xp/ool = Arg . min 1 f (xppool + j • (xqpool — xppool)/ Л).

Шаг 4.4. Добавить особь xnew = Arg ^ min f (xppqool + j • (xqpool — xpool )/ Лpr ) во множество

J =1,...,Лр r — 1

Pool. Положить K = K +1 и pr = pr +1.

Шаг 4.5. Если pr > PRmax , то перейти к шагу 5. В противном случае перейти к шагу 4.2.

Шаг 5. Процедура локального улучшения. Шаг 5.1. Положить p = 1. Шаг 5.2. Положить p = 1.

Шаг 5.3. Сгенерировать особь x = xpool где £ = ~ U(—Л1 ,Л1 ). Если

f (x) < f (xpool ) , то положить xpool = x . Положить p = p +1.

Шаг 5.4. Если p > LImax, то перейти к шагу 5.5. В противном случае - к шагу 5.3. Шаг 5.5. Положить p = p +1. Если p > K, то перейти к шагу 6. В противном случае - к шагу 5.2.

Шаг 6. Обновление множества Pool.

Шаг 6.1. Упорядочить решения, находящиеся в множестве Pool, в соответствии со значениями функции приспособленности f ( xJpool ), j = 1,..., K от лучшего к худшему. Наилучшее

решение записать на лист памяти.

Шаг 6.2. Положить M = M +1. Если M <Mmax , то перейти к шагу 6.3. Иначе выбрать

наилучшее решение из листа памяти и закончить выполнение алгоритма.

Шаг 6.3. Удалить p наихудших решений из Pool, положить к = к — p.

Шаг 6.4. Удалить из множества Pool худшее из двух решений xpool, x'pool, находящихся

слишком близко друг к другу, т. е. не удовлетворяющих условию:

d(xpool, xpool) =^É(xÏooH — xïooli )2 Vj, xpool , каждый раз полагая к = к — 1. Перейти

к шагу 2.

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

На основе предложенного алгоритма разработано программное обеспечение для поиска оптимального управления непрерывными детерминированными системами. Среда разработки - Microsoft Visual Studio, язык программирования - C#.

C помощью программного обеспечения пользователь может вводить параметры постановки задачи, а также задавать параметры меметического алгоритма и метода решения задачи локального поиска. В программе имеется возможность выбора метода решения задачи локального поиска: муравьиных колоний (непрерывный вариант) либо имитации отжига [10].

РЕШЕНИЕ ПРИКЛАДНОЙ ЗАДАЧИ

Рассмотрим задачу гашения вращательного движения спутника с помощью установленных на нем двигателей.

Движение твердого тела относительно центра инерции описывается системой дифференциальных уравнений.

Ovil Aviation High Technologies

Vol. 21, No. 02, 2018

СР = (сщ - (Л- ц)0>Е)Ж + 0,5СГ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

dQ = — (а2и2 - (1 - Л)ЯР^ + 0,(3)

и

СЯ = - (а3и3 - (и -1) PQ)dt+0,5с№, Л

где Р, Q, Я - проекции угловой скорости на главные центральные оси инерции. В правых частях системы стоят моменты сил относительно этих осей. Предполагается, что моменты создаются тремя двигателями, закреплёнными на теле. Двигатели создают тяги и1, и2, и3; плечи приложения

сил а1, а2, а3. Значения параметров и начальных данных: Л = и = —, а = а3 = —, а2 = —, t1 = 1.

6 6 6

В момент времени t0 = 0 тело вращается: начальное положение описывается нормально распределенными случайными величинами Р0 ~ #(24,0.2), Q() ~ N(16,0.2), Я0 ~ N(16,0.2).

Требуется так управлять двигателями, чтобы за фиксированное время t = ^ погасить угловые скорости тела: Р(^) = 0, Q(t1) = 0, Я(^) = 0.

При этом необходимо минимизировать функционал:

3 = М \ 0)| + \щ ^)| + |«з (t)|) ) +100 • (Р2(0 + Q2 & ) + Я2 &))} . (4)

Последнее слагаемое отвечает за штраф при невыполнении терминальных условий. Ищется управление, зависящее от изменяемого набора координат вектора (Р, Q, Я)т, где X! = Р, х2 = Q, х2 = Я.

На рис. 1 представлены программные управления и проекции угловой скорости, найденные И.А. Крыловым [11] для заданного начального состояния Р00) = 24, Q(t0) = Я00) = 16. Минимальное значение функционала: I = 169,42.

К

Fig. 1. Solution received by means of local variations

В табл. 1 приведены результаты решения задачи, полученные для различных конфигураций управления.

Таблица 1 Table 1

Результаты работы метода Results of method work

Значение J jj (полиномы Лежандра) Значение J jj (косинусоиды)

Lq = 2, L1 = 1, L2 = 1, L3 = 1 ^ u (t ) 171,0022 170,0171

Lq = 3, L1 = 2, L2 = 1, L3 = 1 ^ u (t, x1 ) 170,3378 169,9011

Lq = 3, L = 1, L2 = 2, L3 = 1 ^ u (t, x2 ) 169,2100 169,3032

Lq = 3, L = 1, L2 = 1, L3 = 2 ^ u (t, x3 ) 169,5008 169,055

Lq — 3, Li — 2, L2 — 2, L3 — 1 ^ u (t, Xl, X2 ) 168,4404 168,2996

Lq — 3, Li — 2, L2 — 1, L3 — 2 ^ u (t, Xl, X3 ) 168,3202 168,9039

Lq — 3, Li — 1, L2 — 2, L3 — 2 ^ u (t, X2, X3 ) 168,4399 168,3319

Lq — 3, Li — 2, L2 — 2, L3 — 2 ^ u (t, Xl, X2, X3 ) 168,5033 167,9779

На рис. 2 изображены некоторые управления и соответствующие им траектории.

150

-100 ■

-150 ■

U 1

Рис. 2. Траектории и управление (полиномы Лежандра) Fig. 2. Trajectories and management (Legendre polynomial)

Civil Aviation High Technologies

Vol. 21, No. 02, 2018

По данным табл. 1 видно уменьшение значения функционала с ростом количества компонент, по которым имеется полная информация, т. е. управление с полной и неполной обратной связью более эффективно, чем программное управление.

ЗАКЛЮЧЕНИЕ

В работе предложен гибридный меметический алгоритм и соответствующее программное обеспечение для решения задач поиска оптимального в среднем управления нелинейными стохастическими системами в условиях неполной текущей информации о координатах вектора состояния. Эффективность алгоритма продемонстрирована на примере задачи о стабилизации спутника. Сравнение с результатами, полученными с помощью других методов поиска оптимального управления, показало эффективность меметического алгоритма, позволяющего находить решение, близкое к оптимальному.

СПИСОК ЛИТЕРАТУРЫ

1. Пантелеев А.В., Руденко Е.А., Бортаковский А.С. Нелинейные системы управления: описание, анализ и синтез. М.: Вузовская книга, 2008.

2. Пантелеев А.В., Семенов В.В. Синтез оптимальных систем управления при неполной информации. М.: Изд-во МАИ, 1992.

3. Пантелеев А.В. Вариационное исчисление в примерах и задачах. М.: Высшая школа, 2006.

4. Kushner H.J., Dupuis P.G. Numerical Methods for Stochastic Control Problems in Continuous Time. New York: Springer, 2001.

5. Bertsekas D.P. Dynamic Programming and Optimal Control. Cambridge: Athena Scientific, 2013.

6. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стохастическими системами. М.: Мир, 1978.

7. Пантелеев А.В., Рыбаков К.А. Методы и алгоритмы синтеза оптимальных стохастических систем управления при неполной информации. М.: Изд-во МАИ, 2012.

8. Moscato P. On Evolution, Search, Optimization, Genetic Algorithms and Martial Arts: Towards Memetic Algorithms // Caltech Concurrent Computation Program (report 826). 1989.

9. Пантелеев А.В., Письменная В.А. Применение меметического алгоритма в задаче оптимального управления пучками траекторий нелинейных детерминированных систем с неполной обратной связью // Известия РАН. Теория и системы управления. 2018. № 1. С. 1-12.

10. Пантелеев А.В., Метлицкая Д.В., Алешина Е.А. Методы глобальной оптимизации. Метаэвристические стратегии и алгоритмы. М.: Вузовская книга, 2013.

11. Крылов И.А. Численное решение задачи об оптимальной стабилизации спутника // Вычислительная математика и математическая физика. 1968. № 8 (1). С. 284-291.

СВЕДЕНИЯ ОБ АВТОРАХ

Пантелеев Андрей Владимирович, доктор физико-математических наук, профессор, заведующий кафедрой математической кибернетики Московского авиационного института (национального исследовательского университета), [email protected].

Пановский Валентин Николаевич, ассистент кафедры математической кибернетики Московского авиационного института (национального исследовательского университета), [email protected].

Vol. 21, No. 02, 2018

Civil Aviation High Technologies

APPLICATION OF HYBRID MEMETIC ALGORITHM IN OPTIMAL CONTROL NONLINEAR STOCHASTIC SYSTEMS WITH INCOMPLETE FEEDBACK PROBLEMS

Andrei V. Panteleev1, Valentin N. Panovskiy1

1Moscow Aviation Institute (National Research University), Moscow, Russia

The study was conducted with support of Russian Foundation for Basic Research (RFBR)

grant № 16-07-00419 A

ABSTRACT

The application of hybrid memetic algorithm of global constrained optimization in the search optimal control of nonlinear stochastic systems problem is researched in the paper. The suggested approach is based on control parametrization, which gives an opportunity to reduce the search optimal control problem to nonlinear programming problem. The global optimization memetic algorithm is suggested to solve the nonlinear programming problem. The term "memetic algorithms" is wildly used to denote method, which is based on evolutional, cultural-evolutional or another approach, that uses notions like population and individual learning process or other local improvement procedure to determine global ex-tremum. In the developed algorithm the cultural evolution component is implemented by means of the solution of sub-task optimization using ant colony method or simulated annealing algorithm. Herewith mems (unit of cultural information) are used to generate perfect individual. Several alternative forms of parametrization are considered: in the form of expansion by Legendre polynomials system and in the form of cosine-waves. The efficiency of the proposed algorithms was analyzed by means of created software complex. The problem of damping rotational satellite motion by means of installed engine was solved as the example. Verification of obtained results using the solution detected with local variations method was done. The described results show the sufficient efficiency level and reflect the necessity of further research in this direction.

Key words: optimal control, global extremum, nonlinear stochastic system, incomplete feedback, memetic algorithms, satellite stabilization.

REFERENCES

1. Panteleev A.V., Rudenko E.A., Bortakovskii A.S. Nelineinye sistemy upravleniya: opisa-nie, analiz i sintez [Nonlinear Control Systems: Description, Analysis and Synthesis]. M.: Vuzovskaya kniga Publ., 2008. (in Russian)

2. Panteleev A.V., Semenov V.V. Sintez optimalnykh sistem upravleniia pri nepolnoi in-formatcii [Synthesis of Optimal Systems of Control under Incomplete Informational Conditions]. M.: MAI Publ., 1992. (in Russian)

3. Panteleev A.V. Variatsionnoe ischislenie v primerakh i zadachakh [Variation computation in Examples and Tasks]. M: Vysshaya shkola Publ., 2006. (in Russian)

4. Kushner H.J., Dupuis P.G. Numerical Methods for Stochastic Control Problems in Continuous Time. New York: Springer, 2001.

5. Bertsekas D.P. Dynamic Programming and Optimal Control - Cambridge: Athena Scientific, 2013.

6. Fleming W., Rishel R. Optimalnoe upravlenie determinirovannymi i stokhasticheskimi sistemami [Optimal Control of Deterministic and Stochastic Systems]. M.: Mir Publ., 1978. (in Russian)

7. Panteleev A.V., Rybakov K.A. Metody i algoritmy sinteza optimal'nykh stokhasticheskikh sistem upravleniya pri nepolnoi informatsii [Methods and Algorithms of Synthesis for Optimal Stochastic Systems of Control under Incomplete Informational Conditions]. M: MAI Publ., 2010. (in Russian)

СМ! Aviation High Technologies

Vol. 21, No. 02, 2018

8. Moscato P. On Evolution, Search, Optimization, Genetic Algorithms and Martial Arts: Towards Memetic Algorithms // Caltech Concurrent Computation Program (report 826), 1989.

9. Panteleev A.V., Pis'mennaya V.A. Primenenie memeticheskogo algoritma v zadache opti-malnogo upravleniya puchkami traektoriy nelineynyh determinirovannyh sistem s nepolnoy obratnoy svyazyu [Application of a Memetic Algorithm for the Optimal Control of Bunches of Trajectories of Nonlinear Deterministic Systems with Incomplete Feedback]. Izvestiya RAN. Teoriya i sistemy upravleniya [Bulletin of the Russian Academy of Sciences. Journal of Computer and Systems Sciences International], 2018, No 1, pp. 1-12. (in Russian)

10. Panteleev A.V., Metlitskaya D.V., Aleshina E.A. Metody globalnoi optimizatcii. Metae-vristicheskie strategii i algoritmy [Methods of Global Optimization. Metaheuristic Strategies and Algorithms.] Moscow: Vuzovskaia Kniga Publ., 2013. (in Russian)

11. Krylov I.A. Chislennoye resheniye zadachi ob optimalnoy stabilizatsii sputnika [Numerical solution of Satellite Optimal Stabilization Problem]. Vychislitelnaia matematika i matematicheskaia fizika [Computational Mathematics and Mathematical Physics], 1968, No. 8 (1), pp. 284-291. (in Russian)

INFORMATION ABOUT THE AUTHORS

Andrei V. Panteleev, Doctor of Physical and Mathematical Sciences, Professor, Head of Mathematics and Cybernetics Department, Moscow Aviation Institute (National Research University), [email protected].

Valentin N. Panovskiy, Assistant of Professor, Mathematics and Cybernetics Department, Moscow Aviation Institute (National Research University), [email protected].

Поступила в редакцию 15.10.2017 Received 15.10.2017

Принята в печать 14.03.2018 Accepted for publication 14.03.2018

Application of hybrid memetic algorithm in optimal control nonlinear stochastic Systems with Incomplete feedback Problems Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Пантелеев Андрей Владимирович, Пановский Валентин Николаевич

Похожие темы научных работ по математике , автор научной работы — Пантелеев Андрей Владимирович, Пановский Валентин Николаевич

ПРИМЕНЕНИЕ ГИБРИДНОГО МЕМЕТИЧЕСКОГО АЛГОРИТМА В ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ НЕЛИНЕЙНЫМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ С НЕПОЛНОЙ ОБРАТНОЙ СВЯЗЬЮ

Текст научной работы на тему «Application of hybrid memetic algorithm in optimal control nonlinear stochastic Systems with Incomplete feedback Problems»