Квазилинеаризация и достаточные условия оптимальности

Мухопад Юрий Федорович; Сизых Виктор Николаевич

КВАЗИЛИНЕАРИЗАЦИЯ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ

Ю. Ф. Мухопад, В. Н. Сизых

Иркутский государственный университет путей сообщения, 664074, Иркутск, Россия

УДК 519.362.50

Изложен новый подход к аналитическому конструированию линейных и нелинейных интегрированных систем автоматического управления реального (ускоренного) масштаба времени, основанный на совместном использовании технологий динамического программирования и метода квазилинеаризации. Для непрерывных динамических систем приведены основы теории нелинейного синтеза в вырожденной (синергетической) формулировке.

Ключевые слова: непрерывная динамическая система, приближенно-оптимальное управление, квазилинеаризация, динамическое программирование.

On based of dynamic programming and quasi linearization both a new approach for analytical design of linear and non- linear on real (prediction) time control systems is proposed. For unceasing dynamic objects the bases of non-linear syntheses theory in singular statement are considered.

Key words: unceasing dynamic object, approximate-optimum control, quasi linearization, dynamic programming.

Введение. Управление — создание в каждый текущий момент времени целенаправленных воздействий на объект управления в зависимости от доступной информации о поведении объекта и действующих на него возмущениях. В теории управления рассматриваются три принципа управления: 1) по разомкнутому контуру; 2) по замкнутому контуру; 3) в реальном (ускоренном) времени. При использовании первого принципа до начала процесса управления по априорной информации строится программа (программное управление), которая в процессе управления не корректируется. При втором принципе управления текущие управляющие воздействия (позиционные управления) создаются по заранее (до начала процесса управления) составленным правилам, определенным на основе различной информации о поведении объекта и действующих на него возмущениях в процессе управления. Эти правила реализуются в форме прямых, обратных и комбинированных связей. При использовании третьего принципа управления перечисленные связи заранее не создаются, их текущие (возможно, и будущие) значения вычисляются в реальном (ускоренном) масштабе времени в процессе функционирования объекта.

Подход к проблеме синтеза обыкновенных динамических систем, основанный на принципе оптимального управления (ОУ) в реальном (ускоренном) времени, предложен в начале 70-х гг. В. С. Шендриком (по инициативе Б. Н. Петрова) и развит А. А. Красовским и его учениками [1]. Наибольший вклад в развитие данного направления теории ОУ внес В. Н. Буков [2]. В начале 90-х гг. принцип управления в реальном времени был "переоткрыт" Р. Га-басовым и Ф. М. Кирилловой и успешно развивается белорусской школой математиков [3].

Известно, что на традиционные алгоритмы последовательных улучшений накладываются достаточно жесткие условия по сходимости и выбору начальных приближений. С использованием только достаточных условий оптимальности или теории квазилинеаризации простых и надежных (гарантирующих поточечную сходимость) методов, как отмечалось еще Р. Беллманом [4], создать не удалось. Для преодоления этих трудностей в настоящей работе развивается многометодная технология, основанная на сочетании метода квазилинеаризации с достаточными условиями оптимальности Беллмана — Кротова. Предлагается применить квазилинеаризацию для локальной оптимизации в окрестности точек стационарности, а достаточные условия оптимальности — для интервальной оптимизации. В основе предлагаемой двухметодной технологии лежит следующая идея: за счет интервальной оптимизации осуществлять грубый поиск начального приближения по достаточным условиям, а затем итерационным путем уточнять полученное приближение по условиям локальной оптимальности (стационарности или в форме принципа минимума).

Для организации минимизирующих последовательностей слабой, сильной и абсолютной минималей формулируется вспомогательная (вырожденная по формулировке) задача приближенно-оптимального синтеза, в которой вырожденность заложена в саму постановку проблемы управления и проявляется особым образом: исходная (невырожденная) задача синтеза доопределяется до сингулярной с целью включения предельных функций состояния и (или) управления в множество допустимых функций, так чтобы преобразованная задача содержала оптимальное решение. Если в традиционных постановках вырожденных задач управления сингулярная кривая подлежит определению, то в преобразованной задаче она известна: ею является оптимальная траектория исходной задачи.

Таким образом, в отличие от известных подходов к решению задачи приближенно-оптимального синтеза регуляторов, когда в методе решения используется имеющаяся неоднозначность в выборе производящих функций со свойствами функции Ляпунова, в данном случае имеет место другое продолжение теории достаточных условий. Путем фазовой линеаризации уравнений динамической системы и интегранта функционала исходной задачи нелинейного синтеза относительно заранее неизвестных, но определяемых в процессе функционирования объекта постоянных на малых интервалах времени оптимальных значений вектор-функций управления и (или) состояния (квазилинеаризации) и через формирование градиентной стратегии ньютоновского типа по вариациям управлений и (или) траекторий на тех же интервалах последовательно определяются и уточняются точки стационарности искомой минимали. С целью фиксации предельных элементов минимизирующих последовательностей поиска оптимального решения по условиям стационарности предлагается использовать функционал обобщенной работы А. А. Красовского.

Разработаны эффективные методы совмещенного синтеза и процедуры решения двухточечной краевой задачи по схемам динамического программирования, обеспечивающие по-интервальную монотонно убывающую (релаксационную) сходимость процессов управления по необходимым условиям локальной оптимальности. Сформулированы основные теоремы и приводятся различные варианты алгоритмической реализации методов. Необходимость в такой разработке обусловлена фактическим отсутствием надежных методов нелинейного синтеза цифровых регуляторов, гарантирующих высокую точность и устойчивость решения при приемлемых вычислительных затратах.

Наиболее важным представляется тот факт, что, по-видимому, впервые задача нелинейного синтеза формулируется в вырожденной (синергетической) постановке, необходимой для исследования диссипативных (открытых, самоорганизующихся) систем.

1. Постановка задачи приближенно-оптимального синтеза управлений. Под

оптимизацией непрерывных процессов управления будем понимать решение задачи выбора на отрезке времени Т = [¿о ,Ьк] позиционного управления

и (или) состояния

для динамической системы

и = и(Ьо, х(Ьо),Ь,х(Ь)) (1)

х = х(*о, х(*о), Ь, и(Ь)) (2)

х = f (Ь, х, и), (3)

так чтобы на траектории движения объекта х(Ь), удовлетворяющей заданным ограничениям на множествах начального и конечного состояний

ц(1о, х(Ьо),Ьк, х(Ьк)) = 0, М е Яр, (4)

функционал

¿к

I = К(*о, х(Ьо),Ьк, х(*к)) + У /о(Ь, х(ь), и(г))сИ, I е Я1 (5)

¿о

достигал минимума (максимума) или наименьшей (наибольшей) точной грани (инфимума или супремума). Здесь ^, /л,Уз, /о — заданные кусочно-непрерывные по Ь и непрерывные и достаточно гладкие по х, и (дифференцируемые или кусочно-дифференцируемые) векторные и скалярные функции указанных аргументов.

В дальнейшем будем рассматривать менее общую постановку задачи оптимизации — постановку задачи нелинейного синтеза ОУ, для которой условие (3) без потери общности может учитываться в конструкции модифицированного лагранжиана, а скалярная функция ^(х(Ьк)) = Уз(Ьк, х(Ьк)) определяет граничные условия только на правом конце траектории (терминальное множество). Граничные условия на левом конце траектории х(Ьо) = хо е Яп выбираются произвольными. Конечные ограничения на граничные условия и значения управляющих функций и траектории процесса (3) будем записывать в виде

(х(ь), и(ь)) е Г(¿), (6)

где Г (¿) С Ох х Си, Ох = X, Си = и — декартово произведение множеств топологической степени п + т, зависящее от времени ¿.

Множество пар вектор-функций {х(Ь), и(Ь)}, удовлетворяющих дифференциальной связи (3) и конечным ограничениям (6), называется множеством допустимых О. Предполагается, что О = 0.

Пару функций {хоп(Ь), иоп(Ь)} е О будем называть оптимальным процессом (минима-лью) для I на О, если

I(xon (t), uon(t)) = d. (7)

Здесь d = inf I(x(t), u(t)) — нижняя точная грань функционала (5).

Функционал (7) в общей теории экстремальных задач называется опорным функционалом (опорой) [5].

Последовательность {xs(t),us(t)} Е D, на которой

I(xs ,Us ) -> d,

s

является минимизирующей для функционала I на множестве О.

2. Квазилинеаризация и достаточные условия абсолютного минимума. Достаточные условия абсолютного минимума задачи (1)-(6) формулируются в теореме о минима-ли [6].

2.1. Теорема Кротова. Введем непрерывную и достаточно гладкую (дифференцируемую или кусочно-дифференцируемую) функцию (р(г, х) Е Ф и рассмотрим следующие конструкции:

ПИ, х, и) = М + ^£& х, и) + /о& х, и),

Ф(х(*о), х(^к)) = К(х(^)) - фк, х(^к)) + фо, х(10)).

Теорема 1. Для того чтобы пара (хоп, иоп) Е О была минималью в задаче (1)—(6), достаточно существования такой гладкой функции х); чтобы выполнялись условия

и(г) = я(г,хоп, иоп) = т£ я(г,х, и) V г е [¿о,¿к]; (8)

(х,и)е^ (г)

Ф(хоп(го), хоп(¿к))= ^ Ф(х(го), х(1к)), (9)

х(го )е^х(4о) х(4к)е^х(*к)

где включение х(г) Е Гх(г) определяет ограничение на значения вектора состояния системы (1), Гх(г) — проекция множества Г(¿) на пространство X.

Данные условия с незначительными оговорками распространяются на случай отсутствия явного решения уравнения (3), т. е. на случай поиска минимизирующей последовательности

Я(г,х8,п8) ^ т£ Я(г, х, и), (х,и)е^(г)

Ф(х8(го),х8(гк)) ^ т£ Ф(х(го), х(*к)).

8 ^^о х(го)еРх(го) х(4к)е^х(*к)

При доказательстве теоремы 1 часть ограничений, налагаемых на условия задачи (1)-(6), снимается вследствие неучета дифференциальной связи (3), т. е. вследствие перехода к так называемой тривиальной задаче [7] на расширенном множестве Е = Г(¿) 3 О.

Пусть решение (хоп, иоп) содержится в тривиальной задаче (1)-(6). Покажем, что в данной задаче функционал I равен некоторому функционалу Ь: I(х(-), и(-)) = Ь(х(-), и(-),^) при произвольно выбираемой функции (р(г, х), где

ÍK

L(x(-), и(-),^) = Ф(х(*о), x(tK)) + ^ E(t, x(t), u(t))dt. (10)

to

Для этого используем в функционале (10) конструкции (8), (9). Тогда L(x(-), u(-),p) = V3(x(tK)) - p(tK, x(tK)) + tp(to, x(to)) +

tK

4 {^dT + ^f{t' x, u) + fo(t, x, u)) dt. (11)

to

Если оптимальное решение одновременно является минималью (xon, uon) G D исходной задачи (1)-(6), то выполняется дифференциальная связь (3) и справедливо правило дифференцирования функции ip(t, x) как сложной функции:

+ f (t x, u) + fo(t, x, u) = ^ + fo(t, x, u).

dt dx dt

В этом случае формула (11) записывается в виде

L(x(-), u(-),p) = V3(x(u)) - фк, x(Ík)) + фо, x(to)) +

t

+] +х'и)) ** =1 (х0, и(')}'

¿0

что и требовалось доказать.

Оценка снизу функционала Ь(х(-), и(-),р) определяется по формуле

¿к

%0= Ц, ,Ф(х(и),х(*к))+ / ш£ я(г,х(г), и(г))м, (12)

х(4к)е^х(4к) ¿0

из которой следует, что условия (8), (9) теоремы 1 будут выполнены, если задать такую скалярную функцию р(Ь, х), что

1(р) = Ь(х(-), и(-),р) = Ы I(х(•), и(-)).

(х,и)е^(4) (х,и)ес

Имеющийся произвол в задании функции р(Ь, х) позволяет учесть специфику конкретной задачи и определяет метод ее решения. Связь с другими методами оптимизации рассмотрена в работах [6-8]. При этом функцию р(Ь, х) можно выбрать таким образом, что аналогов среди известных методов не будет [9]. Однако такая общность допускает множество частных рекомендаций и методик, доступных, как правило, только опытным разработчикам. Конкретные примеры и результаты применения теоремы 1 приведены в [5, 6, 10].

Замечание 1. В основополагающих работах В. Ф. Кротова [7] рассматривались конструкции, в которых в формуле (8) вместо операции т£ использовалась операция вир и в качестве функции р принималась функция с обратным знаком. Однако для большинства специалистов в области прикладной теории управления, знакомых с методом динамического программирования, наиболее понятны условия теоремы 1.

Следуя разработанному Р. Беллманом подходу, в котором сочетаются условия поиска глобального (динамическое программирование) и локального (квазилинеаризация) минимумов, предлагается другое приложение достаточных условий абсолютного минимума (см. теорему 1), в случае непрерывных динамических систем приводящее к разработке конструкций алгоритмов с прогнозирующими моделями, две из которых не имеют известных аналогов.

2.2. Вывод основных соотношений. Будем учитывать в исходных конструкциях (8), (9) тейлоровское разложение функций ¥, /о в малой окрестности локальной минимали

(хо(£), и0(Ь)) = ( хоп (Ь) иоп(Ь Т)|т=1):

д¥ (Ь, х0, и) д¥ (Ь, х, и0) ¥(Ь, х, и) = ¥(Ь, х0, и0) +----8х +----би + 01(|бх, би|),

д х

ди

д/о(Ь, х0, и) д/0(Ь, х, и0) /о(Ь, х, и) = /о(Ь, х0, и0 ) +--^-бх +----би + 02 (| бх, би|),

(13)

дх

где

д¥(Ь, х0, и) / д¥(Ь, х, и)

дх дх

д¥(Ь, х, и0) / д¥(Ь, х, и)

д и

д/о(Ь, х0, и) (д/о(Ь, х, и)

д и

дх дх

д/о(Ь, х, и0) /д/о(Ь, х, и)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и=ио

ди

д и

и=ио

и применим теорему 1. С учетом (13) достаточные условия абсолютного минимума (8), (9) записываются в виде

1п£ (д^(Ь, х) + д^(Ь, х)

хе^х V дЬ

¥(Ь, х0, и0) + /о(Ь, х0, и0М + 1П д х / хе^х

др(Ь, х) д¥ + д/о

+ 1П

ие^

др(Ь, х) д¥ + д/о

1п£

дх ди ди

дУ3(х0(Ьк)) др(Ьк, х0(Ьк))

дх дх дх

би ) + о(|бх, би|) = ^(Ь);

бх +

д х(Ьк)

бх(Ьк) +---бх(Ьо)

д х(Ь0)

0.

(14)

(15)

Выражения в квадратных скобках в формуле (14) могут быть записаны через скалярную функцию: Н(Ь, х,рх, и) = (дф(Ь, х)/дх)¥ + /0. Тогда формулу (14) можно представить в виде

1п£ /д^х + д^(Ь, х)

хе^х \ дЬ

дх

¥ (Ь, х0, и0

ч . , (, Л . • г ( дH(Ь, Х0,Px, и) . \ .

) + /о(Ь, х0, и0М + 1пМ ---бх +

/ хе^х \ дх )

+ т£ ^ и0) би ) + о(|бх, би|) = ^(Ь).

ие^

д и

(16)

Замечание 2. При доказательстве принципа минимума используются вариации управления на множестве малой меры, которые приводят к малым (в классическом смысле) вариациям траектории. Нетрудно показать, что выражение (14) также имеет вариационный смысл. Учитывая, что

х=хо

х- д 1 х , хг д/°я , д/ол

дх= — дх + — ди, / = — дх + — ди,

дх ди дх ди

в результате получаем

1пг (+ дрдхх1Г(<■ хо, ио) + /о«. хо, и,,)) +

хе^х \ дЬ дх )

х

+ 1п£ х) ¿х + / + о(\дх, ди|) = ¡1(1).

(х,и)еР(г) \ дх )

Если считать остатки разложений функций Г ,/0 незначимыми функциями времени (о (\дх, ди\) = ¡(¿)), то соотношение (16) будет характеризовать четыре различные ситуации, каждой из которых соответствуют свои конструкции алгоритмов оптимального управления.

Первая ситуация типична при решении задач ОУ на основе принципа минимума, который постулирует сам факт существования экстремали Понтрягина: х = х0(Ь), иоп(Ь,Ь) = и0(Ь), рх = фт(Ь). Тогда при фиксированных начальных условиях (дх(Ь0) = 0) из (16) можно формально вывести уравнение сопряженной системы (уравнение импульсов), а из формулы (15) определить условия его трансверсальности.

Вторая ситуация имеет место при решении задач синтеза ОУ методом дифференциального динамического программирования (ДП) [11], когда об оптимальности траектории х = х0(Ь) можно косвенно судить по условиям оптимальности отдельных ее участков (интервалов [Ь, ]) при ненулевой вариации управления (ди = 0) на этих участках. Такой способ вычислений не связан с непосредственным варьированием управления и траектории и, как следует из формулы (16), сводится к поиску минимизирующей последовательности (к организации процедуры слабого локального улучшения) иоп(Ь,т) ^ иоп(Ь,Ь) = и0(Ь),

т —г

где локально-оптимальное управление и0(Ь) определяется по условию стационарности. При х = х0(Ь) функция Кротова р(Ь, х) одновременно является функцией Беллмана Б(Ь, х)

(Бх = Г(Ь)).

Третья ситуация соответствует случаю х = х0(Ь), иоп(Ь,Ь) = и0(Ь) и допускает тип приближения, называемый приближением в пространстве политик [4], который отсутствует в классическом анализе. Согласно (14), (16) политика (процедура сильного локального улучшения) х(т) ^ х0(Ь) формируется в соответствии с условием

т —г

1п£ хеРх

(др(г, х) 5£ + / )дх

ш£ (дН(', х°,рх, ио) 6х\ = 0,

хеРх \ дх

\ дх дх дх

из которого в силу стационарности точек х0 (¿) (функция Н не зависит от х) при малой ненулевой вариации траектории дх следует тождество

дН(Ь, хо,Рх, ио) _ о дх

и определяется вектор х0. За счет организации процедуры улучшения х(т) ^ х0(Ь) обес-

т—г

печивается приближенное вычисление функции Беллмана Б(Ь, х0) через функцию Кротова р(Ь, х), которая в данном случае может быть выбрана произвольной, т. е. фактически является функцией Ляпунова.

Четвертая ситуация формально подобна классической постановке решения вариационных задач, так как в ней за счет квазилинеаризации предполагается использовать ненулевые вариации траектории и управления: х = х0(Ь), и = и0(Ь). В данном случае с использованием соотношений

dH(t, uo) _о dH(t, xq,^x, u) _о

д u ' dx

организуются итерационные процедуры улучшения uon(t,r) ^ uon(t,t) = u0(t), х(т) ^

T ^t T^t

x0(t), обеспечивающие выполнение необходимого условия абсолютного локального минимума функционала (5): при öx ^ 0, öu ^ 0 ожидается сходимость

öx = —— öx + —— öu ^ 0, öfo = öx + df— öu ^ 0. dx du —x д u

2.3. Необходимые и достаточные условия слабой, сильной и абсолютной локальной ми-нимали. Сформулируем ряд теоретических положений о слабой, сильной и абсолютной ми-нимали, которые следуют из теоремы 1 и результатов анализа формул (15), (16).

Теорема 2 (необходимые и достаточные условия локальной оптимальности в форме принципа минимума1). Если в задаче (1)-(6) существует локальная минималь (x0, u0), то в каждой точке стационарности выполняются следующие условия:

1) dH(t, xp, ф)=0,д—Щ^ = фТ(();

dt dx

2) V3(xo(tK)) = p(tK, xo(tx)) - ^(to, xo(to));

3) H(t, x0, ф) = H(t, x0, ф, u0) = inf H(t, x0, ф, u).

u€U

Условиям 1, 2 соответствует канонически сопряженная система уравнений, формирующая двухточечную краевую задачу

• dH^ Xo, ф) f (t ) (t ) 0

cxo =-—-= f (t, xo, uo), xo(to) = x ,

д ф

. —H(t, xo, ф) дfт(t, xo, uoK —fT(t, xo, uo) дVз(xo(tк))

ф =-—x-=--—x-ф--—x-, ф (tK) = —x(^) • (17)

Из условия 3 определяется вектор управления uo(t) = uon(t,t) = arg min H(t, xo, ф, u), в

uEU

локальном смысле доставляющий минимум функционалу (4):

tx

I* = V3(xo(tK))+/ fo(t, xo(t), uo(t))dt, I* = inf I(x, u).

J (x,u)ED

to

Таким образом, в рассмотренной выше первой ситуации локальная минималь (оптимальная программа) и опорный функционал I* вычисляются путем решения двухточечной краевой задачи (17).

Отметим, что утверждение теоремы 2 о том, что пара (xo, uo) — локальная минималь в задаче (1)-(6), несколько эвристично, поскольку факт ее существования не доказан [6. С. 2426]. Этот факт устанавливается путем такой переформулировки исходной задачи ОУ, при которой имеется возможность организации процедур поиска минимизирующих последовательностей, монотонно сходящихся по u и (или) по x к локальной минимали.

1 Условия теоремы 2 соответствуют традиционной схеме ДП и определяют решение не одной задачи оптимального управления, а семейства таких задач.

Теорема 3 (необходимые и достаточные условия слабой локальной минимали). Для того чтобы пара (х0, и0) была слабой локальной минималью задачи (1)-(6), необходимо и достаточно выполнения следующих условий:

дР(t, х0) дР(t, Х^-,. . , . .. . п дР(t, х0) дБ(t, хо) /т... 1) ----1--^-Г(Ь, хо, ио) + /о(Ь, хо, ио) = 0, ---=---= фт(Ь);

dt

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

д x

2) V3(xo(tx)) = p(tK, Xo(tx)) - p(to, xo(to)); dH(t, x0, ф, u0)

3) ---= 0 при u G int U или U = Rm и ненулевой допустимой вариации уп-

ди

равления ¿и.

Замечание 3. По-видимому, на границах множества U следующее из (16) равенство

f дн(Ъ, х,^, Uo) \ = о ueu \ дu J

преобразуется в соотношение 1п£ (Н(¿, хо, ф, и)е£(¿)) = 0, где е — малое число; £(¿) — непрерывная кусочно-гладкая на множестве малой меры функция. Тогда условие 3 теоремы 3 можно заменить на условие 1п£ Н(Ь, хо, ф, и) = 0.

Теорема 3 соответствует случаю решения задачи локально-оптимального синтеза ОУ по схеме дифференциального ДП [11]. При этом локальное улучшение управления осуществляется путем квазилинеаризации дифференциальной связи (3) и интегранта функционала качества (4) в окрестности ио(Ь):

дf

x = f (t, xo, Uo) + ~ ¿u;

д u

I(u(-)) = K(xo(tK))+ / [fo(t, xo(t), uo(t)) + ^°

to

f Äu^l

д u 1

dt = h + ^

to

f Äu^l

д u 1

dt.

(18) (19)

Из формул (18), (19) следует, что при соответствующим образом организованной процедуре приближений иоп(Ь,т) ^ иоп(Ь,Ь) = ио(Ь) значения функционала (18) приближаются

т—г

к нижней точной грани I* функционала исходной задачи (1)-(6).

Теорема 4 (необходимые и достаточные условия сильной локальной минимали). Для того чтобы пара (хо, ио) была сильной локальной минималью задачи (1)-(6), необходимо и достаточно выполнения следующих условий:

/др(^ др(г, х) \ др(г, х) ти\

1) хПД т + дх Г(Ь,хо,ио) + /о(Ь,хо,ион =0, дх = рт(ь);

2) inf x(to) eFx (to)

x(tK)eFx(tK)

'c>V3(xo(tK)) fy^ xo(tK))A „ / s , дP(t0, xo(to)) „ u .

---äx(iX) J ¿x(tK) + дx(to) ¿x(to)

дН^, xo, p, uo)

3) --- = 0 при X = Rn и ненулевой допустимой вариации траекто-

рии ¿x.

дx

t

к

Замечание 4. По-видимому, на границах множества X следующее из (16) равенство

= 0

inf (9H(t> ^ u°) öx

xeFx

d x

преобразуется в соотношение т£ (Н(¿, х0, р, и)е£(¿)) = 0, где е — малое число; ((¿) — непре-

хе^х

рывная кусочно-гладкая на множестве малой меры функция. Тогда условие 3 теоремы 4 можно заменить условием т£ Н(¿, х0, р, и) = 0.

хе^х

Теорема 4 определяет случай решения задачи локально-оптимального синтеза по приближению в пространстве политик (дискретный аналог — метод "блуждающей трубки" [4]). При этом локальное улучшение траектории осуществляется путем квазилинеаризации дифференциальной связи (3) и подынтегрального выражения в функционале качества (4) в окрестности х0(£):

df

xx = f (t, xo, uo) + Sx;

д x

(20)

I (x(-)) = ^3(xo(tK)) + I ( fo(t, xo (t), uo(t)) + df0 Sx) dt = I* +

to

dx 1

to

df0Sx) dt. (21) dx '

Из результатов анализа формул (20), (21) следует, что при соответствующей организации процедуры приближений х(т) ^ х0(£) предельное значение функционала (21) равно нижней

т ^Ь

точной грани I* критерия качества исходной задачи (1)-(6).

Теорема 5 (необходимые и достаточные условия абсолютной локальной минимали). Для того чтобы пара (х0, и0) была абсолютной локальной минималью задачи (1)-(6), необходимо и достаточно выполнения следующих условий:

д^>(Ь, х) д^>(Ь, х)

1) inf

xeFx

dt

+

д x

-f (t, xo, uo) + fo(t, xo, uo)

dp(t, x) 0, ^^ = PT(t);

2) inf

x(to)eFx(to) x(tK)eFx(tK)

dV3(xo(tK)) dp(tK, xo(tj)\

d x(tK)

dx(tK) )

Sx(tK)

dx

dp(to, xo(to)) dx(to)

Sx(to)

0;

dH(t, xo, p, u)

3) ---= 0 при X = Rn и ненулевой допустимой вариации траектории Sx;

dx

dH(t, x, p, uo)

4) --- = 0 при u E int U или U = Rm и ненулевой допустимой вариации уп-

du

равления Su.

Для условий 3, 4 теоремы 5 остаются справедливыми замечания 3, 4. Теорема 5 формально характеризует случай решения оптимизационных задач по классической схеме вариационного исчисления. Однако в данном случае минималь определяется путем улучшения траектории и управления за счет квазилинеаризации дифференциальной связи (3) и интегранта функционала (4) в окрестности xo(t), uo(t) на малых интервалах оптимизации At, т. е. в реальном времени:

t

K

^ Ж* ^ *

1 (г, Хо, ио) + — дх + — ди;

дх ди

(22)

I (х(-), и(-)) = Уз(хо(*к)) + / (¡о(г, хо(г), ио(г)) + дх + §и ди) аг

¿0

Ьк

^ + /(^& + д!0* (23)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

¿0

Из формул (22), (23) следует, что при х(т) ^ х0(г), иоп(г,т) ^ иоп(г, г) = и0(г) выполнять« тьЬ

ются условия I(х(-), и(-)) ^ I*, дх ^ 0.

Условие |хх(г) — х0(г)| < е соответствует необходимому условию существования абсолютной локальной минимали.

3. Формализм доопределения конструкции исходного критерия до неклассического функционала качества. Теоремам 2-5 с формально-математических позиций соответствует принцип эквивалентности допустимой и локальной минималей.

Утверждение. Для того чтобы допустимый оптимальный процесс являлся локальной минималью, необходимо доопределить функционал (4) таким образом, чтобы:

1) при х(г) = х0(г), иоп(г, г) = и0(г) множество оптимальных в локальном смысле управлений и траекторий Е = Е(г) совпадало с множеством допустимых оптимального процесса Б = В (Е П Б = В);

2) для оптимального в локальном смысле процесса и для допустимого оптимального процесса на расширенном множестве Е = Е (г) имелась возможность организации поиска минимизирующих последовательностей х(т) ^ х0(г) и (или) иоп(г,т) ^ иоп(г,г) = и0(г) к

тьЬ т ьЬ

Б = В (Е Э Б).

При выполнении п. 1 утверждения выполняются условия стационарности по переменным и и х (см. теорему 2); при выполнении п. 2 — условия их вырожденности по и и (или) х (см. теоремы 3-5).

Условиям 1, 2 сформулированного выше принципа эквивалентности допустимой и локальной минималей соответствует доопределение опорного функционала I* = т£ I до функционала исходной задачи (4) (см. (19), (21), (23)).

Обозначим Ь(х, и) = I(х, и). Тогда предположение об оптимальности одного из элементов множества Б (переменной и или х) позволяет локализовать процесс вычислений по схемам динамического программирования: по схеме дифференциального ДП (см. теорему 3) или по приближению в пространстве политик (см. теорему 4) через соответствующие приведенному выше утверждению конструкции функционалов:

1(х0, и) = 5(х0) + Л(и, и0), Л(и, и0) > 0, Ь(х, и0) = 5(и0) + Л(х, х0), Л(х, х0) > 0.

Здесь 5(х0) = т£ I(х0, и), 5(и0) = т£ I(х, и0) — функции Беллмана в процедурах реше-иеи хе^х

ния прямой и обратной задач синтеза управлений,

ЬК ЬК

(1* Мъ х„) = / @А —

Ьо Ьо

функционалы расстояний между элементами множества допустимых; Б(ио) = Б(х0) = I*. Схема решения задачи приближенного синтеза ОУ с использованием функционального уравнения Б(х0) = т£ I(х0, и) соответствует методу слабого улучшения: за счет близости допу-иеи

стимого управления и = иоп(£,т) к локально-оптимальному управлению ио(£) = иоп(£,£) обеспечивается выполнение условия х ^ хо и косвенно условия х ^ х0. Другая частная схема решения задачи синтеза с использованием функционального уравнения Б (и0) = т£ I (х, и0) отражает суть метода сильного улучшения — обеспечение сходимости итераци-

хе^х

онных процедур по единственному условию х(£) ^ хо(£).

Общей схеме решения задачи приближенно-оптимального синтеза (см. теорему 5) соответствует доопределение опорного функционала до функционала следующей конструкции:

Ь(х, и) = I(хо, ио) + ^(и, ио) + ^(х, хо), ^(и, ио) > 0, .12(х, хо) > 0.

Здесь I(хо, ио) = т£ I(х, и) = I*. Аналог схемы решения вариационных задач характе-(х,и)ео

ризуется функциональным уравнением I(хо, ио) = т£ I(х, и) и реализуется с помощью

(х,и) еэ

метода определения абсолютного минимума функционала (4): за счет организации минимизирующих последовательностей х(т) ^ хо(£), иоп(£,т) ^ иоп(£,£) = ио(£) обеспечивается

т ^Ь т ^Ь

выполнение условия |х(£) — хх0(¿) | < е.

Ответ на вопрос о существовании опорного функционала I* и единственности решения определяющих его характеристик задачи Коши (17), а также исходной задачи синтеза (1)-(6) неоднозначен, что обусловлено влиянием ряда факторов [12]:

1. В заданном классе допустимых управлений не всегда существует такое управление, при котором достигается инфимум в (5).

2. Функция Ляпунова — Кротова не всегда обладает той гладкостью, которая предполагалась при выводе достаточных условий абсолютного минимума (см. теорему 1). Иными словами, производящая функция не всегда удовлетворяет достаточным условиям оптимальности Беллмана — Кротова или удовлетворяет им в некотором обобщенном смысле. Следовательно, решение, получаемое по условиям (8), (9), не всегда совпадает с соответствующей функцией Ляпунова — Кротова.

3. Если производящая функция удовлетворяет условиям (8), (9), то это не означает, что управление, при котором достигаются данные условия, является оптимальным. В частности, при таком управлении может вообще не существовать решения уравнения (3).

4. Решение задачи Коши (8), (9) может оказаться не единственным (магистральным). Поэтому требуется проводить дополнительное исследование, позволяющее установить, какое из этих решений удовлетворяет исходной задаче синтеза. Даже в линейно-квадратичной задаче (ЛК-задаче) число таких решений равно 2п, где п — размерность вектора состояния системы (3).

Если факторы 1-3 принципиально устранимы за счет расширения множества допустимых, уточнения выбора производящей функции и организации итерационных процедур поиска решения системы (3), то фактор 4 в рамках классических формулировок задач синтеза

Л(и, ио)

ограничивает применение теории (за исключением частных случаев) исследованием объектов размерностью не выше трех-четырех, для которых еще известно аналитическое решение в радикалах.

4. Итерационно-релаксационный метод как способ решения двухточечных краевых задач для непрерывных динамических систем. Следующий конструктивный шаг к практической реализации рассмотренных выше схем решения задачи (1)-(6) состоит в определении стратегии приближенного синтеза оптимальных в локальном смысле управлений и (или) траекторий через релаксационное расширение пространства состояний.

4.1. Релаксационное расширение пространства состояний. Исследовния показали целесообразность использования релаксационного расширения при исследовании свойств предельных элементов минимизирующих последовательностей поиска управлений и (или) траекторий, которые определяют исходную постановку задачи синтеза для дифференциальной системы (3).

В основу процедуры поиска предельных элементов положены [13]:

1) идея квазилинеаризации — фазовой линеаризации процесса (3) и интегранта функционала (5) относительно оптимальных (определяемых в процессе функционирования объекта) и постоянных на конечном числе малых длин оптимизации Дг параметров и0 = и* и (или) х0 = х* по формулам (18)-(23);

2) предположение о допустимости выбора управлений и (или) траекторий, незначительно отличающихся от оптимальных на конечном числе длин Дг, что позволяет организовать приближенную стратегию синтеза по схеме дифференциального ДП на паре (и, и0):

а ди

—— = Я, ди = и — и0, (24)

аг

по схеме приближений в пространстве политик на паре (х, х0):

а01х = П, дх = х — х0, (25)

по аналогу вариационной схемы (г = (х, и)) на паре (г, г0):

ади Л адх . .

—Г" = Я, —Т~ = П, (26)

аг аг у }

где Я — "новый" т-вектор управления; п — "новый" и-вектор состояния.

Если длины оптимизации Дг малы, то производные в (24)-(26) с достаточной степенью точности описываются соотношениями

и(г) = и0(г) + ядг, х(г) = х0(г) + пДг,

которые могут быть реализованы в виде итерационной процедуры ньютоновского типа для определения локальной минимали: при Я ^ 0, п ^ 0 в каждой точке стационарности обеспечивается выполнение условий и(г) ^ и0(г), х(г) ^ х0(г). Поэтому выбор градиентных стратегий типа (24)-(26) естествен и соответствует идеологии квазилинеаризации и идее нелинейного синтеза в процессе функционирования объекта (3) (совмещенного синтеза) на малых длинах Дг. Таким образом, и сама задача синтеза представляется в линеаризованном виде: множество всех точек х(гк) терминального члена функционала (5) становится близким к выпуклому [14].

Отметим, что при квазилинеаризации дифференциальной связи (3) по формуле (22) для аналога схемы вариационного исчисления между вариациями траектории Sx и управления Su существует взаимооднозначная связь.

Приращение вариации траектории системы (3) на малых длинах оптимизации At равно

lim А^— = Sx, Sx = x — xn. (27)

Ai^ü At

Очевидно, что отклонение траектории движения системы (3) на длинах At от неварьи-руемой величины x0 может быть вызвано вариацией управления на тех же длинах

ASx (dx

lim

A5u^o ASu V du

Поэтому в силу (27) и (28) можно считать, что

lim (lim ASu ASx ^ = (dx ^

Ai^ü ^ASu^ü At ASu/ \ß u J

(28)

u=uo

lim ASu = Zxöu , (29)

Ai^ü At

u=uo

где Zi = (dx/du)|u= — матрица размером n x m, определяемая по формуле

d ( ASx\ df (t, xo, u) ASx дf (t, x, uo)

— lim —— =-^- lim —--+

\A5u^ü ASu J

dt \Ади^о Ади/ дх Ади^о Ади ди

Последнее выражение является уравнением чувствительности вариаций траекторий к вариациям управлений в точках стационарности х = х0, и = и0:

= + /и- (30)

Тогда справедливо соотношение

дХ = ^ди,

которое следует из результатов сравнения формул (27), (29).

Таким образом, для аналога схемы вариационного исчисления градиентная процедура поиска локальной минимали определяется формулами

дХ = Zl'&, ди = $ , (31)

которые при малых длинах Аt могут быть представлены в виде

и^) = ио(0 + $Аt, x(t) = хо(0 + Zl$Аt.

4.2. Применение функционала обобщенной работы в задаче приближенно-оптимального синтеза регуляторов. Суть градиентных стратегий (24)-(26) или (31) — релаксационное расширение пространства состояний (3): у = (х, ди) для схемы дифференциального ДП, у = (х, дх) для схемы приближений в пространстве политик, у = (х, дх, ди) для аналога схемы вариационного исчисления. Поэтому требуется переформулировать исходную постановку задачи оптимизации (1)-(6) таким образом, чтобы имелась возможность зафиксировать предельные элементы минимизирующих последовательностей в точках стационарности х = х0, и = и0. Для этого предлагается применить функционал обобщенной работы

(ФОР) [1]

¿к

I (уО) = У + I [Яр(в, у) + Ьз1($) + Ьз1(^с) + Ы<п) + А^Ы] сШ, (32)

¿0

результат минимизации которого есть цена I* исходной задачи синтеза. Здесь Ьз1 (Я) = 0,5 Ятт-1Я, Ьз1 (Я0) = 0,5 Ят0т-1Я0, ^з2 (п) = 0,5 птр-1П, ^з2 (п0) = 0,5 п0Р-1П0 — некоторые квадратичные формы "новых" управлений и (или) состояний. Интегранты линеаризованного в окрестности векторов и0(г) и (или) х0(г) функционала (5) в ФОР (32) задаются в виде ЯЛ^, У) = ¡0^, Х0, и0) + (д/о/ди) ди для традиционной схемы ДП, Qp (г, у) = ¡0(г, Х0, и0) + (д/о/дх) дх для схемы приближений в пространстве политик, Яр (г, у) = /0(г, х0, и0) + (д/0/дх) дх + (д/0/ди) ди для аналога вариационной схемы. Переменные Я0, п0 на длинах Дг являются постоянными, неварьируемыми параметрами: Я0 = Я*, п0 = П*.

Задача получения оптимального решения линеаризованного на малых длинах оптимизации Дг процесса (3) формулируется следующим образом: организовать итерационные процедуры поиска слабой (см. теорему 3), сильной (см. теорему 4) и абсолютной (см. теорему 5) минималей, обеспечивающие инфимум ФОР (32) при дифференциальных связях (18), (20), (22).

Сформулированная задача приближенно-оптимального синтеза решается методом характеристических полос [1]. Основной результат формулируется в виде следующих теорем.

Теорема 6. Для процесса (3) оптимальное в смысле достижения локального минимума функционала (5) и ФОР

¿к

I (у(0) = Бз( У (¿к)) + у [Яр(0, у) + ыя) + мя0)] dв

¿0

управление определяется процедурой слабого улучшения иоп(£,т) ^ иоП(г,г) = и0(г), полу-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Т

чаемой из канонически сопряженной системы — дифференциальной связи (18) и уравнений

д/0 (г, хр, ир) д f Т(г, хр, и0) + д (дитр Ди) . =_ д/0Т(г, х0, и0) д fт(г, х0, и0)

' о о рх + п , Р^и г) <л ]

д х д х д х ди ди

а А/, с ч \ д/0(t, x0, и0) ^

Я = -траи, Б (г, х, ди) = - /0(г, х0, и0)--ди-ди,

где Б — функция Беллмана для задачи с расширенным вектором состояния; рх = д БТ/д х = фх(г) , р^и = дБт/(дди) = фзи(г) — котраектории состояния и вариаций управления.

Теорема 7. Для процесса (3) оптимальное в смысле достижения локального минимума функционала (5) и ФОР

¿к

I (уО) = Бз( У (¿к)) + / [Яр(0, у) + Ып) + ^Ы] dв

¿0

состояние определяется процедурой сильного улучшения х(г) ^ хоп(г) = х0(г), формирует

мой путем решения канонически сопряженной системы — дифференциальной связи (20) и уравнений

. дЦГ(г, х, ио) дfт(г, Хо, ио) 5(бхт]э¿х) . д/Т(г, хо, ио) дхо, ио)

]х —--^---^- Рх +--^-, ]Р¿х —--^---^-Рх,

дх дх дх дх дх

• и х \ ей \ хо' ио) 5

П — -р Р5х, <р(г, X, дх) — - /о(г, Хо, ио)--дХ-"X,

где р — функция Ляпунова — Кротова для задачи с расширенным вектором состояния; Рх — дрт/дх, р^и — дрт/(дди) — котраектории состояния и вариаций состояния.

Теорема 8. Для процесса (3) оптимальные в смысле достижения локального минимума функционала (5) и ФОР (32) управление и состояние определяются процедурой поиска

абсолютной локальной минимали иоП(г,т) — иоп(г,г) — ио(г),х(г) — хоп(г) — хо(г), форт т^Ь

мируемой путем решения канонически сопряженной системы — дифференциальной связи (22) и уравнений

д /о (г, хо, и) д Р(г, хо, и) + д (дхт]Р¿х) , д(дит]Р¿и)

рх + ^ +

дх дх дх дх

. — _ д/т(г, х, ио) д х, ио) ;

Р ¿и г) <л рх;

ди ди

дfT(t, x0, и) дfт(г, Xо, и) с

р¿х —--~---~-]х, п — -р]бх, & — -т]6и; (33)

дх дх

■{, X £ Л г и л /(г>хо,и) д/о(г, х ио) л

р(г, х, дх, ди) — - /о(г, хо, ио)----дх----ди,

дх ди

где р — функция Ляпунова — Кротова для задачи с расширенным вектором состояния; ]х — дрТ/дх , p¿u — дрт/(дди), p¿x — дрт/(ддх) — котраектории состояния и вариаций управления и состояния.

В условиях теоремы при небольших размерностях векторов состояния и управления вместо формул (33) можно использовать матричное уравнение чувствительности (30) и градиентную процедуру (31).

Доказательство теорем 6-8 осуществляется путем прямого преобразования достаточных условий оптимальности Беллмана — Кротова в более простые достаточные условия в форме уравнения Ляпунова для расширенного пространства состояний с последующим решением полученного уравнения методом характеристик.

Нетрудно показать, что при ди — 0 или дх — 0 из условий теоремы 8 следуют процедуры слабого и сильного улучшения теорем 6, 7.

Заключение. На основе теорем 6-8 разработано алгоритмическое обеспечение интегрированной системы автоматического управления, стратифицированное по уровням управления воздушным судном. Эффективность алгоритмов нелинейного синтеза проверена на ряде тестовых примеров [15-19] и на модельных задачах динамики перспективных автоматизированных систем предупреждения столкновений и преодоления сдвига ветра при заходе на посадку самолета среднего класса.

Список литературы

1. Справочник по теории автоматического управления / Под ред. А. А. Красовского. М. Наука, 1987.

2. Буков В. Н. Адаптивные прогнозирующие системы управления полетом. М.: Наука, 1987.

3. ГАБАСОВ Р., КИРИЛЛОВА Ф. М. Принципы оптимального управления // Докл. НАН Беларуси. 2004. Т. 48. С. 15-18.

4. Беллман Р. Квазилинеаризация и нелинейные краевые задачи / Р. Беллман, Р. Калаба. М.: Мир, 1968.

5. ГиРСАНОВ И. В. Лекции по математической теории экстремальных задач. М.: Изд-во Моск. ун-та, 1970.

6. МОСКАЛЕНКО А. И. Оптимальное управление моделями экономической динамики. Новосибирск: Наука. Сиб. издат. фирма, 1999.

7. Кротов В. Ф. Новые методы вариационного исчисления в динамике полета / В. Ф. Кротов,

B. З. Букреев, В. И. Гурман. М.: Машиностроение, 1969.

8. Гурман В. И. Принцип расширения в задачах управления. М.: Наука, 1997.

9. Гурман В. И. Вырожденные задачи оптимального управления. М.: Наука, 1977.

10. Батурин В. А. Приближенные методы оптимального управления, основанные на принципе расширения / В. А. Батурин, Д. Е. Урбанович. Новосибирск: Наука. Сиб. издат. фирма, 1997.

11. JACOBSON D. H. Differential dynamic programming methods for solving bang-bang control problems // IEEE Trans. Automat. Control. 1968. V. 13, N 6. P. 661-675.

12. Афанасьев В. Н. Математическая теория конструирования систем управления / В. Н. Афанасьев, В. Б. Колмановский, В. Р. Носов. М.: Высш. шк., 1998.

13. Сизых В. Н. Итерационно-релаксационный метод приближенно-оптимального синтеза регуляторов // Докл. АН. 2000. Т. 371, № 5. С. 571-574.

14. Болтянский В. Г. Отделимость выпуклых конусов — общий метод решения экстремальных задач // Оптимальное управление. М.: Знание, 1978. С. 16-42.

15. Сизых В. Н. Прогнозно-оптимизационные алгоритмы сингулярных задач аналитического конструирования // Оптимизация, управление, интеллект. 2000. № 4. С. 77-92.

16. Буков В. Н., Сизых В. Н. Приближенный синтез оптимального управления в вырожденной задаче аналитического конструирования // Автоматика и телемеханика. 1999. № 12. С. 16-32.

17. Буков В. Н., Сизых В. Н. Метод и алгоритмы решения сингулярно-вырожденных задач аналитического конструирования // Изв. РАН. Сер. Теория и системы управления. 2001. № 5.

C. 43-51.

18. Сизых В. Н. Итерационно-релаксационный метод нелинейного синтеза регуляторов // Автоматика и телемеханика. 2005. № 6. С. 108-119.

19. Мухопад Ю. Ф., Сизых В. Н., Пашков Н. Н. Адаптивный подход к нейронному управлению одним классом абсолютно устойчивых систем // Фундам. исслед. 2011. № 8. С. 139-147.

Мухопад Юрий Федорович — д-р техн. наук, проф., засл. проф. Иркутского государственного университета путей сообщения, засл. деятель науки РФ; тел. (395-2) 59-86-64; e-mail: [email protected];

Сизых Виктор Николаевич — д-р техн. наук, доц.

Иркутского государственного университета путей сообщения;

тел. 8-914-883-03-51; e-mail: [email protected]

Дата поступления — 25.06.12

Квазилинеаризация и достаточные условия оптимальности Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Мухопад Юрий Федорович, Сизых Виктор Николаевич

Похожие темы научных работ по математике , автор научной работы — Мухопад Юрий Федорович, Сизых Виктор Николаевич

Текст научной работы на тему «Квазилинеаризация и достаточные условия оптимальности»