Научная статья на тему 'О применимости численных методов негладкого анализа к решению линейной квадратичной задачи оптимального управления с неполной информацией'

О применимости численных методов негладкого анализа к решению линейной квадратичной задачи оптимального управления с неполной информацией Текст научной статьи по специальности «Математика»

CC BY
108
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Мышков С. К., Полякова Л. Н., Тарасова В. В.

Рассматривается задача аналитического конструирования регуляторов, оптимальных к неглад­кому критерию качества. Исследуется применимость численных методов негладкого анализа для отыскания минимаксного решения

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the applicability of numerical methods of nonsmooth analysis to the solution of a linear quadratic problem of optimal control with incom­plete information

The problem of analytical regulators design which are optimal with respect to a nonsmooth objective function is considered. The applicability of numerical methods of nonsmooth analysis for defining a minimax solution is investigated.

Текст научной работы на тему «О применимости численных методов негладкого анализа к решению линейной квадратичной задачи оптимального управления с неполной информацией»

УДК 519.3

Вестник СПбГУ. Сер. 10, 2005, вып. 4

С. К. Мышков} Л. Н. Полякова; В. В. Тарасова

О ПРИМЕНИМОСТИ ЧИСЛЕННЫХ МЕТОДОВ НЕГЛАДКОГО АНАЛИЗА К РЕШЕНИЮ ЛИНЕЙНОЙ КВАДРАТИЧНОЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ *)

1. Введение. Задача аналитического конструирования регуляторов (АКР) в классической постановке приводит к оптимальному регулятору, в котором задействованы все координаты состояния объекта [1]. При этом для ее решения наряду с традиционными методами вариационного исчисления могут использоваться динамическое программирование и принцип максимума. Неполная информация о координатах состояния, доступная в регуляторе, т. е. управление по выходу, значительно сужает возможности применения данных методов [2]. Потому требуются определенные модификации классической постановки задачи АКР; некоторые из них рассмотрены в [2]. Ниже в работе используется модификация задачи АКР, в которой вместо оптимизации квадратичного функционала для любого состояния объекта минимизируется его наихудшее значение на единичной сфере [3]. Необходимые условия оптимальности в форме алгебраических уравнений Риккати заменяются системой из трех нелинейных матричных уравнений. Известно, что аналитическое решение такой системы трудно получить даже при небольшой размерности задачи (п = 2, г = 1), и к тому же возникает проблема с однозначностью решения этих уравнений [3].

Другой особенностью минимаксной задачи является проблема сходимости при использовании обычных численных методов оптимизации: даже если для построенных приближений последовательность значений функционала оказывается минимизирующей и монотонной, то в пространстве коэффициентов усиления регулятора картина может быть достаточно причудливой, что затрудняет эффективное решение задачи не только в нестандартной ситуации, но и в регулярном случае. Поскольку минимаксные функционалы принадлежат к классу субдифференцируемых функционалов, то для решения рассматриваемой задачи необходимо привлекать аппарат негладкого анализа. При этом существующие методы негладкого анализа позволяют решать задачу при более слабых ограничениях. Покажем, как такими методами можно решить задачу минимаксного управления в случае кратных корней.

2. Постановка задачи. Рассмотрим линейную стационарную управляемую систему

х = Рх + С}и, х(0) = Хо, (1)

У = Я®, (2)

где х € Я71, и € у € Як, матрицы - матрицы с постоянными элементами

размеров [пхп],[пхг],[^х п] соответственно.

Допустимое управление зададим в виде

и = Му = МНх, (3)

*) Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект К» 03-01-00668).

© С.К.Мышков, Л.Н.Полякова, В.В.Тарасова, 2005

в котором матрица М размера [г х к] такая, что нулевое решение замкнутой системы

х = (P + QMH)x = Dx (4)

экспоненциально устойчиво [1]. Класс допустимых управлений обозначим через U. Качество стабилизации будем оценивать функционалом

J(u)= max J(u,x0), (5)

||®o||=l

при этом

г ОО

J(u,x о) = / [х*Ах + и*Си] dt = XqOxo, (6)

Jo

где А, С - матрицы соответствующих размеров, причем А - положительно-полуопределенная, а С - положительно-определенная; знак * обозначает операцию транспонирования; 0 = 0(М) - симметричная матрица размера [n х п], являющаяся решением уравнения Ляпунова

D*0 + QD + Н*М*СМН + А = 0. (7)

Управление щ € U называется оптимальным, если оно доставляет функционалу J(u) наименьшее возможное значение, т. е. выполняется условие

min J(u) = J(u0). (8)

uEU

В работе [2] доказано, что для управления вида (3)

J (и) = J(M) -> +оо

при выполнении следующих условий:

1) ЦМ1И+00,

2) М 9М, где М - область Гурвица пространства коэффициентов матрицы М, при которых система (4) экспоненциально устойчива.

Обозначим через Ап(0(М)) - наибольшее собственное число матрицы 0(М), тогда исходная задача поиска оптимального управления сводится к задаче минимизации функции АП(0(М)).

Рассмотрим некоторые методы решения данной задачи и особенности их использования на тестовых примерах.

3. Исследование метода Яхаджи. Необходимое условие оптимальности функционала (5) имеет вид

А'„(0(М)) = 0, (9)

здесь через А'n(Q(M)) обозначен градиент функции Ап в точке М. Условие (9) эквивалентно следующим соотношениям [3]:

М = -C~1Q*QNH*{HNH*)-1, (10)

D*e + eD + H*M*CMH + A = 0, (11)

DN + ND* + vn[ß)v*n (0) = 0, (12)

е«/„(в) = А„(©К(0). (13)

Здесь 1/п(0) - собственный вектор, соответствующий наибольшему собственному числу Лп(0(М)) матрицы 0(М).

Для решения системы нелинейных уравнений (10)—(13) в работе [3] был предложен следующий итерационный метод.

Пусть М = д(х) - значение матрицы обратной связи, при котором достигается минимум квадратичной формы х*0х на единичной сфере ||х|| = 1 при 0, определяемой из уравнения (7).

Шаг 1. Выбираем произвольный вектор хо 6 ||хо|| = 1.

Шаг 2. Для найденного х^ (при г-том цикле вычислений для жо = жси ) определяем управление, оптимальное по отношению к функционалу 3 = Яо0а;о- Матричный коэффициент такого управления обозначим М*: М{ = ^(хо*)-

Шаг 3. Для матрицы находим решение 0* уравнения (7), при этом 0* = /(М*).

Шаг 4- Для матрицы 0* вычисляем Ап(0г), и за новое начальное состояние

принимаем #(И+1 =

Шаг 5. Вычисления прекращаются, когда либо |Ап(0г+1) — Ап(0*)| ^ £1, либо ||г/п(0^+1) — 1/п(0<)|| ^ 62, где б\,£2 - некоторые заданные положительные числа.

В работе [3] показана сходимость метода к оптимальным значениям функционала и матрицы обратной связи при условии, что на каждом этапе собственные числа матрицы 0* различны и для предельной матрицы собственные числа также различны.

Справедливы следующие утверждения [3].

Утверждение 1. При условии, что все собственные числа матрицы 0 различны, для любого допустимого М имеет место неравенство

Л„(/(М)) £ ХпШМПм))))).

Утверждение 2. Если М*- минимаксное решение поставленной задачи, то справедливо равенство

А „(/(ЛП) = А М(дЫНмП))))-

Предположим, что М*- единственна, тогда М* = д(ип(/(М*))).

Рассмотрим пример, иллюстрирующий особенности метода Яхаджи.

Пример 1. Пусть п = 2, г = 1,

Тогда из уравнения (7) получим систему алгебраических уравнений

277110П + 2(912 + т\ + «и = 0

(7711 ~Р\)в12 + 022 + (т2 -Р2)0ц +ГП1ГП2 + «12 = 0 >. (14)

2(7712 - Р2)0\2 - 2^1022 + ™2 + а22 = 0 )

При этом максимальное собственное число матрицы 0 определяется равенством

. (в22±вп)±УШЕШ±Ж - ^ •

Отсюда имеем

9А„ = 1 дт8 2

3022, | двп |

9т. 9т»

(022 — 0ц)

/9022 дви\

удтп, дтпд)

+ 4012

5012 N дт.

У(022 - 0П)2+40?

12

,8 = 1,2. (15)

90<

Из условия (14) можно записать системы уравнений для нахождения - (г, ^ =

дт,

1,2, 8 = 1,2), а именно,

Л , вви ^ 0012 ^ п 0\1 + т1-— + — +7711 = о

С/7711 С/7711

012 + (тг+ ^ + (т2 + т2 = О

/ ч 5^22 п

т1а0п + 9012 =0

дгП2 дтП2

О ./ \ 9012 , 9022 , / ,9011 , „ V

/1 . / Ч5012 9022 . ~

$12 + (7712 - + 7712 — О

Подставляя г, з = 1,2, в = 1,2, в (15) и решая уравнение (9), придем к следую-отп8

щей системе квадратных уравнений:

Л2 (тп2,®)т\ + Лх (га2,0)ш1 + А) (гп2,0) = О

^2(7711,0)7712 + Б1(Ш1, 0)7712 (7711,0) = О

(16)

Можно показать, что оптимальное решение тпх = — 0ц, гаг = —#12, полученное из уравнения Риккати, удовлетворяет системе (16). Причем для него сР\п > 0, а это означает, что для таких гпх и тп2 достигается минимаксное управление в задаче (1)-(6).

Отметим, что метод Яхаджи полностью не решает поставленной задачи, так как не может быть использован в случае, когда кратность максимального собственного числа не равна единице на какой-либо итерации. Таким образом, поиск эффективного метода для решения задачи минимаксного управления является актуальным. Исследования в области негладкого анализа позволяют преодолеть эту трудность.

4. Применение метода минимизации почти-дифференцируемых функций к задаче минимаксного управления. Рассмотрим метод минимизации почти-дифференцируемых функций, аналогичный методу обобщенного градиентного спуска, предложенному в работе [5]. Дадим краткую его формулировку, и охарактеризуем применение этого метода к задаче (1)-(8).

Функцию /, заданную в открытой области П п-мерного евклидова пространства Яп , назовем почти-дифференцируемой, если:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) в любой ограниченной области f удовлетворяет условию Липшица;

2) функция / почти везде дифференцируема;

3) градиент f непрерывен на множестве G CÜ, где он определен.

Почти-градиентом функции / в точке ж Е Rn называется вектор g/(x) € Rn, являющийся предельной точкой некоторой последовательности градиентов f'(xi)i f'(x2), где последовательность {ж*} - последовательность точек, сходящаяся к точке х, и такая, что во всех точках этой последовательности функция / дифференцируема.

Пусть функция / является почти-дифференцируемой функцией, определенной на Rn, х*- точка локального минимума функции / на Rn, г == Цж1 — ж*||, S = {ж € Rn | ||а; — ж11| г} - окрестность некоторой точки х1 € Rn.

Обозначим через Т/ (х) выпуклую оболочку, натянутую на множество почти-градиентов функции / в точке х € Rn, т. е.

T/(x)=co{Ufl/(x)}.

Сформулируем необходимое условие минимума почти-дифференцируемой функции на Rn.

Для того чтобы точка ж* € Rn была точкой минимума функции / на необходимо, чтобы выполнялось включение

0€Т/(а?*). (17)

Точку х* € Rn, для которой это условие выполняется, назовем стационарной точкой функции /.

Рассмотрим последовательность точек {хвида

{Xk, если ж* е 5, ж1, если ж*

где хк = жл_1 -/1л_1р/(жл_1)/||р/(жл_1)|| и 9f{xk~i) - некоторый почти-градиент функции / в точке Жй_1 € Rnj отличный от нулевого вектора. Тогда справедлива следующая теорема.

Теорема 1 [6]. Пусть точка ж* € есть точка локального минимума функции / на Rn, Se - некоторая е-окрестность этой точки и выполняются следующие условия: 1) для всех е > 0, г > е справедливо неравенство

inf (.Qf (ж), ж — ж*) > 0;

xGS/Se 4

оо

я; й* > 0, lim hk = 0, J2 hk = оо.

Тогда последовательность {ж*} сходится к точке ж*.

Здесь через (*,*) обозначено скалярное произведение в Rn.

Заметим, что функция АП(0(М)) почти-дифференцируема, так как она является композицией выпуклой функции Ап(0) и дифференцируемой функции 0(М). Следовательно, ее можно минимизировать с использованием почти-градиентов. Применение данного метода к задаче минимаксного управления распадается на следующие этапы:

Шаг 1. Выбираем е > 0 и произвольную матрицу Мо. Проверяем условие Mo € М.

00

Задаем последовательность {/&*}, hk > 0, lim hk = 0, hk =

Шаг 2. Пусть уже найдена матрица М* € М. Для нее получаем решение 0* уравнения (7).

Шаг 3. Вычисляем почти-градиент д\п(М^). Если ||<?дп(М&)|| = 0, то необходимое условие минимума выполнено, точка М& является стационарной точкой функции Лп и процесс закончен. В противном случае переходим к следующему шагу.

Шаг 4• Находим новое приближение по формуле = Мд. — Нитг^тггттт-

ттт г т, А

Шаг 5. В случае, когда на каждом шаге почти-градиент функции отличен от нулевого, при проверке условия остановки метода используем, например, условие Ни <

Заметим, что нахождение аналитического представления почти-градиента функции Ап затруднительно, поэтому при численной реализации данного алгоритма для его вычисления используется аппарат конечных разностей. Также при практической реализации, как правило, невозможно на каждой итерации проверять необходимое условие (17).

Апробация данного метода была проведена для ряда примеров, в которых варьировались значение начальной точки, кратность собственных значений и условия остановки.

Рассмотрим следующий пример.

Пример 2. Пусть п = 2, г = 1,

В случае, когда п = 2, решение задачи минимаксного управления несложно найти, используя уравнение {7). Получаем, что оптимальное значение матрицы регулятора М* = (-0,86121,0,129159), оптимальное значение функционала АП(0(М*)) = 2,734101. Использование описанного метода минимизации почти-дифференцируемых функций с условием остановки ||М*+1 — М* || < е = 0,001 потребовало порядка 1200 шагов. Отметим, что численная процедура реализована в среде МАТНЕМАТ1СА 3.0.

Хотя предлагаемый метод оказался пригодным даже в случае кратных собственных чисел матрицы 0(М), его практическое применение требует больших вычислительных затрат, поскольку он является обобщением градиентного метода на негладкий случай.

5. Использование аппарата субдифференциального исчисления для решения задачи минимаксного управления. В работах по негладкому анализу широко изучены субдифференциальные методы решения минимаксных задач. Поскольку функция АП(0(М)) субдифференцируема как функция максимума [7], то нахождение субдифференциала даст возможность использовать методы субдифференциального исчисления.

В работе [9] получено выражение для вычисления субдифференциала максимального собственного числа симметричной матрицы.

Утверждение 3. Для произвольной симметричной матрицы Т размера [п х п] субдифференциал максимального собственного числа имеет вид

аА„(Т) = {С е | {С, С - Т) < ЛП(С) - Л„(Т) VС 6 Бп}, (18)

где 5П - множество симметричных матриц размера [п х п] и скалярное произведение матриц К,Ь € £п определяется как (К}Ь) = 1т(К Ь).

(

Отметим, что нахождение субдифференциала сДп(0) с использованием выражения (18) в общем случае затруднительно, поскольку матрица 0 = 0(М). Более удобное выражение для вычисления 9ЛП(0) предложено в работе [8], авторы которой использовали свойства опорных функций.

Пусть П - непустое компактное выпуклое подмножество множества симметричных положительно-полуопределенных матриц вида

П=со{уу*\ у € ДМ|у|| = 1}. (19)

Пусть А е Sn. Обозначим через <jq (А) опорную функцию множества П

ап{А)=тах(С,А).

Для данного il в работе [8] показано, что

ап(А) = тах(уу*,А). 1Ы1=1

Таким образом, опорная функция множества П есть наибольшее собственное число матрицы А.

Утверждение 4. Пусть множество П имеет вид (19). Тогда для любой матрицы А Е Sn субдифференциал опорной функции имеет вид

дао, = со {хх* | х е Еп(А)},

где Еп{А) - множество единичных собственных векторов, соответствующих собственному числу ЛП(Л).

Данный результат интересен прежде всего с теоретической точки зрения, так как он дает возможность проверить необходимое условие минимума функции Ап, а именно О € д<тп(в) для случая кратного Ап(0).

Summary

Myshkov S.K.} Polyakova L.N. , Tarasova V. V. On the applicability of numerical methods of nonsmooth analysis to the solution of a linear quadratic problem of optimal control with incomplete information.

The problem of analytical regulators design which are optimal with respect to a nonsmooth objective function is considered. The applicability of numerical methods of nonsmooth analysis for defining a minimax solution is investigated.

Литература

1. Зубов В. И. Лекции по теории управления. М.: Наука, 1975. 495 с.

2. Мышков С. К. Условия разрешимости задачи оптимальной в среднем стабилизации линейных управляемых систем с неполной информацией // Вопросы механики и процессов управления / Под ред. В. В. Новожилова. Л.: Изд-во Ленингр. ун-та, 1978. Вып. 2. С. 148-157.

3. Yahagi Т. Minimax output feedback regulators //J. Dynamic Systems, Measurement and Control. 1976. Vol. 98, N 3. P. 270-276.

4. Мышков С. К. Линейные управляемые системы с неполной информацией о координатах состояния // Негладкие задачи теории оптимизации и управления / Под ред. В. Ф. Демьянова. Л.: Изд-во Ленингр. ун-та, 1982. С. 248-272.

5. Шор Н. 3. О классе почти-дифференцируемых функций и одном методе минимизации функций этого класса // Кибернетика / Под ред. В. М. Глушкова. Киев: Наукова Думка, 1972. Вып. 4. С. 65-70.

6. Баженов А. Г. Об условиях сходимости метода минимизации почти-дифференцируемых функций // Кибернетика / Под ред. В. М. Глушкова. Киев: Наукова Думка, 1972. Вып. 4. С. 71-72.

7. Демьянов В. Ф., Рубинов А. М. Основы негладкого анализа и квазидифференциальное исчисление. М.: Наука, 1990. 432 с.

8. Hiriart-Urruty J.-В., Seeger A., Ye D. Sensitivity analysis for a class of convex functions defined over a space of symmetric matrices // Lecture Notes in economics and mathematical systems. 1992. P. 133-154.

9. Hiriart- Urruty J.-B, Lewis A. S. The Clarke and Michel-Penot subdifferentials of the eigenvalues of symmetric matrix // Computational Optimization and Applications. 1998. N 13. P. 13-23.

Статья поступила в редакцию 13 октября 2005 г.

РЕФЕРАТЫ

УДК 519.8

Гарнаев А. Ю., Соловьев А. Ю. Одна многошаговая игра подбора кадров // Вести. С.-Петерб. ун-та. Сер. 10. 2005. Вып. 3. С. 3-12.

Предложены две новые модели игрового аналога задачи о секретаре. В одной претенденту разрешен отказ от предложения с некоторой вероятностью, в другой - введены ограничения на максимально допустимую квалификацию претендента. Сценарии промоделированы многошаговыми играми. Равновесные стратегии найдены. Показано, что большее количество претендентов стимулирует конкуренцию при их отборе. Библиогр. 11 назв.

УДК 519.853

Михеев С. Б. Существование и оценка решения нелинейного уравнения в банаховом пространстве // Вестн. С.-Петерб. ун-та. Сер. 10. 2005. Вып. 3. С. 13-27.

Устанавливаются достаточные условия существования решения нелинейного уравнения д(х) = 0 в банаховом пространстве и дается оценка его удаленности от некоторой заданной точки. Отображение д полагается дифференцируемым, а его производная J := д' - подчиненной для всех х либо условиям Lj(®) = Jim ||J(® + А) — J(a;)||/||A|| ^ оо и ||J_1(o;)||Lj(x) ^ cr = const, либо условию

Липшица с константой L и ||«/~1(ж)||^гм- В обоих случаях решение может быть достигнуто интегрированием задачи Коши х = »/""^(^Ж®)/!!J_1(x)^(x)||, х(0) = жо, на конечном интервале. В первом случае показано, при каком соотношении параметров Ра := 0То||<?(жо)||, где го ^ и PL := лучше оценка в теореме Канторовича о методе Ньютона, а при каком - в приво-

димой теореме; во втором - что оценка удаленности второй приводимой теоремы всегда лучше, чем в теореме И. П. Мысовских. Кроме того, вторая теорема является обобщением теоремы М. К. Гавурина для непрерывного метода Ньютона на владение оценкой го < гм и доказывается при более слабом условии локальной липшицевости J вместо существования производной Гато J'. Она также обобщает теорему Канторовича о методе Ньютона в части, относящейся к существованию и оценке удаленности решения, когда известна оценка гм- Библиогр. 7 назв. Ил. 4.

УДК 518.9

Чистяков С. В. Об е-седловых точках функции двух переменных // Вестн. С.-Петерб. ун-та. Сер. 10. 2005. Вып. 3. С. 28-31.

Уточняется известный критерий существования е-седловых точек при любом е > 0. Критерий иллюстрируется на примерах. Уточняются также формулировка и доказательство теоремы о предельном поведении значений функции в е-седловых точках при е —> 0. Библиогр. 4 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.