Научная статья на тему 'О гарантированном управлении при измерении части координат'

О гарантированном управлении при измерении части координат Текст научной статьи по специальности «Математика»

CC BY
88
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГАРАНТИРОВАННОЕ УПРАВЛЕНИЕ / МЕТОД ЭКСТРЕМАЛЬНОГО СДВИГА / FEEDBAK CONTROL / EXTREMAL SHIFT METHOD

Аннотация научной статьи по математике, автор научной работы — Максимов Вячеслав Иванович

Теория управления в условиях неполной информации _ один из интенсивно развивающихся разделов современной математики. В настоящей заметке в рамках этого раздела обсуждается вопрос управления одной динамической системой при измерении части фазовых координат и при влиянии на систему неконтролируемых воздействий. Именно, рассматривается задача игрового управления нелинейной распределенной системой, введенной в работе [1]. Цель данной заметки заключается в описании устойчивых алгоритмов ее решения. Предлагаемые алгоритмы основываются на конструкциях теории динамического обращения и методе экстремального сдвига.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON GUARANTEED CONTROL UNDER MEASURING A PART OF COORDINATES

The paper is devoted to a problem of game control of a nonlinear distributed system. The goal of this note is in describing stable algorithms of its solution. The suggested algorithms are based on the constructions of the dynamical inversion theory and the extremal shift method.

Текст научной работы на тему «О гарантированном управлении при измерении части координат»

УДК 517.977

О ГАРАНТИРОВАННОМ УПРАВЛЕНИИ ПРИ ИЗМЕРЕНИИ

ЧАСТИ КООРДИНАТ

© В.И. Максимов

Ключевые слова: гарантированное управление; метод экстремального сдвига. Теория управления в условиях неполной информации — один из интенсивно развивающихся разделов современной математики. В настоящей заметке в рамках этого раздела обсуждается вопрос управления одной динамической системой при измерении части фазовых координат и при влиянии на систему неконтролируемых воздействий. Именно, рассматривается задача игрового управления нелинейной распределенной системой, введенной в работе [1]. Цель данной заметки заключается в описании устойчивых алгоритмов ее решения. Предлагаемые алгоритмы основываются на конструкциях теории динамического обращения и методе экстремального сдвига.

1. Ведение. Рассматривается система

д д

—Ф + = АьФ + Ви - Су в 0 х (¿0,0],

0 = СО^ < +ГО,

(1)

с граничным

и начальным

= Дьш + д(ш) + ф

д д

—ф = —— ш = 0 на д0 х (¿0,0] дп дп

ф(^о) = Фо, ш(£о) = шо В 0

(2)

(3)

(4)

условиями. Здесь 0 С Кга — ограниченная область с достаточно гладкой границей д0 , Дь — оператор Лапласа, д/дп — производная по внешней нормали, (и, |-|и) и (V, |-|у) — банаховы пространства, В € С(и; Н) и С € С(У; Н) — линейные непрерывные операторы, д(ш) = аш+Ьш2(г,п)—сш3(г,п), Ф(г,п) описывает температуру среды, ш(г, п) характеризует различие между твердой и жидкой подобластями 0 , I > 0 — константа, а(г, п) , Ъ(Ь, п) € € Ь^(Т х 0) и с(п) € Ьте(0) — заданные функции, с(п) ^ с > 0 при п.в. п € 0 , ф0(п) и Шо(п) — начальные состояния. Система (1)—(4) моделирует процесс отвердевания жидкого вещества.

Будем полагать, что начальные состояния фо и шо являются элементами пространства

д

д

(0) , удовлетворяющими условиям —— фо = — шо = 0 , на д0 . В дальнейшем символом

ж22,1(я), я = 0 х (0, 0) , обозначаем соболевское пространство

дп

дп

Ж22'1(Я)Н и| и,^

ди д2и

дпг дп%дпз дг

■ди € «я

с нормой

1и1Ц2Д(д)

ди

|и|2 + ££ + £

г,3=

д 2и

дпгдпз

+

ди

дг

1/2

2

2

2

1

символы (■, -)я и | ■ |я означают, соответственно, скалярное произведение и норму в пространстве Н = Ь2(О) .

Для каждых начального состояния х0 = {ф0,(0} и функций и(-) € Ь^(Т; и) , v(•) € € Ь^(Т; V) решение системы Б — (1)-(4) — х(; ¿0,х0,и(-)^(-)) = {ф(-; ¿0,ф0,и(-)^(-)), ((■; ¿0, (о,и(-),у(-))} есть единственная функция х(-) = х(-; ¿0, Хо, и(-),у(-)) € = VI XVI, VI = (<^) удовлетворяющая (1)-(4).

Обсуждаемая задача состоит в следующем. Задана система Б и некоторый критерий качества I. В дискретные моменты времени тг € А = {тг}т=0 , т0 = ¿0 , тг+1 = тг + 5 , тт = = § , измеряется (с ошибкой) величина фазовой функции системы ( . Результаты измерения € Н удовлетворяют неравенству

1е(тг) - < К. (5)

Здесь К € (0,1) — уровень информационной погрешности. Имеется два игрока-антагониста. Одного из них назовем партнером, второго — оппонентом. Пусть Р С и и Е С V — выпуклые замкнутые множества. Задача партнера состоит в построении закона (стратегии) формирования управления и (со значениями в Р ) по принципу обратной связи (на основе измерения величин ((тг)) такого, что порожденное им управление минимизирует значение критерия качества. Задача, стоящая перед оппонентом, противоположная. Она состоит в выборе закона (стратегии) формирования управления V (со значениями в Е) также по принципу обратной связи (на основе измерения величин ((тг)) такого, что порожденное им управление максимизирует значение критерия качества.

Один из подходов к решению задач гарантированного управления для систем, описываемых обыкновенными дифференциальными уравнениями был предложен и развит в [2, 3]. Основы теории гарантированного управления для систем с распределенными параметрами с позиций формализации, предложенной в [2], были заложены в работе [4]. В указанных работах был рассмотрен случай, когда измеряются все фазовые состояния систем. В настоящей работе, продолжающей исследования [2 — 4] задачи гарантированного управления (партнера или оппонента) рассматриваются при измерении лишь «части» фазового состояния системы.

Для формирования управления и , обеспечивающего решение задачи стоящей перед партнером, наряду с информацией о значениях ^, удовлетворяющих (5), необходима информация о координате ф(-) , которая отсутствует. Чтобы получать такую информацию по ходу функционирования системы Б мы воспользуемся подходом, развитым в работах [5 — 7]. Следуя этому подходу, мы введем вспомогательную систему, описываемую уравнением, имеющим выход ш1(1, п) , ^ € Т , п € О и вход рн(1, п) , ^ € Т, п € О. Входом рн( ) является некоторое управление, которое формируется по принципу обратной связи таким образом, что рн(-) аппроксимирует в среднеквадратичной метрике неизвестную координату ф(-) . Ситуация с оппонентом аналогична. Для решения стоящей перед ним проблемы, ему также необходима информация о координате ф(-) .

2. Схема решения. Постановка задачи. Опишем схему решения задачи партнером. Сначала вводятся две вспомогательные системы М1 и М2 . Система М1 имеет вход и* (■) и выход ш( ) , а система М2 — вход ( ) и выход ш (■) . Система М2 с законом выбора управления V! служит для восстановления ненаблюдаемой координаты, а системы М1 и Б (с соответствующим законом выбора управления) для решения собственно задачи, стоящей перед партнером.

До начала работы алгоритма фиксируются величина К и разбиение А с шагом 5, а также программное управление и*(-) . Затем организуется процесс синхронного управления системами Б, М1 и М2 на отрезке Т. Этот процесс разбивается на (т — 1) однотипных шагов. Во время г -го шага, осуществляемого на промежутке 5г = [тг,Тг+1) , выполняются

следующие операции. Сначала, в момент т%, в соответствии с априори выбранными законами Vl и и вычисляются элементы

р? € ^(тг,ег\ш1(тг)), и? €и(тг,ег/1,р^,ш(тг)). (6)

Затем (вплоть до момента тг+1) управление р?(Ь) = р?, тг ^ Ь ^ тг+1 , подается на вход системы М2 , а управление и?(Ь) = и' , тг ^ Ь < тг+1 , — на вход системы Б. В результате действия этих управлений, а также заданного управления и*(Ь) , тг ^ Ь ^ тг+1 , и неизвестного управления оппонента v(t) , тг ^ Ь ^ тг+1 , реализуются состояния х(тг+1) , ш(тг+1) и ш1(тг+1) . Процедура заканчивается в момент § .

Схема решения задачи оппонента аналогична описанной выше. Сначала вводятся две вспомогательные системы Мз и М2 . Система М3 имеет вход v*(•) и выход ¿(-) , а система М2 — вход р?(■) и выход Ш1(-) . Система М2 (аналогичная используемой партнером) с законом выбора управления Vl служит для восстановления ■0(-) , а системы Мз и Б (с соответствующим законом выбора управления) для решения собственно задачи, стоящей перед оппонентом.

До начала работы алгоритма фиксируются величина К и разбиение А. Затем организуется процесс синхронного управления системами Б, Мз и М2 на отрезке Т. Процесс разбивается на (т—1) однотипных шагов. Во время г -го шага, выполняемого на промежутке 5г = [тг, тг+1) , выполняются следующие операции. Сначала, в момент тг, в соответствии с априори выбранными законами Vl , V2 и V вычисляются элементы

р? € ^(тг^^Ы), V'1 € V(тг, р?, *(тг)), (7)

V* €V2(Тг,eг^Р^z(Тг)).

Затем (до момента тг+1) управление р?(Ь) = р? , тг ^ Ь < тг+1 , подается на вход системы М2 , управление v*(t) = V* , тг ^ Ь < тг+1 , — на вход системы М3 , а управление и?(Ь) = = и? , тг ^ Ь < тг+1 — на вход системы Б. В результате действия этих управлений, а также неизвестного управления оппонента v(t) , тг ^ Ь ^ тг+1 , в момент тг+1 реализуются состояния х(тг+1) , ш(тг+1) и ш1(тг+1) . Процедура заканчивается в момент § .

Пусть критерий качества имеет вид

I (х(; Ьо,хо,ит (-)^т (■))) = УJ / (Ь,п,х(Ь,п), Ух(Ь,п)) ¿п^

¿0 П

Здесь Ух означает градиент функции х ; функция /(Ь, п, х, у) удовлетворяет условию Каратеодори, т.е. /(Ь, п, х, у) измерима по Лебегу по (Ь, п) € Т X О для любых х € М, у € Мп , и липшицева по х € М, у € Мп для почти всех Ь, п € Т X О . Кроме того, |/(Ь, п, 0,..., 0)| ^ со(Ь, п) для почти всех Ь , п € Т X О и со(Ь, п) € X О) .

Задача 1. Необходимо указать уравнения систем М1 и М2 , управление и* (■) системой М1 , позиционную стратегию партнера и : Т X Н ^ Р, позиционную стратегию реконструкции Vl : Т X Н ^ Н и число С1 со свойствами: каково бы ни было е > 0 можно указать числа К* > 0 и 5* > 0 такие, что выполняется неравенства

I(хД>ш(■)) < С1 + е УхД>ад(■) € Х?(Ьо,хо,и, А,ш)

равномерно относительно всех измерений со свойствами (5), если К ^ К* и диаметр 5 = 5(А) < 5*.

Задача, стоящая перед оппонентом противоположна задаче, стоящей перед партнером. Ее суть состоит в следующем.

Задача 2. Необходимо указать уравнения M3 и M2 , позиционную стратегию оппонента V : T х H —► E, позиционную стратегию V2 : T xH ^ E для системы M3 , позиционную стратегию реконструкции Vi : T х H — H со следующими свойствами: каково бы ни было число е > 0 можно указать числа h* > 0 и ô* > 0 такие, что неравенства

I(Хд,г(■)) ^ ci - е (■) e Xh(to,xo, V, Vi, V2, А)

выполняются равномерно относительно всех измерений со свойствами (5), если h ^ h* и диаметр ô = ô(A) ^ ô* .

Символ Xh(to, xo, U, Vi, A, w) означает пучок всех решений системы (1)—(4), порожденных стратегиями U, Vi и разбиением А , а символ Xh(to,xo, V, Vi, V2, А) —пучок решений, порожденных стратегиями V , Vi , V2 и разбиением А .

3. Алгоритм решения задачи 1. Будем полагать, что выполнено следующее условие. Условие 1. Существует выпуклое и замкнутое множество D С H такое, что BP = = CE + D .

Здесь BP = {Bu : u e P}, CE = {Cv : v e E},CE + D = {u : u = ui + U2, ui e e CE, u2 e D}.

Пусть u* (■) оптимальное программное управление минимизирующее функционал I (w(-; to,xo,u(-))) на множестве DT (■) = {u(-) e L2(T ; H) : u(t) e D fora. a. t e T} , а C0pt — соответствующее u = u*(-) значение функционала I.

Символ w(-) = {w(i)(-), w(2)(-)} = w(-;to,xo,u(-)), (u(-) e DT(■)), означает решение системы

—w(i) + l—w(2) =ALw(i) + u в Q x (to, 01, ft ... dt ... ... ... (8)

-—w(2) dt

w^ = ALw(2) + g(w(2)) + w(i)

с граничными дпад(1) = дпад(2) =0 на д0 х (¿о, 0] и начальным -ш(1)(£о) = фо, -ш(2)(го) = = шо в 0 условиями.

В качестве системы М1 возьмем систему (8) с управлением и(-) = и*(-) , а в качестве системы М2 — уравнение

д^дгг,п) = Дь^1(г,п)+ рЛ(г,п)+ д(^1(г,п)) в 0 х (¿о,0] (9)

дт дп

тегии и и У1 (см., (6)) зададим следующим образом:

с граничным -дп1 = 0 на dQ х (to, 0] и начальным wi(to) = ^o в Q условиями. Стра-

где

U(t,£,p, w) = argmax{L(u, y) : u e P}, (10)

Vi(t, wi) = arg min{1(t, a, u, s) : u e Ud}, (11)

w = {w(i),w(2)}, L(u, y) = (y, Bu)H, y = w(i) - p + 1(w(2) - £),

1(t, a, u, s) = exp(—2^t)(s, u)H + a|u|H, s = wi — ^ = vrai max {a(t, n) + b2(t, n)} < Ud = {u e H : |u|H ^ d},

(t,n)eT xQ

d = const > sup{|x(t)|H : x(-) e Xh(to,xo,U, Vi, A,w),t e T}.

Теорема 1. Пусть ci = Copt, а системы Mi и M2 задаются соотношениями (8) и (9) соответственно. Тогда стратегии U and Vi вида (10), (11) решают задачу 1 .

4. Алгоритм решения задачи 2. Пусть как и выше выполнено условие 1. В качестве системы M3 возьмем систему

|z(1) + 4z(2) = ALz(1) + v* в Q x (to,tfj, dt (12) |tz(2) = ALz(2) + g(z(2)) + z(1)

с граничными Jnz(1) = dnz(2) =0 на дQ x (t0,$j и начальным z(1)(t0) = z(2)(t0) = = (0 в Q условиями. Система M2 описывается соотношением (9). Стратегии V, V1 и V2 (см. (7)) зададим следующим образом:

V(t, £,p, z) = argmax{L1 (v,x) : v € E}, (13)

V1(t, w1) = arg min{1(t, a, u, s) : u € Ud}, (14)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V2(t,C,p,z) = Bu - Cv, (15)

где

u € argmin{L(u, x) : u € P}, L1(v, x) = (x, Cv)h, X = z(1) - p + 1(z(2) -z = {z(1),z(2)}, L(u,x) = (x,Bu)H,

v = v(u) произвольный элемент из множества E со свойством Bu — Cv € D.

Теорема 1. Пусть c1 = Copt системы M3 и M2 задаются соотношениями (12) и (9) соответственно. Тогда стратегии V, V1 и V2 вида (13)-(15) решают задачу 2 .

ЛИТЕРАТУРА

1. Caginalp G. An analysis of a phase field model of a free boundary // Arch. Rat. Mech. Analysis. 1986. V. 92. P. 205-245.

2. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. 474 с.

3. Красовский Н.Н. Управление динамической системой. М.: Наука, 1985. 520 с.

4. Осипов Ю.С. Избранные труды. М.: МГУ, 2009. 654 с.

5. Osipov Yu.S., Kryazhimskii A.V. Inverse problems of ordinary differential equations: dynamical solution. London: Gordon and Breach, 1995. 874 p.

6. Maksimov, V.I. Dynamical Inverse Problems of Distributed Systems. Boston: VSP, 2002. 270 p.

7. Maksimov V., Troltzsch F. Dynamical state and control reconstruction for a phase field model // Dynamics of continuous, discrete and impulsive systems. A: Mathematical analysis. 2006. V. 13. № 3-4. P. 419-444.

БЛАГОДАРНОСТИ: Работа поддержана грантами РНФ (проект 13-02-00264) и РФФИ (проект 13-01-12446-офи- М2).

Поступила в редакцию 24 апреля 2015 г.

Maksimov V.I. ON GUARANTEED CONTROL UNDER MEASURING A PART OF COORDINATES

The paper is devoted to a problem of game control of a nonlinear distributed system. The goal of this note is in describing stable algorithms of its solution. The suggested algorithms are based on the constructions of the dynamical inversion theory and the extremal shift method. Key words: feedbak control; extremal shift method.

Максимов Вячеслав Иванович, Институт математики и механики УрО РАН, г. Екатеринбург, Российская Федерация, доктор физико-математических наук, профессор, заведующий отделом дифференциальных уравнений, e-mail: maksimov@imm.uran.ru

Maksimov Vyacheslav Ivanovich, Institute for Mathematics and Mechanics of the Ural branch of the Russian Academy of Sciences, Ekaterinburg, the Russian Federation, Doctor of Physics and Mathematics, Professor, the Head of the Differential Equations Department, e-mail: maksimov@imm.uran.ru

УДК 517.929

ОДИН ВАРИАНТ ПРИНЦИПА МАКСИМУМА ДЛЯ ЛИНЕЙНЫХ СИСТЕМ С ПОСЛЕДЕЙСТВИЕМ

© В.П. Максимов

Ключевые слова: линейные функционально-дифференциальные системы; задачи управления; оптимальное управление.

Для линейной функционально-дифференциальной системы с последействием общего вида, рассматривается задача оптимального управления с линейным целевым функционалом. На основе использования матрицы Коши выводится необходимое и достаточное условие оптимальности в форме принципа максимума. Дано явное представление аналога функции Гамильтона-Понтрягина для общего случая, охватывающего задачи с нелокальным оператором, реализующим управляющие воздействия.

Здесь мы следуем обозначениям и основным положениям теории функционально-дифференциальных уравнений в части линейных систем с последействием [1-3]. Обозначим через Ьп = Рп[0,Т] пространство суммируемых по Лебегу на конечном промежутке [0,Т] функций г : [0,Т] ^ Еп с нормой 11-гЦ^п = /0 |г(Ь)|п где |-|п - норма в Еп (далее, если размерность пространства очевидна, индекс у нормы будем опускать). Обозначим через АСп = АСп[0, Т] пространство абсолютно непрерывных функций х : [0; Т] ^ Кп с нормой

1|х|1асп = |х(0)| + ||Х•

Для описания системы управления введем линейный оператор С :

(Сх)(Ь) = х(Ь) — / К(Ь,в)х(в) ^ - А(*)х(0), ь е [0,Т]. (1)

■><д

Здесь элементы к^ (¿,8) ядра К (¿,8) измеримы на множестве {(¿,8) :0 ^ в ^ Ь ^ Т} и таковы, что на этом множестве |к^(Ь,в)| ^ к(Ь), г,^ = 1,...,п, где функция к суммируема на [0, Т] , элементы (п х п) -матрицы А(Ь) суммируемы на [0, Т] . Оператор С : АСп ^ Ьп ограничен. Функционально-дифференциальная система Су = / охватывает дифференциальные уравнения с сосредоточенным и/или распределенным запаздыванием и интегро-дифференциальные системы Вольтерра (см., например, [4]). В частности, для оператора (Сх) (¿) = х(Ь) — /д в) х(в) с распределенным запаздыванием, где без ограничения общности можно считать ¿) = 0 , имеем К(¿, в) = в), А(Ь) = 0) .

При сделанных предположениях линейный оператор Я : Ьп ^ (Яг)(Ь) = г(Ь) — — /ц К(Ь, в)г(в)(в) ^в имеет ограниченный обратный (Я-1/)(Ь) = /(Ь) + ^(Ь,в)/(в)(в) ^в , где ^(¿,в) - резольвентное ядро, соответствующее ядру К(¿, в) . Матрица С(Ь, в) = Е + + /в¿С, где Е — единичная (п х п) -матрица, называется матрицей Коши [5, 6]. Свойства матрицы Коши, используемые ниже, подробно исследованы в [6]. Отметим здесь только два соотношения, связывающих матрицу Коши с ядром К(¿, в) :

С(Ь,в)=/ С(Ь,т)К(т,в) ¿т + Е, в) ^ А С'(Ь,т)К(т, в) ^т + К(Ь, в). и в J в

i Надоели баннеры? Вы всегда можете отключить рекламу.