К вопросу о формировании позиционных стратегий дифференциальной игры в методе экстремального прицеливания Н. Н. Красовского

Лемак Степан Степанович

Заключение. В рамках длинноволнового приближения решается задача о гидродинамической устойчивости взаимодействующей с потоком газа пленки жидкости. На основе полученных данных показано, что для определенных значений параметра взаимодействия г и обобщенного параметра подобия 5 возможно образование областей, где течение неустойчиво при любых значениях волновых чисел. Использование асимптотических соотношений для выражения давления и касательного напряжения позволяет регуляризовать исследуемую задачу, расширить область исследования устойчивости и этим обеспечить сходимость решения для более высоких значений волновых чисел.

Работа выполнена при финансовой поддержке РФФИ (грант № 15-01-05186).

СПИСОК ЛИТЕРАТУРЫ

1. Демехин Е.А., Токарев Г.Ю., Шкадов В.Я. Неустойчивость и нелинейные волны в вертикальной пленке жидкости, текущей в противотоке с турбулентным газовым потоком // Теор. основы хим. технол. 1989. 23, № 1. 64-70.

2. Шкадов В.Я. Двухпараметрпческая модель волновых режимов течения пленок вязкой жидкости // Вести. Моск. ун-та. Матем. Механ. 2013. № 4. 56-61.

3. Белоглазкип А.Н., Шкадов В.Я. Нелинейные волны в системе жидкая пленка-поток газа // Изв. РАН. Механ. жидкости и газа. 2012. № 6. 32-49.

4. Benjamin T.B. Shearing flow over a wavy boundary //J. Fluid Mech. 1959. 6, N 2. 161-205.

5. Чан Ван Чан, Шкадов В.Я. Неустойчивость слоя вязкой жидкости под воздействием граничного потока газа // Изв. АН СССР. Механ. жидкости и газа. 1979. № 2. 28-36.

Поступила в редакцию 28.11.2014

УДК 531.396

К ВОПРОСУ О ФОРМИРОВАНИИ ПОЗИЦИОННЫХ СТРАТЕГИЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ В МЕТОДЕ ЭКСТРЕМАЛЬНОГО ПРИЦЕЛИВАНИЯ Н.Н. КРАСОВСКОГО

С. С. Лемак1

Задача оценки точности алгоритмов управления линейной системой на конечном интервале времени при наличии начальных и постоянно действующих на управляемую систему возмущений рассматривается с точки зрения методики максиминного тестирования. Предложен способ формирования позиционных стратегий тестирования, основанный на модификации метода "экстремального прицеливания" Н.Н. Красовского. Приведен пример, где выпуклое множество достижимости управляемой системы имеет многоэкстремальную опорную функцию.

Ключевые слова: робастная стабилизация, максиминное тестирование, дифференциальная игра, седловая точка.

The problem of estimating the accuracy of linear system control algorithms on a finite time interval in the presence of initial and time-varying perturbations is considered from the standpoint of maximin testing methods. A method of forming the positional strategies of testing based on a modification of the Krasovskii's "extremal aiming" method is proposed. It is shown by an example that the convex reachable set of a controlled system has a multiextremal support function.

Key words: robust stabilization, maximin testing, differential game, saddle point.

1. Введение. Используя максиминную методику тестирования качества управления [1], можно получить объективную оценку точности алгоритмов робастной стабилизации даже в тех случаях, когда структура алгоритма неизвестна, т.е. алгоритм управления представляет собой "черный ящик". При этом предполагается, что как управления, так и возмущения могут вести себя произвольным образом в рамках известных границ изменения.

1 Лемак Степан Степанович — доктор физ.-мат. наук, проф. каф. прикладной механики и управления мех.-мат. ф-та МГУ, e-mail: lemaks2004Qmail.ru.

Максиминная методика включает три этапа. На первом этапе путем решения некоторой дифференциальной игры вычисляются стратегия тестирования (оптимальное поведение возмущений) и нижняя оценка для функционала, задающего качество решения задачи управления. На втором этапе математическим либо имитационным моделированием для конкретного алгоритма управления вычисляется реальный показатель качества, который сравнивается с нижней границей на третьем этапе тестирования.

Такой способ находит применение при формировании математического обеспечения различного рода стендов-тренажеров, например для оценки качества пилотирования маневрами летательного аппарата в экстремальных ситуациях. Подобные оценки являются необходимым элементом в задаче сертификации пилотов.

2. Игровая задача первого этапа максиминного тестирования. Рассмотрим антагонистическую дифференциальную игру для линейной системы с фиксированной продолжительностью. Игроки представляют собой управления и возмущения в линейной управляемой системе

х = A{t)x + B(t)u + C(t)v, x(to) € Xo;

u(-) eu = {«(•) € LooltoMHt) eP С Rs}; (1)

о € V = {<) € L^ih^kMt) eQ с Rm}.

Здесь A(n x n), B(s x n), C(m x n) — кусочно-непрерывные, ограниченные по величине матрицы соответствующего размера; Хо, Р, Q — выпуклые, замкнутые и ограниченные множества; Rs, Rm — евклидовы пространства соответствующей размерности.

Примем, что функционалом качества — функционалом точности управления J(u, v) = ||x(tk) || — является промах в конечный момент времени tk-

Две задачи

a) J0(u°,v°) = maxv(.)&v miry.)6M J (и, v);

b) J°(u*,v*) = тшм(.)штах„(.)еу J(u,v)

представляют собой дифференциальную игру между первым игроком (управлением) и вторым игроком (возмущениями).

На первом этапе тестирования в ходе решения задачи на максимин может быть найдена оценка снизу для функционала качества и сформированы наихудшие возмущения, мешающие решению задачи управления. В соответствии с максиминной методикой тестирования эти возмущения предлагается использовать на полунатурном стенде, где имитируется процесс управления полетом. Управление осуществляется либо пилотом, либо автоматической системой, которые вырабатывают некоторый сигнал й в условиях противодействия возмущениям v°, подаваемым на математическую модель объекта в процессе тренировки (тестирования) на динамическом стенде. По результатам проведения тренировки можно вычислить реальный показатель точности тестирования J = J(ù,v°). Он сравнивается с наилучшим показателем — оценкой снизу качества управления Jo(u°,v°), которая получена на первом этапе в ходе решения динамической игры. Существенно, что при наличии седловой точки игры результат Jo может быть достигнут управлением й.

3. Программные стратегии тестирования. Наиболее просто осуществить второй этап тестирования, проводимый на компьютерном или динамическом стенде, в случае, когда используются программные стратегии тестирования второго игрока v(t) (при условии, что в игре (2) существует седловая точка). Кроме этого игровая задача первого этапа тестирования может быть редуцирована к геометрической игре на множествах достижимости подсистем по управлению и по возмущению управляемой системы (1), что позволяет провести проверку существования седловой точки и вычислить оптимальную программную стратегию v°(t).

Представляя вектор состояния х в виде разности x = у — z, получим

y = A(t)y + C(t)v, y(to) =x(to) GXo; (3)

z = A(t)z - B(t)u, z(t0) = 0. (4)

Функционал качества принимает форму J(u,v) = g(y,z), где g(y,z) — евклидово расстояние между точками множеств достижимости у € Dv(to,tk) и z (£ Du(to,tk) соответственно подсистем (3) и (4). Необходимые и достаточные условия существования седловой точки в такой геометрической игре приведены в работах [1, 2].

4. Позиционные стратегии тестирования. Рассмотрим теперь часто встречающуюся ситуацию, когда в классе программных стратегий отсутствует седловая точка:

Jo(u°,v°) = max min J(u,v) < min max J(u,v) = J°. v&V и{-)Ш u(-)ëUv(-)€V

В этом случае получить объективную оценку качества алгоритма управления в классе программных стратегий нельзя. Одним из способов решения проблемы является переход к усредненным показателям качества и смешанным стратегиям тестирования. Здесь в игровой задаче всегда существует седловая точка, а цена игры совпадает с верхним значением игры J0 для программных стратегий [3].

Второй способ состоит в использовании позиционных стратегий тестирования v(x,t). H.H. Кра-совским [4] было показано, что для выпуклого функционала игры (2) в классе позиционных стратегий существует седловая точка. Для поиска позиционной стратегии Красовским был предложен метод экстремального прицеливания [4]. Рассмотрим регулярный случай дифференциальной игры для системы (1), когда решение задачи на максимин (u°(t), v°(t)) единственно, а множества Р и Q допустимых значений управления u(t) € Р и возмущения v(t) € Q являются выпуклыми замкнутыми множествами. В этом случае множества достижимости Du(to,tk) и Dv(to,tk) соответственно подсистем (4) и (3) также являются выпуклыми и замкнутыми множествами при заданных to и tk-

Обозначим через J* = J(u*(x,t),v*(x,t)) цену игры и через (u*,v*) соответствующую ей седло-вую точку в классе позиционных стратегий. Тогда имеют место неравенства

Jo < J(u*(x,t),v*(x,t)) < J°.

В работе [5] показано, что верно следующее утверждение.

Теорема. В регулярном случае цена игры J* в классе позиционных стратегий равняется нижнему значению игры J(u*(x,t),v*(x,t)) = Jo в классе программных стратегий.

Используем разбиение исходной системы (1) на две подсистемы (3) и (4). Тогда значение функционала J = \x(tk)\ = I(y(ífc) — z(tk))\ = Q{y{tk), z(tk)) равно расстоянию между точками множеств достижимости у € Dv(to,tk) и z € Du(to,tk)- Рассмотрим точку максимина (y°(tk), z°(tk)), которой соответствует нижнее значение игры J°(u0,v°) = g(y°,z°) = до, где u°(t),v°(t), t € [to,tk], — соответствующие программные стратегии.

Правило "экстремального прицеливания" означает, что в любой промежуточный момент времени г € [to, tk] оптимальные стратегии "прицеливают" фазовую точку каждой подсистемы в точки максимина (уz°). Согласно теореме Красовского, при этом достигается седловая точка в классе позиционных стратегий, а, как следует из приведенной выше теоремы, цена игры равна J(u*,v*) = JoN

Для построения позиционных стратегий выберем разбиение отрезка [to,tk] = [j [tí,ti-^\], где

i=0

диаметр разбиения d = max|t¿+i — í¿| настолько мал, что с достаточной точностью выполняются УСЛОВИЯ U*(t) = COnSt И V*(t) = COnSt При Г € [ti,ti+1].

H.H. Красовским предложен следующий способ построения прицеливающих стратегий. Сначала при фиксированном векторе I, таком, что ||¿|| = 1, решается линейная задача

jx = A + Bu + Cv, (тр = -Атгр,

\x(ti)=xi, H ^ 7, \v\ ^ ß] \ip(tk) = l.

Тогда, согласно работе [4], оптимальные программные стратегии игроков для текущего состояния системы вычисляются по следующей схеме: для каждого текущего состояния решается задача

tk tk

о „,(Ь

J (и ,v ) = max IUII = i

max {íp(tí)Tx(tí) + 7 J \ф(т)тB\dr - ß J \ф(т)тC\ dr,0}

(5)

Таким образом, позиционная стратегия формируется как и(х^, ь(х{), где и(хг) = и (и), у(хг) =

Следовательно, для формирования оптимальных стратегий в каждый момент времени ti требуется решить нелинейную задачу (5) оптимизации на сфере ||£|| = 1. При высокой размерности системы это может привести к непомерным вычислительным затратам, поскольку позиционную

стратегию тестирования необходимо вычислять в реальном времени в процессе проведения второго этапа тестирования па компьютерном либо динамическом стенде. При фиксированном I выражение внутри квадратных скобок в (5) имеет смысл комбинации опорных функций к соответствующим множествам достижимости. Заметим, что опорная функция даже к строго выпуклому множеству достижимости может оказаться мпогоэкстремалыюй функцией параметра I. Приведем соответствующий пример.

Пример. Вычислим опорную функцию

/Т,

e(l,Du(tk)) = sup I х

xeDu

для системы

Х\ = Ж2, ¿2 = —0J2X\ + И, ж(0) £ XQ. Значения опорной функции определяются по формуле

tk

q(1) = max ^(0)тж(0) + ц \ф2{т)\с1т,

х{о)ех0 J

где 4>(t)

решения сопряженной системы

JV'l = N'2 = -ih,

4'i(tk) = h= cos a; 4'2{tk) = h= sin a.

Рис. 1. Исходное множество начальных возмущений Хо управляемой системы (а); множество достижимости

Ви при |м| ^ 0,4 в момент времени 1 = 2 (б)

На рис-. 1, а изображено специально сконструированное множество начальных отклонений Хо, а па рис.. 1,6 — соответствующее множество достижимости системы Du в момент времени tk = 2; точками па рис-. 1,а и б отмечены вершины многоугольника, па основе, которого построено строго выпуклое множество Хо в начальный момент времени и момент tk = 2 соответственно. Параметры системы и начальное множество подобраны таким образом, что опорные прямые к Du перпендикулярны направлениям OA, OB и ОС, а само множество Du находится целиком в одном из полупространств, соответствующих этим опорным прямым.

При этом опорная функция д(а) имеет вид, изображенный па рис. 2: у нее три локальных максимума (при а = 0,01; 0,78; 1,3). Даже при низкой размерности задачи указанное обстоятельство может сильно затруднить поиск глобального максимума опорной функции в методе экстремального прицеливания.

Таким образом, в настоящей работе для более эффективного вычисления позиционной стратегии предложена модификация метода Красовского, когда для каждого текущего состояния x(ti) = y{U) — z(t{) непосредственно решается задача поиска мак-

симипа Ji{u?,v?) = max min J(u,v) при t £ [U,tk\. veV u(-)eu

2 3 4 5 а,рад

Рис. 2. Опорная функция множества достижимости В.,

Численный метод поиска максимина, основанный на итерационном способе решения задачи Б.В. Булгакова и задачи проектирования точки на выпуклое множество, приведен в работах [1, 2].

Исследование частично поддержано грантом РФФИ № 13-01-00515, в части разработки алгоритмов экстремального прицеливания — грантом РИФ № 14-50-00029.

СПИСОК ЛИТЕРАТУРЫ

1. Александров В.В., Болтянский В.Г., Лемак С. С., Парусников Н.А., Тихомиров В.М. Оптимальное управление движением. М.: Физматлит, 2005.

2. Александров В.В., Влаженнова-Микулич Л.Ю., Гутиерес-Ариас И.М., Лемак С.С. Максиминное тестирование точности стабилизации и седловые точки в геометрических играх // Вести. Моск. ун-та. Матем. Механ. 2005. № 1. 43-50.

3. Петросян Л.А., Зенкевич Н.А., Сёмина Е.А. Теория игр. М.: Книжный Дом "Университет", 1998.

4. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.

5. Alexandrov V. V., Bugrov D.I, Lemak S.S., Sadovnichij V.A., Tikhonova К. V, Temoltzi Avila R. Robust stability, minimax stabilization and maximin testing in problems of semi-automatic control // Continuous and Distributed Systems II/ Ed. by V.A. Sadovnichii, M.Z. Zgurovsky. Springer International Publishing. Switzerland, 2015. 2 15 265.

Поступила в редакцию 17.03.2015

Аннотация научной статьи по математике, автор научной работы — Лемак Степан Степанович

Похожие темы научных работ по математике , автор научной работы — Лемак Степан Степанович

Текст научной работы на тему «К вопросу о формировании позиционных стратегий дифференциальной игры в методе экстремального прицеливания Н. Н. Красовского»