Научная статья на тему 'Оптимальное управление в реальном времени'

Оптимальное управление в реальном времени Текст научной статьи по специальности «Математика»

CC BY
531
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАБЛЮДЕНИЕ И УПРАВЛЕНИЕ / НЕОПРЕДЕЛЕННОСТЬ / ПРЕПОСТЕРИОРНЫЙ АНАЛИЗ / РАЗМЫКАЕМАЯ / ЗАМЫКАЕМАЯ СВЯЗИ / РЕАЛЬНОЕ ВРЕМЯ / ОПТИМАЛЬНЫЕ ЭСТИМАТОР И РЕГУЛЯТОР / OBSERVATION AND CONTROL / UNCERTAINTY / PREPOSTERIOR ANALYSIS / DISCLOSABLE AND CLOSABLE LOOPS / REAL-TIME CONTROL / OPTIMAL ESTIMATOR / OPTIMAL REGULATOR

Аннотация научной статьи по математике, автор научной работы — Габасов P., Кириллова Ф. М., Поясок Е. И.

Исследуется задача оптимального управления линейной динамической системой в условиях неопределенности: перевести с гарантией систему на терминальное множество и обеспечить максимум гарантированному значению критерия качества. Рассматривается позиционное решение, которое базируется на результатах неточных измерений входных и выходных сигналов объекта управления двумя измерительными устройствами. В зависимости от состава доступных измерению сигналов определяются оптимальные прямая, обратная и комбинированная связи. По объему используемой информации вводятся оптимальные размыкаемая, замыкаемая и замкнутая связи. Построить указанные связи в явной форме невозможно. В работе описываются методы оптимального управления в реальном времени с помощью квазиреализации оптимальных связей, осуществляющейся оптимальным регулятором, вырабатывающим управляющие воздействия в режиме реального времени. В основу алгоритма работы оптимального регулятора положены двойственный метод линейного программирования и принцип разделимости оптимального управления в условиях неопределенности на оптимальное наблюдение неопределенности и оптимальное управление детерминированной системой по оценкам эстиматоров.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Optimal real-time control

For a linear dynamical system an optimal control problem under uncertainty is investigated. The problem is to steer the system to a terminal set with guarantee and to provide the maximum to the guaranteed value of a cost function. A positional solution based on results of inexact measurements of input and output signals of the control object by two measurement devices is considered. Depending on composition of available for measuring signals, optimal feedforward, feedback and combined loops are defined. By information volume used, optimal disclosable, closable and closed loops are introduced. As construction for the mentioned loops in explicit form is impossible, methods of optimal real-time control by quasirealizing optimal loops to an optimal regulator which produces control actions in real-time mode are described in the paper. The dual method of linear programming and the separation principle of optimal control under uncertainty into optimal observation of uncertainty and optimal control of the determinate system are assumed as the basis of the algorithm of optimal regulators working.

Текст научной работы на тему «Оптимальное управление в реальном времени»

Серия «Математика»

Том 2 (2009), № 1, С. 132-169

Онлайн-доступ к журналу: http://isu.ru/izvestia

УДК 517.977

Оптимальное управление в реальном времени *

Р. Габасов

Белорусский государственный университет Ф. М. Кириллова

Институт математики НАН Беларуси Е. И. Поясок

Белорусский государственный университет

Аннотация. Исследуется задача оптимального управления линейной динамической системой в условиях неопределенности: перевести с гарантией систему на терминальное множество и обеспечить максимум гарантированному значению критерия качества. Рассматривается позиционное решение, которое базируется на результатах неточных измерений входных и выходных сигналов объекта управления двумя измерительными устройствами. В зависимости от состава доступных измерению сигналов определяются оптимальные прямая, обратная и комбинированная связи. По объему используемой информации вводятся оптимальные размыкаемая, замыкаемая и замкнутая связи. Построить указанные связи в явной форме невозможно. В работе описываются методы оптимального управления в реальном времени с помощью квазиреализации оптимальных связей, осуществляющейся оптимальным регулятором, вырабатывающим управляющие воздействия в режиме реального времени. В основу алгоритма работы оптимального регулятора положены двойственный метод линейного программирования и принцип разделимости оптимального управления в условиях неопределенности на оптимальное наблюдение неопределенности и оптимальное управление детерминированной системой по оценкам эстиматоров.

Ключевые слова: наблюдение и управление, неопределенность, препостериорный анализ, размыкаемая, замыкаемая связи, реальное время, оптимальные эстиматор и регулятор.

Оптимальное управление в реальном времени - понятие современной теории управления, связанное с новым принципом управления, кото-

* Работа выполнена при поддержке Белорусского республиканского Фонда Фундаментальных исследований (проект Ф08Р-056).

Введение

рый возник благодаря широкому использованию бурно развивающейся вычислительной техники,позволяющей реализовать очень сложные алгоритмы.

В теории оптимального управления существуют, по крайней мере, две трактовки термина “управление”. Согласно одной из них, управление - элемент из заданного множества функционального пространства, по которому ищется экстремум выбранного функционала (критерия качества). Вторая трактовка определяет управление как процесс создания целенаправленных воздействий на объект управления. При этом в классической теории управления различают два типа управления. Программное управление (управление по разомкнутому контуру) состоит в использовании в качестве управляющих воздействий программ, содержание которых планируется до начала процесса управления и не корректируется по его ходу. Программа соответствует понятию “управление” при первой трактовке, в связи с чем можно говорить скорее о программировании будущих управляющих воздействий, чем о синтезе оптимальных систем управления. Второй тип управления - позиционное (управление по замкнутому контуру). В этом случае управляющие воздействия создаются в процессе управления по заранее построенному закону управления в зависимости от доступной к текущему моменту информации о поведении объекта управления и реализующейся неопределенности. При использовании современного принципа управления в реальном времени законы управления не строятся, а соответствующие им управляющие воздействия формируются в процессе управления с помощью вычислительной техники.

Неопределенность в задачах управления возникает по разным причинам: 1) поведение математической модели объекта управления, по которой формируются управляющие воздействия, отличается от поведения ее физического прототипа; 2) начальное состояние объекта управления известно с ограниченной точностью; 3) расчетные значения управляющих воздействий реализуются неточно; 4) сигналы измерительных устройств содержат неполную и неточную информацию о состояниях объекта управления и действующих на него возмущениях; 5) в процессе управления возникают непредвиденные возмущения.

Понятие “оптимальное управление” просто и четко определяется при первой трактовке. Это элемент функционального пространства, на котором достигается экстремум критерия качества. Ситуация становится неопределенной, если придерживаться второй трактовки. Казалось бы, надо просто сказать: оптимальное управление - это процесс, по ходу которого по доступной информации создаются оптимальные управляющие воздействия. Но что означают слова “оптимальные управляющие воздействия”?

Классический принцип создания оптимальных управляющих воздействий в задачах оптимального управления на фиксированном (конеч-

ном) промежутке времени Т = [£*,£*] состоит в следующем. Строится детерминированная модель задачи управления и считается, что в процессе управления будут доступны точные значе-н и я с о с т о я н и й объекта. Для каждого текущего момента времени т € Т определяется область управляемости Хт - множество состояний х, для которых существует оптимальная программа и0(£|т,х), £ € [т, £*]. Оптимальным управляющим воздействием в позиции (т, х) называется начальное значение оптимальной текущей программы и0(т, х) = и0(т + 0|т, х). Функцию и0(т, х), х € Хт, т € Т, называют оптимальной обратной связью по состоянию; математическую модель объекта управления, замкнутую оптимальной обратной связью, - оптимальной системой управления. Классические определения восходят к первым инженерным работам по синтезу оптимальных систем [1], они используются в фундаментальных теориях принципа максимума [2] и динамического программирования [3]. Классическая оптимальная обратная связь по состоянию обладает замечательным свойством: если ею замкнуть математическую модель, то траектория замкнутой системы, выходящая из любой допустимой позиции (т, х), х € Хт, т € Т, совпадает с оптимальной траекторией, построенной для этой позиции с помощью оптимальной программы.

Классическая оптимальная обратная связь создается по математической модели, но предназначена для управления ее ф и з и ч е с к и м прототипом1.В физическом объекте, замкнутом упомянутой оптимальной обратной связью, приведенное выше свойство не имеет места. Из-за неизбежных возмущений траектория замкнутой физической системы управления, как правило, не будет удовлетворять ограничениям задачи, и невозможно оценить ее качество по отношению к возмущениям. В [4] предложены оптимальные обратные связи, которые, в отличие от классической связи, базируются на математических моделях с множественной неопределенностью. Новые связи строятся, следуя классическому принципу, с помощью программных решений. Системы, замкнутые такими связями, уже не обладают вышеуказанным свойством классической оптимальной системы, но они обеспечивают выполнение основного требования задачи оптимального управления - траектории замкнутой физической системы удовлетворяют ограничениям задачи. Выражение “ оптимальное управление” означает, что формирование управляющих воздействий осуществляется указанным выше классическим способом с использованием оптимальных текущих программ, вид которых зависит от рассматриваемой задачи оптимального

1 Подобный прием общепринят в теории стабилизации динамических систем -обратная стабилизирующая связь создается по детерминированной математической модели, но успешно работает и с ее физическим прототипом.

управления. Системы, реализующие описанный принцип управления, называются оптимальными системами управления.

Классическим методом синтеза оптимальной системы управления является динамическое программирование. Он состоит в решении до начала процесса управления уравнения Беллмана и в генерировании в процессе управления оптимальных воздействий с помощью полученного решения. С началом современной научно-технической революции появилась возможность создавать управляющие воздействия по ходу каждого процесса управления (управление в реальном времени).

Цель настоящей работы - описать применение принципа управления в режиме реального времени для реализации (без предварительного построения в явной форме) следующих типов оптимальных связей:

— классическая обратная связь по состоянию (рис. 1). О -детерминированная модель управления,

В

с,Н

входное устройство,

выходное устройство, ОСС - обратная связь по состоянию, х - состояние модели, ус - контролируемый выходной сигнал, и - управляющее воздействие. Обратная связь строится по детерминированной модели в предположении, что в процессе управления доступны точные значения состояния объекта.

— размыкаемая и замыкаемая обратные связи по состоянию (рис. 2). и> - возмущение (неопределенность в математической модели). В этом случае используется недетерминированная модель с множественной неопределенностью.

— размыкаемая и замыкаемая комбинированные связи по выходу

измерительные

(рис. 3). КС - комбинированная связь, Си устройства,

Сх

М

сигналы измери-

вход для возмущения, уад, ух тельных устройств, , £х - ошибки измерений. Модель недетерминированная, измерения неточные.

Общая схема реализации перечисленных связей изображена на

оптимальный регуля-

рис. 4, где ОЭ тор, а ром.

оптимальный эстиматор,

ОР

оценки неопределенности, полученные оптимальным эстимато-

1. Реализация классической оптимальной обратной связи

Прежде чем рассмотреть задачи оптимального управления в условиях множественной неопределенности, напомним основные понятия классического подхода к проблеме оптимального управления физической динамической системой при постоянно действующих возмущениях и его реализацию с помощью оптимального регулятора.

Пусть Т = [і*,і*] - промежуток времени; А(і) Є ^ПхХПх, в(і) Є М”хХГ, і є Т, - кусочно-непрерывные функции; Ні, ННіНі = 1, і Є I =

1,ш; ш > пх; И € Мтх”х - матрица со строками Л*, г € I; с € МПх; д*, д* € Мт; и*, и* € Мг; х0 € МПх; и = {и € Мг : и* < и < и*} -ограниченное множество; X* = {х € МПх : д*г < Л'х < д*, г € I} -ограниченное тело; и(£ : £) = (и(£), £ < £ < £).

Рис.1. Классическая обратная Рис.2. Размыкаемая и замыкаемая связь по состоянию обратные связи по состоянию

Рис.3. Размыкаемая и замыкаемая Рис.4. Оптимальное управление комбинированные связи по в реальном времени

выходу

Проблемы оптимального управления динамическими системами в классической постановке [2, 5] формулируются в терминах кусочнонепрерывных или измеримых управляющих воздействий. В данной работе используются только естественные для современных приложений дискретные управляющие воздействия.

Функцию и(-) = и(£* : £*) будем называть дискретной (с периодом квантования Л), если и(£) = и(з), £ € [8, 8 + Л[, 8 € Ти = {£*, £* + Л, ...,£* — Л}, Л = (£* — £*)/Ж (Ж - натуральное число).

В классе дискретных управляющих воздействий и(-) рассмотрим задачу (рис. 1):

е;х(£*) ^ тах; х = А(£)х+В(£)и; х(£*) = х0,х(£*) € X*; и(£) € и, £ € Т.

(1.1)

Воздействие и(-) назовем доступным, если и(£) € и, £ € Т; программой задачи (1.1), если оно доступно и соответствующая ему траектория х(£), £ € Т, динамической системы (1.1) удовлетворяет терминальному ограничению х(£*) € X*. Программа и0(£), £ € Т, называется оптимальной, если на порожденной ею (оптимальной) траектории х0(£), £ € Т, критерий качества задачи (1.1) достигает максимального значения. Функция и0(£), £ € Т, - начальное программное решение задачи (1.1).

Будем считать, что в процессе управления доступны точные значения состояний х*(£), £ € Ти, объекта управления. Для введения понятия оптимальной обратной связи погрузим задачу (1.1) в семейство задач

зависящее от скаляра т € Ти и пх-вектора г.

Пусть и0(£|т, г), £ € Т+т, - оптимальная текущая программа задачи (1.2) для позиции (т, г) (в случае неединственности значения и0(т|т, г) выбираем с помощью введения вспомогательных (дополнительных) критериев качества); Хт - множество всех состояний г € ШПх, для которых существует программное решение задачи (1.2).

Определение 1. Функция

называется [2, 5] классической оптимальной (дискретной) обратной связью по состоянию (КООСС), ее построение - синтезом оптимальной системы управления в классической постановке.

Обратная связь (1.3) определена по детерминированной модели объекта управления, но предназначена для управления ее физическим прототипом. Замкнем последний обратной связью (1.3) и запишем поведение замкнутой системы в виде

где и0(£,х) = и0(т,х(т)), £ € [т,т + Л[, т € Ти; ад - совокупность членов, описывающих неточности математического моделирования объекта управления, неточности реализации обратной связи и возмущения, возникающие в процессе управления. Для краткости, назовем ад возмущением и будем считать, что в каждом процессе управления возмущение реализуется в виде неизвестной кусочно-непрерывной функции ад(£), £ € Т. Под решением нелинейного дифференциального уравнения (1.4) понимается решение линейного уравнения

е'ж(£*) ^ тах; ж = А(£)ж + В(£)и; ж(т) = г, ж(£*) Є X*; и(£) Є и, £ Є Т+т = [т, £*],

(1.2)

и0(т, г) = и0(т|т, г), г Є Хт, т Є Ти,

(1.3)

ж = А(£)ж + В(£)и0(£, ж) + ад, £ Є Т, ж(£*) = ж0, (1.4)

X = А(£)ж + В(£)и(£) + ад(£), £ Є Т, ж(£*) = ж0,

(1.5)

с управляющими воздействиями и(£) = и0(т, х(т)), £ € [т, т + Л[, т € Ти. Оно всегда существует, единственно, продолжимо на Т и строится с помощью интегрирования уравнения (1.5) по шагам слева направо.

Рассмотрим некоторый конкретный процесс управления, в котором реализуется возмущение ад*(£), £ € Т .В замкнутой системе (1.4) оно породит переходный процесс х*(£), £ € Т, удовлетворяющий тождеству

х*(£) = А(£)х*(£) + В(£)и0(£,х*(£)) + ад*(£), £ € Т, х*(£*) = х0.

Из тождества видно, что в рассматриваемом процессе на вход объекта управления подаются управляющие воздействия

и*(£) = и0(£,х*(£)), £ € Т. (1.6)

Согласно (1.6) в конкретном процессе управления обратная связь

(1.3) не используется целиком (во всей области ее определения), нужны ее значения лишь вдоль одной траектории х*(£), £ € Т. При этом нет необходимости знать функцию и*(£), £ € Т, заранее. Достаточно формировать ее значения в текущие моменты т € Ти по замеряемым состояниям х*(т), т € Ти.

Определение 2. Функция (1.6) - реализация КООСС (1.3) в конкретном процессе управления. Формирование управляющих воздействий (1.6) с помощью заранее построенной оптимальной обратной связи называется оптимальным управлением по классическому принципу замкнутого контура.

В настоящее время реализовать такой способ управления невозможно, поскольку проблема синтеза оптимальных систем в классической постановке остается нерешенной. Опишем другой способ оптимального управления динамическими системами в условиях неопределенности, который возник в эпоху современной научно-технической революции.

Предположим, что существуют алгоритм и вычислительное устройство, позволяющие на каждом промежутке [т, т + Л[, т € Ти, по известному состоянию х*(т) вычислять за время §(т) < Л значение и* (т) = и0(т,х*(т)) = и0(т|т,х*(т)), т € Ти.

Определение 3. Функция

( и*(£*), £ € [£*,£* + Л + з(£* + Л)[; и**(£) = < и*(т), £ € [т + $(т),т + Л + $(т + Л)[, т € Ти\{£*,£* — Л};

[ и*(£* — Л), £ € [£* — Л + з(£* — Л), £*[;

называется реализацией КООСС (1.3) при управлении в режиме реального времени (квазиреализацией КООСС).

Устройство, способное строить квазиреализацию КООСС, назовем оптимальным регулятором (ОР). Формирование управляющих воздействий с помощью ОР называется оптимальным управлением в режиме реального времени (или синтезом оптимальной системы по принципу управления в реальном времени). Таким образом, проблема синтеза оптимальной системы свелась к построению ОР.

Алгоритм работы ОР. До начала процесса управления ОР двойственным методом [6] строит оптимальную опору К0(£*) = {10(£*), ^°(£*)}, 10(£*) С 1, 5°(£*) С 5 = Ти х 3, 3 = {1, 2,..., г}, оптимальную программу и°(-) для позиции (£*,х0) задачи (1.1) и множество 5*(£* + Л) = ^0(£*)П(£* х 3) опорных индексов управляющих воздействий, которые будут “заморожены” в момент £* + Л. В качестве начальной берется произвольная (возможно пустая) опора. Поскольку эти операции проводятся заранее, то затраты времени несущественны. Процесс управления начинается с подачи на вход объекта управляющего воздействия и*(£) = и0(£*), £ € [£*,£* + Л + з(£* + Л)[.

Предположим, что ОР проработал на промежутке Т-т = [£*,т[, т € Ти\£*, построил оптимальную опору К*(т — Л), оптимальную программу и0(£|т — Л,х*(т — Л)), £ € Т+(т—Н), множество 5* (т) и в момент т получил состояние х*(т). Для построения управляющего воздействия и*(£) = и0(т|т,х*(т)), £ € [т + з(т),т + Л + з(т + Л)[ он должен решить задачу

(1.2) с позицией (т, х*(т)).

В состояние х*(т) объект управления попадает из состояния х*(т — Л) под действием управляющего воздействия и*(£) = и*(т — 2Л), £ € [т — Л,т — Л + з(т — Л)[; и*(£) = и*(т — Л), £ € [т — Л + з(т — Л),т[, и возмущения ад*(£), £ € [т — Л, т[. Согласно принципу оптимальности Беллмана часть найденной на предыдущем шаге оптимальной программы и0(£|т — Л,х*(т — Л)), £ € Т+т, будет оптимальной программой для позиции (т,х0(т)), в которую перейдет математическая модель (1.1) из позиции (т — Л, х*(т — Л)) под действием и*(£) = и*(т — Л), £ € [т — Л, т[. Состояния х*(т) и х0(т) связаны соотношением

х* (т) = х0(т) + Г Е (т,£)ад*(£)^£+

*/ т—Н

г т—Н+в(т—Н)

+ / Е(т, £)В(£)^£[и*(т — 2Л) — и*(т — Л)],

т—Н

(Е = А(£)Е, Е(£*) = Е, Е(т,£) = Е(т)Е—!(£)).

При малых Л, §(т — Л) и ограниченных ад*(£), £ € [т — Л,т[, векторы х* (т), х0(т) отличаются между собой незначительно. Поэтому регулятору для построения оптимальной программы и0(£|т,х*(т)), £ € Т+т, достаточно скорректировать уже известную программу и0(£|т — Л, х*(т — Л)), £ € Т+т.

Возможны две ситуации: 1) 5*(т) = 0; 2) 5*(т) = 0.

В ситуации 1) ОР после получения ж*(т) решает двойственным методом задачу (1.2), которая в функциональной форме имеет вид:

Е c'(t)u(t) ^ max, g*(r) < Е D(t)u(t) < g* (т),

teT- teT-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

u(t) € U, t € TU = {т, т + h,..., t* — h},

где c'(t) = /tt+hc'F(t*,t)B(t)dt, D(t) = /tt+hHF(t*,t)B(t)dt, t € T^; д*(т) = g* — HF(t*,T)ж*(т), д*(т) = g* — HF(t*,т)ж*(т). В качестве начальной опоры Кь(т) используется K0(т — h), что позволяет быстро скорректировать опору К0(т — h) до оптимальной К0(т).

В ситуации 2) ОР решает двойственным методом задачу с “замороженными” переменными Uj (t), {t, j} € $*(т):

E{t,j}eS*(r) cj(t)uj(t) + EteTT c'(t)u(t) ^ max,

д*(т) + Ад(т) <

< E{t,j}es*(r) Dj(t)uj(t) + £teT- D(t)u(t) < (1.7)

< g*(т) + Ад(т), u*(t) < Uj(t) < u*(t), {t, j} € £*(т); u(t) € U, t € TT.

Здесь Ag^) = E{t,j}es*(r) D(t)u*(t); Dj(t) -j-й столбец матрицы D(t); Cj(t), Uj(t) - j-е компоненты векторов c(t), u(t) соответственно. В качестве начальной Кь(т) берется оптимальная опора К0(т — h).

В обеих ситуациях ОР формирует множество £*(т + h) = S0(т) П (Тад(т + h) х J) опорных индексов управляющих воздействий, которые будут “заморожены” в момент т + h (Tu(т + h) = {t*, t* + h,..., т}).

На вход объекта управления ОР подает управляющее воздействие u*(t) = и0(т|т,ж*(т)), t € [т + «(т),т + h + «(т + h)[.

Операции двойственного метода по коррекции опоры К°(т — h) допускают распараллеливание, что позволяет за счет использования небольшой дополнительной оперативной памяти вычислительного устройства уменьшать время §(т), т € Тад .С деталями реализации описанного метода и результатами численных расчетов можно познакомиться по работам [7, 8, 9].

2. Оптимальная размыкаемая обратная связь по состоянию

В п.1 при определении КООСС использовались две идеализации: 1) классическая связь определялась по детерминированной модели, что не позволяет оценить ее качество по отношению к неизбежно возникающим в процессе управления возмущениям, о которых в прикладных задачах часто имеется какая-то информация; 2) при ее определении предполагалось, что в процессе управления будут доступны точные

значения состояния физического объекта, а это, как правило, не имеет места для современных объектов, моделируемыми системами дифференциальных уравнений высокого порядка. В данном пункте избавимся от первой идеализации, заменив детерминированную модель (1.1) объекта управления на модель с множественной неопределенностью. В дальнейшем (п. 4) избавимся и от второй идеализации.

Рассмотрим в классе дискретных управляющих воздействий u(-) задачу оптимального управления (рис. 2):

c'x(t*) ^ max; Ж = A(t)x + B(t)u + w(t),x(t*) = ж0,x(t*) € X*; ( )

u(t) € U, t € T; ( )

где, в отличие от задачи (1.1), математическая модель объекта управления содержит возмущение w(t), t € T, представляющее неизвестную кусочно-непрерывную функцию со значениями из ограниченного

множества W = {w € : w* < w < w*}.

Управляющее воздействие u(-) и возмущение w(-) = (w(t), t € T) порождают в системе (1.1) траекторию x(t|t*, Жо, u(-), w(-)), t € T. Пусть Xt* (u) = {ж € : ж = x(t* |t*, ж0, u(-), w(-)), w(t) € W, t € T} - множе-

ство возможных терминальных состояний, соответствующих управляющему воздействию u(-).

Доступное управляющее воздействие u(-) назовем (гарантирующей) программой, если Xt* (u) С X*. Качество программы оценим числом J (u) = min с;ж, ж € Xt* (u), - гарантированным значением критерия качества задачи (2.1). Оптимальную априорную (гарантирующую) программу u°(-) определим равенством J(u°(-)) = max J(u(-)). Она с гарантией переводит в момент t* систему (2.1) на терминальное множество X* и обеспечивает максимум гарантированному значению критерия качества J(u). Функция u°(-) - программное решение задачи (2.1).

Пусть в дискретные моменты т € T процесса управления будут доступны точные значения состояний объекта управления2. Для определения позиционного решения задачи (2.1) введем семейство задач:

c^(t*) ^ max; ж = А^)ж + B(t)u + w(t); ж(т) = z, ж^*) € X*; (2 2)

u(t) € U; w(t) € W, t € T+T, (2.2)

зависящее от скаляра т € TM и пх-вектора z.

Обозначим: u°(t|т, z), t € T+T, - оптимальная текущая программа3 задачи (2.2) для позиции (т, z); XT - множество всех состояний z € ,

для которых существуют программные решения задачи (2.2).

2 Последующие рассуждения не изменяются принципиально, если считать, что коррекция текущих программ (замыкание системы управления) будет производиться только в моменты Ти С Ти.

3 В случае неединственности оптимальной программы поступаем как в п. 1.

Нетрудно показать [7], что оптимальная программа u°(t|^ z), t € T+T, является решением детерминированной задачи

c^(t*) ^ max; ж = А(^ж + B(t)u; ж(т) = z, ж(^) € X*(т); (2 „)

u(t) € U; w(t) € W, t € T+T, ( )

где X*(т) = {ж € : g*i — 7*г(т) < Л-'ж < g* — т*(т), i € I}, 7**(т) =

/T min h'F(t*,t)wdt, т*(т) = /T maxh'F(t*,t)wdt, i € I. weW weW

Определение 4. Функция

u°(^ z) = u0(т|т, z), z € XT, т € TU,

называется оптимальной размыкаемой (дискретной) обратной связью по состоянию (ОРОСС) (позиционным решением задачи (2.1)), ее построение - синтезом оптимальной системы управления в классе размыкаемых обратных связей по состоянию.

Понятия реализации, квазиреализации ОРОСС и ОР вводятся по аналогии с КООСС (п. 1). Алгоритм работы ОР получается из алгоритма, описанного в предыдущем пункте, если вместо (2.2) использовать детерминированную систему (2.3) (предполагается, что возмущения, реализующиеся в физической системе управления, кусочно-непрерывны и удовлетворяют включению w*(t) € W, t € T). Подробности можно найти в [9].

3. Оптимальная замыкаемая обратная связь по состоянию

Размыкаемая связь представляет непосредственный аналог классической обратной связи (п. 1). При ее определении для формирования в текущие моменты времени оптимальных воздействий учитывалась информация только о текущем состоянии математической модели объекта управления (математическая модель замыкалась только в текущий момент времени) и не принималось во внимание то, что модель будет замыкаться и в последующие моменты. Такая дополнительная (априорная) информация не улучшает качества классической оптимальной обратной связи (п. 1), но оказывается полезной при управлении физическим объектом в условиях неопределенности. Ниже вводятся новые типы связей, в которых априорная информация хотя и используется лишь частично, но существенным образом повышает качество размыкаемых связей [10].

Для введения нового типа оптимальных обратных связей выделим из множества Ти подмножество (расчетных, виртуальных) моментов

замыкания Тз = € Ти, ] = 0, р}, Ь* = Ь0 < ^1 < Ь2 < ••• < Ьр < Ь*.

Определим программу и(-), зная, что в моменты Ь € Тз будут известны состояния математической модели объекта управления. С этой целью до начала процесса управления для моментов Ь € Тз построим множества замыкания Хр,Хр-1, ...,Х0: Хр - множество тех и только тех состояний г € КПх модели в момент времени Ьр, которые можно с гарантией перевести в момент Ь* на терминальное множество X*, т.е. для каждого г € Хр существует такое доступное управляющее воздействие и(Ьр : Ь*|г), что выполняется включение Хр, (и(Ьр : Ь*|г)) = (ж € МПх : ж = ж(Ь*|Ьр, г, и(Ьр : Ь*|г),ад(Ьр : Ь*)), -ш(Ь) € Ж, Ь € [Ьр,Ь*]} С X*; Хр-1 -множество всех состояний г € М”х модели в момент времени Ьр-1, которые с помощью доступного управляющего воздействия и(Ьр_1 : Ьр|г), г € Xр-1, можно с гарантией перевести в момент Ьр на множество Хр, и т.д. Построим множество X0 и доступное управляющее воздействие и(Ь* : Ь1|г), г € X0. Если множества Xp,Xp_1, ...,X1 непусты и ж0 € X0, то в задаче (2.1) совокупность и(-) = (и(Ь* : Ь1|х0); и(Ь1 : Ь21г), г € X1;...; и(Ьр : Ь*|г), г € Xp} представляет начальную замыкаемую (в моменты Ь € Тз) программу, с помощью которой можно систему (2.1) перевести из начального состояния на терминальное множество при любых реализациях неопределенности.

Выберем число в > ттс>ж, ж € X*, заменим множество X* на X*в = X* П (ж € М”х : с;ж > в} и, следуя приведенным выше правилам, построим множества Xрв0в. Наибольшее в0, при котором эти множества непусты и ж0 € X0в, равно максимальному гарантированному значению критерия качества задачи (2.1). Совокупность и0(-) = (ив°(Ь* : Ь1|ж0); ив°(Ь1 : Ь2|г), г € X 1в°;...;ив°(Ьр : Ь*|г), г €

Xpв } назовем оптимальной начальной замыкаемой программой для начальной позиции (Ь*,ж0). Описанным способом определим оптимальную текущую замыкаемую программу и0(Ь|т, г), Ь € Т+т, задачи (2.2) для позиции (т, г).

Пусть Xт - множество всех состояний г € М”х, для которых в задаче

(2.2) существуют замыкаемые программы.

Определение 5. Функция

и0(т, г) = и0(т|т, г), г € Xт, т € Ти, (3.1)

называется оптимальной замыкаемой (дискретной) обратной связью по состоянию (ОЗОСС), ее построение - синтезом оптимальной системы управления в классе замыкаемых обратных связей по состоянию. Если Тз = Ти, то функцию (3.1) будем называть оптимальной замкнутой обратной связью по состоянию.

Реализация, квазиреализация ОЗОСС, ОР и алгоритм его работы вводятся по аналогии с КООСС (п. 1).

4. Оптимальная размыкаемая связь по выходу

В п. 2 используемая информация о неопределенности носила априорный характер - она не изменялась в процессе управления. Ниже исследуется задача оптимального управления, в которой априорная информация о

4

неопределенности уточняется в процессе управления по мере поступления сигналов от устройств, неполно и неточно измеряющих текущие состояния объекта управления и действующие на него возмущения. Кроме того, дополняется априорная информация о неопределенности.

В классе дискретных управляющих воздействий u(-) рассмотрим задачу (рис. 3):

с'ж(Г) ^ max; (4.1)

ж = А(^ж + B(t)u + M(t)w(t),t € T; ж(^) = ж°; (4.2)

ж(0 € X*; u(t) € U,t € T;

/•O? _____

yw(С) = Cw(v)w(v)dv + Cw(C), Cw(0w) € Hw, i = 1, Nw; (4.3)

yx(^x) = Cx(0xM0x) + Cx(0x),Cx(n € Hx,0x € Tx. (4.4)

Здесь: (4.2) - математическая модель объекта управления; (4.3) -измерительное устройство для входных сигналов; (4.4) - измерительное устройство для выходных сигналов; Tw = {$w € Tu, i = 1,Nw}, t* = < ^w < ••• < 0JV , - множество моментов измерения входных

сигналов; Tx = {0f € Tu, i = 1, Nx}, t* = < ••• < , - множе-

ство моментов измерения выходных сигналов5; yw(0w), 0w € Tw; yx(0x),

0x € Tx, - сигналы устройств по измерению состояния и возмущения

(4.3), (4.4); Cw(0w) € R9?, 6>w € Tw; Cx(^x) € R9*, 6>x € Tx,- неизвестные ошибки измерений (4.3), (4.4); Cx(t) € R9xXnx, t € T, - непрерывная функция; Cw(t) € R9? Xn?, M(t) € RnxXn?, t € T,-кусочно-непрерывные функции; Hw = {C € R9? : C*w < C < Cw}; Hx = {C € R9x : C*x < C < Cx}.

Из системы управления (1.2)-(1.4) выделим подсистему наблюдения, описываемую уравнением (1.2) с u(t) =0, t € T, и соотношениями (1.3),

(1.4).

В задаче (4.1)-(4.4) неопределенность содержат три элемента: математическая модель объекта управления и измерительные устройства

(4.3), (4.4). Дополним априорную информацию о возмущении w(t), t € T. Будем считать, что возмущение w(-) = (w(t) = wi(t) + w2(t) € Rn?, t € T) состоит из регулярной (конечно-параметрической) wi(-) и нерегулярной (кусочно-непрерывной) w2(-) компонент:

w1(t) = L(t)w,w € W1; w2(t) € W2,t € T.

4 Тем самым процесс управления становится адаптивным [5].

5 Нетрудно исследовать задачу (4.1)—(4.4), в которой измерение входных и

выходных сигналов производится чаще, чем коррекция текущих программ.

Здесь L(t) € Rn?Xl, t € T, - кусочно-непрерывная функция; w € R1 -неизвестный вектор возмущения с ограниченным множеством возможных значений Wi = {w € R1 : l*w < Lww < iw, w* < w < w*} (априорное распределение параметра w); Lw € Rm?Xl; w2(t), t € T, - неизвестная кусочно-непрерывная функция со значениями из ограниченного множества W2 = {w € Rn? : ||w|| < ^}, (||ж|| = max |ж^|, ж € Rn).

1<i<n

Замечание 1. В работе ради упрощения выкладок не исследуются наличие неопределенности в начальном состоянии, влияние возмущения на работу измерительного устройства (4.4), а поведения объекта - на работу измерительного устройства (4.3). Кроме того, из ошибок измерений не выделяются регулярные компоненты, из разнообразных типов измерительных устройств [11] рассматриваются лишь простейшие.

Оптимальная априорная (гарантирующая) программа u(-) определяется как в п. 2.

Введем понятие оптимальной текущей (гарантирующей) программы. Предположим, что процесс управления осуществлен на промежутке T-T (т € Tu), выработаны управляющие воздействия u*(■) = u*(t* : т) и записаны сигналы ywT (') = (Ую (^w), ^w € Tw (т) = Tw П T+t),

yxT(■) = (y£(^x), #x € Tx(t) = Tx П T+t), T+t = [t*,T]. “Очистим” сигналы yxT(■) от вклада известных воздействий u*(■): yx°($x) = yx(^x) — Cx(0x) /t° F(0x, s)B(s)u*(s)ds, 0x € Tx(t). Ясно, что сигнал yx°(■) представляет собой выходной сигнал подсистемы наблюдения.

Обозначим: 0(т) = max{0w € Tw(т); 0x € Tx(t)}, 0(т) = t*, если

Tw(т) = Tx(т) = 0; y*(-) = {ywT('),yxT(')}. Пару (т,У*(')) назовем текущей позицией в момент т. Позиции (т, y*(■)) поставим в соответствие текущее распределение параметра w.

Определение 6. Множество W(т, y*(■)) называется текущим распределением параметра w в позиции (т, y*(■)), если оно состоит из тех и только тех w € Wi, которые могут вместе с некоторыми Cw($w) € Hw, 6>w € Tw(т); Cx(^x) € Hx, 0x € Tx(t); w2(t) € W2, t € T+t, породить y*(-) (считаем W(т, y*(-)) = W1 при y*(■) = 0).

Найдем соотношения, которые определяют множество W(т, y*(-)). C помощью формулы Коши для системы (4.2)

ж(^ = F(t, т)ж°(т) + // F(t,s)M(s)w2(s)ds + // F(t,s)M(s)L(s)dtw+ + /T F(t, s)B(s)u(s)ds, t € T-T;

(4.5)

(где ж°ф, t € T+t, - траектория системы ж = А^)ж + B(t)u*, t € T+t; ж(t*) = ж°; T-T =]т, t*]) запишем сигналы измерительных устройств

(4.3), (4.4) в виде:

„й™

у™ (67) = С™ (■и)-Ш2(^-и+

)вт г—1 й™

+ /^ С™(^(-и^ад + £ад(6™), 6™ € Тад(т);

г—1

у0(6х) = Сх(6х)Е(6х,£*)жо + Сх(вх) IIх Е(6х, £)М(*)м2(*)^+

+Сх(6х) /£( Е(6х,£)М(^)Ь(^)^^^ + {х(6х), 6х € Тх(т).

(4.6)

Согласно определению множество Ш(т, У*(0) состоит из тех и только тех и> € Шь для которых при некоторых С™ (6™) € , 6™ € Тад (т);

£х(6х) € Нх,6х € Тх(т); ад2(£) € Ш2, £ € Т+т, выполняются тождества

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

уТ (£) = У™(£) ух0(£) = ух^ £ € Т+т.

С учетом (4.6) они принимают вид: й™

У^(6Т) = , С™(^)^2(^)Й^+

г— 1

й™

+ /^ С™(-^Д-и^ад + £ад(6™), 6™ € Т™(т);

г—1

ух0(6х) = Сх(0х)Е(0х,£*)жо + Сх(6хИ*Г Е(6х, *)М(*)^2(*)^+

+Сх(6х) //^ Е(6х,£)М(^)Ь(^)^^^ + Сх(6х), 6х € Тх(т).

Исключив из этих тождеств члены с (6™), 6™ € Тад(т); £х(6х), 6х € Тх(т), и учтя прямые ограничения на ошибки измерений, получим описание множества Ш(т,у*(-)): множество Ш(т,у*(^)) состоит из тех и только тех ад, на которых при некоторых ад2(£), £ € Т+т, выполняются соотношения

и(6?) < ^(6Г)™-й™

- /й4 С™(^2(^ < (6Г) Д™ € Т™(т);

г— 1

£*х(6х) < Ах(6х)ад- (4.7)

- //; Сх(6х)Е(6х,£)М(*)ад,(*)^ < Сх(6х),6х € Тх(т);

ч ад € Ш1; ад2(£) € Ш2, £ € Т+т,

где е: (с ) = е: - у; (с), и (с ) = и - у; (6г); ^ (6>г ) = й™

-/^ С™№(^, € Т™(т); ех(6х) = ех-ух0(6х)+Сх(6х)Е(6х,£*)жо,

г— 1

е*х(6х) = е*х - ух0(6х) + Сх(6х)Е(6х,£*)жо;

^х(6х) = -Сх(6х) //Г Е(6х,£)М(*)£(*)^, 6х € Тх(т).

Множеству Ш(т, у*(^)) соответствует множество Х£(т, у*(•)) = (ж € МП( : ж = ж(т|£*,жо,и*(0,адг(•)), ^ € Ш(т,у*(•)), ад2(£) € Ш2, £ € Т+г} -распределение текущего состояния ж(т) системы управления. Последнее вместе с управляющим воздействием ит(•) = и(т : £*) порождают множество Х£*(ит(-)|т, у*(-)) = (ж € МП( : ж = ж(£*|т, ж(т), ит(0,адт(•)), ж(т) € Х£(т,у*(^)), ад € Ш(т,у*(^)), ад2(£) € Ш2, £ € Т-т} - текущее распределение терминального состояния системы управления.

Определение 7. Доступное воздействие ит (•) будем называть текущей (гарантирующей) программой для позиции (т, у*()), если ХС(ит(0|т,у*(0) С X*.

Найдем соотношения, которые описывают текущую программу. Пусть ж(£*) = ж(£*|т, ж(т),ит(•),ЭДГ(•)) - терминальное состояние системы (4.2), соответствующее состоянию ж(т), управляющему воздействию ит(•) и возмущению (•). На доступном управляющем воздействии

ит(•) терминальное ограничение Н'ж(£*) < д* будет выполняться при всех ад € Ш(т, у*()), ж(т) € Х£(т, у*(•)), ад2(£) € Ш2, £ € Т-т, тогда и только тогда, когда

max h'x(t*) < g* Vw € W(т, y*(-)),

(4.8)

Vx(t) € Х£(т,у*(■)), Vw2(t) € W2,t € T-T.

С учетом формулы Коши (4.5) неравенство (4.8) принимает вид:

h'F(t*, т)ж0(т) + /Т h'F(t*,t)B(t)u(t)dt+

max[/tt h'F(t*,t)M(t)w2(t)dt + h'F(t*, t)M(t)L(t)dtw] < g*,

w € W(т, y*(-)), w2(t) € W2,t € T. Положим p' = /* h'F(t*,t)M(t)L(t)dt, g* = g* —

<i = а*(т,У*(')) = max (P'W + JiV (t*,t)M(t)w2(t)dt),

w,w2(0 (4.9)

w € W(т, y*(-)),w2(t) € W2,t € T.

Тогда из (4.8) получим:

/■t*

h'F^*,т)х0(т) + J h'F(t*, t)B(t)u(t)dt < g*j. Аналогичным образом из ограничения g*' < h'x(t*) следует неравен-

ство

/• **

д*гг < Н'Е(£*,т)ж0(т) + J Н'Е(£* ,£)В(£)и(£)^, д*™ = д*' - а*г', а*тг = а*'(т,у*(^)) = шп (р> + Л,'Е(£*,£)М

. (4.10)

ад € Ш(т, у*(-)), ^2(£) € Ш2, £ € Т.

Объединив (4.9), (4.10), заключаем: доступное управляющее воздействие ит(•) является текущей программой для позиции (т, у*()) тогда и только тогда, когда выполняются неравенства

Сь*

д*т < НЕ(£*,т)ж0(т) + J НЕ(£*, £)В(£)и(£)^ < д*. (4.11)

Из (4.11) следует:

Утверждение 1 (динамическая форма условия допустимости доступного управляющего воздействия). Доступное управляющее воздействие ит(■) - программа для позиции (т, у*(-)) тогда и только тогда, когда оно переводит в момент детерминированную систему

ж = А(£)ж + В(£)и, ж(т) = ж0(т),

на множество

XT* = {x € Rnx : g*r < Hx < g*}.

Качество текущей программы ит(■) оценим с помощью функционала 7(ит(■)) = тш с'ж, ж € Х£ (иТ(■)|т, у*(-)). Тогда гарантированное значение 7(ит(■)) критерия качества задачи (4.1)—(4.4) на программе ит(■) с учетом формулы Коши (4.5) равно:

7(иТ()) = с'Е(£*,т)ж0(т) + тт с'Е(£*,£)М(£)^2(£)й£+

ТО2(*)е^2,*еТ

+ min /t c'F(t*,t)M(t)L(t)dtw +/т c'F(t*, t)B(t)u(t)dt.

(т,у* (•)) *

Первые три слагаемых в последнем выражении не зависят от uT(■). Следовательно, справедливо

Утверждение 2. Оптимальная текущая программа uT0() = (и0(^т,у*(•)), t € T+т ), на которой J(ит0) = max J(uT), является решением детерминированной задачи:

c'x(t*) ^ max, X = A(t)x + B(t)u, х(т) = х0(т), x(t*) € X*, u(t) € U, t € T+T.

(4.12)

Оптимальная программа мг0(-) для позиции (т, у*(-)) переводит с гарантией в момент времени систему (4.2) из любой точки множества ХС(т, у*(-)) на терминальное множество X* и обеспечивает максимум гарантированному значению критерия качества (4.1).

Из приведенных рассуждений следует, что построение оптимальной текущей программы ит°(-) сводится к последовательному решению сначала задач (4.9), (4.10) для каждого г € I, а затем задачи (4.12). Назовем: (4.9), (4.10) - сопровождающие задачи оптимального наблюдения; (4.12) - сопровождающая задача оптимального управления; а*', а*т' -ьые верхняя и нижняя оценки неопределенности для позиции (т, у*(■)) соответственно; а* = (а*', г € I), а*т = (а*™, г € I); а(т,у*()) = (а*, а*т) - вектор оценок; а - состояние сопровождающей задачи оптимального управления; (т, а) - ее позиция; ^(^т, а), £ € Т+т, - оптимальная программа сопровождающей задачи (4.12).

Отмеченное правило вычисления ит0() выражает свойство разделимости.

Утверждение 3. Для построения оптимальной программы в позиции (т, у*(■)) достаточно сначала решить для позиции (т, у*(■)) 2т независимых сопровождающих задач оптимального наблюдения (4-9), (4-10), а затем по полученным оценкам а решить одну сопровождающую задачу оптимального управления (4-12).

Сопровождающие задачи решаются двойственным методом коррекции оптимальных опор [6].

Пусть УТ(■) - множество всех таких сигналов ут(■), что для позиции (т, ут(■)) существует текущая программа задачи (4.1)-(4.4); Ат = а(т, УТ(■)) - множество всех возможных оценок. Введем определения: 1) функция

и0(т,ут(•)) = и0(т|6(т),у0(гу0(г)(-) € У^?(r)(•), т € Ти (4.13)

- оптимальная размыкаемая (комбинированная, дискретная) связь по выходу в классическом смысле (позиционное решение задачи

(4.1)-(4.4)); 2) а(т,ут(■)), ут(■) € УТ(■), т € Тад, - позиционное решение сопровождающей задачи оптимального наблюдения; 3) функция

и0(т, а) = и0(т|6(т), а), а € А0(г), т € Т„, (4.14)

- позиционное решение сопровождающей задачи оптимального управления; 4) сужение (4.13) на множество сигналов измерительного устройства (4.3) - оптимальная размыкаемая прямая связь по выходу; сужение (4.13) на множество сигналов измерительного устройства (4.4) -оптимальная размыкаемая обратная связь по выходу; 5) если СХ(6) = ЕПхХПх, то (4.13) - оптимальная размыкаемая (комбинированная, дискретная) связь по состоянию.

Функции (4.13), (4.14) связаны соотношением:

и0(т,ут(•)) = и0(т,а(6(т^(т^О^ у^(г)(•) € У^?(т)(•), т € Ти (4.15)

Построение функции (4.13) назовем синтезом оптимальной системы управления по выходу (рис. 3); построение этой функции по формуле (4.15) - синтезом оптимальной системы управления по выходу с использованием принципа разделимости (рис. 4).

Замыкание объекта управления оптимальной связью по выходу без и с использованием принципа разделимости, решение уравнения замкнутой системы проводятся по аналогии с п. 1.

Рассмотрим некоторый конкретный процесс в замкнутой физической системе управления, вызванный реализующимися возмущением ■ш*(£), £ € Т, и ошибками (6™), £ € Тад; ££(6Х), 6х € Тх. Переходный процесс ж*(£), £ € Т, и сигналы у^(6ш), 6™ € Тад; уХ(6х), 6х € Тх,

удовлетворяют тождеству6

ж*(£) = А(£)ж*(£) + В(£)и0(£,у*(■)) + ЭД*(£), ж*(£*) = ж0, £ € Т.

Управляющее воздействие и*(£) = и0(£, у*(-)), £ € Т, которое в процессе управления подается на вход объекта управления, называется реализацией оптимальной связи по выходу. По аналогии с п. 1 вводится понятие квазиреализации оптимальной связи по выходу. Пока не существует эффективных методов синтеза оптимальной системы со связью (4.13).

Рассмотрим систему управления, замкнутую оптимальной связью с использованием принципа разделимости. В конкретном процессе управления с возмущением ад*(£), £ € Т, и ошибками (6™), £ € Тад ; {Х(6Х), 6х € Тх, переходный процесс ж* (£), £ € Т, удовлетворяет тождеству

ж*(£) = А(£)ж*(£) + В(£)и0(£, а(£, у*(-))) + ЭД*(£), ж*(£*) = ж0, £ € Т,

из которого видно, что в процессе управления используются лишь функции а*(£) = а(£,у*(-)), и*(£) = и0(£, а*(£)), £ € Т, представляющие реализации позиционных решений сопровождающих задач.

Предположим, что существуют вычислительные устройства, которые на каждом промежутке [т, т + Н[ способны за время «1(т) вычислять а*(т) (оптимальные эстиматоры сопровождающих задач) и за время •§2(т) - значение и*(т) (оптимальный регулятор сопровождающей задачи), и при этом $1(т) + 82(т) < Н.

Определение 8. Функция

Г и*(£*),£ € [£*,£* + Н + ^ 1 (£* + Н) + 82(£* + Н)[; и**(£) = < и*(т),£ € [т + $1(т) + 82(т),т + Н + «1(т + н) + 82(т + Н)[;

[ и*(£* - Н),£ € [£* - Н + «х(£* - Н) + 82(£* - Н),£*[; т € - Н}

построенная с помощью оптимальных эстиматоров (ОЭ) и регулятора (ОР), называется квазиреализацией оптимальной связи (4-13) с использованием принципа разделимости.

Общая схема оптимального управления в реальном времени изображена на рис. 4. Алгоритм работы ОЭ строится по аналогии с [12]. Алгоритм работы ОР аналогичен алгоритму работы ОР из п. 2.

При фактическом оптимальном управлении в реальном времени основную трудность представляет решение сопровождающих задач оптимального наблюдения (4.9), (4.10). Эти задачи по сложности эквивалентны задачам оптимального управления с промежуточными фазовыми ограничениями [13] и при больших |Ти| требуют большого объема

6 Считаем, что эти сигналы можно смоделировать на математической модели (4.1)-(4.4).

вычислений. Приведем специальный класс задач, для которых можно значительно уменьшить эти трудности.

Пусть возмущение -ш(-) квазирегулярно, т.е. каким бы ни было малым число ^ > 0, можно подобрать такие I и £(£), £ € Т, что для каждого возможного -ш(-) существует вектор и> € Ш1, при котором ||ЭД2(£)|| < ^, £ € Т .В этом случае задача (4.9) с использованием обозначения ^2(£) = ^(£), £ € Т, принимает вид:

а*' = тах(р'-ш + ^ // Н'Е (£*,£)М (£)ш(£)^£),

ад,ш(^) *

{*™(6™) < ^(6™)ад-

—1 (v)w(v)dv < {w(0w),6w € Tw(т);

г-1

{*x(6x) < A*(6x)w—

(4.16)

уж V Q£\

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

—Cx(6x)F(0x,t)M(tMt)dt < {ХГ)Д € ^(т); „ w € Wi, ||w(t)|| < 1, t € T+T.

(Аналогичная задача получается и для вычисления а*т'.)

Задача (4.16) содержит малый параметр ^. Это позволяет для построения ее приближенного решения привлечь специальные методы.

5. Реализация оптимальной замыкаемой связи по выходу

Новый тип оптимальных связей введем для следующей задачи:

c;x(t*) ^ max; (5.1)

x = A(t)x + B(t)u + M(t)w(t), t € T; x(t*) = x0; x(t*) € X*; u(t) € U, t € T;

yw(6w) = Cw(6w)z(6w) + {w(6w), {w(6w) € Sw, 6w € Tw; Z = Aw(t)z + Mw(t)w(t), z(t*) = Zo, t € T;

/•

(5.2)

(5.3)

ух(6Х) = Сх(и)ж(и)^ + {х(6Х), {х(6Х) € Нх, г = 1,Жх. (5.4)

^Х-!

Здесь (5.1) - критерий качества; (5.2) - математическая модель объекта управления; (5.3) - измерительное устройство для входных сигналов; (5.4) - измерительное устройство для выходных сигналов; (£) €

К”-2 ХП2, М™ (£) € К”-2 Хга“, £ € Т, - кусочно-непрерывные функ-

ции; С™(£) € М9гоХП2, Сх(£) € К9хХПх, £ € Т, - непрерывные функции; 20 € К”2; остальные параметры удовлетворяют условиям, приведенным в п. 4.

Относительно возмущения ад(£), £ € Т, предположим, что оно состоит только из регулярной части

■ш(£) = £(£)-ш, £ € Т, (5.5)

с неизвестным вектором ад Є М1 из ограниченного множества Ш = (ад Є М1 : ш* < ад < ш*}.

В общих словах задача (5.1)—(5.5) состоит в формировании в режиме реального времени ограниченных дискретных управляющих воздействий и(£) Є и, £ Є Т, по сигналам устройств (5.3), (5.4). Эти воздействия должны с гарантией переводить систему (5.2) на терминальное множество X* и обеспечивать максимум гарантированному значению критерия качества (5.1). Задачу (5.1)—(5.5) можно назвать задачей оптимального управления в широком смысле, ибо она, в отличие от задачи

(1.1) оптимального управления в узком смысле, описывает не только цель управления, но и указывает, на базе какой информации формируются управляющие воздействия. (Без наблюдения нет управления!)

Прежде чем определить понятие оптимальной замыкаемой связи по

7

выходу, проведем препостериорный анализ сначала подсистемы наблюдения, а затем и всей системы управления.

Подсистемой наблюдения назовем соотношения:

Ж = А(£)ж + М(£)ад(£), £ Є Т; ж(£*) = ж0; (5.6)

(5.7)

у™(Г) = (бадмг) + (бад), ^(бад) Є , г Є Т

і = (£)і + Мад(£)ад(£), і(£*) = іо, £ Є Т;

ух(6х) = Сх(и)ж(и)^ + {х(6х), {х(6х) € Нх, г = 1,Хх. (5.8)

•%!

Из-за неопределенности вектора и> терминальное состояние ж(£*|ад) подсистемы наблюдения (5.6), играющее важную роль во многих задачах управления, можно найти лишь с точностью до множества

Г**

Х* = {ж € КПх : ж = Е(£*,£*)ж0 + Е(£*,£)М(£)£(£)^£ад, ад € ^}.

Л *

(5.9)

Множество (5.9) назовем априорным распределением терминального состояния подсистемы наблюдения.

При определении множества использовалась априорная информация только о математической модели (5.6) объекта наблюдения, но не принималась во внимание априорная информация об измерительных устройствах (5.7), (5.8). Учет априорной информации о всей подсистеме наблюдения (5.6)-(5.8) осуществим до начала процесса наблюдения с помощью препостериорного анализа.

Введем множество (виртуальных) моментов замыканий Тз =

Тзад и ^ где Тзад ^ Тад, Тзх ^ Тх. Если Тзад = Тад и Тзх = Tx, то будем

говорить о полном препостериорном анализе, в противном случае - о частичном.

7 Препостериорный анализ - анализ рассматриваемого, но еще не проведенного процесса наблюдения.

Выбрав произвольные w € W, {w(6w) € Sw, где 0w € T^; {x(6x) €

Sx, 6x € T^, просимулируем в подсистеме наблюдения виртуальный переходный процесс X(t), t € T, и по виртуальным сигналам y(-) = {yw (6w), $w € T;jw; yx(6x), 6x € T**} определим апостериорное распределение [14] терминального состояния Xf* (y(-)) как множество таких и только таких терминальных состояний подсистемы x € Xf*, которые вместе с некоторыми вектором w € W и ошибками измерений {w(6w) € Sw, 6>w € Tзw; {x(6x) € Sx, 0X € Tзx, могут породить y(-).

В качестве числовой характеристики (оценки) множества Xf* (y(-)) в заданном направлении q возьмем величину (ширину множества):

d(y(')|q) = max q'x — min q'x = max q' (X — x).

xeXj* (bf(-)) xex° («(•)) x,xeX° («(•)) V '

Пусть Y - множество всех возможных виртуальных сигналов y(-).

Определение 9. Число

d0(q) = maxd(y(-)|q), y(-) € Y, (5.10)

назовем максимальной шириной (начальной препостериорной оценкой) множеств Xf*(;(•)), y(-) € Y, в направлении q.

Вычисление оценки (5.10) называется начальной задачей оптимального препостериорного наблюдения (для направления q), а ее результат - начальным препостериорным решением (для направления q).

Пусть Q — конечная совокупность единичных ^-векторов (направлений), в которой каждая совокупность из nx векторов линейно-независима.

Определение 10. Множество

Xt* = {x € : —d0(q)/2 < q'x < d0(q)/2, q € Q}

будем называть начальным препостериорным распределением (по совокупности Q) в момент времени t*.

Утверждение 4. При |Q| < nx во множество Xt* можно поместить каждое из множеств Xf*(y(-)), y(-) € Y.

Запишем задачу (5.10) в аналитической форме. Согласно (5.6)-(5.8) имеем

yw(6w) = Cw (6w )Fw (6w ,t*)Z0+

+ jf Cw(Г)Fw(6w,t)Mw(t)L(t)dtw + {w(Г), 6w € Tзw;

yx(6x) = J^X Cx(v)F (v,t*)x0dv+ (5.11)

г- 1

!X

+ Cx(v) /;* F(v, t)M(t)L(t)dtdvw + {x(6x), 6X € Tзx;

( к(*,т) = К(£)Е-!(т); к(*) € Мга*Хга*, I € Т : (*)К,

(£*) = Е).

Из определения апостериорного распределения терминального состояния следует, что множество Х°* (у (■)) состоит из всех таких ж € М”х, которые удовлетворяют соотношениям:

ж = Е(£*,£*)ж0 + /4* Е(£*,£)М(£)£(£)^ад,

и < Я;(6;)ад - с™(6;)Е;(6™,£*)іо + у™(6;) < е;, 6; Є Тз™; йх

е*х < Аи(6х)ад - Сх(^)Е(V, £*)ж°^ + уж(6Х) < ЄХ, 6х Є Тзх;

г— 1

ш* < ад < ш*,

где

Обозначим

Я;(6™) = -/£ С;(6;)Е;(6™,£)М;(£)£(£)гі£;

А*(6Х) = - /# 1 Сх(^) £ Е(V, £)М(£)£(£)^.

г— 1

Л і *

(5.12)

9х = 9 / Е(£*,£)М(£)Ь(£)^£. (5.13)

Л*

Используя соотношения (5.11) и обозначения (5.12), (5.13), заключаем, что начальная задача оптимального препостериорного наблюдения

(5.10) представляет задачу линейного программирования:

^°(д) = Щах _ 9х;(й — ад),

гй,;,гй,£та (0,5х(0 е*: < Я; (6™)(и - ад) + £: (6™) < е™, е*: < £>: (6™)(ад - ад) + Є™ (6™) < Є:, 6™ Є Тзад;

;\Ш. ш) \ Ц:\

Є*х < Ах (6х) (и - ад) + Єх(6х) < ЄХ,

х\

(5.14)

Є*х < А*(6х)(ад - ад) + Єх(6х) < ЄХ, 6х Є Тзх; ш* < ад < ш*, ш* < ад < ш*, ш* < ад < ш*; и < 1(6;) < е;, 6; Є Тзад; е*х < Єх(6х) < ех, 6х Є Тзх,

где £;(■) = (£:(6;), 6; Є Тзад}, |х(-) = (їх(6х), 6х Є Тзх}. Поскольку препостериорный анализ проводится до начала процесса наблюдения (управления), то время решения задачи (5.14) не существенно.

Проведем препостериорный анализ для текущего момента т Є Т; и Тх процесса наблюдения, считая, что наблюдение уже осуществлено на промежутке Т+т и по записанным сигналам у*(-) = (у™(6™), 6™ Є Т; П Т+т; ух (6х), 6х Є Тх П Т+т} определено текущее распределение Ш(т, у*(-)) вектора ад, соответствующее позиции (т, у*(-)). Оно состоит из таких и только таких ад Є Ш, которые способны вместе с некоторыми ошибками измерений е;(6™) Є Е; , 6™ Є Т; П Т+т; Єх(6х) Є Ех, 6х Є Тх П Т+т, породить у*(■). __

Выберем произвольные ад Є Ш(т, у*(-)), е;(6™) Є Еш,

6™ Є Тз;ПТ-т; ех(6х) Є Нх, 6х Є ТзхПТ-т, просимулируем в подсистеме

наблюдения виртуальный переходный процесс ж(Ь), Ь € Т т; ж(т) = Е(т, Ь*)ж0 + /4т Е(т, Ь)М(Ь)£(Ь)^Ьад. По записанным у*(-) и виртуальным ут(') = {у™(6™), 6™ € Тзад П Т-т; ух(6х), 6х € Тзх П Т-т} измерениям определим апостериорное распределение терминального состояния Х* (ут(*)|т,у*(■)) для позиции (т,у*(■)). Множество (ут(*)|т,у*(■)) со-

ставим из всех терминальных состояний системы (5.6), которые вместе с некоторыми и> € ^, ошибками измерений (6™) € Над, 6™ € (Тш П Т+т) и (Тз™ П Т-т); £х(6х) € Нх, 6х € (Тх П Т+т) и (Тзх П Т-т), могут породить у^-^ ут(-).

Текущей шириной множества Х°* (ут(■) |т, у* (■)) в направлении ц назовем число

^(ут(-)|о, (т,у*(■)))= тах о'ж - тіп о'ж

хЄХ° (Г(•)|т,у*(•)) хЄХ° (Г(•)|т,у*(•))

= тах д'(Ж - ж).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

х,жЄХ° (уТ(•)|т,у*(•))

Пусть К(т, у*(■)) — множество всех возможных виртуальных сигналов ут(■) для позиции (т,у*(')).

Определение 11. Число

й0(ц|т,у*(-)) = шах^(ут(-)|ц, (т,у*(-))), ут(■) € У(т,у*(■)), (5.15)

будем называть текущей максимальной шириной (текущей препосте-риорной оценкой) множеств Х°*(ут(■)|т, у*(■)), ут(■) € У(т, у*(■)) в направлении ц, или текущим препостериорным решением задачи оптимального наблюдения (препостериорным решением задачи оптимального наблюдения для текущей позиции).

Определение 12. Множество

х * (т,у*(-)) =

= (ж Є МПх : -^°(д|т, у*(-))/2 < д'ж < ^°(д|т, у*(-))/2, 9 Є ф},

называется текущим препостериорным распределением в момент времени £*.

Утверждение 5. При |ф| < пх во множество Хц * (т, у*(-)) можно поместить каждое из множеств Х°*(ут(■)|т, у*(-)), ут(■) € У(т,у*(-)).

По аналогии с начальной задачей (5.10) нетрудно показать, что в аналитической форме задача (5.15) имеет вид:

^0(ц|т,у*(-)) = тах _ дх/(ш — ш),

(•),££ (•)

е*™ < ^(6™)ш — с™(6™)Е™(6™,Ь*)20 + у*(6™) < е;, е*™ < ^(6™)ш — с™(6™)Е™(6™,**)*)+ +у; (6™) < е;, 6w € т™ п т+т ;

е*х < Ах(6гх)ш — 1 Сх(^)Е(М*)ж0^ + ух(6х) < еX,

г— 1 лх

е*х < Ах(6гх)ш — /лхг Сх(^)Е(V, Ь*)ж0^и+

г—1

< +ух(6х) < ех, 6х € Тх П Т+т; (5.16)

е*™ < ^(6™)(ш — ш) + е™(6™) < е;,

е*™ < ^ (6™)(ш — ш) + С™ (6™) < е: ,6™ € Тз™ П Т-т;

е*х < Ах(6х)(ш — ш) + е'х(6х) < ех,

е*х < Ах(6х)(ш — ш) + е'х(6х) < ех, 6х € Тзх П Т-т;

ш* < ш < ш*, ш* < ш < ш*, ш* < ш < ш*;

е*™ < е™ (6™) < е™ ,6™ € Тз™ и Т-т;

^ е*х < е'х(6х) < ех, 6х € Тзх и Т-т,

где е;(■) = {е™(6™), 6™ € Тз™ П Т-т}, ех(■) = {е'х(6х), 6х € Тзх П Т-т}.

При позиционном управлении для формирования текущих управляющих воздействий (с целью получения достаточно полной информации

о неопределенности) оценки ^0(д|т, у*(-)) вычисляются для нескольких векторов (направлений) д € 3.

Определение 13. Вектор Ат,у*(-)) = (^0(д|т,у*(■)), д € 3) назовем вектором достаточных оценок для позиции (т,у*(-)).

Пусть У* - совокупность всех возможных сигналов у*(■) измерительных устройств (5.7), (5.8), которые могут быть записаны к моменту т.

Определение 14. Функцию

й0(т, у*(■)), у*(') € Ут*, т € Т™ и Тх, (5.17)

будем называть позиционным решением задачи оптимального препо-стериорного наблюдения, ее построение - синтезом оптимальной системы препостериорного наблюдения.

Знание позиционного решения (5.17) позволяет для каждой возможной позиции (т, у*(■)) получать достаточные оценки и на их основе формировать оптимальные управляющие воздействия в системе а) с оптимальной замыкаемой связью по выходу, если в процессе наблюдения используется частичный препостериорный анализ; Ь) с оптимальной замкнутой связью по выходу, если используется полный препостериорный

анализ. В настоящее время такой (классический) метод синтеза оптимальной системы осуществить невозможно, поскольку пока нет методов построения позиционного решения (5.17).

Как видно из предыдущего, позиционное решение (5.17) строится до начала процесса наблюдения для всех возможных позиций, что требует хранения огромного объема информации. В современную эпоху бурного развития вычислительной техники представляется естественным другой способ оптимального наблюдения, при котором функция (5.17) не строится, а необходимые для управления ее текущие значения вычисляются по ходу процесса.

Для описания такого способа наблюдения прежде всего выясним, как используется позиционное решение в конкретном процессе наблюдения. Предположим, что позиционное решение (5.17) построено. Рассмотрим некоторый конкретный процесс наблюдения, в котором реализовались неизвестные ш*, е™(6™), 6™ € Тад; ех(6х), 6х € Тх. Эта совокупность породит в подсистеме (5.6)-(5.8) переходный процесс ж*(Ь), Ь € Т, и известные сигналы у™(6™), 6™ € Тад; ух(6х), 6х € Тх. По этим сигналам, зная позиционное решение (5.17), легко найти текущие оценки ^*(т) = ^0(т,у*(-)), т € Тад и Тх. Отсюда следует, что в конкретном процессе наблюдения позиционное решение (5.17) не используется целиком, нужны лишь его значения вдоль отдельной последовательности сигналов у*(-), т € Тад и Тх.

Определение 15. Функцию ^*(т), т € Тад и Тх, назовем реализацией позиционного решения в конкретном процессе наблюдения.

В силу указанных выше причин осуществить такой способ наблюдения в настоящее время невозможно. Опишем другой способ оптимального наблюдения - оптимальное наблюдение в режиме реального времени. Предположим, что для каждого момента т € Тад и Тх существует метод вычисления значений ^0(т, у*(■)) за время зО(т), не превосходящее Л.

Определение 16. Функция

( (^0(д), д € 3), Ь € [Ь*,В* + зО(В*)[;

^**(Ь) = < ^*(т), Ь € [т + зО(т),В + зО(г)[, т € Тад и Тх;

I Й*(Ь*), Ь € [£* + 5О(Ь*),Ь*[,

где В = т1п{т € ТадиТх : т > Ь}, Ь = тах{т € ТадиТх : т < Ь}, называется квазиреализацией позиционного решения.

Устройство, способное строить квазиреализацию назовем оптимальным эстиматором (ОЭ). Другими словами, квазиреализация - это реализация позиционного решения с учетом затрат времени на вычисление ее текущих значений.

Таким образом, проблема синтеза оптимальной системы наблюдения сводится к построению алгоритма работы ОЭ.

Алгоритм работы ОЭ. Поскольку вычисления по каждому направлению д Є Q можно вести параллельно, то алгоритм работы опишем только для одного ОЭ. До начала процесса наблюдения ОЭ двойственным методом решает задачу (5.14), вычисляя тем самым начальную препостериорную оценку ^°(д) и соответствующую оптимальную опору К°(д,£*).

Пусть ОЭ проработал на промежутке Т+т, по полученным сигналам у*(■) построил оптимальную опору К°(д,т) для позиции (т, у*(-)) и вычислил текущую препостериорную оценку ^°(д|т,у*(')). В следующий ближайший момент измерений Г становятся известными сигналы а) у^(г), если Г Є Тад; Ь) у£(Г), если Г Є Тх; с) оба сигнала а), Ь), если

ОЭ на промежутке [Г, Г + з°(Г)[ решает задачу (5.16) для позиции (г,уї(-)). Эта задача отличается от решенной на предыдущем шаге задачи (5.16) для позиции (т, у*(-)) тем, что добавляются ограничения

Новую задачу ОЭ решает двойственным методом, корректируя оптимальную опору К°(д,т) задачи, решенной на предыдущем этапе, до построения оптимальной К°(д, Г). Поскольку эти задачи отличаются между собой незначительно, то с помощью двойственного метода можно быстро скорректировать текущую опору К°(д,т).

Замечание 2. В качестве множества возможных значений вектора ад можно рассматривать Ш = (ад Є М1 : 1*ад < ад < < ш*},

г Є Тад П Тх.

а)

{*ад < Аад(т)ад - (г)Еад(г, £*)2° + у^(г) < ,

{*ад < Аад(Г)ад - (Г)Еад(Г, £*)2° + у^(Г) < ;

{*х < Ах(6х)ад - /в?г 1 (М*)х°^ + уХ(6х) < {Х

г—1 й!

{*х < Ах(6х)ад - /й X 1 Сх(^)ЕК і*)х°^ + уХ(6>х) < {Х 6х = Г;

г—1

' {*™ < Аад(г)ад - (г)Еад(г,£*)2° + у^(г) < ,

6™ < Аад(Г)ад - (Г)Еад(Г, і*)2° + у^(Г) < ;

й!

/- ^ Т~\ / Ґ\ҐГ‘\ — С® А і/ \ Т~) / 1 \ 7 і * / /Ю"

и удаляются ограничения

Є Мт» х1

Замечание 3. Неопределенным может быть и начальное состояние х0 € X* = {х € М”х : х = £0V, V € V = {V € М”щ : 1*^ < ^V < I*, V* <

V < V*}}, £0 € М”*х”^, ^ € М™1Х”^.

Результаты препостериорного анализа подсистемы наблюдения проиллюстрированы на примере.

Пример 1. Математическая модель объекта наблюдения

X + 2.7х = 0.5Ц£); х(0) = 0.8, Х(0) = -1.0, Т = [0,12] ;

измерительные устройства

У™ = £ + С™(£), |С™(£)| < С^; ^ + 1.8г = ад(£), я(0) = -3.0;

Эх _____

Ух(6Х) = 1 (х + х)^ + Ыб^ |С*(0Х)| < СХ г = 1, Хж;

г— 1

возмущение

ад(£) = ад1 sin(^) + ад2 sin(3^) + адз 8т(5£), £ € Т;

(ад1,ад2, ад3) € Ж = {ад € М3 : |ад^| < 1.6, г = 1, 3};

Я = (9(г) = (cos(пг/12), sin(пг/12)), г = {1,2,.., 24}).

Цель эксперимента - построение начальных и текущих препостери-орных распределений в терминальный момент времени.

В первой серии экспериментов полагалось С^ = 0.1, СХ = 0.1, и распределения строились для следующих случаев (Рис. 5, х1 = х, х2 = х): 1. X*0* = {х € М”х : х = /£*Е(Г,*)М(*)£(*)^ад, w € Ж}; 2. X**, Тз™ = Тзх = {9}; 3. Х* *, Тзад = Тзх = {6}; 4. Д* *, Тзад = Тзх = {3,6,9}; 5. X**, Тз™ = Тзх = {1, 3, 6, 9,11}; 6. X* *, ТзШ = ТзЖ = {1, 2,..., 11}.

Рис. 5.

Во второй серии считалось Тз: = Тзх = {3,6,9}. В первой части серии полагалось СХ = 0.1 и рассмотрены случаи (Рис. 6а): 1. X0*; 2. X* *, с: = 0.6; 3 X* *, с: = 0.3; 4. X* *, ^ = 0.1; 5. X**, ^ = 0.05; 6. X* *, С™ = 0.005. Во второй части полагалось = 0.1 и были рассмотрены

случаи (Рис. 6Ь): 1. Х0*; 2. X**, £Х = 0.6; 3. X**, СХ = 0.3; 4. X*, £Х = 0.1;

5. X* *, ££ = 0.05; 6. X* *, ££ = 0.005. В третьей части рассмотрены случаи (Рис. 6с): 1. Х0*; 2. X**, ^ = 0.35, £Х = 0.35; 3. X* *, ^ = 0.3, £Х = 0.5;

4. X**, а = 0.2, £Х = 0.2; 5. X*, ^ = 0.1, СХ = 0.1; 6. X**, ^ = 0.05, СХ = 0.05; 7. X**, £; = 0.05, СХ = 0.005.

а) Ь)

с)

Рис. 6.

В третьей серии экспериментов были построены текущие препосте-риорные распределения при = 0.1, {Х = 0.1. При этом значения элементов симуляции имели вид: вектор ад* = (0.2, -1.0, -1.2), ошибки измерений (£) = со8(3£), ££(£) = СХ 8ш(5£), £ € Т. На Рис. 7а мно-

жества получены с полным препостериорным анализом при Тад = ТХ = Тзад = Тзх = {3, 6, 9}: 1. X**; 2. X* * (т, у*(-)), т = 3. На Рис. 7Ь множества получены с частичным препостериорным анализом при Тад = ТХ = {1, 2,..., 11}, Тзад = Тзх = {3, 6, 9}: 1. X**; 2. X* * (т,у*(■)), т = 2.

а)

Рис. 7.

Ь)

Продолжим препостериорный анализ задачи теперь уже для всей системы управления (5.1)—(5.5). Для каждого момента замыкания ^ € Тз, ] = 1,р, £* < £1 < £2 < ••• < £р < £*, построим множества замыкания Хр, Хр-1, •••, X1.

Начнем с множества Хр. Введем обозначения: Х4°+0 - начальное пре-постериорное распределение для подсистемы наблюдения в момент времени £, построенное по виртуальным сигналам из промежутка [ £* ,£]; Х4°_о - по сигналам из промежутка [£*,£[. Пусть Х4°+о, Х4°-о - начальные препостериорные распределения в моменты времени £р и £* соответственно. Положим Х^+о^) = z + Х4°+о. Введем множество ^р, состоящее из всех таких векторов z € , для которых существу-

ют доступные управляющие воздействия и(£р : £*|Х4с+о^)) такие, что

4- Ф

хс(и(£р : £*^С+о^ = {Е(£*,£р> + 4 Е+о(£;))^ + Хр _о} С X*. Семейство множеств

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хр = {Хср+о(^, z € Я} будем называть множеством замыкания системы управления в момент

£р.

Х^'+1. По построенным к этому моменту множествам Х. +о, Х.+-, _ определим

Предположим, что определены непустые множества Хр, Хр 1

Ю Л

. +0, Х.+1_о

^ = {z € МПх : ЭДХ. +о(z)) € и, £ € [£,■ : £^-+1[, Х.+1 (и(£,- : ^Х. +о(z))) С Х^1},

где Х.+1 (и(^' : ^'+1|Х. +0(z))) = Е(^ + Ь ^)z + /^. + 1 Е(^+1, «)В(«)-

и(«|Х. +0(^« + Х.+1-о. Положим

Х^ = {Х. +о(z), z € ^}•

х

х

Продолжая процесс, построим Х7, ] = 1,р. Пусть выполняется включение Х£1 (и(£* : £1|х0)) = /^ Е(£1, 5)В(5)и(«|ж0)^5 + Х^ С Х1. Совокупность и(-) = {и(£* : £1|ж0); и(£1 : £2|Х), Х € Х1; •••; и(£р : £*|Х), Х € Хр} назовем начальной замыкаемой программой. С ее помощью можно перевести систему (5.2) на терминальное множество при любых реализациях неопределенности, если проводить измерения в моменты £ €

Т,

Выберем число в > ттс'ж, ж € X*, заменим множество X* на X*в = X* П {ж € : с;ж > в} и, следуя приведенным выше правилам,

построим множества Хрв, Хр-1в, •••, Х1в. Наибольшее в0, при котором существует начальная замыкаемая программа, равно максимальному гарантированному значению критерия качества задачи (5.1)-(5.5). Совокупность и0(-) = {ив°(£* : £1|ж0); ив°(£1 : £2|Х), Х € Х 1в°; •••; ив°(£р : £*|Х), Х € Хрв } назовем оптимальной начальной замыкаемой программой (программным препостериорным решением).

Позиционное препостериорное решение задачи управления введем, следуя классическому правилу, с помощью оптимальных текущих замыкаемых программ. Пусть т € Тад и Тх - текущий момент, процесс управления осуществлен на промежутке Т_т, выработаны управляющие воздействия и*(■) = и*(£* : т) и записаны “очищенные” от и*(■) сигналы у*(-) (сигналы измерительных устройств объекта наблюдения), известные к моменту т .Обозначим: ТТ = ТзПТ_т = {£&(т ),£&(т )+1, •••,£р}, £к(т) = тш{£ € Тз : т < £}; ТТ = 0, т > £р. Заменив априорную информацию {£*, Ш} на текущую {т, Ш(т, у*(-)}, проведем описанный выше препостериорный анализ по выходу на промежутке времени Т_т. В результате получим множества замыкания Хр(т, у*(-)), Хр-1(т, у*(-)), • • •, Хк(т)(т, у*(■)) и определим оптимальную текущую замыкаемую программу и0(£|т, у*(-)), £ € Т+Т, для позиции (т, у*(■)). Заметим, что при т > £р оптимальная текущая замыкаемая программа превращается в размыкаемую [12].

Обозначим через У^(т)(-), т € Ти, множество всех сигналов у#(т)(-), для которых в позиции (0(т),у^(т)(■)) существует замыкаемая программа; 0(т) = тах{0ад € Тад П Т+т; 0х € Тх П Т+т; £*}.

Определение 17. Функционал

и°(т,Ут(-)) = и°(т|0(т),у0(т)(•)), у^(т)(•) € ^(т)^ т €

называется оптимальной замыкаемой (комбинированной, дискретной) связью по выходу (ОЗСВ) (позиционным решением задачи управления в классе замыкаемых связей по выходу). Построение ОЗСВ - синтез оптимальной системы управления в классе замыкаемых связей по выходу.

Отметим, что если т > £р, то ОЗСВ становится оптимальной размыкаемой связью по выходу.

При управлении динамическими объектами по классическому принципу замкнутого контура ОЗСВ должна строиться до начала процесса управления, что пока не удается сделать даже для оптимальных обратных связей по состоянию.Поэтому, как и в случае оптимального наблюдения, будем придерживаться принципа оптимального управления в реальном времени, при котором ОЗСВ не строится целиком, а в каждом конкретном процессе управления ее текущие значения (реализация ОЗСВ) и*(т) = u0(r, y*(-)), т € Tu, формируются оптимальным, регулятором (ОР) за время sc(т), причем s0(t) + sc(t) < h.

Определение 18. Функция

Г u* (t*), t € [t*, t* + h + so(t* + h) + sc(t* + h)[; u**(t) = t u*(t), t € [т + s0(t) + sc(t), т + h + s0(t + h) + sc(t + h)[;

{ u*(t* - h), t € [t* - h + so(t* - h) + sc(t* - h), t*[; т € T«\{t*,t* - h}, построенную с помощью ОС и ОР, называется квазиреализацией ОЗСВ.

Алгоритм работы ОР. До старта процесса управления ОР проводит начальный препостериорный анализ и строит множества замыкания , Xр-1в,..., X1в, где в = minc'x, x € X*.

Опишем метод построения Хрв (остальные множества замыкания строятся аналогичным образом). Пусть nt *(q) = maxq;x, x € Xt°_o, nt*(q) = min q;x, x € Xt°-o, - оценки начального препостериорного распределения в направлении q в терминальный момент времени. Тогда Хрв = Xt°+o + , где состоит из всех z € , на которых

выполняются неравенства:

’ g*i - *(hi) < h'F(t*,tp)z+

< +hi /tp F(t% s)B(s)u(s)ds < g* - rjt *(hi), г € I; в - nt*(c) < c'F(t*,tp)z + С ft* F(t*,s)B(s)u(s)ds; u(t) € U, t € [tp, t*].

Отметим, что оценки вычисляются вдоль направлений hi, г € I; с, так как множество X*в, по которому строится Хрв, определяется этими направлениями.

Пусть построены множества Хрв, Хр-1в,..., X1в; H1в - направления, по которым строится внешняя аппроксимация множества X1в; Y1e = (Y1e(q), q € H1e), y 1e(q) = max q'x, x € X1в - оценка множества замыкания в момент t1 вдоль направления q; y0 = (Y0(q), q € H1в),

Y0(q) = max q;x, x € Х° - оценка априорного распределения X° состояния подсистемы наблюдения вдоль направления q в момент времени tb Начальная замыкаемая программа u(t), t € [t*, t1 [ является решением задачи (5.18):

{а ^ min ;

a, u(t * :ti)

н1в /£ F(t1, s)B(s)u(s)ds - а < y 1e - Y0; (5Л8)

u(t) € U, t € [t *, t1[.

Пошагово увеличивая в и решая задачу (5.18) двойственным методом (итерации начинаются с пустой опоры), ОР строит оптимальную начальную замыкаемую программу u°(-), вычисляет максимальное значение e0(t *) = в0 критерия качества, оптимальную опору K0(t*) и формирует множество S* (£*) опорных индексов управляющих воздействий, которые будут “заморожены” в ближайший следующий момент измерений i*. В качестве начальных опор при решении задач линейного программирования берутся пустые опоры. Поскольку операции проводятся заранее, то затраты времени несущественны.

На вход объекта управления ОР подает управляющее воздействие u *(t) = u0(t), t € [t *,t* + so(t*) + sc(t*)[, где so(t*) и sc(t*) - время

работы ОЭ и ОР соответственно.

Предположим, что ОР проработал на промежутке Т-т, т € Tw U Tx, т < tp, для ближайшего предыдущего момента измерения т построил оптимальную замыкаемую программу u-0(-|r,ут(■)), соответствующие ей множества К^т), S* (т) и вычислил максимальное значение в0(т) критерия качества. ОЭ в момент т получает новый сигнал от измерительных устройств и для текущей позиции (т, у*(■)) решает задачу оптимального препостериорного наблюдения. ОР по результатам работы ОЭ строит множества замыкания Xpe(т, у*(■)), Xp-1e(т, у*(■)),..., Xk(T )в (т, у* (■)) и оптимальную текущую замыкаемую программу

иТ0(-|т,у* (-)).

Приведем метод построения Xрв(т, у*(■)). Пусть nt * (д|т, у*(■)) = maxq'x, x € Xf*-0(т,у*(■)); nt*^|т,у*(■)) = minq'x, x € Xf*-0(т,у*(■)),

- оценки текущего препостериорного распределения в направлении q в терминальный момент времени. Тогда Xpe(т,у*(■)) = Xtp^^,у*(■)) + Zpe(т, у*(■)), где Zpe(т, у*(■)) состоит из всех z € , на которых вы-

полняются неравенства:

’ g ** - nt*(Ь*|т,у*(■)) < h'F(t *,tp)z+ r +hi//p*F(t *,s)B(s)u(s)ds < g* - пИЛ-г1т,у*(-));

в - nt* (с|т, у*(■)) < c'F(t *, tp)z + с' ^ F(t *, s)B(s)u(s)ds;

^ u(t) € U, t € [tp, t *].

Пусть построены множества Xpe(т, у*(■)), Xp-1e(т, у*(■)), ...,

Xk(T)в(т,у*(■)); Hfc(r)в -направления, по которым строится внешняя аппроксимация множества Xk(T)e(т, у*(■)); Yk(T)e(т, у*(■)) =

(Yfc(r)e (q| т, у* (■)), q € Hfc(r)e), Yfc(r )в (q| т, у* (■)) = max q'x, x €

Xk(T)e(т, у*(■)) - оценка текущего множества замыкания вдоль направления q в момент tk(T); Y0(т,у*(■)) = (Y0(qk,у*(■)), q € Hfc(r)e),

Y^h^* (■)) = max q'x, x € X° (т, у*(■)) - оценка текущего распреде-

ления Х°к(т) (т, у*(■)) состояния подсистемы наблюдения вдоль направления q в момент времени t^(r). Текущая замыкаемая программа и(^т,у*(■)), t € [т, tk(T)[, является решением задачи (5.19):

а ^ min ;

а, /(Т) )

< Hk(T)e /rtk(-) F(tk(T), s)B(s)u(s)ds - а <

< Yk(T)в(т, у*(■)) - Y0(т, у*(■)) - Hk(T)e £ F(tfc(T),s)B(s)u*(s)ds; k u(t) € U, t € [т, tk(r)[.

(5.19)

Алгоритм построения оптимальной текущей замыкаемой программы иг0(-|т, у*(■)) начинается со значения в = в0(т) критерия качества и начальной опоры К0(т). Решая задачу (5.19) для в = в0(т), ОР вычисляет оптимальную опору К0(т), формирует множество S* (t) и на вход объекта управления подает управляющее воздействие u (t) = u0(t|т,у*(■)), t € [т + 5°(т) + Йс(т), t + so(t) + sc(t)[.

Описанный метод оптимального управления в реальном времени продемонстрируем на примере.

Пример 2. Критерий качества управления

x(t *) + x(t *) ^ max;

математическая модель объекта управления

x + 2.7x = 0.5u + 0.5w(t); x(0) = -1.0, x(0) = -1.7, T = [0,12];

терминальные ограничения

(x(12),x(12)) € X * = {x € R2 : |xx| < 0.5, |x2| < 0.5};

ограничение на управляющее воздействие

|u(t)| < 1.0, t € T;

измерительные устройства

у™ = z + (t), |£w(t)| < 0.1, t € T; z + 1.8z = w(t), z(0) = -3.0;

ЛЖ _____

ух(6х) = feX— 1 (x + x)dv + |Cx(0x)| < а1, г = 1,Nx;

г—1

возмущение

w(t) = w1 + w2 sin(t) + w3 sin(3t), t € T;

(w1,w2,w3) € W = {w € R3 : |w11 < 2.4, |w2| < 0.8, |w3| < 0.8};

реализовавшиеся в процессе управления возмущение и ошибки измерений

w* = (1.0, -0.1, -0.5), с;(0;) = 0.1ео8(0;), € Т;; £Х(6Ж) = 0.18ш(0Х), 0х € ТХ;

Т; = Тх = {3,6, 9};

множества направлений и моментов замыкания для препостериорного анализа, период квантования управляющего воздействия

Я = (9(г) = (оов(пг/12), 8т(пг/12)), г = {1, 2,.., 24});

Тз = Тз; = Тзх = {6}; Л, = 1.

На рис. 8 представлены априорное и текущие распределения терминального состояния системы наблюдения: 1.Х°*; 2. (т, у*(■)), т = 3;

3. (т, у*(■)), т = 6; 4. (т, у*(■)), т = 9; А - терминальное состояние

подсистемы наблюдения при w(^) = 0, £ € Т.

*1Г

0.81- / -7

и 1

0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1

0 2 4 6 8 10 12

Рис. 9.

Рис. 9 представляет реализации оптимальной замыкаемой (сплошная линия) и оптимальной размыкаемой [12] (пунктирная линия) связей по

-1.6 -1.4 -1.2 -1 -0.8 -0.6 х

Рис. 8.

выходу в конкретном процессе управления. При этом гарантированное значение критерия качества с использованием оптимальной размыкаемой связи по выходу .](и *(■)) = 0.7028, а с использованием оптимальной замыкаемой связи по выходу - .](и*(■)) = 0.7920. На реализовавшейся траектории Х(£), £ € Т, соответствующей оптимальной замыкаемой (комбинированной) связи по выходу, значение критерия качества оказалось равным 0.9250; на реализовавшейся траектории х(£), £ € Т, соответствующей оптимальной размыкаемой двухстадийной (комбинированной) связи по выходу с параметром е = 0.001, значение критерия качества оказалось равным 0.8358.

Фазовые траектории, соответствующие двум типам связей, отображены на рис. 10а; рис. 10Ь содержит в увеличенном масштабе фрагменты фазовых траекторий на заключительном этапе управления; X, X - апостериорные распределения терминальных состояний системы управления.

а) Ь)

Рис. 10.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

В работе рассмотрена задача оптимального управления динамическими системами в условиях неопределенности с использованием различной априорной и текущей информации о поведении объекта управления и неопределенности. Предложены способы реализации нескольких типов оптимальных связей с помощью оптимальных эстиматоров и регулятора. Полученные результаты могут найти применение при решении других (неэкстремальных) задач управления (в частности, задачи стабилизации динамических систем в условиях неопределенности).

Список литературы

1. Фельдбаум А. А. Основы теории оптимальных автоматических систем / А. А. Фельдбаум. — М.: Физматгиз, 1963. — 552 с.

2. Понтрягин Л. С. Математическая теория оптимальных процессов / Л. С. Понт-рягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко. — М.: Наука, 1976. — 392 с.

3. Беллман Р. Динамическое программирование / Р. Беллман. — М.: Изд-во иностр. лит., 1960. — 400 с.

4. Габасов Р. Замыкаемая обратная связь для гарантированной оптимизации неопределенных систем управления / Р. Габасов, Ф. М. Кириллова, Е. А. Костина // Докл. РАН. — 1996. — Т. 347. — № 2. — С. 180-183.

5. Беллман Р. Процессы регулирования с адаптацией / Р. Беллман. — М.: Наука, 1964. — 360 с.

6. Габасов Р. Конструктивные методы оптимизации. Ч.1. Линейные задачи / Р. Габасов, Ф. М. Кириллова, А. И. Тятюшкин. - Мн.: Университетское, 1984. — 214 с.

7. Балашевич Н. В. Численные методы программной и позиционной оптимизации линейных систем управления / Н. В. Балашевич, Р. Габасов, Ф. М. Кириллова // Журн. вычисл. математики и мат. физики. — 2000. — Т. 40. — № 6. — С. 838-859.

8. Балашевич Н. В. Оптимальный регулятор для нестационарной системы / Н. В. Балашевич, Р. Габасов, Ф. М. Кириллова // Докл. РАН. — 2001. — Т. 381. — № 4. — С. 457-462.

9. Балашевич Н. В. Построение оптимальных обратных связей по математическим моделям с неопределенностью / Н. В. Балашевич, Р. Габасов, Ф. М. Кириллова // Журн. вычисл. математики и мат. физики. — 2004. — Т. 44. — № 2. — С. 265-286.

10. Балашевич Н. В. Синтез оптимальных замыкаемых обратных связей / Н. В. Ба-лашевич // Докл. НАН Беларуси. — 2003. — Т. 47. — № 3. — С. 42-45.

11. Габасов Р. Оптимальное наблюдение и управление в линейных системах / Р. Га-басов, Ф. М. Кириллова, Н. С. Павленок // Современная математика и ее приложения. Институт математики АН Грузии. Тбилиси. ]Б8^1512-1712. — 2005. — Т. 23. — С. 7-33.

12. Габасов Р. Оптимальное управление многомерными системами по неточным измерениям их выходных сигналов / Р. Габасов, Н. М. Дмитрук, Ф. М. Кириллова // Тр. Ин-та математики и механики УрО РАН. Оптим. упр. и дифференц. игры: Сб. ст. — 2004. — Т. 10. — № 2. — С. 35-57.

13. Балашевич Н. В. Вычисление оптимальных программы и управления в линейной задаче с фазовым ограничением / Н. В. Балашевич, Р. Габасов, Ф. М. Кириллова // Журн. вычисл. математики и мат. физики. — 2005. — Т. 45. — № 12. — С. 2112-2130.

14. Габасов Р. Союзные задачи управления, наблюдения и идентификации / Р. Га-басов, Ф. М. Кириллова // Докл. АН БССР. — 1990. — Т. 34. — № 9. — С. 777-780.

R. Gabasov, F. M. Kirillova, E. I. Poyasok Optimal real-time control

Abstract. For a linear dynamical system an optimal control problem under uncertainty is investigated. The problem is to steer the system to a terminal set with guarantee and to provide the maximum to the guaranteed value of a cost function. A positional solution based on results of inexact measurements of input and output signals of the control object by two measurement devices is considered. Depending on composition of available for measuring signals, optimal feedforward, feedback and combined loops are defined. By information volume used, optimal disclosable, closable and closed loops are introduced. As construction for the mentioned loops in explicit form is impossible, methods of optimal real-time control by quasirealizing optimal loops to an optimal regulator which produces control actions in real-time mode are described in the paper. The dual method of linear programming and the separation principle of optimal control under uncertainty into optimal observation of uncertainty and optimal control of the determinate system are assumed as the basis of the algorithm of optimal regulators working.

Keywords: observation and control, uncertainty, preposterior analysis, disclosable and closable loops, real-time control, optimal estimator, optimal regulator.

Габасов Рафаил, доктор физ.-мат. наук, профессор, Белорусский государственный университет, 220030, Беларусь, Минск, пр. Независимости, 4, тел.: (+375 17) 209-50-74, (kirill@nsys.by)

Кириллова Фаина Михайловна, доктор физ.-мат. наук, профессор, Институт математики НАН Беларуси, 220072, Беларусь, Минск, ул. Сурганова, 11, тел.: (+375 17) 284-27-92, (kirill@nsys.by)

Поясок Елена Ивановна, аспирант, Белорусский государственный университет, 220030, Беларусь, Минск, пр. Независимости, 4, тел.: (+375 17) 209-50-74, (elena_pojasok@mail.ru)

Gabasov Rafail, doctor of sciences in physics and mathematics, professor, Belarussian State University, 220030, Minsk, Belarus, av. Nezavisimosti, 4, phone: (+375 17) 209-50-74, (kirill@nsys.by)

Kirillova Faina Mihailovna, doctor of sciences in physics and mathematics, professor, Institute of Mathematics, Belarussian Academy of Sciences, 220072, Belarus, Minsk, st. Surganova 11, phone: (+375 17) 284-27-92, (kirill@nsys.by)

Poyasok Elena Ivanovna, post-graduate student, Belarussian State University, 220030, Minsk, Belarus, av. Nezavisimosti, 4, phone: (+375 17) 20950-74, (elena_pojasok@mail.ru)

i Надоели баннеры? Вы всегда можете отключить рекламу.