V- l™|■■■■ О
2023. Т. 46. С. 19—34
Онлайн-доступ к журналу: http://mathizv.isu.ru
Серия «Математика»
Научная статья
УДК 517.977.5 MSC 93C05, 49N35
DOI https://doi.org/10.26516/1997-7670.2023.46.19
Синтез субоптимальных обратных связей в линейных задачах оптимального управления методом опорных векторов
Н. М. Дмитрук1и, М. А. Готовец1
1 Белорусский государственный университет, Минск, Республика Беларусь И dmitrukn@bsu.by
Аннотация. Рассматривается проблема синтеза обратных связей для двух линейных задач оптимального управления: терминальной задачи и задачи минимизации полного импульса управляющего воздействия. Основной результат работы — метод построения субоптимальных обратных связей в рассматриваемых задачах, основанный на линейной бинарной классификации данных, получаемых в процессе симуляции или при реальном управлении объектом.
Ключевые слова: линейные системы, синтез оптимальных систем, методы классификации, метод опорных векторов
Благодарности: Проект реализуется победителем конкурса «Поддержка профессионального развития» благотворительной программы «Стипендиальная программа Владимира Потанина» Благотворительного фонда Владимира Потанина, договор гранта № ГЮПР-0006/23.
Ссылка для цитирования: ДмитрукН. М., ГотовецМ. А. Синтез субоптимальных обратных связей в линейных задачах оптимального управления методом опорных векторов // Известия Иркутского государственного университета. Серия Математика. 2023. Т. 46. C. 19-34. https://doi.org/10.26516/1997-7670.2023.46.19
Research article
A Support Vector Machine Based Synthesis of Suboptimal Feedbacks for Linear Optimal Control Problems
Natalia M. Dmitruk1s, Maria A. Hatavets1
1 Belarusian State University, Minks, Belarus K dmitrukn@bsu.by
Abstract. Optimal feedback synthesis for two linear optimal control problems is studied: The terminal problem and the problem of minimizing the total impulse of the control. The main contribution of the paper is a method for constructing suboptimal feedbacks in the problems under consideration, based on a linear binary data classification for datasets obtained during the simulation process or real-time control of the system.
Keywords: linear systems, optimal control synthesis, classification, support vector machine
Acknowledgements: This work was supported by the Vladimir Potanin Foundation, Project No 0006/23
For citation: Dmitruk N. M., Hatavets M. A. A Support Vector Machine Based Synthesis of Suboptimal Feedbacks for Linear Optimal Control Problems. The Bulletin of Irkutsk State University. Series Mathematics, 2023, vol. 46, pp. 19-34. (in Russian) https://doi.org/l0.26516/1997-7670.2023.46.19
Введение
Проблема синтеза оптимальных систем является центральной в теории оптимального управления. Классическими подходами здесь являются принцип максимума Л. С. Понтрягина, который позволяет синтезировать оптимальные обратные связи в аналитической форме для стационарных моделей невысокого порядка (в частности, в задачах линейного оптимального быстродействия для систем второго порядка), и динамическое программирование, практическая реализация которого сдерживается проклятием размерности.
Одним из современных подходов к решению проблемы синтеза является управление в режиме реального времени [1]. Основу подхода [1] составляет алгоритм работы оптимального регулятора, который в каждый момент времени решает задачу оптимального программного управления для текущей позиции процесса управления — текущих момента времени и состояния (или его измерения) управляемого объекта. Значение оптимального программного управления этой задачи в текущий момент времени есть значение оптимальной обратной связи на текущей позиции. Оно подается на вход объекта управления до поступления следующего измерения, остальные значения оптимальной программы игнорируются. Накопленный нами опыт по реализации алгоритмов работы оптимальных регуляторов [1; 3; 4] позволяет утверждать, что в процессе работы регулятор вырабатывает достаточно большой объем данных, которые непосредственно в управлении не используются и чаще всего отбрасываются. Накопление этих данных, с другой стороны, можно попытаться использовать для обучения регуляторов.
В настоящий момент применение искусственных нейронных сетей, методов обучения на размеченных данных, обучения с подкреплением, других методов машинного обучения при решении задач управления является перспективным направлением в теории систем и процессов управления [9; 10]. Цель настоящей работы — применить методы классификации данных (в частности, метода опорных векторов [2]) для построения субоптимальной обратной связи в линейных задачах оптимального управления.
1. Линейные задачи оптимального управления
Пусть задан объект управления, математическая модель которого на промежутке времени Т = [tо,tf] имеет вид
х = А({)х + Ь(1)и, х(10) = х0. (1.1)
Здесь х = х(1) € Кга — состояние в момент времени ¿; и = и(1) € К — значение скалярного управления; А(1) € Кгахга, Ь(1) € Кга, £ € Т, — кусочно-непрерывные функции, хо — известное начальное состояние. Управления и выбираются из класса дискретных управлений [1]:
и^) = и(з), t € [8,8 + К[, в € Тн = {Ь0^0 + К,...,1} — К},
где К = (¿о — tf )/М — период квантования, N > 1 — натуральное число.
Для (1.1) в классе дискретных управлений будем исследовать две задачи оптимального управления:
1) терминальную задачу
c'x(tf) ^ тах, х = А({)х + Ь(1)и, х(10) = х0, (1.2) х(г{) € X/, 1и(Ь)1< 1, £ € Т;
2) задачу минимизации полного импульса управления
/ |«(£)| (М ^ тт, х = А(Ъ)х + Ь(Ь)и, х(Ь0) = х0, (1.3) Зт
х(г{) € х1, 1и(г)1< 1, г € т,
где с € Кга; Xf = {х € Кга : Их < д}, Н € Ктхп, д € Кт.
Задача (1.2) выбрана как простейшая для демонстрации предлагаемых идей. Такие задачи хорошо изучены в литературе с точки зрения построения численных методов программного решения и реализации алгоритмов работы оптимальных регуляторов, в которых учитывается
структура оптимального программного управления [1;3]. Знание структуры, как будет видно далее, важно для построения обучающей выборки и проведения классификации. Предлагаемый ниже подход можно развить и на другие линейные и линейно-квадратичные задачи оптимального управления, для которых можно явно выделить структуру решения, как, например, в [5; 6].
Понятия допустимого программного управления (программы) и оптимального программного управления и0(1), £ € Т, (оптимальной программы) для задач (1.2), (1.3) вводятся стандартно [1].
Оптимальную обратную связь (ООС) будем определять, как в [1], в предположении, что состояния рассматриваемого объекта доступны для измерения в дискретные моменты т € Т^. В соответствии с этим погрузим задачу (1.2) в семейство задач
c'x(tf) ^ тах, х = А({)х + В({)и, х(т)= хт, (1.4)
) € X/, М*)| < 1, г € Т(г) = [г,4/],
зависящее от позиции (т,хт), где т € Т^ и хт € Кга. Пусть и°(Цт, хт), £ € Т(т), — оптимальная программа задачи (1.4) для позиции (т,хт); Хт — множество векторов хт € Кга, для которых в момент т существует оптимальная программа. Функция
и0(т,х)= и0(т 1т, х), х € Хт,Т € Тн, (1.5)
называется [1] ООС по состоянию.
Аналогично определяется ООС в задаче (1.3).
Построение ООС (1.5) в явном виде зачастую невозможно. Для преодоления трудностей, связанных с построением ООС, в работах [1;3;4] предложен и развит подход, получивший название управления в режиме реального времени. При управлении в реальном времени строится реализация ООС (1.5) в каждом процессе управления; именно с ней будем сравнивать результаты предлагаемого в работе метода.
Далее будем строить субоптимальную обратную связь, применяя метод опорных векторов [2], для классификации данных выборки
К ,Уг (1.6)
где хгТ — состояние из Хт; угт — метка класса (номер некоторого подмножества из Хт), которому принадлежит точка хгт (см. разд. 3); Мт — объем выборки, т € Т^,.
Для того чтобы каждой точке хгт выборки присвоить метку угт, необходимо исследовать структуру позиционного решения задач (1.2), (1.3).
СИНТЕЗ ОБРАТНЫХ СВЯЗЕЙ МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ 23 2. Структурные свойства оптимальной обратной связи
Цель данного раздела — показать, что в задачах оптимального управления (1.2), (1.3) ООС (1.5) является нестационарной кусочно-аффинной. Рассуждения проведем на примере задачи (1.2) и семейства (1.4); для задачи (1.3) они аналогичны.
Покажем, что задача (1.2) может быть представлена как задача многопараметрического линейного программирования [8]. Зафиксируем т € Тн. Задачу (1.4) для позиции (т,х) в классе дискретных управлений можно свести к функциональной форме (см., например, [1;3]):
Еа€Тн(г) Ф)и(в) ^ таХ ЕвеТь(г) Ф^^ <д — Ф(т)x, (2.1) 1и(8)| < 1, 8€ТН(т),
где Тн(т) = Т(т) П Тн, Ф(т) = НР(11 )Р-1(т),
гв+И г в+И
Ф) = С'Р(^)р-1(ф(г)м, ф) = НР(^)р-1(Щг)м,
Р(1) € Кгахга — фундаментальная матрица решений х = А(£)х.
Опуская для простоты зависимость от т, положим р = 1Тн(т)1, Рр — единичная р х р-матрица, 1р — р-вектор из единиц,
г = (и(т),и(т + К),...,и(гf — К))' € , ¡ = — (с(т),ф / — К))' € Кр, Сг = (й(т),(1(1 / — К)) € Ктхр,
(С \ (д\ (—Ф(т?
С = \ Рр I , W = (1 р\ , Б = I 0
\—Рр) \1Р) V о
и перепишем функциональную форму (2.1) в виде
3°(ж) = тт ¡'х, Сх <W + Бх. (2.2)
Задача (2.2) — многопараметрическая задача линейного программирования [8]. Здесь г € — переменная оптимизации, х € Кга — вектор параметров. Множество параметров х € Кга, при которых задача (2.2) допустима, обозначим через К * С Кга, кроме того, пусть
г0(х) = {х € : ¡'х = 30(х), Сх <W + Бх}.
Если при всех х € К * имеет место 2°(х) = {х0(х)}, т. е. задача имеет единственное решение, то х0(х), х € К*, называется функцией оптимального решения.
Приведем основные результаты теории многопараметрической оптимизации, цель которой — охарактеризовать решение задачи (2.2) при всех значениях параметров из К*. Согласно [8]:
Теорема 1. Пусть для каждого х € К * задача (2.2) имеет оптимальное решение г0(х). Тогда К * — замкнутый многогранник в Кга.
Теорема 2. Функция ■]0(х), х € К*, является выпуклой и кусочно-аффинной на К * (т. е. существует разбиение К * на многогранники К1, I € Ь, на каждом из которых 30 аффинная).
Если для каждого х € К * оптимальное решение г0(х) единственно, то функция г0(х), х € К *, является непрерывной и кусочно-аффинной. В противном случае всегда можно определить непрерывную и кусочно-аффинную функцию г0(х) € 20(х), х € К*.
Из теоремы 1 и того факта, что из допустимости задачи (1.4) следует существование в ней решения, заключаем, что для фиксированного момента т множество Хт = К * является замкнутым многогранником.
Многогранники К1, о которых идет речь в теореме 2, называются в [8] критическими областями. Разбиение К * на критические области является единственным, а каждая область К1, I € Ь, определяется, согласно [8], активными ограничениями на оптимальном решении задачи (2.2), т. е. множеством За(х) = ^ : С^х°(х) = + х}, где С^, — ]-я строка матрицы С, Б соответственно. Так, две точки х, х' € К * принадлежат \гАК1 в том и только в том случае, когда множества их активных ограничений совпадают: .1а(х') = ^(ж). Для точки х" € дК1 имеет место включение ,!а(х) ^ ,]а(х").
Из теоремы 2 следует, что если для любого х € Хт оптимальная программа и0(Цт,х), £ € Т(т), в задаче (1.4) единственна, то и0(Цт,х), £ € Т(т), — непрерывная и кусочно-аффинная функция аргумента х. Тогда при фиксированном т функция и0(т, х), х € Хт, которая согласно (1.5) определяется как первое значение оптимальной программы, является кусочно-аффинной функцией х. Если оптимальная программа не единственная, то функцию и0(т,х), х € Хт, можно определить как непрерывную и кусочно-аффинную.
Таким образом, установили, что в задаче оптимального управления (1.2) ООС и0(т,х), х € Хт, т € является нестационарной кусочно-аффинной. Для ее построения необходимо найти многогранные критические области:
К\ = [х € Хт : И\х < д1т}, I € Ьт, (2.3)
и для каждой области указать аффинный закон ООС:
и0(т, х) = (к!Г)'х + а\, ж € К\, I € Ьт, (2.4)
где Н1Т € хп, д1т € , 4 € Г\ а1т € К.
В [8] разработаны методы решения многопараметрических задач, которые также применимы к построению ООС в виде (2.4), однако на практике их применение ограничено задачами, в которых п ■ N < 30.
В заключение раздела обсудим структуру оптимальных программ задач (1.2), (1.3); эта же структура присуща и задачам семейств, в которые погружаются задачи при определении ООС. Структуру оптимальной программы можно использовать для определения критических областей вместо активных ограничений в том случае, когда для решения задач оптимального управления не используется их сведение к задаче линейного программирования вида (2.2), а применяются специально разработанные методы решения, как, например, в работах [1;3].
Рассмотрим задачу (1.2). Обобщая результаты работ [1;3], легко установить, что оптимальное программное управление и0(1), £ € Т, полностью описывается следующими элементами:
1) множество опорных точек переключения управления Топ = [« € Т^ : ^^^ < 1}; и значения управления в них;
2) множество неопорных точек переключения Тно = [8 € Т^ : и0(в - Н)и0(в) < 0};
3) 7 = и0(10), если ¿0 € Топ, 7 = и0(10 + К), если ¿0 € Топ.
Если обозначить Т0 = Топ и Тн0 и [t0,tf} = [в к, к = 1,к* + 1} и далее Тк = [вк,вк+К,.. .,зк+1 -К} при гк € Топ, Тк = [вк+н,вк+2К,... ,^+1 -К} при Ьк € Топ, то оптимальное программное управление для всех € Топ однозначно восстанавливается по правилу и0(в) = (—1)к7, в € Тк, к = 0, к*. Таким образом, оптимальная программа принимает значения ±1 во всех точках, за исключением конечного числа точек из Топ.
Дополним элементы 1)—3) множеством активных терминальных ограничений 1а = [г : HiX0(tf) = дг}, где х0(1), £ € Т, — траектория системы (1.1), соответствующая оптимальной программе, Н^ — г-я строка матрицы Н. Тогда совокупность [1а, Топ, Тн0,7} однозначно определяет активные ограничения задачи (2.2).
Для оптимального программного управления и0(Цт,х), £ € Т(т), задачи (1.4) все указанные элементы также зависят от позиции (т,х). Совокупность Б(т,х) = [1а(т,х), Топ(т,х), Тн0(т,х),^(т,х)} будем называть структурой программного решения задачи (1.4). Теперь точки х,х' € 1гАК1т имеют одинаковую структуру: Б(т,х) = Б(т,х'). Для точки х" € дК1т имеет место включение 1а(т,х) С 1а(т,х"),{]к Тк(т,х) С и Тк(т,х>0,7(т,х)= ф,х>').
3. Субоптимальная обратная связь
Перейдем к основному результату работы — методу построения субоптимальной обратной связи на основе данных.
Сначала опишем процесс получения выборки [хгт,угт}£=1, см. (1.6). Начнем с выбора точек хгт € Хт, г = 1,МТ, т € Ти. Можно предложить ряд подходов:
1. В простейшем случае точки могут быть выбраны случайно или как узлы некоторой равномерной сетки, покрывающей множество Хт.
2. Используя принцип оптимальности, согласно которому если и0(111о,Хо), £ €Т, — оптимальная программа, х0(111гг,хгг), £ €Т, — соответствующая траектория системы (1.1), то и0(11т,х°(т110,х0)), £ € Т(т), — оптимальная программа для позиции (т,х°(т11о,хо)), можно найти программное решение задачи (1.2) для каждого начального состояния ж(0) = хг0, г = 1,Мь0, и положить хгт := х°(т110,хг0).
3. Еще один возможный подход — формировать данные на основе результатов управления в реальном времени [1; 3] в ряде конкретных процессов управления динамическим объектом.
Далее для всех позиций (т,хгт), г = 1,МТ, т € Тн, решается задача (1.4). Если оптимальная программа и°(Ь | т,хгт), £ € Т(т), имеет ту же структуру, что и программное решение для некоторой другой точки Хт, то эти две точки принадлежат одной критической области в Хт и точке хгт присваивается та же метка, что и у точки х3т: угт := ут. Иначе заводится новая уникальная метка у^Г. Будем считать, что после решения задач (1.4) для всех точек хгт, 1 = 1, Мт, метки пронумерованы от 1 до Ьт, т. е. угт € {1,..., Ьт}. Таким образом, будет построена требуемая выборка вида (1.6).
В процессе построения выборки (1.6) будем также запоминать первое значение оптимальной программы: игт := и°(т|т,хгт). Таким образом, наряду с (1.6) будет построена выборка
К ,< }=. (3.1)
Точки хгт, х^, имеющие одинаковую метку (для определенности будем считать, что угт = угт = I), принадлежат одной критической области К1Т и одному классу I. Множество индексов точек, принадлежащих классу I для момента времени г, будем обозначать 1Т( I) = {г : угт = I}.
Не ограничивая общности, будем предполагать, что каждый класс содержит не менее п + 1 точки.
Поскольку все критические области являются выпуклыми многогранниками, существует разделяющая гиперплоскость Г = {х € Кга : ш'х + Ь = 0}, ш = 0, такая что ш'хгт + Ь < 0 при г € 1Т(I), и ш'хгт + Ь > 0 при г € 1Т(]), з = I. В терминах классификации говорят, что любые два класса I, ] из выборки (1.6) линейно разделимы [2].
Дальнейшая цель — построить для каждого класса набор гиперплоскостей, разделяющих классы I и ] € Ст(I), где Ст(I) — совокупность номеров классов, соседних с . Выделение соседних классов — отдельная задача, которая в рамках настоящей работы не исследуется. При практической реализации в работе строилась окрестность точек класса I и включение в Ст(I) номеров классов точек, попавших в окрестность.
Для построения разделяющих гиперплоскостей будем использовать один популярный метод линейной бинарной классификации — метод опорных векторов, краткие сведения о котором приводятся ниже.
В задаче линейной бинарной классификации требуется по обучающей выборке [хг,уг}м=1, состоящей из пар хг € Кга, уг = [- 1,1}, построить решающую функцию (классификатор) <р : Кга ^ [- 1,1}, которая ставит в соответствие новому объекту х € Кга метку его класса.
Метод опорных векторов [2] относится к семейству линейных классификаторов: правило, классифицирующее объект х, имеет вид
+1, если (р(х) > 0, -1, если (р(х) < 0
и строится по линейной функции <^(х) = ш'х + Ь с искомыми ш € Кга и Ь € К. Ставится задача о нахождении «максимальной полосы» между двумя гиперплоскостями Г1 = [х € Кга : ш'х + Ь = 1} и Г-1 = [х € Кга : ш'х + Ь = -1}, такой, что все точки первого класса находятся по одну сторону этой полосы, а все точки второго класса — по другую. Расстояние между гиперплоскостями Г1 и Г-1 (зазор между классами) равно 2/||ш||. Тогда задача нахождения параметров ш, Ь принимает вид
шт |М|2, гш + уЬ >гм, (3.2)
ш,Ь
где Z = [угхг, % = 1, М)', у = (уг,г = 1, М)', и является задачей квадратичного программирования.
Будем применять метод опорных векторов для многоклассовой классификации данных (1.6) и построения аппроксимаций К1Т многогранников К1Т, I = 0,ЬТ, из (2.3). Аппроксимация К^. также будет многогранником, его грани определяют гиперплоскости, разделяющие класс I и все соседние классы ] € Ст (I).
Для построения гиперплоскости ш[ ^х + Ь[^ = 0, разделяющей классы I и ] € Ст(I) при т € Т^, методом опорных векторов необходимо:
1) построить новую выборку [хгт,угт}Шт(ф1т(у), гдеугт = -1, г € 1Т(I), угт = 1, г € 1Т(]), т. е. классу I присвоить метку -1, классу ] — метку 1;
2) для выборки [хгт,угт}(1)и1та) сформировать и решить задачу (3.2); обозначить ее решение шг^, Ьг^.
Точки класса I тогда удовлетворяют неравенству ш[ ^х < -Ы^, а точки класса ] — неравенству -ш[ ^х < Ь[^. Отсюда следует, что процедуру классификации достаточно провести для всех ] € Ст(I), ] > I, чтобы получить аппроксимацию критической области К1Т в виде
у(х) =
К1Т = [х € Кга : Н1Тх < д1т},
(3.3)
/
Hi
—Ш'
3,1
\
jeCT (l),j<l
Ш'
9
I Ьз,1 \
jeCT (l),j<l - bij
\jeC\ (l),j>lj
\3€СТ (1),з>1/
Отметим, что в построенной аппроксимации (3.3) могут содержаться зависимые неравенства. Далее предполагается, что все такие неравенства удалены и система Н^х < д1т является несократимой [7].
В многограннике К1 осталось определить аппроксимацию параметров обратной связи (2.4). Для этого используем выборку (3.1):
1. Если значения обратной связи для всех точек класса одинаковы, т. е. игт = и1т для всех г € 1Т(1), то положим: = 0, а!т = и1т. Как правило, и1т € {-1,1} в задаче (1.2) и и1т € {—1,0,1} в задаче (1.3).
2. В противном случае найдем к1т, а1т согласно
(3.4)
Ш=- ^ -=Ш1 «>) •и=( >Д «>) •
где Xt — псевдообратная матрица.
Наконец, определим субоптимальную обратную связь
й0(т,х) = sat{(klT)'х + alT}, х е KlT, I е LT, т eTh.
Здесь используется функция насыщения sat для предотвращения нарушения ограничений 1й0( т,х)1 < 1.
Аппроксимирующие многогранники по построению не пересекаются, т. е. П = KlT = 0, однако возможна ситуация, когда XT = \Jf==0 KlT. Для х е UiZo KlT необходимо доопределить обратную связь. Это можно сделать используя простейшие методы классификации, например, методы fc-ближайших соседей или fc-средних.
Оценим точность аппроксимации в момент т eTh величинами
Vllui,j ||,
= max
|1 — max
хекi ,ieL,
max jecT(i), ieLT
{(klT)'х + alT} |
11 + min
хекеi ,ieL-,
{(klT)' х + alT}
}
первая из которых оценивает аппроксимацию (3.3), вторая — аппроксимацию многогранника, в котором значение управления не является постоянным. Если полученная точность неудовлетворительна, следует провести новую классификацию, дополнив выборку (1.6) точками, находящимися внутри зазора.
4. Примеры
Предложенный метод построения субоптимальной обратной связи продемонстрируем на задаче (1.3) для системы
X1 = Х2, X2 = —Х\ + и, Ж1(0) = Х10, Х2(0) = Х20, t € [0, 10].
Выберем = {0}. Для наглядности возьмем N = 10, Н = 1.
В табл. 1 представлены результаты работы предложенного метода: количество точек Мт, количестве классов Ьт, точности аппроксимации ет, , время классификации при т = 0, 8. При т = 9 множество Хт — отрезок, на концах которого связь принимает граничные значения ±1, поэтому классификация не имеет смысла.
Таблица 1
т 0 1 2 3 4 5 6 7 8
Мт 4455 3898 3578 3743 2042 1832 1546 1448 1207
ьт 180 144 112 84 60 40 24 12 4
£т 0,0996 0,0999 0,0992 0,0995 0,0990 0,0995 0,0990 0,0937 0,0141
& 0,0474 0,0457 0,0486 0,0480 0,0481 0,0431 0,0267 0,0363 0,0096
время 2,51 2,28 2,16 2,84 1,33 1,72 1,49 2,00 1,07
На рис. 1 изображены результаты классификации и аппроксимации критических областей для моментов времени т = 0, 2, 4, 7.
Качество субоптимальной обратной связи сравнивалось с реализациями оптимального управления в реальном времени в 5000 процессах с возмущениями, абсолютные значения которых не превосходили значения 0, 05. Из них в 455 процессах реализация субоптимальной обратной связи оказалась хуже, со средней (по этим процессам) абсолютной и относительной ошибками, равными 0, 01636 и 7, 019 ■ 10-3 соответственно. В 85 процессах ошибки реализации субоптимальной обратной связи привели к тому, что в момент времени т = 9 состояние системы оказалось вне области Хт и процессы были остановлены.
На рис. 2 приведены реализации оптимальной (штриховая линия) и субоптимальной (сплошная линия) обратной связи и соответствующие им траектории на фазовой плоскости для двух наихудших процессов. Эти процессы стартуют из начальных состояний: 1) х = (2, 0117; -3, 9598) (рис. 2 а); 2) х = (2,0449;0,9468) (рис. 2 б). Оптимальное значение критерия качества под действием реализации оптимальной обратной связи в первом процессе оказалось равным 5,085477, субоптимальной — 5,463843; во втором — 2,530611 и 2,737346 соответственно.
Теперь рассмотрим задачу при N = 50, Н = 0, 2. Начальная выборка в момент времени т = 0 состояла из 13 978 точек х0 € Хо, £о = 0,1, количество классов Ьо = 4377, из которых в 186 классах субоптимальная обратная связь задается правилом (3.4). На рис. 3 а приведены
результаты классификации для момента т = 0. На рис. 3б изображена допустимая область Хо, в которой и выделены только те аппроксимации критических областей, в которых субоптимальная обратная связь определена по формуле (3.4).
7" — 0 т = 2
XI
Рис. 1. Результаты классификации для моментов времени т = 0, 2,4, 7
На рис. 4 а представлены результаты, характеризующие выборку для других значений т € Т^,. Отметим, что в момент т = 4, 6 объем начальной выборки был уменьшен до 4 000.
Из 5000 процессов, в которых качество субоптимальной обратной связи сравнивалось с реализациями ООС, более чем в половине (2647 процессов) реализация субоптимальной обратной связи оказалась хуже, со средней (по этим процессам) абсолютной и относительной ошибками, равными 0, 071288 и 7, 908 ■ 10-3 соответственно. В 169 процессах ошибки реализации субоптимальной обратной связи привели к тому, что в некоторый момент времени состояние системы оказалось вне области Хт и процессы были остановлены.
X! Х1
а б
Рис. 3. Результаты классификации для т = 0, N = 50, Н = 0, 2
На рис. 4 б приведены результаты одного из проведенных экспериментов — реализации оптимальной (штриховая линия) и субоптимальной (сплошная линия) обратной связи при начальном условии хо = (3, 929688; 2, 785551). Значение критерия качества на реализации оптимальной обратной связи оказалось равным 27,784158, на реализации субоптимальной — 28,62901. На построение значений реализации субоптимальной обратной связи в рассматриваемом процессе требовалось в среднем 31 мс.
5. Заключение
В работе рассмотрены две задачи оптимального управления непрерывной линейной нестационарной системой с терминальными ограничениями на состояния и ограниченными дискретными управлениями. Предложен метод построения субоптимальной обратной связи по состоянию, основанный на методе опорных векторов, применяющемся в анализе данных для классификации данных. В частности, установлено, что в рассматриваемых задачах оптимальная обратная связь является кусочно-аффинной, что позволяет применять метод опорных векторов для линейно разделимых выборок данных и эффективно строить аппроксимацию областей, в которых обратная связь является аффинной.
Список источников
1. Балашевич Н. В., Габасов Р., Кириллова Ф. М. Численные методы программной и позиционной оптимизации линейных систем управления // Журнал вычислительной математики и математической физики. 2000. Т. 40, № 6. С. 838-859.
2. Вьюгин В. Математические основы теории машинного обучения и прогнозирования. М. : МЦНМО, 2013. 390 с.
3. Габасов Р., Дмитрук Н. М., Кириллова Ф. М. Оптимизация многомерных систем управления с параллелепипедными ограничениями // Автоматика и телемеханика. 2002. № 3. С. 3-26.
4.
5.
6
7
8
9
10
1
2
3
4
5
6
7
8
9
Кириллова Ф. М., Дмитрук Н. М., Габасов Р. Синтез оптимальных систем — оптимальное управление в реальном времени // Динамика систем и процессы управления. Екатеринбург, 2015. С. 208-219.
Срочко В. А., Аксенюшкина Е. В., Антоник В. Г. Решение линейно-квадратичной задачи оптимального управления на основе конечномерных моделей // Известия Иркутского государственного университета. Серия Математика. 2021. Т. 37. С. 3-16. https://doi.Org/10.26516/1997-7670.2021.37.3 Срочко В. А., Аксенюшкина Е. В. Параметрическая регуляризация линейно-квадратичной задачи на множестве кусочно-линейных управлений // Известия Иркутского государственного университета. Серия Математика. 2022. Т. 41. C. 57-68. https://doi.org/10.26516/1997-7670. 2022.41.57 Черников С. Н. Линейные неравенства // Итоги науки и техники. М., 1968. С. 137-187.
Borrelli F. Constrained optimal control of linear and hybrid systems. Springer, 2003. https://doi.org/10.1007/3-540-36225-8
Learning an approximate model predictive controller with guarantees / M. Hertneck [et al.] // IEEE Control Systems Letters. 2018. Vol. 2, N. 3. P. 543-548. https://doi.org/10.1109/LCSYS.2018.2843682
Hou Z. S., Wang Z. From model-based control to data-driven control: Survey, classification and perspective // Information Sciences. 2013. Vol. 235. P. 3-35. https://doi.org/10.1016/j.ins.2012.07.014
References
Balashevich N.V., Gabasov R., Kirillova F.M. Numerical methods for open-loop and closed-loop optimization of linear control systems. Comp. math. and math. physics, 2000, vol. 40, no. 6, pp. 799-819.
V'jugin V. Matematicheskie osnovy teorii mashinnogo obuchenija i prognozirovanija. Moscow, MCCME Publ., 2013, 390 p.
Gabasov R., Dmitruk N.M., Kirillova F.M. Optimization of the multidimensional control systems with parallelepiped constraints. Automation and Remote Control,
2002, vol. 63, pp. 345-366.
Kirillova F.M., Dmitruk N.M., Gabasov R. Sintez optimal'nyh sistem — optimal'noe upravlenie v real'nom vremeni. Dinamika sistem i processy upravlenija, Ekaterinburg, 2015, pp. 208-219.
Srochko V.A., Aksenyushkina E.V., Antonik V.G. Resolution of a Linear-quadratic Optimal Control Problem Based on Finite-dimensional Models. The Bulletin of Irkutsk State University. Series Mathematics, 2021, vol. 37, pp. 3-16. (in Russian) https://doi.org/10.26516/1997-7670.2021.37.3
Srochko V.A., Aksenyushkina E.V. Parametric Regularization of a Linearquadratic Problem on a Set of Piecewise Linear Controls. The Bulletin of Irkutsk State University. Series Mathematics, 2022, vol. 41, pp. 57-68. (in Russian) https://doi.org/10.26516/1997-7670.2022.41.57
Chernikov S.N. Linejnye neravenstva. Itogi nauki i tehniki, Moscow, 1968, pp. 137187.
Borrelli F. Constrained optimal control of linear and hybrid systems. Springer,
2003. https://doi.org/10.1007/3-540-36225-8
Hertneck M. et al. Learning an approximate model predictive controller with guarantees. IEEE Control Systems Letters, 2018, vol. 2, no. 3, pp. 543-548. https://doi.org/10.1109/LCSYS.2018.2843682
10. Hou Z.S., Wang Z. From model-based control to data-driven control: Survey, classification and perspective. Information Sciences, 2013, vol. 235, pp. 3-35. https://doi.org/10.1016/j.ins.2012.07.014
Об авторах
Дмитрук Наталия Михайловна,
канд. физ.-мат. наук, доц., Белорусский государственный университет, Минск, 220030, Республика Беларусь, dmitrukn@bsu.by,
https://orcid.org/0000-0003-1845-4927
About the authors Natalia M. Dmitruk, Cand. Sci. (Phys.Math.), Assoc. Prof., Belarusian State University, Minsk, 220030, Republic of Belarus, dmitrukn@bsu.by, https://orcid.org/0000-0003-1845-4927
Готовец Мария Алексеевна,
Белорусский государственный университет, Минск, 220030, Республика Беларусь, hatavets@bsu.by
Поступила в 'редакцию / Received 23.08.2023 Поступила после рецензирования / Revised 25.09.2023 Принята к публикации / Accepted 04.10.2023
Maria A. Hatavets, Belarusian State University, Minsk, 220030, Republic of Belarus, hatavets@bsu.by