СЕТЕВОЕ УПРАВЛЕНИЕ С ИТЕРАТИВНЫМ ОБУЧЕНИЕМ ПРИ ИЗМЕНЕНИИ РЕЖИМА РАБОТЫ АГЕНТОВ И КОНФИГУРАЦИИ ИНФОРМАЦИОННОЙ СЕТИ

Копосов Антон Сергеевич

ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ И

ПРОЦЕССЫ УПРАВЛЕНИЯ N. 1, 2023 Электронный журнал, рег. Эл. N ФС77-39410 от 15.04.2010 ISSN 1817-2172

http://diffjournal.spbu.ru/ e-mail: jodiff@mail.ru

Управление в сложных системах

Сетевое управление с итеративным обучением при изменении режима работы агентов и конфигурации информационной

структуры

Копосов А.С.

Арзамасский политехнический институт (филиал) Нижегородского государственного технического университета им. Р.Е. Алексеева

koposov96@yandex.ru

Аннотация. Рассматривается задача синтеза управления с итеративным обучением (УИО) сетевой системой при изменении режима работы подсистем (агентов) и конфигурации информационной структуры. Сетевая система состоит из одинаковых агентов, которые представляют собой дискретные линейные динамические объекты, работающие в повторяющемся режиме. Режимы работы агентов зависят от их параметров и желаемой траектории, которая должна воспроизводиться с требуемой точностью на выходе системы. Конфигурации информационной сети определяют группу функционирующих агентов и характер обмена информацией между ними. Переключения режима и конфигурации происходят в соответствии с определенными внешними правилами. Синтез управления основан на дивергентном методе векторной функции Ляпунова. С целью уменьшения переходной ошибки, вызываемой изменением режима и подключением новых агентов, предложено специальное правило переключения закона УИО. Приводятся результаты моделирования сетевой системы, состоящей из одинаковых манипуляторов с гибким звеном, управление которой осуществляется согласно полученному закону.

Ключевые слова: сетевое управление, управление с итеративным обучением, системы с переключениями, изменяемая желаемая траектория, векторная

функция Ляпунова. 1 Введение

Метод управления с итеративным обучением (УИО) привлек внимание исследователей различных областей после публикации работы [1], датируемой 1984 годом, и с тех пор активно развивается, находя новые области практического применения. Он ориентирован на системы, которые многократно повторяют одну и ту же операцию конечной продолжительности, возвращаясь в исходную позицию после каждого повторения так, что начальные условия остаются одинаковыми на всех повторениях. Предполагается, что система должна воспроизводить желаемую траекторию с заданной точностью. Отличительная особенность УИО состоит в том, что на каждом повторении учитывается информация, полученная ранее в результате выполнения операции, за счет чего удается последовательно улучшать точность или какой-либо другой показатель. Таким образом, УИО по сути реализует простейший механизм обучения для данного класса систем, аналогичный, например, возникающему при тренировках баскетболиста, который пытается выполнить точный бросок мяча в корзину с заданной позиции. Подобные механизмы в биологии называют выработкой мышечной памяти. В соответствии со сказанным, УИО можно классифицировать как одно из направлений интеллектуального управления. Подробнее с методами интеллектуального управления и УИО в частности можно ознакомиться в обзорных статьях [2, 3, 4].

Метод УИО эффективно применяется к различным классам систем, однако не во всех случаях он позволяет сохранить высокую точность выполнения операции на всем протяжении работы системы. Во время ее функционирования может возникнуть необходимость изменить целевую задачу, что порождает переходную ошибку, которая часто снижает точность ниже допустимого уровня в течение нескольких повторений.

В частности, такой эффект появляется при изменении желаемой траектории, что характерно для гибких интеллектуальных производств. В работе [5] рассматривается задача УИО системой, работа которой может происходить в двух режимах, которые отличаются желаемой траекторией и параметрами системы. Кроме того, система подвержена внешним возмущениям, ее выходной сигнал измеряется с шумами, а режим работы изменяется в соответствии с заданным внешним правилом. Предложенный метод синтеза УИО основан на дивергентном методе векторной функции Ляпунова в сочетании с филь-

тром Калмана. Дополнительно, с целью уменьшения величины переходной ошибки, вводится специальное правило переключения закона УИО. Компенсирующий переходную ошибку закон управления находится из решения задачи минимизации среднеквадратической ошибки и используется только на повторении, на котором происходит переключение режима. В [6] данные результаты распространяются на случай системы в виде группы одинаковых объектов (агентов), связанных между собой информационной сетью.

В работе [7] была рассмотрена задача сетевого УИО при изменении конфигурации информационной структуры, где рост ошибки возникает в момент подключения новых агентов. В этом случае новым агентам в момент их подключения предлагается передавать управляющие сигналы от тех агентов, к которым они подключаются.

В данной работе рассматривается сетевая система, в которой во время ее функционирования может изменяться как желаемая траектория выходного сигнала, так и конфигурация информационной структуры. В основу предложенного решения был положен подход, рассмотренный в [5], который дополнительно получил развитие на случай подключения новых агентов.

2 Постановка задачи

Рассмотрим систему из N линейных подсистем (агентов), повторяющих операцию, одинаково определенную для всех агентов, и связанных между собой информационной сетью переменной конфигурации. Динамика агента г описывается следующей дискретной моделью в пространстве состояний:

хг (к,р + 1) = Аа.(к)хг (к,р) + Ва.{к)иг(к,р),

уг(к,р) = Схг(к,р),1 €1р{к),к > 0,0 < р < Т - 1, ( )

где Хг(к,р) € - вектор состояния, щ(к,р) € - вектор управления, у^к,р) € - вектор выходных переменных (профиль повторения), Т < то

- продолжительность повторения, одинаковая для всех к. Граничные условия Х{(к, 0) и щ(0,р) будем считать известными.

Сигнал &г(к), переключающий режим работы агента г, представляет собой кусочно-постоянную функцию, отображающую Ъ+ в {1,... ,ш} (где т

- количество режимов), точки разрыва которой будем называть моментами переключения режима. Каждый режим определяет желаемую траекторию выходного сигнала угае{к)(р) и матрицы Аа.€ {Аь ... ,Ат} и Ва.^к) €

{В\,..., Вт} агентов, при этом тройки (Аа.(к), Ва.(к), С) полностью управляемы и наблюдаемы, а матрицы СВа.(к) невырожденные.

Сигнал р(к), переключающий конфигурацию сети, представляет собой кусочно-постоянную функцию, отображающую Ъ+ в {1,..., с} (где с - количество конфигураций), точки разрыва которой будем называть моментами переключения конфигурации. Каждая конфигурация определяет множество функционирующих агентов, которое представляется в виде набора их номеров !р(к) = , где - количество агентов в конфигурации р(к), %п € {1,..., N}, а также связи между ними, которые представляются в виде направленного графа Яр(к) = (1р(к), £Р(к)), где 6р{к) Я 1р(к) х Хр[к) - ребра графа. Возможность доступа агента % к выходным данным агента у (г, у € 1р(к)) задается ребром, направленным от вершины у к вершине г и обозначается упорядоченной парой (у,ъ) € £р(к). Элементы матрицы смежности

М$р) =

$1111 ¿2 5г2«1 $¿2 «2

¿1 S'^Np ¿2

¿1 ¿N0

¿2¿No

^¿N0 '¿N0

(2)

где р = р(к), задаются следующим образом: > 0, если (у,г) € £р(к), = 0 в противном случае, Зц = 0. Матрица Лапласа графа 0р(к) задается выраже-

нием

¿рШ =

¿13

811%2

8 ¿л г

¿1 ¿N0

Е «

3 €10

— 5¿2¿1 Е 8 ¿23 . . . — '^¿^¿^о

3€1Р

З^.АТ ¿1 '^¿АТ ¿О

Е S¿NоЗ

3€1о

(3)

где р = р(к).

Введем ошибку обучения

а(к,р) = угаег(к)(Р) - У№,Р).

(4)

Задача заключается в поиске такого управления (протокола) щ(к,р), при котором норма ошибки убывает не медленнее некоторой геометрической прогрессии, т. е. с увеличением числа повторений

1ег(к,р)1 < ар,к, к > 0, 0 < р < Т - 1,а> 0,0 <ц< 1,

(5)

при этом

lim lei(k,p)l = 0, lim 1щ(к,р)1 = 1щ(<ж,р)1,к > 0, (6)

к^ж к^ж

где щ(ж,р) ограничено по норме и обычно называется обученным управлением.

Будем учитывать, что непосредственный доступ к У™(к)(р) могут иметь только некоторые агенты, которых далее будем называть глобальными лидерами. Возможность получения агентами информации о желаемой траектории выходного сигнала задается матрицей Кр(к) = diag[rin]n==(1fc), где ri = 1, если агент i имеет доступ к У^к^Р), и ri = 0 в противном случае.

Агент, который не является глобальным лидером, может получить информацию либо от глобального лидера, либо от любого другого агента, которого будем называть локальным лидером. Принимающий информацию агент является ведомой системой, и предполагается, что он не может передать свои данные своему локальному лидеру.

3 Решение задачи

3.1 Управление при заданном режиме работы агентов и конфигурации сети

В начале рассмотрим случай, когда режим работы агентов и конфигурация сети установлены, т. е. рассмотрим интервал вдоль повторений, на котором сигналы ^г(к) и р(к) не имеют точек разрыва и их значения равны для всех г и к. В связи с этим в рамках данного подраздела для краткости обозначим а г (к) и р(к) как а и р соответственно.

В данном случае для закона УИО

иг(к + 1,р - 1) = иг(к,р - 1) + Аиг(к + 1,р - 1) (7)

корректирующую добавку Ащ(к + 1,р - 1) будем формировать в виде

Аиг(к + 1,р - 1) = К1ар(х{(к + 1,р - 1) - хг(к,р - 1))

+ К2аР I вг3(ег(к,р) - (к,р)) + ггег(к,р) I , (8)

\jeNpi )

где Кхар и К2ар - матрицы протокола в режиме а и конфигурации р, Ыр1 = {] € Хр\(],г) € 8р} - множество агентов, информация о которых доступна агенту % в конфигурации р.

Введем вектор приращения состояния

щ(к + 1,р + 1) = хг(к + 1,р) - хг(к,р) (9)

и запишем систему (1) в терминах приращения (9) и ошибки обучения (4):

^(к + 1,р + 1) = Аагц(к + 1,р) + ВаАиг(к + 1,р - 1),

ег(к + 1,р) = -САагц(к + 1,р) + ег(к,р) - СВаАиг(к + 1,р - 1). ( )

Введем расширенные векторы приращения состояния и ошибки обучения

т(к,р) е1(к,р)

т (к,р) = , е(к,р) =

ЛПр (к,р)_ _епр (к,р)_

и запишем расширенную систему относительно (10) с учетом (8):

ф + 1,р + 1) = {АПар + В^рК^рЧ 1р) ф + 1,р) + (А12ар + В1арК2арЧ2р) е(к,р), е(к + 1,р) = (А21ар + В2арК 1арЧ 1р) ф + 1,р) + (А22ар + В2арК2арЧ2р) е(к,р),

где

Апар = 1пр ® Аа, Аиар = 0, А21ар = 1пр ® (-САа),

!пу ,В1ар = 1пр ® Ва, Вс2а р = 1пр ® (-СВа),

К2а р, Ч1 р = 1пр ® Ч1,

(11)

А^22ар = 1ыр К1ар = I

п0

К

К2ар = I

п0

1ар, ^2ар ~пр --2ар1 ■ ~1р ~пр

Ч1 = 1пх , Ч2р = р + ^р) (^Ч2, Ч2 = 1пу.

Система (11) записана в стандартной форме повторяющегося процесса и дальнейший анализ будет основываться на теории устойчивости повторяющихся процессов с переключениями [8].

Введем векторную функцию Ляпунова

Уар (ф + 1,р),е(к,р)) =

У1ар(ф + 1,р))

У2ар (Ф,р))

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(12)

где У1ар(ф + 1,р)) > 0, Ф + 1,р) = 0, У2ар(е(к,р)) > 0, е(к,р) = 0, У^р(0) = 0, У2а р(0) = 0, и дискретный аналог ее дивергенции

Жар(Ф + 1,р),е(к,р)) = У1ар(Ф + 1,Р +1)) - У1ар(Ф + 1, Р))

+ У2ар(е(к + 1,р)) - У2ар(е(к,р)).

Теорема 1. Пусть существует векторная функция Ляпунова (12) и положительные скаляры С\, с2, Сз и 7 такие, что

С1\Г)(к + 1,р)\2 < У1ар(г](к + 1,р)) < С2\т](к + 1,р)\2, с\\е(к,р)\2 < У2аР(е(к,р)) < С2\е(к,р)\2, VУар(т](к + 1,р), е(к,р)) <7 - с3(\ф + 1,р)\2 + \е(к,р)\2).

Тогда закон управления (7) с корректирующей добавкой (8) обеспечивает условия сходимости (5)-(6).

Доказательство с незначительными изменениями повторяет доказательство теоремы 1 из [8] и поэтому не приводится.

Выберем компоненты векторной функции Ляпунова в виде квадратичных форм:

У1ар(г](к + 1,р)) = т]т(к + 1,р)!)1(тр11(к + 1,р), У2ар(е( к, р)) = ет(к, р)р2аРе (к, р),

где Ргар = I

мп

Р\ар и Р2.гтп = I

2ар

шп

Р2

2а р.

Вычисляя аналог дивергенции векторной функции Ляпунова, получим

/^Уар('ч(к + 1,р), е(к,р))

т](к + 1, р) ( , )

т

(( Аар + В арК-ар'Т~1р) Рар (Аар + Вар!Рар'Т~1р)

-Рар)

т](к + 1, р) ( , )

где

Аар =

А11ар А12ар А21ар А22ар

Вар =

И р =

Пхр 0 0 Ч2р

В

1ар 2а р

Р =

1 ар

Кар =

К\ар Кс2ар

Р1

1ар

0

0 РР2

2а р

Потребуем выполнение следующих матричных неравенств:

(Аар + Вар^РарТ~Р р) Рар(Аар + Вар^РарТ~Р р) -Рар + (р р

\Т

+ (КарНр)1 ЯрКарЧр 4 0,Рар ^ 0, (13)

где Яр и Яр - весовые матрицы, которые имеют вид Яр = diag Я1р Я2р

Я1р = !мр & Я\р, Я2р = 1ыр & Я2р, Яр = 1ыр & Яр.

Используя лемму Шура о дополнении, сведем неравенства (13) к следующей системе матричных уравнений и неравенств:

Хар {А-арХар + ВарУ'ар'Н, р) Хар (Уа рН р)

АарХар + ВарУарНр Xар 0 0

Хар 0 0 - 0

УарН р 0 0 Я-1

т

^ 0,

(14)

^т/^р НрХт-! Хт °

где Хар = diag

Х\ар Х<1ар

= Рар^Хар = 1мр & Xlaр, Х2ар = & X2aр,

гар = diag

У =

1 ар

%1ар %2ар ,^\ар = & Zlар, Z2ар = & Z'2аfJ,

= Кар^ар, Ухар = 1мр & У\ар, %ар = 1ыр & У2ар.

Ухар У'2ар

Таким образом, в рассмотренном случае закон УИО (7) с корректирующей добавкой (8) и матрицами протокола К1ар = У1арЕ-01р и К2ар = У2арЕ-0'р, где ^ар, Z2ар, У\ар и У2ар находятся из решения системы (14), обеспечивает выполнение условий сходимости (5)-(6) и, следовательно, сходимость выходного сигнала к желаемой траектории.

3.2 Управление в момент переключения режима работы агентов

Рассмотрим случай, когда происходит переключение режима работы агентов. В этот момент ошибка обучения может выйти за допустимый предел, поэтому закон управления должен быть разработан таким образом, чтобы исключить этот нежелательный эффект в максимально возможной степени. В рамках данного подраздела сигнал, переключающий конфигурацию сети, для краткости обозначим за подразумевая, что он одинаков на всех рассматриваемых повторениях.

В данном случае закон управления можно найти, решая задачу минимизации отклонения выходного сигнала агента от доступного ему образа желаемой траектории. Для глобального лидера эта задача сводится к задаче минимизации ошибки обучения, поскольку таким агентам непосредственно

доступна информация о желаемой траектории. Как и в разделе 3.1, в качестве образа желаемой траектории для ведомой системы будет выступать взвешенная сумма выходных сигналов ее локальных лидеров. Поскольку локальные лидеры передают данные с предыдущего повторения, переключение ведомой системы должно происходить с некоторой задержкой после переключения ее локальных лидеров, чтобы информация о желаемой траектории соответствовала новому режиму.

По аналогии с сигналом ^¡(к), который теперь будем именовать локальным сигналом, переключающим режим, введем глобальный сигнал а(к), который запускает процесс переключения режимов агентов. Моменты переключения а ¡(к) глобальных лидеров совпадают с моментами переключения а(к), т. е. а ¡(к) = а (к) Уг : г\ = 1. Для ведомых систем локальный сигнал а1(к) = а] (к - 1) .

Найдем закон управления для глобальных лидеров. Пусть к + 1 - один из моментов переключения глобального лидера %. Записав ошибку обучения в виде

е ¡(к + 1, р)= у'аег{к+1)(Р)

- уг(к, р) - С(Аа,(к+1)Хг(к +1,Р - 1) - Аа/к)Хг(к,Р - 1))

- С(Ва,(к+1) - Ва,(к))иг(к,р - 1) - СВа,(к+1)Аиг(к +1,р - 1),

и решая задачу ее минимизации, получим следующую корректирующую добавку для закона (7):

Аиг(к+1,р - 1) = (СВаг{к+1))-1(уае(к+1)(р) - Уг(к, р))

- (СВа,(к+1))~1С(Аа,(к+1)Хг (к + 1,Р - 1) - Аа,(к)Хг(к,Р - 1))

- (СВа,(к+1))-1С(Ва^к+1) - Ва/к))иг(к,р - 1). (15)

Теперь найдем закон управления для ведомых систем. Пусть к +1 - один из моментов переключения ведомой системы . Введем отклонение ее выходного сигнала от выходных сигналов ее локальных лидеров

е^к + 1,р) = ^ (Уз(к,Р) - + 1,P)), (16)

где й ¡з - элемент матрицы (2).

Переписав (16) в виде £^к + 1,Р)=^ в¡з(Уз(k,Р) - У^к,Р))

зеМ^

- 1цС(Аа,(к+1)Хг(к + 1,р - 1) - Аа,(к)Хг(к,р - 1)) - 1пС(Ва/к+1) - Ва^к))щ(к,р - 1)

- 1пСВа,(к+1)^(к +1,р - 1),

где и¡ - элемент матрицы (3), и решая задачу ее минимизации, получим следующую корректирующую добавку для закона (7):

Ащ(к + 1,р - 1) = I- 1(СВа,(к+1))~1 ^ ^з(Уз(k,Р) - У^к,Р))

зе^

- (СВа,(к+1))-1С (Аа,(к+1)Хг (к + 1,р - 1) - Аа,(к)Хг(к ,р - 1))

- (СВа1{к+1))~1С(Ваг{к+1) - Ва(к))иг(к,Р - 1). (17)

Таким образом, в момент переключения режима будем применять закон УИО (7) с корректирующей добавкой (15) для глобального лидера, и с корректирующей добавкой (17) для ведомой системы.

3.3 Управление в момент переключения конфигурации сети

Последний случай, который необходимо рассмотреть, это случай, когда происходит переключение конфигурации. Допустим, что все агенты работают в одном и том же режиме на всех рассматриваемых в данном случае повторениях, поэтому в рамках данного подраздела для краткости сигналы, переключающие режимы, обозначим за а.

В момент переключения конфигурации агент может выполнить одно из следующих действий: подключение к сети, отключение от сети и смена локальных лидеров (для ведомых систем). Во втором и третьем случаях управление всеми агентами производится согласно закону УИО (7) с корректирующей добавкой (8) с матрицами протокола, соответствующими новой конфигурации. В первом случае ошибка подключаемого агента при использовании этого закона может превышать допустимый предел первые несколько повторений после подключения. Для предотвращения этого эффекта найдем управление для подключаемого к сети агента, решая задачу минимизации отклонения выходного сигнала от выходных сигналов его локальных лидеров.

Пусть к+1 - момент переключения конфигурации с подключением агента %. Переписав (16) в виде

£ г{к + 1, р)= 5 т{к, Р)

- 1ггСАаХг{к + 1,р - 1) - кСВаиг{к + 1,р - 1),

где й у - элемент матрицы 5р(к+1), а I{{ - элемент матрицы Ср(к+1), решением задачи минимизации отклонения будет следующий закон управления для подключаемой системы:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

иг{к + 1,р - 1) = I-1 {С В а )-1 ^ 8гт {к, Р)

- {СВа)-1САаХг{к + 1,Р - 1). (18)

3.4 Общий закон управления

Объединим полученные результаты в виде следующих правил переключения режима работы агентов, конфигурации сети и закона управления.

Переключения инициируются сигналами а{к) и р{к). Сигнал а{к), именуемый глобальным сигналом, переключающим режим, запускает процесс переключения режимов агентов. Переключение режима глобальных лидеров происходит в момент запуска процесса переключения глобальным сигналом, т. е. а ¡{к) = а{к) : г\ = 1. Переключение остальных агентов происходит с запаздыванием в одно повторение после переключения их локальных лидеров, т. е. аг{к) = а^(к - 1) У] € . Сигнал р{к) переключает конфигурацию сети.

Управляющий сигнал на повторении к + 1 формируется в виде (7) с корректирующей добавкой (8), матрицы протокола которой находятся из решения системы (14), если а ¡{к + 1) = аг{к) иг € 1р(к), с корректирующей добавкой (15), если = 1, а ¡{к + 1) = а ¡{к) иг € Тр(к), и добавкой (17) если = 0, аг{к + 1) = а г{к) и г € 1р(к), где Г{ - элемент матрицы Кр(к+1). Если г € 1-р(к), то управляющий сигнал на повторении к + 1 формируется в виде (18). Таким образом, поскольку условия (5) и (6) выполняются на фиксированных желаемых траекториях, параметрах и конфигурациях сети, а в моменты изменения режима и конфигурации переменные в силу уравнений (11) ограничены, эти условия будут выполняться всюду.

Такой подход позволит значительно снизить величину ошибки в моменты переключения режима и подключения новых агентов, однако он накладывает некоторые ограничения на конфигурацию сети. В данном случае локальные лидеры ведомой системы должны переключаться одновременно, что исключает возможность взаимного обмена информацией между агентами и реализации замкнутой информационной сети. В случае применения данного алгоритма к сети с последовательным соединением агентов, процесс переключения может занять недопустимо длительное время.

4 Пример

Было проведено моделирование сетевой системы, состоящей из одинаковых манипуляторов с поворотным гибким звеном, управление которой происходит согласно полученному закону. Каждый манипулятор представляет собой гибкое звено, закрепленное одним концом на двигателе постоянного тока, который вращает звено из одного конца в другой в горизонтальной плоскости. Отклонение другого конца звена определяется тензодатчиком и выводится в виде аналогового сигнала, пропорционального отклонению. Динамика движения каждого манипулятора описывается следующими уравнениями:

т = - ^ т + ^а® + -1та),

^ ед ¿ед ¿ед

а® = ^т - К. ( ) аи - и*

^ед \ / ^ ед

где 9^) - угол поворота сервопривода, а- угол отклонения звена, т(Ь) -крутящий момент на силовом редукторе сервопривода, приводящем звено в движение, К - жесткость звена, - момент инерции сервопривода, Вщ -коэффициент вязкого трения сервопривода, , - момент инерции звена относительно центра масс.

Определив векторы состояния, управления и выходных переменных как х = [0 а 0 а}т, и = т и у = 0 соответственно, перепишем данные уравнения в виде модели в пространстве состояний с непрерывным временем:

Хг(к, I) = А1%хг(к, г) + в^ иг(к, I), уг(к, г) = Схг(к, г),

где

л сопЪ

О

о о

О -К

(

о 1 о о

о о 1 о

Ка Вед о В сопЪ _ 1

■ед ■ед ■ед

■г (?г(к)) + Зщ \ Вед о 1

Ъд^Ык)) ) ■ед ■ед_

с =

1 о о о

Были приняты следующие параметры манипуляторов с гибким звеном [9]: К = 1, 3 Н-м/рад, Зщ = 2, о8 х 1о-3 кг^м2, Вед = о, оо4 Н^м/(рад/с). Динамика агентов определяется двумя режимами, в каждом из которых задана своя желаемая траектория:

6 27

о-

% - , °г(к) = 1,

Ж . ЖЬ

— БШ-,

12 6 '

ъ(к) = 2.

■ (ъ(к)) =

При изменении желаемой траектории одновременно изменяется момент инерции звена:

'о, оо38 кг • м2, аг(к) = 1, о, оо8 кг • м2, аг(к) = 2. Продолжительность повторения составляет 3 с.

Дискретизация по времени динамики (19) дает модель в пространстве

состояний (1) для проектирования управления с Аа.(к) = ехр^^^Т,) и т

Ва.(к) = /0 8 ехр (А*т)Всо'п(1т, где Т - период дискретизации, который в данном случае выберем равным 0,01 с.

Рассмотрим сетевую систему из трех манипуляторов данного типа, среди которых выделен один глобальный лидер. На первой конфигурации работает только глобальный лидер, на второй к глобальному лидеру подключаются первая ведомая система, и на третьей к первой ведомой системе подключается вторая. Данные конфигурации определяются следующими множествами

функционирующих агентов и матрицами связей:

Х = {1}, Сi = 0, П = 1,

0 0 11

Х2 = {1, 2}, С2 =

По =

10 00

' 0 0 0" 1 0 0

Хг = {1, 2,3}, Сз = -1 1 0 , П = 0 0 0

0 -1 1 0 0 0

Решая (14) с весовыми матрицами

101-

Qlp(k) =

{

10-4 L

р(к) = 1, р{к) = -1,

Q2p(k) = 10>b,Rp(k) =

получим следующие матрицы протокола для (8):

Km = Кц2 = K113 =

К121 = К122 =

К123 =

-25,3429 -1, 2471 -0,3469 -0,0181 -41,8954 -1, 2959 -0,416 -0,0044 -41,9283 -1, 296 -0,4161 -0,0044 -25,3841 -1, 2813 -0,3428 -0,0139 -41,889 -1, 2981 -0,4159 -0,0044 -41,9326 -1, 2982 -0,4161 -0,0044

Зададим переключающие сигналы в виде

(20)

,Ко11 = 9, 2965, К212 = 16, 2678, К213 = 14, 3248, ,Ко21 = 9, 2971, К222 = 16, 4272, , К223 = 14, 2538.

1, к < 40, а(к) = {2, 40 < к < 80, р(к) = 1, к> 80,

1, к < 20, 2, 20 < к < 60, 3, к > 60.

Для оценки эффективности алгоритма введем среднеквадратическую ошибку обучения

Е,(к) =

\

Т-1

i > 1 ei

р=0

De i( к, р)\2.

На рисунке 1 представлены графики среднеквадратических ошибок обучения агентов без учета переключения управления при изменении режима работы и конфигурации сети, т. е. управление происходит согласно закону (7) с корректирующей добавкой (8) на всем протяжении функционирования системы, а на рисунке 2 - с учетом переключения управления. Данные результаты демонстрируют, что разработанный закон управления действительно позволяет снизить величину переходной ошибки в моменты переключения.

Рис. 1: Среднеквадратические ошибки обучения агентов без учета переключения закона управления

Номер повторения к

Рис. 2: Среднеквадратические ошибки обучения агентов с учетом переключения закона управления

5 Заключение

В данной работе получено решение задачи УИО сетевой системой при изменении желаемой траектории выходного сигнала, параметров агентов и конфигурации информационной структуры во время работы системы. Предложенный алгоритм переключения управления позволяет компенсировать переходные ошибки, однако он накладывает некоторые ограничения на конфигурацию информационной сети. При взаимном обмене информацией между агентами произвести переключение режима невозможно, а при последовательном соединении длительность процесса переключения режима зависит от количества агентов в сети, в связи с чем в некоторых случаях он может занять недопустимо длительное время. В дальнейшем планируется распространить полученные результаты на случай, когда агенты сетевой системы подверже-

ны воздействию внешних возмущений, а их выходные сигналы измеряются с шумами.

6 Благодарности

Работа выполнена при поддержке Российского научного фонда, грант № 2171-00091, https://rscf.ru/project/21-71-00091/.

Список литературы

[1] Arimoto S., Kawamura S., Miyazaki F. Bettering operation of robots by learning // J. Robot. Syst. 1984. V. 1. P. 123-140.

[2] Zaitceva I., Andrievsky B. Methods of Intelligent Control in Mechatronics and Robotic Engineering: A Survey // Electronics. 2022. V. 11, No. 15. P. 2443.

[3] Ahn H.-S., Chen Y. Q., Moore K. L. Iterative learning control: brief survey and categorization // IEEE Transactions on Systems, Man, and Cybernetics Part C: Applications and Reviews. 2007. V. 37, No. 6. P. 1099-1121.

[4] Bristow D.A., Tharayil M., Alleyne A.G. A survey of iterative learning // IEEE Control Systems Magazine. 2006. V. 26. No. 3. P. 96-114.

[5] Pakshin P., Emelianova J., Emelianov M. Iterative learning control of stochastic linear systems under switching of the reference trajectory and parameters // 2021 29th Mediterranean Conference on Control and Automation (MED). 2021. P. 1311-1316.

[6] Koposov A., Emelianova J., Pakshin P. Iterative Learning Control of Multi-Agent Systems under Changing Reference Trajectory // IFAC-PapersOnLine. 2022. V. 55. No. 12. P. 759-764.

[7] Копосов, А. С. Робастное сетевое управление с итеративным обучением системой переменной конфигурации при случайных возмущениях // Управление большими системами: сборник трудов. 2021. № 94. С. 50-65. DOI 10.25728/ubs.2021.94.3. EDN DFWYYG.

[8] Pakshin P., Emelianova J., Emelianov M., Galkowski K., Rogers E. Dissipativity and Stabilization of Nonlinear Repetitive Processes // Systems & Control Letters. 2016. V. 91. P. 14-20.

[9] Apkarian J., Karam P., Levis M. Workbook on Flexible Link Experiment for Matlab/Simulink Users. Quanser, 2011.

Networked iterative learning control under changing operating mode of agents and configuration of information structure

Koposov A.S.

Arzamas Polytechnic Institute of R.E. Alekseev Nizhny Novgorod State

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Technical University

koposov96@yandex.ru

Abstract. The paper considers the iterative learning control (ILC) design problem of a network system under changing operating mode of subsystems (agents) and configuration of information structure. The network system consists of identical agents, which are discrete linear dynamic plants operating in a repetitive mode. The operating modes of agents depend on their parameters and the reference trajectory, which must be tracked with required accuracy at output of system. The configurations of information network define the group of functioning agents and the type of information exchange between them. The mode and the configuration change takes place in accordance with certain external rules. The control design is based on the divergent method of the vector Lyapunov function. For reducing the transient error caused by the mode change and the connection of new agents, a special rule for switching the ILC law is proposed. The results of modeling a network system consisting of identical manipulators with flexible link, which is controlled according to the obtained law, are presented.

Keywords: networked control, iterative learning control, systems with switches, changing reference trajectory, vector Lyapunov function.

Acknowledgements. The work was supported by the Russian Science Foundation under grant 21-71-00091, https://rscf.ru/project/21-71-00091/.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копосов Антон Сергеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Копосов Антон Сергеевич

NETWORKED ITERATIVE LEARNING CONTROL UNDER CHANGING OPERATING MODE OF AGENTS AND CONFIGURATION OF INFORMATION NETWORK

Текст научной работы на тему «СЕТЕВОЕ УПРАВЛЕНИЕ С ИТЕРАТИВНЫМ ОБУЧЕНИЕМ ПРИ ИЗМЕНЕНИИ РЕЖИМА РАБОТЫ АГЕНТОВ И КОНФИГУРАЦИИ ИНФОРМАЦИОННОЙ СЕТИ»