Информатика, вычислительная техника и управление
DOI 10.36622/VSTU.2023.19.1.001 УДК 519.71
ДВЕ СХЕМЫ ИЕРАРХИЧЕСКОЙ ИДЕНТИФИКАЦИИ КВАЗИЛИНЕЙНЫХ МОДЕЛЕЙ
Н.М. Мишачев, А.М. Шмырин, А.П. Щербаков Липецкий государственный технический университет, г. Липецк, Россия
Аннотация: рассматривается задача улучшения качества аппроксимации окрестностной модели на основании анализа остаточных данных (невязок) первоначальной линейной модели и последующей иерархической идентификации дополнительных квазилинейных или квазиполиномиальных слагаемых. Изучаются две схемы иерархической идентификации. В первой схеме предполагается, что заранее задана иерархическая кластеризация или, в более общем случае, иерархическое разбиение множества кортежей входных данных. Дополнительные слагаемые уточненной кусочно-непрерывной модели соответствуют вершинам дерева иерархии. В случае иерархической кластеризации входных кортежей полученную кусочно-непрерывную модель с помощью разбиения единицы можно аппроксимировать непрерывной моделью. Во второй схеме построение иерархического разбиения входных кортежей происходит рекуррентно в процессе идентификации, а именно, элементы очередного слоя иерархии состоят из прообразов выбранных интервалов или (при наличии) кластеров множества невязок уже построенных моделей предыдущего уровня. Элементы иерархического разбиения кортежей входных данных, полученные таким образом, могут иметь достаточно сложную форму. Вторая схема имеет некоторое сходство с конструкцией интеграла Лебега. Обе схемы иерархической идентификации могут быть полезны в задачах моделирования хаотических или сильно осциллирующих зависимостей выходов от входных кортежей
Ключевые слова: остаточные данные, иерархическое разбиение, иерархическая идентификация
Введение
Окрестностной структурой, I формализующей технологическую схему объекта, мы называем орграф, оснащенный наборами данных для вершин или дуг; окрестностная модель - это система уравнений, в которой зависимости между переменными задаются окрестностной структурой (см., например, [1]).
В статье [2] была описана схема агрегирования нескольких стационарных линейных окрестностных моделей,
реализованных на одной и той же окрестностной структуре, в общую квазилинейную модель.
На практике предложенная в работе [2] схема соответствует ситуации, когда моделируемый объект имеет несколько номинальных режимов (локальных мод), зависящих от кластеров данных неуправляемых входов. В этом случае линейная модель в лучшем случае может описывать только один из режимов, а универсальная полиномиальная модель, даже если она возможна, как правило, является слишком сложной для
идентификации и дальнейшего использования.
Предложенная в [2] квазилинейная модель существенно проще и удобнее
© Мишачев Н.М., Шмырин А.М., Щербаков А.П., 2023
полиномиальной модели, поскольку для ее синтеза достаточно иметь уже построенные линейные модели номинальных режимов и соответствующую набору этих режимов кластеризацию входных данных объекта в целом. В статье [3] эта схема была адаптирована для случая агрегирования номинальных режимов отдельных узлов окрестностной системы (микролокальных мод), эти режимы соответствуют кластерам входных данных отдельных узлов окрестностной структуры.
В данной работе мы описываем модификацию и обобщение квазилинейной схемы из [2] в двух направлениях.
Первое направление предполагает наличие заранее заданной иерархической
кластеризации или, в более общем случае, разбиения множества входных данных (объекта в целом или его отдельных узлов).
Второе направление реализует схему синтеза модели, связанную с кластеризацией множества невязок, получаемых в процессе последовательного уточнения исходной линейной модели. В этом случае вместо заранее заданной иерархической кластеризации или разбиения на множестве входных данных возникает ассоциированное (с кластеризацией невязок) иерархическое разбиение.
Вторая схема возникла, в частности, как возможный способ описания систем с
хаотическим поведением и, в том числе, систем с фрактальной структурой входных данных.
Описываемые схемы мы называем в первом случае R-схемой или схемой Римана, во втором случае L-схемой или схемой Лебега.
Названия двух рассматриваемых схем указывают на отдаленное сходство с классическими конструкциями интеграла Римана и интеграла Лебега. R-схему можно также рассматривать как иерархическое обобщение моделей типа Такаги-Сугено, см., например, [4]-[6], но при этом мы не используем язык и обозначения нечеткой логики.
Можно считать, что соответствующие нечеткой логике правила выбора кодируются иерархическим разбиением единицы в непрерывных моделях и ориентированным деревом иерархии в кусочно-непрерывных моделях.
Укажем еще на работу [7], в которой также рассматривается иерархический подход к задаче идентификации, но при этом иерархичность в [7] связана с воспроизведением в модели внутренней структуры объекта, а не со структурой данных входа и выхода, как в нашем случае.
Для упрощения обозначений везде далее мы рассматриваем случай одного узла c многомерным входом и скалярным выходом (MISO модель), при этом предлагаемые конструкции могут быть обобщены на случай моделей с многомерным выходом (MIMO -модель) и на общий случай окрестностных систем в целом.
Деревья и иерархические разбиения множеств
Деревья. Уточним некоторые определения, обозначения и соглашения, относящиеся к ориентированным графам. Вершину ориентированного графа (орграфа) мы называем входом, если она имеет только выходящие дуги, узлом, если имеются и входящие и выходящие дуги, и выходом, если имеются только входящие дуги. Петли орграфа являются одновременно и входящими и выходящими дугами данного узла.
Ориентированный граф без петель с одним входом, не имеющий циклов (как ориентированных, так и неориентированных), мы называем ориентированным деревом или просто деревом (обычные неориентированные
деревья нам не потребуются). Входная вершина называется корнем дерева. Уровнем вершины дерева называется длина ориентированного пути (т.е. количество последовательных дуг), соединяющего корень дерева с этой вершиной, увеличенная (для упрощения обозначений) на единицу. В частности, корень дерева согласно этому определению имеет уровень 1. Степень ветвления не концевой вершины (то есть корня или узла) - это количество выходящих из нее дуг.
Мы всегда предполагаем, что степень ветвления любой не концевой вершины дерева больше единицы. Выходы, то есть концевые вершины дерева, обычно называются листьями, но нам будет удобно сохранить для них термин выходы. В общем случае выходы могут иметь разные уровни в дереве. Дерево, в котором все выходы имеют один и тот же уровень к, мы называем ^уравновешенным деревом или, короче, ^деревом.
Кодирование вершин. Предполагается, что все выходящие дуги каждой вершины уровня г перенумерованы числами ¿г+1 = 1,2,..., и потому каждая вершина уровня к >2 кодируется последовательностью чисел (1, ¿2,..-Лк), являющихся, начиная со второго числа, номерами дуг, образующих путь из корня в данную вершину. Корень дерева является вершиной уровня 1 и имеет код (1). Кодировка вершин определяет
лексикографический порядок на множества всех вершин и, в частности, порядок на множестве всех выходов.
Дерево Т, имеющее 5 = 5(Г) выходов, полностью определяется набором кодов всех его выходов
{/(^ = (1,г2(^), ...,1*(я)($)),5 = 1, .,5} , (1)
где к (я) - это уровень выхода с номером 5. Для г < к (я) положим
1Г(5) = (1,г2(5), ...,гг(5)). (2)
Таким образом 1г(з) - это код г-й вершины на пути от корня к 5-му выходу. В частности, 4(5) с^ = /(5).
Иерархические разбиения. Пусть й -произвольное множество и Т - дерево с 5 выходами. Сюръективное отображение
1.....5} (3)
задает иерархическое разбиение множества И, ассоциированное с деревом Т.
Пусть М - метрическое пространство и О сМ - конечное подмножество. Фиксируем на И какой-либо порядок. Обозначим через Мв множество ячеек Дирихле-Вороного с центрами в И, то есть
мв = {и(с0№ е £} , (4)
где У(^) состоит из всех точек множества М, для которых ё. является ближайшей точкой (или первой из ближайших точек) подмножества И. Тогда сюръективное отображение (3) порождает иерархическое разбиение множества Мв и, соответственно, иерархическое разбиение метрического пространства М.
Для каждой точки х е М обозначим через ё.(х) номер ячейки Дирихле-Вороного, которой принадлежит точка х, и через 5(х) = Р(й(х)) номер выхода (дерева Г), к которому относится эта ячейка.
Иерархическая кластеризация. Иерархической кластеризацией подмножества И с М метрического пространства М называется иерархическое разбиение множества И, каким-либо образом учитывающее близость элементов (точек) И по метрике. Понятие кластеризации можно формализовать многими способами (см. [8],[9]), и общепринятого определения кластеризации в литературе не существует.
Для случая подмножеств в некоторой области и эвклидова пространства М" дадим следующее определение, удобное в рамках данной статьи: мы будем назвать разбиение
О = Ог и ...и Ог (5)
множества Ос и с М" выпуклой
кластеризацией множества И в области и, если существует набор непересекающихся выпуклых подмножеств [С(И{)} в и, каждое из которых содержит одно из подмножеств .
Для любой выпуклой кластеризации существует ассоциированное разбиение единицы, образованное нормализованными гауссианами с параметрами,
соответствующими эллипсоидам инерции множеств (С(Д()}. Термин "гауссиан" мы используем в широком смысле, это может быть любая унимодальная плотность, но обычно используют плотности распределений Гаусса или Коши.
Определение выпуклой кластеризации обобщается на случай иерархической выпуклой кластеризации следующим образом: каждое выпуклое множество очередного уровня должно лежать внутри некоторого выпуклого множества предыдущего уровня.
Иерархическое разбиение единицы
Многоуровневая схема. Для кластеров первого уровня разбиение единицы строится как обычно - берутся гауссианы для каждого кластера, затем каждый из них делится на сумму остальных, получаются
нормализованные гауссианы.
Для кластеров второго уровня разбиение единицы строится отдельно для каждого старшего кластера (первого уровня), то есть для каждого старшего кластера рассматриваются только младшие кластеры внутри данного старшего кластера, при этом построенное из них разбиение единицы дополнительно нормируется (умножается) на значения уже нормализованного ранее гауссиана старшего кластера. Далее процесс распространяется вниз по всей иерархии.
Одноуровневая схема. Можно
рассматривать более простую одноуровневую схему, когда разбиение единицы для кластеров очередного уровня строится для всех сразу, без учета принадлежности старшим кластерам иерархии. Это означает, что при нормализации гауссиана очередного уровня он делится на сумму всех гауссианов всех кластеров данного уровня, а не на сумму гауссианов внутри старшего кластера, как в многоуровневой схеме.
R-схема иерархической идентификации квазилинейной модели
Предполагается, что уже задано некоторое иерархическое разбиение кортежей входных данных И с М", кодируемое деревом Т, и ассоциированное с ним иерархическое разбиение области определения и с М" входов модели. Каждый из элементов иерархического разбиения области и состоит из
многогранников Дирихле-Вороного.
На первом шаге построения модели идентифицируется линейная модель F1(x) по корневому элементу, то есть по всем данным. Для полученных остатков (невязок)
З1 = й-Р1(й) (6)
(где ¿еМ1 - это значение выхода для входа d е М") идентифицируются линейные модели для каждой из вершин второго уровня и так далее. Итоговая модель может быть записана следующим образом:
F(x) = F1 (х) + ¥}2 (х) + ^ (*) + •■• + ^ (7) где к = к(з(х)) и
12 = /2(*(х)),/3 = /3(*(х)).....1к = /(*(*)) (8)
(определение функции х(х) было дано выше). Перечислим свойства модели (7):
a) Эта модель является кусочно-непрерывной.
b) Компактная формула (7) на самом деле скрывает внутри себя довольно сложную конструкцию, поскольку для вычисления значения ^(х) требуется сначала вычислить номер выхода 5(х). В общем случае для этого может потребоваться перебор по всем кортежам входов й с!к.
c) Линейные корректирующие слагаемые в формуле (7) можно заменить, например, однородными полиномами второй степени для второго уровня, третьей степени для третьего уровня и так далее. В такой версии модель может рассматриваться как нелокальный иерархический аналог формулы Тейлора.
d) При достижении желаемой точности на очередном кластере иерархии можно удалить все последующие вершины из дерева Т, при этом формула (7) для модели ^(х) сохраняется, поскольку в этой формуле не требуется, чтобы дерево Т было уравновешенным.
R-схема иерархической идентификации квазилинейной модели, случай иерархической кластеризации
Если иерархическое разбиение является выпуклой иерархической кластеризацией, то слагаемые в кусочно-непрерывной модели (*) с помощью гауссианов иерархического разбиения единицы (одноуровневого или многоуровневого) можно объединить в непрерывную модель Р(х).
Таким образом, для построения непрерывной модели ^(х) требуется предварительное вычисление гауссианов. Но далее, при использовании модели Р(х), не
требуется находить номер выхода 5(х), и потому объем вычислений по формуле ^(х) существенно меньше, чем в случае кусочно-непрерывной модели ^(х).
В качестве примера приведем формулы для Р(х) в случае, когда Т - двоичное дерево с тремя уровнями. Для одноуровневой схемы получаем
Р(х) = f1(x) + ^>11(х)^121(х) + ^>12 (х)^22 (х) +^11(х) ^1311(х) + ^агм +
+^321 (х) ^321(х) + ^322 (х) ^322 (х), (9) для многоуровневой схемы получаем
Р(х) = F1(x) +
(х)
+ ^112 0*0 ^112 0*0] +
+ ^12 (х) [^12 (х) + ^121 (х) ^121(х) +
<Р1322« ^122 «] . (10)
Нормализованные гауссианы второго
уровня с одинаковыми нижними индексами в формулах (9) и (10) совпадают. Нормализованные гауссианы с
одинаковыми нижними индексами в формулах (9) и (10) происходят из одинаковых гауссианов, но нормализующие множители у
них разные. А именно,
3 =_^_
<р311(х) + ф^12(х)+ф^21(х) + <р322(х) в формуле (8) и
3 = Ф1д
^ Ф1а(х) + <^г2(х)
в формуле (9). Здесь - это исходные
ненормализованные гауссианы
соответствующих кластеров.
L-схема иерархической идентификации квазилинейной модели
L-схема иерархической идентификации в некотором смысле имитирует конструкцию интеграла Лебега.
После построения линейной модели рассматривается кластеризация множества невязок (то есть точек на прямой). Для каждого кластера находится его прообраз в пространстве входов и идентифицируется уточняющая линейная модель второго уровня.
Далее процесс итерируется, то есть для каждой из линейных моделей последнего уровня (из уже построенных) рассматривается
кластеризация невязок этой модели, прообразы в пространстве входов для каждого кластера и идентифицируются уточняющие линейные модели следующего уровня.
В этой конструкции последовательные кластеризации в пространстве значений модели (то есть на прямой) соответствуют некоторому дереву Т. Заметим, что множества кластеров (на прямой) при этом не образуют иерархии, то есть не образует иерархического разбиения в определенном выше смысле, поскольку на каждом шаге множество невязок изменяется и кластеризации происходят каждый раз в разных множествах точек на прямой.
С другой стороны, в пространстве входных данных И с М", очевидно, возникает
иерархическое разбиение, образованное прообразами кластеров на прямой и кодируемое деревом Т. Взаимное расположение элементов этого разбиения в И с М" в общем случае может быть сколь угодно сложным (именно в этом проявляется аналогия с интегралом Лебега).
Формула (7) для итоговой модели вместе с расшифровкой обозначений к = к(з(х)) и (8) остается формально такой же, как в R-схеме, поскольку эта формула определяется, как и в R-схеме, деревом Т.
L-схема иерархической идентификации квазилинейной модели с трихотомией невязок
Описанная выше конструкция
предполагает существование кластеров невязок на каждом шаге аппроксимации. Если явно выраженных кластеров нет, то уточнение модели в L-схеме можно осуществить, например, следующим образом.
Выберем некоторое число е (точность аппроксимации) и после построения линейной модели разобьем множество входных данных И с М" по величине соответствующих невязок на три подмножества
О = ВЕиО~ иО+, ИЕ = < £■} ,
И' = {(I е И; й< Р1^) - £} , (11) = {(I е И; с1> Р1^) + £}.
Для множества DE процесс построения модели закончен (требуемая точность уже достигнута), для множеств D~ и D+ идентифицируем уточняющие модели. Далее процесс повторяется.
Каждая не концевая вершина дерева Т, соответствующего данному алгоритму, имеет три выходящие дуги, одна из которых ведет в концевую вершину, которой отвечает достижение требуемой точности модели на соответствующем элементе разбиения. В частности, в данном алгоритме дерево Т не является уравновешенным (за исключением тривиального случая, когда уже на первом шаге D = D£).
Заключение
В данной статье описаны два алгоритма иерархической идентификации MISO-моделей, использующие иерархические разбиения множества входных данных. В первом алгоритме разбиение задано заранее и может, в частности, являться иерархической
кластеризацией. Во втором алгоритме разбиение генерируется в процессе идентификации и может иметь произвольную сколь угодно сложную структуру.
Оба алгоритма, и большей степени второй из них, мотивированы задачей регуляризации экспериментальных данных в случае, когда их хаотичность является следствием свойств объекта (например, влиянием какой-либо фрактальности), а не обычными погрешностями эксперимента.
Предлагаемые модели занимают промежуточное положение между достаточно регулярными функциональными моделями (линейными, полиномиальными,
нейросетевыми) и между моделями, кусочно-постоянными на ячейках Дирихле-Вороного (такие «нерегулярные» модели являются абсолютно точными на обучающих данных, но при этом они «переобучены» и потому, как правило, неэффективны).
Литература
1. Мишачев Н.М., Шмырин А.М., Супрунов И.И. Прямая и обратная задачи для пассивных зон конвейерной обработки протяженного объекта // Вестник Воронежского государственного технического университета. 2022. Т.18. № 5. С.78-84.
2. Канюгина А.С. О задаче управления температурным режимом стадии диффузии производства
сахара // Вестник Воронежского государственного технического университета. 2019. Т.15. №2. С.51-63.
3. Семина В.В. Идентификация слабосвязанных окрестностных систем // Вестник Воронежского государственного технического университета. 2019. Т.15. № 2. С. 69-76.
4. Takagi T., Sugeno M. Fuzzy identification of systems and its applications to modeling and control // IEEE transactions on systems, man, and cybernetics. 1985. Vol. 15. No. 1. Р. 116-132.
5. Stability analysis and Nonlinear Observer Design Using Takagi-Sugeno fuzzy Models/ Zsоfi Lendek, Thierry Marie Guerra, Robert Babuska, Bart De Schutter. Springer, 2010. 196 p.
6. Осовский С. Нейронные сети для обработки информации. М.: Финансы статистика, 2002. 344 с.
7. Подвальный С.Л., Васильев Е.М. Иерархическая идентификация параметров нелинейных динамических систем // Сборник трудов XIII Всероссийского совещания по проблемам управления ВСПУ-2019. М.: Институт проблем управления им. В.А. Трапезникова РАН, 2019. С. 517-521.
8. Олдендерфер М.С., Блэшфилд Р.К. Факторный, дискриминантный и кластерный анализ / пер. с англ.; под ред. И.С. Енюкова. М.: Финансы и статистика, 1989. 215 с.
9. Дюран Б. Кластерный анализ. М.: Статистика, 1977. 128 с.
Поступила 07.12.2022; принята к публикации 13.02.2023 Информация об авторах
Мишачев Николай Михайлович - канд. физ.-мат. наук, доцент кафедры высшей математики, Липецкий государственный технический университет (398055, Россия, г. Липецк, ул. Московская, д. 30), e-mail: [email protected]
Шмырин Анатолий Михайлович - д-р техн. наук, профессор, зав. кафедрой высшей математики, Липецкий государственный технический университет (398055, Россия, г. Липецк, ул. Московская, д.30), e-mail: [email protected] Щербаков Артем Петрович - старший преподаватель кафедры высшей математики, Липецкий государственный технический университет (398055, Россия, г. Липецк, ул. Московская, д.30), e-mail: [email protected]
TWO SCHEMES FOR HIERARCHICAL IDENTIFICATION OF QUASILINEAR MODELS
N.M. Mishachev, A.M. Shmyrin, A.P. Shcherbakov
Lipetsk State Technical University, Lipetsk, Russia
Abstract: the problem of improving the quality of approximation of a neighborhood model based on the analysis of residual data (residuals) of the initial linear model and subsequent hierarchical identification of additional quasi-linear or quasi-polynomial terms is considered. Two schemes of hierarchical identification are studied. In the first scheme, it is assumed that hierarchical clustering (or, more generally, hierarchical partitioning) of a set of tuples of input data is pre-defined. The additional terms of the refined piecewise continuous model correspond to the vertices of the hierarchy tree. In the case of hierarchical clustering of input tuples, the resulting piecewise continuous model can be approximated by a continuous model using unit partitioning. In the second scheme, the hierarchical partitioning of input tuples occurs recursively during the identification process, namely, the elements of the next layer of the hierarchy consist of prototypes of selected intervals or (if available) clusters of a set of residuals of already constructed models of the previous level. The elements of hierarchical partitioning of tuples of input data obtained in this way can have a rather complex form. The second scheme has some similarities with the construction of the Lebesgue integral. Both hierarchical identification schemes can be useful in modeling chaotic or highly oscillating dependencies of outputs on input tuples
Key words: residual data, hierarchical partition, hierarchical identification
References
1. Mishachev N.M., Shmyrin A.M., Suprunov I.I. "Direct and inverse problems for passive zones of conveyor processing of an extended object", The Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2022, vol.18, no. 5, pp. 78-84.
2. Kanyugina A.S. «On the problem of controlling the temperature regime of the diffusion stage of sugar production ", The Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta, 2019, vol.15, no. 2. pp.51-63.
3. Semina V.V. "Identification of weakly connected neighborhood systems", The Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2019, vol.15, no. 2. S. 69-76.
4. Takagi T., Sugeno M. "Fuzzy identification of systems and its applications to modeling and contro", IEEE transactions on systems, man, and cybernetics, 1985, vol. 15, no. 1, pp. 116-132.
5. Lendek Z., Guerra T. M., Babuska R., Schutter B. "Stability analysis and nonlinear observer design using Takagi-Sugeno fuzzy models", Springer, 2010, 196 p.
6. Osovsky S. "Neural networks for information processing", Moscow: Finansy i statistika, 2002, 344 p.
7. Podvalny S.L., Vasiliev E.M. "Hierarchical identification of nonlinear dynamic systems parameters", proc. of the XIII All-Russian meeting on control problems. Institute of Management Problems RAS, 2019, pp. 517-521.
8. Oldenderfer M.S., Blashfield R.K. "Factor, discriminant and cluster analysis": trans. from English, ed. by I.S. Enyukova, Moscow: Finansy i statistika, 1989, 215 p.
9. Duran B. "Cluster analysis", Moscow: Statistika, 1977, 128 p.
Submitted 07.12.2022; revised 13.02.2023 Information about the authors
Nikolay M. Mishachev, Cand. Sc. (Phys. and Math), Associate Professor, Department of Higher Mathematics, Lipetsk State Technical University (30 Moskovskaya str., Lipetsk 398055, Russia), e-mail: [email protected]
Anatoliy M. Shmyrin, Dr. Sc. (Technical), Professor, Head of the Higher Mathematics Department, Lipetsk State Technical University (30 Moskovskaya str., Lipetsk 398055, Russia), e-mail: [email protected]
Artem P. Shcherbakov, Assistant Professor, Department of Higher Mathematics, Lipetsk State Technical University (30 Moskovskaya str., Lipetsk 398055, Russia), e-mail: [email protected]