Qaid Wadeea Ahmed Abdo - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: wadea@mail.ru; 17, Petrovskya, Taganrog, Russia; phone: +79514972879; the department of automatic control systems; postgraduate student.
УДК 519.816
Е.Н. Павленко САМООРГАНИЗУЮЩИЕСЯ АДАПТИВНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ С ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ
Рассматривается формализация и принципы построения систем автоматической оптимизации с применением знаний экспертов. Системы способны проявлять свойство самоорганизаии за счет адаптации к изменяющимся параметрам объекта управления. Так как задачи обеспечения помехоустойчивости и быстродействия вступают в противоречие, то необходим эвристический выбор нужного для данной ситуации алгоритма поиска из множества допустимых алгоритмов. Этим объясняется целесообразность применения поисковых стратегий с адаптивными методами выбора параметров САО, а также применение средств оценки управляющих решений и процесса функционирования в целом согласно принятым критериям, что, в итоге, обеспечивает адаптивное и оптимальное (су-боптимальное) поведение САО.
Система, адаптация; искусственный интеллект; самоорганизация; обучение.
E.N. Pavlenko SYSTEM ASPECTS OF OPTIMIZATION OF FUNCTIONING OF TERRITORIALLY DISTRIBUTED POWER SYSTEMS
We consider a formalization and construction principles of the automatic optimization with application expertise. Systems can proyaslyat property samoorganizaii by adapting to the changing parameters of the control object. Since the task of ensuring immunity and performance in conflict, you need a heuristic selection of the right for the situation of the search algorithm of the set of feasible algorithms. This explains the usefulness of search strategies with adaptive methods of choosing the parameters of SAO, and the use of assessment tools, and process control solutions operate in accordance with generally accepted criteria, which, in turn, provides an adaptive and optimal (suboptimal) behavior SAO.
System; adaptation; artificial intelligence; self-organization; learning.
Система автоматической оптимизации (САО) - адаптивная система. Оптимальному (субоптимальному) адаптивному управлению посвящено большое число работ. Основная задача «оптимального адаптивного управления «в большом» с достижением конечной цели в заранее неизвестной ситуации» [1].
Согласно работе [2], «адаптивная система - это такая управляющая система, которая в ходе управления любым объектом класса за конечное время достигает цель». Для адаптивных обучаемых систем управления появилось понятие обучаемости и цели управления, а система управления приспосабливается к свойствам конкретного объекта, «о котором заранее известно всего лишь, к какому классу управляемых объектов он относится» [3]. В теории адаптивных систем управления выполнены исследования для синтеза разного вида поисковых САО, однако практическое применение теоретических результатов ограничивается как сложностью синтеза реальных САО, так и степенью априорной и апостериорной неопределенности в задачах адаптации, идентификации и оптимизации.
Приведем основные классические понятия.
Управление в САО направлено на изменение вектора входных координат ОУ с целью достижения экстремума. Из теории игр в силу существенной степени неопределенности относительно ОУ взят термин «управляющее решение», определяющий классическое понятие «управление».
Совокупность правил выбора управляющих решений для каждой ситуации функционирования САО называется поисковой стратегией. Для оценки эффективности поисковой стратегии необходимо некоторое множество наборов критериев, в которые входят, как частные критерии, критерии точности и быстродействия.
При поиске входных воздействий имеется два этапа действий, направленных на устранение неопределенности и выбор управляющих решений [4] - этап получения достоверной информации и этап выбора оптимального управления для достижения поставленной цели управления.
Информация первого этапа позволяет на основе данных измерения выходной величины ОУ получить представление о положении рабочей точки ОУ относительно экстремального значения. Происходит это путем анализа реакции ОУ на пробные возмущения. При получении информации должны решаться задачи:
♦ обеспечения быстродействия системы в виде реакции на изменение состояния;
♦ обеспечения помехоустойчивости системы в виде снижения частоты ложных срабатываний;
♦ компенсации переходных процессов в ОУ при наличии существенной инерционности;
♦ наименьшего влияния на ход заданного процесса функционирования ОУ.
Так как задачи обеспечения помехоустойчивости и быстродействия вступают
в противоречие, то необходим эвристический выбор нужного для данной ситуации алгоритма поиска из множества допустимых алгоритмов.
На втором этапе (выбор поисковой стратегии) решают задачи:
♦ минимизации времени поиска экстремума;
♦ наименьшего влияния на ход заданного процесса функционирования ОУ;
♦ уменьшения риска принятия неверного решения.
Этим объясняется целесообразность применения поисковых стратегий с адаптивными методами выбора параметров САО, а также применение средств оценки управляющих решений и процесса функционирования в целом согласно принятым критериям, что обеспечивает адаптивное и оптимальное (субоптималь-ное) поведение САО. Применение адаптивных методов в поисковых САО обуславливается следующими причинами [4].
Отсутствие сведений о крутизне характеристики ОУ, которая может меняться в значительных пределах в зависимости от параметров процесса функционирования ОУ. Идентификация модели характеристики возможна в стационарном режиме функционирования ОУ и связана с выполнением экспериментов на ОУ, что вызывает нарушение процесса функционирования ОУ. Необходимо объединить задачи идентификации модели характеристики и поиска управляющих решений. Если невозможно построить модель характеристики, то следует применять методы адаптации при поиске управляющих решений, адаптируя параметры САО к параметрам текущей ситуации.
Отсутствие априорных сведений в виде статистических данных измерений показателя качества. Статистические данные результатов измерений показателя качества могут быть получены при исследовании функционирующего ОУ. Методы синтеза статистически оптимальных поисковых процедур можно применить, если характеристики неизменны при изменении режима функционирования, что далеко не всегда выполняется, поэтому необходимо определять статистические данные характеристик в структуре САО.
Отсутствие априорных сведений о модели ОУ, необходимой для аналитического решения оптимизационных задач. Так как идентификация модели динамики показателя качества требует знаний о структуре ОУ, а этих сведений может не быть, то применение методов адаптации позволяет идентифицировать модель динамики в процессе работы САО.
Отличие адаптивной САО состоит в получение апостериорной информации в процессе функционирования системы «система управления - объект управления» и в применении этой информации для решения задач оптимального функционирования системы. Адаптивная САО решает задачи оптимального управления в условиях частичной априорной неопределенности относительно свойств объекта или процесса, при этом существуют уровни адаптации:
♦ адаптация параметров, которая предполагает существование средств оценки эффективности функционирования САО, позволяющих определять такие значения коэффициентов настройки, при которых достигается цель функционирования;
♦ получение адаптивной модели экстремальной характеристики за счет применения методов идентификации модели характеристики, что позволяет использовать информацию о связи между параметрами настройки САО и параметрами характеристики ОУ;
♦ адаптация стратегий функционирования, которая предполагает наличие средств оценки эффективности стратегий поиска и корректировку параметров и структуры алгоритмов поиска управляющих решений.
Существующие методы синтеза адаптивных САО с применением последовательных процедур статистической проверки гипотез показаны на рис. 1.
Рис. 1. Методы синтеза адаптивных САО с применением последовательных процедур статистической проверки гипотез
В системах с адаптацией к неизвестным статистическим характеристикам идентификация распределения вероятностей параметров в процессе работы обеспечивает лучшую точность и быстродействие САО при принятии решений на основе статистических алгоритмов.
В системах со стратегией поиска при расширении множества принимаемых решений число гипотез в алгоритме принятия решений определяется числом оцениваемых состояний системы. Если Hk - гипотеза относительно ^го состояния, то принятие гипотезы Hk соответствует выбору действия ^ - величины и направле-
ния шага поиска. Вводя возможностную оценку принятия неверного решения ^ик) и применяя распределение возможностей на множестве принимаемых решений, можно создать алгоритм выбора действия. Увеличение возможности неверного решения должно повышать требования к выбору управляющих решений. Наличие дополнительной информации позволяет прогнозировать принятие управляющих решений (досрочное принятие решений), применяя усеченный алгоритм проверки гипотез. При повышении информационной емкости пробных возмущений, помимо информации о знаке или величине приращения характеристики, применяется дополнительная информация, которую получают при анализе реакции на пробные воздействия для повышения эффективности САО. На каждом к-м шаге поиска выполняются оценки следующим образом.
Оценка показателя качества ук{ рассматриваемая как совокупность свойств 1ь12,---,1д, т.е.
Ук(=<11Л2,---Лс>. (3.1)
где 11=у - величина показателя качества; 12=х - значение входной координаты при котором выполнено измерение; 13=т- время измерения; 14=Лут- дрейф показателя качества; 15=ош- разброс (дисперсия) значений.
Если отсутствует дополнительная информация, то ук(=<11> - величина показателя качества. Также может запоминаться вектор состояния ОУ, при котором было произведено измерение уи. Однако последовательные алгоритмы анализа имеют ограничения [4]:
♦ статистические характеристики предполагаются постоянными и учитываются только величина показателя и разброс значений параметров;
♦ алгоритмы последовательного анализа предполагают повторение проб в фиксированной рабочей точке и не рассчитаны на анализ случайных блужданий системы.
В алгоритмах также могут быть применены модели принятия решений с элементами искусственного интеллектадля получения дополнительной информации.
Система с применением оптимизационной модели объекта предназначена для технических объектов, функционирующих в условиях малых или медленно меняющихся неконтролируемых возмущений. Оптимизационная модель называется режимной оптимальной картой и позволяет исключить поиск на объекте, так как связывает значения входных ситуационных параметров ОУ и значения оптимизируемых параметров ОУ, при которых достигается экстремум. САО функционирует в контуре адаптации системы управления. Эффективность функционирования зависит от точности режимных карт, числа учитываемых значимых параметров и возможности адаптации режимных карт к изменению свойств ОУ во времени.
В системах с применением идентифицируемой модели экстремальной характеристики необходима информация о виде и параметрах экстремальной характеристики. Характеристика может быть аппроксимирована некоторой функциональной зависимостью с неизвестными параметрами, идентификация которых может происходить как по данным предыстории функционирования ОУ, так в режиме заданного функционирования. Так как часто выполнение экспериментов на ОУ недопустимо, то модель экстремальной характеристики будет неполной, поэтому применяют методы адаптивного управления с идентификатором в цепи обратной связи при построении адаптивной САО.
Для представления неполной или неточной информации с возможностью уточнения в процессе функционирования, и для принятия решений в САО могут быть использованы нечетко-вероятностные модели, основанные на нечетких и лингвистических оценках параметров. В данных моделях также применяются методы адаптации.
Решение оптимизационных задач управления на практике во многих случаях происходит в условиях неопределенности, связанной с отсутствием предварительно получаемых статистических данных о поведении, а также отсутствием априорных сведений о математической модели ОУ. Для решения оптимизационных задач САО разрабатываются модели принятия решений, что делает возможным синтез интеллектуальных САО [5]. Однако в процессе управления структура и поведение ОУ могут претерпевать существенные изменения, поэтому логический вывод на основе исходной экспертной информации будет формировать управляющие решения не соответствующие реальным ситуациям функционирования ОУ. В связи с этим необходимо осуществлять адаптацию (коррекцию) исходных знаний экспертов в процессе функционирования САО. Рассмотрим варианты адаптации в продукционных моделях нечеткого логического вывода.
В основе интеллектуальных систем находится база знаний экспертов, которая конструируется с применением определенных методов представления и поиска знаний [6, 7]. Реализация интеллектуальных систем для задач управления объектами осуществляется в виде нечетких контроллеров, называемых еще нечеткими регуляторами. Таким образом, основной задачей при построении нечетких регуляторов является конструирование базы знаний. Решение задачи конструирование базы знаний зависит от особенностей поведения ОУ, который может менять во времени свои характеристики, совершать движение в пространстве состояний и даже менять свою структуру. Условия применения нечеткого регулятора и поведение объекта определяют способы конструирования базы знаний.
Классифицировать нечеткие регуляторы можно по способам заполнения базы знаний следующим образом:
♦ способ анализа опытных данных предусматривает заполнение базы знаний нечеткого регулятора экспертом в процессе управления ОУ;
♦ способ составления априорных правил заключается в том, что экспертами формулируются продукционные правила выбора управлений для каждой наблюдаемой ситуации;
♦ способ самоорганизации базы знаний состоит в том, что для нечеткого регулятора сообщается некоторая исходная информация об управляемом объекте и методе поиска решений, а затем нечеткий регулятор осуществляет управление и набирает знания на основе реакции объекта на эти управления.
Очевидно, что третий способ позволяет не вмешиваться в ход процесса функционирования ОУ, решая задачи адаптации в продукционных моделях нечеткого логического вывода и синтезируя нечеткие регуляторы, относящиеся к группе самоорганизующихся (адаптивных, обучаемых) регуляторов.
Например, теплоагрегат меняет свои характеристики во времени и его нельзя рассматривать как стационарный объект. Изменение его характеристик должно отслеживаться нечетким регулятором во времени и учитываться в выборе управляющих воздействий. Обучение нечеткого регулятора состоит в получении новых знаний об управлении, адекватных реальным ситуациям в пространстве состояний теплоагрегата. Возможный вариант структуры самоорганизующегося нечеткого регулятора (адаптивной обучаемой системы) показан на рис. 2. В приведенной структуре в общем виде учтено задание исходных данных экспертов, возможность измерения (оценки) текущих данных о параметрах ОУ управления, а также методология обучаемости и адаптации.
Самоорганизующийся нечеткий регулятор подает на вход ОУ в установленные такты времени г сигналы управления (управляющие воздействия) иь вырабатываемые блоком выбора управляющих решений. Состояние ОУ в такте времени г
определено сигналом хь а сигналом у{ определен выходной параметр ОУ. В общем случае величины щ, хи и уг могут рассматриваться как векторные. Эволюция ОУ во времени описывается следующими уравнениями:
хг= q:\Xt-uXt-2,-■■,х0,ииЩ-1,...,и1 ], (2)
уг= у/[Хг,Хг-1,...,Хо,иг,Щ-1,...,Щ], (3)
где р- функция переходов; у- функция выходов. Функции переходов (ри увы-ходов являются моделью ОУ.
Рис. 2. Возможный вариант структуры самоорганизующегося нечеткого
регулятора
Вид функций (2) и (3) неизвестен, поэтому самоорганизующийся нечеткий регулятор ориентируется на измерения выхода и состояния ОУ в такты времени г. Выходной сигнал уг и состояние х{ оцениваются самоорганизующимся нечетким регулятором. Результатом оценки является сигнал реакции ^ на действие и{-1, совершенное в такте времени г-1. Для оценки выходных параметров ОУ (поведения объекта) принимается некоторый критерий Г. Критерий представляет собой вначале некоторую гипотезу Н0, формально представляющую собой модель оценки поведения ОУ, которая выдвигается против альтернативы Н1.
Критериев оценки эффективности функционирования ОУ в общем случае может быть сколь угодно много и экспертами определяется множество {Г/}, I = 1,2,3,... критериев. Формализовать задачу выбора критерия оценки эффективности функционирования ОУ можно следующим образом.
Определим набор множеств для задания множества критериев эффективности функционирования [6]
< X, К,ЬУ,Й, Я,М,А> , (4)
где X - вектор конструктивных параметров ОУ; К - множество моделей критериев эффективности, применение которых возможно для анализа функционирования ОУ; ЬУ - лингвистическая переменная «степень достоверности», вербально определяющая степень достоверности значений элементов вектора X; М - семантическое правило образования терм-множеств ЛП ЬУ; С - множество целей ОУ; А = (С,КЇ) - соответствие между целями ОУ и критериями, необходимыми для оценки достижения этих целей; И - множество синтаксических правил, порождающих интегральные показатели функционирования ОУ.
Экспертами определяется база знаний ВГ, в которой задана и описана некоторая допустимая совокупность критериев оценки эффективности функционирования ОУ. Исходя из принятых правил ГХ, осуществляется оценка гг+і результата управления щ. Выбор управления щ - принятие решения о сигнале управления из некоторого множества и, который в такте времени ї подается от блока выбора управляющих решений на вход ОУ с учетом реакции ^ на предшествующее управление, сведений о предистории ВХ ОУ, а также в соответствии с некоторыми, априорно заданными экспертами, а затем корректируемыми правилами выбора управляющих решений.
Экспертами определяются база данных ВР, в которой определены и хранятся данные для правил выбора управления, база знаний ВЯ, в которой описаны правила выбора действий, база правил коррекции знаний FZ.
Оценку результатов управления определим оператором и, коррекцию базы знаний - оператором I, а выбор управления определим оператором 3. Алгоритм последовательных функциональных преобразований в самоорганизующемся нечетком регуляторе представляется следующим образом. К начальному такту ї0 экспертами определены база данных ВР, базы множества критериев оценки управлений ВГ, правил ГХ, знаний ВЯ0 (индекс 0 означает начальную базу знаний), база правил коррекции FZ и виды операторов и, I и 3. Управляющее действие и0 формируется блоком выбора в управляющих решений оператором 3:
ио=/[ВР, ВЯ(0)]. (5)
В такте времени ї1 будут определены параметры объекта х1 и у1. Реакция объекта ^определится по правилу
11 = и[ВХ(1), ВГ]. (6)
Результат реакции объекта г1 на действие и0 определит изменения в базе знаний ВЯ в соответствии с правилом
BRl=I[zt,FZ]. (7)
При работе самоорганизующегося нечеткого регулятора алгоритм последовательных функциональных преобразований отображает во времени формирование сигнала управления, реакции ОУ и «работу» знаний, как это показано на рис. 3.
и0 = 3[ВР,^2(0) ] ^ у1,х1 ^ ВХ(1) ^ z1 = и[ВХ(1)’^1] ^
^ ВЯ(1) = I[x1,FZ] ^ и1 = 1[ВР,ВЯ(1} ] ^
^ у2,х2 ^ ВХ(2) ^ х2 = и[ВХ(2),FZ1] ^ ВЯ(2) = I[x2,FZ] ^
^ и2 = 1[ВР,ВЯ(2) ] ^ у3,х3 ^...
Рис. 3. Алгоритм последовательных функциональных преобразований Рассмотрим особенности построения баз знаний.
Структуризация знаний определяется задачами поиска требуемой информации. Результатом содержательного описания ОУ являются предложения по организации и проектированию базы знаний, а также концептуальная теоретикомножественная модель взаимодействия «объект управления - самоорганизующийся нечеткий регулятор». Разновидности знаний в контексте исследуемого ОУ определяются, исходя из характера решаемых задач, характера динамики ОУ, анализа определенности исходных данных и знаний о функционировании объекта и методах управления. При разработке баз знаний важно проанализировать имеющиеся знания экспертов и технологические знания, а также определить возможность получения метазнаний.
Коррекция базы знаний позволяет вносить изменения в правила выбора управляющих решений в соответствии с реакциями ОУ на совершенные действия. Вариант автоматного построения совокупности правил выбора действий и их коррекция по принципам обучаемости [3] позволяет сделать возможным решение задачи адаптивного управления априорно неопределенной САО.
Язык ситуационного управления позволяет описать так пространство управления, что каждому элементу нечеткой эталонной ситуации сопоставляется определенный набор правил выбора управляющих решений (или одно правило выбора). Анализируя возможности получения и коррекции новых знаний, выделим три независимых варианта самоорганизации баз знаний, показанные на рис. 4.
Генерация новых знаний
Коррекция правил выбора управляющих решений I
Коррекция функций
принадлежности и числа лингвистических и нечетких II
переменных III
Рис. 4. Три независимых варианта самоорганизации баз знаний
Первый вариант самоорганизации предусматривает, что эксперты определяют исходные данные в виде лингвистических переменных, нечетких переменных, составляющих терм-множества лингвистических переменных, и функции принадлежности нечетких переменных. Определяют правила вывода управлений. В процессе управления объектом в адаптивном обучаемом нечетком регуляторе на основе анализа сигналов реакции объекта на управления происходит коррекция функций принадлежности нечетких переменных.
Второй вариант самоорганизации предусматривает, что эксперты определяют исходные данные и правила вывода управляющих решений в соответствии с некоторыми стандартными выводами (modus ponens, modus tollens, modus tollendo tollens, правило силлогизма, правило контропозиции). Принятие решения осуществляется на основе анализа сложившейся нечеткой ситуации и установления для этой ситуации конкретного действия. Суть обучения состоит в том, что каждому правилу устанавливается в соответствие множество действий. Каждое действие имеет степень предпочтительности выбора. В процессе функционирования, анализируя реакции объекта на управления, осуществляется коррекция степеней предпочтительности выбора.
Третий вариант самоорганизации предусматривает, что эксперты определяют исходные данные, а также правила генерации новых знаний из имеющихся. Предусматриваются формальные процедуры доказательства и вывода логических следствий для вновь сформулированных правил.
Обучение нечеткого регулятора может сочетать в себе приемы одновременно нескольких вариантов. Для каждого из вариантов коррекции базы знаний могут быть разработаны различные методы.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Справочник по теории автоматического управления / Под ред. А.А. Красовского. - М.: Наука, 1987. - 712 с.
2. Финаев В.И., Мажди Наср Аллах. Адаптивные автоматные системы управления/Монография. - Таганрог: Изд-во ТТИ ЮФУ, 2007. - 151 с.
3. Срагович В.Г. Теория адаптивных систем. - М.: Наука, 1976. - 320с.
4. Растригин Л.А. Адаптация сложных систем. - Рига: Зинатне, 1981.
5. Алиев Р.А., Церковный А.Э., Мамедова Г.А. Управление производством при нечеткой исходной информации. - М.: Энергоатомиздат, 1991. - 240 с.
6. Mandani E.H. A fuzzy rule-based method of controlling dynamic processes. Queen Mary College. London, 1981.
7. Finaev V.I., Glod O.D. Conceptual Model of an Adaptive Trained Control System by Beforehand Uncertain Situational Objects. Third European Congress on Intelligent Techniques and Soft Computing. Aachen, Germany, 1995.
Статью рекомендовал к опубликованию д.т.н., профессор В.Е. Золотовский.
Павленко Елена Николаевна - Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет»; e-mail: fin_val_iv@tsure.ru; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371689; к.т.н.
Pavlenko Elena Nikolaevna - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: fin_val_iv@tsure.ru; 44, Nekrasovsky, Taganrog, 347928, Russia; phone: +78634371689; cand. of eng. sc.