Модель адаптивного поведения агентов мультиагентной системы управления экологической безопасностью

Ерёменко Ю. И.; Доронина Е. Г.

№ 2(26) 2010

Ю. И. Ерёменко, Е. Г. Доронина

Модель адаптивного поведения агентов мультиагентной системы управления экологической безопасностью

В статье представлена структура мультиагентной системы управления экологической безопасностью, разработаны модели поведения агентов, представлен метод их обучения на основе нечеткой нейронной сети и «жадного» механизма выбора стратегии, который позволяет сократить пространство состояний идействий агента.

Введение

В последние десятилетия ускоренными темпами происходит концентрация производства, организация крупных промышленных объединений, глобализация экономики, что приводит к усилению воздействий техногенных процессов на окружающую среду. Рациональное использование природных ресурсов требует перехода на принципиально иные отношения, учитывающие особенности эколого-экономической системы:

• пространственная и функциональная распределенность, определяющаяся как территориальной удаленностью постов контроля, так и различными целями участников эколого-экономической системы (предприятия, органы государственной власти);

• наличие нескольких уровней управления, на которых принимаются решения, соответствующие данному уровню иерархии;

• необходимость согласования принимаемых решений на разных уровнях иерархии с учетом имеющихся прав;

• институциональные ограничения (нормативно-правовая база) деятельности предприятий и их взаимодействия с управляющими органами;

• результаты деятельности управляемых субъектов многоаспектны и подвержены воздействию множества неконтролируемых, неопределенных и случайных факторов.

Управление эколого-экономической системой является весьма актуальной задачей, требующей решения целого комплекса научных и практических задач: 1) хранение и пополнение информации об экологическом состоянии территории; 2) идентификация источников выбросов; 3) возможность прогнозирования изменений состояния экологической системы в целом и ее отдельных составляющих; 4) разработка рекомендаций и подходов к оптимальному управлению эко-лого-экономической системой как со стороны предприятий, так и органами государственной власти. Стоит отметить, что в решении проблем безопасности исключительно важна экономическая составляющая, позволяющая в соответствии с концепцией устойчивого развития ввести в действие эффективные организационные и экономические механизмы стимулирования практической деятельности по снижению опасности на предприятиях и в регионе в целом.

Решение перечисленных задач невозможно без необходимого информационного обеспечения, ориентированного на сбор, систематизацию, анализ и оценку информации о количественном и качественном состоянии окружающей среды и принятия решений на основе собранной информации. Традиционно, исследования по созданию информационных систем обеспечения экологической безопасности ориентировались на построение сети различных датчиков.

№ 2(26) 2010

Они независимо распределялись на территории контроля, собирали информацию и передавали ее центральному устройству обработки, по результатам работы которого оператор делал окончательные заключения об экологическом состоянии территории. Сложность экологических процессов и их моделей, большое количество собираемой информации и географическое разделение участников системы требует мультидисцип-линарных подходов и модульных решений. На наш взгляд наилучшим образом поставленные задачи могут быть решены методами искусственного интеллекта, а именно применением технологии мультиагентных систем.

Структура мультиагентной системы управления экологической безопасностью

Агентно-ориентированные модели имеют большие перспективы в исследовании социально-экономических систем [1]. Применение мультиагентных систем (MAC) для решения задач управления экологической безопасностью обусловлено многими факторами. В первую очередь, это сложность современных систем и организаций, которая достигает такого уровня, что централизованное управление в них становится неэффективным из-за наличия огромных потоков информации, когда слишком много времени тратится на ее передачу в центр и принятие им решений [2]. Сами компьютерные системы также становятся все сложнее и включают ряд подсистем различной природы, обладающих различными функциональными характеристиками и взаимодействующих с различными специалистами, удаленными друг от друга. Кроме того, с усложнением падает надежность систем, и все труднее сформулировать их адекватную целевую функцию. Во-вторых, сами решаемые задачи или разрабатываемые системы подчас неоднородны и распределены: а) в пространстве; б) в функциональном плане, поскольку ни один человек не может соз-

дать современную сложную систему в одиночку. В-третьих, MAC относится к открытым системам. Понятие открытой системы означает, что у нее имеются развитые возможности и средства адаптации к изменениям среды, в том числе путем модификации своей структуры и параметров. Возможности MAC в решении вышеперечисленных проблем обусловлены принципом автономности отдельных частей программы — агентов, совместно функционирующих в распределенной системе, где одновременно протекает множество взаимосвязанных процессов.

Для успешного решения поставленных перед интеллектуальным агентом задач он должен обладать следующими свойствами [3]:

1) автономность — относительная независимость от окружающей среды или наличие некоторой «свободы воли», обуславливающей собственное поведение;

2) реактивность — способность воспринимать состояние окружающей среды и изменения этого состояния, а также учитывать эту информацию в своей деятельности;

3) активность — способность генерировать цели и действовать рациональным образом для их достижения;

4) базовые знания — знания агента о себе, окружающей среде, включая других агентов, которые не меняются в рамках жизненного цикла агента. Данное свойство определяет интеллектуальность агента, а при создании экоинформационных систем одной из главных определяющих парадигм является парадигма интеллектуальных агентов, поведение которых определяется их базой знаний. Уровень интеллектуальности определенного агента можно оценить как его способность использовать старые знания в новых, может быть, заранее неизвестных ситуациях и проблемных областях, где оцениваемый агент выступает как активный решатель задач;

5) коммуникативность — свойство агентов взаимодействовать между собой, а также с другими интеллектуальными существами. Общий, совместный результат MAC

№ 2(26) 2010

следует рассматривать как нечто большее, чем сумма отдельных вкладов каждого агента, что в результате дает не только дифференцированную оценку отдельных элементов качества окружающей среды, но и общую оценку.

Система управления экологической безопасностью региона представляет собой иерархическую структуру объектов и процессов между ними. В эколого-экономиче-ской системе можно выделить трех основных участников:

1) управляющие органы (органы государственной власти);

2) экономические агенты (предприятия региона);

3) окружающая среда.

Отношения в такой системе устроены следующим образом: управляющий орган воздействует на экономических агентов и окружающую среду, экономический агент — только на окружающую среду.

В соответствии со структурой эколого-экономической системы в мультиагентной системе были выделены агент ресурса (для оценки состояния ресурса и идентификации источников выбросов), агент предприятия (представляет интересы предприятия) и агент-супервизор (оценивает и анализирует ситуацию в целом, разрабатывает рекомендации и подходы к оптимальному управлению, ведет переговоры с агентом предприятия). Структура MAC управления экологической безопасностью (МАСЭБ) (рис. 1) реализуется через этапы непосредственного сбора информации, ее анализа, идентификации ситуации и принятия решений для регулирования и эффективного управления.

Агент для решения своей задачи располагает базой знаний (знания о решении поставленной ему задачи), базой данных (данные об окружающей среде) и моделями функционирования. Ввиду территориальной распределенности точек контроля, а как следствие, распределенности агентов и назначенных им специфических задач, целесообразно организовать распределенные

д

базы знаний и данных и наделить каждого | агента моделями поведения. Таким образом, ^ каждый агент будет располагать фрагмен- "ч том знания общей задачи и действовать на и основе своей модели поведения. База дан- |* ных может содержать, например, информа- § цию об источнике выброса, характерные для конкретного объекта выбрасываемые за загрязняющие вещества, их класс опасно- ® сти, характеристики местности, погодные условия и т.д. Знаниями о решении поставленной задачи являются правила формирования текущего образа объекта контроля, подвергающегося проверке, на основе которых и происходит принятие управленческих решений.

Блок принятия решений и интегральной оценки представляют агент-супервизор и агент предприятия. Агент-супервизор собирает всю необходимую информацию от агентов ресурса и в результате своей работы анализирует ситуацию в целом, дает интегральную оценку экологической безопасности региона и принимает управленческие решения. На качественном уровне задача управляющих органов заключается в выборе на основе поступившей от агента ресурса информации таких условий деятельности предприятий, которые побуждали бы предприятия действовать наиболее выгодным для управляющих органов образом.

Агент предприятия отстаивает интересы своего предприятия, преследующего свои частные цели, часто расходящиеся с объективно существующими целями устойчивого и безопасного развития региона. По полученной от агента ресурса информации агент предприятия может выявить места высоких выбросов в окружающую среду и провести переговоры с агентом-супервизором.

Блок анализа и идентификации представлен агентом ресурса, который выполняет функцию обратной связи, оценивая результаты хозяйственной деятельности предприятий региона и эффективность задействованных агентом-супервизором механизмов управления. Обладая базовыми знаниями об окружающей среде и возможно-

№ 2(26) 2010

Пользователь

Частные оценки

Блок принятия решений и интегральной оценки воздействий на ОС

и §

0

чэ

48

8

$

¡5

та

1 1

К

I

е

I

48

! §

I

£ <0

I

и

5

со ё

е §

Ё 1= <0

Точки контроля Окружающая среда

Рис. 1. Структура мультиагентной системы управления экологической безопасностью

стями «рассуждать», агент собирает информацию о ресурсе, оценивает и анализирует сложившуюся экологическую ситуацию на выделенных ему объектах, определяет ис-

точники выбросов и дает локальные оценки. Ресурс в нашем случае можно представить как элемент окружающей среды: атмосферу, гидросферу и литосферу.

74

№ 2(26) 2010

Формализация модели взаимодействия агентов мультиагентной системы управления экологической безопасностью

Одним из актуальных направлений работ в рамках мультиагентного моделирования является исследование взаимодействия агентов [2]. Наиболее сложным взаимодействием является коммуникация между персонифицированными агентами, представленными агентом предприятия и агентом-супервизором. Классическими методами исследования переговорных процессов являются методы теории полезности и теории игр. Игру можно представить как стратегическое взаимодействие, включающее ограничение на действия, которые может совершить агент, и его интересы. Применительно к теории интеллектуальных агентов использование механизмов теории игр обеспечивает создание успешно действующих систем из совокупности более ограниченных системных компонентов (даже противоборствующих системных компонентов), способных достигать цели, далеко превосходящие возможности отдельно взятого компонента системы.

Эколого-экономическая система может быть описана множеством состояний ее в, в которых могут находиться агенты с вероятностями Р(э). Каждый агент имеет набор возможных действий —Л. В какой-то момент времени Ге [О/Г] агент находится в состоянии в е Б, предпринимает действие а, еА и получает некоторое вознаграждение. При этом агент-супервизор имеет право первого хода и может ограничивать возможности агента предприятия (так называемые модели конфликтно управляемых систем с иерархической структурой).

Выбор того или иного действия в момент времени Г е[0;Т] осуществляется агентом предприятия исходя из его экономических интересов. Как правило, стремящегося к максимизации прибыли, полученной в результате хозяйственной деятельности, за вычетом затрат, связанных с очисткой выбросов на предприятиях, налогами

и штрафными санкциями за сброс загрязняющих веществ. При этом предлагается ввести коэффициент М, увеличивающий значения штрафных санкций относительно затрат предприятия на природоохранные мероприятия, что позволяет предупредить чрезмерные выбросы:

fj =} (D, (у, ,0 - Z, {к, ,0 - Nj {v, ,0 -

о

-Mj ■ Sj{vj ,t))dt ^ max C)

v, < qi, 0 < t < T,

где t— временная координата; T— момент времени, до которого ведется рассмотрение; D( (у, Г) — прибыль предприятия от реализации продукции объемом у в момент времени Г; Zi(ki, t) — затраты предприятия на очистку отходящих газов, на вывоз и утилизацию твердых отходов и на очистку сточных вод — капитальные и эксплуатационные затраты. Данные затраты зависят от количества загрязняющих веществ кг удаляемых на предприятии в момент времени Г. N (v(. t) — затраты предприятия (налоги) за сброс загрязняющих веществ в пределах нормы; vi — количество загрязняющих веществ, сбрасываемых в окружающую среду без очистки; S(v;, t) — функция затрат за негативное воздействие на окружающую среду (штрафы) в момент времени t (за сверхнормативный или сверхлимитный сброс загрязняющих веществ); М — цена загрязнения для предприятия, во много раз превышающая затраты на природоохранные мероприятия Zj{kj,t); величина qj — максимально допустимое значение выбросов загрязняющих веществ на /'-ом предприятии.

Агент-супервизор представляет органы власти, деятельность которых заключается в поддержании требуемого уровня безопасности с помощью установленных законов, норм и систем штрафов. При этом агент-супервизор стремится минимизировать ущерб от деятельности предприятий региона, который зависит от текущего загрязнения окружающей среды и суммы налоговых выплат и штрафов предприятий региона:

№ 2(26) 2010

ф=Й (Щ (V, )-Л/,. (V, ,Г )-М, (V, ,т ^т I п,

О <=1 4 (2)

Я, ,

где ю( — минимальная величина допустимых выбросов, определяемая технологическими параметрами /'-ого предприятия; W¡ (у. Г) — ущерб от загрязнения окружающей среды, связанный с деятельностью /'ого предприятия региона (/' = 1... п) в момент времени Г.

Параметры экономических механизмов настраиваются агентом-супервизором в соответствии с наблюдаемым уровнем безопасности каждого предприятия и региона.

Интересы предприятия и административного центра вряд ли можно назвать совпадающими, однако степень достижения своей цели каждым из агентов зависит как от его собственных решений, так и от действий всех остальных участников.

Достижение устойчивого развития эко-лого-экономической системы можно осуществлять различными методами иерархического управления. В существующих условиях, как правило, управление административного центра носит административно-законодательный характер с применением экономических механизмов воздействия, то есть центр запрещает предприятию использовать стратегии, не удовлетворяющие законодательно оговоренным требованиям, и назначает платежи за пользование природными ресурсами и экономические санкции за экологические правонарушения.

Функционирование системы управления будем рассматривать во времени, точнее на отрезке [0,7], при этом предполагаем, что параметр Г представляет дискретное множество значений 0 = ¡1< Г2< ... < Гт= Т. Будем считать, что все параметры, входящие в систему, изменяются во времени: (Г), к1 (Г), у (Г). Административный центр и предприятия заинтересованы в максимизации за все время функционирования системы своих выигрышей, которые складываются из выигрышей агентов в момент Г, где к = 1 ,...,т.

Статическую игру, рассматриваемую в момент tk, можно представить следующим образом:

1) агент-супервизор, стремясь уменьшить нагрузку на окружающую среду, воздействует (выбирает ход xs gXs) на область допустимых вариантов управления агентом предприятия за счет изменения величины ограничений на сброс загрязняющих веществ qj и цену загрязнения М. для /'-ого предприятия (/' = 1...л) — выбирает стратегию Rs (tk). Т. е. задача агента-супервизора состоит в поиске таких векторов q = (qp... qn) и/или M = (Ц,..., Мп), которые обеспечат перевод состояния окружающей среды в новое более приемлемое состояние и минимизируют ущерб от загрязнения окружающей среды.

2) агент предприятия, делая свой ход х1 е определяет свою оптимальную стратегию из множества:

R, (Rs ,tk ) = {х( еХ, : f(xs, х, ) = = sup f(xs,у, ), у, 6 X,

в зависимости от управлений центра и максимизации целевой функции (1).

Пусть оптимальные методы управления являются программными, т.е. являются функциями времени.

Пусть q*(tk), M*(tk) — решение задачи

mjn [jr Щ(q;(tk),tk) - N,(q'(tk),tk) -

,=i ' (4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-M',(tk)■ S,(q ,(tk),tk))],g, > ю,, v* {q, tk) — решение задачи

max[(D, ( y, (tk ),tk ) - Z, (k, (tk ),tk ) -

-N,{v%),tk) - M, • S,{v%),tk))], v < q]. (5)

Пусть q*(tk), M%), Vl*{q, tk),..., vn*{q, tk) -оптимальные в смысле Нэша стратегии игроков в момент времени tk.

Действительно, для всех предприятий /'= 1...П

№ 2(26) 2010

(О,(у,(Г,) - г,{к,л) - л/,.)л)"

-М1 • $(^(д*,?,)) > (6)

> (О,(у,(Г,) - г,(к1 л) --М,. (у, (д/, ),1к) - м1 ■ в, (v, (д,*,Гк ),1к)).

Для агента-супервизора: в случае фиксированного значения цены загрязнения М-

£ {-ж., (у,( д'п1к ),1к) +М, {у]{ц],1к ),1к) +

/=1

+М1 ■ (у,((],,1к),1к)) >

>£ (^(д, ,1к ),1к) + М, (^(д, ,1к Цк) +

/=1

+М1 ■ в, (у, (я, ,1к ),1к)),

в случае фиксированного значения величины ограничений на сброс загрязняющих веществ д*:

X {-ж., ),1к)+м, ),1к)+

/=1

+м'г в,),1к)) > (8)

^ X (-щ (^; (я, ,1к ),1к)+ы., (V, (д;, 1к ),1к)+

/=1

+М, • $(у*(д*,,1к),1к)), тогда решение примет вид:

{д,*(Г, ),М(*(Г, )У,{я],1к Ж,- (9)

Состояние равновесия по Нэшу в дифференциальной игре состоит в использовании в каждый момент ?к игроками стратегий, образующих ситуацию равновесия по Нэшу встатическихиграх к = 1 ,...т.

Выигрыши игроков в дифференциальной игре равны:

для агента-супервизора:

т п

ф = щщ (v, (!к ),1к) -

к=1 /=1 (Ю)

-М, (У, (1к ик) - М1 (v, {1к ),1к)),

для агента предприятия:

т

г = Х (О,(у,(Г,),1к) - г,(к,{1к),1к)) -

к=1 ии

- N!(у,(Г,),Г,) - М1 ■ (у,(Г,),1к)).

В случае, когда назначенные агентом-супервизором значения д,*(?л) > агенту предприятия необходимо придерживаться выбранной стратегии для максимизации его целевой функции. Если выбросы агента предприятия больше назначенных агентом-супервизором, агенту предприятия необходимо снизить значение у1 до приемлемого в течение планируемого периода [Гн, Гк] за счет увеличения функции затрат на проведение мероприятий по снижению уровня загрязнения.

Пусть Ау— планируемое значение снижения выброса, а 7 {Ау) — затраты для снижения выброса предприятия. Перед предприятием стоит задача обеспечить выход на планируемое значение у < дДу к моменту времени Г^с минимальными затратами. Введем дискретную шкалу значений Ау = {Д^, Ау2,..., Дуп},где п — количество дискретных значений Ау и времени {Гн, Гн+ДГ,..., Гк- Г, Гк}, где ДГ — период времени. Стратегией предприятия будем считать вектор Ау = {Ау/, Ау/,...,Аут}, где Аугп = у{1к), т — количество периодов времени. Выбор стратегии осуществляется на основе значения {7/ (Ау/),..., И^(Аут)} и {МЗ^у/),..., М31(ут)}, то есть тех значений капиталовложений, которые к моменту времени Гк, дадут приемлемое значение у*^) с минимальными затратами.

Стратегии агента предприятия можно представить в виде графа (рис. 2) [4], вершины которого являются возможными вариантами стратегий, а в качестве длин дуг, связывающих значения Ду/, выступают затраты предприятия при переходе от значения Д^ к Ау'+1. Будем считать, что достигнутый уровень Д^ не уменьшается.

Введем в рассмотрение функцию выбора стратегии агентом предприятия:

т

ф = х у-[т!п((Ду>(Гу)) + М ■ в,(у',(Гу))], (12)

у=1

у — коэффициент дисконтирования, 0 <у< 1.

№ 2(26) 2010

Дк"

Рис. 2. Граф возможных стратегий

Формула (12) означает, что предприятие, действуя изолированно, выбирает для снижения уровня загрязнения мероприятие, требующее минимальных затрат.

При изменении данных о затратах на уменьшение уровня выбросов предприятия целесообразно корректировать стратегию на основе уточненных сведений.

Разработка модели адаптивного поведения агентов

Целью агента-супервизора является максимизация собственного выигрыша в игре. Максимальное значение суммарного выигрыша агента зависит от «скрытых» переменных— решений других игроков. Для решения данных задач агент-супервизор должен обучаться, то есть результаты восприятия должны использоваться не только для осуществления действий, но и для повышения способности агента действовать в будущем. Обучение состоит в использовании наблюдаемых вознаграждений для определения в процессе обучения оптимальной (или почти оптимальной) стратегии для данной среды. Обучение происходит по мере того, как агент наблюдает за своим взаимодействием с миром и собственными процессами принятия решений.

В области машинного обучения различаются три случая: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением. Задача обучения с подкре-

плением является наиболее общей из этих трех категорий и осуществляется на основе метода О-обучения. В О-обучении предусматривается определение с помощью обучения некоторого представления «действие-стоимость». При этом агент получает информацию из внешней среды в виде подкрепления Я (Г). Оно может быть положительным (награда) или отрицательным (наказание).

Математическое ожидание полезности любого состояния (О-фактор) можно определить с помощью соотношения:

0(5(Г),а(Г)) = Е[Я(0 + у0(в(Г +1 ),а(Г +1))]. (13)

Изменение суммарного ресурса, которое используется как подкрепление Я(Г) в процедуре обучения при переходе от такта времени Г к такту Г+ 1, равно:

Я(0 = Ф( Г +1) - Ф( Г),

(14)

где Ф{Г) — целевая функция агента-супервизора.

Однако когда ситуации и действия задаются векторами, итеративное формирование матрицы 0(эк,ау.) невозможно. Один из способов решения этой проблемы состоит в использовании средств функциональной аппроксимации (например, с помощью искусственных нейронных сетей) и проведении обучения путем итеративной настройки параметров [5]. Функциональную аппрокси-

78

№ 2(26) 2010

мацию Q(S(t),a(t)) предлагается проводить при помощи нечеткой нейронной сети (ННС) Такаги-Сугено 0-го порядка. Нейронные сети в сочетании с нечеткой логикой являются универсальными аппроксиматорами сложных (нелинейных) функциональных зависимостей во многих интеллектуальных задачах кибернетики с высоким уровнем энтропии: прогнозировании,диагностике, распознавании образов и др. [6].

Кроме этого, использование нейронечет-кого аппарата в Q-обучении позволяет избавиться от проблем обучения с подкреплением — высокой размерности пространства состояний и действий, а также низкой скорости обучения [5]:

1. Обобщение по вводу и выводу (т.к. среда функционирования агента характеризуется большим пространством состояний и действий).

2. Сокращение размерности.

3. Ускорение процесса обучения (т. к. Q-обучение медленно, то есть агент нуждается в большем количестве испытаний, чтобы приблизится к оптимальному поведению).

На вход сети подается вектор, характеризующий состояние среды S = (sv ..., sn). В рамках работы в качестве входного вектора выбраны: 1) параметр загрязнения в момент времени Г; 2) заявленные выбросы загрязняющих веществ /'-ого предприятия.

Обобщенную схему вывода можно представить как:

Я, : IF s1 is LL AND s? is iL AND ...

' 11 (15)

... AND sn is Ln THEN у is d,

где Li— лингвистические значения для входной переменной sj /'-ого правила, идентифицированные нечетким способом через функцию принадлежности (/' = 1,...л, /' = 1,...т).

Каждая из входных переменных проходит процедуру фаззификации в первом слое. Условно они обозначают следующие термы: {очень низкий, низкий, средний, высокий, очень высокий}, то есть — по пять нейронов на каждый из входов.

Фаззификация каждой переменной осуществляется функцией принадлежности представленной функцией Гаусса в рациональной форме:

мх) = е ^)2, (16)

ч

где /' = 1 =1 ...М, N — число входных переменных, М— количество функций принадлежности для каждой переменной; с — определяет центр функции, а — задает ширину функции. Данный вид функции принадлежности выбран на основе экспертного анализа.

В случае представления О-функции с помощью ННС каждое правило Rj имеет набор действий, связанный с правилом величиной и'. Действия агента-супервизора можно представить изменением значений величин: qk— максимально допустимый выброс загрязняющего вещества и Мк— цена загрязнения для ^-ого предприятия. Можно выделить стратегии, предусматривающие изменение: а) qk, б) Мк, в) qk и Мк.

Следующий этап выполняет агрегирование отдельных переменных, определяя результирующее значение коэффициента принадлежности, интерпретация уровня активации правила состоит в вычислении значения ая/ посредством последовательного алгебраического умножения (оператор Т-нормы):

м

а Я1(в) = ),УЯ,.. (17)

/=1 7

Третий слой — генератор функции ННС Такаги-Сугено 0-порядка ш1, которая подлежит адаптации в процессе обучения системы.

Четвертый слой составляют два нейрона-сумматора, один из которых рассчитывает взвешенную сумму сигналов а второй — сумму весов ая/.

На выходе сети мы получаем функцию полезности О (в, и), представляющую текущую пару состояние-действие.

Структура нейронечеткого О-обучения представлена на рис. 3.

№ 2(26) 2010

е — «жадное» правило

ТО-ошибка

Подкрепление

Действие

Выбор действия

Процесс агрегирования

Слой правил

Слой фаззификации

о, (5, ,Ц ))

Дефаззификация

Рис. 3. Структура неиронечеткого О-обучения

Текущая аппроксимация О-функции текущей пары состояние-действие Ь{ Ц (в{)) и оптимальное значение текущего состояния среды, обозначенного О'(в) на основе е — «жадного» правила, может быть записана согласно формулам (18) и (19) соответственно:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X аЯ( (Б, (Ц

Qf (5, Ц &)) =

Я,еЛ(5,)

X

Я,еЛ(5,)

где — е — «жадное» действие правила Я( к моменту времени Г; Ц(5{) — максимальное е — «жадное» действие.

X «я, )

О* (Я,) =

Я,еЛ(5,)

тах (а)

X «я, )

(19)

Я,еЛ(5,)

(18)

Весовые коэффициенты действий обновляются на основе уравнения временной разности, или сокращенно ТО-алгоритма

80

№ 2(26) 2010

(Temporal Difference) [7]. На основе рассчитанных значений получаем TD-ошибку:

ё, = R, +yQ"t(St) - Qt (St ,Ut _1(S,)), О <у< 1,

(20)

P' =

p;+ ка > о

p; _/1 -¥), 5^5; < 0,0 <¥< 1, (22) P[ _1, иначе

где

§; = et £t (i),

8; =ф5,/_1 + (1 -ф) s; ,o <ф< 1,

(23)

Ка<< 1 — константа. Параметр 5', представляет среднее значение частоты активизации правил.

еа, (и' {к)) — значение, показывающее, насколько часто 1-ое правило активизировалось. Оно пересчитывается в реальном времени согласно следующему рекурсивному уравнению:

е? (U! (Г)) =

е^' (к)) + ая/ ,U> (к) = U[ КС^Ш (24)

иначе УU1 {к),УИ1,0 а < 1.

Весовые коэффициенты (а) обновляются аналогично весовым коэффициентам ННС, но не требуют введения коэффициента скорости обучения:

у — коэффициент дисконтирования.

Значение ё, применяется для обучения, т.е. переоценки величины весовых коэффициентов в ННС — (и{) и весовых коэффициентов действий — (а) е ипри этом к величине добавляется величина, пропорциональная ошибке временной разности:

(и;) = + р; ё, г* (и1 (к)),У И,, (21)

где Р'{ — скорость обучения для /-ого правила. Скорость обучения р;, должна изменяться во времени, а не оставаться постоянной, что позволит избежать «западания» в местных оптимальных решениях:

Ро =Ро

w!t (а) = wL _,(а) + ё, г* (U' .

(25)

После всех процедур агент, согласно е — «жадному» механизму, выбирает доступные в наборе действий и'{ каждого /-ого правила, основываясь на их весовых коэффициентах. Выбор осуществляется в два этапа: сначала определяются действия в каждом активизируемом правиле, а затем конкурируют выбранные действия всех выбранных правил. Первый уровень будет сделан в соответствии со своего рода е — «жадной» стратегией, основанной на методе, описанном в [8]. Ц обозначает е — «жадное» действие правила Я. в момент времени Г:

Ul = U'(к) I ЕЕ(U1 {к)) = тах{ЕЕ(а)},

aeU'

ЕЕ(а) = wi(а) + - '

(26)

Л (а)

где лДа) — счетчик выбора действия а до времени Г.

Вторую часть называют направленным исследованием пространства действий, так как она основывается на прошлом опыте агента.

Выбор агентом действия осуществляется согласно формуле (27):

Ц (Xf) = U/ *| ЕЕ (U/ Х;( X,) = = max {ЕЕ (Ц< )а д (X,)},

aeU' '

(27)

где и/* — действие, выбранное на предыдущем уровне ННС каждого /-ого правила.

Пусть Г — текущее время, в предыдущий момент времени Г-1 агент уже выполнил действие и{1(3{1) и получил награду Яг Тогда алгоритм работы нейронечеткого О-обучения в течение одного шага времени может быть следующим:

1. Фаззификация нового входного состояния Я ■

81

№ 2(26) 2010

2. Вычисление истинного значения аЯ,(5,) правила Я. при входной переменной

3. Оценка оптимального О-значения текущего состояния основанного на изученной О-функции, рассчитанной до шага Г.

4. Вычисление ТО-ошибки ё{

5. Коррекция значений весовых коэффициентов ННС w¡(Ui) и весовых коэффициентов действий (а).

6. Изменение величины Р'{ — скорости обучения для /'-ого правила.

7. Обновление еа, {и1 (к)).

8. Выбор действия и{(в{) согласно е — «жадной» стратегии.

9. Вычисление О-значения текущей пары состояние — действие, основанной на новой О-функции после настройки значений весовых коэффициентов: О, (й,, Ц (в{)).

Сжатие, достигнутое с помощью ННС, позволяет обучающемуся агенту делать обобщения, распространяющиеся с тех состояний, которые он уже посетил, на состояния, которые он еще не посетил. Это означает, что наиболее важным аспектом функциональной аппроксимации является не то, что она требует меньше пространства, а то, что она обеспечивает индуктивное обобщение по входным состояниям.

Заключение

В статье представлена модель мультиа-гентной системы управления экологической безопасностью, отличительной особенностью которой является персонифицированный, распределенный подход к управлению эколого-экономической системой, интеграция больших массивов информации и оперативная обработка результатов, выработка механизмов управления и координации действий на различных уровнях иерархии, кооперацию всех участников эколого-эко-номической системы в процессе принятия решения.

Разработанные модели поведения агентов обеспечивают взаимодействие экологических органов и предприятий, самостоя-

тельно находят варианты и принимают индивидуальные решения для всех факторов, обладающих множеством персональных особенностей, генерируя предложения по индивидуальным схемам управления.

Представленный метод адаптивного поведения агентов достаточно хорошо справляется с главной проблемой обучения с подкреплением — сокращение размерности пространства состояний и действий и дает возможность выбора агентам более чем одного действия. С функциональной точки зрения модель позволяет: прогнозировать результат действия, сравнивать прогноз и результат, принимать стратегию действий и корректировать ее при всевозможных изменениях среды.

Описок литературы

1. Макаров В. Л. Искусственные общества // Искусственные общества, 2006. Т.1,№ 1.С.10-24.

2. Тарасов В. Б. От многоагентных систем к интеллектуальным организациям: Философия, психология, информатика. М.: Эдиториал УРСС, 2002. — 352с.

3. Андрейчиков А. В., Андрейчикова О. Н. Интеллектуальные информационные системы: Учебник. — М.: Финансы и статистика, 2004. — 424с.

4. Бурков А. Н., Новиков Д. А., Щепкин А. В. Механизмы управления эколого-экономическими системами / Под ред. академика С. Н. Васильева. — М.: Издательство физико-математической литературы, 2008. — 244с.

5. Ferdowsizadeh A. Advanced Multi-Agent Fuzzy Reinforcement Learning // Master Thesis / Dalarna University Computer Science Department, 2004, p. 98.

6. Осовский С. Нейронные сети для обработки информации. — М.: Финансы и статистика, 2002. — 344с.

7. Gerald Tesauro Extending Q-Learning to General Adaptive Multi-Agent Systems //Advances in Neural Information Processing Systems (NIPS'2003) / MIT Press, Cambridge, MA, 2004.

8. Jouffe L. Fuzzy Inference Systems Learning by Reinforcement Methods // IEEE Transactions On Systems, Man and Cybernetics-Part С / Applications and Reviews, 1998, vol. 28, no. 3, pp. 338-355.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ерёменко Ю. И., Доронина Е. Г.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ерёменко Ю. И., Доронина Е. Г.

Текст научной работы на тему «Модель адаптивного поведения агентов мультиагентной системы управления экологической безопасностью»