Децентрализованное управление адаптивными сетями поставок на основе теории коллективного интеллекта и агентной технологии. Часть 2: многоагентная среда моделирования и оптимизации сетей поставок

Шереметов Леонид Борисович

моделирование систем и процессов X

УДК 62-519

децентрализованное управление адаптивными сетями поставок на основе теории коллективного интеллекта и агентной технологии1 Часть 2: Многоагентная среда моделирования и оптимизации сетей поставок

Л. Б. Шереметов,

канд. техн. наук, старший научный сотрудник

Санкт-Петербургский институт информатики и автоматизации Российской академии наук

Описана среда моделирования сети поставок как динамической, гибкой и самонастраивающейся системы автономных агентов. Экспериментальный комплекс выполнен на основе агентной платформы CAPNET. Приведены результаты экспериментов.

Ключевые слова — сети поставок, многоагентная система, теория коллективного интеллекта, стимулируемое обучение.

Агентная модель сети поставок

Агентное моделирование — это новый подход к имитационному моделированию систем, содержащих автономных и взаимодействующих агентов [1]. Агентная модель сети поставок была реализована в целях проверки разработанных алгоритмов динамической оптимизации АСП в многоагентной среде моделирования и оптимизации сети поставок [2]. Эта среда позволяет моделировать сложные динамические взаимодействия между партнерами АСП, неопределенность заказов, а также проверять и, при необходимости, модифицировать конфигурацию сети, оптимизируя ее поведение. Среда может быть использована для улучшения процесса ПР в пределах широкой области задач в различных сценариях сети поставок. Хотя среда ориентируется больше на решение задач операционного типа, она также может быть использована в категориях стратегических и тактических задач. Так, в процессе экспериментов показано, как результаты имитационного моделирования могут быть использованы для конфигурации АСП, основанной на производственном анализе. С другой стороны, алгоритм динамической оптимизации хорошо подходит

1 Окончание. Начало в № 4, 2009 г.

для принятия решений в моделях «точно в срок» (just-in-time manufacturing).

Элементы модели

В модели рассматриваются следующие потоки управления АСП: верхний (закупка), внутренний (производство, сборка) и нижний (распределение). Каждый эшелон сети имеет параллельные производственные и сборочные единицы и буферы ограниченной емкости. При этом моделируются три типа участников. Во-первых, агенты-поставщики (SA), которые несут ответственность за поставку деталей другим участникам, но ни от кого их не принимают. Поставщики моделируются как склады, генерирующие потоки сырья. При этом предполагается, что всегда имеется в наличии достаточное количество исходных материалов, которые генерируются по запросу. Второй тип — агенты-производители (PA), которые являются промежуточными участниками в сети поставок (производственные и сборочные единицы). Они занимаются как размещением заказов (у участников сети предыдущего эшелона), так и доставкой заказов (участникам следующего эшелона). Входные буферы находятся перед каждым операционным элементом; производимые продукты транспортируются между всеми

узлами сети. Существует очень важное отличие между РА: в случае агентов сборки несколько входных буферов (один для каждого компонента) должны располагаться перед агентом (см. ч. 1, рис. 2). Без потери общности, в данном случае мы рассматриваем только продукты, состоящие максимум из двух частей, элемент сборки, таким образом, будет иметь два входных буфера. Также для простоты мы рассматриваем линейную схему АСП, однако локализация ПР на уровне агента, взаимодействующего только со своими соседями, делает алгоритм прозрачным для любой структуры сети АСП — необходима только соответствующая конфигурация множества «знакомств» каждого агента (агентов, с которыми он взаимодействует).

Каждый РА имеет доступ к спецификациям материалов (Bill of Materials — BOM), которые могут быть получены от системы планирования ресурсов предприятия (Enterprise Resource Planning — ERP) в момент, когда выполнено соединение с системой планирования материальных ресурсов (Material Resource Planning — MRP), реализованной на Excel [3]. Excel-файл содержит таблицы продаж продуктов и компонентов, а также спецификации заказов на поставку, наряду с результатами расчетов показателей производительности, характеризующих эффективность управления заказами, доставкой, запасами и использования ресурсов [2].

Наконец, заказчики (дистрибьюторы или розничные торговцы) размещают заказы и выполняют доставку вместо изготовления. Важно отметить, что имитационная модель позволяет учитывать заказы с разными сроками выполнения (производство точно в срок).

Организация процесса агентного моделирования

Имитация — это процесс «выполнения» агентной модели через дискретные изменения состояния во времени. С целью их синхронизации к многоагентной системе добавлен агент-планировщик (SCHA). На этапе размещения заказов каждый заказчик генерирует заказы на любой из моделируемых продуктов. Фактически, для моделирования этой фазы заказчик моделируется агентом-«заглушкой», ассоциируемым с соответствующим складом готовой продукции (DWA), который динамически генерирует заказы, используя алгоритмы прогнозирования [4]. Как только заказ сгенерирован, он размещается на соответствующем РА внутреннего потока АСП. Агенты-производители, в свою очередь, решая, какие компоненты должны быть доставлены, размещают заказы среди агентов-поставщиков.

Во время фазы размещения заказа динамически определяется лучший маршрут с учетом доступной производственной мощности партнеров АСП, которая хранится в Q-таблицах. Этот маршрут используется в дальнейшем при моделировании производственных процессов.

Имитационное моделирование начинается, когда SCHA передает сообщение startup всей системе. Получая этот сигнал, агенты выполняют задачи внутренней инициализации, в основном относящиеся к инициализации Q-таблиц и переменным, которые используются Q-алгоритмами. Агент DWA загружает списки технологических процессов и заказов, которые должны быть выполнены. Сначала он вызывает модель прогнозирования, чтобы определить производственную программу. Как только программа сгенерирована, посылает исходный список заказов SCHA, при этом сроки выполнения заказов не моделируются явно. Вместо этого фактическая моделируемая дата выполнения заказа сравнивается со сроком платежа. Те заказы, сроки платежа которых вышли, заносятся в список запоздалых заказов. Продукты наследуют приоритет заказов, которые связаны со сроками платежа.

Поток материалов инициируется поставщиками, которые генерируют сырье в соответствии с полученными заказами на поставку. Затем РА берут необходимое им сырье со складов, чтобы изготовить продукты, согласно перечню материалов. Сырье, промежуточные и конечные продукты физически не существуют — они моделируются как информационные объекты, передаваемые по АСП. Информация, касающаяся каждого из них, передается путем обмена сообщениями между SA и PA. Сырье становится окончательным продуктом после обработки в АСП. Вначале этот объект создается с ассоциированным вектором операций, который уменьшается на каждом этапе до тех пор, пока не обнулится и пока окончательный продукт не окажется на соответствующем складе.

Начало операции над продуктом из внутренней очереди PA происходит по сигналу SCHA. Когда операция закончится, агент несет ответственность за маршрутизацию продукта к следующему элементу сети, где инициируются два следующих события: запрос соседа на добавление промежуточного продукта и запрос SCHA на добавление нового события для того, чтобы соответствующий агент проверил свой буфер на наличие очереди заказов. Также существует пинг-операция, которая удостоверяет, что выбранный агент до сих пор жив. В противном случае будет выбрана вторая лучшая альтернатива и соответствующий PA будет уведомлен о том, что он должен поставить продукт в очередь для дальней-

шей обработки. Вследствие этого Q-таблицы изменяются, так как новый продукт добавляется между текущим агентом и его соседом.

В процессе этапа инициализации PA запрашивают локальную службу каталогов своей агентной платформы с целью получить списки партнеров со следующего эшелона АСП, создавая таким образом локальную таблицу соседних агентов. Также PA запрашивает соседей (находящихся в следующем эшелоне) об их способностях и доступной производственной мощности. Эта информация используется для того, чтобы инициализировать Q-таблицы. Обратное распространение данных к предыдущему эшелону осуществляется после того, как PA ставит продукт в очередь. Этот механизм помогает убедиться в том, что каждый агент обладает информацией для оптимизации маршрута продукта. Q-алгоритмы встроены в тело PA. Это приводит к обновлению информации, предназначенной для оптимизации процесса принятия решений по выбору наилучшего маршрута для каждого эшелона.

Нужно отметить, что DWA работает частично как PA по следующей причине: DWA хранит Q-таблицу для принятия решений о том, куда отсылать заказ после его генерации. Если PA обнаруживает, что обработанный продукт больше не содержит операций, он извещает DWA. В свою очередь, этот агент корректирует число складированных экземпляров данного продукта и сравнивает время производства со сроком платежа.

Различные виды событий, в курсе которых должны быть агенты, кодируются в сообщения, например такие, как «выпуск сырья», «отчет о конечной продукции» и «продукт покидает буфер агента». Структура сообщений между PA и SA немного отличается от диалогов с SCHA. Последние являются только извещениями о событиях, передаваемыми от одной группы агентов к другой, в целях моделирования. PA и SA, в свою очередь, осуществляют запросы на операции, используя протокол взаимодействия FIPA-request. Каждый запрошенный PA отвечает на запрос значением расчетного времени окончания операции.

Агенты распределены по контейнерам CAP-NET в соответствии с эшелоном, которому они принадлежат. Контейнер упрощает работу, так как является мостом для экспериментирования с распределенным размещением агентов. Существует вариант физического соединения отдаленных компьютеров, который воспроизводит реальную структуру АСП. Другими словами, многоагентная система может иметь двойное приложение: для моделирования различных конфигураций и, при необходимости, для управления реальной АСП.

Контрольный пример агентного моделирования АСП

Нами преследуются три основные цели:

1) показать способность алгоритма двойной Q-маршрутизации к обучению среде и к глобальной оптимизации;

2) сравнить, как локально принятые партнерами АСП оптимальные решения в «эгоистичной» манере и в согласованной манере (следуя алгоритму двойной Q-маршрутизации) влияют на параметры глобальной АСП;

3) показать типичный пример того, как результаты моделирования могут быть использованы для принятия управленческих решений, интегрирующих оптимизацию как макро-, так и микроуровней.

Для того чтобы проверить аргументированность предлагаемого подхода, была создана имитационная модель для простой пятиэшелонной сети поставок и проверена для сценария распределения производственной мощности. Модель выполнена в среде агентного параллельного моделирования с использованием агентной платформы CAPNET и имитатора Netlogo для визуализации результатов [5, 6].

Полагаем, что задачи макроуровня сводятся к минимизации цен в сети поставок (оптимизация уровня запасов рассматривается как координация уровней запасов, а оптимизация уровня производственной мощности — как координирование уровней производства партнеров АСП). С другой стороны, оптимизация микроуровня связана с целями партнеров АСП при наличии ограничений, установленных решением макроуровня (уровнями производственных мощностей и приоритетами производства). В частности, задачей исследования конкретного примера было получение квазиоптимальных уровней производственной мощности эшелона с применением разработанного алгоритма двойной Q-маршрутизации с регулировкой параметров.

■ Таблица 1

Тип сырья Продукт Поставщик Количество

A P1 SA1 600

B P1 SA2 1200

C P2 SA3 1000

■ Таблица 2

Продукт Технологический процесс Прогноз заказов на неделю

P1 {{AO11 + BO12)O22)O33 600

P2 {{COU)O23)O33 1000

Агенты-поставщики

Агенты-производители

Агенты складов готовой продукции

В примере рассматривается динамическая оптимизация потока как заказов, так и производства для двух конечных продуктов и трех видов сырья согласно перечню материалов (табл. 1). Спецификация продуктов Р1 и Р2 определяет технологический процесс их изготовления (табл. 2): каждая единица продукта Р1 состоит из одной единицы сырья А (после операции обработки 011) и двух единиц сырья В (после операции обработки 012). Эти компоненты собираются (операция 022) и затем обрабатываются (033). Каждая единица продукта Р2 состоит из операций обработки 011, 023 и 033 над сырьем С. Поставщики SA1, SA2 и SА3 поставляют сырье А, В и С соответственно (рис. 1). Наконец, мы моделируем трех заказчиков (представленных агентами DWA1—

■ Таблица 3

Агент Операция Продолжительность, усл. ед. времени

РА11 011 3

РА12 012 1

РА13 011 1

РА21 022 1

РА22 023 5

РА23 023 2

РА31 033 1

РА32 033 9

РА33 033 6

DWA3), которые генерируют заказы динамически в течение первого дня недели таким образом, что DWA1 заказывает/складирует продукты Р1, в то время как DWA2 и DWA3 заказывают/складируют продукт Р2. При базовой конфигурации каждая операция имеет продолжительность в соответствии с табл. 3. Для упрощения будем считать, что время переходного процесса равно одной единице времени, и оценивать время ожидания динамически по длине очереди.

Реализация алгоритма двойной Q-маршрутизации в агентной модели сети поставок

Сначала рассмотрим основные фазы алгоритма двойной Q-маршрутизации, который позволяет агенту динамически приспосабливать свои решения к текущему состоянию системы. Каждый раз, когда нужно выбрать лучшее решение (лучшего поставщика, лучшую операцию технологического процесса, лучший склад готовой продукции и т. д.), его ищут в Q-таблицах. Инициализацию Q-значений каждого агента в АСП иллюстрирует рис. 2, а, б. ДQ вычисляется по формуле Q-обучения. Значения весов, обозначенных на линиях, связывающих агента с соседями, представляют логическую цену выбора действия, связанного с данным партнером. При первой итерации алгоритма Q-значение является этой логиче-

а)

б)

І 8А1 ^^рІііН^РА2^ЦрА31^^А11 ^ЦрА1^-^РА2^^[рАЗ^^аЦ

ф-зна- чение

4

1 Ql= = в0Н

ф-зна-

чение

О

ф-зна-

чение

О

ф-зна-

чение

О

ф-зна- чение ф-зна- чение ф-зна- чение ф-зна- чение

4 2 і 0 0

АС = а [4 + 0 + 0] а<£ = а*[2 + 0 + 0]

«=1 I а = 1

А<Э 01 = 00 +

Я0 = 0 во = 0

■ Рис. 2. Алгоритм двойной Q-маршрутизации: инициализация Q-таблиц для первой (а) и второй (б) операций над продуктом P1

Агенты-поставщики

Операция Агент ф-значение

022033ЕР РА21 18,50

023033ЕР РА22 19,10

023033ЕР РА23 (Т7,90^

022ЕР РА21 8,90

023ЕР РА22 9,20

023ЕР РА23 8,60

023

'/:д

/ '•

\ V

-► рі —►рг

Х-М—

Операция Агент ф-значение

011023033ЕР РАН 26,50

011023033ЕР РА 13 25,80

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

011023ЕР РА11 21,25

011023ЕР РА13 19,80

Агенты складов готовой продукции

033

РАЗЗ

023

Расширение

конфигурации

АСП

Р2

■ Рис. 3. Алгоритм планирования двойной Q-маршрутизации

ФхОЭ), РА12)(0) - 24 — РА21 ^(Х(3), DWA1)(3) - 6,0

Ф(Х(]0, РА12)( ЇЇ = 23,8 4 / 022 \ QpiA^^,3DWA1)( ЇЇ = 5,3

ЭА2

РА12

012

Ф(Х2), разз)(2) -12

^Х^РАЗЗ) (ЇЇ = 13,2

@(х(1), РА21)(1) -18

ФрА12РА21)№ - 20

Обновление

РАЗЗ

033

■ Рис. 4. Алгоритм «муравья» двойной Q-маршрутизации

18 ^ ИНФОРМАЦИОННО-УПРАВЛЯЮШИЕ СИСТЕМЫ

№ 5, 2009

ской ценой (ожидаемая операция и время переходного процесса). Как только система вовлекается в операцию, выполняется алгоритм планирования, представляющий собой упреждающую часть предложенного подхода. При его использовании нет необходимости получения обратной связи от среды: каждый партнер АСП, представляемый агентом, строит локальное внутреннее состояние среды. Во время выполнения алгоритма выбирается наилучшая альтернатива (маршрут PA11—PA23) с минимальным Q-значением

17.90 (рис. 3). Q-значения модифицируются посредством сообщений обновления. В то же время Q-значение агента SA3 по отношению к PA11 должно быть изменено на основании этого минимума и логической цены операции (равной 4):

21.90 вместо 26,50. Наконец, на рис. 4 изображен алгоритм «муравья». Основная цель каждого «муравья» — как можно быстрее сообщить плохие и хорошие новости об изменениях в среде АСП. Как показано, агенты PA12 и PA21 должны обновить свои соответствующие Q-значения, основанные на сообщении от «муравья». Эти значения представляют реальное состояние АСП в момент, когда последний образец продукта P1 был доставлен на склад.

Описание результатов экспериментов по конфигурированию АСП

Экспериментальные результаты показаны в таблице продаж продуктов (табл. 4). Полные циклы обычного имитационного прогона получены с использованием различных алгоритмов (рис. 5). Среднее время между размещением заказа и доставкой готового продукта показано на рис. 5, а. Сначала был использован традиционный алгоритм Q-маршрутизации. Так как моделирование начинается с нулевых уровней Q-таблиц (что означает абсолютно неизвестную среду), процесс перехода занимает время, равное производству первых 100 продуктов для среднего срока изготовления и примерно 300 продуктов для уровней запасов.

Агенты, использующие алгоритм Q-маршрутизации, с целью оптимизировать свои функции локальной полезности принимают решения «эго-

■ Таблица 4

Продукт Прогон модели Количество

Прогноз Произведено

P1 1 600 599

P1 2 600 600

P2 1 1000 870

P2 2 1000 999

а)

£12,00. « |ю,00-,00

7,61

6,82

6,05

t

0 200 400 600 800 1000 1200 1400

г

10.87

% 5

Ф о й и

Ф к

Ід к $ о а

о о

6)

£ о о ей В ей

м -і Н ЕН М И Я ^

о 3

щ в к и ч ш а о

■ Рис. 5. Среднее время обработки (а) и средние уровни запасов (б) продукта:---------------------— алго-

ритм О-маршрутизации (кратчайшего пути) в исходной конфигурации АСП;

------------алгоритм двойной О-маршру-

тизации в исходной конфигурации АСП;

----------— алгоритм двойной О-маршру-

тизации в окончательной конфигурации АСП

16

14

12

10

8.

6.

4.

2.

0.

00

8,11

t

0 200 400 600 800 1000 12001400

истичным» образом, что моделирует ситуацию управления индивидуальными предприятиями без знания действий других участников сети. Это приводит к высоким уровням запасов и сопровождается понижением функции глобальной полезности. Для исходной конфигурации АСП (см. рис. 1) алгоритм двойной Q-маршрутизации показывает лучшую производительность по сравнению с алгоритмом Q-маршрутизации, понижая средний срок изготовления на 10 % (см. рис. 5, а). Это становится возможным из-за того, что агенты принимают решения, учитывая производительность не только на локальном уровне, но и во всей АСП. В результате производительность сценария улучшается благодаря адаптации к изменениям в среде АСП.

Второй вид экспериментов основывается на результатах, полученных во время имитационных прогонов с использованием алгоритма двойной Q-маршрутизации. Согласно анализу результатов, полученных во время первого прогона, мы можем прийти к заключению, что исходная модель не является оптимальной из-за длительности операции 023, которая приводит к высокой утилизации агентов РА22 и РА23. Конфигурация конечной АСП была получена модификацией исходной структуры, которая заключалась в добавлении агента РА24, что позволило избежать «узкого» места, обнаруженного в исходной структуре.

По сравнению с конфигурацией исходной АСП срок изготовления уменьшен на 13 % (см. рис. 5, а). Модель также рационализирует уровни запасов продуктов, стараясь максимально обеспечить равные уровни запасов по каждому продукту (рис. 5, б). В примере уровни запасов снижены почти на 25 %.

Наконец, были проведены тесты по масштабируемости модели. Для данного примера производство 1600 продуктов заняло примерно полчаса моделирования, проходящего в режиме клиент-сервер, столько же для АСП, состоящей из 25 агентов. Позже промоделирована конфигурация с 5 эшелонами по 10 элементов в каждом примерно за 1 час. Следует учитывать, что основная часть времени расходуется на запись параметров моделирования для последующего воспроизведения динамики производственного процесса в Netlogo. Вместе с тем это время можно в значительной мере уменьшить в распределенном режиме, который является естественным для агентной технологии.

Заключение

В данной статье задача динамической оптимизации поведения АСП сформулирована в рамках теории КОИН. Наиболее важные результаты работы, составляющие научную новизну, включают:

1. Модель децентрализованного управления, разработанную в рамках теории КОИН и реализованную на основе алгоритма коллективного обучения для адаптации локального поведения каждого партнера АСП к глобальной цели, в ка-

1. Contreras M., German E., Chi M., Sheremetov L. Design and implementation of a FIPA compliant Agent Platform in NET // J. of Object Technology. Zurich: ETH, 2004. Vol. 3. N 9. P. 5-28.

2. Борщев А. От системной динамики и традиционного ИМ — к практическим агентным моделям: причины, технология, инструменты. — СПб.: СПбГПУ, 2004. — 26 с. www.gpss.ru/paper/borshevarc.pdf

3. Sheremetov L., Rocha L., Batyrshin I. Towards a Multi-agent Dynamic Supply Chain Simulator for Analysis and Decision Support // Proc. of the NAFIPS-05 Annual Conf.: Soft Computing for Real World Applications. Ann Arbor, Michigan: IEEE Computer Society Press, 2005.

честве которого разработан алгоритм двойной Q-маршрутизации.

2. Многоагентную среду моделирования и оптимизации сети поставок, реализующую эту модель.

3. Конкретный пример реконфигурации АСП в целях получения квазиоптимальных уровней производственной мощности эшелонов сети, разработанный в данной среде моделирования.

Разработанная модель была реализована в среде агентного моделирования на основе платформы CAPNET. В случае ее встраивания в информационную инфраструктуру предприятия алгоритмы, проверенные в модельной среде, могут быть использованы в практических приложениях.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В будущих исследованиях запланированы эксперименты с переменными объемами производства (для моделирования производственных систем с независимыми/зависимыми производственными программами) и отказами оборудования с тем, чтобы оценить влияние решений по конфигурации АСП в различных производственных условиях. Хотя сегодня нет результатов этих экспериментов, уже можно сделать вывод, что задачи управления АСП в условиях неопределенной среды и гибких связей между партнерами хорошо подходят для применения теории КОИН. Алгоритмы коллективного обучения, примером которых является разработанный алгоритм двойной Q-маршрутизации, станут одной из основных задач, которые необходимо решить, чтобы прийти к децентрализованному автономному принятию решений в альянсных сетях поставок и заказов (Supply/Demand Alliance Networks).

4. Production-scheduling Excel Toolbox. http://www. production-scheduling.com/index.asp

5. Batyrshin I., Sheremetov L. Perception Based Time Series Data Mining with MAP Transform / Ed. A. Gelbukh, A. Albornoz, H. Terashima-Marin // MICAI 2005: Advances in Artificial Intelligence, Lecture Notes in Computer Science. Heidelberg: Springer Verlag, 2005. Vol. 3789. P. 514-523.

6. Powell W. B., Shapiro J. A., Simao H. P. An Adaptive Dynamic Programming Algorithm for the Heterogeneous Resource Allocation Problem // Transportation Science. 2002. Vol. 36. N 2. P. 231-249.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шереметов Леонид Борисович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шереметов Леонид Борисович

Decentralized control of open supply chains based on collective intelligence and agent technologies. Part 2: Multiagent system for modeling and optimization of supply networks