Когнитивная модель на базе теории игр для динамического управления производительностью в программно-конфигурируемых сетях

Нгуен Конг Зань; Гольдштейн Борис Соломонович; Елагин Василий Сергеевич; Онуфриенко Анастасия Валентиновна

КОГНИТИВНАЯ МОДЕЛЬ НА БАЗЕ ТЕОРИИ ИГР ДЛЯ ДИНАМИЧЕСКОГО УПРАВЛЕНИЯ ПРОИЗВОДИТЕЛЬНОСТЬЮ В ПРОГРАММНО-КОНФИГУРИРУЕМЫХ СЕТЯХ

Нгуен Конг Зань,

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича (СПбГУТ), г. Санкт-Петербург, Россия, nguyencongdanh0109@gmail.com

Гольдштейн Борис Соломонович,

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича (СПбГУТ), г.Санкт-Петербург, Россия, bgold@niits.ru

Елагин Василий Сергеевич,

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича (СПбГУТ), г.Санкт-Петербург, Россия, elagin.vas@gmail.com

Онуфриенко Анастасия Валентиновна,

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича (СПбГУТ), г.Санкт-Петербург, Россия, anastasia.4991@mail.ru

DOI 10.24411/2072-8735-2018-10298

Ключевые слова: когнитивная мультиагентная самоорганизация, управление сетями, матчинг запросов и ресурсов, распределение ресурсов, программно-конфигурируемые сети, сети пост-^К

Когнитивная мультиагентная самоорганизация в настоящее время является предметом интенсивных исследований в области инфокоммуникационных технологий, так как на сегодняшний день решения управления для традиционных мультимедийных услуг устарели, что создает новые проблемы в работе телекоммуникационного оборудования на сетях связи. Эта новая парадигма построения распределенных интеллектуальных систем управления привлекает к себе внимание, как исследователей, так и разработчиков индустриальных приложений. Разумеется, именно когнитивный подход является самым перспективным кандидатом для построения систем управления нового поколения. Рассмотрены основные модели многоагентной самоорганизации для качественного управления телекоммуникациями. Ключевым моментом в когнитивных моделях управления такими сетями является построение автономных механизмов принятия решений. Представлена реализация когнитивной модели управления телекоммуникациями на базе теории игр. Авторы в данной статье анализируют возможности применения этой модели в задаче динамической оркестровки и распределения ресурсов на плоскости управления программно-конфигурируемых сетей. Особое внимание уделено разработанной многоагентной архитектуре системы управления, фазы которой образуют различные виды игр с участием интеллектуальных программных агентов, предназначенной для организации автоматизированной координации запросов, поступающих от уровня приложений, и соответствующих им сетевых ресурсов. Предложен подход к агентному обучению на основе метода линейной регрессии для прогнозирования значения времени ожидания. Разрабатываемая многоагентная система на основе теоретико-игрового подхода показывает новые возможности на пути реализации новых систем управления телекоммуникациями.

Информация об авторах:

Нгуен Конг Зань, аспирант, кафедра Инфокоммуникационных систем Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия

Гольдштейн Борис Соломонович, д.т.н., профессор кафедры Инфокоммуникационных систем Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия

Елагин Василий Сергеевич, к.т.н., доцент кафедры Инфокоммуникационных систем Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия

Онуфриенко Анастасия Валентиновна, аспирант, кафедра Инфокоммуникационных систем Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия

Для цитирования:

Нгуен Конг Зань, Гольдштейн Б.С., Елагин В.С., Онуфриенко А.В. Когнитивная модель на базе теории игр для динамического управления производительностью в программно-конфигурируемых сетях // T-Comm: Телекоммуникации и транспорт. 2019. Том 13. №8. С. 28-35.

For citation:

Nguyen Cong Danh, Goldstein B.S., Elagin V.S., Onufrienko A.V. (2019). Game theory-based cognitive model for dynamic performance management in software-defined networks. T-Comm, vol. 13, no.8, pр. 28-359. (in Russian)

Введение

«Мы способны заглянуть в будущее лишь на небольшое расстояние, но очевидно, что сделать предстоит очень многое» - Л ит Тьюринг.

Из-за постоянно развивающихся ИКТ систем появляется необходимость разработки новых решений .тля поддержки процессов эксплуатационного управления сетями связи. Ре(э)волюция управления телекоммуникациями обусловлена переходом от традиционных централизованных систем управления к мультиагентным самоорганизующимся системам |! |. Очевидно, что любая ре(э)волгоция подходов для архитектуры систем управления должна сопровождаться соответствующими изменениями в математических моделях, лежащих в основе этого управления. Поэтому рассмотрим математическую модель когнитивного подхода на базе теории тр. Для изучения пост-NGN сетей выберем концепцию нрограммио-конфнгурируемых сетей с её составляющими задачами управления производительностью.

Модели многоаген гиой самоорганизации

для управления телекоммуникациями

По мере усложнения сетей связи традиционных моделей, таких как TMN, OSS / BSS, основанных на системах управления с человеческим вмешательством, обнаруживаются их Недостатки [2]. Их функциональность с жестко централизованным принципом не может справиться с появлением новых ситуаций и динамическим изменением данных, не может обучаться на основе опыта и требует обширных обновлений. В результате исследовательские отрасли склонны ожидать развитие новых подходов, реализуемых на основе принципа самоорганизации с добавлением когнитивных технологий из современной концепции распределенного искусственного интеллекта.

Мы рассматриваем самоорганизацию как динамический и адаптивный процесс, где системы реорганизуют и/или поддерживают внутренние структуры без необходимости внешнего контроля [3].

В настоящее время самой подходящей средой для реализации самоорганизующихся моделей является многоагент-ная система. Большинство разработанных прототипов самоорганизующихся систем программно реализованы в архитектуре MAC. В результате их комбинации многоагентные самоорганизующиеся системы интегрируют в себе уникальные свойства, отличающие их от других вариантов построения систем управления телекоммуникациями.

Ключевым моментом в когнитивных моделях управления сетями является построение автономных механизмов принятия решений. Эталонными моделями для достижения автономного принятия решений являются контуры управления, такие как МАРЕ-К и FOCALE. [3,4] Кроме того, еще одной важной характеристикой когнитивной модели, основанной на самоорганизации, является способность к обучению.

Базируясь на синтезе последних исследований по данному направлению когнитивные модели систем управления можно разделить на три группы:

- Те, которые строятся на базе машинного обучения (искусственные нейронные модели);

- Те, которые основываются на базе нечеткой логики (модели когнитивных карт состояний);

- Те, которые базируются па теории игр (теоретико-игровые модели).

Одновременно, как показано в работах [5,6], существуют различные механизмы реализации принципов самоорганизации в мультиагентной системе, из которых в данной статье рассмотрены рыночные теоретико-игровые механизмы. Полагаясь на выбор подходящей модели игры, с помощью таких математических аппаратов как функция полезности, сходимости к состоянию равновесия (т.е. ! Ьш-равновесия, Парето-равновесия, решшкаторная динамика и т.д.), мы можем разработать абстракции, позволяющие нам получить подробную информацию о возможном поведении системы, решить задачу обучения и оптимизации параметров системы.

В основном теоретико-игровая самоорганизация воспринимает все попадающие иод ее изучение распределенные вычислительные модели, как различные виды игр. Особенности когнитивных моделей на базе теории игр включают: автономность, социальное поведение, реактивность или про-активность [7], агенты участвуют в игре независимыми игроками и выбирают из возможных стратегий.

Главной основой теории игр является теория полезности, которая, в свою очередь, определена аксиоматизацией отношений предпочтения агентов. Рациональные поведения агентов формулируются методами агентного обучения, ориентирующихся на максимизации функций полезности. Таким образом, функция полезности используется для моделирования оптимизации в многоагентных системах.

Примером теоретико-игровой самоорганизации является рыночная модель, которая рассматривает распределение ограниченных ресурсов как самоорганизующийся процесс в условиях высокой динамичности. Из-за того, что отдельному агенту доступна лишь локальная информация, единственно возможным вариантом решения глобальной задачи является децентрализованная координация между аг ентами. Взаимодействие между агентами в мультиагентной системе может быть разного типа, нас интересуют те, в основе которых лежат сотрудничество или конкуренция. В случае конкуренции агенты имеют собст венные цели, которые противоречат друг другу и не обязательно совпадают с глобальной системой. Их действия (стратегии) могут быть выбраны в соответствии с их целесообразностью. Эта концепция широко изучалась в рамках теории некооперативных иг р. Другие типы игр, такие как кооперативные и эволюционные игры, определяют интерес к их внедрению в области телекоммуникаций [8].

Таблица 1

Компонент игры Сетевой контекст

Игроки Программные агенты, которые играют роли делегированных субъектов сетевых запросов и/или ресурсов, пол изо вате лей и/или операторов и т.д.

Стратегия План действии, который должен предпринять игрок во время игры; запрашивание ресурсов/ответ на запросы, взаимодействие между компонентами, установлении цены и т.д.

Выигрыш Мотивация игроков представлена прибылью и оценена с использованием функций полезности на основе различных параметров; виртуальные денежные затраты, сетевые нагрузки, 0о5 и т.д.

Ресурсы Ресурсы, за которые конкурируют игроки, участвующие в игре: пропускная способность, мощность, позиция в очереди и т.д.

Когнитивная модель на базе теории игр для автоматического управления производительностью в ПКС

В последние годы технологии программно-конфигурируемых сетей и виртуализации сетевых функций получили широкое распространение благодаря уникальному взаимодействию организаций по стандартизации с сообществами разработчиков программного обеспечения. [9] Эти технологии также являются ключевыми факторами в эволюции систем управления телекоммуникациями нового поколения. С их помощью достигается требуемая гибкость сетевых инфраструктур, простота виртуализации сетевых ресурсов, увеличивается уровень программируемое™ и упрощается создание новых приложений и сервисов. При общем доступе к ресурсам в распределенной архитектуре предлагаем мультиагентное планирование задач и ресурсов при эксплуатации программно-конфигурируемых сетей.

Логическая архитектура системы

Рассмотрим систему, построенную на основе принципов программно-конфигурируемой сети. Логическая архитектура такой системы представлена на рис. 1.

Г'нс. 1. Обобщенная архитектура модели для динамической оркестровки «запрос-реоуро» в ИКС

Система состоит из нескольких вычислительных серверов, соединенных через коммутаторы OpenFIow а сеть, управляемую контролером. Существует совокупность нескольких контроллеров на плоскости управления, которые соединяются друг с другом восточно-западными интерфейсами. В привычной реализации потоки различных задач поступают из плоскости приложений, затем централизовано направляются к обслуживанию контроллером, причем на каждом сервере создается очередь задач на выполнение. Порядок распределения задач определяется логикой контроллера.

При мультиагентном подходе реализуется модель распределенных вычислений, в которой процессы оркестровки возникающих задач и организации очереди выполняются в зависимости от поведения делегированных автономных агентов. У каждого программного агента установлена функция полезности, агенты принимают решения путем стремления максимизировать свою прибыль (полезность).

Под агентом понимается программный объект, находящийся в вычислительной среде (агентной платформе), выполняющий свою задачу.

Как представлено на рис. 1, в разработанной архитектуре содержатся основные элементы системы, такие как агенты задач, are)¡ты ресурсов и агенты контроллеров.

Агент задачи представляет вычислительную задачу, которую необходимо запланировать и выполнить на серверах ПКС.

Агент ресурса представляет сервер, на котором могут выполняться задачи. Цель агента ресурса - запланировать как можно больше задач и получить максимальную прибыль от выполнения задач.

Агент контроллера отвечает за роль посредника, который координирует процесс оркестровки агентов задач по агентам ресурсов (т.е. создает начальные координированные условия для распределения возникающих задач по северам).

Агентная платформа [10,11] в большинстве случаев является ядром эталонной модели FIPA |12] и обеспечивает инфраструктуру для разработки агентов и их использования, включая: операционную систему, функциональность коммуникации и управления. Стандарт HP А определяет сервисы, которые должны предоставлять любую агентскую платформу:

- Система управления агентами предназначена для создания. удаления, контроля состояний, регистрации, мобильности, коммуникации агентов;

- Менеджер директорий представляет собой службу «желтых страниц», где агенты могут публиковать информацию о предоставляемых сервисах, что позволяет искать агентов с определенными характеристиками;

- Сервисы передачи коммуникационных сообщений поддерживают связь между агентами на локальной платформе или на локальной и удаленной платформах.

Рассмотрим применение теории игр при реализации когнитивной модели для решения задачи управления производительностью в ПКС. Математические основы и общий взгляд па основные подходы к планированию распределения ресурсов в распределенных вычислительных средах, можно найти в [13,14].

Стоит отметить, что при разработке собственной модели мы использовали основные результаты из следующих опубликованных работ [ 15,16,17].

Математическое описание модели

При поступлении новых потоков задач система автоматически выполняет цикл динамического планирования, состоящий из двух фаз. Первая фаза описывает процесс динамической оркестровки «задача - ресурсы», а вторая фаза -динамическое распределение ресурсов среди агентов в рациональной многоагентной системе очередей.

Самоорганизация между программными агентами реализуется на основе различных методов, одним вариантом из которых является рыночный механизм. Отметим, что применение рыночного подхода связано со сходимостью системы и ее приближением к состоянию равновесия. Теория игр фактически является идеальным математическим аппаратом для моделирования и описания автономных многоагентных систем.

Пусть F - набор сетевых функций (вызванных соответственно по требованиям запущенных приложений), предоставляемых сетью, и Т - набор групп агентов задач. Пусть для каждой сетевой функции fp€ F будет р£ Т - группа агентов задач, состоящая из /т агентов, которые заинтересованы в fj,,

a S - набор М агентов ресурсов (серверов), которые её предоставляют. Пусть dip - задержка потоков задач, принадлежащих в группе р, перед достижением сервера /65,

Для каждого потока задач, проходящего через выбранный сервер, этот сервер должен выделить определённое количество вычислительных ресурсов и ресурсов для хранения, которые отражают расходы для сервера. Рассматривая общий сервер feS, мы будем ссылаться на дополнительные затраты, понесённые сервером i для того, чтобы гарантированно обеспечить необходимыми ресурсами новый поток, запрашивающий функцию fpкак cip.

Следовательно, расходом для сервера i на управление всеми потоками задач в группе агентов задач р является 1, который пропорционален количеству агентов Я,р, то естъ:

riF)~r i

>р -c¡P\>

(1)

г (В) (U)h

Чр T>¡ D¡p'

(2)

(4)

Однако, чем больше потоков задач, использует один и гот же сервер, тем меньше пропускная способность выделяется каждому из них.

В частности, ожидается, что функция полезности каждого агента задачи в группе р будет увеличиваться в объёме ресурсов, выделяемых этому агенту, то есть, ЦД^, и уменьшаться как в стоимости , так и в задержке Учитывая всё Это,

каждый агент задачи выбирает сервер, благодаря которому он может максимизировать функцию полезности:

(5)

U

Другие расходы для сервера связаны с пропускной способностью, выделенной контроллером в соответствии с запросами. Пусть ^ — полоса пропускания, полученная сервером для управления группой агентов задач р, и р.1В> — стоимость единицы пропускной способности, заданной серверу / контроллером. Обратите внимание, что значение р."11

не зависит от группы агентов задач. Соответственно, стоимость общей пропускной способности, используемой данным сервером, составляет:

где (/.|р, Х2р,..., )чмР.) - вектор состояния, который содержит число потоков из группы агентов задач, обслуживаемых каждым сервером в 5; а],а2,а3- соответствующие константы, взвешивающие вклады в функцию полезности пропускной способности, затраченной стоимости, заданной сервером, и задержку, с которой приходится сталкиваться, чтобы достичь сервера.

Проиллюстрируем предложенную теорет и ко-игровую модель взаимодействия между агентами ресурсов (серверами) и агентами задач в мультиагентпой системе распределённого управления. Решения, принимаемые агентами ресурсов и агентами задач, зависят от индивидуальных интересов и от решений, принимаемых другими оппонентами.

С другой стороны, доход для сервера, связанный с предоставлением сетевой функции, пропорционален как количеству задач, которые его используют, так и стоимости р.(Г),

применяемой к этому серверу. Если мы предположим, что серверы должны выплачивать агентам контроллеров комиссию, представленную коэффициентом комиссии у£[0,1], то фактический доход для сервера /, связанный с предоставлением сетевой функции /р для группы агентов задач р, будет выглядеть так:

Механизм для определения величины пропускной способности, которую вызывает каждый сервер, будет рассматривать с помощью модели Штакельберга Которая направлена на максимизацию функции полезности агента севера, определяемой следующим образом:

v j /

'волюцнонная игра

Самоорган нзуюш&яся группа агентов задач

(я) 1-ая фаза - Динамическая оркестровка агентов задач н агентов _ресурсов_

Самоорганизующаяся подгруппа агентов задач, подключенных к /-ому серверу

Нскшшсрагнвнак lit pa G

<Ь> 2-ая фаза - Динамическое распределение ресурсов в мноюшентноП рациональной С МО

©

где ь = (Ь, .....ЬЧ| ) _ вектор пропускной способности,

который содержит пропускную способность Ь , запрошенную в контроллере каждым 1-ым сервером, а [ЗьР; —соответствующие константы, взвешивающие относительную релевантность доходов и затрат.

С другой стороны, агенты задач в группе р выбирают сервер, также принимая во внимание задержку до его достижения > и текущую стоимость сетевой функции

Рис. 2. Классификация различных вид игр, принимаемых для динамического планирования

Схема различных видов игр цикла динамического управления в ПКС представлена на рис. 2. В разделе (А) мы обозначаем игру GptLí среди агентов одной и той же группы агентов задач р£Т, где мы используем эволюционную теорию игр и репликаторную динамику [18] для моделирования процесса принятия решения агентами задач. В разделе (Б) мы обозначаем игру Штакельберга Gp [19], которая моделирует конкурентные взаимодействия между агентами ресурсов для возможности предоставления обслуживания агентов задач из группы р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У

Наконец, в разделе (С) мы предлагаем некооперативную игру которая моделирует конкуренцию между агентами задач, подключенных к 1-ому агенту ресурса, чтобы улучшить свои позиции в рациональной модели СМО, которая строится на основе аукционного механизма. Проиллюстрированные игры будут воспроизводиться каждый раз в соответствии с изменениями некоторых системных условий. Они повторяются до тех пор, пока все объекты в системе не достигнут нового устойчивого состояния.

Л. Эволюционная игра среди агентов задач

Каждый агент задач изначально эгоистичен, так как он принимает решения с целью максимизации своей собственной полезности и ,ТЛ). Однако, чем больше число агентов ■р

задач из группы р, подключенных к /-ому агенту ресурса, тем ниже функция полезности этого агента задачи. Следовательно, на процесс принятия решений агентом задач влияют решения, принимаемые другими агентами, принадлежащими к той же группе р. Кроме того часто возникает имитационное поведение при рассмотрении взаимодействий между агентами, которые рационально пытаются максимизировать свою выгоду путем имитации решений других агентов, обеспечивающих большую выгоду.

Базируясь па так называемой репликаторной динамике, и согласно работе 115], для каждой группы агентов задач р€Т мы описываем эволюционную игру следующим образом:

- Состав игроков состоит из а? агентов задач из набора Т;

- Стратегия определяется как выбор агента ресурса, к которому каждый агент задачи в группе решает подключиться;

- Функция полезности: полезность или выгода, получаемая каждым агентом задачи, связанным с выбором агента ресурса, равна Цр1ТА). как определено в (5),

Теперь мы можем обозначить уравнение репликаторной динамики игры, которое описывает, как изменяется количество агентов задач в группе р, выбирающих подключение к доступным агентам ресурсов только в зависимости от своего поведения.

1

к =А„ [1и |„<ТА)4—У я,„ и .;ТЛ|я,л •

ф ;1 р 'Р ; II ;г'

ЛР №

(6)

где я и я соответственно обозначает общее число агентов

г 1Р

задач группы р и количество агентов задач из р, подключенных к /-ому агенту ресурса.

Очень важно отметить, что в эволюционной теории игр функция выигрыша характеризует успех отдельных стратегий, а не отдельных участников взаимодействия. Таким образом. в подгруппе с Л;р агентов задач, подключенных к /-ому агенту ресурса, все агенты задач получают одинаковую функцию полезности и;г.н1Л>Дг - Общий результат эволюционной теории игр показывает, что точка равновесия для динамики репликаторов является фиксированной, следовательно, все аг ент ы задач получают одинаковое преимущество, то есть[).1ТЛ1 = II.1ТА| для всех /./65.

¡р ¡г

Обозначим переменную д

(7)

Уу ~е

Из (7) заметим, что следующие соотношения выполняются для всех и р£И\

г о(р)

О "" = ] . п <г>- ' И /-) 1Р1-4 д (р) »яи д

<Р)

В теореме 1 будет показано, что уравнение репликаторов (6) для каждой группы агентов задач р допускает уникальное решение для любого вектора пропускной способности Ьр.

Теорема 1. Для всех р€Т и любого заданного вектора пропускной способности, уравнение динамики репликаторов (6) допускает уникальное эволюционное равновесие Л'р ■

Кроме того, число Д" агентов задач из группы р, подключенных с общим агентом ресурса /е.? при состоянии равновесия, может быть получено следующим образом:

(9)

гдвЦеЬ,.

Б, Игра Штакельберга Ср^' среди агентов ресурсов и агентов задач

Агенты ресурсов в игре Штакельберга Выступают в качестве лидеров, а агенты задач - последователей. В теореме I было описано распределение Д* совокупности р£Т группы

агентов задач при сходимости к равновесию.

Введя две следующие вспомогательные переменные:

т)

(Ю)

(И)

Используя (3), (9), (10) и (11) в (4), можно переписать функцию полезности и¡^ агента ресурса /65 следующим

образом:

Ь- (12)

Для каждой группы агентов задач рЕТ согласно работе [15| мы определим некооперативную игру Штакельберга следующим образом:

- Набор и гроков состоит из набора М агентов ресурсов из набора 5;

- Данная игра определяет величину пропускной способности Ь|р) которая должна быть запрошена контроллером

для обслуживания подключенных агентов задач из г руппы р. Для каждой группы агентов задач в Т мы предполагаем, что такой объем пропускной способности ограничен значением В,. Таким образом, набор стратегий имеет вид ц _ ГТ > где

В=|0Д], а д обозначает декартово произведение;

/еЯ

-Функция полезности: полезность каждого агента ресурса /65"равна ц (КА) ■ как определено в (12).

Дат ее для игры Штакельберга определяем результаты о её состояниях равновесия.

Пусть ЬГ*ЕВ. Профиль стратегий (Ьр*, Х/}*) — состояние равновесия для игры С,,1*'. если для всех ЬрбВ и ¡Й , то

(13)

Т-Сотт Том 13. #8-2019

При эволюционном равновесии число агентов задач, подключенных к северу /', рассчитывается по формуле (9).

Пусть b ' =(Ьф",Ьр |*)> где ty,* - вектор пропускной способности всех игроков (агентов ресурсов). Стратегия bp*={blp*,Ь2р*,...,Ьмр*) называется «стратегией Штакельбер-га» для игры Gp , если для всех iESимеем

(14)

Значение UlptSA)(bp*,^*) - полезность по Штакельберту

лидера i в игре GP,S|.

Теорема 2. Игра GPIS1 допускает единственную точку равновесия по Штакельбергу.

Посредством представленных выше двух игровых моделей Gp( ' и GpIM мы продемонстрировали общий метод для динамической оркестровки ресурсов в программно-конфигурируемой сети. Однако задача управления производительностью в ИКС еще требует способности поддерживать в режиме реального времени механизмы эффективного распределения ресурсов, позволяющие удовлетворять требования к SLA или QoS соглашений. Таким образом, в второй фазе разработанной когнитивной модели рассматривается модель рациональной СМО, предназначен пая для случая нехватки ресурсов.

Пусть в группе р существует набор Х^ агентов задач, выбирающих подключение к /-ому серверу. Исходя из теории массового обслуживания для эффективного распределения ресурсов применяются приоритетные модели СМО. Однако для нашего исследования применяется идея рациональной модели СМО среди интеллектуальных программных агентов [20].

С. Некоонерагивиая игра Gj, среди агентов задач

в аукционной очереди

Во второй фазе цикла динамического управления в ИКС мы анализируем многоагснтную самоорганизующуюся модель в виде некооперативной игры. При этом агенты конкурируют за позиции в очереди ставками, сделанными легально. Тогда данная модель очереди является аукционной. Агент, желающий стать победителем в аукционе, использует три доступных ему варианта стратегий:

- Стратегию, соответствующую равновесию по Нэшу;

-Стратегию случайных ставок;

- Стратегию, созданную на основе линейной регрессии.

Далее подробно рассмотрим модель некооперативной

игры

Пусть заданная модель очереди типа М/D/l со скоростью обслуживания и услуг в единицу времени. Агенты задач, которые соединяются с i-ым агентом ресурса (сервером), поступают в очередь в соответствии с распределением 1 !уас-сона со средней скоростью Х/р' агентов за единицу времени.

Было показано в первой фазе, что значение Д * в определенный момент времени определяется по формуле (12). Каждый агент задачи имеет одинаковое значение функции полезности U,PTA\ как определено в (5), и отдельное значение стоимости времени ожидания у, сгенерированное из равномерного кумулятивного распределения А(у)-Ау при yS[0,y где у|- общеизвестное значение. Когда агент задачи приходит в очередь, он либо принимает решение не входить в очередь, либо платит серверу ставку х, которая не подлежит

пересмотру и возврату, чтобы получить место в очереди. Таким образом, если он должен ждать в очереди единицу времени после предоставления ставки х, его конечная прибыль ифТА]-х-у[У. Когда новый агент задачи входит в очередь, сервер будет изменять порядок своей очереди согласно процедуре, в которой агент с наивысшей ставкой будет обслуживаться первым. Предполагается, что очередь существует в течение длительного времени. Согласно [ 16] мы имеем следующие предложения:

Предложение 1. Учитывая допущения модели, ожидаемое время, которое агент, оплачивающий ставку, проводит в очереди, определяется следующим образом:

Ш)»—-£--г * а5)

4р[1-гВ(х )+гВ(х)]~ где /-(^¡р*Уи, это коэффициент использования, х* - представляет максимальную ставку, полученную сервером, и В(х) является функцией распределения величины .V.

Для заданного среднего времени обслуживания очередь является социально квазиоптимальной, если агенты ранжируются таким образом, что для определенного числа агентов в очереди среднее значение затрат по времени, потраченных агентами, сводится к минимуму.

Предложение 2. Для любого заданного (у), функция ставок т(у) приводит к социально квазиоптималыюй очереди, если .т(у) является строго возрастающей функцией по у.

Суть представленных предложений заключает в том, что для минимизации среднего значения затрат по времени очереди достаточно ранжировать агентов по их значениям стоимости времени ожидания у. Так как, при условии, что л"(у) является строго возрастающей функцией по у, агенты с более высокими значениями у размещались перед теми, у Которых более низкие значения у, и, следовательно, обслуживались первыми.

Теперь пусть А и 1-(}Чр )1\х. Согласно [171,

если г>2/( 1+г) агенты с у<гу\ 1(г(\+г)) находятся в очереди, делая ставку:

1 — гАГ 1 ч. (16)

х=

К*А

■■ (1+Z-

{[\1(\ + 2)} + ГАГ}~ [1/(1+z)]+My

Л агенты с у>(2у1)/(г(1+г)) не вступают в очередь, тогда эти стратегии образуют равновесие по Нэшу, т.е. ни один агент не отклонится от своей стратегии, потому что это лучший способ максимизировать свою прибыль. Более того, если г<г/(( 1 +г)), то все агенты решают делать ставки следующим образом:

х=_!___п.___!____(17)

Д^*А(1-г) Я1р'А(1-г+гАу)

Таким образом, эти стратегии также формируют равновесие по Нэшу,

Учитывая приведенные выше стратегии, было доказано в [171, что сервер может максимизировать свой доход (сумму всех полученных ставок), регулируя значение скорости обслуживания и* гак, чтобы:

I

iyTA'A

и' l+V U,/WA

(18)

i [омимо стратегии равновесия по Нэшу, все агенты могут выбрать две другие стратегии: случайную и линейную per-

ресешо. В случайной стратегии агент случайным образом решает, входить в очередь иди нет, и выбирает случайную ставку из равномерного распределения [0,Х]. Шанс не войти в очередь установлен на .

При стратегиях с линейной регрессией агенты задач снабжены способностью к обучению. Все агенты могут учиться не только на собственном опыте, но и на опыте других игроков и прогнозировать время ожидания с помощью методов линейной рефеесии. А затем рассчитать их оптимальные ставки:

шах я (}=ифал> -x-W(x),

(19)

где ,у+ Щх) - функция стоимости.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С распределением ставок В(х) из (15) мы можем определить общий вид линейной регрессионной модели между значениями ставок и временем ожидания, как показано ниже:

W^ax+bx'+i,

(20)

Основываясь па наблюдениях, имеющих форму парных значений (.т„^(лг,)}, которые были получены от предыдущих обслуживаемых агентов, с помощью метода наименьших квадратов или алгоритма градиентного спуска, мы получим точный вид формулы (18). Затем, используя эту линейную регрессию со значением ставки х„ рассчитанной по (16) или (17), мы можем предсказать значение времени ожидания И''(л",).

Напомним, что для функции оптимизации (19), чтобы найти оптимальную ставку, агент выборе] ставку, максимизирующую чистую прибыль О, из своего профиля стратегии ставок {х}.Здесь возникает вопрос, каким образом мы можем установить профиль стратегии назначения ставок {.т}?

Если каждый агент способен запоминать N пар значений (х/,Щх1)), то для каждого агента / существует свой профиль стратегий ставок {х}={.Т;, х^ц.щ .т„рЛ..|}. На базе данного профиля агент может найти оптимальную ставку путем выполнения оптимизации по (19).

Итак, во второй фазе мы показали мультиагентную модель для динамического распределения ресурсов в подгруппе агентов задач, поступающих к выбранному серверу. Выл предложен подход к агентному обучению на основе метода линейной регрессии для прогнозирования значения времени ожидания Ф(х,). Однако агентное обучение вовсе не ограничивается данным методом, его можно расширить и укрепить другими способами.

Заключение

Предложена разработка двухфазной архитектуры когнитивной модели, предназначенной для управления производительностью и программно-конфигурируемых сетях. Под словом «когнитивные» подразумеваются распределенные интеллектуальные системы со способностью обеспечивать принципиально повой уровень автономности благодаря внедрению агентной технологии и принципа самоорганизации в процессах управления. С точки зрения будущих пост-Ж^ сетей, сопровождающихся неоднородностью и высокой динамичностью, такой подход выглядит оправданным.

Разрабатываемая многоагентная система на основе тео-ретнко-игрового подхода показывает новые возможности на пути реализации новых систем управления телекоммуника-

циями. Как было показано в данной работе, дня автоматизированной координации «запрос-ресурс» и динамического распределения ресурсов па плоскости управления сетей ИКС перспективным решением является использование различных вид игр, таких как эволюционные, некооперативные и игры Штакельберга.

Для дальнейших работ были поставлены задачи проведения имитационного моделирования разрабатываемой модели и исследование проблем мультиагентного обучения для улучшения работоспособности разрабатываемой авторами когнитивной модели управления.

Литература

1. Гольдштеин Л.Б., Конг З.Н., Бородинский A.A. Reevolution of telecommunications management: from hierarchical to multi-agent systems.

2. Самуилов K.E., Чукарин А.В., Яркина HB. Бизнес-процессы и информационные технологии п управлении телекоммуникационными компаниями. М.: Альпииа Паблишера, 2009. Т. 9. С. 44.

3. Agoulmine N. (cd.). Autonomic network management principles: From concepts to applications. Academic Press, 2010.

4. WhiteS.R. et al. An architectural approach to autonomic computing // International Conference on Autonomic Computing, 2004. Proceedings. IEEE, 2004. C. 2-9.

5. Serugendo G.OM,. hit M.P.G.. Karageorgos A. Self-organ i sat ion and emergence in MAS: An overview // Informatica. 2006. T. 30. № 1.

6. ГЪродецкий В.И. Самоорганизация и многоагентные системы, 1. Модели многоатентной самоорганизации // Известия Российской академии наук. Теория и системы управления. 2012. № 2. С. 92-92,

7. Wooldridge М.. Jennings Л'./?. Intelligent agents: Theory and practice//The knowledge engineering review, 1995. T. 10. № 2. С. 115-152,

8. Han Z. el al. Game theory in wireless and communication networks: theory, models, and applications, Cambridge university press, 2012.

9. Nadeau T.D., Gray K. SDN: Software Defined Networks: an authoritative review of network pro gram inability technologies, "O'Reilly Media, Inc.", 2013.

10. Bordini R.H. et al. A survey of programming languages and platforms for multi-agent systems // Informatica. 2006. T. 30. № 1.

11. Kravari K.. BaisiHades N. A survey of agent platforms // Journal of Artificial Societies and Social Simulation. 2015. T. 18. № I. С. II.

12. Betlifemine F„ Poggi A., Rimassa G. Developing multi-agent systems with a FIPA-compliant agent framework // Software: Practice and Experience. 2001. T. 31. №. 2. С, 103-128.

13. Скобелев И.О. и др. Мультпатентная система планирования задач в программ по-конфигурируемых сетях // Компьютерные инструмен ты в образовании. 2013. № 4.

14. Коновалов М.Г. и др. Модель взаимодействия потребителей с удаленными вычислительными ресурсами через посредников // Системы и средства информатики. 2009. №. 19. С. 5-33.

15. Ого S. el al, A game theoretic approach for distributed resource allocation and orchestration of softwarized networks // IEEE Journal on Selected Areas in Communications. 2017. T. 35. №. 3. C. 721-735.

16. Kleinrock L. Optimum bribing for queue position // Operations Research. 1967. T. 15. №. 2. C. 304-318.

17. Lui F. T. An equilibrium queuing model of bribery // Journal of political economy. 1985. T. 93. №. 4. C. 760-781.

18. Weibuil J. W. Evolutionary game theory. MIT press, 1997.

19. Simaan №. Cruz J. A Siackelberg solution for games with many players // IEEE Transactions oil Automatic Control. 1973. Т. 18. №. 3. C. 322-324.

20. Hassin R. Rational queue ing. Chapman and Hall/CRC, 2016.

GAME THEORY-BASED COGNITIVE MODEL FOR DYNAMIC PERFORMANCE MANAGEMENT

IN SOFTWARE-DEFINED NETWORKS

Nguyen Cong Danh, SPbGUT, St. Petersburg, Russia, nguyencongdanh0109@gmail.com Boris S. Goldstein, SPbGUT, St. Petersburg, Russia, bgold@niits.ru Vasiliy S. Elagin, SPbGUT, St. Petersburg, Russia, elagin.vas@gmail.com Anastasia V. Onufrienko, SPbGUT, St. Petersburg, Russia, anastasia.4991@mail.ru

Abstract

Nowadays, cognitive multiagent self-organization is the subject of intensive research in the field of info-communication technology, because today, management solutions for traditional multimedia services are outdated, which creates new problems in the operation of telecommunication equipment.This state-of-the-art in constructing distributed intelligent systems for telecommunication management is already receiving attention both from researchers and from industrial application developers. This article discusses the basic models of multi-agent self-organization for telecommunications management. A key point in cognitive network management models is the construction of autonomous decision-making mechanisms. The purposes of this paper are to present the implementation of a game theory-based cognitive model for network performance management, to analyze the possibilities of using this model in dynamic orchestration and resource allocation use cases in software-defined networks. Thus, special attention has been devoted to the developed multiagent management system architecture, the stages of which form various game-theoretic models with the participation of intelligent software agents, designed to organize automated coordination of requests from the application layer to the corresponding network resources. The authors proposed an approach to agent training based on the linear regression method for predicting the value of waiting time. The developed multi-agent system based on the game-theoretic approach shows new opportunities for implementing new telecommunication management systems.

Keywords: multiagent self-organization, network management, request and resource matching, resource allocation, SDN, post-NGN. References

1. Goldstein A., Nguyen D., Borodinsky A. Re-evolution of telecommunications management: from hierarchical to multi-agent systems. (in Russian)

2. Samuilov K.E., Chukarin A.V., Yarkina N.V. (2009). Business processes and information technologies management of telecommunication companies. Moscow: Alpina Publishers. Vol. 9. P. 44. (in Russian)

3. Agoulmine N. (ed.). (2010). Autonomic network management principles: From concepts to applications. Academic Press.

4. White S.R. et al. (2004). An architectural approach to autonomic computing. International Conference on Autonomic Computing, 2004. Proceedings. IEEE, pp. 2-9.

5. Serugendo G.D.M., Irit M.P.G., Karageorgos A. (2006). Self-organisation and emergence in MAS: An overview. Informatica. Vol. 30. No. 1.

6. Gorodetskii V.I. (2012). Self-organization and multiagent systems: I. Models of multiagent self-organization. Journal of Computer and Systems Sciences International. Vol. 51. No. 2, pp. 256-281.

7. Wooldridge M., Jennings N.R. (1995). Intelligent agents: Theory and practice. The knowledge engineering review. Vol. 10. No. 2, pp. 115-152.

8. Han Z. et al. (2012). Game theory in wireless and communication networks: theory, models, and applications. Cambridge university press.

9. Nadeau T.D., Gray K. (2013). SDN: Software Defined Networks: an authoritative review of network programmability technologies. - "" O'Reilly Media, Inc.".

10. Bordini R.H. et al. (2006). A survey of programming languages and platforms for multi-agent systems. Informatica. Vol. 30. No. 1.

11. Kravari K., Bassiliad.N. (2015). A survey of agent platforms. Journal of Artificial Societies and Social Simulation. Vol. 18. No. 1. P. 11.

12. Bellifemine F., Poggi A., Rimassa G. (2001). Developing multi?agent systems with a FIPA?compliant agent framework. Software: Practice and Experience. Vol. 31. No. 2, pp. 103-128.

13. Skobelev P.O. et al. (2014). Multi-agent tasks scheduling system in software defined networks. Journal of Physics: Conference Series. -IOP Publishing, Vol. 510. No. 1, pp. 012006.

14. Konovalov M.G. et al. (2009). A model of consumer interaction with remote computing resources through intermediate. No. 19, pp. 5-33. (in Russian)

15. 'Oro S. et al. (2017). A game theoretic approach for distributed resource allocation and orchestration of softwarized networks. IEEE Journal on Selected Areas in Communications. -Vol. 35. No. 3, pp. 721-735.

16. Kleinrock L. (1967). Optimum bribing for queue position. Operations Research. Vol. 15. No. 2, pp. 304-318.

17. Lui F.T. (1985). An equilibrium queuing model of bribery. Journal of political economy. Vol. 93. No. 4, pp. 760-781.

18. Weibull J.W. (1997). Evolutionary game theory. MIT press7.

19. Simaan M., Cruz J. (1973). A Stackelberg solution for games with many players. IEEE Transactions on Automatic Control. Vol. 18. No. 3, pp 322-324.

20. Hassin R. Rational queueing. - Chapman and Hall/CRC, 2016. Information about authors:

Nguyen Cong Danh, postgraduate, Department of Infocommunication systems of SPbGUT, St. Petersburg, Russia Boris S. Goldstein, Professor of the Department of Infocommunication systems of SPbGUT, St. Petersburg, Russia Vasiliy S. Elagin, associate Professor of the Department of Infocommunication systems of SPbGUT, St. Petersburg, Russia Anastasia V. Onufrienko,- postgraduate, Department of Infocommunication systems of SPbGUT, St. Petersburg, Russia

Game theory-based cognitive model for dynamic performance management in software-defined networks

Текст научной работы на тему «Когнитивная модель на базе теории игр для динамического управления производительностью в программно-конфигурируемых сетях»