УДК 519.83 ББК22.1
ДИНАМИКА ДВОЙНЫХ НАИЛУЧШИХ ОТВЕТОВ В ИГРЕ ФОРМИРОВАНИЯ ТОПОЛОГИИ БЕСПРОВОДНОЙ AD HOC СЕТИ1
Базенков Н. И.2,
(ФГБУН Институт проблем управления им. В.А.Трапезникова
РАН, Москва)
В статье рассматривается задача формирования топологии беспроводной ad hoc сети. На плоскости расположены узлы, оснащенные беспроводными передатчиками. Каждый узел может изменять мощность своего передатчика. Требуется назначить передатчикам такие мощности, чтобы обеспечить связность сети и минимизировать суммарную мощность. Задача формирования топологии рассматривается как некооперативная игра. Исследуются алгоритмы коллективного поведения узлов, использующие правило двойного наилучшего ответа. Это правило принятия решения, которое моделирует поведение агентов первого ранга рефлексии. Предложено два алгоритма формирования сети, использующие метод двойных наилучших ответов. Эффективность предложенных алгоритмов исследуется в численных экспериментах и сравнивается с традиционным теретико-игровым алгоритмом простых наилучших ответов.
Ключевые слова: игра формирования сети, ad hoc сети, рефлексия, двойной наилучший ответ.
Введение
Сети ad hoc образуются несколькими беспроводными узлами без использования какой-либо дополнительной инфраструк-
1 Работа выполнена при финансовой поддержке РФФИ, гранты № 11-01-00771, 13-07-00491 А.
2 Николай Ильич Базенков, ИПУ РАН (n.bazenkov@gmail.com).
туры [23]. Различают несколько видов ad hoc-сетей. Мобильные ad hoc-сети (MANET) применяются в военных и спасательных операциях. Сенсорные сети (WSN) используют для сбора данных на промышленных объектах, для экологического мониторинга в городах, для исследования природных территорий. В настоящее время изучаются возможности для того, чтобы использовать недорогие ad hoc сети для увеличения пропускной способности и расширения зоны покрытия сотовых сетей поколений 3g и 4g [10].
Устройства в ad hoc сетях обычно работают от автономных аккумуляторов, поэтому большое значение имеют методы обеспечения энергоэффективности. Управлением топологией (topology control) называется динамическая настройка мощности передатчиков для поддержания связности сети, минимизации энергопотребления или улучшения качества связи. Мы рассматриваем только процесс формирования сети, когда требуется назначить каждому узлу такую мощность, чтобы обеспечить связность сети и минимизировать суммарную мощность узлов.
В классическом представлении теории игр агенты - это субъекты, обладающие свободой воли, но предпочитающие действовать рационально, т.е. максимизировать свою функцию полезности. Изначально теория игр изучала ситуации, в которых агентами являлись коммерческие фирмы, политические партии и любые другие сущности, в которых решения принимаются людьми. Сейчас методы теории игр оказались востребованы применительно к техническим системам, в частности, телекоммуникационным сетям.
Устройства в технических системах не обладают способностью принимать решения. Но разработчик может задать алгоритм поведения устройства, имитирующий рациональное принятие решений. Допустим, каждое устройство наделено встроенной функцией полезности, которая оценивает качество выполнения устройством своих задач в зависимости от целей устройства, его действий и состояния внешней среды. В системе действует несколько таких устройств и каждое стремится максимизировать
свою функцию полезности, не учитывая полезности других. Такие задачи изучает некооперативная теория игр, тогда устройства можно считать агентами. Если есть алгоритм, который координирует действия устройств, то вместо теории игр используются стандартные методы управления и оптимизации.
В работе исследуется правило принятия решения агентами, названное двойным наилучшим ответом. Рассматриваемая игра формирования топологии сети характерна наличием большого числа равновесий, которые сильно отличаются между собой по эффективности. Равновесия, получаемые классическим теоретико-игровым алгоритмом последовательного наилучшего ответа, сильно зависят от порядка действий агентов. Установлено, что если при формировании сети применять алгоритм двойного наилучшего ответа, результат более устойчив к порядку действий и в среднем обеспечивает меньшие суммарные затраты.
Предложено два алгоритма формирования сети. В одном узлы сети используют двойной наилучший ответ до тех пор, пока сеть не стабилизируется, затем переключаются на обычный наилучший ответ, чтобы завершить формирование связной сети. В другом алгоритме узлы используют обычный наилучший ответ до тех пор, пока могут улучшать им свою полезность, затем переходят на двойной наилучший ответ. При этом двойной наилучший ответ узел может использовать ограниченное количество раз. Оба алгоритма в численных экспериментах показали улучшение качества сети относительно стандартного наилучшего ответа.
Структура статьи следующая. В разделе 1 приводится краткий обзор работ, посвященных применению теории игр к управлению беспроводными сетями. В разделе 2 сформулирована игра управления топологией. Правило двойного наилучшего ответа и его модификации приведены в разделе 3. В разделе 6 описаны предложенные алгоритмы формирования сети. Результаты экспериментов приводятся в разделе 5. Выводы и направления будущих исследований сформулированы в разделе 6.
1. Обзор
Управлению топологией беспроводных сетей посвящено много работ, которые отличаются используемыми моделями сети, критериями качества и ограничениями, которым должна удовлетворять сеть. Подробный обзор теоретических результатов приведен в [21]. Поиск решения, минимизирующего суммарную мощность узлов, является ЖР-трудной задачей [9]. Централизованные алгоритмы целочисленной оптимизации и некоторые эвристики приведены в [8].
Разработано много децентрализованных алгоритмов управления топологией. Например, алгоритм LMST [16] реализует децентрализованный поиск минимального остовного дерева. Для этого узлы должны располагать информацией о расположении своих соседей. Для алгоритма CBTC узлам требуется умение определять направление к другим узлам [17]. В алгоритме XTC каждый узел ранжирует своих соседей по качеству сигнала, затем создает к лучших связей [25]. Современные и больше ориентированные на практическое применение алгоритмы рассматриваются в [7].
Методы теории игр в последнее время активно применяются для моделирования конфликтных ситуаций, возникающих в телекоммуникационных сетях, в частности, в беспроводных. Есть обширный обзор по применению теории игр в сенсорных сетях [22], многие описанные в нем задачи характерны и для других типов сетей. В работах [11, 15] управление топологией сформулировано как некооперативная игра, имеющая потенциальную функцию, решением является равновесие Нэша. В [24] иследу-ется Байесова игра узлов разных типов, в качестве решения используется равновесие Байесово равновесие Нэша. В [18] узлы используют обучающую динамику стохастического фиктивного розыгрыша (stochastic fictious play) в повторяющейся игре, решением также является равновесие Нэша.
Основные положения теории рефлексивных игр описаны в [5]. Алгоритм коллективного поведения, во многом аналогич-
ный двойному наилучшему ответу, используется в [4] для управления группой агентов, которые должны проникнуть через систему датчиков. В [3] с позиций теории рефлексивных игр рассматриваются дуополия Курно, поиск консенсуса в многоагентной системе, активная экспертиза. К задаче формирования сети двойной наилучший ответ впервые применен в [1].
Управление топологией имеет много общего с играми формирования социально-экономических сетей [2]. В них рассматриваются разные концепции устойчивых сетей, а также динамические процедуры формирования сети [14]. Но работы, в которых бы теория рефлексивных игр применялась к формированию сетей, на данный момент неизвестны.
2. Игра формирования беспроводной сети
2.1. МОДЕЛЬ СЕТИ
Сеть состоит из множества устройств, или узлов, N = {1 ,...,п}, расположенных на плоскости. Каждое устройство оснащено беспроводным передатчиком, мощность которого может изменяться. Мощности всех передатчиков задаются вектором р = (р1,... ,рп), рг ^ [0,ртах]. Считаем, что узлы однородны и максимальная мощность одинакова для каждого узла.
Узел г может успешно передавать данные узлу ], если выполняется условие
(1) (Ш > в
где рг - мощность передатчика узла г, в ^ 1 - параметр, задающий требуемое качество передачи, а ^ 2 - показатель затухания сигнала и Ь^ - Евклидово расстояние между узлами г и ]. Эта модель описывает распространение радиосигнала в однородной среде без посторонних помех, переотражений и других явлений, встречающихся в реальных условиях. Тем не менее такая модель часто используется в работах, посвященных управлению топологией [21].
Определение 1. Множество узлов, для которых будет выполнено условие (1), если узел г установит мощность рг, назо-
вем исходящей fji-окрестностью узла i и будем обозначать как N°utipt).
Определение 2. Графом коммуникации, порожденным вектором мощностей р, называется направленный граф g(p) = (N,E(p)), где N - множество вершин, соответствующих узлам сети, E(p) -множество ребер, где (i,j) е E(р), если для узлов i,j выполняется условие (1).
В протоколах беспроводной связи стандартов 802.11 [12] и 802.15 [13], которые используются в ad hoc сетях, широко применяются acknowledgement сообщения - «отчеты о доставке». Этот механизм требует наличия двусторонней связи между узлами i и j. Поэтому введем еще одно определение.
Определение 3. Связным неориентированным подграфом графа g = (N,E) называется граф g = (N,E), где (i,j) е E, если (i,j) е E и (j, i) е E.
Вектор мощностей, в котором каждый узел устанавливает свою максимальную мощность, обозначим как pmax. Граф, порождаемый этим вектором, обозначим как gmax = g(pmax).
Критерием качества сети является суммарная мощность узлов
(2) Ctotal(p) = £ pi.
iZN
При формировании топологии необходимо задать узлам такие мощности p, чтобы g(p) имел связный неориентированный подграф и суммарная мощность узлов 2 была минимальна.
2.2. ОПИСАНИЕ ИГРЫ
Здесь приводится игра формирования топологии, сформулированная в [15].
Определение 4. Игрой в стратегической форме называет-
ся тройка
(3) Г = {N, [Ai}i£N, |ui}i€N),
где N = {1,... ,n} - множество игроков, или агентов; Ai - множество возможных действий i-го агента; щ: х ieN Ai ^ R -
функции полезности агентов.
В игре формирования топологии агентами являются узлы сети N = 1,... ,п. Действием агента г является мощность его передатчика рг € [0,ртах]. Функция полезности сконструирована так, чтобы отражать требование связности сети и уменьшения мощности передатчика:
(4) щ(р) = М/г(д(р)) - рг.
Здесь /г(д(р)) - количество узлов, с которыми узел г связан в графе д(р). Учитываются узлы, к которым существуют пути из двусторонних ребер. Константа М > ртах отражает приоритет обеспечения связности сети над минимизацией мощности. Функция (4) при необходимости может быть модифицирована таким образом, чтобы учитывать не только связность, но и другие критерии, например, длину путей в графе д(р).
2.3. РАВНОВЕСИЯ В ИГРЕ ФОРМИРОВАНИЯ ТОПОЛОГИИ
Определение 5. Профиль действий а* называется равнове-
сием Нэша, если для каждого агента г и для любого действия аг = аг* выполняется условие
(5) Пг(аг,а*_г) ^ иг(а*,а*_г).
Если в системе установилось равновесие Нэша, ни один агент не сможет увеличить полезность, в одиночку изменив свое действие. В рассматриваемой игре формирования топологии существует больше одного равновесия Нэша. Проблема в том, что эти равновесия могут сильно отличаться по суммарным затратам мощности.
На рис. 1 показаны все возможные равновесия, возникающие в игре формирования сети из трех узлов, расположенных на отрезке длины два. Узел Ь смещен относительно середины отрезка на малую величину е.
Равновесия на рис. 1а и 1б не являются допустимыми решениями задачи формирования сети, поскольку граф не связен. Равновесие на рис. 1в допустимо, но не оптимально. Только равновесие на рис. 1г является оптимальным с точки зрения минимума суммарной мощности узлов. Интерес представляют алгоритмы, которые бы позволили исключить недопустимые и субоптималь-ные равновесия.
в) г)
Рис. 1. Равновесия в в игре формирования сети из трех узлов. а) тривиальное недопустимое равновесие; б) другое недопустимое равновесие; в) субоптимальное равновесие; г) оптимальное равновесие
3. Коллективное поведение агентов
3.1. НАИЛУЧШИЙ ОТВЕТ
Анализ игры в стратегической форме позволяет понять, какие в данной игре существуют равновесия. Механизм выбора одного из этих равновесий задается алгоритмом коллективного поведения агентов. Так называется итерационный процесс, при котором агенты на каждом шаге выбирают свое действие по некоторому локальному правилу. В англоязычной литературе это также называется процессом обучения (learning process). Одним из наиболее распространенных и естественных алгоритмов поиска равновесия является алгоритм последовательных наилучших ответов (iterated best response).
Определение 6. Наилучшим ответом (best response) агента
i на обстановку a-i называется действие
(6) BRi(a-i) = argmax ui(x,a-i).
x^Ai
Алгоритм последовательных наилучших ответов определяется следующим образом. Зафиксируем начальный вектор действий a°. Агенты действуют поочередно в некотором порядке. Обычно считается, что порядок задается случайно. На шаге к агент i
выбирает свое действие как наилучший ответ на текущую обста-
к— 1
новку a -i .
Алгоритм последовательных наилучших ответов зависит от начального состояния а0 и от порядка действий узлов. Например, равновесие на рис. 1в установится, если узлы начинают с максимальной мощности передатчика и первым изменяет мощность узел Ь. Если первыми действуют а или с, устанавливается равновесие на рис. 1г. Если начальная мощность всех узлов недостаточна для образования хотя бы одной связи, при любом порядке действий установится тривиальное равновесие на рис. 1а.
Следующий алгоритм проявляет большую устойчивость к начальным действиям и порядку ходов, чем наилучший ответ.
3.2. ДВОЙНОЙ НАИЛУЧШИЙ ОТВЕТ
Наилучший ответ (6) моделирует поведение «недальновидного» агента, который предполагает, что обстановка в игре останется неизменной. Теория рефлексивных игр, разработанная в [5], рассматривает агентов, которые пытаются прогнозировать будущую реакцию оппонентов на свои действия.
В [5] вводится понятие ранга рефлексии агента. Агенты, обладающие 0-м рангом рефлексии, используют простой наилучший ответ (6). Агент, обладающий 1-м рангом рефлексии, считает, что все остальные агенты обладают рангом 0. Ранги рефлексии выше 1 мы рассматривать не будем, их примение к анализу прикладных задач теории игр описано в монографии [3].
Агенты 1-го ранга рефлексии используют следующее правило принятия решений
Определение 7. Двойным наилучшим ответом агента г на
обстановку а_г называется действие
(7) БЕ2(а_г) = argmax иг(х, БЕ_г(х,а_г)),
х£Л1
где БЕ_г(х,а_г) = (БЕ1 (х,а_г),..., БЕг_1(х,а_г),
БКг+1(х,а_г),... ,БЯп(х,а_г)) - вектор одновременных
наилучших ответов других агентов на выбор агентом г действия х.
Насколько известно, в чистом виде правило (7) не применялось в алгоритмах коллективного поведения. В [4] агенты выбирают действие как линейную комбинацию текущего действия и
двойного наилучшего ответа. Такой подход обеспечивает устойчивость коллективного поведения, но применим только если действия выражаются непрерывной величиной.
Если в примере на рис. 1 все узлы используют правило двойного наилучшего ответа, то при любом порядке ходов и для любого начального вектора мощностей установится оптимальное равновесие на рис. 1г, даже если начальные мощности равны нулю. Это можно проверить непосредственно, применив правило (7).
б) в)
Рис. 2. Зацикливание двойного наилучшего ответа а) сеть, на которой останавливается динамика двойного наилучшего ответа; б) субоптимальное равновесие СМа1 = 5 + 2е; в) оптимальное равновесие СоШ = 5 + е
Существуют сети, для которых правило двойного наилучшего ответа, примененное в чистом виде, «зацикливается», не достигая связной сети. Пример на рис. 2. Узлы с и й, расположенные близко друг от друга, готовы установить «дешевую» связь (с, й) и «надеются» на то, что сосед установит «дорогую» связь с узлом Ь. Алгоритм двойного наилучшего ответа стабилизируется и получает сеть на рис. 2а.
Если после остановки алгоритма все узлы переключатся на простой наилучший ответ, образуется одна из сетей на рис. 2б и 2в. В этом примере с помощью двойного наилучшего ответа удается исключить наиболее «дорогие» связи (а, с) и (а,й). Разница между равновесиями на рис. 2б и 2в уже незначительна.
Не является очевидным, что двойной наилучший ответ вообще остановится. Но для всех экспериментально исследованных в разделе 5 примеров это выполняется. Также наверняка можно формально охаректиризовать конфигурации узлов как на рис. 2, для которых двойной наилучший ответ получает несвязную сеть.
3.3. ОГРАНИЧЕНИЕ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ
Вычисление обычного наилучшего ответа (6) не требует от агента знания полезностей других агентов, достаточно знать обстановку a-i. Для вычисления двойного наилучшего ответа уже требуется знание функций полезности других агентов и умение вычислять их наилучшие ответы. В системах с большим количеством агентов это может представлять сложность. Естественно ограничить множество агентов, чьи действия i может прогнозировать. Предложим правило ограниченного двойного наилучшего ответа.
Определение 8. Рефлексивным множеством (Reflexive Set) Ri агента i назовем множество агентов, для которых i может вычислить наилучший ответ (6).
Определение 9. Ограниченным двойным наилучшим ответом агента i на обстановку a-i называется действие
(8) BR2 r (a-i) = arg maxm(x,aN\R., BRr(x,a-)),
где aN\Ri - действия агентов, не входящих в Ri; BRRi (x, a-i) -наилучшие ответы агентов, входящих в Ri.
Выбор рефлексивных множеств фактически определяет свойства алгоритма коллективного поведения. В предельных случаях, если Ri = 0, получаем обычный алгоритм наилучшего ответа. Если Ri = N, получаем двойной наилучший ответ без ограничений.
В данной работе рефлексивным множеством узла i считаются все узлы, потенциально находящиеся в зоне действия передатчика i. Для них выполняется условие успешной передачи (1), если i установит максимальную мощность своего передатчика.
(9) Ri = {j | j e Nir\vrx)}.
Аналогично можно выбрать NiOat(prmax/2), NiOut(2prmax), к ближайший узлов и т.д.
Также для каждого агента можно ввести ограничение на использование двойного наилучшего ответа. Пусть каждый агент может использовать правило (7) только q раз, а затем обязан перейти на простой наилучший ответ (6). Таким образом можно, во-первых, снизить вычислительную сложность алгоритма, и, во-вторых, избежать зацикливаний, как на рис. 2.
Оба механизма ограничения сложности положены в основу алгоритмов формирования сети, рассматриваемых в следующем разделе.
4. Формирование сети
4.1. ДИНАМИКА НАИЛУЧШИХ ОТВЕТОВ
Рассмотрим алгоритм, который позволяет получить связную сеть, являющуюся одним из равновесий Нэша. Этот алгоритм моделирует поведение «недальновидных» агентов 0-го ранга рефлексии, использующих наилучший ответ (6). Он рассматривается в [15], аналогичный алгоритм использовался в [11]. В алгоритме воспроизводится динамика последовательных наилучших ответов (iterated best responses - IBR). Порядок действий узлов выбирается произвольно, например, по возрастанию mac адресов.
Алгоритм 1 (Последовательных наилучших ответов).
1. (Инициализация). Каждый узел устанавливает максимальную мощность своего передатчика р0 = pmax.
Формируется граф д° = g(pmax).
2. (Адаптация). Очередной узел i изменяет мощность по правилу наилучшего ответа (6).
рь+ = BRi (р—).
3. (Обновление сети). Формируется новый граф.
gt+l = g(pl+\p-i).
4. (Остановка). Шаги 2 и 3 повторяются до тех пор, пока хотя бы один узел продолжает изменять свою мощность.
Свойства этого алгоритма хорошо изучены. В [15] доказано, что на каждом шаге алгоритма сохраняется связность сети. Соответственно, полученная сеть также будет связной. Также получившаяся сеть будет равновесием Нэша. Сходимость к равновесию следует из того, что игра управления топологией имеет порядковую потенциальную функцию [19].
Полный цикл, когда каждый узел ровно один раз изменит мощность, т.е. шаг 2 повторится п раз, назовем одной итерацией алгоритма. Динамика наилучших ответов сходится к равновесию Нэша ровно за одну итерацию. Столь быстрая сходимость обусловлена тем, что наилучший ответ каждого узла сводится к выбору минимального значения мощности, при котором еще сохраняется связность сети. После этого узел уже не будет увеличивать свою мощность и не сможет уменьшить ее еще больше. При таком подходе мощности могут распределиться очень неравномерно.
Как уже было показано на рис. 1, эффективность получившегося равновесия зависит от порядка, в котором действуют узлы. Пример сети из 20 узлов, сформированной алгоритмом последовательных наилучших ответов на рис. 3а. Сплошными синими линиями показаны двусторонние ребра. Оранжевыми пунктирными линиями показаны односторонние «избыточные» ребра.
4.2. ДИНАМИКА ДВОЙНЫХ НАИЛУЧШИХ ОТВЕТОВ
Этот алгоритм построен по прямой аналогии с динамикой наилучших ответов, но агенты выбирают действия по правилу двойного наилучшего ответа (7).
Алгоритм 2 (Последовательных двойных наилучших ответов).
1. (Инициализация). Каждый узел устанавливает начальную мощность своего передатчика р0 = р°.
Формируется граф д° = д(р°).
2. (Адаптация). Очередной узел і изменяет мощность по правилу двойного наилучшего ответа (7) или (8)
р+1 = бЩ (р-)
а) б)
Рис. 3. Пример сети из 20 узлов, сформированной алгоритмами а) последовательных наилучших ответов; б) последовательных двойных наилучших ответов
или
р*+1 = ВЕ2 д. (р-г), где Ег - рефлексивное множество.
3. (Обновление сети). Формируется новый граф
#*+1 = #(рг+1,р-г).
4. (Остановка). Шаги 2 и 3 повторяются до тех пор, пока хотя бы один узел продолжает изменять свою мощность.
5. (Завершение). Если граф д1 не связный, все узлы переходят на правило наилучшего ответа (6). Переход к шагу 2.
На шаге 2 вместо правила (7) может использоваться правило с ограничением на рефлексивное множество агентов (8). В экспериментах исследуются обе модификации алгоритма.
После остановки на шаге 4 не всегда образуется связная сеть. Но после запуска одной итерации динамики наилучших ответов связная сеть формируется всегда. В процессе выполнения шагов 2 и 3 могут образовываться односторонние связи, для преобразования которых в двусторонние необходим шаг 5. На рис. 3б показана сеть, сформированная алгоритмом 2.
4.3. ДИНАМИКА С ПЕРЕМЕННЫМ РАНГОМ РЕФЛЕКСИИ
Преимущество двойного наилучшего ответа в том, что узел учитывает действия своих соседей. Например, если для изменения невыгодного равновесия требуется разорвать сеть, узел рассчитывает, что сеть будет восстановлена другими узлами. Здесь предлагается алгоритм, который комбинирует гибкость двойного наилучшего ответа и надежность обычного.
Если узел может улучшить свою полезность, применив простой наилучший ответ, то другое правило уже не используется. Если простой наилучший ответ не позволяет улучшить полезность, применяется двойной наилучший ответ. У каждого узла есть счетчик с*, который показывает, сколько еще раз узел может использовать двойной наилучший ответ. После каждого раза счетчик уменьшается на 1. Если счетчик равен 0, узел может использовать только простой наилучший ответ.
Алгоритм 3 (С переменным рангом рефлексии).
1. (Инициализация). Каждый узел устанавливает начальную мощность своего передатчика р* = р° и счетчик с* = с0.
Формируется граф д° = д(р°).
2. (Адаптация). Узел г, вычисляет свой наилучший ответ (6), рЬг = ЕЩр-).
Если Пг (рЬг ,Р-г) > Пг(рг,р-г) и С* > 0, то р*+1 = рЬг.
Иначе р*+1 = ЕЛ2(р-г) и Сг = с* - 1.
3. (Обновление сети). После изменения мощности формируется новый граф д*+1 = д(р*+1,р-г).
4. (Остановка). Шаги 2 и 3 повторяются до тех пор, пока хотя бы один узел продолжает изменять свою мощность.
Этот алгоритм всегда сходится к связной сети за конечное число итераций. В следующем разделе с помощью численных экспериментов исследуется, как зависит эффективность алгоритма от начального значения счетчика с°.
5. Результаты моделирования
Для проведения экспериментов использовалась среда численного моделирования МАТЬАБ. Узлы случайным образом, следуя равномерному распределению, размещались в квадрате 100 на 100 «условных метров». Плотность расположения составляла 10, 20, 30, 40 и 50 узлов на квадрат. Для каждого значения плотности было сгенерировано 100 вариантов расположения. Максимальная мощность узлов ртах была выбрана таким образом, чтобы радиус действия составлял половину стороны квадрата.
На рис. 4 показано, как изменяется суммарная мощность узлов в сетях, получаемых разными алгоритмами, в зависимости от плотности размещения узлов. Сравнение проводилось с алгоритмом 1, использующим обычный наилучший ответ (ЕЯ на графиках), и с централизованным алгоритмом, строящим минимальное остовное дерево (ЫБТ на графиках). В работе [6] экспериментально было показано, что минимальное остовное дерево аппроксимирует оптимальное решение с точностью 14-16%.
4и &и ' 10 20 30 40 50
пос|е5 #пос1е5
а) б)
Рис. 4. Сравнение эффективности алгоритмов. По оси х - число узлов в сети. По оси у - суммарная мощность узлов для сетей, полученных алгоритмами а) с постоянным рангом рефлексии; б) с переменным рангом рефлексии
Отметим, что ни один теоретико-игровой алгоритм не пре-
а) б)
Рис. 5. Сравнение быстродействия алгоритмов. По оси х -число узлов в сети. По оси у - среднее время сходимости а) с постоянным рангом рефлексии; б) с переменным рангом
рефлексии
взошел централизованный алгоритм минимального остовного дерева. Это объяснимо, поскольку функции полезности (4) учитывают только локальную информацию, в то время как алгоритм MST располагает глобальной информацией о сети.
На рис. 4а сравниваются две модификации алгоритма 2. С использованием двойного наилучшего ответа (7) (ОБЕ на графиках) и ограниченного двойного наилучшего ответа (8), где рефлексивные множества ограничивались максимальным радиусом действия узла (9) (ЬосаЮБЕ на графиках). Графики ОБЕ и ЬосаЮБЕ показывают, что ограничение рефлексивных множеств узлов снижает эффективность алгоритма. Одновременно возрастает время сходимости, как показано на рис. 5а. Можно заключить, что повышение рефлексивных способностей агента увеличивает эффективность решения и снижает время, требующееся для формирования сети.
Для алгоритма 3 с переменным рангом рефлексии показаны результаты для значений лимита на использование рефлексии от 1 до 3 (на графиках Уат1, Уат2, Уат3). По мере увеличения лимита эффективность алгоритма возрастает, но разница между значениями 2 и 3. Для больших значений эксперименты также проводились, но рост эффективности алгоритма прекратился, по-
этому эти результаты не показаны на графиках.
Графики на рис. 4б показывают, что при значении лимита больше 1 алгоритм с переменным рангом превосходит по эффективности алгоритм с постоянным двойным наилучшим ответом для сетей с высокой плотностью узлов (40 и 50 на графиках). Время сходимости показано на рис. 5б. Повышение лимита на использование двойного наилучшего ответа увеличивает время сходимости в среднем на 2 итерации.
Эксперименты показали, что замена наилучшего ответа на правило двойного наилучшего ответа повышает эффективность алгоритмов и позволяет получать сети с меньшей суммарной мощностью. Но также увеличивается время сходимости алгоритмов. Обычный наилучший ответ для сети любого размера сходится за одну итерацию. Например, на рис. 5а показано, что двойной наилучший ответ для сети из 30 узлов сходится в среднем за 5,5 итераций. При этом решение в среднем улучшается на 30%.
Максимальный рост эффективности двойной наилучший ответ показывает для сетей средней плотности 20 и 30 узлов на область. Для этих сетей число возможных равновесий уже достаточно велико, и добиться такой же эффективности просто запуском нескольких итераций обычного наилучшего ответа невозможно.
Алгоритм 3 с переменным рангом рефлексии превосходит алгоритм 2, в котором узлы используют только двойной наилучший ответ. При этом для существенного повышения эффективности достаточно, чтобы каждый узел мог более 1 раза применить двойной наилучший ответ.
6. Заключение
В работе исследовались алгоритмы коллективного поведения, основанные на правиле двойного наилучшего ответа, которое моделирует поведение агентов 1-го ранга рефлексии. Подобные алгоритмы находят свое применение в децентрализованном управлении многоагентными техническими и социальноэкономическими системами.
234
Изучалось применение динамики двойного наилучшего ответа к задаче формирования топологии беспроводной сети. Также исследовались методы ограничения вычислительной сложности рефлексии. Введено понятие рефлексивного множества агентов, для которых данный агент может вычислить наилучший ответ.
Предложено два алгоритма формирования сети, в первом узлы используют только двойной наилучший ответ, в другом динамически изменяют ранг рефлексии, переключаясь между обычным наилучшим ответом и двойным. Эффективность алгоритмов исследовалась в численных экспериментах. Все алгоритмы, использующие двойной наилучший ответ, формируют более эффективные сети, чем алгоритм с обычным наилучшим ответом.
Алгоритм, в котором рефлексивное множество узлов ограничивалось радиусом действия передатчика, уступает алгоритму, в котором рефлексивные возможности узлов не ограничивались, по эффективности и скорости сходимости. Алгоритм с переменным рангом рефлексии показал немного лучший результат, чем алгоритм с постоянным ограниченным двойным наилучшим ответом.
Можно заключить, что использование двойного наилучшего ответа повышает эффективность алгоритмов коллективного поведения. В дальнейшем динамика двойного наилучшего ответа будет исследована аналитически. В идеале необходимо строго доказать сходимость и эффективность по сравнению с динамикой обычного наилучшего ответа. А также сформулировать те особенности игры формирования топологии, с которыми связаны данные свойства динамики двойного наилучшего ответа. Также представляет интерес исследование игр формирования сетей с другими функциями полезности агентов или другими механизмами формирования сети.
Литература
1. БАЗЕНКОВ Н.И. Рефлексия в задаче управления топологией беспроводной сети // Труды 55-й научной конференции МФТИ. Радиотехника и кибернетика.- М.: МФТИ, 2012. - Том 1. - С. 46-48.
2. ГУБКО М.В. Управление организационными системами с сетевым взаимодействием агентов. Часть I: Обзор теории сетевых игр // Автоматика и телемеханика. — 2004. -№8.-С. 115-132.
3. КОРЕПАНОВ В.О. Модели рефлексивного группового поведения и управления. - М.: ИПУ РАН, 2011. — 127 с.
4. КОРЕПАНОВ В.О., НОВИКОВ Д.А. Задача о диффузной бомбе // Проблемы управления. — 2011. - Том 5. -
С. 66-73.
5. НОВИКОВ Д.А., ЧХАРТИШВИЛИ А.Г. Рефлексивные игры. - М.: СИНТЕГ, 2003. - 149 с.
6. ALTHAUS E., CALINESCU G., MANDOIU I.I., PRASAD S., TCHERVENSKI N., ZELIKOVSKY A. Power Efficient Range Assignment in Ad hoc Wireless Network // IEEE Wireless Communications and Networking Conference (WCNC 2003), New Orleans, LA, USA, March 2003. - Vol. 3. - P. 1889-1894.
7. AZIS A.A., EKERCIOGLU Y.A., SINGH J.P., VENKATASUBRAMANIAN N. A Survey on Distributed Topology Control Techniques for Extending the Lifetime of Battery Powered Wireless Sensor Networks // IEEE Communications Surveys and Tutorials. - Vol. 15, No. 1. -P. 121-144.
8. CALINESCU G., QIAO K. Asymmetric topology control: exact solutions and fast approximations // IEEE INFOCOM Proceedings, March 2012, Orlando, Florida, USA. — P. 783791.
9. CLEMENTI A.E.F., PENNA P., SILVESTRI R. On the Power Assignment Problem in Radio Networks // Electronic Colloquium on Computational Complexity (ECCC). - 2000. - URL: http://eccc.hpi-web.de/eccc-reports/2000/ TR00-054/index.html.
10. DO N.M., HSU C.-H., SINGH J.P.,
VENKATASUBRAMANIAN N. Massive live video distribution using hybrid cellular and ad hoc networks //
IEEE International Symposium on World of Wireless, Mobile and Multimedia Networks (WoWMoM), June 2011, Lucca, Italy. - P. 1-9.
11. EIDENBENZ S., KUMAR A., ZUST S. Equilibria in Topology Control Games for Ad Hoc Networks and Generalizations // Mobile Network and Applications. - 2006. -Vol. 11, No. 2.-P. 143-159.
12. IEEE Std. 802.11 Part 11: Wireless LAN
Medium Access Control (MAC) and Physical Layer (PHY) Specifications. - 2012. - URL:
http://standards.ieee.org/getieee802/download/802.11-2012.pdf (по состоянию на 05.04.2013).
13. IEEE Std. 802.15.4 Part 15.4: Low-Rate Wireless
Personal Area Networks (LR-WPAN). - 2011. - URL: http://standards.ieee.org/getieee802/download/ 802.15.4-2011.pdf (по состоянию на 05.04.2013).
14. JACKSON M.O. A Survey of Models of Network Formation: Stability and Efficiency // In: Group Formation in Economics: Networks, Clubs and Coalitions, edited by Gabrielle Demange and Myrna Wooders. -- Cambridge University Press: Cambridge, UK, 2005.
15. KOMALI R.S., MACKENZIE A.B., GILLES R.P. Effect of Selfish Node Behavior on Efficient Topology Design // IEEE Transactions on Mobile Computing. - 2008. - Vol. 7, No. 9. -P. 1057-1070.
16. LI N., HOU J.C., SHA L. Design and Analysis of an MST-Based Topology Control Algorithm // Twenty-Second Annual Joint Conference of the IEEE Computer and Communications (INFOCOM 2003), San Francisco, CA, USA. — 2003. -Vol. 3. — P. 1702-1712.
17. LI L., HALPERN J.Y., BAHL P., YI-MIN W., WATTENHOFER R. A cone-based distributed topology-control algorithm for wireless multi-hop networks // IEEE/ACM Transactions on Networking, February, 2005. — Vol. 13, No. 1. -- P. 147-159.
18. LONG C., ZHANG Q., LI B., YANG H., GUAN X NonCooperative Power Control for Wireless Ad Hoc Networks with Repeated Games // IEEE Journal on Selected Areas in Communications. -- 2007. — Vol. 25, No. 6. — P. 1101-1112.
19. MONDERER D., SHAPLEY L.S. Potential Games // Games and Economic Behavior. - 1996. - Vol. 14. - P. 124-143.
20. NISAN N., ROUGHGARDEN T., TARDOS E., VAZIRANI V.V. Algorithmic Game Theory. — Cambridge University Press, New York, NY, USA, 2007. -- 776 p.
21. SANTI P. Topology Control in Wireless Ad Hoc and Sensor Networks // Journal ACM Computing Surveys (CSUR). -Vol. 37, No. 2. - P. 164-194.
22. SHI H.-Y., WANG W.-L., KWOK N.-M., CHEN S.-Y. Game Theory for Wireless Sensor Networks: A Survey // Sensors. -2012. - Vol. 12, No. 7. - P. 9055-9097.
23. TOH C.K.-K. Ad Hoc Wireless Networks: Protocols and Systems (1st ed.). - Prentice Hall PTR: Upper Saddle River, NJ, USA, 2002.
24. REN H., MENG M.Q.-H. Game-Theoretic Modeling of Joint Topology Control and Power Scheduling for Wireless Heterogeneous Sensor Networks // IEEE Transactions on Automation Science and Engineering. - 2009. - Vol. 6, No. 4. -P. 610-625.
25. WATTENHOFER R., ZOLLINGER A. XTC: A Practical Topology Control Algorithm for Ad-Hoc Networks // 18th International Parallel and Distributed Processing Symposium, Santa Fe, NM, USA, 2004.
26. ZARIFZADEH S., YAZDANI N., NAYYERI A. Energy-efficient topology control in wireless ad hoc networks with selfish nodes // Computer Networks. - 2012. - Vol. 56. -P. 902-914.
DOUBLE BEST RESPONSE DYNAMICS IN TOPOLOGY FORMATION GAME FOR AD HOC NETWORKS
Nikolay Bazenkov, Institute of Control Sciences of RAS, Moscow, (n.bazenkov@gmail.com).
Abstract: We consider a topology formation problem for wireless ad hoc networks. There are wireless nodes located on a plane. Every node can dynamically adjust its transmission power. The global objective is to assign optimal transmission power to every node such that the resulting topology is connected and minimizes total power cost. The topology formation problem is studied as a noncooperative game. We propose two algorithms of collective behavior based on the, so-called, "double best response" decision rule . This decision rule originates from a reflexive game framework and describes behavior of an agent with the first rank of reflection. Efficiency of proposed algorithms is evaluated by simulations and is compared with a conventional best response algorithm.
Keywords: network formation game, ad hoc networks, reflection, double best response.
Статья представлена к публикации членом редакционной коллегии М. В. Губко Поступила в редакцию 15.04.2013. Опубликована 31.05.2013.