Научная статья на тему 'Кооперативная игра передачи данных в беспроводной сети'

Кооперативная игра передачи данных в беспроводной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
463
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КООПЕРАТИВНАЯ СТОХАСТИЧЕСКАЯ ИГРА / МАРКОВСКАЯ ИГРА / ПОЗИЦИОННАЯ СОСТОЯТЕЛЬНОСТЬ / КООПЕРАТИВНАЯ ПРОЦЕДУРА РАСПРЕДЕЛЕНИЯ ДЕЛЕЖА / COOPERATIVE STOCHASTIC GAME / MARKOV GAME / SUBGAME CONSISTENCY / COOPERATIVE PAYOFF DISTRIBUTION PROCEDURE
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Кооперативная игра передачи данных в беспроводной сети»

УДК 519.83 ББК 22.18

КООПЕРАТИВНАЯ ИГРА ПЕРЕДАЧИ ДАННЫХ В БЕСПРОВОДНОЙ СЕТИ1

Парилина Е.М.2

(Санкт-Петербургский государственный университет, Санкт-Петербург)

В работе рассмотрена задача передачи данных в простой беспроводной сети. Процесс передачи данных моделируется с помощью стохастической (марковской) игры. В работе предлагается система штрафов и вознаграждений пользователям сети для регулирования процесса передачи данных. Рассмотрен кооперативный вариант игры, в качестве кооперативного решения которой предлагается вектор Шепли. Получено условие позиционной состоятельности найденного вектора Шепли и представлен метод построения кооперативной процедуры распределения дележа, позволяющей перераспределять выплаты игрокам (пользователям сети) на каждом промежутке времени, преодолевая естественную несостоятельность вектора Шепли. Приведен численный пример, на котором демонстрируются все полученные теоретические результаты.

Ключевые слова: кооперативная стохастическая игра, марковская игра, позиционная состоятельность, кооперативная процедура распределения дележа.

Введение

В статье рассматривается кооперативная стохастическая игра (кооперативная марковская игра), и полученные теоретические

1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. - 2009. - Т. 1. № 4. - С. 93-110».

2 Парилина Елена Михайловна, кандидат физико-математических наук, старший преподаватель ([email protected]).

результаты применяются для моделирования процесса передачи данных в одной простой беспроводной сети. Предполагается, что беспроводная сеть передачи данных состоит из трех точек доступа (вершин).

В каждый промежуток времени в двух вершинах сети генерируются пакеты данных с некоторыми вероятностями. Время предполагается дискретным. В третьей вершине пакеты данных не генерируется. Работа сети состоит в передаче пакетов данных из первых двух вершин в третью. Первые две вершины имеют однонаправленное беспроводное соединение между собой, то есть первая вершина (игрок 1) в один промежуток времени может послать пакет данных либо в вершину 2 (игроку 2), либо напрямую в вершину 3. Предполагается, что за пересылку пакета данных из вершины 1 в вершину 2 игрок 1 получает неотрицательное вознаграждение. Система вознаграждений и издержек позволяет поддерживать кооперацию между игроками 1 и 2. Задача состоит в нахождении оптимального кооперативного поведения, позволяющего достичь максимума математического ожидания суммарного выигрыша игроков 1 и 2. Такое поведение игроков моделируется с помощью кооперативной марковской игры.

В работах [5, 6, 7, 11, 12] рассматриваются теоретикоигровые модели передачи данных в ad-hoc и multi-hop беспроводных сетях, причем, делается акцент на развитие механизмов кооперации для стимулирования переадресации данных. В статье [9] исследуется простая структура сети, и выигрышами игроков являются средние ожидаемые выигрыши игроков за один временной промежуток. В настоящей статье за выигрыши игроков принимаются математические ожидания выигрышей игроков во всей марковской игре. Теоретические результаты, на которые опирается повествование статьи, можно найти в [4, 8, 10]. В работе вычисляется максимальный суммарный выигрыш игроков и значения характеристической функции. В качестве дележа максимального суммарного выигрыша игроков может быть рассчитан любой дележ, известный в кооперативной теории игр. В настоящей работе используется вектор Шепли.

Кооперативная марковская игра — динамическая игра. В любой динамической игре условие сохранения кооперации имеет важное значение. Перераспределение выплат игроков в каждый промежуток времени в соответствии с кооперативной процедурой распределения дележа, предложенной Л.А. Петросяном в 1979 (см. [1, 3]), позволяет игрокам в каждый момент времени ожидать в оставшейся части игры получение дележа, который будет принадлежать тому же принципу оптимальности, который был выбран игроками в начале игры. Если дополнительно потребовать неотрицательности всех элементов кооперативной процедуры распределения дележа, то будет выполняться условие позиционной состоятельности этого дележа. В настоящее время множество работ [2, 13] посвящено исследованию позиционной состоятельности или динамической устойчивости принципов оптимальности в кооперативных динамических играх.

1. Постановка задачи

Вершина 1 (Игрок 1) Вершина 3

Вершина 2 (Игрок 2)

Рис. 1. Простая беспроводная сеть

Рассмотрим систему, в которой приемники (вершины 1 и 2) независимо генерируют пакеты данных на каждом промежутке времени с вероятностями й1 и й2 соответственно. Пакет данных может появиться в вершине 1 (2) с вероятностью й1 (02) только, если в конце предыдущего временного промежутка очередь в

вершине 1 (2) пуста. Сделаем некоторые предположения:

1) вершины 1 и 2 (игроки 1 и 2 соответственно) стремятся послать пакеты данных, скопившихся у них, в конечный пункт назначения - вершину 3;

2) максимальная емкость буфера каждой вершины равна единице. Вершина 3 не может принять одновременно два пакета данных в один промежуток времени. В данной постановке исключается многопакетная передача данных, а также исключается одновременное отправление и принятие пакетов никакой из вершин в любой промежуток времени;

3) если игроки одновременно пересылают пакеты в вершину 3, то эти пакеты отклоняются и возвращаются в начальные вершины, таким образом, в следующий промежуток времени ни один новый пакет не может появиться в вершинах 1 и 2;

4) все пересылаемые пакеты данных имеют одинаковый размер, равный единице, и, если вершины имеют прямое соединение друг с другом, то доставка одного пакета данных из одной вершины в другую занимает один промежуток времени;

5) игрок 1 (вершина 1) выбирает одну из двух стратегий: переслать пакет данных напрямую в вершину 3 или переслать этот пакет в вершину 2, чтобы тот послал этот пакет в вершину 3 в следующий промежуток времени;

6) если игрок 1 (вершина 1) пересылает пакет данных игроку

2, который уже имеет в данный промежуток времени пакет в своей очереди, игрок 2 отклоняет переданный ему пакет. В противном случае игрок 2 решает принять или отклонить пакет, переданный ему игроком 1.

Предположим, что в вышеописанной системе передачи данных введена следующая схема поощрений и наказаний:

1) величина / ^ 0 — это премия, которую получает игрок

1 или 2 за каждую успешную передачу одного пакета данных в вершину 3;

2) игрок 1 получает премию в размере с ^ 0 от игрока 2 за передачу одного пакета данных игроку 2, который, в свою очередь, может рассчитывать на премию размером / только после

успешной передачи этого пакета в конечный пункт (вершину 3) в следующий промежуток времени;

3) задержка пакета данных в вершине 1 или 2 на один промежуток времени приносит игроку, находящемуся в этой вершине, издержки в размере й ^ 0, независимо от того, по какой причине произошла задержка;

4) величина — это издержки по пересылке одного пакета данных из вершины г в вершину ], которые несет игрок г.

Процесс передачи данных может остановится в любой промежуток времени с вероятностью 0 < д < 1. Вероятность д, по сути, является дисконт-фактором. Модель передачи данных в беспроводных сетях может быть представлена марковской игрой. Игроки, находящиеся в вершинах 1 и 2, стремятся максимизировать ожидаемый суммарный выигрыш с последующим разделом этого выигрыша с помощью вектора Шепли.

Обозначим через ^1^2) состояние в беспроводной сети, где Qi — это число пакетов данных, находящееся в очереди игрока г = 1, 2. Число Qi может принимать значения 0 или 1, если ни одного или один пакет данных находится в данный промежуток времени в очереди игрока г соответственно.

В марковской игре передачи данных в беспроводных сетях возможно 4 состояния:

Т = {(0,0); (0,1); (1,0);(1,1)}.

Предположим, что игроки имеют информацию о состоянии не только своей очереди, но и очереди другого игрока. Это предположение разумно, поскольку мы пытаемся найти кооперативное решение, которое подразумевает совместные действия, включая обмен информацией о состоянии очередей обоих игроков.

Определим, исходя из условия задачи игровые элементы во всех состояниях системы.

1) Игровой элемент Г(0, 0).

У игрока 1 имеется одна стратегия Ш (ожидать), у игрока 2

— одна стратегия Ш (ожидать). Выигрыши игроков будут (0, 0).

2) Игровой элемент Г(0,1).

У игрока 1 имеется одна стратегия Ш (ожидать), у игрока 2

— одна стратегия —^ (послать пакет в вершину 3). Выигрыши игроков будут следующими: (0, / — В23).

3) Игровой элемент Г(1, 0).

Игрок 1 имеет две стратегии: 1) —^ (послать пакет в вершину 3), 2) —^ (послать пакет в вершину 2); игрок 2 имеет две стратегии: 1) Ас (принять пакет от игрока 1), 2) Ле^’ (не принять пакет от игрока 1). Выигрыши игроков будут следующими:

( (/ - В13, 0) (/ - В13, 0) \

\(с - В12, -с) (-й - В12, 0)у .

4) Игровой элемент Г(1,1).

Игрок 1 имеет две стратегии: 1) -^ (послать пакет в вер-

3

шину 3), 2) Ш (ожидать); игрок 2 имеет две стратегии: 1) —► (послать пакет в вершину 3), 2) Ш (ожидать). Выигрыши игроков будут следующими:

((-й - В^ -й - В23) (/ - Blз, -й)\

V (-й,/ - В23) (-й, -й) )'

Без потери общности прибавим число

г = тах{й + В13, й + В23, й + В12, -с + В12, с}

ко всем выигрышам игроков во всех игровых элементах, чтобы сделать все выигрыши неотрицательными.

2. Матрица переходных вероятностей

Будем решать описанную выше марковскую игру в классе стационарных стратегий [4]. В работе ограничимся рассмотрением множества чистых стационарных стратегий, но сначала для удобства определим матрицу вероятностей перехода марковской игры передачи данных в смешанных стратегиях для того, чтобы не выписывать 16 различных матриц вероятностей перехода для каждой ситуации в чистых стационарных стратегиях. Далее 196

при подстановке в эту матрицу определенных значений стратегий можно получить матрицу вероятностей перехода для любой ситуации в чистых стационарных стратегиях.

Обозначим через X множество смешанных стационарных стратегий игрока г, г = 1, 2.

В соответствии со структурой марковской игры передачи данных в беспроводной сети смешанная стационарная стратегия игрока 1 во всей марковской игре предписывает ему выбрать стратегию Ш с вероятностью 1 в состояниях (0, 0), (0,1), стратегию -^ с вероятностью Р11 в состоянии (1, 0), и стратегию -^ с вероятностью Р12 в состоянии (1,1). Смешанная стационарная стратегия игрока 2 во всей марковской игре предписывает ему выбрать стратегию Ш с вероятностью 1 в состояниях (0, 0), стратегию —► в состоянии (0,1), стратегию Ас с вероятностью Р21 в состоянии (1, 0), и стратегию -^ с вероятностью Р22 в состоянии (1,1).

Обозначим через щ = (ра,^2) смешанную стационарную стратегию игрока г и множество смешанных стационарных стратегий игрока г через Щ, г = 1, 2. Получаем ситуацию в смешанных стационарных стратегиях и = (и1,и2) = (р11,р12,р21,р22). Матрица переходных вероятностей в ситуации щ в смешанных стационарных стратегиях будет следующей:

(«11 «12 «13 «14^

п( ) = а21 а22 а23 а24

«31 «32 «33 «34 ,

\«41 «42 «43 «44/

где

«11 = (1 - 01 )(1 - 02), «12 = (1 - 01)02, «13 = 01(1 - 02),

«14 = 0102,

«21 = (1 - 01 )(1 - 02), «22 = (1 - 01)02, «23 = 01(1 - 02),

«24 = 01 02,

«31 = Р11(1-01)(1-02), «32 = Р11(1-01)02 + (1-Рп)Р21(1-01 ),

033 = Р1101(1 - 02) + (1 - Р11)(1 - Р21)(1 - 02),

«34 = Р110102 + (1 - Р11)Р2101 + (1 - Р11)(1 - Р21)02,

«41 = 0, «42 = Р12(1 - Р22)(1 - 01), «43 = (1 - Р12)Р22(1 - 02), «44 = Р12Р22 + (1 - Р12)(1 - Р22) + Р12 (1 - Р22)01 + (1 - Р12 >2202.

Если в описанной выше марковской игре реализуется ситуация в стационарных стратегиях и, выигрыши игрока 1 в соответствующих состояниях будут следующими:

К (и) = (Пц, ^12, ^13, ^14),

где П11 = П12 = г, П13 = Р11 (г + / - В13) + (1 - Р11)Р21 (г + с - В12) + (1 - рц)(1 - Р21)(г - й - В12), П14 = Р12Р22(г - й -В13) + Р12(1 - Р22)(г + / - В13) + (1 - Р12)(г - й).

У игрока 2 будут следующими:

К(и) = (П21, П22, П23, П24),

где П21 = г, ^22 = г + / - В23, П23 = (1 - Р11)Р21 (г - с), ^24 = Р12Р22(г - й - В23) + (1 - Р12)Р22(г + / - В23) + (1 - Р22)(г - й).

3. Кооперативная стохастическая игра передачи данных в беспроводной сети

Кооперативную игру передачи данных в беспроводной сети будем рассматривать в классе чистых стационарных стратегий. Обозначим через ^ множество чистых стационарных стратегий игрока г, г = 1, 2. Например, чистая стационарная стратегия П1 = (1, 0) игрока 1 предписывает ему выбирать стратегию -^ в состоянии (1, 0) и стратегию Ш в состоянии (1,1). Каждый игрок имеет 4 чистых стационарных стратегии, т. е. получается 16 ситуаций в чистых стационарных стратегиях. Для ситуации в чистых стационарных стратегиях п = (П1,П2) можно записать в упрощенном виде матрицу переходных вероятностей П(п).

Например, для ситуации п1 = (1,1,1,1) матрица переходных вероятностей будет иметь вид:

п(п1) =

Ді - аі)(1 - 02) (1 - аі)а2 аі(1 - а2) аіа2\

(1 - аі)(1 - 0,2) (1 - йі)й2 &і(1 - 02 ) Й1Й2

(1 - 0і)(1 - 02) (1 - 0і)02 0і(1 - 02) 0і02

V о о о 1 у

Для каждой ситуации в чистых стационарных стратегиях п Є Е =

2

Л Е можно посчитать математическое ожидание выигрышей иг-

i=1

роков для подыгры, начинающейся с определенного состояния:

Ei(n) = (E(0,0)(n), Е(0,1)(п), Е(1,0)(п), Е(1,1)(п)),

где Et(n) — математическое ожидание выигрыша игрока i в подыгре марковской игры, начинающаяся из состояния t Є T.

Математическое ожидание выигрышей игрока i для подыгр можно рассчитать по следующей формуле:

Е(П) = (Е - (1 - 9)П(п))-1Кг(п),

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Ki(n), П(п) определены выше.

Математическое ожидание выигрыша игрока i во всей марковской игре, включая ход «случая» (т. е. выбор начального состояния), может быть рассчитано по формуле:

E(n) = nEi(n),

где п = (п(0,0),П(0,1),П(1,0),П(1,1)) — вектор начальных вероятностей, и nt — вероятность того, что первое состояние в марковской игре будет t Є T.

Для решения кооперативного варианта описанной выше марковской игры необходимо найти кооперативное решение п = (П1,П2), т. е. ситуацию в чистых стационарных стратегиях такую, что

V Ei(n) = mal V Ei(n).

i— яЄй i'

гЄ{1,2> ¿€{1,2}

Значение характеристических функций для подыгр

V(S) = (V(0’0)(S),V(0’1)(S), V(1’0)(S),V(1>1)(S))

можно рассчитать по формуле

(1) Vt(S) = max min V E(ns, Пм\s).

ns nN\S ^S

Значение характеристической функции для всей марковской игры для коалиций S = 0 определяется формулой

(2) V (S) = nV (S). _

Для S = 0 значение характеристической функции V(S) = 0.

Определение 1. Кооперативной марковской игрой передачи данных в беспроводной сети называется пара ({1,2}, V(S)), где

V(0) = 0, V({1,2}) = Y, Щп), для S = 0 и S = {l, 2}

¿€{1,2}

значение функции V(S) определяется формулой (2).

В качестве дележа максимального суммарного математического ожидания выигрыша игроков рассмотрим вектор Шепли. Обозначим через Sh = (Sh1, Sh2), где

Shi = (Sh(0,0),Sh(0,1),Sh(1,0),Sh(1,1))

вектор Шепли, рассчитанный для подыгр, и через Sh = (Sh1, Sh2) вектор Шепли, рассчитанный для всей марковской игры, т. е. Shi = nShi.

4. Кооперативная процедура распределения дележа

Игроки перед началом игры договариваются о кооперации и ожидают получить совместный выигрыш V({1, 2}) и соответствующие компоненты Sh1 и Sh2 вектора Шепли.

Было бы естественно, если выплаты игрокам в игровых элементах, соответствующих состояниям марковской игры, были бы равны выигрышам игроков в одновременных играх, реализуемых при кооперативном решении п, что эквивалентно условию:

(3) Shi = Ki(n) + (1 - q)n(n)Shi,

где Ki(n) — выигрыш игрока i в одновременной игре при условии, что реализуется кооперативное решение п, слагаемое (1 — q)n(n)Shi — математическое ожидание i-ой компоненты вектора Шепли при условии, что игра передачи данных не закончится.

Определение 2. Назовем вектор Шепли Sh = (Sh1,Sh2), где Shi = nShi естественно состоятельным, если Shi удовлетворяет условию (3) для всех i = 1,2.

200

К сожалению, реализуя выплаты игрокам в соответствии с их выигрышами в одновременных играх, невозможно достичь того, чтобы оставшиеся выплаты были бы равны соответствующим компонентам вектора Шепли, рассчитанного для подыгры. Нарушение естественной состоятельности может изменить планы игроков и разрушить их кооперацию. Предлагается перераспределять выигрыши игроков на каждом промежутке времени, чтобы преодолеть естественную несостоятельность вектора Шепли.

Перераспределенные выплаты игрокам въ где в =

i€N

Ki(n), можно найти по формуле

i€N

(4) Shi = в + (1 — q)n(n)Shi

или

(5) в = (#,..., в*) = (E — (1 — q)n(n))Shi. Определение 3. Назовем вектор в * = (в*, ...,вП), t е T,

кооперативной процедурой распределения дележа в состоянии t, где в* — выплата игроку i в одновременной игре r(t) в состоянии t, определяемая формулой (5).

Обозначим математическое ожидание суммы выплат игроку i в кооперативной марковской игре через Bi = nBi, где Bi = {B*}*€T и B* — математическое ожидание суммы выплат игроку i в кооперативной стохастической подыгре, начинающейся из состояния t.

Лемма 1. Имеет место равенство Bi = Shi для всех i е N. Лемма 1 показывает, что перераспределение выплат игроков не влияет на их ожидаемый последующий выигрыш.

5. Позиционная состоятельность вектора Шепли

Можно потребовать, чтобы выплаты i-му игроку в* были неотрицательными для любого состояния t е T и любого игрока

i е N, что эквивалентно тому, чтобы система уравнений относительно в = (в^, в(°Д), в^, в(М))

Shi = (E — (1 — q)n(n(-)))-1 в

имела бы неотрицательное решение.

Определение 4. Вектор Шепли 5Л, = (5^1,..., £Л,га), =

п£Л^ назовем позиционно состоятельным [4, 8] в марковской игре, если для каждого игрового элемента Г(£), £ е Т и для всех игроков г е N существует неотрицательная кооперативная процедура распределения дележа в = (в(0,0), в(0,1), в(1,0), в(1,1)), удовлетворяющая уравнению (5).

В общем случае невозможно гарантировать неотрицательность элементов вектора в = (в(°’0), в(0,1), в(1,0), в(1,1)). Несмотря на это, перераспределяя выигрыши игроков в каждом игровом элементе, который реализуется при кооперативном решении п, в соответствии с кооперативной процедурой распределения дележа &, г е N, можно добиться сохранения кооперации во всей марковской игре.

В некоторых случаях игроки могут считать условие неотрицательности выплат важным, особенно если их выигрыши в одновременных играх были неотрицательными. Но, возможно, игроки пойдут на то, чтобы на каких-то промежутках времени получать отрицательные выплаты в соответствии с кооперативной процедурой распределения дележа, желая при этом сохранить кооперацию.

6. Пример

Рассмотрим численный пример кооперативной игры передачи данных в беспроводной сети, поскольку в общем виде представить матрицу (Е - (1 - д)П(п))-1 в статье не имеется возможности. Пусть параметры игры принимают следующие значения:

01 = 0,5, 02 = 0,1, п = (0,25, 0,25, 0,25, 0,25)

9 = 0,01, / = 1, й = 0,1, с = 0,3,

В12 = 0,1, В13 = 0,6, В23 = 0,2.

В следующей таблице приведены рассчитанные значения математических ожиданий для каждой ситуации в чистых стационарных стратегиях п.

202

п Е1(п) Е2 (п) #1(п) + Е2(п)

п1 = (1,1,1,1) 14.75966387 14.75966387 15,15966387 0 45.70756302 46,50756302 45.70756302 40, 60,46722689 61,26722689 60,86722689 40,

п2 = (1,1,1, 0) 89.80000000 89.80000000 90.20000000 90.20000000 76.24887286 77,04887286 76.24887286 76,71127141 166,0488729 166,8488729 166,4488729 166,9112714

п3 = (1,0,1,1) 88.22724883 88.22724883 88,62724883 88,30952131 77.92000000 78.72000000 77.92000000 78.72000000 166,1472488 166,9472488 166,5472488 167,0295213

п4 = (1, 0, 1, 0) 64.67563026 64.67563026 65,07563026 60, 62.34621849 63,14621849 62.34621849 60, 127,0218488 127,8218488 127,4218488 120,

п5 = (1,1,0,1) 14.75966387 14.75966387 15,15966387 0, 45.70756302 46,50756302 45.70756302 40, 60,46722689 61,26722689 60,86722689 40,

п6 = (1, 1, 0, 0) 89.80000000 89.80000000 90.20000000 90.20000000 76.24887286 77,04887286 76.24887286 76,71127141 166,0488729 166,8488729 166,4488729 166,9112714

п7 = (1, 0, 0, 1) 88.22724883 88.22724883 88,62724883 88,30952131 77.92000000 78.72000000 77.92000000 78.72000000 166,1472488 166,9472488 166,5472488 167,0295213

п8 = (1, 0, 0, 0) 64.67563026 64.67563026 65,07563026 60, 62.34621849 63,14621849 62.34621849 60, 127,0218488 127,8218488 127,4218488 120,

п9 = (0,1,1,1) 3.870077599 3.870077599 2,815688411 0, 41,81391498 42,61391498 41,29388792 40, 45,68399258 46,48399258 44,10957633 40,

п10 = (0, 1, 1, 0) 85.30045000 85.30045000 85,58955000 85,78955000 82,15225000 82,95225000 82,29775000 82,49775000 167,4527000 168,2527000 167,8873000 168,2873000

п11 = (0, 0, 1, 1) 75.28276807 75.28276807 75,40659007 75,23559576 93,56491025 94,36491025 93,89870345 94,52135936 168,8476783 169,6476783 169,3052935 169,7569551

п12 = (0, 0, 1, 0) 60.82133034 60.82133034 60,70655852 60, 60,79766590 61,59766590 60,59084462 60, 121,6189962 122,4189962 121,2974031 120,

п13 = (0, 1, 0, 1) 5.432827686 5.432827686 4,587155964 0, 43,10048870 43,90048870 42,75229358 40, 48,53331639 49,33331639 47,33944954 40,

п14 = (0, 1, 0, 0) 62.35393639 62.35393639 62,07747575 63,29742280 75,10793102 75,90793102 75,07981035 75,59292249 137,4618674 138,2618674 137,1572861 138,8903453

п15 = (0, 0, 0, 1) 51.37623762 51.37623762 50,99000000 51,09000000 77,92000001 78,72000001 77,92000000 78,72000000 129,2962376 130,0962376 128,9100000 129,8100000

п16 = (0, 0, 0, 0) 59.38868199 59.38868199 59,08256880 60, 61,08577346 61,88577346 60,91743119 60, 120,4744554 121,2744554 120, 120,

В данном числовом примере кооперативным решением будет ситуация

Максимум математического ожидания суммарного выигрыша игроков в этой марковской игре будет следующим:

Значения характеристических функций для подыгр будут следующими:

V({1}) = (64,68; 64,68; 65,08; 60), V({2}) = (61,09; 61,89; 60,92; 60), V({1, 2}) = (168,85; 169,65; 169,31; 169,76),

Компоненты вектора Шепли, рассчитанного для подыгр марковской игры передачи данных, будут следующими:

5^1 = (86,22; 86,22; 86,73; 84,88), 5^2 = (82,63; 83,43; 82,57; 84,88).

Компоненты вектора Шепли, рассчитанного для всей марковской игры передачи данных, будут иметь значения

Кооперативные процедуры распределения дележа для игроков будут иметь следующие значения:

В соответствии с этими значениями игрокам необходимо перераспределять выигрыши следующим образом:

п11 = ((^, w, А W), № А Ас, -и)).

и для всей марковской игры:

V ({1}) = 63,61, V ({2}) = 60,97, V({1, 2}) = 169,39.

5^1 = 86,01, 5^2 = 83,38.

01 = (0,7; 0,7; 2,04; -0,8), 02 = (0,7; 1,5; -0,74; 2,9).

• в состоянии (1, 0):

2,04 игроку 1 вместо 0,9,

-0,74 игроку 2 вместо 0,4,

• в состоянии (1,1):

-0,8 игроку 1 вместо 0,6,

2,9 игроку 2 вместо 1,5.

В численном примере марковской игры передачи данных вектор Шепли = (86,01; 83,38) не является позиционно состоятельным, поскольку имеются отрицательные компоненты в векторе кооперативной процедуры распределения дележа.

7. Заключение

В работе рассмотрен случай чистых стационарных стратегий, поскольку стратегии работы в беспроводной сети должны быть простыми, особенно при большом потоке информации. Для того, чтобы добиться кооперации необходимо, чтобы удовлетворялись некоторые принципы. Одним из них является естественное желание игроков в течение всей игры придерживаться одного и того же принципа оптимальности. То есть, если в начале игры игроками было решено разделить их максимальный суммарный выигрыш в соответствии с вектором Шепли, то и на каждом последующем промежутке времени было бы естественно, если бы их оставшийся суммарный выигрыш тоже был бы разделен в соответствии с тем же принципом оптимальности. Дележ является естественно состоятельным, если ещё при этом на каждом промежутке времени игроки получают выплаты в соответствии со своими выигрышами в одновременных играх. Но это условие в реальных играх практически никогда не выполняется. Поэтому предлагается процедура перераспределения выплат на каждом промежутке времени таким образом, чтобы сумма этих выплат совпадала бы с суммарным выигрышем игроков на этом промежутке времени, и ожидаемый выигрыш любого игрока в оставшейся игре принадлежал бы тому же принципу оптимальности, что был выбран игроками в начале игры. Условие позиционной состоятельности

206

вектора Шепли накладывает дополнительно условие неотрицательности на выплаты игрокам на каждом промежутке времени.

Кооперативную процедуру распределения дележа можно считать универсальной, поскольку её можно построить в любой марковской игре, используя уравнения, полученные в работе, но гарантировать при этом позиционную состоятельность дележа в общем случае нельзя.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кооперативное решение, полученное в работе для игры передачи данных позволяет наладить работу беспроводной сети и получить от этой работы максимальный ожидаемый результат. К сожалению, при изменении структуры сети необходимо заново определять матрицу вероятностей перехода и выигрыши игроков в игровых элементах. Также имеются вычислительные трудности при нахождении обратной матрицы в уравнениях, определяющих математические ожидания выигрышей игроков.

Литература

1. ПЕТРОСЯН Л.А. Устойчивость решений в дифференциальных играх со многими участниками // Вестник Ленинградского университета. Сер. 1. -- 1977. -- Вып. 19. -- С. 46-52.

2. ПЕТРОСЯН Л.А., БАРАНОВА Е.М., ШЕВКОПЛЯС Е.В.

Многошаговые кооперативные игры со случайной продолжительностью // Оптимальное управление и дифференциальные игры, Сборник статей, Труды института математики и механики. - 2004. — Т. 10, № 2. -- С. 116-130.

3. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.А. Устойчивые решения неантагонистических дифференциальных игр с транзитивными выигрышами // Вестник ЛГУ. -- 1979. -- № 1. -С. 46-54 .

4. BARANOVA E.M., PETROSJAN L.A. Cooperative Stochastic Games in Stationary Strategies // Game theory and Applications. - 2006. -- Vol. XI. — P. 7-17.

5. BEN SALEM N., BUTTYAN L., HUBAUX J.-P., JAKOBSSON M. A charging and rewarding scheme

207

for packet forwarding in multi-hop cellular networks // Proc. ACM International Symposium on Mobile Ad Hoc Networking and Computing (MobiHoc). - 2003. - Annapolis, MD, USA.

6. BUTTYAN L., HUBAUX J.P. Stimulating cooperation in selforganizing mobile ad hoc network // ACM Journal for Mobile Networks (MONET). - 2003. -- Vol. 8, № 5. -- P. 579-592.

7. MICHIARDI P., MOLVA R. A game-theoretical approach to evalute cooperation enforcement mechanisms in mobile ad hoc networks // Proc. Wi0pt’03: Modeling and Optimization in Mobile, Ad Hoc and Wireless Networks. - 2003. -- Sophia-Antipolis, France.

8. PETROSJAN L.A. Cooperative Stochastic Games // Advances in Dynamic Games, Annals of the International Society of Dynamic Games, Application to Economics, Engineering and Environmental Management, ed. by A. Haurie, S. Muto, L. A. Petrosjan, T.E.S. Raghavan. - 2006. -- P. 139-146.

9. SAGDUYU Y.E., EPHREMIDES A. A game-theoretic look at simple relay channel // Wireless Networks. - 2006. -- Vol. 12, № 5. -- P. 545-560.

10. SHAPLEY L.S. Stochastic Games // Proceedings of National Academy of Sciences of the USA. - 1953. — Vol. 39. -- P. 1095-1100.

11. SRINIVASAN V., NOGGEHALLI P., CHIASSERINI C.F., RAO R.R. Cooperation in wireless ad hoc networks // Proc. IEEE INFOCOM. - 2003. San Francisco, CA, USA.

12. URPI A., BONUCCELLI M., GIORDANO S. Modelling cooperation in mobile ad hoc networks: a formal description of selfishness // Proc. WiOpt’03: Modeling and Optimization in Mobile, Ad Hoc and Wireless Networks. - 2003. Sophia-Antipolis, France.

13. YEUNG D.W.K., PETROSJAN L.A. Subgame consist cooperative solutions in stochastic differential games // J. optimiz. theory and appl. - 2004. -- Vol. 120, № 3. — P. 651-666.

COOPERATIVE DATA TRANSMISSION GAME IN WIRELESS NETWORK

Elena Parilina, Saint-Petersburg State University, Saint-Petersburg, Cand.Sc. ([email protected]).

Abstract: The paper considers the problem of data transmission in a simple wireless network. The process of data transmission is modelled with the help of a stochastic game. The paper proposes the system of rewards and costs to the network users to regulate the process of data transmission. The cooperative version of the game is considered. For this purpose the characteristic function is found. The Shapley value is proposed as a cooperative decision of the game. The condition of subgame consistency of the Shapley value and the method of construction of the cooperative payoff distribution procedure are taken. The cooperative payoff distribution procedure allows to redistribute payoffs to the players (network users) at each time slot to overcome the natural inconsistency of the Shapley value. The paper considers the numerical example which demonstrates all obtained theoretical results.

Keywords: cooperative stochastic game, Markov game, subgame consistency, cooperative payoff distribution procedure.

Статья представлена к публикации членом редакционной коллегии А. А. Печниковым

i Надоели баннеры? Вы всегда можете отключить рекламу.