структуры и моделирование 2014. №2(30). С. 49-61
УДК 004.9:631.4+519.83
ЗАЩИТА ЛЕСА КАК СТОХАСТИЧЕСКАЯ ИГРА
А.К. Гуц
д.ф.-м.н., профессор, e-mail: guts@omsu.ru Л.А. Володченкова
к.б.н., e-mail: Volodchenkova2008@yandex.ru
Омский государственный университет им. Ф.М. Достоевского
Аннотация. Предлагается планирование мероприятий по защите леса рассматривать как стохастическую игру с «природой» в рамках математической теории игр.
Ключевые слова: лес, защита леса, теория игр, стратегии.
Защита лесных насаждений является важной задачей лесных управлений регионов. Любое лесозащитное мероприятие требует финансовых вложений, и естественно, соответствующие денежные инвестиции должны быть эффективно потрачены. В статье [1] предложено использовать теорию матричных игр для принятия решений, касающихся планирования мероприятий по защите леса. В этой статье мы используем более сложную модель принятия решений, основанную на теории стохастических игр [2-4].
1. Стохастические игры
Стохастическая игра — это многошаговая игра, в которой имеется несколько игровых состояний, и переход от одного состояния к другому совершается с определённой вероятностью. Игроки совершают действия.
В начале каждого шага игра находится в некотором состоянии. Игроки выбирают свои действия и получают выигрыши, зависящие от текущего состояния и действий. После этого система переходит случайным образом в другое состояние, распределение вероятности переходов зависит от предшествующего состояния и действий игроков. Эта процедура повторяется в течение конечного или бесконечного числа шагов.
При конечном числе игроков, конечных множествах действий и состояний игра с конечным числом повторений всегда имеет равновесие Нэша.
На каждом шаге игры предусматриваются выигрыши. В стохастической игре возможны возвращения к предшествующей позиции.
С целью предотвращения бесконечного продолжения игры и бесконечно большого выигрыша вводится правило, по которому задаются такие переходные вероятности, чтобы бесконечное продолжение игры имело вероятность нуль, а математическое ожидание выигрыша было конечным.
Стохастическая игра с двумя игроками [3,4] — это кортеж
(S^A^Q^R2^),
S = {s1...,sN} — множество состояний игры;
Ak = {ak, ...,aMfc}, k = 1, 2 — набор действий игрока Pk. Набор действий Akk для игрока Pk в состоянии s — это подмножество множества Ak, то есть, Ak С Ak и UseS Ak = Ak. Mk = card(Ak) = |Ak|;
Q : S x A1 x A2 x S ^ [0,1] — переходная функция состояний, и R1 : S x A1 x A2 ^ IR, R2 : S x A1 x A2 ^ IR — выигрышные функции игроков;
в, 0 < в < 1 — коэффициент обесценивания (дисконтирования, discount), обесценивающий будущие вознаграждения, то есть, при каждом переходе в новые состояния вознаграждение уменьшается в в раз от его полной стоимости в текущем состоянии.
В игру играют следующим образом:
• В момент дискретного времени t е [0,N] игра находится в состоянии
st е S.
• Игрок P1 выбирает действие a1 е A1, и игрок P2 выбирает действие a2 е A2. Игрок P1 тогда получает вознаграждение r1 = R1(st,а1,а2), и игрок P2 получает вознаграждение rt2 = R2(st, a1, af).
• Игра затем переходит в новое состояние st+1 с условной вероятностью P(si+1|si,a1,ai2), равной Q^a^a?, st+1).
1.1. Стационарные стратегии
Пусть
n
Пп = {(Р1, ...,pn) е IRn : YP1 = 1, Pi > 0}.
i=1
Стационарная стратегия игрока Pk (k = 1,2) — это отображение
pk : S ^ QMfc.
Тогда
/ (в) = (рк (¿0).
Интерпретируем число рк(в) как вероятность того, что, находясь в состоянии в, игрок Рк совершит действие ак е Ак.
Стационарная стратегия игрока Рк независима от времени £ и истории. Смешанная, или рандомизированная, стационарная стратегия — это та стратегия, для которой рк(з) > 0 для Уз е 5 и У? е {1,...,Мк}, и чистая стратегия — та, где рк0(з) = 1 для некоторого
1.2. Ожидаемый доход игроков в стохастической игре
Цель каждого игрока — максимизировать некоторый ожидаемый доход. Пусть st — состояние во время t и г;? — вознаграждение, полученное игроком Pk (k = 1, 2) во время t.
Определим ожидаемый выигрыш как вектор-колонку
vkl,p2 = (vkl,p2 (s1), ..., vkl,p2 (sN))T,
где
vkpi,p2 (s) = Epi,p2 |rtfc + ertfc+i + e2rtfc+2 + ßNrkt+N |st = s} = = EP1,PJ £ в nrk+nlst = Л .
t n=0 )
Оператор ожидания Epi,p2 используется, чтобы показать, что игрок Pk применяет вероятностную стратегию pk, точнее игрок Pk выбирает действие, используя распределение вероятности pk(st+n) в st+n и получает непосредственное вознаграждение
rk+n = p1(st+n)TRk (st+n)p2(st+n)
для n > 0, где
Rk (s) = ||Rk (s,ai,a2)||oieAi,02eA2
— премиальная матрица игрока Pk в состоянии s, строки и столбцы которой помечены индексами a1,a2.
Для игры бесконечной по времени N = то (с бесконечным повторением) принимается в < 1. Тогда vk — ожидаемый дисконтированный выигрыш. Для конечной по времени игры (N < то): в =1. Векторы vk называют также вектор-значением игрока Pk.
1.3. Равновесие Нэша
Равновесие Нэша — это пара стационарных стратегий (p1, p2), для которых
vpi,p2 > vpi,p2 для Vp1 G ÜMi, vpi,p2 > vpi,p2 для Vp2 G ÜM2
покомпонентно [3,4].
В равновесии у игроков нет стимула, чтобы отклониться от их стратегий равновесия. Отклонение будет означать, что один или оба игрока будут иметь более низкие ожидаемые выигрыши, то есть vpip2 и/или vpip2. Пара стратегий, являющихся равновесием Нэша, известны как лучшие выигрыши, т. е. если игрок P1 играет п1, то лучший ответ для игрока P2 есть п2, и наоборот.
Теорема 1. Игра с ожидаемым дисконтированным выигрышем имеет хотя бы одно равновесие Нэша в смешанных стационарных стратегиях.
В игре с N = то для вычисления равновесия Нэша используется нелинейная программа1 из [5], которую назовём NLP-l. В случае N < то надо воспользоваться программой из [6].
1.4. Программа NLP-1
Равновесие Нэша при N = то ищется сведением к задаче нелинейного программирования:
Найти
ш1п 1т[мк - Як(а1, а2) - вР(а\а2)мк], к = 1, 2 (1)
/1 и/2 п-1 п~2
при условиях
Я1^^2^) + вт(¿4, и1)а2(зг) < и1(зг)1, г = 1,..., N, (2)
а1 (зг)тЯ2(зг)+ ва1(зг)тГ(5г,и2) < и2(зг)1т, г = 1,...,^ (3)
где мк е , ак е — переменные векторы, 1 — единичный вектор,
Як(а1, а2) = [а1(з1)т^^(^...а1^)ТЯк(^)а2(зд)]Т
— вектор, представляющий выигрыш при выборе игроками Р1 и Р2 пары стратегий (а1, а2),
Р(а1, а2) = [а1(з)т[р(з'|з, а1, а2)]а1еА1,«2еА2а2^)]^^.
— стохастическая матрица для марковской цепи, индуцированной парой стратегий (а1, а2),
Т(з,м) = [[р(з1|з,а1,а2)...р(зм|з, а1, а2)]тмт^ел^еА
— матрица, представляющая выигрыши в будущем в следующем состоянии игры в матричной форме.
Решение (м^,«2, задачи нелинейного программирования (1)-(3) есть
искомое равновесие Нэша (г^, г^р^р2) в игре.
2. Игровая модель защиты леса
Окружающая внешняя среда, включающая как природные условия, так и следствия антропогенной действительности, рассматривается как игрок, называемый традиционно «Природой», который противостоит другому игроку, под которым понималось Лесное управление региона, координирующее и направляющее деятельность лесхозов (лесничеств), расположенных на территории региона.
1Имеется метод нелинейного программирования в задачах оптимизации.
Лесхозы являются местными представительствами региональных структур Государственной лесной службы Министерства природных ресурсов, в их задачу входит управление лесами на конкретной территории лесного фонда.
Территория лесхоза поделена на лесничества, в свою очередь лесничества поделены на кварталы и выделы. Разделение на кварталы облегчает работы по инвентаризации насаждений, создаёт благоприятные условия для доступа в лес, ориентирования в нем. Каждый квартал подразделяют на таксационные выделы. Выдел — участок квартала, достаточно однородный по своему территориально-хозяйственному значению и таксационной характеристике, отличающийся от соседних и требующий единых мер хозяйственного воздействия. Средний размер выдела зависит от разряда (степени подробности, детализации и точности) лесоустройства: при 1-м разряде он составляет 3-5 га, при 2-м — 6-15 га, при 3-м разряде — 16-35 га.
Именно таксационные выделы являются единицей пространственного представления данных при лесоучётных работах. Выдел — это учётная единица с конкретными данными: состав, преобладающая порода, запас древостоя и т. д.
Состояние лесов региона может означать наличие в распоряжении Лесных управлений регионов, лесничеств информации, относящейся к распределению площадей и запасов лесов, расположенных на землях лесного фонда региона в границах лесничеств; к сведениям о проведении натурной таксации; к деятельности, направленной на сохранение окружающей среды и биоразнообразия в лесах; к социально-экономической оценке использования, охраны, защиты и воспроизводства лесов на территории региона; к анализу расходов на ведение лесного хозяйства; к анализу проведённых мероприятий по охране, защите, воспроизводству лесов по лесничествам и лесопаркам; к сведениям запланированных и фактически выполненных объёмах профилактических противопожарных, санитарно-оздоровительных мероприятий; к данным об ущербе от лесных пожаров, и т. д.
2.1. Описание игровой модели
Стохастическую игровую модель защиты леса мы строим, опираясь на работу [3,4]. Игроку «внешняя агрессивная среда» или «Природа», обозначаемому как Attacker, противостоят работники лесного управления и лесничеств, которых объединяем под именем игрока Workers.
Множество кварталов лесничества образуют сеть кварталов, или квартальную сеть. Все элементы этой сети находятся в отношениях как с лесничеством, так и с лесным управлением.
Предлагаемая сетевая модель представлена на рис. 1
Мы ограничиваемся только одним лесничеством, которое следит за своими лесными кварталами и взаимодействует с лесным управлением.
Рассматриваем леса региона в виде графа, изображённого на рис. 2. Вершины графа являются такими объектами как внешняя окружающая агрессивная среда (вершина E), лесничество, относящееся к данному региону (вершина L), лесное управление (вершина U), квартал (вершина K). Ребра графа пред-
квартал 12 квартал 13
Рис. 1. Пример сети лесных кварталов
ставляют пути непосредственного взаимодействия между рассматриваемыми объектами. Например, внешняя среда (узел Е) имеет прямое воздействие на леса лесничества.
Рис. 2. Система «Среда — Управление — лесничество — квартал» как граф
2.2. Состояния игры
Пусть 1)
P С {Антипожар, Антивымокание, Анти...,
Мониторинг пожаров, антропогенных загрязнений и заражений, (4) Борьба с вытаптываним растений животными,process}
— перечень профинансированных запланированных лесозащитных мероприятий, данных под условными наименованиями. Буквами f, h,p, s,... ниже будем помечать «Aнтипожар», «Ативымокание» и др. мероприятия. Под process понимаем проводимый лесничеством тип лесозащитных работ,
2)
a G {u,c}
— переменная, представляющая состояние леса, отражённой в записи в «Карточке лесопатологической таксации», заведённой для каждого квартала, входящего в лесничество; выбирается u, если в строке «Причины ослабления насаждения» нет кода, говорящего о неблагополучном состоянии леса, и выбирается c, если есть код, говорящий о неблагополучии2,
3)
d G {c, i}
— переменная, представляющая состояние данных в вершине графа 2; c — полная деградация леса, i — нет признаков деградации леса,
Вводим состояния системы «Среда-Управление-лесничество-квартал»
S = {ul,UU ,ПК ,t},
где
nx = (P,a,d), X g{L,U,K,E},
и t — состояние взаимодействий в системе. Следовательно, например, если
n_L = ({Антипожар, Антивымокание, Анти...}, c, i),
то это говорит, что в лесничестве получены средства под программы Антипожар, Антивымокание, Анти..., состояние леса в некоторых кварталах находятся под угрозой, но отсутствуют кварталы с полностью деградированным лесом.
Скорость, с которой передаются воздействия от одного элемента системы к другому (traffic,) для системы в целом, представляется состоянием взаимодействия t =< {lXY} >, где X и Y — вершины графа сети кварталов и 1Xy G {0,1/3, 2/3,1} указывает на качество осуществляемого взаимодействия данному каналу. Цифра 1 говорит о задействовании максимума возможностей, 0 — отсутствие воздействия.
Для взаимодействия между вершинами графа сети, характеризуемого как нормальное, берём t =< 1/3,1/3,1/3,1/3 >.
2.3. Действия игры
Действия внешней среды и лесного управления заставляют систему переходить из одного состояния в другое с определённой вероятностью.
Отдельно взятое действие внешней среды может быть любой частью из его стратегии «нападения», такой как, например, возгорание леса (пожар). Подобные действия природы воспринимаем как атаку на лес. Поэтому для воздействий внешней среды закрепим термин Attacker. Когда игрок ничего не делает, мы обозначаем это бездействие как 0.
2Например, код 831 означает вымокание леса.
Совокупность действий внешней среды состоит из всех действий, которые он может совершить во всех состояниях:
^Attacker _
={Подтопить лес, Вызвать лесной пожар, Продолжить вредное антропогенное загрязнение, Подтопить и прекратить приток воды, Добавить новый источник загрязнения леса, Вытаптывание леса животными, Установить засушливую погоду, Начать заболевание леса, Деньги не дошли до лесничества, «Пустой» бюджет Лесного управления, 0}.
(5)
Действия внешней среды в каждом состоянии — это подмножество множества AAti«cfcer. Например, в состоянии Normal operation (см. рис. 3, самое верхнее состояние) «Природа» совершает множество действий
^О^Горетйоп = {Подтопить лес Вызвать лесной п0жaр, 0}.
Действия для работников лесного управления и лесничества, главным образом, сводятся к профилактическим или восстановительным мерам. Множество действий работников (workers) таково:
A Workers _
={Устранить причину подтопления, Восстановить лес после затопления, Работы на зараженном квартале, Мониторинг пожаров, антропогенных загрязнений и заражений, Устранить источник загрязнений и болезней леса, Восстановить лес после пожара, Борьба с вытаптыванием и болезнями, 0}
Например, в состоянии Возгорание леса (см. рис. 4) Workers имеет множество действий
a Admin,
АВозгорание леса _
= {Мониторинг пожаров, антропогенных загрязнений и заражений, 0}.
Квартал с проблемным лесом может быть попавшим в поле внимания Управления (лесничества), а может быть и незамеченным (плохая работа лесничих, отсутствие финансирования). Когда неблагополучная ситуация не замечена, мы моделируем ситуацию как ситуацию нахождения Управления (лесничества) в состоянии бездействия 0. Мы предполагаем, что Управление не знает, есть ли факт угрозы лесу или нет. Следует учитывать, что внешняя среда может иметь несколько стратегий, о которых не знает Управление. Более того, не все действия внешней среды могут наблюдаться.
2.4. Вероятности переходов
В изучаемом примере квартальной сети значения для вероятностей изменения состояния сети даём, основываясь на собственной интуиции.
(6)
Для реальных квартальных сетей необходимые вероятности следует находить, естественно, используя дополнительные исследования и накапливая необходимую статистику. На рис. 3 и 4 изменения состояния сети представлены стрелами. Каждая стрела маркирована действием, переходной вероятностью и стоимостью/вознаграждением.
В формальной модели игры вероятность изменения состояния является функцией действий обоих игроков. Такие вероятности используются в компьютерной нелинейной программе NLP-1, применяемой для вычисления решения игры. Однако, чтобы реализовать разделение игры на игру с точки зрения природы (рис. 3) и с точки зрения Workers (рис. 4), принимается, что вероятности зависят от действий каждого игрока в отдельности. Например, на рис. 3 (вторая пунктирная стрела из вершины) считаем, что
P(Лес сгорел|Лес загорелся, Условие для распространения пожара) = 0,5
как зависящую только от действия внешней среды, условно именуемого как «Условие для распространения пожара».
Когда квартальная сеть находится в состоянии Normal-operation и ни внешняя среда, ни Workers не совершают действий, сеть будет иметь тенденцию оставаться в том же самом состоянии. Эта ситуация моделируется как имеющая близкую к тождественной стохастическую матрицу, т. е. мы полагаем P(Normal-operation | Normal-operation, 0, 0) = 1-е для некоторого малого е < 0,5 и где 0 обозначает бездействие. Тогда P(s|Normal_operation, 0, 0) = e/(N — 1) для всякого s = Normal_operation, где N — число состояний. Есть также смены состояния, которые являются неосуществимыми. Например, для сети невозможно переместиться от нормального функционирования к состоянию завершения работы, не проходя при этом через некоторые промежуточные состояния. Неосуществимым сменам состояния приписываются нулевые вероятности перехода.
2.5. Платежи, затраты и вознаграждения
Затраты (отрицательные значения) и вознаграждения (положительные значения) связаны с действиями внешней среды и Workers. Для действий внешней среды имеем, главным образом, вознаграждения, и такие вознаграждения выражаются в рублёвой оценке понесённого урона, который нанесён квартальной сети.
В рассматриваемой модели ограничиваемся временными затратами Workers на восстановительные работы. Вознаграждение за действия внешней среды также можно оценивать временем, которое необходимо Workers на восстановление леса, т. е. на перевод одного состояния квартальной сети в другое.
Чтобы подчеркнуть серьёзность потери важных лесных ресурсов или расположенных в лесу строений, назначаем очень высокое вознаграждение за действие природы, которое приводит к состоянию, в котором реализуется печальное событие. Например, при переходе из состояния Квартал атакован к состоянию Кварталу нанесен ущерб на рис. 3 вознаграждение равно 999. Есть
Рис. 3. Игра с точки зрения игрока «Природа»
также некоторые переходы, в которых потери для Workers не такие же, как величина вознаграждения игрока «Природа». Именно такие переходы делают игру игрой с общей суммой вместо игры с нулевой суммой.
2.6. Стратегии
Наша цель — найти пару смешанных стационарных равновесий Нэша pAttacker, p^orfcers, которые соответствуют стратегиям игроков «Природа» и Workers.
Стохастическая игра с общей суммой имеет хотя бы одно равновесие Нэша в смешанных стационарных стратегиях. Для их нахождения использована
Рис. 4. Игра с точки зрения Workers
программа NLP-1 [5].
3. Пример сценария «атаки» «Природы» на квартальную сеть
В этом параграфе опишем один из сценариев «нападения Природы» на квартальную сеть.
На рис. 3 показано, как игрок «Природа» видит изменения состояний квартальной сети в результате его «нападения», а на рис. 4 представлена точка зрения игрока Workers. На рисунках состояния изображаются как прямоугольники, содержащие символическое имя и значения параметров для этого состояния. Каждый переход помечен действием, вероятностью перехода, выгодой или стоимостью восстановительных усилий, затрачиваемых Workers в случае непорядка в квартальной сети.
Атакуется хозяйственно важный квартал сети, на котором возможны как пожар, так и подтопление. Беспечность (бездействие) игрока Workers способствует как возникновению пожара, так и подтоплению леса. Игрок «Природа» в таком случае легко может нанести ущерб кварталу и покинуть «поле игры» победителем. Для данного сценария изменения состояния обозначены жирными стрелками на рис. 3.
В состоянии Normal_operation игрок «Природа» осуществляет действие Подтопить лес. С вероятностью 1 и вознаграждением 10, он переводит квартальную сеть в состояние Подтопление начато. В результате действия игрока «Природа» в данном состоянии наблюдается увеличенный трафик между внешней средой и кварталом. Начав действие Продолжение атаки, игрок «Природа» с вероятностью успеха 0,5 получает полную возможность затопить квар-
тал. В результате система переходит в состояние Затопление осуществлено. Поскольку при полной беспечности (бездействии) Workers появилась возможность затопить квартал и «уйти»; сеть переходит в состояние Квартал затоплен.
4. Результаты моделирования
Применение программы NLP-1 позволило [3] найти равновесие Нэша для различных сценариев нападения на квартальную сеть, представленную на рис. 1.
Стратегия игрока состоит из распределения вероятности по набору действия для каждого состояния.
Например, для состояния Затопление осуществлено
pAttacker = [g, 33. g, ig. о, 57], pWorkers = [0, 67; 0,19; 0,14].
Цифры в квадратных скобках программа NLP-1 сопровождает указанием множества соответствующих действий. Для игрока «Природа» эти действия тако-
{Подтопить и прекратить приток воды, Добавить новый источник загрязнения, 0}.
Стратегия игрока «Природа» в рассматриваемом состоянии говорит, что он использует действие
Подтопить и прекратить приток воды
с вероятностью 0,33 и
Добавить новый источник загрязнения
с вероятностью 0,10.
Игнорируя бездействие 0 и нормализуя вероятности, получаем вероятности 0,77 и 0,23 соответственно для первых двух действий.
В том же самом состоянии игрок Workers может совершить действие
Устранить причины возможного подтопления
или
Следить за антропогенными загрязнениями.
Первое действие игрок Workers совершает с вероятностью 0,67, второе — с вероятностью 0,19. Игнорируя третье действие, после нормализации эти вероятности принимают значения 0,88 и 0,22 соответственно. Это говорит ему, что лучше постоянно устранять причины возможного подтопления и загрязнения, чем продолжать надеяться на «авось» во взаимоотношениях с Природой.
5. Заключение
Мы продемонстрировали возможности использования теории стохастичеких игр для организации лесозащитных мероприятий. Хотя статья представляет собой эскизную переделку работ [3,4], посвящённых защите компьютерных сетей, есть все основания для того, чтобы заявить, что использование стохастических игр может рассматриваться в качестве серьёзного инструментария, с помощью которого можно проводить анализ степени защищённости лесной экосистемы от различных пагубных воздействий внешней среды, моделировать сценарии различных атак «Природы» на лесные ресурсы и вырабатывать рекомендации по их защите.
ЛИТЕРАТУРА
1. Гуц А.К., Володченкова Л.А. Защита леса как стратегическая игра // Математические структуры и моделирование. 2013. Вып. 28. C. 43-48.
2. Гуц А.К., Вахний Т.В. Теория игр и защита компьютерных систем: Учебное пособие. Омск: Изд-во ОмГУ, 2013. 160 с.
3. Lye Kong-wei, Wing J. Game Strategies in Network Security / School of Computer Science. Carnegie Mellon University, Pittsburgh, 2002. 14 p.
4. Lye Kong-wei, Wing J. Game Strategies in Network Security // International Journal of Information Security. 2005. V. 4, N. 1-2. P. 71-86.
5. Filar J., Vrieze K. Competitive Markov Decision Processes. Springer-Verlag, 1997.
6. Fudenberg D., Tirole J. Game Theory. MIT Press, 1991.
FOREST DEFENCE AS A STOCHASTIC GAME A.K. Guts
Doctor of Mathematics, Professor, e-mail: guts@omsu.ru L.A. Volodchenkova
Ph.D.(Biology), e-mail: Volodchenkova2008@yandex.ru
Omsk State University n.a. F.M. Dostoevskiy
Abstract. It is proposed to consider the planning of forest defence measures as a stochastic game with the "nature" within the framework of game theory.
Keywords: forest, forest defence, game theory, strategies.