структуры и моделирование 2016. №3(39). С. 110-118
УДК 504.75+316 : 51-77
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ В ЭКОЛОГИИ ЧЕЛОВЕКА И В СОЦИОЛОГИИ
А.К. Гуц
профессор, д.ф.-м.н., заведующий кафедрой кибернетики ОмГУ, e-mail: aguts@mail.ru
Л.А. Володченкова доцент, к.б.н., e-mail: volodchenkova2007@yandex.ru
Омский государственный университет им. Ф.М. Достоевского
Аннотация. Показано, что динамика уровня здоровья человека в экологии или уровень доверия людей к власти можно описывать как дифференциальную игру и, следовательно, находить оптимальные равновесные ситуации (оптимальные стратегии).
Ключевые слова: экология человека, динамика уровня здоровья, социология, доверие к власти, дифференциальная игра, оптимальные стратегии.
Введение
В экологии и в социологии мы легко находим примеры ситуаций, в которых наблюдаются две противоборствующие, конфликтующие стороны. Чаще всего ни одна из сторон не способна обеспечить себе «полную победу». В жизни всегда приходится искать компромиссные решения, результатом которых являются в общем-то удовлетворительные или оптимальные для обеих сторон ситуации. Для поиска таких оптимальных ситуаций создана математическая теория игр, в которой противоборствующие стороны называются игроками, а под оптимальной ситуацией понимается надлежащий выбор оптимальных или равновесных стратегий, которых придерживаются игроки, управляя тем самым ходом игры.
В данной статье показано, как можно применить теорию дифференциальных игр к нахождению и удержанию оптимальных ситуаций, называемых в теории дифференциальных игр оптимальными управлениями или равновесиями.
1. Описание модели здоровья человека
В рамках медицинской модели здоровья степень здоровья человека может быть охарактеризована достаточно большим числом количественных показателей, которые получают при проведении различных анализов (кровяное давление, температура тела, количество эритроцитов, сахар в крови и т. д.). К этим показателям следует добавить различные показатели, используемые другими моделями здоровья человека.
Пусть величины х3-, ] = 1, 2,...,Ы — совокупность всевозможных показателей здоровья человека.
Введём интегральный показатель здоровья человека, имеющий вид
N
Х ^ ] 'з х3 , 3=1
где 'з — вес показателя х3-, т. е. его вклад (доля) в интегральный показатель. Значения показателя х в момент времени Ь обозначаем как х(Ь). Это число принимается нами как степень здоровья человека.
Показатель имеет нижнюю границу — число Z0. Человек считается здоровым в момент времени если сумма его показателей х(£) ^ Z0, и болеющим, если х(£) < Z0.
Очевидно, что такой подход является крайне упрощённым, но любая модель здорового человека есть определённое упрощение, которое может быть со временем усложнено.
Здоровье людей в конкретном регионе во многом определяется действием долговременного вредоносного фактора риска — &вфр, который является неустранимым фактором. Это радиоактивный фон местности, некачественная вода в колодцах, реке, озере и др. Данный фактор мы не рассматриваем как фактор управления.
Внешние управляющие факторы в нашей задаче, оказывающие влияние на здоровье человека, это:
1) V — неблагополучная медико-санитарная ситуация (временный, переменный фактор, который может быть устранён: задымлённость при лесных пожарах, ядовитые сбросы в реки и др.);
2) и — принятие мер по преодолению неблагополучной медико-санитарной ситуации (лечение, профилактика) и.
В [1, 2] было выведено дифференциальное уравнение, описывающее динамику интегрального показателя здоровья человека х(£):
ах д
— = -—V (х,и, V, кВФР), (1)
аЬ дх
где
к
V(х, и, V, кВФР) = — х5 + их3 + vx2 + кВФРх. (2)
5
Отметим, что хорошее здоровье людей характеризуется неравенством х > Zo, ухудшение — неравенством х < Z0; действие долговременного вредоносного фактора риска — неравенством кВФР < 0, наличие неблагоприятной медико-санитарной ситуации в регионе — неравенством V < 0, принятие мер по преодолению неблагополучной медико-санитарной ситуации (лечение) — неравенством и > 0.
Функция V, заданная выражением (2), описывает катастрофу «ласточкин хвост» [1,2].
Равновесные состояния
д
V(х, и, V, квФр) = 0
(3)
данной динамической системы были изучены в [1,2].
2. Экология человека как дифференциальная игра
Поскольку фактор кВФР мы не рассматриваем как управляющий, то перепишем уравнение (1) в виде:
Нас интересует, какая пара управлений и(Ь)^(Ь) является в некотором смысле оптимальной? Фактически это означает ситуацию, соответствующую реальности: трудно предотвратить вредоносное действие фактора v(t) < 0, как и трудно добиться желательного уровня мер, предотвращающих неблагополучные медико-санитарные ситуации, и обеспечить необходимое лечение пострадавших и(^ > 0.
Реальная жизнь демонстрирует, что даже если руководитель предприятия, производящего периодические вредные выбросы в атмосферу и в водоёмы, вполне понимает, как это плохо отражается на здоровье населения, тем не менее отсутствие средств на очистительные сооружения, на модернизацию оборудования вынуждает его санкционировать вредоносные выбросы. Подобным же образом экологическим учреждениям и экологическим организациям часто трудно преодолеть бюрократические препятствия на пути внедрения нужных природозащитных мероприятий, которые связаны как с отсутствием нужных средств, так с подкупом тех, от кого зависит обеспечение таких мероприятий.
На языке математической теории игр это означает, что у нас есть два игрока 1 и 2, первый из которых борется за здоровье людей, а второй создаёт вредоносную окружающую среду.
Для каждого игрока надо выбрать подходящие к региональной ситуации платёжные функции, имеющие вид
(4)
где
Ш(х,и^) = V(х, и, V, квФр), квФР < 0.
т
,Цх,и^) = + К(х(Т)), (г = 1, 2),
и критерий оптимальности, определяющий выбор управлений и(Ь) е € П1,и(Ь) е и2, адекватных сложившейся ситуации.
2.1. Примеры критериев оптимальности управления
Например, таковым является следующая форма принципа минимакса: Ji = J2 и ищем управления u(t,«(t)) G ^«(t) G U2 такие, что
J(t0,x0,uT(t,«(t)),«(t)) = inf sup J(t0,x0,u(t),v(t)) (5)
v(t) u(t)
в предположении, что игрок 1 знает, какое управление u(t) выбрал игрок 2 [3, c.46]. Пара u(t,«(t)),«(t) называется оптимальной парой стратегий.
Фактически это означает, что экологи хорошо ознакомлены с действиями чиновником и руководителей загрязняющих среду предприятий и пытаются всячески добиться высокого значения интегрального показателя здоровья человека. Но действия чиновников, директоров предприятий, их владельцев, преступников и прочее объективно ведут к снижению усилий экологов. Особенно это видно, если взять такую платёжную функцию
J (t0, u, v) = x(T ).
Перед игрой берётся некоторая точка xi > Z0, называемая терминальной частью границы пространства [x0,xi]. Когда x(t) достигает её, т. е. x(T) = xi, игра оканчивается [4, c. 49].
В случае, когда оба игрока не имеют информации об используемых противником стратегиях, то в качестве критерия оптимальности можно взять принцип седловой точки [3, c.49]: ищутся управления u(t)),«(t) такие, что
J(t0, x0, u(t), u(t)) = inf sup J(t0,x0, u(t), v(t)) = sup inf J(t0, x0, u(t), v(t)). (6)
v(t) u(t) u(t) v(t)
Пара управлений (u(t),«(t)) — это оптимальные управления.
В книге [3] излагаются алгоритмы отыскания оптимальных управлений для задач (5) и (6). При реализации этих алгоритмом приходится решать очень сложные задачи, которые далеко не всегда приводят к успеху.
Пара управлений (ui(—),U2(-)) g Ui x U2 представляет равновесие Нэша, если
Vui G Ui[Ji((t,X,Ûi(-),Û2(-)) ^ Ji((t,x,Ui(-),Û2(-))], Vu G U2 [J2 ((t, x, Ui ( ) , U2 ( )) ^ J2((t, x, Ui ( ), U2 ( ))].
Равновесие Нэша — это стратегии игроков, которые стараются учитывать интересы противника и стремятся к компромиссу.
В [5, p. 109] даётся необходимое условие существования равновесия Нэша, сводящееся к аналогу принципа максимума Понтрягина.
Различные достаточные условия существования оптимальных стратегий и равновесий для дифференциальных игр даны в книге [6].
2.2. Существование равновесий Нэша
Если игрок формирует «своё» управляющее воздействие в виде только функции времени u(t) на всю продолжительность игры, то u(t) — это программное управление игрока. Ранее мы называли его, используя термин «управление». Однако игрок может выбирать своё управление в зависимости от того, в каком положении x в момент времени t находится система. В таком случае игрок конструирует управляющее воздействие в виде функции u(t,x), зависящей уже от позиции {t,x}, и для u(t,x) используется термин позиционное управление игрока [9]. Часто пишут просто u(x).
Приведём два примера, когда ищутся равновестия Нэша, являющиеся позиционными управлениям.
1. Игра с ненулевой суммой. Для дифференциальной игры N-игроков
dx ~dt
N
= f (x) + Y. 9i(x)uj, f (0) = 0, j=i
x E R, uj E R,
N
Ji(x,ui, ...,un)
[Qi(x) + Rjj(Uj)2]dt, j=i
(i = 1,...,N),
Qi > 0, Ru > 0, Rij > 0, существование равновесий Нэша
Ji(ul,u2, и*, ...,u*n ) ^ Ji(ul,u2, ...,u*i-l,ui, u*+1 ...,u*n ), Ущ, i E N,
(7)
сводится к крайне сложной задаче отыскания положительно определённого решения У^х) > 0 нелинейного уравнения Гамильтона-Якоби
1
N
(Vi)'x(x)f (x) + Qi(x) - i(Vi)'xJ2 [9i (x)]2(Rjj )-1 (Vj )X+
j=i
N
Rij [gj (x)]2(Rjj )-l[(Vj )X] = 0
j=i
по которому строится равновесие Нэша [8, Theorem 10.4-2]:
и*(x) = Ui(Vi(x)) = -1 Riigi(x)(V)X, i E N.
(8)
(9)
Равновесие Нэша в данном случае означает, что если каждый игрок пытается в одностороннем порядке изменить свою стратегию управления, в то время как политика остальных игроков остаётся неизменной, то он имеет худший результат (больший проигрыш).
В нашем случае N = 2, и
/ (х) = к0х4 + кВФР, #1(х) = 3х2, $2(х) = 2х, и при Д11 = Я22 = 1, Я12 = Я21 = 0 уравнения Гамильтона-Якоби имеют вид:
31 + (^)Х / (х) - "ых)]2[(^)Х]2 - 2 [^2 (х)]2 (V!) X () X = 0,
4 2 (10)
32 + / (х) -1 [^2 (х)]2 [(^2)Х ]2 - 2[£1(х)]2т)Х = 0.
Примем, что кВФР = 0, т.е. в регионе отсутствует долговременный вредоносный фактор риска. Тогда имеем уравнения Гамильтона-Якоби в виде:
9
31 + (И)Хкох4 - 4х4[(^)Х]2 - 2х2(^)Х(^2)Х = 0,
9
32 + кох4 - х2шх]2 - 9х4(^)Х= 0.
(11)
Проигрышные функции имеют вид:
J1(x,u,v)= / [з1(х) + и2]аь,
0
<2(х,и, V) = У [$2(х) + V2]аí. 0
Нетрудно проверить, что уравнения (11) выполнены, если
И(х) = ^2(х) = "2 х2,
99
31 (х) = -х6 + 2х4 - кох5 = х4 ( -х2 - кох + 2
99 32(х) = -х6 + х4 - к0х5 = х4 ( -х2 - к0х + 1 ) .
(12)
(13)
Все эти функции положительно определённые, если 0 < к0 < 3. Поэтому по теореме 10.4-2 из [8] имеем равновесие Нэша
и* = - 3 х3, V,* = -х2, (14)
найденное по формулам (4).
2. Игра с нулевой суммой. Равновесия Нэша
<(х(0),и*, V) ^ <(х(0),и*, V*) ^ <(х(0),и, V*), Уи, V,
для игры с нулевой суммой для уравнения
^ = I (х)+ д(х)п + к(х)у, ! (0) = 0, с функцией выигрыша/проигрыша
3(х(0),п,у) = [к2(х) + Яп2 - 2]йЬ,
о
h2(x) ^ 0, R,y> 0,
исследуются в [7,8]. Решение игры будет найдено, если будет найдено положительно определённое решение V(x) > 0 нелинейного уравнения Гамильтона-Якоби-Айзекса
h2 + V' • f (x) - (V')2[g(x)]2 + -LW)2[k(x)]2 = 0,
V (0) = 0,
при двух ещё дополнительных условиях [8, Theorem 10.2-2]. Однако сделать это крайне сложно.
Равновесия, являющиеся позиционными управлениями, в таком случае задаются формулами:
и * = u(V (x)) = - —g(x)VL
v * = v(V (x)) = 2Y2 k(x)V В нашем случае при кВФР = 0
9 1
4R № + Y
h2 + V • kox4 - ^(V')2x4 + — (VI)2x2 = 0. (15)
К сожалению, нам не удалось найти положительно определённого решения V(х) > 0 уравнения (15) (для к(х) ^ 0,Л,(0) = 0)). Похоже, решения игры с нулевой суммой в форме равновесия не существует. Впрочем, в какой-то мере, так и должно быть, поскольку нулевая сумма говорит нам, что выигрыш экологов в точности есть проигрыш чиновников. Вряд ли так должно быть в правовом обществе. Более естественной в данном случае является игра с ненулевой суммой, а для неё равновесие было найдено.
3. Модель уровня доверия населения к власти
Уравнение (4) можно использовать для описания такого чисто социального явления, как доверие населения к власти1.
1 Нетрудно убедиться, что вывод этого уравнения в данном случае повторяет вывод уравнения в случае экологии человека (см. [1,2]).
При этом долговременно действующий вредоносный фактор кВФР — это экономическая ситуация в регионе (уровень зарплаты, безработица, дороговизна питания и т.д.). Сам фактор, конечно следует переименовать: неблагополучная экономическая ситуация — кНЭС.
Вместо управляемого фактора «наличие неблагоприятной медико-санитарной ситуации в регионе» v < 0 следует рассматривать ошибки правящей в регионе элиты, такие, как произвол полиции, коррупция чиновника, плохие дороги и пр. Обозначение v для данного управления сохраняем.
Наконец, вместо управляемого фактора «принятие мер по преодолению неблагополучной медико-санитарной ситуации (лечение)» u — вводим другой управляемый фактор, означающий действия оппозиции как политической, так и различных общественных организаций. Обозначение u для данного управления сохраняем.
Для описания динамики уровня доверия населения к власти x(t) естественно рассмотреть аналог уравнения (4):
dx д
- = - дхи" (x'u'v)- (16)
где
W(x,u,v) = V(x,u, v, кнэс), кнэс < 0.
Мы можем теперь, опираясь на данное уравнение, пытаться отыскать оптимальные стратегии для следующей задачи минимакса
min max x(T)
v(t) u(t)
или максимина
max min x(T).
u(t) v(t)
Однако для социологии особое значение имеет выявление компромиссных ситуаций, когда противоборствующие стороны начинают учитывать интересы друг друга. В теории игр компромиссы — это равновесия Нэша.
Результат, полученный в § 2.2, позволяет заявить, что задача определения уровня доверия населения к власти в случае отсутствия неблагополучной экономической ситуации — кНЭС = 0 и рассматриваемая как дифференциальная игра c ненулевой суммой, допускает равновесия Нэша (2) в форме позиционного управления (8) с выигрышными функциями (9), (13).
Литература
1. Гуц А.К., Володченкова Л.А. Катастрофы типа «ласточкин хвост» в экологии человека // Математические структуры и моделирование. 2009. Вып. 19. С.68-77.
2. Гуц А.К., Володченкова Л.А. Кибернетика катастроф лесных экосистем. Омск : Изд-во КАН, 2012. 220 с.
3. Пацюков В.П. Дифференциальные игры при различном информировании игроков. М. : Советское радио, 1976. 200 с.
4. Айзекс Р. Дифференциальные игры. М. : Мир, 1967. 489 с.
5. Yong J. Differential games: a concise introduction. University of Central Florida, 2015.
6. Вайсборд Э.М., Жуковский В.И. Дифференциальные игры нескольких лиц и их приложения. М. : Советское радио, 1980. 304 с.
7. Vamvoudakis K.G., Lewis F.L. Online solution of nonlinear two-player zero-sum games using synchronous policy iteration // Int. J. Robust and Nonlinear Control. 2012. V. 22. P. 1460-1483.
8. Lewis F.L., Vrabie D.L., Syrmos V.L. Optimal Control. John Wiley & Sons, Inc., 2012. URL: http://www.uta.edu/utari/acs/FL\%20talks/CDC\%20Orlando\ %2 02011-\%20online\%20synch\%20PI.pdf.
9. Тынянский Н.Т., Жуковский В.И. Дифференциальные игры с ненулевой суммой (кооперативный вариант) // Итоги науки и техн. Сер. Мат. анал. 1979. Т. 17. C. 3-112.
DIFFERENTIAL GAMES IN HUMAN ECOLOGY AND SOCIOLOGY
A.K. Guts
Dr.Sc. (Phys.-Math.), Professor, e-mail: aguts@mail.ru L.A. Volodchenkova
Ph.D. (Biology), Associate Professor, e-mail: volodchenkova2007@yandex.ru
Dostoevsky Omsk State University
Abstract. It is shown that the dynamics of the human health level in ecology or the level of people's trust to the authorities can be described as a differential game and, therefore, the optimal equilibrium situations (best optimal strategies) can be find.
Keywords: human ecology, dynamics of the health level, sociology, trust to government, differential game, optimal strategies.