О возможности выбора оптимальной стратегии в зависимости от информированности игрока

Вовк С.П.

Зр* е D°, ре R: р^р;

3 а е As : —(ре Da),ЗС = (s,: a н» st,Зр, е D° : р н» р.}, тогда:

1) создается новый узел s =< 0,0,D, 0, Q,I(t) >,t = О, D = Da u (р};

2) для узла а выполняется: co+B(s) , cot(s), (oB(si), е С ;

3) для узла s выполняется , oiB(sj),е С.

Получен следующий результат:

Предложение 2. DSN может построить эквивалентную классификацию по конечному множеству экземпляров объектов ПО, если в этом множестве будут присутствовать хотя бы по два экземпляра из каждого класса.

Заключение.Предаоженная новая концепция пр едставления знаний позволяет строить системы искусственного интеллекта нетрадиционного типа. Эти системы - DSN обладают рядом интересных свойств, в том числе свойством самообучения и построения обобщений. В процессе своего функционирования DSN способна строить модель п.о. по наблюдениям за отдельными объектами и событиями в ней. Поэтому в качестве приложений DSN можно рассматривать их использование в различных системах идентификации, оценки ситуации, системах определения закономерностей в данных и т.п.

УДК 681.513.674:510.6

С.П.Вовк О ВОЗМОЖНОСТИ ВЫБОРА ОПТИМАЛЬНОЙ СТРАТЕГИИ В ЗАВИСИМОСТИ ОТ ИНФОРМИРОВАННОСТИ ИГРОКА

Теоретико-игровая модель в общем, виде представляется кортежем:

r=<3,{Ai(tj)}ie3,Q(tj),U ,^j}jeu >, (1)

где 3- множество всех коалиций действий (игроков);

i - стратегия коалиций действий или, иначе говоря, возможности игроков, отражаемые в форме их решений;

Ai(tj) - множество всех стратегий j-ой коалиции в момент j Q(tj) - множество всех ситуаций, представляющее Q(tj> с х * i(ti>;

1е3 a

j - ;

U - множество коалиций интересов;

(■j - бинарное отношение предпочтения для j на Q(tj): Rj cQ(tj) xQ(tj) с функцией

принадлежности ц е Q(tj) X Q(tj) ^ [0,1] , описывающее цели (интересы) участ-.

В случае информированности игрока об ответных тактиках противника каждый из них стремится к реализации своего гарантированного результата.

Гарантированный результат может быть найден в результате нахождения четко или нечетко доминирующей тактики в зависимости от четкости задания таких

важнейших параметров, как полезность исхода и его вероятность. Как известно, критерием предпочтительности, задающим полный порядок на А1 , является величина ожидаемой полезности ^• р(а 1).

j

Если не заданы (хотя бы нечетко) функция полезности игрока или распределение вероятностей исходов игры, расчет ожидаемой полезности стратегии игрока невозможны. Однако, при наличии определенной информации о предпочтениях игрока или вероятностях наступления исходов можно выявить доминирующую стратегию или убедиться, что ее нет. Доминирование в этом случае основано на ,

функции полезности или любом распределении вероятностей, принадлежащих определенному классу функций или распределений. Такое доминирование в четком смысле предполагает достаточно сильное различие стратегий игрока между собой по предпочтительности, возможно, заметное без всякого анализа.

, ( ) виде может быть представлена в виде ряда по парных стратегий из А1. Данные, необходимые для единичного сравнения, представлены в табл.1.

Таблица 1

А2 а12 а" ак2

р(А2) р(а12) Р(а12) Р(ак2)

и1 и^ V и^

и*1 и*11 V и^1

Отношение строгого доминирования по полезности ОДП) ьго типа (Р ) определяется выражением

(Ур(а1)еР1)а^)‘а^ о Еи

, > Еи 1

/ ш

(2)

При определении ДП рассматриваются следующие классы распределений [1]:

1) Р0 - полное отсутствие информации о р(с). Распределение вероятностей р(с) считается принадлежащим классу Р0, если о нем ничего неизвестно, кроме

и

р(с ) > 0 (^ р(с ) = 1). Если на множестве р(с) задана нулевая мера, то сущест-

1=1

вует ситуация полной неопределенности. В этом случае целесообразно применение ряда специальных критериев (критерий Лапласа, Гурвица, Сэвиджа, Вальда).

2) Р1 - класс распределений, сохраняющих порядок, т.е. на множестве р(с) задана порядковая мера. Удобно предположить, что само множество С также упорядочено по вероятности входящих в него состояний р(с) > р(С2 ) >... > р(сз) >... > р(ск1) > 0.

3) Р2 - класс распределений, на множестве значений которых задана ограниченная интервальная мера ук < р(ск) <ук + £к (ук > 0, £к > 0).

При первом варианте численных значений (табл.2) отсутствует информация о вероятностях состояний, т.е. (Р(Л2) еР0). Тогда получаем а у*)0 а^, т.к.

Еи г 1 >Еиях о=1,...,Ы).

Таблица 2

.І 1 2 3 4

а/ 0,4 0,2 0,3 0,1

а*1 0,4 0,2 0,2 0,05

В случае, когда а^ )0а^ в (1) выполняется 3=и, бинарное отношение определяется за счет введения на 3 функции выигрыша Ок:

Окф,а1,,а2,...-Й1,...,..., ап) = ^рСЬ)§к(Ь,а1,,а2,...ау,...,..., ап), являющейся показателем

ЬеИ

успеха коалиции на множестве исходов О.

В этом случае поиск решения производится с помощью традиционного аппарата матричных игр (при наличии седловой точки - поиск равновесного решения , - ).

( .3)

1\0 1 1\1 1 а у ) аш , н и а у ) аш .

Таблица 3

.І 1 2 3 4

а5 0,4 0,3 0,2 0,1

а* 0,4 0,2 0,25 0,15

Однако, если і упорядочены в соответствии с порядковой мерой

рЦ2) > р^2) >.> р(а}2) >... > р(ак12) > 0, то

к к К 1 1

у(і=і.......4) ^ а/К.

і=1 і=1

Сравнение альтернатив с учетом суммарной полезности представлено в табл.4.

Таблица 4

.І 1 2 3 4

а5 0,4 0,7 0,9 1

а* 0,4 0,6 0,85 1

Если есть полная информация о состояниях противника, то при определении

Р1,

на множестве ограничений интервальной меры

Ук < р(ак) <Ук + £к (Ук > 0 £к > 0).

Здесь в отличие от рассмотренных ранее вариантов решений вместо доказательства, что имеет место (6), необходимо доказывать теорему о необходимых и достаточных условиях строгого ДП:

\2

Ч„ О \ V (и . -и ,

а/> аі ^ 2 Г і (и/і-иі) + к > 0,

і=1

где

N

^ = тіп Xгі(и/ -ит).

і=і

(3)

(4)

Множество О определяется следующе й системой ограничений:

0 *", <£,;

N N

ЁІ2. =1 -Ё у. •

.І =1 ,=1

(5)

Из теоремы следует, что для определения к необходимо решать вспомогательную задачу линейного программирования, определяемую (4) и (5).

Допустим, что для р(а;1),] = 1,...,4 задана ограниченная интервальная мера

0 < р(а1) < 0,1, 0,15 < р(а2) < 0,35, 0,< р(а3) < 0,5, 0,4 < р(а4) < 0,5. Множество

В в этом случае определяется так:

0 < г1 < 0,1;

0 < г2 < 0,15; 0 < г3 < 0,2; 0 < г4 < 0,1;

4 4

^ zj = 1 -£/, = 1 - (0 + 0,15 + 0,3 + 0,4) = 0,15.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

,=1 ,=1

Определим

к =

тій

1 , ЄЙ

• • (0,4 - 0,4) + 22 • (0,3 - 0,2) + 23 • (0,2 - 0,25) + 24 • (0,1 - 0,15)} .Вспомога-

тельная задача линейного программирования в этом случае формулируется следующим образом:

к = 0,122 - 0,0523 - 0,0524 ^ тій;

2 < 0,1;

22 < 0,15;

23 < 0,2;

24 < 0,1;

2Х + 22 + 23 + 24 = 0,15;

> о.

Результат решения симплекс-методом следующий: і0 = (0;0;0,2;0,05), к0 = -0,0035.

4

Решаем основную задачу ^ -и ) + к: -0,0235<0. Следовательно, не вы-

.=1

а г)2а„•

полняется и//

Использование Р2 требует выполнения большего числа операций, чем Р2. Однако в связи с наличием практически в каждом табличном процессоре встроенной процедуры симплекс-метода, для специалиста эта проблема сводится к корректному составлению (3)-(5). Если затруднено указание диапазонов, то приходится упорядочивать по вероятности исходы стратегий

р(с1) > р(с2) > ... > р(с ]) > ... > р(ск1) > 0 и соответственно производить нечеткое сравнение альтернативных стратегий. Необходимые и достаточные условия строгого ДП определяет следующая теорема:

а1 >1 а& ^ (1 = І -’К) ^иГ] >^иа . (6)

1=1 ]=1

Из этой теоремы следует:

а) множество состояний С] (]=1, ...,к1) упорядочено по убыванию их вероятностей (утверждение X);

к к

б) (ук=!’...’к1) Ти, > 1и,;

1=1 /=і

к к

в) существует такое состояние сь что у и > Ти .

1=1 1=1

Условия б) и в) вместе эквивалентны утверждению д ="^ьтернативы вступают в отношение строгого предпочтения по полезности ".

Рассмотрим отношение И на множестве альтернатив

к к

А: агКа& ^ (Ук = 1,...,к1) ОНО эквивалентн0 б) и может быть

1=1 1=1

названо отношением предпочтения по полезности. Его характеристическая функция

к к

1, при ^ и 1 ^ ив! (Ук = 1,..., к1),

Мк (а г, а ) =

1=1 1=1

0, .

Иначе приведенная теорема формулируется [1] а^)° ая о а &Р и характеристическая функция отношения ДП может быть определена как степень истинности конъюнкции этих утверждений

у3а,а&) оТ(а&в) = тш{ Т(а)&Т(Д)}, (7)

где а=<множество состояний противника(/=1,...,/с1) упорядочено по убыванию их вероятностей>, в=<Альтернативы вступают в отношение строгого предпочтения по полезности ^>.

Нечеткое отношение строгого ДП имеет место, когда хотя бы одно из утверждений выполняется не абсолютно, а с любой степенью истинности из [0,1]. Оно является нечетким подмножеством декартова произведения с функцией принадлежности /и13 (а у, ае), определяемой согласно (7).

Интервальная мера сильнее порядковой, поэтому получается четкий результат сравнения альтернатив. Проверить а^/ аг сложнее, чем а^ )2аг. Несмотря на

меньшее количество выполняемых операций, приходится доказывать истинность (7), .

Если распределение вероятностей задано в виде нечетких чисел Л1, Я,-, Лм, то Т(а) = • {Т(«)}, где Ц- утверждение Ц=<Я >Л)-+1 >, определяемое

j

Tа) = sup min{^^ (p),vAjJq)}

q< p

p,qe[0,1]

при интерпретации принадлежности как пересечения.

Если нечеткие функции полезности Vfj, Vg имеют функции принадлежности

цу , ц , ue [0,1]. Отношение предпочтения по полезности можно представить

afRag О & в, W в =< W = > Wa = .

j 1=1 1=1

В случае интерпретации принадлежности как пересечения T(fij) = sup min{^^ (u), ^ (v)}.

u>vv

u,ve[0,1]

Наиболее часто встречается ситуация, когда не наблюдается четкого домини-.

рационального подмножества позволяет отношение нечеткого доминирования альтернатив (например, по полезности Р). Доминирование по полезности допускает незнания распределения вероятностей. Требования в этом случае формулируются следующим образом: к распределению вероятностей - в виде свойств класса, к которому оно должно принадлежать, к функции полезности - в виде свойств доминирующей стратегии по сравнению с доминируемыми.

В нечетком случае на A1 задается Р с цв(а/, ag) = T(a/)0ag'), a/, ag e A,

где T - степень истинности высказывания. P задает на A1 нечеткий строгий порядок. Это позволяет определить нечеткое множество недоминируемых альтернатив с

(af ) ~ 1 — max ^ (ag , af ), af e A. ()

ageA

Определим нечеткости исходов игры ц(ю(аь a2))= Цнд («0 & Цнд (я2), «1е

А1,а2е А2.

Для определения равновесного решения игры нужно:

1) от по парного сравнения исходов по Rs перейти к R =Rs-1;

2) задаться точности решения h и определить R(]) = R1,]) nR2h(,J).

, -ры лучше воспользоваться интервальной порядковой мерой, как более сильной. Это позволяет определить четко доминирующую тактику среди попарно сравниваемых и сократить количество оставшихся переборов для сравнения по отношению нечеткого ДП.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Обработка нечеткой информации в системах принятия решений/ АН. Борисов, А.В. Алексеев, ГБ. Меркурьева и др. М.:Радио и связь, 1989. 304с.

2. Вовк С.П. Ситуационное управление и нечеткие игры в моделировании организационных систем. Таганрог: Изд-во ТРТУ, 2002. 147с.

3. Випкас Э.Й.,Майминас Е.З. Решения: теория, информация, моделирование. М.: Радио и связь, 1981. 328с.

УДК 658.512

АЛ. Шабельников СИНТЕЗ СИСТЕМЫ УПРАВЛЕНИЯ СОРТИРОВОЧНОЙ ГОРКОЙ ЖЕЛЕЗНОДОРОЖНОЙ СТАНЦИИ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ОПЫТА И ЗНАНИЙ ЭКСПЕРТА

Постановка задачи.

Сортировочная горка (СГ) является важнейшим элементом сортировочного процесса, обеспечивая переформирование прибывших на станцию составов. Проблема синтеза управляющей системы на СГ распадается на ряд подзадач:

- создание комплекса технических индикаторных и управляющих устройств;

- разработка технологии роспуска;

- разработка программно-математического обеспечения системы (ПМО);

- обеспечение безопасности (в том числе информационной) функционирования и др.

Данная работа посвящена исследованию некоторых вопросов, относящихся к , : , -пользовать опыт и интуицию экспертов. В данном случае горочных операторов, обладающих в настоящее время значительно лучшими показателями качества в автоматизированных системах по сравнению с аналогичными автоматическими.

Предлагается создание человеко-машинного комплекса, в котором человек « », . . , которой человек является не субъектом управления, а биологической составляющей управляющего комплекса.

Данная методология базируется на моделировании знаний, как об объекте управления, так и о самой управляющей системе. Особое внимание при этом уделяется моделированию знаний, полученных экспертным путем от специалистов,

цели и задачи ее функционирования.

Анализ существующих подходов.

На сортировочной горке управляются отцепы - группы рядом стоящих в железнодорожном составе вагонов, следующих в одном направлении, на основе ана-, , регулирование их скатыванием. Степень участия человека в формировании «ин-» :

1) , , блоки принятия решений, хранения моделей и данных и пр. /1,2/. В этом случае моделирование процессов управления осуществляется на основе статистического анализа статистических же данных.

2) -териев, эвристик, определяющих вид модели процесса или управления /2,3/. Исходными данными для моделирования служат результаты статистических наблю-

.

О возможности выбора оптимальной стратегии в зависимости от информированности игрока Текст научной статьи по специальности «Математика»

Похожие темы научных работ по математике , автор научной работы — Вовк С. П.

Текст научной работы на тему «О возможности выбора оптимальной стратегии в зависимости от информированности игрока»