Научная статья на тему 'О построении функции полезности игрока'

О построении функции полезности игрока Текст научной статьи по специальности «Экономика и бизнес»

CC BY
121
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О построении функции полезности игрока»

Секция прикладной информатики

УДК 519.8

С.П. Вовк

О ПОСТРОЕНИИ ФУНКЦИИ ПОЛЕЗНОСТИ ИГРОКА

При принятии рациональных решений лицо, принимающее решение (ЛПР), стремится к максимизации ожидаемой полезности. ЛПР каждому возможному исходу приписывает полезность из диапазона [0,1] [0,50].

отражает его предпочтения к тем или другим исходам в зависимости от отношения .

Если ЛПР безразличен к риску, решение принимается на основании ожидаемого выигрыша. Функция полезности U(v) в этом случае является прямой с положительным наклоном, где V - прибыль, получаемая при различных исходах. Для принятия решения в случае небезразличия ЛПР к риску нужно обнаружить индивидуальное отношение к риску и построить индивидуальную функцию, воспользовавшись двухшаговой процедурой Дж. Неймана и О. Моргенштерна.

1.

лучшего 8 и худшего исходов 8. Например, и(8)=1 и Щб)=0. Тогда полезности промежуточных выигрышей будут находиться в [0,1].

2. Игроку предлагается на выбор: получить некоторую гарантированную сумму V или принять участие в игре: получить с вероятностью р 8, а с вероятностью (1-р) - 8. Вероятность р изменяется до тех пор, пока ЛПР станет безразличным в отношении к выбору между V и игрой. Тогда полезность гарантированной суммы определяется как и^)=р0Щ8)+(1-Ро)Щб).

Методология рационального принятия решений в условиях неопределенности, основанная на функции полезности индивида, опирается на пять аксиом (срав-, , , , ), которые отражают минимальный набор необходимых условий непротиворечивого и рационального поведения игрока. Особо важное значение имеет аксиома ранжирования: чем больше вероятность крупного выигрыша, тем больше игра “стоит”, . . .

В качестве сферы применения рассмотрим игровое моделирование взаимодействия “педагог - студент”. В условиях отсутствия информации о вероятностях исходов для определения лучшей альтернативы ЛПР может воспользоваться нечетким отношением доминирования по полезности. Для попарного сравнения исходов необходимы нечеткие оценки их полезности, получаемые в результате отображения множества исходов на функцию полезности другого игрока. Таким обра-,

функция полезности противника.

Рассмотрим построение функции полезности для обучаемого. При отсутствии информации о вероятностях исходов ранее представленная процедура напрямую применена быть не может, но педагогу достаточно просто представить оценки по-

лезности исходов, зависящие от сложности задания и попытки его выполнения (табл. 1).

Таблица 1

Стратегия педагога по отношению к студенту с“ низкими” способностями Оценка исхода Средняя полезность при низком ее первоначальном уровне Ннзкая оценка полезности нри высоком ее первоначальном уровне

Не применять 1<1 0 0 0

К1 1 0,72 0,6

К1 К1 0,8 (0,72+0,48)/2=0,6 (0,6+0,5)/2=0,55

К1 К1 К1 0,6 (0,72+0,48+0,26)/з=0,487 (0,6+0,5+0,4)/з=0,5

К1 К1 К2 [0,6;0,8] V [0,8;1] (0,72+0,48+0,4)/з=0,5зз (0,6+0,5+0,5)/з=0,5зз

К1 К1 Кз [0,8;1] (0,72+0,48+0,72)/з=0,64 (0,6+0,5+0,6)/з=0,566

К1 К 2 1,зз (0,72+0,7)/2=0,71 (0,6+0,66)/2=0,6з

К1 К 2 К2 0,8 (0,72+0,7+0,4)/з=0,606 (0,6+0,66+0,5)/з=0,587

К1 К 2 Кз [1;1,зз] (0,72+0,7+0,72)/з=0,71з (0,6+0,66+0,7)/з=0,65з

К1 Кз [1,зз;1,66] (0,72+0,89)/2=0,805 (0,6+0,7)/2=0,65

К1 Кз Кз 1,зз (0,72+0,89+0,5)/з=0,70з (0,6+0,7+0,6)/з=0,6зз

На основании табл. 1 определяем И(8)=0,805 и ИХ)=0. Тогда и(у)= =0,805р0=0,805 и р0=1.

По величине средней полезности отдельных исходов строим функцию полезности игрока как верхнюю границу области оценок (см. табл. 2).

При некотором исходе функция полезности перестает изменяться. Эту величину предлагается рассматривать как и(у). Численное значение V определяется на основе табл. 1 как исход, имеющий И^).

Таблица 2

Исход Полезность при небезразличном отношении к риску Полезность при безразличном отношении к риску

0 0 0

0,6 0,5зз 0,25

0,8 0,64 0,4

1 0,72 0,6

1,зз 0,805 0,8

1,66 0,805 1

Анализ данных табл.2 показывает, что, начиная с v=1,33, игрок рассматриваемого класса предпочитает гарантированную сумму и отказывается от проведения игры. Поскольку в рассматриваемом классе игр всегда И^)=0, то р0= И^)/ И(Б), а в рассматриваемой ситуации, представленной в виде табл. 1, р0=1.

Исследование многообразия типовых позиционных деревьев, моделирующих взаимодействие “педагог-с^дент”, зависит от способностей обучаемого и размерности шкалы оценки исхода. Следовательно, для обоснования предложенного способа построения функции полезности требуется исследовать:

1) , выполнения;

2) влияние способностей обучаемого на величину V.

. 1 ( 1) первой попытки общения между педагогом и студентом. Во время второй и треть-

( 2) ( 3)

уровни сложности заданий.

Для построения функции полезности педагога при малом количестве “состояний природы” (состояний студента) проводилось анкетирование среди

представителей класса с одинаковой лояльностью к ошибкам студента. При обработке данные должны были объединяться по классам индивидов, ведущих обучение по разным дисциплинам у экспериментального потока, но обладающих одина. , оказался определяющим для группы и был определен при анонимном опросе по.

Представителям класса с одинаковой лояльностью к ошибкам было предложено оценить полезность каждого из уровней сложности во время первой, второй, третьей ошибок общения. Поскольку выставляемые оценки различались, то в расчетах использовались оценки полезности, названные не менее 70% опрошенных. Фактически была использована процедура, аналогичная определению дидактических характеристик учебных заданий.

Оценки полезности педагога, назвавшего низкое первоначальное значение полезности при 1-й попытке в случае 3-х уровней сложности заданий, представлены в табл. 3.

Функция полезности строилась с использованием информации о предпочтениях по каждой из имеющихся тактик. Поскольку каждая из тактик представляет определенную последовательность уровней сложности, то полезность тактики может быть оценена как сумма полезности последовательно выполняемых заданий определенных уровней сложности во время соответствующих попыток. Поскольку каждая тактика связана с интервалом исходов на множестве исходов, то существуют полностью или частично пересекающиеся интервалы различающихся оценок. Поэтому полезность на интервале перекрытия оценок должна быть, по крайней мере, такой же, как у самой слабой (по предпочтению) оценки на этом интервале, т.е. U(ю) = inf {u f }, где uf - предпочтительность тактики af.

юеО. f

Таблица 3

Низкая оценка полезности при 1-й попытке Высокая оценка полезности при 1-й попытке

Уровень 1-я 2-я 3-я Уровень 1-я 2-я 3-я

сложности попытка попытка попытка сложности попытка попытка попытка

Ki 0,72 0,48 0,36 К1 0,6 0,5 0,4

К2 - 0,72 0,4 К2 - 0,66 0,5

Кз - 0,89 0,5 К2 - 0,7 0,6

Анализ данных табл. 3 показывает, что низкий первоначальный уровень оценки полезности не влияет на величину у, за которую обучаемый готов отказаться от игры.

Проанализируем влияние способностей к обучению на величину гарантиро-. , -дания и попытки его выполнения, для студента с “высокими”, “средними”, “слабыми” способностями к обучению представлены в табл. 1, 4, 5.

Таблица 4

Стратегия ЛПР по отношению к студенту со “средними” способностями Оценка исхода Средняя полезность

Не применять К2 0 0

К2 1,33 0,64

К2 К2 1 (0,64+0,49)/2=0,565

К2 К2 К2 0,8 (0,64+0,49+0,18)/3=0,437

К2 К2 К3 [0,8;1] (0,64+0,49)/2=0,506

К2 К3 [1,33;1,66] (0,64+0,56)/2=0,6

К2 К3 К3 [1;1,331 (0,64+0,49+0,46)/3=0,53

На основании данных табл. 4 определяем и(у)=0,64р0=0,6 и р0=0,9375. Видно, что при выигрыше 1,33 наступает безразличие между у и игрой.

Таблица 5

Стратегия ЛПР по отношению к студенту со “ ” Оценка исхода Средняя полезность

Не применять К3 0 0

К3 1,66 0,72

К3 К3 1,33 (0,72+0,89)/2=0,805

К3К3К3 1 (0,72+0,89+0,5)/3=0,703

К2 К2 К3 [0,8;1] (0,64+0,49)/2=0,506

К2 К3 Г1,33;1,66] (0,64+0,56)/2=0,6

К2 К3 К3 [1;1,33] (0,64+0,49+0,46)/3=0,53

. 5, -

рышем и игрой.

Анализ данных табл. 1, 4, 5 подтверждает, что чем выше “обучаемость” студента, тем выше размер гарантированной суммы, за которую игрок готов отказаться от игры. Вывод соответствует рациональному поведению игрока.

,

дерева выступает степень обучаемости студента, что в принципе соответствует

.

Предлагаемая процедура построения функции полезности может использоваться для определения нечетких оценок полезности исходов игроков, используемых в играх с нечеткими исходами и предпочтениями игроков.

УДК 519.14

С.А. Котеленко

РАСШИРЕНИЕ СПЕЦИФИКАЦИИ OWL ДЛЯ ОПИСАНИЯ НЕЧЕТКИХ

ЗНАНИЙ

Широкое распространение концепции семантической архитектуры сети Интернет - Semantic Web привело к возникновению различных технологий для реализации .

, ( ), -сящихся к определенной области знаний. При этом онтологии должны быть расширяемыми и взаимодействующими друг с другом. Для описания нечетких понятий в

,

необходимо разработать методологический подход для расширения спецификации OWL. Эта спецификация взята за основу, поскольку де-факто является стандартом описания онтологий в Сети, предложенным консорциумом W3C.

В отличие от подхода на основе байесовских сетей предлагается использовать , - -чающийся в преобразовании RDF графа OWL описания в нечеткий граф. Для выполнения этого преобразования необходимо добавить в спецификацию элементы , . понимается направленный взвешенный граф с нечеткими весами ребер. В этом

i Надоели баннеры? Вы всегда можете отключить рекламу.