Научная статья на тему 'Об одной задаче минимизации ущерба'

Об одной задаче минимизации ущерба Текст научной статьи по специальности «Математика»

CC BY
63
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАДАЧА О СЕКРЕТАРЕ / ЗАДАЧА О ПОИСКЕ НЕВЕСТЫ / ОПТИМАЛЬНЫЙ ВЫБОР / ОПТИМАЛЬНАЯ СТРАТЕГИЯ СТРАХОВАТЕЛЯ / ПРАВИЛО ОСТАНОВКИ / ТЕОРИЯ ПОЛЕЗНОСТИ / УРАВНЕНИЕ БЕЛЛМАНА / SECRETARY PROBLEM / MARRIAGE PROBLEM / OPTIMAL CHOICE / OPTIMAL STRATEGY OF AN INSURED PERSON / STOPPING RULE / UTILITY THEORY / BELLMAN EQUATION

Аннотация научной статьи по математике, автор научной работы — Осипенко К. К.

Рассматривается задача оптимальной остановки при наличии случайных убытков с принятием решения о единовременном привлечении внешнего механизма финансовой защиты. В задаче учитывается наличие функции полезности, определяющей отношение к риску лица, принимающего решение. Показано, что с помощью уравнения Беллмана оптимальные пороговые функции могут быть построены численно, а для некоторых видов функции полезности ив аналитической форме.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одной задаче минимизации ущерба»

Допустим, что при некотором € [О, Т] выполняется /гг(£*) = 0. Тогда отсюда и из (39) вытекает, что абсолютно непрерывная функция /г,2 (¿) = 0 на [0,Т]. Но тогда в силу (34) на [0,Т]

о 1

и мы получаем противоречие с тем, что (см. (31)) = 0. Таким образом, функция /гг(£) ф 0 при

£ € [0,Т]. Отсюда и из (35) вытекает, что /12 (¿) < 0 при £ € [0,Т]. Поэтому в случае (38) оптимальное управление й(1) оказывается эквивалентным на [О, Т] функции й(1) = 0.

Отметим, что в случаях (36)-(38) была получена важная для приложений информация о произвольном оптимальном управлении г>(£).

В заключение отметим, что результаты пунктов А, Б существенно упрощают практическое использование результатов основной части статьи.

Благодарю Н.Л. Григоренко и В.Ю. Решетова за консультации и ценные для меня советы.

СПИСОК ЛИТЕРАТУРЫ

1. Киселев Ю. Н., Решетов В. Ю., Аввакумов С. Н., Орлов М. В. Построение оптимального решения и множества достижимости в одной задаче распределения ресурсов // Проблемы оптимального управления. Вып. 2. М.: МАКС Пресс, 2007. С. 106-120.

2. Киселев Ю.Н., Аввакумов С.Н., Орлов М. В. Построение в аналитической форме оптимального управления и множеств достижимости в одной задаче распределения ресурсов // Прикладная математика и информатика. № 27. М.: МАКС Пресс, 2007. С. 80-99.

3. Понтрягин Л. С., Болтянский В.Г.,Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. М.: Наука, 1976.

4. Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.

5. Васильев Ф. П. Методы оптимизации. М.: Факториал Пресс, 2002.

Поступила в редакцию 21.05.08

УДК 519.8

К.К. Осипенко1

ОБ ОДНОЙ ЗАДАЧЕ МИНИМИЗАЦИИ УЩЕРБА*

Рассматривается задача оптимальной остановки при наличии случайных убытков с принятием решения о единовременном привлечении внешнего механизма финансовой защиты. В задаче учитывается наличие функции полезности, определяющей отношение к риску лица, принимающего решение. Показано, что с помощью уравнения Беллмана оптимальные пороговые функции могут быть построены численно, а для некоторых видов функции полезности — ив аналитической форме.

Ключевые слова: задача о секретаре, задача о поиске невесты, оптимальный выбор, оптимальная стратегия страхователя, правило остановки, теория полезности, уравнение Беллмана.

Введение. Предметом исследований данной статьи является задача минимизации ущерба индивидуума в условиях, когда в течение некоторого срока £ € [0,1] существует единовременная возможность привлечения внешних источников для покрытия одного из случайных убытков, возникающих в течение интервала. Подобным механизмом финансовой защиты может выступать, например, страховой полис, подразумевающий покрытие убытка страховой компанией, или общественный фонд, обеспечивающий возмещение.

хФакультет ВМиК МГУ, асп., e-maihkir.osipenkoQgmail.com.

*Работа выполнена при поддержке гранта Президента РФ "Поддержка научных школ", проект НШ-693.2008.1, гранта РФФИ, проект 08-01-00249.

Предполагается, что поступление убытков задано пуассоновским процессом с параметром /х, а величина каждого убытка (вне зависимости от времени поступления) есть случайная величина с известной функцией распределения -Р(у), у ^ 0. В данных условиях представляет интерес нахождение оптимальной стратегии лица, принимающего решение (ЛПР), т. е. субъекта, на средствах или состоянии которого отражаются убытки. Другими словами, задача состоит в поиске оптимального правила, в соответствии с которым при возникновении убытка принимается решение о его покрытии за счет собственных средств или же за счет внешнего источника. В качестве такой стратегии используется функция от времени £ и остатка денежных средств А — пороговое значение ущерба, в случае превышения которого имеет смысл обращаться за возмещением.

Подобная постановка задачи относится к классу так называемых задач о правилах оптимальной остановки (см. [1]). Отличительной особенностью этих задач является наличие случайного процесса, который может изменять благосостояние ЛПР, при этом в произвольный момент реализации существует возможность прибегнуть к некой опции, влияющей на дальнейший ход процесса (это может означать, например, остановить выбор на одном из объектов при поиске подходящего, израсходовать единственную возможность иска по страховому полису и т.д.). В общем случае имеется некий критерий, отражающий благосостояние ЛПР в любой момент времени, например сумма имеющихся средств или соответствующая функция полезности.

Зачастую оптимальное правило остановки в таких задачах строится на основе оценки математического ожидания финального значения критерия. По сути, это есть принцип динамического программирования, который играет центральную роль в решении задачи.

Отдельные элементы предлагаемой модели также присутствуют в известных задачах об оптимальной остановке. Наиболее распространенной из них является задача о выборе невесты, также известная как задача подбора секретаря (см. [2, 3]). В то же время в большинстве случаев задача о выборе невесты подразумевает принятие решений в определенные моменты времени, в то время как в данной постановке моменты возникновения ущербов случайны и определяются пуассоновским процессом. В [4] задача о выборе невесты была также решена и в условиях пуассоновского процесса, но в ней традиционно подразумевалось, что каждый из предлагаемых объектов рассматривается с точки зрения сравнения с остальными и основанием для остановки является его относительный ранг. Существенным же отличием нынешней постановки является случайная величина ущерба с заданным распределением, и в любой момент времени именно произошедший ущерб является основанием для принятия решения. Наконец, в данной задаче учитывается наличие среди прочих исходных данных известной возрастающей, непрерывной и вогнутой функции полезности и(у), определяющей отношение ЛПР к риску.

Отметим, что в [5] и [6] рассматриваются задачи построения оптимальной стратегии ЛПР применительно к автомобильному страхованию. В исследованиях в этой литературе система Бонуса Малуса предполагает изменение стоимости полиса в зависимости от объема и частоты исков по нему. Таким образом, обращение (или необращение) в страховую компанию сказывается на стоимости будущего покрытия, поэтому в каждый момент возникновения ущерба страхователь должен принять взвешенное решение о целесообразности его передачи в соответствии с условиями полиса.

Основными результатами данной статьи являются построенные для общего вида функции полезности уравнение Беллмана и разностная схема, с помощью которых находится численное решение задачи. Для линейной функции полезности (при нейтральном отношении ЛПР к риску) уравнение имеет аналитическое решение. Найденные функции оптимальных пороговых значений для различных функций полезности позволяют заключить, каким образом степень несклонности к риску влияет на стратегию ЛПР (см. также [7]).

Постановка задачи. Пусть на множестве (—оо, +оо) х [0,1] определена функция ./•( Л. /). значение которой равняется пороговой величине ущерба в момент времени I при наличии А денежных средств. Обращение за возмещением происходит тогда и только тогда, когда ущерб превышает пороговое значение, т.е. х(А^) представляет собой решающее правило ЛПР на отрезке времени [0,1]. Пусть ж(-), ¿о), ¿о € [0,1], есть математическое ожидание (м.о.) полезности и от остатка средств

на момент времени I = 1 при условии, что на момент времени I = ¿о имеется средств, возможность возмещения не израсходована, а х(-) — используемое решающее правило. По определению положим Ш(А,х(-), 1) = и(А). Отметим, что для любых фиксированных ¿0 и Аго величина Ш(Аго,х(-),1 о) зависит от множества значений {х{А-^1)\ ¿о ^ £ ^ 1} и не зависит от значений {x(At,t)\ 0 ^ £ < ¿о}.

Оптимальную функцию х*(-) определим из условия максимизации величины Ш(Аго,х(-),1 о) для любых фиксированных ¿0 € [0,1] и Аго:

Ш(Аго,х*(-)^о) > о) Щ-).

Требуется найти неизвестные функции х*(-) и \№{А,х*{-),Ь).

Для решения этой задачи рассмотрим дискретную математическую модель случайного процесса поступления убытков. Пусть весь отрезок времени £ € [0,1] разбит на п равных отрезков [¿^-1,^], ¿к = к/п, к = 1,... ,п, где п достаточно велико. Будем считать, что на полуинтервале либо

не поступает ни одного убытка, либо поступает один убыток и тогда Вк есть случайная величина возникшего ущерба с функцией распределения -Р(у), либо, наконец, поступает более одного убытка и тогда суммарный ущерб есть Вк. По свойству пуассоновского процесса вероятность реализации последнего случая бесконечно мала по сравнению с 1 /п. Отсюда случайная величина ущерба Хк на полуинтервале может быть представлена в следующем виде:

{О с вероятностью

Вк с вероятностью р = р(п) =

Вк с вероятностью о(1/п).

Пусть каждому полуинтервалу (или отрезку [¿п_ 1,1п] для к = п) соответствует неотри-

цательная функция Х)с(А) — пороговое значение ущерба для обращения за возмещением в момент £ € (или £ € [1п-1,1п] для к = п) при наличии А средств. Соответствующие оптимальные

пороговые значения будем обозначать как х*к{А). Отметим, что х*п{А) = 0 ввиду того, что на последнем отрезке при возможности всегда целесообразно передавать страховщику возникающий ущерб. По определению положим х^ = (х)~(А),..., хп(А)) и х*к = (х1(А),..., ж* (А)), к = 1 ,...,п, для обозначения произвольного и оптимального наборов пороговых значений на соответствующих временных интервалах. Основной целью является расчет всех компонент вектора х\.

Для каждого к = 0,..., п будем рассматривать случайную величину Ук — значение суммарного ущерба на отрезке времени при условии, что возможность для передачи ущерба отсутствует.

По определению ¥п = 0 с вероятностью 1. При к < п величина ¥к представляет собой случайную сумму

Ук = ¥к + ¥к+ ... + ¥?+ ... + ¥к1к. (1)

Здесь случайная величина М% есть число убытков, которые поступили на отрезке а ¥к и

[^¡¡(г)-!, ^¡¡(г)), вк(1) € {к + 1,..., п}, есть величина ущерба и отрезок времени, соответствующие 1-му убытку. Случайная величина М¡, принимает значение т € с вероятностью

ГШ

(см., например, [8]). Функцию распределения случайной величины ¥к обозначим как Ок(у). Случайные величины ¥к, 1 = 1,..., М^, независимы и имеют одну и ту же функцию распределения -Р(у).

Заметим, что для случая непрерывного времени мы одновременно можем определить случайную величину У* — значение суммарного ущерба на отрезке времени 1] при условии, что возможность передачи ущерба отсутствует. Соответствующая функция распределения есть О*{у). Тогда по аналогии

т!

Далее, определим случайную величину к = 0,..., п, — значение суммарного ущерба на отрезке времени при условии, что возможность передачи ущерба сохранена (не является израсходован-

ной). Пусть Агз — величина остатка средств на момент времени в = к,... ,п. В случае, когда на отрезке происходит обращение, выражение для имеет следующий вид:

гк = ¥1к + ... + ¥к_1+¥к+1... + ¥к1к=¥к^¥к,

где I = тт{г| Ук > )}, а в противном случае, когда V? = 1,..., М^, Ук ^ xsk^(Atsk

будет верно = Ук. Фактически I есть номер покрытого за счет внешних источников ущерба в терминах равенства (1) при заданной стратегии Л ПР.

Положим

Шк(А, хк+1) = Е[и(А - гк)], к = 0,..., п - 1, Шп(А) = и(А).

В соответствии с данным определением Шк(А,хк.ц) есть м.о. полезности и от остатка средств на момент времени ¿п при условии, что на момент времени Ьк имеется А средств, возможность возмещения одного из убытков сохраняется, а вектор хк+\ — набор выбранных на отрезке [1к,1п] пороговых значений. Таким образом, определение величины Шк(А, хк+\) для дискретного случая полностью согласуется с определением \№{А,х{-),Ь) для непрерывного случая.

Представим отрезок [1к,1п] как объединение промежутков [¿£,¿£+1) и [1к+1,1п]. Выразим Шк(А,хк+\) через Шк+\ (А,хк+2), воспользовавшись тем фактом, что при рассмотрении полной системы событий м.о. случайной величины может быть представлено в виде суммы соответствующих условных м.о. В предположении, что на полуинтервале [¿£,¿£+1) возникло не более одного убытка (вероятность дополнительного события есть о(1/п)), составим следующую таблицу, где наглядно представлено построение суммы интегралов в выражении для Шк.

Событие Вероятность события Остаток средств на tk+i М.о. полезности остатка средств на tn

Хк+1 = 0 1 — р — о(1/п) А Wk+i(A,xk+2)

о < хк+1 <: Хк+1 (А) Xk + i(A) р J dF(y) 0 А^хк+1 Wk+1(A^ Хк+\хк+2)

Xk+1 > Xk+i (А) со Р J dF(y) А СО 1 u(A-y)dGk+1(y) 0

Введем обозначения

оо оо

Lk(A) = J и(А- y)dGk(y), L(A,t) = j и(А - у) dG*(у), о о

попутно заметив, что lim Lk(A) = L(A,t). Основываясь на построенной таблице и отбрасывая

tfc—И, п—>-сю

бесконечно малые относительно 1 /п слагаемые, получим следующие соотношения:

Xk+i(A)

Wk(A,xk+1) = (1 ^p)Wk+1(A,xk+2)+р J Wk+1(A-y,xk+2)dF(y) +

о

сю

+ Lk+l{A)p j dF{y), к = 0,... ,n — 2,

xn (.4)

(2)

Шп.1(А,хп) = (1^р)Шп(А)+р I Шп(А — у) dF(y) + Ьп(А)р ^ dF(y),

0 хп(А)

Шп(А) = и(А).

Полученная система уравнений для дискретных аналогов искомых функций по сути есть постановка задачи в функциональном виде, которая необходима для построения аналитического решения.

Решение задачи в случае функции полезности произвольного вида. Введем следующие обозначения:

Ук(А,хк+1) = та,х\¥к(А,хк+1), А; = 0,... ,п - 2,

Х'к + 2

Уп-^хп) = УУп-^Хп), Уп(А) = \Уп{А), Ук(А) = тах Ук(А, хк+\), А; = 0,... ,п - 1,

Хк + 1

Уп(А) = Уп(А).

Для доказательства в числе прочего корректности данных определений приведем следующую лемму.

Лемма. Справедливы утверждения-.

1) функция Ук(А, хк+\) = тах Шк(А, хк+\) существует (максимум достигается);

Хк + 2

2) функция Ук(А) = тах!4(Д хк+\) = тахШк(А, хк+\) существует, причем максимум Ук(А,хк+1)

Хк + 1 +1

достигается в значении х1+1(А), являющемся корнем уравнения

Ук+1(А - хк+1 (А)) = Ьк+1(А);

3) функции Шк(А, хк+\), Ук(А, хк+\) и Ук(А) монотонно не убывают и непрерывны по аргументу А.

Доказательство. Воспользуемся методом математической индукции.

База индукции. Функции Уп-\{А,х„) и Уп{А) = Уп{А) совпадают с функциями {А,хп) и

Шп{А) = и(А) соответственно. Непрерывность и монотонность функции {А,хп) по А следуют

из непрерывности и монотонности функций и{А) и Ьп{А).

Далее, предположим, что все три утверждения верны для к = г + 1, и докажем их справедливость для к = г.

1. Рассмотрев полную систему событий подобно тому, как это было сделано при выводе системы уравнений (2), можно заключить, что

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

max Wr (А, a;r+i) =

Xr + 2

Хг + 1 (-4) ОО

= (1 -р) maxWV+i(A,хг+2) +р / тах Wr+i(A - y,xr+2) dF(y) + pLr+1(A) / dF(y).

Xr + 2 J Xr + 2 J

0 x.r+1(.4)

В силу того что утверждение 2 леммы верно для к = г +1, выражение max Wr+i(A, хг+2) существует

Хг+2

и равно Vr+i(А). Отсюда

х.г+1 (.4) ОО

Vr(A,xr+1) = (l-p)Vr+1(A)+p I Vr+1(A-y)dF(y)+pLr+1(A) j dF(y). (3)

0 xr+i(A)

Правая часть данного равенства существует ввиду непрерывности функции Vr+i(A). Следовательно, утверждение 1 верно для к = г.

2. Для нахождения х*+1(А), максимизирующего Vr(A,xr+i), продифференцируем равенство (3) по жг+1, предполагая при этом существование производной F'(y):

dVr(A,xr+1) = _ _ L (A))F/(

ОХ г-1_1

При xr+i(А) = 0 выражение Vr+i{A — xr+i{Ä)) — Lr+i(A) неотрицательно. В то же время lim и(у) =

у——ОО

= ^оо в силу монотонности и вогнутости функции и(у). Отсюда следует существование такого А' < А, что и(А') < Lr+i(A). Таким образом, для хг+\(А) = А — А' > 0 будет верно

Vr+1(A - xr+l{A)) - Lr+i(A) sC и(А - xr+l{A)) - Lr+1(A) < 0.

Учитывая непрерывность УГ+\{А) по А (утверждение 3 леммы), отсюда можно заключить, что х*г+\{А) ^ 0, являющееся корнем уравнения

УГ+1(А - хг+1{А)) = ЬГ+1(А),

есть точка, в которой выражение УГ{А, хг+\) достигает своего максимума.

Стоит отметить, что данное утверждение остается справедливым и в отсутствие предположения о дифференцируемости функции -Р(у).

3. Докажем вначале монотонность по аргументу А функции Шг (А, хг+\). Действительно, рассмотрим уравнение из системы (2), которое соответствует к = г. По предположению индукции функции И7Г_|_1(А, хг+2) и ЬГ+1(А) являются неубывающими; функция распределения -Р(у), очевидно, также не убывает. Отсюда следует, что Шг(Д хг+\) не убывает по А, так как представляет собой сумму неубывающих по А выражений. В то же время операция максимизации по пороговым значениям сохраняет данное свойство, следовательно, функции Уг(А,хг+1) и УГ(А) также являются монотонно неубывающими функциями по аргументу А.

Для доказательства непрерывности функции \¥г(А,хг+1) снова обратимся к уравнению из системы (2), которое соответствует к = г. Правая часть данного уравнения непрерывна по А в силу произвольности выбора вектора пороговых значений хг+\, а также непрерывности по А функций Шг+1 (предположение индукции) и Ьг+1 (следует из свойства непрерывности функции и(у)). Обратившись к уравнению (3) и применив схожие соображения, легко показать непрерывность функции УГ(А, хг+1).

Далее, докажем непрерывность функции УГ(А). Значение этой функции есть по сути выражение в правой части уравнения (3) при оптимальном х*+1(А). Из доказательства утверждения 2 известно условие, исходя из которого находится оптимальное х*.+1{А)\

Ук+1(А - хк+1(А)) = Ьк+1(А).

Следовательно, при подстановке оптимального х*+1(А) сумма второго и третьего слагаемых в правой части уравнения (3) может быть представлена в следующем виде:

оо

р У тах(Уг+1(А-у),Ьг+1(А))йР(у).

В силу того что функции Уг+г (А — у) и ЬГ+1(А) непрерывны по А, можно сделать вывод о том, что УГ(А) также непрерывна по А.

Теперь займемся поиском метода решения исходной системы уравнений (2).

Теорема. Функции Ук(А) = Шк(А, к = 0, ...,п, и х^(А), к = 1 ,...,п, удовлетворяют

следующей системе уравнений:

Х*к+1(А)

Г {1_р(г))<1гк+1(А-г), А = 0.....п-1,

Р I (4)

Уп(А)=и(А),

Ук+1(А^х*к+1(А)) = Ьк+1(А), к = 0,...,п-1, х*п(А) = 0.

Доказательство. Подставив г = к в равенство (3), получим рекуррентное соотношение для функции Ук(А, хк+\). По второму утверждению леммы максимум этого выражения достигается при хк+\ = х1+1(А), являющемся решением уравнения

Ук+1(А - хк+1 (А)) = Ьк+1(А).

Учитывая данное равенство, а также используя всюду в качестве порогового значения оптимальное х*к+1{А), преобразуем выражение для Ук(А):

+ СЮ

Ук(А) = (1-р)Ук+1(А)+р I Ук+1(А-у)йР(у)+рУк+1(А-х*к+1(А)) ^

0 х* + 1(.4)

Отсюда

ОО ОО

Vk(A)-Vk+1(A)

= J(Vk+1(A-y)-Vk+1(A))dF(y)- J (Vfc+i(A-y)-^+1(A-4+1(A)))dF(y).

P

0 x*+1(.4)

С учетом обозначения

ОО

R{z) = J{Vk+l{A ^y)^ Vk+l{A - z)) dF{y)

равенство преобразуется следующим образом:

Ук(А)-Ук+1(А) Р

Используя тождество

= R(0)-R(x*k+1(A))- (5)

ïî+iH)

Д(0)-Д(4+1(А)) = - J R'z

Zdz,

имеем

г»(л)-г.+.М = _ Г p J

к + 1

J lf^dVk+lidî^Z) dF(y))dz= f (l-F(z))dVk+i(A-z).

Итак, система уравнений для нахождения Ук(А), к = 0,..., п, и ж£(А), к = 1,..., п, имеет вид (4). С помощью полученной системы в дискретном случае последовательно находятся функции Уп(А), ж* (А), Уп-\(А), ж*_1(А), ..., У0 (А). Устремив в (4) число разбиений отрезка п к бесконечности, получаем основной результат — уравнение Беллмана для непрерывного случая:

х*(А,г)

У{{А,х* (•),*)

J (1 - F(z))dV(A-z,x*(-),t),

о

У(А,х*(-),1) = и(А), у(А ^ х*(А,г),х*= ь(А,г), х*(А, 1) = 0.

Тем не менее, для того чтобы численно построить решение задачи в случае нелинейной функции полезности и(у), необходима система именно для дискретного случая. При этом для расчета функции Ьк(А) можно воспользоваться равенством из [9]:

ОО

т=0

где = Ееи)У11 и Ф/г(ад) = /•.'<1г) 1 — преобразования Лапласа для функций распределения -Р(у) и

Ок{у) соответственно. С учетом выражения для рт,к и обозначения V = /х (1 — данная сумма может быть преобразована:

ОО ОО т

ф*(ад) = У'Рт крт('ш) = У" — = е"(¥>(«0-1).

г ' г 7П

ш—0 ш—0

Имея (р(и}), несложно восстановить функцию Ок{у) с помощью обратного преобразования Лапласа, примененного к и уже с помощью нее найти Ьк(А).

Ниже приводится пример расчета искомой функции х* (А, I) для экспоненциальной функции полезности и(у).

Пример 1. Пусть и(у) = /3(1 — е~ау), где а, ¡3 > 0. Тогда

Ьк(А) = Е[и(А - ¥к)] = ЕЦ3(1 - е"^4"1' >)] = /3 ( 1--- I .

В условиях исходных данных -Р'(у) = а2уе~ау; а = 0,01; /х = 0,2; а = 0,006; ¡3 = 600; = 350 получаем следующие результаты расчетов:

1/12 2/12 3/12 4/12 5/12 6/12 7/12 8/12 9/12 10/12 11/12

х*(А0,г) 145 133 121 109 96 83 70 57 43 29 15

Решение задачи в случае линейной функции полезности. Будем искать решение исходной системы уравнений (2) в простейшем случае, когда функция полезности является линейной:

и(у) = у.

Отметим сначала, что для рассматриваемого вида функции полезности

Шк(А - у,хк+1) = Шк(А,хк+1) - у, А; = 0,... ,п,

в силу того, что

Е[и{{А ^у)^ гк)] = Е[(А ^у)^ Хк\ = Е[и(А - гк)] - у. Отсюда следует, что для линейного случая

сю

ВД= У^-у) йЕ{у).

г

Также можно заключить, что хк+\ = х1+1(А), при котором достигается максимум Ук(А,хк+{), может быть записано в явном виде:

х*к+1(А) = Ук+1(А)^Ьк+1(А). (6)

Преобразуем с использованием данных выводов равенство (5):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

сю сю

о х* + 1(.4)

сю

= + [ у ту + хиЛА)).

Р Р .1

о

Таким образом, получаем рекуррентное соотношение для х*к(А)\

сю

Х*к+1(А) -хк(А) = -р ! уйЕ{у +х*к+1{А)), к = 0, ...,п-1, < = 0.

о

Устремив число разбиений отрезка п к бесконечности, получим уравнение Беллмана

сю

дХ*т,1) I х*(А,1) = 0. (7)

х*(А,г)

Из него следует, что при линейной функции полезности искомая функция х* (А, I) не зависит от А. 14 ВМУ, вычислительная математика и кибернетика, № 2

Метод решения данного уравнения предполагает последовательное определение следующих функ-

ции:

у

Fi(y) =1~J dF(y),

о

iV оо

f Fi(y)dy- f ydF (у)

F3(y) =

F2{y)

dy.

Тогда

где ^з"1 — функция, обратная к ¿<3. Справедливость данной формулы для ж*(£) проверяется непосредственной подстановкой в интегро-дифференциальное уравнение (7). Из (6) вытекает

у(А,х*(-),г) = ь(А,г)+ х*(г).

Пример 2. Пусть и(у) = у. Тогда

ОС

Ьк(А) = Е[и(А - ¥к)) = А - Е[¥к) = №* + У2 + • • • + ГшММк = т)) =

т=О

ОО

= А — Е[Мк]Е[¥к] = А-ydF(y).

о

В условиях исходных данных -Р'(у) = а2уе~ау; а = 0,01; /х = 0,5; А = 350 имеем

у

¿Му) = (ау + 1)е-в», = -/х ЗД) = -1 ^^ 2)

о

Значения функции ¿^(у) и обратной к ней необходимо находить численно. Получаем сле-

дующие результаты расчетов:

t 1/12 2/12 3/12 4/12 5/12 6/12 7/12 8/12 9/12 10/12 11/12

x*{t) 75 69 63 58 51 45 38 31 24 17 9

Таким образом, для заданного набора входных параметров в численном виде решена задача нахождения оптимальной стратегии x*(t) для случая линейной функции полезности и(у).

СПИСОК ЛИТЕРАТУРЫ

1. Березовский Б. А., Гнедин А.В. Задача наилучшего выбора. М.: Наука, 1984.

2. Ferguson Т. Who solved the secretary problem? // Statistical Science. 1989. 4. N 3. P. 282-289.

3. Гусейн- Заде C.M. Разборчивая невеста. М.: МЦНМО, 2003.

4. Cowan R., Zabczyk J. An optimal selection problem associated with the Poisson process // Theory of Probability and its Applications. 1978. 23. P. 584-592.

5. Лемер Ж. Системы Бонуса-Малуса в автомобильном страховании. М.: Янус-К, 1998.

6. Venezia I., Levy Н. Optimal claims in automobile insurance // Review of Economic Studies. 1980. 47. N 3. P. 539-549.

7. Diamond P., Stiglitz J. Increases in risk and in risk aversion // J. Economic Theory. 1974. 8. P. 337-360.

8. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 2. М.: Мир, 1967.

9. Лаврентьев М. А., Шабат Б.В. Методы теории функций комплексного переменного. М.: Наука, 1973.

Поступила в редакцию 23.06.08

i Надоели баннеры? Вы всегда можете отключить рекламу.