УДК 519.248
А.Ф. Колосков1
МОДЕЛЬ РАСЧЕТА БОНУСА-МАЛУСА С ПЕРЕМЕННЫМ ТРЕНДОМ*
В статье рассматривается модель бонуса-малуса с переменным трендом в случае трехпараме-трического гамма-распределения, по статистическим данным подбираются параметры распределения и величина тренда, выписываются индексы бонуса-малуса.
Ключевые слова: модель автострахования, индексы бонуса-малуса, метод максимального правдоподобия, смешанное пуассоновское распределение, апостериорное распределение, гамма-распределение.
Введение. В [1] рассмотрена следующая модель автострахования. Распределение числа страховых случаев N является смешанным пуассоновским с параметром Лг/*-1, где V характеризует тренд частоты исков, а 4 — номер текущего года. Рассматривается неоднородная группа водителей, когда случайная величина Л имеет плотность распределения где в — переменная структуры класса
распределений. Распределение случайной величины N есть
сю
\п
е~х ■ — •кв(Х)йХ.
п\ о
В [1] для случайной величины Л использованы гамма-распределение и обратно-гауссовское распределение. Для каждого из них по статистическим данным методом максимального правдоподобия подбираются параметры распределения и величина тренда, выписываются индексы бонуса-малуса. В каждый последующий год с использованием байесовского подхода происходит перерасчет параметров распределения, величины тренда и индексов бонуса-малуса.
В настоящей работе результаты из [1] обобщаются на случай, когда распределение числа страховых случаев является смешанным пуассоновским с параметром где = V... ■ щ~\ (¿¿о = щ = 1), а вектор = (г^ъ • • •, Щ-г) характеризует переменный тренд частоты исков. Рассматривается трехпараметрическое гамма-распределение с плотностью
сю
МА) = Щ '(А " е)Г_1' е~а(А~£)' г(г) = /лг~1е~А лк (1)
О
где Л ^ е, е ^ 0, а > 0, г > 0, в = (а, г, е).
По общей статистике исков, максимизируя функцию правдоподобия Ь, можно восстановить неизвестные параметры распределения а, г, е. Пусть п/;, к = 1,..., К, — число исков, поступивших от к-го водителя в течение года, где К — общее число водителей в рассматриваемой группе.
Обозначим через ] = число водителей, предъявивших страховой компании ] исков,
где I — максимальное принимаемое компанией количество исков от одного водителя. С учетом этой перегруппировки данных получаем Ь = рП1 ■... ■рПк = р•... •р^, где рп — вероятность предъявления водителем п исков в 1-м году.
Пусть имеется статистика происшествий за £ лет (I ^ 2). Для нахождения неизвестных параметров распределения используются агрегированные показатели. Пусть для 1 = 2 величина (¿„1)П2 — число водителей, предъявивших п\ исков в 1-м году и пг исков во 2-м году. Для 1 = 3 (¿П1+П2)Пз — число водителей, предъявивших п\ + пг исков за первые 2 года и пз исков в 3-м году, и т.д.
При £ ^ 2 в функцию правдоподобия входит также параметр В случае постоянного тренда
= ь>г~1) оценка данного параметра не зависит от параметров распределения в (см. [1]). В п. 3 показано, что в случае изменяющихся параметров тренда данное свойство также сохраняется.
хФакультет ВМиК МГУ, асп., e-maihakoloskovQmail.ru
*Работа выполнена при поддержке гранта Президента РФ "Поддержка научных школ", проект НШ-693.2008.1 и гранта РФФИ, проект 08-01-00249.
рп = Р(Ы = п) = [
Водители в начале каждого года уплачивают компании страховой взнос. Сумма взноса для каждого водителя определяется индивидуально, исходя из предыстории его исков компании. Пусть случайная величина Щ является числом исков, предъявленных водителем в г-м году, тогда (п\ ... ,гц) — реализация последовательности (N1,..., Л^) за £ лет. Исходя из этой статистики и оценок параметров модели Щ-1, 0 апостериорное распределение частоты страховых случаев в следующем, (I + 1)-м году находится по формуле Байеса
= —-:-""
Щ-1,6
-X* -кё(Х) (IX
где (ц(щ-1) = X) Мг-ъ £ = щ, а — априорная плотность распределения.
г=1 г=1
В данной работе получены явные формулы для апостериорного распределения числа страховых случаев, а также выписана формула для индексов бонуса-малуса /^(п!,..., щ, На примере
статистических данных, использованных в [1], показано, что модель с переменным трендом позволяет лучше аппроксимировать частоту предъявления исков.
1. Апостериорное распределение числа страховых случаев. При известном значении параметра Л = Л распределение для последовательности (Н1,..., Щ) выглядит следующим образом:
г
рЪ-1 (Л^ = щ,..., ЛГ* = щ\А = X) = Д Р(Щ = щ\А = X) = В ■ . лг, (2)
¿=1
где В = П (Мг-х)^ / Ппг!-
г= 1 / г= 1
Апостериорное распределение числа страховых случаев в следующем, (I + 1)-м году при заданной истории страховых случаев (щ,... ,щ) для конкретного водителя есть
сю
= т\Мг =пъ...,щ = щ) = ^ Р(ЛГ,+1 = т|Л = (IX.
е
С учетом формулы для апостериорной плотности получаем
сю
/ е -А'а'+1 ^ ■ Хг+т ■ ¡10 (Л) йХ = т\Мг = щ, ..., ЛГ, = щ) = ^ • ^-. (3)
е
Рассмотрим теперь формулу для совместного распределения величин /V1...../V/. Учитывая (2),
имеем
сю
рЪ-ив^ =пъ =Щ) = I Р^-^Ыг = щ,..., Щ =щ\А = А)- МЛ) АХ =
£
СЮ
= В- ! -Хг -¡1в{Х)й X. (4)
е
Распределение числа исков в следующем, (I + 1)-м году при имеющейся истории исков находится по формуле
Р*"в(Щ+1 =т) = Р*"в(Ъ+1 = т\Ы1 = щ,... = щ) ■ Рр^'в(Мг = щ,... = щ). Из (1), (3) и (4), полагая Л' = Л — е, находим
Pff*'e(Nt+1 = т) = В ■ • /е-WiW) . лг+™ • h0(X) d\ =
ml J
£
СЮ
(/it)™ J e-(A'+e)-at+1(i?t) . (у + £y+m . hf)(X, + ¿д/ =
( \ rri r z-\-m
= в ■ {ßt) ■ — • e-^t+i(fft) . у
ml ГГгЛ '
= Б
ml
о
Ыта e-e.at+lW) у":Ckz+m-ek-Y{z + m^k + r)
ml Г (r) {а + а1+1{щ)У+т~к+г
2. Индексы бонуса-малуса. В [1] индекс бонуса-малуса определяется как отношение апостериорного математического ожидания предполагаемого числа исков к априорному:
т ( - а\ шп E(Nt+1\N1 = n1,...,Nt = nt) It+1{m,... ,nt,ist-i,0) = 100--E(Nt+1)-'
Используя формулу повторного математического ожидания, мы можем записать E(Nt+1\N1=n1,...,Nt = nt) = E(A\N1=n1,...,Nt=nt) =
сю
= / = ^-,
{ f е_А'а'(£г'-1) • Лг • hff(X) dX
£
E(Nt+1) = E(A)=e + ~.
а
Отсюда
Z+ 1
V Г<к Л Г(г+1-/г+г)
fc=0 +1 ' (e+«t(*t-i))I+а
/t+i(ni,... = 100
v Гк Fk T(z-k+r) ea + r
k=Q (a+at(£ft_i))'-"+
3. Восстановление параметров распределения. Вероятность предъявления водителем п ис-
ков в течение 1-го года равна
Рп= I е"А ~ • ^ ' (Л - £)Г_1 ' е"а(л"£) dX =
nl Г(г)
а • е
Г(г) • п!
fc fc . +
n ( „, i 1 Ч г-—— fc '
k=0
(a+ 1)*
Функция правдоподобия записывается следующим образом:
1 / rv / 1 / j
Ь = '(ЕС? • **■(« + !>»
i=0
а + 1
fc=o
(r + j ~ к — 1) • • • • • г
d.
Обозначим через п среднее число исков на полис, тогда / К.
Из равенства К = ^ dj получаем
L = е
-е-К
3=0
X г-К / 1 \ п-К I / 3
а -ШЕ^ •efc-(«+i)fc
а + 1 J \а + 1 J 3
' 4 ' j=0 k=Q
(г + j — k — 1) • ... • г
Г-
Положим А(е, k, j) = Cfc • ек ■ (а + l)fc
(r+j—к — 1)-...-г ß
Будем максимизировать логарифм функции правдоподобия
= ^е ■ К + г • К ■ (Ыа - 1п(1 + а)) - п • К • 1п(1 + а)+ 1п( ^ А(е, к,]) ■ (а + 1)Л.
3=О /г=0 '
Утверждение 1. Максимум функции Ь\ по переменным а, г, е достигается при а = Доказательство. Запишем необходимые условия максимума первого порядка по а и е:
в /114 1 « + Г
Ь1{г,е,а)=г -К- - - ) + -= 0, (5)
да \а 1 + а / 1 + а з
к=О
д I •(« + !)*•*
—Ьг(г, = + ^ ^ • -= 0. (6)
к=О
Умножая (5) на и вычитая из (6), получаем а =
Таким образом, при оптимизации функции правдоподобия один из трех параметров можно исключить.
Утверждение 2. При совместное распределение величин N1,..., Л^ выражается
через вероятностное распределение смешанного пуассоновского закона для случайной величины
М V с семейством параметров г](щ~1,в) = (с*!,п,£1), где а\ = г\ = г, Е\ = е-а^Щ-1),
г= 1
полученных из исходного семейства параметров в = (а, г, е).
Доказательство. В формуле (4) сделаем замену переменной под знаком интеграла А1 = = 1) • А, домножим и разделим интеграл на величину В результате получаем
оо
= щ,..., Nt = щ) = В ■ ? ■ [ e~Xl • 4 • <r1,e(Ai) dAb
{щ{щ-1)г J z\ 1
e-at(?t-1)
где {Ai) = h$ • at^t ^ — плотность распределения для случайной величины Ai =
= at{Pt-1) • Л.
Соотношение для совместного распределения можно записать следующим образом:
=nu...,Nt=nt) = B- , .. • Р^-ив){м = (7)
\<Н\Щ-1)Г
Записывая полученное соотношение для каждой индивидуальной статистики ..., п^) и учитывая (7), получаем функцию правдоподобия для смешанного распределения при t ^ 2:
к
г« _ „(*) АТ
L(NU ...,Nt, щ.ъв) = Д P{N[k) = nf\ ..., Nt{k} = nf) =
к= 1
К * m
п
k=li=l
к
Y, zW
(at(vt-i))h=1
■L1
zW, k = l,...,K, фг-ъО)
где = £ п{к\ а к = 1,... ,К, г](щ-Ъв)} = П = _ функция правдо-
г=1 к=1
подобия для случайных величин, распределенных по смешанному пуассоновскому закону с плотностью кг]^^!^) структурной переменной класса.
Отсюда
In L = K ■
щ • In /X.
г —1
i= 1
In Li — К •
E
■¿=1
щ
In at(i?t_i),
где щ = ( X)
A"
fc=i
К
среднее количество исков за г-ш год.
Из необходимых условий максимума первого порядка получаем систему уравнений для нахождения неизвестных параметров г^,...,
ЭInL _ дЫЬг drn{fft-i,0) _ n / — 1
— Z^ dm ' дв, — и, t — ±,..., </
9 „ t
д$1
i= 1
¿=1
j = 1,... ,i - 1.
¿=i+l
Ш1 drn(fft-i,0) I А" V w А" V w /■„ Л7 \ „ Л7 \\ _ n
-- Ъ ---Щ-+ Ц- . Ъ л ni - vyatPt-!) Ь ni ■ \аг\Щ-1) - aj{Vj-iJJ - (J,
(8)
В (8) якобиан преобразования г](щ~1,в) (как функции в) невырожденный. Система эквивалентна следующей:
д^пЬг п • 1
и, I, ±, . . . , у,
¿ + 1
Е »»
= <ч("з-1) ■ 1Т-' = 1, . . . - 1.
Е Пг 1=1
Отсюда получаем рекуррентные соотношения
(1 + г/1 + г/11/2
г^г/2 ■ ■ ■ Vj-i) nj+1
viv2 • • • г/j-i
з _
Е «г
г=1
j = l,
- 1.
(9)
Таким образом, при £ ^ 2 поиск максимума функции правдоподобия для рассматриваемого распределения допускает декомпозицию. Действительно, сначала независимо от параметров распределения а, г, е по формулам (9) оцениваются неизвестные параметры тренда для ¿-го года г/1,..., затем по агрегированной статистике рассчитываются параметры «1, г 1, и, зная отображение г](щ-\,в), находятся параметры а, г, е.
Пример. На основе статистических данных из [1] для ¿=1,2 произведен расчет теоретического числа страховых случаев для гамма-распределения со сдвигом. По критерию х2 оценивались отклонения наблюдаемых от теоретических распределений страховых случаев (табл. 1, где £ = 1, и табл. 2, где £ = 2). В каждой ячейке табл. 2 три строчки: 1-я — статистика, 2-я — теоретическое распределение страховых случаев (гамма-распределение со сдвигом), 3-я — отклонения наблюдаемых от теоретических распределений страховых случаев.
Таблица 1
п Статистика Гамма-распределение Обратно-гауссовское распределение Гамма-распределение со сдвигом
0 881 705 881 769,5 881636,7 881726,9
1 142 217 141993,8 142 444,7 142 236,6
2 18 088 18 266,3 17838,7 17986,4
3 2118 2152,6 2205,6 2198,8
4 273 242,1 283,9 268,1
5 53 29,7 44,4 32,7
— 24,92 9,42 16,24
Суммарное отклонение наблюдаемых от теоретических распределений страховых случаев при I = 2: х2 = 138,6 (гамма-распределение [1]), х2 = 108,1 (обратно-гауссовское распределение [1]), X2 = 100,9 (гамма-распределение со сдвигом). Расчет также показывает, что при е = 0 и £ = 3 модель с переменным трендом лучше аппроксимирует исходные данные, чем с постоянным.
Таблица 2
Число исков
П\ П2
0 1 2 3 4 5
763 782 105 046 11539 1206 112 20
0 763 725 105 388,1 11271,8 1140,2 113,2 11,1
(0,0) (1.1) (6,3) (3,8) (0,0) (7Д)
113 778 24 246 3656 471 55 11
1 113 716,7 24325,2 3690,8 488,6 60,1 7Д
(0,0) (0,3) (0,3) (0,6) (0,4) (2,2)
13 441 3731 747 148 20 1
2 13123,8 3982,5 790,9 129,6 19 2,6
(7J) (15,9) (2,4) (2,6) (ОД) (1)
1380 571 138 19 9 4,7 1
3 1432,4 568,9 139,9 27,4 0,7
(1.9) (ОД) (0,0) (2,5) (4)
160 81 22 8
4 153,5 75,5 22,1 0,2
(0,3) (0,4) (0,0) О
17 18 6 0 0,2 8
5 16,3 9,6 3,3 0,8 0
(0,0) (7,5) (2,3) (30,1)
СПИСОК ЛИТЕРАТУРЫ
1. Besson J.-L., Partrat С. Trend et systèmes de bonus-malus // ASTIN Bull. 1992. 22. P. 11-31.
2. Лемер Ж. Системы бонус-малус в автомобильном страховании. М.: Янус-К, 2003.
3. Бауэре Н., Хикман Дж., Гербер Л. и др. Актуарная математика. М.: Януе-К, 2001.
Поступила в редакцию 12.02.2008
УДК 681.3:519.9:519.68:612.001.57 Е.А. Попова1
МЕТОД ПАРАЛЛЕЛЬНОГО ПОСТРОЕНИЯ КОМИТЕТА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ОБРАБОТКИ СИГНАЛОВ ЭЛЕКТРОЭНЦЕФАЛОГРАФИИ
В работе описан метод параллельного построения ансамбля классификаторов для решения задачи локализации нейронных источников внутри мозга на основе анализа сигналов электроэнцефалографии (ЭЭГ). Идея предложенного параллельного численного метода — рассмотрение параметров источников как атрибутов деревьев решений, которые строятся параллельно. Метод основан на формировании тренировочного набора данных по экспериментальному сигналу и построении классификатора на основании значения ошибки по потенциалу — разницы экспериментальных измерений и модельного потенциала. Рассматривается эффективность распараллеливания задачи локализации — распределения данных между процессорами и распределенного обучения ансамблей деревьев решений. Представлен анализ масштабируемости задачи построения ансамблей классификаторов с числом процессоров при решении задачи локализации нейронных источников на многопроцессорных вычислительных комплексах. Параллельный алгоритм локализации источников разработан для архитектур с общей и распределенной памятью. Реализация выполнена с помощью технологии MPI, в работе также обсуждается гибридная модель параллельных вычислений на MPI и ОрепМР.
Ключевые слова: деревья решений, обработка сигналов, локализация источников, параллельное программирование.
1Факультет ВМиК МГУ, асп., e-mail:[email protected]