Научная статья на тему 'Применение метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков страховой компании'

Применение метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков страховой компании Текст научной статьи по специальности «Экономика и бизнес»

CC BY
684
95
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
моделирование убытков / РПНУ случайные леса / страхование / loss modelling / IBNR / random forests / insurance

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Д.В. Денисов, Д.К. Смирнова

Целью настоящей работы является оценка применимости метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков (РПНУ) страховой компании по страхованию иному, чем страхование жизни. В основе задачи лежит статистический метод случайных лесов (Random forests). Для целей моделирования использовались реальные данные двух страховых компаний по прямому страхованию средств автотранспорта (КАСКО) за период 2009-2014 гг. Было проведено сравнение результата оценки РПНУ на 31.12.2014 г. методом случайных лесов с результатами расчетов стандартными методами (цепной лестницы и Борнхютера-Фергюссона по треугольникам оплаченных убытков). В целом, можно сделать вывод, что метод случайных лесов может быть применен для оценки РПНУ в качестве альтернативного алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Application of Random forest method to estimate the incurred but not reported claims reserve of an insurance company

The purpose of this report is to explore the applicability of Random forest method to assess the incurred but not reported claims reserve (IBNR) of a non-life insurance company. The research is based on the statistical method of Random forest. The actual data on the direct hull insurance of two real companies for the period 2009-2014 were used. The IBNR valuated on 31.12.2014 by Random forest was compared with the results of standard calculation methods (chain ladder and Bornhuetter − Ferguson on paid triangles). In general, we can say that the Random forest method can be applied to assess the IBNR as an alternative algorithm.

Текст научной работы на тему «Применение метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков страховой компании»

Применение метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков страховой компании

Д.В. Денисов, Д.К. Смирнова

Аннотация - Целью настоящей работы является оценка применимости метода случайных лесов для оценки резерва произошедших, но еще не заявленных убытков (РПНУ) страховой компании по страхованию иному, чем страхование жизни. В основе задачи лежит статистический метод случайных лесов (Random forests). Для целей моделирования использовались реальные данные двух страховых компаний по прямому страхованию средств автотранспорта (КАСКО) за период 2009-2014 гг. Было проведено сравнение результата оценки РПНУ на 31.12.2014 г. методом случайных лесов с результатами расчетов стандартными методами (цепной лестницы и Борнхютера-Фергюссона по треугольникам оплаченных убытков). В целом, можно сделать вывод, что метод случайных лесов может быть применен для оценки РПНУ в качестве альтернативного алгоритма.

Ключевые слова - моделирование убытков, РПНУ случайные леса, страхование.

I. Введение

Задача страховой компании, которую необходимо решить в рамках имеющейся внутренней статистики, -это формирование страховых резервов, достаточных для исполнения обязательств по текущим договорам. По сути данная задача сводится к расчету резерва понесенных, но не заявленных убытков (РПНУ), поскольку расчет прочих резервов, как правило, либо производится общепринятыми методами, либо относится к уже известным, заявленным убыткам и тем самым не несет в себе фактора неопределенности. Расчет РПНУ требует наибольшей работы актуария в части анализа статистики и выбора метода оценки для адекватного прогнозирования будущих денежных потоков по уже произошедшим, но еще не заявленным в страховую компанию страховым случаям. Оценка РПНУ особенно важна для тех видов страхования, для которых характерно долгое урегулирование убытков.

Целью настоящей работы является оценка применимости метода случайных лесов для оценки РПНУ на основе реальных статистических данных по страхованию иному, чем страхование жизни.

Предметом исследования является метод случайных лесов (Random forests), относящийся к алгоритмам машинного обучения и предназначенный для решения

Статья получена 27 мая 2016. Работа представляет собой результат магистерской диссертации.

Д.В. Денисов, к.ф.-м.н., МГУ им. М.В. Ломоносова. Д.К. Смирнова, магистр, МГУ им. М.В. Ломоносова.

задач классификации и регрессии, который был впервые представлен в статье [1]. Для применения метода случайных лесов мы будем использовать статистический пакет R, при помощи функций библиотеки randomForest.

II. Метод случайных лесов

A. Теоретический обзор

С помощью бутстрепа (bootstrap) - выборки с возвращением, - на основе каждого из случайно выбранных подмножеств тренировочной выборки строится свое дерево принятия решений. Параметрами метода являются:

1) Количество деревьев принятия решений в ансамбле - N.

2) Число случайно отбираемых признаков обучающей выборки для построения деревьев -m из M признаков исходного множества.

Оценка регрессии получается в результате усреднения оценок регрессии всех деревьев. Пусть решения, принимаемые каждым отдельным деревом, будут не самыми лучшими, однако «лес» деревьев может принимать вполне разумные решения.

При построении каждого отдельного дерева при определении тренировочной и тестовой выборки используется бэггинг (bagging): выборка случайных двух третей наблюдений в качестве обучающей выборки и одна треть для оценки результата.

Метод случайных лесов можно описать следующим образом [2].

1) Для каждого из N деревьев в ансамбле (/ = 1 &„,ГГ):

• Формируется бутстреп-выборка S размера к по исходной обучающей выборке Я =

• По бутстреп-выборке S к неусечённому дереву решений Т^ рекурсивно применяются следующие

шаги:

(a) Случайным образом выбираются m из M имеющихся объясняющих переменных.

(b) Из отобранных m переменных выбирается признак, наилучшим образом обеспечивающий расщепление вершины согласно классическому алгоритму CART. Вершина расщепляется согласно данному признаку на две подвыборки.

В результате получаем лес деревьев решений [ГЛ

Значения зависимой переменной для новых наблюдений предсказываются согласно следующей

формуле:

N.

J-i

(1)

От классического метода построения деревьев решений метод случайных лесов отличает установка количества отбираемых признаков и то, что каждое дерево леса строится без усечений.

B. Метод «Out-Of-Bag» оценки ошибки прогноза

Оценка ошибки прогноза случайного леса осуществляется методом «Out-Of-Bag» (OOB) [4]. При использовании бутстрепа примерно 37% наблюдений исходной обучающей выборки не используются для построения деревьев решений (так как выборка с возвращением не содержит некоторые наблюдения, а некоторые наоборот попадают в нее несколько раз). Для целей регрессии некоторого вектора x используются только те деревья леса, которые строились по бутстреп выборкам, не включающим в себя оцениваемый вектор.

C. Оценка ошибки прогноза модели случайного леса

Имеется уравнение регрессии следующего вида:

У-Хр, ' (2)

где n - объем выборки,

k - количество объясняющих переменных в модели, причем к « л,

- вектор значений зависимой переменной (оплаченных убытков), размерности (ч X 1),

- вектор коэффициентов модели, размерности (fc х ]),

- матрица объясняющих переменных, размерности (и х it).

Для оценки качества модели случайного леса для целей регрессии в библиотеке randomForest в среде R используются следующие критерии [5].

MSE (Mean square errors) - вектор среднеквадратических ошибок длины n, где n -количество наблюдений. Для каждого критерия суммирование ведется по всем ¿=1,ti. Для задачи регрессии величина MSE, вычисленный при помощи метода «Out-Of-Bag», является оценкой ошибки прогноза модели:

(3)

где '■■'. - значения зависимой переменной исходной выборки,

.■ ''" - среднее из предсказанных методом OOB значений наблюдений.

% Var explained (Percent variance explained) -

процент объясненной дисперсии:

(4)

(important measures), которые помогают выделить наиболее информативные признаки модели для задачи классификации.

Пусть Xi - рассматриваемая переменная. Информативность xi оценивается исходя из того, как меняется ошибка прогноза при изменении значений данной переменной при неизменности значений остальных переменных. Необходимые расчеты производятся для каждого дерева по ходу построения леса [6].

Мера 1. Вычисления величины меры 1 можно представить в виде выполнения четырех шагов:

1.

2.

3.

Построение случайного леса ошибки прогноза StSEoaa ;

и получение

Модификация ООВ выборок путем перестановки значений признака XI для каждого дерева из леса;

Вычисление оценки ошибки прогноза М5ЕСС5

по модифицированным выборкам; 4. Информативность признака х; определяется по формуле:

<*>=? я-дая-) = ^

где %1псМ5Е (х,.1 - значение меры 1 для 1-го признака.

Мера 2. Второй мерой является суммарное уменьшение критерия МНЕ во всех вершинах деревьев леса вследствие расщепления вершины на основе данной переменной, усредненное по всем деревьям ансамбля.

1псХ< ой вРитг (у (* ¡3 =

■ ç>pa _ ^^^оов çfttr ipiïtriij ч

'/¿к i j,к ■ *

(7)

где IncNodePuri ty Or,) - значение

меры 2 для 1-го признака.

N - количество деревьев в ансамбле; - количество вершин в ]-м дереве,} = 1 ..--V;

- критерий М5Еоов для к-й вершины ]-го дерева до расщепления;

■001

..- ' для j-го дерева на основании i-го

ШМуУ - (1 - ) * 100%

где у - среднее значение зависимой переменной.

Чем ниже значение М5Е и %Уаг, тем выше качество модели.

Б. Меры информативности

Для целей регрессии в библиотеке randomForest программы Я используются две меры информативности

t. . s - критерии

после расщепления k-й вершины признака.

Для обеих представленных мер информативности верно: чем выше значение меры, тем выше значимость рассматриваемого признака для данной модели. Тем не менее, как правило, переменным, имеющим большее количество уникальных значений, чаще соответствуют более высокие значения меры [7].

III. Модель оценки оплаты заявленного убытка A. Описание данных

Для целей моделирования будем использовать реальные данные двух страховых компаний (далее - СК №1 и СК №2) по виду страхования «Страхование средств автотранспорта» (далее - «КАСКО», «резервная группа»). В целях конфиденциальности наименования компаний не раскрывается. Имеется статистика для периода 2009-2014 гг. по СК №1 и для периода 20102014 гг. по СК №2.

Далее в тексте употребляются следующие обозначения:

Категориальные переменные.

region филиал, к которому относится полис start_quar квартал начала действия полиса

Числовые переменные.

end_year год окончания действия полиса

term_end срок действия договора, в днях

claim_date дата поступления заявления claim_year год поступления заявления ins_sum размер страховой суммы, руб. paid величина оплаты заявленного убытка, руб. claim_delay задержка в поступлении заявления об убытке, исчисленная от момента начала действия договора, в днях:

которых позднее 2014 г., использовались для прогнозирования.

5) В силу того, что доля досрочных расторжений договоров составляет менее 1%, расторжениями в рассматриваемой модели можно пренебречь.

C. Постановка задачи оптимизации

В настоящей работе ставится следующая задача оптимизации:

для впЛ_)'ват = 1.... В

Где й - номер отчетного года (периода),

- номер наблюдения (из имеющейся статистики) для года end_year,

paid edited i

*

- реальная величина оплаты

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(claim_date - start_date если claim > (^явленного убытка для наблюдения ienij;ear,

==ltomjnd + 1: если claim = О,

paid_edited величина оплаты, если убыток был заявлен в год, следующий после года начала действия договора - числовая переменная:

_ f paid : если claim ваг > start jyeav.

(0; иначе-

year_of_ins_ev год наступления страхового случая Фиктивные переменные.

crisis_year_of_ ins_ev фиктивная переменная, обозначающая кризисный год наступления страхового случая

- оцененная величина оплаты

раш «анеа: .

заявленного убытка для наблюдения ¡^.¿je--, причем

> 0 и paie

_ ..

Целью настоящей работы является прогноз величины оплаты заявленного убытка для отчетного года раш^ЛвЛ^ для таких наблюдений ¿д, для которых

выполнено:

end _yearilt > R paid 1д = 0

(12)

, Pi

crisis _year^ofJmtjtv =■=

гл'. :-fi. .. для

B. Предпосылки модели

Всего за исключением досрочных расторжений имеется 3584 наблюдений по СК №1 и 1380 наблюдений по СК №2. Структура СК №1 представляет собой центральный офис и 13 филиалов, в то время как СК №2 не имеет филиалов и представительств. Наблюдения за весь период наблюдений будем рассматривать как стационарные данные.

Для моделирования размера оплаты заявленного убытка мы делаем следующие предположения:

1) По каждому договору имеет место один убыток. Если по договору по факту произошел более, чем один убыток, мы суммируем данные по колонке «Величина оплаты». При этом заявленный убыток и страховой случай соответственно датируются наиболее ранней датой из представленных дат.

2) Убыток не может быть заявлен по расторгнутому договору.

3) Практически все страховые договоры по КАСКО действуют ровно один год или менее. Поэтому можно с достаточной степенью уверенности утверждать, что для рассматриваемой резервной группы данные об убытках по договорам, дата окончания срока действия которых не позднее отчетного года, будут достоверным основанием для прогнозирования будущих выплат.

4) Построение и тестирование модели производилось на основе тех наблюдений, для которых дата окончания действия полиса в силу не позднее 2014 г., так как для таких договоров мы знаем статистику наступления страховых случаев в год, следующий за годом вступления договора в силу. Данные же договоров, дата окончания действия

Где Ид - количество наблюдений для года R. «ли учаг_of Jmsjtv — {2009^ При этом оцененная величина р

отчетного года R будет представлять собой прогноз предстоящих в следующем после отчетного года страховых выплат по договорам, заключенным не позднее отчетного года R. Таким образом, величина будет представлять собой сумму всех страховых резервов компании. Для получения величины РПНУ необходимо будет вычесть прочие страховые резервы из расчетного значения paufjiaited^

D. Модель оценки размера оплаты методом случайных лесов

Подробное построение модели оценки будущих выплат представлено на примере СК №1. Разобьем выборку на две составляющие: тестовую и обучающую. В качестве обучающей выборки случайным образом выберем 70% от количества наблюдений исходного множества, зафиксировав при этом зерно случайного процесса, то есть 0.7" 3507 = 2455, для тестовой -аналогично выберем случайные 5507 — 2455 = 1052 наблюдений.

Будем оценивать следующую зависимость:

edited crisis year

mj îîiin + term ind -

Для определения оптимального количества деревьев в ансамбле построим модель с использованием 2000 деревьев, выводя с шагом 100 деревьев значения оценки ошибки прогноза. Количество деревьев с наименьшим значением ООВ-ошибки будет

искомым оптимальным значением параметра N.

100 300 500 700 900 1100 1300 1500 1700

Рисунок 1. Ошибка прогноза MSEOOB в зависимости от количества деревьев в ансамбле.

Как видно из графика, наименьшая ошибка прогноза наблюдается при количестве деревьев в ансамбле N = 1300.

При помощи функции tuneRF определим оптимальное количество переменных для расщепления вершин [8] при значении параметра «количество деревьев в ансамбле» № = 1500. Как видно из таблицы ниже, наименьшая ошибка прогноза наблюдается при расщеплении вершин на основе четырех случайно выбранных переменных: т = 4.

Таблица 1. Прогностическая точность модели в зависимости от числа переменных для разбиения

1 1 767 193 652

2 1 629 644 628

4 1 610 194 250

Исходя из рекомендаций по установке параметров, построим Модель 1: .V = 1500, т = 4.

При переобучении характерно, что ошибка прогноза на тестовой выборке дает большее значение, чем на обучающей. Воспользуемся оценкой Д/Л'" "' и для Модели 1, используя метод "Out-of-bag". Для тестовой выборки Модели 1 ... и

= 5-31 ^:, в то время как для обучающей М$Е°°В = 1,6 * Ю9 и %Уаг = 22,58%. Можем убедиться, что полученная модель не переобучена.

Оценим значения мер информативности для переменных, участвующих для обучающей выборки Модели 1.

Чем выше значение Меры 1 и Меры 2 для объясняющей переменной, тем больше она влияет на оценку регрессии объясняемой переменной. Как видно на рисунке выше, для различных переменных Мера 1 и Мера 2 определяют информативность по-разному. Так как Мера 1 не принимает отрицательных значений, можем убедиться, что все независимые переменные являются значимыми и их исключение не улучшит модель.

Рисунок 2. Информативность независимых переменных Модели 1 (N=1500, m=4)

Мы получили прогноз величины оплаты заявленного убытка. Ниже представлено краткое описание полученной модели:

Таблица 2. Описание Модели 1 для Страховой компании №1

Базовые предположени я модели ■■ - - ; ; объясняющие переменные: crisis_year_of_ins_ev , ins_sum, term_end, start_quar, region, claim_delay. ■■ - •..■■. .;■_■! ; объясняющие переменные: crisis_year_of_ins_ev, ins_sum, term_end, start_quar, region, claim_delay.

Специальные предположени я модели crisisJ« arjtfJ HTjn , (т.е. предполагается, что 2014 г. - не кризисный год) (т.е. предполагается, что 2014 г. -кризисный год)

Прогноз будущих выплат методом случайных лесов 1 471 280 руб. 1 420 415 руб.

Для получения величины РПНУ, из полученного прогноза выплат мы должны вычесть все прочие страховые резервы. Суммы прочих страховых резервов приведены в соответствии с актуарным заключением рассматриваемой СК за 2014 г.

Таблица 3. Расчет РПНУ, исходя из оценки прогноза будущих выплат методом случайных лесов для СК №1

Таблица 5. Расчет РПНУ, исходя из оценки прогноза будущих выплат методом случайных лесов для СК №2

Специальные crisis_year_of_ins crisis_year_of_ins

предположения _ev =FALSE, (т.е. _ev =TRUE, (т.е.

модели предполагается, предполагается,

что 2014 г. - не что 2014 г. -

Показатель кризисный год) кризисный год)

Прогноз будущих

выплат методом случайных лесов, 1 471 280 1 420 415

руб. (1)

Резерв

незаработанной 802 932 802 932

премии, руб. (2)

Резерв

неистекшего 25 990 25 990

риска, руб. (3)

Резерв

заявленных, но не урегулированных 129 126 129 126

убытков, руб. (4)

РПНУ, руб. (5) = (1) - (2) - (3) - (4) 513 232 462 367

Базовые предположения модели . - . . . . _ . ; объясняющие переменные: ins_sum, term_end, start_quar, claim_delay.

Специальные предположения модели отсутствуют

Прогноз будущих выплат методом случайных лесов 4 469 469 руб.

Для получения величины РПНУ, из полученного прогноза выплат мы должны вычесть все прочие страховые резервы. Суммы прочих страховых резервов приведены в соответствии с актуарным заключением рассматриваемой СК за 2014 г.

Прогноз будущих выплат методом случайных лесов, руб. (1) 4 469 469

Резерв незаработанной премии, руб. (2) 3 568 623

Резерв неистекшего риска, руб. (3) 0

Резерв заявленных, но не урегулированных убытков, руб. (4) 0

РПНУ, руб. (5) = (1) - (2) - (3) - (4) 900 846

Тот факт, что прогноз будущих выплат и, в частности, прогноз РПНУ по КАСКО при условии, что 2014 г. -является кризисным годом, по сумме меньше, чем если считать 2014 г. не кризисным, является логичным, так как в условиях кризиса население склонно отказываться от личного автотранспорта в пользу общественного.

Аналогичным образом был проведен подбор параметров и построение модели методом случайных лесов для СК №2. Так как в структуре страховой компании №2 отсутствуют филиалы и представительства, в модели отсутствует объясняющая переменная region. Также в модели отсутствует объясняющая переменная crisis_year_of_ins_ev, так как почти все договоры из имеющейся статистики представлены, начиная с 2010 г. Ниже представлено краткое описание полученной модели.

Таблица 4. Описание Модели 2 для СК №2

IV. Сравнение результатов оценки РПНУ

РАЗЛИЧНЫМИ МЕТОДАМИ

При расчете РПНУ методом Борнхютера-Фергюссона. (далее - «БФ метод») для СК №1 наблюдается низкий, а для СК №2 - наоборот высокий уровень выплат в последних кварталах, а также в обеих компаниях наблюдается нестабильность коэффициентов метода факторов развития. В связи с этим коэффициент убыточности ^ предполагаемый для последних кварталов, был выбран на уровне отношения: Резерв убытков + Конечная величина убытка

-:- (14)

Заработанная прения

При этом для СК №1 коэффициент убыточности k для всех четырех кварталов 2014 г. был выбран в размере 110% на уровне отношения (14), где все величины брались за период 2013-2014 гг. Для СК №2 коэффициент убыточности k только для 4го квартала 2014 г. был выбран в размере 90% на уровне отношения (14), где все величины брались за период 2012-2013 гг.

Ниже представлено сравнение результатов расчета РПНУ различными методами с реальными данными рассматриваемых СК за 2015 г.

Реальная величина РПНУ по данным 2015 г. i 2 200

Случайные леса при crisis_vear of ins ev=TRUE ^^1^0462 367

Случайные леса при crisis_vear of ins ev=FALSE 513 232

БФ метод 934 678

Метод факторов развития 938 986

400 000 800 000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рисунок 3. Сравнение результатов расчета РПНУ с реальными данными СК №1

Следует отметить, что метод факторов развития не работает, если статистика происшедших и оплаченных убытков ненадежна, например, в случае, когда заработанная премия нестабильна, и объем портфеля заключенных договоров меняется от года к году. БФ метод дает возможность скорректировать вручную размер РПНУ, исходя из изменений заработанной премии в последние годы, при этом актуарий руководствуется, как правило, своим

Реальная величина РПНУ т 606 651

по данным 2015 г.

Случайные леса 1 900 846

БФ метод В 1 593 204

Метод факторов развития ш 3221265

2 000 000 4 000 000

Рисунок 4. Сравнение результатов расчета РПНУ с

реальными данными СК №2 профессиональным мнением при выборе коэффициентов.

Метод случайных лесов дает результаты более близкие к реальным данным, чем стандартные методы расчетов, однако все равно завышенные. Следует отметить, что более консервативная оценка страховых резервов является предпочтительней для надзорных органов, особенно в условиях нестабильной экономической конъюнктуры. Можно сделать вывод, что на указанных данных метод случайных лесов прогнозирует будущие выплаты лучшим образом, чем стандартные методы.

Важно отметить, что моделирование методом случайных лесов, в том виде, в котором оно представлено в настоящей работе, применимо для оценки будущих страховых выплат только к тем резервным группам, для которых характерно долгое урегулирование убытков, так как представленные модели базируются на статистике оплат, произведенных в году, следующем за годом вступления полиса в силу. Кроме того, данный метод аналогично методу цепной лестницы и БФ методу требует большого количества статистики для прогнозирования.

V. Заключение

В настоящей статье мы применили метод случайных лесов для оценки резерва происшедших, но не заявленных убытков страховой компании для резервной группы «Страхование средств автотранспорта». Исследование показало, что оценка методом случайных лесов дает завышенные результаты по сравнению с реальными данными, однако дает прогноз более близкий к реальным данным, чем оценка стандартными методами. Таким образом, сумма будущих выплат, оцененная методом случайных лесов, может быть использована актуарием в качестве проверки адекватности суммы всех страховых резервов, рассчитанных стандартными методами.

Основным преимуществом метода случайных лесов является относительная легкость настройки вводных параметров: количества деревьев в ансамбле и количества переменных, используемых для расщепления вершин деревьев. При этом выбор параметров модели стандартизирован и не зависит от профессионального суждения актуария. Модель случайных лесов способна выявлять сложные нелинейные взаимосвязи между переменными. Кроме того, метод случайных лесов имеет встроенный алгоритм оценки ошибки прогноза (на основе ООВ выборок). Среди других важных достоинств метода

следует отметить устойчивость к «выбросам», отсутствие необходимости нормировать или иным образом преобразовывать данные (поддерживается работа с категориальными переменными), возможность реализовать данный алгоритм на основе параллельных вычислений, что важно при больших объемах данных.

Модель, построенная методом случайных лесов, является более гибкой, так как дает возможность актуарию включить различные параметры, не учтенные в стандартных методах, причем в разных комбинациях.

Тем не менее, метод случайных лесов обладает и рядом недостатков: сложность интерпретации результатов (так как невозможно точно понять, насколько и через какие параметры повлияло то или иное неоптимальное дерево на результат «голосования»), невозможность визуализации решения, склонность к «переобучению» на некоторых задачах (особенно на зашумленных). Модель чаще всего получается громоздкой, так как содержит большое количество построенных деревьев. Метод случайных лесов аналогично стандартным методам требует для прогнозирования достаточно большой статистики по убыткам.

В целом можно сказать, что метод случайных лесов может быть применен для оценки резервов страховых компаний по страхованию иному, чем страхование жизни в качестве альтернативного алгоритма.

С помощью применения метода случайных лесов в совокупности со стандартными методами, актуарий может представить интервал оценок страховых резервов, в рамках которого руководство страховой компании может принимать ответственные финансовые решения. Таким образом, более тонкая «настройка» такого финансово-экономического инструмента, как страховые резервы, при грамотном использовании помогает разрешить основной конфликт страхового бизнеса: между обеспеченностью обязательств и конкурентоспособностью на волатильном рынке.

Библиография

[1] Breiman L. Random forests // Machine learning. 2001. 45(1). Р. 5-32.

[2] Siroky D. Navigating Random Forests and related advances in algorithmic modeling // Statistics Surveys, 3. 2009. P. 147-163.

[3] Breiman L., Friedman R., Olshen R., & Stone C. Classification and Regression Trees // Belmont, California: Wadsworth International. 1984.

[4] Breiman L. Out-of-bag estimation // Berkeley: Technical Report, Statistics Department University of California. 1996. 13 р.

[5] Liaw A., Wiener M. Classification and Regression by Random Forest // R News, 2 (3). 2002. Р. 18-22.

[6] Чистяков С. Случайные леса: обзор // Труды Карельского научного центра РАН (1). 2013. С. 117-136.

[7] Груздев А.В. Метод случайного леса в скоринге // Риск-менеджмент в кредитной организации (№°1 (13)). 2014. С. 28-43.

[8] Breiman L. Manual on setting up, using, and understanding random forests v 4.0. URL (дата обращения 22.10.2015 г.): https://www.stat.berkeley.edu/~breiman/papers.html

Application of Random forest method to estimate the incurred but not reported claims reserve of an insurance company

D.V. Denisov, D.K. Smirnova

Abstract - The purpose of this report is to explore the applicability of Random forest method to assess the incurred but not reported claims reserve (IBNR) of a non-life insurance company. The research is based on the statistical method of Random forest. The actual data on the direct hull insurance of two real companies for the period 2009-2014 were used. The IBNR valuated on 31.12.2014 by Random forest was compared with the results of standard calculation methods (chain ladder and Bornhuetter - Ferguson on paid triangles). In general, we can say that the Random forest method can be applied to assess the IBNR as an alternative algorithm.

Key words - loss modelling, IBNR, random forests, insurance.

i Надоели баннеры? Вы всегда можете отключить рекламу.