Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ОЦЕНКЕ РАЗМЕРА СТРАХОВЫХ РЕЗЕРВОВ'

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ОЦЕНКЕ РАЗМЕРА СТРАХОВЫХ РЕЗЕРВОВ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
363
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Хроноэкономика
Область наук
Ключевые слова
РАСЧЕТ РЕЗЕРВОВ / ОЦЕНКА СТРАХОВЫХ ВЫПЛАТ / МАШИННОЕ ОБУЧЕНИЕ В СТРАХОВАНИИ / RESERVE CALCULATION / INDIVIDUAL CLAIMS ESTIMATION / MACHINE LEARNING IN INSURANCE

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Жукова А.С.

В данной работе рассматривается актуальная задача прогнозирования размера страховых выплат на микроуровне без агрегации данных для анализа с использованием методов машинного обучения, а также процесс классификации конкретных страховых выплат по типу резерва. Для этого разрабатываются модели машинного обучения при использовании студии Microsoft Azure. Использование первой модели позволяет с точностью 99,91% определить тип статуса по каждому страховому случаю. Затем вторая модель позволяет определить итоговый размер возмещения на основании доступных данных. По итогам моделирования погрешность модели не превышает 10% от общей суммы фактического резерва. Теоретически, данные оценки размера резервов представляют собой основу для подхода к расчету на основе методов машинного обучения без использования треугольников развития убытков в страховании иного, чем жизнь.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MACHINE LEARNING METHODS IN INSURANCE RESERVES ESTIMATION PROCESS

This article considers the actual problem of estimating the amount of insurance payments at the micro level without aggregating data for analysis using machine learning methods, as well as the process classifying specific insurance payments by the type of reserve. For this purpose, two models were developed in Microsoft Azure Studio. The first model allow us to determine the status for each insured event with an accuracy of 99.91%. Then the second model allows you to determine the total amount ofcompensation based on the available data. According to the modelling results, the error does not exceed 10% of the total actual reserve. Theoretically, these estimations represent the foundation for machine-learning-based and triangle-free approach to non-life reserving.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ОЦЕНКЕ РАЗМЕРА СТРАХОВЫХ РЕЗЕРВОВ»

УДК: 368.013.3

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ОЦЕНКЕ

РАЗМЕРА СТРАХОВЫХ РЕЗЕРВОВ

Жукова А.С.

Финансовый университет при Правительстве Российской Федерации, Москва, Россия

E-mail: anastasia_zhukova96@mail.com

Аннотация. В данной работе рассматривается актуальная задача прогнозирования размера страховых выплат на микроуровне без агрегации данных для анализа с использованием методов машинного обучения, а также процесс классификации конкретных страховых выплат по типу резерва. Для этого разрабатываются модели машинного обучения при использовании студии Microsoft Azure. Использование первой модели позволяет с точностью 99,91% определить тип статуса по каждому страховому случаю. Затем вторая модель позволяет определить итоговый размер возмещения на основании доступных данных. По итогам моделирования погрешность модели не превышает 10% от общей суммы фактического резерва. Теоретически, данные оценки размера резервов представляют собой основу для подхода к расчету на основе методов машинного обучения без использования треугольников развития убытков в страховании иного, чем жизнь.

Ключевые слова: расчет резервов, оценка страховых выплат, машинное обучение в страховании.

APPLICATION OF MACHINE LEARNING METHODS IN INSURANCE

RESERVES ESTIMATION PROCESS

Zhukova A.S.

Financial University under the Government of the Russian Federation, Moscow, Russia E-mail: anastasia_zhukova96@mail.com

Abstract. This article considers the actual problem of estimating the amount of insurance payments at the micro level without aggregating data for analysis using machine learning methods, as well as the process classifying specific insurance payments by the type of reserve. For this purpose, two models were developed in Microsoft Azure Studio. The first model allow us to determine the status for each insured event with an accuracy of 99.91%. Then the second model allows you to determine the total amount ofcompensation based on the available data. According to the modelling results, the error does not exceed 10% of the total actual reserve. Theoretically, these estimations represent the foundation for machine-learning-based and triangle-free approach to non-life reserving.

Key words: reserve calculation, individual claims estimation, machine learning in insurance. 1. ВВЕДЕНИЕ склоняются к тому, чтобы осуществлять

Актуарная практика резервирования при резервирование на микроуровне на основе

страховании иного, чем страхование жизни, информации об отдельных выплатах. традиционно основана на совокупных данных о Целью данной работы является изучение

претензиях, структурированных в виде методов машинного обучения и их применение

треугольников [11]. На данный момент существует при оценивании страховых резервов, а также их

несколько статистических методов (например, сравнении и написании программы,

метод Цепной лестницы или метод Борнхьюттера- автоматизирующей все вычисления. Фергюсона), позволяющих оценить объем В соответствии с целью работы поставлены

резервов. На практике было доказано, что данный следующие задачи:

подход быть эффективным при условии того, что — Реализовать применение методов

анализируемые претензии имеют высокую машинного обучения при оценивании резервов в

вероятность и низкий уровень воздействия на страховании;

размер резерва [8]. Этот подход был необходим — Из полученных моделей выбрать ту

актуариям при оценке размера резервов в условиях модель, которая будет простой в использовании, а

ограниченности входящей информации. В также давать максимально точный результат. настоящее время данная проблема больше не Научная новизна и актуальность данного

является основным ограничением [12]. Именно исследования заключается в прогнозировании

поэтому все больше и больше исследований размера страховой выплаты на микроуровне без

агрегации данных для анализа, а также в использовании комплекса методов машинного обучения при разработке модели для оценки размера страховых резервов.

2. ДАННЫЕ И МЕТОДЫ ИССЛЕДОВАНИЯ

Для оценивания размера страховых выплат и реализации данного процесса средствами программного обеспечения будет использован сервис Microsoft Azure ML. Используемые данные, которые включают период с 2004 по 2019 год, - это данные страховой компании, которая расположена в центральной Европе. Это лицензированная компания, которая относится к страхованию иного, чем страхование жизни. Компания предлагает широкий спектр продуктов, большая часть которых ориентирована на страхование автомобильного транспорта.

База данных, используемая в расчетах, содержит 8 основных переменных:

• AgreementNo - номер страхового договора клиента страховой компании;

• AccidentDate - дата наступления страхового случая;

• ReportingDate - дата заявления клиента страховой компании в результате наступления страхового случая;

• PaymentDate - дата выплаты страхового возмещения клиенту страховой компании;

• LoB - линия бизнеса;

• Status - статус убытка ("Paid" - выплата, "Reserve" - в рассмотрении);

• Sumlnsured - страховая сумма, равная максимально возможной сумме возмещения, указанной в договоре страхования;

• ReserveAmount - окончательная сумма выплаты/резерва по страховому случаю, переоцененной в результате внутреннего расследования компании.

А также дополнительных переменных, добавленных для целей анализа:

• ReportTime - время, прошедшее с момента наступления страхового случая до момента обращения клиента в страховую компанию, выраженное в годах;

• FinTime - время, прошедшее с момента заявления клиента в страховую компанию о наступлении страхового случая до момента его окончательного урегулирования страховой

компанией, то есть отказа или выплаты, выраженное в годах;

• Label - переменная, которая равна единице, если максимально возможная сумма страхового возмещения не равна окончательно рассчитанной сумме выплаты по страховому случаю, и нулю в противном случае;

• Target - переменная, выражающая разницу между максимально возможной суммы страхового возмещения и окончательно рассчитанной суммы выплаты по страховому случаю.

В процессе реализации программного решения поставленной выше задачи были сформулированы две подзадачи:

1) Классификация, выраженная в прогнозировании количества лет, которое пройдет с момента заявления о страховом случае до его урегулирования для каждого страхового случая (переменная «FinTime»);

2) Классификация и регрессия, выраженные в моделировании искусственной переменной, которая показывает, равна ли максимально возможная страховая сумма фактически оцененной сумме выплаты (переменная «Label»), а также в последующем расчете разницы между упомянутыми выше суммами, если она имеет место быть (переменная «Target»).

Также в модели будут заложены следующие упрощения:

1) Поскольку дата оценки является датой заявления о страховом случае, в модели предполагается, что вся информация о претензии известна на эту дату, и поэтому она может использоваться для прогнозирования будущих платежей.

2) Компания выплачивает страхователю сумму, как только окончательный размер выплаты установлен, таким образом генерируя серию денежных потоков. В модели будет учитываться один единый совокупный платеж по каждой претензии, подлежащей оплате на дату закрытия.

3) Время урегулирования будет считаться дискретной величиной, выраженной в годах. Анализ доступной статистической информации показывает, что срок урегулирования претензии не превышает 6 лет.

4) Моделирование осуществляется на данных 2019 года. Модельные значения, полученные в результате классификации, указывающие на выплату по уже заявленным случаям в следующем 2020 году и позже, будут относиться к резерву заявленных, но неурегулированных убытков, а не к резерву убытков.

Так как страховая компания, данные которой будут использованы в анализе, расположена на территории Европы, то все суммы в расчете представлены в официальной валюте - Евро. Для целей анализа в качестве методов машинного обучения были использованы деревья классификации и регрессии, метод k-ближайщих соседей, а также метод случайных лесов [2].

Для оценки качества моделей классификации и регрессии были использованы следующие метрики [10]:

• Правильность (Accuracy) - доля правильных ответов:

TP + TN TP + TN

• Точность (Precision) - мера точности, характеризующая, сколько полученных в результате использования модели классификации положительных ответов являются правильными:

TP

Precision = Tp + Fp (2)

• Полнота (Recall) - мера полноты, которая характеризует способность модели классификации правильно находить как можно большее число положительных ответов из ожидаемых:

TP

Recall =

(3)

ошибка (mean

TP + FN

• Средняя абсолютная absolute error):

n n

MAE= =^yfactt

t=i t=i

• Средний квадрат ошибки (root mean squared error):

ypredict_t I (4)

RMSE =

~ / (Yfact_ t ypredict_t У (5)

nZ-i

t=i

Accuracy =

-=- (1)

P + N TP + TN + FP + FN K J

3. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

В процессе исследования была разработана модель классификации (рис.1).

Рис. 1. Модель классификации для определения количества лет, которое пройдет с момента заявления о страховом случае

до его урегулирования для каждого страхового случая

Результаты моделирования по данной модели представлены в таблице 1:

Таблица 1. Результаты модели классификации

t=i

Метод Количество значений Количество ошибок Процент ошибок

Two-Class Decision Forest 7480 25 0.33%

Two-Class Boosted Decision Tree 7480 7 0.09%

K-nearest neighbors 7480 72 0.96%

Multiclass Decision Forest 7480 13 0.31%

Согласно результатам моделирования можно увидеть, что процент ошибок при использовании метода «Two-Class Boosted Decision Tree» наименьший, что делает данный метод рекомендуемым для использования в данной задаче. Комбинация дополнительных метрик, таких как Accuracy и Precision подтверждают вывод, сделанный выше. Таким образом, данные, полученные в ходе использования данной модели классификации, будут использованы в дальнейшем процессе моделирования и оценки размера страховых резервов.

Однако, стоит также отметить, что результаты всех метрик для каждого метода достаточно однородны и отличаются незначительно. Для применения подобной модели на практике пользователь должен самостоятельно

Таблица 2. Результ

ранжировать приоритетность необходимых для оценки модели метрик в зависимости от поставленных задач [4].

При классификации данной переменной, которая показывает, равна ли максимально возможная страховая сумма, указанная в договоре страхования, фактически оценённой сумме выплаты, был также использован метод «Two-Class Boosted Decision Tree», который показал наилучший результат на предыдущем шаге моделирования. Затем, на основании полученной информации при использовании методов регрессии моделируется размер данной разницы для тех случаев, где суммы не равны согласно полученному прогнозу на шаге классификации. Ниже представлены полученные результаты: I модели регрессии

Метод Модельная сумма Фактическая сумма Разница Разница, %

Boosted Decision Tree Regression 1,445,646 1,962,099 516,453 26.32%

Decision Forest Regression 1,251,943 1,962,099 710,156 36.19%

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Согласно результатам моделирования можно окончательную сумму выплаты на основании

увидеть, что процент ошибок при использовании всех исходных и доступных данных. Данная

метода «Boosted Decision Tree Regression» модель является более простой по сравнению с

наименьший, что делает данный метод теми моделями регрессии, которые были описаны

рекомендуемым для использования в данной задаче. выше (рис.2).

В ходе моделирования была построена сравнительная модель, которая прогнозирует

Рис. 2. Сравнительная модель регрессии

Результаты моделирования сравнительной модели регрессии представлены в таблице 3.

Таблица 3. Результаты сравнительной модели регрессии

Метод Модельная сумма Фактическая сумма Разница Разница, %

Boosted Decision Tree Regression 1,776,684 1,962,099 185,415 9.45%

Согласно полученным результатам, спрогнозированной и фактической суммой предсказательная сила модели значительно выше резерва не превышает 10%. Значения критериев предыдущих, и разница между качества модели также значительно улучшились:

Таблица 4. Значения критериев по оценке качества сравнительной модели регрессии

Метод МАЕ RMSE

Boosted Decision Tree Regression 100,12 208,83

4. АНАЛИЗ ЭФФЕКТИВНОСТИ ОТ ВНЕДРЕНИЯ МОДЕЛИ

Для анализа эффективности использования данной модели на практике стоит отметить, что взятые для анализа данные являются среднестатистическими и теоретическими, так как оценить точный эффект невозможно в силу того факта, что подобная модель еще не была внедрена на практике. Для этого рассмотрим два варианта событий:

— Вариант 1 - не внедрять модель в бизнес процессы страховой компании

Для оценки размера страховых резервов в страховой компании актуарная команда состоит из двух актуариев и главного актуария, средняя заработная плата которых составляет 90,000 и 200,000 рублей соответственно. Исходя из этого, среднегодовой размер издержек компании на выплату заработной платы составляет

(90,000-2+200,000)-12 = 4,560,000 рублей.

Ежеквартально, компания обязана сдавать формы отчетности в Центральный Банк Российской Федерации. Несвоевременная подача документов и/или некорректно представленные данные в отчетности в случае человеческого фактора при расчете могут повлечь за собой дополнительные издержки в размере 500,000 рублей за каждую форму отчетности. Согласно проведенному анализу на данных одной страховой компании, вероятность несвоевременно и/или неправильно предоставленной информации за промежуток в 15 лет составила 9Д15-4) = 15%. Таким образом, учитывая данный факт, годовые

издержки компании, связанные с расчетом резервов и подготовкой форм отчетности, составят 4,560,000+500,000-15%=4,635,000 рублей. — Вариант 2 - внедрить модель в бизнес процессы страховой компании

При условии внедрения модели, компании будет необходим как минимум один человек, например, главный актуарий, который будет отслеживать и/или корректировать результаты, полученные моделью. Также потребуются дополнительные затраты для настройки технической составляющей модели. В среднем годовое обслуживание системы составляет порядка 585,000 рублей. Таким образом, годовые издержки компании в этом случае составят 200,000-12 + 585,000 =2,985,000 рублей. С учетом дополнительных издержек, которые могут возникнуть со стороны регуляторов и сдачей форм отчетности, итоговая сумма затрат составит 2,985,000+500,000-15%=3,060,000 рублей.

Подводя итоги, можно сделать вывод, что внедрение модели машинного обучения в рабочие бизнес процессы компании позволит ей сократить размер годовых издержек приблизительно на 1,575,000 рублей, что доказывает экономическую эффективность от внедрения модели.

5. ЗАКЛЮЧЕНИЕ

В данной работе рассмотрена задача классификации по типу резерва каждого отдельного страхового случая в базе данных, а также моделирование размера обязательств страховой компании. Проведен сравнительный анализ результатов, полученных при

использовании различных методов машинного обучения в процессе классификации и регрессии. На основе данного анализа можно сделать вывод, что единственно верного и оптимального метода классификации страховых случаев по типу резерва не существует. В связи с этим необходимы дополнительные испытания работы модели на конкретных наборах доступных исходных данных.

Дополнительно рассмотрены модели регрессии, моделирующие размер возможного возмещения страховой суммы. Наглядно показано, что зачастую более простые модели могут давать гораздо более точные результаты. Дополнительные метрики по оценке качества модели также показали улучшенные результаты.

Таким образом, представленный в работе процесс моделирования может быть использован в качестве метода оценки размера страховых резервов компании на практике с интеграцией методов машинного обучения в процесс анализа, а также увеличением количества переменных для анализа.

СПИСОК ЛИТЕРАТУРЫ

[1] Antonio K., Denuit M., Pigeon M., Individrnl loss reserving with the multivаriаte skew шта! framework, ASTIN Bulletin 43/3, - 2013. - С.398-428.

[2] Breimаn L., Friedmаn J.H., Stone C.J., Olshen R.A., Clаssification аМ Regression Trees, ^^swotti Stаtistics/Probаbility Series, 2013.

[3] Friedland J. Estimating unpaid claims using basic techniques //Casualty Actuarial Society. - 2010. - Т. 201. - №. 0.

[4] Friedmаn J., Т^Ыташ R., Hastie T., The elements of statistical learning. Data mining, inference and prediction, Springer series in Statistics, 2015.

[5] G. Taylor, G. McGuire, J. Sullivan, Individual claim loss reserving conditioned by case estimates, Actuarial journal, 2008, 215-256 p.

[6] G.Z. Heller, P. De Jong, Generalized linear models for insurance data, Cambridge University Press, 2010.

[7] Нащ B., Gаcher R., Jаmаl S., Individual Claim development with Machine Learning, Report. - 2018

[8] Jessen A.H., Samorodnitskiy G., Mikosch T., Prediction of outstanding payments in a Poisson cluster model, Scandinavian Actuarial journal, 2011/3, 210-335 p.

[9] Kuo K., Golfin D., A machine learning framework for loss reserving, KPMG. - 2016

[10] M. V. Wuthrich, Machine learning in individual claims reserving, Swiss Finance Institute, Research Paper Series 1667, 2016.

[11] R. L. Bornhuetter, R. E. Ferguson, The actuary and IBNR, Proceedings of the Casualty Actuarial Society 59, 181-195, 1972.

[12] R. Plat, K. Antonio, Micro-level stochastic loss reserving for general insurance, Scandinavian Actuarial journal, 2014, 648-670 p.

V V

i Надоели баннеры? Вы всегда можете отключить рекламу.