Формирование равновесной политики финансового учреждения Survival analysis and classification, statement of the problem
DOI 10.24411/2658-3569-2019-14047
Ибрагимова Элина Саламбековна,
ФГБОУ ВО «Чеченский государственный университет», ассистент кафедры финансов и кредита
Ibragimova Elina Salambekovna Аннотация. Анализ поведения клиентов банка является важным аспектом управления рисками компании. Кроме того, своевременное предсказание оттока клиента может сохранить прибыль и обеспечить устойчивое развитие учреждения. Фактически любой адекватный подход к формированию взаимоотношений между компанией и клиентами основывается на оценке вероятности потери такого клиента. Это еще раз говорит об актуальности скоринг моделей, которые позволяют сравнивать клиентов между собой и определять уязвимые места.
Особое внимание привлекает такой вид операций, как онлайн-гемблинг. В связи с его динамичным характером и значительной капитализацией на рынке, возникает проблема своевременного реагирования на изменения в поведении игрока платформ, предоставляющих услуги в сфере онлайн-гемблинга. Наиболее подходящим инструментом для решения этой задачи является поведенческий скоринг, а самой удобной моделью такой скоринг карты - логистическая регрессия. Однако, как показывает практика, этот подход не дает желаемых результатов. Во-первых, такая модель является статической, а во-вторых, ее трудно применять для прогнозирования. Поэтому было предложено рассмотреть несколько альтернативную методологию, основывающуюся на приемах анализа выживания и ансамбля бустингових деревьев решений.
Summary. Analysis of the Bank's clients ' behavior is an important aspect of the company's risk management. In addition, timely prediction of customer churn can save profits and ensure the sustainable development of the institution. In fact, any adequate approach to the formation of relationships between the company and customers is based on the assessment of the probability of loss of such a client. This once again shows the relevance of scoring models that allow you to compare customers with each other and identify vulnerabilities.
Particular attention is drawn to such type of operations as online gambling. Due to its dynamic nature and significant market capitalization, there is a problem of timely response to changes in the behavior of the player platforms that provide services in the field of online gambling. The most appropriate tool for this task is behavioral scoring, and the most convenient model of such scoring is logistic regression. However, as practice shows, this approach does not give the desired results. Firstly, such a model is static, and secondly, it is difficult to apply it for forecasting. Therefore, it was proposed to consider a somewhat alternative methodology based on the methods of analysis of survival and ensemble of boosting decision trees.
Ключевые слова: инструмент, решение задачи, модель, подход, услуги. Keywords: tool, problem solving, model, approach, services.
На входе имеем пространство статистик 10 тыс. клиентов. Нужно провести категоризацию клиентов на основе кластеризации с помощью иерархической кластеризации клиентов банка «Стандарт» и построить модель выживания для каждого кластера несмотря на результаты.
Для анализа используется пространство статистик операций (см. рисунок 1, где показано распределение каждой из статистик, нормируемой в пределах от 0 до 1), состоящий из 100 обще принятых статистик области операций. Для визуализации также используется изображение интерквартильного размаха (см. рисунок 2). Анализ интерквартильного размаха может дополнять классификацию в случае отыскания похожих поведений.
Визуальный анализ распределения статистик говорит об их разнообразии и довольно значительном размахе, что в свою очередь демонстрирует их потенциальную силу детерминации. Для большей значимости стоит отсортировать статистики по росту медианы их распределения.
Такое изображение распределения еще более явно демонстрирует разнообразие как средних значений, так и вариации статистик, что в свою очередь позволяет сформировать достаточно детальный портрет каждого клиента.
Сначала построим иерархию на основе расстояния между точками в пространстве статистик. Агрегируя его, добавлением точек в ближайшие кластеры и отрезая дендрограмму на определенной высоте можно получить любое количество кластеров. Самым оптимальным с точки зрения смещения и вариации, а также количества кластеров, что нас интересуют есть отрезание на высоте 3. В таком случае получаем 3 группы клиентов со схожим поведением в пределах каждого кластера (рисунок 3).
Первая группа игроков (рисунок 4) характеризуется агрессивной формой проведения операций и неосторожности. Это приводит к тому, что игроки в таком кластере клиенты приносят больший доход, средний доход в день с такого клиента составляет 43,6 долл. США.
Вторая группа (рисунок 5) отличается более спокойным темпом операций. Представители этой группы проводят оперции осторожно и не рискуют. Проявляют выдержку и не пытаются диктовать свои правила игры. Это также проецируется на доход, который мы получаем в виде рейку. В этом случае он является умеренным и составляет в среднем 3 долл. США в день.
Третья группа (рисунок 6) является наиболее осторожной и через это наименее прибыльной. Среднее значение дохода, составляющее лишь 0,02 долл. США в день, говорит о том, что такие клиентов используют только зарплатные карты.
Итак, для сформированных групп характерны свои особенности операций. Причем эти особенности ярко проявляются в значениях дохода, который они приносят компании. Именно эта особенность и является первоочередной причиной необходимости подобной кластеризации для уточнения портрета клиента и составления более детальной модели его поведения.
Следующим шагом является построение модели выживания Каплан-Мейер. Для этого используется инструментарий библиотеки survival. Визуализация полученных результатов проводилась с помощью пакета survminer и ggplot2.
Сначала была построена непараметрическая модель для всей выборки (см. рисунок 7)
Медиана жизни для всей выборки составляет 7 дней, что является достаточно низкой. Благодаря предварительной кластеризации клиентов удалось выделить класс типичного поведения, что соответствует большинству игроков в популяции; класс краткосрочных клиентов и долгосрочных клиентов (см. рисунок 8).
Также оказалось, что для полученных кластеров характере разные типы характера отмирания (рисунок 9). Чем больший доход они приносят, тем они менее склонны к отмиранию. Так, например, половина популяции 3-й группы отмирает на 3-й день своей жизни. А в случае 1-й группы половина отмирает только после 1000-го дня своей жизни.
Применение анализа выживаемости позволяет более детально оценивать поведение каждого клиента. А это в свою очередь ведет к тому, что можно более точно оценивать финансовые показатели компании, такие как прогнозируемый доход.
Список использованной литературы
1. Vishwakarma, Pinki Prakash, Amiya Kumar Tripathy, and Srikanth Vemuru. 2018. "A Layered Approach to Fraud Analytics for NFC-Enabled Mobile Payment System." In Distributed Computing and Internet Technology, eds. Atul Negi, Raj Bhatnagar, and Laxmi Parida. Cham: Springer International Publishing, 127-31.
2. Lebichot, Bertrand, Fabian Braun, Olivier Caelen, and Marco Saerens. 2017. "A Graph-Based, Semi-Supervised, Credit Card Fraud Detection System." In Complex Networks & Their Applications V, eds. Hocine Cherifi, Sabrina Gaito, Walter Quattrociocchi, and Alessandra Sala. Cham: Springer International Publishing, 721-33.
3. Yildirim, Mehmet Yigit, Mert Ozer, and Hasan Davulcu. 2018. "Cost-Sensitive Decision Making for Online Fraud Management." In Artificial Intelligence Applications and Innovations, eds. Lazaros Iliadis, Ilias Maglogiannis, and Vassilis Plagianakos. Cham: Springer International Publishing, 323-36.
4. El-kaime, Hafsa, Mostafa Hanoune, and Ahmed Eddaoui. 2019. "The Data Mining: A Solution for Credit Card Fraud Detection in Banking." In Lecture Notes in Real-Time Intelligent Systems, eds. Jolanta Mizera-Pietraszko, Pit Pichappan, and Lahby Mohamed. Cham: Springer International Publishing, 332-41.
5. Lee, Namsup, Hyunsoo Yoon, and Daeseon Choi. 2018. "Detecting Online Game Chargeback Fraud Based on Transaction Sequence Modeling Using Recurrent Neural Network." In Information Security Applications, eds. Brent ByungHoon Kang and Taesoo Kim. Cham: Springer International Publishing, 297-309.
6. Wiese, Benard, and Christian Omlin. 2009. "Credit Card Transactions, Fraud Detection, and Machine Learning: Modelling Time with LSTM Recurrent Neural Networks." In Innovations in Neural Information Paradigms and Applications, eds. Monica Bianchini, Marco Maggini, Franco Scarselli, and Lakhmi C Jain. Berlin, Heidelberg: Springer Berlin Heidelberg, 231-68. https://doi.org/10.1007/978-3-642-04003-0_10.
7. Chen, Rong-Chang, Ming-Li Chiu, Ya-Li Huang, and Lin-Ti Chen. 2004. "Detecting Credit Card Fraud by Using Questionnaire-Responded Transaction Model Based on Support Vector Machines." In Intelligent Data Engineering and Automated Learning — IDEAL 2004, eds. Zheng Rong Yang, Hujun Yin, and Richard M Everson. Berlin, Heidelberg: Springer Berlin Heidelberg, 800-806.
8. Blackwell, Clive. 2008. "A Reasoning Agent for Credit Card Fraud on the Internet Using the Event Calculus." In Global E-Security, eds. Hamid Jahankhani, Kenneth Revett, and Dominic Palmer-Brown. Berlin, Heidelberg: Springer Berlin Heidelberg, 26-39.