Шайхиева Ж.М.
магистр технических наук Казахский национальный университет им. аль-Фараби (г. Алматы, Казахстан)
CHURN MODELING ДЛЯ ПРОГНОЗИРОВАНИЯ ОТТОКА КЛИЕНТОВ В ПРЕДПРИЯТИЯХ
Аннотация: отток клиентов представляет собой значительную проблему для компаний различных отраслей, включая телекоммуникации, финансы, розничную торговлю и другие. Он ведет к снижению доходов и увеличению затрат на привлечение новых клиентов. В этом контексте прогнозирование оттока, также известное как churn modeling, стало важной областью исследований и практического применения. Churn modeling - это процесс использования аналитических инструментов и технологий для определения того, какие клиенты скорее всего перестанут пользоваться продуктами или услугами компании. Это дает возможность предпринимать своевременные меры для удержания таких клиентов, что в конечном итоге способствует увеличению клиентской базы и доходов компании. Цель данной статьи - изучить существующие методы churn modeling, обсудить их преимущества и недостатки, а также сравнить наиболее подходящих для построения прогнозов современных методов машинного обучения, которые могут помочь улучшить точность прогнозирования оттока клиентов. Для оценки эффективности предложенных методов применяются метрики качества: точность, auc, precision, recall и f1-score.
Ключевые слова: отток клиентов, машинное обучение, модели прогнозирования, метрики качества.
Отток клиентов, или "churn", является критической проблемой, с которой сталкиваются многие организации, особенно в секторах, где конкуренция высока, таких как телекоммуникации, финансовые услуги и розничная торговля. Отток клиентов влечет за собой не только прямые потери в доходах от ушедших клиентов, но и высокие затраты на привлечение новых
УДК 004
клиентов для заполнения возникшего пробела. Следовательно, удержание существующих клиентов становится ключевым фактором для устойчивого роста и прибыльности бизнеса.
Моделирование оттока, или "churn modeling", является одним из наиболее эффективных подходов для борьбы с этой проблемой. Это метод прогнозирования, который определяет вероятность того, что клиент перестанет пользоваться услугами или продуктами компании в определенный период времени. Эти модели позволяют компаниям идентифицировать клиентов с высоким риском оттока и разрабатывать стратегии для их удержания.
Основная цель исследования - исследовать эффективность алгоритмов, применяемых для прогнозирования оттока клиентов и 11 основных моделей прогнозирования с целью выявления наиболее точного. Методы и принципы исследования для модели оттока состоит из нескольких этапов:
1. Сбор данных: Чтобы создать модель оттока, необходимо сначала собрать данные о клиентах. Это включает данные об их поведении, истории покупок, взаимодействиях с компанией и другую информацию.
2. Подготовка данных: Данные должны быть очищены и подготовлены для анализа. Это может включать удаление выбросов, заполнение пропущенных значений, преобразование категориальных переменных в числовые и т.д.
3. Исследовательский анализ данных (EDA): Этот шаг позволяет понять структуру данных и выявить любые особенности или аномалии в данных.
4. Построение модели: Используются различные алгоритмы машинного обучения для построения модели оттока, такие как логистическая регрессия, деревья решений, случайный лес, градиентный бустинг, нейронные сети и др.
5. Оценка модели: Модель должна быть тщательно проверена и оценена на основе ее точности, точности, полноты, AUC-ROC и других метрик.
6. Внедрение модели: После того, как модель была тщательно протестирована и оценена, она может быть внедрена в бизнес-процессы компании для идентификации клиентов, которые скорее всего уйдут.
7. Мониторинг и обновление модели: Модель оттока должна регулярно обновляться и повторно обучаться на новых данных, чтобы оставаться актуальной и точной. Важным принципом при исследовании оттока является понимание причин оттока. Это может помочь компании разработать стратегии удержания, которые более эффективно удовлетворяют потребности клиентов и уменьшают вероятность их ухода.
Исследования проводились с использованием языка программирования Python. Для работы с данными была использована библиотека pandas, для визуализации и анализа данных библиотеки matplotlib и seaborn, для предобработки данных, а также для обучения и тестирования алгоритмов применялась библиотека sklearn.
Набор данных в нашем датасете содержит 523 записи о клиентов компании. Данные содержат демографическую информацию о клиентах, их подключенные услуги, наличие продуктов и транзакционные данные.
На этапе предварительной обработки данных были заполнены пропущенные значения в 23 данных обнаружены пропуски в 23 данных, которые в последствии были удалены и некоторые заменены на значение 0 с помощью метода fillna() для исправления неточности в данных, так же все категориальные столбцы были преобразованы в числовые с помощью метода one-hot-encoding.
Данные были разбиты на обучающие, который используется для обучения модели, и тренировочные датасеты для оценки ее производительности в соотношении 70/30 и обучены на алгоритмах машинного обучения, наиболее подходящих для прогнозирования, выявленных в ходе анализа предметной области. Таким образом, были выбраны следующие модели: логистическая регрессия (Logistic Regression), XGBoost, CatBoost, метод опорных векторов (SVM), случайные леса (Random Forest), метод kNN, дерево решений (Decision Tree).
В таблице 1 представлены результаты, а именно метрики оценки качества модели, обученных и протестированных моделей для предсказания оттока клиентов.
Таблица 1. Метрики качества исследованных моделей
Метод accuracy, % auc precision recall F1-score
Логистическая регрессия 79,6 0,702 0,75 0,67 0,68
XGBoost 81,3 0,711 0,76 0,67 0,7
CatBoost 78,2 0,692 0,75 0,67 0,68
Метод опорных векторов 80,1 0,701 0,76 0,67 0,68
Случайные леса 79,18 0,682 0,70 0,63 0,66
Метод к-ближайших соседей 77,26 0,697 0,71 0,66 0,66
Дерево решений 71,79 0,651 0,65 0,6 0,6
СПИСОК ЛИТЕРАТУРЫ:
1. Amin AA prudent based approach for customer churnprediction/ A. Amin, R.Faisal, R. Muhammad et al. //11th International Conference, BDAS 2015, Ustro n, Poland. -2015. -P.320-332.
2. Мальчиц В.С.Обработка данных для машинного обучения и применение метода опорных векторов для реализации классификатора новостей / В.С. Мальчиц, А.Н. Гетман// Вестник Амурского государственного университета. Серия: Естественные и экономические науки.-2019. -No87. -С. 8-13.
3. Грищенко Д.А. Анализ методов моделирования и прогнозирования оттока клиентов/ Д.А. Грищенко, А.В.Катаев// Вестник науки и образования.-2018.-No5(41).-C.21-23.31.05.14).
4. Мхитарян С.В. Управление оттоком клиентов в условиях цифровой экономики/ С.В. Мхитарян, Т.А. Тультаев, И.В. Тультаеваи др. // КЭ .-2018.-No10.-C.1661-1672.
Shaikhiyeva Zh.M.
Kazakh National University named after al-Farabi (Almaty, Kazakhstan)
CHURN MODELING FOR PREDICTING CUSTOMER CHURN IN ENTERPRISES
Abstract: customer churn is a significant problem for companies in a variety of industries, including telecommunications, finance, retail and others. It leads to a decrease in revenue and an increase in the cost of attracting new customers. In this context, churn forecasting, also known as churn modeling, has become an important area of research and practical application. Churn modeling is the process of using analytical tools and technologies to determine which customers are most likely to stop using a company's products or services. This makes it possible to take timely measures to retain such clients, which ultimately helps to increase the client base and revenue of the company. The purpose of this article is to examine existing churn modeling methods, discuss their advantages and disadvantages, and compare the most suitable modern machine learning methods for making forecasts that can help improve the accuracy of customer churn forecasting. To evaluate the effectiveness of the proposed methods, quality metrics are used: accuracy, auc, precision, recall and f1-score.
Keywords: churn modeling, customer churn, machine learning, forecasting models, quality
metrics.