УДК 004.852 Мохаммад А.А., Юрин Е.П.
Мохаммад А.А.
студент
Российский университет транспорта (МИИТ) (г. Москва, Россия)
Юрин Е.П.
студент
Российский университет транспорта (МИИТ) (г. Москва, Россия)
ПРИМЕНЕНИЕ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ ПРЕДСКАЗАНИЯ ОТМЕН БРОНИРОВАНИЙ В ОТЕЛЯХ
Аннотация: в работе разработана модель искусственного интеллекта, позволяющая с некоторой вероятностью предсказывать отмену бронирования номера отеля со стороны клиента. Представлены использованные методы искусственного интеллекта для улучшения качества предсказаний модели и интерпретация наиболее влияющих на отмену факторов, на основании которых можно принимать стратегические бизнес-решения для уменьшения количества отмен и издержек.
Ключевые слова: искусственный интеллект, предсказание отмен, гостиничный
бизнес.
В условиях динамичного развития гостиничного бизнеса и растущей конкуренции, эффективное управление бронированиями становится критически важным для обеспечения финансовой устойчивости и повышения уровня обслуживания клиентов. Одной из основных проблем, с которой сталкиваются гостиницы, является высокая доля отмен бронирований, что может привести к значительным экономическим потерям. В связи с этим, применение методов искусственного интеллекта (ИИ) для предсказания отмены бронирования
представляет собой актуальную и перспективную задачу. Используя такие параметры, как время бронирования, тип номера, продолжительность проживания, а также демографические данные клиентов, можно построить модели, способные с высокой точностью (до 90%) предсказывать вероятность отмены. Это позволяет гостиницам заранее реагировать на потенциальные отмены и оптимизировать свои бизнес-процессы.
В рамках исследования использовался датасет, содержащий информацию о бронированиях в четырех гостиницах. Данные включали в себя ключевые параметры, такие как время бронирования, время заезда, время выезда, тип оплаты, категория номера, стоимость и предоплата среди прочих. Эти параметры представляют собой важные факторы, которые могут влиять на решение клиента об отмене бронирования. В дополнение к вышеуказанным параметрам, было также решено задействовать макроэкономические показатели, такие как уровень безработицы, инфляция и экономический рост для обучения исходной модели. Эти факторы могут оказывать значительное влияние на поведение потребителей и их финансовые решения.
Для валидации нашей модели был использован метод кросс-валидации с разбиением датасета по времени. Этот подход был выбран, поскольку он более справедлив по сравнению с простой кросс-валидацией, которая может не учитывать временные зависимости в данных. Разбиение по времени позволяет избежать утечки информации из будущих данных в обучающую выборку, что критически важно для задач предсказания, связанных с временными рядами.
На этапе подготовки данных был проведен процесс генерации и отбора признаков, который является критически важным для повышения производительности модели машинного обучения. Первым шагом было извлечение различных временных параметров из дат, таких как день недели, час и месяц. Эти параметры могут существенно влиять на поведение клиентов. Также предоплата была разделена на стоимость бронирования, что позволило создать новый признак, отражающий долю предоплаты в общей стоимости. Этот признак оказался одним из самых значимых для предсказания отмены.
Теоретически, это может быть объяснено тем, что более высокая доля предоплаты создает у клиента большую финансовую привязку к бронированию, что, в свою очередь, снижает вероятность его отмены.
Для обучения модели использовался алгоритм CatBoost, который является одним из самых эффективных методов градиентного бустинга, особенно для категориальных данных. CatBoost автоматически обрабатывает категориальные признаки, что упрощает процесс подготовки данных и позволяет избежать потери информации. Применив методику кросс-валидации с разбиением по времени, была обеспечена надежная оценка производительности модели. В результате была достигнута точность (accuracy) 0.92 и значения ROC AUC 0.89 на обучающей выборке.
Анализ важности признаков позволяет понять, какие факторы оказывают наибольшее влияние на предсказания модели. Это не только помогает в интерпретации результатов, но и может быть полезно для дальнейшего улучшения модели и принятия бизнес-решений. CatBoost предоставляет встроенные методы для оценки важности признаков, которые основаны на различных метриках. Важно отметить, что CatBoost учитывает взаимодействие признаков, что делает его особенно эффективным для анализа важности.
Для оценки важности признаков модели была использована SHAP диаграмма. SHAP (SHapley Additive exPlanations) — это метод, основанный на теории игр, который позволяет оценить вклад каждого признака в предсказание модели. SHAP значения обеспечивают интерпретируемость, позволяя понять, как каждый признак влияет на конкретное предсказание. SHAP значения основаны на концепции "Shapley values", предложенной в теории игр, которая распределяет "выплату" (в нашем случае — предсказание модели) между участниками (признаками) на основе их вклада. SHAP значения обеспечивают согласованность: если признак увеличивает предсказание, его SHAP значение будет положительным, и наоборот.
Рис. 1. Диаграмма полученных SHAP значений.
По приведенному графику можно сделать вывод, что самым важным признаком является разница между временем заезда/выезда и временем бронирования. Этот признак позволяет оценить, насколько заранее клиент забронировал номер. Чем больше разница, тем меньше вероятность отмены, так как клиент, скорее всего, уже планирует свою поездку. Также, высокое влияние на предсказания модели оказывают такие признаки как отношение предоплаты к общей стоимости номера, время до заезда, тип оплаты и внесенная предоплата.
В данной задаче макроэкономические параметры и параметры, связанные с гостиницей, не вносят значимого вклада.
Полученная модель проверялась на тестовой выборке. Тестовая выборка представляет собой данные с 2024 года, которые не пересекаются с обучающей выборкой, которая представляет собой данные с 2021 по 2023 год включительно. В результате были получены значения метрик Accuracy 0.9 и ROC-AUC 0.85 на тестовой выборке. Достигнутые результаты незначительно отличаются от значений, полученных на обучающей выборке, что говорит о высокой обобщающей способности модели. Используя большее количество признаков, которые связаны с данными клиентов и временными событиями, относящиеся к конкретной гостинице, возможно достичь более точных результатов предсказаний модели.
Исследование демонстрирует, что применение методов машинного обучения, в частности модели CatBoost с тщательным подбором признаков и временной кросс-валидацией, позволяет значительно улучшить предсказание отмен бронирований. Хотя добавление макроэкономических параметров не привело к существенному улучшению, анализ важности признаков выявил ключевые факторы, влияющие на решения клиентов.
С практической точки зрения, предсказание отмены бронирования открывает возможности для реализации проактивных стратегий управления. Например, гостиницы могут внедрять динамическое ценообразование, предлагая специальные условия для клиентов, которые с высокой вероятностью могут отменить свои бронирования. Это может включать в себя автоматизированные предложения по скидкам или дополнительные услуги, которые могут повысить привлекательность бронирования и снизить вероятность его отмены.
СПИСОК ЛИТЕРАТУРЫ:
1. Lundberg, S. M., & Lee, S.-I. (2017). "A Unified Approach to Interpreting Model Predictions". Advances in Neural Information Processing Systems, 30;
2. Cheng, M., & Edwards, D. (2019). "Predicting hotel booking cancellations using machine learning". International Journal of Hospitality Management, 83, 176-185;
3. Единая межведомственная информационно-статистическая система, официальный сайт [Электронный ресурс]. URL: http://fedstat.ru;
Mohammad A.A., Yurin E.P.
Mohammad A.A.
Russian University of Transport (MIIT) (Moscow, Russia)
Yurin E.P.
Russian University of Transport (MIIT) (Moscow, Russia)
USE OF ARTIFICIAL INTELLIGENCE METHODS TO PREDICT HOTEL CANCELLATIONS
Abstract: paper develops an artificial intelligence model that allows predicting the cancellation of a hotel room reservation by the client with some probability. The paper presents the methods of artificial intelligence used to improve the quality of model predictions and the interpretation of the factors most influencing cancellation, on the basis of which strategic business decisions can be made to reduce the number of cancellations and costs.
Keywords: artificial intelligence, prediction of cancellations, hotel business.