УДК 519.2
К. О. Гук
Московский физико-технический институт (национальный исследовательский университет)
Прогнозирование посещаемости кафе методами машинного обучения
При развитии сферы обслуживания каждому владельцу ресторана важно максимизировать свой доход. Для этого нужно правильно распределять трудовые ресурсы и производить закупки. Чтобы это сделать, необходимо производить оценку потока покупателей. В данной работе было произведено исследование для предсказаний количества посетителей методами машинного обучения.
Ключевые слова: прогнозирование, машинное обучение, сфера услуг, поток клиентов
К. О. Guk
The Moscow Institute of Physics and Technology
Predicting cafe attendance using machine learning
methods
When designing a service area, it is important for every restaurant owner to maximize their income. To do this, it is necessary to correctly allocate labor resources and make purchases, and to do this, it is necessary to estimate the flow of customers. In this paper, a study was conducted on predicting the number of customers using machine learning techniques.
Key words: prediction, machine learning, service industry, customer traffic
1. Введение
При развитии сферы обслуживания каждому владельцу ресторана важно максимизировать свой доход. Для этого нужно правильно распределять трудовые ресурсы и производить закупки. Чтобы это сделать, необходимо производить оценку потока покупателей. В данной работе было произведено исследование для предсказаний количества посетителей методами машинного обучения.
2. Постановка задачи и методы
Рассматривается задача прогнозирования числа посетителей в ресторане по ежедневным данным о количестве реализованных чеков. Цель — разработка модели, позволяющей оценить число посетителей на месяц вперед. Прогноз осуществляется на основании информации:
• о посещения в предыдущий день;
• о погоде;
• о праздниках;
© Гук К. О., 2023
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2023
ТРУДЫ МФТИ. 2023. Том 15, № 3
К. О. Гук
57
• о бронирование столов и предзаказах. Прогнозная точность определяется но формуле МАРЕ (Mean Absolute Percentage Error) [1|:
1
МАРЕ = - V n
t=1
At- Ft
At
п - количество наблюдений, ^ - реальные значения, Ft - предсказанное значение.
Так как в модели участвуют лаги, то при предсказаниях на будущее нужно пользоваться «методом цепного предсказания» делать предсказание на один день вперед и использовать это значение в дальнейшем.
3. Модели
В качестве первой модели рассматриваем модель из библиотеки Prophet. Библиотека Prophet [2| это библиотека с открытым исходным кодом, предназначенная для прогнозирования одномерных наборов данных временных рядов. Он прост в использовании и предназначен для автоматического поиска хороших) набора гиперпараметров для модели, чтобы делать точные прогнозы для данных с тенденциями и сезонной структурой по умолчанию. Математическое уравнение [2|, лежащее в основе модели Prophet, определяется как
y(t)= g(t) + s(t) + h(t) + e(t),
где g(t) представляет тренд; s(t) - периодические изменения (еженедельно, ежемесячно, ежегодно); h(i) - влияние праздников и e(t) - член ошибки. Модель Prophet строится только на данных о дате и целевой переменной.
Результаты подсчета метрик (табл. 1):
Таблица 1
Результаты Prophet
R2 MSE МАЕ МАРЕ
Train 0.517 1387.575 26.404 0.937
Test -0.069 1255.269 30.728 0.152
На основе модели были сделаны предсказания потока клиентов и построен график, изображенный на рис. 1, где непрерывная линия является предсказанием модели, точками отмечены реальные значения данных.
Рис. 1. График реальных и предсказанных значений
Вторая рассмотренная модель CatBoostRegression это модель градиентного буетинга. Для работы с данной моделью произведено OncHot encoding для категориальных величин и произведена работа по замене «плохих значений». Для работы сформированы три да-таеета: два кафе находятся в одном и том же городе, но на разных улицах, а одно кафе
располагается в другом городе. Это было сделано для того, чтобы показать, что расположение кафе влияет на предсказания для целевой характеристики, нельзя использовать одну модель без изменений для всех кафе.
Далее были проведены эксперименты. На основе модели CatBoost сделаны подсчеты основных характеристик при условии, что производится препроцесенг с вязанный с целевой характеристикой. Это значит, что были убраны все значения, которые меньше, чем 10%-диапШе от данной характеристики. Данные пропуски насчитывают небольшое количество и заменены с помощью линейной регрессии. Далее на основе данного датасета производились эксперименты по подбору гиперпараметров, при дополнительном присутствии МшМах8са1ег на целевой характеристике. Далее приведены данные экспериментов для одного из ресторанов (табл. 2).
Таблица 2
Результаты CatBoostRegerssion
Grid Search Grid Search scaler Hvperopt Hvperopt scaler CatBoost Regression model Scaler model
МАРЕ train 0.069163 0.579511 0.118369 0.914706 0.001616 0.021274
МАРЕ test 0.130993 1.144692 0.141661 0.993262 0.127677 1.421219
МАЕ train 6.641845 0.407208 11.326168 0.736196 0.153733 0.005740
МАЕ test 11.838631 0.691044 12.545031 0.730116 11.524332 0.641509
R2 train 0.777266 0.740106 0.378887 0.183957 0.999887 0.999955
R2 test 0.142150 0.098998 0.072012 0.037930 0.199771 0.198759
4. Выводы
По результатам получается, что лучше всего использовать модель CatBoost без MinMaxScaler с добавленными данными о предзаказах. При работе было выявлено большое влияние праздников и появилась необходимость составления списка праздников по городу, так как от праздников часто зависят ограничения на продажу алкогольных напитков.
Список литературы
1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Москва : Депо, 2004. 576 с.
2. Taylor S.J., Letham В. Forecasting at scale. PeerJ Preprints 5:e3190v2. URL: https://doi.org/10.7287/peerj.preprints.3190v2, 2017. P. 25.
References
1. Magnus Ya.R., Katyshev P.K., Pereseckij A.A. Ekonometrika. Nachal'nyj kurs. Moscow : Depo, 2004. P. 576. (in Russian).
2. Taylor S.J., Letham, B. Forecasting at scale. PeerJ Preprints 5:e3190v2. URL: https://doi.org/10.7287/peerj.preprints.3190v2, 2017. P. 25.
Поступим в редакцию 15.05.2023