УДК 004
Павлова Д.А.
магистрант
Белгородский государственный национальный исследовательский университет
(г. Белгород, Россия)
ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ВЫВОЗА ОТХОДОВ
Аннотация: в статье применяются методы машинного обучения для прогнозирования количества вывезенных контейнеров. Исследование включает в себя подготовку данных, анализ и сравнительную оценку результатов четырёх различных моделей машинного обучения. На основе полученных результатов автор выбирает наиболее подходящую модель для дальнейших исследований. Результаты исследования позволят оптимизировать процесс планирования работы по вывозу отходов, делая более точные прогнозы на основе реальных данных.
Ключевые слова: машинное обучение, прогнозирование вывоза отходов, анализ данных, оценка моделей, градиентный бустинг, случайный лес, деревья решений, линейная регрессия, среднеквадратичная ошибка (MSE), средняя абсолютная ошибка (MAE).
1 Введение и цели исследования
Одним из ключевых элементов успешного управления и планирования в сфере вывоза отходов является способность предсказывать потребности в обслуживании отдельных контейнерных площадок. Эффективное прогнозирование позволяет оптимизировать графики вывоза, повышая при этом эффективность работы и снижая издержки. Однако точность этих прогнозов является критическим фактором, требующим внимательного анализа и проверки.
В рамках данного исследования основной упор делается на прогнозирование среднего количества вывезенных контейнеров, как первого шага к пониманию общей динамики и трендов в этой сфере. Это дает возможность оценить правильность предсказаний модели перед тем, как использовать ее для более детализированного прогнозирования сотен или даже тысяч графиков для каждой контейнерной площадки.
Исследования в области управления отходами подтверждают важность точного прогнозирования для оптимизации рабочих процессов. Согласно исследованию Ashish Bhateja и его коллег, точное прогнозирование количества отходов может существенно улучшить процессы планирования и управления, приводя к более эффективному использованию ресурсов и снижению издержек [1].
Важно не просто предсказать количество контейнеров, но также понять реальные потребности, что может позволить скорректировать графики вывоза не на основе предположений о частоте пользования контейнерных площадок, а на основе реальных данных. Этот подход в полной мере отражает принципы, изложенные Бертом Якстрой и его коллегами в их работе 2018 года, где они утверждают, что оптимизация системы управления отходами должна основываться на точных данных, полученных из надежных источников [2].
В итоге, данное исследование направлено на то, чтобы применить методы машинного обучения для точного прогнозирования среднего количества вывезенных контейнеров, что позволит лучше понять общую динамику в сфере вывоза отходов и улучшить планирование рабочих процессов.
2 Описание данных и предварительная обработка
Данные, используемые в исследовании, представлены двумя параметрами: датой и количеством заказанных контейнеров. Все даты в датасете принадлежат периоду от 2020 до 2023 года. Для каждого дня и каждого года данные усредняются, чтобы уменьшить случайные колебания и выделить общие
тренды. Этот подход помогает сгладить возможные аномалии и выявить долгосрочные изменения в динамике использования контейнеров.
Для данного исследования был выбран инструмент Jupyter Notebook и язык программирования Python в силу их функциональности и востребованности в области анализа данных и машинного обучения. Python обладает мощной экосистемой научных библиотек, включая Pandas, Matplotlib, Seaborn и Scikit -learn, которые упрощают обработку данных, построение моделей и визуализацию результатов.
С другой стороны, Jupyter Notebook предоставляет интерактивную среду, идеально подходящую для экспериментального анализа данных, прототипирования и отчетности. Эти инструменты вместе формируют гибкую и мощную среду для проведения нашего исследования.
Вывод данных в первоначальном загруженном и перенесённом на точечную диаграмму видах с помощью Python и Jupiter Notebook отображены на рисунках 1 и 2.
date quantity
0 2020-01 -01 5S
1 2020-01-02 113
2 2020-01-03 143
3 2020-01-04 5S
4 2020-01-05 31
1242 2023- -05 ■21 430
1243 2023- -05 28 362
1244 2023- -05 ■29 670
1245 2023- -05 30 524
1246 2023- -05 31 617
1247 rows * 2 columns Рис. 1. Отображение выводимых данных в Jupyter Notebook
Рис. 2. Распределение данных
Усредненные значения затем используются для прогнозирования среднего количества контейнеров, которые вероятно будут заказаны в будущем. Полагается, что проработанные прогнозы могут быть полезны для разработки более точных и эффективных графиков вывоза отходов.
Прогнозирование среднего количества контейнеров дает нам возможность более точно спрогнозировать потребности в вывозе отходов. Это, в свою очередь, позволяет подготовиться к потенциальным пикам спроса и заблаговременно реагировать на изменения в трендах утилизации отходов.
В связи с этим полезно также следить не только за общими трендами по изменению потребности в вывозе, но полезно также следить за трендами вывоза по различным срезам - месяцы, дни месяца, дни недели.
Вывод итогового датасета для анализа с дополнительными вычисленными значениями годов, месяцев, недель и дней недели представлены на рисунке 3.
date quantity year month day weekday
0 2020-01-01 53 2020 1 1 2
1 2020-01-02 113 2020 1 2 3
2 2020-01-03 143 2020 1 3 4
1 2020-01-04 53 2020 1 4 5
4 2020-01-05 31 2020 1 5 б
1242 2023-05-27 430 2023 5 27 5
1243 2023-05-28 352 2023 5 23 б
1244 2023-05-29 670 2023 5 29 0
124S 2023-05-30 524 2023 5 30 1
1246 2023-05-31 517 2023 5 31 2
Рис. 3. Итоговый вид данных
В долгосрочной перспективе исследование этих данных может помочь в оптимизации процессов вывоза отходов, улучшении графиков утилизации и, в конечном итоге, улучшении эффективности и экологичности системы управления отходами. Изучение и анализ исторических данных — это важный
шаг на пути к созданию более устойчивой и эффективной системы управления отходами.
3 Исследовательский анализ данных
В данном исследовании были построены различные графики, используя преобразованные данные. Такие данные специально вычислялись и группировались по дням недели, дням месяца и годам, что позволило выявить особенности трендов, связанных с потребностями в вывозе отходов в разные периоды. Этот подход открывает возможность для более детального и тонкого анализа данных.
Основываясь на различных срезах данных, исследование сосредоточено не только на отслеживании общих трендов изменения потребности в вывозе по годам, но также и на анализе трендов вывоза отходов по отдельным дням недели и месяца. Это может быть особенно полезно для управления операционной деятельностью, так как требования к вывозу могут значительно варьироваться в зависимости от дня недели или месяца [3].
Точечные диаграммы и линейные графики фактических вывозов контейнеров по годам, месяцам, дней месяца и дней недели представлены на рисунках 4 - 11.
Рис. 4. Распределение вывоза по годам
Рис. 6. Распределение вывоза по месяцам
Рис. 8. Распределение вывоза по дням недели
Рис. 9. Среднее количество контейнеров по дням недели
Рис. 10. Распределение вывоза по дням недели
Анализ данных показывает определенные тенденции и закономерности, которые могут быть использованы для прогнозирования будущих потребностей в вывозе контейнеров. Наблюдается плавное увеличение среднего количества выводимых контейнеров по годам. Это подтверждается и точечными графиками, демонстрирующими нарастающие минимальные и максимальные значения.
Интересными для анализа являются также ежемесячные колебания количества вывозов. Графики точечного распределения и среднего количества вывоза по месяцам свидетельствуют о снижении количества вывозов в летние месяцы. Этот факт, возможно, объясняется периодом отпусков, когда значительная часть населения уезжает из города.
Дополнительные закономерности проявляются в графиках распределения по дням недели. Наблюдается снижение количества вывозимых контейнеров в выходные дни. Это может указывать на то, что многие люди предпочитают избавляться от отходов в начале недели, совмещая это с выходом на работу. Такие закономерности могут быть использованы для более точного планирования графиков вывоза, что может привести к оптимизации операционных затрат и повышению уровня удовлетворенности потребителей [4].
4 Применение моделей машинного обучения для прогнозирования
Для проведения исследования был составлен и применён общий алгоритм для применения различных моделей машинного обучения:
1. Подготовка данных: Загружаются данные и преобразуются в подходящий формат для обучения модели. Сюда же входит предварительная обработка данных, такая как нормализация, преобразование категориальных признаков в числовые и т.д.
2. Разбиение данных: Данные разделяются на обучающую и тестовую выборки. Для всех методов также сделали одинаковое разделение на тестовую и обучающую выборку в соотношении 20% и 80% соответственно. Данное
соотношение является общепринятым в задачах с применением машинного обучения.
3. Создание модели: Создаётся модель с использованием метода машинного обучения - линейная регрессия, дерево принятия решений, случайный лес и градиентный бустинг.
4. Обучение модели: Модель обучается на обучающей выборке, используя соответствующий алгоритм обучения.
5. Предсказание: С использованием обученной модели делаются предсказания на тестовых данных.
6. Оценка модели: Качество модели оценивается, сравнивая предсказанные значения с истинными значениями на тестовой выборке. Обычно для этого используются метрики, такие как средняя абсолютная ошибка (MAE) и среднеквадратическая ошибка (MSE).
7. Визуализация: Результаты модели визуализируются для более наглядного представления ее работы и качества предсказаний.
В рамках данного исследования были выбраны четыре модели: линейная регрессия, дерево принятия решений, случайный лес и градиентный бустинг, каждая из которых представляет собой разные подходы к решению задач регрессии.
Линейная регрессия - это одна из наиболее базовых моделей машинного обучения и часто служит отправной точкой для более сложных моделей. Она позволяет оценить влияние отдельных предикторов на зависимую переменную и дает возможность интерпретировать результаты [5].
Предсказания с помощью метода линейной регрессии представлены на рисунке 12.
Рис. 12. График предсказания модели «Линейная регрессия»
Дерево принятия решений - это другой пример простой и интуитивно понятной модели, основанной на пороговых правилах, которые делают ее легко интерпретируемой. Она отлично подходит для работы с категориальными признаками и не требует масштабирования данных [6].
Итоговый вывод данных после применения модели дерева принятия решения изображён на рисунке 13.
Рис. 13. График предсказания модели «Дерево принятия решений»
Случайный лес - это ансамбль моделей деревьев принятия решений. Он более устойчив к переобучению, обладает высокой точностью предсказаний и умеет автоматически оценивать важность признаков. Это делает его отличным выбором для многих задач регрессии [7].
Результаты предсказаний после применения метода случайного леса показан на рисунке 14.
Рис. 14. График предсказания модели «Случайный лес»
Градиентный бустинг - это еще одна ансамблевая модель, которая строит последовательность деревьев принятия решений, каждое из которых исправляет ошибки предыдущего. Это часто приводит к очень высокой точности предсказаний, что делает его популярным выбором в машинном обучении [8].
График результатов при применении метода градиентного бустинга можно проанализировать по рисунку 15.
- йг• . А ''■.Д 'у' •
г " '
Рис. 15. График предсказания модели «Градиентный бустинг»
5 Оценка и сравнение моделей
В предыдущих разделах мы рассмотрели применение четырех различных методов машинного обучения. В качестве ключевых метрик оценки эффективности этих моделей были использованы средняя квадратичная ошибка (MSE) и средняя абсолютная ошибка (MAE). MSE и MAE - это популярные метрики для оценки качества моделей регрессии. MSE представляет собой среднее значение квадратов ошибок, что делает её чувствительной к большим ошибкам из-за квадратичной природы штрафа. В то время как MAE представляет собой среднее значение абсолютных ошибок и дает более прямое представление о том, какую ошибку можно ожидать в среднем [9][10].
Таблица 1. Оценка методов машинного обучения
Метрики оценки (ошибки) Модель машинного обучения
Линейная регрессия (Linear Regression) Дерево принятия решений (Decision Tree model) Случайный лес (Random Forests) Градиентный бустинг (Gradient Boosting model)
Средняя квадратичная ошибка (MSE, Mean Squared Error) 17321.35 22222.83 14181.77 2414.73
Средняя абсолютная ошибка (MAE, Mean Absolute Error) 102.67 115.93 91.95 39.31
Исходя из представленных значений MSE и MAE, метод градиентного бустинга (Gradient Boosting) показывает наилучшие результаты. У него наименьшие значения обоих метрик, что указывает на меньшую ошибку в предсказаниях модели по сравнению с другими методами.
Градиентный бустинг является мощным алгоритмом машинного обучения, который работает путем объединения множества слабых моделей (обычно деревьев принятия решений) для создания более сильной исходной модели. Это может быть особенно полезно в сложных задачах прогнозирования, где отношения между признаками и целевой переменной могут быть сложными, что и предполагается в дальнейшем исследовании для предсказывания значений вывоза для каждой контейнерной площадки по отдельности.
6 Выводы
В ходе проведенного исследования мы применили четыре различных метода машинного обучения для прогнозирования среднего количества вывезенных контейнеров. Это позволит не только более точно планировать работу по вывозу отходов, но и принимать решения, основанные на реальных данных, а не предположениях. Методы машинного обучения, использованные в этой работе, показали, что существуют эффективные способы предсказания потребности в услугах по вывозу отходов, что существенно улучшит работу в этой области.
Кроме того, были проведены дополнительные анализы для определения влияния различных факторов, таких как год, месяц и день недели, на общее количество вывезенных контейнеров. Это помогает учесть сезонные и недельные колебания в использовании контейнерных площадок.
Исходя из рассчитанных значений MSE и MAE для каждого из четырех методов, модель, основанная на градиентном бустинге (XGBoost), показала наилучшие результаты. Следовательно, в дальнейшем она будет использоваться для более детального прогнозирования количества вывезенных контейнеров для каждой контейнерной площадки. Это позволит нам еще точнее прогнозировать потребности в услугах по вывозу отходов на уровне каждой отдельной площадки, что будет способствовать еще более эффективному планированию рабочих процессов и управлению ресурсами.
СПИСОК ЛИТЕРАТУРЫ:
1. Bhateja, A., Garg, P. K., Rastogi, R., & Singh, R. (2016). A multistage mathematical modeling approach for efficient and effective waste management. *Procedia Environmental Sciences, 35*, 336-349.
2. Yakovleva, E., & Muradova, A. (2018). Optimal planning and management of waste collection systems. *IOP Conference Series: Earth and Environmental Science, 107*(1), 012107.
3. K. Larsen. (2001). "The Routeing Problem in Solid Waste Collection: Literature Survey and Annotations". European Journal of Operational Research, 2(2), pp. 55-66.
4. L. Muyldermans, D. Cattrysse, D. Van Oudheusden, N. Lotan (2010). "A Methodology for the Vehicle Fleet Mix Problem in Solid Waste Collection". Journal of the Operational Research Society, 61(3), pp. 443-454.
5. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer Texts in Statistics. doi: 10.1007/978-1-4614-7138-7
6. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Series in Statistics. doi: 10.1007/978-0-387-84858-7
7. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. doi: 10.1023/A:1010933404324
8. Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29, 1189-1232. doi: 10.1214/aos/1013203451
9. Hyndman, R.J., Koehler, A.B. (2006). "Another look at measures of forecast accuracy", International journal of forecasting, 22(4), 679-688.
10. Chai, T., Draxler, R.R. (2014). "Root mean square error (RMSE) or mean absolute error (MAE)?", Geoscientific Model Development Discussions, 7, 15251534.
Pavlova D.A.
Belgorod State National Research University (Belgorod, Russia)
CHOICE OF THE OPTIMAL MACHINE LEARNING MODEL FOR WASTE REMOVAL PREDICTION
Abstract: the article applies machine learning methods to predict the number of containers removed. The study includes data preparation, analysis, and comparative evaluation of results from four different machine learning models. Based on the obtained results, the author selects the most suitable model for further research. The results of the study will allow the optimization of the waste removal planning process, making more accurate forecasts based on real data.
Keywords: machine learning, waste removal forecasting, data analysis, model evaluation, gradient boosting, random forests, decision trees, linear regression, mean squared error (MSE), mean absolute error (MAE).