УДК 004.8
DOI: 10.24412/2071-6168-2023-2-203-206
СРАВНЕНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧАХ ПРОГНОЗИРОВАНИЯ УРОЖАЙНОСТИ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР
К.А. Макеев, А.В. Греченева, Я.С. Котов, А.Н. Голбан, Д.М. Смыслов
Рассмотрена проблематика поставленной задачи. Определена методика сравнения эффективности работы данных алгоритмов. Описаны современные алгоритмы машинного обучения, которые могут быть применены для решения задач прогнозированиях урожайности сельскохозяйственных культур. Проведён сравнительный анализ рассматриваемых алгоритмов. Приведены наиболее эффективные алгоритмы машинного обучения в рассматриваемой задаче на основе имеющихся данных.
Ключевые слова: машинное обучение, задача прогнозирования урожайности, АПК, sklearn, сравнение алгоритмов, случайный лес.
Прогнозирование урожайности — одна из современных задач в сельском хозяйстве, решение которой может помочь агрономам или иным ответственным сотрудникам принимать более обоснованные решения о посадке и сборе урожая, логистике и иных задач, что особенно актуально в текущих условиях, так как:
1. Происходит изменение климата, которое влияет на погодные условия, и в ближайшее время способно повлиять на урожайность некоторых культур [1]. Точное прогнозирование урожайности может помочь предприятиям сферы АПК адаптироваться к изменяющимся погодным условиям и принимать более обоснованные решения о посеве и сборе урожая;
2. По прогнозам, к 2050 году, население мира достигнет почти 10 миллиардов человек [2], поэтому продовольственная безопасность становится всё более важной задачей. Точное прогнозирование урожайности может помочь обеспечить достаточное количество продовольствия, чтобы обеспечить им растущее население;
3. Экономическая стабильность. Сельское хозяйство является важным сектором экономики многих стран, и прогнозирование урожайности может помочь обеспечить экономическую стабильность, предоставляя информацию, которую можно использовать для принятия более обоснованных решений в отношении ценообразования и управления цепочками поставок.
В свою очередь, методы искусственного интеллекта, в частности алгоритмы машинного обучения, можно использовать для прогнозирования урожайности на основе множества факторов, включая погоду, состояние почвы и информацию о предыдущих урожаях и иных показателей.
Целью работы является проведение сравнения эффективности алгоритмов машинного обучения из библиотеки sklearn в рамках рассматриваемой задачи.
Материалы и методы. Рассматриваемая задача решалась несколькими группами авторов, схожими по тематике являются следующие решения:
1. Прогнозирование урожайности кофейных деревьев в Бразилии на основе использования спутниковых изображений и данных об урожайности с применением алгоритма случайного леса [3].
2. Прогнозирование урожайности картофеля, кукурузы и пшеницы в некоторых частях США и Европы с применением алгоритма случайного леса [4].
Для проведения исследования были собраны данные с нескольких метеостанций, расположенных в Краснодарском крае. Полученный датасет содержал информацию о физико-химических параметрах почвы и окружающей среды (влажность, температура почвы и воздуха, УФ-индекс и иные) и урожайности кукурузы за 3 года наблюдений с интервалом в 1 час. С учётом отсутствия части значений за некоторые периоды, всего было получено около 73 тысяч записей. При наличии незначительных временных промежутков (не более 4 часов) данные были восстановлены на основе соседних значений, в ином случае данные за день удалялись из набора и проводилась их балансировка. С учётом проведённой работы с данными итоговое количество записей составило 78 тысяч единиц. В дальнейшем имеющийся набор данных, учитывая сезонность, был разделён в соотношении 4:1, где 80% составили данные для обучения алгоритмов, а 20% - для сверки результатов прогнозирования с действительными значениями. Целевой показатель - урожайность (ц/га).
Для сравнения были выбраны следующие алгоритмы, из библиотеки sklearn:
1. K-Nearest Neighbors (KNN) - Алгоритм работает, путём нахождения k-числа ближайших точек данных (также известных как «соседи») к заданной точке данных и использования среднего значение этих точек в качестве прогнозируемого значения для этой точки.
2. Decision Trees - Алгоритм дерева решений работает путём рекурсивного разбиения данных на подмножества на основе значений входных признаков для создания древовидной структуры.
3. Random Forest - Алгоритм работает, создавая несколько деревьев решений, используя разные подмножества данных и функций.
4. Linear Regression - Алгоритм предполагает, что связь между входными характеристиками и выходными данными (урожайностью) является линейной.
5. Support Vector Machines (SVMs) - Алгоритм находит наилучшую разделяющую гиперплоскость (линию или плоскость), которая максимизирует разницу между различными классами или значениями. В случае регрессии алгоритм находит лучшую гиперплоскость, которая максимизирует разницу между прогнозируемыми и фактическими значениями.
6. Gradient Boosting - Алгоритм работает путём построения ансамбля слабых моделей и пытается уменьшить ошибки ансамбля. На каждой итерации алгоритм подбирает новую модель к остаткам предыдущих моделей, а затем объединяет их для формирования окончательного прогноза.
7. Neural Networks (MLP) - MLP состоит из нескольких слоёв искусственных нейронов, которые полностью связаны, и алгоритм изучает веса связей между нейронами, настраивая их в процессе обучения. Процесс обучения выполняется с использованием набора данных и корректировкой весов, чтобы минимизировать ошибку между прогнозируемыми и фактическими значениями.
Для оценки эффективности алгоритмов были использованы следующие метрики:
MAE - средняя абсолютная ошибка
MSE - среднеквадратичная ошибка
R2 - коэффициент детерминации
Для подбора оптимальных параметров был использован инструмент GridSearchCV, также, для базового решения использовалась библиотека auto-sklearn, позволяющая в автоматическом режиме найти наиболее эффективные алгоритмы и оптимальные значения их параметров на основе собственных предустановленных значений.
Сравнение эффективности работы алгоритмов. Каждый алгоритм был запущен 3 раза с разными значениями случайной переменной для большей объективности полученных значений, в итоговую таблицу были внесены усреднённые показатели используемых метрик.
Результаты работы протестированных алгоритмов
Алгоритм MAE MSE R2
auto-sklearn 2.9 8.0 0.79
KNN 3.3 13.5 0.77
Decision Trees 2.9 10.3 0.79
Random Forest 2.5 8.2 0.83
Linear Regression 3.4 14.0 0.74
SVM 3.1 11.5 0.78
Gradient Boosting 2.6 8.1 0.82
Neural Networks 2.6 7.7 0.81
Также, на рисунке представлена визуализация полученных значений.
15
Гистограмма на основе значений метрик
Обоснование полученных результатов. На основе полученных показателей наиболее эффективными для имеющихся данных выступили следующие алгоритмы: Random Forest, Gradient Boosting, Neural Networks:
1. Random Forest - эффективен в задаче прогнозирования урожайности, поскольку он может обрабатывать многомерные и коррелирующие данные, уменьшать переобучение, обеспечивать меру важности признаков и быть устойчивым к выбросам и зашумленным данным. Алгоритм делает прогнозы, усредняя прогнозы нескольких деревьев решений, обученных на разных подмножествах данных;
204
2. Gradient Boosting - подобен предыдущему алгоритму с той особенностью, что он делает прогнозы, комбинируя слабые модели, такие как деревья решений, уменьшая ошибки ансамбля и корректируя веса, чтобы минимизировать ошибку между прогнозируемыми и фактическими значениями.
3. Neural Networks (MLP) - эффективен в задаче прогнозирования урожая, поскольку он может обрабатывать многомерные и коррелирующие значения и подходит для нелинейных отношений, а также полезен, когда набор данных объёмный и сложный с точки зрения структуры.
В свою очередь, следующие алгоритмы, на использованных данных, показали более низкую эффективность относительно остальных: Linear Regression, KNN:
1. Linear Regression - не всегда эффективен [5] в задаче прогнозирования урожайности, потому что алгоритм предполагает линейную связь между переменными и целевой функцией, поэтому он может не подходить для нелинейных отношений, обычно встречающихся в подобных задачах. Кроме того, алгоритм чувствителен к выбросам и предполагает, что данные являются гомоскедастическими (т.е. имеющими однородную дисперсию), что может не соблюдаться во многих реальных сценариях.
2. KNN - может быть не самым оптимальным выбором [6] для задачи прогнозирования урожайности, поскольку на алгоритм влияет выбор k и метрики расстояния, что может затруднить получение точных прогнозов. Кроме того, KNN чувствителен к нерелевантным или зашумленным данным, которые могут негативно повлиять на производительность модели в задачах прогнозирования урожайности, где данные являются многомерными и коррелирующими.
Заключение. На основе используемых метрик можно отметить, что Random Forest, Gradient Boosting и Neural Networks (MLP) оказались более эффективными в задачах прогнозирования, по сравнению с иными доступными алгоритмами из библиотеки sklearn, что частично совпадает с результатами работ иных авторов. Однако, так как исследование проводилось на относительно небольшом количестве данных, относящимся к одной культуре и одному региону, то для подтверждения вывода необходим более тщательный анализ на большем объёме более разнообразных, с точки зрения культур и их распространения, данных.
Возможно проведение дальнейшей работы, которая может быть связаны с данным исследованием. Например, потенциальным направлением будущей работы является исследование иных моделей глубокого обучения (нейронных сетей) в задачах прогнозирования урожайности на основе использования более специализированных библиотек (таких как TensorFlow, PyTorch и иных). Данные модели, потенциально, могли бы обеспечивать более точные прогнозы урожайности за счёт их способности изучать сложные нелинейные взаимосвязи в имеющихся данных. Также одним из возможных направлений является использование данных ДЗЗ совместно с данными с метеостанций.
Работа выполнена при поддержке Фонда содействия инновациям договор № 17215ГУ/2021.
Список литературы
1. Jägermeyr, J., Müller, C., Ruane, A.C. et al. Climate impacts on global agriculture emerge earlier in new generation of climate and crop models / Jägermeyr J., Müller C., Ruane A.C. et al. // Nat Food. 2021. № 2. С. 873-885.
2. World population projected to reach 9.8 billion in 2050, and 11.2 billion in 2100. [Электронный ресурс] URL: https://www.un.org/en/desa/world-population-proiected-reach-98-billion-2050-and-112-billion-2100 (дата обращения: 21.01.2023).
3. Martello M., Molin J.P., Wei M.C.F., Canal Filho, R., Nicoletti J.V.M. Coffee-Yield Estimation Using High-Resolution Time-Series Satellite Images and Machine Learning / Martello M., Molin J.P., Wei M.C.F., Canal Filho R., Nicoletti J.V.M. // AgriEngineering. 2022. № 4. С. 888-902.
4. Jeong J., Resop J., Mueller N., Fleisher D.H., Kyungdahm Y., Butler E.E., Timlin D.J., Shim K., Gerber J.S., Reddy V., Soo-Hyung K. Random Forests for Global and Regional Crop Yield Predictions / Jeong J., Resop J., Mueller N., Fleisher D.H., Kyungdahm Y., Butler E.E., Timlin D.J., Shim K., Gerber J.S., Reddy V., Soo-Hyung K. // PLoS ONE. 2016. № 11(6). С. 1-15.
5. Five Obstacles faced in Linear Regression // Towards Data Science. [Электронный ресурс] URL: https://towardsdatascience.com/five-obstacles-faced-in-linear-regression-80fb5c599fbc (дата обращения: 24.01.2023).
6. Advantages And Disadvantages of KNN | by Anuuz Soni // Medium. [Электронный ресурс] URL: https://medium.com/@anuuz.soni/advantages-and-disadvantages-of-knn-ee06599b9336 (дата обращения: 22.01.2023).
Макеев Константин Алексеевич, студент, [email protected], Россия, Москва, Российский государственный аграрный университет - МСХА имени К. А. Тимирязева,
Греченева Анастасия Владимировна, канд. техн. наук, доцент, [email protected], Россия, Москва, Российский государственный аграрный университет - МСХА имени К. А. Тимирязева,
Котов Ярослав Сергеевич, студент, yaroslav.kotov. [email protected], Россия, Москва, Российский государственный аграрный университет - МСХА имени К. А . Тимирязева,
Голбан Андрей Николаевич, студент, [email protected], Россия, Москва, Российский государственный аграрный университет - МСХА имени К. А. Тимирязева,
Смыслов Дмитрий Максимович, студент, [email protected], Россия, Москва, Российский государственный аграрный университет - МСХА имени К. А. Тимирязева
COMPARISON OF THE EFFECTIVENESS OF MACHINE LEARNING ALGORITHMS IN CROP YIELD
FORECASTING TASKS
K.A. Makeev, A.V. Grecheneva, Ya.S. Kotov, A.N. Golban
The problems of the task are considered. The method of comparing the efficiency of these algorithms is defined. Modern machine learning algorithms that can be applied to solve problems of crop yield forecasting are described. A comparative analysis of the algorithms under consideration is carried out. The most effective machine learning algorithms in the problem under consideration are given based on the available data.
Key words: machine learning, yield forecasting problem, agroindustrial complex, sklearn, comparison of algorithms, random forest.
Makeev Konstantin Alekseevich, student, [email protected], Russia, Moscow, Russian State Agrarian University - Moscow Timiryazev Agricultural Academy,
Grecheneva Anastasia Vladimirovna, candidate of technical sciences, docent, A. [email protected], Russia, Moscow, Russian State Agrarian University - Moscow Timiryazev Agricultural Academy,
Kotov Yaroslav Sergeevich, student, [email protected], Russia, Moscow, Russian State Agrarian University -Moscow Timiryazev Agricultural Academy,
Golban Andrey Nikolaevich, student, [email protected], Russia, Moscow, Russian State Agrarian University - Moscow Timiryazev Agricultural Academy,
Smyslov Dmitry Maksimovich, student, dimasmyslovv1234@gmail. com, Russia, Moscow, Russian State Agrarian University - Moscow Timiryazev Agricultural Academy
УДК 621.396
DOI: 10.24412/2071-6168-2023-2-206-215
МЕТОДИКА ОЦЕНИВАНИЯ ТРУДОЗАТРАТ ОПЕРАТОРОВ ПУНКТА УПРАВЛЕНИЯ МНОГОСПУТНИКОВЫМИ ОРБИТАЛЬНЫМИ ГРУППИРОВКАМИ МАЛЫХ КОСМИЧЕСКИХ АППАРАТОВ
А.В. Малюгин, В.А.Пирухин, Л.В.Пилипенко
В статье рассмотрена информационно-расчётная задача оценивания одного из основных показателей эффективности системы управления космическими аппаратами - производительности, с помощью одногоиз критериев - трудозатрат на подготовку и проведение сеансов управления многоспутниковыми орбитальными группировками малых космических аппаратов.
Ключевые слова: оператор, пункт управления, сеанс управления, наземный автоматизированный комплекс управления, малый космический аппарат, трудозатраты, многоспутниковая орбитальная группировка.
При разработке различных систем (управления, контроля, информационно-измерительных и др.) часто возникает необходимость оценитьцелесообразность использования того или иного варианта системы и выбрать оптимальный. Объективная оценка оптимальности системыможет быть получена на основе показателя ее эффективности [1]. В общем случае под эффективностью системы понимают приспособленность ее для решения поставленной задачи. При оптимизации системы необходимо, во-первых, правильно сформулировать задачу, которую она должна выполнять, и, во вторых, цель оптимизации. Следовательно, получение оптимального решения связано с выбором показателя эффективности и одновременной разработкой метода (критерия) оценки эффективности по данному показателю [2, 3].
Эффективность функционирования орбитальных группировок (ОГ) космических аппаратов (КА) на прямую зависит от качества решения задач управления бортовыми системами КА средствами наземного автоматизированного комплекса управления (НАКУ) [4,5]. В настоящее время перспективным направлением комплексного развития космических информационных технологий является применение многоспутниковых орбитальных группировок (МСОГ) малых космических аппаратов (МКА) [6-8].
206