УДК / UDC 338.12.017:631.1(470.319)
ОБОСНОВАНИЕ ПРОГНОЗОВ В АГРАРНОМ ПРОИЗВОДСТВЕ И ПРОБЛЕМЫ ИХ АКТУАЛЬНОЙ ИМПЛЕМЕНТАЦИИ (НА ПРИМЕРЕ ОРЛОВСКОЙ ОБЛАСТИ)
JUSTIFICATION OF AGRICULTURAL PRODUCTION FORECASTS AND PROBLEMS OF THEIR RELEVANT IMPLEMENTATION (ON THE EXAMPLE OF THE OREL REGION)
Шестаков Р.Б.*, кандидат экономических наук, доцент Shestakov R.B., Candidate of Economic Sciences, Associate Professor Ловчикова Е.И., кандидат экономических наук, доцент, заведующая кафедрой Lovchikova E.I., Candidate of Economic Sciences, Associate Professor,
Head of Department ФГБОУ ВО «Орловский государственный аграрный университет
имени Н.В. Парахина», Орел, Россия Federal State Budgetary Educational Establishment of Higher Education "Orel State Agrarian University named after N.V. Parakhin", Orel, Russia
*E-mail: nir [email protected]
В работе авторы обобщают имеющиеся наработки по вопросам методологии агробизнес-форсайта, а конкретно, обоснованию прогнозов сельскохозяйственного производства с использованием методов машинного обучения. Основной целью являлось формирование прогноза на три ближайших года по объемам сельскохозяйственного производства в Орловской области в фактических и сопоставимых ценах. Дополнительно использовались данные производства в целом по Российской Федерации и индексы цен сельхозтоваропроизводителей. В работе применялись «классические» методы моделирования временных последовательностей: OLS, ETS, ARIMA, их производные и комбинации. Более сложные алгоритмы, основанные на баггинге, бустинге или же глубоком обучении не принимались в расчет, так как на исходных данных не дали бы значимого прироста в точности предсказания. Также основным был анализ одномерных данных, с эксклюзивным включением дополнительного измерения в отдельные модели. Подробно показан алгоритм действий, применяемый в процессе машинного обучения. Подбор оптимальной модели производился на обучающей выборке, а валидация моделей - с помощью функции потерь RMSE (корня среднеквадратичной ошибки), на тестовой выборке. Первым шагом на обучающей выборке подбирались параметры для основного ряда. Вторым и третьим шагом вспомогательные модели для двумерных методов первого шага. По итогам был рассчитан краткосрочный трехлетний прогноз в фактических и сопоставимых ценах, определены границы доверительных интервалов. С учетом комплекса кризисных явлений 2020 года обсуждены проблемы выбора сценария возможного движения динамики производства. В условиях усиливающийся неопределенности, принятие решений в процессе управления должно базироваться на соответствующей методологической основе.
Ключевые слова: прогнозирование, сельское хозяйство, объемы производства, индекс цен производителей, фактические цены, сопоставимые цены, машинное обучение.
In the paper, the authors tried to summarize the existing developments on issues of agribusiness-foresight methodology, and specifically on the justification of agricultural production forecasts using machine learning methods. The main goal was to form a forecast for the next three years on the volume of agricultural production in the Orel region at actual and comparable prices. Besides, the production data for the Russian Federation as a whole and price indices of agricultural producers were used. The work used "classical" methods of time sequences modeling: OLS, ETS, ARIMA, their derivatives and combinations. More complex algorithms,
based on bagging, boosting or deep learning were not considered, as the original data would not give a significant increase in prediction accuracy. Also, the univariate data was the main analysis, with exclusive inclusion of additional measurement in individual models. The operation algorithm used in the machine learning is shown in details. The optimal model was selected on the learning sample, and the models were validated using the RMSE loss function on the test sample. The first step on the training sample was to select parameters for the main series. For the second and third steps auxiliary models for the two-dimensional methods of the first step were selected. As a result, a short-term three-year forecast was calculated in actual and comparable prices, and the limits of confidence intervals were determined. Considering the complex of crisis phenomena of 2020, the problems of choosing a scenario of possible movement of production dynamics were discussed. In the face of increasing uncertainty, decision-making in management should be based on an appropriate methodological basis.
Key words: forecasting, agriculture, production volumes, producer price index, actual prices, comparable prices, machine learning.
Введение. Современные цифровые технологии неуклонно проникают в агробизнес, начиная от биоинформатики, прогнозов урожайности и заканчивая созданием полноценной смарт-фермы со всеми соответствующими технологиями. Процесс управления и форсайта в агробизнесе уже не мыслим без применения современных методов (рис. 1). Машинное обучение (англ. machine learning, ML) - класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.
Постановка,.____Д
проблемы, V----,/Тренировка
анализ ML
имеющихся алгоритма
данных
% \ /V"
L _!
Углубленное понимание, и если необходимо цикл повторяется
Решение
' Экспертиза
Рисунок 1 - Машинное обучение в исследованиях [1]
Факторов, влияющих на активность в той или иной отрасли, достаточно много [3, с. 711] и в зависимости от целей исследования, необходимо выбирать тот или иной уровень абстракции. Относительно агробизнеса наиболее значимыми являются сама динамика производства, институциональные, инвестиционные и инновационные параметры [4, c. 67-73; 5, c. 911-923]. В данной работе мы будем использовать региональные и национальные объемы сельскохозяйственного производства, индексы цен производителей продукции сельского хозяйства.
Целью исследований является обоснование прогнозов сельскохозяйственного производства с использованием элементов машинного обучения и пути их дальнейшего использования. Для это прежде всего, были подготовлены данные, проведен разведочный анализ (EDA). Далее определены последовательные шаги в обучении и валидации моделей временных рядов в зависимости от их природы. И, наконец, проведена имплементация прогнозов соотносительно актуальной внешней среде, в которой функционируют предприятия и публичные институты управления.
Условия, материалы и методы. В таблице 1 приведены данные по выпуску и уровню цен производителей в сельском хозяйстве (ИЦП). Для расчета показателей в приведенных ценах, фактические соотнесены с кумулятивными индексами.
Таблица 1 - Продукция сельского хозяйства в Российской Федерации и Орловской области за 1998-2019 гг. [2]_
Год Ежегодный ИЦП, % Кумулятивный ИЦП, кол-во раз Продукция в приведенных ценах, млрд. руб.
РФ Орловская область
1998 141,9 1,4 298,4 3,2
1999 191,4 2,7 586,0 7,4
2000 122,2 3,3 742,4 9,0
2001 117,5 3,9 918,2 10,6
2002 98,1 3,8 968,2 11,2
2003 124,7 4,8 1076,4 12,0
2004 117,7 5,6 1253,2 14,1
2005 103,0 5,8 1380,9 14,7
2006 110,4 6,4 1570,6 14,7
2007 130,2 8,3 1861,0 19,3
2008 102,5 8,5 2354,5 25,0
2009 98,2 8,4 2390,1 24,7
2010 123,6 10,3 2462,2 27,3
2011 94,9 9,8 3098,7 36,6
2012 110,8 10,9 3160,3 39,1
2013 102,7 11,2 3458,3 43,0
2014 114,1 12,7 4031,1 45,3
2015 108,5 13,8 4794,6 62,0
2016 101,8 14,1 5112,3 69,0
2017 92,2 13,0 5109,5 61,0
2018 112,9 14,6 5348,8 72,3
2019 95,5 14,0 5907,9 93,2
Примечание. Рассчитано авторами по данным ФСГС РФ [2].
В таблице 2 рассчитаны базовые показатели описательной статистики исследуемых данных. Надо отметить также наличие значимой коинтеграции между динамикой сельхозпроизводства в Орловской области и в целом по России (тест Энгла-Грэнджера).
Таблица 2 - Разведочный анализ динамических рядов
Статистики Накопленный (кумулятивный) РР1, кол-во раз Продукция в сопоставимых ценах, млрд.руб. Продукция в сопоставимых ценах, млрд. руб.
Минимум 1,4 298,4 3,2
Максимум 14,6 5907,9 93,2
Размах 13,2 5609,5 90,0
Медиана 8,5 2372,3 24,85
Среднее хронологическое 8,6 2608,6 31,7
Волатильность среднегодовая 0,9 374,8 5,4
Дрифт в абсолютном выражении 12,6 5609,5 90
Дрифт (кол-во раз) 9 19 28
Примечание. Рассчитано авторами по данным таблицы 1.
В качестве калибровочных моделей (нулевая модель, бенчмарк) будем использовать дрифт ряда, где предсказанные значения есть экстраполяция дрифта или, другими словами, линии роста от первого до последнего значения ряда.
В качестве основных моделей предполагается:
1) линейный тренд;
2) сглаживание ETS;
3) ARIMA;
4) динамическую регрессию с экзогенными переменными и ARIMA-ошибками;
5) ансамбли вышеуказанных моделей с наилучшими средними метриками.
С помощью программной среды анализа данных «R» были подобраны
следующие параметры в сетевом режиме [6, 7]. В процессе обучения моделей отбор осуществлялся по скорректированному для малых выборок информационному критерию Акаике - AICa Ряды разделены на обучаемую (1998-2016 гг.) и тестовую выборку для валидации (2017-2019 гг.). Сопоставление проводилось по функции потерь RSME (root mean squared error -квадратный корень среднего квадрата отклонения), которая позволяет сравнивать данные в различных единицах измерения или шкалах. RSME более чувствителен к выбросам, чем МАЕ (mean absolute error, средняя абсолютная ошибка). Метрика представлена в тех же единицах, что и исходные данные.
Результаты и обсуждение. Рассчитаем необходимые параметры в несколько этапов (табл. 3-5) и сведем окончательные результаты (табл. 6).
Таблица 3 - Шаг 1. Сопоставление обученных моделей на тестовой выборке по метрике РМЭБ (Орловская область)_
Модели Гиперпараметры (заданные параметры) Параметры (полученные параметры) Статистическая значимость Модели / коэффициентов (+), (-) RMSE
Тестовая выборка (реальные значения): Y2017 = 4,7; Y2018 = 4,9; Y2019 = 6,7
Нулевые модели
Последнее значение Y2017-2019 = Y2016 Y2017-2019 = 4,9 + 14,8
Дрифт d = 3,7 Yt = Y1 + dt Y2017 = 72,7 Y2018 = 76,3 Y2019 = 80,0 + 13,0
Основные модели
Линейный тренд Наличие свободного члена Y = const + kt k = 3,1 const = -5,6 (R2 = 0,88) +/ k+ const -* 18,7
ARIMA (0,2,1) ma1=-0,72 +/+ 10,9
(AICc=101,7)
Динамическая регрессия с ошибками ARIMA Без свободного члена Экзогенные переменные: Производство РФ ИПЦ Модель ARIMA-ошибок: (0,0,0) крф = 0,02 кицп = -0,68 const = -5,6 (AICc=84.69) +/+ 8,9
ETS (М, A, N) alpha = 1 +/+ 10,9
beta = 0.3 gamma = 0
Оптимизированный мульти модельный ансамбль Модели 5+6 8,2
Примечание. Рассчитано авторами. *Несмотря на то, что свободный член в модели статистически не значим, в целом модель показала лучшую метрику, чем на аналоге без свободного члена вообще.
Основные модели, кроме линейного тренда, в достаточной степени опережают по точности бенчмарк. Оптимизированный мультимодельный ансамбль находится как наилучшая комбинация моделей, чье среднее значение имеет наименьший скоринг RMSE. В нашем случае оптимальный ансамбль также превзошёл показатели отдельных, входящих в него моделей.
Выбранные модели будем использовать для экстраполяции на 2020-2022 гг. Дополнительную сложность вносит динамическая регрессия, так как для ее прогноза требуется помимо прочего экстраполяция экзогенных переменных (сельхозпродукция по России и индекс цен производителя). Необходимо повторить отбор моделей по частичной аналогии (табл. 4 и 5).
Таблица 4 - Шаг 2. Сопоставление обученных моделей по тестовой выборке для производства по Российской Федерации
Модели Гиперпараметры (заданные параметры) Параметры (возвращенные параметры) Статистическая значимость модели / коэффициентов (+), (-) p<0,05 RMSE
Тестовая выборка (реальные значения): Y2017 = 5109,5; Y2018 = 5348,8; Y2019 = 5907,9
Нулевые модели
Последнее значение Y2017-2019 = Y2016 Y2017-2019 = 5112,3 + 479,2
Дрифт d = 267,4 Yt = Y1 + dT Y2017 = 5379,7 Y2017 = 5647,2 Y2017 = 5914,6 + 232,5
Основные модели
Линейный тренд Наличие свободного члена Y = const + kt k = 246.90 const = -283.90 (R2 = 0,94) +/+ 573,1
ARIMA (0,2,1) ma1=-0.75 +/+ 482,3
(AICc= 236,8)
ETS (М, A, N) alpha = 1,00 beta = 0,24 gamma = 0 (AICc = 260,3) +/+ 473,2
Оптимизированный ансамбль Средний прогноз моделей 2+5
- - 341,8
В случае с динамикой сельскохозяйственного производства по РФ лучший ансамбль не преодолел модель дрифта. Будем использовать именно его для дальнейших расчетов. Далее определим наилучший алгоритм для прогноза ИПЦ.
Для данного индекса лучший выбор не усложнять модель и использовать наивный прогноз по последним значениям.
Таким образом, для прогноза значений динамики производства сельскохозяйственной продукции в Орловской области применим ансамбль моделей ETS (М, А, ARlмA (0,2,1) и динамическую регрессию. В свою очередь для динамической регрессии переменную общероссийского производства будем определять с помощью ансамбля дрифта и ETS A, а ИПЦ обозначим постоянной, равной 14,1.
Таблица 5 - Шаг 3. Сопоставление обученных моделей по тестовой выборке (по метрике РМЭБ (для индекса цен производителя)_
Модели Гиперпараметры (заданные параметры) Параметры (возвращенные параметры) Статистическая значимость модели в целом / коэффициентов (+), (-) RMSE
Тестовая выборка (реальные значения): У2017 = 13,0; У2018 = 14,6; У2019 = 14,0
Нулевые модели
Последнее значение Y2017-2019 = Y2016 Y2017-2019 = 14,1 + 0,7
Дрифт d = 0,7 Yt = Yi + dT Y2017 = 14,8 Y2017 = 15,5 Y2017 = 16,2 + 1,7
Основные модели
Линейный тренд Наличие свободного члена Y = const + kt k = 0,83 const = 0,68 (R2 = 0,99) +/+ 1,4
ARIMA (1,1,0) + drift ar1=-0,46 drift = 0,7 (AICc=30,32) +/+ 1,9
ETS (A, A, N) alpha = 0,76 beta = 0,76 gamma = 0 (AlCc = 42,8) +/+ 1,7
В таблице 6 собраны точечные прогнозы и доверительные интервалы прогноза (ДИП).
Таблица 6 - Прогнозные данные в соответствии с выбранными моделями временных рядов на 2020-2022 гг. (Орловская область, млрд. руб.)_
Годы Нижний 95% ДИП Нижний 80% ДИП Точечное значение Верхний 80% ДИП Верхний 95% ДИП
ETS
2020 69,3 79,8 99,7 119,6 130,2
2021 58,7 75,2 106,3 137,3 153,8
2022 48,9 71,0 112,8 154,6 176,7
Динамическая регрессия
2020 81,7 84,2 88,7 93,3 95,7
2021 86,9 89,3 93,9 98,5 100,9
2022 92,1 94,5 99,1 103,7 106,1
Ансамбль моделей
2020 75,5 82,0 94,2 106,5 112,9
2021 72,8 82,3 100,1 117,9 127,3
2022 70,5 82,8 106,0 129,1 141,4
Ансамбль моделей в сопоставимых ценах (с учетом накопленного индекса цен 14,1)
2020 5,4 5,8 6,7 7,6 8,0
2021 5,2 5,8 7,1 8,4 9,0
2022 5,0 5,9 7,5 9,2 10,0
Примечание. Рассчитано авторами.
На рисунках 2 и 3 изображены графики динамических рядов производства сельскохозяйственной продукции в Орловской области в текущих и сопоставимых ценах.
^^"Нижний 95% ДИ ^^"Нижний 80% ДИ Точечный прогноз
Верхний 80% ДИ Верхний 95% ДИ
160 140 120 100 80 60 40
2017 2018 2019 2020 2021 2022
Рисунок 2 - Краткосрочный прогноз по динамическому ряду сельскохозяйственного производства в Орловской области (в текущих ценах), млрд руб.1
Нижний 95% ДИ Нижний 80% ДИ Точечный прогноз
Верхний 80% ДИ Верхний 95% ДИ
11,0 10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0
2017 2018 2019 2020 2021 2022
Рисунок 3 - Краткосрочный прогноз по динамическому ряду сельскохозяйственного производства в Орловской области (в сопоставимых ценах), млрд руб.2
В результате можно заметить достаточно определенный разброс, где положительный сценарий превалирует над отрицательным по потенциалу роста. Сравним разницу 2,5 млрд. руб. в случае крайне положительной динамики, и 1,5 - в обратном движении от точечных значений. Однако, уже в 2020 году мы стали свидетелями прибытия практически «стаи черных лебедей»: СОУЮ-19 и падения ресурсных рынков. Экспертами уже оцениваются потери мировых рынков более 6 трлн долл. [8], что естественно скажется на российской экономике. Нет никаких сомнений, что при планировании в подобном случае в расчет придется брать наиболее негативное развитие событий. Помимо этого, усиление неопределенности потребует более глубинных подходов в обосновании прогнозов, расширения круга изучаемых факторов и используемых инструментов.
1 Рассчитано авторами
2 Рассчитано авторами
Выводы. 1. Динамика сельскохозяйственного производства хорошо поддается прогнозированию на исходных данных в процессе машинного обучения с использованием классических методов.
2. Доверительные границы прогноза в целом показывают смещение в позитивную зону.
3. Рост неопределенности в российской и экономике в 2020 году приводит к имплементации негативных сценариев при планировании и принятии решений.
4. Необходимо усложнить прогностический алгоритм для более глубокого анализа развития ситуации.
БИБЛИОГРАФИЯ
1. Geron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reily Media, Inc. 2017.
2. Официальная статистика. Предпринимательство. Сельское хозяйство, охота и лесное хозяйство. Продукция сельского хозяйства // URL: http://www.gks.ru (дата обращения: 12.04.2020).
3. Выявление особенностей стратегического развития регионов на основе статистического анализа индикаторов / Д.А. Масленников, С.Н. Митяков, Л.Ю. Катаева, Т.А. Федосеева // Экономика региона. 2019. Т. 15, вып. 3. С. 707-719.
4. Шестаков Р.Б., Ловчикова Е.И Анализ динамики аграрного производства в условиях общей экономической рестрикции // Экономика, труд, управление в сельском хозяйстве. 2017. № 4 (33). С. 65-73.
5. Шестаков Р.Б., Ловчикова Е.И. Инвестиционный акселератор сельскохозяйственного производства // Экономика региона. 2019. Т. 15, вып. 3. С. 908-923. DOI 10.17059/2019-3-21.
6. Hyndman R.J. A forecast ensemble benchmarks // URL: https://robjhyndman.com/hyndsight/benchmark-combination/ (дата обращения: 22.02.2020).
7. Package "forecast" // URL: https://cran.r-project.org/web/packages/forecast/forecast.pdf (дата обращения: 12.04.2020).
8. The World Bank // URL: https://www.worldbank.org (дата обращения: 30.03.2020).
REFERENCES
1. Geron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reily Media, Inc. 2017.
2. Ofitsialnaya statistika. Predprinimatelstvo. Selskoe khozyaystvo, okhota i lesnoe khozyaystvo. Produktsiya selskogo khozyaystva // URL: http://www.gks.ru (data obrashcheniya: 12.04.2020).
3. Vyyavlenie osobennostey strategicheskogo razvitiya regionov na osnove statisticheskogo analiza indikatorov / D.A. Maslennikov, S.N. Mityakov, L.Yu. Kataeva, T.A. Fedoseeva // Ekonomika regiona. 2019. T. 15, vyp. 3. S. 707-719.
4. Shestakov R.B., Lovchikova Ye.I Analiz dinamiki agrarnogo proizvodstva v usloviyakh obshchey ekonomicheskoy restriktsii // Ekonomika, trud, upravlenie v selskom khozyaystve. 2017. № 4 (33). S. 65-73.
5. Shestakov R.B., Lovchikova Ye.I. Investitsionnyy akselerator selskokhozyaystvennogo proizvodstva // Ekonomika regiona. 2019. T. 15, vyp. 3. S. 908-923. DOI 10.17059/2019-3-21.
6. Hyndman R.J. A forecast ensemble benchmarks // URL: https://robjhyndman.com/hyndsight/benchmark-combination/ (data obrashcheniya: 22.02.2020).
7. Package "forecast" // URL: https://cran.r-project.org/web/packages/forecast/forecast.pdf (data obrashcheniya: 12.04.2020).
8. The World Bank // URL: https://www.worldbank.org (data obrashcheniya: 30.03.2020).