ФОРМИРОВАНИЕ И ИСПОЛЬЗОВАНИЕ БАЗЫ ДАННЫХ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ РЕТРОСПЕКТИВНОЙ УРОЖАЙНОСТИ ЗЕРНОВЫХ КУЛЬТУР

Рогачев Алексей Фруминович; Мелихова Елена Валентиновна

Формирование и использование базы данных статистической информации ретроспективной урожайности зерновых культур Formation and use of statistical information database on the retrospective yield of grain

crops

Ь Л московский шщ экономический

ЖУРНАЛ

УДК 311.2 DOI 10.24411/2413-046X-2020-10233 Рогачев Алексей Фруминович,

доктор технических наук, профессор, заведующий кафедрой, Волгоградский государственный аграрный университет, Всероссийский НИИ орошаемого земледелия, г. Волгоград

Мелихова Елена Валентиновна, кандидат технических наук, доцент, доцент кафедры математического моделирования и информатики, Волгоградский государственный аграрный университет, г. Волгоград

Rogachev A.F., rafr@mail.ru

Melikhova E.V., mel-v07@ mail.ru

Аннотация. В статье рассматриваются методические и прикладные вопросы разработки базы данных (БД) информации многолетней ретроспективной урожайности зерновых культур для ее статистической обработки, моделирования и использования. Статистическая информация по годовым уровням урожайности зерновых культур является основой планирования, прогнозирования, управления и оптимизации аграрного производства. Для создания экономического механизма решения перечисленных задач и его информационного обеспечения используют специализированные базы данных, позволяющие в автоматизированном режиме проводить статистический анализ и моделирование уровней урожайности. Обосновано хранение данных в формате *.csv, обеспечивающем углубленную обработку, анализ и визуализацию с использованием специализированных библиотек экосреды Python.

Работа выполнена при финансовой поддержке РФФИ и Администрации Волгоградской области по проекту № 19-416-340014 «Создание нейросетевой системы управления программируемым аграрным производством с использованием ретроспективных данных и результатов дистанционного зондирования для засушливых условиях Волгоградской области».

Summary. The article deals with methodological and applied issues of developing a database of information on long-term retrospective yield of grain crops for its statistical processing, modeling and use. Statistical information on annual levels of grain yield is the basis for planning, forecasting, management and optimization of agricultural production. To create an economic mechanism for solving these problems and its information support, specialized databases are used that allow automated statistical analysis and modeling of yield levels. Data storage in *.csv format is justified, which provides in-depth processing, analysis and visualization using specialized libraries of the Python eco-environment.

Ключевые слова: урожайность, зерновые культуры, статистическая информация, база ретроспективных данных, математическое моделирование.

Keywords: yield, grain crops, statistical information, historical data base, mathematical modeling.

Введение. Ретроспективная статистическая информация годовы[ уровнtq урожайности зерновых культур является основой планирования, прогнозирования, управления и оптимизации аграрного производства [1,3,17,12]. Для информационного обеспечения решения перечисленных задач используют специализированные базы данных (БД) ретроспективной информации, позволяющие в автоматизированном режиме проводить статистический анализ и моделирование уровней урожайности. Результаты исследования проблем прогнозирования урожайности различных сельскохозяйственных культур опубликованы в работах отечественных и зарубежных ученых А. Герасимова, И. Винтизенко, Е. Поповой, В. Перепелицы, B. Shulika, А. Porvan, О. Vysotska, А. Nekos, А. Zhemerov [14, 11, 15]. Теории и практике создания БД различного назначения посвящены исследования А. Гагарина, А. Павловой, В. Каличкина и др. [1, 2, 7, 8].

Различные аспекты создания и функционирования информационно-аналитического инструментария, ориентированного на поддержку и обоснования управленческих решений в аграрной экономике, основанного на специализированных информационных системах (ИС) и соответствующих БД, рассматриваются в работах А. Аксенова, А. Алтыбаева, А. Герасимова, Т. Башкатовой [10,13,15,16]. В частности, в выполненной в исследовательском центре IBM работе предложен и опробован подход совместного

использования статистических данных по урожайности и данных космической фотосьемки для обучения нейронных сетей, однако результаты ограничены условиями исследованных регионов Северной Америки [18]. Учет внутренних закономерностей межгодовых изменений уровней урожайностей для российских условий преимущественно недостаточного увлажнения позволит разрабатывать систему нейросетевого прогнозирования урожайности с учетом природно-климатических, технико-технологических и организационно-экономических условий.

Методы и материалы

Создание специализированных аграрно-ориентированных БД основано на системном подходе, математическом моделировании и специфических методах ИТ - функционально-морфологическом и автокорреляционном анализе агротехнологических БД, концептуальном проектировании, нейросетевых технологиях [5,6,10]. Формирование онтологии и реляционной структуры БД осуществлялось с учетом ее функционального назначения - прогнозирование параметров и оптимизация аграрного производства [7,9]. С целью последующего анализа ретроспективных данных урожайностей предусматривалась предварительная подготовка и преобразование исходной информации в форматы, обеспечивающие компьютерную обработку целевой информации c использованием специализированных ML-библиотек машинного обучения языка Python [10]. Для сохранения в предметно-ориентированных БД и последующей статистической обработки и математического моделирования был обоснован формат хранения данных CSV.

Результаты и обсуждения. Значения уровней урожайности зерновых культур, (т/га) Собранные по официальным данным Росстата на примере региона Волгоградской области представлены на рис.1.

19SO 1960 1970 1980 1990 »00 »10

углгл

Рисунок 1 - Уровни урожайности зерновых культур, Волгоградская область, т/га

Представленные данные характеризуются выраженным положительным трендом и значительным разбросом значений относительно линейной аппроксимации с коэффициентом вариации, превышающим 30%-ное значение.

Для формирования БД было решено использовать формат сохранения данных «*.csv» (Comma-Separated Values), представляющий собой текстовый формат для представления табличных данных. Файловый формат CSV позволяет использовать в качестве исходных достаточно универсальные файлы MS Excel с последующим редактированием посредством различных текстовых редакторов. Такое решение упрощает загрузку формируемой БД в среду Python для использования ее библиотек статистической обработки, например, Pandas. Обзорный статистический анализ уровней урожайности за 69 лет, сгруппированных по годичным интервалам 1950...2018 и выполненный с использованием библиотеки Seaborn в Python, представлен на рис. 2 и 3.

Отметим, что значение 50%-го квантиля уровней урожайности (13,1 т/га) превосходит среднее значение урожайности (12,8 т/га), а коэффициент вариации уровней составил 5,76/12,81 = 0,45.

Анализ уровней урожайности, сгруппированных по годовым интервалам, позволяет с использованием средств визуализации библиотеки Seaborn, подгружаемой в среде Python, более наглядно оценить их изменчивость за почти 70-летний период (рис. 3). Анализ конфигурации интервальных значений разброса уровней урожайности показывает наибольшую изменчивость урожайности в период 1967...1984 гг., а также некоторое снижение их разброса в последние годы, несмотря на отдельные выбросы, выпадающие за диапазон ± За (рис. 2, правый интервал).

Наиболее наглядно внутренние закономерности вариации урожайности представлены на двумерной диаграмме их парных взаимовлияний, где аналогичные предшествующим диаграммам годовые категории также выделены цветом (рис. 4). Можно отметить значительное пересечение уровней анализируемых урожайностей по годовым группам, что может потребовать использования более продвинутого инструментария для исследования и учета их внутренних закономерностей. Наряду с ВР урожайностей различных озимых и яровых культур (пшеница, рож, кукуруза, ячмень, тритикале и др.), формируемая БД для возможности многофакторного исследования должна включать и природно-климатические, а также организационно-технологические факторы. Реализация такой комплексной БД потребует сбора перечисленных факторов по укрупненным группам, а также ее формирования в виде реляционной структуры, включающей несколько связанных таблиц, объединяемых по ключевым полям.

В качестве последних предполагается использовать поля «Years» в датафреймах Pandas, характеризующие года исследования. Число таблиц, составляющих формируемую комплексную БД, будет определяться числом одноразмерных факторов-показателей (агрокультуры, тип почвы, температуры, осадки и др.).

Выводы

С целью формирования базы данных информации о многолетней ретроспективной урожайности зерновых культур и ее использования для статистического анализа и математического моделирования рекомендована реляционная структура БД, включающая совокупность одноразмерных факторов-показателей (агрокультуры, тип почвы, температуры, осадки и др.), объединяемых по ключевым полям - годам наблюдений. Для последующего компьютерного анализа и математического моделирования обосновано хранение данных в формате *.csv (Comma-Separated Values), представляющем собой текстовый формат для представления табличных данных. Данный формат обеспечит углубленные обработку, анализ и визуализацию с использованием специализированных библиотек экосреды Python. Учет внутренних закономерностей межгодовых изменений уровней урожайностей позволит более обосновано разрабатывать систему их нейросетевого моделирования и прогнозирования.

Список литературы

1. Аксенов А.Г. Анализ интеллектуальных систем поддержки принятия решений в сельском хозяйстве // Электротехнологии и электрооборудование в АПК. 2019. № 3 (36). С. 46-51.

2. Алтыбаев А.Н. К формированию онтологии информационной системы для поддержки принятия инженерно-технологических решений в агробизнесе // Инновации в сельском хозяйстве. 2016. № 1 (16). С. 298-303.

3. Бендик Н.В., Иваньо ЯМ. Концептуальная модель хранилища данных для эффективного ведения сельского хозяйства в регионе // В сборнике: Климат, экология, сельское хозяйство Евразии Материалы VII международной научно-практической конференции. 2018. С. 159-166.

4. Векленко В.И., Петренко Н.Н., Пашков В.Ю., Ерёменко О.В. Проектирование базы данных системы моделей оптимального планирования сельскохозяйственного производства // Вестник Курской государственной сельскохозяйственной академии. 2013. № 1. С. 33-36.

5. Гагарин А.Г., Рогачев А.Ф. Применение искусственных нейронных сетей для прогнозирования урожайности на основе анализа кросс-региональных данных // Известия

Нижневолжского агроуниверситетского комплекса: Наука и высшее профессиональное образование. 2018. № 2. С. 339-346.

6. Герасимов А.Н., Григорьева О.П., Скрипниченко Ю.С. Статистическая оценка результатов импортозамещения сельскохозяйственной продукции в регионе // Вестник Алтайской академии экономики и права. 2019. № 9-2. С. 16-23.

7. Герасимов А.Н., Башкатова Т.А. Информационно-аналитический инструментарий обоснования управленческих решений в экономике традиционно аграрного региона // Вестник АПК Ставрополья. 2016. № (4) 20/1. С. 8-12.

8. Глазунов Г.П., Афонченко Н.В., Санжаров А.И. Структура базы данных природно-ресурсного потенциала агроландшафтов // Вестник Курской государственной сельскохозяйственной академии. 2017. № 8. С. 6-11.

9. Горюхина Е.Ю., Литвинова Л.И. Применение информационных технологий с использованием баз данных в аграрной сфере АПК // В сборнике: Экономика и управление в аграрной сфере АПК: проблемы и решения Сборник научных трудов. Ответственные за выпуск: Е.В. Закшевская, В.П. Рябов. Воронеж, 2013. С. 56-59.

10. Ильиных А.Л. Разработка базы данных автоматизированной информационной системы мониторинга земель сельскохозяйственного назначения // Гео-Сибирь. 2011. Т. 3. № 2. С. 124-129.

11. Мелихова Е.В. Моделирование и обоснование ресурсосберегающих параметров капельного орошения при возделывании корнеплодов : монография. Волгоград, ФГБОУ ВО Волгоградский ГАУ, 2017. 112 с.

12. Мелихова Е.В., Бородычев В.В., Рогачев А.Ф. Функционально-морфологический анализ и совершенствование технических средств комбинированного орошения // Мелиорация и водное хозяйство. 2018. № 4. С. 30-36.

13. Николаенко А.Н., Кавокин А.А. Концепция разработки информационно-аналитической системы "Мелиорация" // Природообустройство. 2019. № 3. С. 6-13.

14. Павлова А.И., Каличкин В.К. Базы данных для агроэкологической оценки сельскохозяйственных земель // Сибирский вестник сельскохозяйственной науки. 2018. Т. 48. № 1. С. 80-88.

15. Рогачев А.Ф. Системный анализ и прогнозирование временных рядов урожайности на основе автокорреляционных функций и нейросетевых технологий // Известия Нижневолжского агроуниверситетского комплекса: Наука и высшее профессиональное образование. 2018. № 3 (51). С. 309-316.

16. Control over grape yield in the north-eastern region of ukraine using mathematical modeling / B Shulika, A. Porvan, O. Vysotska, A. Nekos, A. Zhemerov // Eastern-European Journal of Enterprise Technologies 2/3 ( 86 ) 2017. Pp. 51-59.

17. Rogachev A., Mazaeva T., Egorova E. Economic mechanisms for managing food security in the system "Production-Consumption-Import" // Asian Social Science. 2015. T. 11. № 20. C. 185-192.

18. Russello, H. (2018). Convolutional neural networks for crop yield prediction using satellite images

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рогачев Алексей Фруминович, Мелихова Елена Валентиновна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рогачев Алексей Фруминович, Мелихова Елена Валентиновна

Formation and use of statistical information database on the retrospective yield of grain crops

Текст научной работы на тему «ФОРМИРОВАНИЕ И ИСПОЛЬЗОВАНИЕ БАЗЫ ДАННЫХ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ РЕТРОСПЕКТИВНОЙ УРОЖАЙНОСТИ ЗЕРНОВЫХ КУЛЬТУР»