К вопросу разработки системы прогнозирования урожайности сельскохозяйственных культур

Тихонов Вячеслав Евгеньевич; Неверов Александр Алексеевич; Кондрашова Ольга Александровна

В.Е. Тихонов, д.г.н., профессор, А.А. Неверов, к.с.-х.н., О.А. Кондрашова, к.с.-х.н., Оренбургский НИИСХРАСХН

Анализ обширной литературы позволяет сделать вывод о том, что экология на современном этапе своего развития представляет собой мультипарадигматическую науку с четырьмя симбиотическими парадигмами — вербальной, функциональной, эскизной и имитационной [1, 2].

Авторы предлагаемой статьи реализуют свои исследования в рамках функциональной парадигмы.

Методологической основой функциональной парадигмы является тезис о том, что практически вся информация об изучаемой экосистеме заключена в экспертных данных и исследователю остаётся только умело её извлечь. Иначе говоря, основная предпосылка функциональной парадигмы состоит в следующем: все сведения о причинах развития экологического процесса содержатся в его реализации.

Успешное прогнозирование без понимания происходящего, без раскрытия причинноследственных связей в настоящее время считается вполне возможным [2, 3], и потому функциональные предикторы имеют право на существование. Они, как правило, строятся с помощью ЭВМ и представляют собой модели «чёрного ящика». Аппарат функциональной парадигмы разнообразен и включает регрессионный, корреляционный и факторный анализы, теорию планирования эксперимента, эволюционное моделирование, анализ временных рядов, кластерный анализ и т.п. [2].

Функциональные предикторы самоорганизующегося типа широко применяются для предсказания состояния различных популяций, сообществ, экосистем, в том числе продуктивности естественных растительных сообществ и агроценозов [4—6].

Г.С. Розенберг с соавторами [2] указывает на то, что специфика экологического прогнозирования на современном этапе состоит прежде всего в видении одного и того же феномена с

помощью множества различных и более-менее равноценных моделей (проявление принципа множественности моделей). По их мнению, основной недостаток имеющихся пакетов по прогнозированию состоит в том, что прогноз конкретного временного ряда строится в рамках только одного алгоритма. Иначе говоря, предполагается, что истинный механизм генерации этого ряда является единственным, и что он хорошо аппроксимируется одним из алгоритмов, имеющихся в применяемом инструментарии. Но для экосистем это скорее исключение, чем правило. Поэтому для эффективного функционирования системы экологического прогнозирования необходимо такое алгоритмическое и программное обеспечение, которое позволило бы учитывать неформальное знание и видение одного и того же феномена с помощью целого множества различных и более-менее равноценных моделей, возможную «разношкальность» предикторов, отсутствие унифицированной и общепризнанной методики оценки их качества.

Качество и тип любой модели (предиктора), как показано в работах [1, 2, 7], определяются следующими обстоятельствами:

— целью исследования;

— объёмом знаний об исследуемой системе, находящихся в распоряжении модельера (например, количеством времени, отведённым на разработку модели, типом ЭВМ, числом системных программистов и т.п.);

— парадигмой, к которой принадлежит модельер;

— опытом и талантом модельера.

В последние несколько лет наблюдается повышенный интерес к нейронным сетям, и они находят успешное применение в самых различных областях — бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления. Методы нейронных сетей применимы практически в любой ситуации, когда имеется связь между переменными — предикторами (входами)

и прогнозируемыми переменными (выходами), даже если эта связь имеет очень сложную природу и её трудно выразить в обычных терминах «корреляций» или «различий между группами» [СТАТИСТИКА 6.1. Электронное руководство. Нейронные сети].

Искусственные нейронные сети (ИНС) — математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы. Впоследствии, после разработки алгоритмов обучения, получаемые модели стали использовать в практических целях: в решении задач прогнозирования и управления, для распознавания образов и др.

С математической точки зрения, обучение нейронных сетей — это многопараметрическая задача нелинейной оптимизации.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преиму-

ществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искажённых данных.

Способности нейронной сети к прогнозированию напрямую следуют из её способности к обобщению и выделению скрытых зависимостей между входными и выходными данными. После обучения сеть способна предсказать будущее значение некой последовательности на основе нескольких предыдущих значений и/или каких-то существующих в настоящий момент факторов. Следует отметить, что прогнозирование возможно только тогда, когда предыдущие изменения действительно в какой-то степени предопределяют будущие.

1. Результаты моделирования в нейронных сетях регрессии урожайности ячменя на координаты планет Солнечной системы и Луны для ОПХ «Урожайное» (Чебеньки, Оренбургский район. Прогноз на 2012 г.)

Урожайность, ц с 1 га

год факт модель год факт модель год факт модель

1939 7,5 6,5 1964 21,6 22,2 1989 20,8 20,7

1940 19,0 18,5 1965 8,4 8,0 1990* 29,1 24,0

1941 19,2 18,4 1966 16,4 14,7 1991 13,9 15,4

1942 5,6 5,5 1967 0,3 1,3 1992 26,5 25,8

1943 8,0 7,1 1968 40,6 40,4 1993 21,4 20,7

1944 6,0 6,6 1969 24,8 16,4 1994 27,0 26,9

1945 7,1 7,4 1970 18,9 17,6 1995 8,4 5,9

1946 5,7 4,9 1971 19,4 18,3 1996 20,8 20,0

1947 5,8 5,7 1972 12,5 12,8 1997 27,0 26,6

1948 2,9 1,5 1973 28,8 28,2 1998 4,7 4,6

1949 21,4 21,0 1974 25,8 22,8 1999 26,2 24,8

1950 10,0 9,5 1975 6,2 6,3 2000 14,1 13,2

1951* 2,5 4,2 1976 36,6 36,6 2001 17,7 17,1

1952* 8,6 10,7 1977 17,9 17,6 2002 19,5 19,4

1953 7,9 5,7 1978 27,0 27,2 2003 16,9 16,9

1954 9,6 9,7 1979 24,9 26,2 2004 13,6 12,3

1955 0,6 4,6 1980* 17,8 15,2 2005 8,3 8,0

1956 17,1 15,7 1981 14,1 13,8 2006 16,7 16,6

1957 5,0 3,8 1982 21,0 20,9 2007 15,3 14,9

1958 12,2 13,1 1983 38,3* 35,2 2008 27,0 26,5

1959 17,5 17,8 1984 20,8 20,4 2009* 20,5 17,4

1960 16,8 17,5 1985 19,9 19,4 2010* 3,5 3,5

1961 11,6 11,5 1986 22,6 22,1 2011 26,0 25,3

1962 18,3 18,0 1987 19,5 18,3 2012 9,5

1963 13,8 13,0 1988 10,8 12,0 - -

Статистические оценки модели

Выборки, количество лет наблюдений

Параметры оценки обучающая, контрольная, тестовая, вся,

59 лет 7 лет 7 лет 73 года

Среднее абсолютной ошибки, ц с 1 га 0,58 3,06 2,52 1,00

Отношение стандартных отклонений 0,08 0,42 0,21 0,18

Корреляция 0,996 0,906 0,990 0,984

* — тестовая (проверочная) выборка

В процессе обучения сеть в определённом порядке просматривает обучающую выборку. Порядок просмотра может быть последовательным, случайным и т.д. При этом один полный проход по выборке называется эпохой обучения. При обучении с учителем набор исходных данных делят на две части — собственно обучающую выборку и тестовые (проверочные) данные; принцип разделения может быть произвольным. Обучающие данные подаются в сети для обучения, а проверочные используются для расчёта ошибки сети (проверочные данные никогда для обучения сети не применяются). Таким образом, если на проверочных данных ошибка уменьшается, то сеть действительно выполняет обобщение [8] (табл. 1). В данной таблице в качестве примера приводится одна из множества наработанных моделей. Для её оценки использованы следующие статистики регрессии: среднее абсолютной ошибки — абсолютное значение разности между целевым и фактическим значением выходной переменной; отношение стандартных отклонений — отношение стандартного отклонения ошибки к стандартному отклонению данных; корреляция — стандартный коэффициент корреляции Пирсона между предсказанными и наблюдаемыми выходными значениями.

Требуемая точность прогноза зависит от конкретной задачи. Однако, как правило, значения отношения меньшие 0,1 свидетельствуют об очень хорошем прогнозе.

При использовании среднего значения абсолютной ошибки всей выборки урожайность

зерна ячменя в 2012 г. ожидается в интервале 9,5±1,0 ц с 1 га.

Критерии выбора лучших моделей можно разделить на внутренние и внешние [2]. Критерий регуляризации называется внутренним, если его определение основано на использовании тех же данных, что и для получения самой модели. Они использованы для разработки прогнозов, представленных в таблице 1. Внешние критерии, широко используемые алгоритмами самоорганизации, вычисляются на основе проверочных последовательностей — «свежих точек», не участвовавших при синтезе модели.

В пользу внутренних критериев свидетельствует здравый смысл экономичности. Но при разделении таблицы исходных данных на обучающую и проверочную последовательности неизбежно снижается качество самого обучения (т.е. оценивание параметров модели) из-за снижения репрезентативности выборки. Идеальным арбитром является метод скользящего контроля, когда модель строится по (л-1) точкам, а в оставшейся точке рассчитывается уклонение прогноза, причём описанная процедура повторяется п раз. Оценка скользящего контроля является несмещённой и эффективной, хотя получение п моделей может вызвать труднопреодолимые вычислительные проблемы. В наше время эта проблема решается с использованием современных программных продуктов (нейронных сетей, гармонического анализа) и ЭВМ.

В таблице 2 показаны ансамбли полученных моделей. Прогнозные оценки урожайности

2. Прогнозные оценки урожайности яровой пшеницы на 2012 г., разработанные на базе нейронных сетей и гармонического анализа с применением внутренних и внешних критериев выбора лучших моделей. ОПХ «Урожайное»

Статистические оценки выборок (ряд наблюдений 1939-2011 гг.) Прогноз урожайности на 2012 г., ц с 1 га

вся выборка (72 года) обучающая (58 лет для нейросетей; 70 лет для гармонического анализа) контрольная (7 лет для нейросетей, 2 года для гармонического анализа) тестовая выборка

внутренняя внешняя

(7 ней] лет для зосетей) скользящий контроль на 2011 г., ц с 1 га*

корреля- ция среднее абсолютной ошибки, ц с га корреля- ция среднее абсолютной ошибки, ц с га корреля- ция среднее абсолютной ошибки, ц с га корреля- ция среднее абсолютной ошибки, ц с га

Нейросетевой анализ

0,97 1,2 0,98 1,0 0,96 1,8 0,96 1,9 17,7 10,9

0,97 1,3 0,97 1,3 0,99 1,4 0,98 1,4 19,7 10,9

0,97 1,1 0,97 0,9 0,95 2,1 0,99 1,7 21,2 13,2

0,98 1,0 0,99 0,7 0,96 2,0 0,97 2,0 21,6 10,9

0,95 1,6 0,95 1,7 0,99 0,4 0,95 1,7 20,4 10,1

Среднее 1,2 - 1,1 - 1,5 - 1,7 20,1 11,2

Гармонический анализ

0,97 2,1 0,97 2,0 - 0,0 - - 20,4 12,5

0,96 2,2 0,97 2,1 - 0,0 - - 20,3 10,0

0,97 2,0 0,98 1,9 - 0,2 - - 20,8 10,9

0,96 2,0 0,96 2,0 - 0,0 - - 20,4 12,0

0,95 2,2 0,97 2,0 - 0,3 - - 19,8 11,4

Среднее 2,1 - 2,0 - 0,1 - - 20,3 11,4

* — фактическая урожайность 2011 г. = 20 ц с 1 га

приведены с использованием внешнего и внутреннего (скользящего) контроля. В качестве последнего принят 2011 г.

Результаты получены на базе двух различных алгоритмов. Первый — регрессия на координаты планет Солнечной системы и Луны (нейронные сети). Второй — обобщённый гармонический анализ (оригинальный программный продукт), теоретической основой которого являются представления о многослойности природной ритмики [6].

Одно из фундаментальных обобщений геологии, геофизики и других наук заключается в том, что все процессы на Земле происходят циклами.

В агроэкологическом прогнозировании используется несколько технологических решений, но все они базируются на этом фундаментальном законе природы. Космическая природа ритмов в биосфере (в экологических системах, в популяционных сообществах) широко обсуждается в научной литературе [9].

В результате применения новых методов исследований природных процессов удаётся получать всё более детальные данные о них, а благодаря усовершенствованию методов обработки данных в конечном счёте удаётся извлекать более надёжные и достоверные результаты о ритмах разного ранга, выделяемых в природных процессах, связанных с изменением солнечной активности, климата и магнитного поля Земли. Поскольку улучшается понимание прошлого глобального климата и механизмов климатических изменений, всё более уверенной становится возможность предсказывать дальнейший ход климатического изменения [10].

Для долгосрочных и особенно сверхдолго-срочных прогнозов наиболее вероятной методической основой могут быть закономерности циклических колебаний, обнаруживающиеся в ряде характеристик атмосферы и гидросферы [11]. Поэтому природа цикличности солнечной активности, характеризуемая числом Вольфа, до сих пор привлекает умы исследователей.

В последнее время возрастает объём доказательств того, что изменения в солнечной активности играют важную роль в регулировании земной климатической системы, по крайней мере на шкалах в десятилетия и столетия [10]. Не так

давно было установлено [12], что не величина чисел солнечных пятен, а длина солнечного цикла убедительно демонстрирует связь со средними температурами земной поверхности. Корреляция между сопоставляемыми данными для последнего столетия выше 0,95. Таким образом, по мнению В.А. Дергачёва [10], скорее всего, не число пятен, а длина цикла может быть мерой связи солнечной активности и климата. Чем короче цикл, тем выше температура. И есть глубокий физический смысл в этой связи, обусловленный мощностью процессов на Солнце.

Для использования длины циклов солнечной активности в разработке прогнозов на базе гармонического анализа нами была построена оригинальная матрица этих циклов за период с 1885 по 2012 г. и включена как составная часть алгоритма компьютерного программного продукта.

Литература

1. Брусиловский П.М. Становление математической биологии. М.: Знание, 1985. 62 с.

2. Розенберг Г.С., Шитиков В.К., Брусиловский П.М. Экологическое прогнозирование (функциональные предикторы временных рядов). Тольятти, 1994. 182 с. URL: http://www ievbras.ru/ecostat/Kiril/Library/B2_menu2.htm

3. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем. Киев: Наук. думка, 1982. 296 с.

4. Герцекович Д.А., Усов В.А. Выбор эффективных методов прогноза урожайности сельскохозяйственных культур по принципу внешнего дополнения // География и природные ресурсы. 1982. № 2. С. 139-147.

5. Тихонов В.Е. Подход к прогнозированию условий вегетации зерновых культур // Вестник Российской академии сельскохозяйственных наук. 2002. № 4. С. 47-49.

6. Тихонов В.Е., Неверов А.А., Кондрашова О.А. и др. О влиянии планет Солнечной системы на динамику урожайности яровой пшеницы в степном Предуралье // Известия Оренбургского государственного аграрного университета. 2011. № 2. С. 18-21.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Брусиловский П.М. Коллективы предикторов в экологическом прогнозировании. Саратов: Изд-во Сарат. ун-та, 1987. 104 с.

8. Лекции по нейронным сетям. Лекции по теории и приложениям искусственных нейронных сетей. Сергей А. Терехов. Лаборатория искусственных нейронных сетей НТО-2, ВНИИТФ, Снежинск. Лекция 5. Свойства процессов обучения в нейронных сетях. URL: alife.narod.ru>lectures / neural/Neu_ch05.htm

9. Современные проблемы изучения и сохранения биосферы. Т.1. Свойства биосферы и её внешние связи. СПб.: Гидро-метеоиздат, 1992. 288 с.

10. Дергачёв В.А. О крупномасштабных природных процессах // Известия Русского географического общества. Т. 130. Вып. 6. СПб., 1998. С. 58-71.

11. Воробьёва Е.В. Изменение атмосферных циклов в связи с геомагнитной возмущённостью и долгосрочные прогнозы погоды // Солнечно-атмосферные связи в теории климата и прогнозах погоды. Л.: Гидрометеоиздат, 1974. 484 с.

12. Friis-Christensen E., Lassen K. Length of the solar cycle: an indicator of solar activity closely associated with climate // Science. 1991. Vol. 254. P. 698-700.

ON THE PROBLEM OF THE SYSTEM OF FARM CROP YIELDS FORECAST DEVELOPMENT

Текст научной работы на тему «К вопросу разработки системы прогнозирования урожайности сельскохозяйственных культур»