Научная статья на тему 'Методика построения статистических моделей аномалий урожайности, базирующаяся на данных спутникового зондирования'

Методика построения статистических моделей аномалий урожайности, базирующаяся на данных спутникового зондирования Текст научной статьи по специальности «Математика»

CC BY
158
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПУТНИКОВОЕ ЗОНДИРОВАНИЕ / СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / ОНОМАЛИИ УРОЖАЙНОСТИ ПШЕНИЦЫ / AVHRR - BASED INDICES / STATISTICAL MODELLING / WHEAT CROP ANOMALIES

Аннотация научной статьи по математике, автор научной работы — Менжулин Геннадий Викторович, Петерсон Глеб Николаевич, Шамшурина Наталья Владимировна

Как и в предыдущие годы одной из актуальнейших задач современной агрометеорологии является разработка и совершенствование методов прогнозирования урожайности сельскохозяйственных культур в условиях конкретного года. Несмотря на то, что в последние годы в методики прогнозирования внедряются имитационные модели продукционного процесса, основным инструментом, применяемым для этих целей, продолжают оставаться статистические модели. При построении таких моделей традиционно используется приземная метеорологическая информация. В некоторых случаях для таких целей используются комбинации агроклиматических показателей, выраженные в виде индексов. В конце 20-го века были созданы первые спутниковые системы по наблюдению за состоянием подстилающей поверхности. Развитие таких систем привело к тому, что в настоящее время стали доступными непрерывные ряды спутниковых наблюдений за достаточно продолжительные периоды, большие 20 лет. Поскольку ряды такой продолжительности в первом приближении уже могут считаться достаточными для построения статистических моделей урожайности, встал вопрос об эффективности использования спутниковой информации о вегетационных индексах для прогностических целей. К настоящему времени проведено большое количество исследований, посвященных вопросам использования спутниковой информации, однако проблема разработки такого нового типа прогностических моделей продолжает оставаться весьма актуальной. Настоящая статья посвящена оценке эффективности использования данных, полученных при спутниковом зондировании сельскохозяйственной растительности, в целях построения статистических моделей их продуктивности нового поколения, базирующихся на мультивариантных алгоритмах выбора наилучших регрессий из их широкого ансамбля. Такой подход свободен от априорных гипотез, ограничивающих выбор статистически наиболее достоверных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Менжулин Геннадий Викторович, Петерсон Глеб Николаевич, Шамшурина Наталья Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Designing New Regression Models of Crop Productivity Year-to-Year Anomalies Based on Satellite Vegetation Information

With reference to Kansas as the main US wheat producer state the problem of crop productivity model designing based on the satellite information is discussed. The new approach of the selection of regression model predictors is proposed. The conclusion of perspective to include a new type of the crop productivity statistical models into forecasting agrometeorology also using the satellite vegetation indices information besides the surface data is based.

Текст научной работы на тему «Методика построения статистических моделей аномалий урожайности, базирующаяся на данных спутникового зондирования»

ГЕОГРАФИЯ

УДК 528.873

Г. В. Менжулин, Г. Н. Петерсон, Н. В. Шамшурина

методика построения статистических моделей аномалий урожайности, базирующаяся на данных спутникового зондирования1

Введение

Совершенствование методов прогнозирования урожайности сельскохозяйственных культур было и остается одной из актуальнейших задач агрометеорологии. Новые, выверенные алгоритмы агрометеорологического прогнозирования позволяют более эффективно использовать потенциал современного сельского хозяйства, а также своевременно разрабатывать и внедрять новейшие технологии повышения урожайности. Несмотря на то, что в последние годы в методики прогнозирования урожайности широко внедряются детальные имитационные модели продукционного процесса, основным инструментом, применяемым для этих целей, продолжают оставаться статистические модели. При разработке таких моделей традиционно используется приземная метеорологическая информация. При этом в качестве основных факторов, которые в наибольшей степени влияют на конечную урожайность сельскохозяйственных культур, используется температура приземного воздуха и атмосферные осадки. В некоторых случаях для таких целей используются комбинации агроклиматических показателей, выраженные в виде индексов.

В конце 20-го века были созданы первые спутниковые системы по мониторингу состояния подстилающей поверхности. Развитие таких систем привело к тому, что в настоящее время стали доступными непрерывные ряды дистанционных спутниковых наблюдений за достаточно продолжительные периоды (большие 20-25 лет). Поскольку такая продолжительность рядов уже может считаться достаточной для построения статистических моделей урожайности сельскохозяйственных культур, встал вопрос об эффективности использования такой спутниковой информации для прогностических целей. Несмотря на то, что к настоящему времени проведено определенное количество исследований, посвященных данной проблеме, вопрос о развитии такого типа прогностических моделей продолжает оставаться весьма актуальным [1, 2, 4, 5, 7-9].

Настоящая статья посвящена оценке эффективности использования данных, полученных при спутниковом зондировании для построения статистических моделей продуктивности сельскохозяйственных культур нового поколения, использующих

1 Работа выполнена в рамках исследований по проекту .№ 06-05-64643-а Российского Фонда Фундаментальных исследований © Г В. Менжулин, Г Н. Петерсон, Н. В. Шамшурина, 2008

многовариантные методы анализа регрессионных моделей «спутниковые индексы — продуктивность», свободных от априорных гипотез, ограничивающих выбор наиболее достоверных моделей.

Исходная информация

Для построения регрессионных моделей урожайности сельскохозяйственных культур необходимо, чтобы исходные ряды данных о значениях расчетной и независимых переменных отвечали ряду требований. Очевидно, что главными из таких требований являются требования по достоверности, продолжительности, непрерывности и однородности рядов исходной сельскохозяйственной и спутниковой информации.

В современной агрометеорологии исходные данные спутникового зондирования всего представляются в виде, так называемых, вегетационных индексов. Наиболее известным и широко применяемым из них является индекс NDVI (Normalized Difference Vegetation Index), представляющий собой отношение разности потоков отраженной от земной поверхности солнечной радиации в видимом и близком инфракрасном (БИКР) диапазоне к их сумме

NDVI = (FVIS — FNIR)/(FVIS + FNIR),

где FVIS — поток отраженной радиации, близкой к инфракрасной области спектра; FN1R — поток отраженной радиации в видимом диапазоне спектра.

Кроме этого индекса было предложено использовать и другие индексы, хотя практически все из них основаны на данных об индексе NDVI.

Вегетационные индексы, или индексы состояния наземной растительности, имеют ряд существенных преимуществ перед данными приземных метеорологических наблюдений. Во-первых, в настоящее время данные спутникового зондирования покрывают практически всю поверхность земного шара, и имеют высокое пространственное разрешение. Ряды данных спутникового зондирования уже достаточно продолжительны — с 1983 г. до настоящего времени. Характерно, что в настоящее время пространственное разрешение данных спутникового зондирования применительно к задачам агрометеорологического характера доведено до нескольких десятков метров.

Во-вторых, многие вегетационные индексы является кумулятивными показателями, отражающими интегральную динамику интегральных показателей развития растительности. Можно отметить и то, что те их кумулятивные индексы, которые характеризуют уровень «зелености» растительности, устойчивы к кратковременным аномалиям метеорологических факторов. В-третьих, для вегетационных индексов принята величина временного осреднения в одну неделю, тогда как большинство из доступных метеорологических показателей являются помесячно осредненными характеристиками. Однако, здесь справедливости ради, следует заметить, что до настоящего времени ряды вегетационных индексов еще не столь продолжительны, и могут содержать некоторые погрешности, связанные с использованием сложной спутниковой аппаратуры — высокоточных радиометров, подверженных так называемому, «дроп-эффекту», в связи с чем спутники приходится довольно часто обновлять.

В нашем исследовании были использованы данные о временной динамике двух индексов, называемых VCI (Vegetation Condition Index) и TCI (Temperature Condition Index), являющиеся производными от ранее упомянутого индекса NDVI [3]. По сути, индекс VCI является нормированным значением индекса NDVI для каждого пикселя спутниковых

данных. При такой нормировке используется наибольшее и наименьшее значение индекса NDVI, зафиксированные за весь период измерений:

VCI = (NDVI - NDVImin)/(NDVImax - NDVImin).

Выписанная формула может применяться для построения рядов VCI различного временного осреднения. В настоящей работе использовались ряды недельно-осредненных значений данного индекса. Заметим, что значения индекса VCI изменяются в пределах от нуля до единицы, значения близкие к нулю характеризуют крайние стрессовые состояния растительности, средние значения соответствуют нормальным условиям, и значения близкие к единице отражают наиболее благоприятные состояния растительности.

В настоящей работе, использовался массив данных, содержащий значения спутниковых вегетационных индексов VCI и TCI за период с 1982 по 2005 год. Каждый элемент данного массива представляет собой значение индекса, осредненное по квадрату 16х16км. Эти массивы получены из архивов Вычислительного Центра Спутниковой Системы по Мониторингу Окружающей Среды НОАА США (Central Environmental Satellite Computer System, CENSCS). Заметим, что эти массивы специально подготовлены для использования в исследовательских целях, другими словами, они прошли необходимую обработку и проверку специалистами упомянутого выше Центра [6].

При выборе сельскохозяйственной культуры, как объекта исследования для нас решающую роль имели такие показатели, как доступность, качество и высокое пространственное разрешение данных по ее урожайности. Массивы данных, наиболее удовлетворяющие таким требованиям, содержатся на сервере национальной Статистической Службы Министерства Сельского Хозяйства США (US DOA) (http://www.nass.usda.gov). В этом архиве представлены данные по всем сельскохозяйственным культурам, возделываемым на территории США применительно к каждой наиболее мелкой административной единице США — графствам, являющимся аналогами районов областей России (площадь среднего графства США составляют около 10 тыс. км2). Продолжительность непрерывных рядов данных по урожайности основных сельскохозяйственных культур для большинства графств США составляют около 60-70 лет, причем в последние 40 лет в рядах таких данных пропуски редки.

Регион исследования

В качестве основного региона для нашего исследования был выбран штат Канзас, являющийся основным производителем озимой пшеницы США. Во всех 104 графствах штата Канзас культивируется озимая пшеница. Так как сезон выращивания озимой пшеницы приходится на месяцы двух лет нам при построении статистических моделей «вегетационные индексы — продуктивность» было удобно пользоваться понятием вегетационного года, продолжающегося от срока начала сева озимой культуры осенью предшествующего года до срока окончания массовой уборки культуры летом последующего года.

В штате Канзас сев озимой пшеницы обычно начинается в середине сентября и продолжается до начала декабря, а пора уборки продолжается с середины июня до середины июля. Это означает, что в целом по штату разница между самой поздней уборкой и самым ранним посевом составляет около двух календарных месяцев. При выполнении расчетов нам было удобно оперировать понятием «универсального» вегетационного года, начинающегося и заканчивающегося в один и тот же срок каждого года для всех 104 графств штата. С этой целью было решено установить в качестве начала вегетационного года конец

полного завершения работ по уборке предыдущего урожая и считать вегетационный год продолжающимся 12 календарных месяцев. Поэтому первой неделей вегетационного года а штате Канзас для нас являлась третья неделя июля предыдущего года, последней — вторая неделя июля последующего года.

Согласно имеющейся информации о зернопроизводстве в 104 графствах штата Канзас, его территорию удобно подразделить на две крупные области: восточную и западную; графства, расположенные западнее 97 градуса западной долготы, характеризуются в целом большими посевными площадями, и, соответственно, большими сборами озимой пшеницы. Графства восточной части штата следует отнести ко второй группе, характеризующейся меньшими посевными площадями и валовыми сборами. Методика построения регрессионных моделей «спутниковые вегетационные индексы — аномалии урожайности», обсуждаемая в настоящей статье, рассматривается на примере двух графств штата Канзас, одно из которых Woodson относится к восточной области штата, второе Thomas — к западной.

Обработка исходной информации и методы построения моделей

При построении статистических моделей аномалий урожайности важно подготовить исходные данные таким образом, что бы исключить из них длиннопериодную составляющую, определяемую экономическими факторами роста общего уровня урожайности, которая проявляется в большинстве стран в особенности после Второй Мировой войны. Устойчивое повышение средних величин хозяйственных урожаев происходит за счет совершенствования агротехнологий (внесение удобрений, оптимальная обработка почвы, борьба с сорняками и вредителями, уменьшение потерь при уборке урожая и т. д.). Немаловажны в этом аспекте и такие факторы, как селекция и внедрение в практику сельского хозяйства современных методов биотехнологии.

Следует принимать во внимание, что длиннопериодная компонента изменчивости может содержаться также и в рядах вегетационных индексов, несмотря на то, что они пока еще и не столь продолжительны. Помимо отмеченных выше факторов прогрессирующего роста урожайности сельскохозяйственных культур, в рядах спутниковых данных присутствие трендовой компоненты может иметь причиной и сугубо технические аспекты проведения мониторинга. К таковым, в первую очередь, следует отнести естественное «старение» приборов, устанавливаемых на спутниках, что приводит к искажениям в значениях измеряемых потоков отраженной радиации, а также индивидуальные особенности приборов разных поколений.

При анализе рядов вегетационных индексов VCI и TCI для графств штата Канзас, как впрочем, и других штатов США, было выявлено, что в большом их количестве присутствуют статистически значимые тренды. При выборе типа тренда, который должен был «вычленен», необходимо принимать во внимание, что продолжительность рядов индексов, доступных нам для построения регрессионных моделей была ограничена 21 годом. Если использовать сложные тренды (со многими экстремумами) при анализе такого относительно непродолжительного ряда, не исключено появление ошибок в расчетах аномалий урожайности, что связано с возможностью исключения из рядов не только технологической, но и, что весьма нежелательно, межгодовой изменчивости. В наших расчетах для целей построения рядов аномалий мы ограничились исключением из рядов урожайности и вегетационных индексов только линейных и квадратичных трендов.

Нельзя сказать, что к настоящему времени в работах по статистике предложены универсальные алгоритмы выделения из большого набора независимых переменных тех предикторов, при включении которых в регрессионные модели мы могли бы однозначно получить наиболее точные и статистически обоснованные модели. Некоторые алгоритмы такого выбора, построенные до настоящего времени, базируются на эвристических предпосылках, и в определенной степени могут рассматриваться как рекомендации. Такие рекомендации часто определяются характером и качеством используемых данных. Основным бесспорным принципом, которому следует следовать при построении многофакторных регрессионных моделей остается принцип выбора из всех претендующих на включение в расчеты в первую очередь только тех предикторов, которые обеспечивают максимальную точность искомой регрессии. К сожалению, так сформулированный принцип не дает конкретного правила построения компьютерного алгоритма поиска достоверных и точных регрессий. В нашем случае «конкуренции» за право быть предиктором модели продуктивности более ста индексов VCI и TCI, представляющих каждую неделю вегетационного года, вопрос об обосновании алгоритма выбора независимых переменных регрессионных моделей является особенно сложным.

Авторами с целью обоснования статистически достоверных алгоритмов выбора предикторов регрессионных моделей аномалий урожайности было разработано несколько методик, две из которых являются модификациями феноменологических алгоритмов последовательного исключения и последовательного включения предикторов. Основной же алгоритм, использованный в наших расчетах, базировался на методе прямого перебора всех возможных регрессий, их ранжирования и последующего выбора наиболее достоверных и точных регрессий. Подчеркнем, что авторам не известны источники в литературе агрометеорологического содержания, в которых данный метод применялся ранее. Заметим также, что построенные в данной разработке алгоритмы отбора предикторов прогностических регрессионных моделей «вегетационные индексы — аномалии урожайности пшеницы» естественно могут применяться при построении подобных моделей и для других сельскохозяйственных культур вне зависимости от региона их возделывания.

Первый из примененных нами приемов отбора предикторов можно назвать феноменологическим методом последовательного «включения — исключения». Основная идея этого метода состоит в том, что на первом, стартовом этапе из множества предикторов выбирается тот, который наиболее высоко коррелирован с предиктантом. В нашем случае предиктант представлялся рядом относительных аномалий урожайности n (i), вычисляемым по формуле n(i) = [y(i) - Y(i)] / Y(i), в которой y(i) и Y(i) значения реальной и трендовой урожайности сельскохозяйственной культуры года i.

Так как в случае недельно-осредненных вегетационных индексов существует высокая автокорреляционная связь между близкими по времени значениями предикторов, нам при реализации этогй методики при выборе следующего предиктора, претендующего на включение их в набор было необходимо ограничить максимальное значение коэффициента автокорреляции. В расчетах при выборе второго, третьего т. д. предикторов в набор лишь включались те вегетационные индексы, которые коррелированны с ближайшими, выше, чем на 0,75. Из выпадающих за данный уровень предикторов выбирается тот, который имеет наибольший коэффициент корреляции с урожайностью. Второй и третий этапы отбора повторяются до тех пор, пока не будут отобраны 6 предикторов, или пока не останется ни одного предиктора коррелированного с остальными менее чем на 0,75. Максимальное количество отбираемых предикторов нами ограничено шестью.

На четвертом этапе выполнения алгоритма рассчитывалась регрессионная модель урожайности от выбранных шести или меньшего количества факторов и применяется так называемый «метод обратного хода». При этом из регрессии последовательно исключаются наименее значимые по критерию Стьюдента предикторы. В случае, если новая модель имеет больший по сравнению с предыдущей скорректированный коэффициент детерминации, такая новая модель признается более точной и статистически достоверной. Метод обратного хода применяется до тех пор, пока не будет получен максимальный скорректированный коэффициент детерминации, или (в предельном случае) пока в наборе не останется только один предиктор.

Второй алгоритм отбора предикторов близок к так называемому «шаговому методу включения». Будем называть этот метод «квазишаговым». Алгоритм его реализации состоит из следующих последовательных этапов.

1. В качестве первого предиктора отбирается предиктор, имеющий наибольший по абсолютному значению коэффициент корреляции с предиктантом.

2. Второй предиктор отбирается при оценке статистических характеристик всех двухфакторных регрессионных моделей, когда в качестве первого предиктора выступает уже выбранный на первом этапе вегетационный индекс. После выбора второго предиктора, обеспечивающего наиболее точную двухфакторную модель, строятся все трехфакторные модели с уже заданными двумя первыми предикторами. Лучшей считается та трехфакторная модель, для которой достигнуто максимальное значение скорректированного коэффициента детерминации модели. Затем к набору предикторов по такой же схеме подбирается четвертый и т. д. предикторы.

3. На каждом из упомянутых подключений новых предикторов оценивается статистическая значимость отбираемых предикторов по критерию Стьюдента. Пороговое значение параметра Стьюдента t задавалось в расчетах равным 1,2, что, в случае рядов продолжительностью в 21 год соответствует 75 %-му уровню статистической значимости. Если в построенной модели один или несколько предикторов характеризуются значениями критерия Стьюдента ниже заданного уровня, они исключались из расчетов, при этом второй этап выбора предикторов повторялся. Если все предикторы удовлетворяли заданному критерию, то они оставались в наборе, при этом также повторялся второй этап выбора следующего предиктора.

Второй и третий этапы расчетов повторялись до тех пор, пока количество отобранных предикторов не достигнет 6-ти (исключая константу регрессии) или, когда последний добавленный предиктор не удовлетворяет выбранному критерию значимости (притом, что все остальные предикторы соответствуют данному критерию).

Ограничение общего количества отбираемых в наших расчетах предикторов связано с рядом технических аспектов компьютерной реализации и, в определенной степени субъективны. Не исключено, что снятие этого ограничения позволило бы получить более точные модели, однако такое уточнение не может быть существенным. Как показали оценки, значения корректированных коэффициентов детерминации семи и восьми факторных моделей уже начинали уменьшаться. Это в первую очередь объясняется ограниченной продолжительностью рядов вегетационных индексов.

4. На четвертом этапе регрессии, рассчитанные с использованием полученного набора предикторов, подвергались селекции с использованием метода «обратного хода». Из всех предикторов, независимо от соответствующего ему значения параметра Стьюдента, отбрасывался наименее значимый. Если при этом отмечалось повышение

скорректированного коэффициента детерминации модели, новая модель признавалась более точной, и из нее снова отбрасывался наименее значимый предиктор. Этот этап «отбраковки» предикторов повторялся до тех пор, пока на очередном шаге не отмечалось уменьшение значения показателя точности модели или (предельный случай) пока в наборе параметров не оставался только один предиктор.

Третий метод построения регрессионных моделей — метод перебора и анализа статистических свойств всех возможных многофакторных регрессий. При применении этого метода происходит перебор всех возможных комбинаций предикторов по два, три, четыре, пять шесть и т. д. При этом способе также можно выделить последовательные этапы работы алгоритма. На первом этапе рассчитываются все возможные двухфакторные регрессии и оцениваются значения их полных и скорректированных коэффициентов детерминации. В случае озимой пшеницы в графствах штата Канзас, продолжительность вегетационного года определена нами равной 52 неделям, т. е. общее количество предикторов оказалось равным 104, набор двухфакторных моделей для выбранного графства составлял пять тысяч. На втором этап работы алгоритма тестировались все возможные трехфакторные регрессии (30 000 случаев), на третьем — все четырехфакторные (пять миллионов случаев), на четвертом и пятом (100 миллионов и около одного миллиарда случаев соответственно). В силу значительного роста объемов вычислений и ограниченности возможностей доступной вычислительной техники при построении моделей для озимой пшеницы для всех графств штата Канзас максимальное количество предикторов, включаемых в модели, ограничивалось шестью.

Результаты расчетов, проведенных с использованием данной методики, следует рассматривать как наиболее полные, по сравнению с оценками, полученными при привлечении других алгоритмов, о которых говорилось выше.

Обсуждение результатов

Регрессионные модели «вегетационные индексы — аномалии урожайности озимой пшеницы» были построены для всех графств штата Канзас. Вторая часть выполненных нами разработок относилась к анализу таких же моделей, но для яровой пшеницы для графств штата Северная Дакота. В этом же разделе в качестве примеров подобных построений будут прокомментированы результаты, полученные применительно к двум из графств штата Канзас — Thomas и Woodson.

Как и ожидалось, наименее точные модели аномалий урожайности были получены при использовании двух первых методов отбора предикторов. Для графства Thomas коэффициент детерминации феноменологической модели (табл. 1а) составил 0,79, при этом алгоритм «остановил» свой выбор на четырех предикторах, три из которых оказались значимыми на уровне 75 %, четвертый — 95 %. Недостатки данного метода в особой степени выявляются при его применении к построению модели для графства Woodson (см. табл. 1 б). Коэффициент детерминации «финальной» регрессионной модели, использовавшей три предиктора, в случае феноменологической модели оказался равным 0,41.

Более обнадеживающими представляются результаты, полученные при использовании квазишагового метода и алгоритмов, базирующихся на методе прямого перебора. Результаты, полученные для двух выбранных графств штата Канзас, также приведены в табл. 1а, б. Коэффициент детерминации модели аномалий урожайности озимой пшеницы для графства Thomas, построенной при использовании квазишагового метода выбора предикторов, составил 0,92. Это необычно большое значение коэффициента

Таблица 1

Статистические характеристики регрессионных моделей урожайности озимой пшеницы для двух графств штата Канзас (США),

построенные с использованием различных методик отбора предикторов.

a) THOMAS Предикторы моделей и значения их t-критериев D Da а

Модели Const 1 2 3 4 5 6

Феноменлогическая - TCI45 5,05 VCI42 -1,33 VCI50 1,32 TCI31 1,68 - - - - 0,79 0,75 0,09

Квазишаговая -0,07 TCI45 7,45 TCI28 4,45 TCI22 ^1,03 TCI09 2,86 VCI48 -1,88 TCI40 -1,50 0,92 0,88 0,06

Переборная 2-факгора -0,05 TCI36 3,27 ТС 14 7 6,67 - - - - - - - - 0,78 0,76 0,09

Переборная 3-факгора 0,02 ТСЮЗ -3,90 TCI05 4,36 TCI46 9,61 - - - - - - 0,87 0,85 0,07

Переборная 4-фактора 0,01 TCI08 3,46 TCI22 -3,52 ТС 12 7 3,94 TCI46 8,66 - - - - 0,89 0,86 0,06

Переборная 5-факгоров -0,08 TCI02 -5,70 ТСЮЗ 5,39 TCI36 5,43 TCI38 -5,58 TCI44 10,76 - - 0,93 0,91 0,05

Переборная 6-факторов -0,24 VCI1 б 4,27 TCI02 -8,66 ТСЮЗ 8,30 TCI36 9,93 TCI38 -10,20 TCI43 13,99 0,97 0,95 0,03

б) WOODSON Предикторы моделей и значения их t-критериев D Da а

Модели Const 1 2 3 4 5 б

Феноменологическая - VCI45 -1,54 VCI36 2,34 TCI49 1,94 - - - - - - 0,41 0,34 0,16

Квазишаговая -0,20 VCI45 -7,10 ТС 107 -5,65 TCI12 6,13 ТСІЗб -3,42 VCI04 2,70 ТСІ05 2,57 0,85 0,78 0,08

Переборная 2-фактора -0,07 VCI 18 3,78 VCI22 -3,55 - - - - - - - - 0,46 0,39 0,15

Переборная 3-факгора -0,07 VCI 18 4,06 VCI22 -3,76 VCI44 -2,25 - - - - - - 0,59 0,51 0,13

Переборная 4-фактора 0,21 VCI13 3,73 VCI15 ^1,89 VCI1 б 5,68 VCI21 -5,96 - - - - 0,74 0,67 0,11

Переборная 5-факгоров 0,09 VCI33 4,85 ТС 12 7 7,21 TCI30 -6,94 ТСІ34 7,84 ТСІЗб -7,14 - - 0,86 0,82 0,08

Переборная 6-факторов 0,29 VCI13 8,30 VCI14 -8,42 VCI17 10,95 VCI22 -10,90 VCI42 -7,80 ТСІ43 -5,38 0,93 0,89 0,06

Примечания: Const — константа в формуле регрессионной зависимости; D, Da — коэффициенты детерминации прямой и скорректированной; ст — средняя квадратичная ошибка регрессионной зависимости.

детерминации регрессионной модели аномалий урожайности, которое в ранних агрометеорологических моделях при использовании в качестве предикторов наземных данных не достигалось.

Алгоритм прямого перебора из всех шестифакторных моделей выбрал применительно к модели для графства Thomas предикторы, все из которых, кроме одного, по критерию Стьюдента статистически значимы на уровне 95 %. Отметим также, что модель для этого графства в качестве предикторов использует в основном индексы VCI и только один из вегетационных индексов типа TCI. Отобранные алгоритмом индексы VCI приходятся на характерные периоды вегетационного года: один предиктор попадает на начальную неделю сентября, два—на декабрь и январь, еще два — на весенне-летний период развития посева. Индекс температурного состояния посева TCI, выбираемый моделью, приходится на последнюю неделю июня, что соответствует фазе уборки урожая. Интересно отметить, что некоторые из предикторов, отобранных алгоритмом прямого перебора, имеют невысокую корреляционную связь с аномалиями урожайности, например 0,07 для индекса VCI в девятую неделю вегетационного года и -0,08 для VCI в 48 неделю. Этот факт убедительно указывает на то, что алгоритмы отбора предикторов, базирующиеся на простых априорных методиках вряд ли способны предугадать такой выбор переборной модели.

Использование переборного метода отбора предикторов позволило увеличить коэффициент детерминации регрессионной модели аномалий урожайности озимой пшеницы для графства Thomas до необычайно высокого значения, равного 0,97. При этом все отобранные алгоритмом предикторы статистически значимы на уровне 99 %. В этом случае, также как и при использовании квазишагового метода, алгоритм «отбирает» шесть предикторов, пять из которых индексы VCI, один — TCI (см. табл. 1а). Характерным для моделей переборного типа является использование в качестве предикторов значений вегетационных индексов имеющих далеко не всегда самые высокие значения их коэффициентов корреляции и конечной величиной аномалий урожайности. В окончательную регрессионную модель для графства Thomas в качестве предикторов алгоритм предложил использовать индексы VCI во вторую, третью, 36-ю, 38-ю и 43-ю неделю вегетационного года. Отобранный алгоритмом температурный индекс TCI относится к неделе конца октября и соответствует наиболее коррелированному с аномалиями урожайности из всех других температурных индексов.

Регрессионные модели для аномалий урожайности озимой пшеницы для графства Woodson, находящегося в восточной части штата Канзас, отличаются не только меньшей точностью, но и выбором принципиально другого набора предикторов. При использовании квазишагового метода выбора предикторов была получена модель аномалий урожайности, характеризующаяся коэффициентом детерминации равным 0,85 (см. табл. 1б). В эту модель вошли шесть предикторов, четыре индекса VCI и два индекса TCI, все они значимы на уровне 99 %. При этом четыре индекса из шести относятся к начальному периоду вегетационного года (конец августа — конец октября), и два индекса — к весенним месяцам (индекс VCI в 36-ую неделю и индекс TCI в 45-ю).

При использовании переборного метода отбора предикторов коэффициент детерминации модели для графства Woodson достигает уже 0,92, но при этом, набор предикторов, отобранных в эту модель, существенно отличается от набора, выбранного алгоритмом применительно к западному графству Thomas. В этой модели также используется шесть предикторов и все они высоко значимы по критерию Стьюдента. Пять из шести предикторов модели это — температурные индексы TCI и только один предиктор относится

к индексу типа VCI. При этом три температурных индекса характеризуют осенний период (13-я, 14-я и 17-я недели вегетационного года). Единственный предиктор типа VCI относится к последней неделе мая (43-я неделя вегетационного года). Интересно отметить, что алгоритм перебора «затребовал» включения в конечную модель предикторов, имеющих невысокую корреляционную связь с аномалиями урожайности, хотя и «обеспечил» им высокое значение критерия значимости.

Компьютерная реализация метода прямого перебора, реализованная в нашей разработке, предполагала выбор не более шести предикторов для каждой из построенных моделей. Рост значений скорректированного коэффициента детерминации, характеризующего максимально точные двухфакторные, трехфакторные, четырехфакторные, пятифакторные и шестифакторные регрессии для случая двух графств штата Канзас представлен на рис. 1. Подчеркнем, что в обоих случаях увеличение количества предикторов до шести включительно приводило к заметному увеличению значений скорректированных коэффициентов детерминации, что характерно для большинства графств штата Канзас.

Еще одним интересным показателем соотношения точности моделей, построенных переборным методом, является вид ранжированной последовательности лучших шестифакторных моделей (рис. 2). На данном рисунке из общего набора шестифакторных моделей, составляющего более одного миллиарда, по вертикальной оси отложены значения скорректированного коэффициента детерминации первой сотни наиболее точных регрессий, построенных применительно к аномалиям урожайности озимой пшеницы в графстве Woodson штата Канзас. Различия по точности, моделей, попавших в список ста лучших, составляет около пяти процентов, что говорит об очевидной предпочтительности использования метода прямого перебора при обосновании наиболее точной и статистически достоверной регрессионной модели.

cd

С

§

cd

С

§

количество предикторов

количество предикторов

Рис. 1. Увеличение значений скорректированных коэффициентов детерминации регрессионных моделей урожайности озимой пшеницы, рассчитанных при использовании метода прямого перебора при увеличении количества предикторов от двух до шести Левая гистограмма — графство Thomas, правая — графство Woodson (Канзас, США).

0,92

0,90

0,88

Й

<U

0,86

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,84

0,82

0,80

1

10

20

30

40

50

60

70

80

90

100

Рис. 2. Динамика уменьшения значений коэффициентов детерминации лучших (от первой до сотой) моделей аномалий урожайности озимой пшеницы в графстве Woodson (Канзас, США) при использовании метода прямого перебора из всех возможных шестифакторных регрессий

Как уже говорилось, штат Канзас можно подразделить на две области: восточную и западную, которые заметно отличаются не только размерами посевных площадей и производством пшеницы, но и качеством регрессионных моделей аномалий урожайности. Расчеты показали, что модели для восточных графств штата, за небольшим исключением, характеризуются меньшими значениями коэффициента детерминации, по сравнению с моделями для графств западной части штата. Т ак, при проведении расчетов с использованием переборного метода отбора предикторов нам удалось получить регрессионные модели аномалий урожайности, характеризующиеся значениями коэффициента детерминации большими 95 % для графств западной и центральной областей штата Канзас (рис. 3). Для графств восточной области штата этот показатель составил около 90 %. Такие показатели точности регрессионных аналитических моделей аномалий урожайности сельскохозяйственных культур, как известно из литературы, являются самыми высокими.

Заключение

В заключение укажем на ряд возможностей, которые могли бы способствовать увеличению качества регрессионных моделей «вегетационные индексы — аномалии урожайности». Одна из таких возможностей связана с использованием спутниковой информации высокого пространственного разрешения. В данной статье показано, что использование

102°0'0"\У 101°0,0'г№ 100o0,0"W 99°0'0"\У 98°0’0"\¥ 97°0'0"\У 96°0'0"Ш 95°0'0"Ш

| , , | < 0,6 V /\ 0,80 - 0,90 ййй! > 0,95 | Р Р| 0,60 - 0,80 0,90 - 0,95

Рис. 3. Распределение коэффициентов детерминации шестифакторных регрессионных моделей аномалий урожайности озимой пшеницы, рассчитанных по методике прямого перебора из всех возможных регрессий по территории штата Канзас (США). Названия 104 графств, штата,

для которых проводились расчеты, приведены на поле карты-схемы

в статистических агрометеорологических исследованиях спутниковых данных с разрешением 16x16 километров, уже обеспечивает возможность построить достаточно надежные модели, которые существенно превосходят по точности статистические схемы, базирующиеся на данных наземных измерений по существующей сети метеостанций. Можно полагать, что подготовленная в Национальном Агентстве США по Океану и Атмосфере спутниковая информации более высокого разрешения, позволит построить еще более достоверные и точные модели аномалий урожайности применительно к мелким территориальным единицам, вплоть до размеров отдельных хозяйств и ферм. В дальнейших построениях важно принять во внимание и то, что выделение из рядов урожайности и вегетационных индексов присутствующих в них долгопериодных временных трендов и использование в моделях информации об относительных величинах, способствует увеличению точности регрессионных моделей. Все сказанное вместе с внедрением в методики расчетов более совершенных приемов отбора предикторов позволяют построить надежные регрессионные модели, удовлетворяющие более высоким критериям точности и статистической достоверности.

Summary

Menzhulin G. V. Peterson G. N. and Shamshurina N. V. Designing New Regression Models of Crop Productivity Year-to-Year Anomalies Based on Satellite Vegetation Information

With reference to Kansas as the main US wheat producer state the problem of crop productivity model designing based on the satellite information is discussed. The new approach of the selection of regression model predictors is proposed. The conclusion of perspective to include a new type of the crop productivity statistical models into forecasting agrometeorology also using the satellite vegetation indices information besides the surface data is based.

Key words: AVHRR — based indices, statistical modelling, wheat crop anomalies.

Литература

1. Савин И. Ю., Негре Т. О. новом подходе к использованию NDVI для мониторинга состояния посевов сельскохозяйственных культур // Исследование Земли из космоса. 2003. 4.

2. Dabrowska-Zielinska K., Kogan F., Ciolkosz K. A., Gruszczynska M., Kowalik W. Modeling of crop conditions and yield in Poland using AVHRR-based indices // International Journal of Remote Sensing. 2002. 23.

3. Deering D. W. Rangeland reflectance characteristics measured by aircraft and spacecraft sensors // PhD Dissertation. Texas A&M University. 1978.

4. Domenikiotis C., Spiliotopoulos M., Tsiros, V., Dalezios N. R. Early cotton yield assessment by the use of the NOAA/ AVHRR derived Vegetation Condition Index (VCI) in Greece // FAO Crop Production. 2006.

5. Kogan F., Gitelson A., Zakarin A. E., SpivakL., Lebed V. AVHRR-based spectral vegetation indices for quantitative assessment of vegetation state and productivity: calibration and validation // Photogrametry and Remote Sensing. 2003. 69.

6. KoganF. World droughts in the new millennium from AVHRR-based Vegetation Health Indices // EOS. 2002. 32.

7. Leon C. T., Shaw D. R., CoxM. S., AbshireM. J., WardB., WardlawM. C. Utility of remote sensing in crop production and soil characteristics // Precision Agriculture. 2003. 4.

8. Liu W. T., Kogan F. Monitoring Brazilian soybean production using NOAA/AVHRR based vegetation condition indices // International Journal of Remote Sensing. 2002. 23.

9. Manjunath K. R., Patdar M. B., Purohit N. L. Large area operational wheat yield model development and validation based on spectral and meteorological data // International Journal of Remote Sensing. 2002. 23.

i Надоели баннеры? Вы всегда можете отключить рекламу.