УДК 311:681.3.06
Л.А. Хворова, Н.В. Гавриловская Построение статистической модели прогноза урожайности яровой пшеницы методом главных компонент
Для построения статистических моделей в большинстве случаев используется аппарат классического регрессионного анализа. Уравнение регрессии переменной у по переменным (хьх2,...,хп) в матричной форме можно представить в виде
у = ь х = о" с_1 х, (1)
где Ь - вектор коэффициентов регрессии; X - вектор независимых величин (предикторов); 0 - вектор, составленный из коэффициентов ковариации между предсказуемым у (предиктантом) и составляющими вектора X; С_1 - матрица, обратная ковариационной матрице предикторов; (*) - знак транспонирования. Предполагается, что все переменные предварительно центрированы [1, 2].
Важным обстоятельством, затрудняющим применение обычного регрессионного анализа, является сильная корреляция между переменными, описывающими метеорологические условия вегетационного периода.
Температура, влажность воздуха, фотосинтетически активная радиация, осадки, влагозапасы почвы, взятые в виде сумм или средних за отрезки вегетационного периода любой продолжительности, связаны между собой, и эта корреляция легко объяснима с физической точки зрения.
Кроме «синхронной» корреляции между различными параметрами за один и тот же отрезок времени, не менее существенно влияние «асинхронной» корреляции между параметрами, относящимися к разным временным интервалам. Например, корреляция между температурой воздуха или влагозапа-сами почвы за смежные декады, корреляция между температурой и дефицитом влажности за смежные декады и т.д. Эта корреляция вызывается инерцией метеорологических процессов, а также инерцией параметров, характеризующих состояние посевов и корнеобитаемого слоя почвы.
Мы считаем, что применение регрессионного анализа для исследования влияния метеорологических условий на формирование урожая и для построения соответствующих многомерных прогностических схем не может дать должного результата. В работе [2] предлагается использовать в этих случаях компонентный анализ или метод главных компонент.
Пусть \ > Л2 > . > Л„ - собственные значения, матрицы С; и1,и2,...,ип - соответствующие ор-тонормированные собственные векторы. Матрицу,
составленную из собственных векторов
и1, и2,., ип, обозначим и , тогда
и*и = ии* = Еп, (2)
где Еп - единичная матрица порядка п.
Перейдем от исходного набора переменных X* = (х1, х2,., хп) к новому набору переменных
А* = (а1, а2,..., ап) посредством преобразования А = их . (3)
Переменные аг называются главными компонентами переменных х. Дисперсии переменных аг равны соответствующим собственным числам матрицы
^=4 . (4)
Новые переменные обладают следующим экстремальным свойством. Дисперсия а1 является максимально возможной дисперсией для любой переменной, представляющей собой линейную комбинацию вида
аг = £ игХг (5)
г=1
при условии нормировки весов
£ и'2 = 1. (6)
г=1
Дисперсия ак является максимальной среди всех комбинаций вида (5), не коррелированных с ак_х, и т.д. Благодаря этому свойству главные компоненты являются в некотором смысле наилучшими линейными функциями для описания изменений случайного вектора X от реализации к реализации или, имея в виду нашу задачу, наилучшими линейными функциями для описания изменений условий произрастания сельскохозяйственных культур от года к году.
Первые q главных компонентов учитывают из
п 2
полной вариации переменных £ долю, равную
г=1 к
^ = £ л/£ л, (6)
г=1 / г =1
с возрастанием q ^ также растет и в случае сильной коррелированности факторов х1,х2,...,хп быстро приближается к единице. Это дает возможность предположить, что разность (1 ), начиная
с некоторого q < п , несущественна, что позволяет вместо исследования п коррелированных перемен-
ных заняться анализом в несколько раз меньшего числа q некоррелированных переменных. Применим этот метод для построения прогностических зависимостей.
От исходного набора предикторов перейдем к новому набору а1, а2,..., ап предикторов - коэффициентов разложения случайного вектора X по собственным векторам его корреляционной матрицы. Отберем среди а1, а2,., ап несколько коэффициентов (р), наиболее информативных для прогнозирования у, и построим соответствующее уравнение регрессии
А
у = /1а1 + 12а2 + ••• + 1рар- (7)
Для получения коэффициентов уравнения (7) нет необходимости непосредственно рассчитывать значения переменных а1, а2,., ар. Коэффициенты
11, 12,..., 1р можно найти непосредственно по формуле:
1 *
I =— О и.
г л ^ г
Л
(8)
Соответствующий 1г парный коэффициент корреляции равен
1 . (9)
Г =
уа,
1
Множественный коэффициент корреляции, благодаря некоррелированности главных компонентов, определяется особенно просто:
я
уа1,а2,
= 4 2 Гу
2
уа,
(10)
(г=1
Возвратимся к исходным переменным х1, х2,..., хп , тогда уравнение (10) следует записать так:
У =
(р 1 * л
2 -г Оии
і=і Я,
X .
(11)
Выражение в скобках представляет собой вектор коэффициентов регрессии, т.е.
Р 1 7 Т7* Т*1
2— О и,и, = Ь
г=1 Я,
(12)
Компонентный анализ вместо одного «классического» уравнения регрессии позволяет на том же материале наблюдений построить, по крайней мере, п прогностических зависимостей. Действительно, учитывая лишь один наиболее информативный коэффициент разложения а1, получаем
(
У =
—О’ии; х = цх. А )
Учтем, кроме а1 , еще и а2 , получим
у =
Г Т ОГиМ+± О*и 2и 2 ^
^1 А-2
х = Г2 х.
При введении последнего коэффициента разложения ап уравнение примет вид
У = ^^и2и*2 + "■ + Тв*Ппи” У = У , ^
совпадающее с обычным уравнением регрессии (1), т.е. Ьр = Ь при р = п .
Уравнение регрессии (1) можно рассматривать как частный случай уравнения (11). Следовательно, суть преимуществ, которые может дать метод главных компонент по сравнению с обычным подходом, заключается в возможности отбрасывать часть коэффициентов разложения вектора-предиктора. Но какие из коэффициентов разложения а1, а2,..., ап отбросить, а какие ввести в прогностическую зависимость? Предложено несколько принципов отбора коэффициентов разложения для построения прогностических зависимостей. Наиболее целесообразной является процедура отбора, основанная на ранжировании парных коэффициентов корреляции, связывающих у с а1, а2,..., ап [2].
Для перехода от стандартизованного к естественному масштабу представления переменных необходимо каждый коэффициент регрессии умно-
жить на отношение
считать по формуле
_ Р °у
10 = У - 2 г
г=1 СТ.
а свободный член рас-
(14)
где 1г = Ьр ■ Хг .
Выполнив эти операции, получаем окончательное уравнение для прогноза урожайности.
Рассмотренный вариант многомерного регрессионного анализа - метод главных компонент, или метод разложения по «естественным» ортогональным составляющим - уже используется для решения агрометеорологических задач [1, 2].
Проведем прогноз урожайности яровой пшеницы по статистической модели на основе метода главных компонент. Все вычисления производились в математическом пакете 8С1ЬЛБ, используя соответствующие функции.
На основании данных о количестве осадков за осенний период, количестве осадков за зимний период, сумме температур >5 ° С за первые две декады вегетационного периода, количестве осадков за две декады, количестве дней с осадками за две декады, числе Вольфа, урожайности рассчитаем корреляционную матрицу С и вектор Q (исходные данные предварительно центрируем):
(
С =
1 -0,267 0,136 0,049 0,016 0,099
-0,267 1 0,003 0,286 0,147 0,112
0,136 0,003 1 -0,449 -0,273 0,318
0,049 0,286 -,0449 1 0,541 - 0,304
0,016 0,147 -0,273 0,541 1 - 0,102
0,098 0,112 0,318 -0,304 -0,102 1
О =
и =
и 2 =
( 0,317 ^
0,324 -0,150 0,555 0,203 V 0,019 У
Элементы матрицы С и вектора Q составлены из коэффициентов корреляции. Найдем собственные значения матрицы С , используя функцию «рппсошр()» в математическом пакете 8С1ЬЛБ, получим
( -0,1116 ^
0,2141 -0,4859 0,5945 0,4826 -0,3454 ( 0,2888 ^
0,4008 0,5017 0,1933 -0,2876 -0,6198
Собственные числа соответственно равны \= 2,0763, Лз = 1,2503, Л3 = 1,0993, Я4 = 0,6710, Я5 = 0,5957, Я6 = 0,3075. Сумма собственных чисел равна шести, т.е. сумме диагональных элементов матрицы С .
По формуле (9) вычисляем коэффициенты корреляции между у и коэффициентами разложения
14 = 0,2721,
/5 = 0,4074 .
и 5 =
( 0,5411 ' (-0,6466'
-0,7348 -0,1546
-0,1865 , и3 = -0,2698
0,0135 -0,2459
-0,0135 -0,4114
ч-0,3635у ч-0,5055 у
( 0,3388 > ( 0,2801 '
0,2952 0,3776
-0,5679 , и 6 = -0,2864
0,1412 -0,7271
-0,6353 0,3336
ч 0,2279 у ^-0,2387у
а1,а2,к,ап:
Гуа1 = 0,3669, Гуа4 = 0,2229 :
Гуа2 =-0,0366, Гуа5 = 0,3145,
Гуа, =-0,4234,
Г
уаб
= -0,1558.
*51345
= 74.
2 Л
г=1
Первый, третий, четвертый и пятый коэффициенты разложения несут около 74% всей информации о независимых переменных.
Для того чтобы получить уравнение регрессии, связывающее у с коэффициентами а1, а3, а4 и а5, используем формулу (8); получим:
11 = 0,2548, 13 =-0,4039,
Уравнение регрессии запишется в виде у = 0,2548 • 11 - 0,4039 • 13 + 0,2721-14 + 0,4074 • 15.
Свободный член этого уравнения равен нулю, поскольку а1 = 0, а3 = 0, а4 = 0и а5 = 0, а у представлен в стандартизованном масштабе, т.е. у = 0, а = 1. Для перехода от переменных а1, а2, ., ар к х1, х2,., хп подставим в это уравнение выражение для коэффициентов разложения аг = иг* X и рассчитаем вектор коэффициентов регрессии Ьг = I -и .
( -0,1116 ^ (-0,0284^
Ь3 =-0,4039'
0,2141 -0,4859 0,5945 0, 4826 -0,3454 (-0,6466'ї -0,1546 -0,2698 -0,2459 -0,4114 -0,5055
0,0545 -0,1237 0,1514 0,1229 -0,0880 ( 0,2611 'ї 0,0624 0,1090 0,0993 0,1662 0,2041
Ь4 = 0,2721-
Выберем наиболее информативные коэффициенты разложения для построения зависимости. Для
q / п
этого рассчитаем с, = 2 Д- 2 Д- , выбирая призна-
г=1 / г=1
ки с самыми высокими коэффициентами корреляции, получим
^ + Л3 + + Л5 4,44
( 0,2888 > ( 0,0786 ^
0,4008 0,1091
0,5017 0,1365
0,1933 0,0526
-0,2876 -0,0782
ч-0,6198 у ч -0,1687 у
( 0,3388 > ( 0,1381 '
0,2952 0,1203
-0,5679 -0,2314
0,1412 0,0576
-0,6353 -0,2589
ч 0,2279 у ч 0,0928 у
Ь5 = 0,4074 •
Сложив Ь1 + Ь3 + Ь4 + Ь5, в итоге получаем уравнение регрессии
у = 0,4494х1 + 0,3463х2 - 0,1096х3 + +0,3609х4 - 0,0481х5 + 0,0403х6.
Для перехода от стандартизованного к естественному масштабу представления переменных необходимо каждый коэффициент регрессии умно-
жить на отношение
а свободный член рас-
считать по формуле (14), где средние квадратиче
Результаты прогноза урожайности
Годы Урожайность (фактическая) Урожайность (расчетная) Ошибка
1971 21,3 22,22 0,04
1972 28,6 22,72 0,21
1973 17,5 16,36 0,06
1974 11,3 16,10 0,42
1975 20,3 21,15 0,04
1976 13,7 13,66 0,00
1977 20,2 17,66 0,13
1978 20,4 18,66 0,09
1979 20,1 20,82 0,04
1980 22,8 16,44 0,28
1981 13,4 15,39 0,15
1982 16,3 20,79 0,28
1983 24 23,84 0,01
1984 23 21,77 0,05
1985 22,7 25,80 0,14
1986 25,3 23,42 0,07
1987 24,2 19,76 0,18
1988 15,9 17,90 0,13
1989 25,3 20,53 0,19
1990 16,3 21,35 0,31
1991 17,8 18,81 0,06
1992 17 16,77 0,01
1993 19 21,19 0,12
1994 20 19,53 0,02
1995 20 17,37 0,13
1996 15,2 17,08 0,12
1997 12,8 17,25 0,35
у = 0,083х1 + 0,054х2 - 0,011х3 + 0,097х4 -
1 , 2 з 4 (!5)
-0,056х5 + 0,003х6 + 9,730.
Результаты прогноза урожайности по модели (15) представлены в таблице. Средняя относительная ошибка прогноза составила 13%.
Оценка существенности различий между средней фактической урожайностью и прогнозируемой показала, что фактическая и прогнозируемая урожайность не отличается статистически значимо.
Библиографический список
ские отклонения равны соответственно <гу = 4,3; ах = 23,29; ах = 27,37; ах = 43,06; ах = 16,04;
Л1 у Л2 у Л3 у л4 у
ах = 3,66; ах = 52,41, а средние значения -
= 19,42; х = 50,65; х2 = 112,34; х3 = 266,22;
^ = 26,04; х5 = 8,00; х6 = 69,19.
Выполнив эти операции, получаем окончательное уравнение
1. Дронов, С.В. Многомерный статистический анализ : 2. Сиротенко, О.Д. Математическое моделирование
учеб. пособие / С.В. Дронов. - Барнаул, 2006. водно-теплового режима и продуктивности агроэкоси-
стем / О. Д. Сиротенко. - Л., 1981.