Научная статья на тему 'Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации'

Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации Текст научной статьи по специальности «Математика»

CC BY
424
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная эконометрика
Scopus
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Ершов Э. Б.

Получена форма несмещенной оценки коэффициента детерминации для линейного уравнения регрессии, вычисляемая по выборочным данным из многомерного нормального распределения. Эту оценку предлагается применять как альтернативный критерий выбора факторов в регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Ершов Э. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A choice of the regression maximizing an unbiased estimate of the coefficient of determination

A form for an unbiased estimate of the coefficient of determination of a linear regression model is obtained. It is calculated by using a sample from a multivariate normal distribution. This estimate is proposed as an alternative criterion for a choice of regression factors.

Текст научной работы на тему «Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации»

№4(12) 2008

Э. Б. Ершов

Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации

Получена форма несмещенной оценки коэффициента детерминации для линейного уравнения регрессии, вычисляемая по выборочным данным из многомерного нормального распределения. Эту оценку предлагается применять как альтернативный критерий выбора факторов в регрессии.

1. Введение

Общеизвестен вариант исходных предположений метода наименьших квадратов (МНК), при котором используемые значения объясняемой переменной у и факторов х,,...,хт в регрессии порождаются выборкой из многомерного невырожденного нормального распределения. Вместо его неизвестных параметров используются их оценки, вычисляемые по выборочным данным.

Нормально распределенная случайная величина у, получаемая при фиксированныхзна-ченияхфакторовх,,...,хт, представима в виде

т

У = а о + ^ х]а] + е, (1)

У=1

где коэффициенты а0,..., ат — известные функции от параметров закона распределения случайной величины (у,х,,...,хт) и е — нормально распределенная случайная величина, имеющая нулевое математическое ожидание и дисперсиюст2, не зависящую от значений факторов

х,.....хт.

Характеристика Ж2 = Ж 2(у; х,,..., хт), называемая коэффициентом детерминации, определяется формулой

Ж2 = 1-стЦ ст 2( у),

где ст 2( у)— дисперсия случайной величины у. Показатель Ж2 зависит от факторов х,,..., хт, но не от их значений, т.е. характеризует связь между у и факторами.

По данным выборки, состоящей из наблюдений (у к ;хк ,,...,хкт ), к = ,,..., п, с помощью

МНК находятся оценки а,, у = 0, ,...,т, коэффициентов в 0), МНК-остатки ек, оценки , _ у ,

ст2(у) = (ук — у)2 ист2(у ;х,,..., хт) = е2 дисперсийст2(у) ист2, а затем выборочное

п V п V

значение Н2 (у;х,,...,хт) = ст2 (у;х,,...,хт)/ст2(у) коэффициента детерминации. При заданном наборе {х,,..., хм} потенциальных факторов выбор набора {х(.0),..., x¡(т}) аргументов

обычно сводят к минимизации несмещенной оценки —— ст2(у;х,,..., хт) дисперсии ст2 или к максимизации статистики п — р

№4(12) 2008

Я2(~......~т)=Я2 =я2 = 1-[1-Я2(~......~т)]—, (2)

п — р

где р = (т +1) — число оцениваемых коэффициентов в (1). Статистику Я2 называют выборочным коэффициентом детерминации, скорректированным на число степеней свободы.

Приведенные определения включаются в учебники по многомерному статистическому анализу и эконометрике. Менее известно, что математические ожидания ЕЯ2 и ЕЯ2 статистик Я2 и Я2 не равны №2. Это важно, поскольку выбор факторов не должен быть ориентирован только на обеспечение наибольшей близости выравненных значений

т

ук = а0 хк1а1, к = 1,...,п, переменной у к выборочным значениям ук, так как урав-

1=1

т

нение у = а0 + ^х1а 1 используется и при других значениях факторов. В связи с этим вво-

1=1

дятся различные критерии выбора факторов, использующие предположения о генеральной совокупности переменных у,х1,...,хм, например о нормальности соответствующего рас-Ц пределения. При таком предположении показатель №2 естественно рассматривать как ха-| рактеристику оцениваемой регрессии и, выбирая факторы, максимизировать ее несмещен-Ц ную оценку.

щ

^ 2. Несмещенная оценка коэффициента детерминации №2,

£ ее аппроксимации и заменители

¡5 _

I Уишарт [Wishart (1931)] показал, что ЕЯ2 и №2 связаны соотношением [Кендалл, Стьюарт | (1973), с. 454]

^ ER2 = 1-П—Р(1-^2)F(1;1;0,5(n + 1); ^2). (3)

Здесь F (a; р;^;z) — специальная гипергеометрическая функция, определяемая в виде

I n - 1

щ

I?

? ряда [Градштейн, Рыжик (1962), с. 1053] iE

I rr а . , opz а (а + 1) (( 3 + 1) z2 а(а + 1)(а + 2) (( ( + 1)( ( + 2) z3

g F(а; (3;1;z) = 1 + ——I---1---+ ..., (4)

¡8 1-1 1-2-1(1 +1) 1-2-3-1(1+ 1)(l + 2)

>g

U сходящегося абсолютно и равномерно внутри единичного круга для комплексной перемен-

I,

<1 ной переменной z при z > 0 и положительных а, 3,1 является возрастающей, а также то, что

Г _

* детерминированные величины ^2 и ER2.

Важнейший результат был получен Олкиным и Прэттом [Olkin, Pratt (1958)], нашедшими § определенную при n > p >3 статистику к2 (y;х,,..., xm) = к 2 [Кендалл, Стьюарт (1973),

щ

I

g. R2 = 1--^^(1-R 2)F(1;1;0,5( n - p) + 1;1-R2), (5)

Vg П - p

ной z, если ^^ 0, -1,-2,.... Для дальнейшего важно, что функция Я(а; р;^;7) действительной переменной 7 при 7 > 0 и положительных а, р, ^ является возрастающей, а также то, что формула (3) не позволяет находить ЕЯ2 по данным выборки, так как связывает неизвестные

с. 456]:

представляющую собой несмещенную оценку для ^ ( y ; x1,..., xt

72 X

№4(12) 2008

U „2 p -3М п^ 2(n — 3)

Теория и методология _

73

03 i £ ua

Свойства функции F(1; 1;^; z) переменной z при 0 < z < 1, y = 0,5(n — p) +1 известны: F(1; 1;ч;0) = 1; при 0 <z < 1 ряд (4) сходится, a при z = 1 расходится, если n — p = 1 или 2, и сходится, если n — p > 3 [Градштейн, Рыжик (1962), с. 1054].

Статистика R2 до настоящего времени, насколько нам известно, не использовалась, л по-видимому, из-за признания практически невозможным или нецелесообразным вычислять значения F(1; 1;0,5q;z) при целых q и 0 < z < 1.

В этих условиях можно воспользоваться аппроксимацией для R2, получаемой из (5) при большом числе наблюдений. В [Кендалл, Стьюарт (1973), с. 456] предлагается использовать первые члены разложения R2 в ряд

Я2 = Я2 (1- Я2)--4 ;-(1- Я2)2 -0(п ).

п — р (п — р)( п — р + 2)

Таким образом, в рассмотрение вводится статистика Я2:

К2= Я2-р—3(1 — я2)--2(п—3-(1— Я2)2, (6)

п — р (п — р)( п — р + 2)

которую в [Айвазян и др. (1985), с. 284] предлагается применять как критерий качества регрессии. Из определений статистик Я2 и Я2 следует, что при близких к нулю значениях Я2 они принимают отрицательные значения. Это же свойство отмечается в [Кендалл, Стьюарт (1973), с. 456-457] и для Я2. _ ~ ^

Сравним значения рассматриваемых статистик Я2, Я2, Я2 и Я2, не вычисляя их, но учитывая, что 0 < Я2 < 1, п > р > 3 и Я = Я(1; 1;0,5(п — р) +1;1 — Я2) > 1. Из (2), (5) и (6) получаем

Я2 — Я2 = ^^О — Я2) >0, Я2 — Я2 >0, Я2 — ~2 >0, т.е. п — р

~2 < тах(Я2; Я2) < Я2.

Покажем, что для статистик Я2 и Я2 возможны случаи Я2 < Я2, Я2 > Я2 и Я2 = Я2, и найдем множества значений величин п, р и Я2, при которых эти случаи имеют место. Используя определения, представим разность этих статистик в виде

Я 2 — Я 2 = 2(1— Я 2)( п — р + 2)( п — р + 4) — (п — 3)(1— Я 2)[( п — р + 4) + 4(1 — Я2)]

(п — р)( п — 3)( п — р + 2)( п — р + 4)

При фиксированных значениях п и р исследуем неопределенное неравенство

^ (у) = 4( п — 3) у2 + (п — 3)( п — р + 4) у — (п — р + 2)( п — р + 4) V 0,

в котором переменная у = (1 — Я2)удовлетворяет неравенству 0 < у < 1 Очевидно, что уравнение ((у) = 0 имеет корни у—, у+ разных знаков, неравенство ((у) <0 выполняется при 0 < у < т1п(1;у). Имеем т1п(1; у+) = у+, если ((1) > 0, но т1п(1; у+) = 1, если ((1) < 0.

Таким образом, необходимо исследовать неравенство((1) = [4(п —3) + (п—3)(п — р + 4) — —(п — р + 2)(п — р + 4)] V0, учитывая, что параметры п и р удовлетворяют условию п > р > 3. Введя неотрицательную переменную х = (п — р — 1) > 0, представим неравенство ^(1) V0 в виде (х + р — 2)(х + 9) — (х + 3)(х + 5) = (р + 1)(п — р +1)—33 V0 или пV[(р +1) + 33/(р +1)] = = К р).

I

dS

№4(12) 2008

Рассмотрим три случая для пар (р; п) параметров, характеризующих регрессию, — числа наблюдений в выборке (п) и числа оцениваемых коэффициентов (р = т +1).

1. Если п Ь(р), то f(1) 0. Следовательно, f(у) = (Я2 — Я2) < 0при0 < (1-Я2) < у+ и Я2 > Я2 при у+ < (1-Я2) < 1, где у+ —положительный корень уравнения ((у) = 0. Такие пары (р; п) будем называть парами типа А. Для них, т. е. для достаточно большого числа наблюдений, при больших значениях коэффициента детерминации Я2 скорректированный на число степеней свободы критерий Я2 завышает оценку качества регрессии по сравнению с аппроксимирующим статистику ^2 критерием Я2. Однако при малых Я2 такая оценка качеств а занижается.

2. При небольшом числе наблюдений п, удовлетворяющем неравенству(р +1) < п < р), т. е. для пар типа В, имеем ((1) < 0 и ((у) = (Я2 — Я2) <0 для всех возможных значений Я2, т.е. при 0 < Я2 < 1, и критерий Я2 характеризует регрессию, преувеличивая оценку ее качества.

3. В особом случае, когда п = р), сучетом ограничения п > р > 3 существуют всего два §. значения р = 10 и р = 32, при которых 33/(р +1) и Ь(р) — целые числа. Таким образом, | Я2 = Я2 только при р = 10, т = 9, п = 14 или при р = 32, т = 31, п = 34, т. е. в двух исключи-Ц тельных и неинтересных для приложений случаях.

Для любого р значения п, образующие пары (р; п) этих типов, легко находятся. Так, при § р = 3 А-множество пар (р; п) = (3;п) задается неравенством 12<п, а В-множество представляется в виде (3;п), п е {4; 5; 6;7; 8; 9; 10; 11}. Например, при р = 7 такими множествами значений для п соответственно будут 12 <п и п е {8; 9; 10; 11}. Заметим, что при р > 33 А-множества задаются неравенствам и (р + 2) < п, а В-множества «вырождаются»

t ■ ■ ■ ~ - «

^ Приведенный анализ неравенства ~2 <max(R2; Я2) < R2 показывает, что при R2 < 1

2 статистики R2, R2, R2 смещены относительно ^2 заведомо положительно, а для критериев

* R2 и R2 характер такого смещения зависит от параметров p, n и статистики R2. Поэтому целе-

в( p; n) = (p; p +1).

§■ сообразно продолжить поиск других подходов к конструированию на основе статистики Я2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

§ критериев качества регрессий.

I В [Айвазян и др. (1985), с. 190-192] было предложено при выборе регрессоров максими-

| зировать не Я2, а так называемую нижнюю границу ЯттР для ^2 при задаваемой доверительной вероятности Р. Статистика Я^р определялась при упрощающем предположе-

¡5 нии о пропорциональности разности (Я2 — Я^ р) асимптотической (при больших п) оценке

I

« лой

среднеквадратической ошибки случайной величины R2. Критерий P задавался форму-

а «mn,=R2 -х(р )(1-r-)2(p"1)1!(n:p;. (7)

(n -1)2( n + 1)

а Значение множителя Х(Р) предлагалось выбирать в зависимости от Р. Однако функция \(Р)не поддается идентификации, и воспользоваться формулой (7) при ограниченном, атем более при малом числе наблюдений невозможно. Значение коэффициента \(Р) приходится задавать, исходя из прагматических соображений.

74

Ив4(12) 2008

В развитие идеи, на которой основывалось введение статистики Я^п р, в [Айвазян, Мхита-рян(1998), с. 420, 663, 664] введен заменяющий статистику Я2, просто вычисляемый, максимизируемый показатель качества регрессии

2 . т1п

Я^ = Я2 - 2(1-Я2

2( р -1)( п - р)

[п -1)2( п + 1)

(8)

03 1 £ иа съ

Эта статистика также называется нижней доверительной границей (точнее, ее оценкой) для Ж2, но без упоминания задаваемой доверительной вероятности.

Сравним значения статистик Я2 и Я^п.Для разности (Я2 -Я2п), используя (5), (8) и неравенство п > р > 3, получаем

я 2 - С = (1-Я2:

(п -1)-(п - 3) Я

+ 2

п - р

2( р -1)( п - р)

(п-1)2( п + 1)

где, как и прежде, Я = Я(1;1;0,5(п-р) +1;1-Я2). Из (5) находится следующая формула для

(п-3)Я/(п-р): (п-3)Я/(п-р) = (1-Я:

-Я ) > 1.Тогда при Я < 1 имеем

Я2- Я2 = (1-Я2

п-1 1-Я'

■+ 2

п - р 1-Я2

= (1-Я2

2( р-1)( п - р)

п -1)2( п + 1) р-1

> (1-Я2

п-1

-1 + 2

- + 2

п - р

2(р -1)( п - р) 0 51 (п -1)2( п + 1)

п - р > 0.

2( р-1)( п - р)

(п -1)2( п + 1)

Следовательно, для математических ожиданий этих статистик имеем ЕЯ2 > ЕЯ^п и статистика Я2п смещена относительно Ж2, что и следовало ожидать, учитывая их определения. В то же время из определений (5) и (8) для Я2 и Я^п следует, что с ростом п их значения сближаются, стремясь к Я2. Однако при ограниченном числе наблюдений эквивалентность применения критериев Я^п и Я2 в задаче выбора регрессий по меньшей мере не очевидна. Поэтому проанализируем возможность эффективного вычисления несмещенной оценки Я2 для Ж2.

3. Эффективно вычисляемая форма представления статистики Я2

Чтобы оценка Я2 для Ж2 могла применяться в качестве критерия выбора множества рег-рессоров, достаточно иметь возможность вычислять значения функции Я(1; 1;1;7) при 1 = 0,5(п -р) +1 и 0 < 7 = (1- Я2) < 1. Это можно сделать следующими способами.

Во-первых, это значение можно рассчитывать, используя определение (4) для функции Я. Тогда

~2 = 1-—(1-Я2; п - р

1 + (1-я 2) 2

к !(1-Я2

=0 Ч( 1+ 1)-( 1+ к)]

(5')

Однако такой способ может быть сложен для реализации из-за необходимости вычислять значения коэффициентов при 7к = (1-Я2)к.

Во-вторых, можно воспользоваться представлением функции Я (1;1; 1; 7) в виде определенного интеграла [Градштейн, Рыжик (1962), формула (9.111)]:

75

№4(12) 2008

сп 1 ^ 1 г<1—и)2 А 1;2) ™ Г(1;1; 1; г) =- -Си =-. (9)

В(1;ч-1)4 1 — иг В(1; 1 — 1)

Значение бета-функции В(1; 1-1)=В(1;0,5(п -р)) легко вычисляется: В(1; ^-1)=Г(1)ГЬ-1)/ГЬ),

го

где Г(х +1) = |е-ГГхСГ — гамма-функция, Г(1) = 1, Г(х + 1) = хГ(х) и В(1;^-1)= 2/(п-р). Опре-

0

деленный интеграл д(1; г) может вычисляться методами численного интегрирования. Комбинируя формулы (5) и (9) и переходя к переменной Г = (1-и), получаем интегральное представление статистики Я2:

~ 1 Г 0,5(п-р)-1

Я2 = 1-0,5(п - 3) I г-СГ, (5'')

Л с + г

где с = Я7(1-Я2)и Я2* 1.

Заметим, что с помощью (9) вычисляется значение Г(1;1;0,5(п -р) +1;1), получаемое при Я2 = 0, так как

11 д(1;1) = |(1-и)3Си = |Г3СГ и 1-3 = 0,5(п-р-4).

0 0

Если п = р +1, то 1-3 = -1,5, IГ1-3 С Г = -2Г-0,5 и д( 1 ;1) =+го. Если п = р + 2, то 1-3 = -1, |Г1-3СГ = 1пГ и д( 1 ;1) =+то.

I 0

| Таким образом, при минимальном значении Я2 = 0 статистики Я2 получаем

I

I ~ п - 3

| Я 2(0) = 1- ——3Г(1; 1;0,5(п-р) + 1; 1) =

| п - р ■

I

Если п > р + 3, то | Г1-3 С Г = 2/(п - р - 2).

р-1

при п > р + 3;

п - р - 2 (10)

-те при п = р + 1 или р + 2.

В-третьих, функция д( 1;г) при 1 = 0,5(п-р) +1 представима в виде суммы конечного числа слагаемых, являющихся известными функциями аргументов (п - р) и г = (1 - Я2). Воза можность получения такого представления до настоящего времени, по-видимому, не была § замечена.

| Для нахождения определенного интеграла в формуле (9) с параметром (1-2) = | = 0,5(п-р)-1, принимающим значения {-0,5;0;+0,5;1;...} пр и п-р = 1,2,..., введем пере-^ менную г = (1- Я2). Предполагая, что Я2 < 1 и с = (1-г)/г = Я2/(1-Я2), рассмотрим следую-| щие случаи для д( 1; г):

Щ &

а • При п -р = 2 имеем &

1 1 Г 1 I . 1 I

щ _ . ,

2 ^ с + Г

д( 1; г) = 1 Г—СГ = -1п(1+ с-ги с + Г г

0

76 X

№4(12) 2008

• При нечетных значениях параметра п — р = 2$ +1, 5 = 1,2,..., применяя формулы (2.211) и (2.212) из [Градштейн, Рыжик (1962)], находим

1 1 fs~0,5 i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

g(i; z) = - J-dt = -

z i c +t z

ck

V-c-+ (-1)s -2cs-05arctg(c-

k=0 s - k-0,5

, N 1 Г t' 1

g( i; z) = - J-dt = -

z J0 c + t

V—+ (-1)scs ln(1+ c-s - k

arctgx = V(-1)k-- при x2 < 1 и x = c-0 5 < 1;

k=0 2k+1

ln(1+x) = V(-1)k— при -1< x < 1 и x = c-1 < 1.

k= 0 k

to

n

ua

Ci

• При четном п — р = 2($ +1), $ = 1, 2,..., используя формулу (2.153) из [Градштейн, Рыжик (1962)], получаем

Приведенные формулы позволяют представить статистику R2 в виде

R2 = 1-0,5(n - 3)G(n - p; c),

где функция G(n - p; c) определена при0 < c = R 2/(1- R2), 0 < R2 < 1, p = m +1 следующим образом:

s-1 ck

G(n-p; c) =2 V(-1)k-c-+ (-1)s -2cs-0,5arctg(c-0 5) = H1(s; c) + H2(s; c), если n - p = 2s + 1;

k=0 2(s - k) -1

s- 1 c k

G(n-p; c) = V(-1)k~— + (-1)scsln(1 + c-1) = H3(s; c) + H4(s; c), если n-p = 2(s + 1),

s - k

здесь s = 0,1, 2,... .

Вычисление значений многочленов H1(s; c) и H3(s; c) от переменной с может приводить к потере точности при больших значениях с, т. е. при R2 ^ 1, поэтому для значений с и R2 выделим следующие случаи:

1)0 < R2 < 0,5, c < 1, c-1 > 1;

2)0,5 < R2 < 1, c > 1, c-1 < 1.

При относительно небольших значениях R2, т.е. при R2<0,5, целесообразно использовать формулы (11) даже при больших значениях (n - p), так как с < 1. В случае R2 > 0,5 воспользуемся разложением функций arctg x и ln(1 + x) в степенные ряды:

2k+1

(12)

С помощью (12) показывается, что многочлены Н1($; с) и Н2($; с) равны суммам слагаемых в функциях Н3($; с) и Н4($; с) соответственно, содержащих неотрицательные степени перемен-

\_77

№4(12) 2008

ной с. Таким образом, для С(п - р; с) при Я2 > 0,5 получаем общее для четных и нечетных значений (п -р) представление в виде степенного ряда

в(п- р; с) = 2с-1 -1)к(2к + п - р)-1с-к, к = 0

в котором 0 < с-1 = (УЯ2) -1 < 1.

В итоге для статистики Я2 получаем исчерпывающее все возможные случаи представление в виде функции от Я2, числа наблюдений п и числа коэффициентов р в уравнении регрессии (предполагается, что п > р > 3, с = Я21(1- Я2) и ц — целая часть числа 0,5(п - р -1)):

I £

I

<ъ Ч

Е ¡Б

i

п §

£

0 \

? §

U

<ъ >s

1 !

t

I g

Si

m"

u u

<b &

Q.

I d§

R2 =

—те,

P -1 n — p — 2

1 — (n — 3)

1 — (n — 3) 1

q—i £( — 1) k

k = 0 q—1

n—p—2k—2

£(—1)k

n—p—2k—2

+ (—1) qcq—°'5arctg(1/R2— 1)0 (—1)qcq ln(VR2)°'5 ,

если R2 = 0и n = p + 1, p + 2; если R2 = 0 и n > p + 3;

, если 0 < R2 < 1и n — p = 2q + 1; (5'")

если 0 < R2 < 1 и n — p = 2(q + 1); если R2 = 1.

В случае если 0,5 < R2 < 1 и c > 1, можно также воспользоваться формулой

~2 = 1 — (n — 3)c—1 ¿(—1)k (2 k + n — p)—1 c— k.

(5"

Представление (5'''), (5'''') статистики R2 по сравнению с (5'), использующим коэффициенты k(^ +1)...(^ + k)] при (1 — R2)k, отличается простотой формул для коэффициентов при степенях переменных с и c—1. Метод вычисления статистики R2 по формулам (5''') реализован совместно с канд. экон. наук Н. А. Толмачевой.

4. Примеры применения статистики R2 при выборе наилучшей регрессии

Подходы к выбору наилучшей регрессии в задаче с небольшим числом потенциальных факторов в научных монографиях и учебниках иллюстрируются на нескольких повторяемых примерах. Это позволяет сравнивать результаты, получаемые с использованием постоянно обновляемых идей и общих исходных данных. На двух таких примерах продемонстрируем возможность применения статистики R 2.

4.1. Пример Хальда

В [Дрейпер, Смит (1987)] и [Себер (1980)] детально анализируются все варианты регрессий, базирующихся на данных из [Woods et al. (1932)] и [Хальд (1956)]. Объясняемая переменная y = (yk) в этом примере — тепло, выделяющееся при производстве цемента (калория/грамм), a Xj = (xkj), j = 1,...,4 (m = 4), — переменные, характеризующие содержание четырех веществ в клинкере (в %) в 13 наблюдениях (k = 1,...,n;n = 13). Факторы xj приближенно мультиколлинеарны, так как их суммы в каждом наблюдении близки к 100. Вы-

78

c

c

k=0

k= 0

Ив4(12) 2008

борочные значения коэффициентов корреляции для пар факторов подтверждают предположение о мультиколлинеарности (г(х,; х3) = —0,8241, г(х2; х4) = —0,9730), также как и значение Се1:(X'X) = 0,0010677 детерминанта матрицы X'X, где X — матрица размером 13 х5, содержащая значения аргументов в регрессии у = а0 + а1х1 +... + а4х4, и собственные значения корреляционной матрицы С = сог(х,,...,х4) для факторов: X,(С) = 2,23569, Х2(С)= 1,57606, Х3(С)= 0,18661 и X4(С) ^ 0,00162.

С использованием различных подходов в [Дрейпер, Смит (1987)] и [Себер (1980)] были выделены следующие претенденты на роль набора факторов для наилучшей регрессии:

(х; х2), (х; х4), (х; х-1, х3), (х1; х2; х4), (х^ х3; х4), (х2; х3; х4), (х1; х2; х3; х4).

Таблица 1 содержит значения статистик Я2, Я2, Я^, Я2 и Я2 для всех 15 вариантов набора факторовх1,...,х4. В этом примере значения статистик Я2 и Я2 приводятся с большим числом знаков для того, чтобы сделать явным выполнение неравенства Я2 > Я2. Отобранные варианты четко выделяются среди регрессий с фиксированным числом факторов. При этом регрессии с одним фактором (т = 1, р = 2) уступают по критериям Я2 и Я^ регрессиям-претендентам.

03 1 £ иа съ

Таблица 1

Значения критериев выбора регрессии, основанных на функциях от статистики Л2,

для примера Хальда

Набор Статистика Максимизируемые критерии Ранг набора

факторов й2 R2 Rmln R2 й2 факторов*

м 0,5зз95 0,49158 0,з9421 — — —

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(Х) 0,66627 0,6з59з 0,56620 — — —

(Хз) 0,28587 0,22095 0,07175 — — —

(Х) 0,67454 0,64495 0,57696 — — —

(Х1; Х2) 0,97868 0,97441 0,96841 0,9786026 0,9786021 4

(Х1; Хз) 0,54817 0,45780 0,зз051 0,5141412 0,5088098 11

(Х1; Х4) 0,97247 0,96697 0,95921 0,972з448 0,972з4з7 6

(Х2; Хз) 0,8470з 0,8164з 0,77ззз 0,84з1252 0,842944з 9

(Х2; Х4) 0,68006 0,61607 0,52594 0,66з0002 0,6612219 10

(хз; Х4) 0,9з529 0,922з5 0,90412 0,9з45918 0,9з45785 8

(Х1; Х2; Хз) 0,98228 0,976з8 0,97058 0,9802529 0,9802526 2

(Х1; Х2; Х4) 0,982з4 0,97645 0,97067 0,980з097 0,980з094 1

(Х1; хз; Х4) 0,98128 0,97504 0,96891 0,9791з04 0,9791з00 з

(Х2; хз; Х4) 0,97282 0,96з76 0,95486 0,9696507 0,9696495 7

(Х1; Х2; хз; Х4) 0,982з8 0,97з56 0,96728 0,9778919 0,9778914 5

* Приведены ранги регрессий, для которых соответствии с убыванием значений любого

определены статистики Я2, Я и Я . Ранги присваиваются в из критериев.

79

№4(12) 2008

Для регрессии с факторами (х,;x2) значения статистик R2, Rr2ltn, R2 и R2 больше, чем для регрессии с факторами (х,;х4). Аналогичным образом регрессия с факторами (х,;х2;х4) оказывается предпочтительнее других регрессий с тремя и двумя факторами. Дрейпер и Смит, используя метод исключения факторов и «шаговый метод» (метод пополнения множества факторов), принимая без тестирования гипотезу нормальности ошибок и задавая без обоснования уровень значимости для F-критериев, отдали предпочтение регрессии с факторами (х,;х2). В качестве критерия выбора факторов ими использовалась и предложенная Мэл-лоузом Ср-статистика, что также привело к выбору регрессии с факторами (х,; х2). Однако при этом не было обращено внимание на то, что в этом критерии в качестве надежной, по предположению несмещенной оценки дисперсии случайных ошибок используется такая величина, как««2 — остаточный средний квадрат МНК-отклонения для уравнения, содержащего все переменные» [Дрейпер, Смит (1987), с. 14, 15]. Для примера Хальда с явно мультикол-линеарными данными указанное допущение вряд ли может быть оправдано. Такой оценкой было бы естественнее считать статистику 52для искомой «наилучшей регрессии», но это разрушало бы конструкцию метода, использующего статистику Cp.

Полезно иметь в виду, что так называемая ПРЕСС-процедура [Дрейпер, Смит (,987), с.40-42] тоже позволила выделить варианты регрессий, для которых критерий «предсказан-Ц ная сумма квадратов» (Prediction sum square) РББЦш,..., х](m}) принимал наименьшие, но отно-Ь сительно мало различающиеся значения: PSS(х,; х2) = 95, PSS(х,; х4) = ,2, PSS(х,; х2; х3) = 9,,

¡в PSS(x1; х2; х4) = 85, PSS(x1; х3; х4) = 87, PSS(x1; х2; х3; х4) = НО. Для остальных регрессий значе-£

ния критерия РББ оказались в пределах от РББ(х3; х4) = 264 до РББ(х3) = 2616. По-видимому, стремление выбирать уравнение как можно с меньшим числом аргументов хотя бы частично объясняется преувеличением трудностей реализации МНК, возникающих с ростом числа факторов. Однако для регрессий с двумя и тремя факторами эта позиция авторов не может объясняться возрастающей «сложностью» расчетов. Скорее следовало бы говорить об угрозе возникновения мультиколлинеарности факторов с увеличением их числа и о необходимости прогнозировать большее число факторов. | Можно считать, что в данном примере ПРЕСС-процедура в качестве конкурирующих рег-

•С

Ц рессий определяетуравнения с наборами факторов (х-,;х2;х4), (х-,;х3;х4), для которыхзначения I критерия РББ минимальны. При этом в число конкурирующих претендентов включена регрессия (х1;'х2;х4) с наибольшими значениями статистик Я2, Я^п, Я2 и Я'

Этот же набор факторов (х1;'х2; х4) определяется в качестве наилучшего и при применении

§

Ф рессиа (v.-x-х ) с наибольшими значениями с—гатис—гик R 2 R2 R 2 и R 2

I

S предложенного в [Webster et al. (,974)] модифицированного МНК, или метода «регрессии на

I

ц цы для объясняемой переменной и всех рассматриваемых факторов. Формальное изложе-

главныекомпоненты». Этот метод использует собственные векторы корреляционной матри-

ние метода и его применение к данным примера Хальда имеются в [Дрейпер, Смит (,987), с. 48-52].

§ Себер, используя понятие R2-адекватного (а)-набора регрессоров, предложенное в о [Aitkin (,974)], приводит все такие наборы для примера Хальда, соответствующие довери-^ тельной вероятности а = 0,05. Ими оказались (х,;х2), (х,;х4) и все четыре набора, содержащие ^ три фактора [Себер (,980), с. 35,, 352]. Однако этот подход не позволил в этом примере су-v§ зить множество регрессий-конкурентов.

® Несовпадение результатов выбора наилучшей регрессии разными методами или фактическая неединственность результатов такого выбора отмечается почти всеми исследовате-

80 X

'— №4(12) 2008

лями.Так, в [Себер (1980), с. 372] замечено, что метод последовательного включения факта- § ров выделяет набор (х1;-х2;х4), в то время как метод последовательного их исключения — на- Ц бор(хь-х2). Заметим, что в этих методах доверительные вероятности задаются экзогенно, без ^ учета того, насколько различаются значения возможных критериев качества регрессий по о наборам факторов, и без тестирования нормальности.

Таким образом, рассматриваемые Дрейпером, Смитом и Себером методы определения наилучшей регрессии в примере Хальда фактически позволили выделить множество регрессий-конкурентов, а не одну, действительно лучшую, регрессию.

В то же время на примере Хальда видно, что для вариантов регрессий со значениями Я2, близкими к 1, статистики Я2 и Я2 становятся, как отмечалось, почти равными. В этом примере ранги, присвоенные регрессиям по убыванию значений критериев Я2, Я^п, Я2 и Я2, не являющихся неубывающими при добавлении факторов, совпадают. Следовательно, применение несмещенной оценки Я2 для коэффициента детерминации ^2 как критерия качества регрессий в этом случае не противоречит рекомендациям применять другие рассматриваемые критерии.

4.2. Анализ урожайности зерновых культур

По данным 20 сельскохозяйственных районов некоторой области в примере 15.1 из [Айвазян, Мхитарян (1998), с. 631, 632, 636, 644-646, 652, 654, 664-668] исследуется зависимость урожайности зерновых культур у (ц/га) от пяти факторов: х1 — число тракторов на 100 га; х2 — число зерноуборочных комбайнов на 100 га; х3 — число орудий поверхностной обработки почвы на 100 га; х4— количество удобрений, расходуемых на гектар (ц/га);х5 — количество расходуемых химических средств защиты растений (ц/га). Отмечается высокая мультиколлинеарность факторов, причем коррелированность факторов х1 и х3 следует из того, что «орудия поверхностной обработки почвы реализуются в подавляющем большинстве с помощью тракторов» [Айвазян, Мхитарян (1998); с. 652, 654]. Поэтому из дальнейшего анализа исключим фактор х1.

В табл.2 приведены значения статистик Я2,Я2, Я^, Я2 и Я2 для всех вариантов регрессий. Среди уравнений с одним фактором (т = 1, р = 2) явно выделяется регрессия с фактором х4, для которой значения всех рассчитанных критериев существенно превосходят их значения для других однофакторных уравнений. Из множества уравнений с двумя факторами (т = 2) по значениям всех пяти статистик выделяются регрессии с факторами (х2;х4) и (х3;х4). Для уравнения с факторами (х3;х4) значения всех максимизируемых статистик больше, чем для регрессии с факторами (х2;х4). Среди трехфакторных регрессий по значениям всех статистик претендентами на роль наилучшей регрессии оказываются уравнения с наборами факторов (х2;х4;х5) и (х3;х4;х5). Однако для регрессии с факторами (х2;х4;х5) значения статистик больше, чем у конкурирующего уравнения. Таким образом, выбор наилучшей регрессии сводится к выбору между уравнениями с факторами (х3;х4) и (х2;х^;х5), поскольку для «лучшей» однофакторной регрессии значения статистик Я2, Я2 и Я^ существенно меньше, чем для этих претендентов. Напомним, что для регрессий с одним фактором не все рассматриваемые статистики определены. Регрессия с четырьмя факторами уступает отобранным двум конкурирующим уравнениям по всем критериям за исключением Я2, что естественно.

\_Л

№4(12) 2008

Таблица 2

Значения критериев выбора регрессии, основанных на функциях от статистики И2, для примера анализа урожайности зерновых культур

I

5

I ?

<ъ Ч

¡2

¡Е

I

п §

iE

ч

0

1 ?

§

U

<ъ >s i !

t

I ё I

i

U

и

6

о.

I ¿8

Набор Статистика Максимизируемые критерии Ранг набора

факторов R2 R2 Rmin R2 R2 факторов*

Х) 0,1з994 0,09215 -0,026з8 — — —

(Хз) 0,1625з 0,11601 0,00058 — — —

Х) 0,ззз29 0,29625 0,204з6 — — —

Х) 0,110з1 0,06089 -0,0617з — — —

(Х2; Хз) 0,16408 0,0657з -0,09261 0,09052 0,07524 11

(Х2; x4) 0,46196 0,з9866 0,29674 0,4з148 0,4278з 4

(Х2; Х5) 0,17248 0,07512 -0,0816з 0,100з9 0,08562 10

Хз; Х4) 0,482з7 0,42147 0,з2з42 0,45416 0,4509з 2

Хз; Х5) 0,2150з 0,12268 -0,02601 0,15017 0,1з776 8

(Х4; Х5) 0,зззз0 0,25486 0,12858 0,28651 0,27924 7

Х2; Хз; Х4) 0,48з86 0,з8708 0,27092 0,42015 0,416з5 6

(Х2; Хз; Х5) 0,22120 0,07518 -0,10010 0,1009з 0,08651 9

Х2; Х4; Х5) 0,51з46 0,4222з 0,з127з 0,45510 0,45195 1

(Хз; Х4; Х5) 0,4982з 0,40415 0,29122 0,4з715 0,4зз67 з

(Х2; Хз; Х4; Х5) 0,517з0 0,з8858 0,26712 0,42188 0,41819 5

* Приведены ранги регрессий, для ответствии с убыванием значений

которых определены статистики R2 Rmin, R2 и R2. Ранги присваиваются в со-любого из критериев.

С. А. Айвазян и B.C. Мхитарян, рекомендующие статистику Rmin как критерий качества регрессии, отдают предпочтение уравнению с факторами (x3;x4), так как Rrm,n (R; ~3, ~4) = 0,323 > 0,313 = = Rmin(~; х2,х4,х5). Однако по значениям статистик R2, R2 и R2 регрессия с факторами (x2; x4; x5) предпочтительнее, хотя разницы значений критериев для этих двух конкурирующих уравнений малы. Таким образом, на данном примере показано, что выбор регрессии по критериям Rmin иR2 может приводить к разным результатам. Значения статистик R2 и R2 могут для данного набора факторов существенно различаться, но при этом ранги регрессий, присваиваемые в соответствии с убыванием этих критериев, могут полностью или частично совпадать.

5. Заключение

Предложение использовать несмещенную оценку R2 коэффициента детерминации Ж2 или ее аппроксимацию R2 как критерий качества выбираемого набора регрессоров основывается на строго формулируемом предположении о нормальности распределения для совокупности переменных, порождающих используемые выборочные данные, и на теоретическом определении показателя качества зависимости одной из таких переменных от заданного набора других переменных-факторов. При применении статистики R2 не используется

82 X

No4(12) 2008

предположение о большом числе наблюдений. В этом состоят преимущества предложенно- § го подхода к определению конкурирующих регрессий по сравнению с эвристическими по Ц своему характеру методами, использующими статистики R2 и ^¡п. Реализованный метод ^ расчета значений критерия-статистики R2 универсален и эффективен в широком диапазоне о целочисленных характеристик уравнений регрессии — числа наблюдения и числа оцениваемых коэффициентов.

То, что в рассмотренных примерах применение статистики R2 приводит к выделению наборов регрессоров, полученных другими, более простыми в реализации методами, может рассматриваться как оправдание использования эвристических методов в конкретных случаях, но не означает эквивалентность таких методов в общем случае.

Поскольку статистика R2 и другие сравниваемые статистики представляют собой случайные величины, можно считать, что их применение как критериев качества наборов факторов в регрессии с общей выбранной объясняемой переменной позволяет всего лишь выделять конкурирующие варианты регрессий, для которых значения критериев близки. Выбор предпочтительных вариантов регрессий из множества конкурирующих, а в перспективе и конструирование с использованием отобранных регрессий уравнений, моделирующих объясняемую переменную, по-видимому, можно и целесообразно основывать на специально обсуждаемых качественных требованиях к ним. Обоснование таких конструктивно реализуемых требований — задача проводимых в настоящее время исследований.

Список литературы

Айвазян С. А., Енюков И. С., МешалкинД.Д. Прикладная статистика. Исследование зависимостей: Справочное издание. М.: Финансы и статистика, 1985.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.

Градштейн И. С., Рыжик И. М. Таблицы интегралов, сумм, рядов и произведений. М.: Гос. изд. физ.-мат. литературы, 1962.

Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Книга 2. М.: Финансы и статистика, 1987.

Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

СеберДж. Линейный регрессионный анализ. М.: Мир, 1980.

ХальдА. Математическая статистика с техническими приложениями. М.: ИЛ, 1956.

Aitkin M.A. Simultaneous inference and the choice of variable subsets// Technometrics. 1974. V. 16, P. 221-227.

Olkin I., Pratt J. W. Unbaised estimation of certain correlation coefficients// Ann. Math. Statist. 1958. V. 29.

Webster J. T., Gunst R. F., Mason R. L. Latent root regression analysis// Technometrics. 1974. V. 16. P. 513-522.

WishartJ. The mean and second moment coefficient of the multiple correlation coefficient in sumples from a normal population // Biometrica. 1931. V. 22.

Woods H., Steinour Y. H., Starke H. R. Effect of Composition of Portland on Heat Evolved during Hardening // Industrial and Engineering Chemistre. 1932. V. 24. P. 1207-1214.

i Надоели баннеры? Вы всегда можете отключить рекламу.