УДК 330.4
Н.А. Моисеев, А.Н. Романников
АНАЛИЗ ЭФФЕКТИВНОСТИ СПОСОБОВ СПЕЦИФИКАЦИИ
УРАВНЕНИЯ РЕГРЕССИИ
Moiseyev Nikita, Romannikov Alexander
Analysis of efficiency of ways of the specification of the equation of regression
В настоящее время самым широко распространенным методом вычисления коэффициентов регрессионной модели является метод наименьших квадратов (МНК, англ. Ordinary Least Squares) и его многочисленные вариации. В связи с этим постараемся в данной статье глубже разобраться в его специфике, достоинствах, недостатках и способах их устранения. Для начала дадим небольшую справку по данному методу.
МНК является математическим методом поиска оптимальных параметров регрессионной модели, основанный на минимизации суммы квадратов отклонений подстраиваемой функции от истинных значений целевой переменной. Пусть [У,Х] - рассматриваемая выборка статистических данных, где У - вектор-столбец наблюдений значений целевой переменной размерностью nxl, а X - конечная матрица наблюдений по объясняющим переменным размерностью п x (т + l).
X = 1 1 x11 X21 X1m X2m , Y = У1 У 2
1 Xn1 x nm Уп
Тогда линейная регрессионная модель может быть представлена в следующем виде:
У = Ь0 + Ь1 Xt1 + Ь2Xt2 + ^ + ЪтХ,т + et, (1)
либо в матричной форме:
Y = XB + e, (2)
где e - вектор-столбец ошибок модели, состоящий из элементов et.
Для нахождения вектора коэффициентов В проводится процедура нахождения минимума целевой функции, представляющей собой сумму квадратов отклонений модельных значений от истинных значений целевой переменной. В результате данной оптимизации вектор В выражается аналитически следующим образом:
B = (XTX )_1 XTY. (3)
Здесь необходимо отметить, что МНК заслужил свою популярность, поскольку полученные на его основе оценки истинных коэффициентов регрессии р являются лучшими несмещенными оценками из класса линейных оценок (англ. BLUE, Best Linear Unbiased Estimator) при выполнении указанных ниже предпосылок.
Предпосылка 1: Строгая экзогенность ошибок, т.е. E(stIX) = 0. Это значит, что ошибки модели не зависят от объясняющих переменных;
Предпосылка 2: Гомоскедастичность ошибок, т.е. е(е^1х) = а2. Дисперсия случайных отклонений является константой и не зависит от величины значений объясняющих переменных. Отметим, что невыполнение этой предпосылки называется гетероскедастичностью;
Предпосылка 3: Нормальность ошибок, т.е. st~N(0;а). Случайные отклонения истинных значений зависимой переменной от модельных подчиняются нормальному распределению с нулевым математическим ожиданием и некоторой дисперсией;
Предпосылка 4: Отсутствие полной мультиколлинеарности, т.е. ХТХ является положительно определенной матрицей. Здесь имеется ввиду, что среди объясняющих переменных нет функциональной линейной связи;
Предпосылка 5: Отсутствие автокорреляции остатков, т.е. cov(£j;£y)= 0 ,Vi^j. Случайные отклонения являются полностью независимыми друг от друга, что означает отсутствие систематической взаимосвязи между любыми отдельно взятыми ошибками модели.
На практике при построении модели зачастую приходится прибегать к процедуре отбора объясняющих переменных, иначе называемой спецификацией модели. При проведении спецификации мы стремимся отобрать для расчета коэффициентов линии регрессии наиболее значимые
предикторы и исключить незначимые, т.е. те, которые не оказывают влияния на целевую переменную. Следует отметить, что качество проведенной спецификации оказывает существенное влияние на эффективность и адекватность получаемой модели. Именно поэтому в данной статье мы сконцентрируемся на тестировании и сравнительном анализе различных способов отбора и интегрирования набора объясняющих переменных. Первым делом дадим краткую информационную справку по наиболее популярным методам спецификации уравнения регрессии.
Отбор по всем возможным комбинациям. В данном случае рассматриваются и сравниваются между собой все возможные модели, которые можно составить из данного набора потенциальных объясняющих переменных. Преимущество этого способа заключается в том, что отсутствует риск упустить лучшую по выбранному критерию модель. Однако указанное преимущество сопряжено с существенным недостатком, которым является вычислительная трудоемкость такого отбора, особенно, если число потенциальных объясняющих переменных достаточно велико. Поскольку количество моделей, которые можно построить по набору из т независимых переменных вычисляется по формуле N = 2т, то уже при 30-40 независимых переменных такой способ отбора модели становится абсолютно нецелесообразным, особенно для персональных компьютеров.
Следует также отметить, что независимо от метода отбора переменных в модель исследователю необходимо определиться с критерием, отражающим качество уравнения регрессии, и согласно которому будет оцениваться та или иная спецификация модели. Несомненно, конечная цель, которую желает достигнуть любой исследователь - это построение модели с минимальной ошибкой прогноза. Однако проблема заключается в том, что нам неизвестно заранее какую ошибку даст рассматриваемая модель. Но существует множество способов получить некоторую оценку будущей эффективности анализируемого уравнения. Приведем несколько самых часто используемых из них.
- F-статистика. Отражает отношение суммы квадратов отклонений линии регрессии от среднего значения целевой переменной, деленой на число включенных в уравнение независимых переменных, и несмещенной оценки дисперсии остатков модели. При выполнении гипотезы о том, что истинная линия регрессии не объясняет никаких отклонений целевой переменной от своей средней, Б-статистика подчиняется распределению Фишера, а именно
E(y ~ y )2 1
^ n - m -1
F = —---———1 ~ F (à\
m, n-m-1' (4)
m
(y - y )
7=1
Z(y - y)2
Таким образом, согласно данному критерию следует выбрать ту спецификацию, которая дает наибольшее значение F-статистики.
- Несмещенная оценка дисперсии ошибок прогноза (англ. Mean Squared Forecast Error, MSFE). Является показателем ожидаемой точности прогноза выбранной модели. Рассчитывается по формуле:
MSFEt+i = s2 (l + XTt+i (XTX )-1 XM ), (5)
где Xt+i - вектор-столбец значений объясняющих переменных, участвующих в построении прогноза на период t + i, s2 - несмещенная оценка дисперсии ошибок, рассчитывающаяся следующим образом:
n
Е (y - y)2
s2 = J=-г. (6)
n - m -1
Отметим, что формула (5) используется в случае, если известен вектор-столбец Xt+j. В противном случае качество модели оценивается по формуле (6). Разумеется, выбирается та модель, у которой значение несмещенной оценки дисперсии ошибок наименьшее.
- Байесовский информационный критерий (англ. Bayesian Information Criterion, BIC). Строится на предположении, что среди рассматриваемого набора моделей имеется одна истинная, которую можно определить с некоторой долей вероятности. Критерий штрафует модели за неоправданно большое количество параметров, тем самым, предотвращая переобучение модели. Вычисляется как:
BIC = n ■ ln(s2 )+ m ■ ln(n). (7)
Предпочтение отдается той модели, у которой значение байесовского информационного критерия является наименьшим.
- Информационный критерий Акаике (англ. Akaike Information Criterion, AIC). Является очень близким по смыслу с байесовским информационным критерием, так как также накладывает на модель штраф за каждую включаемую объясняющую переменную. Рассчитывается следующим образом:
AIC = n ■ ln (s2 )+ 2m. (8)
Выбирается точно так же, как и в предыдущем случае та модель, у которой значение информационного критерия является наименьшим.
- Бутстрап (англ. Bootstrap). В основе бутсраповского подхода лежит идея, что истинное распределение данных можно с достаточной точностью приблизить эмпирическим, то есть теми данными, которые оказались в выборке. В данном случае нам необходимо оценить качество рассматриваемой модели, а именно ее ожидаемую ошибку прогноза. Для этого можно прибегнуть к одной из бутстраповских техник "one in - one out". Допустим имеется окно наблюдений размера п и по этой выборке оценивается дисперсия ошибок линейной регрессионной модели. Начинается данная процедура с того, что из выборки удаляется первая строчка, характеризующая значения переменных по одному наблюдению, и без нее рассчитываются параметры уравнения регрессии. Затем с помощью полученных параметров делается прогноз для удаленного ранее значения целевой переменной и записывается полученная ошибка. Далее удаленная строчка возвращается в выборку, удаляется вторая строчка и процедура повторяется. По проведении п итераций рассчитывается оценка дисперсии ошибок модели по формуле:
В данном случае волна над символами обозначает, что данные значения мы получили по результатам бутстрапированной выборки.
Прямой отбор (англ. Forward Selection). Данный алгоритм предполагает выполнение следующих пошаговых операций. На первой стадии из всех имеющихся объясняющих переменных выбирается та, которая имеет наибольший показатель корреляции с целевой переменной. Далее по полученной модели рассчитывается один из показателей ее эффективности, рассмотренных выше. Затем к модели по очереди добавляются оставшиеся независимые переменные и пересчитывается выбранный ранее показатель эффективности. После чего в модель вводится переменная, вызвавшая наибольшее улучшение качества модели. Процедура повторяется до тех пор, пока ни одна из переменных более не улучшает показатель эффективности регрессионного уравнения.
Обратное исключение (англ. Backward Elimination). Данный способ спецификации регрессионного уравнения схож с предыдущим с той лишь разницей, что изначально в уравнение включаются все возможные переменные (в случае, если их число не превышает число наблюдений) и затем происходит постепенное отсеивание незначимых факторов. На каждом шаге мы попеременно исключаем из уравнения все имеющиеся переменные и сравниваем получившиеся модели плюс модель без исключения переменной
2 _ г=1
(9)
п
по приведенным выше показателям эффективности. В результате проведенных сравнений принимается решение о целесообразности исключения объясняющей переменной из уравнения. Процедура завершается в случае, если исключение любого фактора ведет к потере качества модели.
Пошаговый отбор (англ. Stepwise selection). Представляет собой всего лишь модификацию метода прямого отбора. Различие в данном случае заключается в том, что на каждом шаге после включения в уравнение нового фактора производится проверка на значимость всех уже имеющихся переменных модели. Обычно значимость предикторов модели характеризуется ^-значением, которое в классической литературе предлагается рассчитывать согласно следующей формуле:
Pi = 2 ■
1 - T
n—m—\
f ы ^
(10)
JVar Ы )
В данном случае Тп_т_±(х) - интегральная функция распределения Стьюдента с числом степеней свободы п — т — 1, а несмещенная оценка дисперсии коэффициентов вычисляется как:
Var Ы—1 ) = 52 (XTX)—;. (11)
Если в процессе такой проверки обнаружится, что какие-то переменные стали незначимыми в уравнении, то они выводятся из модели, после чего начинается очередная итерация по поиску новой переменной, способной улучшить качество модели.
Лучшие подмножества (англ. Best Subsets). Данный способ спецификации регрессионного уравнения является частным случаем отбора по всем возможным комбинациям. Здесь исследователь заранее определяет максимальное количество предикторов в уравнении. После чего перебираются все возможные комбинации объясняющих переменных, удовлетворяющих установленному ограничению на количество. Полученные модели сравниваются между собой по одному из показателей эффективности, рассмотренных выше, и выбирается лучшая из них.
Отбор по остаточной корреляции. Идея метода заключается в следующем. На первом этапе определяется объясняющая переменная, имеющая наибольшую корреляцию с целевой. Затем в модель добавляется следующая переменная, которая показывает наиболее тесную связь с остатками модели, построенной только по первой включенной переменной. Для нахождения этой объясняющей переменной будем использовать частный коэффициент корреляции, который отражает взаимосвязь между двумя переменными, «очищенными» от влияния других переменных. Частный коэффициент корреляции между переменными i и j, «очищенными» от
влияния остальных факторов набора из к переменных, в общем виде вычисляется как показано ниже:
- Rj1
>ЬМ/-1)(/+1)..0--1)С/+1М ~ /„ 1 „ 1 > (12)
VR» ■ ^
где Я ^1 - ¿-ый -ый элемент обратной корреляционной матрицы, включающей весь набор из к переменных.
Таким образом, для того, чтобы включить в модель вторую переменную, необходимо рассчитать частные корреляции всех оставшихся факторов с зависимой переменной, «очищенные» от влияния первой переменной. Для включения третьей переменной в модель повторяется та же самая процедура, только частные корреляции рассчитываются уже с учетом двух включенных ранее предикторов. На каждом шаге полученные модели проверяются согласно выбранному показателю эффективности. Процедура повторяется до тех пор, пока включение новых переменных перестает повышать качество модели.
Рассмотренные выше способы за исключением самого первого призваны снизить вычислительную сложность процедуры спецификации регрессионного уравнения и при этом минимизировать риски упущения из рассмотрения наилучшей модели, которую можно построить по данному набору независимых переменных. В данной статье мы постараемся проанализировать эффективность применения этих способов в зависимости от свойств и структуры набора потенциальных объясняющих переменных и дать рекомендации относительно их применимости в тех или иных ситуациях.
Предположим имеется целевая переменная и набор потенциальных объясняющих переменных . Для проведения сравнительного
анализа вышеописанных способов спецификации поставим несколько имитационных экспериментов. В данных экспериментах будем полагать, что объясняющие переменные подчиняются нормальному распределению с нулевой средней и единичной дисперсией, а именно х г 1>хг2> ■ ■ ■ 'хгт~ М[Е(хг1) = 0 ,0(х1 1) = 1 ]. Также на данном этапе установим, что объясняющие переменные не мультиколлинеарны, то есть являются линейно независимыми друг от друга. Определим, что целевая переменная зависит только от первых четырех предикторов из сгенерированного набора данных, а остальные факторы не имеют никакой взаимосвязи с . Таким образом, будет вычисляться как:
У = 2 + Е - X« + Ъ > (13)
1=1 1
где £с ~ N ( 0 , 1 ) - «белый» шум, 2 - произвольно выбранная константа модели, $1= 1 / I - истинные коэффициенты модели, убывающие пропорционально порядковому номеру объясняющей переменной.
В результате проведенного имитационного эксперимента были протестированы все шесть представленных выше способов отбора переменных, а именно отбор по всем возможным комбинациям, лучшие подмножества с числом включаемых переменных / < 4, прямой отбор, пошаговый отбор с уровнем значимости , отбор по остаточной
корреляции и обратное исключение. Данные способы были реализованы с использованием следующих критериев качества модели: несмещенная оценка дисперсии ошибок прогноза (MSE), F-статистика, Байесовский информационный критерий ^ГС), среднеквадратичные бутстрапированные ошибки модели. Для сравнения эффективности и особенностей применения каждого из методов отбора переменных и критериев качества использовались: среднеквадратичная ошибка прогноза за пределами выборки (MSE) и эмпирическая вероятность включения /-ого предиктора в модель
№
Эксперимент включал в себя несколько планов, при которых проверялись вышеупомянутые способы спецификации уравнения и критерии качества модели при трех различных окнах данных (
), а также при разном количестве потенциальных объясняющих переменных ( ). Для получения расчетных значений по
каждому из способов спецификации использовалось 10 000 итераций.
В таблице 1 представлена сводка по эффективности способов отбора переменных при критерии качества MSE и количестве потенциальных объясняющих переменных равном четырем. Таким образом, согласно (13) в исходном наборе предикторов содержатся только переменные, которые действительно оказывают влияние на результирующую переменную. Данная ситуация возникает, когда исследователь корректно идентифицировал теоретические взаимосвязи изучаемых экономических процессов и отобрал в пул переменных значимые факторы.
Таблица 1. Сравнение методов спецификации уравнения регрессии по _критерию MSE, т = 4.
Лучшие „ Пошаговый _
Все Прямой _ Остаточная Обратное
п , подмножества г _ отбор г
комбинации отбор . ¿05) корреляция исключение
20 МБЕ 1.412245 1.412245 1.413594 1.500384 1.412343 1.414995
w1 0.8342 0.8342 0.8289 0.589 0.8286 0.832
w2 0.6536 0.6536 0.6479 0.3266 0.6392 0.6524
w3 0.5434 0.5434 0.5349 0.2241 0.5428 0.5434
w4 0.4837 0.4837 0.4774 0.1691 0.4726 0.4836
40 МБЕ 1.180281 1.180281 1.181057 1.274298 1.180361 1.186613
w1 0.9685 0.9685 0.9678 0.8279 0.9681 0.9683
w2 0.8356 0.8356 0.8334 0.4911 0.8326 0.8355
w3 0.6989 0.6989 0.6962 0.3104 0.6878 0.6961
w4 0.6024 0.6024 0.6007 0.2212 0.5986 0.6011
80 МБЕ 1.073722 1.073722 1.073726 1.126084 1.075344 1.07856
w1 0.9993 0.9993 0.9993 0.9815 0.9994 0.9987
w2 0.964 0.964 0.9638 0.7989 0.964 0.9682
w3 0.8738 0.8738 0.8737 0.5583 0.8725 0.8759
w4 0.7696 0.7696 0.7696 0.3893 0.7689 0.7695
По таблице 1 можно отследить, как с ростом числа наблюдений спецификации моделей все чаще совпадают с истинной. Также, анализируя показатель МББ по разным способам спецификации, становится ясно, что в случае, если набор потенциальных предикторов совпадает с истинным, метод пошагового отбора с контролем уровня значимости не является предпочтительным. В данном случае при процедуре спецификации уравнения желательным является включение как можно большего числа факторов, поскольку все они влияют на целевую переменную. Пошаговый отбор с этой точки зрения является достаточно «строгим» методом спецификации, так как включает в уравнение только те предикторы, которые с высокой степенью уверенности влияют на зависимую переменную, таким образом теряя в точности прогнозирования.
Для иллюстрации вышесказанного на рисунках 1а и 1б приведены вероятности включения потенциальных факторов в уравнение при способе отбора по всем возможным комбинациям и пошаговом отборе. Как видно, из этих рисунков при пошаговом отборе гораздо меньшее количество переменных в среднем включается в уравнение, что в данном случае ведет к потере точности прогноза, так как на самом деле все потенциальные предикторы являются значимыми.
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
чх
•о- -
w1
w2
w3
- -О - п = 20 —О— п = 40
w4 •п = 80
Рисунок 1а. Частотность включения
факторов в модель (отбор по всем комбинациям, критерий МБЕ, т = 4)
Рисунок 1б. Частотность включения факторов в модель (пошаговый отбор, критерий МБЕ, т = 4)
Таблица 2. Сравнение методов спецификации уравнения регрессии по
критерию MSE, т = 6.
п Все комбинации Лучшие подмножества ( К 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение
20 МБЕ 1.595099 1.584214 1.581305 1.548723 1.575332 1.580023
w1 0.8167 0.8055 0.8096 0.5574 0.8133 0.8261
w2 0.6387 0.6194 0.6276 0.2998 0.635 0.6543
w3 0.5392 0.5137 0.5255 0.1998 0.5375 0.5544
w4 0.4848 0.4585 0.4693 0.1604 0.4705 0.5093
w5 0.3748 0.3349 0.3642 0.0862 0.3542 0.3878
w6 0.3692 0.3343 0.3575 0.0804 0.3508 0.3718
40 МБЕ 1.225285 1.223898 1.226202 1.300612 1.229469 1.230168
w1 0.9639 0.9561 0.9625 0.8159 0.963 0.9669
w2 0.828 0.8027 0.825 0.484 0.8184 0.8326
w3 0.6889 0.6483 0.6836 0.3055 0.6819 0.6888
w4 0.6002 0.5488 0.5944 0.2195 0.5804 0.602
w5 0.3365 0.2603 0.3328 0.0578 0.3402 0.3378
w6 0.3342 0.2676 0.3312 0.0577 0.3318 0.349
80 МБЕ 1.104427 1.102402 1.104555 1.135791 1.106067 1.095833
w1 0.9991 0.9982 0.999 0.9793 0.9986 0.9991
w2 0.969 0.9497 0.9687 0.8058 0.9625 0.9682
w3 0.8743 0.8214 0.8729 0.5597 0.871 0.8712
w4 0.7632 0.6875 0.7617 0.3999 0.7647 0.7708
w5 0.32 0.1703 0.3179 0.0522 0.3243 0.3248
w6 0.3218 0.1729 0.32 0.05 0.3261 0.3293
Как видно из таблицы 2 пошаговый отбор уже не является явным аутсайдером по точности прогноза, в случае, если в рассматриваемом наборе предикторов появилось два, никак не связанных с целевой переменной.
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
w1 w2
- -о- - п = 20
w3 w4 о—п = 40
Рисунок 2а. Частотность включения
факторов в модель (отбор по всем комбинациям, критерий МББ, т = 6)
Рисунок 2б. Частотность включения факторов в модель (пошаговый отбор, критерий МББ, т = 6)
На рисунках 2а и 2б видно, что переменные №5 и №6, не влияющие на целевую переменную гораздо реже включаются в уравнение регрессии, особенно при большом количестве наблюдений. Однако, в случае отбора по всем возможным комбинациям незначимые предикторы включаются чаще, чем при пошаговом отборе (35-40% против 5-10%). Но при этом в случае пошагового отбора менее вероятно и включение значимых факторов, что в общем и целом приводит примерно к равной точности прогнозирования.
Таблица 3. Сравнение методов спецификации уравнения регрессии по _критерию МББ, т = 9 .
Все комбинации
Лучшие подмножества ( I < 4)
Прямой отбор
Пошаговый
отбор ( )
Остаточная корреляция
Обратное исключение
20
МБЕ
1.980721
1.836345
1.895016
1.631747
1.838751
2.01023
w1 w2 w3
0.7938 0.6377 0.554
0.7495 0.5614 0.4573
0.7974 0.6286 0.531
0.5238 0.2821 0.1873
0.7935 0.6148 0.528
0.7965 0.6482 0.5664
w4 0.5008 0.3997 0.4762 0.1471 0.4871 0.5114
w5 0.4102 0.2868 0.3784 0.0743 0.3731 0.4261
w6 0.4007 0.2898 0.371 0.0791 0.3805 0.4316
w7 0.4053 0.2892 0.3772 0.0764 0.3763 0.4271
w8 0.4084 0.2894 0.3771 0.0783 0.3696 0.4375
w9 0.4056 0.2836 0.3754 0.0748 0.3764 0.4283
40 МБЕ 1.334179 1.312947 1.330512 1.324853 1.353906 1.353566
w1 0.9563 0.9322 0.9556 0.7987 0.9552 0.9634
w2 0.8147 0.7407 0.8104 0.4722 0.8133 0.8222
w3 0.6787 0.5774 0.672 0.2931 0.6743 0.6835
w4 0.5897 0.4693 0.5817 0.2113 0.5812 0.5887
w5 0.34 0.2099 0.3299 0.0567 0.338 0.358
w6 0.347 0.2118 0.3364 0.0561 0.3468 0.3607
w7 0.3382 0.2028 0.3283 0.577 0.3491 0.3366
w8 0.341 0.2096 0.3326 0.0601 0.3286 0.3252
w9 0.3543 0.222 0.3444 0.0588 0.3387 0.322
80 МБЕ 1.109306 1.107999 1.110039 1.130571 1.129652 1.099458
w1 0.9987 0.9944 0.9987 0.9805 0.9987 0.9982
w2 0.9599 0.9113 0.959 0.7907 0.9625 0.9593
w3 0.863 0.7537 0.8625 0.5555 0.8602 0.8518
w4 0.7694 0.6079 0.7666 0.397 0.7556 0.7319
w5 0.3297 0.1327 0.326 0.0501 0.317 0.3008
w6 0.3382 0.1403 0.3342 0.0535 0.3297 0.3301
w7 0.3307 0.1316 0.3266 0.048 0.3249 0.3152
w8 0.3282 0.1279 0.3243 0.0495 0.3283 0.3296
w9 0.3218 0.1293 0.318 0.0491 0.3203 0.3194
На рисунках 3 а и 3б представлена схожая картина, как и на рисунках 2а, 2б с той лишь разницей, что в данном случае количество незначимых предикторов в изначальном наборе факторов увеличилось до пяти. Как видно из таблицы 3 в случае малого количества наблюдений и при значительном числе незначимых предикторов контроль уровня значимости в некоторой мере оправдывает себя.
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
р- - - о---о---о - - о
--+—-» -г—-8
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
8
w2 w3 w4 w5 w6 w7 w8 w9
- -о- - п = 20 —о— п = 40 —•— п = 80
Рисунок 3а. Частотность включения
факторов в модель (отбор по всем комбинациям, критерий МББ, т = 9 )
w1 w2 w3 w4 w5 w6 w7 w8 w9
-_о-п = 20 —о— п = 40 —•— п = 80
Рисунок 3б. Частотность включения факторов в модель (пошаговый отбор, критерий МББ, т = 9 )
В таблицах 4-6 представлены сводки по эффективности способов отбора переменных по байесовскому информационному критерию. Рассматриваются аналогичные случаи как в таблицах 1 -3, а именно три различных окна данных (п = 2 0 , п = 4 0 , п = 8 0 ), а также количество потенциальных объясняющих переменных (т = 4, т = 6, т = 9).
Таблица 4. Сравнение методов спецификации уравнения регрессии по _критерию В1С, т = 4.
Все комбинации
Лучшие
подмножества ( )
Прямой отбор
Пошаговый
отбор ( )
Остаточная корреляция
Обратное исключение
20
МБЕ
1.457402
1.457402
1.457319
1.457673
1.423258
1.471792
w1 w2 w3 w4
0.6304 0.3521 0.2498 0.2077
0.6304 0.3521 0.2498 0.2077
0.6206 0.3408 0.2396 0.2
0.6203 0.3404 0.2394 0.2
0.6116 0.3492 0.2428 0.1848
0.6387 0.3664 0.26 0.2125
40
МБЕ
1.298385
1.298385
1.301812
1.301753
1.291321
1.299321
w1 w2 w3 w4
0.8105 0.4537 0.2805 0.194
0.8105 0.4537 0.2805 0.194
0.8044 0.4443 0.2713 0.1873
0.8044 0.4443 0.2712 0.1872
0.8015 0.4454 0.2763 0.1871
0.8145 0.4628 0.2723 0.1934
80
МБЕ
1.13961
1.13961
1.143122
1.143115
1.12843
1.14121
w1 w2
0.9695 0.7038
0.9695 0.7038
0.9665 0.6964
0.9665 0.6964
0.9676 0.6912
0.9697 0.7032
w3 0.4495 0.4495 0.4429 0.4428 0.433 0.4446
w4 0.2826 0.2826 0.2762 0.2762 0.284 0.2797
Таблица 5. Сравнение методов спецификации уравнения регрессии по _критерию В1С, т = 6.
Все комбинации
Лучшие
подмножества ( )
Прямой отбор
Пошаговый
отбор ( )
Остаточная корреляция
Обратное исключение
20 МБЕ 1.531847 1.533302 1.523368 1.517422 1.540227 1.581985
w1 0.5972 0.5964 0.5829 0.5605 0.5843 0.6188
w2 0.3491 0.3481 0.3338 0.3047 0.3351 0.3658
w3 0.2428 0.2415 0.2255 0.1994 0.2289 0.2692
w4 0.1976 0.1956 0.1815 0.1591 0.1789 0.2149
w5 0.1095 0.1075 0.0991 0.0837 0.0999 0.1261
w6 0.1079 0.1067 0.0981 0.0845 0.0986 0.1209
40 МБЕ 1.287326 1.28761 1.290412 1.290811 1.311268 1.273256
w1 0.8039 0.8036 0.7933 0.7932 0.784 0.8153
w2 0.472 0.4715 0.4572 0.4567 0.4457 0.4675
w3 0.2804 0.2797 0.266 0.2656 0.2686 0.2982
w4 0.1946 0.1939 0.1849 0.1845 0.1826 0.2083
w5 0.0509 0.0502 0.0476 0.0475 0.0466 0.0532
w6 0.0548 0.054 0.0508 0.0503 0.0475 0.0541
80 МБЕ 1.171932 1.172059 1.174377 1.174377 1.170231 1.15699
w1 0.968 0.9679 0.9652 0.9652 0.9645 0.9694
w2 0.7061 0.7058 0.6977 0.6977 0.6905 0.7079
w3 0.4356 0.435 0.4286 0.4286 0.4324 0.4447
w4 0.2812 0.2803 0.2731 0.2731 0.2799 0.299
w5 0.0242 0.0228 0.0235 0.0235 0.0246 0.0287
w6 0.0266 0.025 0.0251 0.0251 0.0246 0.0289
Таблица 6. Сравнение методов спецификации уравнения регрессии по
критерию В1С, т = 9.
п Все комбинации Лучшие подмножества ( 1 < 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение
20 МБЕ 1.694907 1.678955 1.644776 1.629418 1.66095 1.769303
w1 0.5844 0.5801 0.5593 0.5337 0.5547 0.5963
w2 0.3463 0.3397 0.3154 0.2832 0.3097 0.3761
w3 0.2595 0.2519 0.2257 0.1933 0.2093 0.2842
w4 0.198 0.1908 0.1678 0.1428 0.1669 0.2412
w5 0.1228 0.1156 0.0992 0.0793 0.0979 0.1398
w6 0.1184 0.1101 0.096 0.0769 0.093 0.1454
w7 0.1169 0.1079 0.0954 0.0755 0.0859 0.1526
w8 0.1123 0.1045 0.0912 0.0733 0.0955 0.1481
w9 0.1165 0.1084 0.0953 0.0768 0.0968 0.1511
40 МБЕ 1.352114 1.351788 1.353341 1.353927 1.348325 1.348503
w1 0.7894 0.7888 0.7791 0.7786 0.7826 0.7996
w2 0.4522 0.4506 0.4337 0.433 0.4373 0.4812
w3 0.2876 0.2855 0.2718 0.2715 0.2575 0.295
w4 0.1916 0.1889 0.1791 0.1787 0.1813 0.2084
w5 0.0498 0.0485 0.046 0.0456 0.0482 0.0595
w6 0.051 0.0487 0.0468 0.046 0.045 0.0565
w7 0.0521 0.0496 0.0452 0.0449 0.0475 0.0543
w8 0.0516 0.0491 0.0463 0.0461 0.0502 0.0577
w9 0.0517 0.0502 0.0476 0.0475 0.0467 0.0589
80 МБЕ 1.171273 1.170671 1.170224 1.170378 1.152341 1.186376
w1 0.9634 0.9631 0.96 0.96 0.9619 0.9649
w2 0.7021 0.7002 0.6907 0.6906 0.6923 0.7013
w3 0.4385 0.4363 0.4259 0.4258 0.4347 0.4563
w4 0.2836 0.2803 0.2742 0.274 0.2798 0.3048
w5 0.0273 0.0242 0.0247 0.0246 0.0224 0.0276
w6 0.0292 0.0269 0.0281 0.028 0.0271 0.032
w7 0.0269 0.0245 0.0254 0.0254 0.0255 0.0275
w8 0.0299 0.0278 0.0289 0.029 0.0264 0.0284
w9 0.0259 0.0242 0.0243 0.0243 0.0255 0.0289
Отметим, что в случае применения байесовского информационного критерия, рассматриваемые способы отбора переменных показывают более близкие результаты, чем при критерии МББ. Сравнивая таблицы 1-3 и 4-6 можно сделать вывод, что применение В1С дает лучшие результаты в случае короткого окна данных, однако при достаточном числе наблюдений предпочтительным остается выбор в пользу критерия наименьшей ожидаемой ошибки прогноза.
Далее в таблицах 7-9 представлены сводки по эффективности способов отбора переменных по критерию Б-статистика. Тестирование проводилось по параметрам, аналогичным тем, которые использовались для расчета таблиц 1.-6.
Таблица 7. Сравнение методов спецификации уравнения регрессии по
критерию Б-статистика, т = 4.
Лучшие Пошаговый
Все Прямой Остаточная Обратное
подмножества отбор
комбинации отбор корреляция исключение
20 МБЕ 1.458661 1.458661 1.457826 1.463198 1.462404 1.480975
w1 0.614 0.614 0.5992 0.5668 0.6052 0.6453
w2 0.3308 0.3308 0.3148 0.2852 0.3171 0.3525
w3 0.2304 0.2304 0.2176 0.1941 0.2119 0.2463
w4 0.1771 0.1771 0.1669 0.1479 0.1652 0.1935
40 МБЕ 1.345871 1.345871 1.346792 1.350051 1.321607 1.324561
w1 0.7318 0.7318 0.721 0.714 0.7208 0.7586
w2 0.3056 0.3056 0.2925 0.2861 0.2928 0.3278
w3 0.171 0.171 0.1607 0.1551 0.1605 0.1897
w4 0.1082 0.1082 0.1005 0.0961 0.106 0.1268
80 МБЕ 1.238926 1.238926 1.239607 1.239875 1.275889 1.229155
w1 0.8646 0.8646 0.8572 0.8569 0.847 0.8708
w2 0.2617 0.2617 0.2526 0.2522 0.2491 0.2848
w3 0.1051 0.1051 0.0975 0.0972 0.1049 0.1265
w4 0.0545 0.0545 0.0506 0.0505 0.052 0.0741
Таблица 8. Сравнение методов спецификации уравнения регрессии по _критерию F-статистика, т = 6.
п Все комбинации Лучшие подмножества ( 1 < 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение
20 МБЕ 1.534856 1.53456 1.51584 1.512927 1.564458 1.565908
w1 0.5749 0.5741 0.5557 0.5303 0.5592 0.6203
w2 0.3138 0.3129 0.2894 0.2611 0.2805 0.3559
w3 0.2167 0.2153 0.1933 0.1726 0.1927 0.26
w4 0.1744 0.1724 0.153 0.1338 0.1537 0.2116
w5 0.0876 0.0858 0.0748 0.0636 0.0788 0.1341
w6 0.0912 0.0898 0.0791 0.0676 0.0857 0.1296
40 МБЕ 1.36197 1.361627 1.354005 1.365254 1.326859 1.32849
w1 0.7245 0.7241 0.7114 0.7051 0.7111 0.7411
w2 0.2969 0.2965 0.2827 0.2771 0.2848 0.3326
w3 0.1634 0.163 0.1529 0.1485 0.1539 0.1967
w4 0.1111 0.1103 0.1007 0.0977 0.0957 0.1323
w5 0.0274 0.0266 0.0233 0.0216 0.0222 0.0346
w6 0.026 0.0252 0.0239 0.0228 0.024 0.0342
80 МБЕ 1.261543 1.261543 1.264064 1.263935 1.236504 1.254842
w1 0.8557 0.8557 0.8468 0.8466 0.8537 0.8731
w2 0.2626 0.2626 0.2508 0.2506 0.2552 0.2881
w3 0.111 0.111 0.1016 0.1013 0.1013 0.134
w4 0.0524 0.0524 0.0485 0.0481 0.0479 0.0715
w5 0.0036 0.0036 0.0033 0.0031 0.0022 0.004
w6 0.0026 0.0026 0.0025 0.0025 0.0011 0.0048
Таблица 9. Сравнение методов спецификации уравнения регрессии по _критерию Б-статистика, т = 9.
п Все комбинации Лучшие подмножества ( К4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение
20 МБЕ 1.712448 1.682937 1.63928 1.607243 1.616617 1.825362
w1 0.552 0.545 0.5146 0.4904 0.5166 0.626
w2 0.3083 0.2972 0.2629 0.243 0.2637 0.3936
w3 0.2127 0.2026 0.1756 0.1576 0.1766 0.3093
w4 0.1682 0.1556 0.1316 0.1153 0.1372 0.257
w5 0.1025 0.0914 0.0735 0.0603 0.0726 0.177
w6 0.1013 0.0898 0.0725 0.0606 0.0699 0.1814
w7 0.1049 0.0934 0.0741 0.061 0.0702 0.1821
w8 0.1003 0.0908 0.0715 0.0572 0.0696 0.1876
w9 0.1006 0.0902 0.0719 0.0608 0.0765 0.177
40 МБЕ 1.331854 1.330796 1.337458 1.33891 1.370318 1.368247
w1 0.7045 0.7032 0.6858 0.6807 0.6834 0.7412
w2 0.2926 0.2917 0.2746 0.2704 0.2825 0.3363
w3 0.1666 0.166 0.1549 0.1519 0.1445 0.2015
w4 0.1035 0.1025 0.0924 0.0891 0.0987 0.1467
w5 0.0232 0.0222 0.0211 0.0199 0.0218 0.0418
w6 0.0232 0.0226 0.0198 0.0185 0.022 0.0389
w7 0.0246 0.0238 0.0218 0.0201 0.0198 0.0424
w8 0.0248 0.0241 0.0216 0.0197 0.0213 0.0401
w9 0.0233 0.0225 0.0193 0.0184 0.0223 0.0395
80 МБЕ 1.219736 1.219682 1.221796 1.221807 1.282559 1.240945
w1 0.858 0.858 0.8508 0.8507 0.8527 0.8702
w2 0.2589 0.2588 0.2476 0.2475 0.2482 0.2914
w3 0.1048 0.1047 0.0962 0.0961 0.0975 0.1378
w4 0.0554 0.0553 0.0509 0.0507 0.0471 0.0729
w5 0.0031 0.0029 0.0025 0.0024 0.0024 0.0051
w6 0.0021 0.0021 0.0016 0.0016 0.0024 0.0047
w7 0.0028 0.0028 0.0027 0.0027 0.0023 0.0044
w8 0.0022 0.0022 0.0025 0.0025 0.0022 0.0045
w9 0.004 0.004 0.0038 0.0038 0.0019 0.0045
Анализируя результаты эффективности способов спецификации регрессионного уравнения из таблиц 7-9, можно заключить, что Б-статистика так же как и В1С является менее предпочтительным критерием оценки качества модели, чем МБЕ в случае длинного окна наблюдений, однако демонстрирует схожую с В1С эффективность при коротком окне данных.
Ниже в таблицах 10-12 приведены результаты имитационного эксперимента по проверке эффективности способов отбора переменных согласно величине бутстрапированных среднеквадратических ошибок модели.
Таблица 10. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 4.
_ Лучшие „ „ Пошаговый _
Все Прямой Остаточная Обратное
п _ подмножества _ отбор
комбинации отбор . до5) корреляция исключение
20 МБЕ 1.423126 1.423126 1.411576 1.458673 1.435022 1.429975
w1 0.7256 0.7256 0.7262 0.5899 0.7172 0.7434
w2 0.4969 0.4969 0.4922 0.3162 0.491 0.5196
w3 0.3969 0.3969 0.391 0.2234 0.3685 0.4056
w4 0.3402 0.3402 0.3288 0.1706 0.3088 0.3417
40 МБЕ 1.205586 1.205586 1.206058 1.268908 1.239423 1.224884
w1 0.926 0.926 0.9221 0.8258 0.9176 0.9264
w2 0.704 0.704 0.698 0.493 0.6924 0.7104
w3 0.5333 0.5333 0.5279 0.3102 0.5182 0.5381
w4 0.4203 0.4203 0.415 0.2121 0.4062 0.4306
80 МБЕ 1.115735 1.115735 1.11604 1.15255 1.104863 1.10235
w1 0.9965 0.9965 0.9962 0.9846 0.9953 0.9955
w2 0.924 0.924 0.924 0.7922 0.9118 0.9215
w3 0.7674 0.7674 0.7674 0.5691 0.7677 0.7694
w4 0.6327 0.6327 0.6327 0.4024 0.6126 0.6189
Таблица 11. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 6.
Все комбинации
Лучшие подмножества ( I < 4)
Прямой отбор
Пошаговый
отбор ( )
Остаточная корреляция
Обратное исключение
20
МБЕ
1.577075
1.576173
1.563686
1.532479
1.599864
1.586442
w1 w2 w3 w4
0.7069 0.4992 0.3868 0.3407
0.7043 0.4932 0.3802 0.3325
0.6999 0.4823 0.3703 0.3206
0.5554 0.3019 0.2003 0.1584
0.6863 0.4565 0.3479 0.2869
0.7162 0.5168 0.4031 0.3574
w5 0.2321 0.2243 0.2147 0.0826 0.1903 0.2507
w6 0.2288 0.2197 0.2099 0.0815 0.191 0.2438
40 МБЕ 1.240247 1.239571 1.241776 1.285424 1.289202 1.240869
w1 0.9198 0.9172 0.9168 0.8206 0.9105 0.9232
w2 0.6994 0.6926 0.6913 0.4821 0.6848 0.7074
w3 0.5343 0.522 0.5248 0.308 0.5067 0.5433
w4 0.4246 0.408 0.416 0.2104 0.404 0.4339
w5 0.1934 0.1732 0.1867 0.0599 0.1647 0.1997
w6 0.1954 0.1786 0.1885 0.0601 0.1654 0.202
80 МБЕ 1.140508 1.139433 1.140555 1.17063 1.102485 1.140032
w1 0.9965 0.9953 0.9963 0.981 0.9964 0.9966
w2 0.9154 0.9053 0.913 0.7931 0.9137 0.9167
w3 0.7626 0.7413 0.7597 0.5558 0.7645 0.765
w4 0.615 0.585 0.6125 0.3856 0.6103 0.6168
w5 0.1793 0.1262 0.176 0.0557 0.1646 0.1811
w6 0.168 0.1209 0.1668 0.0503 0.1529 0.1696
Таблица 12. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 9.
п Все комбинации Лучшие подмножества ( 1<4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение
20 МБЕ 1.864355 1.816384 1.770326 1.644799 1.696479 1.932457
w1 0.7024 0.671 0.6913 0.5336 0.6542 0.711
w2 0.495 0.4604 0.4616 0.2704 0.4343 0.5207
w3 0.4079 0.3716 0.3705 0.1883 0.3302 0.4397
w4 0.3482 0.3117 0.3082 0.1388 0.2793 0.3819
w5 0.2642 0.2206 0.2194 0.0749 0.1834 0.2995
w6 0.259 0.2204 0.2168 0.0761 0.1833 0.2873
w7 0.2507 0.2134 0.2054 0.0745 0.1805 0.2869
w8 0.2702 0.2342 0.2226 0.0804 0.1862 0.3038
w9 0.2573 0.2207 0.2141 0.0764 0.1855 0.2895
40 МБЕ 1.288918 1.279112 1.27942 1.281611 1.321003 1.289904
w1 0.9099 0.8946 0.9086 0.8038 0.901 0.9136
w2 0.6942 0.666 0.684 0.4802 0.6559 0.7053
w3 0.5244 0.4872 0.5114 0.299 0.491 0.5336
w4 0.4252 0.3856 0.4133 0.2126 0.3911 0.4362
w5 0.196 0.1594 0.1843 0.0607 0.1673 0.2062
w6 0.1948 0.1591 0.1842 0.0587 0.1697 0.2087
w7 0.195 0.1598 0.1843 0.057 0.1649 0.206
w8 0.1941 0.1605 0.1808 0.0548 0.168 0.2058
w9 0.1917 0.1542 0.1803 0.0545 0.1644 0.2044
80 MSE 1.148844 1.146393 1.147739 1.162737 1.123335 1.149186
w1 0.9955 0.9917 0.995 0.9816 0.9941 0.9959
w2 0.9192 0.885 0.9175 0.7976 0.9094 0.9215
w3 0.7611 0.7037 0.7569 0.569 0.7503 0.7645
w4 0.6162 0.5436 0.6113 0.3928 0.6096 0.6209
w5 0.1718 0.1041 0.1671 0.0514 0.1622 0.175
w6 0.1741 0.1077 0.1697 0.0514 0.1661 0.1783
w7 0.1738 0.1084 0.1702 0.054 0.1603 0.1787
w8 0.1714 0.1048 0.1685 0.048 0.1636 0.1745
w9 0.1726 0.108 0.1681 0.0503 0.1635 0.1762
Модели, полученные на основе критерия бутстрап практически являются аналогом уравнениям, рассчитанным по критерию МББ, демонстрируя слегка большую ошибку при значительном превосходстве числа наблюдений над числом потенциальных предикторов и наоборот -немного более высокую точность при коротком окне данных и значительном числе потенциальных факторов.
На рисунках 4а-4в приведены сравнения средних эффективностей
способов спецификации регрессии в зависимости от различных вводных параметров.
1,9 1,9
1,8 1,8
1,7 1,7
MSE 1,6 1,5 1,4 — MSE 1,6 1,5 1,4 к
1,3 1,2 1,1 ~~ -С*----- 1,3 1,2 1,1
-o
1 20 40 80 1 20 40 80
число наблюдений число наблюдений
-o- - MSE —о— BIC • F - о- -Bootstrap - -о- - MSE —о— BIC - —•— F — о- - Bootstrap
Рисунок 4а. Сравнение эффективности Рисунок 4б. Сравнение эффективности
моделей (т = 4) моделей (т = 6)
1,9 1,8 1,7 1,6
^ 1,5
GO '
S 1,4 1,3 1,2 1,1 1
Рисунок 4в. Сравнение эффективности моделей (т = 9 )
Сразу отметим, что ни один из способов спецификации и критериев эффективности не является наиболее предпочтительным при любых исходных условиях. Так, из представленных выше рисунков можно сделать две основные рекомендации: в среднем при значительном превосходстве числа наблюдений над числом рассматриваемых предикторов целесообразней использовать критерий МББ в качестве показателя качества модели, а в случае короткого окна данных и наличия неопределенности относительно значимости отобранных факторов предпочтительнее использовать Б-статистику или В1С/А1С. Однако, легко заметить, что, если принимать решение о выборе способа спецификации модели и критерии оценки ее качества в условиях неопределенности относительно степени значимости предварительно отобранных предикторов, то присутствует высокая вероятность выбрать далеко не лучшую модель. Если при достаточно длинном окне данных различия в эффективности способов отбора переменных не такие критичные, то при относительно небольшом числе наблюдений эти различия достигают значений в 20-30% и в этом случае у исследователя появляются реальные риски потери точности из-за неверного выбора способа спецификации и критерия эффективности.
Список литературы
20 40 80
число наблюдений MSE ---о---BIC —•—F -о--Bootstrap
1. Moiseev N.A. Linear model averaging by minimizing mean-squared forecast error unbiased estimator. Model Assisted Statistics and Applications. 2016. Т. 11. № 4. С. 325-338.
2. Zubakin V.A., Kosorukov O.A., Moiseev N.A. Improvement of regression forecasting models. Modern Applied Science. 2015. Т. 9. № 6. С. 344-353.
3. Бокс, Дж. Анализ временных рядов. Прогноз и управление: пер. с англ./Дж. Бокс, Г. Дженкинс. -М.: Мир, 1974. -Вып. 1. -406 с.; Вып. 2. -198 с.
4. Глазьев, С. Проблемы прогнозирования макроэкономической динамики/С. Глазьев//Российский экономический журнал. -2001. -№ 3. -С. 76-85; № 4. -С. 12-22.
5. Крыштановский, А. О. Методы анализа временных рядов/А. О. Крыштановский//Мониторинг общественного мнения: экономические и социальные перемены. -2000. -№ 2 (46). -С. 44-51.
6. Магнус, Я. Р. Эконометрика. Начальный курс: учебник/Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. -6-е изд., перераб. и доп. -М.: Дело, 2004. -576 с.
7. Математическое моделирование экономических процессов. Учебное пособие -М.: Экономика, 1990 -378 с.
8. Моисеев Н.А. Современные инструментальные методы прогнозирования процессов нестабильной экономики В сборнике: Международная научно-практическая конференция «Интеграция отечественной науки в мировую: проблемы, тенденции и перспективы» сборник научных докладов. Автономная некоммерческая организация содействия развитию современной отечественной науки Издательский дом «Научное обозрение». 2014. С. 42-54.
9. Моисеев Н.А., Ахмадеев Б.А. Инновационная модель регрессионного прогноза. Инновации и инвестиции. 2014. № 9. С. 123-127.
10. Прогнозирование и планирование в условиях рынка: учеб. пособие для вузов/под. ред. Т. Г. Морозовой, А. В. Пикулькина. -2-е изд., перераб. и доп. -М.: ЮНИТИ-ДАНА. 2003. -279 с. -(Серия «Профессиональный учебник: Экономика»).
11. Эконометрика. Учебник. И.И. Елисеевой. -М.: Финансы и статистика, 2002 -344 с.
12.Эконометрические методы. Дж. Джонстон. -М.: Статистика, 1980 -444 с.
Автор, аннотация, ключевые слова
Моисеев Никита Александрович, к.э.н., доцент кафедры Математических методов в экономике РЭУ им. Г.В. Плеханова. mr.nikitamoiseev@gmail.com
Романников Александр Николаевич, к.э.н., доц., доцент кафедры Математических методов в экономике РЭУ им. Г.В. Плеханова. Romannikov.AN@rea.ru
В данной статье представлен сравнительный анализ способов спецификации линейного регрессионного уравнения посредством проведения серии машинных экспериментов. Тестируются такие методы отбора переменных как прямой отбор, пошаговый отбор, обратное исключение, отбор по остаточной корреляции, лучшие подмножества и все возможные комбинации. В качестве критерия эффективности модели сравниваются такие показатели как средняя квадратичная ожидаемая ошибка прогноза, Байесовский информационный критерий, F-статистика и дисперсия бутстрапированных ошибок. В результате проведенных экспериментов делаются выводы и даются рекоммендации относительно оптимальности применимости того или иного способа спецификации, а также критерия эффективности модели при различных параметрах исследуемых наборов данных.
Спецификация регрессии, линейная модель, метод наименьших квадратов, Байесовский информационный критерий, F-статистика.
Author, Abstract, Key words
Moiseyev Nikita Aleksandrovich, PhD Econ., the associate professor of Mathematical methods in REU economy of G. V. Plekhanov. mr.nikitamoiseev@gmail.com
Romannikov Alexander Nikolaevich, PhD Econ., доц., the associate professor of Mathematical methods in REU economy of G. V. Plekhanov. Romannikov.AN@rea.ru
In this article the comparative analysis of methods of the specification of the linear regression equation by means of carrying out a series of machine experiments is provided. Such methods of selection of variables as direct selection, step by step selection, the reverse exception, selection on residual correlation, the best subsets and all possible combinations are tested. As criterion of efficiency of model such indices as the average square expected forecast error, Bayesian information criterion, F-statistics and dispersion the butstrapirovannykh of errors are compared. As a result of the made experiments conclusions are drawn and recommendations concerning an optimality of applicability of this or that method of the specification, and also criterion of efficiency of model in case of different parameters of the researched data sets are given.
Specification of regression, the linear model, least-squares method, Bayesian information criterion, F-statistics.