Анализ эффективности способов спецификации уравнения регрессии

Н. А. Моисеев; А. Н. Романников

УДК 330.4

Н.А. Моисеев, А.Н. Романников

АНАЛИЗ ЭФФЕКТИВНОСТИ СПОСОБОВ СПЕЦИФИКАЦИИ

УРАВНЕНИЯ РЕГРЕССИИ

Moiseyev Nikita, Romannikov Alexander

Analysis of efficiency of ways of the specification of the equation of regression

В настоящее время самым широко распространенным методом вычисления коэффициентов регрессионной модели является метод наименьших квадратов (МНК, англ. Ordinary Least Squares) и его многочисленные вариации. В связи с этим постараемся в данной статье глубже разобраться в его специфике, достоинствах, недостатках и способах их устранения. Для начала дадим небольшую справку по данному методу.

МНК является математическим методом поиска оптимальных параметров регрессионной модели, основанный на минимизации суммы квадратов отклонений подстраиваемой функции от истинных значений целевой переменной. Пусть [У,Х] - рассматриваемая выборка статистических данных, где У - вектор-столбец наблюдений значений целевой переменной размерностью nxl, а X - конечная матрица наблюдений по объясняющим переменным размерностью п x (т + l).

X = 1 1 x11 X21 X1m X2m , Y = У1 У 2

1 Xn1 x nm Уп

Тогда линейная регрессионная модель может быть представлена в следующем виде:

У = Ь0 + Ь1 Xt1 + Ь2Xt2 + ^ + ЪтХ,т + et, (1)

либо в матричной форме:

Y = XB + e, (2)

где e - вектор-столбец ошибок модели, состоящий из элементов et.

Для нахождения вектора коэффициентов В проводится процедура нахождения минимума целевой функции, представляющей собой сумму квадратов отклонений модельных значений от истинных значений целевой переменной. В результате данной оптимизации вектор В выражается аналитически следующим образом:

B = (XTX )_1 XTY. (3)

Здесь необходимо отметить, что МНК заслужил свою популярность, поскольку полученные на его основе оценки истинных коэффициентов регрессии р являются лучшими несмещенными оценками из класса линейных оценок (англ. BLUE, Best Linear Unbiased Estimator) при выполнении указанных ниже предпосылок.

Предпосылка 1: Строгая экзогенность ошибок, т.е. E(stIX) = 0. Это значит, что ошибки модели не зависят от объясняющих переменных;

Предпосылка 2: Гомоскедастичность ошибок, т.е. е(е^1х) = а2. Дисперсия случайных отклонений является константой и не зависит от величины значений объясняющих переменных. Отметим, что невыполнение этой предпосылки называется гетероскедастичностью;

Предпосылка 3: Нормальность ошибок, т.е. st~N(0;а). Случайные отклонения истинных значений зависимой переменной от модельных подчиняются нормальному распределению с нулевым математическим ожиданием и некоторой дисперсией;

Предпосылка 4: Отсутствие полной мультиколлинеарности, т.е. ХТХ является положительно определенной матрицей. Здесь имеется ввиду, что среди объясняющих переменных нет функциональной линейной связи;

Предпосылка 5: Отсутствие автокорреляции остатков, т.е. cov(£j;£y)= 0 ,Vi^j. Случайные отклонения являются полностью независимыми друг от друга, что означает отсутствие систематической взаимосвязи между любыми отдельно взятыми ошибками модели.

На практике при построении модели зачастую приходится прибегать к процедуре отбора объясняющих переменных, иначе называемой спецификацией модели. При проведении спецификации мы стремимся отобрать для расчета коэффициентов линии регрессии наиболее значимые

предикторы и исключить незначимые, т.е. те, которые не оказывают влияния на целевую переменную. Следует отметить, что качество проведенной спецификации оказывает существенное влияние на эффективность и адекватность получаемой модели. Именно поэтому в данной статье мы сконцентрируемся на тестировании и сравнительном анализе различных способов отбора и интегрирования набора объясняющих переменных. Первым делом дадим краткую информационную справку по наиболее популярным методам спецификации уравнения регрессии.

Отбор по всем возможным комбинациям. В данном случае рассматриваются и сравниваются между собой все возможные модели, которые можно составить из данного набора потенциальных объясняющих переменных. Преимущество этого способа заключается в том, что отсутствует риск упустить лучшую по выбранному критерию модель. Однако указанное преимущество сопряжено с существенным недостатком, которым является вычислительная трудоемкость такого отбора, особенно, если число потенциальных объясняющих переменных достаточно велико. Поскольку количество моделей, которые можно построить по набору из т независимых переменных вычисляется по формуле N = 2т, то уже при 30-40 независимых переменных такой способ отбора модели становится абсолютно нецелесообразным, особенно для персональных компьютеров.

Следует также отметить, что независимо от метода отбора переменных в модель исследователю необходимо определиться с критерием, отражающим качество уравнения регрессии, и согласно которому будет оцениваться та или иная спецификация модели. Несомненно, конечная цель, которую желает достигнуть любой исследователь - это построение модели с минимальной ошибкой прогноза. Однако проблема заключается в том, что нам неизвестно заранее какую ошибку даст рассматриваемая модель. Но существует множество способов получить некоторую оценку будущей эффективности анализируемого уравнения. Приведем несколько самых часто используемых из них.

- F-статистика. Отражает отношение суммы квадратов отклонений линии регрессии от среднего значения целевой переменной, деленой на число включенных в уравнение независимых переменных, и несмещенной оценки дисперсии остатков модели. При выполнении гипотезы о том, что истинная линия регрессии не объясняет никаких отклонений целевой переменной от своей средней, Б-статистика подчиняется распределению Фишера, а именно

E(y ~ y )2 1

^ n - m -1

F = —---———1 ~ F (à\

m, n-m-1' (4)

m

(y - y )

7=1

Z(y - y)2

Таким образом, согласно данному критерию следует выбрать ту спецификацию, которая дает наибольшее значение F-статистики.

- Несмещенная оценка дисперсии ошибок прогноза (англ. Mean Squared Forecast Error, MSFE). Является показателем ожидаемой точности прогноза выбранной модели. Рассчитывается по формуле:

MSFEt+i = s2 (l + XTt+i (XTX )-1 XM ), (5)

где Xt+i - вектор-столбец значений объясняющих переменных, участвующих в построении прогноза на период t + i, s2 - несмещенная оценка дисперсии ошибок, рассчитывающаяся следующим образом:

n

Е (y - y)2

s2 = J=-г. (6)

n - m -1

Отметим, что формула (5) используется в случае, если известен вектор-столбец Xt+j. В противном случае качество модели оценивается по формуле (6). Разумеется, выбирается та модель, у которой значение несмещенной оценки дисперсии ошибок наименьшее.

- Байесовский информационный критерий (англ. Bayesian Information Criterion, BIC). Строится на предположении, что среди рассматриваемого набора моделей имеется одна истинная, которую можно определить с некоторой долей вероятности. Критерий штрафует модели за неоправданно большое количество параметров, тем самым, предотвращая переобучение модели. Вычисляется как:

BIC = n ■ ln(s2 )+ m ■ ln(n). (7)

Предпочтение отдается той модели, у которой значение байесовского информационного критерия является наименьшим.

- Информационный критерий Акаике (англ. Akaike Information Criterion, AIC). Является очень близким по смыслу с байесовским информационным критерием, так как также накладывает на модель штраф за каждую включаемую объясняющую переменную. Рассчитывается следующим образом:

AIC = n ■ ln (s2 )+ 2m. (8)

Выбирается точно так же, как и в предыдущем случае та модель, у которой значение информационного критерия является наименьшим.

- Бутстрап (англ. Bootstrap). В основе бутсраповского подхода лежит идея, что истинное распределение данных можно с достаточной точностью приблизить эмпирическим, то есть теми данными, которые оказались в выборке. В данном случае нам необходимо оценить качество рассматриваемой модели, а именно ее ожидаемую ошибку прогноза. Для этого можно прибегнуть к одной из бутстраповских техник "one in - one out". Допустим имеется окно наблюдений размера п и по этой выборке оценивается дисперсия ошибок линейной регрессионной модели. Начинается данная процедура с того, что из выборки удаляется первая строчка, характеризующая значения переменных по одному наблюдению, и без нее рассчитываются параметры уравнения регрессии. Затем с помощью полученных параметров делается прогноз для удаленного ранее значения целевой переменной и записывается полученная ошибка. Далее удаленная строчка возвращается в выборку, удаляется вторая строчка и процедура повторяется. По проведении п итераций рассчитывается оценка дисперсии ошибок модели по формуле:

В данном случае волна над символами обозначает, что данные значения мы получили по результатам бутстрапированной выборки.

Прямой отбор (англ. Forward Selection). Данный алгоритм предполагает выполнение следующих пошаговых операций. На первой стадии из всех имеющихся объясняющих переменных выбирается та, которая имеет наибольший показатель корреляции с целевой переменной. Далее по полученной модели рассчитывается один из показателей ее эффективности, рассмотренных выше. Затем к модели по очереди добавляются оставшиеся независимые переменные и пересчитывается выбранный ранее показатель эффективности. После чего в модель вводится переменная, вызвавшая наибольшее улучшение качества модели. Процедура повторяется до тех пор, пока ни одна из переменных более не улучшает показатель эффективности регрессионного уравнения.

Обратное исключение (англ. Backward Elimination). Данный способ спецификации регрессионного уравнения схож с предыдущим с той лишь разницей, что изначально в уравнение включаются все возможные переменные (в случае, если их число не превышает число наблюдений) и затем происходит постепенное отсеивание незначимых факторов. На каждом шаге мы попеременно исключаем из уравнения все имеющиеся переменные и сравниваем получившиеся модели плюс модель без исключения переменной

2 _ г=1

(9)

п

по приведенным выше показателям эффективности. В результате проведенных сравнений принимается решение о целесообразности исключения объясняющей переменной из уравнения. Процедура завершается в случае, если исключение любого фактора ведет к потере качества модели.

Пошаговый отбор (англ. Stepwise selection). Представляет собой всего лишь модификацию метода прямого отбора. Различие в данном случае заключается в том, что на каждом шаге после включения в уравнение нового фактора производится проверка на значимость всех уже имеющихся переменных модели. Обычно значимость предикторов модели характеризуется ^-значением, которое в классической литературе предлагается рассчитывать согласно следующей формуле:

Pi = 2 ■

1 - T

n—m—\

f ы ^

(10)

JVar Ы )

В данном случае Тп_т_±(х) - интегральная функция распределения Стьюдента с числом степеней свободы п — т — 1, а несмещенная оценка дисперсии коэффициентов вычисляется как:

Var Ы—1 ) = 52 (XTX)—;. (11)

Если в процессе такой проверки обнаружится, что какие-то переменные стали незначимыми в уравнении, то они выводятся из модели, после чего начинается очередная итерация по поиску новой переменной, способной улучшить качество модели.

Лучшие подмножества (англ. Best Subsets). Данный способ спецификации регрессионного уравнения является частным случаем отбора по всем возможным комбинациям. Здесь исследователь заранее определяет максимальное количество предикторов в уравнении. После чего перебираются все возможные комбинации объясняющих переменных, удовлетворяющих установленному ограничению на количество. Полученные модели сравниваются между собой по одному из показателей эффективности, рассмотренных выше, и выбирается лучшая из них.

Отбор по остаточной корреляции. Идея метода заключается в следующем. На первом этапе определяется объясняющая переменная, имеющая наибольшую корреляцию с целевой. Затем в модель добавляется следующая переменная, которая показывает наиболее тесную связь с остатками модели, построенной только по первой включенной переменной. Для нахождения этой объясняющей переменной будем использовать частный коэффициент корреляции, который отражает взаимосвязь между двумя переменными, «очищенными» от влияния других переменных. Частный коэффициент корреляции между переменными i и j, «очищенными» от

влияния остальных факторов набора из к переменных, в общем виде вычисляется как показано ниже:

- Rj1

>ЬМ/-1)(/+1)..0--1)С/+1М ~ /„ 1 „ 1 > (12)

VR» ■ ^

где Я ^1 - ¿-ый -ый элемент обратной корреляционной матрицы, включающей весь набор из к переменных.

Таким образом, для того, чтобы включить в модель вторую переменную, необходимо рассчитать частные корреляции всех оставшихся факторов с зависимой переменной, «очищенные» от влияния первой переменной. Для включения третьей переменной в модель повторяется та же самая процедура, только частные корреляции рассчитываются уже с учетом двух включенных ранее предикторов. На каждом шаге полученные модели проверяются согласно выбранному показателю эффективности. Процедура повторяется до тех пор, пока включение новых переменных перестает повышать качество модели.

Рассмотренные выше способы за исключением самого первого призваны снизить вычислительную сложность процедуры спецификации регрессионного уравнения и при этом минимизировать риски упущения из рассмотрения наилучшей модели, которую можно построить по данному набору независимых переменных. В данной статье мы постараемся проанализировать эффективность применения этих способов в зависимости от свойств и структуры набора потенциальных объясняющих переменных и дать рекомендации относительно их применимости в тех или иных ситуациях.

Предположим имеется целевая переменная и набор потенциальных объясняющих переменных . Для проведения сравнительного

анализа вышеописанных способов спецификации поставим несколько имитационных экспериментов. В данных экспериментах будем полагать, что объясняющие переменные подчиняются нормальному распределению с нулевой средней и единичной дисперсией, а именно х г 1>хг2> ■ ■ ■ 'хгт~ М[Е(хг1) = 0 ,0(х1 1) = 1 ]. Также на данном этапе установим, что объясняющие переменные не мультиколлинеарны, то есть являются линейно независимыми друг от друга. Определим, что целевая переменная зависит только от первых четырех предикторов из сгенерированного набора данных, а остальные факторы не имеют никакой взаимосвязи с . Таким образом, будет вычисляться как:

У = 2 + Е - X« + Ъ > (13)

1=1 1

где £с ~ N ( 0 , 1 ) - «белый» шум, 2 - произвольно выбранная константа модели, $1= 1 / I - истинные коэффициенты модели, убывающие пропорционально порядковому номеру объясняющей переменной.

В результате проведенного имитационного эксперимента были протестированы все шесть представленных выше способов отбора переменных, а именно отбор по всем возможным комбинациям, лучшие подмножества с числом включаемых переменных / < 4, прямой отбор, пошаговый отбор с уровнем значимости , отбор по остаточной

корреляции и обратное исключение. Данные способы были реализованы с использованием следующих критериев качества модели: несмещенная оценка дисперсии ошибок прогноза (MSE), F-статистика, Байесовский информационный критерий ^ГС), среднеквадратичные бутстрапированные ошибки модели. Для сравнения эффективности и особенностей применения каждого из методов отбора переменных и критериев качества использовались: среднеквадратичная ошибка прогноза за пределами выборки (MSE) и эмпирическая вероятность включения /-ого предиктора в модель

№

Эксперимент включал в себя несколько планов, при которых проверялись вышеупомянутые способы спецификации уравнения и критерии качества модели при трех различных окнах данных (

), а также при разном количестве потенциальных объясняющих переменных ( ). Для получения расчетных значений по

каждому из способов спецификации использовалось 10 000 итераций.

В таблице 1 представлена сводка по эффективности способов отбора переменных при критерии качества MSE и количестве потенциальных объясняющих переменных равном четырем. Таким образом, согласно (13) в исходном наборе предикторов содержатся только переменные, которые действительно оказывают влияние на результирующую переменную. Данная ситуация возникает, когда исследователь корректно идентифицировал теоретические взаимосвязи изучаемых экономических процессов и отобрал в пул переменных значимые факторы.

Таблица 1. Сравнение методов спецификации уравнения регрессии по _критерию MSE, т = 4.

Лучшие „ Пошаговый _

Все Прямой _ Остаточная Обратное

п , подмножества г _ отбор г

комбинации отбор . ¿05) корреляция исключение

20 МБЕ 1.412245 1.412245 1.413594 1.500384 1.412343 1.414995

w1 0.8342 0.8342 0.8289 0.589 0.8286 0.832

w2 0.6536 0.6536 0.6479 0.3266 0.6392 0.6524

w3 0.5434 0.5434 0.5349 0.2241 0.5428 0.5434

w4 0.4837 0.4837 0.4774 0.1691 0.4726 0.4836

40 МБЕ 1.180281 1.180281 1.181057 1.274298 1.180361 1.186613

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w1 0.9685 0.9685 0.9678 0.8279 0.9681 0.9683

w2 0.8356 0.8356 0.8334 0.4911 0.8326 0.8355

w3 0.6989 0.6989 0.6962 0.3104 0.6878 0.6961

w4 0.6024 0.6024 0.6007 0.2212 0.5986 0.6011

80 МБЕ 1.073722 1.073722 1.073726 1.126084 1.075344 1.07856

w1 0.9993 0.9993 0.9993 0.9815 0.9994 0.9987

w2 0.964 0.964 0.9638 0.7989 0.964 0.9682

w3 0.8738 0.8738 0.8737 0.5583 0.8725 0.8759

w4 0.7696 0.7696 0.7696 0.3893 0.7689 0.7695

По таблице 1 можно отследить, как с ростом числа наблюдений спецификации моделей все чаще совпадают с истинной. Также, анализируя показатель МББ по разным способам спецификации, становится ясно, что в случае, если набор потенциальных предикторов совпадает с истинным, метод пошагового отбора с контролем уровня значимости не является предпочтительным. В данном случае при процедуре спецификации уравнения желательным является включение как можно большего числа факторов, поскольку все они влияют на целевую переменную. Пошаговый отбор с этой точки зрения является достаточно «строгим» методом спецификации, так как включает в уравнение только те предикторы, которые с высокой степенью уверенности влияют на зависимую переменную, таким образом теряя в точности прогнозирования.

Для иллюстрации вышесказанного на рисунках 1а и 1б приведены вероятности включения потенциальных факторов в уравнение при способе отбора по всем возможным комбинациям и пошаговом отборе. Как видно, из этих рисунков при пошаговом отборе гораздо меньшее количество переменных в среднем включается в уравнение, что в данном случае ведет к потере точности прогноза, так как на самом деле все потенциальные предикторы являются значимыми.

1

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1

чх

•о- -

w1

w2

w3

- -О - п = 20 —О— п = 40

w4 •п = 80

Рисунок 1а. Частотность включения

факторов в модель (отбор по всем комбинациям, критерий МБЕ, т = 4)

Рисунок 1б. Частотность включения факторов в модель (пошаговый отбор, критерий МБЕ, т = 4)

Таблица 2. Сравнение методов спецификации уравнения регрессии по

критерию MSE, т = 6.

п Все комбинации Лучшие подмножества ( К 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение

20 МБЕ 1.595099 1.584214 1.581305 1.548723 1.575332 1.580023

w1 0.8167 0.8055 0.8096 0.5574 0.8133 0.8261

w2 0.6387 0.6194 0.6276 0.2998 0.635 0.6543

w3 0.5392 0.5137 0.5255 0.1998 0.5375 0.5544

w4 0.4848 0.4585 0.4693 0.1604 0.4705 0.5093

w5 0.3748 0.3349 0.3642 0.0862 0.3542 0.3878

w6 0.3692 0.3343 0.3575 0.0804 0.3508 0.3718

40 МБЕ 1.225285 1.223898 1.226202 1.300612 1.229469 1.230168

w1 0.9639 0.9561 0.9625 0.8159 0.963 0.9669

w2 0.828 0.8027 0.825 0.484 0.8184 0.8326

w3 0.6889 0.6483 0.6836 0.3055 0.6819 0.6888

w4 0.6002 0.5488 0.5944 0.2195 0.5804 0.602

w5 0.3365 0.2603 0.3328 0.0578 0.3402 0.3378

w6 0.3342 0.2676 0.3312 0.0577 0.3318 0.349

80 МБЕ 1.104427 1.102402 1.104555 1.135791 1.106067 1.095833

w1 0.9991 0.9982 0.999 0.9793 0.9986 0.9991

w2 0.969 0.9497 0.9687 0.8058 0.9625 0.9682

w3 0.8743 0.8214 0.8729 0.5597 0.871 0.8712

w4 0.7632 0.6875 0.7617 0.3999 0.7647 0.7708

w5 0.32 0.1703 0.3179 0.0522 0.3243 0.3248

w6 0.3218 0.1729 0.32 0.05 0.3261 0.3293

Как видно из таблицы 2 пошаговый отбор уже не является явным аутсайдером по точности прогноза, в случае, если в рассматриваемом наборе предикторов появилось два, никак не связанных с целевой переменной.

1

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

w1 w2

- -о- - п = 20

w3 w4 о—п = 40

Рисунок 2а. Частотность включения

факторов в модель (отбор по всем комбинациям, критерий МББ, т = 6)

Рисунок 2б. Частотность включения факторов в модель (пошаговый отбор, критерий МББ, т = 6)

На рисунках 2а и 2б видно, что переменные №5 и №6, не влияющие на целевую переменную гораздо реже включаются в уравнение регрессии, особенно при большом количестве наблюдений. Однако, в случае отбора по всем возможным комбинациям незначимые предикторы включаются чаще, чем при пошаговом отборе (35-40% против 5-10%). Но при этом в случае пошагового отбора менее вероятно и включение значимых факторов, что в общем и целом приводит примерно к равной точности прогнозирования.

Таблица 3. Сравнение методов спецификации уравнения регрессии по _критерию МББ, т = 9 .

Все комбинации

Лучшие подмножества ( I < 4)

Прямой отбор

Пошаговый

отбор ( )

Остаточная корреляция

Обратное исключение

20

МБЕ

1.980721

1.836345

1.895016

1.631747

1.838751

2.01023

w1 w2 w3

0.7938 0.6377 0.554

0.7495 0.5614 0.4573

0.7974 0.6286 0.531

0.5238 0.2821 0.1873

0.7935 0.6148 0.528

0.7965 0.6482 0.5664

w4 0.5008 0.3997 0.4762 0.1471 0.4871 0.5114

w5 0.4102 0.2868 0.3784 0.0743 0.3731 0.4261

w6 0.4007 0.2898 0.371 0.0791 0.3805 0.4316

w7 0.4053 0.2892 0.3772 0.0764 0.3763 0.4271

w8 0.4084 0.2894 0.3771 0.0783 0.3696 0.4375

w9 0.4056 0.2836 0.3754 0.0748 0.3764 0.4283

40 МБЕ 1.334179 1.312947 1.330512 1.324853 1.353906 1.353566

w1 0.9563 0.9322 0.9556 0.7987 0.9552 0.9634

w2 0.8147 0.7407 0.8104 0.4722 0.8133 0.8222

w3 0.6787 0.5774 0.672 0.2931 0.6743 0.6835

w4 0.5897 0.4693 0.5817 0.2113 0.5812 0.5887

w5 0.34 0.2099 0.3299 0.0567 0.338 0.358

w6 0.347 0.2118 0.3364 0.0561 0.3468 0.3607

w7 0.3382 0.2028 0.3283 0.577 0.3491 0.3366

w8 0.341 0.2096 0.3326 0.0601 0.3286 0.3252

w9 0.3543 0.222 0.3444 0.0588 0.3387 0.322

80 МБЕ 1.109306 1.107999 1.110039 1.130571 1.129652 1.099458

w1 0.9987 0.9944 0.9987 0.9805 0.9987 0.9982

w2 0.9599 0.9113 0.959 0.7907 0.9625 0.9593

w3 0.863 0.7537 0.8625 0.5555 0.8602 0.8518

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w4 0.7694 0.6079 0.7666 0.397 0.7556 0.7319

w5 0.3297 0.1327 0.326 0.0501 0.317 0.3008

w6 0.3382 0.1403 0.3342 0.0535 0.3297 0.3301

w7 0.3307 0.1316 0.3266 0.048 0.3249 0.3152

w8 0.3282 0.1279 0.3243 0.0495 0.3283 0.3296

w9 0.3218 0.1293 0.318 0.0491 0.3203 0.3194

На рисунках 3 а и 3б представлена схожая картина, как и на рисунках 2а, 2б с той лишь разницей, что в данном случае количество незначимых предикторов в изначальном наборе факторов увеличилось до пяти. Как видно из таблицы 3 в случае малого количества наблюдений и при значительном числе незначимых предикторов контроль уровня значимости в некоторой мере оправдывает себя.

1

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

р- - - о---о---о - - о

--+—-» -г—-8

1

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

8

w2 w3 w4 w5 w6 w7 w8 w9

- -о- - п = 20 —о— п = 40 —•— п = 80

Рисунок 3а. Частотность включения

факторов в модель (отбор по всем комбинациям, критерий МББ, т = 9 )

w1 w2 w3 w4 w5 w6 w7 w8 w9

-_о-п = 20 —о— п = 40 —•— п = 80

Рисунок 3б. Частотность включения факторов в модель (пошаговый отбор, критерий МББ, т = 9 )

В таблицах 4-6 представлены сводки по эффективности способов отбора переменных по байесовскому информационному критерию. Рассматриваются аналогичные случаи как в таблицах 1 -3, а именно три различных окна данных (п = 2 0 , п = 4 0 , п = 8 0 ), а также количество потенциальных объясняющих переменных (т = 4, т = 6, т = 9).

Таблица 4. Сравнение методов спецификации уравнения регрессии по _критерию В1С, т = 4.

Все комбинации

Лучшие

подмножества ( )

Прямой отбор

Пошаговый

отбор ( )

Остаточная корреляция

Обратное исключение

20

МБЕ

1.457402

1.457319

1.457673

1.423258

1.471792

w1 w2 w3 w4

0.6304 0.3521 0.2498 0.2077

0.6206 0.3408 0.2396 0.2

0.6203 0.3404 0.2394 0.2

0.6116 0.3492 0.2428 0.1848

0.6387 0.3664 0.26 0.2125

40

МБЕ

1.298385

1.301812

1.301753

1.291321

1.299321

w1 w2 w3 w4

0.8105 0.4537 0.2805 0.194

0.8044 0.4443 0.2713 0.1873

0.8044 0.4443 0.2712 0.1872

0.8015 0.4454 0.2763 0.1871

0.8145 0.4628 0.2723 0.1934

80

МБЕ

1.13961

1.143122

1.143115

1.12843

1.14121

w1 w2

0.9695 0.7038

0.9665 0.6964

0.9676 0.6912

0.9697 0.7032

w3 0.4495 0.4495 0.4429 0.4428 0.433 0.4446

w4 0.2826 0.2826 0.2762 0.2762 0.284 0.2797

Таблица 5. Сравнение методов спецификации уравнения регрессии по _критерию В1С, т = 6.

Все комбинации

Лучшие

подмножества ( )

Прямой отбор

Пошаговый

отбор ( )

Остаточная корреляция

Обратное исключение

20 МБЕ 1.531847 1.533302 1.523368 1.517422 1.540227 1.581985

w1 0.5972 0.5964 0.5829 0.5605 0.5843 0.6188

w2 0.3491 0.3481 0.3338 0.3047 0.3351 0.3658

w3 0.2428 0.2415 0.2255 0.1994 0.2289 0.2692

w4 0.1976 0.1956 0.1815 0.1591 0.1789 0.2149

w5 0.1095 0.1075 0.0991 0.0837 0.0999 0.1261

w6 0.1079 0.1067 0.0981 0.0845 0.0986 0.1209

40 МБЕ 1.287326 1.28761 1.290412 1.290811 1.311268 1.273256

w1 0.8039 0.8036 0.7933 0.7932 0.784 0.8153

w2 0.472 0.4715 0.4572 0.4567 0.4457 0.4675

w3 0.2804 0.2797 0.266 0.2656 0.2686 0.2982

w4 0.1946 0.1939 0.1849 0.1845 0.1826 0.2083

w5 0.0509 0.0502 0.0476 0.0475 0.0466 0.0532

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w6 0.0548 0.054 0.0508 0.0503 0.0475 0.0541

80 МБЕ 1.171932 1.172059 1.174377 1.174377 1.170231 1.15699

w1 0.968 0.9679 0.9652 0.9652 0.9645 0.9694

w2 0.7061 0.7058 0.6977 0.6977 0.6905 0.7079

w3 0.4356 0.435 0.4286 0.4286 0.4324 0.4447

w4 0.2812 0.2803 0.2731 0.2731 0.2799 0.299

w5 0.0242 0.0228 0.0235 0.0235 0.0246 0.0287

w6 0.0266 0.025 0.0251 0.0251 0.0246 0.0289

Таблица 6. Сравнение методов спецификации уравнения регрессии по

критерию В1С, т = 9.

п Все комбинации Лучшие подмножества ( 1 < 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение

20 МБЕ 1.694907 1.678955 1.644776 1.629418 1.66095 1.769303

w1 0.5844 0.5801 0.5593 0.5337 0.5547 0.5963

w2 0.3463 0.3397 0.3154 0.2832 0.3097 0.3761

w3 0.2595 0.2519 0.2257 0.1933 0.2093 0.2842

w4 0.198 0.1908 0.1678 0.1428 0.1669 0.2412

w5 0.1228 0.1156 0.0992 0.0793 0.0979 0.1398

w6 0.1184 0.1101 0.096 0.0769 0.093 0.1454

w7 0.1169 0.1079 0.0954 0.0755 0.0859 0.1526

w8 0.1123 0.1045 0.0912 0.0733 0.0955 0.1481

w9 0.1165 0.1084 0.0953 0.0768 0.0968 0.1511

40 МБЕ 1.352114 1.351788 1.353341 1.353927 1.348325 1.348503

w1 0.7894 0.7888 0.7791 0.7786 0.7826 0.7996

w2 0.4522 0.4506 0.4337 0.433 0.4373 0.4812

w3 0.2876 0.2855 0.2718 0.2715 0.2575 0.295

w4 0.1916 0.1889 0.1791 0.1787 0.1813 0.2084

w5 0.0498 0.0485 0.046 0.0456 0.0482 0.0595

w6 0.051 0.0487 0.0468 0.046 0.045 0.0565

w7 0.0521 0.0496 0.0452 0.0449 0.0475 0.0543

w8 0.0516 0.0491 0.0463 0.0461 0.0502 0.0577

w9 0.0517 0.0502 0.0476 0.0475 0.0467 0.0589

80 МБЕ 1.171273 1.170671 1.170224 1.170378 1.152341 1.186376

w1 0.9634 0.9631 0.96 0.96 0.9619 0.9649

w2 0.7021 0.7002 0.6907 0.6906 0.6923 0.7013

w3 0.4385 0.4363 0.4259 0.4258 0.4347 0.4563

w4 0.2836 0.2803 0.2742 0.274 0.2798 0.3048

w5 0.0273 0.0242 0.0247 0.0246 0.0224 0.0276

w6 0.0292 0.0269 0.0281 0.028 0.0271 0.032

w7 0.0269 0.0245 0.0254 0.0254 0.0255 0.0275

w8 0.0299 0.0278 0.0289 0.029 0.0264 0.0284

w9 0.0259 0.0242 0.0243 0.0243 0.0255 0.0289

Отметим, что в случае применения байесовского информационного критерия, рассматриваемые способы отбора переменных показывают более близкие результаты, чем при критерии МББ. Сравнивая таблицы 1-3 и 4-6 можно сделать вывод, что применение В1С дает лучшие результаты в случае короткого окна данных, однако при достаточном числе наблюдений предпочтительным остается выбор в пользу критерия наименьшей ожидаемой ошибки прогноза.

Далее в таблицах 7-9 представлены сводки по эффективности способов отбора переменных по критерию Б-статистика. Тестирование проводилось по параметрам, аналогичным тем, которые использовались для расчета таблиц 1.-6.

Таблица 7. Сравнение методов спецификации уравнения регрессии по

критерию Б-статистика, т = 4.

Лучшие Пошаговый

Все Прямой Остаточная Обратное

подмножества отбор

комбинации отбор корреляция исключение

20 МБЕ 1.458661 1.458661 1.457826 1.463198 1.462404 1.480975

w1 0.614 0.614 0.5992 0.5668 0.6052 0.6453

w2 0.3308 0.3308 0.3148 0.2852 0.3171 0.3525

w3 0.2304 0.2304 0.2176 0.1941 0.2119 0.2463

w4 0.1771 0.1771 0.1669 0.1479 0.1652 0.1935

40 МБЕ 1.345871 1.345871 1.346792 1.350051 1.321607 1.324561

w1 0.7318 0.7318 0.721 0.714 0.7208 0.7586

w2 0.3056 0.3056 0.2925 0.2861 0.2928 0.3278

w3 0.171 0.171 0.1607 0.1551 0.1605 0.1897

w4 0.1082 0.1082 0.1005 0.0961 0.106 0.1268

80 МБЕ 1.238926 1.238926 1.239607 1.239875 1.275889 1.229155

w1 0.8646 0.8646 0.8572 0.8569 0.847 0.8708

w2 0.2617 0.2617 0.2526 0.2522 0.2491 0.2848

w3 0.1051 0.1051 0.0975 0.0972 0.1049 0.1265

w4 0.0545 0.0545 0.0506 0.0505 0.052 0.0741

Таблица 8. Сравнение методов спецификации уравнения регрессии по _критерию F-статистика, т = 6.

п Все комбинации Лучшие подмножества ( 1 < 4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение

20 МБЕ 1.534856 1.53456 1.51584 1.512927 1.564458 1.565908

w1 0.5749 0.5741 0.5557 0.5303 0.5592 0.6203

w2 0.3138 0.3129 0.2894 0.2611 0.2805 0.3559

w3 0.2167 0.2153 0.1933 0.1726 0.1927 0.26

w4 0.1744 0.1724 0.153 0.1338 0.1537 0.2116

w5 0.0876 0.0858 0.0748 0.0636 0.0788 0.1341

w6 0.0912 0.0898 0.0791 0.0676 0.0857 0.1296

40 МБЕ 1.36197 1.361627 1.354005 1.365254 1.326859 1.32849

w1 0.7245 0.7241 0.7114 0.7051 0.7111 0.7411

w2 0.2969 0.2965 0.2827 0.2771 0.2848 0.3326

w3 0.1634 0.163 0.1529 0.1485 0.1539 0.1967

w4 0.1111 0.1103 0.1007 0.0977 0.0957 0.1323

w5 0.0274 0.0266 0.0233 0.0216 0.0222 0.0346

w6 0.026 0.0252 0.0239 0.0228 0.024 0.0342

80 МБЕ 1.261543 1.261543 1.264064 1.263935 1.236504 1.254842

w1 0.8557 0.8557 0.8468 0.8466 0.8537 0.8731

w2 0.2626 0.2626 0.2508 0.2506 0.2552 0.2881

w3 0.111 0.111 0.1016 0.1013 0.1013 0.134

w4 0.0524 0.0524 0.0485 0.0481 0.0479 0.0715

w5 0.0036 0.0036 0.0033 0.0031 0.0022 0.004

w6 0.0026 0.0026 0.0025 0.0025 0.0011 0.0048

Таблица 9. Сравнение методов спецификации уравнения регрессии по _критерию Б-статистика, т = 9.

п Все комбинации Лучшие подмножества ( К4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение

20 МБЕ 1.712448 1.682937 1.63928 1.607243 1.616617 1.825362

w1 0.552 0.545 0.5146 0.4904 0.5166 0.626

w2 0.3083 0.2972 0.2629 0.243 0.2637 0.3936

w3 0.2127 0.2026 0.1756 0.1576 0.1766 0.3093

w4 0.1682 0.1556 0.1316 0.1153 0.1372 0.257

w5 0.1025 0.0914 0.0735 0.0603 0.0726 0.177

w6 0.1013 0.0898 0.0725 0.0606 0.0699 0.1814

w7 0.1049 0.0934 0.0741 0.061 0.0702 0.1821

w8 0.1003 0.0908 0.0715 0.0572 0.0696 0.1876

w9 0.1006 0.0902 0.0719 0.0608 0.0765 0.177

40 МБЕ 1.331854 1.330796 1.337458 1.33891 1.370318 1.368247

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w1 0.7045 0.7032 0.6858 0.6807 0.6834 0.7412

w2 0.2926 0.2917 0.2746 0.2704 0.2825 0.3363

w3 0.1666 0.166 0.1549 0.1519 0.1445 0.2015

w4 0.1035 0.1025 0.0924 0.0891 0.0987 0.1467

w5 0.0232 0.0222 0.0211 0.0199 0.0218 0.0418

w6 0.0232 0.0226 0.0198 0.0185 0.022 0.0389

w7 0.0246 0.0238 0.0218 0.0201 0.0198 0.0424

w8 0.0248 0.0241 0.0216 0.0197 0.0213 0.0401

w9 0.0233 0.0225 0.0193 0.0184 0.0223 0.0395

80 МБЕ 1.219736 1.219682 1.221796 1.221807 1.282559 1.240945

w1 0.858 0.858 0.8508 0.8507 0.8527 0.8702

w2 0.2589 0.2588 0.2476 0.2475 0.2482 0.2914

w3 0.1048 0.1047 0.0962 0.0961 0.0975 0.1378

w4 0.0554 0.0553 0.0509 0.0507 0.0471 0.0729

w5 0.0031 0.0029 0.0025 0.0024 0.0024 0.0051

w6 0.0021 0.0021 0.0016 0.0016 0.0024 0.0047

w7 0.0028 0.0028 0.0027 0.0027 0.0023 0.0044

w8 0.0022 0.0022 0.0025 0.0025 0.0022 0.0045

w9 0.004 0.004 0.0038 0.0038 0.0019 0.0045

Анализируя результаты эффективности способов спецификации регрессионного уравнения из таблиц 7-9, можно заключить, что Б-статистика так же как и В1С является менее предпочтительным критерием оценки качества модели, чем МБЕ в случае длинного окна наблюдений, однако демонстрирует схожую с В1С эффективность при коротком окне данных.

Ниже в таблицах 10-12 приведены результаты имитационного эксперимента по проверке эффективности способов отбора переменных согласно величине бутстрапированных среднеквадратических ошибок модели.

Таблица 10. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 4.

_ Лучшие „ „ Пошаговый _

Все Прямой Остаточная Обратное

п _ подмножества _ отбор

комбинации отбор . до5) корреляция исключение

20 МБЕ 1.423126 1.423126 1.411576 1.458673 1.435022 1.429975

w1 0.7256 0.7256 0.7262 0.5899 0.7172 0.7434

w2 0.4969 0.4969 0.4922 0.3162 0.491 0.5196

w3 0.3969 0.3969 0.391 0.2234 0.3685 0.4056

w4 0.3402 0.3402 0.3288 0.1706 0.3088 0.3417

40 МБЕ 1.205586 1.205586 1.206058 1.268908 1.239423 1.224884

w1 0.926 0.926 0.9221 0.8258 0.9176 0.9264

w2 0.704 0.704 0.698 0.493 0.6924 0.7104

w3 0.5333 0.5333 0.5279 0.3102 0.5182 0.5381

w4 0.4203 0.4203 0.415 0.2121 0.4062 0.4306

80 МБЕ 1.115735 1.115735 1.11604 1.15255 1.104863 1.10235

w1 0.9965 0.9965 0.9962 0.9846 0.9953 0.9955

w2 0.924 0.924 0.924 0.7922 0.9118 0.9215

w3 0.7674 0.7674 0.7674 0.5691 0.7677 0.7694

w4 0.6327 0.6327 0.6327 0.4024 0.6126 0.6189

Таблица 11. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 6.

Все комбинации

Лучшие подмножества ( I < 4)

Прямой отбор

Пошаговый

отбор ( )

Остаточная корреляция

Обратное исключение

20

МБЕ

1.577075

1.576173

1.563686

1.532479

1.599864

1.586442

w1 w2 w3 w4

0.7069 0.4992 0.3868 0.3407

0.7043 0.4932 0.3802 0.3325

0.6999 0.4823 0.3703 0.3206

0.5554 0.3019 0.2003 0.1584

0.6863 0.4565 0.3479 0.2869

0.7162 0.5168 0.4031 0.3574

w5 0.2321 0.2243 0.2147 0.0826 0.1903 0.2507

w6 0.2288 0.2197 0.2099 0.0815 0.191 0.2438

40 МБЕ 1.240247 1.239571 1.241776 1.285424 1.289202 1.240869

w1 0.9198 0.9172 0.9168 0.8206 0.9105 0.9232

w2 0.6994 0.6926 0.6913 0.4821 0.6848 0.7074

w3 0.5343 0.522 0.5248 0.308 0.5067 0.5433

w4 0.4246 0.408 0.416 0.2104 0.404 0.4339

w5 0.1934 0.1732 0.1867 0.0599 0.1647 0.1997

w6 0.1954 0.1786 0.1885 0.0601 0.1654 0.202

80 МБЕ 1.140508 1.139433 1.140555 1.17063 1.102485 1.140032

w1 0.9965 0.9953 0.9963 0.981 0.9964 0.9966

w2 0.9154 0.9053 0.913 0.7931 0.9137 0.9167

w3 0.7626 0.7413 0.7597 0.5558 0.7645 0.765

w4 0.615 0.585 0.6125 0.3856 0.6103 0.6168

w5 0.1793 0.1262 0.176 0.0557 0.1646 0.1811

w6 0.168 0.1209 0.1668 0.0503 0.1529 0.1696

Таблица 12. Сравнение методов спецификации уравнения регрессии _по критерию бутстрап, т = 9.

п Все комбинации Лучшие подмножества ( 1<4) Прямой отбор Пошаговый отбор ( ) Остаточная корреляция Обратное исключение

20 МБЕ 1.864355 1.816384 1.770326 1.644799 1.696479 1.932457

w1 0.7024 0.671 0.6913 0.5336 0.6542 0.711

w2 0.495 0.4604 0.4616 0.2704 0.4343 0.5207

w3 0.4079 0.3716 0.3705 0.1883 0.3302 0.4397

w4 0.3482 0.3117 0.3082 0.1388 0.2793 0.3819

w5 0.2642 0.2206 0.2194 0.0749 0.1834 0.2995

w6 0.259 0.2204 0.2168 0.0761 0.1833 0.2873

w7 0.2507 0.2134 0.2054 0.0745 0.1805 0.2869

w8 0.2702 0.2342 0.2226 0.0804 0.1862 0.3038

w9 0.2573 0.2207 0.2141 0.0764 0.1855 0.2895

40 МБЕ 1.288918 1.279112 1.27942 1.281611 1.321003 1.289904

w1 0.9099 0.8946 0.9086 0.8038 0.901 0.9136

w2 0.6942 0.666 0.684 0.4802 0.6559 0.7053

w3 0.5244 0.4872 0.5114 0.299 0.491 0.5336

w4 0.4252 0.3856 0.4133 0.2126 0.3911 0.4362

w5 0.196 0.1594 0.1843 0.0607 0.1673 0.2062

w6 0.1948 0.1591 0.1842 0.0587 0.1697 0.2087

w7 0.195 0.1598 0.1843 0.057 0.1649 0.206

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w8 0.1941 0.1605 0.1808 0.0548 0.168 0.2058

w9 0.1917 0.1542 0.1803 0.0545 0.1644 0.2044

80 MSE 1.148844 1.146393 1.147739 1.162737 1.123335 1.149186

w1 0.9955 0.9917 0.995 0.9816 0.9941 0.9959

w2 0.9192 0.885 0.9175 0.7976 0.9094 0.9215

w3 0.7611 0.7037 0.7569 0.569 0.7503 0.7645

w4 0.6162 0.5436 0.6113 0.3928 0.6096 0.6209

w5 0.1718 0.1041 0.1671 0.0514 0.1622 0.175

w6 0.1741 0.1077 0.1697 0.0514 0.1661 0.1783

w7 0.1738 0.1084 0.1702 0.054 0.1603 0.1787

w8 0.1714 0.1048 0.1685 0.048 0.1636 0.1745

w9 0.1726 0.108 0.1681 0.0503 0.1635 0.1762

Модели, полученные на основе критерия бутстрап практически являются аналогом уравнениям, рассчитанным по критерию МББ, демонстрируя слегка большую ошибку при значительном превосходстве числа наблюдений над числом потенциальных предикторов и наоборот -немного более высокую точность при коротком окне данных и значительном числе потенциальных факторов.

На рисунках 4а-4в приведены сравнения средних эффективностей

способов спецификации регрессии в зависимости от различных вводных параметров.

1,9 1,9

1,8 1,8

1,7 1,7

MSE 1,6 1,5 1,4 — MSE 1,6 1,5 1,4 к

1,3 1,2 1,1 ~~ -С*----- 1,3 1,2 1,1

-o

1 20 40 80 1 20 40 80

число наблюдений число наблюдений

-o- - MSE —о— BIC • F - о- -Bootstrap - -о- - MSE —о— BIC - —•— F — о- - Bootstrap

Рисунок 4а. Сравнение эффективности Рисунок 4б. Сравнение эффективности

моделей (т = 4) моделей (т = 6)

1,9 1,8 1,7 1,6

^ 1,5

GO '

S 1,4 1,3 1,2 1,1 1

Рисунок 4в. Сравнение эффективности моделей (т = 9 )

Сразу отметим, что ни один из способов спецификации и критериев эффективности не является наиболее предпочтительным при любых исходных условиях. Так, из представленных выше рисунков можно сделать две основные рекомендации: в среднем при значительном превосходстве числа наблюдений над числом рассматриваемых предикторов целесообразней использовать критерий МББ в качестве показателя качества модели, а в случае короткого окна данных и наличия неопределенности относительно значимости отобранных факторов предпочтительнее использовать Б-статистику или В1С/А1С. Однако, легко заметить, что, если принимать решение о выборе способа спецификации модели и критерии оценки ее качества в условиях неопределенности относительно степени значимости предварительно отобранных предикторов, то присутствует высокая вероятность выбрать далеко не лучшую модель. Если при достаточно длинном окне данных различия в эффективности способов отбора переменных не такие критичные, то при относительно небольшом числе наблюдений эти различия достигают значений в 20-30% и в этом случае у исследователя появляются реальные риски потери точности из-за неверного выбора способа спецификации и критерия эффективности.

Список литературы

20 40 80

число наблюдений MSE ---о---BIC —•—F -о--Bootstrap

1. Moiseev N.A. Linear model averaging by minimizing mean-squared forecast error unbiased estimator. Model Assisted Statistics and Applications. 2016. Т. 11. № 4. С. 325-338.

2. Zubakin V.A., Kosorukov O.A., Moiseev N.A. Improvement of regression forecasting models. Modern Applied Science. 2015. Т. 9. № 6. С. 344-353.

3. Бокс, Дж. Анализ временных рядов. Прогноз и управление: пер. с англ./Дж. Бокс, Г. Дженкинс. -М.: Мир, 1974. -Вып. 1. -406 с.; Вып. 2. -198 с.

4. Глазьев, С. Проблемы прогнозирования макроэкономической динамики/С. Глазьев//Российский экономический журнал. -2001. -№ 3. -С. 76-85; № 4. -С. 12-22.

5. Крыштановский, А. О. Методы анализа временных рядов/А. О. Крыштановский//Мониторинг общественного мнения: экономические и социальные перемены. -2000. -№ 2 (46). -С. 44-51.

6. Магнус, Я. Р. Эконометрика. Начальный курс: учебник/Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. -6-е изд., перераб. и доп. -М.: Дело, 2004. -576 с.

7. Математическое моделирование экономических процессов. Учебное пособие -М.: Экономика, 1990 -378 с.

8. Моисеев Н.А. Современные инструментальные методы прогнозирования процессов нестабильной экономики В сборнике: Международная научно-практическая конференция «Интеграция отечественной науки в мировую: проблемы, тенденции и перспективы» сборник научных докладов. Автономная некоммерческая организация содействия развитию современной отечественной науки Издательский дом «Научное обозрение». 2014. С. 42-54.

9. Моисеев Н.А., Ахмадеев Б.А. Инновационная модель регрессионного прогноза. Инновации и инвестиции. 2014. № 9. С. 123-127.

10. Прогнозирование и планирование в условиях рынка: учеб. пособие для вузов/под. ред. Т. Г. Морозовой, А. В. Пикулькина. -2-е изд., перераб. и доп. -М.: ЮНИТИ-ДАНА. 2003. -279 с. -(Серия «Профессиональный учебник: Экономика»).

11. Эконометрика. Учебник. И.И. Елисеевой. -М.: Финансы и статистика, 2002 -344 с.

12.Эконометрические методы. Дж. Джонстон. -М.: Статистика, 1980 -444 с.

Автор, аннотация, ключевые слова

Моисеев Никита Александрович, к.э.н., доцент кафедры Математических методов в экономике РЭУ им. Г.В. Плеханова. mr.nikitamoiseev@gmail.com

Романников Александр Николаевич, к.э.н., доц., доцент кафедры Математических методов в экономике РЭУ им. Г.В. Плеханова. Romannikov.AN@rea.ru

В данной статье представлен сравнительный анализ способов спецификации линейного регрессионного уравнения посредством проведения серии машинных экспериментов. Тестируются такие методы отбора переменных как прямой отбор, пошаговый отбор, обратное исключение, отбор по остаточной корреляции, лучшие подмножества и все возможные комбинации. В качестве критерия эффективности модели сравниваются такие показатели как средняя квадратичная ожидаемая ошибка прогноза, Байесовский информационный критерий, F-статистика и дисперсия бутстрапированных ошибок. В результате проведенных экспериментов делаются выводы и даются рекоммендации относительно оптимальности применимости того или иного способа спецификации, а также критерия эффективности модели при различных параметрах исследуемых наборов данных.

Спецификация регрессии, линейная модель, метод наименьших квадратов, Байесовский информационный критерий, F-статистика.

Author, Abstract, Key words

Moiseyev Nikita Aleksandrovich, PhD Econ., the associate professor of Mathematical methods in REU economy of G. V. Plekhanov. mr.nikitamoiseev@gmail.com

Romannikov Alexander Nikolaevich, PhD Econ., доц., the associate professor of Mathematical methods in REU economy of G. V. Plekhanov. Romannikov.AN@rea.ru

In this article the comparative analysis of methods of the specification of the linear regression equation by means of carrying out a series of machine experiments is provided. Such methods of selection of variables as direct selection, step by step selection, the reverse exception, selection on residual correlation, the best subsets and all possible combinations are tested. As criterion of efficiency of model such indices as the average square expected forecast error, Bayesian information criterion, F-statistics and dispersion the butstrapirovannykh of errors are compared. As a result of the made experiments conclusions are drawn and recommendations concerning an optimality of applicability of this or that method of the specification, and also criterion of efficiency of model in case of different parameters of the researched data sets are given.

Specification of regression, the linear model, least-squares method, Bayesian information criterion, F-statistics.

Анализ эффективности способов спецификации уравнения регрессии Текст научной статьи по специальности «Экономика и бизнес»

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Н. А. Моисеев, А. Н. Романников

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Н. А. Моисеев, А. Н. Романников

Analysis of efficiency of ways of the specification of the equation of regression

Текст научной работы на тему «Анализ эффективности способов спецификации уравнения регрессии»