Научная статья на тему 'Основные предпосылки классической линейной регрессии и последствия их нарушений'

Основные предпосылки классической линейной регрессии и последствия их нарушений Текст научной статьи по специальности «Математика»

CC BY
1412
204
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
классическая линейная регрессия / предпосылки эконометрического моделирования / мультиколлинеарность / гетероскедастичность / автокорреляция / спецификация / случайные шоки / classical linear regression model / assumptions / multicollinearity / heteroscedasticity / autocorrelation / model specification / random shocks

Аннотация научной статьи по математике, автор научной работы — Схведиани Анги Ерастиевич

Эконометрический анализ является мощным инструментом проведения эмпирических исследований. Однако, результаты его использования не всегда проверяются на соответствие основным предпосылкам классической линейной регрессии. Зачастую, незнание основных предпосылок приводит к формированию ложных выводов касательно исследуемого явления. Таким образом, цель данного исследования состоит в систематизации основных предпосылок регрессионного моделирования, их описании и определении последствий их нарушения. Первое предположение заключается в том, что модель должна быть корректно специфицирована, то есть должна быть выбрана правильная функциональная форма модели и в неё должны быть включены те факторы, которые необходимы, и не включены избыточные или нерелевантные факторы. Среди нарушений этого предположения можно выделить: пропуск нужной зависимой переменной, включение лишней переменной, нелинейность по параметрам, наличие изменяющихся параметров. Второе предположение состоит в том, что у модели должен быть полный ранг, то есть между объясняющими переменными не должно быть точной линейной зависимости, а число наблюдений не должно быть меньше числа независимых переменных. В случае нарушения этой предпосылки проявляется мультиколлинеарность. Третье предположение состоит в том, что независимые переменные должны быть экзогенны, то есть математическое ожидание случайных шоков должно быть равно нулю. В случае нарушения этой предпосылки константа смещается. Четвертое предположение – сферичность случайных шоков, которая достигается в случае, если дисперсия случайных шоков постоянна, а их автокорреляция равна нулю. Нарушение четвертой предпосылки проявляются в виде гетероскедастичности и автокоррелиряции ошибок. Пятое предположение – нормальность распределения случайных ошибок. Нарушение этой предпосылки приводит к нестабильности доверительных интервалов оценок параметров модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Basic premises of classical linear regression and the consequences of their violations

Econometric analysis is a powerful tool for conducting empirical research. However, the results of its use are not always checked for compliance with the basic assumptions of classical linear regression. Violation of basic assumptions leads to the false conclusions regarding the phenomenon under study. Thus, the purpose of this study is to systematize the main assumptions of regression modeling and to determine the consequences of their violation. The first assumption is that the model should be correctly specified. Researcher should choose correct functional form of the model should and factors, which should be included into the model. Violations of this assumption include: omission of the required dependent variable, inclusion of an extra variable, nonlinearity in parameters, changing parameters. The second assumption is that the model should have full rank. It means, that there should not be an exact linear relationship between the explanatory variables, and the number of observations should not be less than the number of independent variables. If this assumprion is violated, multicollinearity appears. The third assumption is that the explanatory variables must be exogenous, that is, the mathematical expectation of random shocks must be zero. If this assumption is violated, the constant term is biased. The fourth assumption is spherical shocks, which is achieved if the variance of random shocks is constant, and their autocorrelation is zero. Violation of the fourth assumption appears in the form of heteroscedasticity and autocorrelation of errors. The fifth assumption is the normal distribution of random errors. Violation of this assumption leads to instability of confidence intervals for model parameters.

Текст научной работы на тему «Основные предпосылки классической линейной регрессии и последствия их нарушений»

Основные предпосылки классической линейной регрессии и последствия их нарушений

Схведиани Анги Ерастиевич

ассистент Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Великого, shvediani_ae@spbstu.ru

Петра

о см о см

со

о ш т

X

<

т О X X

Эконометрический анализ является мощным инструментом проведения эмпирических исследований. Однако, результаты его использования не всегда проверяются на соответствие основным предпосылкам классической линейной регрессии. Зачастую, незнание основных предпосылок приводит к формированию ложных выводов касательно исследуемого явления. Таким образом, цель данного исследования состоит в систематизации основных предпосылок регрессионного моделирования, их описании и определении последствий их нарушения. Первое предположение заключается в том, что модель должна быть корректно специфицирована, то есть должна быть выбрана правильная функциональная форма модели и в неё должны быть включены те факторы, которые необходимы, и не включены избыточные или нерелевантные факторы. Среди нарушений этого предположения можно выделить: пропуск нужной зависимой переменной, включение лишней переменной, нелинейность по параметрам, наличие изменяющихся параметров. Второе предположение состоит в том, что у модели должен быть полный ранг, то есть между объясняющими переменными не должно быть точной линейной зависимости, а число наблюдений не должно быть меньше числа независимых переменных. В случае нарушения этой предпосылки проявляется муль-тиколлинеарность. Третье предположение состоит в том, что независимые переменные должны быть экзогенны, то есть математическое ожидание случайных шоков должно быть равно нулю. В случае нарушения этой предпосылки константа смещается. Четвертое предположение - сферичность случайных шо-ков, которая достигается в случае, если дисперсия случайных шоков постоянна, а их автокорреляция равна нулю. Нарушение четвертой предпосылки проявляются в виде гетероскедастич-ности и автокоррелиряции ошибок. Пятое предположение -нормальность распределения случайных ошибок. Нарушение этой предпосылки приводит к нестабильности доверительных интервалов оценок параметров модели. Ключевые слова: классическая линейная регрессия, предпосылки эконометрического моделирования, мультиколлинеар-ность, гетероскедастичность, автокорреляция, спецификация, случайные шоки

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-310-90069.

Введение

Эконометрика - наука, позволяющая эмпирически оценивать связи между различными экономическими явлениями. Проведение эмпирического исследования для идентификации и анализа взаимосвязей является основой для получения качественного результата, имеющего экономический смысл. Однако, в большинстве случаев качеству модели в отечественных исследованиях уделяется мало внимания, хотя нарушение предпосылок эконометрического моделирования может приводить к смещению результатов и ложным выводам. Так, часто исследователи не уделяют внимание анализу остатков или корректной спецификации модели, не учитываю возможное влияние мультиколлинеарности между экзогенными переменными. В этой связи актуальным является систематизация и детальное описание основных предпосылок регрессионного моделирования и последствий их нарушений.

Таким образом, цель исследования состоит в систематизации основных предпосылок регрессионного моделирования, их описании и определении последствий их нарушения.

1. Краткая теория проведения регрессионного анализа

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели [1,2]. Связь между переменной у и К независимыми факторами можно охарактеризовать с помощью уравнения 1.

у = /(х1,х2,х3.....хк)+е=х1р1+х2р2 + - + хкрк +

£ (1)

которое показывает, каково будет в среднем значение переменной у (зависимая или объясняемая переменная), если переменные хъ...,хк (независимые или объясняющие переменные) примут конкретные значения. Функция [ (хъх2,х3,...,хк) называется теоретическим уравнение регрессии у на хъ...,хк. Эта функция описывает зависимость у от хъ...,хк в генеральной совокупности. Перечень зависимых и независимых переменных определяется в соответствии с экономической теорией. е - случайное возмущение, которое является неотъемлемой частью любого стохастического процесса. Введение в уравнение случайного возмущения необходимо, так как любая, даже самая сложная модель, не может полностью описать все взаимосвязи, присущие сложным социально - экономическим системам. Кроме того, причиной наличия больших случайных возмущений могут являться ошибки измерения и ошибки в собранных данных [1].

Таким образом, наблюдаемое значение уь состоит из детерминированной части и случайного члена £;. То есть, у; порождается случайным процессом, который можно описать с помощью уравнения 2.

У; = х1101 + х12р2 +••• + х1к@к + £; (2)

Получаемые оценки параметров регрессионной модели должны быть наилучшими линейными несмещенными оценками. Под наилучшей оценкой подразумевается наиболее эффективная, то есть та, у которой дисперсия ошибок минимальна. Под несмещенными оценками понимаются оценки, которые остаются неизменными при осуществлении повторной выборки. Под линейными подразумевается оценки, которые отражают постоянный вклад независимой переменной в зависимую. Также, существует условие состоятельности оценок регрессионного уравнения, которое заключается в том, что при увеличении объёма выборки значение оценок параметров регрессии будет приближаться к истинному значению параметров регрессии [2,3]. Для получения этих оценок необходимо соблюдать основные предпосылки линейной классической модели регрессии

2. Предпосылки эконометрического моделирования

2.1. Линейность по параметрам (правильная спецификация)

Первое предположение (А1) классической линейной регрессии заключается в том, что модель должна быть корректно специфицирована. Корректная спецификация означает, что выбрана правильная функциональная форма модели и что в неё включены те факторы, которые необходимы, и не включаются избыточные или нерелевантные факторы [4.5].

Необходимость включения в модель различных факторов определяется, в первую очередь, экономическим смыслом. Если включенные факторы в совокупности могут объяснить большую часть изменения зависимой переменной, то модель качественно специфицирована и может быть использована для прогнозирования. Если

г»о ? гоо.о

к

£ ■

1000

50.0

О 20 40 »0 »0 100

X

же нет, то возникает проблема наличия пропущенных переменных (omitted variable bias). Как следствие, полученные оценки параметров регрессии будут смещены из-за некорректной спецификации модели в случае, если пропущенная переменная не ортогональна включенным в уравнение переменным.

Выбор правильной функциональной формы означает, что модель должна быть линейной по параметрам, то есть предельный эффект изменения x для y всегда будет постоянным: при увеличении независимой переменной на 1 единицу, зависимая будет всегда в среднем увеличиваться на р единиц.

На рисунке 1 представлены различные уравнения зависимости между у и х. Зелёная линия на рисунке построена с помощью МНК, в основе которого лежит предположение о линейности зависимости между у и х. Оранжевая линия - зависимость, полученная в результате оценки локально взвешенной регрессии. Можно заметить, что если истинное уравнение - линейная зависимость между у и х, как, к примеру, на графике уравнения у = 10 + 2х + и, то зелёная линия совпадает с оранжевой. То есть оценка в коэффициента, полученная с помощью метода МНК, отражает линейную зависимость по параметрам между у и х.

Однако, если мы с помощью метода МНК пытаемся оценить зависимость между у и х в случае, когда она на самом деле не является линейной, то оценки, полученные с помощью МНК и локально взвешенной регрессии, будут различаться. При этом МНК будет давать априори худшие оценки параметров модели, т.к. в его основе лежит предположение о линейности зависимости между у и х.

11.0 0

♦ к

; 111 о

too

о го jo 60 № юс X

р «ООО

о Наблюдения — — Линейная регрессия - Локально взвешенная регрессия

Рисунок 1- Примеры функциональных форм. (Составлено автором)

X X О го А С.

X

го m

о

Последствия нарушения данной части первого условия Гаусса - Маркова заключаются в том, что полученные оценки параметров регрессии будут смещены и не будут отражать реальной зависимости между у и х.

2.2. Полный ранг (отсутствие строгой мульти-коллинеарности)

Второе предположение (А2) классической линейной регрессии состоит в том, что у модели должен быть полный ранг. То есть столбцы X должны быть линейно не-

2 О

м о

зависимы друг от друга, а в наборе данных должно содержаться не менее К наблюдений. Таким образом, уравнение регрессии должны быть идентифицируемо. При этом, необходимо отметить, что, даже если отсутствует строгая мультиколлинеарность, может иметь место мультиколлинеарность между переменными. Наличие мультиколлинеарности не приводит к смещению оценок параметров модели, однако, с увеличением мультиколлинеарности происходит увеличение стандартных ошибок оценок параметров модели. Как следствие, увеличиваются доверительные интервалы оценок, а ^статистика будет очень маленькой [1]. Таким образом, при наличии зависимости между объясняющими переменными часть оценок коэффициентов модели может стать незначимыми из-за того, что вырастут оценки их стандартных ошибок.

и условное математическое ожидание каждого случайного шока по всем х;. Таким образом, предполагается, что экзогенные переменные не содержат какой-либо информации, которая могла бы быть полезна при оценке случайных шоков. Если мы воспринимаем х в качестве детерминированный величины, а у в качестве случайной, то случайная ошибка должна быть распределена независимо от объясняющих переменных, то есть корреляция между случайными ошибками и регрессорами должна быть равна нулю [4]. В случае наличия в уравнении постоянного члена можно предположить автоматическое выполнение данного условия, так как именно он должен учитывать систематическую для всех наблюдений тенденцию объясняемой переменной, которая не учитывается экзогенными переменными.

о сч о сч

со

о ш m

X

<

m О X X

2.3. Экзогенность независимых переменных

Третье предположение (А3) классической линейной регрессии - экзогенность независимых переменных. Предполагается, что математическое ожидание случайных шоков равно нулю. Кроме того, равно нулю

2.4. Сферические шоки

Четвертое предположение классической линейной регрессии (А4) касается дисперсий и ковариаций случайных шоков. Гомоскедастичность случайных ошибок предполагает, что дисперсия случайных шоков будет постоянна (см. Рисунок 2).

Рисунок 2 - Пример гомоскедастичных и гетероскедастичных остатков модели. (Составлено автором)

А условие некоррелированности ошибок состоит в том, что предполагается отсутствие систематической связи между значениями случайной ошибки в любых двух наблюдениях. Случайные ошибки должны быть абсолютно независимы друг от друга, то есть ковариация между ними должна быть равна нулю [5]. Это условие часто нарушается в случае, когда наши данные являются временными рядами [6]. В случае, когда условие некоррелированности ошибок не выполняется, то говорят об автокорреляции ошибок.

Выполнение условий гомоскедастичности и отсутствия автокорреляции ошибок позволяет говорить о том, что шоки являются сферическими, то есть в формуле многомерной нормальной плотности уравнение задаёт шар с центром ^ и радиусом а в п-мерном пространстве.

2.5. Нормальность распределения случайных шоков

Предположение о нормальности распределения ошибок (А5) часто используется одновременно с условиями Гаусса-Маркова. Ошибки имеют совместное нормальное распределение с параметрами: математическое ожидание - 0, дисперсия - а2. В большинстве регрессионных моделях данное условие является избыточным и невыполнимым в строгом смысле этого слова. Это связано с тем, что большинство статистических тестов на нормальность очень чувствительны к выбросам, то есть наличие даже небольшого количества аномально высоких остатков в модели может стать основанием для отвержения гипотезы о нормальности распределения. Однако, графический анализ распределения остатков может подсказать насколько отклонение от

нормальности большое и у каких конкретно наблюдений эти отклонения есть. Данная информация может стать основанием для дополнения модели и учета уникальных характеристик объекта исследования.

2.6. Систематизация предпосылок проведения регрессионного анализа

В таблице 1 систематизированы предпосылки классической линейной регрессии, дана математическая запись и текстовое определение. Также, в последнем столбце отображены нарушения предпосылок.

Таблица 1

Предположения модели классической линейной регрессии и

Предположение Математическая за пись - Определение Нарушение

Пропуск нуж-

ной зависи-

А1. Ли- мой перемен-

нейность У[ можно выра- ной

по пара- зить в качестве Включение

метрам (пра- Уг = xiift + РкН -xi2p2- + -et линейной функции от хг,^,хк лишней переменной

вильная специфи- плюс случайное возмущение Нелинейность

кация) Изменяющиеся параметры

Между объясняю-

А2. Полный ранг (отсутствие строгой мульти-коллинеарности) щими переменными не должно быть точной линейной зависимо- Строгая муль-тиколлинеар-ность

rang(X) = K <N сти, а число наблюдений не должно быть Мультиколли-

меньше числа независимых переменных неарность

А3. Экзо- E[E2IX] Математическое ожидание случай-

генность = ного возмущения

независимых — 0 £[enIXl в выборке не зависит от значений Смещенная константа

перемен- 1 независимых пе-

ных Cov[Ei,X] = 0 ременных и равно нулю.

Если дисперсия

А4. Сферические Varle^X] = a2 Cov[euEjlX] = 0 1 = случайных шоков постоянна, а автокорреляция случайных ошибок Гетеро- скедастич- ность

шоки \о2 - 0 E[£„£„ |X]1 -2 r равна нулю, то их

называют сфери- Автокоррели-

[ 0 - о ческими шоками (возмущениями) рованные ошибки

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А5. Нор-

маль- Шоки распреде-

ность лены нормально, Нестабильные

распределения e|X~N[0, ff2I] их математическое ожидание доверительные интер-

случай- равно нулю, а дис- валы

ных шо- персия постоянна

ков

Составлено по: [1-6]

При соблюдении перечисленных пяти условий регрессионная модель называется классической нормальной линейной регрессионной моделью, а оценки коэффициентов регрессии будут BLUE (best linear unbiased estimators, наилучшими линейными несмещенными оценками). Это означает, что полученные оценки параметров модели будут:

• оценками истинных значений параметров модели;

• отображать линейную зависимость между эндогенной и экзогенными переменными;

• несмещенными, то есть будут равны истинным значениям параметров модели;

• эффективными, то есть обладающими наименьшей дисперсией.

Заключение

В заключении необходимо отметить, что экономет-рический анализ является мощным инструментом в руках исследователя и знание особенностей его применения позволит сделать корректные выводы по результатам расчётов.

В данной статье были рассмотрены основные предпосылки проведения регрессионного анализа, показаны последствия нарушения этих предпосылок. Результаты были систематизированы в табличной форме, что позволит более точно понимать какие последствия нарушений тех или иных предпосылок.

Литература

1. Грин У. Эконометрический анализ. Книга 1 / под ред. Синельников С.С., Турунцева М.Ю. Москва: Дело, 2016. 760 с.

2. Кеннеди П. Путеводитель по эконометрике. Книга 1. Москва: Дело, 2016. 518 с.

3. Кэмерон К.Э., Триведи П.К. Микроэконометрика: методы и их применения. Книга 1. Москва: Дело, 2015. 522 с.

4. Дэвидсон Р., Мак-Киннон Д.Г. Теория и методы эконометрики. Москва: Дело, 2018. 936 с.

5. Елисеева И.И. Эконометрика: Учебник для бакалавриата и магистратуры // М. Юрайт. 2018.

6. Brooks C. Introductory econometrics for finance. Cambridge university press, 2019.

Basic premises of classical linear regression and the

consequences of their violations Shvediani A.E.

St. Petersburg Polytechnic University Peter the Great Econometric analysis is a powerful tool for conducting empirical research. However, the results of its use are not always checked for compliance with the basic assumptions of classical linear regression. Violation of basic assumptions leads to the false conclusions regarding the phenomenon under study. Thus, the purpose of this study is to systematize the main assumptions of regression modeling and to determine the consequences of their violation. The first assumption is that the model should be correctly specified. Researcher should choose correct functional form of the model should and factors, which should be included into the model. Violations of this assumption include: omission of the required dependent variable, inclusion of an extra variable, nonlinearity in parameters, changing parameters. The second assumption is that the model should have full rank. It means, that there should not be an exact linear relationship between the explanatory variables, and the number of observations should not be less than the number of independent variables. If this assumprion is violated, multicollinearity appears. The third assumption is that the

X X О го А С.

X

го m

о

ю 00

2 О

м о

explanatory variables must be exogenous, that is, the mathematical expectation of random shocks must be zero. If this assumption is violated, the constant term is biased. The fourth assumption is spherical shocks, which is achieved if the variance of random shocks is constant, and their autocorrelation is zero. Violation of the fourth assumption appears in the form of heteroscedasticity and autocorrelation of errors. The fifth assumption is the normal distribution of random errors. Violation of this assumption leads to instability of confidence intervals for model parameters.

Key words: classical linear regression model, assumptions, multicollinearity, heteroscedasticity, autocorrelation, model specification, random shocks

References

1. Green W. Econometric analysis. Book 1 / ed. Sinelnikov S.S.,

Turuntseva M.Yu. Moscow: Delo, 2016.760 p.

2. Kennedy P. A Guide to Econometrics. Book 1. Moscow: Delo,

2016.518 p.

3. Cameron K.E., Trivedi P.K. Microeconometrics: Methods and

Applications. Book 1. Moscow: Delo, 2015.522 p.

4. Davidson R., McKinnon D.G. Theory and methods of econometrics. Moscow: Delo, 2018.936 p.

5. Eliseeva I.I. Econometrics: Textbook for Bachelor's and Master's

Degree // M. Yurayt. 2018.

6. Brooks C. Introductory econometrics for finance. Cambridge

university press, 2019.

o

CS

o

CS CO

o

HI

m

X

<

m o x

X

i Надоели баннеры? Вы всегда можете отключить рекламу.