Научная статья на тему 'Проблемы мультиколлинеарности и гетероскедастичности в построении модели конечного потребления на примере кыргызской республики'

Проблемы мультиколлинеарности и гетероскедастичности в построении модели конечного потребления на примере кыргызской республики Текст научной статьи по специальности «Математика»

CC BY
247
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКОНОМЕТРИКА / РЕГРЕССИЯ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ / КОРРЕЛЯЦИОННАЯ МАТРИЦА / МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ / ДИСПЕРСИЯ / МНОЖЕСТВЕНННАЯ РЕГРЕССИЯ / МУЛЬТИКОЛЛИНЕАРНОСТЬ / ГЕТЕРСКЕДАСТИЧНОСТЬ / ГОМОСКЕДАСТИЧНОСТЬ / ВАЛОВЫЙ ВЫПУСК ПРОДУКЦИИ / КОНЕЧНОЕ ПОТРЕБЛЕНИЕ / СРЕДНЯЯ ЗАРПЛАТА / ОБЪЕМ ПРОДУКЦИИ / ДОХОДЫ И РАСХОДЫ БЮДЖЕТА / ИНВЕСТИЦИИ В ОСНОВНОЙ КАПИТАЛ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / МЕТОД ВЗВЕШЕННЫХ НАИМЕНЬШИХ КВАДРАТОВ / КРИТЕРИЙ ПРОГНОЗНЫХ КАЧЕСТВ / РАНГОВАЯ КОРРЕЛЯЦИЯ СПИРМЕНА / ECONOMETRICS / REGRESSION / CORRELATION COEFFICIENT / DETERMINATION COEFFICIENT / CORRELATION MATRIX / MATHEMATICAL EXPECTATION / VARIANCE / MULTIPLE REGRESSION / MULTICOLLINEARITY / HETERKESTEDASTICITY / HOMOSCEDASTICITY / GROSS OUTPUT / FINAL CONSUMPTION / AVERAGE WAGE / PRODUCTION / INCOME AND EXPENDITURE OF THE BUDGET / INVESTMENT IN FIXED CAPITAL / LEAST SQUARES METHOD / WEIGHTED LEAST SQUARES METHOD / PREDICTIVE QUALITIES CRITERION / SPEARMAN RANK CORRELATION

Аннотация научной статьи по математике, автор научной работы — Давлятова Бузира

Рассматриваются проблемы мультиколлинеарности и пути избавления от нее при выборе состава независимых переменных линейной множественной регрессионной модели.Также анализируется наличие или отсутствие гетероскедастичности модели конечного потребления с использованием статистических данных Кыргызской республики за 2000 2017 гг. с применением ранговой корреляции Спирмена. При наличии гетероскедастичности для построения модели использован взвешенный метод ниаменьших квадратов. Делается анализ по полученной модели о поведении конечного потребления в реалии Кыргызстана.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROBLEMS OF MULTICOLLINEARITY AND HETEROSCEDASTICITY IN BUILDING A MODEL OF FINAL CONSUMPTION ON THE EXAMPLE

The problems of multicollinearity and ways to get rid of it when choosing the composition of independent variables of the linear multiple regression model are considered. The presence or absence of heteroscedasticity of the final consumption model is also analyzed using statistical data from the Kyrgyz Republic for 2000-2017 using the Spearman's rank correlation. In the presence of heteroscedasticity, a weighted least squares method was used to build the model. An analysis is made of the resulting model on the behavior of final consumption in the realities of Kyrgyzstan.

Текст научной работы на тему «Проблемы мультиколлинеарности и гетероскедастичности в построении модели конечного потребления на примере кыргызской республики»

ПРОБЛЕМЫ МУЛЬТИКОЛЛИНЕАРНОСТИ И ГЕТЕРОСКЕДАСТИЧНОСТИ В ПОСТРОЕНИИ МОДЕЛИ КОНЕЧНОГО ПОТРЕБЛЕНИЯ НА ПРИМЕРЕ КЫРГЫЗСКОЙ РЕСПУБЛИКИ Давлятова Б. Email: Davliatova664@scientifictext.ru

Давлятова Бузира - доцент, кафедра информационных систем в экономике, Кыргызский государственный технический университет им. Р. Исхакова, г. Бишкек, Кыргызская республика

Аннотация: рассматриваются проблемы мультиколлинеарности и пути избавления от нее при выборе состава независимых переменных линейной множественной регрессионной модели.Также анализируется наличие или отсутствие гетероскедастичности модели конечного потребления с использованием статистических данных Кыргызской республики за 2000 - 2017 гг. с применением ранговой корреляции Спирмена. При наличии гетероскедастичности для построения модели использован взвешенный метод ниаменьших квадратов. Делается анализ по полученной модели о поведении конечного потребления в реалии Кыргызстана. Ключевые слова: эконометрика, регрессия, коэффициент корреляции, коэффициент детерминации, корреляционная матрица, математическое ожидание, дисперсия, множественнная регрессия, мультиколлинеарность, гетерскедастичность, гомоскедастичность, валовый выпуск продукции, конечное потребление, средняя зарплата, объем продукции, доходы и расходы бюджета, инвестиции в основной капитал, метод наименьших квадратов, метод взвешенных наименьших квадратов,критерий прогнозных качеств, ранговая корреляция Спирмена.

PROBLEMS OF MULTICOLLINEARITY AND HETEROSCEDASTICITY IN BUILDING A MODEL OF FINAL CONSUMPTION ON THE EXAMPLE OF THE KYRGYZ REPUBLIC Davliatova B.

Davliatova Buzira - Associate Professor, DEPARTMENT INFORMATION SYSTEMS IN THE ECONOMY, KYRGYZ STATE TECHNICAL UNIVERSITY NAMED OF R. ISKHAKOV, BISHKEK, REPUBLIC OF KYRGYZSTAN

Abstract: the problems of multicollinearity and ways to get rid of it when choosing the composition of independent variables of the linear multiple regression model are considered. The presence or absence of heteroscedasticity of the final consumption model is also analyzed using statistical data from the Kyrgyz Republic for 2000-2017 using the Spearman's rank correlation. In the presence of heteroscedasticity, a weighted least squares method was used to build the model. An analysis is made of the resulting model on the behavior of final consumption in the realities of Kyrgyzstan.

Keywords: econometrics, regression, correlation coefficient, determination coefficient, correlation matrix, mathematical expectation, variance, multiple regression, multicollinearity, heterkestedasticity, homoscedasticity, gross output, final consumption, average wage, production, income and expenditure of the budget, investment in fixed capital, least squares method, weighted least squares method, predictive qualities criterion, Spearman rank correlation.

В этой статье, абстрагируясь от экономического обоснования модели для конечного потребления, сделана попытка построения этой модели с учетом требований к качеству эконометрической модели.

Как известно, при построении линейной регрессионной модели, делаются следующие предположения:

1. Связь является линейной;

2. Независимые переменные предполагаются известными и могут быть использованы при прогнозировании зависимой переменной;

3. Ошибки, или остатки, нормально распределены;

4. Для любых данных математическое ожидание остатков равно нулю: М (е) = 0 ;

5. Дисперсия постоянна для всех значений независимых переменных: с 2 = е и

это означает означает, что имеет место гомоскедастичность;

6. Ошибки (остатки) модели независимы между собой.

Условия (3) - (6) называются условиями Гаусса - Маркова.

Кроме того, большое значение имеет правильный подбор факторов (независимых переменных) множественной регрессионной модели, иногда виной неадекватной модели может стать мультиколлинеарность независимых переменных модели, т.е. независимые переменные модели в идеале должны быть не связанными между собой.

Невыполнение условия (5) приводит к непостоянству дисперсии, т.е. в этом случае имеется гетероскедастичность.

Обычно, на практике, для регрессионных моделей, не проводится полное исследование их качества. В большинстве случаев, исследование качества модели ограничивается проверкой статистических значимостей коэффициентов регрессии и общего качества модели. Между тем, наличие мультиколлинеарности независимых переменных и гетероскедастичности, приводит к получению неверных оценок исследуемых переменных.

Для построения модели фактического потребления были взяты статистические данные валового выпуска продукции - ВВП, средней заработной платы, объем промышленной продукции, сельхозпродукции, объем инвестиции в основной капитал, доход и расход госбюджета за 2000-2017 гг. Кыргызской республики. Данные приведены в следующей таблице.

Объем Объем с/х Инвести-

Конечное ВВП, млн с. Средняя ции в Доходы Расходы

Год потребление, з/плата, промыш. продукции, млн с. продукции, осн. бюджета, бюджета,

млн с. с. млн с. капитал, млн с. млн с. млн с.

2000 60282,00 65357,90 1227,00 41407,90 40998,40 10855,00 10029,10 11308,20

2001 60804,80 73883,30 1455,10 44595,40 47737,70 9842,20 12539,70 12255,70

2002 64929,40 75240,40 1684,40 42465,90 47899,30 9377,90 14411,70 15188,60

2003 83871,60 83871,60 1916,00 48940,10 53879,20 8950,50 16209,00 16890,60

2004 88893,00 94350,60 2240,00 52771,70 59189,10 10218,60 18335,70 18841,50

2005 102972,40 100899,20 2613,00 51216,60 63379,50 11594,60 20367,30 20143,20

2006 128722,70 113800,10 3270,00 54423,90 72277,40 18771,30 25078,50 25296,60

2007 148410,00 141897,70 3970,00 59823,50 89886,10 24087,50 35988,40 35859,40

2008 206902,40 187991,90 5378,00 89235,70 112099,60 32535,00 46597,60 45032,00

2009 194606,90 201222,90 6161,00 99031,50 111283,90 42496,90 55669,40 58628,20

2010 226369,10 220369,30 7189,00 126179,40 115068,30 44333,30 58013,20 68781,20

2011 290650,50 285989,10 9304,00 164361,10 149276,30 49369,20 77880,40 91544,10

2012 359856,30 310471,30 10726,00 137229,20 167393,40 73222,10 87008,10 107240,40

2013 410819,00 350028,00 11340,70 169829,40 171695,60 82874,50 101940,80 104271,30

2014 454676,10 400694,00 12285,00 171108,90 195650,90 107884,60 119928,10 121304,70

2015 |447841,50 423635,30 14483,00 175164,00 197065,80 129878,90 128230,80 134540,40

2016 483983,50 458027,40 14492,00 205265,60 197199,80 133383,70 130665,20 151543,20

2017 513,130,40 520958,60 15670,00 231187,80 207378,40 144705,80 149429,90 165916,50

При построении модели множественной регрессии для независимых переменных, включаемых в модель, должны выполняться следующие два условия:

- зависимая переменная в достаточной степени должна быть связана с каждой независимой переменной модели;

- независимые переменные не должны быть связаны между собой.

Поэтому были найдены парные коэффициенты корреляции между зависимой переменной (конечным потреблением) и каждой независимой переменной. Введены следующие обозначения: у - конечное потребление, зависимая переменная;

независмые переменные - Х^ - ВВП, Х^ - средняя заработная плата по республике, Х3 - объем промышленной продукции, Х4 - объем сельхоз

продукции, Х5 - объем инвестиции в основной капитал, Х6 - доход и Ху -

расход государственного бюджета.

Полученные все парные коэффициенты корреляции оказались почти одинаково

высокими: ГУХ =0,9977, ГУХ =0,9954, ГУХ =0,9992, Тт =0,9964, ГУХ =0,9980,

Гух6 =0,9921 и Г =0,9990, что свидетельствует о наличии тесной линейной связи

между зависимой переменной и каждой независимой переменной. Поэтому на этом этапе из независимых переменных ни одна не исключается.

Далее была построена корреляционная матрица, содержащая частные коэффициенты корреляции между каждой возможной парой независимых переменных:

я =

1 Г12 Г13 Г14 Г15 Г16 Г17 " 1 0,28 - 0,31 - 0,05 - 0,41 - 0,81 0,26

Г21 1 Г23 Г24 Г25 Г26 Г27 1 0,94 0,28 0,04 0,41 - 0,79

Г31 Г32 1 Г34 Г35 Г36 Г37 1 0,96 0,98 - 0,14 - 0,98

Г41 Г42 Г43 1 Г45 Г46 Г47 = 1 - 0,22 0,39 0,38

Г51 Г52 Г53 Г54 1 Г56 Г57 1 - 0,68 0,98

Г61 Г62 Г63 Г64 Г65 1 Г67 1 0,98

Г71 Г72 Г73 Г74 Г75 Г76 1 1

Примечание. Корреляционная матрица является симметричной относительно главной диагонали: Г = Гji.

Исходя из полученной корреляционной матрицы, видим, что переменные и

Х6 сильно связаны между собой . Такая же картина наблюдается и для пар

переменных

Х2 ' Х3

Х3 > Х4

"5 , Х7 ; Х6 , Х7 . Известно, что если две переменные сильно связаны между собой , то из них одна только может быть включена в модель, т.к. влияние исключенной может быть передано через включенную переменную.

Исходя из этого, в модель не могут быть включены переменные Х2 , Хз , Х5 ,

Хб и Х7 . Поэтому построим модель у = Ъ0 + ЪХ + Ъ2Х2.

Объем

сельхозпродукции, обозначенный ранее через Х4 в модели обозначен уже через Х2 . Получена следующая модель:

У = -44439568549 + 0,52хх + 1,43Х2 .

При проверке статистической значимости параметров этой модели получаем: *кт = /0,25;15 = 2,131, Ха =-17,31, Х^ =1,53, Х^ = 10,16 . Как видно,

коэффицент регрессии Р при ВВП статистически незначим, поэтому придется исключить из модели ВВП. Парадоксально ли это? Возможно только одно объяснение этого явления: большинство народа нашей республики потребляют и живут в основном за счет продуктов сельского хозяйства.

Построим зависимость фактического потребления от объема продукции сельского хозяйства:

у = -73546622218 + 2,69х .

Пармаетры этой модели статистически значимы:

Хг = Хо,25;15 = 2,131, Ха =-7,25, Хъ = 34,57.

При построении приведенных выше моделей был применен метод наименьших квадратов.

Одним из условий, выполнение которых необходимо для качественной модели, является постоянство дисперсий ошибок (гомоскедастичность) модели в любой точке. Иначе имеет место гетероскедастичность. Используя ранговый коэффициент

корреляции Спирмена, получим, что нарушается условие гомоскедастичности:

Хп„, ,= 2,131, Х = 8,7376.

0,25;15 ? ? стат ?

В случае, когда имеет место гетероскедастичность, модель строится методом взвешенных наименьших квадратов. Получим следующую модель:

y = -3448197013 8 +1,2185 x.

Как показала проверка, для данной модели отсутствует гетероскедастичность. Общее качество модели также оказалось хорошим, т.к. по F- критерию имеем:

Ffa = 249, Fstat = 1597. Кроме того, прогнозные качества модели отличные:

критерий прогнозных качеств v=0,06=6%.

Вывод: Конечное потребление в Кыргызской республике в большей степени зависит от объема продукции сельского хозяйства, что лишний раз показывает ориентацию нашей экономики. Разумеется, на потребление также оказывают влияние и другие показатели, и в этом случае это влияние, как видели выше, передается через включенные в модель переменные.

Список литературы /References

1. Бородин С.А. Эконометрика. Мн.: Новое знание, 2001. 408 с.

2. Давлятова Б.Д. Введение в эконометрику. Бишкек. ИЦ «Текник, 2012. 122 с.

3. Кыргызстан в цифрах. Бишкек, 2005. С. 321.: nsc_mail@stat.kg.

4. Кыргызстан в цифрах. Бишкек, 2010. С. 334.: nsc_mail@stat.kg.

5. Кыргызстан в цифрах. Бишкек, 2015. С. 341.: nsc_mail@stat.kg.

6. Кыргызстан в цифрах. Бишкек, 2018. С. 343.: nsc_mail@stat.kg.

i Надоели баннеры? Вы всегда можете отключить рекламу.