УДК 519.862.6 БОТ: 10.55648/1998-6920-2022-16-1-89-96
Исследование поведения относительных вкладов переменных в общую детерминацию в оцененном на основе метода выпрямления искаженных коэффициентов регрессионном уравнении
М. П. Базилевский
Для решения проблемы мультиколлинеарности в регрессионном анализе может применяться ранее разработанный автором метод выпрямления искаженных коэффициентов, основанный на построении модели полносвязной линейной регрессии. В статье для оценки степени влияния независимых переменных на зависимую переменную в полученном с помощью этого метода регрессионном уравнении предлагается использовать относительные вклады переменных в общую детерминацию. Доказано, что в таком уравнении в случае линейной функциональной зависимости входных переменных их относительные вклады в общую детерминацию равны. Тогда при сильной корреляции входных переменных их вклады распределяются примерно одинаково. Доказано, что задача оценивания полносвязной регрессии не зависит от выбора связующей переменной. Полученные результаты успешно продемонстрированы на примере моделирования внутреннего валового продукта (ВВП) России.
Ключевые слова: регрессионная модель, мультиколлинеарность, метод выпрямления искаженных коэффициентов, модель полносвязной линейной регрессии, относительные вклады переменных в общую детерминацию, ВВП России.
1. Введение
В регрессионном анализе [1, 2] одной из главных проблем является мультиколлинеарность [3-5]. Она искажает коэффициенты регрессии, что приводит к ошибочной интерпретации влияния тех или иных факторов на зависимую переменную. К настоящему времени проблема мультиколлинеарности не является до конца решенной, поэтому продолжается процесс поиск новых методов [6-8] борьбы с этим негативным явлением. В работе [9] автором была разработана модель полносвязной линейной регрессии (МПЛР), на основе которой в [10] был предложен метод выпрямления искаженных из-за мультиколлинеарности коэффициентов (МВИК). При сильной корреляции независимых переменных знаки коэффициентов в полученном с помощью этого метода регрессионном уравнении согласуются со знаками соответствующих коэффициентов корреляции с зависимой переменной. Поэтому в таком уравнении справедливо оценивать степень влияния независимых переменных на зависимую переменную с помощью известных характеристик -относительных вкладов переменных в коэффициент детерминации. Целью данной работы является исследование поведения этих характеристик и демонстрация полученных результатов на примере моделирования внутреннего валового продукта (ВВП) России.
2. Алгоритм МВИК
МПЛР является обобщением регрессии Деминга и имеет вид:
* (Х! ) - -
ху = Х* + £ , г = 1>п, у = 1>т, (!)
х* = а] + ЬуХ*т, г = 1,п, у = 1»т -1, (2)
где Ху, г = 1, п, у = 1, т - наблюдаемые значения т объясняющих (входных, независимых) переменных Х1, Х2 , ..., хт ; х*, г = 1, п, у = 1, т - их истинные значения; п - объем выборки; а у, Ьу, у = 1, т -1 - неизвестные параметры; е\ у), г = 1, п, у = 1, т - ошибки аппроксимации, которые вызваны неточностями при измерении значений переменных (никаких априорных сведений о вероятностной природе этих ошибок нет).
МПЛР (1), (2) оценивается с помощью взвешенного метода наименьших полных квадратов:
I- Лу £ (Ху - ау - ЬуХут ) + £ (Х1т - х— ) ^ т1п > (3)
у=1 г=Т ' г=Г '
где Л у, у = 1, т -1 - положительные весовые коэффициенты (лямбда-параметры), представляющие собой с вероятностно-статистической точки зрения отношения дисперсий ошибок
-2( Х ) е( Хт)
переменных, т.е. Л у = £ "" , у = 1, т -1.
^)
*
Переменную Хт в правой части равенств (2) будем называть связующей. Возникает вопрос: влияет ли выбор связующей переменной в равенствах (2) на решение задачи (3)? Ответ на него дает теорема 1.
Теорема 1. Выбор связующей переменной в МПЛР (1), (2) не влияет на решение оптимизационной задачи (3).
*
Доказательство. Пусть переменная х* является связующей. Тогда в МПЛР равенства (2) будут иметь вид:
* 0 о * — — Х*у = а у + ЬуХц, г = 1, п, у = 2, т , (4)
0 гО . ~—
где а у , Ьу , у = 2, т - неизвестные параметры.
В таком случае требуется решить оптимизационную задачу п/ * \2 т у п / у 0*\2
£ ( Хг1 - Хг1 ) + £ Лу £ (ху - а0 - Ьу Ху1 ) ^ т1П , (5)
г =Г ' у =2 г =Г !
,0 ° £( Х1) • о-
где Л0 = —££-, у = 2, т .
"()
0 1
т-. /их- - - * ат 1*. -—
Выразим из (4) при у = т значения связующей переменной Хц = —т + — х— , г = 1, п, и
Ьт Ьт
подставим их вместе с соотношениями дисперсий ошибок в (5):
п
£
г =1
( а0 1 ^ т-1О
2 т-1 ) п ( п па0 Ь0 ^ V -1--Ж- — V* -I- V £ У " "0 , г.0 ат Хг1 + А0 г. 0 Х'т + £ 2 £
Ь™ Ь™ у =2 О (х ) I =Ц
V т "т J
£
0 г 0 а0п Ь у *
х - - а0 + Ь0 т---— г-
Хгу ау + Ьу ,0 А0 Хт
Ьт Ьт J
а
+ -
S( xm ) j 1
Z (xim - x*im ) ^ mm •
(6)
а
Умножив выражение (6) на
.(xm)
о
о
а
и обозначив - = -i, -1 = b, a0 - by = aj,
(xi)
b
m
b
m
b
m
b0
-у = Ьу, у = 2,т-1, получим выражение (3). Отсюда следует, что выбор связующей пере-
7 '
Ьт
менной в МПЛР (1), (2) не влияет на решение задачи (3). □
Таким образом, в зависимости от выбора связующей переменной существует т равносильных форм записи МПЛР (1), (2). Дальнейшее изложение ведется исходя из того, что
*
роль связующей переменной играет переменная хт .
Задача (3) при известных лямбда-параметрах решается по следующему алгоритму. 1. Из нелинейной системы
í ~ .л
br
m-1
DXm + Z ^Dxj + 2 Z Z jjjj^xjiXj2 + 2 Z WjKxjXm
j=i ji =i j2 = Ji+ 1 j=i
m - 2 m-i
m -i
V
f
m -1
\
i + Z ajb
j=i
'j j
m -1
Z AjbjKxixn + K. j =1
\
j P
xmxp
, p = 1, m -1,
с помощью предложенного в [10] численного метода находятся оценки I , у = 19т -1.
2. Определяются оценки Г , / = -1.
*
3. Вычисляются оценки истинных значений переменной хт :
т _
~ " Е А]х1] > ¿ =
7=1
(7)
где
А =
^m
А =-
m-1
i+ Z Ц
. 7=1 " J 7=1
= 4
4 7=1 " " )
j = 1, m -1;
4-1
77?—1
1+ I Ау
7=1 ";
В [10] установлено, что при сильной корреляции переменных Х1, Х2, ..., хт знаки ко-
эффициентов уравнения (7) Aj, j = 1, m -1 совпадают со знаками коэффициентов корреля-
ции rx x , j = 1, m -1, а Am > 0. На основе этого в [10] предложен метод выпрямления иска-
j m
женных коэффициентов (МВИК). Его алгоритм «Straight В» заключается в следующем.
1. Оценивается МПЛР (1), (2) при Aj = Dx / Dx , j = 1, m -1 (в [10] показано, что выбор
j m j
таких лямбда-параметров гарантирует максимум аддитивного коэффициента детерминации МПЛР).
2. С помощью метода наименьших квадратов (МНК) оценивается модель Уг — с0 + с\~ ' / = 1, я, где yi, г — \п - значения объясняемой (выходной, зависимой) переменной; со , с - неизвестные параметры; Sj, i = 1, n - ошибки аппроксимации.
3. В оцененную на предыдущем шаге регрессию подставляется выражение (7) и получается регрессионное уравнение:
1
1
- ejxj' 7=1
где 60 =
;6>=Г ,j = l,m.
3. Относительные вклады переменных уравнения (8) в детерминацию
Коэффициент детерминации Я регрессии (8) находится по формуле:
т <
Я2 = £в
. J у yxj •
j=i (y
(9)
При сильной корреляции переменных х1, х2, ..., хт знаки коэффициентов уравнения (8) ву , у = 1, т , совпадают со знаками коэффициентов корреляции гух,, у = 1, т , т.е.
0угух_ > 0, у = 1, т . Тогда справедливы формулы для относительных вкладов переменных в
детерминацию:
У,
1006
/^rel _
CJ ='
J У y yXJ R 2
J =hm .
(10)
Теорема 2. Если все пары объясняющих переменных Х1, Х2, хт связаны между собой линейными функциональными зависимостями и коэффициент корреляции переменных
хт и у отличен от 0, то относительные вклады Сг^, у = 1, т, переменных Х1, Х2, хт в
2
общую детерминацию Я для уравнения (8), полученного на основе МВИК при Лу = Вх / Вх , у = 1, т -1, равны.
Доказательство. Поделим первые (т-1) равенств (10) на последнее:
Crel 6(х rx CJ _ j xj yxj
Cml 6m Уxm ryxm
Поскольку 6 j = i
j = 1, m ,
то
4-1
что Aj = Ají , j = 1, m -1, a Am =
_ 4 7=1 " " J
j = 1, m -1. Тогда (11) примет вид
cf
С J - (ух rvx
Cm xm yxm
j = 1, m -1.
6, Aj -
— = —, J = 1, m -1.
6 A wm m
í , N-l
m—1
i+ E л-i
V 7=1 ' J
получим
(11) Учитывая,
0f
= Ájl >
J = 1, m -1.
(12)
С учетом того, что / Вх., у = 1, т -1, а при линейной функциональной зависи-
мости переменных х1, х2 , хт оценка I равна МНК-оценке углового коэффициента мо-
<rY
дели парной линейной регрессии х^ от хт, т.е. I можно записать в виде:
ш J <rv
, J = 1, m -1, формулу (12)
m
СГ1 О <Уг Гл,г Г,г
С] _ °хт „ х- х- ух- _,„ ух-
, гх х.-----= гх х., - = 1,т —1. (13)
СГе1 О хтх] а а г хтх] г
Ст х- хт хт Ухт Ухт
При линейной функциональной зависимости переменных х1, х2 , ..., хт коэффициенты корреляции гх х,, - = 1, т -1 могут принимать значения или +1, или -1. Если гх х, = 1, то в любом случае Гу^ = г^ , поэтому отношение (13) принимает значение 1. Если же гх х, = —1, то Гух. = —Гух , поэтому отношение (13) вновь принимает значение 1. Отсюда следует, что
все относительные вклады переменных в детерминацию равны. □
Следствием теоремы 2 является то, что при сильной корреляции переменных х1, х2 , ..., хт относительные вклады переменных в детерминацию примерно равны между собой.
Таким образом, МВИК приводит к построению регрессионного уравнения (8), в котором общая детерминация примерно равномерно распределяется между всеми входящими в модель переменными.
4. Моделирование ВВП России
Проблема моделирования ключевых показателей экономики России является чрезвычайно актуальной. Одним из таких показателей является валовой внутренний продукт. Для построения регрессионной модели ВВП России были собраны статистические данные (https://rosstat.gov.ru/) за период 2000-2020 гг. по следующим переменным: у - ВВП (в текущих ценах, млрд руб.);
х1 - среднемесячная номинальная начисленная заработная плата работников по полному
кругу организаций в целом по экономике РФ (руб.);
х2 - численность занятых в возрасте 15-72 лет по РФ (тыс. чел.);
хз - численность безработных в возрасте 15-72 лет по РФ (тыс. чел.);
х4 - наличие основных фондов в РФ на конец отчетного года по полной учетной стоимости (млн руб.);
х5 - потребление электроэнергии по РФ (млн кВтч);
х^ - продукция сельского хозяйства всех категорий по РФ (в фактических действовавших ценах; млрд руб.);
ху - количество введенных зданий жилого и нежилого назначения в РФ (тыс.); х8 - грузооборот железнодорожного транспорта (млрд т км); х9 - оборот розничной торговли по РФ (млн руб.); хю - оборот оптовой торговли по РФ (млрд руб.); х11 - инвестиции в основной капитал в РФ (млн руб.);
х12 - средние цены на первичном рынке жилья по РФ (на конец периода, руб. за 1 квадратный метр общей площади);
х1з - динамика денежной массы (М2) (млрд руб.); х14 - внешняя торговля (экспорт, млн долл. США); х15 - внешняя торговля (импорт, млн долл. США); х16 - цена на нефть (долл. США); х1у - добыча нефти в России (млн тонн).
Для однородности переменные х^, х^, х^, измеряемые в долларах США, были переведены в рублевый эквивалент.
Найденная для переменных у , х1, х2 , ..., х^ корреляционная матрица показала, что все они очень тесно коррелируют друг с другом. Так, например, самое малое по абсолютной величине значение коэффициента корреляции наблюдается между переменными хз и ху , равное -0,794.
Оцененная по исходной выборке с помощью МНК традиционная модель множественной линейной регрессии имеет вид:
•106+67.734х1+14.73 х2+15.508х3-0.00841х4 + 1.54 х5 + (2.457) (2.676) (2.423) (-2.459) (2.609)
+ 6.209 х6 +1205.95ху +115.685х8 — 0.0319 х9 + 10.77 х10 + 0.0085х11 — (1.323) (2.493) (2.09) (—2.432) (2.519) (2.774)
— 12.128 х12 — 10.81 х13 — 0.0197 х14 — 0.0108 х15 — 18.08 х16 — 415.949х17, (14)
(—2.545) (—2.161) (—2.347) (—1.588) (—1.948) (—2.097)
2
для которой Я = 0.999976. В скобках под коэффициентами указаны соответствующие значения ^критерия Стьюдента.
Как и ожидалось, из-за мультиколлинеарности знаки коэффициентов при переменных х3, х4 , х9, х12, х13, х14, х^, х^, х^ в уравнении (11) не соответствуют экономическому смыслу задачи.
Как следует из теоремы 2, в полученном на основе наших исходных данных с помощью МВИК регрессионном уравнении все относительные вклады переменных должны быть примерно равны ~0~% (5.88%).
Оцененная по исходной выборке на основе МВИК регрессионная модель имеет вид:
(15)
где
51 + 0.000296x2 +0.00154*2 -0.0033х3 + 6.236-10-8 х4 + 4.99-10~5 х5 + +0.0025х6 + 0.0587х7 + 0.0112 х8 + 3.925-10"7 х9 + 0.00017х10 + 7.208-10_7хп +
+0.000214х12 + 0.000277х13 + 5.361 -10—7 х14 + 8.6 -10—7 х15 + 0.00329х16 + 0.0537х17. (16) Поставляя (16) в (15), получим регрессионное уравнение:
7.795+ 0.146 х,+ 0.761 х2- 1.649 х3 +3.088-10"5х4 +0.0247х5 + (6.27%) (5.58%) (4.75%) (6.17%) (5.98%)
+1.237 х6 + 29.044х7 + 5.557 х8 + 0.000194х9 + 0.0846х10 + 0.000357 х11 + (6.1%) (5.61%) (5.86%) (6.28%) (6.2%) (6.3%)
+ 0.106 х12 + 0.137 х13 + 0.000265 х14 + 0.000426х15 + 1.631 х16 + 26.592 х17, (17) (5.23%) (6.19%) (6.19%) (6.32%) (5.86%) (5.11%)
2
для которого Я = 0.97764. В уравнении (17) под коэффициентами в скобках указаны относительные вклады переменных в общую детерминацию. Как видно, все объясняющие переменные в (17) поделили общую детерминацию примерно в равных долях, что подтверждает справедливость следствия из теоремы 2.
В модели (1 7) знаки абсолютно всех коэффициентов при объясняющих переменных соответствуют содержательному смыслу задачи. При этом качество модели (17) лишь незначительно ниже, чем у регрессии (14), поэтому её можно использовать не только для интерпретации, но и для прогнозирования.
Доказанные в работе теоремы могут быть использованы для обобщения МВИК для регрессионных моделей с различной степенью корреляции объясняющих переменных.
Литература
1. Arkes J. Regression analysis: a practical introduction. Routledge, 2019. 362 p.
2. Westfall P. H., Arias A. L. Understanding regression analysis: a conditional distribution approach. Chapman and Hall/CRC, 2020. 514 p.
3. Thompson C.G., Kim R.S., Aloe A.M., Becker B.J. Extracting the variance inflation factor and other multicollinearity diagnostics from typical regression results // Basic and Applied Social Psychology. 2017. V. 39, № 2. P. 81-90.
4. Yoo C., Cho E. Effect of multicollinearity on the bivariate frequency analysis of annual maximum rainfall events // Water. 2019. V. 11, № 5. P. 905.
5. Lindner T., Puck J., Verbeke A. Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies // Journal of International Business Studies. 2020. V. 51. P. 283-298.
6. Giacalone M., Panarello D., Mattera R Multicollinearity in regression: an efficiency comparison between Lp-norm and least squares estimators // Quality & Quantity: International Journal of Methodology. 2018. V. 52, № 4. P. 1831-1859.
7. Babaie-Kafaki S., Roozbeh M. A revised Cholesky decomposition to combat multicollinearity in multiple regression models // Journal of Stat. Comp. and Simul. 2017. V. 87. P. 2298-2308.
8. Dawoud I. A new improved estimator for reducing the multicollinearity effects // Communication in Statistics - Simulation and Computation. 2021. P. 1-12.
9. Bazilevskiy M. P. Multifactor fully connected linear regression models without constraints to the ratios of variables errors variances // Inform. and its Applic. 2020. V. 14, № 2. P. 92-97.
10. Bazilevskiy M. P. Method of straightening distorted due to multicollinearity coefficients in regression models // Informatics and its Applications. 2021. V. 15, № 2. P. 60-65.
Статья поступила в редакцию 05.02.2022; переработанный вариант -13.03.2022.
Базилевский Михаил Павлович
к.т.н., доцент кафедры математики ИрГУПС (664074, Иркутск, ул. Чернышевского, 15), e-mail: mik217 [email protected].
References
1. Arkes J. Regression analysis: a practical introduction. Routledge, 2019, 362 p.
2. Westfall P. H., Arias A. L. Understanding regression analysis: a conditional distribution approach. Chapman and Hall/CRC, 2020, 514 p.
3. Thompson C.G., Kim R.S., Aloe A.M., Becker B.J. Extracting the variance inflation factor and other multicollinearity diagnostics from typical regression results. Basic and Applied Social Psychology. 2017, vol. 39, no. 2, pp. 81-90.
4. Yoo C., Cho E. Effect of multicollinearity on the bivariate frequency analysis of annual maximum rainfall events. Water. 2019, vol. 11, no. 5, pp. 905.
5. Lindner T., Puck J., Verbeke A. Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies. Journal of International Business Studies. 2020, vol. 51, pp. 283-298.
6. Giacalone M., Panarello D., Mattera R. Multicollinearity in regression: an efficiency comparison between Lp-norm and least squares estimators. Quality & Quantity: International Journal of Methodology. 2018, vol. 52, no. 4, pp. 1831-1859.
7. Babaie-Kafaki S., Roozbeh M. A revised Cholesky decomposition to combat multicollinearity in multiple regression models. Journal of Stat. Comp. andSimul. 2017, vol. 87, pp. 2298-2308.
8. Dawoud I. A new improved estimator for reducing the multicollinearity effects. Communication in Statistics - Simulation and Computation. 2021, pp. 1-12.
9. Bazilevskiy M. P. Multifactor fully connected linear regression models without constraints to the ratios of variables errors variances. Inform. and its Applic. 2020, vol. 14, no. 2, pp. 92-97.
10. Bazilevskiy M. P. Method of straightening distorted due to multicollinearity coefficients in regression models. Informatics and its Applications. 2021, vol. 15, no. 2, pp. 60-65.
Researching the behavior of variables relative contributions to the total determination in regression equation estimated using the method of distorted coefficients straightening
Mikhail P. Bazilevskiy
Candidate of technical sciences, Docent, Irkutsk State Transport University (Irkutsk, Russia),
mik217 [email protected].
To solve the problem of multicollinearity in regression analysis a distorted coefficients straightening method developed by the author and based on the construction of fully connected linear regression model can be used. In the article, to assess the degree of independent variables influence on the dependent variable in the regression equation obtained by using this method, it is proposed to use the variables relative contributions to the total determination. It is proved that in such an equation in the case of linear functional dependence of the input variables their relative contributions to the total determination are equal. Then, with a strong correlation of the input variables, their contributions are distributed approximately in the same way. It is proved that the problem of estimating a fully connected regression does not depend on the choice of connecting variable. The obtained results have been successfully demonstrated using the example of the Russia's GDP modeling.
Keywords: regression model, multicollinearity, method for straightening distorted coefficients, fully connected linear regression model, relative contributions of variables to the total determination, GDP of Russia.