ПРИМЕНЕНИЕ ПАКЕТА MATHCAD В МНОГОМЕРНОМ АНАЛИЗЕ ВЗАИМОСВЯЗЕЙ МИРОВЫХ ФОНДОВЫХ РЫНКОВ
УДК 519.2
Марина Анатольевна Скорик,
к.э.н., доцент, доцент кафедры Математической статистики и эконометрики Российского экономического университета им. Г. В. Плеханова
Тел.: (495) 442-71-77
Эл. почта: [email protected]
Андрей Геннадиевич Нефедов,
экономист, независимый эксперт, консультант Эл. почта: [email protected]
Компьютерные программы для аналитических исследований и прогнозирования экономических явлений и процессов по праву являются повседневным рабочим инструментом современного специалиста, связанного с обработкой статистической информации. Широкие возможности для изучения алгоритмов их работы предоставляет программа «SEMESTR» для пакета Mathcad, предназначенная для автоматизации обработки данных на основе методов многомерного анализа. Ее использование в учебном процессе позволяет сформировать устойчивые навыки применения математико-статистических методов анализа данных.
Ключевые слова: компонентный анализ, многомерный анализ, корреляционный анализ, регрессионный анализ, фондовые индексы, Mathcad.
Marina A. Skorik,
Ph.D. of Economics, Associate Professor of
the Department of Mathematical Statistics and
Econometrics, Plekhanov Russian University of
Economics
Tel.: (495) 442-71-77
E-mail: [email protected]
Andrey G. Nefedov,
economist, independent expert, consultant E-mail: [email protected]
MATHCAD APPLICATION FOR THE MULTIDIMENSIONAL ANALYSIS OF THE INTERDEPENDENCES ON WORLD STOCK MARKETS
Computer programs for analytical studies and forecasting of economic phenomena and processes are the everyday operating tool of a modern expert associated with the processing of statistical information. The program "SEMESTR" created on the base of Mathcad provides the wide range of possibilities for the comprehension of these algorithms due to automation of the multivariate data processing. Its usage in the educational process allows to develop stable skills in applying of mathematical and statistical methods of data analysis.
Keywords: factor analysis, multivariate analysis, correlation analysis, regression analysis, stock indexes, dimensionality of factors space, Mathcad.
1. Введение
Владение компьютерными методами анализа данных многопризнаковой природы - один из базовых элементов подготовки современного специалиста. Программа «$ЕМЕ$Т^> предназначена для автоматизации обработки данных методами корреляционно-регрессионного и компонентного анализа и рекомендуется к использованию в учебном процессе по дисциплине «Многомерный статистический анализ». Представляется целесообразным, чтобы студенты ознакомились с ней до решения задачи большей размерности на базе современных статистических пакетов анализа данных, представляющих в распоряжение исследователя лишь конечные результаты машинной обработки, без промежуточных расчетов.
Это позволит проиллюстрировать алгоритмы реализации основных методов многомерного статистического анализа, их особенности и возможности содержательной интерпретации результатов [5]. Косвенно это поможет достигнуть еще одной цели: побудить студентов и молодых ученых к продолжению работы в данном направлении -созданию аналогичного программного продукта, например, для решения задачи классификации объектов, т.е. реализации кластерного и дискриминантного анализа. Именно поэтому так подробно расписана инструкция работы с программой и приведен текст самой программы.
2. Исходные данные для исследования зависимостей
В качестве исходной статистической информации для исследования зависимости российского индекса РТС от 12 фондовых индексов развитых и развивающихся стран были взяты их ежедневные значения на момент закрытия бирж за 2005-2014 гг., т.е. за 3347 дней (см. табл. 1) [6, 7].
Таблица 1
Условные обозначения мировых фондовых индексов, используемые в исследовании
Страна Фондовый индекс Переменная
Россия RTSI Y
Бразилия BOVESPA X1
Франция CAC 40 X2
Германия DAX 30 X3
Великобритания FTSE 100 X4
Китай Hang Seng X5
Испания IBEX 35 X6
США D&J X7
Мексика IPC X8
Индия BSE X9
Турция XU100 X10
Южно-Африканская Республика JSE X11
Чехия PX50 X12
Для автоматизации статистической обработки данных с подробным выводом промежуточных результатов в пакете Mathcad 15.0 PRO, на встроенном языке программирования, авторами была написана программа «SEMESTR». Она представляет собой файл с расширением *.xmcd, после открытия которого, появляется рабочий лист пакета Mathcad, разделённый на две части: в левой половине
Y :=
1
3336 1343.62
3337 1306.00
3338 1303.15
3339 1315.54
3340 1315.54
3341 1315.54
3342 1318.98
3343 1306.37
3344 1286.07
3345 1260.95
3346 1267.27
3347
X :=
9 10 И 12
3336 20634.21 64125.72 47112.43 1036.87
3337 20722.97 63382.13 47438.31 1038.36
3338 20536.64 63681.01 47149.35 1036.05
3339 20700.75 63885.62 47452.24 1046.06
3340 20700.75 63885.62 47452.24 1046.06
3341 20700.75 63885.62 47452.24 1046.06
3342 20811.44 64185.96 47394.00 1039.29
3343 20852.47 62123.84 46956.75 1029.56
3344 20986.99 61503.04 47017.19 1019.77
3345 20986.99 61779.24 47049.79 1014.43
3346 21120.12 62553.32 47328.92 1015.11
3347 21120.12 62553.32 47328.92
Рис. 1. Ввод исходных данных в пакете Mathcad
Рис. 2. Вычисление выборочных характеристик показателей
CORR(YX) =
1 1 2 3 4 5
1 ш 0.65 0.52 0.64 0.69
2 0.65 1.00 -0.17 0.50 0.29
3 0.52 -0.17 1.00 0.31 0.60
4 0.64 0.50 0.31 1.00 0.87
5 0.69 0.29 0.60 0.87 1.00
6 0.81 0.82 0.23 0.80 0.66
7 0.58 0.06 0.88 0.18 0.38 1
8 0.52 0.27 0.33 0.92 0.91
9 0.49 0.76 -0.25 0.79 0.54
10 0.60 0.85 -0.12 0.80 0.56
11 0.42 0.64 -0.17 0.79 0.62
12 0.46 0.64 -0.15 0.88 0.63
13 0.61 -0.02 0.93 0.18 0.47
^-1 ■
CORR(YX) :=
for klel..p+l for k: e l..p+ 1
,<kl> v^<k2>|
CORRkl и «- corn YX ,YX CORE
Рис. 3. Расчет парных коэффициентов корреляции между признаками
т =
Г RRRRR 1 2 ■ 3 4 5
11 1.00 i 49.35 35.13 48.41 55.67
2 ' ""4935" 1.00 10.15 33.72 17.46
3 35.13 10.15 1.00 18.61 43.46
4 48.41 33.72 18.61 1.00 103.87
5 55.67 17.46 43.46 103.87 1.00
6 78.52 81.72 13.96 76.38 50.48
41.19 3.75 108.83 10.33 23.86
8 35.27 16.22 19.88 134.23 123.57
9 32.08 68.12 14.84 73.59 37.28
10 43.74 93.88 7.17 76.57 38.77
11 26.80 48.53 10.03 74.14 46.21
12 30.27 48.08 8.51 105.74 46.82
13 44.24 1.04 149.56 10.68 30.56
з: 1
. 0.01
1-2
. 3345
Т :=
for i е 1.. р + 1 for j е 1.. р + 1
corr
]
corr
»J
М
corrlYX ,yx
,<i>
x<i>)
corr.
>.JI
я
corr.
».J/
tkr := qt
н
tkr = 2.577
Рис. 4. Расчет /-статистики Стьюдента
(видимая часть) пользователь может ввести свои исходные данные и тут же получить результат, а в правой части представлен сам алгоритм программы (для того чтобы его увидеть нужно прокрутить нижний бегунок вправо).
Данная программа может работать с одним результативным признаком и любым числом объясняющих переменных, число значений каждого показателя также может быть сколь угодно большим. Вводить новые данные необходимо в векторе Y (результативный признак) и в матрице X (факторные признаки) (см. рис. 1).
Помимо ручного ввода данных, через буфера обмена, Mathcad также позволяет импортировать большие массивы чисел из таких форматов как: Delimited Text (*.dat, *.txt); Comma Separated Values (*.csv); Excel Files (*.xls); Lotus 1-2-3 Files (*.wks, *.wk1, *.wk*); MATLAB Files (*.mat); dbase Files (*.dbf) [4].
3. Корреляционный анализ
После того как все данные введены, Mathcad начинает вычислять такие характеристики как средние (sred) и среднеквадратические отклонения (SCO) для каждого признака. Для такой описательной статистики был написан следующий код с использованием встроенных функций пакета и осуществлен вывод полученных результатов (см. рис. 2).
Далее рассчитывается матрица парных коэффициентов корреляции R (CORR(YX) порядка [к х к], где k = 1, p +1), которая является симметрической и положительно определённой. В нашем случае к -общее число признаков, а p = 12 -число факторных показателей (см. рис. 3).
Далее проверяется значимость полученных коэффициентов корреляции с помощью /-статистики Стьюдента (см. рис. 4).
Тестируемый коэффициент корреляции считается значимым, т.е. гипотеза H0 : р = 0 отвергается с вероятностью ошибки а, если tHal будет больше, чем tKpопределяемому по таблице /-распределения для заданного а и v = n - 2.
4. Регрессионный анализ
Далее находится оценка уравнения регрессии вида: у = Ь0 + Ь1 • х1 +
+ Ь2 • х2 + ... + Ь12
х12. Согласно ме-
тоду наименьших квадратов вектор оценок коэффициентов регрессии Ь получается по формуле: Ь = (X7 • X)-1 • • (X7 • У). Алгоритм программы создан так, что пользователю не нужно вводить в матрице X единичный вектор-столбец (см. рис. 5, 6).
Значимость уравнения регрессии, т.е. гипотеза Н0 : во = А =в2 =вз = 0, проверяется по F-критерию, наблюдаемое значение которого определяется по формуле:
набл.
вк! (Р +1) , боем./(и - Р -1)'
где:
дк = (X • Ь)7 • (X • Ь), 0ост. = (7 -X • Ь)7 • (У -X • Ь),.
По таблице ^-распределения для заданных а, v1 = р + 1, v2 = п -- р - 1 находят ^к„. Гипотеза Н0 отклоняется
ошибки а, если ¥, следует,
кр'
с вероятностью > К„. Из этого
набл. ~ кр
что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.
Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотез Н0 : в] = 0, где у = 1, £, используется /-критерий Стьюдента
. , Ъ}
и вычисляют: tнабл (Ъj) = ——. По таблице /-распределения для заданного уровня значимости а и числа степеней свободы V = п - к - 1 находят / (см. рис.7).
Гипотеза Н0 отвергается с вероятностью ошибки а если набл\ > tкр. Из этого следует, что соответствующий коэффициент регрессии в] значим, т.е. в] Ф 0. В противном случае коэффициент регрессии незначим, и, соответственно, переменная в регрессионную модель не включается. В алгоритме программы для проверки значимости отдельных коэффициентов регрессии дополнительно рассчитывается вероятность р, используя распределение Стьюдента:
р_ ^ = 2 • [1 - Р(1набл {Ь] \у = п - р -1)] если /набл(Ь¡) > 0 и
1 2 3 4 5
3341 1.00 47380.24 4381.06 9656.95 6838.06
3342 1.00 47500.87 4419.13 9708.94 6865.86
3343 1.00 46728.19 4414.55 9699.35 6830.50
1 3344 1.00 46574.31 4396.91 9661.73 6799.15
3345 1.00 47590.03 4396.39 9588.33 6810.27
3346 1.00 47094.59 4408.08 9692.08 6809.70
3347 1.00 47094.40 4408.08 9692.08 6809.70
'1 1 "1
X :=
1 е 1.. п Гог к <= 2..р + 1
г<к>
Рис. 5. Корректировка матрицы факторных признаков X
ОР_<}5и1П - ОР_(}г +
Рис. 6. Алгоритм оценки линейного уравнения регрессии
ОР-степени свободы О-дисперсии 55=0/ОР_<5 Р-значение р-вероятность
БГ_()г=13 (¿г= 7730351230 631 ЙК = 594644710.052 Г = 30943.363 р_Г = 0.000
БЕроз! = 3334 роз! = 64069039.643 = 19216.384 Гкг = 2.665 а = 0.001
П^зит = 3347 <}511т = 7794450320.32 .,/"55 = 133.625
Проверка:«} *ит= V (У.!2 = 7794450320.33 к°эФФ»Ч«енТ к г - гу детерминации Р(А2
= 0.8994
'-1570.129^ '3423^1 '-(5.87 4
0.01 0.001 12.61
-0.073 0.027 -2.72
-0.091 0.012 -7.34
0.391 0.024 16.59
0.012 0.003 4.00
-0.055 $е_Ь = 0.006 1 - -9.70
-0.041 0.007 -5.71
0.013 0.002 7.50
0.033 0.003 9.66
-0.015 0.001 -23.12
0.015 0.002 6.92
, 1211 , ^0.042, ,29.13,
Т(УХ) :-
'«•О Ь] Ь;
Ь; Ь4 Ь5 Ьб ь? ь8 ь9 ь10 Ьп
1.00 -0.17 0.50 029 0.82 0.06 027 0.76 0.85 0.64 0.64 -0.02
1 > 1.. р + 1 ш := 0.001 ее := 3
сопс!.
сопс! =
1
1 1
2 1
3
4 1
5 1
б 1
7 1
8 1
9 1
10 1
11 1
12 1
13 1
Р_1 =
^ := <4 2 0.00000' 0.00000 0.00655 0.00000 0.00000 0.00006 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 1,0.00000.
-1
ее.
УЪ <- 58 X
х!
Гог д е 1.. р 1
2(1 - рс| I., ОГ_(5<т)| и « > о
2рг I. . ПГ (^0<Л отКеп'Лсе
Гог к1 е 1. р + 1 Гог к2 с 1.. р + 1
к:
•'ЮЛ
и. «1 1уь;
и И
Ои|
Л-Ь:- (Т(У"Х)1
■(Т<™>1),
1
Р_1
■ Т(«9,
Рис. 7. Проверка значимости коэффициентов регрессии
-0.17 0.50 0.29
1.00 0.31 0.60
031 1.00 0.87
0.60 0.87 1.00
023 0.80 0.66
0.85 0.18 0.38
0.33 0.92 0.91
-025 0.79 0.54
-0.12 0.80 0.56
-0.17 0.79 0.62
-0.15 0.88 0.63
0.93 0.18 0.17
028 -0.09
0.04 0.53
0.36 0.11 0.30 027
0.34 0.11
0.02 0.50
032 0.11
0.35 -0.18 0.36 -0.10
0.34 -0.15
0.36 -0.14
0.02 0.52
-0.60 -0.15
0.11 -0.04
0.19 0.31
0.31 -0.32
-0.33 0.15
-0.30 0 25
0.45 0.14
-0.04 -0.01
-0.22 0.05
0.09 -0.Ы
0.12 0.39
-0.15 -0 29
0.52 0.06
023 0.55
0.80 0.15
0.66 0 38
1.00 0.34
034 1.00
0.62 0.08
0.74 -025
0.87 -0.04
0.69 -027
0.73 -021
0.29 0.92
0.47 -0.10 -0.08 -0.19
-0.1! -0.10
0.15 -0.11 -0-20 0.69 -024 -0.34
0.30 0.39
032 -0.31 -0.3! -0.08 -0.44 -0.08
0.11 -024
02! 0.14
02 7 0.76 0.85
033 -025 -0.12
052 0.79 0.80
0.91 0.54 0-56
0.62 0.74 0.87
0.08 -025 -0.04
1.00 0.68 0.62
0.65 1.00 0.93
0.62 0.93
0.71 0.92
0.79 0.95
1.00 0.88 0.89
0.16 -027 -0.11
-0.14 -0.39 025
0.05 -0.07 0.15
0.45 -0.47 0.14
-0.50 -0.18 0.02
-0.01 0-20
-028 033
-023 0.12 -0.10
0.17 0.60 -0.11
-021 -0.17 -0.75
0.16 0.17 027
0.16 0.04 0.10
0.52 0.04 -0.39
024 0.14
0.64 -0.17 0.79 0.62 0.69 -027 0.71 0.92 0.88 1.00 0.89 -0.22
-021 0.17 -024 0.40 0.31 -0.32 -0.53 0.02 -0.00 -021 0.43 0.04
0.64 -0-02> -0.15 0.93 0.88 0.15
0.63 0.73
-021 0.92
0.79 0.16
0.95 -027
0.89 -0.11
0.89 -0Л
1.00 -024 -024 1.00 .
0.03 0.15 >
-034 0.70
-0.26 -0.34
-0.05 -0.41
-0.15 -0.05
021 -023 0.13 023
-0.48 -0.09
-0.04 0.17 024 0.05
0.60 020
02! -0.141
Гог Д е 1 - р Гог ¡2 е 1.. р
„<11+1>
те<Р+1>)
X *— геуегэеГ50П: е1;:етаЬ !К)}) № 1г(Я) А Л»В(Х) Гог д е 1.. р
1,1
Ы
'х
«■
А
и.
-XI,, ,г Гог ] Е 1 .. р
- М1
■ е1£епгес| К Х^
А
Г0.73 0.09 0.94 0.75 0.8! 0.05 0.53 0.92 0.94 0.90 0.94 1,0.04
Рис.
-0.17 -0.64 -0.06 0.14 -0.03 -0.03 -0.06 0.04 -0.03 0.00 0.01 >
'6.91 О.ОО 0.00 0.00 0.00 ООО ООО 0.00 0.» 0.00 о.» о.ооч
0.98 0.11 -0.02 -0.02 -0.06 0.01 -0.01 0.02 0.02 -0.04 0.06
0.00 3.45 0.00 0.00 О.ОО О.ОО 0.00 0.00 0.00 0.00 0.» 0.00
020 021 0.13 -0.05 -0.03 0.09 -0.08 0.02 -0.03 -0.03 -о.оз О.ОО О.М 1.15 0.00 о.» 0.00 0.00 0.00 о.» 0.00 О.ОО О.ОО
0.50 033 -0.13 0.04 -0.03 -0.10 -0.03 0.00 0.05 -0.01 -0.03 О.ОО 0.00 0.00 0.17 О.ОО О.ОО О.ОО 0.00 0.00 о.оо 0.Ю О.ОО
020 -0.36 0.06 -0.06 020 -О.ОО 0.03 0.03 0.04 -0.02 -О.ОО 0.00 о.м 0.00 ООО 0.09 ООО 0.00 О.М 0.00 0.00 0.00 0.00
0.93 -032 0.12 -0.07 -0.10 -0.06 0.05 0.02 -0.04 0.02 -0.02 О.ОО 0.00 О.ОО 0.00 О.ОО 0.0$ 0.00 О.М 0.00 0.00 0.» О.ОО
021 0.48 0.06 0.09 0.11 -0.05 0.02 -0.01 -0.07 0.01 0.02 0.00 0.00 0.00 ООО 0.00 ООО 0.04 О.М ООО ООО ООО О.М
-0.34 -0.04 -0.00 0.10 -0.09 0.03 0.10 -0.02 О.ОО -0.05 -0.01 ООО о.м О.ОО ООО О.ОО 0.00 ООО 0.03 0.00 0.00 О.ОО О.ОО
-0.19 -024 0.02 -0.11 -0.02 -0.04 -0.03 -0.11 -0.00 -0.00 0.01 О.ОО 0.00 О.ОО ООО 0.00 ООО О.ОО О.М 0.02 ООО 0.00 0.00
-028 0.10 -027 -0.13 -0.02 0.03 0.03 0.04 -0.03 0.03 0.01 О.ОО 0.00 ООО 0.00 0.00 ООО О.ОО О.М ООО 0.02 О.ОО О.ОО
0.00 О.ОО ООО ООО О-ОО ООО О.ОО О.М 0.00 ООО 0.01 ООО
-025 0.12 0.16 0.03 -0.07 0.03 0.01 0.01 0.05 0.0« 0.02
,0.00 о.м 0.00 ООО 0.00 ООО О.ОО 0.М 0.00 0.00 О-ОО 0.01,
0.97 -0.16 -0.12 0.08 0.04 0.10 0.01 -0.06 О.ОО 0.03 -0.01 у
Р_ = 2 • р({набп [ь] \у= п - р - 1) если 1на6п{Ъ) < 0.
Гипотеза Н0 отвергается с вероятностью ошибки а если а > р_1] (в программе, в векторе cond, напротив соответствующего коэффициента регрессии при переменной х, будет стоять единица, т.е. условие выполнилось), что говорит о значимости коэффициента регрессии в Иначе - коэффициент регрессии незначим (в векторе cond - 0).
В случае если хотя бы один коэффициент регрессии незначим, то переходят к пошаговой схеме исключения несущественных переменных. Для этого пользователю необходимо ввести номер исключаемой переменной, согласно порядковому номеру в векторе cond, т.е. присвоить переменной "ее" число, например ec: = 3. Это значит, что исключается факторный признак Х2, стоящий на 3-м месте.
Но непосредственно перед переходом к следующему шагу регрессионного анализа рассчитываются ещё доверительные границы для каждого коэффициента регрессии по формуле:
в е
Ъ; ± гКр
Далее находится интервальная оценка результативного признака в некоторой точке, определяемой вектором начальных значений Х0. Доверительные границы для результативного признака уп находятся по формуле, вида:
Уп 6
X¡ъ ± гКр
± гкп•
ХТ
•(хт • X)1 •
X.
Доверительная оценка для интервала предсказания условного математического ожидания уп+1 в точке, не принадлежащей выборке, определяется по следующей формуле:
Уп+1 е
ХТ0Ь ± 1кр
± гкр•
ХТ
■ (хт • х)1 •
х 0 +1
8. Расчет собственных значений корреляционной матрицы и нагрузок
Следует заметить, что пошаговую процедуру исключения пользователь
может прервать на любой стадии пошагового регрессионного анализа, но только, когда все коэффициенты регрессии значимы [3]. Тогда можно переходить к следующему виду статистического анализа, а именно к компонентному анализу.
5. Компонентный анализ
Здесь на основании матрицы факторных признаков X размерности [п х р], рассчитывается матрица парных коэффициентов корреляции Я размерности [р х р] с элементами
Таблица 2
1
Е {ху - х] )'{ХИ - Х1)
П 1=1
Б; ■ Б, з, I = 1, 2, ..., р.
Далее матрица Я преобразуется в диагональную матрицу Л собственных значений характеристического многочлена | АЕ - Я|, где Е - единичная матрица. Для этого решается уравнение вида: | АЕ - Я| = 0, корнями которого являются р собственных значений Х1 > Х2 > ... > Х12 > 0. Матрица собственных значений Л имеет вид главной диагонали. Собственные значения характеризуют вклады соответствующих главных компонент
в суммарную дисперсию исходных
р
признаков, равную р, т.е. = р.
у=\
Таким образом, первая главная компонента оказывает наибольшее влияние на общую вариацию, а последняя р-ая - наименьшее.
На основе найденных собственных чисел определяются собственные вектора. VV - собственный вектор, соответствующий собственному значению Х„ корреляционной матрицы Я, определяется как отличное от нуля решение уравнения (ХЕ - К) • VV = 0, откуда нормированный собственный вектор и„ равен: V
и у = , у =. Так получаем матри-
№ V
цу и, составленную из нормированных собственных векторов:
и = и \и31). Затем находим матрицу факторных нагрузок по фору
муле: А = V ■ л 2, (в программе: А =
у
иь, где Ь = А'2) (см. рис. 8). Элемент матрицы ар, где: у, у = 1, р, характери-
Вклад в дисперсию г-ой главной компоненты
вклад, %
Сумма, %
/1
Х1 = 6,938
-1 -100 = 57,82
-1 -100 = 57,82
/2
Х2 = 3,454
Л
-100 = 28,78
№
+кг)
■100 = 86,60
/12
Х12 = 0,007
-100 = 0,06
р
м
Л
№
100=100
1 =
9 10 11 12
3340 1.330 0.810 2.380 -0.596
3341 1.330 0.810 2.380 -0.596
3342 1.356 0.829 2.373 -0.619
3343 1.366 0.702 2.318 -0.652
3344 1.399 0.663 2.326 -0.685
3345 1.399 0.680 2.330 -0.703
3346 1.431 0.728 2.364 -0.701
3347 1.431 0.728 2.364 -0.701
<1
'-0.000^
-0.000 1
-0.000 1
-0.000 1
-0.000 1
0.000 0.000 = 1 1
0.000 1
0.000 1
0.000 1
-0.000 1
ч-0.000 ) \ 1 /
ы
а
Гог 1 е 1.. п Гог к б 1.. р
Бгеё,. теап (ухМ
Гог j е 1.. р
г. «— теап1 Ъ ^
г
\
тх «- ги
Гог ]1 е 1.. р
,<1>Г
г
От, <
С Гг "
Ь
г:-(1м)п'1)2>,
¡1:» I ГчТИУ. | Ь I МП , |
* «'1,1 ^ '2,1
9 10 11 12
3340 -0.159 0.166 0.148 -0.179
3341 -0.159 0.166 0.148 -0.179
3342 -0.163 0.092 0.139 -0.159
3343 -0.203 0.094 0.114 -0.169
3344 -0.223 0.103 0.132 -0.144
3345 -0.184 0.131 0.117 -0.110
3346 -0.193 0.117 0.127 -0.105
3347 -0.193 0.113 0.128 -0.103
.1 1-
'6.938^
-0.000 3.454
0.000 1.146
0.000 0.174
0.000 0.087
-0.000 -0.000 0.082 0.041
0.000 0.027
-0.000 0.02
-0.000 0.015
0.000 0.011
.0.000 ) ^0.007,
Рис. 9. Расчёт матриц стандартизованных значений признаков и индивидуальных значений главных компонент
Х
V
Г:, =
Рис. 10. Диаграмма рассеяния наблюдений в пространстве ГК
Ле«ге$$Р =
I 1 =
1
3338 -0.37
3339 -0.34
3340 -0.34
3341 -0.34
3342 -0.33
3343 -0.36
3344 -0.40
3345 -0.46
3346 -0.45
3347 5 -0.45
1
3335 0.15
3336 0.25
3337 0.30
3338 0.27
3339 0.33
3340 0.33
3341 0.33
3342 0.29
3343 0.25
3344 0.24
3345 0.29
3346 0.25
3347; 0.25
ы
ы
ъ =
( 0.000 4 0257 0.273 -0.314 -0.163 0.746 0.037 0.006 -0.134 -0.685 0.708
ч 0.120 у
К>г 1 е 1.. п
V г
1,1
1,1
Гог ¡с 1..п Г. , <- 1
хтет(У)
Гог к е 2.. р г<к>^<к-1>
У_г<- Р Ь е «- (У_. - У_г) Гог I е 1.. п
ОР (?г<- р Ордозс <- (п - р)
дг <- У_гТ У_г
дозг <- еТ е (}_5иш <— дг -!" роз! <?Г
ее *
Рп <-Ош,
вг_дг
дозе эр_до51
ее
- 1 - рР(Рп.ОР_дг,ПР_до5С)
ГгЛ
Ош Ош.
Ош Ош Ош
ВР_
:, *- Ь ^ Ч— <2_5иш
<5 г Ог ЭИ Рп доз! дол ее р
(Кев""Г1)2 1 (Ке8ге"р1),
«■ /гт*//
эг дг дг бя ОГ С05' О051
БЕ ОБчт :» БЕ Ог - БЕ Ооэг
//МТЛТ/ЛУ/Л — *
3,1
1?е°ге55р,
д_5иш := Не£ге$5р^ Рис. 11. Алгоритм оценки уравнения регрессии на ГК
зует тесноту связи между факторным показателем Х}- и /-ой главной компонентой, причём: -1 < а^ < 1. При этом справедливы соотношения:
р 2 р 2
X а^ = и X а]у = 1. 7=1 У=1
Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, представляющих собой линейные функции исходных признаков [2]. Для экономической интерпретации / используются лишь те факторы X , для которых \iXjy | > 0,6.
Затем рассчитывается вклад v-ой главной компоненты в суммарную дисперсию, а также суммарный вклад т первых главных компонент (см. табл. 2). Для дальнейшего анализа обычно используют т первых главных компонент, суммарный вклад которых превышает 70%.
Далее рассчитывается матрица нормированных значений Z с эле-
ментами 2„ =
У
5 V
(см. рис. 9).
Причём для матрицы Z должны выполняться следующие условия:
1 п -
=--Х =0 для ] = 1,р и
п 1=1
=1 'X-^)2 = 1 для] = 1р.
1 п 1=1
Значения главных компонент для каждого /-ого объекта (/ = 1, п) задаются матрицей Е. Матрица значений главных компонент находится по следующей формуле: Е = Z • и. Для матрицы Е справедливы следующие соотношения:
_ 1 п -
= --Е ¡1] =0 для ] = х,р и
п 1=1
S2 = (и -г, )2 =
п 1=1 ■ 1—
г 1 для ],у = 1, р.
1 п т
= 1 /Ц = К
п 1=1
На основании матрицы индивидуальных значений главных компонент на объектах Е размерности [п х р], рассчитывается матрица парных коэффициентов корреляции между главными компонентами CORR(Fz). Поскольку главные компоненты должны быть ортогональны, то парный коэффициент корреляции между ними стремится к нулю.
В алгоритме проверки значимости отдельных коэффициентов регрессии также рассчитывается вероятность р, используя распределение Стьюдента (см. рис. 12):
р_ ^ = 2 • [1 - р(1набл {Ь;), V = п - р -1)] если ^(Ь) > 0 и
Р_ 0 = 2 • р^набл [ъ] \у = п - р -!) если ^„(Ь,) < 0.
Гипотеза Н0 отвергается с вероятностью ошибки а если а > р_^ (в программе, в векторе cond1, напротив соответствующего коэффициента регрессии при переменной х, будет стоять единица, т.е. условие выполнилось), что говорит о значимости коэффициента регрессии /;,. Иначе - коэффициент регрессии Рис. 12. Проверка значимости коэффициентов регрессии при ГК незначим (в векторе cond1 - 0).
ОР-степени свободы 0- дисперсии 55=С№Р_0 Р-значение р-вероятность
Б^г = 12 <?г = 3008.581 = 250.715 Еп = 2470.705 р_Г = 0.000
Б^вг« = 3335 Qc.sc = 338.419 88 = 0.101 Гкг = 2.752 «= 0.001
БРС^ит = 3347 (} зит = 3347.00 ./И = 0.319 коэф-т детерминации = 0.8989
} 1-Р о; := 0.05 Проверка на значимость: сопс!^ о.; >
1 1 1 1
1 0.000 1 0.0055 1 1.00000 1 0
2 0.257 2 0.0021 2 0.00000 2 1
3 0.273 3 0.0030 3 0.00000 3 1
4 -0.314 4 0.0051 4 0.00000 4 1
5 -0.163 5 0.0132 5 0.00000 5 1
Ь = 6 0.746 6 0.0187 6 0.00000 сопс)1 = 6 1
7 0.037 7 0.0193 7 0.05712 7 0
8 0.006 8 0.0274 8 0.83671 8 0
9 -0.134 9 0.0338 9 0.00007 9 1
10 -0.685 10 0.0387 10 0.00000 10 1
11 0.708 11 0.0447 11 0.00000 11 1
12 0.120 12 0.0521 12 0.02102 12 1
Далее строится диаграмма рассеяния в пространстве двух первых главных компонент, обеспечивающий суммарный вклад в дисперсию процесса не менее 60-70%, т.е. в прямоугольной системе координат наносятся объекты (точки) и производится их классификация (см. рис. 10).
6. Регрессия на главные компоненты
Уравнение регрессии на главных компонентах строится по стандартному алгоритму регрессионного анализа [1], где в качестве аргументов используются наиболее весомые главные компоненты, а не исходные показатели (см. рис.11).
Сначала находится вектор стандартизированных значений результативного признака У с элемента-У1 - У
ми У1 = -
Далее по Р-критерию проверяется значимость уравнения регрессии, т.е. гипотеза Н0 : во = А = в2 = 0, наблюдаемое значение которого определяется по формуле:
набл.
Як/ (Р + 1) , Яост./(п - Р -1)'
где:
& = (Р • Ь)т • (Р • Ь),
Ясс. = V -р • Ь)Т • (У - р • Ь).
По таблице Р-распределения для заданных а, v1 = р + 1, v2 = п -- р - 1 находят Р^.
Гипотеза Н0 отклоняется с
если Рн,
> Рр
-. Причём должны вы-
полняться следующие условия:
ЪУ1 = 0 и = п (п = 3347).
;=1 ¿=1
Затем, согласно, методу наименьших квадратов вектор оценок коэффициентов регрессии Ь получается по формуле:
ь = (рт • р)-1 \рт • г),
где: Рт - транспонированная матрица Р; (РтР)-1 - матрица, обратная к РтР.
вероятностью а, если Рнабл. - р Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.
Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотез Н0 : в, = 0, где j = 1,р, используется t-критерий Стьюдента. По таблице ^распре-деления для заданного уровня значимости а и числа степеней свободы V = п - к - 1 находят tкр.
Гипотеза Н0 отвергается с вероятностью ошибки а если набл \ > tкр. Из этого следует, что соответствующий коэффициент регрессии в, значим, т.е. в, Ф 0, иначе - коэффициент регрессии незначим.
7. Заключение
Таким образом, применение компонентного анализа позволяет исследователю несколько иначе взглянуть на изучаемый процесс и получить сведения, недоступные при использовании аппарата классического корреляционно-регрессионного анализа [5]. Если результативный признак стандартизован, то исследователь получает интересные дополнительные возможности. Компоненты не корре-лированы, свободный коэффициент равен нулю. Поэтому можно отобрать только информативные главные компоненты (имеющие значимые коэффициенты корреляции с результативным признаком) и построить простые собственно линейные уравнения на каждую такую компоненту отдельно, а затем все эти уравнения сложить. В этом случае удается добиться значительного снижения объема вычислений.
Наконец, можно попытаться восстановить исходные показатели по наиболее информативным главным компонентам. Полученные в ходе этой процедуры стандартизованные признаки используют для восстановления исходных характеристик и оценки их гипотетических значений, которые можно сравнить с фактическими значениями Ху и проанализировать характер отклонений с целью определения «узких
У
мест» в наблюдаемой совокупности и выработки рекомендаций по их устранению.
В заключение следует отметить, что данная программа обработки исходных данных является учебной и составлена в целях иллюстрации не только конечных, но и промежуточных результатов. В случае реальных исследований используют более серьезное математическое обеспечение.
Литература
1. Айвазян С.А. Методы эконометрики. - М.: ИНФРА-М, 2010.
2. Дубров А.М. Компонентный анализ и эффективность в экономике. - М.: Финансы и статистика, 2002.
3. Ниворожкина Л.И., Арженов-ский С.Б. Многомерные статистические методы в экономике. - М.: Дашков и Ко, 2009.
4. Плис А.И., Сливина Н.А. MATHCAD: математический практи-
кум для инженеров и экономистов. -М.: Финансы и статистика, 2003.
5. Скорик М.А., Нефедов А.Г. Методические подходы к исследованию многомерных зависимостей на примере фондового рынка. // Экономика, статистика и информатика. Вестник УМО. - 2015. - №4. - С.158-163.
6. Официальный сайт Инвестиционного холдинга «Финам». [Электронный ресурс] - Код доступа: http://finam.ru/
7. Официальный сайт Московской биржи ММВБ-РТС [Электронный ресурс] - Код доступа: http:// moex.com/
References
1. Aivazian S.A. Metody ekonometriki [Methods of econometrics]. - М.: INFRA-M, 2010
2. Dubrov A.M. Kjmponentny analiz i effektivnost' v ekonomike [Component analysis and efficiency of economics]. - M.: Finance and statistics, 2002
3. Nivorozhkina L.I., Arzhenovsky S.B. Mnogomernye statisticheskie metody v ekonomike [Multivariate statistical methods in economics]. - M.: Finance and statistics, 2009
4. Plis A.I., Slivina N.A. MATHCAD: praktikum dlya inzhenerov i ekonomistov [MATHCAD: mathematical practical work for engineers and economists]. -M.: Finance and statistics, 2003
5. Skorik M.A., Nefedov A.G. Metodicheskie podhody k issledovaniyu mnogomernyh zavisimostey na primere fondovogo rynka [Approach to the research of the multivariate relationship by the example of the Russian stock market]. // Economics, statistics and informatics. UMO - 2015. - №4. -pp.158-163
6. Investment holding "FINAM" [Electronic resource] - Mode of access: http://finam.ru/
7. Moscow stock exchange MMVB-RTS [Electronic resource] - Mode of access: http://moex.com/