Системы компьютерной математики в специальном корреляционном анализе
Р.И. Ивановский, профессор, Санкт-Петербургский политехнический университет, [email protected]
Решение типовых задач корреляционного анализа при изучении математической статистики требует выполнения больших объемов вычислений. Особую трудность составляет включение в программу практических занятий таких задач специального корреляционного анализа, как получение точечных и интервальных оценок корреляционного отношения, сводного и частного коэффициентов корреляции. Реальная возможность практического изучения задач этого класса появляется при использовании в учебном процессе программных систем компьютерной математики (СКМ). Рассмотрим ряд задач корреляционного анализа и покажем, что применение СКМ в ряде случаев позволяет отойти от традиционного подхода получения оценок на основе технологий Г.Крамера [1] и применить более информативные подходы [2].
Начнем с относительно простых задач получения оценок коэффициентов корреляции. Известно, что исчерпывающей характеристикой степени взаимосвязи пары случайных величин X и У, если их распределение соответствует нормальному и/или зависимость между ними линейна, служит парный коэффициент корреляции гху, равный отношению корреляционного момента Кху к произведению средних квадратических отклонений стх и сту случайных величин:
К М(X - шх)(¥ - ту)
Гху = -— = -— . (1)
стх сту стх сту
Знак этого коэффициента характеризует в среднем поведение отклика У при вариации фактора X.
Если рассматривать случайные величины X и У в качестве элементов двумерного случайного вектора z, то все элементы правой части соотношения (1) можно найти среди элементов ковариационной матрицы, составленной для этого вектора, т. е. матрицы соу(Ъ) = М[(ъ - шг)( ъ - шъ)7]:
" 2
соу(ъ) = рг =
К
К
ху у
(2)
х
Наряду с ковариационной матрицей (2) может быть введена и матрица Бг, диагональные элементы которой равны единице, а недиагональный элемент — коэффициент корреляции:
= (Ег)"1 Рг (Е^ =
1
' ху
Ег =
0
г
а
х
0
а
Соотношение для Бг легко обобщается на случайные векторы произвольной размерности. Так, для «-мерного случайного вектора Х, с ковариационной матрицей Р, матрица Б коэффициентов корреляции определяется соотношением:
Б = Е-1 Р Е-1. (3)
Здесь Р — ковариационная матрица случайного вектора Z; Е — диагональная матица, 1-й диагональный элемент которой равен а,-. Вычисление Б позволяет определить все множество коэффициентов корреляции одновременно, поэтому назовем Б матрицей коэффициентов корреляции.
Выражение (3) можно рассматривать в качестве теоретической основы оценки коэффициентов корреляции гу,; ,, у = 1, п , , Ф у по выборочным данным.
Точечная оценка коэффициента корреляции носит название выборочного коэффициента корреляции г . Значение г получают путем замены в гХу теоретических числовых характеристик на соответствующие выборочные значения: математических ожиданий тх, ту на вы_ _ 2 2
борочные средние хв, ув ; дисперсий а х, а у — на выборочные дис-
2 2 персии ахв, а ув :
К
г =
хуВ _
а хВ а уВ
2 (хг - хВ )(уг - у В )]
2 (Хг - ХВ )2 2 (уг - уВ)2
где К ХуВ — выборочный корреляционный момент (точечная оценка Кху).
КхуВ = Ё[( Х- - ХВ )(У - УВ )]/п ,
а выборочные средние и дисперсии находятся по формулам, например:
Л - 1 т: \2 . -
°2уВ = п Ё (У-- У В)2; У В = 1Ё У- • -=1 -=1
Задача получения оценки гХу предполагает получение оценок матриц
Рх, Е и 8. С этой целью перейдем в выражениях (2), (3) от теоретических числовых характеристик к их выборочным аналогам.
Пусть, для простоты последующих преобразований, число выборочных данных по каждому из элементов вектора Х одинаково и равно п. Это означает, что данные наблюдений объединены в (т х п)-матрицу ХВ, строками которой служат наблюденные значения элементов вектора Х. Тогда вектор математических ожиданий тх и вектор дисперсий элементов Х (диагональных элементов матрицы Е) будут представлены
вектором выборочных средних Хв и вектором з выборочных СКО:
ХВ - п ЁХв- ; Ъ -1=1
п
1 V ' _ у
~Ё(Х}1 - Х]В) ; ] - 1,т, ' - 1, п • (6) -=1
Здесь: — ]-ый элемент (т х 1)-вектора з; XВ1 — ¿-ый столбец
матрицы ХВ; X .. — ]/-ый элемент (т х п)-матрицы ХВ (¿-ое значение ]-
] 1
ого элемента вектора Х); х^в — ]-ый элемент (т х 1)-вектора Хв .
Сформируем диагональную матрицу ЕВ, расположив полученный в (6) вектор з на ее диагонали:
Ев - ^(з). (7)
*
Тогда (т х п)-матрица Хв нормированных данных наблюдений
*
будет образована совокупностью столбцов Хв- (/ - 1, п ):
* * * * * —1 — —1 о
ХВ - [ХВ1 Хву ••• ХВпХВ1 - ^В (Хв-- ХВ ) - ^В ХВ- • (8)
Здесь xBi = (XВ1 - Хв) — центрированный /'-ый столбец матрицы ХВ; совокупность столбцов хВ, образует (т х п)-матрицу хВ центрированных данных наблюдений: хВ = [х^1 хВ2 • •• хВи].
*
После преобразования (8) матрица Хв будет иметь строки с нулевым средним и единичной выборочной дисперсией. В свою очередь, матрица Х0в имеет строки с нулевым средним.
Выборочные аналоги (точечные оценки) матриц Рх и 8 (3) могут быть найдены с использованием следующих выражений:
Рв =1 хВ (ХВ)Т ;8В =1 ХВ (Х*в)Т , (9)
причем, в соответствии с (3), (7)—(9),
8в = ЕВ1 РВ ^В1. (10)
Матрица 8В — оценка матрицы 8 (3) по данным наблюдений — содержит вне диагонали выборочные коэффициенты корреляции. Матрица РВ — выборочная ковариационная матрица — содержит выборочные дисперсии (диагональ) и выборочные корреляционные моменты (вне диагонали).
Приведенные соотношения позволяют находить матрицу 8В двумя путями:
о
посредством локальной нормировки исходных данных, полу*
чения матрицы Хв (8) и вычисления 8В по формуле (9);
° путем формирования матрицы хВ центрированных данных, вычисления выборочной ковариационной матрицы РВ и использования формулы (10) для 8В.
Приведенные выражения достаточно просто реализовать в среде одной из СКМ и ввести подобные задачи в практикум при изучении математической статистики.
Более общим параметром, определяющим степень взаимной обусловленности двух случайных величин У и Х, служит корреляционное отношение Яух — корень квадратный из дополнения до единицы относительной условной дисперсии ст^/ х :
д/ 1 - (стУ / х/ стУ) = ст у/ст у .
где стУ / х — условная дисперсия У при условии, что реализовались
2
значения случайной величины Х; ст у — безусловная дисперсия У; ст у — корень квадратный из дисперсии ст У оценок откликов У, причем
ст У = 0(у - ту) = Б(у - ту) , а2у = ст У + стУ / х .
Замещая величины ст у, сту / х , ст У в составе (11) на соответст-
у
п
- Iй
у в = п 2 у; ё =
п
г=1
2 (еу) г=1
г=1
2
2 1 V ' _ 2
вующие точечные оценки вида [2]: стуВ = ~2 (у> - ув ) '
/ и = (еу) еу / п; е,, = У -У;
2 — _ 22 —
ст~в = — 2 (у1 - ув) = ст ув - ё, точечную оценку Я корреляционного
г =1
отношения получим в следующей форме:
Я = ^ 1 - Л /ст2уВ = стув/стув , (12)
где ст ув , стув — корни квадратные из выборочных дисперсий ст
2 — и ст2ув . В этих выражениях обозначены: У, У — вектор выборочных
значений ртклика и вектор оценок этих значений, ё — оценка условной
дисперсии ст у / х , еу — вектор ошибок оценок отклика. Выражение (12)
свидетельствует о том, что для получения точечной оценки корреляционного отношения достаточно решить задачу полиномиальной регрессии с порядком полинома не ниже второго.
Типовой пример получения оценки корреляционного отношения (12) в среде Mathcad приведен на рис. 1.
а. := 1 i
Ь. := х i i
\- 1
С,:=(Х)2
А := аи§шеп1;(а,Ь,с)
Р:=(АТ-А) -АТ-у рТ = (0.459 -0.131 0.238) у0 := А-р Т
А := у - у0 5:= А -А 5 = 159.724 а := 5 + п а = 3.194
Сту := 81аеу(у)
Туо := 81аеУ (уо) СТу0 = 1
сту = 2.371
558
= 0.657
у0
0.657
у0
2 4
х
< Г'
6
у
а
4
1
2
ст
ст
у
у
2
0
0
6
Рис. 1. Пример получения выборочного корреляционного отношения К
Дополнительная информация о корреляционных связях может быть получена из анализа сводного и частного коэффициентов корреляции.
Для получения точечных оценок этих коэффициентов рассмотрим пример задачи множественной линейной регрессии следующего вида:
у = Ро + рЛ + Р2Х2 + . . . + рт _ !Хт - + е = Ир + е. (13)
Здесь И = [х1 х2... хт- 1] - (1 х (т - 1))-строка факторов; р - (т х 1)-вектор параметров; случайная величина е независима от остальных слагаемых правой части (13), М(е) = 0 и М(е2) = ст2. В результате решения такой задачи регрессии с использованием известных подходов, получаем оценку параметров р и оценку отклика у
= И р . Ошибка оценки откликов еу = у - у = у - И р характеризует качество полученных оценок параметров.
В силу (13) оценка у будет коррелирована с откликом у. Мерой корреляции служит сводный коэффициент корреляции Щ , который характеризует связь отклика у со всеми факторами в строке И:
Щ = М(у - У)Ц IXу) IXу), (14)
где В(у), В( у ) - дисперсии отклика у и его оценки.
— 2 — 2 —
Учитывая, что у = у + ег; сту = Б(у) = Б( у ) + ст_у /ь = Б( у ) + Б(еу),
где ст^ /и = 0(еу) - условная дисперсия отклика у при условии, что реализована совокупность факторов И = X х2 ... хт- 1]. Это позволяет использовать другой вид выражения для :
^ = у! 1 - ст2/„/ст2 = ^ Я(у)/ст2у = ст у/сту . (15)
Значение получаем путем замены в выражениях для Я8 (14), (15) теоретических числовых характеристик на соответствующие выборочные значения. В качестве исходных данных и результатов этой задачи
выступают векторы У (значения откликов), У (значения оценок откликов), вектор еу = У - У ошибок оценок откликов, остаточная сумма квадратов О . Преобразованиями этих данных можно получить выборочную дисперсию отклика ст^в, выборочную дисперсию оценок отклика БВ( у), остаточную дисперсию = О / п как оценку условной дисперсии ст^/х и использовать эти величины в формуле (15). Тогда:
= у/1 - Л,/ст^в . (16)
Выражение (16) получено на основании решения простой задачи множественной регрессии и выгодно отличается от классической формулы Г.Крамера [1] для сводного коэффициента корреляции, в которой используются вспомогательные матрицы, их алгебраические дополнения и определители.
Типовой пример оценки сводного коэффициента корреляции (16) в среде Mathcad приведен на рис. 2.
10 1 := 0..п - а =1 Ь. := х1
0 0 0
0 -0.1 0 -0.14 0 -0.04
1 -0.33 1 56-10"3 1 0.32
2 -0.64 2 -0.23 2 0.41
3 0.42 3 0.46 3 0.03
4 -0.75 0У = 4 -0.42 А = 4 0.33
5 1.57 5 1.37 5 -0.2
6 0.75 6 0.89 6 0.15
7 -0.7 7 -0.71 7 591а3
8 0.84 8 0.93 8 0.09
9 0.82 9 -0.26 9 -1.07
а
уаг(У)
" (У У>)
^уаг(У0)-уаг(Щ
соп(х1, У) = 0.61 согг(х2, У) = 0.77
согг(х1, х2) = 0.34
с. := х2 |А := augшent(a,Ь~Т)
Р := (АТ-А) -АТ-У
( 0.18л 0.17 10.09у
' | Остаточная сумма квадратов |
а ' п 5 | Остаточная дисперсия |
V х
5= 1.59
а = 0.16
п
Р
У := А
А := У - У
0
0
У
0.85
0
0.85
-5
0
10
Рис. 2. Пример получения выборочного сводного коэффициента корреляции
Концепция анализа остаточных невязок множественной регрессии, примененная для оценки Я5, позволяет использовать ее и при оценке частного коэффициента корреляции. Применительно к соотношению (13) это означает, например, анализ корреляционной связи между случайными величинами у и х1 при условии, что на каждую из них оказывает влияние совокупность остальных случайных величин, т. е. (х2, х3, . . . , хт-1). Это влияние можно определить, решая две задачи множественной регрессии [2]:
* получение оценки у2 т-1 отклика у при наличии факторов
(х2, х3, . . , хт-1 ) и
* оценки Х102 т-1 случайной величины хг при той же совокупности факторов.
В первой задаче откликом служит у, во второй — х1. Регрессионные соотношения для этих двух задач имеют вид: 1. у, = р10 + р12 х2,- + е,- ; 2. х1,- = р2о + Р22 х2,- + е,- .
По результатам решения этих двух задач получаем две остаточных невязки
у - у2,..т-1 = е0°2 ; х1 - х1°2,..т-1 = е1°2 . (17)
Эти задачи решаются для одной и той же совокупности факторов (х2, х3, ..., хт-1). В первой задаче в качестве отклика выступает первая составляющая (у) вектора z = [у х1 х2 ... хт - ^ = [г0 12 ... ?т -1] Т; во второй откликом служит вторая составляющая (х^ вектора z. По результатам решения этих двух задач получаем выборочные значения остаточных невязок е0о2 и е^, в качестве которых выступают соответствующие векторы ошибок оценки откликов (остаточных невязок еу = У - У и еХ1 = Х1 - Х1) .
Для рассматриваемого варианта анализа связи у и XI частный коэффициент корреляции выразится как парный коэффициент корреляции случайных величин е0о2 и е^ в виде [2]:
Я()1о2..т-1 = Я()1о2 = М(б0о2 • ?1о2)14°(е0о2)О(еЬ2) . (18)
Определяя выборочный корреляционный момент КВух1 для векторов еу и ех1 и выборочные дисперсии Ов(еу) и Дв(ех1), получим оценку Л01о2 (18) в виде
*0Ю2 = Квух . (19)
^Ов (еу) Ов (ех1)
Применение формул вида (19) в среде Mathcad предельно упрощается наличием встроенных функций еуаг и уаг для вычисления выборочных значений корреляционных моментов и дисперсий.
Вычисление оценок частных коэффициентов корреляции путем решения соответствующих задач регрессии имеет еще одно преимущество, связанное с возможностью анализа качества частных задач регрессии при исключении отдельных факторов. Этот анализ основан на сопоставлении остаточных дисперсий, получаемых по результатам решения вариантов задач.
Так же, как и при оценке сводного коэффициента корреляции, результирующее соотношение (19) получено путем решения соответствующих задач регрессии, что проще и информативнее подхода, предложенного в работе [1]. Рассмотренный ниже пример, иллюстрированный рис. 3, демонстрирует сравнительную простоту и рациональность применения СКМ при анализе задач подобного класса.
10 1 := 0.. п - а:
0 0
0 -0.1 0 -0.14
1 -0.33 1 56-10"3
2 -0.64 2 -0.23
3 0.42 3 0.46
4 -0.75 оУ = 4 -0.42
5 1.57 5 1.37
6 0.75 6 0.89
7 -0.7 7 -0.71
8 0.84 8 0.93
9 0.82 9 -0.26
= 1 Ь. := х1. с. := х2 |Л := а ни т е п[ ( а. Ь. с)
0
0 -0.04
1 0.32
2 0.41
3 0.03
4 0.33
5 -0.2
6 0.15
716 59-10"3
8 0.09
9 -1.07
уаг(У)
^уаг(У0/уаг(У)
сап(х1. У) = 0.61 сап(х2. У) = 0.77
сап(х1. х2) = 0.34
:=(лТЛГ '•ЛТЛ
Р := (Л1 •Л/ •Л'•У Р =
Д:= у0 - У
У0 := ЛР
( 0.18^ 0.17 0.09
' | Остаточная сумма квадратов
а : п 8 | Остаточная дисперсия |
V х
8= 1.59
а = 0.16
Рис. 3,а. Пример получения оценки ^01о2 по формуле (19) В данном примере имеют место два частных коэффициента корреляции:
° ^01<>2, характеризующий связь между откликом (у) и первым фактором (х1) в условиях, когда исключаются изменения, вызванные влиянием второго фактора (х2);
° ^02<>1, характеризующий связь между откликом (у) и вторым фактором (х2) в условиях, когда исключаются изменения, вызванные влиянием первого фактора (х1).
На рис. 3, а представлены результаты решения двух задач регрессии и вычислений ^0'о2 по формуле (19), полученной на основе (18). Значения факторов, как и ранее, составляют векторы Ь и с, значения откликов — вектор у. Значение оценки ^0'о2 составляет 0.57.
На рис. 3, б вычисление той же оценки ^0'о2 выполняется с использованием формул, которая получена путем упрощения выражений вида «01о2 = - Т'2 / ^т11т22 = -812/ -/^11^22 , предложенных в [1].
п :=
У=
Д=
5
а
= 0.85
Уе. 0
"5
0
5
10
Здесь выборочные коэффициенты корреляции вычислены с применением встроенной функции согг. Полученный здесь результат Я(ц02 = 0.57, конечно, совпадает с результатом оценки первым способом (см. рис.
3,а).
^ := согг(У,Ь) Гф2:= согг(У, с) г^:= согг(Ь, с)
Г01 = 0.61 г02 = 0.77 Г!2 = 0.34 Г01 " г02г12 0 57
X1 - г022Н 1 " ^
Рис. 3,б. Пример получения оценки Л01»2 по формулам Крамера
Проведенный анализ показывает, что практика применения СКМ в процессе изучения раздела «Корреляционный анализ» математической статистики позволяет вводить в программу практических занятий задачи специального корреляционного анализа, несмотря на большой объем вычислений, который сопровождает решение этих задач. При этом показано, что могут быть получены алгоритмы решения, обеспечивающие простоту проникновения в сущность задач рассматриваемого класса, в отличие от механического использования традиционных формул, полученных в [1].
Литература
1. Крамер Г. Математические методы статистики. / Пер. с англ.под ред. А.Н.Колмогорова. М.: Мир, 1975. - 648 с
2. Ивановский Р.И. Теория вероятностей и математической статистики. Основы, прикладные аспекты с примерами и задачами в среде МаШса<1 - СПб.: БХВ, 2008. -528 с.