Научная статья на тему 'Парная линейная регрессия. . . коэффициент «Корреляции»?. . . there is the question!'

Парная линейная регрессия. . . коэффициент «Корреляции»?. . . there is the question! Текст научной статьи по специальности «Математика»

CC BY
530
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ / КОЭФФИЦИЕНТ «КОРРЕЛЯЦИИ» / МАССИВЫ ФУНКЦИОНАЛЬНО ЗАВИСИМЫХ ДАННЫХ / КОЭФФИЦИЕНТ РЕГРЕССИИ / “CORRELATION” COEFFICIENT / PAIRED LINEAR REGRESSION / ARRAYS OF FUNCTIONALLY DEPENDED DATA / COEFFICIENT OF REGRESSION

Аннотация научной статьи по математике, автор научной работы — Падве Владимир Абрамович

Ставится вопрос о том, что «коэффициент корреляции», вычисляемый по массивам функционально зависимых данных в парной линейной регрессионной модели, не отражает стохастическуюсвязь наблюдений и не должен подвергаться анализу на незначимость. Он может использоваться лишь для арифметического контроля оценки коэффициента регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The issue of non-informativeness of the “correlation” coefficient calculated by arrays of data that are functionally dependent is posed. This coefficient doesn’trepresent the stochastic tie of observations and it doesn’t be analyzed by non-significance. It may be utilized onlyfor arithmetic control of coefficient of regression.

Текст научной работы на тему «Парная линейная регрессия. . . коэффициент «Корреляции»?. . . there is the question!»

УДК 332.14

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ... КОЭФФИЦИЕНТ «КОРРЕЛЯЦИИ»?... THERE IS THE QUESTION!

Владимир Абрамович Падве

Сибирский государственный университет геосистем и технологий, 630108, Россия, г. Новосибирск, ул. Плахотного 10, кандидат технических наук, доцент кафедры прикладной информатики и информационных систем, тел. (383)343-18-54, (913)958-12-34, (923)121-96-56, e-mail: evdapav@mail.ru

Ставится вопрос о том, что «коэффициент корреляции», вычисляемый по массивам функционально зависимых данных в парной линейной регрессионной модели, не отражает стохастическуюсвязь наблюдений и не должен подвергаться анализу на незначимость. Он может использоваться лишь для арифметического контроля оценки коэффициента регрессии.

Ключевые слова: парная линейная регрессия, коэффициент «корреляции», массивы функционально зависимых данных, коэффициент регрессии.

PAIREDLINEAR REGRESSION. «CORRELATION» COEFFICIENT?. THERE IS THE QUESTION!

Vladimir A. Padve

Siberian State University of Geosystems and Technologies, 630108, Russia, Novosibirsk, 10 Plakhotnogo St., Ph. D., associate professor, department of applied information science, tel. (383)343-18-54, (913)958-12-34, (923)121-96-56, e-mail: evdapav@mail.ru

The issue of non-informativeness of the "correlation" coefficient calculated by arrays of data that are functionally dependent is posed. This coefficient doesn'trepresent the stochastic tie of observations and it doesn't be analyzed by non-significance. It may be utilized onlyfor arithmetic control of coefficient of regression.

Key words: paired linear regression, "correlation" coefficient, arrays of functionally depended data, coefficient of regression.

Эконометрика широко применяет в своих исследованиях средства и методы математической статистики. Упомянутые методы используются для построения математических моделей изучаемых экономических процессов. Важнейшим аппаратом таких исследований является регрессионный анализ, поддержанный анализом дисперсий исходных данных, промежуточных преобразований и окончательных результатов.

Простейшим видом математических моделей в эконометрике служит парная линейная регрессионная модель, с рассмотрения которой обычно начинается конкретное изложение материала в литературе по этой тематике. Примером могут служить такие хорошо известные книги, как «Статистические выводы и связи» [1], «Прикладной регрессионный анализ» [2], «Введение в эконометрику» [3], «Эконометрика» [4] и многие другие источники.

Задача регрессионного моделирования возникает при анализе массивов парных данных х1, х2, ... хп иу1,у2, ... уп,полученных в ходе сбора числовой информации для анализа некоторого эксперимента. Хорошо известно МНК-решение такой проблемы для случая парной линейной регрессии. Предполагаемая зависимость отражается системой уравнений, линейных относительно неизвестных параметров р0 и Рь

Уп1 = хп2 -р21 • (!)

Однозначное решение системы (1) относительно вектора р21 достигается по методу наименьших квадратов, функционал которого

^ = X = X (У - Ро - ~1 • X )2 = тт (2)

/

в данном случае предполагает некоррелированность и равноточность погрешностей £п1 и неслучайность предикторов

х,

п2

1 1

V Х1 Х2

1

X

(3)

п У

Опустив хорошо известные преобразования, связанные с решением системы (1) под условием (2), и обозначив МНК-оценки параметров и погрешностей

латинскими буквами Р =Ь, =е, получим систему нормальных уравнений в матричной записи:

п [х] [X] [X2],

V ь1 У

Г [ У] ]

ХУ ]У

В системе (4) использованы Гауссовы обозначения сумм:

XУг =[у]» Xх =[х]» XхУ1 =[ху], Xх2 =[х2]•

(4)

Корни системы (4) - это искомые параметры регрессии:

с ь Л

V Ь1 у

п[х2] - [X]2

V] -[х]Н [у]л

V[xУ]у

-[х] п

(5)

Они сопровождаются апостериорными значениями своих дисперсий:

.2

~2 2 ~2 = то

п - [х]2/[X2]

1

~2 2 М- /-7Л

а1= ml= 2, -2, ' (7) [ .х J - x / И

где м2 = [e2 ]/(n - 2) -это апостериорная оценка дисперсии данных. Дисперсии (6-7) позволяют проверять гипотезы о незначимости параметров Ь0и Ь1. Уравнение регрессии

y = Ь0 + Ь • x. (8)

может быть дополнено доверительными границами на уровне значимости а путём построения трёх пар нижних yH и верхних yB границ, вычисляемых в точках { xmin ; У min {Х;У } и { xmax ; У max }:

yH = y -tn-2;1-a/2 • my> (9)

yB = y + tn-2;1-aJ2 • my . (10)

Здесь

my =)!•

л

, (11)

n [х ] - n • х

а ¿п-2;1-а/2 " квантиль распределения Стьюдента с (п-2)-мя степенями свободы.

Далее, обычно [1-4], предлагается оценивать коэффициент корреляции и анализировать его значимость.Используя массивы данных х1, ... хп и у1, ... уп, оценивают их выборочную «ковариацию» и выборочные «дисперсии»:

кху = [ху] / п- х • у, (12)

Л = [х2] / п - х2, = [у2] / п - у 2. (13)

По этим числам находят «оценкукоэффициента корреляции»:

гху = кху / (Sx•Sy). (14)

Формулы (12) - (14) имеют в качестве аргументов коэффициенты и свободные члены тех же нормальных уравнений (4), по которым найдены оценки параметров Ь0и Ь1. Комбинируя эти формулы и формулу коэффициента регрессии

и - [хУ] - п •х • У пъ

Ь1= Т^-=2"' ( )

[ х ] - п • х

устанавливают зависимость между «коэффициентом корреляции» гху и угловым коэффициентом уравнения регрессии Ь1, оценивающим величину ¡Зх:

с

Гху = ^ Ъь (16)

Следующим шагом исследования предполагается анализ коэффициента «корреляции» (14) на незначимость, а так же вычисление и анализ коэффициента «детерминации» [2], [5]:

Л _ 'у

к2 = Ш^ш, (17)

[(у - у )2]

численно равного квадрату коэффициента «корреляции» (14).

Позволю себе усомниться в целесообразности таких действий по следую-

2 2

щимсоображениям. Величины б х и б у, определяемые по формулам (13), оценивают не дисперсии наблюдений, а разбросы массивов данных, представляющих собой не элементы спектров случайных величинХиГ, а эмпирические значения

хиуфункционально зависимых величинХиУ, припорошенных флёром случайно-

2 2

стей 5хи5у. Эти же величины б х и б у используются при построении регрессионной модели (8), откуда элементы вектора уп1 попадают в формулу коэффициента детерминации (17).

В подтверждение последнего абзаца сошлёмся на результаты анализа линейной регрессионной модели, полученной по массивам данных, имеющих некоторую функциональную зависимость, которая искусственно искажалась по методу Монте-Карло погрешностями 5хи5у, имеющими нормальное распределение, стандарт которого устанавливался по желанию экспериментатора [6]. Один из таких результатов приводится ниже.

Таблица 1

Эксперимент Монте-Карло

Вар Парам Модель 1 2 3 4 5 6

к1 0 0 0 0,05 0,25 1 10

к2 0 5 5 10

Ур-ние регр Ьо Ь1 Ь0 Ь1 Ь0 Ь1 Ь0 Ь1 Ь0 Ь1 Ь0 Ь1 Ь0 Ь1

1,00 1,30 1,08 1,28 1,40 1,19 1,08 1,28 1,40 1,19 0,84 1,32 9,83 0,26

5,77 5,77 5,77 5,75 5,75 5,54 7,82

^У 7,50 7,42 8,20 7,40 8,18 7,42 10,94

Ц 0,00 0,95 4,74 0,95 4,74 1,42 11,32

гху 1,000 0,993 0,836 0,993 0,835 0,983 0,188

г8х8у - - - 0,010 0,010 0,010 0,010

В заключение можно констатировать, что оценку гху «коэффициента корреляции» р в линейной регрессионной модели, согласно [2] (с. 385-386), «трудно интерпретировать ... как меру взаимозависимости и, пожалуй, разумнее рассматривать его как индикатор, чем как точную меру». На наш взгляд было бы корректнее называть величину, вычисляемую в линейной регрессионной модели по формуле (14), контрольным коэффициентом, так как она находится по одним и тем же коэффициентам нормальных уравнений, что и коэффициент регрессии Ь1.

Резюмируя всё вышеизложенное, считаю целесообразным при построении линейной регрессионной модели ограничиваться только оценками её параметров Ь0и Ь1, самим уравнением регрессии у = Ь0 + Ь1 • х и дисперсионным анализом модели на адекватность и значимость коэффициентов. Вычисление «коэффициента корреляции» гху и «коэффициента детерминации^ и, тем более их последующий анализ, является, на мой взгляд, некорректной процедурой, так как аргументами данных формул являются не случайные величины, а функционально зависимые данные, лишь несколько искажённые погрешностями 5хи5усбора информации.

Функциональная зависимость массивов х1, ... хп и у1, ... уп, неумолимо

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Л

устремляет «коэффициенты» |гху| и Я к их предельным значениям «единица». Отклонение от единицы тем сильнее, чем больше погрешности 5хи5ув информации, но истинная корреляция гхумассивовх1, ... хп и у1, ... уп остаётся непознанной и, по моему убеждению, не познаваемой в подобных обстоятельствах. Какойможно проводить, в таком случае, анализ и давать заключения?

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Кендалл, М. Статистические выводы и связи[Текст]/ - М.: М. Кендалл, А. Стьюарт. М.: Наука, 1973. - Т.2. - 500 с.

2. Дрейпер, Н. Прикладной регрессионный анализ[Текст]/ Н. Дрейпер, Г. Смит. - М.: Финансы и статистика, 1986. -Кн.1. - 366 с.

3. Доугерти, Кристофер. Введение в эконометрику[Текст]/ - М.: Доугерти, Кристофер. Инфра-М, 1999. 402 с. Университетский учебник.

4. Эконометрика[Текст] /, под ред. чл.-корр. РАН И.И. Елисеевой, второе издание, М. Финансы и статистика, 2008. Учебник. - 576 с.

5. Вальтух, К.К.Теориястоимости: статистическаяверификация, информационное-обобщение, актуальныевыводы. Вестник РАН, 2005, том 75, М 9, с. 793-817.

6. Падве, В.А. Элементы теории вероятностей и математической статистики[Текст]: учеб. пособие / В. А. Падве. - Новосибирск: СГГА, 2013. - 208 с.

© В. А. Падве, 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.