Научная статья на тему 'Линейная регрессия и «Коэффициент корреляции»'

Линейная регрессия и «Коэффициент корреляции» Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
1154
160
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНЕЙНАЯ РЕГРЕССИЯ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / LINEAR REGRESSION / CORRELATION COEFFICIENT

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Падве Владимир Абрамович

Обсуждается вопрос о неинформативности «коэффициента корреляции», вычисляемого по массивам данных, имеющих значимую функциональную зависимость.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LINEAR REGRESSION AND CORRELATION COEFFICIENT

The issue of non-informativeness of the correlation coefficient calculated by arrays of data that are functionally dependent is discussed.

Текст научной работы на тему «Линейная регрессия и «Коэффициент корреляции»»

УДК 519.2

ЛИНЕЙНАЯ РЕГРЕССИЯ И «КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ»

Владимир Абрамович Падве

Сибирская государственная геодезическая академия, 630108, Россия, г. Новосибирск, ул. Плахотного 10, профессор кафедры прикладной информатики, тел. (383)343-18-54, мобильный телефон 8-913-958-1234, e-mail evdapav@mail.ru

Обсуждается вопрос о неинформативности «коэффициента корреляции», вычисляемого по массивам данных, имеющих значимую функциональную зависимость.

Ключевые слова: линейная регрессия, коэффициент корреляции.

LINEAR REGRESSION AND CORRELATION COEFFICIENT

Vladimir A. Padve

Siberian State Academy of Geodesy, 10 Plakhotniy Str., 630108, Russia, Novosibirsk, professor, department of applied information science, tel. (383)343-18-54, mob. phone 8-913-958-12-34, e-mail: evdapav@mail.ru

The issue of non-informativeness of the correlation coefficient calculated by arrays of data that are functionally dependent is discussed.

Key words: linear regression, correlation coefficient.

Задача регрессионного моделирования возникает при анализе массива парных данных xi, x2, ... xn и yi, y2, ... yn. Хорошо известно МНК-решение та-

кой проблемы для случая линейной регрессии.

Пусть исходная векторная линейная модель имеет вид

В этой модели ^П1 и 4п1 - это вектор-столбцы истинных значений наблюдённых массивов уп1 и хп1, 1п1 - вектор, состоящий из единиц, а ро и 01- коэффициенты модели.

Стохастическая связь между массивами данных традиционно «оценивается.» с помощью «коэффициента корреляции» гху. Отметим сразу, что теоретически коэффициент корреляции служит мерой линейной связи только для случайных векторов.

Приведём обычные при таком подходе выкладки. Используя массивы данных х1? х2, ... хп и у1? у2, ... уп, оценивают их выборочную «ковариацию» и выборочные «дисперсии»:

"Hn! = p0A1n1 + pi * $n!

(1)

= [хУ] 1 n- >

2 f2i/ 2 2 г 2i / 2

Sx = [x] I n -, Sy = [y] I n -.

(2)

По этим числам находят «оценку коэффициента корреляции»:

Комбинируя формулы (2) - (4) и формулу для углового коэффициента

Ь1 =, (5)

устанавливают зависимость между «коэффициентом корреляции» гху и угловым коэффициентом уравнения регрессии Ь1, оценивающим величину р1:

Гху = Ь1. (6)

В формулах (2) - (6) квадратные скобки И по символике К. Ф. Гаусса заменяют оператор суммирования

Угловой коэффициент уравнения регрессии Ь1 оценивает свою долю функциональной зависимости между величинами £п1 и ^п1. «Коэффициент корреляции» гху теоретически должен характеризовать стохастическую связь между погрешностями 8уп1и 8хп1 данных. Авторы монографии [1], и они не одиноки,

считают, что он «служит оценкой для какого-то истинного (но неизвестного)

параметра р». Далее, они предлагают «получить доверительный интервал для «р» или проверить нуль-гипотезу о предполагаемом значении параметра - Н0: р = р0, где р0 - определённое значение (быть может, и нуль), против любой из альтернативных гипотез Н1: р Ф р0 или р > р0».

На наш взгляд «коэффициент корреляции», определяемый формулой (4) и контролируемый формулой (6) не оценивает стохастическую связь между погрешностями 8хп1 и 8уп1, по следующим причинам.

Во-первых, модель (1) предполагает наличие функциональной связи между Лп1 и £п1, а данные уп1 содержат неизвестные случайные погрешности 8уп1 такие, что ^п1 = уп1 + 8уп1. Во-вторых, числовые значения хп1 практически так же содержат неизвестные погрешности 8хп1, пусть и менее рассеянные, чем 8уп1. В-третьих, оценки стандартов эх и эу характеризуют «рассеяния» числовых данных хп1 и уп1, связанных функционально, а не рассеяния их погрешностей 8хп1 и 8уп1.

Таким образом, можно заключить, что вычисляемый «коэффициент корреляции» гху = / (8х* 8у) представляет собой в линейной регрессионной модели у = Ь0 + Ь1*х некоторую функцию углового коэффициента Ь1 и абсолютно не отражает стохастическую связь погрешностей 8хп1 и 8уп1 данных хп1 и уп1. Следовательно, вычисляя величину гху по формуле (4), мы получаем информацию лишь о степени близости зависимости между массивами хп1 и уп1 к линейной, но не о корреляции между их неизвестными погрешностями 8хп1 и 8уп1.

В подтверждение последнего абзаца приведём результаты анализа линейной регрессионной модели (1), полученной по массивам данных, имеющих некоторую функциональную зависимость, которая искусственно искажена смоделированными погрешностями, имеющими нормальное распределение, стандарт которого устанавливался по желанию экспериментатора.

С помощью генератора стандартных нормальных чисел были выработаны массивы псевдо погрешностей 8хп1 и 8уп1. Суммирование массивов £п1 и ^п1 с погрешностями 8хп1 и 8уп1 дало исследуемые массивы хп1=£п1+к1*8хп1 и

Уп1= Ро* 1n1+Pi*xn1+k2*6yn1. Множителям k1 и k2 придавались различные пары значений, приведённые в таблице (Табл. 1). Там же помещены полученные уравнения регрессии, показатели разброса sx и 8У,оценка стандарта погрешностей Syn1 по остаткам ц и коэффициенты rxy и rgxgy. В таблице представлены два «среза» эксперимента, выполненного в среде “Excel”. Одни и те же погрешности 8xn1 и 8yn1 одновременно вводились в четыре варианта испытаний. Варианты отличались множителями k1 и k2 линейного преобразования моделируемых погрешностей. Исходный вариант «Модель» содержал только «чистые» значения данных, соответствующие уравнению ц = - 2,0 + 1,4 £.

Значения множителей k1 и k2 соразмерялись с характеристиками разброса значений sx и sy.

Модели 1 и 3 в обоих экспериментах хорошо оценивали угловой коэффициент р1 и свободный член р0. Модель 5, в которой величины цп1 и £n1 искажались равносильно, но в пять-восемь раз «слабее» значений sx и sy, так же удовлетворительно оценивала оба коэффициента, сохраняя их зн ачимость. Модели 2 и 4, сильно искажавшие цп1, но использовавшие либо «чистые», либо слегка искажённые значения £n1, удовлетворительно оценили угловой коэффициент р1 и плоховато свободный член р0.

Таблица 1

Два числовых эксперимента

Срез 1 Модель 1 2 3 4 5 б

k1 0 0 0 0,05 0,25 1 10

k2 0 1 5 1 5 1 10

Ур-ние У =-2,0+ У =-1,95+ У =-1,75+ У =-1,95+ У =-1,77+ У =-0,88+ У=10,89+

регрессии +1,4х +1,42х +1,51х +1,42х +1,51х +1,36х +0,52х

Sx 5,77 5,77 5,77 5,77 5,77 5,95 12,66

sy 8,07 8,23 9,36 8,24 9,37 8,23 11,58

Ц 0,00 0,72 3,59 0,72 3,59 1,53 10,06

Гху 1,000 0,997 0,931 0,997 0,932 0,984 0,566

r8x8y 0,295 0,295 0,295 0,295

Срез 2 Модель 1 2 3 4 5 б

Ур-ние У =-2,0+ У =-2,54+ У =-4,68+ У =-2,53+ У =-4,66+ У =-1,33+ У=4,17+

регрессии +1,4х +1,42х +1,48х +1,42х +1,48х +1,26х +0,29х

Sx 5,77 5,77 5,77 5,79 5,79 6,34 14,52

sy 8,07 8,22 9,80 8,26 9,82 8,22 13,17

ц 0,00 1,01 5,06 1,01 5,06 1,94 13,14

Гху 1,000 0,993 0,872 0,993 0,872 0,975 0,323

r8x8y - - - - 0,288 - 0,288 - 0,288 - 0,288

Модель 6, в которой искажения лп1 и £п1 значительно превышали значения разбросов 8Х и 8у, дала оценки обоих коэффициентов, неузнаваемо изменённые по сравнению с их модельными значениями. Последний результат ожидаем, так

как моделирует наблюдения низкого качества, характеризующиеся большими погрешностями 8хп1 и 8уп1.

«Коэффициент корреляции» гху в моделях 1 — 5 постоянно был близок к единице в обоих «срезах». В это же время истинный коэффициент корреляции Г5Х5У, будучи постоянным в каждой из четырёх моделей (3 - 6) обоих «срезов», принимал незначимые (относительно нулевой гипотезы Н0: р = 0) значения: 0,295 и -0,288. В модели 6 обоих срезов «коэффициенты корреляции» гху = 0,566 и 0,323 по-прежнему не имели ничего общего с истинными коэффициентами корреляции г§х§у.

В заключение можно констатировать, что оценку гху «коэффициента корреляции» «р» в линейной регрессионной модели, согласно [2], «трудно интерпретировать ... как меру взаимозависимости и, пожалуй, разумнее рассматривать его как индикатор, чем как точную меру». На наш взгляд было бы разумно называть величину, вычисляемую в линейной регрессионной модели по формуле (4), контрольным коэффициентом, так как она находится по одним и тем же коэффициентам нормальных уравнений, что и угловой коэффициент Ь1.

Итак, при построении линейной регрессионной модели, когда дисперсионный анализ подтвердил значимость полученной модели, вычисление «коэффициента корреляции» по формуле (4) нужно рассматривать как дополнительное контрольное вычисление и трактовать его лишь как индикатор наличия стохастической связи между данными, но не как меру такой связи. При этом отпадает, на наш взгляд, необходимость проверки гипотезы о численной значимости этого коэффициента.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Дрейпер, Н. Прикладной регрессионный анализ [Текст] / Н. Дрейпер, Г. Смит. - М.: Финансы и статистика, 1986.

2. Кендалл, М. Статистические выводы и связи [Текст] / М. Кендалл, А. Стьюарт. - М.: Наука, 1973.

© В.А. Падве, 2013

i Надоели баннеры? Вы всегда можете отключить рекламу.