Научная статья на тему 'Линейная регрессия по методу двух медиан'

Линейная регрессия по методу двух медиан Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
338
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНЕЙНАЯ РЕГРЕССИЯ / LINEAR REGRESSION / РАЗВЕДОЧНЫЙ АНАЛИЗ / MEDIAN-MEDIAN LINE

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Попов Александр Михайлович

В статье описан метод регрессии по двум медианам и представлены результаты по его сравнению с линейной регрессией по методу наименьших квадратов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о Земле и смежным экологическим наукам , автор научной работы — Попов Александр Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Линейная регрессия по методу двух медиан»

Median-median method of linear regression Popov A.

Линейная регрессия по методу двух медиан Попов А. М.

Попов Александр Михайлович /Popov Aleksandr - кандидат технических наук, доцент,

кафедра высшей математики, Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова,

г. Санкт-Петербург

Аннотация: в статье описан метод регрессии по двум медианам и представлены результаты по его сравнению с линейной регрессией по методу наименьших квадратов. Abstract: the article describes a median-median regression method and the results of its comparison with linear regression by least squares method.

Ключевые слова: линейная регрессия, разведочный анализ. Keywords: median-median line, linear regression.

УДК 519.254

Основанная на методе наименьших квадратов линейная одномерная регрессия (least square regression) является широко используемым приемом для построения прямой линии, проходящей через набор двумерных точек. Для этой процедуры развита изящная теория [1]. Однако, при разведочном анализе, целесообразно использовать метод регрессии по двум медианам (median-median regression), предложенный Дж. Тьюки [2]. Этот метод прост для вычислений и устойчив к наличию в выборке аномальных наблюдений.

Для построения линии регрессии по двум медианам следует:

1. Упорядочить данные по возрастанию переменной х.

2. Разделить массив данных на три равные части (при этом, если остаток от деления числа элементов в массиве на равен единице, то лишнее наблюдение помещают в среднюю группу; если остаток равен двум, то два лишних наблюдения помещают в нижнюю и верхнюю группы).

3. Составить три точки с координатами А(хх,у1), В(х2 , у2) , C (х3 ,у3 ) , где х1,х2,х3 и у у2,у3 - медианы в 1-ой, 2-ой и 3-ей группах по переменным х и у.

4. Найти уравнения прямых I Ас и Iв с углом наклона Уз у 1, проходящих через

х3~х1

точки , и соответственно.

5. Найти уравнение линии регрессии по двум медианам, - прямой, параллельной прямым и , и проходящей между ними на расстоянии начиная от прямой .

Описанный алгоритм реализован на языке R [3].

На рисунке 1 изображены три линии регрессии, полученные по данным, представленным в таблице 1:

Таблица 1. Исходные данные

№ 1 2 3 4 5 6 7 8 9 10 11 12 13 14

x 7 8 9 9 10 10 10 10 11 11 11 11 12 15

У 113 104 91 96 83 83 100 100 100 84 102 86 105 95

№ 15 16 17 18 19 20 21

x 15 17 18 20 20 26 42

У 102 121 93 87 94 71 57

а) уравнение регрессии 1ММ: у = — 0.2 73х + 99.9 70 по методу двух медиан изображено в виде прямой сплошной линии;

b) уравнение регрессии у = — 1 . 1 2 7х + 1 09 .874 по методу наименьших квадратов изображено в виде пунктирной прямой линии;

c) уравнение регрессии у = — 0. 087х + 9 7.862 по методу наименьших квадратов, полученное по данным, из которых исключены выбросы (наблюдения с номерами 2 0 и 2 1 ), изображено в виде пунктирной прямой линии из точек.

120

100

80

60

10 20 30 40

х

Рис. 1. Графики линий регрессии

Из рисунка видно, что отклонившиеся от прямой точки не так сильно влияют на линию регрессии как на линию

Сравнение регрессии по методу двух медиан (далее - ММ) с регрессией по методу наименьших квадратов (далее - Ь8) проводилось в пакете программ Я [4] методами статистического моделирования.

Для этого:

a) при различных типах выбросов (таблица 2),

b) для двух наборов объясняющей переменной: = (1 ,2 ,3 ,. . .,2 4) и = (1, 1,2,2,. . .,2 4,2 4) ,

c) при двух значениях параметра ст: сг = 1 и ст = 5 ,

ф для модели У = 0 + 1Х + е, где е ~ N (0 , с) ,

е) двумя методами (Ь8 и ММ).

Рассчитывалось по 1 000 значений коэффициента наклона соответствующих прямых.

План Формула Описание

A Выбросов нет Выбросов нет

B У1Я = 0 + 1Х1Я + 5-|е1я1 Один большой выброс по центру выборки

C У17 = 0 + 1Х17 + 5 • |е17| У18 = 0 + 1Х1В - 5 • |е18| Два выброса (положительный и отрицательный) в начале верхней части данных

D У17 = 0 + 1Х17 + 5 • |е17| Один положительный выброс в начале верхней части данных

E Г23 = 0 + 1Х23 — 5 • |е23| У24 = 0 + 1Х24 + 5 • |е24| Два выброса (положительный и отрицательный) в конце верхней части данных

F У17 = 0 + 1Х17 + 5 • |е17| Y1B = 0 + 1Х1В + 5 • |е18| Два положительных выброса в начале верхней части данных

G Y17 = 0 + 1Х17 - 5 • |е17| У24 = 0 + 1Х24 + 5 • |е24| Один отрицательный выброс в начале и один положительный выброс в конце верхней части данных

H У24 = 0 + 1Х24 + 5 • |е24| Один положительный выброс в конце верхней части данных

I F23 = 0 + 1Х23 + 5 • |е23| F24 = 0 + 1Х24 + 5 • |е24| Два положительных выброса в конце верхней части данных

В таблицах 3 — 6 представлены: среднее (MEAN), стандартное отклонение (SD) и среднеквадратическая ошибка (MSE) коэффициента наклона для каждого из вариантов плана.

Таблица 3. Схема ХА, а = 1

План MEAN SD MSE (x 103)

LS MM LS MM LS MM

A 1.002 1.001 0.030 0.052 0.879 2.734

B 1.002 1.000 0.030 0.052 0.913 2.654

C 0.997 1.027 0.033 0.054 1.110 3.657

D 1.017 1.027 0.031 0.056 1.260 3.914

E 1.002 0.964 0.047 0.058 2.254 4.641

F 1.035 1.055 0.035 0.059 2.477 6.488

G 1.024 1.002 0.041 0.051 2.304 2.618

H 1.040 1.001 0.041 0.051 3.239 2.633

I 1.078 1.003 0.049 0.051 8.457 2.567

Таблица 4. Схема ХА, а = 5

План MEAN SD MSE (x 103)

LS MM LS MM LS MM

A 1.009 1.007 0.145 0.184 21.158 34.060

B 1.012 1.005 0.148 0.185 22.116 34.281

C 0.991 1.055 0.169 0.189 28.681 38.907

D 1.081 1.075 0.156 0.187 31.008 40.695

E 1.020 0.952 0.240 0.189 58.110 38.216

F 1.178 1.167 0.167 0.193 59.590 65.091

G 1.121 1.004 0.211 0.196 59.393 38.596

H 1.204 1.035 0.214 0.192 87.462 37.905

I 1.380 1.081 0.242 0.192 203.012 43.294

Таблица 5. Схема Хв, а = 1

План MEAN SD MSE (x 1 03 )

LS MM LS MM LS MM

A 0.999 1.000 0.059 0.086 3.496 7.396

B 1.008 1.000 0.059 0.086 3.550 7.416

C 1.001 1.047 0.068 0.085 4.694 9.553

D 1.032 1.045 0.062 0.087 4.882 9.486

E 0.999 0.955 0.098 0.091 9.659 10.369

F 1.072 1.092 0.069 0.088 10.073 16.320

G 1.036 0.997 0.081 0.088 7.939 7.760

H 1.079 1.009 0.079 0.086 12.452 7.430

I 1.155 1.011 0.093 0.084 32.671 7.249

Таблица 6. Схема Хв, а = 5

План MEAN SD MSE (x 1 0 3)

LS MM LS MM LS MM

A 1.006 0.996 0.298 0.367 88.767 134.813

B 1 . 039 0.996 0.297 0.365 89.951 133.057

C 1.011 1 . 053 0.345 0.369 118.856 138.769

D 1.155 1.118 0.314 0.364 122.749 146.307

E 1 . 021 0. 972 0. 479 0. 375 229.728 141.753

F 1 . 349 1 . 270 0.332 0. 372 231.803 211.222

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

G 1 . 201 1 . 004 0.413 0.389 211.471 151.142

H 1 . 370 1.067 0.407 0. 372 302.097 143.031

I 1.776 1 . 206 0.500 0.384 851.619 189.872

Регрессия по двум медианам предлагается как простая, робастная альтернатива классической регрессии по методу наименьших квадратов. Результаты моделирования показывают, что ее использование оправдано во всех рассмотренных случаях. При наличии в выборке больших экстремальных значений на концах (план G, H и I), а также в случае большого разброса данных, регрессию по методу двух медиан можно предпочесть регрессии по методу наименьших квадратов.

К недостаткам метода регрессии по двум медианам можно отнести отсутствие развитой, по сравнению с классической регрессией по методу наименьших квадратов, теории. Для оценивания дисперсии «ошибки», построения соответствующих доверительных интервалов и областей, проверки гипотез требуется проводить бутстреп.

Литература

1. СеберДж. Линейный регрессионный анализ. М.: «Мир», 1980.

2. Тьюки Дж. Анализ результатов наблюдений. М.: «Мир», 1981.

3. [Электронный ресурс]. Режим доступа: http://mathshelper.wikidot.com/wiki-use-r-eda-wiki-median-median-line/ (дата обращения: 13.10.2016).

4. R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.