Научная статья на тему 'Улучшенные робастные гребневые оценки регрессии'

Улучшенные робастные гребневые оценки регрессии Текст научной статьи по специальности «Математика»

CC BY
177
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
M-ОЦЕНКИ / ПРИНЦИП ВИНЗОРА / РОБАСТНЫЕ ГРЕБНЕВЫЕ ОЦЕНКИ / WINSOR'S PRINCIPLE / M-ESTIMATES / ROBUST RIDGEESTIMATES

Аннотация научной статьи по математике, автор научной работы — Грицюк В. И.

В множественной линейной регрессии, когда предсказатели сильно коррелированы, оценки наименьших квадратов (LSE), как правило, дают неточные прогнозы. Гребневая регрессия, основываясь на минимизации квадратичной функции потерь, чувствительна к выбросам. Рассмотрены две сглаженно сниженные ψ-функции, основанные на принципе Винзора, которые приводят к асимптотически эффективным оценкам

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Improved robust ridge regression estimates

In multiple linear regression when the predictors are strongly correlated, the least-squares estimates (LSE) usually provide inaccurate predictions. Ridge regression, based on the minimization of a quadratic loss function, is sensitive to outliers. Two smoothly redescending ψ-functions based on the Winsor’s principle, which lead to asymptotically efficient estimates were considered. The method of iteratively reweighted least squares (IRLS) based on the proposed ψ-functions can be used to produce the resulting robust ridge estimates for identifying outliers and ignoring zeroweight outliers. Examples, selected from the relevant literature, are used for illustrative purposes. It is possible to obtain convergence to the final estimates of the coefficients with fewer iterations than without using ridge regression. The combined robust and ridge estimates result in stable coefficients and balances that help in determining the true coefficients and outliers.

Текст научной работы на тему «Улучшенные робастные гребневые оценки регрессии»

9. Bellahsene, Z. Forum: a flexible data integration system based on data semantics [Text] / Z. Bellahsene, S. Benbernou, H. Jaudoin, F. Pinet, O. Pivert, F. Toumani, S. Bernard, P. Colomb, R. Coletta, E. Coquery, F. De Marchi, F. Duchateau, M.-S. Hacid, A. HadjAli, M. Roche // SIGMOD Record. - 2010. - Vol. 39, Issue 2. - P. 11-18.

10. Roche, M. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms [Text] / M. Roche, V. Prince // Modeling and Using Context. Springer-Verlag Berlin Heidelberg, 2007. - P. 411-424. doi: 10.1007/978-3-540-74255-5_31

11. Roche, M. Intégration de la construction de la terminologie de domaines spécialisés dans un processus global de fouille de textes [Text]: PhD thesis / M. Roche. - Paris, 2004.

12. Smadja, F. Translating collocations for bilingual lexicons: A statistical approach [Text] / F. Smadja, K.R. McKeown, V. Hatzivassiloglou // Computational Linguistics. - 1996. - Vol. 22, Issue 1. - P. 1-38.

13. Dictionnaire de sigles et acronyms [Electronic resource] / G. Blandin. - Asankyeya, 2005. - Available at: http://www.sigles.net

14. Medline [Electronic resource] / R. Pike. - USA, 2004. - Available at: http://www.ncbi.nlm.nih.gov/PubMed

-□ □-

Умножинншлтшншрегреси, коли пров^ники сильно корельоват, оцтки найменших квадратiв (1£Е), як правило, дають неточн прогнози. Гребенева регреыя, яка грунтуеться на мiнiмiзацii квадратичног функ-ци втрат, чутлива до викидiв. Розглянуто двi гладко знижен щ-функцп, засноваш на принцип Втзора, як призводять до асимптотично ефективних оцток

Ключовi слова: М-оцтки, принцип Ынзора, робаст-

н гребеневi оцтки

□-□

В множественной линейной регрессии, когда предсказатели сильно коррелированы, оценки наименьших квадратов (1£Е), как правило, дают неточные прогнозы. Гребневая регрессия, основываясь на минимизации квадратичной функции потерь, чувствительна к выбросам. Рассмотрены две сглаженно сниженные щ-функции, основанные на принципе Винзора, которые приводят к асимптотически эффективным оценкам Ключевые слова: М-оценки, принцип Винзора,

робастные гребневые оценки -□ □-

УДК 519.6

|DOI: 10.15587/1729-4061.2015.37316|

УЛУЧШЕННЫЕ РОБАСТНЫЕ ГРЕБНЕВЫЕ ОЦЕНКИ РЕГРЕССИИ

В. И. Грицюк

Кандидат технических наук, доцент Кафедра проектирования и эксплуатации электронных аппаратов Харьковский национальный университет радиоэлектроники пр. Ленина, 14, г. Харьков, Украина, 61166 E-mail: astra kk12@mail.ru

1. Введение

Гребневая регрессия чувствительна к выбросам. Гребневая регрессия и робастная регрессия были предложены для решения этой проблемы мультиколлине-арности и выбросов в классической линейной регрессионной модели соответственно. Эта статья предлагает робастную и гребневую регрессии для одновременного решения проблемы мультиколлинеарности и определения выбросов в классической линейной регрессионной модели.

Когда предикторные переменные мультиколли-неарны, оценки наименьших квадратов могут быть слишком большими по абсолютной величине и дисперсии, могут стать очень большими.

2. Анализ литературных данных и постановка проблемы

В этой статье мы рассмотрим гребневые оценки. В множественной линейной регрессии, когда предсказатели тесно связаны, оценки наименьших квадратов (LSE) дают неточные прогнозы. В попытке исправить

это, Ноег1 и Кеппай предложили гребневую регрессию [1, 2]. Они добавили штраф, который создаёт небольшое смещение для того, чтобы одновременно уменьшить оценку и уменьшить дисперсию, что приводит к повышению общей точности прогнозирования. Многие проблемы регрессии состоят как в мультиколли-неарности, так и в ненормальности в той или иной степени. Известно, что метод НК ведет себя плохо, когда распределение ошибок не является нормальным, особенно, когда ошибки являются тяжелыми хвостами, то есть, если существуют отдаленные наблюдения. Эта чувствительность МНК к выбросам результатов приводит к очень обманчивым результатам. Чтобы справиться с этой проблемой была разработана методика робастной регрессии. Наиболее распространене ным является метод робастной регрессии М-оцен-ки, введенный Хьюбером [5-3]. Холланд изучал совокупную проблему, и предложил использовать взвешенную гребневую регрессию с робастным выбором весов. В статье представлен подход, основанный на сочетании математических формулировок программирования как гребневой регрессии, так и робастной регрессии. Искомые коэффициенты регрессии могут быть легко вычислены путем итератив-

ной ревзвешеннои процедуры наименьших квадратов, примененной к расширенному набору данных. В результате робастные и гребневые оценки являются превосходными результатами по сравнению с только либо робастными, либо гребневыми оценками.

3. Цель и задачи исследования

Целью настоящей работы является исследование и разработка объединённых методов робастного и гребневого оценивания, обладающих улучшенными свойствами сходимости и асимптотической эффективностью.

Для достижения поставленной цели решались следующие задачи:

- анализ известных методов M-оценок, анализ сглаженно сниженных M-оценок, выбор у-функций с улучшенной эффективностью;

- разработка объединённых методов робастной и гребневой регрессии с использованием в качестве помехоустойчивой меры разброса с медианы абсолютных отклонений, основанных для оценивания коэффициентов на итеративно ревзвешенном методе наименьших квадратов (IRLS) и учитывающих наличие в модели свободного члена (intercept);

- получение результатов моделирования по сравнению методов Андрюса, Тьюки, МНК и с применением разработанных объединённых методов ро-бастной и гребневой регрессии на основе выбранных у-функций.

4. Материал и результаты исследований робастной и гребневой регрессии, результаты моделирования

Наиболее часто используемыми робастными оценками являются Хьюбера M-оценки (Хампель и др., 1986), ММ-оценки (Йохай, 1987), GM-оценки, Сигеля оценки повторяющихся медиан (Rousseeuw и Leroy 1987), оценки наименьших квадратов медиан (LMS), LTS-оценки, (Rousseeuw 1984), S-оценки (Rousseeuw и Yohai 1984), MVE-оцен-ки (Rousseeuw и Leroy 1987), и оценивание минимального определителя ковариационной матрицы (MCD) (Rousseeuw и Van Driessen 1998). Введём новое семейство асимптотически более эффективных, сглаженно сниженных М-оценок. Этот новый подход основан на хорошо известном принципе Винзора (Winsor в Тьюки), в котором говорится, что все распределения являются нормальным явлением по происхождению.

M-оценивание основано на идее замены квадратов остатков, используемых в оценке МНК, другой функцией остатков, получая

\in £p(riX

(1)

где р является симметричной функцией с минимумом в нуле, р-функция должна обладать следующими свойствами,

1. р(0) = 0;

2. P(t) > 0;

3. p(t) = p(-t);

4. for 0 ^ t4 ^ t2 ^p(tj) < p(t2) ;

5. p-непрерывная,

где p является симметричной функцией. Дифференцируя уравнение (1) по отношению к коэффициентам регрессии, получаем

Xv(r1)xu= 0, j = 1,2.....p,

i=1

Ё V ô)Xj= 0,

(2) (3)

где у является производной от p и xi является вектор-строкой объясняющих переменных i-го наблюдения. M-оценка получается путем решения этой системы p нелинейных уравнений. Решение не эк-вивариантно относительно масштабирования. Таким образом, остатки должны быть стандартизированы с помощью некоторой оценки стандартного отклонения а, так что, они должны быть оценены одновременно. Одна возможность состоит в использовании медианы абсолютных отклонений (MAD). Шкала оценки: с = 1.483medj |ri|_ Умножение на 1,483 сделано для того, чтобы для нормально распределенных данных с было оценкой стандартного отклонения. Соответствующая W-функция (весовая функция) для любого p затем определяется как

œ(ti) =

V(ti)

(4)

где ^ стандартизированные остатки. Используя эти ю-функции в МНК, мы получаем взвешенный метод наименьших квадратов (WLS) и полученные оценки называются взвешенными оценками (Hoaglin и др., 1983). Взвешенные оценки вычисляются путем решения уравнений, где W является диагональной квадратной матрицей, имеющей диагональные элементы в качестве весов.

b = (XTWX)-1XTWy.

(5)

Сниженные М-оценки. Сниженные М-оценки были введены Хампель, который использовал три части сниженных оценок с р-функциями, ограниченная у-функ-ция становится 0 для больших (Хампель и др., 1986) | 1 |. Состоящая из трех частей сниженная у-функция Хампеля определяется как

V (t) =

sign(t)|t|, если 0 < ^ a,

asgn(t), если a < |t| ^ b,

{(c - |t|)/(c - b)} asgn(t), если b < |t| ^ c,

0, если c < Itl,

(6)

(Hoaglin и др.). Возникает потребность в у-функции сглаженно сниженной природы. Некоторые сглаженно

сниженные M-оценки были предложены время от времени. Реальные улучшения пришли от Андрюс (Andrews, 1974) и Тьюки (Mosteller и Tukey, 1977; Hoaglin и др, 1983), которые использовали волновые оценки (также называемые синус-оценки) и бивейт-оценки, соответственно. И волна Андрюса, и бивейт-оценки Тьюки являются сглаженно-сниженными у-функциями. Потом Кадир (1996) предложил у-функцию, с весовой функцией бета-функцией с а=р. В последнее время Асад (2004) предложил другую у-функцию, которая имеет большую линейность в её центральной части. Волновая функция Андрюса

V(t) =

as.n I —

|t| <na, в друг. случ.

(7)

Бивейт-функция Тьюки

V(t) =

, It < a,

в друг. случ.

(8)

Результаты моделирования по методу Андрюса, Тьюки в сравнении с методом МНК приведены ниже. В качестве примера исследован известный набор данных, взятый из Rousseeuw и Leroy (1987). Этот пример вьв бран, потому что этот реальный набор данных [6-8] был рассмотрен многими статистиками, такими как Danial и Wood (1971), Andrews (1974), Andrews и Pregibon (1978), Cook (1979), Draper и Smith (1981), Dempster и Gasko-Green (1981), Atkinson (1982), Rousseeuw и Leroy (1984), Carroll и Rupert (1985), Qadir (1996) и некоторыми другими с помощью различных методов. Данные описывают работу установки для окисления аммиака в азотную кислоту и состоят из 21 четырехмерных наблюдений. Stackloss (у) должен быть объяснен скоростью работы (xj), температурой охлаждающей воды на входе (x2), и концентрацией кислоты (х3). Были получены оценки коэффициентов, которые включены в уравнения:

1) E(y)=-39.919+0.716 x1 +1.295 x2 -0.152 x3,

2) E(y)=-37.652+0.798 x1 + 0.577 x2 -0.067 x3,

3) E(y)=-37.061+0.821 x1 +0.513 x2 -0.074 x3,

4) E(y)=-36.908+0.827 x1 +0.495 x2 -0.075 x3.

Уравнение 1) включает коэффициенты, полученные МНК. Уравнение 2) содержит коэффициенты, полученные МНК с удалёнными точками 1, 3, 4 и 21. Уравнение 3) содержит соответственно коэффициенты, полученные методом Андрюса (а=1,5), уравнение 4) содержит коэффициенты, полученные с функцией бивейт Тьюки (a=4,685).

Из табл. 1 видно, что робастные процедуры по методу Андрюса (a=1,5) и методу Тьюки (a=4,685) ведут к идентификации четырёх выбросов и дают те же оценки, что и метод наименьших квадратов, когда из данных удалены четыре выброса.

Таблица 1

Остатки, полученные по методу Андрюса, методу Тьюки в сравнении с методом МНК

№ У Остатки МНК Остатки МНК без Выброс Остатки Андрюс Остатк Тьюки

1 42 3,24 б,22 б,02 б,04

2 37 -1,92 1,15 0,95 0,9б

3 37 4,5б б,43 б,23 б,24

4 28 5,70 8,17 8,25 8,2б

5 18 -1,71 -0,б7 -0,74 -0,74

б 18 -3,01 -1,25 -1,24 -1,24

7 19 -2.39 -0,42 -0,30 -0,28

8 20 -1,39 0,58 0,71 0,72

9 15 -3,14 -1,0б -0,94 -0,93

10 14 1,27 0,3б 0,04 0,02

11 14 2,б4 0,9б 0,72 0,б9

12 13 2,78 0,47 0.15 0,11

13 11 -1,43 -2,51 -2,81 -2,83

14 12 -0,05 -1,35 -1,48 -1,5

15 8 2,3б 1,34 1,33 1,33

1б 7 0,91 0,14 0,10 0,09

17 8 -1,52 -0,37 -0,45 -0,4б

18 8 -0,4б 0,1 0,07 0,07

19 9 -0,б0 0,59 0,б5 0,б5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20 15 1,41 1,93 1,84 1,83

21 15 -7,24 -8,б3 -9,05 -9,07

Асимптотическая вариация и эффективность М -оценок.

Для больших п можно выразить р как примерно нормально распределенное

где

D (р) = Np (р, U (XTX)-1 ), e, |v(r¡/ С

и = (С

[ave,|v(r,/(С )}]2n - p'

(9)

(10)

где ave¡(z¡) - среднее набора данных z. На практике можно оценить

[E (V2 )]

1 I V2

[E (V')]2

1IV

\2

Принцип Винзора. Принцип Винзора гласит о том, что все распределения нормальные в середине. Таким образом, у-функция М-оценки должна быть похожа на ту, которая оптимальна для гауссовских данных в середине.

Новые у-функции. Предлагаются несколько новых у-функций, и обсудим их свойства по сравнению с другими у-функциями: функцией Андрюса и би-вейт-функцией Тьюки. Предлагаемые у-функции [9] приведены ниже.

V1(t) =

1 -'!

2

, если It < a, если kl ^ a.

(11)

0

n

и

V 2 (t) =

1

< a,

если t ^ a,

(12) (XTWX + XIp )ßi = XTW (y-ß01n).

где а - так называемая константа настроики и для 1-ого наблюдения, переменная t - остатки, шкалированные MAD.

р - функции, соответствующие у-функциям, приведенным выше, удовлетворяют стандартным своиствам, как правило связанным с обоснованнои целевои функциеи.

Асимптотическая эффективность предложенных M-оценок. Можно заметить, что сглаженно сниженные M-оценки ведут себя очень плохо, если ошибки деИ-ствительно нормально распределены.

Видно [9], что асимптотическая вариация и эффективность обеих предложенных у функций, то есть у4 и у2, намного улучшены по сравнению с другими версиями.

Таким образом, используем следующие соотношения, применяя робастную и гребневую оценку.

Для набора данных регрессии (X, у) с X eR"xри У eR"

ß = (ßo,ßi ) =

= argmin{L(X,y,ß):ßo eR,ßi eRp},

L(X,y, ß) = £p

r,(ß)

¿H Iß|,

(13)

(14)

г = (г1,^,г„)т = у-р01„-ХР4.

Как известно, классическая оценка гребневой регрессии (RR) соответствует нормальным уравнениям

ßo = У - xTß1,

(XTX + XIp )ß1 = XT (y-ßo1n),

(15)

1р - единичная матрица, х и у - средние X и у соответственно.

Система уравнений, соответствующая робастной гребневой оценке (RRR)

V(t) =p'(t),W(t) = V(t).

Пусть

v ^w r, W(t,) о = o(r(ß)), t, = -J-, rn, = —^,

О 2

w = (ra1v.., ran)T, W = diag(w).

(16)

(17)

Приравняем производную по ß в (14) нулю для RRR. wT (y-ßo1n-Xß1 ) = 0,

(18)

На основе исследований было обнаружено, что оценивание на основе обоих смещенных и робастных методов может быть полезным инструментом в тех случаях, когда наборы данных ухудшены одновременно от неортогональности и ненормальных ошибок. Процедура оценки состоит из увеличения исходного набора так, что обычный метод наименьших квадратов даст желаемую смещенную оценку данных. Затем многократно ревзвешенный метод наименьших квадратов, (IRLS) предполагающий итеративную процедуру, может быть использован для получения результирующих робастных и гребневых оценок. В результате моделирования получены оценки коэффициентов, включённые в уравнения:

5) E(y)=-39.68+0.846 x1 +0.421 x2 -0.038 x3,

6) E(y)=-39.666+0.846 x1 +0.426 x2 -0.038 x3.

Уравнения 5) и 6) содержат коэффициенты, полученные с применением робастных и гребневых оценок с функциями у1 (t) (a=2,7) и у2(t)(a=2,6) соответственно. Параметр X определяется согласно методу, приведенному в [10].

Таблица 2

Остатки для робастной гребневой регрессии с функциями ¥l (t) и у2(t)

№ Остатки RRR с V Остатки RRR с V2

1 5,833 5,829

2 0,795 0,790

3 5,956 5,954

4 8,273 8,268

5 -0,875 -0,876

6 -1,301 -1,304

7 -0,500 -0,503

8 0,499 0,497

9 -0,915 -0,920

10 -0,050 -0,048

11 0,290 0,297

12 -0,321 -0,313

13 -2,974 -2,971

14 -1,984 -1,978

15 1,063 1,066

16 -0,051 -0,048

17 -0,007 -0,012

18 0,258 0,255

19 0,870 0,865

20 1,870 1,865

21 -9,644 -9,637

Из табл. 2 видно, что объединённые методы робастного и гребневого оценивания, основанные на у^ и у2-функциях, подтверждают факт, что наблюдения 1, 3, 4 и 21 являются выбросами, так как предложенные методы дают высокие величины остатков для этих наблюдений.

5. Выводы

Метод итеративно ревзвешенных наименьших квадратов (IRLS) на основе предложенных у-функций может быть использован для получения результирующих робастных гребневых оценок для выявления выбросов и игнорирования выбросов с нулевыми весами. Применение объединённых робастных и гребневых оценок позволяет получить

сходимость к итоговым оценкам коэффициентов с меньшим количеством итераций, чем без использования гребневых оценок. Использование разработанной процедуры приводит к получению устойчивых коэффициентов и остатков, которые позволяют определить истинные коэффициенты и выбросы. Оценки, полученные с у 1 и у2 - функциями, автоматически находят эти коэффициенты и определяют выбросы.

Литература

1. Owen, A. A robust hybrid of lasso and ridge regression [Text] / A. Owen. - Technical report, Stanford University, CA, 2006. -P. 1-14.

2. Cortez, P. Modeling wine preferences by data mining from physicochemical properties [Text] / P. Cortez, A. Cerdeira, F. Almeida, T. Matos, J. Reis// Decision Support Systems. - 2009. - Vol 47, Issue 4. - P. 547-553. doi: 10.1016/j.dss.2009.05.016

3. Alma, O. G. Comparison of Robust Regression Methods in Linear Regression [Text] / O. G. Alma // Int. J. Contemp. Math. Sciences. -2011. - Vol. 6, Issue 9.-P. 409-421.

4. Asad, A. A Modified M-Estimator for the Detection of Outliers [Text] / A. Asad, M. F. Qadir // Pakistan Journal of Statistics and Operation Research. - 2005. - Vol. 1. - P. 49-64.

5. Qadir, M. F. Robust Method for Detection of Single and Multiple Outliers [Text] / M. F. Qadir // Scientific Khyber. -1996. -Vol. 9. - P. 135-144.

6. Deniel, C. Fitting Equations to Data [Text] / C. Deniel, F. S. Wood. - John Wiley and Sons, New York,1999. - 459 p.

7. Rousseeuw, P. J. and Leroy A.M. Robust Regression and Outlier Detection [Text] / P. J. Rousseeuw, A. M. Leroy. - John Wiley and Sons. New York, 1987. - 334 p. doi: 10.1002/0471725382

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Rousseeuw, P. J. Recent Development in PROGRESS [Text] / P. J. Rousseeuw, M. Hubert //Computational Statistics and Data Analysis. - 1996. - Vol. 21. -P. 67-85.

9. Asad, A. Regression Outliers: New M-Class y-Functions Based on Winsor's Principle With Improved Asymptotic Efficiency [Text] / A. Asad, M. F. Qadir, Salahuddin // Jornal of Statistics. - 2006. -Vol 13, Issue 1. - P. 67-83.

10. Грицюк, В. И. Модифицированный алгоритм наименьших квадратов и выбор модели [Текст] / В. И. Грицюк // Вестник национального технического университета "ХПИ". Серия Автоматика и приборостроение. - 2004. - № 17. - С. 47-50.

i Надоели баннеры? Вы всегда можете отключить рекламу.