Научная статья на тему 'Простое доказательство робастности метода наименьших квадратов с урезанием для линейной регрессионной модели'

Простое доказательство робастности метода наименьших квадратов с урезанием для линейной регрессионной модели Текст научной статьи по специальности «Математика»

CC BY
337
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
РОБАСТНАЯ РЕГРЕССИЯ / ROBUST REGRESSION / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ С УРЕЗАНИЕМ / LEAST TRIMMED SQUARES ESTIMATOR / ПОРОГОВАЯ ТОЧКА / BREAKDOWN POINT

Аннотация научной статьи по математике, автор научной работы — Шведов Алексей Сергеевич

В классической линейной регрессионной модели остатки предполагаются распределенными нормально. Но реальные данные редко в точности соответствуют предположениям классической модели. При этом даже единственное резко отличающееся наблюдение может очень сильно повлиять на оценку параметров регрессии. Одним из методов робастной регрессии с высокой пороговой точкой является метод наименьших квадратов с урезанием. Дано новое доказательство теоремы о величине пороговой точки для этого метода, значительно более простое, чем оригинальное доказательство.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Pointed out is that in classical linear regression model the residuals are assumed to be normally distributed with zero average and standard deviation. However, the real data usually do not satisfy the classical model assumptions. At the same time, even a single outlier can influence significantly on regression parameters estimation. One of the robust regression methods with high breakdown point is the method of least trimmed squares. The new proof of the breakdown point estimation theorem is given, being much more simple that the classic proof.

Текст научной работы на тему «Простое доказательство робастности метода наименьших квадратов с урезанием для линейной регрессионной модели»

атематические проблемы управления

УДК 519.233

ПРОСТОЕ ДОКАЗАТЕЛЬСТВО РОБАСТНОСТИ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ С УРЕЗАНИЕМ ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ

A.C. Шведов

В классической линейной регрессионной модели остатки предполагаются распределенными нормально. Но реальные данные редко в точности соответствуют предположениям классической модели. При этом даже единственное резко отличающееся наблюдение м о-жет очень сильно повлиять на оценку параметров регрессии. Одним из методов робаст-ной регрессии с высокой пороговой точкой является метод наименьших квадратов с урезанием. Дано новое доказательство теоремы о величине пороговой точки для этого метода, значительно более простое, чем оригинальное доказательство.

Ключевые слова: робастная регрессия, метод наименьших квадратов с урезанием, пороговая точка.

ВВЕДЕНИЕ

Робастные статистические методы в значительной степени созданы авторами книг [1, 2] и играют важную роль в приложениях. Современные методы робастной регрессии представлены, например, в книгах [3—5].

К работам по робастным методам примыкают работы по м етодам выявления резко выделяющихся наблюдений. Робастность можно понимать как уменьшение (или снятие) влияния резко выделяющихся наблюдений. При этом природа резко выделяющихся наблюдений может быть любой, от ошибок по небрежности до представления каких-то очень важных эффектов. В дальнейшем, для определенности выражений, под резко выделяющимися наблюдениями будем понимать ошибочные данные. Хотя для существа математических результатов это замечание значения не имеет.

Одним из основных показателей робастности статистического метода является пороговая точка, которая показывает, какую часть статистических данных можно испортить сколь угодно сильно, и при этом получающийся ответ будет все равно «иметь отношение к делу».

Например, чтобы одним показателем представить положение набора точек на прямой, можно воспользоваться средним арифметическим. Но

тогда, испортив всего одну точку из этого набора, можно добиться того, чтобы ответ изменился сколь угодно сильно. Это пример статистического метода с низкой пороговой точкой. Но если в качестве показателя взять выборочную медиану, можно испортить до половины точек из набора, и ответ будет все равно не очень сильно отличаться от правильного (остается вопрос, что называть правильным ответом). Это пример робастного статистического метода, статистического метода с высокой пороговой точкой.

Метод наименьших квадратов (МНК), наиболее распространенный метод построения регрессионных зависимостей, имеет низкую пороговую точку. Параметр регрессии можно изменить сколь угодно сильно, изменив всего одну точку в наборе наблюдений.

Отметим, что с проблемой робастности тесно связана проблема наличия тяжелых хвостов у распределения вероятностей для ошибок регрессии. Те большие выбросы, которые маловероятны при нормальном распределении ошибок, становятся вероятными при распределениях с тяжелыми хвостами. По этим вопросам см., например, статью [6].

Одним из первых робастных методов построения регрессионных зависимостей является МНК с урезанием, подробно представленный в книге [3]. Состоит этот метод в следующем.

Пусть у1, ..., уп — объясняемые переменные, действительные числа; х1, ..., хп — регрессоры,

р-мерные вектора. При каждом 8 е Яр рассматриваются ошибки

>•¿(8) = у - <8, х>, I = 1, ..., п,

где через <•,•> обозначено скалярное произведение. Пусть эти ошибки упорядочены по возрастанию абсолютной величины

1>(1)(8)1 * 1>(2)(8)1 * ... * 1>(п)(8)|.

(Порядок, разумеется, разный при разных 8.) Выбирается натуральное число к, удовлетворяющее условию

пороговая точка для МНК с урезанием

n

L2J

< h < n

(через [•] обозначена целая часть действительного числа), и строится функция

h

I

i = 1

т = I /(о (0).

Оценка параметров регрессии, построенная методом наименьших квадратов с урезанием, имеет вид

00 lts = arg min L(0).

0Е Rp

Через Z обозначим набор точек (yp х1), ..., (yn, xn). Пусть m < n. Через nm(Z) обозначим множество таких наборов Z, состоящих из точек (y1, x1), ..., (уп , xn), для которых, по крайней мере, n — m точек содержатся в наборе Z.

Пусть функция T каждому набору точек Z' ставит в соответствие параметр регрессии 0. Пороговой точкой для функции T при заданном наборе Z называется величина en(T, Z) = m*/n, где m* — минимальное из чисел m, обладающих тем свойством, что

sup ||T(Z' )|| = «.

Z'e nm(Z)

Здесь и далее ||0|| = <0, 0>1/2.

В частности, для обычного МНК en(T, Z) = 1/n.

В книге [3, с. 112—134] при условии, что точки x1, ..., xn находятся в некотором «общем положении», доказывается

Теорема. При

h =

'n + \Р + n

.2. L 2 J

*n(T Z) = ± nn

n - p

L 2 J

+ 1

Это означает, что пороговая точка асимптотически равна 0,5 при п ^ да (т. е. является максимально высокой, можно испортить до половины всех точек из набора наблюдений).

Доказательство этой теоремы распадается на две части [3]. Отдельно доказывается, что

n - p 2

+ 11 является оценкой снизу для порого-

вой точки, и что эта же величина является оценкой сверху для пороговой точки. Утверждение, что данная величина представляет собой оценку сверху для пороговой точки, доказывается достаточно коротко [3, с. 125] и, скорее всего, имеет значение лишь как красивый математический результат. Значительно более трудным в работе [3] является доказательство утверждения, что данная величина представляет собой оценку снизу для пороговой точки (именно это утверждение и означает робаст-ность МНК с урезанием).

Отметим, что МНК с урезанием может быть применен для практического построения регрессионных зависимостей лишь в сочетании с другими алгоритмами. (Либо в прикид очных расчетах, когда нет высоких требований к точности.) Это связано с тем, что если набор наблюдений (У1, л^), ..., (уп, хп) соответствует «чистой» нормальной случайной выборке, то точность МНК с урезанием существенно ниже, чем точность обычного МНК.

Одним из распространенных методов построения робастных оценок для параметров регрессии является метод ММ-оценивания, предложенный в работе [7] (см. также книгу [4]). Построение оценки этим методом состоит из трех этапов. На первом этапе строится оценка параметров регрессии некоторым методом с высокой пороговой точкой. На втором этапе с использованием этих параметров строится M-оценка для масштаба. На третьем этапе с использованием найденного значения м ас-штаба строится M-оценка для параметров регрессии (отсюда использование двух букв «М» в названии метода). Доказывается, что пороговая точка при ММ-оценивании параметров регрессии асимптотически равна 0,5.

В настоящей работе дается значительно более простое доказательство сформулированного результата о пороговой точке для МНК с урезанием для параметров регрессии, чем доказательство из [3]; речь идет об оценке снизу для е п(Т, Z), т. е. о доказательстве робастности метода наименьших квадратов с урезанием.

1. ВСПОМОГАТЕЛЬНЫЙ РЕЗУЛЬТАТ

Во всей работе будем считать, что п > р и что выполняется условие: любые р из векторов х1, ..., хп образуют базис пространства Яр.

Из этого условия следует, что если для р-мер-ного вектора 8, ||8|| = 1, и для некоторого набора векторов х^, ..., х1 1 выполняется

<8, х<1 > = 0, ..., <8, хр 1 > = 0,

то для любого вектора х, не входящего в этот набор, <8, х> ф 0.

Некоторым обобщением этого утверждения является

Лемма. Существует число 5 > 0 такое, что если для р-мерного вектора 8, ||8|| = 1, и для некоторого

набора векторов xt

'р -1

выполняется

|<8, х<1 >| < 5, ..., |<8, хр 1 >| < 5,

то для любого вектора х, не входящего в этот набор,

|<8, х> 1 5.

Доказательство. Рассмотрим в качестве набора векторов х^ , ..., х1 1 набор х1, ..., хр - 1. Проведя орто-

гонализацию Грама — Шмидта, построим ортонорми-рованную систему е1, ..., ер - 1,

е1 = Ет^ 1 = 1, ..., Р - 1

к = 1

Проекция вектора 8 на гиперплоскость, порожденную векторами е1, ..., ер - 1, имеет вид

<8, е1>е1 + ... + <8, е _ 1>ер _ 1 = Е [ Е у*<8,*к>] е..

1 = 1 V к = 1 У

Будем считать, что все скалярные произведения <8, хк> настолько малы по абсолютной величине, что длина этой проекции не превосходит 1/72 .

Выберем вектор х, } > р — 1. Поскольку этот вектор не является линейной комбинацией векторов х1, ..., хр _ 1, можно записать

р -1

х/ = Е а х + . = 1

где t — единичный вектор ортогональный гиперплоскости, порожденной векторами е1, ..., ер - 1; р ф 0.

Длина проекции вектора 8 на гиперплоскость, порожденную векторами е1, ..., ер - 1, не превосходит 1/л/2 . Поэтому длина проекции вектора 8 на вектор t должна быть не меньше, чем 1/72 . Имеем

р -1

<8, *> = 1 <8, х> - 1 Е а<8, х.>. ' Р ' ? р . = 1 1,1

Будем считать, что все скалярные произведения <8, х> настолько малы по абсолютной величине, что

р -1

Р'=1

Е а,-<6, x,-)

Л

Тогда

|<0, j > |р|/2.

Дополнительно наложим условие 5 < |р|/2.

Пока утверждение леммы доказано для одного / Такое же рассмотрение можно провести для всех , = р, ... , п и выбрать минимальное требуемое 5. Затем нужно рассмотреть все существующие наборы х^, ..., х. ^ (всего

таких наборов СПр 1) и вновь выбрать минимальное требуемое 5. Лемма доказана.

2. РЕЗУЛЬТАТ О ПОРОГОВОЙ ТОЧКЕ

Выберем числа m и h так, что m + p < h < n — m, и покажем, что тогда для МНК с урезанием

sup ||T(Z )|| < да.

Z' еПт( Z)

Для набора Z' e nm(Z) остатки обозначим Р,(0) = у\ - <0, x't), i = 1, ..., n.

Положим 0 = 0, и пусть наименьшими по абсолютной величине h остатками являются

р^(0), ..., pkh (0),

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где k1, ..., kh — различные числа из набора 1, ..., n. В силу условия m < n — h в наборе Z' содержатся

точки (У/1, Х/1), ..., (yjh, xjh). Тогда

h h n n

L(0) = Е P2.(0) < Е j (0) < Е r2 (0) = Е y2.

i = 1

Положим

i = 1

i = 1

i = 1

c0 = max |yj

0 1 < j < n j

и выберем число C1 такое, что

2'1/2 У1

v i = 1

C > |[|£.y

+ с

0

где 5 > 0 определяется леммой.

Возьмем 8 е Яр такое, что ||8|| > С1. Пусть наименьшими по абсолютной величине к остатками являются рк (8), ..., р^ (8). В силу условия

т + р < к среди точек (у^, х'к]), ..., (у'кк, х'кк) присутствуют точки (у/'1, х/'1), ..., (ур, х^).

Воспользовавшись тем, что для любых д ействи-тельных чисел а и р выполняется неравенство

|а - р| > ||а| - р||,

имеем

h Р Р

L(0) = I pi (0) > I rf (0) > I (|<0, xt>| - Ы)2.

i = 1 ' I = 1 ' I = 1 ' '

Пусть 0O = 0/|0|. На основании леммы хотя бы ) ]

няется |<0O, xi >| > 5. Тогда

для одного из индексов, например, для i p выпол

L(0) > (||0|| • |<0о, x,>| - |y,|)2 > (С15 - С0)2 > I у2.

i = 1

Тем самым установлено, что для любого набора Z' е Пт(2) выполняется \\Т(2')|| < С1.

Нетрудно проверить, что при

m =

'n - p , h = 'n + \p + 1]

L 2 J _2_ L 2 J

неравенства m + p < h < n — m имеют место. Следовательно,

m* >

n - p

L 2 .

+ 1.

ЗАКЛЮЧЕНИЕ

Результат работы заключается в новом доказательстве известной теоремы о робастности метода наименьших квадратов с урезанием для линейной регрессионной модели; под робастностью понимается высокая пороговая точка, асимптотически равная 0,5 при больших размерах выборки. Это д о-казательство существенно проще, чем оригинальное доказательство, приводимое в книге [3].

ЛИТЕРАТУРА

1. Хьюбер П.Дж. Робастность в статистике. — М.: Мир, 1984. — 303 с.

2. Робастность в статистике. Подход на основе функций влияния / Ф. Хампель и др. — М.: Мир, 1989. — 512 с.

3. Rousseeuw P.J, Leroy A.M. Robust regression and outliers detection. — N.-Y.: Wiley, 1987. — 329 p.

4. Maronna R., Martin D, Yohai V. Robust statistics: Theory and methods. — Chichester: Wiley, 2006. — 403 p.

5. Andersen R. Modern methods for robust regression. — Los Angeles: Sage Publications, 2008. — 107 p.

6. Шведов А. С. Робастная регрессия с применением t-распре-деления и ЕМ-алгоритма // Экономический журнал ВШЭ. — 2011. — Т. 15. — С. 68—87.

7. Yohai V.J. High breakdown-point and high efficiency robust estimates for regression // Annals of Statistics. — 1987. — Vol. 15. — P. 642—656.

Статья представлена к публикации членом редколлегии

А. Г. Кушнером.

Шведов Алексей Сергеевич — д-р физ.-мат. наук, профессор,

Национальный исследовательский университет

«Высшая школа экономики», г. Москва,

Н ashvedov@hse.

Читайте в ближайших номерах

S Байбулатов А.А., Промыслов В.Г. Аппроксимация огибающей в приложениях «Network calculus»

S Ведешенков В.А. Подход к фрагментному диагностированию компонентов цифровых систем со

структурой минимального квазиполного графа (на примере графа размера 7*7) S Горлищев В.П., Калинин Л.А., Михальский А.И. и др. Метод коррекции электрокардиографического интервала с учетом частоты сердечных сокращений S Губанов Д.А., Чхартишвили А.Г. Влиятельность пользователей и метапользователей социальной сети

S Еналеев А.К. Согласованное управление в организационных сетевых структурах S Кирин Ю.П., Кирьянов В.В. Робастное управление технологическими процессами производства губчатого титана S Микрин Е.А., Сомов С.К. Оптимизация резервирования информации в распределенных системах обработки данных реального времени S Ратнер С.В. Применение сетевого анализа среды функционирования в задачах регионального

экологического менеджмента S Стенников В.О., Пеньковский А.В., Хамисов О.В. Поиск равновесия Курно на рынке тепловой

энергии в условиях конкурентного поведения источников тепла S Талагаев Ю.В. Анализ и синтез сверхустойчивых нечетких систем Такаги — Сугено

i Надоели баннеры? Вы всегда можете отключить рекламу.