Оценивание линейной регрессии на основе обобщенного метода наименьших модулей

Тырсин Александр Николаевич; Соколов Лев Александрович

УДК 519.711.3:519.237

ОЦЕНИВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИИ НА ОСНОВЕ ОБОБЩЕННОГО МЕТОДА НАИМЕНЬШИХ МОДУЛЕЙ

А. Н. Тырсин, Л. А. Соколов

1 Научно-инженерный центр «Надёжность и ресурс больших систем машин» УрО РАН, 620049 г. Екатеринбург, ул. Студенческая, 54 а.

2 Челябинский государственный университет,

454021 г. Челябинск, ул. Бр. Кашириных, 129.

E-mails: [email protected], [email protected]

Описан обобщенный метод наименьших модулей устойчивого нахождения оценок параметров линейных регрессионных моделей по экспериментальным данным. Доказаны теоремы существования и нахождения решения, а также состоятельности оценок. Приведены результаты исследования оценок параметров регрессии с помощью метода Монте-Карло на тестовых данных.

Ключевые слова: обобщённый метод наименьших модулей, оценки, регрессия, состоятельность, экспериментальные данные.

Введение. При обработке результатов экспериментальных исследований часто решается задача построения линейной регрессионной модели

У — Ха + £,

(1)

где у = (yi, у2, ■ ■ ■, уп)Т — вектор зависимой переменной; X — регрессионная матрица размера пх(т + 1) значений независимых (объясняющих) переменных; £ = (£i, £2 • • • ) £п)Т ~ вектор случайных ошибок; а = (ао, ai , am)T — искомый вектор параметров.

Относительно (1) обычно предполагают, что она удовлетворяет следующим условиям классической линейной модели множественной регрессии [1]:

столбцы х^1), х^2),..., — неслучайные векторы;

Vг Е[£г] = 0 (математическое ожидание ошибок равно нулю);

Vг Е[£?] = В[£г] = <т| (гомоскедастичность ошибок);

V* ф k E[£i£fc] = 0;

матрица X имеет ранг Rg(X) = т + 1 < п и имеет вид

1°

2°

3°

4°

5°

/

X

г(°) JU r(i) Jü . . X

г(°) X2 г(1) . . X.

г(°) -là) jjn . . X,

(т) \ 1

(т)

2

(т)

(

V 1

Л1)

Jm) \

JU

(т)

2

X

(тп)

Хп /

В этих условиях в случае, когда случайные ошибки ^ распределены по нормальному закону, эффективным методом определения вектора а является метод наименьших квадратов (МНК). Реальные наблюдения во многих задачах в целом соответствуют данной предпосылке. Однако в ряде случаев возникают ситуации, когда предположение о гауссовой модели случайных

Александр Николаевич Тырсин (д.т.н), ведущий научный сотрудник. Лев Александрович Соколов, аспирант, каф. теории управления и оптимизации.

ошибок не выполняется. В качестве примера можно привести задачи технической диагностики, когда требуется оценивать параметры модели (1) в условиях стохастической неоднородности, вызванной зарождающимися дефектами.

Известно, что даже незначительные нарушения указанных предпосылок резко снижают эффективность МНК-оценок. Отметим неустойчивость процедуры МНК-оценивания к наличию в измерениях выбросов [2]. С целью обеспечения устойчивости оценок к отклонению случайных ошибок от гауссовой модели разработан ряд робастных и непараметрических статистических методов. К числу наиболее распространенных процедур устойчивого оценивания можно отнести метод наименьших модулей (МНМ) [3] и знаковый метод [4]. Они основаны на более общих предположениях относительно случайных ошибок: требуется лишь их независимость и равновероятность принятия положительных и отрицательных значений. В работе рассматривается обобщенный метод наименьших модулей (ОМНМ), менее чувствительный к невыполнению указанных предположений [5].

1. Постановка задачи и основные предположения. ОМНМ-оценки вектора параметров регрессии (1) ищут в виде [5]

П

&п = arg min Vp(|yi-Xia|), (2)

agRm+i '

1=1

где Xj = (xf\... = {l,xf\... i = 1, 2,... гг; p(-) — некоторая

монотонно возрастающая, дважды непрерывнодифференцируемая на положительной полуоси функция, причём

р(0) = 0, V-u > 0 0 < p\u) < оо, — оо < р"{и) < 0. (3)

Введём относительно функции распределения F(x) вектора случайных ошибок £ следующие условия:

6°) случайные ошибки с равными вероятностями принимают положительные и отрицательные значения, т. е. F(0) = 0,5;

7°) F(x) удовлетворяет условию Липшица в нуле, т. е. Ve > 0 Ущ ф щ : \ui\ < е, \u2\ < е 3L > 0 : \F(u{) - F(u2)\ < L\щ - и2\ ;

8°) \/е > 0 V-Ui ф и2 : |«i| < £, \u2\ < £ ЗМ > 0 : \F(u{) — F(u2)\ >

> М \U\ — U2\-

Также введём несколько условий относительно матрицы X и вектора у:

9°) Rg(X, у) = m + 2 < щ 10°) maxie[1;ra] maxie[0;m+i]|^j)| < оо;

11°) ±ХТХ —> S > 0.

' п

Отметим, что мы не требуем одновременного выполнения всех приведённых условий; они используются по мере необходимости.

Поставим следующие задачи: установим существование и возможность нахождения ОМНМ-оценок и исследуем вопрос об их состоятельности.

2. Существование и нахождение ОМНМ-оценок. Поскольку функция по-

терь р(-) в (2) является вогнутой, то функция

п

<2(а) = _х*а1)

(4)

г= 1

также будет вогнутой, и возникает известная проблема точного нахождения ее минимума [7]. Справедлива следующая теорема.

Теорема 1. Пусть имеется выборка наблюдений (рц,уі), г = 1,2,..., гг, такая, что справедливо условие 9°, и задана на Мт+1 функция (4), у которой для функции потерь р( ) выполнены соотношения (3).

Введём гиперплоскости О-і = Г2(а,хі,Уі) в виде уравнений

Обозначим через II множество всех узловых точек (6). Тогда

1) для того чтобы точка а° = (ад, ,..., а^)т являлась точкой локального минимума функции (4), необходимо, чтобы а° € [7;

2) функция (4) на Мт+1 имеет хотя бы одну точку локального минимума, причём число локальных минимумов функции (4) конечно.

Доказательство. Вначале докажем утверждение 1. Очевидно, что все гиперплоскости (5) являются особыми точками функции (4), поскольку в них она недифференцируема.

Рассмотрим произвольную стационарную точку а° = (ад, а^,..., а^)т, в которой градиент У<5(а°) = 0. Предположим, что а° является точкой локального минимума. Поскольку эта точка не является особой, то функция (4) в ней дважды дифференцируема. Тогда матрица Гессе Н(а°) должна быть неотрицательно определенной, т.е. все угловые миноры должны быть неотрицательными: А\ ^ 0, Аг 5^ 0, ..., Дт+1 ^ 0 [9]. Определим знак первого углового минора А\. В силу строгой вогнутости функции р(-) имеем для всех неособых точек

Получено противоречие. Таким образом, локальные минимумы, если они существуют, могут находиться только в особых точках.

Покажем, что локальные минимумы, если они существуют, могут находиться только в узловых точках (6), являющихся пересечением (т + 1) произвольно ВЗЯТЫХ взаимно непараллельных гиперплоскостей Г^, ^2) • • • ) ^т+1-Такие узловые точки существуют ввиду выполнения условия 9°.

Предположим, что некоторая точка ак € М"г+1 гиперплоскости является локальным минимумом функции (4). Пусть эта точка не является

у*-х*а = 0, г = 1,2,..., п.

Введём также узловые точки пересечения гиперплоскостей (5):

(5)

и

р| П8, М = {к\,...,

кт-\-1}) к\ <С кт-1_1, кі Є {1,..., п}. (6)

«єм

узловой. Следовательно, она образована пересечением не более чем m произвольно взятых взаимно непараллельных гиперплоскостей Qi,Q2 Поэтому найдется такой ненулевой вектор zk € Rm+1, который будет параллелен всем гиперплоскостям Qi,Q2) • • • j [Ю]. Очевидно, что производная функции (4) в точке ак по направлению zk существует. Поэтому с учётом доказанного выше точка ак не является локальным минимумом функции (4) по направлению zk. Получено противоречие. Тогда локальные минимумы функции (4), если они существуют, могут быть только в узловых точках.

Докажем теперь утверждение 2. Как было показано выше, локальные минимумы могут быть только в узловых точках, число которых конечно и не превосходит С™+1. Поэтому число локальных минимумов конечно и ограничено числом узловых точек.

Покажем теперь, что множество локальных минимумов не пусто.

Поскольку функция (4) является непрерывной и ограниченной снизу, то она имеет точную нижнюю грань, которая достигается хотя бы в одной из узловых точек. Покажем это.

Предположим противное. Пусть нижняя грань функции (4) достигается в точке а0 ^ U. Поскольку точка а0 не является точкой локального минимума, следовательно, найдётся некоторая точка а, такая, что Q{а) < Q(a°). Это означает, что нижняя грань функции (4) не может достигаться в точке а0. Получено противоречие. Следовательно, точная нижняя грань функции (4) достигается на множестве узловых точек U.

Пусть точная нижняя грань достигается в некоторой узловой точке а*. Рассмотрим произвольную точку а, лежащую в сколь угодно малой ¿-окрестности точки а*, в которую не попадает ни одна из остальных узловых точек. По определению нижней грани Q(a) ^ Q(a*)- Поскольку при этом точка а не является узловой, она не может быть локальным минимумом. Значит, найдется некоторая точка а1, такая, что Q{а) > (^(а1). Но, с другой стороны, Q(al) ^ Q(a*)- Отсюда Q{а) > Q{а1) ^ Q(a*), тогда Q{а) > Q(a*), то есть а* — локальный минимум. Теорема [1] доказана. □

3. Состоятельность ОМНМ-оценок. В [8] показано, что ОМНМ можно свести к взвешенному методу наименьших модулей (ВМНМ), т. е. вместо (2) решать задачу

П

w(a) = y2'Pi\Vi “xial ->■ min (7)

“ a€Rm+1

г=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Pi —весовые коэффициенты, причём Vг Pi > 0. Если \yi — х^а| > 0, то Pi = р{\Уг — х»а|) / |yi — х^а| > 0, а если |yi — х^а| = 0, то в качестве Pi можно взять любое положительное число, например 1. Поэтому для доказательства состоятельности ОМНМ-оценок достаточно доказать состоятельность

ВМНМ-оценок для произвольных положительных весовых коэффициентов.

Очевидно, что минимум функции (7) удовлетворяет соотношению

т / п \ 2

ап = arg min V' ( V' xf ^pi sign (y* - x*a) ) , (8)

a€Rm+1 — \— J

j=o 4=1 7

которое отличается от известной знаковой задачи [4, с. 69] множителями pi

у слагаемых под знаком суммы. Это делает естественным доказательство

состоятельности ВМНМ-оценок по схеме, предложенной в [4]. Справедлива следующая теорема.

Теорема 2. Предположим, что в (1) случайные ошибки £1,^2,•••,£«. независимы, одинаково распределены и их общая функция распределения F(x) удовлетворяет условиям 6°, 7°, 8°. Пусть для матрицы X и вектора у справедливы условия 9°, 10°, 11°. Тогда ВМНМ-оценка âra состоятельна.

Доказательство. Доказательство выполним по схеме, приведённой в [4, с. 81-85] для доказательства состоятельности знаковых оценок параметров линейной регрессии. Обозначим через а° вектор истинных параметров регрессии. Умножим целевую функцию ВМНМ-оценки (8) на 1/п и сделаем замену переменных, положив а = а° +1. Тогда ân = а° + tn, где

^ т , п ч 2

tn = arg min - V ( V х^Рг sign (x*t - &) ) . (9)

tgR т+1П^\^ J

j= 0 чг=1 7

Остаётся показать, что 0. Доказательство разобьём на две части.

Часть 1. Начнём с утверждения, что для каждого ] =0,1,...,ши любого Т > 0

sup

|t|<T

1 1

^ х[3]Рі sign (Xjt - (і) - Е -^2 xïJ)Pi sign (Xjt - (і)

n

г=1

0.

В силу равномерного закона больших чисел [4, с. 90-94]

arg mm

|t |<т

sign (xit - Ù)

n

i= 1

(10)

при n —> 00 сближается (по вероятности) с

arg mm

|t |<т

-E

n

J^j)p*sign (xit -Іі)

L i= 1

при любом значении T > 0. С другой стороны,

Е

\ ¿^j)piSign(xit -Іі) = ^ ¿æ^Vi(l - 2F(xjt)). (11)

г=1

Далее, поскольку F(0) = 0,5,

arg mm |t|<T

-E

n

sign (xjt -Іі)

4=1

= 0,

причём для достаточно больших п точка минимума t = 0 является единственной. Покажем это.

Предположим противное. Пусть существует Ь ф О, для которого функция (11) равна нулю при каждом ] = 0,1,..., т. Умножив правую часть выражения (11) на tj и просуммировав по ], получим

Поскольку всерг > 0, то легко видеть, что УиеК1 ир^1 — 2Р(и)) ^ 0, причём равенство нулю при выполнении условия 8° достигается только при и = 0. Поэтому равенство (12) справедливо только в том случае, когда (х^) = 0, г = 1, 2,..., п. Тогда (^Г=1 = и) следовательно, 1;т (^ХТХ) t = 0 для

данного t ф 0. Отсюда ^ХТХ = 0, что противоречит условию 11°. Таким образом, (10) сходится к нулю по вероятности при п —>■ оо и любом Т > 0. Отсюда следует, что для любого Т > 0

Часть 2. Покажем, что существуют такие Ь > 0 и Т > 0, что с вероятностью, сколь угодно близкой к 1,

для достаточно больших п, если > Т. Тем самым будет доказано, что минимум выражения (9) при достаточно больших п с вероятностью, сколь угодно близкой к 1, лежит внутри компакта ^ Т. Вместе с результатом части 1 неравенство (13) доказывает состоятельность ВМНМ-оценки.

Докажем (13). Рассмотрим вектор = (<^о(*0, <^1^),..., где

Введём единичный вектор ^ и покажем, что существуют Ь > 0 и Т > 0

такие, что для достаточно больших п с вероятностью, сколь угодно близкой к 1, для всех ^ Т выполняется неравенство |<£>(1;)1;0|2 > Ь, т. е. получим, что

Из неравенства (14) и неравенства Коши—Шварца будет следовать (13). Заметим, ЧТО если |xjt| > |£г|, ТО (xjt)pj Sign (xjt — £i) = Pi |xjt|. Воспользовавшись тем, что \A + B\ ^ |A| — \B\, запишем

(12)

i= 1

1

arg min —

tgRTO+i П

j=0 4=1

m , n \ 2

x(i)pi sign (Xit - &)) ■i—П 1 '

P

0.

(13)

n

i= 1

(14)

Оценим сверху второе слагаемое в правой части последнего выражения. Заметим, что V К > О

|(х^)^| 1(|(х^)^| ^ |^|) ^ ^ К) + |(х*-ф*| 1(|^| > К).

Выберем К так, чтобы 1 — 2Р{|{г| > Щ > 0. В результате для второго слагаемого в правой части (15) получаем оценку

^ ^ |(х^)р*| ^ ^¿{^1(161 < Я) + |(Хг-ф*| 1(|&| > Е)|.

{г:|х^К|^|} г=1

В силу условия 10° и закона больших чисел при п —> оо имеем 2ДР{|&| ^ Щ + 2Р{|&| > Щ-^ |(х^)^| + ор( 1).

п

г=1

Тогда, продолжив (15), получим, что для любого е > 0 с вероятностью, сколь угодно близкой к 1, для достаточно больших п

1

- ^(х^)р* sign (х^ - &

п г=1

>

1 п

> -2ДР{|&| < в} + (1 - 2Р{|£г| >Я})-^2\Ы)Рг\ - £. (16

п . .

1=1

При условиях 10° и 11° имеем, что существует К > 0, для которого

1 п /1 п \

- Е |(х^)^|2 <к(~^ |(х^)^|) |*|> (17)

Т1 . \п . }

1=1 4 1=1 7

1 п 1 п

- ^2\(ХгЬ)рг\2 = - ^2((ХгЬ)рг)Т ((ХгЬ)рг) = tT (х^х) t > Щ2,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

г=1 г=1

где к — некоторое положительное ЧИСЛО, Хр = {х^Рг}. Тогда при больших п

1-±\(^)рг\2>к-\Ц2. (18)

г=1

Из (17) и (18) следует, что для достаточно больших п

п^'у п ' 2К

1= 1

Вернувшись к (16), получаем с учётом (19), что при достаточно больших п со сколь угодно близкой к 1 вероятностью

1 га

Е(х^)^ sign (х^

п . .

1=1

> — 2ЕР{|{г| ^ Щ — е,

где к = 2^ (1 — 2Р{|{г| > Щ). Вернувшись к (19), получаем, что при достаточно больших и достаточно больших п

Щ -2ЯР{|£г| < Е})2

:---------ггт?------- > Ь > О

г I

со сколь угодно близкой к 1 вероятностью, что и требовалось доказать. Из состоятельности ВМНМ-оценки (8) для произвольных положительных весовых коэффициентов рг, следует состоятельность ОМНМ-оценки (2). □

4. Статистическое моделирование методом Монте—Карло. Поскольку при доказательстве состоятельности не оценивается точность приближения а„ ~ а при конечном числе наблюдений п, представляет интерес такая оценка. Выполним такую оценку на основе метода Монте—Карло, который позволяет контролировать точность оценивания. Результаты моделирования показали, что при увеличении п точность ОМНМ-оценок сопоставима с точностью МНК-оценок. В качестве иллюстрации приведём следующий пример.

Пример. Исследуем методом Монте-Карло оценку ап параметра а в однопараметрической модели Уг = а +

+ £г, г = 1, 2,... , п. Зададим для случайных ошибок распределение с засорением и смещением в виде смеси двух нормальных распределений 0,75АГ(0; 1) + 0,25Ж(2; З2). Для серии из 5000 повторений с ростом объёма выборки п получаем, что дисперсия ОМНМ-оценки монотонно убывает (см. рисунок). Скорость сходимости также практически не уступает скорости сходимости оценок наименьших квадратов и модулей.

Замечание. Теорема 2 доказана для случая ^(0) = 0,5. Вопрос о состоятельности ОМНМ-оценок для случая -Р(О) ф 0,5 остается открытым, однако результаты статистического моделирования свидетельствуют о состоятельности ОМНМ-оценок и в этом случае.

5. Выводы.

1. Доказаны теоремы существования и нахождения ОМНМ-оценок, причём в отличие от МНМ-оценок число решений конечно и может быть оценено.

2. Установлено, что ОМНМ-оценки параметров регрессии состоятельны в случае, когда случайные ошибки с равными вероятностями принимают положительные и отрицательные значения и выполнен ряд других ограничений.

3. Результаты исследования ОМНК-оценок с помощью метода Монте— Карло на тестовых данных, в которых случайные ошибки имеют различное засорение, свидетельствуют о состоятельности ОМНМ-оценок и в более общем случае. В частности, не требуется, чтобы случайные ошибки с равными вероятностями принимали положительные и отрицательные значения.

Работа выполнена при поддержке РФФИ (проект № 10-01-96013-р-урал-а).

Зависимость дисперсии оценок от объема выборки (£г ~ 0,75Ж(0; 1) + 0,25Ж(2; З2)): 1 — МНК-оценка; 2 — МНМ-оценка; 3 — ОМНМ-оценка для р(х) = |ж|°’Б; 4 — ОМНМ-оценка для р(х) = аг<^|ж|

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Королюк В. С., Портенко 77. И., Скороход А. В., Турбин А. Ф. Справочник по теории вероятностей и математической статистике. — М.: Наука, 1985. — 640 с.

2. Хьюбер 77. Робастность в статистике. — М.: Мир, 1984. — 303 с.

3. Мудрое В. И., Кушко В. Л. Методы обработки измерений. Квазиправдоподобные оцен-

ки. — М.: Радио и связь, 1983. — 304 с.

4. Болдин М. В., Симонова Г. И., Тюрин ТО. 77. Знаковый статистический анализ линейных моделей. — М.: Наука, 1997. — 226 с.

5. Тырсин А. 77. Робастное построение регрессионных зависимостей на основе обобщенного

метода наименьших модулей / В сб.: Вероятность и статистика. 9/ Зап. научн. сем. ПОМИ. — СПб.: ПОМИ, 2005. — Т. 328. — С. 236-250; англ. пер.: Tyrsin A.N. Robust construction of regression models based on the generalized least absolute deviations method // 7. Math. Sei. (N. Y.), 2006. — Vol. 139, No. 3. — P. 6634-6642.

6. Тырсин A. 77. Исследование свойств обобщенного метода наименьших модулей (на при-

мере оценки параметра сдвига) // Заводская лаборатория, 2007. — Т. 73, №11. — С. 71-76.

7. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973. — 472 с.

8. Панюков А. В., Тырсин А. 77. Взаимосвязь взвешенного и обобщенного вариантов метода наименьших модулей// Извест. Челябинск, научн. центра, 2007. — №1(35). — С. 6-11.

9. Галеев Э. М. Оптимизация: теория, примеры, задачи. — М.: Едиториал УРСС, 2002. — 302 с.

10. Ефимов 77. В., Розендорн Э. Р. Линейная алгебра и многомерная геометрия. — М.: Физ-матлит, 1970. — 400 с.

Поступила в редакцию 01/11/2010; в окончательном варианте — 10/Х/2010.

MSC: 60-99, 62-99

THE ESTIMATION OF LINEAR REGRESSION IS BASED ON THE GENERALIZED LEAST MODULES METHOD

A. N. Tyrsin, L. A. Sokolov

1 Reliability and Resource of Large Machine and Systems,

Science and Engineering Center, Ural Branch of RAS,

54 a, Studencheskaya St., Ekaterinburg, 620049, Russia.

2 Chelyabinsk State University,

129, Br. Kashirinih St., Chelyabnisk, 454021, Russia.

E-mails: at20018yandex.ru, 88slam88amail.ru

The generalized least modules method is shown in this paper. It can be applied, to find estimations of parameters of the linear regression model that is based on experimental data. The theorems of existence and finding of solution are proved,. The consistency of estimator is proved as well. The results of investigation of regression parameters are demonstrated here. Monte-Carlo method was used for this investigation.

Key words: generalized least modules method, estimations, regression, consistency, experimental data.

Original article submitted 01/11/2010; revision submitted 10/X/2010.

Alexandr N. Tyrsin (Dr. Sci. (Techn.)), Leading Research Scientist. Lev A. Sokolov, Postgraduate Student, Dept, of Control & Optimization Theory.

Оценивание линейной регрессии на основе обобщенного метода наименьших модулей Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Тырсин Александр Николаевич, Соколов Лев Александрович

Похожие темы научных работ по математике , автор научной работы — Тырсин Александр Николаевич, Соколов Лев Александрович

The estimation of linear regression is based on the generalized least modules method

Текст научной работы на тему «Оценивание линейной регрессии на основе обобщенного метода наименьших модулей»