Робастная регрессия с применением t-распределения и EM-алгоритма

Шведов Алексей Сергеевич

Робастная регрессия с применением i-распределения

и EM-алгоритма

Шведов A.C.

В работе рассматривается линейная регрессионная модель. EM-алгоритм представляет собой распространенный подход к оценке параметров таких моделей на основе общего принципа максимизации правдоподобия. Известно, что этот метод оценки параметров является робастным, если ошибки независимы, одинаково распределены и имеют многомерное i-распределение.

В предыдущих работах такой подход к оценке параметров регрессионных моделей применялся лишь при условии, что ошибки имеют многомерное i-распределение с числовым параметром степеней свободы. В настоящей работе рассматривается более общая ситуация, когда ошибки могут иметь многомерное t-распределение с векторным параметром степеней свободы. Ненаблюдаемые величины в EM-алгоритме при этом оказываются случайными матрицами.

На численных примерах при различных распределениях ошибок исследованы преимущества такого подхода по сравнению с методом наименьших квадратов.

Ключевые слова: робастная регрессия; многомерное {-распределение; EM-алгоритм.

1. Введение

Регрессионные модели являются основным инструментом для выявления зависимостей между различными показателями практически во всех областях экономической науки. Однако классические и наиболее распространенные методы построения регрессионных моделей не обладают свойством робастности, что, в ряде случаев, может приводить к неверным результатам. Робастные методы в эконометрике известны достаточно давно (см., например, [11]). Но все же в настоящее время, скорее, можно говорить об усилении тенденции к применению робастных методов, а не об обязательном требовании использования таких методов хотя бы наряду с классическими для контроля качества результатов.

Идея использовать регрессионные модели, у которых ошибки имеют не нормальные (гауссовские) распределения, а t-распределения, возникает, даже если не связы-

Шведов A.C. - д. физ.-мат. н., профессор кафедры математической экономики и эконометрики НИУ «Высшей школы экономики», e-mail: [email protected]

Статья поступила в Редакцию в декабре 2010 г.

вать этот подход с робастностью процедур оценки параметров. Еще в XIX в. ученые знали «об опасностях, порождаемых длинными хвостами функций распределения ошибок» (см. [2, с. 7]). (В настоящее время чаще используется термин не «длинные хвосты», а «тяжелые хвосты».) Изначальное использование при анализе предположения о нормальности ошибок включает и предположение о легких хвостах функций распределения. Это может не отвечать существу дела и приводить к искажениям в выводах. Одним из самых распространенных подходов к моделированию тяжелых хвостов является использование t-распределения.

Хотя для линейных регрессионных моделей, у которых ошибки имеют t-распре-деление, и не существует такой замкнутой и красивой теории, как для линейных рег-рессионныгх моделей, у который: ошибки имеют нормальное распределение, можно говорить и о преимуществах моделей с t-распределением. Так, фактически, регрессионные модели, у которых ошибки имеют t-распределение, включают в себя в качестве частного случая регрессионные модели, у которых ошибки имеют нормальное распределение, поскольку при стремлении числа степеней свободы к бесконечности t-распре-деления переходят в нормальное распределение. И результаты в предположении, что ошибки имеют t-распределение с достаточно большим числом степеней свободы, и в предположении, что ошибки имеют нормальное распределение, оказываются практически неотличимыми. Наконец, при оценке методом максимального правдоподобия параметров регрессионных моделей, у которых ошибки имеют t-распределения, можно использовать процедуры, обладающие свойством робастности.

Нередко статистические данные, по которым строится регрессионная модель, содержат резко выделяющиеся наблюдения (outliers). Эти наблюдения существенно отделены от основной части и не подчиняются общей структуре. В каких-то случаях такие выбросы являются просто следствием ошибок, допущенных при сборе или обработке информации, но могут отражать и реальные эффекты.

При использовании многих общепринятый: процедур для оценки параметров даже одно резко выделяющееся наблюдение может оказать очень сильное и часто искажающее правильную картину действие. Это легко понять на примере выборочного среднего или выборочной дисперсии. То же относится и к методу наименьших квадратов при определении коэффициентов в линейной регрессионной модели.

Робастные процедуры оценки параметров претендуют на то, чтобы давать хорошее соответствие общей структуре и при наличии резко выделяющихся наблюдений, как и в случае, когда резко выделяющиеся наблюдения отсутствуют. Выявленная таким образом структура, в свою очередь, может быть использована для обнаружения резко выделяющихся наблюдений даже при работе с многомерными статистическими данными.

В какой мере можно говорить, что эти претензии соответствуют действительности? Существуют различные подходы к построению робастных алгоритмов. Иногда резко выщеляющиеся наблюдения автоматически игнорируются. Для тех методов, которые изучаются в настоящей работе, вклад таких наблюдений только уменьшается. Для каждого класса алгоритмов слова «хорошее соответствие общей структуре и при наличии резко выделяющихся наблюдений» наполняются своим содержанием.

Среди предшествующих работ, в который: изучаются алгоритмы того же класса, что и у нас, назовем [7, 12, 19]. К перечисленным можно было бы добавить и интересную работу [13], однако в [8, с. 165] указывается на неправильные выводы, имеющиеся в этой работе. Подробнее о «подводных камнях», возникающих, если включать в со-

став аргументов функции правдоподобия число степеней свободы {-распределения, см. [8, 14].

Робастные алгоритмы других классов представлены, например, в книгах [15, 18]. Применяется и байесовский подход (см., например, [9]). Из работ прикладной направленности назовем [17, 22].

Содержание настоящей работы следующее. В параграфе 2 на примере множественной регрессии (наблюдения одномерные, объясняющих факторов несколько) обсуждается связь М-оценок и метода наименьших квадратов с итерационно модифицируемыми весами. В параграфе 3 приводится описание ЕМ-алгоритма, специализированного метода нахождения точки максимума именно функции правдоподобия. В параграфе 4 излагаются некоторые результаты, относящиеся к оценке параметров множественной регрессии с ошибками, имеющими одномерное {-распределение. Объясняется, почему применение ЕМ-алгоритма в данном случае дает робастный метод оценки параметров регрессии. Также в этом параграфе приводятся результаты численного исследования по методу Монте-Карло. В параграфе 5 устанавливаются две новые теоремы о матричном гамма-распределении. Затем эти теоремы используются в параграфе 6, где результаты, изложенные в параграфе 4, обобщаются на случай многомерной регрессии (наблюдения многомерные, объясняющих факторов несколько). При этом ошибки имеют {-распределение с векторным параметром степеней свободы (введенное в [3, 4]). Прием, применяемый в параграфе 6, когда в ЕМ-алгоритме в качестве ненаблюдаемых переменных берутся случайные матрицы, видимо, используется впервые. Также в этом параграфе приводятся результаты одного расчета.

2. Робастность М-оценок

Рассмотрим обычную линейную регрессию

(1) Уг =е X «Р«+ е , ' = .

а=1

Объясняющие переменные хга считаются известными числами. Через у1,...,уп обозначаются и одномерные наблюдения, и случайные величины, представляющие собой вероятностную модель для этих наблюдений. Предполагается, что случайные величины е1,...,еп независимы, одинаково распределены, и каждая из них имеет функцию плотности

(2) 1фЗ е

ст ист,

где ф( х) - некоторая известная функция плотности; ст> 0 - масштабирующий множитель. (Как обычно, используется одно и то же обозначение ег и для случайной величины, и для аргумента функции плотности.) Задача состоит в нахождении параметров Р1,...,Р9 и о.

Если ввести в рассмотрение 9 -мерные вектора хг = (хг1,...,хгд) и Р = (р1,...,Р ), штрих означает транспонирование, то сумму, входящую в правую часть (1), можно обозначить хг'Р.

Для определения вектора Р может быть использован метод наименьших квадратов с весами, когда оценка вектора Р строится путем минимизации выражения

(3) е^ (у- - x'p)2,

где w1,...,wn - заранее выбранные положительные числа. В частности, при wl = ... = wn = 1 данный метод является обычным методом наименьших квадратов. (Мы сейчас не касаемся теоретических свойств метода наименьших квадратов с весами. Подчеркнем только, что речь не идет об обобщенном методе наименьших квадратов, см., например, [1, гл. 5], хотя там и возникают сходные уравнения.) Приравнивание к нулю частных производных функции (3) по р1,...,рq, что является необходимым условием минимума, дает систему уравнений

n

(4) е X aWi (У- - X'P)= 0 , а = и. q .

-=1

С другой стороны, оценка параметров P и ст может быть произведена методом максимального правдоподобия, когда ищется максимум функции

(5) - n logs + еlogф| Уг - X;P

г=1

Если ввести в рассмотрение функцию

/ \ 1 ф'(x)

(6) w( x) =--^-,

X ф(X)

то приравнивание к нулю частных производных функции (5) по P1,...,Pq дает систему уравнений

(7) е.Хг^[^-^jy, - xJP)= 0 , а = 1,...,q .

Уравнения (7), хотя и похожи на уравнения (4), отличаются от них тем, что веса зависят от искомого параметра P . Введем в рассмотрении n х q матрицу X, i -я строка которой - это X , и диагональную n х n матрицу W, у которой i -й элемент на главной диагонали - это . Тогда уравнения (4) можно записать в форме X ' W(y - XP) = 0 ,

где y = (y1,..., Уп ) . Отсюда

(8) P = (X'WX )-1 X 'Wy ,

если матрица X' WX невырожденная. Этот же прием может быть использован и для решения уравнений (7).

Предположим, что функция w(х) обладает следующими свойствами. Во-первых, она принимает только неотрицательные значения. Во-вторых, эта функция монотонно не убывает при х < 0 и монотонно не возрастает при х > 0 . В-третьих, w(х)

стремится к нулю и при х ® да, и при х ® -да. Тогда можно говорить о робастности оценок параметра Р, полученных при помощи системы уравнений (7), поскольку резко выделяющимся наблюдениям у, , как правило, соответствуют большие по абсолютной величине разности у, - хг'Р и, соответственно, малые веса м>{^У—.

1 — 2/2

Нетрудно увидеть, что если ф(х) =_е х - функция плотности стандартно-

V 2 л

го нормального распределения, то w( х) = 1. И в этом случае система уравнений (7) не приводит к робастным оценкам параметра р. Отсюда возникает идея рассмотреть так называемые М-оценки, которые включают в себя в качестве частного случая оценки максимального правдоподобия (см., например, [2, 6]). В этом случае функция w(х), используемая в системе уравнений (7), не обязательно связана с функцией ф( х) соотношением (6). Зато можно потребовать, чтобы функция w(х) обладала тремя перечисленными выше свойствами. Или даже более сильными свойствами, например, обращалась в ноль при достаточно больших по абсолютной величине х.

Аргументация в пользу М-оценок может быть и такой. Если функция ф(х) на практике все равно не известна, то почему нужно начинать с выбора функции ф( х), а не с выбора функции w(х) ? Может быть, правильнее начинать с выбора функции w(х), а функцию ф(х) определять из уравнения (6)?

Но мы все же начнем с выбора функции ф( х), а не с выбора функции w( х). При любом а > 0 можно рассмотреть функцию

(9) j( x) =

1 Г (а + 0,5)

л/2ла Г(а)

( x2 ^ 1 + —

и 2а ш

-а-0,5

функцию плотности t -распределения с 2а степенями свободы. Известно, что при а ® да функция ф(х) переходит в функцию плотности стандартного нормального распределения. Нетрудно увидеть, что если функция ф( х) задается формулой (9),

, , ч , ч 2а +1 тт

то определяемая соотношением (6) функция w( х) имеет вид w( х) =-. И в этом

2а + х2

случае можно ожидать, что полученная путем решения системы уравнений (7) оценка параметра Р будет обладать свойством робастности (даже если не переходить от оценок максимального правдоподобия к более общим М-оценкам), поскольку w( х) стремится к нулю и при х ® да, и при х ® —да.

Если записать систему уравнений (7) в виде (8), то W - это диагональная

Ж у, — х'рЦ ^

п х п матрица, у которой , -й элемент на главной диагонали равен wl —-— I. Ре-

шить уравнение (8) можно попытаться методом простой итерации. Выбрав начальное приближение Р(0), например, при помощи метода наименьших квадратов, т.е. решив уравнение (8) с единичной матрицей Ж, затем принимаем

(10) р(г+1) =(х' Ж(г)Х)-1 X' Ж(г) у ,

где Ж(г) - это диагональная п х п матрица, у которой I -й элемент на главной диа-

ж

гонали равен м>

( уг - хг'Р(г) ц и а(г)

Приравнивание к нулю частной производной функции (5) по ст дает выражение

(11) а2=Iее (у, - х'рш^к - х;Р)

„у, -х;р

п ,=1

что равносильно соотношению

а2 = - (у - Хр)Ж (у - ХР). п

Последнее уравнение позволяет находить значения а итерациями:

(12) а(г+1)2 = I(у - ХР(г+1))Ж(г)(у - ХР(г+1)).

п

Для определения а(0) может быть использована единичная матрица Ж. Хорошо известно, что последовательность значений, получаемых при помощи метода простой итерации, может быть как сходящейся, так и не быть сходящейся. На практике этот метод обычно применяют для небольших расчетов, руководствуясь принципом «раз сошлось, значит, решение получено». Хотя и существуют условия, гарантирующие сходимость метода простой итерации. Кроме того, в правой

части (12) стоит не Р(г), а Р(г+1), т.е. в данном случае производится некоторое усложнение метода простой итерации.

В параграфе 4 показано, что для множественной линейной регрессии, когда ошибки имеют t -распределение, применение ЕМ-алгоритма приводит к тому же

итерационному процессу (10), (12) для определения Р(г+1), а(г+1) . А тогда применимы теоремы о сходимости итерационного процесса, построенного на основе ЕМ-алгоритма. В рамках ЕМ-алгоритма также можно провести обобщение на случай, когда наблюдения у1,...,уп не одномерные, а т -мерные (см. параграф 6).

Более подробно связь метода наименьших квадратов с итерационно модифицируемыми весами и робастных процедур освещается, например, в работе [21].

3. EM-алгоритм

EM-алгоритм предназначен для поиска точки, в которой достигает максимума функция правдоподобия, путем построения некоторого итерационного процесса. Каждый шаг итерационного процесса состоит из двух подшагов. E-подшаг заключается в нахождении ожидания (expectation) некоторой функции от случайных величин. При этом ожидание само оказывается функцией интересующего параметра. M-подшаг -это максимизация (maximization), определение того значения параметра, при котором данная функция достигает максимума. Первые буквы приведенных английских слов и дают название алгоритма. Обзор различных задач, для решения которых применяется EM-алгоритм, можно найти, например, в работе [16].

Пусть у = (y1v.., yn) - это набор наблюдений, вообще говоря, многомерных. z = (z1,..., zn) - набор ненаблюдаемых величин также, вообще говоря, многомерных. С одной стороны, предполагается, что ненаблюдаемые величины заметно влияют на наблюдаемые, и привлечение их для анализа отвечает существу дела. С другой стороны, нахождение точек максимума функций в рамках EM-алгоритма может оказаться значительно более простой и надежной с вычислительной точки зрения процедурой, чем непосредственное нахождение точки максимума исходной функции правдоподобия. В каких-то задачах не вызывает сомнений, что именно следует взять в качестве ненаблюдаемых величин. В других задачах ответ на этот вопрос не столь очевиден.

Обозначим через h совместную функцию плотности случайных векторов y и z, через g - условную функцию плотности случайного вектора z при заданном у, через f - маргинальную функцию плотности случайного вектора у. Все эти функции плотности считаются зависящими от некоторого параметра 6, вообще говоря, многомерного. Имеет место соотношение

f (у; 6) = h( у,z; 6)

g(z | у; 6)

Переходя к логарифмам, получаем соотношение для логарифмических функций правдоподобия

(13) /(61 у) = /(6 | у, z) - log g(z | у; 6).

Задача состоит в нахождении точки 6, в которой достигает максимума функция /(6 | у). Пусть 6(r) - значение параметра 6, найденное при r -й итерации. Умножим левую и правую части (13) на g (z | у; 6( r)) и проинтегрируем по z. Введем обозначения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

U(6 | у;6(r)) = J/(61 у,z) g(z | у;6(r)) dz, P(61 у; 6(r)) = J log g (z | у; 6) g (z | у;6(г)) dz.

Тогда

(14) /(61 у) = U(6 | у;6(r))- p(6 | у;6(r)).

Заметим, что

(Г )

f logg(zly>q(r)) & J g( z|y; 6)

- это расстояние Кульбака - Лейблера между функциями плотности g(z | y; 6( r)) и g(z | y;6), которое, как известно, всегда неотрицательно. Поэтому при любом 6

(15) р(61 y;6(r)) <р(6(r) | y;6(r)).

E-подшаг состоит в нахождении ожидаемого логарифмического правдоподобия U(6 | y;6(r)).

M-подшаг состоит в нахождении точки

= argmax U(6 | y;6(r)).

6

Из (14), (15) и способа определения точки 6(r+1) следует, что

(16) /(6(r+1)|y)> l(6(r)|y).

Соотношения (16) показывают, что движение идет «в правильном направлении»,

но еще не гарантируют, что последовательность 6(r) сходится. Условия общего характера, из которых следует сходимость этой последовательности к точке максимума функции l(6 | y), даются в работе [20] теоремами 1 и 4.

4. Множественная линейная регрессия

В этом параграфе рассматривается набор одномерных наблюдений y1,...,yn , и будем предполагать, что ненаблюдаемые величины z1,...,zn также одномерные и, кроме того, положительные. Двумерные случайные величины (y1,z1) ,..., (yn,zn) считаем независимыми.

Предположим, что совместная функция плотности случайных величин yi и zi имеет вид

1/2 Ж 2 Ц

g (Zi) ,

z

(17) -!— exp

av 2 л

и 2а2 y

где ег = уг - хг'Р в соответствии с (1). Будем использовать обозначение 6 для пары Р, о. Тогда ^у,z;Р,о) - это произведение функций (17) при г = 1,...,п . Следовательно,

П 1 П 1 П П

log h(y, z;b, а) =--log2p-n log а+ - V log z;--- V zrf + V log g (z;).

2 2 2а2

i=1 i=1

Пренебрегая слагаемыми, не зависящими ни от Р, ни от а, получаем выражение для логарифмической функции правдоподобия

1 n

(18) l(0|y, z) = -n log g--- У z-e"2.

2s2 1=1

В соответствии с определением, данным в параграфе 3,

и (Э | у; 0(г) )= Е (?(0|у, г) | у; 0(г)),

где 1(0 | у, г) рассматривается как функция случайного вектора г. Из (18) следует, что эта функция линейна относительно г1,..., 2п.

Распределение вероятностей с совместной функцией плотности (17) называется нормальным-гамма распределением, если

Aa

(19) g (z) =-exp(- Az) za-1

G(a)

где а > 0 , А > 0. Тогда, как нетрудно увидеть, (выкладки для т -мерного случая приводятся в параграфе 6) маргинальная функция плотности случайной величины у, имеет вид (2), где

(20) Ф<» = (2.)-"2 . пА 2 ) *+0,5 -

Г(а) (А + 0,5х2 ) ,

Из (6) следует, что в этом случае

, ч а + 0,5

(21) w( х) = '

A + 0,5x2

Введем обозначение e(r) = yi - x\b(r) и воспользуемся тем, что

(22) 4i-|y;0(r))= w [g^e(r)] .

Доказательство соотношения (22) для m -мерного случая приводится в параграфе 6. Для одномерного случая (22) доказано в работе [7], и в этом доказательстве не требуется, чтобы функция g (z) обязательно имела вид (19). Из (18) и (22) следует, что

U (01 y; 0(r) )= -n log g- ¿w i-^ e(r) Ц (yt - x b)2.

2g -=1 ug Ш

Таким образом, E-подшаг EM-алгоритма выполнен. Выполнение M-подшага аналогично процедуре, описанной в параграфе 2 (ср. (3), (5), (7), (11), (12)).

Пример 1. Сокращения М1 и М2 в этом примере используются для обозначения одного из двух методов, применяемых для определения параметра Р и стандартного отклонения возмущений 5.

М1 - метод максимального правдоподобия в предположении нормальности возмущений.

М2 - ЕМ-алгоритм в предположении, что возмущения имеют t -распределение с тремя степенями свободы.

Рассматриваются три различных вида сгенерированных рядов наблюдений.

Н0 - наблюдения соответствуют модели с нормальными возмущениями.

Н1 - наблюдения соответствуют модели с нормальными е -засоренными возмущениями, е = 0,1.

Н2 - наблюдения соответствуют модели с возмущениями, имеющими t -распределение с тремя степенями свободы.

Целью является исследовать поведение каждого из методов для «своих» и «чужих» рядов наблюдений. Для простоты мы ограничиваемся лишь возмущениями, имеющими конечные дисперсии.

Пусть п = 15 , q = 1, хп = 1 при каждом i, 1 < i < п . Случайная величина ei имеет функцию плотности (2), где ф(х) - либо функция плотности стандартного нормального распределения, либо функция плотности t -распределения при 2а = 3 ; обе эти функции плотности приведены в параграфе 2. Для генерации наблюдений yi используются значения Р = 1, 5 = 0,3 . При использовании нормальных возмущений ст = 5. При использовании возмущений, имеющих t -распределение с V степенями свободы,

V-2

СТ = 5

V

При генерации ряда с е -засоренными наблюдениями считается, что с вероятностью (1 - е) стандартное отклонение возмущения равно 5, и с вероятностью е равно 55.

Для каждого из трех видов генерируется L = 300 рядов наблюдений длины п . Для I -го эксперимента, I = 1,...,L значения параметров Р1 и 51 определяются и методом М1, и методом М2. Затем определяются средние значения

1 L 1 L

р=7 &, 5-=7 е 51

L 1=1 7 г=1

и среднеквадратические отклонения

Г, 7 . .. У" Г, 7

1-7 ее (Рг-Р)2 , 7£(5г - 5)

г=1

7 е 5 ^2

и г=1 Ш

Результаты для средних значений приведены в табл. 1 и 2. В скобках даются среднеквадратические отклонения.

Таблица 1.

Результаты для параметра в, истинное значение в = 1

НО

Н1

Н2

М1

1,011 (0,071)

1,016 (0,133)

1,011 (0,067)

М2

1,017 (0,074)

1,019 (0,081)

1,012 (0,050)

Таблица 2.

Результаты для параметра ж, истинное значение ж = 0,3

Н0

Н1

Н2

М1

0,273 (0,052)

0,472 (0,228)

0,244 (0,093)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

М2

0,370 (0,079)

0,454 (0,130)

0,276 (0,070)

Сравнивая результаты для рядов вида Н0 и Н2, мы видим, что «свой» метод (т.е. метод М1 для рядов Н0 и метод М2 для рядов Н2) дает лучшие результаты и в смысле меньшего разброса (т.е. среднеквадратического отклонения), и в смысле близости среднего значения найденных параметров к истинным значениям (за исключением значения Р= 1,012, которое несколько хуже, чем значение р= 1,011).

На первый взгляд, результаты для параметра Р для рядов вида Н2 противоречат теореме Гаусса - Маркова. Метод М1 совпадает с методом наименьших квадратов, и, казалось бы, дисперсия оценки должна быть наименьшей. А среднеквадратиче-ское отклонение 0,067 существенно больше, чем среднеквадратическое отклонение 0,050, полученное при использовании метода М2. На самом деле, этот пример всего лишь показывает, что требование линейности и несмещенности оценки, содержащееся в теореме Гаусса - Маркова, не может быть отброшено. Метод М2 не является линейным.

Для рядов вида Н1 в результатах для параметра Р видна робастность метода М2. Полученное среднеквадратическое отклонение примерно в 1,65 раза меньше, чем для метода М1. Различие в средних, 1,016 и 1,019, носит случайный характер. Так, для другой серии из 300 экспериментов для рядов вида Н1 для параметра Р при

1,023

использовании метода М1 получены результаты , а при использовании мето-

да М2 - результаты 1,019 . Проявляется робастность метода М2 и в результатах для параметра 5 для рядов этого вида.

5. Две теоремы о матричном гамма-распределении

Теория матричных гамма-распределений излагается, например, в [10]. Наиболее известными из этих распределений являются, видимо, распределения Уишарта. Также в работе [10, с. 122-124] рассматриваются матричные гамма-распределения с векторным параметром - некоторое естественное обобщение распределений Уишарта. При том, что легкими и короткими формулировки здесь быть не могут, обозначения, используемые в [10] и других работах для распределений с векторным параметром, с нашей точки зрения, несколько избыточны, возможно, из-за этого остались неисследованными свойства этих распределений. Более прозрачные обозначения для матричных гамма-распределений с векторным параметром используются в работе [3]. Здесь мы повторим только самые необходимые определения.

Для т х т матрицы С = (сг;- при k = 1,...,т рассматриваются подматрицы С^] = {Сг; = и С№] = {Сг; }т].

Рассматривается также вектор а = (а1,...,ат) такой, что а у > 0,5(у -1) при у = 1,..., т. Многомерная гамма-функция определяется следующим образом:

т

С (а) = рт(т-1)/4 Хг(а; - 0,5( у -1)),

У=1

где Г(-) - обычная гамма-функция. Дополнительно считается, что

а0 = 0 , ат+1 = 0,5(т +1).

Параметрами рассматриваемых гамма-распределений являются вектор а указанного вида и положительно определенная т х т матрица А. Функция плотности имеет вид

т

(23) g (Г) = у а, а etr(-Az) Х 2 у ] |ау-ау+1,

у=1

где 2 - положительно определенная т х т матрица; егг(С) = ехр(гтС); | С | - определитель матрицы С . Коэффициент уаА задается формулой

( т-1

(24) У а,А =

гт(а) Хи[т-у] а

У=о

(ср. (23) и (24) с (19)).

Пусть Т - симметричная т х т матрица такая, что матрица А - Т положительно определенная. (Изначально симметричная матрица Т может быть взята произвольно. При некотором е > 0 матрица А -еТ будет положительно определенной. В этом смысле условие, что матрица А - Т положительно определенная, не является ограни-

чительным.) Пусть Z - положительно определенная случайная матрица с функцией плотности (23). Определим производящую функцию моментов

Из формулы

М (Т) = ЕеГ (Т2).

1т(Т1) = £т„2„ +

к1

1=1

к=1 1>к

следует, что

(25)

а при 1 > к

(26)

Теорема 1.

М (Т) =

дМ (Т)

дТ„

дМ (Т)

Т=0

дТ

к1

--е 2„),

: 2 Е(Zkl).

У а,А

т-1

(

т-1

а,А = ХХ| (А - Т)[т-1 ] |а1-а1+! | А[т-1] ^

У а,А-Т 1 =0 и 1=0

Доказательство следует из выражения

т

М(Т) = Уа,А Т е*(-(А - Т)7) 1] I

г>0

1=1

и из формулы (24).

При 1 = 0,..., т -1 определим т х т матрицу Ст-1 такую, что

(Ст-; ) [т-1 ]=(А[т-1 ] )-1

остальные элементы матрицы Ст-1 равны нулю. Теорема 2.

т-1

Е (2) = еа+1 - а} )с

т- 1

1=0

Доказательство. Чтобы найти ожидание каждого элемента 2Ы , к < 1, случайной матрицы 2, воспользуемся формулами (25), (26) и теоремой 1.

Т=0

-1

Зафиксируем j такое, что I < т - j . Минор элемента Ак1 - Тк1 матрицы (А - Т)[т обозначим Мк1. Через Е обозначим определитель этой матрицы. Введем обозначение

•и = Ак1 - Тк1. Тогда

m- j

(27) Е = е("1)И+Ч^.

и=1

Дифференцирование функции (27) по •п не вызывает затруднений, поскольку ни один из миноров от ••ц не зависит. Имеем

(28) — = Мп = |(А - Т)[т-п|((А - Т)[т-п)- .

5 %

Дифференцирование функции (27) по •к1 при к < I несколько труднее. Все миноры кроме Мп могут зависеть от •к1, поскольку •1к = •к1. Имеем

9Е , , т^, -*„+1 5

(29) — = (-Dk+lMkl + е(-1Г'su,—Mul .

9 skl u=1 9 skl

u№l

Обозначим через Mul lv определитель матрицы, получающейся из (A - T)[m-выкидыванием строк с номерами u и / и столбцов с номерами / и v . Тогда при u < l

l-1 m- j

Mul = е (-1)V+l-1 SlvMul ,lv - е (-1)V+l-1 SlvMul ,lv ; v=1 v=l+1

при u > l

l-1 m- j

Mul = е (-1)v+l SlvMul,lv - е (-1)v+l SlvMul, lv . v=1 v=l+1

Ни один из определителей Mul lv, входящих в две последние формулы, от skl

не зависит. Вторыми суммами в правых частях также, очевидно, можно пренебречь, поскольку k < l. Поэтому при u < l

9 -Mul = (-1)k+l-1 Mul, ik;

при u > l

9 skl

9

- Mul = (-1)k+lMul llk .

9 skl

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Из (29) при k < l находим

1-1 m-1 ^=(-\f+iMkl+е (-ir'sul (-i)k+ е (~i)u+'sui (-Dk+iMikui.

5 skl u=1 u=l+1

То есть при k < l

(30) — = 2(-1)k+lMkl = 2\(A - T)[m-j]|((A - T)[m-j])-l.

5 skl

Изменения, которые нужно внести в приведенные выкладки при m - j < 2 или при l = да - j, очевидны.

Те же выражения (28) и (30) получаются при дифференцировании |(A - T)[m-j]| по Tll и по Tkl, только в правые части добавляется знак минус.

Воспользовавшись теоремой 1, формулами (28) и (30), получаем

5M (T)

5T„

m-l / \

■ееa - j)(A[m-j])-;:

j=0

T=0

и при k< l

m-l

5M (T)

5Tkl

2ё<?1 -ji) (A[m-1 ])-l.

j=0

T=0

Воспользовавшись (25) и (26), при k < l получаем

m-1

E (Zkl ) = е(й!+1 - a! )(cm- j )kl .

1=0

Теорема 2 доказана.

Теорема 2 для случая а1 = ... = ат известна. Доказательство приводится, например, в [10]. При этом и в [10], и в других работах используется не производящая функция моментов, а характеристическая функция. Использование производящей функции моментов позволяет избежать рассмотрения матриц с комплексными элементами. Теорема 1, хорошо известная для одномерного случая, при т > 1, по-видимому, является новой даже для случая а1 = ... = ат.

6. Многомерная линейная регрессия

Рассмотрим уравнения, аналогичные (1):

(31) уг =Р'хг + ег, г = 1,..., п .

Объясняющие переменные xiа - известные числа, х{ = (хг1,...,х{С1); Р - дхт

матрица. Через у1,...,уп обозначаются и т -мерные наблюдения, и случайные вектора, представляющие собой вероятностную модель для этих наблюдений. Предполагается, что т -мерные случайные вектора е1,...,еп независимы и одинаково распределены.

Ненаблюдаемые величины *1,...,являются положительно определенными т х т случайными матрицами. Как и в одномерном случае, (у1,,..., (уп,гп) независимы. Совместное распределение yi и zi будем считать нормальным-гамма, т.е. совместная функция плотности имеет вид

(32) (2л)-

1/2

1

*

ехРГ ^ е 18 )

где 8^) определяется формулой (23), и ei = yi -Р'х± в соответствии с (31).

Рассмотрим вектор Ь = (Ь1,...,Ьт), где — = а}- + 0,5 при у = 1,..., т . Пусть Ь0 = 0 , Ьт+1 = 0,5(т +1).

При х е Rm рассмотрим функцию

г*(Ь) т-1 Г 1 '

(33) ф(х) = (2л)-т/2-Гт(—^ Ы|-1/2 П1 1 + -х[т-;] (А[т-;])-1 х[т-I

гт(а) и 2 ш

Она является функцией плотности многомерного t -распределения с векторным параметром степеней свободы (см. [3; 4]); ср. (20). Здесь для т -мерного вектора х через

х[4г] обозначается k -мерный вектор, состоящий из первых k компонент вектора х, k = 1,...,т.

Теорема 3. Маргинальная функция плотности случайного вектора yi имеет вид

(34) -!тФр-е;

ст

где функция ф задается формулой (33).

Доказательство. Маргинальная функция плотности случайного вектора yi получается интегрированием по области zi > 0 совместной функции плотности (32). Чтобы несколько сократить формулы, внутри доказательства теоремы будем использовать обозначение * вместо zi и обозначение е вместо ei. Во-первых, заметим, что

е' = ее' * ).

Используя (23) и (24), получаем следующее выражение для маргинальной функции плотности:

Ы-"2т„,атI -На+^4I П1*"1^" =

1 т-1

= (2р)-т/2Г» П

а 1 =0

1=1

А +-ее '

2а2

[т-Л

Ь-ь.

Если воспользоваться тем, что

1 ;

А[т-1] + е[т-1 ]е[т-1]

2а2

= А[т-1]||1 + 1 е[т-1 ] (А[т- 1])-1е[т-1] | 1 I 2а2 Ш'

(см., например, лемму 5 в [3]), то получаем выражение

(2р)-т/2 |А|-1/2 П(1 + -1-е[т-1]'(А[т-1])

Г>) ат 1=|1 *-2 ( )

Ь. -ь.

2а2

1=0 ■

Теорема 3 доказана.

Теорема 4. Условная функция плотности случайного вектора г, при условии

у, - это функция плотности матричного гамма-распределения с векторным парамет-

1 ;

ром Ь и с матричным параметром А +--е,е, .

2а2

Доказательство. Условная функция плотности случайного вектора г, при условии у, - это отношение совместной функции плотности (32) к маргинальной функции плотности (34). Как и в доказательстве предыдущей теоремы, будем использовать обозначение г вместо г, и обозначение е вместо е,. Искомая условная функция плотности представима в виде дроби с числителем

е1г

-| А +-

1 Ц Ц т

ее'\г ] П1г'

Ь-Ь

[ Л

и со знаменателем

т-1 Ь Ь т-1 ( 1 ;

ГГ(Ь) П|А[т-1]| '- '+1 П| 1 + "Ге[т-1] (А[т-1])-1е[т-1]

1=0 1=0 и 2а 2

Ь -Ь,

Используя, как и в доказательстве предыдущей теоремы, лемму 5 из [3], получаем следующее выражение для знаменателя:

Г*(Ь) П

1=0

1

А[т-1 + е[т-1 ]е[т-1] 2а 2

(

\

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-1

У 1

Ь, А+-- ее

4 2а Ш

Теорема 4 доказана.

Ь +1

Будем использовать обозначение 6 для пары Р , ст . Из (32) следует, что и в многомерном случае логарифмическая функция правдоподобия имеет вид, сходный с (18):

(35)

1 П

l(0|y, z) =- n log sm--- У e,

2s2 tf

2iii

Ввиду линейности 1(6 | у,2) по 2Х,...,2п , чтобы построить функцию и(6 | у;6(г)) достаточно знать условное ожидание Е(2{ | у{; 6(г)).

При у = 0,..., т -1 и при х е Вт определим т х т матрицу Ст- .■ (х) такую, что

Cm-J (X))

[m-J] _

A +—xx '

[m- J] I 1

остальные элементы матрицы Cm- j ( x) равны нулю. Положим

w(X) = У(Ь+1 - bJ )Cm-J (X)

j=o

(ср. (21)). Тогда на основании теорем 2 и 4 получаем E(z, | y,;0(r))= w\—e\r)Ц (ср. (22)). Определим m х m матрицы

w(r) = w\— e(r) I, i = 1,...,n .

г U(r) i ш,

В соответствии с определением функции U(0 | y; 0(r)) в параграфе 3 (см. также параграф 4) и с (35) получаем

n

U(Р,s | y;P(r),s(r)) = -nmlogs- —-У[ y' - х, 'p)w(r) (y -p 'х).

-s2 t1U Ш

Дифференцирование функции U по Рак , а = 1,..., q , к = 1,...,m и приравнивание производной к нулю с учетом симметричности матрицы w дает уравнение

n m

(

\

(36)

У X аУ W]k y,j -У X yP

,=1 J=1

yFy J

g=1 ш

= о.

Дифференцирование функции и по ст и приравнивание производной к нулю дает уравнение

(37)

= — Уи у,' - Xi Р^ w(r) (y, -Р' X )

nm ,=1 v J

2

ст

(ср. (11), (12)). Найденные из уравнений (36) и (37) значения Р и ст принимаются в качестве р(г+1) и ст(г+1). Значения Р(0) и ст(0) рассчитываются с единичными матрицами wi.

Другой вариант применения ЕМ-алгоритма в линейной регрессии, когда ошибки имеют многомерное t -распределение, представлен, например, в работе [12].

г

Пример 2. Пусть т = 3 , п = 1000 , q = 2 . При каждом / = 1,...,п вектор х^ = (1,/), а трехмерная случайная величина в1 имеет функцию плотности (33), (34) с параметрами а = (2,5,9),

ж 1 1,3 1,5Ц

А = 1,3 2 2

Л5 2 4 ш

ст = 12 . При генерации трехмерных возмущений с указанным t -распределением применяется алгоритм Метрополиса (см., например, [5]). Для генерации наблюдений используется матрица

_,10 20 - 30 Р = и 0,3 - 0,2 0,4

Проводя аналогию с временными рядами, можно сказать, что рассматривается модель со свободным членом и с трендом, а возмущения представляют собой трехмерный белый шум, имеющий t -распределение с векторным параметром степеней свободы.

При применении ЕМ-алгоритма, т.е. при использовании итерационного процесса, основанного на формулах (36), (37), сходимость в проведенном эксперименте была достигнута после 20 итераций. Получены значения параметров

,'10,185 20,268 - 29,681

Р = ,

1 0,299 - 0,201 0,400

ст = 11,533 . Результаты являются удовлетворительными. Отметим, что при применении метода наименьших квадратов получено значение параметра

,10,191 20,399 - 29,634

Р = ,

1 0,299 - 0,201 0,400 ^

Оно же использовалось в качестве начального значения Р(0) в ЕМ-алгоритме. В данном расчете метод наименьших квадратов уступает ЕМ-алгоритму.

* * *

СПИСОК ЛИТЕРАТУРЫ

1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М.: Дело, 2004.

2. Хъюбер П. Робастность в статистике. М.: Мир, 1984.

3. Шведов А.С. Бета-распределение случайной матрицы и его применение в модели состояние-наблюдение: препринт. WP2/2009/01. М.: ГУ ВШЭ, 2009.

4. Шведов А.С. t-распределение случайной матрицы и его применение в регрессионной модели: препринт. WP2/2010/01. М.: ГУ ВШЭ, 2010.

5. Шведов А.С. О методах Монте-Карло с цепями Маркова // Экономический журнал Высшей школы экономики. 2010. Т. 14. № 2. С. 227-243.

6. Andrews D.F. A Robust Method for МиШр1е Linear Regression // Technometrics. 1974. 16. Р. 523-531.

7. Dempster A.P., Laird N.M., Rubin D.B. Iteratively Reweighted Least Squares for Linear Regression When Errors are Normal/Independent Distributed // Multivariate Analysis - V / ed. by P.R. Krishnaiah. Amsterdam: North-Holland, 1980. Р. 35-57.

8. Fernandez C., Steel M.F.J. Multivariate Student-t Regression Models: Pitfalls and Inference // Biometrika. 1999. 86 (1). Р. 153-167.

9. Fonseca T.C.O., Ferreira M.A.R., Migon H.S. Objective Bayesian Analysis for the Student-t Regression Model // Biometrika. 2008. 95 (2). Р. 325-333.

10. Gupta A.K., Nagar D.K Matrix Variate Distributions. N.Y.: Chapman & Hall, 1999.

11. Koenker R. Robust Methods in Econometrics // Econometric Reviews. 1982. 1. Р. 213255.

12. Lange K.L., Little R.J.A., Taylor J.M.G. Robust Statistical Modelling Using the t-distri-bution // Journal of the American Statistical Association. 1989. 84. Р. 881-896.

13. Liu C.H., Rubin D.B. ML Estimation of the t-distribution Using EM and its Extensions, ECM and ECME // Statistica Sinica. 1995. 5. Р. 19-39.

14. Lucas A. Robustness of the Student-t Based M-estimator // Communications in Statistics - Theory and Methods. 1997. 26 (5). Р. 1165-1182.

15. Maronna R.A., Martin R.D., Yohai V.J. Robust Regression - Theory and Methods. N.Y.: Wiley, 2006.

16. Meng X.L., van Dyk D.A The EM Algorithm - An Old Folk-song Sung to a Fast New Tune (with discussion) // Journal of the Royal Statistical Society. 1997. B. 59. Р. 511-567.

17. Preminger A., Franck R. Forecasting Exchange Rates - A Robust Regression Approach // International Journal of Forecasting. 2007. 23(1). Р. 71-84.

18. Rousseeuw P.J., Leroy A.M. Robust Regression and Outlier Detection. N.Y.: Wiley,

1987.

19. Rubin D.B. Iteratively Reweighted Least Squares // Encyc^edia of Statistical Sciences. N.Y.: Wiley, 1983. Vol. 4. Р. 272-275.

20. Wu C.F.J. On the Convergence Properties of the EM Algorithm // Annals of Statistics. 1983. 11. Р. 95-103.

21. Yuan K.-H., Bentler P.M. Robust Mean and Covariance Structure Analysis through Iteratively Reweighted Least Squares // Psychometrika. 2000. 65(1). Р. 43-58.

22. Zellner A., Ando T. Bayesian and Non-Bayesian Analysis of the Seemingly Unrelated Regression Model with Student-t Errors, and its Application for Forecasting / / International Journal of Forecasting. 2010. 26. Р. 413-434.

Робастная регрессия с применением t-распределения и EM-алгоритма Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Шведов Алексей Сергеевич

Похожие темы научных работ по математике , автор научной работы — Шведов Алексей Сергеевич

Robust Regression Using the t-distribution and the EM Algorithm

Текст научной работы на тему «Робастная регрессия с применением t-распределения и EM-алгоритма»