DOI: 10.18698/1812-3368-2016-2-16-24
УДК 519.234.3
ВЛИЯНИЕ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ НА ОЦЕНКУ НАИМЕНЬШИХ КВАДРАТОВ ПАРАМЕТРА АВТОРЕГРЕССИОННОГО УРАВНЕНИЯ СО СЛУЧАЙНЫМ КОЭФФИЦИЕНТОМ
В.Б. Горяинов1, Е.Р. Горяинова2
ХМГТУ им. Н.Э. Баумана, Москва, Российская Федерация e-mail: [email protected]
2 Национальный исследовательский университет "Высшая школа экономики", Москва, Российская Федерация e-mail: [email protected]
Изучены робастные свойства оценки наименьших квадратов параметра авторегрессионного уравнения со случайным коэффициентом при наличии аддитивных или замещающих выбросов в наблюдениях. Получено аналитическое выражение зависимости функционала влияния оценки от авторегрессионного параметра, дисперсии коэффициента авторегрессии, дисперсии обновляющего процесса и параметров модели наблюдений. Вычислен коэффициент чувствительности оценки к большой погрешности, выяснены условия его конечности. Показано, что оценка будет всегда смещенной за исключением вырожденного случая нулевого параметра.
Ключевые слова: авторегрессионная модель со случайным коэффициентом, функционал влияния, коэффициент чувствительности к большой погрешности, аддитивные выбросы, замещающие выбросы.
THE INFLUENCE OF ANOMALOUS OBSERVATIONS ON THE LEAST SQUARES ESTIMATE OF THE PARAMETER OF THE AUTOREGRESSIVE EQUATION WITH RANDOM COEFFICIENT
V.B. Goryainov1, E.R. Goryainova2
1Bauman Moscow State Technical University, Moscow, Russian Federation e-mail: [email protected]
2National Research University Higher School of Economics, Moscow, Russian Federation e-mail: [email protected]
The study tested robustness properties of the least squares estimate of the parameter of the autoregressive equations with random coefficients in the presence of additive or replacement outliers in the observations. We investigated the folowingparmeters: the relation of the functional of the least squares estimate with the autoregression parameter; the variance of the autoregressive coefficient; the variance of the innovation process and parameters of the observations process. Moreover, we calculated the gross-error sensitivity of the least squares estimate and investigated the conditions for its boundedness. The findings of the research illustrate that the estimate is always biased except in the degenerate case of zero autoregressive parameter.
Keywords: random coefficient autoregressive model, influence functional, gross-error sensitivity, additive outliers, replacement outliers.
Введение. В последние четверть века на смену линейным моделям временных рядов пришли нелинейные модели, более адекватно
объясняющие поведение реальных данных [1]. Одна из таких моделей — модель авторегрессии со случайными коэффициентами [2]. Для оценивания параметров этой модели обычно используется метод наименьших квадратов, дающий при умеренных предположениях о вероятностном распределении временного ряда состоятельные и асимптотически нормальные оценки [2]. Однако на практике данные наблюдаются с погрешностью. Особенно в наблюдениях опасны погрешности аномально большой величины, называемые выбросами. Случаясь достаточно редко, они могут существенно исказить результаты оценивания. С асимптотической точки зрения это может привести к потере состоятельности оценок, когда с увеличением объема наблюдений временного ряда предельное значение оценки не совпадает с оцениваемым параметром. Количественной мерой такого расхождения служит функционал влияния оценки, определенный для модели независимых наблюдений в работе [3] и примененный к временным рядам в работе [4].
В настоящей статье изучено асимптотическое поведение оценки наименьших квадратов при различных моделях выбросов в наблюдениях временного ряда, описываемого авторегрессионным уравнением со случайными коэффициентами. Для этого вычислен ее функционал влияния и исследовано его поведение в зависимости от параметров авторегрессионного уравнения и параметров модели загрязнения наблюдений.
Процесс авторегрессии. Рассмотрим временной ряд Хи удовлетворяющий уравнению авторегрессии
X = (<£о + + £г. (1)
В уравнении (1) авторегрессионный коэффициент + п есть сумма неслучайного параметра и случайного процесса Если п = 0, то уравнение (1) становится обычным авторегрессионным уравнением.
Далее предположим, что для любого £ = 0, ±1, ±2,... у случайных величин п и £ есть нулевые математические ожидания
Е£ = 0, Епг = 0 (2)
и конечные дисперсии
Б^ = ш2 < то, = а2 < то, (3)
удовлетворяющие условию
ш2 + а2 < 1. (4)
Также предположим, что случайные величины {п, £г, £=0, ±1, ±2,...} независимы. При выполнении этих условий существует стационарное
и эргодическое решение уравнения (1), представимое в виде сходящегося с вероятностью единицы ряда Хг = ^^ 8,£—, где 80 = 1 и
г=0
г-1
8, = + п—), г = 1, 2,... [2, 5]. Далее под Хг будем понимать
3=0
именно стационарное решение уравнения (1).
Модели загрязнения наблюдений. В теории временных рядов наиболее распространены три модели погрешностей наблюдений: 1) аддитивная; 2) замещающая; 3) инновационная [6].
В аддитивной модели вместо процесса Хг наблюдается процесс У вида
У = Х + V (5)
где V — случайный процесс с независимыми значениями,
Р{^ = 1} = 8, Р{^ = 0} = 1 - 8, 0 < 8 < 1. (6)
Другими словами, на наблюдение Хг случайным образом с вероятностью 8 накладывается выброс который можно интерпретировать как результат сбоя некоторых узлов измерительного устройства. Предположим, что ^ — процесс с независимыми значениями, общей для всех функцией распределения ^ и конечной дисперсией а2 = .
В замещающей модели наблюдения У имеют вид
У = (1 - + VС;, (7)
где величины V и 8 описываются (6), т.е. с вероятностью 8 вместо процесса Хг наблюдается процесс Таким образом, замещающая модель имитирует полный отказ измерительной аппаратуры с вероятностью 8.
Обычно в моделях (5)-(7) процесс ^ является гауссовым с дисперсией, значительно большей, чем дисперсия наблюдаемого временного ряда Хг. Предположим, что случайные процессы Хг, V и не зависят друг от друга и являются стационарными в широком смысле. Отметим, что в моделях (5)-(7) выброс ^ в фиксированный момент времени £ влияет только на наблюдаемый процесс в этот же момент времени и не влияет на все последующие наблюдения.
Инновационная модель выбросов — специфическая модель, присущая только процессам авторегрессионного типа: процессу авторегрессии, процессу авторегрессии — скользящего среднего и процессу авторегрессии — проинтегрированного скользящего среднего. В модели (1) инновационный выброс — выброс для обновляющего (инновационного) процесса £, заключающийся в том, что процесс £ имеет не просто нормальное, а загрязненное нормальное распределение (4),
называемое также распределением Тьюки с плотностью
1 ж2 1 ж2
/ (х) = (1 - 5) е-2т2 + 5 - е-2^2, 0 < 5 < 1, а > т. (8) у 2пт у2па
Последовательность случайных величин, имеющих распределение Тьюки, имитирует типичное на практике загрязнение последовательности центрированных нормальных величин с дисперсией т2 небольшой (0,01-0,15) долей 5 центрированных нормальных величин с дисперсией а2 > т2. Можно также представить инновационный выброс как импульс на входе динамической системы (1), а процесс X* — как реакцию системы на это воздействие (импульс). Отметим, что инновационный выброс воздействует не только на текущее наблюдение, но и на последующие. Таким образом, в инновационной модели У = X*, где X* удовлетворяет (1), в котором плотность распределения вероятности /(х) случайной величины е* имеет вид (8).
Оценка наименьших квадратов. Одна из основных задач при исследовании уравнения (1) — оценивание его параметра по наблюдениям У0,У1,... ,Уп. Наиболее распространенным методом оценивания параметра является метод наименьших квадратов. Оценка наименьших квадратов фп параметра определяется как точка минимума функции
Сп(ф) = Е(У* - ^-1)2, (9)
4=1
или, что то же самое, как решение уравнения
«ЗД=0, (10)
где
п
вп(Ф) = -сп(ч>) = УХу* - ру-1)у-1. (11)
t=1
Решая уравнение (10), получаем
n
EYtYt-i =1
fn = —-.
Е Y-1 =1
Если в (6) выполнено ö = 0 , т.е. Yt = Xt для всех t, то при выполнении условий (2)-(4) оценка fn состоятельна, т.е. с увеличением n стремится по вероятности к истинному значению параметра f0 [2].
Определение робастности оценки. Если ö = 0 в (6), то оценка f n не обязана быть состоятельной. Предположим, что в этом случае существует предел lim fn = f (ö). Очевидно, что оценка fn тем лучше,
n—^^о
чем меньше разность f (ö) — fo.
Обозначим через IF(<(8),Fz) производную <(8) по 8 в нуле: IF(<(8),F^) = <'(0). Производная IF(<(8),Fz) называется функционалом влияния оценки <n. Функционал влияния JF(<(8), F^) зависит от предельного значения <(8), функции распределения вероятности F<z выброса Zt и согласно определению является линейным членом разложения асимптотического смещения <(8) — <0 предельного значения <(8) оценки <n: <(8) — <0 = IF(<(8), F<z)8 + o(8), 8 ^ 0.
Обозначим через K множество возможных функций распределения вероятности F<z случайной величины £t. Оценка называется робастной, если коэффициент чувствительности GE(<(8), K) к большой погрешности, определяемый как GE(<(8),K) = sup IF(<(8),Fz) будет ко-
Fz ек
нечным.
Вычисление функционала влияния оценки наименьших квадратов. Сначала вычислим функционал влияния для аддитивной модели погрешностей наблюдений.
Теорема 1. Пусть выполнены условия (2)-(4) и наблюдения Y0, Y1,..., Yn авторегрессионного уравнения (1) описываются моделью (5), (6). Тогда функционал влияния оценки наименьших квадратов <n параметра <0 имеет вид
IF (<(8),Ff ) = — . (12)
М Поскольку случайные последовательности Xt, vt и £t являются стационарными и эргодическими, (см. работу [8]) стационарными и эргодическими также будут последовательности
n 1 n
Tin = - V YtYt-1, T2n = - V Y-!, n = 1, 2,... (13) n n
t=1 t=1
Согласно закону больших чисел, для эргодических последовательностей [8] существуют пределы lim T1n = E(Y1Y0), lim T2n = EY02.
n—n—
Поэтому
Ш 1- - 1- T1n E(Y1Y>) <(8) = lim <n = lim - = W2 . (14)
n—x n—x T2n EY0
Подставляя в (14) выражение для Yt из (5), учитывая (6) и независимость величин в Xt, vt и £t, получаем E(Y1Y0) = E(X1 + v1Z1)(X0 + + V0C0) = E(X1X0) + 82(EZ0)2, EY02 = E(X0 + V0C0)2 = EX02 + 8EC02. Следовательно,
.,. E(X X0) + 82(EC0)2 <(8) = E X? + 8E<0 •
Отметим, что
E(X1X0) = E((<0 + П1)Х0 + COX) = <0EX02. (15)
Поэтому
foEXo2 + ö2 (EZo)2 (16)
f (Ö) = EX2 + öEZ2 (16)
и
d
IF (f(ö),Fc )= döf(ö)
= — foECp2
5=0 EX0
(17)
Теперь найдем функционал влияния для замещающих выбросов.
Теорема 2. Пусть выполнены условия (2)-(4) и наблюдения Y0, Y1,..., Yn авторегрессионного уравнения (1) описываются моделью (6), (7). Тогда функционал влияния оценки наименьших квадратов fn параметра f 0 имеет вид
IF (f (ö),Fc ) = — f0(EXX+ EC2) - (18)
< Так же, как и при доказательстве теоремы 1, получим, что f (ö) имеет вид (14). Поскольку в (14) случайные величины Y1 и Y0 определяются по формуле (7), с учетом (6) и независимости величин Xt, vt и Zt, определяем
E(Y1Yo) = E((1 — V1 )X1 + V1Z1)(((1 — vo)Xo + voZo) = = (1 — ö)2E(X1Xo) + ö2 (EZo)2 = (1 — ö)2foEXo2 + ö2(EZo)2, EYo2 = E((1 — Vo)Xo + VoZo)2 = (1 — ö)EXo2 + öEZ2-
Поэтому
(1 — ö)2foEX02 + ö2(ECo)2 (19.
f(ö)= (1 — ö)EX02 + öECo2 , (19)
отсюда вытекает утверждение теоремы 2.
Если выбросы описываются инновационной моделью, то оценка наименьших квадратов остается состоятельной. Действительно, в этом
случае Yt = Xt, поэтому f (ö) = (_ * o). Следовательно, оценка f (ö)
EX02
описывается формулами (16) и (19), в которых ö = 0, EZo = 0, EZ2 = 0,
т.е. lim fn = fo.
n—<x
Анализ функционала влияния. Из формул (12) и (19) следует, что при наличии аддитивных или замещающих выбросов Zt оценка наименьших квадратов будет смещенной всегда за исключением случая fo = 0, и смещение будет всегда отрицательным. Это смещение будет тем больше, чем больше дисперсия D£t выброса, поскольку DZt = EZt2 + (EZt)2. Кроме того, с увеличением дисперсии DZt функционал IF(f (ö), Fz) неограниченно возрастает, так что для двух моделей выбросов GE(f (ö), K) = то на множестве всех случайных выбросов с
конечной дисперсиеи, и оценка наименьших квадратов на этом множестве не будет робастной.
Найдем зависимость /^(у(8),^) от параметров у0, а, ш. В соответствии с (1) и независимости процесса Х0 от величин и £ имеем ЕХ2 = Е((уо + П1)Х + ^)2 = Е(уо + П1)2ЕХ02 + а2 = (у0 + +ш2)ЕХ,2 + а2. Процесс X стационарный, поэтому ЕХ2 = ЕХ2, тогда ЕХ,2 = (у§ + ш2)ЕХ2 + а2, отсюда
2
ех2 = а
0 1 - у0 - ш2'
Подставляя это выражение в (16) и (19), для аддитивной модели выбросов получаем
(8) = уоа2 + 82(1 - у2 - ш2)(Е<0)2 а2 + 8(1 - у0 - ^2)ЕС<2 '
/^(у(8), ^) = -00(1 - у2 - ^2)ЕСо, (20)
а для замещающей модели —
(8)= (1 - 8)2уоа2 + 82(1 - у2 - ш2)(Е<о)2
У(8) (1 - 8)а2 + 8(1 - у0 - ^2)ЕСо '
/^( у(8), ^) = -[а2 + (1 - у2 - ^2)ЕСо2]. (21)
Согласно формуле (20), абсолютная величина функционала влияния
/^( у (8), ^) уменьшается до нуля с увеличением значения а2 к беско-
22 нечности и значения ш2 до максимально возможного значения 1 - у0,
при котором сохраняется свойство стационарности процесса X. Этот на первый взгляд парадоксальный факт объясняется тем, что при больших значениях а2, ш2 и фиксированном математическом ожидании Е^о именно большие значения а2 и ш2 являются главной причиной ухудшения качества оценки уп, вклад в это ухудшение величины Е^о сравнительно невелик.
С возрастанием абсолютной величины параметра 0 до максимально возможного значения \/1 - ш2 абсолютная величина /^( у(8),^) сначала увеличивается от нуля до максимального значения, достигае-
/Г-ш2
мого в точке у0 = у —-—, а затем уменьшается до нуля.
Следовательно, в аддитивной модели погрешностей наблюдений оценка наименьших квадратов проявляет относительную устойчивость лишь при больших значениях а2, у 0 « 0 и ш2 ~ 1 - у 2.
В замещающей модели погрешностей наблюдений (см. (21)) оценка наименьших квадратов проявляет относительную устойчивость
лишь при ^о ~ 0, поскольку величина |1F)| монотонно возрастает с увеличением |<^0|. Величина |1F)| с возрастанием
2 2
а2 и w2 как и в аддитивнои модели также уменьшается, но уже не до нуля.
Выводы. Оценка наименьших квадратов параметра авторегрессионного уравнения со случайным коэффициентом является робастноИ лишь в нескольких вырожденных случаях. В замещающей модели это
происходит лишь при « 0 и конечной дисперсии выбросов, а в ад-
« 2 2 -i 2 дитивнои модели только в трех случаях: при а2 ^ то, при w2 ~ 1 — ^0
и при « 0. За исключением указанных случаев оценка наименьших
квадратов робастноИ не является.
ЛИТЕРАТУРА
1. FanJ., Yao Q. Nonlinear Time Series: Nonparametric and Parametric Methods. New York: Springer-Verlag, 2003. 551 p.
2. Nicholls D.F., QuinnB.G. Random coefficient autoregressive models: an introduction. New York: Springer, 1982. 154 p.
3. Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Assoc. 1974. Vol. 69. No. 346. P. 383-393.
4. Martin R.D., Yohai V/.Influence functionals for time series. With discussion // Ann. Statist. 1986. Vol. 14. No. 3. P. 781-855.
5. Aue A., Horvath L., Steinebach J. Estimation in random coefficient autoregressive models // J. Time Ser. Anal. 2006. Vol. 27. No. 1. P. 61-76.
6. Maronna R.A., Martin D., Yohai V. Robust Statistics: Theory and Methods. Chichester: Wiley, 2006. 403 p.
7. Wilcox R.R. Introduction to Robust Estimation and Hypothesis Testing. Amsterdam: Elsevier, 2012. 690 p.
8. White H.Asymptotic theory for econometricians. London: AP, 2001. 273 p.
REFERENCES
[1] Fan J., Yao Q. Nonlinear Time Series: Nonparametric and Parametric Methods. N.Y., Springer-Verlag, 2003. 551 p.
[2] Nicholls D.F., Quinn B.G. Random coefficient autoregressive models: an introduction. N.Y., Springer, 1982. 154 p.
[3] Hampel F.R. The influence curve and its role in robust estimation. J. Amer. Statist. Assoc., 1974, vol. 69, no. 346, pp. 383-393.
[4] Martin R.D., Yohai V.J. Influence functionals for time series. With discussion. Ann. Statist., 1986, vol. 14, no. 3, pp. 781-855.
[5] Aue A., Horvath L., Steinebach J. Estimation in random coefficient autoregressive models. J. Time Ser. Anal, 2006, vol. 27, no. 1, pp. 61-76.
[6] Maronna R.A., Martin D., Yohai V. Robust Statistics: Theory and Methods. Chichester: Wiley, 2006. 403 p.
[7] Wilcox R.R. Introduction to Robust Estimation and Hypothesis Testing. Amsterdam: Elsevier, 2012. 690 p.
[8] White H. Asymptotic theory for econometricians. London: AP, 2001. 273 p.
Статья поступила в редакцию 21.09.2015
Горяинов Владимир Борисович — д-р физ.-мат. наук, профессор кафедры "Математическое моделирование" МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5).
Goryainov V.B. — Dr. Sci. (Phys.-Math.), Professor of Mathematical Modelling Department, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, Moscow, 105005 Russian Federation).
Горяинова Елена Рудольфовна — канд. физ.-мат. наук, доцент департамента математики на факультете экономических наук Национального исследовательского университета "Высшая школа экономики" (НИУ ВШЭ, Российская Федерация, 101000, Москва, ул. Мясницкая, д. 20).
Goryainova E.R. — Cand. Sci. (Phys.-Math.), Assoc. Professor of Faculty of Economic Sciences, Department of Mathematics, National Research University Higher School of Economics (Myasnitskaya ul. 20, Moscow, 101000 Russian Federation).
Просьба ссылаться на эту статью следующим образом:
Горяинов В.Б., Горяинова Е.Р. Влияние аномальных наблюдений на оценку наименьших квадратов параметра авторегрессионного уравнения со случайным коэффициентом // Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. 2016. № 2. C. 16-24. DOI: 10.18698/1812-3368-2016-2-16-24
Please cite this article in English as:
Goryainov V.B., Goryainova E.R. The influence of anomalous observations on the least squares estimate of the parameter of the autoregressive equation with random coefficient. Vestn. Mosk. Gos. Tekh. Univ. im. N.E. Baumana, Estestv. Nauki [Herald of the Bauman Moscow State Tech. Univ., Nat. Sci.], 2016, no. 2, pp. 16-24. DOI: 10.18698/1812-3368-2016-2-16-24