УДК 519.2
И. А. Бодягин, Ю. С. Харин
ПРОГНОЗИРОВАНИЕ АВТОРЕГРЕССИОННЫХ ВРЕМЕННЫХ РЯДОВ ПРИ НАЛИЧИИ ЦЕНЗУРИРОВАНИЯ
Рассмотрена задача статистического прогнозирования авторегрессионных временных рядов при наличии интервального цензурирования. Построена оптимальная прогнозирующая статистика, для нее вычислен условный среднеквадратический риск. Для авторегрессии первого порядка проведено сравнение оптимальной прогнозирующей статистики с прогнозирующими статистиками, часто используемыми на практике. Представлены численные результаты.
Ключевые слова: авторегрессия, прогнозирование, цензурирование, риск.
Задача статистического прогнозирования возникает во многих приложениях: в медицине, экономике, метеорологии, технике, астрономии [1]. Для описания временных рядов с зависимыми наблюдениями и прогнозирования будущих значений широко применяется модель авторегрессии [1]. На практике значения временного ряда часто наблюдаются с искажениями различных типов: выбросы, пропуски, гетероскедастич-ность [2], цензурирование [3] и др.; обзор типов искажений и их математические описания представлены в работе [2]. Цензурирование временного ряда заключается в том, что часть наблюдений ряда известна точно, а об остальных наблюдениях известно лишь, что они принадлежат некоторым числовым интервалам. Такая ситуация может возникать из-за наличия у приборов конечных пределов измерения, высокой стоимости проведения точных измерений, разладки оборудования и других причин.
Цензурированные выборки независимых наблюдений подробно изучены в математической теории надежности [4]. Однако статистический анализ цензурированных временных рядов остается малоизученным и актуальным направлением исследований.
Математическая модель. Пусть временной ряд X/; описывается моделью АР(р) авторегрессии порядка р е Ж [1]:
X = Хр= ®<х1-< + и, 1 е 2, (1)
где {9,- }р= - коэффициенты авторегрессии такие, что все корни порождающего характеристического многочлена zp — ^р 9Jzp—1 лежат внутри единичного
круга; {и} - независимые в совокупности одинаково распределенные случайные величины, имеющие нормальный закон распределения вероятностей L{ut} = = N(0, ст2).
Пусть вместо значений временного ряда наблюдаются случайные события:
А* ={х, е А/}, / е{1,..., Т}, (2)
где {А} - заданные борелевские множества; Т > р -длительность наблюдения.
При наличии интервального цензурирования возможны два случая:
1) А/ состоит из одного элемента (А/ = {х/}), тогда значение X/; известно точно;
2) А/: является числовым интервалом (А/ = [а, Ь/), а/ < Ь), тогда имеет место интервальное цензурирование значения х/, а интервал [а/, Ь) называется интервалом цензурирования.
Статистическое прогнозирование будущего значения хТ + lеR заключается в вычислении оценки ХТ+1 е R на основе имеющейся информации о наступлении событий А*, ., А*:
Хт+1 = /(а*,А*1, ..., А*). (3)
Погрешность прогнозирования будем характеризовать условным риском прогнозирования
г* (/) = Е {(х*+! - X*+! )2 |А*, ., А*} > 0, (4)
т. е. среднеквадратической ошибкой прогнозирования.
Рассмотрим задачу построения оптимальной прогнозирующей статистики (ОПС) /)(•), минимизирующей условный риск (4), в случае известных параметров модели (1), (2):
Г* (/0) = г* (/). (5)
Основные результаты. Теорема 1. Если временной ряд X/: наблюдается при наличии цензурирования общего вида (2), то среди всех прогнозирующих статистик вида (3) оптимальная по критерию минимума риска (5) прогнозирующая статистика определяется условным математическим ожиданием:
X*+! = /о (а;, ..., А*) = Е{х*+! |А*, ..., А*},
г*(/о) = D{**+, \А*,..., А*}. (6)
Доказательство. Преобразуем условный риск (4):
Г (/) = Е {(XT+1 — +1 ) |А* , . , А1 } =
= е{( X*+! — / (А*,..., А* ))2 |А*,..., А*} =
= Е{(( X*+, — Е {X*+, |а;.А* }) + (Е {X*+, |а;...А* 1 —
— Г (А......А* )))2 |А*...А*}.
Заметим, что второе слагаемое зависит только от
А*,..., А*:
Г* (/) = Е {(XT+1 — Е {XT+1 |А , . , А1 }) |А* , . , А1 } +
+ (Е {X*+. |А*,..., А*} — / (А*,..., А* ))2 +
+2Е{( X*+1 — E{xT+1 |А*,..., А*}) | А*,..., А*|х х (ф*+. \A*,., а;}—/(^ ., А*))=^*+1 | ^., А*}+
+ (Е{XT+1 \4, ■■■, А*} — /(^ ., А1*)) ^ тт.
Из этого представления следует, что (6) есть решение задачи (5).
Теорема 1 является обобщением известного результата [1] в ситуации, когда цензурирование отсутствует.
Рассмотрим случай, когда цензурированы только последние q (0 < q < *) значений временного ряда, а остальные * - q наблюдений известны точно. Обозначим
т
ИХ Ж) = 911-, —! + ... + 9mXt — т =Е9Л—,, t, т е Ж.
, = 1
Теорема 2. Пусть в рамках модели (1), (2) наблюдаются значения x1, ..., X— и случайные события
<МЕ {>
<}'
)}............
АГ—5+1 {■’Г—5+1 е |_а*—5+1, Ь*—5+1
А* = {X* е [а*, Ь*)}. Тогда ОПС имеет вид
Ь* Ь*—?+1
| ... | И(* + 1,Р)Р(xт , ■, XT—5+1 |XT—ц, ■, X1)dxT—q+1-■-dxT
а* а*—5+1
I I Р(XT, -■-, xт—5-
, X1)dXг—5+1 ...dXт
а* а*—5+1
^+1 Е {xг+1 |Аг,
Е 9tx*+1—, + и*+1 \ АТ , ■ , А*
*—5+1, Х*—5 , ■ , X1 '
= Е
{и(* + 1, Р)|А* , ■, Ат—5+1, XT—5 , ■, X1 }
где ф(x) = (l/V*л)ехр(—x2/2), Ф(X) = | ф(/^/ -
соответственно, плотность и функция распределения вероятностей стандартного нормального закона N(0, 1).
Следствие. Если в рамках модели (1), (2) наблюдаются значения x1, ..., xT-1 и случайное событие А = {X* е (а*, Ь*)} (5 = 1), то ОПС (4) имеет вид
^+1 = 91И(*, Р) + Хр= 2 9X*—,+1 + 91стТ х х (а*, Ь*, и(*, р), ст, 1,1).
Доказательство. Воспользовавшись известным соотношением для модели АР(р) [1]
Р ( Л
X) = ф((^ — и(*, Р))/ст)/
и теоремой 2 для 5 = 1, получим требуемое соотношение.
Если среди последних 5 значений временного ряда имеются не только цензурированные наблюдения, но и k (1 < k < 5) известных наблюдений xl^, ., х, (* - 5
+ 1 < 11 < ... < 4 < *), то ОПС может быть получена из (7) предельным переходом ЬI ^ а,, ., Ь^ ^ а, .
Рассмотрим частный случай модели (1) - авторегрессию первого порядка (р = 1):
(8)
.(7)
Доказательство. Оценку (6) в силу (1) можно представить следующим образом:
так как случайная величина и*+1 не зависит от А**, ..., А*.—5+1, xT_q, ..., x1 и Е{и7+1} = 0. Вычислив полученное математическое ожидание, получим требуемое равенство (7).
Введем обозначение:
Т (X, у, т, s, и, V) = (и ф((X — т) / s) — Vф((у — т) / s)) х х (ф((у — т)/s) —ф((X — т)/s)) ,
X, у, т, s, и, V е R,
и 5 = 1, причем предполагается, что параметры модели 0 и ст известны. Для этого случая исследуем зависимость условного риска прогнозирования от длины интервала цензурирования и проведем сравнение ОПС /0 (•) с прогнозирующими статистиками, часто используемыми на практике [3]. В этом случае последнее значение X* временного ряда цензурировано интервалом (а*, Ь*), а предпоследнее значение X*—1
известно точно. Поскольку в данном случае результат зависит только от одного интервала цензурирования А* = (а*, Ь*), то для упрощения обозначений вместо а* и Ь* будем писать а и Ь. Используя теорему 2,
можно доказать следующую теорему.
Теорема 3. Пусть для модели (8) наблюдаются значение xT-1 и случайное событие А* = ^* е [а, Ь)}, тогда ОПС и ее условный риск имеют вид:
X*+1 = /0 (А*, X*—1 ) = 92X*—1 +9стТ(а, Ь, 9X*—1, ст, 1,1),(9) г* (/0) = (1 + 92)ст2 — (9стТ (а, Ь, 9X*—1, ст, 1,1)) +
+ 92стТ (а, Ь, 9X*—1, ст, а — 9x*—1, Ь — 9x*—1).
(10)
Следствие. В условиях теоремы 3 для условного риска прогнозирования справедливо асимптотическое разложение при т = Ь - а ^ 0:
Г* (/0) = ст2 +92т2 /12 — 92х4 х
х (3а2 — 6a9x*—1 + 392X*—1 + 2ст2) /720ст4 + о(х4).
X
Доказательство. Учитывая дифференцируемость функции Т (•) в (10) по X, воспользуемся
формулой Тейлора с остаточным членом в форме Пеано и получим требуемое соотношение для условного риска.
Из доказанного следствия получаем, что безусловный риск ОПС имеет следующее асимптотическое разложение при т = Ь - а ^ 0:
Е{гт (/0)} = ст2 +92т2 /12 -92х4 х : (За2 + 392ст2 /(і-92) + 2ст2)/720ст4 + о(х4).
(11)
Одной из возможных альтернативных прогнозирующих статистик является следующая [3]:
(12)
X*+1 = /1(А*) = 9 Е {X* | А* } =
= 9 Е{X* | X* е [а, Ь)}.
Теорема 4. Если для модели (8) наблюдается слу чайное событие А*, ={x* е[а, Ь)}, то прогнозирую щая статистика (12) имеет вид
X*+1 = /1( А*) = (9ст /-\Д — 92) х
хт(а, Ь,0,9ст М -92,1,1)
(13)
и ее условный риск прогнозирования равен:
Гт (/1) =
92ст2
1 -92 1 -92
( { х Т
V V
92ст 41 -92
а, Ь, 0,
ст
УІ1 -92
,1,1
(14)
(
Т
а, Ь, 0,
лІ1 -92
Рассмотрим еще одну часто используемую прогнозирующую статистику:
X*+1 = /2 (А*) = 9(а + Ь)/2. (15)
Теорема 5. Если для модели (8) наблюдается случайное событие А* = {X* е [а, Ь)}, то условный риск прогнозирования для статистики (15) равен:
(/2) = ст2 /1 -92 + 92(а + Ь)2 /4-(92ст/>Д-92)х х т(а, Ь, 0, ст/>/1 -92, Ь, а).
(16)
Доказательство. Прогнозирующая статистика (12) выглядит следующим образом:
X*+1 =9 Е^* | X* е [а, Ь)} = 9(| xn (X|0, ст2 /1 — 92) dx) х
х(| п (X |0, ст2/1 — 92) dx) .
Воспользовавшись [5] для вычисления интегралов, получим статистику (13). Аналогично вычисляется условный риск прогнозирования (14).
Следствие. В условиях теоремы 4 для условного риска прогнозирования справедливо асимптотическое разложение при т = Ь - а ^ 0:
г* (/1) = ст2 +92х2 /12 — 92 (1 — 92) х х х4 (3а2 + 2ст2 / (1 — 92)) / 720ст4 + о(х4).
Доказательство. Проводится аналогично доказательству следствия теоремы 3.
Сравнивая Е{г*(/0)} и г*(/) при т ^ 0, замечаем, что усредненный риск ОПС (11) меньше риска прогнозирующей статистики (12).
Доказательство. Проводится аналогично доказательству теоремы 4.
Следствие. Пусть выполнены условия теоремы 5 и т = Ь - а ^ 0. Тогда для условного риска справедливо следующее асимптотическое разложение:
г* (/2) = ст2 + 92х2 /12 + 92 (1 — 92 )2 х х х4 (а2 — ст2 /(1 — 92)) /360ст4 + о(х4).
Доказательство. Проводится аналогично доказательству следствия теоремы 3.
Легко увидеть, что при X близких к нулю, риск прогнозирования статистики (15) больше, чем риск прогнозирования для статистик (9) и (12).
Численные результаты. Для сравнения прогнозирующих статистик (9), (12) и (15) проведены компьютерные эксперименты. Применялся метод Монте-Карло с числом прогонов N = 10 000. Для моделирования временного ряда использованы значения параметров: р = 1, 0 = 0,8, ст = 1, 5 = 1, * = 100, т е {0, 0,5, ..., 15}, по наблюдению X* строился интервал цензурирования (а, Ь) длины т, где а = X* - ат и Ь = X* + а(1 - т), а - случайная величина, равномерно распределенная на [0,1].
На рисунке а изображены графики зависимостей экспериментальных значений риска для всех трех прогнозирующих статистик от X. ОПС (9) имеет наименьший риск, риск статистики (12) принимает большие значения, а риск статистики (15) возрастает очень быстро и уже при малых X принимает достаточно большие значения.
На рисунках б-г изображены усредненные теоретические значения риска прогнозирования для статистик (9), (12) и (15) в зависимости от X, вычисленные по формулам (10), (14) и (16), соответственно, и 95 %-ные доверительные границы риска.
Таким образом, в настоящей работе найдена ОПС для авторегрессионных временных рядов при наличии цензурирования и ее риск; в случае авторегрессии первого порядка проведено сравнение ОПС с прогнозирующими статистиками, часто используемыми на практике; проведены компьютерные эксперименты, которые показали, что экспериментальные и теоретические значения риска находятся в хорошем согласии.
2
ст
х
2
+
а
Библиографические ссылки
1. Андерсон Т. Статистический анализ временных рядов : монография. М. : Мир, 1976.
2. Харин Ю. С. Оптимальность и робастность в
статистическом прогнозировании : монография.
Минск : БГУ, 2008.
3. Park J. W., Genton M. G., Ghosh S. K. Censored time series analysis with autoregressive moving average
models // The Canadian Journal of Statistics. 2007. Vol. 35, № 1. P. 151-168.
4. Gomez G., Espinal A., Lagakos W. Inference for a linear model with an interval-censored covariate // Statistics in medicine. 2003. № 22. P. 409-425.
5. Градштейн И. С., Рыжик И. М. Таблицы интегралов, сумм, рядов и произведений. М. : Физматгиз, 1963.
в г
Результаты численных экспериментов: а - сравнение трех прогнозирующих статистик: 1 - риск оптимальной прогнозирующей статистики (9), 2 - риск статистики (12),
3 - риск статистики (15); б-г - сравнение теоретических и экспериментальных значений риска прогнозирующих статистик (9), (12) и (15): 4 - теоретическое значение риска статистики (9), 5 - теоретическое значение риска статистики (12), 6 - теоретическое значение риска статистики (15), 7-9 - 95 % доверительные границы соответствующих значений риска
б
а
I. A. Badziahin, Yu. S. Kharin
FORECASTING OF AUTOREGRESSIVE TIME SERIES UNDER CENSORING
Problems of statistical forecasting are considered for autoregressive time series observed under interval censoring. Optimal forecasting statistic is proposed, its mean-square risk is evaluated. Comparison of optimal and widely used in practice forecasting statistics is made. Numerical results are given.
Keywords: autoregression, forecasting, censoring, risk.
© Бодягин И. А. , Харин Ю. С., 2010