УДК 519.233.24, 519.233.5 А. Г. Белов1
ДОВЕРИТЕЛЬНОЕ ПРОГНОЗИРОВАНИЕ СРЕДНЕГО ЗНАЧЕНИЯ ПОВТОРНЫХ НАБЛЮДЕНИЙ*
В статье рассматривается задача доверительного прогнозирования среднего значения повторных откликов в линейной множественной нормальной регрессионной модели. Для ее решения получены доверительные интервалы среднего значения повторных откликов и его прогнозируемого значения. Проведено их численное моделирование и сравнительный анализ с известными аналогами для регрессии и индивидуального отклика.
Ключевые слова: прогнозирование, доверительный интервал, нормальная регрессия, повторные отклики.
1. Постановка задачи. Рассмотрим линейную множественную нормальную регрессионную модель наблюдений
у = Х/3 + е,
где у = (уг,... ,уп)т — вектор-столбец случайных величин (с. в.) у^ откликов, описывающих результаты г-го опыта, е = ... ,еп)т — вектор-столбец случайных "ошибок" с нормальным законом распределения £(е) = Жп(0, с21п), не зависящий от вектора параметров /3 = (/?!,... ,/3/;)т; X = ||х^,... ,х^|| € Дпх/г — регрессионная матрица из вектор-столбцов х^ = (хц, ...,ж„г)т, оказывающих влияние только на среднее значение отклика Еу^, при этом 1п = diag(l,..., 1) € € Дпхп, гапкХ = к, к ^ п. Для предсказания среднего х^/3 и индивидуального у* = х^/3 + е* значения отклика для вектора заданных значений регрессоров х, = (ж*1,... ,х*к)Т используются известные соответствующие 100(1 — а)%-е доверительные интервалы [1, с. 132, 134]
У* Т /1 й-у'хГА-'х^ , (1)
у* Т /1 <т0 ■ х^ , (2)
где А = ХТХ, у* = х^/3 — оценка отклика у для х,. /3 = А_1Хту = /3 + о-А_1Хтео — оценка вектора параметров /3, найденная по выборке у с помощью метода наименьших квадратов (МНК), а2 = Б($)/(п — к) — оценка с2, е* ~ ^(О,^2) и не зависит от е, есть 100(1 — -|)%-й
квантиль распределения Стьюдента — к), так что
1 - а = Р{|г„-/;| < ,„_*;}, 0 < а < 1, Бф) = (у - Х/3)т(у - Х/3), 60 = 6/(7, £(е0) = Лгп(О,1„).
1 Факультет ВМК МГУ, ст. науч. сотр., к.ф.-м.н., e-mail: ba511Qbk.ru
* Работа выполнена при финансовой поддержке РФФИ, проект № 14-07-00912-а.
Пусть имеется т повторных наблюдений у* = (y*i,... , y*m)T, соответствующих фиксированным значениям регрессоров х,: = xiß+i\,j. 1 ^ j ^ m, где вектор-столбец случайных "ошибок" £* = (e*i,... ,£*т)Т не зависит от е и £(е*) = Nm(0,a2Im), а £(е*о) = iVTO(0,ITO) для е*0 = е*/о. Интерес представляет построение 100(1 — а) %-го доверительного интервала для среднего значения повторных откликов у^ = ¿е^у*, где ето = (1,...,1)т е i?TO, а также его использование в прогнозировании.
2. Свойства статистик. Имеет место следующая
Теорема. Случайные величины у* — у*; S{ß) и S, = (у* — У*ета)т(у* — У*ето) попарно независимы, при этом
£(у* - yj = Мг (0, а2(1/т + x^A^x*)), £(5*Ат2) = X2(m - 1).
Доказательство. Поскольку ß есть линейная функция нормального вектора £о, то [2, с. 20, теорема 2.2]
£(/3) = Nk(ß, бг2А~1Хт1п(А~1Хт)т) = Nk{ß,a2A~l). Аналогично, для линейной по £о оценки отклика у* = xjp = х^/3 + <тх7 А_1Х7 е(, имеем
£(у*) = N1(^ß,a2^A~1x,), а для среднего значения у* = х^/3 + как линейной функции е*0, получаем
Случайные величины у*, у* независимы, поскольку являются скалярными линейными (измеримыми) функциями независимых случайных векторов "ошибок" е*0, е0 соответственно [1, с. 26, теорема 1.9]. Тогда, учитывая свойство воспроизводимости нормального распределения [3, с. 237],
у* — У
имеем £(у* = Ni(0, (j2(l/m + x;f А-1х*)), а следовательно, для с. в. U =-. * * =
получаем £(U) = iVi (0, 1).
Для исследования с. в. S(ß) = (у — ХА_1Хту)т(у — ХА_1Хту) воспользуемся рядом свойств проекционной матрицы В = (In — ХА_1ХТ) € Rnxn. Непосредственно проверяется, что она симметрична (Вт = В), идемпотентна (В2 = В), ее след, а следовательно, и ранг, равен
rankB = trB = trln — tr(XA_1XT) = п — tr(XTXA_1) = п — tri/; = п — к
и Ву = В(Х/3 + е) = Ве. Поэтому справедливы следующие равенства:
S(ß) = утВ2у = еТВе = а2е^Веа.
Учитывая представление с. в. в виде квадратичной формы нормального случайного вектора £(ео) = = iVn(0,In), из [1, с. 43, теорема 2.8] имеем £(S(ß)/a2) = х2(п ~ к).
Аналогично исследуем с. в. и для этого воспользуемся свойствами симметричной матрицы центрирования С = 1ТО — € Rmxm. Непосредственно проверяется, что она идемпотентна
и имеют место соотношения
I
rank С 1г С tri,,,--tr(emeL) = m - 1, Су* = у* - у*ето = C(x^ßem + £*) = Се*.
m
Поэтому справедливы равенства S* = у/ C'Jy.- = eifCe* = а2ei0Се*0. Учитывая последнее представление с. в. в виде квадратичной формы нормального случайного вектора £(е*о) = iVTO(0,1ТО), из [1, с. 43, теорема 2.8] получим £(S*/a2) = x2(m ~ !)•
Докажем теперь независимость с. в. S(ß) и S*. Для этого рассмотрим случайный вектор £оо = (ео,е^0)т с нормальным распределением £(еоо) = Nn+m(0, In+m) и матрицы К = (In,0) G G дпх(п+™)! М = (О,ITO) G д™х(п+™)! так что £о = Ке00, е*0 = Ме00. В силу справедливости представлений
S(ß) = 40КтВКе0о = (ВКе0о)т(ВКеоо), = 40МтСМе0о = (СМ%)т(СМе00),
а также симметричности и идемпотентности матриц КТВК, МТСМ для доказательства независимости Б(0) и достаточно установить независимость случайных векторов ВКе00, СМе00, которое, с учетом КМТ = 0, следует [2, с. 25, теорема 2.5] из равенств ВК(СМ)Т = ВКМТС = 0. В силу доказанной независимости и свойства воспроизводимости распределения х-квадрат [3, с. 261] имеем
Для доказательства независимости у* — у* и достаточно установить независимость с. в.
у* — у* и случайного вектора СМе00, которая, в силу представления
\
У* ^У* = А-1ХТК — —е^М)е00, вытекает [2, с. 25, теорема 2.5] из справедливости следующих равенств:
х,; А 'Х; К - (СМ)Г = = 0.
Аналогично, с учетом
мкт = о, независимость с. в. у* — у^ и 5(/3) следует [2, с. 25, теорема 2.5]
из равенств
х' А 'Х'К - (ВК)Т = х' А 'Х'В = 0.
3. Доверительные интервалы. Результаты доказанной теоремы позволяют построить различные стьюдентовы отношения
. _ и _ (у* -у*)у/п - к
^п—к —
¿то — 1 —
/ вф) \
V с2(п — к)
и (У* ^У*)л/т - 1
¿п —
п — к+т — 1
д/—7—^—— (777 ■ хГА-'х,)'
II (у* — у*)л/п — к + т — 1
I + ~ фяф) ■ ■ хГА-'х,)
а2(п — к + т — 1)
и получить следующие 100(1 — а)%-е доверительные интервалы для среднего значения у* при данном х*:
у* Т ¿1-1 ,то-11 /+ х/ А >х, ) ] , (4)
У* Т Ь-л ,п-к+т-1\ ( + Х/А 'х, ) ) . (5)
Учитывая, что мы располагаем тремя различными оценками для а2, а именно:
Бф) + = (п - к + т - 1)а1, Зф) = (п-к)а2, 3* = {т-\)а,
можно записать доверительные интервалы (3) (5) в общем виде
у* т к-f
1
т
"хТА.
(6)
где число степеней свободы, на котором основана оценка ,ч2 дисперсии а2.
Какой же из интервалов (3) (5) следует выбрать на практике? Это зависит от качества оценок ,ч2, которое в свою очередь зависит от объемов п и т выборок наблюдений. Поскольку п ^ т и оценки (т2, (т2 зависят от т. то приоритеты следует расставить в следующем порядке: (3). (5). (4). Нетрудно видеть, что пределы доверительных интервалов (3) (5) не шире (2) и совпадают (за исключением (4)) с (2) в случае, когда повторяющихся наблюдений нет и поэтому тп — 1, — 0. Также интервалы (3) (5) шире (1). так как ожидается, что 100(1 — а)% будущих средних из тп повторяющихся наблюдений или 100(1 — а)% будущих наблюдений при х* должны лежать внутри соответствующих областей.
Рис. 1. Доверительные 95%-е интервалы для х = 1,
в х = 11: п = 60, то = 6
, 10 <; прогнозом
Для двухпараметрической линейной регрессионной модели (к = 2) с матрицей плана X =
= ||е„.,х^)|| имеем
А"1 =
ЕОг - X)2
1 X ^ 9 —
\ /у*** ..............Гр
п ¿-/ л'г ,ь
г
X 1
X* — (1, х*) , х* А. х* —
1 х^'
5(/3) = ^(?л-?Л)2 = ( 1~Г2)£Ы-Ю2, <^=]Г(у*^у*)2, г2
.¡=1
г=1
г=1
Е(?/» - У){хг - х)
Е(Уг ^у)2 Е(жг - Ж
где г2 квадрат выборочного коэффициента корреляции между у и х, а также мера степени линейности связи между ними. Тогда (6) принимает вид, совпадающий с приведенным в [4, с. 52],
Рис. 2. Доверительные 95%-е интервалы для х = 1.....10 с прогнозом
в х = И: п = 200. т = 20
а именно:
-—\
1 1 (.т* — х)2
--1---1----ZTT" ■
т п Yl(xi ~ х)2 * /
4. Численное моделирование. Воспользуемся предыдущими результатами при расчете кривых доверительных интервалов для простой регрессии. Для этого выберем I = 10 натуральных значений регрессора х = 1,..., I линейной f(x) = 0.5а; + 2 зависимости. Затем для каждого из /(aij), i = 1,.... Z, независимо моделируем т случайных значений путем аддитивного внесения в f(xi) случайной нормально распределенной ошибки £(с) = N(0,4) с дисперсией а2 = 4. В результате получим облако из п = 1т значений = f(xi) + £jj, i = 1,..., L j = 1,..., m. изображенных в виде кружков на рис. 1, 2. При этом каждому х% соответствует т повторяющихся наблюдений. На рис. 1 и 2 изображены границы 95%-х доверительных интервалов при т = 6 и т = 20 соответственно. Хорошо видно, что. как и предполагалось выше, интервалы (3) (5) располагаются между (1) и (2), интервалы (3) и (5) близки при разных m. а (4) приближается к ним с ростом т. При этом они достаточно близки к интервальной оценке регрессии (1) и равномерны для всех значений регрессоров.
у* =Fii_£,v(e)s
V
\
5. Доверительное прогнозирование. Пусть имеются п откликов у и прогнозируется, что регрессоры примут значения хг+1 = (ж/+1д,..., 1,к)Т■ Требуется оценить среднее значение у1+1 "будущих" повторных откликов
Ш+и = Х-Т+10 + 1 < 3 <
и точность оценки, где вектор-столбец случайных "ошибок" £/+1 = (е/+1д,..., 1,ш)г не зависит от е и £(е/+1) = Ж„,(0, (т21ш). В качестве такой оценки возьмем у/+1 = Данная оценка явля-
ется линейной комбинацией от МНК-оценки вектора параметров и является наилучшей линейной несмещенной оценкой [1, с. 54, теорема 3.2] для а следовательно, и для Уг+1- Что касается
ее точности, поскольку для разности уг+1 — справедливы те же утверждения в доказательстве теоремы, что и для у* — у*, то имеет место следующий доверительный интервал для прогнозируемого среднего значения:
Для прогнозируемого значения регрессии и индивидуального наблюдения справедливы аналогичные (1) и (2) доверительные границы [5, с. 115, 116]
На основе проведенного моделирования были рассчитаны границы доверительного прогнозирования для регрессии, наблюдения и среднего повторных откликов при значении регрессора х = 11 и показаны на рис. 1, 2 жирными линиями. Крестиком указано положение реально наблюдаемого Уг+1 для независимо моделируемых т случайных значений уг+1,^, 1 ^ ] ^ т. Как видно, границы доверительного прогнозирования следуют тем же закономерностям, описанным выше для доверительных интервалов.
6. Заключение. Таким образом, в работе получены доверительные интервалы для среднего значения повторных откликов в линейной множественной нормальной регрессии, которые соответствуют трем различным оценкам остаточной дисперсии.
Проведенное численное моделирование, прогнозирование и сравнительный анализ показали возможность практического использования полученных доверительных интервалов для предсказания среднего значения повторных откликов.
1. Себер Дж. Линейный регрессионный анализ. М.: Мир, 1980.
2. Seber G. A. F., Lee A. J. Linear Regression Analysis. Second Edition. Auckland: John Wiley & Sons, 2003.
3. Крамер Г. Математические методы статистики. М.: Мир, 1975.
4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, 1986.
5. Хохлов Ю. С. Эконометрика: вводный курс. М.: МАКС Пресс, 2007.
СПИСОК ЛИТЕРАТУРЫ
Поступила в редакцию
29.10.15
CONFIDENCE FORECASTING OF THE AVERAGE OF THE REPEATED RESPONSES
Belov A. G.
This paper describes of the problem confidence forecasting of the mean value of repeated responses in a linear multiple normal regression. For solving the problem are obtained confidence intervals for the mean value of repeated responses and its predicted value. Execute their numerical modeling and comparative analysis with known confidence intervals for regression and individual response.
Keywords: forecasting, confidence interval, normal regression, repeated responses.