8. Бодров А.Г., Никитин A.A. Исследование интегрального уравнения плотности биологического вида в пространствах различных размерностей // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2015. № 4. С. 7-13. (Bodrov A. G., Niki tin A.A. Examining the biological species steady-state density equation in spaces with different dimensions // Moscow Univ. Comput. Math, and Cybern. 2015. 39. N 4. P. 157-162.)
9. Baddour N. Operational and convolution properties of three-dimensional Fourier transforms in spherical polar coordinates //J. Opt. Soc. Am. A. 2010. 10. P. 2144-2155.
Поступила в редакцию 31.01.18
УДК 519.233.24, 519.233.5 А. Г. Белов1
МОДЕЛИРОВАНИЕ СОВМЕСТНОЙ ДОВЕРИТЕЛЬНОЙ ПОЛОСЫ СРЕДНЕГО ЗНАЧЕНИЯ ПОВТОРНЫХ ОТКЛИКОВ С ПРЯМОУГОЛЬНОЙ ОБЛАСТЬЮ ДЛЯ ПРЕДИКТОРОВ
В статье рассмотрена задача моделирования совместных доверительных интервалов для среднего значения повторных откликов в линейной множественной нормальной регрессионной модели с предикторными переменными, определенными в интервалах. Для ее решения применен численный метод вычисления критического значения, определяющего совместный доверительный интервал заданного уровня. Проведено численное моделирование и сравнительный анализ совместных доверительных интервалов для регрессии, среднего значения повторных откликов и отдельного наблюдения.
Ключевые слова: совместные доверительные интервалы, нормальная регрессия, повторные отклики.
1. Постановка задачи. Рассмотрим линейную множественную нормальную регрессионную модель наблюдений:
у = Х/3 + е,
где у = (у1,... ,уп)т — вектор-столбец случайных величин (с. в.) у^ откликов, описывающих результаты г-го опыта, е = ... ,еп)т — вектор-столбец случайных "ошибок" с нормальным законом распределения £(е) = Л/"„(0, с21п), не зависящий от вектора параметров /3 = (/?!,... ,/3/;)т; X = Цх^,... , х^|| € Дпх/г — регрессионная матрица из вектор-столбцов х^ = (жц,... ,Хщ)т, оказывающих влияние только на среднее значение отклика Еу^, при этом 1п = diag(l,..., 1) € ейпхп, гапкХ = &, к^п.
Пусть имеется т повторных наблюдений ут = ..., ут)Т\ соответствующих фиксированным значениям регрессоров х = (¡л,..., у-} = х; /3 + г/. 1 ^ ] ^ т, где вектор-столбец случайных "ошибок" ет = ... ,ето)т не зависит от е и £(ето) = Л/"то(0, ст21то), а £(етоо) = Л/"то(0, 1то) для ето0 = £то/ст.
Для среднего значения повторных откликов ут = е^ут/т = хт/3 + (те^£тоо/т, где ето = = (1,..., 1)Т € Дто, используется 100(1 — а)%-ъ доверительный поточечный интервал [1]
у =Fii-f ^ + xTA"1xj , (1)
где А = ХТХ, у = хт/3 — оценка отклика у для х, /3 = А_1Хту = /3 + ctA_1Xt£q — оценка вектора параметров /3, найденная по выборке у с помощью метода наименьших квадратов (МНК),
1 Факультет ВМК МГУ, ст. науч. сотр., к.ф.-м.н., e-mail: belovQcs.msu.ru
а2 = S($)/(n — к) — оценка с2, есть 100(1 — §)%-й квантиль распределения Стьюдента
St(n — к), так что
1 - а = P{|i„-fc| < ii-f ,n-fc}, 0 < а < 1, Бф) = (у - Х/3)т(у - Х/3), е0 = Ф, £(е0)=Л4(О,1п).
Из (1) следуют известные 100(1 — а) %-е доверительные поточечные интервалы для регрессии хт/3 (при т —> оо) и индивидуального у = хг/3 + г\ (при т = 1) значения отклика соответственно:
(y^ti-% in-kaVxTA~1xj , (^yTii-f + xTA"1x) , (2)
где £i ~ A/*i(0, ст2) и не зависит от е.
Таким образом, для всех трех поточечных доверительных интервалов имеет место единая критическая константа с = ii-f ,п-к-, которая определяет доверительный уровень 1 — а.
Цель статьи заключается в построении совместной доверительной полосы для среднего повторных откликов вида
а следовательно, и для совместной доверительной полосы регрессии и индивидуального значения отклика соответственно:
(j) ссг\/хтА_1х^ , (j) ca\J 1 + хтА_1х^ Vx е D, (4)
где D есть прямоугольная область, определяемая как
D = {(жь ..., хк)Т : сю < щ < Xi < bi < оо, i = 1,...,
Основная задача состоит в нахождении критической константы с, определяемой как Р{Т < с}, такой, чтобы доверительная полоса (3), а значит и (4), имели уровень 1 — а, где
Т = sup = sup (5)
ж»£Г<ц,ЬЛ, liiifc / 1 т . , XiGfai.bil, lgigfc / 1 T . ,
a\--hx'A >x a\--hx'A >x
V m V m
2. Метод вычисления с. Поскольку искомая критическая константа с определяет доверительные полосы (3), (4), то достаточно уметь рассчитывать ее для какой-нибудь из этих полос, в частности, для регрессии хт/3. В этом случае константа с определяется как Р{Т < с}, где из (5) имеем
г= s„p (6)
ХгеЫ,Ъг],Щг^к (7VXtA
Для решения последней оптимизационной задачи существует множество похожих подходов [2-4]. Представим величину Т в виде
T = Q-И-, Q= sup (7)
(ХТХ)-1 = РТР, P = (Pl,...,Pfc) ei?fcxfc, Z = (PT)-1(/3^/3)/a~A4(0, Ifc).
Поскольку получить формулу для распределения Т сложно, то необходимо проводить ее моделирование посредством генерации случайных величин (с.в.) Z и с.в. а/а ~ -\Jxn-k/(n ~ к) с их Дальнейшей подстановкой в (7). Основная трудность расчета Т заключается в вычислении Q. Величина Q может быть получена посредством решения задачи
|sTZ|
Q = sup IUIIII7IP (8)
sen ||s||||Z||
где О = {s : S = 71л v € L, 7 > 0), L = {Рх : Xi € [а*. ^г], = 1, • • •, А:}. Нетрудно заметить, что srZ/(||s||||Z||) есть косинус угла между s и Z. Поэтому, если? € О есть решение (8), то оно также является решением
inf lis - Zll2.
s£i2
Для решения этой задачи квадратичного программирования ниже будет использован "active set"-алгоритм, подробно описанный в [4], как наиболее эффективный и сходящийся за конечное число шагов.
Таким образом, критическая константа с может определяться следующим путем. Моделируется достаточно большое число М значений Tj с.в. Т. Тогда (1 — а)М-с наибольшее значение с из сгенерированного вариационного ряда считается оценкой с. Такой подход основан на том факте, что выборочная 100(1 — а)-я перцентиль с сходится почти наверное к теоретической 100(1 — а)-й перцентили с при М —» ос. При этом, с учетом асимптотической нормальности с со средней с
и стандартной ошибкой s = . / ~ \ ^ может быть рассчитана стандартная ошибка оценки с, где
у ,г(с)м
h параметр сглаживания (в вычислениях ниже h = 0,01), 17(c) функция плотности распределения с.в. Т, которая может быть оценена как
3. Численное моделирование. Вычислим доверительные полосы для простой регрессии на модельных данных. Для этого выберем I = 10 натуральных значений регрессора х = 1,..., I линейной /(х) = 0.5.Т+2 зависимости. Затем для каждого из /(х^), г = 1,..., /, независимо моделируем д случайных значений упутем аддитивного внесения в /(х^) случайной нормально распределенной ошибки £(б) = Л/1 (0,4) с дисперсией а2 = 4. В результате получим облако из п = 1д значений !Н] = 1'(хп) + 1 ^ '>' ^ I, 1 ^ 3 ^ I = 10, д = 20, изображенных в виде кружков на рис. 1. При этом каждому х^ соответствует д повторяющихся наблюдений.
: = --------8 ______— " * » ..--~ ____^ 4 — 8 • --2 - ----в__—*---- _ | --f--- 1 Щ---" j 2 — ------- -
-----в -"-Г"* 1 ' 8 : 8 г-т^Г: s •______4 -
^----- *
Рис. 1. Доверительные полосы: функция регрессии (линия 1); 95%-я доверительная полоса регрессии (линии 2); 95%-е совместные границы среднего значения повторных откликов (то = д, линии 3); 95%-я доверительная полоса отдельных наблюдений (то = 1. линии 4) для х = 1..... 10. п = 200. д = 20
На рис. 1 изображены функция регрессии (линия 1), 95%-я доверительная полоса регрессии (линии 2), 95%-е совместные границы среднего значения повторных откликов для случая т = д (линии 3), а также отдельных наблюдений для случая т = 1 (линии 4). При моделировании Т было использовано до 30000 генераций, при этом вычислялась критическая величина си ее стандартная ошибка .ч(с). В табл. 1 представлены промежуточные результаты расчетов.
Таблица 1
Данные моделирования
п Число генераций с 8(C)
1 6840 2.3943 0.0276
2 9120 2.4031 0.0222
3 11400 2.4031 0.0205
4 13680 2.4042 0.0177
5 15960 2.4073 0.0163
6 18240 2.4072 0.0140
7 20520 2.4031 0.0127
8 22800 2.4073 0.0127
9 25080 2.4144 0.0120
10 27360 2.4172 0.0116
11 29640 2.4144 0.0115
12 30000 2.4155 0.0114
Сравнивая с = = io.975,198 = 1-972 с вычисленной при М = 30000 величиной
с = 2.4155 (см. табл. 1), можно сделать вывод, что ширина поточечных доверительных границ (1) будет меньше соответствующих смоделированных совместных полос. Однако последние полосы более узкие, чем совместные доверительные границы, полученные менее точным методом коррекции Бонферрони [5] (для данного примера с = ti-ц. ,n-fc = ¿0.9975,198 = 2.839).
4. Пример. Для двухфакторной модели к = 2 рассмотрим выборку п = 35 цен на шестиядер-ные процессоры серии Phenom 2 фирмы AMD, различающиеся рабочей частотой (МГц) и тепловыделением (Вт) (см. табл. 2) (данные получены из интернет-ресурса http://market.yandex.ru/).
Табл и ца 2
Данные по процессорам AMD
п Частота, Тепло, Цена, п Частота, Тепло, Цена,
МГц Вт руб МГц Вт руб
1 2900 95 5164 19 2600 95 5022
2 2900 95 5198 20 2600 95 5687
3 2900 95 5523 21 3250 125 6311
4 2900 95 5785 22 3250 125 6668
5 2900 95 6370 23 3250 125 6886
6 2900 95 4710 24 3250 125 6992
7 2800 95 4800 25 3250 125 7242
8 2800 95 5275 26 3000 125 5732
9 2800 95 5501 27 3000 125 5786
10 2800 95 5580 28 3000 125 5809
11 2700 95 4663 29 3000 125 5870
12 2700 95 4690 30 3000 125 5920
13 2700 95 4804 31 2800 125 4636
14 2700 95 4857 32 2800 125 4740
15 2700 95 4890 33 2800 125 4772
16 2600 95 4611 34 2800 125 4969
17 2600 95 4719 35 2800 125 5200
18 2600 95 4860
Для этих данных проведены расчеты доверительных полос среднего значения повторных откликов (т = 5) и наблюдения (т = 1), которые представлены на рис. 2. Для числа генераций М = 30000 имеем с = 2.9093, s(c) = 0.0137.
Приведенные выше расчеты выполнены с помощью авторской программы SSB (Simulation Simultaneous Bands), написанной в среде MatLab версии 7.0.5. Программа включает в себя интерфейс для импорта данных и задания желаемых параметров моделирования. Результаты вы-
Рис. 2. Совместные доверительные границы: оценка регрессии (плоскость 1); 95%-я доверительная полоса для сродного значения повторных откликов (то = 5. плоскости 2) и отдельного наблюдения (то = 1.
плоскости 3)
числений записываются в отдельный файл и могут быть представлены графически для моделей с одним или двумя предикторами.
5. Заключение. Таким образом, в работе описан численный метод расчета доверительной полосы для среднего значения повторных откликов в линейной множественной нормальной регрессии с прямоугольной областью для предикторов. Проведено численное моделирование критической величины с соответствующим вычислением доверительной полосы для среднего значения повторных откликов, регрессии и отклика. Выполнен сравнительный анализ рассчитанных полос.
СПИСОК ЛИТЕРАТУРЫ
1. Белов А. Г. Доверительное прогнозирование среднего значения повторных наблюдений //Вестн. Моск. ун-та. Сер. 15. Вычисл. матом, и киборн. 2016. № 2. С. 14 19. (Belov A.G. Confidence prediction of the mean values of multiple observations // Moscow Univ. Comput. Math, and Cyborn. 2016. 36. N 2. P. 65 70.)
2. N a i m a n D. Q. Simultaneous confidence-bounds in multiple-regression using predictor variable: constraints // J. the Amor. Stat. Assoc. 1987. 82. P. 214 219.
3. Liu W.. Jamshidian M.. Zhang Y. Multiple comparison of several linear regression lines // J. the Amor. Stat. Assoc. 2004. 99. P. 395 403.
4. Liu W., Jamshidian M.. Zhang Y.. Donnelly J. Simulation-based simultaneous confidence bands in multiple: linear regression with predictor variables constrained in intervals //J. Comput. and Graph. Stat. 2005. 14. N 2. P. 459 484.
5. В о nfer г о n i С. E. II calcolo delle assi curazioni su gruppi di test // Studi Onore del Professoro Salvatore Ortu Carboni. Rome. Italy. 1935. P. 13 60.
Поступила в редакцию 02.04.18