2015
ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Математика и механика
№ 5(37)
УДК 519.237.5 DOI 10.17223/19988621/37/3
А.П. Ковалевский1, Е.В. Шаталин2
ВЫБОР РЕГРЕССИОННОЙ МОДЕЛИ ЗАВИСИМОСТИ МАССЫ ТЕЛА ОТ РОСТА С ПОМОЩЬЮ ЭМПИРИЧЕСКОГО МОСТА
Рассмотрен ряд регрессионных моделей зависимости массы тела от роста. Проведено сравнение моделей между собой с помощью конструкции эмпирического моста. В качестве исходных использованы данные Волжского государственного медицинского университета о росте и массе тела студенток первого курса.
Ключевые слова: линейная регрессия, эмпирический мост, зависимость массы тела от роста.
1. Введение и предварительные сведения
Для исследования зависимости массы тела человека W,■ от роста Hi в [1] предложена модель пропорциональности массы тела квадрату роста. Отметим, что пропорциональность предполагается для лиц одной возрастной группы и одного пола. В [2] на основании масштабных исследований показано, что эта зависимость является наилучшей в классе степенных зависимостей. Эту пропорциональность можно проинтерпретировать в виде двух различных регрессионных моделей: ln Wi = 1п(аНг2) + ег- и Wi = a + bHf +ег-. Отметим, что рост и массу тела индивидуума можно считать случайными величинами и предполагать независимость роста Hi и корректирующего фактора £,-.
Первая из этих моделей после замены переменных Y = ln(W / Н2), 9=ln а приводит к модели выборки Yi = 9 + ег-, а вторая является моделью двухпараметрической линейной регрессии. Для того чтобы проверить соответствие каждой модели реальным данным, предлагается упорядочить наблюдения по неубыванию Н.
Если модель неправильно описывает данные, то значения Yi будут систематически уклоняться от регрессионной кривой, и это уклонение можно выявить суммированием регрессионных остатков (разностей между наблюдаемыми и прогнозируемыми значениями). Для изучения значимости этих уклонений необходимо знать предельное распределение процесса центрированных и самонормированных частичных сумм регрессионных остатков. Этот процесс называется эмпирическим мостом [3]. Нормировка, как и вообще в разных версиях центральной предельной теоремы, необходима для сходимости процесса сумм остатков к предельному. Эмпирический мост - это процесс самонормированных сумм: вместо неизвестной дисперсии регрессионных ошибок используется выборочная дисперсия регрессионных остатков. Отметим, что в случае равенства суммы регрессионных остатков нулю п.н. (как в изучаемых ниже моделях) центрирования не требуется. Однако общее определение оставлено в статье для использования в других моделях.
1 Работа выполнена при частичной финансовой поддержке РФФИ (проект 13-01-00661)
2 Работа выполнена при финансовой поддержке правительства Новосибирской области (стипендия правительства НСО)
36
А.П. Ковалевский, Е.В. Шаталин
Если для описания данных предложено несколько моделей, то вычисление достигнутых уровней значимости позволяет выбрать модель, наилучшим образом описывающую данные. Подход к анализу соответствия данных вероятностным моделям, основанный на функционалах от эмпирического моста, разрабатывался в [3-5] и применялся к анализу текстов в [3], тестированию моделей цен на недвижимость и автомобили в [6, 7], поиску неоднородностей строительных конструкций в [8].
Предлагаемый авторами подход (в отличие от использования коэффициента детерминации) позволяет сравнивать модели с разным числом параметров. В работе [5] рассмотрен пример, для которого выбором констант коэффициент детерминации может быть сделан сколь угодно близким к 1, а реально достигаемый уровень значимости (для критерия, использующего конструкцию эмпиричекого моста) с ростом объема выборки стремится к нулю п.н. Этот пример показывает, что модель линейной регрессии может объяснять сколь угодно большую долю выборочной дисперсии, но не удовлетворять строгим требованиям на суммы остатков регрессии, предъявляемых критерием эмпирического моста, и количество параметров, а также характер зависимости от них влияют только на распределение предельного процесса, на основании которого вычисляется реально достигаемый уровень значимости. Таким образом, F-тест может принимать неправильную модель, а критерий эмпирического моста отвергать ее.
Эмпирический мост для модели выборки слабо сходится к стандартному броуновскому мосту, а сходимость эмпирического моста в модели двухпараметрической линейной регрессии требует доказательства. При этом предельный гауссовский процесс отличается от стандартного броуновского моста.
Рассмотрим две вероятностные модели (одно- и двухпараметрическую):
Y = 9 + si, i = 1,...,n, n > 1,
Yi = a + bXi +&i, i = 1,.,n, n > 1,
где 9,a,b e R - неизвестные параметры регрессии, Sj,...,sn (регрессионные
ошибки) - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и конечной ненулевой дисперсией с2. Также предполагается, что Xi = Y-n, i = 1,..,n, - порядковые статистики, где случайные величины ^,...,|n независимы, одинаково распределены с функцией распределения F и не зависят от случайных величин s1, ..., sn .
Неизвестные параметры регрессии обычно оценивают по методу наименьших квадратов, получая оценки 9, a, b . На основании регрессионной модели строятся прогнозные значения Yi =9, Yi = a + bXi. Остатками линейной регрессии называют случайные величины si = Yi -Yi.
Приведем определение эмпирического моста. Эмпирический мост - это кусочно-линейная случайная ломаная Z0 = {Z0 (t), 0 < t < 1} с узлами в точках
где At = s1 + ... + Sk, k = 1,.,n, До = 0, ст2 = s -(s)2.
Выбор регрессионной модели зависимости массы тела от роста
37
При условии сходимости ст2 ^ ст2 при n слабые пределы в пространстве непрерывных на [0,1] функций C(0,1) эмпирического моста и случайной ломаной, построенной по точкам
( - k - А
к Ьк--An
к n
v n CTyfn J
совпадают.
Отметим, что указанная ломаная получается непрерывным в равномерной метрике на [0,1] преобразованием x0 (t) = x(t) - tx(1), отображающим х в х0, случайной ломаной Zn, построенной по точкам
(k jAi_ N
v n CTyfn J
t
Пусть GLf (t) = j*F-1 (s)ds - теоретическая обобщенная кривая Лоренца (см.
0
в [9]), F_1(s) = sup{x: F(x) < s} - квантильное преобразование (обобщенная обратная функция) функции распределения F(x), GL0f (t) = GLf (t) - tGLF (1).
Через ^ будем обозначать слабую сходимость (сходимость по распределению) в соответствующем пространстве. Так, в теоремах ниже через ^ обозначена слабая сходимость в пространстве C(0,1), снабженном равномерной метрикой (см. [10, с. 82]).
Из функциональной предельной теоремы (принципа инвариантности) следует (см. [3]) теорема 1.
Теорема 1. Если Yi =9 +ег-, то Z0 ^ W0, где W0 - стандартный броуновский мост с ковариационной функцией
K (t, s) = min{t, s} - ts, t, s e [0,1].
Следствие 1. Если Yt =9 + ег-, то
1
j(Zn0(t))2 dt ^n,
0
где n имеет распределение ю2, которое представлено в табл. 6.4а на с. 348 в [11] и в табл. 1 на с. 63-64 в [12].
В приложении приведено доказательство следующей теоремы, которая распространяет на двухпараметрическую (парную) линейную регрессию результат работы [5]. Эта теорема также может быть получена применением другой техники доказательства из теоремы 1.2 и следствия 1.3 работы [13]. Для неслучайного регрессора подобные теоремы получены в работах [14, 15].
Теорема 2. Если Y = а + bXj + ег-, 0 < Var^ <да , то Zn ^ZF,Z° ^ ZF, где ZF - центрированный гауссовский процесс с ковариационной функцией
GL0f (t)GlFl (s)
KF (t, s) = min{t, s} - ts-F--F , t, s e [0,1].
Var%1
38
А.П. Ковалевский, Е.В. Шаталин
Следствие 2. Если Yi = a + bXi + ei, Xi - порядковые статистики, построенные
по выборке из нормального распределения, то
1 1
I(Zl(t))2 dt = jZ2(t)dt,
0 0
- ^ 2
где n имеет распределение со , которое представлено в табл. 3 на с. 65 в [12], Z,^ - центрированный гауссовский процесс с ковариационной функцией К (t, s) = min{t, s} - ts - ф(Ф-1 (t ))ф(Ф-1 (s)),
где ф, Ф 1 - плотность и квантильная функция стандартного нормального распределения соответственно.
В [12] получены следующие выражения:
1 ад zk
F <*> =1+тХ I
- xX /2
d X
k=^k-! (-D(X))
1/2
(с. 56), где Xk - собственные числа ядра K , ^1—^10 приведены на с. 37 в [12], для остальных Xk справедлива эквивалентность Xk ~ ((2k - 1)п)2, k > 10;
2 IX
D(X) = -= A(VX )sin---;
vX 2
A(p) = (1 +
p 2 43
)cos P + 4p3 71(p); 2n 2
1/2 1/2
I1 (p) = | Kj (x) sin pxdx | Kj (x) cos p(1/ 2 -1 )dt;
0 x
K1( x) = ф(Ф-1( x)).
(с. 34-37 в [12]). С помощью данных формул можно вычислить F (x), результат приведен в [12, табл. 3].
2. Основные результаты работы
Основной задачей настоящей статьи является применение вышеизложенных теорем для анализа различных регрессионных моделей зависимости массы тела от роста индивидуума.
В качестве исходных данных были взяты сведения о росте (в см) и массе тела (в кг) студенток первого курса Волжского государственного медицинского университета (двумерная выборка объема 750) http://www.volgmed.ru/ru/
Предполагается, что есть некоторый статистический ансамбль наблюдений, иными словами, двумерное распределение индивидуумов по росту и весу. Из этого двумерного распределения осуществляется выборка объема n. Эта двумерная выборка упорядочивается по первой компоненте (росту), в результате чего получается последовательность пар (Hг- ,Wi), где H - порядковые статистики, а Wi -индуцированные порядковые статистики (конкомитанты) [16].
Выбор регрессионной модели зависимости массы тела от роста
39
Мы рассмотрим следующие модели:
W = Q + Ht + е, ; lnW, = a + lnH, + ег-;
(
(2)
(3)
(4)
(5)
(6)
(7)
(8) (9)
(10)
(11)
(12)
lnW- = a + 1.5lnH + 6,;
lnW = a + 2lnHt + 6,;
lnW = a + 2.5lnHt + e,;
lnWi = a + 3lnHi +ei;
lnWi = a + blnHi +ei ;
W = a + bHi +e,. ;
W = a + bH15 + e,; W = a + bH- + e, ;
W = a + bHf 5 + ;
W = a + bH,3 +e,.
Модели (1) - (6) являются однопараметрическими, а модели (7) - (12) двухпараметрическими.
С помощью статистического пакета R на основании критерия Шапиро - Уилка была проверена гипотеза нормальности регрессоров, входящих в модели (1) -(12). Реально достигнутые уровни значимости для Ht, lnHt, Hi 5, H2, H25, H-составили соответственно 0.2124; 0.07253; 0.1705; 0.08175; 0.02305; 0.04053. Так как используемые нами методы основаны на нормальности регрессора, модели
(11), (12) далее мы рассматривать не будем.
Статистический критерий показывает, что нормальное приближение хорошо работает и для распределения роста H, и для распределения его логарифма и степеней 1.5 и 2. Это происходит из-за того, что нормальность сохраняется при линейном преобразовании, а рассматриваемые преобразования ведут себя подобно линейным относительно рассматриваемых случайных величин в том смысле, что среднеквадратическое отклонение преобразованной случайной величины значительно меньше ее математического ожидания, и поэтому близость к нормальному закону сохранияется. Для степеней 2.5 и 3 это не так, и эти модели не проходят тест на нормальность.
С помощью пакета MatLab для каждой из моделей были оценены входящие в них параметры и вычислены значения эмпирического моста в узловых точках. Для сравнения моделей вычисляются выборочные дисперсии остатков, затем ста-
которая напрямую следует из определения эмпирического моста, и реально достигаемые уровни значимости (по табл. 1 из [12] для однопараметрических моделей, по табл. 3 из [12] - для двухпараметрических). Результаты приведены в табл. 1.
тистики Gi2n
j(Z°(t))2 dt по формуле
0
40
А.П. Ковалевский, Е.В. Шаталин
Характеристики моделей
Таблица 1
Модель ? РДУЗ
1 66.82 7.96 < 10-5
2 0.0176 3.316 < 10-5
3 0.0171 0.4503 0.053
4 0.0174 0.5928 0.024
5 0.0185 3.591 < 10-5
6 0.0203 8.643 < 10-5
7 0.0171 0.2697 0.0052
8 57.22 0.2273 0.013
9 57.17 0.2172 0.016
10 57.14 0.2101 0.018
Табл. 1 позволяет сравнить модели между собой. В частности, можно сделать вывод о том, что наилучшей из рассматриваемых является модель 3. Отдельно отметим интересный эффект. Модель 3 лучше с точки зрения критерия согласия ю2 нежели модель 7, в которой параметр модели b точно оценен. Получается, что в данном случае лучше угадать параметр модели, чем его оценивать. Конечно, данный эффект связан с тем, что для одно- и двухпараметрических моделей предельные распределения статистик критерия ю2 существенно различаются: оценивание второго параметра теоретически (при выполнении предположений соответствующей модели) должно привести к значительно меньшим отклонениям от горизонтальной оси, чего на практике не происходит.
Как показывает табл. 1, ни одна из рассмотренных моделей не демонстрирует высоких реально достигаемых уровней значимости, то есть хорошего соответствия с исследуемыми данными. Поэтому на следующем этапе исследования анализируются выбросы исходных данных относительно предлагаемых моделей и их влияние на изучаемые характеристики. Для исследования выбросов изобразим исходные данные графически (рис. 1).
W, кг -80 -70 -60 -50 -40 -
30----------■--------■-------■--------■--------■--------■
130 140 150 160 170 180 Н, см
Рис. 1. Зависимость массы тела (в кг) от роста (в см)
Выбор регрессионной модели зависимости массы тела от роста
41
На графике видны выбросы (аномально большие отклонения от любой из предлагаемых регрессионных зависимостей), которые могут привести к искажению результатов. Для устранения данного недостатка мы многократно провели процедуру очистки выборки с помощью правила «трех сигм». Каждый раз, когда несколько значений удалялось, оценки параметров и дисперсии остатков пересчитывались, снова проверялась нормальность выборки и процедура повторялась до тех пор, пока на очередном шаге ни одно значение не было удалено. В результате для каждой модели была получена новая двумерная выборка, для которой повторно были проведены все вычисления.
Результаты вычислений приведены в табл. 2 (модель 10 исключена, так как на очередном шаге выборка не прошла проверку на нормальность).
Таблица 2
Характеристики моделей после удаления выбросов
Модель Итераций К-во удаленных а2 РДУЗ
1 4 14 53.07 6.87 < 10-5
2 2 9 0.0158 4.35 < 10-5
3 2 8 0.0158 0.8133 0.0068
4 4 10 0.0149 0.2718 0.165
5 2 9 0.0164 2.84 < 10-5
6 2 8 0.0177 7.64 < 10-5
7 3 9 0.0151 0.1741 0.0412
8 1 11 47.14 0.1605 0.0563
9 4 20 42.27 0.1674 0.047
Наилучший результат показала модель 4, эмпирический мост регрессионных остатков для нее приведен на рис. 2.
Рис. 2. Эмпирический мост для ln W = a + 2ln Ht + s, (после окончательной очистки выборки)
42
А.П. Ковалевский, Е.В. Шаталин
Эту модель (модель 4) и следует использовать для анализа отклонений массы тела от нормы. Оценка параметра а равна a = -6,2171.... Таким образом, проведенное нами исследование позволяет определять значимость отклонений массы тела от нормы на основании логнормального закона с параметрами |а = -6.2171 + 2lnH, ст2 = 0.0149, где H- рост студентки первого курса в см.
В частности, исключенные 10 наблюдений являются примерами таких отклонений, значимых на критическом уровне 0.0027 (согласно правилу «трех сигм»).
Приложение. Доказательство теоремы 2
Для простоты восприятия разобьем доказательство на пять последовательных шагов. На первом шаге доказательства покажем, что сумму
-8? X0
е° EX0
(величины е° и X0 будут введены
£ 'и-1 можно заменить суммой £ _
i =1 vn 1=1
ниже). На втором шаге докажем слабую сходимость нормированного вектора с
координатами (Д kj,..., A km) к нормированному вектору с координатами (А*. ,...,Ak ), где Ak будут определены позднее. Третий шаг состоит в доказательстве слабой сходимости соответствующих конечномерных распределений. На четвертом шаге будет показана относительная компактность семейства вероятностных распределений, порожденного семейством (Zn (t), 0 < t < 1} . Последний, пятый шаг, состоит из доказательства сходимости по вероятности выборочной дисперсии ст к истинной дисперсии ст .
Шаг 1. Обозначим X0 = Xf - X, е° =8' -е . Тогда
Д k = £
е0 -
X 0 е0 (X 0)2
X0
Покажем, что
1 / n П
-Т |tе" Xi0-]Те0 EA<
<n \ i =1 i =1
^ 0.
(13)
(14)
Так как Eex = 0, случайные величины {8'} независимы между собой и не зависят от {|i n } , имеем
P
4= £е0(X” -EX0)
"In i=1
>5^<
Var tUX -EX0) ст2£ VarX°
i=1
i=1
nS2
nS2
Заметим, что
n __ n .--------------^ n 11 + Var X
£2 | cov(Xi, X) |< t^/Var Xt Var X < £21----------i
i =1
i=1
i=1
Л + Var X
Var X
= 4- tt «/Van: (1 + Var Xi)) < it +n-ul | £ Var Xi
Vn i=1
i=1
i=1
3/2
i =1
Выбор регрессионной модели зависимости массы тела от роста
43
1 n 1 n
В силу теоремы 1 в [17], — VVarXi ^0 при n . Поэтому и — V Var Хг0 ^0 , и
n i=1 n i=1
тем самым (14) доказано.
Шаг 2. Пусть [t] обозначает целую часть числа t. Для каждого m и каждого 0 < s1 <... < sm < 1, ki = [ns) ], покажем слабую сходимость при n вектора
П =-^0Ц,...,Akm) к вектору ZF = (Zp(^),...,Zp(Sm)). av n
Из (13), (14) и сходимостей (X0)2 ^ VarS п.н., —YX° ^GLLf(si) п.н. (см.
i=1
[18]), вектор П может быть заменен вектором Z = —т= (Ak ,..., Ak ), где
<5\ n 1 m
Ak. =1^0 - v^ex*=V]e0 - аааа %ex«.
i=1
Var S
1 i=1
=1 Var S i=1
Шаг 3. Покажем слабую сходимость Z ^ ZF , используя метод характеристических функций. Заметим, что
'Y (, -г> - GL-S) V
ы VarS ji' i
Л f
nm
=Vs' Yh
i=1 j=1
Ytj
.=1
Из предложения 4 в [5], используя неравенство Гельдера, имеем EXf = о(4п)
k, GLF (s,) 0 Л
i{i < k,} —^-a-ex0
1 n Var S г
равномерно по всем 1 < i < n.
Определим Рг- = Yt.
j =1
k, GLF (s,) 0 ^
i{i < k,} -^ —^-a-ex0 1 n DS1
. Тогда характеристическая
функция фг (t) может быть представлена как
9Z (t) = ПЕ exP I 7=eiPi I = П
s i=1 W n J i=1 где o(1) равномерно по 1 < i < n. Действительно,
' В2
1 -%- (1 + o(1)) 2n
Л f n I r2
V ln1 ■ e
= exp
K i=1
1 -2- (1 + o(1)) 2n
V ln
I p2
1 -*- (1 + o(1))
2n
\
= -(1 + o(1))V
p2.
2n
Тогда
n r2 n i | m
Y =Y1 Y
i=1n i=1n K i=1'
,
kj GLF(sj KV0
2
m m n i
=y v y1 'j/.
I{i < k,} —
1 n Var
-EX,
j1 =1 j2 =1 i=1
j1 j2
I{i < k j }-^ -
kj1 GLF(sj1)
11 n Var
ex,u
k
44
А.П. Ковалевский, Е.В. Шаталин
kj2 glf (sj2)
m m
^ Z ZVi2
j1=1 j2 =
I{i < k1 }-
12 n Var ^
EXi
min(s1 , s1 ) - s1 s1 -j1 j2 j1 j2
GL0f (sh)GL°F (sh)
var^
Таким образом,
Z П ^ Z Zj tl2 Kf (S11 , Sl2 ) Cf
i =1 П 11=112 =1
и
Z ln
1-П- (1 + 0(1)) 2n
c
i =1
В итоге получили, что ф^ (t) ^ exp(-CF / 2). Таким образом, сходимость конечномерных распределений полностью доказана.
Шаг 4. Покажем, что семейство распределений, порожденное {Zn (t), 0 < t < 1},
относительно компактно.
k
Обозначим Sk = Zti-n, k = 1,..., n, S0 = 0.
i =1
В соответствии с теоремой Прохорова (см. гл. 16 в [10]) достаточно показать, что семейство распределений случайных процессов последовательности
A [nt ]
<jyfn
,0 < t < 1
плотно. Обозначим k = [nt].
Пусть
A0 =Z
e, --
X_V (X 0)2
Xi
i =1
/
Тогда
~ ^0 k ~0
Ak = Ak An . n
Плотность семейства
Z .e.
<5\[n
,0< t < 1
была показана в [10] при доказатель-
стве принципа инвариантности Донскера - Прохорова. Поэтому докажем только плотность семейства
X0 e°4n Sk_ [ct(X0)2 n
,0< t < 1.
В силу теоремы 8.3 в [10] достаточно доказать, что для любых e > 0, а > 0 найдутся 0 <5< 1, n0 е N такие, что
1P 1 suP
0 I t<s<t+8
для любых n > n0, 0 < t < 1.
X0e0 4n S[ns] S[nt]
ст( X 0)2 n
Выбор регрессионной модели зависимости массы тела от роста
45
Заметим, что
X0Е°УЙ _ Z
o(xV ^/varn
и (см. [18])
sup
t < S<t + 5
S[ ns] S[nt]
sup | GLf (s) - GLf (t) | п.н.
t< s<t+5
Здесь Z случайная величина, имеющая стандартное нормальное распределение, GLf (x) обобщенная кривая Лоренца, которая определена выше.
Обозначим
A(t, 5) = sup | GLf (s) - GLf (t) |.
t < s<t+5
Покажем, что для любых е > 0, а > 0 найдется 0 <5< 1 такое, что
P \ } Z 1 A(t, 5) >е}< —, 0 < t < 1.
VVaTzl J 2
Левая часть последнего неравенства не превосходит 2-
е л/УатЦ
где
A(t, 5) Буняковского имеем
в силу леммы 2 (см. [19, с. 175]). С помощью неравенства Коши -
A(t, 5) = sup
t < s<t+5
Jt F 1 (x)dx < sup |t | F '(x) | dx <^5E^{.
t < s<t+5
Очевидно, что требуемое 5 всегда найдется.
X р 2
Шаг 5. Осталось доказать, что ст ^ст . В самом деле,
- 2 1 «
е = - L
П г =1
р, -е --
XV (X 0)2
:(Хг - X)
----- (0р0)2 р
= (е0)2 - (((->ст2.
(X 0)2
Это завершает доказательство теоремы 2.
n
x2 /2
x =
ЛИТЕРАТУРА
1. Quetelet A. Recherches sur le poids de l’homme aux different a ges // Nouveaux Memoire de l’Academie Royale des Sciences et Belles-Lettres de Bruxelles. 1832. V. 7. P. 1-83.
2. Keys A., Fidanza F., Karvonen M. J., Kimura N., Taylor H. L. Indices of relative weight and obesity // Journal of Chronic Diseases. 1972. V. 25. No. 6-7. P. 329-343.
3. Гусарова Г. В., Ковалевский А. П., Макаренко А. Г. Критерии наличия разладки // Сиб. журн. индустр. матем. 2005. Т. 8. № 4. С. 18-33.
4. Ковалевский А.П. Статистические критерии обнаружения разладки регрессии с циклическим трендом // Научный вестник НГТУ. 2013. № 3 (52). С. 55-62.
5. Ковалевский А.П., Шаталин Е.В. Асимптотика сумм остатков однопараметрической линейной регрессии, построенной по порядковым статистикам // Теория вероятностей и ее применения. 2014. Т. 59. № 3. С. 452-467.
46
А.П. Ковалевский, Е.В. Шаталин
6. Аркашов Н.С., Ковалевский А.П. Вероятностная модель цен на квартиры // Сиб. журн. индустр. матем. 2012. Т. 15. № 2. C. 11-20.
7. Kovalevskii A. A regression model for prices of second-hand cars // Applied methods of statistical analysis. Applications in Survival Analysis, Reliability and Quality Control. Novosibirsk, 2013. P. 124-128.
8. Ковалевский А.П., Шахраманьян А.М. Анализ дефектов строительных конструкций методом эмпирического моста // Научный вестник НГТУ. 2014. Т. 56. № 3. с. 171-180.
9. Gastwirth J.L. A general definition of the Lorenz curve // Econometrica. 1971. V. 39. P. 1037-1039.
10. Биллингсли П. Сходимость вероятностных мер. М.: Наука, 1977.
11. Большев Л.Н., СмирновН.В. Таблицы математической статистики. М.: Наука, 1983.
12. Мартынов Г.В. Критерии омега-квадрат. М.: Наука, 1978.
13. Stute W. Nonparametric model checks for regression // Ann. Statist. 1997. V. 25. P. 613-641.
14. MacNeill I.B. Limit processes for sequences of partial sums of regression residuals // Ann. Prob. 1978. V. 6. No. 4. P. 695-698.
15. Bischoff W. A functional central limit theorem for regression models // Ann. Stat. 1998. V. 26. P. 1398-1410.
16. Davydov Y., Zitikis R. Convex rearrangements of random elements // Fields Institute Communications. 2004. V.44. P. 141-171.
17. Hoeffding W. On the distribution of the expected values of the order statistics // Ann. Math. Statist. 1953. V. 24. No. 1. P. 93-100.
18. Goldie C.M. Convergence theorems for empirical Lorenz curves and their inverses // Advances in Applied Probability. 1977. V. 9. P. 765-791.
19. Фелдер В. Введение в теорию вероятностей и ее приложения. Т. 1. М.: Мир, 1984.
Статья поступила 15.04.2015 г.
Kovalevskii A.P., Shatalin E.V. THE CHOICE OF A REGRESSION MODEL OF THE BODY WEIGHT ON THE HEIGHT VIA AN EMPIRICAL BRIDGE
DOI 10.17223/19988621/37/3
An empirical bridge can be used for analysis of correspondance between regression models and observed data. If a model does not describe data correctly, then its response values deviate systematically from the regression curve, and this deviation can be revealed by summing the regression residuals. One needs to know the limiting distribution of the process for centered and normalized partial sums of regression residuals to study significance of these deviations. This process is the empirical bridge. We obtain a limiting process for a simple linear regression model. The main goal of this article is to apply the empirical bridge for the analysis of regression models describing the dependence of an individual’s body weight on his height. We considered a number of regression models of this dependence and compared models based on their empirical bridges. We used data on the height and weight of female students of the first course of Volga State Medical University. The study revealed the best model lnW = a + 2lnHt +&i. This model should be used for analysis of deviations from the normal body weight.
Keywords: linear regression, empirical bridge, dependence of weight on height.
KOVALEVSKIIArtem Pavlovish (Candidate of Physics and Mathematics,
Novosibirsk State Technical University, Novosibirsk,
Novosibirsk State University, Novosibirsk, Russian Federation)
E-mail: [email protected]
SHATALIN Evgeny Viktorovich (Sobolev Institute of Mathematics,
Novosibirsk, Russian Federation)
E-mail: [email protected]
Выбор регрессионной модели зависимости массы тела от роста
47
REFERENCES
1. Quetelet A. Recherches sur le poids de l’homme aux different ges. Nouveaux Memoire de l’Academie Royale des Sciences etBelles-Lettres de Bruxelles, 1832, vol. 7, pp. 1-83.
2. Keys A., Fidanza F., Karvonen M. J., Kimura N., Taylor H. L. Indices of relative weight and obesity. Journal of Chronic Diseases, 1972, vol. 25. No. 6-7, pp. 329-343.
3. Gusarova G.V., Kovalevskiy A.P., Makarenko A.G. Kriterii nalichiya razladki. Sib. zhurn. in-dustr. matem., 2005, vol. 8, no. 4, pp. 18-33. (in Russian)
4. Kovalevskiy A.P. Statisticheskie kriterii obnaruzheniya razladki regressii s tsiklicheskim trendom. Nauchnyy vestnikNGTU, 2013, no. 3 (52), pp. 55-62. (in Russian)
5. Kovalevskiy A.P., Shatalin E.V. Asimptotika summ ostatkov odnoparametricheskoy lineynoy regressii, postroennoy po poryadkovym statistikam. Teoriya veroyatnostey i ee primeneniya, 2014, vol. 59, no. 3, pp. 452-467. (in Russian)
6. Arkashov N.S., Kovalevskiy A.P. Veroyatnostnaya model' tsen na kvartiry. Sib. zhurn. in-dustr. matem., 2012, vol. 15, no. 2. C. 11-20. (in Russian)
7. Kovalevskii A. A regression model for prices of second-hand cars. Applied methods of statistical analysis. Applications in Survival Analysis, Reliability and Quality Control. Novosibirsk, 2013, pp. 124-128.
8. Kovalevskiy A.P., Shakhraman'yan A.M. Analiz defektov stroitel'nykh konstruktsiy metodom empiricheskogo mosta. Nauchnyy vestnik NGTU, 2014, vol. 56, no. 3. pp. 171-180. (in Russian)
9. Gastwirth J.L. A general definition of the Lorenz curve. Econometrica, 1971, vol. 39, pp. 1037-1039. (in Russian)
10. Billingsli P. Skhodimost’ veroyatnostnykh mer. Moskow, Nauka Publ., 1977.
11. Bol'shev L.N., Smirnov N.V. Tablitsy matematicheskoy statistiki. Moskow, Nauka Publ.,
1983.
12. Martynov G.V. Kriterii omega-kvadrat. Moskow, Nauka Publ., 1978.
13. Stute W. Nonparametric model checks for regression. Ann. Statist., 1997, vol. 25, pp. 613641.
14. MacNeill I.B. Limit processes for sequences of partial sums of regression residuals. Ann. Prob, 1978, vol. 6. No. 4, pp. 695-698.
15. Bischoff W. A functional central limit theorem for regression models. Ann. Stat., 1998, vol. 26, pp. 1398-1410.
16. Davydov Y., Zitikis R. Convex rearrangements of random elements. Fields Institute Communications, 2004, vol. 44, pp. 141-171.
17. Hoeffding W. On the distribution of the expected values of the order statistics. Ann. Math. Statist., 1953, vol. 24. No. 1, pp. 93-100.
18. Goldie C.M. Convergence theorems for empirical Lorenz curves and their inverses. Advances in Applied Probability, 1977, vol. 9, pp. 765-791.
19. Feller V. Vvedenie v teoriyu veroyatnostey i ee prilozheniya. Moskow, Mir Publ., 1984, vol. 1. (in Russian)