УДК 519.254 Физико-математические науки
Фурина Ксения Олеговна, студент Факультет прикладной математики и механики, Федеральное государственное бюджетное образовательное учреждение высшего образования «Пермский национальный исследовательский политехнический университет» e-mail: darkcityfightclub@mail. ru
ПОСТРОЕНИЕ ТОЛЕРАНТНЫХ ИНТЕРВАЛОВ ДЛЯ РЕГРЕССИИ
ПО НЕОДНОРОДНОЙ ВЫБОРКЕ
Аннотация: В статье рассматривается неоднородная выборка, а затем она разбивается на две однородные выборки и для каждой находятся толерантные интервалы.
Ключевые слова: толерантные интервалы, множественная регрессия, неоднородная выборка.
Abstract: The article discusses nonuniform sampling, and then it is split into two homogenous sample and are tolerant of each intervals.
Keywords: tolerance intervals, multiple regression, non-uniform sampling.
При медицинском количественном типе исследования результаты выдаются в форме цифр. При этом существует диапазон нормы, а также средние показатели. Референтное значение в анализах - это термин медицины, применяемый для оценки результатов при лабораторных исследованиях. Определяется оно как среднее значение определенного показателя. Эти данные получены путем обследования здоровой части населения.
Первым этапом является выборка населения. Результаты сводят к средним цифрам, вычисляя диапазон, в которых находятся референтные
значения. Допускается отклонение от нормальных показателей (в ту или другую сторону) на две стандартных единицы.
Референтное значение в анализах - это статистические данные, но не биологический закон. Как правило, диагностические выводы делаются не в соответствии с единичными показателями, а при оценке динамики изменений [3].
В математической статистике, учитывая определенные уровни объясняющих переменных, обычно применяют два статистических интервала: интервалы для средней объясняемой переменной (доверительные интервалы) и интервалы для одного или более будущего наблюдения (прогнозные интервалы). Толерантные интервалы являются другим типом статистического интервала.
Толерантный интервал - интервал, определяемый по выборке, относительно которого можно утверждать с уровнем доверия (1 — а), что он содержит, по крайней мере, указанную долю р совокупности. Границы статистического толерантного интервала называются статистическими толерантными границами. Уровень доверия (1 — а) - это вероятность того, что толерантный, определенный описанным методом, будет содержать не менее чем долю р совокупности. Наоборот, вероятность того, что толерантный
интервал будет содержать менее чем долю р совокупности, есть а. Настоящий стандарт описывает методы определения односторонних (с верхней или нижней границей) и двусторонних (с верхней и нижней границами) статистических толерантных интервалов.
Толерантный интервал является функцией наблюдений выборки, то есть статистики. Приведенные в настоящем стандарте методы предполагают, что наблюдения в выборке независимы [1].
Рассмотрим выборку, которая неоднородна по признаку Группа.
Таблица 1 - Выборка для референтного значения определенного показателя
№ Х У Группа
1 -2,1549 4,622711 2
2 -2,1549 4,752102 2
3 -2,22185 5 2
4 -2,09691 4,377215 2
5 -2,09691 3,908592 2
6 -2,22185 5,000226 2
7 -2,11919 4,976671 1
8 -2,04576 4,488142 1
9 -2,22185 5,155275 1
10 -2,09691 5,075463 1
11 -2,1549 5 1
12 -2,04576 4,056447 1
13 -2,09691 4,141763 1
14 -2,1549 4,825082 2
15 -2,04576 4,031126 2
16 -2,20761 4,726776 2
17 -2,1549 4,647706 2
18 -2,09691 4,527875 2
19 -2,04576 3,965343 2
20 -2,23657 5,136622 2
21 -2 3,716254 2
22 -2,09691 3,871398 2
23 -2,1549 4,876605 2
24 -2,1549 4,48243 2
25 -2,04576 3,678882 2
26 -2,18709 4,791726 2
27 -2,12494 4,576053 2
28 -2,09691 3,968156 2
29 -2,22185 5,016432 2
30 -2,07058 4,495406 1
31 -2,04576 4,524941 1
32 -2,09691 4,680934 1
33 -2,22185 5,889076 1
34 -2 3,736954 1
35 -2,09691 4,967506 1
36 -2,04576 3,840482 1
37 -2,07058 4,577779 1
38 -2,04576 4,066624 1
Разобьём эту выборку на две подвыборки: по Группе 1 и Группе 2.
Таблица 2 - Сгруппированная выборка для референтного значения определенного показателя
№ Х Y Группа
1 -2,1549 4,622711
2 -2,1549 4,752102
3 -2,22185 5
4 -2,09691 4,377215
5 -2,09691 3,908592
6 -2,22185 5,000226
7 -2,1549 4,825082
8 -2,04576 4,031126
9 -2,20761 4,726776
10 -2,1549 4,647706
11 -2,09691 4,527875 2
12 -2,04576 3,965343
13 -2,23657 5,136622
14 -2 3,716254
15 -2,09691 3,871398
16 -2,1549 4,876605
17 -2,1549 4,48243
18 -2,04576 3,678882
19 -2,18709 4,791726
20 -2,12494 4,576053
21 -2,09691 3,968156
22 -2,22185 5,016432
23 -2,07058 4,495406
24 -2,04576 4,524941
25 -2,09691 4,680934
26 -2,22185 5,889076
27 -2 3,736954
28 -2,09691 4,967506
29 -2,04576 3,840482
30 -2,07058 4,577779 1
31 -2,04576 4,066624
32 -2,11919 4,976671
33 -2,04576 4,488142
34 -2,22185 5,155275
35 -2,09691 5,075463
36 -2,1549 5
37 -2,04576 4,056447
38 -2,09691 4,141763
Оценим параметры квадратичной зависимости У = а + 3Х + уХ2 + £, где а, 3, у - параметры, £ - случайные отклонения (остатки модели).
Затем найдем нижнюю границу одностороннего толерантного интервала регрессии сначала для Группы 2, а затем для Группы 1.
Полагая х1 = X2, получим множественную регрессию У = а + ^Х + уХ\ + 8 [2].
1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем 1 выборки п = 22.
2. Находим оценку вектора параметров регрессии
а р
чУу
(хТх)—1 • ХТУ
(46913,4 44109,7 10358,7^ 44109,7 41484,7 9744,78 10358,7 9744,78 2289,65
(98,499 ^ Г—15,78 ^
— 210,9 451,966
—12,639 —1,4747
т.е.
У = —15,78 —12,639X —1,4747X1, Я = 0.837 .
(у — хр у (у — хр)
3. Находим оценку дисперсии случайных отклонений ^2 = х_хш > у_хш = 0 0385
22 — 3
4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения ? = 1,2816.
5. Для выбранного вектора-столбца (наблюдение 1, Группа 2) х =
1
— 2,1549 ^4,6436 у
находим
а = (хТ (хТх)—1 х )/2 =
(1 — 2,1549 4,6436)
46913,4 44109,7 10358,7^ 44109,7 41484,7 9744,78 10358,7 9744,78 2289,65
У
— 2,1549 4,6436
Л
У
= 0,2801
к-шЛ-а^р/Л )=
19;0,95
1,2816 ч0,2801у
= ^0,95(4,58) = 7,146 ,
к(Л) = Л х ¿19Д95(4,58) = 0,2801 • 7,146 = 2
х
5 = (1 — 2,1549 4,6436)-
—15,78 —12,639
V—1,475 У
= 4.608
6. Для выбранного вектора-столбца х =
— 2,1549 V4,6436 У
находим нижнюю границу
одностороннего толерантного интервала
Д х) = хтр - к(Л (х))5 = 4,608 - 2 • 0,196 = 4.215.
Повторим пункты 1- 6 для наблюдения 23 выборки.
1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем 1 выборки п=16.
2. Находим оценку вектора параметров регрессии
Л (— 90,62 Л
т.е.
а = (хтх)—1 - хтг = '73613,5 69463,5 16370,4Л '73,67 > '— 90,62 ^
р 69463,5 65563,6 15455,2 —154,59 = — 82,364
у у у16370,4 15455,2 3644,19у ч324,68 у у—17,598 у
Г = —90,62 — 82,364X — 17,598Х 1, Я2 = 0.837 .
3. Находим оценку дисперсии случайных отклонений ^2 = ^_ХР) (г -
22 — 3
(г — X р )т (г — X р)
= 0,0919
4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения 2 = 1,2816.
5. Для выбранного вектора-столбца (наблюдение 1, Группа 1) х =
— 2,0706 ч4,28731 у
находим
а = {хт (хт X)—1 х У =
(1 — 2,0706 4,28731)-
73613,5 69463,5 16370,4^ 69463,5 65563,6 15455,2 16370,4 15455,2 3644,19
У
— 2,0706 4,28731
V
У
= 0,2909
К—тЛ—а^р/Л)— ¿13;
13;0,95
1,2816
ч0,2909у
= ^(М!) — 7,357 ,
к (Л) = Л х ¿19;095(4,58) = 0,2909 • 7,357 = 2,14
х
р = (1 — 2,0706 4,28731)-
— 90,62
— 82,364 ч—17,598у
= 4.472
6. Для выбранного вектора-столбца х = одностороннего толерантного интервала
1
— 2,0706 ч4,28731 у
находим нижнюю границу
Д х) = хТ 5 — к (Л (х)) £ = 4,472 - 2,14 • 0,303 = 4.215.
Таблица 3 - Результаты вычислений
№ Х У Ь
1 -2,1549 4,622711 4,21544
2 -2,1549 4,752102 4,21544
3 -2,22185 5 4,589782
4 -2,09691 4,377215 3,842352
5 -2,09691 3,908592 3,842352
6 -2,22185 5,000226 4,589782
7 -2,1549 4,825082 4,21544
8 -2,04576 4,031126 3,482807
9 -2,20761 4,726776 4,527215
10 -2,1549 4,647706 4,21544
11 -2,09691 4,527875 3,842352
12 -2,04576 3,965343 3,482807
13 -2,23657 5,136622 4,642461
14 -2 3,716254 3,05749
15 -2,09691 3,871398 3,842352
16 -2,1549 4,876605 4,21544
17 -2,1549 4,48243 4,21544
18 -2,04576 3,678882 3,482807
19 -2,18709 4,791726 4,417336
20 -2,12494 4,576053 4,021211
21 -2,09691 3,968156 3,842352
22 -2,22185 5,016432 4,589782
23 -2,07058 4,495406 4,21544
24 -2,04576 4,524941 4,21544
25 -2,09691 4,680934 4,589782
26 -2,22185 5,889076 3,842352
27 -2 3,736954 3,842352
28 -2,09691 4,967506 4,589782
29 -2,04576 3,840482 4,21544
30 -2,07058 4,577779 3,482807
31 -2,04576 4,066624 4,527215
32 -2,11919 4,976671 4,21544
33 -2,04576 4,488142 3,842352
34 -2,22185 5,155275 3,482807
35 -2,09691 5,075463 4,642461
36 -2,1549 5 3,05749
37 -2,04576 4,056447 3,842352
38 -2,09691 4,141763 4,21544
Рисунок 1 - Нижняя граница для референтного значения
Библиографический список:
1. ГОСТ Р ИСО 16269-6-2005. Статистические методы. Статистическое представление данных. Определение статистических толерантных интервалов. (УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 июня 2005 г. N 171-ст) М.: Стандартинформ, 2005.
2. Ш. Закс, Теория статистических выводов, М.: МИР, 1975, 776 с.
3. FB.ru Интернет журнал [Электронный ресурс] Референтные значения -что это такое? http://fb.ru/article/136705/referentnyie-znacheniya—chto-eto-takoe-chto-oznachaet-referentnoe-znachenie (дата обращения: 10.12.2016).