УДК 519.254 Физико-математические науки
Фурина Ксения Олеговна, студент Факультет прикладной математики и механики, Федеральное государственное бюджетное образовательное учреждение высшего
образования «Пермский национальный исследовательский политехнический университет» e-mail: darkcityfightclub@mail. ru
ПОСТРОЕНИЕ ТОЛЕРАНТНЫХ ИНТЕРВАЛОВ ДЛЯ РЕГРЕССИИ С ФИКТИВНОЙ ПЕРЕМЕННОЙ ПО НЕОДНОРОДНОЙ ВЫБОРКЕ
Аннотация: В статье рассматривается понятие толерантных интервалов, а затем находятся толерантные интервалы для множественной регрессии с фиктивной переменной по неоднородной выборке.
Ключевые слова: толерантные интервалы, фиктивная переменная, множественная регрессия, неоднородная выборка.
Abstract: The article discusses the concept of tolerance intervals, and then are tolerant intervals for multiple regression with dummy variable on non-uniform sampling.
Keywords: tolerance intervals, dummy variable, multiple regression, non-uniform sampling.
Построение толерантных интервалов весьма актуально при различных измерениях в медицине, т.к. помогает значительно сократить затраты на проведение исследований.
При проведении любых диагностических мероприятий результаты исследований рассматриваются комплексно. При этом учитываются все показатели: общее состояние пациента, характер течения патологии, симптомы. Результаты ряда лабораторных тестов выдаются больным в виде "положительно" или "отрицательно". Данная форма считается качественной характеристикой. Примером может служить анализ на антитела к той либо другой инфекции. Положительный результат свидетельствует о присутствии этих антител в материале.
При количественном типе исследования результаты выдаются в форме цифр. При этом существует диапазон нормы, а также средние показатели. Референтное значение в анализах - это термин медицины, применяемый для оценки результатов при лабораторных исследованиях. Определяется оно как среднее значение определенного показателя. Эти данные получены путем обследования здоровой части населения.
Первым этапом является выборка населения. Например, приглашаются здоровые женщины, возраст которых от двадцати до тридцати лет. Большей их части назначаются клинические исследования. Результаты сводят к средним цифрам, вычисляя диапазон, в которых находятся референтные значения. Допускается отклонение от нормальных показателей (в ту или другую сторону) на две стандартных единицы.
Референтное значение в анализах - это статистические данные, но не биологический закон. Как правило, диагностические выводы делаются не в соответствии с единичными показателями, а при оценке динамики изменений [3].
В математической статистике, учитывая определенные уровни объясняющих переменных, обычно применяют два статистических интервала: интервалы для средней объясняемой переменной (доверительные интервалы) и интервалы для одного или более будущего наблюдения (прогнозные интервалы). Толерантные интервалы являются другим типом статистического интервала.
Толерантный интервал - интервал, определяемый по выборке, относительно которого можно утверждать с уровнем доверия (1 — а), что он содержит, по крайней мере, указанную долю р совокупности. Границы статистического толерантного интервала называются статистическими толерантными границами. Уровень доверия (1 — а) - это вероятность того, что толерантный, определенный описанным методом, будет содержать не менее чем долю р совокупности. Наоборот, вероятность того, что толерантный интервал будет содержать менее чем долю р совокупности, есть а. Настоящий стандарт описывает методы определения
односторонних (с верхней или нижней границей) и двусторонних (с верхней и нижней границами) статистических толерантных интервалов.
Толерантный интервал является функцией наблюдений выборки, то есть
статистики. Приведенные в настоящем стандарте методы предполагают, что наблюдения в выборке независимы [1].
Рассмотрим множественную линейную регрессию, которая может содержать бинарную переменную, определяющую качественный признак, в случае, если выборка неоднородна. Так, следующая выборка неоднородна по признаку Группа.
Таблица 1 - Выборка для референтного значения определенного показателя
№ Х У Группа
1 -2,1549 4,622711 2
2 -2,1549 4,752102 2
3 -2,22185 5 2
4 -2,09691 4,377215 2
5 -2,09691 3,908592 2
6 -2,22185 5,000226 2
7 -2,11919 4,976671 1
8 -2,04576 4,488142 1
9 -2,22185 5,155275 1
10 -2,09691 5,075463 1
11 -2,1549 5 1
12 -2,04576 4,056447 1
13 -2,09691 4,141763 1
14 -2,1549 4,825082 2
15 -2,04576 4,031126 2
16 -2,20761 4,726776 2
17 -2,1549 4,647706 2
18 -2,09691 4,527875 2
19 -2,04576 3,965343 2
20 -2,23657 5,136622 2
21 -2 3,716254 2
22 -2,09691 3,871398 2
23 -2,1549 4,876605 2
24 -2,1549 4,48243 2
25 -2,04576 3,678882 2
26 -2,18709 4,791726 2
27 -2,12494 4,576053 2
28 -2,09691 3,968156 2
29 -2,22185 5,016432 2
30 -2,07058 4,495406 1
31 -2,04576 4,524941 1
32 -2,09691 4,680934 1
33 -2,22185 5,889076 1
34 -2 3,736954 1
35 -2,09691 4,967506 1
36 -2,04576 3,840482 1
37 -2,07058 4,577779 1
38 -2,04576 4,066624 1
Пусть
2 =
Г1, если Группа 2;
0, если Группа 1 '
Оценим нижнюю толерантную границу по множественной модели У = а + 3Х + у2 + 3Х2 + £
где а, ¡, у, 3 - параметры, £ - случайные отклонения (остатки модели) [2].
1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем выборки п = 38.
2. Находим оценку вектора параметров регрессии
( 74,779 35,712 — 74,779 — 35,712^
3
у
= (хтх)—1 • ХТУ =
35,712 17,069 — 35,712 —17,069
— 74,779 — 35,712 123,96 58,725
— 35,712 —17,069 58,725 27,847
\ ( 172,17 Л (—11,57Л
— 365,49 — 7,73
98,5 2,46
у ч — 210,9 у 1 37 V 1,3' У
т.е.
У = —11,57 — 7,73Х + 2,462 — 1,37Х • 2, Я2 = 0.988 . 3. Находим оценку дисперсии случайных отклонений ,2 (у — Х33 )т (У — Х33)
52 = А--си = 0,059
91 — 3
4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения год = 1,2816.
( 1 Л
5. Для выбранного вектора-столбца (наблюдение 4, Группа 2) х =
— 2,097 1
V 2,097у
находим
й = (хт (ХТХ)—1 х)
1/2 X) =
г
(1 — 2,097 1 — 2,097) •
74,779 35,712 — 74,779 — 35,712^
35,712 17,069 — 35,712 —17,069
— 74,779 — 35,712 123,96 58,725
— 35,712 —17,069 58,725 27,847
г
У
1 ^
— 2,097
1
— 2,097у
12
= 0,2444
Чп - т-Л-а(гр1й )= Ч
34;0,95
1,2816 0,2444
Ч34;0,95(5,24) 7,5
к (й) = й х ¿347.0 95(5,24)= 0,2444 • 7,5 = 1,833
X
¡3 = (1 - 2,097 1 - 2,097)-
11,57л - 7,73 2,46
137 ,
V 1,37 у
4.227
' 1 л - 2,097 1
V- 2,097у
находим нижнюю границу
6. Для выбранного вектора-столбца х = одностороннего толерантного интервала
Дх) = хт¡3 - к(й(х))5 = 4,227 -1,833 - 0,243 = 3.782.
Повторим пункты 5 - 6 для наблюдения 35.
5*. Для выбранного вектора-столбца (наблюдение 35, Группа 1) находим
' 1 Л 2,097
х
0 0
й = (хт (ХТХ )-1 х )/2 =
(1 - 2,097 0 0)-
74,779 35,712 - 74,779 - 35,712 35,712 17,069 - 35,712 -17,069 - 74,779 - 35,712 123,96 58,725
^ 35,712 -17,069 58,725 27,847 ) ^ 0 у
- 2,097 0
= 0,2494
Iп-ш;\-а ) = ^34;
34;0,95
1,2816 0,2494
= ^34;0,95(5,14)= 7,5 ,
к(й) = й х ^ 95(5.14) = 0,2494 - 7,5 = 1,871 ,
хт ¡3 = (1 - 2,097 0 0)-
л
-11,57 - 7,73
2,46 1 37
v 1,37 у
= 4,6398
6*. Для выбранного вектора-столбца х =
- 2,097 0 0
находим нижнюю границу
одностороннего толерантного интервала
Ь(х) = хт3 - к(й(х))£ = 4,6398 -1,871 - 0,243 = 4,185.
Таблица 2 - Результаты вычислений
X У ул Ь
-2,1549 4,622711 4,603012 4,164089
-2,1549 4,752102 4,603012 4,164089
-2,22185 5 5,028989 4,542176
-2,09691 4,377215 4,234015 3,781571
-2,09691 3,908592 4,234015 3,781571
-2,22185 5,000226 5,028989 4,542176
-2,11919 4,976671 4,813097 4,356463
-2,04576 4,488142 4,245531 3,773804
-2,22185 5,155275 5,606623 5,028017
-2,09691 5,075463 4,640913 4,192446
-2,1549 5 5,089159 4,60065
-2,04576 4,056447 4,245531 3,773804
-2,09691 4,141763 4,640913 4,192446
-2,1549 4,825082 4,603012 4,164089
-2,04576 4,031126 3,908536 3,419057
-2,20761 4,726776 4,938378 4,465106
-2,1549 4,647706 4,603012 4,164089
-2,09691 4,527875 4,234015 3,786739
-2,04576 3,965343 3,908536 3,419057
-2,23657 5,136622 5,122671 4,620705
-2 3,716254 3,617385 3,077806
-2,09691 3,871398 4,234015 3,786739
-2,1549 4,876605 4,603012 4,164089
-2,1549 4,48243 4,603012 4,164089
-2,04576 3,678882 3,908536 3,419057
-2,18709 4,791726 4,8078 4,351451
-2,12494 4,576053 4,412359 3,975862
-2,09691 3,968156 4,234015 3,786739
-2,22185 5,016432 5,028989 4,542176
-2,07058 4,495406 4,437404 3,980343
-2,04576 4,524941 4,245531 3,773804
-2,09691 4,680934 4,640913 4,192446
-2,22185 5,889076 5,606623 5,028017
-2 3,736954 3,89185 3,366619
-2,09691 4,967506 4,640913 4,185147
-2,04576 3,840482 4,245531 3,773804
-2,07058 4,577779 4,437404 3,980343
-2,04576 4,066624 4,245531 3,773804
Рисунок 1 - Нижняя граница для референтного значения
Библиографический список:
1. ГОСТ Р ИСО 16269-6-2005. Статистические методы. Статистическое представление данных. Определение статистических толерантных интервалов. (УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 июня 2005 г. N 171-ст) М.: Стандартинформ, 2005.
2. Ш. Закс, Теория статистических выводов, М.: МИР, 1975, 776 с.
3. FB.ru Интернет журнал [Электронный ресурс] Референтные значения - что это такое? http://fb.ru/article/136705/referentnyie-znacheniya—chto-eto-takoe-chto-oznachaet-referentnoe-znachenie (дата обращения: 10.12.2016).