Научная статья на тему 'Построение толерантных интервалов для регрессии по неоднородной выборке'

Построение толерантных интервалов для регрессии по неоднородной выборке Текст научной статьи по специальности «Математика»

CC BY
97
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
E-Scio
Область наук
Ключевые слова
TOLERANCE INTERVALS / MULTIPLE REGRESSION / NON-UNIFORM SAMPLING

Аннотация научной статьи по математике, автор научной работы — Фурина Ксения Олеговна

В статье рассматривается неоднородная выборка, а затем она разбивается на две однородные выборки и для каждой находятся толерантные интервалы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение толерантных интервалов для регрессии по неоднородной выборке»

УДК 519.254 Физико-математические науки

Фурина Ксения Олеговна, студент Факультет прикладной математики и механики, Федеральное государственное бюджетное образовательное учреждение высшего образования «Пермский национальный исследовательский политехнический университет» e-mail: darkcityfightclub@mail. ru

ПОСТРОЕНИЕ ТОЛЕРАНТНЫХ ИНТЕРВАЛОВ ДЛЯ РЕГРЕССИИ

ПО НЕОДНОРОДНОЙ ВЫБОРКЕ

Аннотация: В статье рассматривается неоднородная выборка, а затем она разбивается на две однородные выборки и для каждой находятся толерантные интервалы.

Ключевые слова: толерантные интервалы, множественная регрессия, неоднородная выборка.

Abstract: The article discusses nonuniform sampling, and then it is split into two homogenous sample and are tolerant of each intervals.

Keywords: tolerance intervals, multiple regression, non-uniform sampling.

При медицинском количественном типе исследования результаты выдаются в форме цифр. При этом существует диапазон нормы, а также средние показатели. Референтное значение в анализах - это термин медицины, применяемый для оценки результатов при лабораторных исследованиях. Определяется оно как среднее значение определенного показателя. Эти данные получены путем обследования здоровой части населения.

Первым этапом является выборка населения. Результаты сводят к средним цифрам, вычисляя диапазон, в которых находятся референтные

значения. Допускается отклонение от нормальных показателей (в ту или другую сторону) на две стандартных единицы.

Референтное значение в анализах - это статистические данные, но не биологический закон. Как правило, диагностические выводы делаются не в соответствии с единичными показателями, а при оценке динамики изменений [3].

В математической статистике, учитывая определенные уровни объясняющих переменных, обычно применяют два статистических интервала: интервалы для средней объясняемой переменной (доверительные интервалы) и интервалы для одного или более будущего наблюдения (прогнозные интервалы). Толерантные интервалы являются другим типом статистического интервала.

Толерантный интервал - интервал, определяемый по выборке, относительно которого можно утверждать с уровнем доверия (1 — а), что он содержит, по крайней мере, указанную долю р совокупности. Границы статистического толерантного интервала называются статистическими толерантными границами. Уровень доверия (1 — а) - это вероятность того, что толерантный, определенный описанным методом, будет содержать не менее чем долю р совокупности. Наоборот, вероятность того, что толерантный

интервал будет содержать менее чем долю р совокупности, есть а. Настоящий стандарт описывает методы определения односторонних (с верхней или нижней границей) и двусторонних (с верхней и нижней границами) статистических толерантных интервалов.

Толерантный интервал является функцией наблюдений выборки, то есть статистики. Приведенные в настоящем стандарте методы предполагают, что наблюдения в выборке независимы [1].

Рассмотрим выборку, которая неоднородна по признаку Группа.

Таблица 1 - Выборка для референтного значения определенного показателя

№ Х У Группа

1 -2,1549 4,622711 2

2 -2,1549 4,752102 2

3 -2,22185 5 2

4 -2,09691 4,377215 2

5 -2,09691 3,908592 2

6 -2,22185 5,000226 2

7 -2,11919 4,976671 1

8 -2,04576 4,488142 1

9 -2,22185 5,155275 1

10 -2,09691 5,075463 1

11 -2,1549 5 1

12 -2,04576 4,056447 1

13 -2,09691 4,141763 1

14 -2,1549 4,825082 2

15 -2,04576 4,031126 2

16 -2,20761 4,726776 2

17 -2,1549 4,647706 2

18 -2,09691 4,527875 2

19 -2,04576 3,965343 2

20 -2,23657 5,136622 2

21 -2 3,716254 2

22 -2,09691 3,871398 2

23 -2,1549 4,876605 2

24 -2,1549 4,48243 2

25 -2,04576 3,678882 2

26 -2,18709 4,791726 2

27 -2,12494 4,576053 2

28 -2,09691 3,968156 2

29 -2,22185 5,016432 2

30 -2,07058 4,495406 1

31 -2,04576 4,524941 1

32 -2,09691 4,680934 1

33 -2,22185 5,889076 1

34 -2 3,736954 1

35 -2,09691 4,967506 1

36 -2,04576 3,840482 1

37 -2,07058 4,577779 1

38 -2,04576 4,066624 1

Разобьём эту выборку на две подвыборки: по Группе 1 и Группе 2.

Таблица 2 - Сгруппированная выборка для референтного значения определенного показателя

№ Х Y Группа

1 -2,1549 4,622711

2 -2,1549 4,752102

3 -2,22185 5

4 -2,09691 4,377215

5 -2,09691 3,908592

6 -2,22185 5,000226

7 -2,1549 4,825082

8 -2,04576 4,031126

9 -2,20761 4,726776

10 -2,1549 4,647706

11 -2,09691 4,527875 2

12 -2,04576 3,965343

13 -2,23657 5,136622

14 -2 3,716254

15 -2,09691 3,871398

16 -2,1549 4,876605

17 -2,1549 4,48243

18 -2,04576 3,678882

19 -2,18709 4,791726

20 -2,12494 4,576053

21 -2,09691 3,968156

22 -2,22185 5,016432

23 -2,07058 4,495406

24 -2,04576 4,524941

25 -2,09691 4,680934

26 -2,22185 5,889076

27 -2 3,736954

28 -2,09691 4,967506

29 -2,04576 3,840482

30 -2,07058 4,577779 1

31 -2,04576 4,066624

32 -2,11919 4,976671

33 -2,04576 4,488142

34 -2,22185 5,155275

35 -2,09691 5,075463

36 -2,1549 5

37 -2,04576 4,056447

38 -2,09691 4,141763

Оценим параметры квадратичной зависимости У = а + 3Х + уХ2 + £, где а, 3, у - параметры, £ - случайные отклонения (остатки модели).

Затем найдем нижнюю границу одностороннего толерантного интервала регрессии сначала для Группы 2, а затем для Группы 1.

Полагая х1 = X2, получим множественную регрессию У = а + ^Х + уХ\ + 8 [2].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем 1 выборки п = 22.

2. Находим оценку вектора параметров регрессии

а р

чУу

(хТх)—1 • ХТУ

(46913,4 44109,7 10358,7^ 44109,7 41484,7 9744,78 10358,7 9744,78 2289,65

(98,499 ^ Г—15,78 ^

— 210,9 451,966

—12,639 —1,4747

т.е.

У = —15,78 —12,639X —1,4747X1, Я = 0.837 .

(у — хр у (у — хр)

3. Находим оценку дисперсии случайных отклонений ^2 = х_хш > у_хш = 0 0385

22 — 3

4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения ? = 1,2816.

5. Для выбранного вектора-столбца (наблюдение 1, Группа 2) х =

1

— 2,1549 ^4,6436 у

находим

а = (хТ (хТх)—1 х )/2 =

(1 — 2,1549 4,6436)

46913,4 44109,7 10358,7^ 44109,7 41484,7 9744,78 10358,7 9744,78 2289,65

У

— 2,1549 4,6436

Л

У

= 0,2801

к-шЛ-а^р/Л )=

19;0,95

1,2816 ч0,2801у

= ^0,95(4,58) = 7,146 ,

к(Л) = Л х ¿19Д95(4,58) = 0,2801 • 7,146 = 2

х

5 = (1 — 2,1549 4,6436)-

—15,78 —12,639

V—1,475 У

= 4.608

6. Для выбранного вектора-столбца х =

— 2,1549 V4,6436 У

находим нижнюю границу

одностороннего толерантного интервала

Д х) = хтр - к(Л (х))5 = 4,608 - 2 • 0,196 = 4.215.

Повторим пункты 1- 6 для наблюдения 23 выборки.

1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем 1 выборки п=16.

2. Находим оценку вектора параметров регрессии

Л (— 90,62 Л

т.е.

а = (хтх)—1 - хтг = '73613,5 69463,5 16370,4Л '73,67 > '— 90,62 ^

р 69463,5 65563,6 15455,2 —154,59 = — 82,364

у у у16370,4 15455,2 3644,19у ч324,68 у у—17,598 у

Г = —90,62 — 82,364X — 17,598Х 1, Я2 = 0.837 .

3. Находим оценку дисперсии случайных отклонений ^2 = ^_ХР) (г -

22 — 3

(г — X р )т (г — X р)

= 0,0919

4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения 2 = 1,2816.

5. Для выбранного вектора-столбца (наблюдение 1, Группа 1) х =

— 2,0706 ч4,28731 у

находим

а = {хт (хт X)—1 х У =

(1 — 2,0706 4,28731)-

73613,5 69463,5 16370,4^ 69463,5 65563,6 15455,2 16370,4 15455,2 3644,19

У

— 2,0706 4,28731

V

У

= 0,2909

К—тЛ—а^р/Л)— ¿13;

13;0,95

1,2816

ч0,2909у

= ^(М!) — 7,357 ,

к (Л) = Л х ¿19;095(4,58) = 0,2909 • 7,357 = 2,14

х

р = (1 — 2,0706 4,28731)-

— 90,62

— 82,364 ч—17,598у

= 4.472

6. Для выбранного вектора-столбца х = одностороннего толерантного интервала

1

— 2,0706 ч4,28731 у

находим нижнюю границу

Д х) = хТ 5 — к (Л (х)) £ = 4,472 - 2,14 • 0,303 = 4.215.

Таблица 3 - Результаты вычислений

№ Х У Ь

1 -2,1549 4,622711 4,21544

2 -2,1549 4,752102 4,21544

3 -2,22185 5 4,589782

4 -2,09691 4,377215 3,842352

5 -2,09691 3,908592 3,842352

6 -2,22185 5,000226 4,589782

7 -2,1549 4,825082 4,21544

8 -2,04576 4,031126 3,482807

9 -2,20761 4,726776 4,527215

10 -2,1549 4,647706 4,21544

11 -2,09691 4,527875 3,842352

12 -2,04576 3,965343 3,482807

13 -2,23657 5,136622 4,642461

14 -2 3,716254 3,05749

15 -2,09691 3,871398 3,842352

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

16 -2,1549 4,876605 4,21544

17 -2,1549 4,48243 4,21544

18 -2,04576 3,678882 3,482807

19 -2,18709 4,791726 4,417336

20 -2,12494 4,576053 4,021211

21 -2,09691 3,968156 3,842352

22 -2,22185 5,016432 4,589782

23 -2,07058 4,495406 4,21544

24 -2,04576 4,524941 4,21544

25 -2,09691 4,680934 4,589782

26 -2,22185 5,889076 3,842352

27 -2 3,736954 3,842352

28 -2,09691 4,967506 4,589782

29 -2,04576 3,840482 4,21544

30 -2,07058 4,577779 3,482807

31 -2,04576 4,066624 4,527215

32 -2,11919 4,976671 4,21544

33 -2,04576 4,488142 3,842352

34 -2,22185 5,155275 3,482807

35 -2,09691 5,075463 4,642461

36 -2,1549 5 3,05749

37 -2,04576 4,056447 3,842352

38 -2,09691 4,141763 4,21544

Рисунок 1 - Нижняя граница для референтного значения

Библиографический список:

1. ГОСТ Р ИСО 16269-6-2005. Статистические методы. Статистическое представление данных. Определение статистических толерантных интервалов. (УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 июня 2005 г. N 171-ст) М.: Стандартинформ, 2005.

2. Ш. Закс, Теория статистических выводов, М.: МИР, 1975, 776 с.

3. FB.ru Интернет журнал [Электронный ресурс] Референтные значения -что это такое? http://fb.ru/article/136705/referentnyie-znacheniya—chto-eto-takoe-chto-oznachaet-referentnoe-znachenie (дата обращения: 10.12.2016).

i Надоели баннеры? Вы всегда можете отключить рекламу.