Научная статья на тему 'Построение толерантных интервалов для регрессии с фиктивной переменной по неоднородной выборке'

Построение толерантных интервалов для регрессии с фиктивной переменной по неоднородной выборке Текст научной статьи по специальности «Математика»

CC BY
80
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
E-Scio
Область наук
Ключевые слова
TOLERANCE INTERVALS / DUMMY VARIABLE / MULTIPLE REGRESSION / NON-UNIFORM SAMPLING

Аннотация научной статьи по математике, автор научной работы — Фурина Ксения Олеговна

В статье рассматривается понятие толерантных интервалов, а затем находятся толерантные интервалы для множественной регрессии с фиктивной переменной по неоднородной выборке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение толерантных интервалов для регрессии с фиктивной переменной по неоднородной выборке»

УДК 519.254 Физико-математические науки

Фурина Ксения Олеговна, студент Факультет прикладной математики и механики, Федеральное государственное бюджетное образовательное учреждение высшего

образования «Пермский национальный исследовательский политехнический университет» e-mail: darkcityfightclub@mail. ru

ПОСТРОЕНИЕ ТОЛЕРАНТНЫХ ИНТЕРВАЛОВ ДЛЯ РЕГРЕССИИ С ФИКТИВНОЙ ПЕРЕМЕННОЙ ПО НЕОДНОРОДНОЙ ВЫБОРКЕ

Аннотация: В статье рассматривается понятие толерантных интервалов, а затем находятся толерантные интервалы для множественной регрессии с фиктивной переменной по неоднородной выборке.

Ключевые слова: толерантные интервалы, фиктивная переменная, множественная регрессия, неоднородная выборка.

Abstract: The article discusses the concept of tolerance intervals, and then are tolerant intervals for multiple regression with dummy variable on non-uniform sampling.

Keywords: tolerance intervals, dummy variable, multiple regression, non-uniform sampling.

Построение толерантных интервалов весьма актуально при различных измерениях в медицине, т.к. помогает значительно сократить затраты на проведение исследований.

При проведении любых диагностических мероприятий результаты исследований рассматриваются комплексно. При этом учитываются все показатели: общее состояние пациента, характер течения патологии, симптомы. Результаты ряда лабораторных тестов выдаются больным в виде "положительно" или "отрицательно". Данная форма считается качественной характеристикой. Примером может служить анализ на антитела к той либо другой инфекции. Положительный результат свидетельствует о присутствии этих антител в материале.

При количественном типе исследования результаты выдаются в форме цифр. При этом существует диапазон нормы, а также средние показатели. Референтное значение в анализах - это термин медицины, применяемый для оценки результатов при лабораторных исследованиях. Определяется оно как среднее значение определенного показателя. Эти данные получены путем обследования здоровой части населения.

Первым этапом является выборка населения. Например, приглашаются здоровые женщины, возраст которых от двадцати до тридцати лет. Большей их части назначаются клинические исследования. Результаты сводят к средним цифрам, вычисляя диапазон, в которых находятся референтные значения. Допускается отклонение от нормальных показателей (в ту или другую сторону) на две стандартных единицы.

Референтное значение в анализах - это статистические данные, но не биологический закон. Как правило, диагностические выводы делаются не в соответствии с единичными показателями, а при оценке динамики изменений [3].

В математической статистике, учитывая определенные уровни объясняющих переменных, обычно применяют два статистических интервала: интервалы для средней объясняемой переменной (доверительные интервалы) и интервалы для одного или более будущего наблюдения (прогнозные интервалы). Толерантные интервалы являются другим типом статистического интервала.

Толерантный интервал - интервал, определяемый по выборке, относительно которого можно утверждать с уровнем доверия (1 — а), что он содержит, по крайней мере, указанную долю р совокупности. Границы статистического толерантного интервала называются статистическими толерантными границами. Уровень доверия (1 — а) - это вероятность того, что толерантный, определенный описанным методом, будет содержать не менее чем долю р совокупности. Наоборот, вероятность того, что толерантный интервал будет содержать менее чем долю р совокупности, есть а. Настоящий стандарт описывает методы определения

односторонних (с верхней или нижней границей) и двусторонних (с верхней и нижней границами) статистических толерантных интервалов.

Толерантный интервал является функцией наблюдений выборки, то есть

статистики. Приведенные в настоящем стандарте методы предполагают, что наблюдения в выборке независимы [1].

Рассмотрим множественную линейную регрессию, которая может содержать бинарную переменную, определяющую качественный признак, в случае, если выборка неоднородна. Так, следующая выборка неоднородна по признаку Группа.

Таблица 1 - Выборка для референтного значения определенного показателя

№ Х У Группа

1 -2,1549 4,622711 2

2 -2,1549 4,752102 2

3 -2,22185 5 2

4 -2,09691 4,377215 2

5 -2,09691 3,908592 2

6 -2,22185 5,000226 2

7 -2,11919 4,976671 1

8 -2,04576 4,488142 1

9 -2,22185 5,155275 1

10 -2,09691 5,075463 1

11 -2,1549 5 1

12 -2,04576 4,056447 1

13 -2,09691 4,141763 1

14 -2,1549 4,825082 2

15 -2,04576 4,031126 2

16 -2,20761 4,726776 2

17 -2,1549 4,647706 2

18 -2,09691 4,527875 2

19 -2,04576 3,965343 2

20 -2,23657 5,136622 2

21 -2 3,716254 2

22 -2,09691 3,871398 2

23 -2,1549 4,876605 2

24 -2,1549 4,48243 2

25 -2,04576 3,678882 2

26 -2,18709 4,791726 2

27 -2,12494 4,576053 2

28 -2,09691 3,968156 2

29 -2,22185 5,016432 2

30 -2,07058 4,495406 1

31 -2,04576 4,524941 1

32 -2,09691 4,680934 1

33 -2,22185 5,889076 1

34 -2 3,736954 1

35 -2,09691 4,967506 1

36 -2,04576 3,840482 1

37 -2,07058 4,577779 1

38 -2,04576 4,066624 1

Пусть

2 =

Г1, если Группа 2;

0, если Группа 1 '

Оценим нижнюю толерантную границу по множественной модели У = а + 3Х + у2 + 3Х2 + £

где а, ¡, у, 3 - параметры, £ - случайные отклонения (остатки модели) [2].

1. Будем полагать доля р = 0,9, уровень доверия у = 1 — а = 0,95, объем выборки п = 38.

2. Находим оценку вектора параметров регрессии

( 74,779 35,712 — 74,779 — 35,712^

3

у

= (хтх)—1 • ХТУ =

35,712 17,069 — 35,712 —17,069

— 74,779 — 35,712 123,96 58,725

— 35,712 —17,069 58,725 27,847

\ ( 172,17 Л (—11,57Л

— 365,49 — 7,73

98,5 2,46

у ч — 210,9 у 1 37 V 1,3' У

т.е.

У = —11,57 — 7,73Х + 2,462 — 1,37Х • 2, Я2 = 0.988 . 3. Находим оценку дисперсии случайных отклонений ,2 (у — Х33 )т (У — Х33)

52 = А--си = 0,059

91 — 3

4. Для заданной доли р = 0,9 находим квантиль стандартного нормального распределения год = 1,2816.

( 1 Л

5. Для выбранного вектора-столбца (наблюдение 4, Группа 2) х =

— 2,097 1

V 2,097у

находим

й = (хт (ХТХ)—1 х)

1/2 X) =

г

(1 — 2,097 1 — 2,097) •

74,779 35,712 — 74,779 — 35,712^

35,712 17,069 — 35,712 —17,069

— 74,779 — 35,712 123,96 58,725

— 35,712 —17,069 58,725 27,847

г

У

1 ^

— 2,097

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— 2,097у

12

= 0,2444

Чп - т-Л-а(гр1й )= Ч

34;0,95

1,2816 0,2444

Ч34;0,95(5,24) 7,5

к (й) = й х ¿347.0 95(5,24)= 0,2444 • 7,5 = 1,833

X

¡3 = (1 - 2,097 1 - 2,097)-

11,57л - 7,73 2,46

137 ,

V 1,37 у

4.227

' 1 л - 2,097 1

V- 2,097у

находим нижнюю границу

6. Для выбранного вектора-столбца х = одностороннего толерантного интервала

Дх) = хт¡3 - к(й(х))5 = 4,227 -1,833 - 0,243 = 3.782.

Повторим пункты 5 - 6 для наблюдения 35.

5*. Для выбранного вектора-столбца (наблюдение 35, Группа 1) находим

' 1 Л 2,097

х

0 0

й = (хт (ХТХ )-1 х )/2 =

(1 - 2,097 0 0)-

74,779 35,712 - 74,779 - 35,712 35,712 17,069 - 35,712 -17,069 - 74,779 - 35,712 123,96 58,725

^ 35,712 -17,069 58,725 27,847 ) ^ 0 у

- 2,097 0

= 0,2494

Iп-ш;\-а ) = ^34;

34;0,95

1,2816 0,2494

= ^34;0,95(5,14)= 7,5 ,

к(й) = й х ^ 95(5.14) = 0,2494 - 7,5 = 1,871 ,

хт ¡3 = (1 - 2,097 0 0)-

л

-11,57 - 7,73

2,46 1 37

v 1,37 у

= 4,6398

6*. Для выбранного вектора-столбца х =

- 2,097 0 0

находим нижнюю границу

одностороннего толерантного интервала

Ь(х) = хт3 - к(й(х))£ = 4,6398 -1,871 - 0,243 = 4,185.

Таблица 2 - Результаты вычислений

X У ул Ь

-2,1549 4,622711 4,603012 4,164089

-2,1549 4,752102 4,603012 4,164089

-2,22185 5 5,028989 4,542176

-2,09691 4,377215 4,234015 3,781571

-2,09691 3,908592 4,234015 3,781571

-2,22185 5,000226 5,028989 4,542176

-2,11919 4,976671 4,813097 4,356463

-2,04576 4,488142 4,245531 3,773804

-2,22185 5,155275 5,606623 5,028017

-2,09691 5,075463 4,640913 4,192446

-2,1549 5 5,089159 4,60065

-2,04576 4,056447 4,245531 3,773804

-2,09691 4,141763 4,640913 4,192446

-2,1549 4,825082 4,603012 4,164089

-2,04576 4,031126 3,908536 3,419057

-2,20761 4,726776 4,938378 4,465106

-2,1549 4,647706 4,603012 4,164089

-2,09691 4,527875 4,234015 3,786739

-2,04576 3,965343 3,908536 3,419057

-2,23657 5,136622 5,122671 4,620705

-2 3,716254 3,617385 3,077806

-2,09691 3,871398 4,234015 3,786739

-2,1549 4,876605 4,603012 4,164089

-2,1549 4,48243 4,603012 4,164089

-2,04576 3,678882 3,908536 3,419057

-2,18709 4,791726 4,8078 4,351451

-2,12494 4,576053 4,412359 3,975862

-2,09691 3,968156 4,234015 3,786739

-2,22185 5,016432 5,028989 4,542176

-2,07058 4,495406 4,437404 3,980343

-2,04576 4,524941 4,245531 3,773804

-2,09691 4,680934 4,640913 4,192446

-2,22185 5,889076 5,606623 5,028017

-2 3,736954 3,89185 3,366619

-2,09691 4,967506 4,640913 4,185147

-2,04576 3,840482 4,245531 3,773804

-2,07058 4,577779 4,437404 3,980343

-2,04576 4,066624 4,245531 3,773804

Рисунок 1 - Нижняя граница для референтного значения

Библиографический список:

1. ГОСТ Р ИСО 16269-6-2005. Статистические методы. Статистическое представление данных. Определение статистических толерантных интервалов. (УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 июня 2005 г. N 171-ст) М.: Стандартинформ, 2005.

2. Ш. Закс, Теория статистических выводов, М.: МИР, 1975, 776 с.

3. FB.ru Интернет журнал [Электронный ресурс] Референтные значения - что это такое? http://fb.ru/article/136705/referentnyie-znacheniya—chto-eto-takoe-chto-oznachaet-referentnoe-znachenie (дата обращения: 10.12.2016).

i Надоели баннеры? Вы всегда можете отключить рекламу.