Научная статья на тему 'Разработка математической модели физического здоровья человека на основе метода множественного регрессионного анализа'

Разработка математической модели физического здоровья человека на основе метода множественного регрессионного анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2124
175
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРРЕЛЯЦИЯ / ДИСПЕРСИОННЫЙ АНАЛИЗ / РЕГРЕССИОННАЯ МОДЕЛЬ / Т СТАТИСТИКА / FСТАТИСТИКА / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куи Т. С.

В статье представлены результаты исследований по созданию математической модели физического здоровья «здорового человека» методом регрессионного анализа, где в качестве факторов выступают физические параметры человека, а в качестве отклика показатель физической работоспособности. Уравнение регрессии вычислялось для каждой возрастной группы. После выполнения множественного регрессионного анализа, получена множественная регрессионная модель, которая может предсказать физическую работоспособность для мальчиков в возрасте от четырнадцати до семнадцати лет. А также приведены результаты анализа и разработка регрессионной модели для шестнадцати летних мальчиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка математической модели физического здоровья человека на основе метода множественного регрессионного анализа»

НАУЧНОЕ ИЗДАНИЕ МГТУ ИМ. Н. Э. БАУМАНА

НАУКА и ОБРАЗОВАНИЕ

Эл № ФС77 - 48211. Государственная регистрация №0421200025. ISSN 1994-0408

электронный научно-технический журнал

Разработка математической модели физического здоровья человека

на основе метода множественного регрессионного анализа

# 01, январь 2014

Б01: 10.7463/0114.0696028

Куи Т. С.

УДК 519.2

Россия, МГТУ им. Н.Э. Баумана кукЬаг82@цтаП. сот

Введение

В настоящее время все чаще специалисты по информационным технологиям становятся активными участниками решения проблем здоровья людей. Однако это предполагает, что специалисты по информационным технологиям имеют достаточный объём соответствующих медицинских знаний, чтобы вести разработки информационных систем, предметной областью которых является медицина. Весьма привлекательными подобные информационные системы являются в тех случаях, когда они способствуют сохранению здоровья у практически здоровых людей. Подобные системы получили название "Навигаторы здоровья". В таких системах, например, заинтересованы медицинские страховые компании и поликлиники для проведения экспресс - обследования клиентов и пациентов.

Одной из ключевых задач при создании информационных систем типа "Навигатор здоровья" является выбор измеряемых параметров человека при его обследовании и разработка алгоритмов обработки результатов измерении. Во всем многообразии возможных вариантов решения этой задачи хотелось бы выбрать в некотором смысле наилучший вариант и его использовать. Критериями отбора измеряемых параметров, процедур измерения и расчетов отдельных показателей могут быть, например, простота выполнения измерения, надежность измерения, чувствительность, воспроизводимость.

1. Метод анализа

Приведенный анализ 480 мальчиков в возрасте от 14 до 17 лет в медицинской компании «Народный Спорт Парк» [11] применен в данной работе. Выборка по каждой группе составляла 120 человек. На основе полученных результатов анализа прогнозируем физическую работоспособность человека (PWC170/кг), который является одним из важнейших компонентов

физического здоровья человека, характеризующим способность организма эффективно выполнять большую мышечную работу и противостоять утомлению. Уровень общей выносливости определяется возможностями мышечной, дыхательной, сердечнососудистой, нервной, эндокринной систем, слаженность их работы при физических нагрузках и, в конечном счете, может служить обобщенной оценкой физического состояния организма.

После измерения морфологических и функциональных показателей физического здоровья человека проведем анализ полученных результатов. Именно, предполагается построить прогноз значений параметра PWC с помощью множественной регрессии. В этом случае необходимо выяснить математическую зависимость физической работоспособности человека от измеряемых морфологических и функциональных показателей.

В математическом смысле это можно свести к типичной задаче многофакторного регрессионного анализа. Идея многофакторного анализа проста. Есть морфологические измеряемые показатели человека. Это - факторы или независимые переменные (их может быть достаточно много, в нашем случае 12), и есть, зависящая от них, зависимая переменная или отклик У, т.е PWC. У каждого человека имеется свой набор значений морфологических показателей и своя, соответствующая этому набору, физическая работоспособность PWC.

Напомним, что классический многофакторный регрессионный анализ опирается на некоторую систему постулатов в основном статистического характера. Кроме того, предполагается, что это - нормально распределенные случайные величины, поскольку отклонения от среднего равновероятны и в ту и другую сторону. Такая основа позволяет благополучно довести до числа процесс получения оценок регрессионных коэффициентов и осуществить проверки основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях отклика. В рамках этой гипотезы можно предположить, что отклик (PWC) связан с морфологическими и функциональными показателями (факторами) соотношением

У=Б0 +Б1Х1+В2Х2 +. ..+БпХп +е, (1)

где У - отклик (зависимая переменная), Во - оценка постоянной составляющей, В; - /-ый

коэффициент множественной регрессии (/ = п), X/ - /-ая независимая переменная, е -ошибка.

В данном случае, для анализа используются двенадцать морфологических и функциональных показателей для группы девочек и мальчиков в возрасте от 14 до 17 лет, представленных в таблице 1.

Таблица 1. Параметры для регрессионного анализа

Символ Определение символа Сокращение Определения символов

Y отклик (PWC170- физическая работоспособность) кгм/кг в мин PWC170/кг

X! жизненная емкость легких , мл ЖЕЛ

Х2 пульс в покое (частота сердечных сокращений, уд/мин) ЧСС

Хз систолическое артериальное давление, мм.рт.ст. АД-С

Х4 диастолическое артериальное давление, мм.рт.ст. АД-Д

Х5 задержка дыхания, сек Гипокс.

Х6 весоростовой коэффициент (Кетле), гр/см Кетле

Х7 гибкость позвоночника, см Гибк.

Х8 координация движения (бросание в стену теннисных мячей, количество пойманных мячей из 6) Коорд

Х9 зрительно-двигательная реакция (тест с падающей линейкой, см) ЗРД

Х10 мышцы плечевого пояса (отжимание) Отжим

Х„ мышцы брюшного пресса (пресс) Пресс

Х12 тест Руфье (приседание) Руфье

По существу, это означает, что одному и тому же набору независимых переменных с полным правом могут соответствовать разные значения отклика. Действительно, трудно представить двух человек, имеющих одинаковый набор морфологических показателей и одинаковую же физическую работоспособность. Такая вариация может иметь место из-за ошибок измерения, но, прежде всего это, конечно, является следствием разброса индивидуальных показателей физического состояния человека. Поэтому не приходиться ожидать никакого единственно однозначного уравнения связи между независимыми переменными и откликом. Однако можно обнаружить, что средний наблюдаемый отклик при заданных значениях независимых переменных будет достаточно устойчив.

Поскольку точность определения среднего значения выборки растет с ростом объема выборки, то точность определения коэффициентов регрессионной модели растет с увеличением числа экспериментов, которое не может быть меньше, чем число коэффициентов требующих

определения.

Теперь уравнение (1) можно записать для произвольного отклика в виде

У = Ъ0 + Ь1Х1 + Ъ2 Х2 + ... + ЪпХп + в (2)

из которого следует, что для любого набора значений X соответствующее значение У состоит из величины Ъ0 + Ъ1х1 +Ъ2х2 +...+Ьпхп + в, с учетом которой любой индивидуальный У получает возможность не попасть на поверхность регрессии, олицетворяющей собой набор средних значений У.

Задачу по построению первого приближения многофакторной регрессионной модели можно считать законченной, если по результатам экспериментов получены оценки коэффициентов уравнения (2) Ъ0,...,Ъп.

В литературе по регрессионному анализу [1-7] достаточно подробно описан матричный подход и нахождению оценок коэффициентов регрессионной модели. Введем следующие обозначения:

у- вектор столбец наблюдений, размерность ш*1;

х - матрица независимых переменных, размерность ш*п;

Ъ - вектор столбец параметров, подлежащих оцениванию, размерность п*1;

е - вектор столбец ошибок, размерность ш*1;

ш - число экспериментов;

п - число коэффициентов, подлежащих оцениванию;

Тогда линейную модель [1-7], подлежащую оцениванию на основе экспериментальных данных, можно записать в форме

У = ХВ + Е. (3)

Используя метод наименьших квадратов [1-6], получаем

В = (ХТХ)-1 ХТУ, (4)

где ХТ - транспонированная матрица независимых переменных, (ХТ X)-1- обратная матрица, У -вектор наблюдений.

Таким образом, имея результаты многократного эксперимента (ш >п), можно определить коэффициенты Ь°, Ь1з ... , Ьп. Величина коэффициентов указывает степень влияния того или иного фактора на отклик, иными словами на зависимость PWC от морфологических и функциональных показателей человека.

Согласно процедуре множественного регрессионного анализа, в первую очередь, необходимо знать как каждый из независимых параметров х; коррелирует с зависимым параметром PWC [1-7]. Оценивать эту корреляцию предлагается с помощью линейной регрессии, описывающей зависимость между параметром х; и параметром PWC. После оценки зависимости в виде линейной регрессии между каждым параметром х; и параметром PWC можно высказать качественные суждения о характере этих зависимостей.

2. Регрессионный анализ для шестнадцати летних мальчиков

Рассмотрим приведенные результаты анализа для 120-ти шестнадцатилетних мальчиков. На рис 1 в качестве примера приведен результат расчета линейной регрессии между независимым параметром теста Руфье (приседание) и зависимым параметром PWC (PWC170/кг).

фиседание)

Рис. 1. Точечная диаграмма для физической работоспособности и теста Руфье (30

приседаний за 45 сек)

На рис 1 приведены точечная диаграмма, в которых можно рассмотреть линейную регрессию между независимым параметром приседания и зависимым параметром PWC (PWC170/кг). Очевидно, что имеет отрицательная линейная зависимость между этими параметрами. Степень влияния конкретного независимого параметра х; оценивается значением коэффициента детерминации Я . Оказывается, что для параметра х12 (приседание) значение коэффициента детерминации Я составляет всего 23%. Другими словами, влияние независимого параметра теста Руфье (х12) на зависимый параметр PWC является слабым. Аналогично были получены зависимости между остальными 11 морфологическими и функциональными параметрами и параметром PWC.

Слабая связь корреляции между PWC и независимыми параметрами (таб.2) не является существенными параметрами. Была вычислена корреляционная зависимость между перечисленными выше морфологическими и функциональными параметрами. Приведены результаты корреляционной матрицы и оценки корреляционных зависимостей между рассматриваемыми параметрами в таблице 2.

Таблица. 2. Таблица корреляционной матрицы для всех показателей 16 летних мальчиков

ЖЕ Л ЧС С АД-С АД-Д Гипо кс. Кет ле Гиб к. Коо рд ЗРД Отж им Пре сс Руф ье PWC170 /кг

ЖЕЛ 1,00 0

ЧСС 0,01 3 1,00 0

АД-С 0,32 8 0,12 3 1,00 0

АД-Д 0,26 0 0,12 2 0,40 2 1,00 0

Гипокс. 0,27 5 0,09 4 0,01 3 0,08 3 1,000

Кетле 0,34 6 0,21 1 0,33 1 0,17 1 -0,101 1,00 0

Гибк. 0,03 9 0,07 9 0,12 7 0,17 8 0,036 0,01 7 1,00 0

Коорд 0,02 3 0,02 6 0,07 0 0,05 9 0,131 0,02 3 0,01 7 1,00 0

ЗРД 0,16 0 0,18 0 0,08 8 0,07 7 0,151 0,07 2 0,17 1 0,21 2 1,00 0

Отжим 0,00 9 0,01 7 0,07 1 0,23 9 -0,023 0,08 3 0,19 5 0,06 3 0,18 7 1,000

Пресс 0,05 4 0,04 6 0,08 7 0,18 9 0,020 0,05 6 0,11 1 0,19 2 0,00 7 0,521 1,00 0

Руфье 0,13 6 0,08 0 0,00 6 0,08 5 0,098 0,08 6 0,01 2 0,14 6 0,00 9 0,066 0,07 3 1,00 0

PWC170 /кг 0,08 3 0,25 1 0,12 6 0,04 7 -0,003 0,12 6 0,00 1 0,12 2 0,07 8 0,073 0,02 8 0,48 4 1,000

После рассмотрения таблицы корреляции запускаем регрессионный анализ (использовано программное обеспечение MS Excel и SPSS). В этом случае после вычисления результатов регрессионного анализа, в первую очередь нужно проверить, что полученная модель является статистически значимой. Для этого можно использовать метод дисперсионного анализа. Напомним, что дисперсионный анализ позволяет выявить зависимости в экспериментальных данных путём исследования значимости различий в средних значениях. В случае линейной регрессии используются понятия общей дисперсией, объясненной дисперсии и необъясненной дисперсии (рис 2). Если она существенно уменьшает значение необъясненной дисперсии, можем сказать, что полученная в эксперименте линия регрессии является полезным.

Рис.2. Диаграмма для объяснения о дисперсии регрессионной модели

Выяснить полезность линии регрессии можно с помощью величины F - статистики. F -статистика является отношением объясненной дисперсии (среднеквадратическая регрессия) и необъясненной дисперсии (среднеквадратическая ошибка). В этом случае объясненную дисперсию или среднеквадратическую регрессию (MSR - Mean Squared Regression) можно вычислить по формуле [2-7]

I (y - y )2

MSR = -i=1

к

(5)

Необъясненная дисперсия или среднеквадратическая ошибка (MSE- Mean Squared Error) вычисляет по формуле [2-7]

Е (у - у )2

MSE = -. (6)

n - к -1

Здесь MSR - среднеквадратическая регрессия (объясненная дисперсия), MSE -

среднеквадратическая ошибка (необъясненная дисперсия), yi - i-ая зависимая переменная PWC (

i = 0,....,n), у, - г-ое предсказанное значение параметра (* = n), У - среднее значение зависимой переменной, к - количество регрессоров, n - количество наблюдения.

Величину F- статистику можно вычислить по формуле [2-7]

n /

Е(у* - у )2/к MSR

F =-i=l- /- (или) F = MSR. (7)

ЕЕ (у - у )2/(n - к -1) MSE

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i=1 /

Для проверки значимости модели будем использовать F таблицы распределения. В нашем случае, использование F - критерия сводится к сравнению величины F - статистики со значением F - критерий в F - таблице. В случае если вычисленная величина F - статистики больше или равна критической величине F - критерий в F - таблице, то можно сделать вывод, что регрессионная модель является статистически значимой [2-7, 9]. В таблице 3 приведены результаты дисперсионного анализа.

Таблица. 3. Дисперсионный анализ (ANOVA) для 16 - летних мальчиков

Степень свободы Сумма квадратов Дисперсия на степень свободы (среднее квадратов) F Значимость F

Факторная (Регрессии) 12 404,6196 33,7183 5,7168 0,0000

Остаточная 107 631,0991 5,8981

Общая 119 1035,7187

Таким образом, для множественной регрессионной модели шестнадцатилетних мальчиков вычисленная Б- статистика равна 5,7168, и из Б-таблицы распределения Б - критерия равна 1,8337 [9]. Отсюда следует, что величина Б - статистики больше чем, величина Б - критерия в Б - таблице распределения, и что регрессионная модель является статистической значимой и полезной.

Попробуем количественно оценить, насколько полезна полученная множественная регрессионная модель для прогнозирования параметра PWC. Другими словами, какую часть в величине прогноза параметра PWC обосновывает множественная регрессионная модель.

Для указанного количественного оценивания полезности полученной множественной

регрессионной модели была сделана попытка воспользоваться коэффициентом детерминации Я [2-7]. Для того чтобы была возможность сравнивать модели с разным числом факторов, так чтобы число факторов (регрессоров) не влияло на значение Я2, обычно используется скорректированный

коэффициент детерминации. Коэффициент детерминации Я и скорректированный коэффициент

2

детерминации Я а можно вычислить по формулам

I № - У)2

Я2 = -, (8)

I (У, - У)2

'=1

Я2в = 1 - ((—г—-)(1 - Я2)), (9)

п - к -1

где У' - 7-ое значение зависимой переменной PWC (' = 0,....,п), У' - 7-ое предсказанное

значение параметра PWC (' = 0,...., п), У' - среднее значение зависимой переменной PWC, к -количество регрессоров, п - количество наблюдений.

Для шестнадцатилетних мальчиков, вычисленное значение коэффициента детерминации Я равно 0,39 (или 39%), а скорректированного коэффициента детерминации Я а равно 0,32 (или 32%). Таким образом, в величине прогноза параметра PWC, многофакторная модель обосновывает 32% дисперсии.

Оценим качество модели с помощью стандартной ошибки оценки Б £, вычисляемой по формуле [2-7]:

& =

I (У, - У, )2

(10)

п - к -1

Для шестнадцатилетних мальчиков, вычисленный результат значения стандартной ошибки оценки Б £ равен 2,428. В таблице 4 приведены выводы регрессионного анализа.

Таблица. 4. Регрессионный вывод для 16 - летних мальчиков

Модель Я Я2 Я2а Стандартная ошибка оценки

16 мальчиков 0,625 0,390 0,322 2,428

В таблице 5 иллюстрированы вычисленные результаты коэффициентов регрессии, величины т-статистики и т.д. По таблице можем создать регрессионную модель, используя соотношение (2). В этом случае проверяются вычисленные величины коэффициентов регрессии, которые являются статистическими значимыми. Для ответа на поставленный вопрос

использовались следующие показатели: стандартная ошибка каждого из коэффициентов регрессии, т - статистика и Р - значение (Р-уа1ие), которые очень важны для проверки гипотез значимости каждого из коэффициентов. Для проверки гипотез на самом деле нужно знать значение т -статистики каждого коэффициента, поскольку т - статистика позволяет проверить значимости каждого из коэффициентов регрессии [1-7]. В частности, т - статистику для каждого коэффициентов можно вычислить с помощью стандартной ошибки каждого из коэффициента регрессии. Следовательно, в первую очередь нужно вычислить стандартные ошибки коэффициентов регрессии. Для вычисления стандартной ошибки коэффициентов Ьо, Ъх, ... , Ьц используется формула [1-7]

^ (ь) = у/ .()—1, (11)

X Ж

где = -——, (12)

п — к — 1

8(Ь) - стандартная ошибка регрессионных коэффициентов, (Хт X)—обратная матрица, у ^

- измеряемые значения PWC (зависимая переменная), у - г-ое предсказанное значение параметра PWC, (/=1,...,п), к - степень свободы регрессии или число регрессоров, п - количество наблюдений.

Затем можно вычислить т-статистику для каждого коэффициента по формуле [1-6]

/7 Ч Ь

*(Ь ) = V' (13)

где *(Ь) - т-статистика одного коэффициента, Ь - коэффициент регрессии, 8Ь - стандартная ошибка

коэффициента регрессии.

Для проверки гипотез значимости коэффициента будем использовать критерий Стьюдента. В нашем случае использование критерия Стьюдента (Т-критерия) сводится к сравнению значении т-статистики со значение Т-критерий в Т-таблице [2-8]. В случае если вычисленное т-значение больше или равно критическому значению Т в Т-таблице, можно сделать вывод, что регрессионный коэффициент является статистическим значимым.

В таблице 5 значения т-статистики (1;Ъ1,Ъ2,Ъ3,Ъ6,Ъ12) по сравнению со значением Т-критерия (1табл = 1,645 (п=120, а=0,05%)) получаются большими. Соответственно коэффициенты т-статистики являются статистическими значимыми. И коэффициенты т-статистики соответствуют следующим физиологическим параметрам: жизненная емкость легких, частота сердечных сокращений, систолическое артериальное давление, весоростовой коэффициент и тест Руфье (приседание). Также рассмотрена проверка мультиколлинеарности в таблице 5. В этом случае

мультиколлинеарность представляет собой статистический феномен, в котором два или более регрессоров сильно коррелируют в модели множественной регрессии. Для этого проверяется мультиколлинеарность с использованием VIF (Variance Inflation Factor). Если VIF больше пяти, то мультиколлинеарность существует в модели, которая является не правильной. Все величины VIF меньше пяти. Поэтому мультиколлинеарность отсутствует в модели. Для вычисления VIF можно использовать формулу [7]

^ S2Xj (п -1)Sb2

VIF =-XS2-' (14)

ост

где VIF - отклонение коэффициента инфляции (Variance Inflation Factor), Sx - стандартное отклонение xj , Sb - стандартная ошибка коэффициента регрессии, S2ocm - средне-квадратическая остаточная.

Для группы из 120 мальчиков шестнадцать лет были вычислены коэффициенты bo .. b12 с использованием формулой (4). В таблице 5 приведены вычисленные результаты стандартных ошибок коэффициентов регрессии, т-статистики , P-value и коллинеарность для 16 - летних мальчиков.

Таблица. 5. Коэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т - статистики , P-value и коллинеарность для 16 - летних мальчиков

коэффициенты стандартные ошибки т-статистики P-value Коллинеарность статистика

толерантность VIF

Констант bo= 19,7322 3,3330 5,9203 0,0000

ЖЕЛ bi= 0,0007 0,0004 1,8409 0,0684 0,691 1,448

ЧСС b2= -0,0634 0,0179 -3,5453 0,0006 0,896 1,116

АД-С b3= 0,0388 0,0206 1,8862 0,0620 0,727 1,375

АД-Д b4= -0,0070 0,0305 -0,2296 0,8188 0,739 1,352

гипокс. b5= -0,0054 0,0104 -0,5245 0,6010 0,857 1,167

Кетле b6= -0,0089 0,0053 -1,6870 0,0945 0,747 1,338

гибк. b7= -0,0066 0,0297 -0,2234 0,8237 0,911 1,098

коорд b8= 0,0507 0,0585 0,8681 0,3873 0,936 1,068

ЗРД b9= 0,0050 0,0312 0,1598 0,8733 0,844 1,185

отжим bi0= 0,0379 0,0291 1,3024 0,1956 0,662 1,510

пресс b11= 0,0077 0,0443 0,1744 0,8619 0,700 1,429

Руфье bi2= -0,6635 0,1015 -6,5345 0,0000 0,940 1,064

Уравнение для предсказания значения параметра PWC согласно таблице 5 и формуле (2) имеет вид

y = 19.7322 + 0.0007( ЖЕЛ ) - 0.0634(ЧСС) + 0.0388( АДС ) - 0.0070( АДД ) —0.0054(Гипокс) - 0.0089(Кетле) - 0.0066(Гибк) + 0.0507(Коорд) (15)

+0.0050(ЗРД) + 0.0379(Отжим) + 0.0077(Пресс) - 0.6635(Руфье),

где y - предсказанное значение параметра PWC, xi - независимые переменные (таблица 1).

В этом случае без использования незначимых параметров перезапускаем регрессию. Предлагается, что модель со всеми предикторами называется полной моделью. А модель, которая содержит лишь некоторые из этих предсказателей, называется уменьшенной моделью. После перезапуска регрессии рассматривается значимость модели.

В таблице 6 видно, что F - статистика равна 20,4478 и нужно сравнить с F критерий в F таблице распределения. Значение F-статистики (20,4478) больше чем, значение F-ибл. (2,682). Соответственно, будем считать, что можно отвергнуть нулевую гипотезу и уменьшенная регрессионная модель является статистической значимой.

Кроме того, для изменчивости модели рассмотрим вычисленное значение скорректированного коэффициента детерминации R2a. В таблице 7 показано, что значение R2a равно 0,328 (32,8%), уравнение регрессии составляет 32,8% дисперсии результативного признака.

В таблице 8 представлены вычисленные регрессионные коэффициенты для модели, с помощью которых получается регрессионная модель (16), используя соотношение (4). После этого выполняется проверка гипотезы для коэффициента регрессии. В таблице 8 т - статистики всех коэффициентов b больше 1табл = 1,645 (n=120, а=0,05%). Следовательно, все коэффициенты являются статистическими значимыми. Проверяются мультиколлинеарности для уменьшенной модели (таб.8), все величины VIF меньше чем пять. Соответственно, мультиколлинеарность отсутствует в модели. В таблицах 6, 7 и 8 приведены результаты для уменьшенной регрессионной модели.

Таблица. 6. Результаты дисперсионного анализа (ANOVA) для 16 -летних мальчиков

Степень свободы Сумма квадратов Дисперсия на степень свободы (среднее квадратов) F Значимость F

Факторная (Регрессии) 3 358,2573 119,4191 20,4478 0,0000

Остаточная 116 677,4613 5,8402

Общая 119 1035,7187

Таблица. 7. Результаты регрессионной оценки для 16 - летних мальчиков

Модель Я Я2 Я2а Стандартная ошибка оценки

16 мальчиков 0,588 0,345 0,328 2,416

Таблица. 8. Коэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т-статистики , Р-уа1ие и коллинеарность для 16 - летних мальчиков

коэффициен ты стандартные ошибки т-статистики Р- уа1ие Коллинеарность статистика

Толерантность УШ

Констант Ь0= 19,7489 2,6759 7,3801 0,0000

ЧСС Ь1= -0,0699 0,0170 -4,1060 0,0001 0,979 1.022

АД-С Ь2= 0,0389 0,0176 2,2118 0,0289 0,985 1.016

Руфье Ь3= -0,6590 0,0974 -6,7667 0,0000 0,993 1.007

Уравнение для предсказания значения параметра PWC согласно таблице 8 и формуле (2) имеет вид

у = 19.7489 - 0.0699(ЧСС) + 0.0389( АДС) - 0.6590(Руфье). (16)

По результатам сравнения полной модели с уменьшенной моделью (17) оказывается, что уменьшенная модель является лучше полной модели.

(Ж - )/а

т-г _ V полная уменьшенная' 1

* = №Ё ■ (17)

полная

Здесь ББЯ - сумма квадратов регрессии, МББ - среднеквадратическая остаточная, д - разница между количествами регрессоров из двух модели.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

З.Анализ остатков

Проанализированы остатки уменьшенной модели. Для проверки анализа остаток рассматривается стандартизированная остаточная гистограмма, в которой показаны остатки нормального распределения и общая форма является приемлемой. Применяя результаты тестов по математическому подходу Колмогорова-Смирнова и 8Ьар1го^11к (таб.9) то есть величины значимости больше чем 0,05, починяются остатки по нормальному распределению. На рис. 3 приведены результаты проверки нормальности остатков.

Рис 3. Гистограмма стандартизированных остатков Таблица. 9. Результаты тестов Колмогорова Смирнова и 8Ьар1го^Пк

Колмогоров-Смирнов ЗЬарго^Пк

Статистика Значимость. Статистика Значимость

Стьюдентизированные остаточные 0,056 120 * 0,200 0,991 120 0,651

Стандартизированные остаточные 0,055 120 * 0,200 0,991 120 0,665

Рассмотрим привертку гетероскедастичность модели. Под гетероскедастичностью понимают неравные дисперсии остаток модели (проблема в дисперсии остатков). В противном случае гетероскедастичность отсутствует гомоскедастичность, т.е равные дисперсии остаток. Можно проверить гетероскедастичность с использованием теста Бройша Пагана, теста Голдфелда, Уайта, Коэнкера и.т.д. Рассматривая точечную диаграмму по диаграмме 4 для проверки гетероскедастичности остатков, в этой остаточной точечной диаграммы отсутствует шаблон. Если проверить гетероскедастичность с помощью теста Бройша Пагана, т.е по математическому подходу, остаточный квадрат от регрессионной модели становится зависимой переменной. И запускаем регрессионный анализ с остаточным квадратом и регрессорами уменьшенной модели. Получена величина Бройша Пагана по умножению количества наблюдений на полученный коэффициент детерминации. После вычисления, сравнивая величину Бройша Пагана с критерием хи-квадрат в таблице распределения хи-квадрата, получим величину Бройша Пагана = 3,442 и критерий хи-квадрат в таблице = 7,815. Очевидно, что величина Бройша Пагана меньше критерия хи-квадрат, что означает, отсутствует гетероскедастичность в уменьшенной регрессионной модели. На рис 4 приведена точечная диаграмма стандартизированных остатков для проверки гетероскедастичности.

Точечная диаграмма стандартизированных остатков

Введем автокорреляцию, т.е статистическая взаимосвязь между последовательностями величин одного ряда, взятых со сдвигом, например, для случайного процесса со сдвигом по времени. В этом случае, используем тест Дарбина Уотсона для обнаружения автокорреляции. Если остаточный et связан с наблюдением в момент времени T, можно записать тест статистики вида

d = (18) Е e2t

Lut-1 t

где Т-число наблюдений, et - остатки регрессионной модели.

Для проверки положительной автокорреляции на значении а тестовая статистика d по сравнению с нижним и верхним критическим значением из таблицы Дарбина Уотсона (dL,a and du,a) должна удовлетворять условиям:

• если d <dL, при а=0,05, имеется статистические доказательства, что ошибки терминов положительно автокоррелированы;

• если d >du, при а=0,05, отсутствуют статистические доказательства того, что ошибки терминов положительно автокоррелированы;

• если dL, а < d < du, при а=0,05, тест является не решенным.

Таким образом, по тесту Дарбина Уотсона d = 2,057 и в таблице указывается d нижняя =1,584 , d верхняя = 1,665 для трех степеней свободы. Поэтому величина Дарбина Уотсона d > d верхняя и можно считать, что положительная автокорреляция отсутствует в модели.

В результате можно сделать вывод, что по проверке гипотеза данной статьи (F-тест, t-тест, и.т.д) модель множественной регрессии физической работоспособности шестнадцатилетних мальчиков является полезной и найдено применение для оценки состояния здоровья подростков.

Даже независимые и зависимые переменные имеют слабую корреляцию. Другие регрессионные модели для 14 -, 15 - и 17 - летних мальчиков также позволяют получить аналогичные результаты.

3. Заключение

Для прогнозирования физического здоровья мальчиков выбран метод множественного регрессионного анализа статистики, который позволяет проводить анализ многофакторных статистических моделей. Разработаны математические и статистические модели для прогнозирования физического здоровья мальчиков в возрасте от четырнадцати до семнадцати лет. Определены значимые параметры для математических моделей прогнозирования, с помощью которых можно быстро и эффективно оценить физическое здоровье мальчиков в возрасте от четырнадцати до семнадцати лет. По результатам регрессионного анализа регрессионные модели мальчиков в возрасте от четырнадцати до семнадцати лет являются статистически значимыми и могут быть использованы при оценке состояния здоровья. Найдены значимые параметры для оценки физической работоспособности прогнозирования физического здоровья мальчиков в возрасте от четырнадцати до семнадцати лет.

Список литературы

1. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.448с.

2. Edelmann-Nusser J., Hohmann A., Bugner J., Witte K. Modeling performance upon neural networks // In: Current trends in performance analysis: World Congress of Performance Analysis of Sport. Aachen: Shaker, 2009. P.349-357.

3. Корнеева И.Т., Поляков С.Д., Гоготова В.Л., Петричук С.В., Дворяковская Г.М., Дворяковский И.И., Изотова И.Н. Математические подходы оценки адаптации кардиогемодинамики в зависимости от активности клеточных дегидрогеназ лимфоцитов крови у юных спортсменов // Лечебная физкультура и спортивная медицина. 2009. № 9. С. 28-32.

4. Горяинов В.Б., Павлов И.В., Цветкова Г.М., Тескин О.И. Математическая статистика: учеб. для вузов. 2-е изд., стер. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. 424 с. (Сер. Математика в техническом университете; вып. XVII).

5. Rawlings J.O., Pentula S.G., Dickey D.A. Applied regression analysis. A research tool. 2nd ed. Springer-Verlag, 1998. 659 p. (Ser. Springer texts in statistics).

6. Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2005. 414 p.

7. Kam C.D., Franzitsi Jr. R.J. Modeling and interpreting interactive hypotheses in regression analysis. University of Michigan Press, 2009. 168 p.

8. Chatterjee S., Hadi A.S. Regression analysis by example. 4th ed. Wiley, 2006. 366 p. (Wiley series in probability and statistics).

rd

9. Pedhazur E.J. Multiple regression in behavioral research: Explanation and prediction. 3 ed. Thomson Learning, 1997. 1072 p.

10. Hoffmann J.P. Linear Regression Analysis: Assumptions and Applications. Department of Sociology Brigham Young University, 2005. 259 p.

11. Six sigma online. Режим доступа: http://sixsigmaonline.ru/load/24-1 -0-210 (дата обращения 20.11.2013).

12. Google document Т-таблица. Режим доступа:

https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sj su.edu/faculty/gerstman/StatPrim er/t-table.pdf (дата обращения 20.11.2013).

13. Statistics Online Computational Resource (SOCR). Режим доступа: http://socr.ucla.edu/Applets.dir/F_Table.html (дата обращения 20.11.2013)

Народный СпортПарк. Режим доступа: http://sportpark.ru/ (дата обращения 20.11.2013).

SCIENTIFIC PERIODICAL OF THE BAUMAN MS TU

SCIENCE and EDUCATION

EL № FS77 - 48211. №0421200025. ISSN 1994-0408

electronic scientific and technical journal

Research and analyze of physical health using multiple regression analysis

# 01, Januare 2014

DOI: 10.7463/0114.0696028

T.S. Kyi.

Bauman Moscow State Technical University, 105005, Moscow, Russian Federation

kyithar82@gmail .com

This paper represents the research which is trying to create a mathematical model of the "healthy people" using the method of regression analysis. The factors are the physical parameters of the person (such as heart rate, lung capacity, blood pressure, breath holding, weight height coefficient, flexibility of the spine, muscles of the shoulder belt, abdominal muscles, squatting, etc..), and the response variable is an indicator of physical working capacity. After performing multiple regression analysis, obtained useful multiple regression models that can predict the physical performance of boys the aged of fourteen to seventeen years. This paper represents the development of regression model for the sixteen year old boys and analyzed results.

Publications with keywords: correlation, dispersion analysis, regression model, t - statistic, F-statistic, coefficient of determination

Publications with words: correlation, dispersion analysis, regression model, t - statistic, F-statistic, coefficient of determination

References

1. Vapnik V.N. Vosstanovlenie zavisimostey po empiricheskim dannym [Restore dependency on empirical data]. Moscow, Nauka, 1979. 448 p. (in Russ.)

2. Edelmann-Nusser J., Hohmann A., Bugner J., Witte K. Modeling performance upon neural networks. In: Current trends in performance analysis: World Congress of Performance Analysis of Sport. Aachen, Shaker, 2009, pp.349-357.

3. Korneeva I.T., Polyakov S.D., Gogotova V.L., Petrichuk S.V., Dvoryakovskaya G.M., Dvoryakovskiy I.I., Izotova I.N. [Mathematical approaches of estimation adaptations of cardiohemodynamics in dependence on enzymatic activity of lymphocytes of blood of young sportsmen]. Lechebnaya fizkul'tura i sportivnaya meditsina, 2009, no. 9, pp. 28-32. (in Russ.)

4. Goryainov V.B., Pavlov I.V., Tsvetkova G.M., Teskin O.I. Matematicheskaya statistika [Mathematical statistics]. Moscow, Bauman MSTU Publ., 2002. 424 p. (Ser. Matematika v tekhnicheskom universitete [Mathematics at the technical University]; iss. 17). (in Russ.)

5. Rawlings J.O., Pentula S.G., Dickey D.A. Applied regression analysis. A research tool. 2nd ed. Springer-Verlag, 1998. 659 p. (Ser. Springer texts in statistics).

6. Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2005. 414 p.

7. Kam C.D., Franzitsi Jr. R.J. Modeling and interpreting interactive hypotheses in regression analysis. University of Michigan Press, 2009. 168 p.

8. Chatterjee S., Hadi A.S. Regression analysis by example. 4th ed. Wiley, 2006. 366 p. (Wiley series in probability and statistics).

rd

9. Pedhazur E.J. Multiple regression in behavioral research: Explanation and prediction. 3 ed. Thomson Learning, 1997. 1072 p.

10. Hoffmann J.P. Linear Regression Analysis: Assumptions and Applications. Department of Sociology Brigham Young University, 2005. 259 p.

11. Six Sigma online. Available at: http://sixsigmaonline.ru/load/24-1-0-210 , accessed 20.11.2013. (in Russ.)

12. Google document T-tablitsa [Google document T-table]. Available at:

https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sjsu.edu/faculty/gerstman/StatPrim er/t-table.pdf , accessed 20.11.2013.

13. Statistics Online Computational Resource (SOCR). Available at: http://socr.ucla.edu/Applets.dir/F_Table.html (дата обращения 20.11.2013)

14. Narodnyy SportPark [Halyk Sportpark]. Available at: http://sportpark.ru/ , accessed 20.11.2013. (in Russ.)

i Надоели баннеры? Вы всегда можете отключить рекламу.