Научная статья на тему 'Разработка математических моделей и программного обеспечения для физического здоровья человека'

Разработка математических моделей и программного обеспечения для физического здоровья человека Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
595
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННАЯ МОДЕЛЬ / КОРРЕЛЯЦИЯ / ДИСПЕРСИОННЫЙ АНАЛИЗ / Т -СТАТИСТИКА / FСТАТИСТИКА / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ / ГЕТЕРОСКЕДАСТИЧНОСТЬ / REGRESSION MODEL / CORRELATION / ANALYSIS OF VARIANCE / T STATISTICS / F-STATISTICS / THE COEFFICIENT OF DETERMINATION / HETEROSCEDASTICITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куи Тар Со

В статье представлены результаты исследований по созданию математической модели физического здоровья «здорового человека» методом регрессионного анализа, где в качестве факторов выступают физические параметры человека, а в качестве отклика показатель физической работоспособности. Уравнение регрессии строилось для каждой возрастной группы. После выполнения множественного регрессионного анализа получена множественная регрессионная модель, которая может предсказать физическую работоспособность для девушек в возрасте от четырнадцати до семнадцати лет. В статье приведены результаты анализа и разработка регрессионной модели для пятнадцатилетних девушек. Также представлены проверки гипотез для модели, т. е проверка значимости модели, значимости коэффициентов, гетероскедастичности, автокорреляции, мультиколлинеарности и нормальности. В результате для прогнозирования физического здоровья человека выбран метод множественного регрессионного анализа статистики, который позволяет проводить анализ многофакторных статистических моделей. Разработаны математические модели и программное обеспечение для прогнозирования физического здоровья девушек в возрасте от четырнадцати до семнадцати лет. Определены значимые параметры для математических моделей прогнозирования, с помощью которых быстро и эффективно можно оценить физическое здоровье девушек в возрасте от четырнадцати до семнадцати лет.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Куи Тар Со

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper presents results of research for the mathematical model of the physical health of a "healthy person” in the regression analysis, where the factors are the physical parameters of the person, and as a response an indicator of physical working capacity. The regression equations were constructed for each age group. After performing multiple regressions analysis obtained multiple regression models that can predict the physical working capacity for girls aged fourteen to seventeen years. Article shows the results of the analysis and development of the regression models and program software for the girls of fifteen. Also presents the hypotheses testing, ie checking the significance of the model, the significance of the coefficients, heteroscedasticity, autocorrelation, multicollinearity and normality. In conclusion, for the prediction of physical health method selected multiple regression statistics, which allows the analysis of multivariate statistical models. Defined the relevant parameters for the mathematical prediction models, with which you can quickly and efficiently assess the physical health of girls between the ages of fourteen to seventeen years.

Текст научной работы на тему «Разработка математических моделей и программного обеспечения для физического здоровья человека»

УДК 004.4, 519.2

05.13.17 - Теоретические основы информатики

Куи Тар Со

ФГБОУ ВПО " Московский Государственный Технический Университет им. Н.Э. Баумана"

Россия, Москва1

Аспирант кафедры "Информационные системы и телекоммуникации"

E-Mail: kyithar82@gmail. com

Разработка математических моделей и программного обеспечения для физического здоровья человека

Аннотация. В статье представлены результаты исследований по созданию математической модели физического здоровья «здорового человека» методом регрессионного анализа, где в качестве факторов выступают физические параметры человека, а в качестве отклика - показатель физической работоспособности. Уравнение регрессии строилось для каждой возрастной группы. После выполнения множественного регрессионного анализа получена множественная регрессионная модель, которая может предсказать физическую работоспособность для девушек в возрасте от четырнадцати до семнадцати лет. В статье приведены результаты анализа и разработка регрессионной модели для пятнадцатилетних девушек. Также представлены проверки гипотез для модели, т. е проверка значимости модели, значимости коэффициентов, гетероскедастичности, автокорреляции, мультиколлинеарности и нормальности. В результате для прогнозирования физического здоровья человека выбран метод множественного регрессионного анализа статистики, который позволяет проводить анализ многофакторных статистических моделей. Разработаны математические модели и программное обеспечение для прогнозирования физического здоровья девушек в возрасте от четырнадцати до семнадцати лет. Определены значимые параметры для математических моделей прогнозирования, с помощью которых быстро и эффективно можно оценить физическое здоровье девушек в возрасте от четырнадцати до семнадцати лет.

Ключевые слова: регрессионная модель; корреляция; дисперсионный анализ; т -статистика; F- статистика; коэффициент детерминации; гетероскедастичность.

Идентификационный номер статьи в журнале 37TVN314

105005 г. Москва, 2-я Бауманская ул., д. 5, стр. 1

Введение

Необходимость количественного измерения соматического здоровья, оценки его резервов приобретает особую актуальность в связи с реализуемым в настоящее время по инициативе Президента РФ национальным проектом «Здоровье». В Послании Федеральному собранию в 2005 году В.В.Путин отметил, что «необходимо возродить профилактику заболеваний как традицию российской медицинской школы»[12]. Иными словами, подтверждено, что предупреждение болезней и укрепление здоровье - самое главное, что должно занимать властные структуры, медицинскую науку и практическое здравоохранение. В связи с этим разрабатываемая система донозологического контроля физического здоровья и работоспособности с использованием показателей, хорошо понятных рядовым гражданам, может сыграть важную роль в перестройке общественного мировоззрения и формирования высокой культуры здоровья населения. Особую важность эта проблема приобретает в связи с поставленной 10 мая 2006 года Президентом в послании Федеральному собранию РФ важнейшей задачей - повышению рождаемости. Ни для кого не секрет, что произвести здоровое потомство могут только физически здоровые женщины и мужчины, ведущие здоровый образ жизни.

Существует много тестов для физического здоровья, однако отсутствуют модели прогнозирования в мире. На пример, в 2001 году Campbell PT, Katzmarzyk PT, Malina RM, Rао DC, Pérusse L, Bouchard C. разработаны модели прогнозирования физической активности и физической работоспособности (PWC150) в молодом возрасте с детства и подросткового возраста с учетом родительской меры в Норт-Йорке, Онтарио, Канада [13]. А также в 2003 году Trudeau F, Shephard RJ, Arsenault F, Laurencelle L. разработаны регрессионные модели для отслеживания физической подготовки с детства к взрослой жизни в Квебеке [14].

Целью работы является разработка статистических моделей для прогнозирования физического здоровья с использованием метода множественного регрессионного анализа для подростков в возрасте от 8 до 17 лет.

1. Метод анализа

В данной статье, будет представлена только модель для пятнадцатилетних девушек. Приведенный анализ 480 девушек в возрасте от 14 до 17 лет в медицинской компании «Народный Спорт Парк» [11] применен в данной работе. Выборка по каждой группе составляла 120 человек.

На основе полученных результатов анализа прогнозируем физическую работоспособность человека (PWC170/кг), которая является одной из важнейших компонентов физического здоровья человека, характеризующей способность организма эффективно выполнять большую мышечную работу и противостоять утомлению. Уровень общей выносливости определяется возможностями мышечной, дыхательной, сердечнососудистой, нервной, эндокринной систем, слаженность их работы при физических нагрузках и, в конечном счете, может служить обобщенной оценкой физического состояния организма.

После измерения морфологических и функциональных показателей физического здоровья человека проведен анализ полученных результатов. Предполагаем, что построить прогноз значений параметра PWC (физическая работоспособность) с помощью множественной регрессии. В этом случае необходимо выяснить математическую зависимость физической работоспособности человека от измеряемых морфологических и функциональных показателей.

В данном случае, для анализа используются двенадцать морфологических и функциональных показателей для группы девушек и мальчиков в возрасте от 14 до 17 лет, представленных в таблице 1.

Таблица 1

Параметры для регрессионного анализа

Символ Определение символа Сокращение Определения символов

Y отклик (PWC170- физическая работоспособность) кгм/кг в мин PWC170/кг

Х1 жизненная емкость легких, мл ЖЕЛ

Х2 пульс в покое (частота сердечных сокращений, уд/мин) ЧСС

Хз систолическое артериальное давление, мм.рт.ст. АД-С

Х4 диастолическое артериальное давление, мм.рт.ст. АД-Д

Х5 задержка дыхания, сек Гипокс.

Х6 весоростовой коэффициент (Кетле), гр/см Кетле

Х7 гибкость позвоночника, см Гибк.

Х8 координация движения (бросание в стену теннисных мячей, количество пойманных мячей из 6) Коорд

Х9 зрительно-двигательная реакция (тест с падающей линейкой, см) ЗРД

х10 мышцы плечевого пояса (отжимание) Отжим

Хц мышцы брюшного пресса (пресс) Пресс

х12 тест Руфье (приседание) Руфье

В работе используется множественный регрессионный анализ для оценки физической работоспособности. Регрессионный анализ является методом моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель имеет функцию независимой переменной и параметров с добавленной случайной переменной. Множественная регрессионная модель населения представляет в следующем виде:

Х=Во+В1Х1+Б2Х2+...+БпХп+^ (1)

где Y - отклик (зависимая переменная), Bo - оценка постоянной составляющей, Bi - /-ый коэффициент множественной регрессии, X; - /-ая независимая переменная, е - ошибка; (1=0,1,..,п).

В матричной форме множественная регрессионная модель имеет вид:

Г = ХВ + е, (2)

где У — вектор столбец наблюдений, размерность т*1;

Х — матрица независимых переменных, размерность т*п;

В — вектор столбец параметров, подлежащих оцениванию, размерность п*1 (коэффициентов регрессии);

8 — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков).

Оборудованная множественная регрессионная модель имеет вид:

Ä = Ь0 + bl X1 + b2 X2 + ••• + bnxn

и1л1^ W (3)

в матричном виде:

Y = Xß. (4)

Для получения коэффициентов регрессии нужно использовать метод наименьших квадратов, Метод основан на минимизации суммы квадратов остатков регрессии. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии, получается, по формуле:

ß = (XTX) XTY, (5)

где XT - транспонированная матрица независимых переменных, (XTX) 1 - обратная матрица, Y - вектор измерений.

2. Регрессионный анализ для пятнадцатилетних девушек

Запускаем регрессионный анализ (использовано программное обеспечение MS Excel и SPSS) и рассмотрим приведенные результаты анализа для 120-ти пятнадцатилетних девушек. В этом случае после вычисления результатов регрессионного анализа, в первую очередь, нужно проверить, что полученная модель является статистически значимой. Для этого можно использовать метод дисперсионного анализа. Напомним, что дисперсионный анализ позволяет выявить зависимости в экспериментальных данных путём исследования значимости различий в средних значениях.

В соответствии с дисперсионного анализа, выяснить полезность линии регрессии можно с помощью величины F - статистики. F - статистика является отношением объясненной дисперсии (среднеквадратическая регрессия) и необъясненной дисперсии (среднеквадратическая ошибка). В этом случае объясненную дисперсию или среднеквадратическую регрессию (MSR - Mean Squared Regression) можно вычислить по формуле [1-7]

п

Е (У - у )2

MSR = -. (6)

k

Необъясненная дисперсия или среднеквадратическая ошибка (MSE- Mean Squared Error) вычисляет по формуле [1 -7]

п

Е (у- - У )2

MSE = -. (7)

п - к -1

Здесь MSR - среднеквадратическая регрессия (объясненная дисперсия), MSE -среднеквадратическая ошибка (необъясненная дисперсия), y - i-ая зависимая переменная

PWC, у - i-ое предсказанное значение параметра, y - среднее значение зависимой переменной, к - количество регрессоров, n - количество наблюдения; (i=0,1,...,n).

Величину F- статистику можно вычислить по формуле [2-7]

, ■ ^' У !к (ИЛИ) ,.

X (у - у )2ЛИ - к-1)

Ы8Е

(8)

Для проверки значимости модели будем использовать F таблицы распределения (Б-распределения Фишера). В данном случае, использование Б - критерия сводится к сравнению величины Б - статистики со значением Б - критерий в Б - таблице. В случае если вычисленная величина Б - статистики больше или равна критической величине Б - критерий в Б - таблице. Отсюда следует, что регрессионная модель становится статистически значимой. В таблице 2 приведены результаты дисперсионного анализа.

Таблица. 2

Дисперсионный анализ (ANOVA) для 15 - летних девушек

АШУА

Степень свободы сумма квадратов Дисперсия на степень свободы (среднее квадратов) Б Значимость Б

Регрессия 12 246.4964473 20.5413706 4.7144844 0.0000039

Ошибка 107 466.2072194 4.3570768

Общий 119 712.7036667

Таким образом, для множественной регрессионной модели пятнадцатилетних девушек вычисленная Б- статистика равна 4,7168, и из Б-таблицы распределения Б - критерия равна 1,8337 [10]. Соответственно величина Б - статистики больше чем, величина Б - критерия в Б -таблице распределения, и что регрессионная модель является статистической значимой и полезной.

Попробуем количественно оценить, насколько полезна полученная множественная регрессионная модель для прогнозирования параметра PWC, другими словами, какую часть в величине прогноза параметра PWC обосновывает множественная регрессионная модель.

Для указанного количественного оценивания полезности полученной множественной регрессионной модели была исследована попытка воспользоваться коэффициентом детерминации Я2 [2-7]. Для того чтобы была возможность сравнивать модели с разным числом факторов, так чтобы число факторов (регрессоров) не влияло на значение Я2, обычно используется скорректированный коэффициент детерминации. Коэффициент детерминации Я2 и скорректированный коэффициент детерминации Я2а можно вычислить по формулам

Я2 ■-

XX (У - У)2

¿■1_

п

X (у* - У)2

(9)

к 2 ■ 1 - ((-пгЧ )(1 - к 2

п - к -1

(10)

где у - /-ая зависимая переменная PWC, у - /-ое предсказанное значение параметра, у

- среднее значение зависимой переменной, к - количество регрессоров, п - количество наблюдения; (1=0,1,...,п). Для пятнадцатилетних девушек, скорректированного коэффициента

¿■1

детерминации Я2а равно 0,27 (или 27%). Таким образом, в величине прогноза параметра PWC многофакторная модель обосновывает 27% дисперсии.

Оценим качество модели с помощью стандартной ошибки оценки , вычисляемой по формуле [2-7]

Я

1

I (у, - У, )2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

,=1

п - к-1

(11)

Для пятнадцатилетних девушек, вычисленное значение стандартной ошибки оценки равно 2,087. В таблице 3 приведены выводы регрессионного анализа.

Таблица 3

Регрессионный вывод для 15 летних девушек

Модель Я Я2 Я2а Стандартная ошибка оценки

15 девочек 0,588 0,346 0,272 2.08736

В таблице 4 иллюстрированы вычисленные результаты коэффициентов регрессии, величины т-статистики и т.д. По таблице можем создать регрессионную модель, используя соотношение (3). В этом случае проверяются вычисленные величины коэффициентов регрессии, которые являются статистическими значимыми. Для ответа на поставленный вопрос использовались следующие показатели: стандартная ошибка каждого из коэффициентов регрессии, т - статистика и Р - значение (Р-уа1ие), которые очень важны для проверки гипотез значимости каждого из коэффициентов. Для проверки гипотез на самом деле нужно знать значение т - статистики каждого коэффициента, поскольку т - статистика позволяет проверить значимости каждого из коэффициентов регрессии [1-7]. В частности, т - статистику для каждого коэффициентов можно вычислить с помощью стандартной ошибки каждого из коэффициента регрессии. Следовательно, в первую очередь нужно вычислить стандартные ошибки коэффициентов регрессии. Для вычисления стандартной ошибки коэффициентов Ьо, Ь1з ..., Ь12 используется формула [1-7]

Я (Ь) = 4$2лХТХу

(12)

где

Я

2

ост

I (У - У )2

,=1_

п - к -1

(13)

Здесь 8(Ъ) - стандартная ошибка регрессионных коэффициентов, (ХТ X) 1 - обратная матрица, у • - измеряемые значения PWC (зависимая переменная), у - /-ое предсказанное

значение параметра PWC, (/=1,.. ,,п), к - степень свободы регрессии или число регрессоров, п -количество наблюдений.

Затем можно вычислить т-статистику для каждого коэффициента по формуле [1-6]

п

(14)

где t(b) - т - статистика одного коэффициента, b - коэффициент регрессии, Sb -стандартная ошибка коэффициента регрессии.

Для проверки гипотез значимости коэффициента будем использовать критерий Стьюдента. В нашем случае использование критерия Стьюдента (Т-критерия) сводится к сравнению значении т-статистики со значение Т-критерий в Т-таблице [2-8]. В случае, если вычисленное т-значение больше или равно критическому значению Т в Т-таблице, можно сделать вывод, что регрессионный коэффициент является статистическим значимым.

В таблице 4 значения т-статистики (tb2,b6,b8,b9,bii,bi2) по сравнению со значением Т-критерия (Ьгабл = 1,646 (n=120, а=0,05%)) получаются большими[9]. Соответственно, эти коэффициенты (b2, b6, b8, b9, bii и bi2) т -статистики являются статистическими значимыми.

Также рассмотрена проверка мультиколлинеарности в таблице 4. В этом случае мультиколлинеарность представляет собой статистический феномен, в котором два или более регрессоров сильно коррелируют в модели множественной регрессии. Проведен анализ мультиколлинеарности с помощью метода VIF (Variance Inflation Factor). При VIF больше пяти мультиколлинеарность существует в модели и она не является правильной. Все величины VIF меньше пяти. Поэтому мультиколлинеарность отсутствует в модели. Для вычисления VIF можно использовать формулу [7]

где VIF - отклонение коэффициента инфляции (Variance Inflation Factor), Sx -

стандартное отклонение xj, Sbj - стандартная ошибка коэффициента регрессии, S2ocm - средне-

квадратическая остаточная.

Для группы из 120 девушек пятнадцать лет были вычислены коэффициенты bo .. bi2 с использованием формулой (5). В таблице 4 приведены вычисленные коэффициенты, стандартные ошибки коэффициентов регрессии, т-статистики, P-value и коллинеарность для пятнадцатилетних девушек.

VIF. =

S2 (n -1) Sb2

(i5)

ост

Таблица 4

Коэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т-статистики, Р-уа1ие и коллинеарность для 15 летних девушек

коэффици енты стандар тные ошибки т- статист ики Р- уа1ив Коллинеарность статистика

толерант ность УШ

Констан т Ь0=18,6596 2,7881 6,6926 0,0000

ЖЕЛ Ь1=0,0003 0,0004 0,7374 0,4625 0,816 1,225

ЧСС Ь2=-0,0305 0,0169 -1,8073 0,0735 0,888 1,126

АД-С Ьэ=-0,0135 0,0203 -0,6623 0,5092 0,551 1,813

АД-Д Ь4=-0,0073 0,0310 -0,2346 0,8150 0,504 1,983

гипокс Ь5=0,0097 0,0110 0,8793 0,3812 0,889 1,124

Кетле Ь6=-0,0091 0,0043 -2,1235 0,0360 0,788 1,269

гибк Ьу=0,0233 0,0274 0,8512 0,3966 0,892 1,121

коорд Ь8=-0,0474 0,0272 -1,7402 0,0847 0,917 1,090

ЗРД Ь9=0,0564 0,0257 2,1937 0,0304 0,871 1,149

отжим Ью=-0,0072 0,0244 -0,2939 0,7694 0,824 1,214

пресс Ьп=0,0626 0,0354 1,7695 0,0797 0,853 1,172

Руфье Ь12=-0,4089 0,0858 -4,7652 0,0000 0,905 1,105

Уравнение для предсказания значения параметра PWC по таблице 4 и формуле (3) имеет

вид:

У = 18,6596 + 0,0003х - 0,0305х - 0,0135х - 0,0073х + 0,0097х -

12345 (16) 0,0091х6 + 0,0233х - 0,0474х8 + 0,0564х9 - 0,0072х1С1 + 0,0626хп - 0,4089х12,

где у - предсказанное значение параметра PWC, х - независимые переменные (таблица 1).

После получения регрессионной модели, в соответствии с тестированием т - статистики, пренебрегаем незначимые параметры. Поэтому без использования незначимых параметров перезапускаем регрессию. Считаем, что модель со всеми предикторами - полная модель. А модель, которая содержит лишь некоторые из этих предсказателей, называется уменьшенной моделью. После перезапуска регрессии рассматривается значимость модели.

В таблице 5 видно, что F - статистика равна 9,157 и сравним с F критерий в F таблице распределения. Значение F-статистики (9,157) больше чем, значение Бтабл. (2,175). Соответственно, будем считать, что можно отвергнуть нулевую гипотезу. Уменьшенная регрессионная модель является статистической значимой.

Таблица 5

Дисперсионный анализ для 15 летних девочек

ANOVA

Степень сумма Дисперсия на степень свободы

свободы квадратов (среднее квадратов) F Значимость F

Регрессия 6 233.167 38.861 9.157 0.000

Ошибка 113 479.537 4.244

Общий 119 712.704

Кроме того, для изменчивости модели рассмотрим вычисленное значение скорректированного коэффициента детерминации Я2а. В таблице 6 показано, что значение R2a равно 0,291 (29,1%), уравнение регрессии составляет 29,1% дисперсии результативного признака.

Таблица 6

Регрессионный вывод для 15 летних девочек

Модель R R2 R2a Стандартная ошибка оценки

15 девушек 0,572 0,327 0,291 2.06002

В таблице 7 представлены вычисленные регрессионные коэффициенты для уменьшенной модели, с помощью которых получается регрессионная модель (17), используя соотношение (3). После этого выполняется проверка гипотезы для коэффициента регрессии. В таблице 8т- статистики всех коэффициентов bi больше ^абл = 1,645 (n=120, а=0,05%). Следовательно, все коэффициенты являются статистическими значимыми. Проверяются мультиколлинеарности для уменьшенной модели (таб.8), все величины VIF меньше чем пять. Соответственно, мультиколлинеарность отсутствует в модели.

Таблица 7

Коэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т-статистики, P-value и коллинеарность для 15 летних девочек

коэффициенты стандартные ошибки т-статистики P-value Коллинеарност ь статистика

толерантност ь VIF

Констант b0=18,6021 2,2141 8,4018 0,0000

ЧСС b1=-0,0347 0,0160 -2,1705 0,0321 0,965 1,037

Кетле b2=-0,0096 0,0039 -2,4603 0,0154 0,942 1,061

коорд Ьэ=-0,0516 0,0262 -1,9717 0,0511 0,966 1,035

ЗРД b4=0,0584 0,0243 2,4002 0,0180 0,946 1,057

пресс b5=0,0614 0,0332 1,8515 0,0667 0,946 1,057

Руфье b6=-0,4216 0,0808 -5,2179 0,0000 0,994 1,006

Уравнение для предсказания значения формуле(З) имеет вид:

параметра PWC согласно таблице 7 и по

у = 18,6021 - 0,0347% - 0,0096^ - 0,0516х3 + 0,05 84х4 + 0,0614х5 - 0,4216^, (17)

где у - предсказанное значение параметра PWC, х1 - независимые переменные (таблица 1).

По результатам сравнения полной модели (16) с уменьшенной моделью (17) оказывается, что уменьшенная модель лучше полной модели. Для сравнения двух моделей с помощью формулы (теста Multiple Partial F):

Здесь ББЯ - сумма квадратов регрессии, МББ - среднеквадратическая остаточная, д -разница между количествами регрессоров из двух модели.

3. Анализ остатков

Проанализированы остатки уменьшенной модели. Для проверки анализа остаток рассматривается стандартизированная остаточная гистограмма, в которой показаны остатки нормального распределения и общая форма является приемлемой. Применяя результаты тестов по математическому подходу Колмогорова-Смирнова и Shapiro-Wilk (таб.8) то есть величины значимости больше чем 0,05, починяются остатки по нормальному распределению. На рис. 1 приведены результаты проверки нормальности остатков.

уменьшенная

)/q

(18)

MSE,

полная

Гистограмма, Зависимая переменная: PWC170/et

Рис. 1. Гистограмма стандартизированных остатков

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 8

Результаты тестов Колмогорова Смирнова и Shapiro-Wilk.

Проверка нормальности остаток по математическому подходу

Колмогоров-Смирнов Shapiro-Wi к

Статистика Значимость. Статистика Значимость

Стьюдентизированные остаточные 0,071 120 0,200 0,982 120 0,112

Стандартизированные остаточные 0,072 120 0,196 0,981 120 0,091

Рассмотрим провертку гетероскедастичность модели. Под гетероскедастичностью понимают неравные дисперсии остатков модели (проблема в дисперсии остатков). В противном случае гетероскедастичность отсутствует гомоскедастичность, т.е равные дисперсии остатков. Можно проверить гетероскедастичность с использованием теста Бройша Пагана, теста Голдфелда, Уайта, Коэнкера и.т.д. Рассматривая точечную диаграмму (рис 3) для проверки гетероскедастичности остатков, в этой остаточной точечной диаграммы отсутствует шаблон. После вычисления, сравнивая величину Бройша Пагана с критерием хи-квадрат в таблице распределения хи-квадрата, получим величину Бройша Пагана = 10,498 и в таблице критическая величина хи-квадрата = 12,592.

Очевидно, что величина Бройша Пагана меньше критерия хи-квадрат, что означает, отсутствует гетероскедастичность в уменьшенной регрессионной модели. На рис 2 приведена точечная диаграмма стандартизированных остатков для проверки гетероскедастичности.

Рис. 2. Точечная диаграмма остатков для15 летних девочек

Введем автокорреляцию, т.е статистическую взаимосвязь между последовательностями величин одного ряда, взятых со сдвигом, например, для случайного процесса со сдвигом по времени. В этом случае, используем тест Дарбина Уотсона для обнаружения автокорреляции. Если остаточный ег связан с наблюдением в момент времени Т, можно записать тест статистики вида

d = £¿2%-!^, (19)

£ !

¿—it-1 *

где Т-число наблюдений, et - остатки регрессионной модели.

Для проверки положительной автокорреляции на значении а тестовая статистика d по сравнению с нижним и верхним критическим значением из таблицы Дарбина Уотсона (dL,a and du,a) должна удовлетворять следующим условиям:

• если d <di, при а=0,05, то имеется статистические доказательства, что в остатках есть положительная автокорреляция;

• если d >du, при а=0,05, то отсутствуют статистические доказательства того, что в остатках нет автокорреляции;

• если di, а < d < du, при а=0,05, то тест является не решенным (тест считается не прошедшим).

Таким образом, по тесту Дарбина Уотсона d = 2,238 и в таблице указывается d нижняя =1,651, d верхняя = 1,817 для шести степеней свободы. Поэтому величина Дарбина Уотсона d > d верхняя и можно считать, что положительная автокорреляция отсутствует в модели.

В результате получим, что после проверки гипотезы сформулированной в данной статье (F-тест, t-тест, и.т.д) модель множественной регрессии физической работоспособности пятнадцатилетних девушек является полезной и найдено применение для оценки состояния здоровья подростков. Даже независимые и зависимые переменные имеют слабую корреляцию. Другие регрессионные модели для 14, 15 и 17 летних девушек также позволяют получить аналогичные результаты.

Заключение

Для прогнозирования физического здоровья человека выбран метод множественного регрессионного анализа статистики, который позволяет проводить анализ многофакторных статистических моделей. Разработаны математические и статистические модели для прогнозирования физического здоровья девушек в возрасте от четырнадцати до семнадцати лет. Определены значимые параметры для математических моделей прогнозирования, с помощью которых быстро и эффективно можно оценить физическое здоровье девушек в возрасте от четырнадцати до семнадцати лет. По результатам регрессионного анализа регрессионные модели девушек в возрасте от четырнадцати до семнадцати лет являются статистически значимыми и могут быть использованы при оценке состояния здоровья. Найдены значимые параметры для оценки физической работоспособности прогнозирования физического здоровья девушек в возрасте от четырнадцати до семнадцати лет.

ЛИТЕРАТУРА

1. Математическая статистика: Учеб. Для вузов /В.Б. Горянинов, И.В. Павлов, Г.М. Крищенко. -2-е изд., стереотип. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. - 424 с. (Сер. Математика в техническом университете; Вы. XVII).

2. Applied regression analysis: a research tool. - 2nd ed. / John O. Rawlings, Sastry G. Pentula, David A. Dickey. Изд-во - (Springer texts in statistics), - 671p.

3. Statistical Models: Theory and Practice, David A. Freedman, Cambridge University Press (2005), - 414p.

4. Modeling and interpreting interactive hypotheses in regression analysis, Cindy D. Kam and Robert J. Franzitsi Jr., University of Michigan Press (2009), - 168p.

5. Regression analysis by example. - 4th ed. / Samprit Chatterjee, Ah S. Hadi, Wiley series in probability and statistics Established by Walter A. Shewhart and Samuel S. Wilks, -366p.

6. Multiple regression in behavioral research (Explanation and prediction), - 3rd ed / Elazar J. Pedhazur. Изд-во - Thomson Learning, 1997. - 1072p.

7. Linear Regression Analysis: Assumptions and Applications, John P. Hoffmann Department of Sociology Brigham Young University (2005), - 259p.

8. Six sigma online [Электронный ресурс]. Режим доступа: http://sixsigmaonline.ru/load/24-1-0-210_(дата обращения 20.11.2013).

9. Google document Т - таблица [Электронный ресурс]. Режим доступа: https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sjsu.edu/faculty /gerstman/StatPrimer/t-table.pdf_(дата обращения 20.11.2013).

10. Statistics Online Computational Resource (SOCR) [Электронный ресурс]. Режим доступа: http://socr.ucla.edu/Applets.dir/F_Table.html _(дата обращения 20.11.2013)

11. Народный СпортПарк [Электронный ресурс]. Режим доступа: http://sportpark.ru/ (дата обращения 20.11.2013).

12. Address to Federal Assembly Russia [Электронный ресурс]. Режим доступа: http://archive.kremlin.ru/eng/speeches/2005/04/25/2031_type70029type82912_87086. shtml (дата обращения 11.05.2013).

13. Campbell PT, Katzmarzyk PT, Malina RM, Rao DC, Perusse L, Bouchard C. Prediction of physical activity and physical work capacity (PWC150) in young adulthood from childhood and adolescence with consideration of parental measures. Abstract, 2001. [Электронный ресурс]. Режим доступа: http://www.ncbi.nlm.nih.gov/pubmed/11460863 (дата обращения 11.05.2013).

14. Trudeau F, Shephard RJ, Arsenault F, Laurencelle L. Tracking of physical fitness from childhood to adulthood. Abstract, 2003. [Электронный ресурс]. Режим доступа: http://www.ncbi.nlm.nih.gov/pubmed/12825334?report=abstract (дата обращения 11.05.2013).

Рецензент: Симаранов. С. Ю., Генеральный директор ЗАО « Техноконсалт», доктор технических наук, профессор.

Kyi Thar Soe

Bauman Moscow State Technical University "BMSTU"

Russia, Moscow E-Mail: kyithar82@gmail.com

Development of mathematical models and software for the

human's physical health

Abstract. The paper presents results of research for the mathematical model of the physical health of a "healthy person" in the regression analysis, where the factors are the physical parameters of the person, and as a response - an indicator of physical working capacity. The regression equations were constructed for each age group. After performing multiple regressions analysis obtained multiple regression models that can predict the physical working capacity for girls aged fourteen to seventeen years. Article shows the results of the analysis and development of the regression models and program software for the girls of fifteen. Also presents the hypotheses testing, ie checking the significance of the model, the significance of the coefficients, heteroscedasticity, autocorrelation, multicollinearity and normality. In conclusion, for the prediction of physical health method selected multiple regression statistics, which allows the analysis of multivariate statistical models. Defined the relevant parameters for the mathematical prediction models, with which you can quickly and efficiently assess the physical health of girls between the ages of fourteen to seventeen years.

Keywords: regression model; correlation; analysis of variance; t - statistics; F-statistics; the coefficient of determination; heteroscedasticity.

Identification number of article 37TVN314

REFERENCES

1.

2.

3.

4.

5.

6.

7.

8.

9.

10. 11. 12.

13.

14.

Matematicheskaja statistika: Ucheb. Dlja vuzov /V.B. Gorjaninov, I.V. Pavlov, G.M. Krishhenko. -2-e izd., stereotip. - M.: Izd-vo MGTU im. N.Je. Baumana, 2002. - 424 s. (Ser. Matematika v tehnicheskom universitete; Vy. XVII).

Applied regression analysis: a research tool. - 2nd ed. / John O. Rawlings, Sastry G. Pentula, David A. Dickey. Izd-vo - (Springer texts in statistics), - 671p.

Statistical Models: Theory and Practice, David A. Freedman, Cambridge University Press (2005), - 414p.

Modeling and interpreting interactive hypotheses in regression analysis, Cindy D. Kam and Robert J. Franzitsi Jr., University of Michigan Press (2009), - 168p.

Regression analysis by example. - 4th ed. / Samprit Chatterjee, Ah S. Hadi, Wiley series in probability and statistics Established by Walter A. Shewhart and Samuel S. Wilks, -366p.

Multiple regression in behavioral research (Explanation and prediction), - 3rd ed / Elazar J. Pedhazur. Izd-vo - Thomson Learning, 1997. - 1072p.

Linear Regression Analysis: Assumptions and Applications, John P. Hoffmann Department of Sociology Brigham Young University (2005), - 259p.

Six sigma online [Jelektronnyj resurs]. Rezhim dostupa: http://sixsigmaonline.ru/load/24-1-0-210 (data obrashhenija 20.11.2013).

Google document T - tablica [Jelektronnyj resurs]. Rezhim dostupa: https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sjsu.edu/faculty /gerstman/StatPrimer/t-table.pdf (data obrashhenija 20.11.2013).

Statistics Online Computational Resource (SOCR) [Jelektronnyj resurs]. Rezhim dostupa: http://socr.ucla.edu/Applets.dir/F_Table.html (data obrashhenija 20.11.2013)

Narodnyj SportPark [Jelektronnyj resurs]. Rezhim dostupa: http://sportpark.ru/ (data obrashhenija 20.11.2013).

Address to Federal Assembly Russia [Jelektronnyj resurs]. Rezhim dostupa: http://archive.kremlin.ru/eng/speeches/2005/04/25/2031_type70029type82912_87086. shtml (data obrashhenija 11.05.2013).

Campbell PT, Katzmarzyk PT, Malina RM, Rao DC, Perusse L, Bouchard C. Prediction of physical activity and physical work capacity (PWC150) in young adulthood from childhood and adolescence with consideration of parental measures. Abstract, 2001. [Jelektronnyj resurs]. Rezhim dostupa:

http://www.ncbi.nlm.nih.gov/pubmed/11460863 (data obrashhenija 11.05.2013).

Trudeau F, Shephard RJ, Arsenault F, Laurencelle L. Tracking of physical fitness from childhood to adulthood. Abstract, 2003. [Jelektronnyj resurs]. Rezhim dostupa: http://www.ncbi.nlm.nih.gov/pubmed/12825334?report=abstract (data obrashhenija 11.05.2013).

i Надоели баннеры? Вы всегда можете отключить рекламу.