Научная статья на тему 'Одномерный дисперсионый анализ повторных наблюдений с использованием пакета статистических программ Stata'

Одномерный дисперсионый анализ повторных наблюдений с использованием пакета статистических программ Stata Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1074
406
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПАРНЫЕ ВЫБОРКИ / ПОВТОРНЫЕ ИЗМЕРЕНИЯ / НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ / ДИСПЕРСИОННЫЙ АНАЛИЗ / STATA / PAIRED SAMPLES / NORMAL DISTRIBUTION / ANALYSIS OF VARIANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Субботина А. В., Гржибовский Андрей Мечиславович

В статье рассматриваются основные принципы сравнения количественных данных в трех и более парных группах. Приводится пример однофакторного дисперсионного анализа повторных наблюдений с расчетом при помощи пакета статистических программ STATA. Разбираются условия применения дисперсионного анализа парных наблюдений и основные правила представления результатов в публикациях. Статья дает общие представления о применении дисперсионного анализа парных наблюдений с использованием пакета STATA и не заменяет изучения специализированной литературы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Субботина А. В., Гржибовский Андрей Мечиславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF VARIANCE FOR REPEATED MEASUREMENTS USING STATA

In this paper we present basic principles of analysis of quantitative data in three or more paired samples. Examples of normality testing, both manual calculations of repeated measurements analysis of variance (RM-ANOVA) and calculations using STATA software are described. We also discuss assumptions for using RM-ANOVA as well as the main principles of presentation of the results in scientific publications. The article gives only basic information on the use of RM-ANOVA in biomedical research and it does not substitute reading specialized literature.

Текст научной работы на тему «Одномерный дисперсионый анализ повторных наблюдений с использованием пакета статистических программ Stata»

УДК 519.233.4

ОДНОМЕРНЫЙ ДИСПЕРСИОНЫЙ АНАЛИЗ ПОВТОРНЫХ НАБЛЮДЕНИЙ С ИСПОЛЬЗОВАНИЕМ ПАКЕТА СТАТИСТИЧЕСКИХ ПРОГРАММ STATA

© 2014 г. гА. В. Субботина, 23А. М. Гржибовский

Университет г. Тромсё, Норвегия

2Норвежский институт общественного здравоохранения,

г. Осло, Норвегия

3Северный государственный медицинский университет, г. Архангельск

В предыдущей статье Практикума рассматривалось сравнение двух парных групп с помощью парного t-критерия Стьюдента. Данный тип анализа может применяться в ситуациях, когда одно и то же измерение было проведено, например, в два момента времени для одной и той же группы индивидов. Если же необходимо сравнить средние значения количественного признака для трех и более парных групп, то применяется либо парный критерий Стьюдента с изменением критического уровня значимости в соответствии с числом проводимых наблюдений (поправка Бонферрони), либо дисперсионный анализ для повторных наблюдений (Repeated measures ANOVA или GLM-4) [1].

В настоящей статье рассмотрим тот же пример (см. данные в .dta формате на сайте журнала), который использовался для расчета парного критерия Стьюдента [2], однако на этот раз сравним средние значения артериального давления для группы пациентов в три момента измерения.

Напомним, что обычный дисперсионный анализ основан на соблюдении условия независимости наблюдений. В случае повторных наблюдений существует связь между значениями измерений для каждого участника исследования. Таким образом, значения интересующего нас параметра у одного испытуемого будут ближе друг к другу, чем значения измерений признака у нескольких испытуемых, и соответственно дисперсия значений при повторных измерениях будет меньше.

Дисперсионный анализ для повторных измерений выделяет два источника вариабельности: уровни измерений и субъекты. Такое подразделение источников вариабельности снижает значение средней квадратичной ошибки (Mean square error) вследствие того, что теперь мы учитываем два источника вариабельности — субъекты и измерения, в отличие от обычного дисперсионного анализа, в котором учитывается только вариабельность между субъектами.

Благодаря этому повышается чувствительность или статистическая мощность анализа. Вместо сравнения эффектов лечения в группе различных субъектов эффекты лечения оцениваются среди повторных измерений у одних и тех же субъектов. Каждый субъект, таким образом, служит собственным контролем. Следовательно, данный тип дизайна исследования более чувствителен к разнице в значениях, то есть для того, чтобы отклонить ложную нулевую гипотезу, требуется меньшее количество участников исследования, чем при использовании дисперсионного анализа для независимых выборок при одних и тех же различиях между средними значениями зависимой переменной.

Нулевая гипотеза для дисперсионного анализа повторных наблюдений утверждает, что средние значения измерений не отличаются друг от друга, то есть разница средних значений для каждого повторного наблюдения равняется нулю. Соответственно альтернативная

В статье рассматриваются основные принципы сравнения количественных данных в трех и более парных группах. Приводится пример однофакторного дисперсионного анализа повторных наблюдений с расчетом при помощи пакета статистических программ STATA. Разбираются условия применения дисперсионного анализа парных наблюдений и основные правила представления результатов в публикациях. Статья дает общие представления о применении дисперсионного анализа парных наблюдений с использованием пакета STATA и не заменяет изучения специализированной литературы. Ключевые слова: парные выборки, повторные измерения, нормальное распределение, дисперсионный анализ, STATA

гипотеза заключается в том, что между средними значениями различия есть. Для правомерности применения дисперсионного анализа повторных наблюдений необходимо соблюдение ряда условий. Условия применения дисперсионного анализа для повторных наблюдений те же, что и для обычного дисперсионного анализа, за исключением условия независимости выборок. Кроме того, появляется условие взаимосвязи между повторными наблюдениями (условие сферичности).

Таким образом, должны соблюдаться следующие условия:

1. Условие нормального распределения — зависимая переменная подчиняется закону нормального распределения. Данное условие может быть проверено графически с помощью гистограммы и/или квантильной диаграммы с использованием описательной статистики (асимметрия и эксцесс), а также с использованием критериев Шапиро — Уилка или Колмогорова — Смирнова.

2. Наблюдения являются независимыми (не выборки, а отдельные наблюдения).

3. Условие сферичности (частных случай сложной симметрии). Условие сферичности обозначает, что дисперсии разностей между всеми возможными уровнями пар значений приблизительно равны. Это условие также можно проверить с помощью статистических критериев с использованием пакета статистических программ STATA.

Проверим соблюдение условия сферичности для нашего примера. Для наглядности проверки создадим новые переменные для значений разности показателей артериального давления в каждый из трех моментов времени. Создаем три новые переменные: diff0_1, diff1_2 и diff0_2:

• generate diffO_1 = ad_t0 — ad_t1

• generate diff1_2 = ad_t1 — ad_t2

• generate diff0_2 = ad_t0 - ad_t2

Первая переменная показывает разность между значениями артериального давления, измеренного через одну неделю после начала лечения, и артериального давления до начала лечения, вторая - между значениями артериального давления, измеренного через две недели после начала лечения и через одну неделю после начала лечения, а третья - разность между значениями артериального давления через две недели после начала лечения и до начала лечения.

Теперь рассчитаем результаты описательной статистики для трех новых переменных с помощью команды:

• summarize diff0_1 diff1_2 diff0_2, detail

Рассчитанные данные описательной статистики для попарных разностей показателей артериального давления между тремя уровнями измерений представлены на рис. 1.

Для оценки соблюдения условия сферичности нас больше всего интересует дисперсия (Variance). Условие сферичности соблюдается в том случае, когда

diffO 1

Percentiles Smallest

1% -22.09 -22.09

5% -16.96 -16.96

10% -10.15 -12.46 Obs 33

25% -5.49 -10.15 Sum of Wgt. 33

50% 2.13 Mean 1.860303

Largest Std. Dev. 10.46136

75% 8.53 12.87

90% 12.87 15.85 Variance 109.4401

95% 19.94 19.94 Skewness -.0453733

99% 25.98 25.98 Kurtosis 2.926629

diffl_2

Percentiles Smallest

1% -15.01 -15.01

5% -10.13 -10.13

10% -6.68 -8.48 Obs 33

25% -2.19 -6.68 Sum of Wgt. 33

50% .84 Mean 1.616364

Largest Std. Dev. 7.043414

75% 6.04 11.74

90% 11.74 12.43 Variance 49.60969

95% 14.42 14.42 Skewness -.0487968

99% 15.63 15.63 Kurtosis 2.813864

diff0_2

Percentiles Smallest

1% -6.46 -6.46

5% -2.54 -2.54

10% -1.12 -2.17 Obs 33

25% 1.68 -1.12 Sum of Wgt. 33

50% 3.28 Mean 3.476667

Largest Std. Dev. 3.911046

75% 5.73 8.25

90% 8.25 9.81 Variance 15.29628

95% 10.09 10.09 Skewness -.2463284

99% 10.97 10.97 Kurtosis 2.949186

Рис. 1. Описательная статистика для переменных diff0_1, diff1_2 и diff0_2

дисперсии разностей приблизительно равны. В нашем примере значения дисперсии для трех переменных достаточно сильно отличаются друг от друга и равны 109, 49 и 15 соответственно. Однако для того чтобы принять или отклонить нулевую гипотезу о наличии сферичности, необходимо применить статистический критерий и рассчитать уровень значимости (р).

Для проведения дисперсионного анализа повторных наблюдений в STATA необходимо изменить формат данных на вертикальный. В STATA данные могут содержаться в двух форматах — горизонтальном (wide) и вертикальном (long). Для начала удалим вновь созданные переменные:

• drop diff0_1 diff1_2 diff0_2

Перекодируем формат наших данных с помощью

команды:

• reshape long ad_t, i(id) j(time)

В случаи правильного применения команды в рабочем окне появляется представленная на рис. 2 таблица.

Рис. 2. Отчет STATA об изменении формата данных

Для проведения дисперсионного анализа повторных наблюдений необходимо использовать следующую команду:

• anova ad_t id time, repeated(time)

Опция repeated() специфицирует переменную, указывающую на уровни измерения переменной (в нашем примере после преобразования данных переменная time принимает значения 0, 1 и 2, обозначая три измерения артериального давления — до начала терапии, через одну неделю и через две недели после начала использования препарата).

На рис. 3 представлена таблица результатов дисперсионного анализа. Во втором столбце приведено значение вариабельности артериального давления (Partial SS time) и остаточная вариабельность, которая не объясняется моделью (Residual). Путем деления на число степеней свободы (df) рассчитывается систематическая дисперсия (MS time) и остаточная дисперсия (MS residual). Отношение F получается в результате деления этих двух значений:

Number of obs = 99 Root MSE = 5.39052

R-squared = 0.5367 Adj R-squared = 0.2905

Source Partial SS df MS F Prob > F

Model 2153.8982 34 63.3499472 2.18 0.0036

id 1954.13194 32 61.066623 2.10 0.0058

time 199.766269 2 99.8831343 3.44 0.0382

Residual 1859.69126 64 29.057676

Total 4013.58947 98 40.9549946

Рис. 3. Результаты дисперсионного анализа (F-test) для связанных выборок при условии соблюдения условия сферичности

Уровень значимости для отношения F представлен в столбце Prob > F. В строке time показан достигну-

тый уровень значимости для ситуации, при которой соблюдается условие сферичности. Это же значение находим в следующей таблице (рис. 4) — Regular Prob > F. Однако для того чтобы решить, можем ли мы использовать данное значение уровня значимости, необходимо оценить, выполняется ли для наших данных условие сферичности.

Сферичность можно оценить с помощью значения Epsilon, которое может принимать значение от 1/ (n—1), где n — количество уровней, до 1, то есть в данном случае Epsilon может принимать значение от 0,5 (Lower bound) до 1. Как видно из таблицы, значение Epsilon равно 0,527, что гораздо ближе к 0,5, чем к 1, что говорит о значительном отклонении от сферичности.

Таким образом, делаем вывод, что в нашем примере рассчитанное выше значение не подходит, так как условие сферичности не соблюдается. В столбцах таблицы Prob > F H—F, G—G и Box на рис. 4 находим скорректированные на отсутствие сферичности уровни значимости. При значении Epsilon < 0,75 рекомендуется применять коррекцию по Greenhouse-Geisser, а при Epsilon > 0,75 — коррекцию по Huynh-Feldt. Поскольку для рассматриваемого примера Epsilon < 0,75, то результат дисперсионного анализа смотрим в столбце H — F. Согласно данному результату нулевую гипотезу о сходстве дисперсий (p = 0,07) нельзя отвергнуть. Это означает, что, по результатам проведенного дисперсионного анализа повторных наблюдений с поправкой Greenhouse-Geisser, статистически значимых различий в артериальном давлении до лечения, через неделю и через две недели после начала приема препарата выявлено не было. Если не обратить внимания на соблюдение условия сферичности, то можно прийти к противоположному выводу (р = 0,0382 в столбце Regular), что было бы ошибкой.

При представлении результатов дисперсионного анализа парных наблюдений рекомендуется указывать значение отношения F и достигнутый уровень значимости. В данном случае F = 3,44, p = 0,07. Подробнее о представлении результатов дисперсионного анализа повторных наблюдений, а также других одномерных методов статистического анализа можно ознакомиться в [4].

Between-subjects error term: id Levels: 33 Lowest b.s.e. variable: id

(32 df)

Repeated variable: time

Huynh-Feldt epsilon = 0.5301

Greenhouse-Geisser epsilon = 0.5274 Box's conservative epsilon = 0.5000

Prob > F

Source df F Regular H-F G-G Box

time 2 3.44 0.0382 0.0703 0.0705 0.0730

Residual 64

Рис. 4. Результаты дисперсионного анализа (F-test) для связанных выборок, скорректированные на отсутствие выполнения условия сферичности

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список литературы

1. Гржибовский А. М. Одномерный анализ повторных измерений // Экология человека. 2008. № 4. С. 51—60.

2. Субботина А. В., Гржибовский А. М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. № 2. С. 51—57.

3. Субботина А. В., Гржибовский А. М. Сравнение количественных данных в двух парных выборках и использованием пакета статистических программ STATA // Экология человека. 2014. № 10. С. 61—64.

4. Унгуряну Т. Н, Гржибовский А. М. Краткие рекомендации по описанию, статистическому анализу и представлению данных в научных публикациях // Экология человека. 2011. № 5. С. 55—60.

5. Унгуряну Т. Н., Гржибовский А. М. Программное обеспечение для статистической обработки данных STATA: введение // Экология человека. 2014. № 1. С. 60 — 63.

References

1. Grjibovski A. M. Univariate analysis of repeated measurements. Ekologiya cheloveka [Human Ecology]. 2008, 4, pp. 51-60. [in Russian]

2. Subbotina A. V, Grjibovski A. M. Descriptive statistics and normality testing for quantitative data. Ekologiya cheloveka [Human Ecology]. 2014, 2, pp. 51-57. [in Russian]

3. Subbotina A. V., Grjibovski A. M. Comparison of quantitative data in two paired samples using STATA software. Ekologiya cheloveka [Human Ecology]. 2014, 10, pp. 6164. [in Russian]

4. Unguryanu T. N., Grjibovski A. M. Brief recommendations on description, analysis and presentation of data in scientific papers. Ekologiya cheloveka [Human Ecology]. 2011, 5, pp. 55-60. [in Russian]

5. Unguryanu T. N., Grjibovski A. M. Introduction to STATA

- statistical software for data analysis. Ekologiya cheloveka [Human Ecology]. 2014, 1, pp. 60-63. [in Russian]

ANALYSIS OF VARIANCE FOR REPEATED MEASUREMENTS USING STATA

'A. V. Subbotina, 23A. M. Grjibovski

1University of Troms0, Troms0, Norway 2Department of International Public Health, Norwegian Institute of Public Health, Oslo, Norway 3International School of Public Health, Northern State Medical University, Arkhangelsk, Russia

In this paper we present basic principles of analysis of quantitative data in three or more paired samples. Examples of normality testing, both manual calculations of repeated measurements analysis of variance (RM-ANOVA) and calculations using STATA software are described. We also discuss assumptions for using RM-ANOVA as well as the main principles of presentation of the results in scientific publications. The article gives only basic information on the use of RM-ANOVA in biomedical research and it does not substitute reading specialized literature.

Keywords: paired samples, normal distribution, analysis of variance, STATA

Контактная информация:

Гржибовский Андрей Мечиславович — доктор медицины, профессор, старший советник Норвежского института общественного здравоохранения, г. Осло, Норвегия; директор Архангельской международной школы общественного здоровья ГБУО ВПО «Северный государственный медицинский университет», г. Архангельск

Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway

Тел.: +47 22048319, +47 45268913

E-mail: andrej.grjibovski@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.