УДК 519.233.4+[612.015.32:618.11] DOI: 10.33396 / 1728-0869-2019-3-53-61
ИСПОЛЬЗОВАНИЕ RM-ANOVA В ПРОГРАММНЫХ СРЕДАХ R И SPSS НА ПРИМЕРЕ ДИНАМИЧЕСКОЙ ОЦЕНКИ ПОКАЗАТЕЛЕЙ УГЛЕВОДНОГО ОБМЕНА У ПАЦИЕНТОК С СИНДРОМОМ ПОЛИКИСТОЗНЫХ ЯИЧНИКОВ
© 2019 г. В. Аталян, 2О. В. Кузьмин, 3-6А. М. Гржибовский, *Л. В. Сутурина
Жаучный Центр проблем здоровья семьи и репродукции человека, г. Иркутск; 2Иркутский государственный университет, Институт математики, экономики и информатики, г. Иркутск; 3Северный государственный медицинский университет, г. Архангельск; 4Казахский национальный университет им. Аль-Фараби, г. Алматы, Казахстан;
5Западно-казахстанский университет им. Марата Оспанова, г. Актобе, Казахстан;
6Северо-Восточный федеральный университет, г. Якутск
В статье рассматривается применение метода дисперсионного анализа с повторными измерениями (RM-ANOVA) в медико-биологических исследованиях. Уделено внимание формализации постановки исследовательской задачи в терминах дисперсионного анализа, форме представления набора данных в дизайне повторных измерений и оценке допущений применимости метода, а также приведены требования к составлению статистического отчета научного исследования с использованием RM-ANOVA. Для иллюстрации применения метода используется задача оценки влияния синдрома поликистозных яичников на динамику изменений уровня глюкозы при проведении перорального теста толерантности к глюкозе у пациенток различной этнической принадлежности. Программные среды R, SPSS выбраны в качестве инструментов для реализации вычислительных процессов дисперсионного анализа и графического представления результатов анализа данных как наиболее популярные среди программного обеспечения для статистического анализа данных.
Ключевые слова: дисперсионный анализ с повторными измерениями (RM-ANOVA), R, SPSS, углеводный обмен, пероральный тест толерантности к глюкозе, (ПТТГ), синдром поликистозных яичников (СПКЯ)
USING OF RM-ANOVA IN R AND SPSS SOFTWARE ON THE EXAMPLE OF PROSPECTIVE ANALYSIS OF GLUCOSE TOLERANCE TEST RESULTS IN PATIENTS WITH POLYCYSTIC OVARY SYNDROME
*A. V. Atalyan, 2O. V. Kuzmin, 3-6A. M. Grjibovski, *L. V. Suturina
Scientific Center for Family Health and Human Reproduction Problems, Irkutsk, Russia; institute of Mathematics,
Economics and Computer Science of Irkutsk State University, Irkutsk, Russia; 3Northern State Medical University,
Arkhangelsk, Russia; 4Al-Farabi Kazakh National University, Almaty, Kazakhstan; 5West Kazakhstan Marat Ospanov Medical University, Aktobe, Kazakhstan; 6North-Eastern Federal University, Yakutsk, Russia
The paper presents the use of repeated measures analysis of variance (RM-ANOVA) in biomedical studies. Special attention is given to conceptualization of research questions, data computerization and data presentation as well as to assumptions for this method. We also discuss recommendations for presenting results of RM-ANOVA in scientific reports. For better understanding of the method we present practical example using the data on repeatedly measured blood glucose levels in patients with PCOS and healthy women from different ethnic groups after oral glucose tolerance test. Practical implementation of RM-ANOVA in R and SPSS software is also given with syntax and graphs.
Key words: Repeated Measures Analysis of Variance (RM ANOVA), R, SPSS, carbohydrate metabolism, oral glucose tolerance test (OGTT), polycystic ovary syndrome (PCOS)
Библиографическая ссылка:
Аталян А. В., Кузьмин О. В., Гржибовский А. М., Сутурина Л. В. Использование RM-ANOVA в программных средах R и SPSS на примере динамической оценки показателей углеводного обмена у пациенток с синдромом поликистозных яичников // Экология человека. 2019. № 3. С. 53-61.
Atalyan A. V., Kuzmin O. V., Grjibovski A. M., Suturina L. V. Using of RM-ANOVA in R and SPSS Software on the Example of Prospective Analysis of Glucose Tolerance Test Results in Patients with Polycystic Ovary Syndrome. Ekologiya cheloveka [Human Ecology]. 2019, 3, pp. 53-61.
Дизайн с повторными измерениями используется во многих областях науки, включая ботанику [3], экологию, эволюционную биологию [9], ветеринарию [16] и др. В медицине чаще всего повторные измерения используются в спортивной медицине [12], генетике [ 11], а также в продольных исследованиях. В частности, характерный пример такого типа дизайна в
медицинской практике — исследование обмена веществ с учетом различных патологических состояний и/или этнических особенностей.
В качестве примера дизайна с повторными измерениями при исследовании влияния патологического состояния на метаболический процесс рассматривается наиболее распространенное эндокринное нарушение
среди женщин репродуктивного возраста — синдром поликистозных яичников (СПКЯ), который отличается разнообразием клинических фенотипов [ 2, 13, 14,]. СПКЯ сопровождается не только нарушением репродуктивных процессов, но и проявлениями метаболического синдрома [5], инсулинорезистентностью [15] и оксидативным стрессом [10].
Среди проявлений метаболического синдрома выделяется нарушение углеводного обмена [ 7, 18]. В клинической практике для диагностики пациентов с нарушенной толерантностью к глюкозе на основании рекомендаций ВОЗ широко используется перораль-ный тест на толерантность к глюкозе (ПТТГ) [6]. Стандарт проведения теста толерантности к глюкозе [17] подразумевает исследование уровня глюкозы в венозной крови натощак, затем, после орального введения 75 г раствора безводной глюкозы, лабораторное исследование уровня глюкозы и инсулина в сыворотке крови проводится через 30, 60, 90 и 120 мин.
При дизайнах с повторными измерениями традиционно применяется одномерный дисперсионный анализ с повторными измерениями (RM-ANOVA) с последующим выполнением стандартных апостериорных тестов, таких как критерий наименьшей значимой разности (least significant difference test — LSDtest), критерий Тьюки (Tukey's HSD-test), критерий Бонферрони. Однако достаточно часто в последнее время применяется многомерный дисперсионный анализ (MANOVA) и анализ моделей со смешанными эффектами (MMA) [4] .
Схема дизайна с повторными измерениями уязвима при невыполнении ряда допущений, в частности при отсутствии равенства дисперсий (сферичности), что может существенно повлиять на анализ и выводы, сделанные из исследования.
Равенство дисперсий (сферичность) является одним из условий применимости метода RM-ANOVA, то есть отклонения различий между всеми возможными парами внутригрупповых факторов предполагаются равными. Оценка сферичности чаще всего проводится с использованием критерия Моучли (Mauchly Test), и применяются поправки Грингауза-Гайссера (Greenhouse-Geisser) или Хюнха-Фельдта (Huynh-Feldt) в случае отсутствия сферичности [4, 8].
Немаловажна оценка анализируемого набора данных на предмет сбалансированности исследуемых групп (равенство численности наблюдений в группах) и наличия пропущенных значений в измерениях.
Особое внимание нужно уделить формату организации набора данных, поскольку при выполнении вычислительных процедур, в частности в R, иногда необходима реорганизация данных из так называемого «широкого» формата в «узкий» с введением дополнительной переменной, например времени (times) (рис. 1).
При создании статистического отчета о проведенном исследовании с использованием RM-ANOVA необходимо следовать определенным рекомендациям [1] и указывать следующие параметры анализа:
• зависимая переменная (внутригрупповой фактор) с характеристиками ее описательными статистиками;
• межгрупповой фактор с указанием количества его уровней;
• предположения, подтверждающие правомерность проведения анализа (близость вида распределения переменной отклика (зависимой переменной) к нормальному распределению), равенство дисперсий (сферичность) внутри каждого уровня межгруппового фактора;
recordid PCOSexclution ethnicity glucoseO glucose30 glucose60 gluco5e90 glucose_120
13 2 2 5.65 5.14 5.84 6.53 6.32
273 1 2 5.13 7.92 5.17 5.76 3.91
295 1 1 3.31 4.93 3.50 3.96 3.91
299 2 2 3.93 4.54 5.22 4.71 4.62
355 1 1 4.22 5.62 3.92 4.18 4.07
383 0 1 3.93 3.54 4.19 3.41 4.53
399 1 1 3.74 7.92 9.39 8.37 5.13
424 1 1 4.15 6.25 7.33 7.43 6.02
440 1 1 4.20 6.44 3.48 2.43 4.46
563 0 1 3.53 5.90 3.33 4.50 5.24
а)
recordid PCOSexclution ethnicity times glucose
13 2 2 timeO 5.65
13 2 2 time30 5.14
13 2 2 time60 5.34
13 2 2 time90 6.53
13 2 2 timel20 6.32
273 1 2 timeO 5.13
273 1 2 time30 7.92
273 1 2 timeEO 5.17
273 1 2 time90 5.76
273 1 2 timel20 3.91
б)
Рис. 1. Примеры организации набора данных в «широком» (а) и «узком» (б) форматах
• основные характеристики дисперсионного анализа: значение F-критерия, число степеней свободы, суммы квадратов, средние квадраты и достигнутый уровень значимости р (как правило, представляются в таблице);
• при проведении апостериорного попарного анализа приводятся характеристики применяемых попарных критериев: средняя разность, стандартная ошибка, р-уровень, 95 % доверительный интервал (как правило, представляются в таблице);
• необходимо указать, как анализировались пропущенные значения в наборе данных.
Визуализация результатов не является обязательной, но чаще всего именно графики дают наглядное представление о результатах.
Для решения клинической задачи, приведенной в качестве примера дизайна с повторными измерениями, выбран традиционный подход с применением метода RM-ANOVA.
Рассмотренный пример — исследование влияния СПКЯ на углеводный обмен при ПТТГ в терминах дисперсионного анализа будет выглядеть так:
• внутригрупповой фактор с пятью уровнями — зависимая количественная переменная (содержание глюкозы в крови), в отношении которой ожидается эффект воздействия (в нашем случае СПКЯ), измеренная пять раз (натощак, через 30, 60, 90, 120 мин);
• проверяемая гипотеза 1 — средние значения измерений содержания глюкозы в крови не отличаются друг от друга, то есть разница средних значений для каждого повторного наблюдения равняется нулю;
• межгрупповой фактор с тремя уровнями — три выборки (группы): контрольная, группа риска СПКЯ и группа с диагностированным по Роттердамскому консенсусу СПКЯ;
• проверяемая гипотеза 2 — наличие взаимодействия межгруппового и внутригруппового факторов, то есть существуют ли различия между контрольной и экспериментальными группами в динамике изменения уровней глюкозы при ПТТГ?
Часто возникают ситуации, когда следует учитывать факторы, которые могут смещать таргетные оценки, так называемые конфаундеры (смешивающие факторы). В нашем примере в качестве конфаундера будет выступать этническая принадлежность пациенток. Все пациентки в нашем примере были отнесены либо к европеоидной расе, либо к азиатской.
Таким образом, в формулировке задачи появляется еще один межгрупповой фактор:
• межгрупповой фактор с двумя уровнями (конфа-ундер) — принадлежность к одной из двух этнических групп: европеоиды или азиаты;
• проверяемая гипотеза 3 — наличие взаимодействия межгруппового и внутригруппового факторов с учетом фактора-конфаундера (этническая принадлежность), то есть существуют ли различия между контрольной и экспериментальными группами в динамике изменения уровней глюкозы при ПТТГ с учетом этнических особенностей?
Для иллюстрации пошаговых алгоритмов вычислений RM-ANOVA, представления и интерпретации результатов использовались данные из многоцентрового поперечного исследования СПКЯ и его фенотипов у женщин в Восточной Сибири [19] и были выбраны наиболее популярные программные среды: R и SPSS Первым этапом, независимо от того, какая из названных программных сред будет выбрана, необходимо определить наличие пропущенных значений в массиве данных, с которым предстоит работать, и определить способ для работы с пропущенными значениями: удаление строк с пропущенными значениями из анализа или их восстановление. Реализация в R
В нашем примере обнаружились пропущенные значения в измерениях содержания глюкозы в крови. Ввиду небольшого объема исходного набора данных потеря даже небольшого количества строк является нежелательной. Для восстановления данных был использован метод случайных лесов (Random Forest) пакета R mice() (Multivariate Imputation by Chained Equations), предоставляющий сложные функции для работы с пропущенными значениями при прогнозировании, основанный на многомерной оценке цепными уравнениями [20]. Код R восстановления данных при помощи пакета R mice():
> #загрузка файла
> data <- read.table(file = «RMAN0VA_PœS_ ethnicity.csv», header = TRUE, dec = «,», sep = «;»)
> #проверка на наличие пропущенных значений в данных
> anyNA(data) [1] TRUE
> #восстановление пропущенных значений
> library(mice)
> miceMod <- mice(data[, !names(data) %in% «New»], method=»rf»)
> miceOutput <- complete(miceMod) # сгенерировать полные данные
> #проверка на наличие Missing Data
> anyNA(miceOutput) [1] FALSE
Анализируемые данные представлены в формате таблицы данных (data frame) со следующей структурой, где указано, к какому типу данных относятся переменные:
> str(data)
'data.frame':137 obs. Of 8 variables: $ record_id : int 13 273 296 299 355 383 399 424 440 568 ...
$ PC0S_exclution: Factor w/ 3 levels «0»,»1»,»2»: 3 2 2 3 2 1 2 2 2 1 ...
$ ethnicity : Factor w/ 2 levels «1»,»2»: 2 2 1 2 1 1 1 1 1 1 ...
$ glucoseO : num 5.65 5.13 3.81 3.93 4.22 3.93 3.74 4.15 4.2 3.53 ...
$ glucose30 : num 5.14 7.92 4.93 4.54 5.62 3.64 7.92 6.25 6.44 5.9 ...
$ glucose60 : num 5.84 5.17 3.5 5.22 3.92 4.19 9.39 7.33 3.48 3.33 ...
$ glucose90 : num 6.53 5.76 3.96 4.71 4.18 3.41 8.37 7.43 2.43 4.5 ...
$ glucose_120 : num 6.32 3.91 3.91 4.62 4.07 4.53 5.13 6.02 4.46 5.24 ...
Переменные «glucose0», «glucose30», «glucose60», «glucose90», «glucose_120» содержат пятикратные измерения уровней глюкозы, а «PCOS_exclution» и «ethnicity» являются факторами с 3 и 2 уровнями соответственно.
Описательные статистики можно получить, используя команду summary()
> summary(data)
record_id PCOS_exclution ethnicity glucose0 glucose30 glucose60
Min. : 13 0:67 1:105 Min. :2.990 Min. : 2.920 Min. : 2.510
1st Qu.:1111 1:44 2: 32 1st Qu.:3.930 1st Qu.: 5.300 1st Qu.: 4.430
Median :1976 2:26 Median :4.360 Median : 6.620 Median : 5.960
Mean :1702 Mean :4.458 Mean : 6.757 Mean : 6.318 3rd Qu.:2248 3rd Qu.:4.810 3rd Qu.: 8.030 3rd Qu.: 7.470
Max. :2693 Max. :8.450 Max. :13.900 Max. :14.570
glucose90 glucose_120
Min. : 2.290 Min. : 2.160
1st Qu.: 4.290 1st Qu.: 4.110
Median : 5.130 Median : 4.820
Mean : 5.767 Mean : 5.102
3rd Qu.: 6.570 3rd Qu.: 5.760
Max. :14.250 Max. :13.630
В R используют различные способы выполнения дисперсионного анализа с повторными измерениями. Выбор того или иного способа зависит от ряда факторов: сбалансированный (когда имеется одинаковое число наблюдений для каждого уровня изучаемого фактора) или несбалансированный набор данных следует анализировать; как предполагается выполнять стандартные апостериорные тесты попарных сравнений (например, тест Тьюки); будут ли использоваться поправки в случае нарушения условия однородности дисперсий. Чаще всего применяются следующие три способа реализации RM-ANOVA: одномерный подход с использованием aov () или lme (), многофакторный подход с использованием lm ().
Для проверки нашей первой гипотезы воспользуемся линейной моделью lm(). Для этого необходимо:
• реорганизовать данные в матрицу, где строки — это пациенты, а столбцы — уровни фактора повторяющихся измерений (глюкоза в крови);
• задать форму модели, где будем рассматривать только повторяющиеся измерения без учета каких-либо межгрупповых факторов;
• указать внутригрупповой фактор;
• загрузить пакет «car»;
• выполнить процедуру Anova();
• интерпретировать полученные результаты и, как итог, отклонить или принять нашу гипотезу 1.
Пошаговое выполнение описанного алгоритма с промежуточными результатами выполнения всех команд:
> #задание матричной формы
> data1 <- with(data_long, cbind(glucose[times=="gluc ose0"],
+ + glucose[times=="glucose30"], glucose[times=="glucose60"], + + glucose[times=="glucose90"], glucose[times=="glucose_120"]))
> head(data1)
[,1] [,2] [,3] [,4] [,5] [1,] 5.65 5.14 5.84 6.53 6.32 [2,] 5.13 7.92 5.17 5.76 3.91 [3,] 3.81 4.93 3.50 3.96 3.91 [4,] 3.93 4.54 5.22 4.71 4.62 [5,] 4.22 5.62 3.92 4.18 4.07 [6,] 3.93 3.64 4.19 3.41 4.53
> #задание модели и внутригруппового фактора
> mymodel<- lm(data1 ~ 1)
> mymodel
Call:
lm(formula = data1 ~ 1)
Coefficients: [,1] [,2] [,3] [,4] [,5]
(Intercept) 4.456 6.544 6.182 5.627 4.989
> time_factor <- factor(c("glucose0","glucose30","glucos e60","glucose90","glucose120"))
> time_factor
[1] glucose0 glucose30 glucose60 glucose90 glucose120
Levels: glucose0 glucose120 glucose30 glucose60 glucose90
> library(car)
> mydata1.aov <- Anova(mymodel, idata = data. frame(time_factor),idesign = ~ time_factor, type="III")
> summary(mydata1.aov, multivariate=FALSE)
Univariate Type III Repeated-Measures ANOVA Assuming Sphericity
Sum Sq num Df Error SS den Df F value Pr(>F) (Intercept) 12055.0 1 877.83 77 1057.415 < 2.2e-16
time_factor 226.5 4 490.14 308 35.589 < 2.2e-16 ***
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Mauchly Tests for Sphericity
Test statistic p-value time_factor 0.46271 3.1184e-09
Greenhouse-Geisser and Huynh-Feldt Corrections for Departure from Sphericity
GG eps Pr(>F[GG]) time_factor 0.73905 < 2.2e-16 ***
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
HF eps Pr(>F[HF])
time_factor 0.7717847 2.003081e-19
Результат нашего анализа опровергает гипотезу 1,
0 чем свидетельствует значение p < 0,05. Поскольку значение критерия Моучли указывает на отсутствие сферичности, то принимать во внимание следует результаты с поправками Грингауза-Гайссера или Хюнха-Фельдта.
Подготовительный этап для дальнейшего анализа данных — проверки гипотезы 2 и 3 — состоит в преобразовании формат данных. Для этого достаточно воспользоваться процедурой gather() пакета tidyr, где data — таблица данных (data frame); times — новая факторная переменная, указывающая количество уровней и их символьное обозначение; glucose — новая переменная, содержащая все измерения, в нашем случае 5 измерений концентрации глюкозы, «собранные» в одну переменную из пяти, обозначенных далее glucose0:glucose_120:
> data_long <- gather(data, times, glucose, glucose0:glucose_120, factor_key=TRUE)
> data_long <- data_long[order(data_long$record_id, data_long$times), ]
Вторая строка кода указывает на проводимую сортировку полученной таблицы данных сначала по идентификационному номеру пациента «record_ID» и затем по уровню внутригруппового фактора «times».
Выполнение предъявленных строк кода приведет к результату, представленному на рис. 1.
Следует помнить, что по умолчанию в R не поддерживается соглашение о равенстве суммы нулю для весов эффектов. Во избежание возникновения трудностей с суммами квадратов типа II и типа III перед запуском процедур ANOVA необходимо воспользоваться следующей командой:
> options(contrasts=c("contr.sum","contr.poly"))
Кроме того, необходимо, чтобы переменная «record_id» была преобразована в фактор:
> data_long$record_id <- as.factor(data_long$record_id)
Таким образом мы получаем следующую структуру таблицы данных «data frame»:
> str(data_long)
'data.frame':685 obs. of 5 variables: $ record_id : Factor w/ 137 levels "13","273","296",..: 1
1 1 1 1 2 2 2 2 2 ...
$ PCOS_exclution: Factor w/ 3 levels "0","1","2": 3 3 3 3 3 2 2 2 2 2 ...
$ ethnicity : Factor w/ 2 levels "1","2": 2 2 2 2 2 2 2 2 2 2 ...
$ times : Factor w/ 5 levels "glucose0","glucose30",..: 1 2 3 4 5 1 2 3 4 5 ...
$ glucose : num 5.65 5.14 5.84 6.53 6.32 5.13 7.92 5.17 5.76 3.91 ...
В случае проверки гипотезы 2 или 3 последовательность действий и выбор процедур для реализации меняется. Во-первых, набор данных, указанный в примере, является несбалансированным как по переменной «PCOS_exclution», так и по переменной «ethnicity», то есть количество пациенток в изучаемых группах разное; во-вторых, следует учитывать повтор-ность измерений внутригруппого фактора и, наконец, необходимо учитывать совместное влияние двух межгрупповых факторов. Перечисленные условия задачи значительно усложняют реализацию вычислительных процедур и требуют выбора адекватного вида модели.
Элегантное решение можно получить с использованием функции aov_car() пакета R afex, который появился сравнительно недавно — его описание датируется 24 сентября 2018 года. Процедура aov_car() помимо работы с дизайном повторных измерений и несбалансированными данными возвращает результат, согласно проверке на сферичность — с поправкой Грингауза-Гайссера в случае ее отсутствия, и учитывает тип суммы квадратов (в нашем случае тип III). Для выполнения кода потребуются пакеты car, поскольку используется процедура Anova() из этого пакета, и afex:
> library(«car», lib.loc=»C:/Program Files/R/R-3.4.4/ library»)
> library(«afex», lib.loc=»C:/Program Files/R/R-3.4.4/ library»)
> (a2<-aov_car(glucose ~ PCOS_exclution*ethnicity + Error(record_id/times),data = data_long))
Результат будет выглядеть следующим образом: Anova Table (Type 3 tests)
Response: glucose Effect df MSE F ges p.value
1 PCOS_exclution 2, 131 11.16 1.45 .01 .24
2 ethnicity 1, 131 11.16 0.20 .0009 .66
3 PCOS_exclution:ethnicity 2, 131 11.16 0.20 .002 .82
4 times 3.00, 393.52 2.27 30.88 *** .08 <.0001
5 PCOS_exclution:times 6.01, 393.52 2.27 2.46 * .01 .02
6 ethnicity:times 3.00, 393.52 2.27 0.42 .001 .74
7 PCOS_exclution:ethnicity:times 6.01, 393.52 2.27 1.71 .010 .12
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '+' 0.1 ' ' 1
Sphericity correction method: GG
Вывод на печать представляет собой таблицу ANOVA. В столбце «Эффект» указаны межгрупповые и внутригрупповой факторы и их взаимодействие, степени свободы (df), среднеквадратическая ошибка (MSE), F-значение с указанием звездочек, при значимом результате, и р-значение. Единственный необычный столбец — это «ges», в котором приводится обобщенный эта-квадрат — рекомендуемая статистика размера эффекта для дизайна повторных измерений.
Стандартные выходные данные также сообщают, что df скорректировано поправкой Greenhouse -Geisser (GG) для факторов повторных измерений, имеющих более двух уровней (для учета возможных нарушений сферичности). Обратите внимание, что эти исправленные df не являются целыми числами.
С применением следующей строки кода можно получить вывод на печать в табличной форме:
В завершение построим график (рис. 2) для визуализации полученных результатов:
> library(ggplot2)
> library(plyr)
> #создание таблицы суммарных результатов
> agg = ddply(data_long, .(PCOS_exclution, ethnicity, times), function(x){
+ c(mean=mean(x$glucose), sd = sd(x$glucose)) + })
> head(agg)
PCOS_exclution ethnicity times mean sd
1 0 1 glucoseO 4.448913 0.8247915
2 0 1 glucose30 6.611087 2.0336024
3 0 1 glucose60 6.210870 2.4302271
4 0 1 glucose90 5.570870 2.1790812
5 0 1 glucose_120 5.054348 1.5142283
6 0 2 glucose0 4.397619 0.7416799
> agg$lower = agg$mean + agg$sd
> agg$upper = agg$mean - agg$sd
> head(agg)
PCOS_exclution ethnicity times mean sd lower upper
1 0 1 glucose0 4.448913 0.8247915 5.273705 3.624122
2 0 1 glucose30 6.611087 2.0336024 8.644689 4.577485
3 0 1 glucose60 6.210870 2.4302271 8.641097 3.780642
4 0 1 glucose90 5.570870 2.1790812 7.749951 3.391788
5 0 1 glucose_120 5.054348 1.5142283 6.568576 3.540120
6 0 2 glucose0 4.397619 0.7416799 5.139299 3.655939
> class(agg$times) [1] "factor"
> agg$times<-as.numeric(agg$times)
> #create pd, which will be a ggplot2 object, which tells that
> #I wish to plot the means + error bars slightly next to each other
> pd <- position_dodge(width = 0.2) # move them .2 to the left and right
> #создание переменной pd - объект ggplot2, который указывает, что
> #требуется указать в графике means + error
> pd <- position_dodge(width = 0.2) # move them .2 to the left and right
> gbase = ggplot(agg, aes(y=mean, colour=PCOS_
> knitr::kable(nice(a2))
Effect df MSE F ges p.value
PCOS_exclution 2, 131 11.16 1.45 .01 .24
ethnicity 1, 131 11.16 0.20 .0009 .66
PCOS_ exclution:ethnicity 2, 131 11.16 0.20 .002 .82
times 3.00, 393.52 2.27 30.88*** .08 <.0001
PCOS_ exclution:times 6.01, 393.52 2.27 2.46* .01 .02
ethnicity:times 3.00, 393.52 2.27 0.42 .001 .74
PCOS_exclution : ethnicity : times 6.01, 393.52 2.27 1.71 .010 .12
i 2
J
"J T -- j
1
4
T т и/ f f / II/ f // < / / / / /
-
-- -- -
1 23451 2345
times
Рис. 2. График изменения содержания глюкозы в крови при проведении ППТГ у пациенток контрольной группы (0), группы риска СПКЯ (1), группы с СПКЯ (2) при различной этнической принадлежности: европеоиды (1, слева), азиаты (2, справа).
Файл Правка Вид Данные Преобразование Анализ Прямой маркетинг Графика Сервис Окно Справка
© Щ fc- -а Щ i Отчеты К Описательные статистики ► Настраиваемые таблицы ► Сравнение средни* ► %
recordjd PCOS_exclution ucoseSOresult... glucose_120_result
Общая линейная модель ► Обобщенные линейные модели ► Смешанные модели ► Корреляции ► Регрессия ► Поглинейный ► И ОЛМ-одномерная... Н ОЛМ-многомерная...
1 13 2
2 273 1
3 296 1 ОЛМ-повторные измерения...
4 2ЭЭ 2 Компоненты дисперсии...
5 355 1 4.18 4.07
fi 133 0 3 41 4 5 .3
Рис. 3. Выбор модели для RM-ANOVA exclution))+
+ geom_errorbar(aes(ymin=lower, ymax=upper), width=.3, position=pd) +
+ geom_point(position=pd) + facet_grid(~ethnicity)
> gline = gbase + geom_line(position=pd)
> print(gline + aes(x=times))
Реализация в SPSS
Для реализации поставленной задачи в SPSS после загрузки и открытия в программе подготовленной таблицы данных необходимо выбрать вид анализа. В данном случае будем использовать общую линейную модель — повторные измерения (рис. 3)
Следующим шагом задаем внутригрупповой фактор. Вводим его имя: «глюкоза», задаем число уровней: 5 (рис. 4), поскольку у нас пятикратное измерение содержания глюкозы в крови, нажимаем кнопку «добавить» и далее «задать».
Рис. 4. Задание внутригруппового фактора с числом уровней
Далее в открывшемся окне задания внутри-групповых переменных определяем переменные «glucose0_result_v3»...«glucose_120_result_v3», как уровни внутригрупповой переменной (рис. 5). А также указываем переменные, которые выступают в роли межгрупповых факторов: переменная «PCOS_exclution» и переменная «ethnicity» (рис. 6).
J им 'ЛИГ ди
Рис. 5. Указание внутригрупповых переменных
Рис. 6. Указание межгрупповых факторов
Далее необходимо задать параметры подсчета и вывода результатов, например: описательные статистики, оценки параметров, критерии однородности (рис. 7).
Для построения графиков следует отметить, какие значения переменных отложить по осям координат и разделить ли графики по одному из межгрупповых факторов. В нашем случае: по оси х (горизонтальной) задаем внутригрупповой фактор «глюкоза», отдельными линиями будут прорисованы группы, определяемые межгрупповым фактором «PCOS_exclution», и наконец, для получения двух отдельных графиков для различных этнических групп в графе «отдельные
графики» указываем второй межгрупповой фактор «ethnicity» (рис. 8).
Рис. 7. Задание параметров для подсчета и вывода результатов
тз?-ш-зда ш зж~
Рис. 8. Задание параметров для построения графиков
На этом все условия для анализа и вывода данных заданы. Стоит лишь нажать кнопку «ОК» в окне (рис. 6), и получим листинг расчетов в табличном виде и заданные графики (рис. 9).
Рис. 9. Графики изменения содержания глюкозы в крови при проведении ППТГ у пациенток контрольной группы (0), группы риска СПКЯ (1), группы с СПКЯ (2) при различной этнической принадлежности: европеоиды (А), азиаты (Б).
Выводы
При дизайнах с повторными измерениями в медико-биологических исследованиях традиционно применяется одномерный дисперсионный анализ с повторными измерениями (RM-ANOVA). Для успешного проведения RM-ANOVA необходимо адекватно формализовать постановку исследовательской задачи в терминах дисперсионного анализа и представить набор данных в требуемом формате, оценить допущения применимости метода и выбрать соответствующую модель и поправки,визуализировать полученные результаты. В отчетах и публикациях результаты проведенного исследования следует представлять с учетом определенных требований к составлению статистического отчета научного исследования с использованием RM-ANOVA. Реализовать вычислительные процедуры RM-ANOVA возможно с применением различных программных сред — как коммерческих, SPSS, так и систем с открытым кодом доступа, R. Учитывая разнообразие инструментов для статистического анализ данных, выбор средства для реализации дисперсионного анализа с повторными измерениями остается за исследователем. Однако следует учитывать особенности использования, доступности и требуемых навыков для получения адекватного результата при решении научно-исследовательской задачи.
ORCID номера авторов
Аталян Алина Валерьевна - ORCID 0000-0002-3407-9365 Кузьмин Олег Викторович - ORCID 0000-0003-3360-5033 Гржибовский Андрей Мечиславович — ORCID 0000-00025464-0498
Сутурина Лариса Викторовна — ORCID 0000-0002-62717803
Список литературы / References
1. Ланг Т., Сесик М. Как описывать статистику в медицине. Аннотированное руководство для авторов, редакторов и рецензентов: пер. с англ. под ред. В. П. Леонова. М.: Практическая медицина, 2011. 480 c.
Lang T., Sesik M. Kak opisyvat statistiku v meditsine. Annotirovannoe rukovodstvo dlya avtorov, redaktorov, retsenzentov (How to describe statistics in medicine. A guide for authors, editors and reviewers) edited by V. P. Leonov. Moscow, Prakticheskaya meditsina Publ., 201 1, 480 p.
2. Сутурина Л. В. Синдром поликистозных яичников в XXI веке // Акушерство и гинекология: новости, мнения, обучение. 2017. Т. 3, № 17. С. 86-91.
Suturina L. V. Polycystic ovary syndrome in 21 century. Akusherstvо i Ginekologiya. 2017, 3 (17), pp. 86-91. [In Russian]
3. Alves R. M., Madruga M. R., Tavares H. R., Lobato T. D. C., Oliveira T. F. D. Fixed effect models with repeated measures applied to genetics improvement of cupuasu tree. Revista Brasileira de Fruticultura. 2015, 37 (4), pp. 993-1000.
4. Armstrong R. A. Recommendations for analysis of repeated-measures designs: Testing and correcting for sphericity and use of manova and mixed model analysis. Ophthalmic & physiological optics: the journal of the British College of Ophthalmic Opticians (Optometrists). 2017, 37 (5), pp. 585-593.
5. Behboudi-Gandevani S., Amiri M., Bidhendi Yarandi R., Noroozzadeh M., Farahmand M., Rostami Dovom M., Ramezani Tehrani F. The risk of metabolic syndrome in polycystic ovary syndrome: A systematic review and metaanalysis. Clinical endocrinology. 2018, 88 (2), pp. 169-184.
6. Definition and diagnosis of diabetes mellitus and intermediate hyperglycaemia: Report of a WHO/IDF consultation. Geneva, Switzerland, World Health Organization, 2006. 1 online resource.
7. Grundy S. M., Cleeman J. I., Daniels S. R., Donato K. A., Eckel R. H., Franklin B. A., Gordon D. J., Krauss R. M., Savage P. J., Smith S. C., Spertus J. A., Costa F. Diagnosis and management of the metabolic syndrome: An American Heart Association/National Heart, Lung, and Blood Institute Scientific Statement. Circulation. 2005, 1 12 (17), pp. 27352752.
8. Haverkamp N., Beauducel A. Violation of the Sphericity Assumption and Its Effect on Type-I Error Rates in Repeated Measures ANOVA and Multi-Level Linear Models (MLM). Frontiers in psychology. 2017, 8, p. 1841.
9. Kain M. P., Bolker B. M., McCoy M. W A practical guide and power analysis for GLMMs: Detecting among treatment variation in random effects. PeerJ. 2015, 3, p. e1226.
10. Kolesnikova L. I., Kolesnikov S. I., Darenskaya M. A., Grebenkina L. A., Nikitina O. A., Lazareva L. M., Suturina L. V., Danusevich I. N., Druzhinina E. B., Semendyaev A. A. Activity of LPO Processes in Women with Polycystic Ovarian Syndrome and Infertility. Bulletin of experimental biology and medicine. 2017, 162 (3), pp. 320-322.
11. Lee Y., Park S., Moon S., Lee J., Elston R. C., Lee W.,
Won S. On the analysis of a repeated measure design in genome-wide association analysis. International journal of environmental research and public health. 2014, 11 (12), pp. 12283-12303.
12. Lininger M., Spybrook J., Cheatham C. C. Hierarchical linear model: Thinking outside the traditional repeated-measures analysis-of-variance box. Journal of athletic training. 2015, 50 (4), pp. 438-441.
13. Lizneva D., Kirubakaran R., Mykhalchenko K., Suturina L., Chernukha G., Diamond M. P., Azziz R. Phenotypes and body mass in women with polycystic ovary syndrome identified in referral versus unselected populations: Systematic review and meta-analysis. Fertility and sterility. 2016, 106 (6), pp. 1510-1520.e2.
14. Lizneva D., Suturina L., Walker W., Brakta S., Gavrilova-Jordan L., Azziz R. Criteria, prevalence, and phenotypes of polycystic ovary syndrome. Fertility and sterility. 2016, 106 (1), pp. 6-15.
15. Macut D., Bjekic-Macut J., Rahelic D., Doknic M. Insulin and the polycystic ovary syndrome. Diabetes research and clinical practice. 2017, 130, pp. 163-170.
16. Manell E., Hedenqvist P., Svensson A., Jensen-Waern M. Establishment of a Refined Oral Glucose Tolerance Test in Pigs, and Assessment of Insulin, Glucagon and Glucagon-Like Peptide -1 Responses. PloS one. 2016, 11 (2), p. e0148896.
17. Phillips P. Oral glucose tolerance testing. Australian Family Physician. 2012, 41 (6), pp. 391-393.
18. Samson S. L., Garber A. J. Metabolic syndrome. Endocrinology and metabolism clinics of North America. 2014, 43 (1), pp. 1-23.
19. Suturina L., Lizneva D., Danusevich I., Lazareva L., Belenkaya L., Nadeliaeva I., Kovalenko I., Bazarova T., Khomyakova A., Natyaganova L., Dolgikh M., Kurashova N., Gavrilova O., Darzhaev Z., Sholohov L., Atalyan A., Rashidova M., Damdinova L., Rostovtseva L., Alekseeva L., Sharifulin E., Legro L., Stanczyk F., Yuldiz B., Chen Y. H., Kintziger K., Diamond M. P., Azziz R. The design, methodology, and recruitment rate for the Eastern Siberia PCOS epidemiology&phenotype (ES-PEP) Study. Abstracts of the 41st Annual Meeting of the Androgen Excess & PCOS Society. 2016, p. 76.
20. van Buuren S., Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. 201 1, 45 (3).
Контактная информация:
Гржибовский Андрей Мечиславович - доктор медицины, заведующий ЦНИЛ Северного государственного медицинского университета, г. Архангельск; профессор Северо-Восточного федерального университета, г. Якутск; почетный доктор Международного казахско-турецкого университета, г, Туркестан, Казахстан; почетный профессор Государственного медицинского университета г. Семей, Казахстан; визитинг-профессор КазНУ им. Аль-Фараби, г. Алматы, Казахстан
Адрес: 163000 г. Архангельск, Троицкий проспект, д. 51
E-mail: [email protected]