I В ПОМОЩЬ ИССЛЕДОВАТЕЛЮ
СОВРЕМЕННЫЕ ПРАВИЛА ПРИМЕНЕНИЯ ПАРАМЕТРИЧЕСКИХ И НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ В СТАТИСТИЧЕСКОМ АНАЛИЗЕ МЕДИКО-БИОЛОГИЧЕСКИХ ДАННЫХ
УДК 614.1:311 03.01.02 — биофизика Поступила 30.06.2020
А. П. Баврина
ФГБОУ ВО «Приволжский исследовательский медицинский университет» Минздрава России, Нижний Новгород
Рассмотрены основные правила применения аналитической статистики для сравнения групп и выявления статистически значимых различий между ними. Приводятся три основных вопроса, на которые необходимо ответить исследователю, чтобы выбрать корректный статистический критерий, а также правила ответа на них. Дана подробная классификация статистических шкал. Разобраны правила применения параметрических и непараметрических критериев, а также основные ошибки в их использовании. Особое внимание уделяется недостаточно освещенным в литературе вопросам: выбору корректного апостериорного теста при проведении дисперсионного анализа, а также правилам пересчета критического уровня значимости при проведении множественных сравнений с использованием непараметрических методов. Рассмотрены основные ошибки при написании подраздела «Статистическая обработка данных» в научной статье и диссертационном исследовании и даны примеры правильного описания статистических методов.
Ключевые слова: статистическая шкала; зависимые выборки; независимые выборки; параметрические критерии; непараметрические критерии; дисперсионный анализ; апостериорные тесты.
MODERN RULES FOR THE USE OF PARAMETRIC AND NONPARAMETRIC TOOLS IN THE STATISTICAL ANALYSIS OF BIOMEDICAL DATA
A. P. Bavrina
Privolzhsky Research Medical University, Nizhny Novgorod
The basic rules for using analytical statistical tools for comparing means between population groups and identifying statistically significant differences between them are considered. There are three main questions that a researcher must answer in order to choose the correct statistical tool, as well as the rules for answering them. A detailed classification of statistical scales is given. The rules for applying parametric and nonparametric criteria as well as the main mistakes in their use are discussed. Particular attention is paid to the issues that are not completely covered in the Literature: the choice of the correct post hoc test and analysis of variance as well as the rules for recalculating the critical level of significance when conducting multiple comparisons using nonparametric methods. The main mistakes in writing the subsection "Statistical data processing" in a scientific article and thesis are considered, and some examples of the correct description of statistical methods are given.
Key words: statistical scale; dependent samples; independent samples; parametric criteria; nonparametric tests; analysis of variance; post hoc tests.
Статья продолжает серию публикаций по применению медико-биологической статистики в научных исследованиях. Цель данной серии статей — познакомить читателей с основными принципами и правилами представления медико-биологических данных в научных исследованиях, сформировать целостную концепцию о методах статистической обработки результатов медико-биологических исследований, а также предупредить возникновение ошибок при статистической обработке данных.
В предыдущих публикациях подробно были разобраны правила применения описательной статистики для представления медико-биологических данных в научных исследованиях. Данная публикация открывает серию статей, посвященных аналитической статистике.
Аналитическая статистика объединяет процедуры оценки характеристик совокупности по данным выборок. При этом аналитическая статистика позволяет не только провести количественное исследование тенденций развития процесса, но и изучить этот процесс в динамике, а также измерить связи между разными факторами.
К методам аналитической статистики относятся:
• дисперсионный анализ и его частный случай — критерий Стьюдента;
• непараметрические методы сравнения групп;
• корреляционный анализ;
• регрессионный анализ;
• методы классификации: кластерный и факторный анализ.
ПОДГОТОВКА К СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ: ТРИ ВОПРОСА
Итак, с чего начать статистическую обработку результатов собственного исследования? Перед статистической обработкой научных данных любой исследователь должен задать себе три вопроса, ответ на них поможет правильно описать данные и выбрать корректный статистический критерий [1].
1. К какой статистической шкале относится данная переменная?
2. Если речь идет о переменных с интервальной шкалой, то подчиняются ли они закону нормального распределения?
3. Являются ли сравниваемые выборки зависимыми или независимыми?
1. К какой статистической шкале относится данная переменная?
Шкала — это элемент счетной системы, посред-
ством которого происходит отнесение исследуемого объекта к определенной группе объектов.
Классификацию статистических шкал предложил еще в 1946 г. американский психолог С.С. Стивенс, и она до сих пор является основной и актуальна в медико-биологических исследованиях. Шкалы, как и данные, подразделяются на 2 вида: качественные и количественные (рис. 1).
С.С. Стивенсом было выделено 4 вида статистических шкал.
1. Номинальная шкала — качественная шкала, где каждому значению приписываются определенные числа (метки), которые впоследствии невозможно ранжировать, т.е. упорядочить в зависимости от количественной выраженности исследуемого признака. Примером классической номинальной шкалы является классификация по полу, где, например, испытуемым мужского пола присваивается метка 1, а испытуемым женского пола — метка 2. При этом допустимы все взаимно-однозначные преобразования (изменение порядка присваивания меток не изменит смысла описания номинальных данных). С данными в номинальных шкалах невозможны никакие арифметические действия — нет смысла их перемножать, делить или складывать.
Используемый пример (классификация по полу) относится к дихотомическим шкалам, которые являются разновидностью номинальных шкал и содержат только две категории. Другими примерами дихотомических шкал будут классификации: болен-здоров, выжил-скончался, трудоустроен-безработный, курит-некурящий. Номинальные шкалы могут содержать и большее количество категорий. Например, классификации по семейному положению, национальности и многие другие, где каждой группе присваивается своя метка.
Рис. 1. Классификация статистических шкал
Возможности обработки переменных, относящихся к номинальной шкале, сильно ограничены: с ними можно провести только частотный анализ. Таким образом, основная функция номинальной шкалы — разделять объекты исследования на группы, с которыми впоследствии будут проводиться одинаковые статистические тесты.
2. Порядковая шкала — качественная шкала, которая позволяет не только разделить данные на группы, но и проранжировать их в зависимости от выраженности изучаемого признака. В порядковых шкалах наблюдается постепенное увеличение или уменьшение эмпирической значимости признака.
Классическим примером порядковой шкалы в медицине является классификация по интенсивности боли, где каждому ответу присваиваются метки от 1 до 10 с нарастанием выраженности признака. Поэтому в порядковых шкалах недопустимы никакие взаимно-однозначные преобразования — изменение порядка присвоения меток приведет к путанице. Другими примерами порядковых шкал являются классификации по возрасту, уровню доходов, самочувствию, образованию.
Хотя в порядковых шкалах разность между двумя значениями не имеет эмпирической значимости (так как разница между ближайшими значениями всегда остается равной единице и нельзя сказать, во сколько или на сколько одно значение больше другого), порядковые шкалы не ограничены простой классификацией и частотным анализом. К порядковым шкалам можно применять непараметрические тесты, которые оперируют рангами.
3. Интервальная шкала — количественная шкала для переменных, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость. В случае интервальной шкалы можно точно сказать, во сколько или на сколько одно значение больше или меньше другого. Особенностью интервальной шкалы является произвольный выбор нулевой точки отсчета.
К интервальным шкалам относится большинство дискретных и непрерывных медико-биологических данных: рост, вес, лабораторные показатели, результаты ЭКГ и многое другое. В интервальной шкале устанавливаются единицы измерения (граммы, метры, вольты, сутки и т.д.), в ней могут проводиться любые арифметические операции и применяться любые статистические методы.
4. Шкала отношений — количественная шкала, которая является разновидностью интервальной с тем отличием, что в ней строго определено положение точки отсчета — это ноль, т.е. отсутствие исследуемого признака. В случае использования шкалы отношений исследуемая величина измеряется по отношению к величине, принятой за единицу (эмпирическую значимость в данном случае имеет отношение двух значений). Переменные, относящиеся к интервальной шкале, как правило, имеют и шкалу отношений. К шка-
ле отношений также применимы любые арифметические операции и любые статистические методы.
2. Если речь идет о переменных с интервальной шкалой, то подчиняются ли они закону нормального распределения?
Для переменных с интервальной шкалой (т.е. для количественных переменных) необходимо ответить на вопрос, подчиняются ли они закону нормального распределения. Методы определения принадлежности интервальных данных к нормальному распределению были подробно освещены в предыдущей публикации [2].
Существует несколько простых правил по выбору параметрических или непараметрических тестов для статистической обработки результатов исследования.
A. Если результаты исследования распределены нормально, то к ним могут применяться параметрические тесты.
Б. К несимметрично распределенным данным (не подчиняющимся нормальному закону распределения) применяются только непараметрические тесты. Параметрические тесты нельзя применять к величинам, не подчиняющимся нормальному закону распределения. Таким образом, использование для статистической обработки таких результатов критерия Стьюдента является грубой ошибкой.
B. Непараметрические тесты могут применяться не только к несимметрично распределенным данным, но и к нормально распределенным величинам. Это ошибкой не является. Однако следует помнить, что в случае применения непараметрических тестов к нормально распределенным величинам они будут иметь 95% эффективность по сравнению с параметрическими тестами.
Г. Если выборки частично подчиняются нормальному распределению (например, одна сравниваемая выборка распределена нормально, а вторая — нет), то могут применяться только непараметрические тесты.
3. Являются ли сравниваемые выборки зависимыми или независимыми?
Как говорилось ранее [3], существует несколько классификаций выборок, однако большинство из них актуальны только для планирования исследования. Для аналитической статистики важно подразделение выборок на два вида: зависимые и независимые. От правильной идентификации выборок по данной классификации будет зависеть выбор статистического критерия и, соответственно, правильность дальнейших выводов о статистической значимости различий или ее отсутствии.
1. Зависимые выборки возникают при исследовании одних и тех же испытуемых в разные моменты времени. Например: результаты исследования пациентов в момент поступления в стационар и на момент выписки.
2. Независимые выборки содержат наблюдения, которые различаются какой-либо групповой номинальной переменной (например, пол, возраст, отсутствие и наличие заболевания, принадлежность к контрольной и опытной группе лабораторных животных и т.д.), т.е. содержат результаты изучения различных испытуемых.
Итак, после ответа на три основных вопроса исследователь может приступать к аналитической статистике.
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ Критерий Стьюдента
Параметрические критерии оперируют характеристиками нормального распределения: средним значением и стандартным отклонением. К параметрическим критериям относится частный случай дисперсионного анализа — критерий Стьюдента. Наиболее частые случаи применения ^критерия связаны с проверкой равенства средних значений в двух выборках; нулевая гипотеза при этом предполагает, что средние равны.
Критерий Стьюдента является самым часто встречающимся в научных публикациях. Однако нередко его используют неправомерно. Ошибочное применение критерия Стьюдента увеличивает вероятность выявить несуществующие различия.
Использование критерия Стьюдента имеет следующие ограничения:
1. Критерий Стьюдента может применяться только для нормально распределенных данных, относящихся к интервальной шкале. Особенности определения формы распределения были подробно описаны в предыдущей публикации [2].
Опыт показывает, что в медико-биологических исследованиях лишь 15-20% количественных признаков подчиняются нормальному закону распределения [4]. Таким образом, неправомочное использование критерия Стьюдента приводит исследователя к неправильным результатам, что влечет за собой ложные выводы, чреватые разработкой в лучшем случае неэффективных, а в худшем — опасных методов диагностики и лечения [5].
Правило: если распределение хотя бы одной из сравниваемых групп отличается от нормального, то следует прибегнуть к непараметрическим методам.
2. Критерий Стьюдента может использоваться только при равенстве дисперсий распределений признаков в двух сравниваемых группах. Для проверки гипотезы о равенстве дисперсий применяется тест Левена на гомогенность дисперсий. Этот тест определяет уровень значимости различий дисперсии групп. При р>0,05 различие дисперсии между данными группами незначимо, следовательно, их можно рассматривать как гомогенные.
В статистических программах тест Левена проводится автоматически при запросе на анализ с помо-
щью критерия Стьюдента, дополнительно его рассчитывать не нужно. Современные статистические программы способны определять уровень значимости при сравнении выборок, не имеющих равных дисперсий. Поэтому утверждение о необходимости использования непараметрических критериев, если дисперсии выборок не равны, является устаревшим!
Правило: если независимые выборки имеют неравные дисперсии, то следует воспользоваться ^критерием в модификации Уэлча.
3. Критерий Стьюдента может использоваться только для сравнения двух выборок. При множественных сравнениях к нему прибегать нельзя. В данном случае появляется эффект множественных сравнений.
Например, в исследовании участвовали три группы: А, Б и В. Эти три группы попарно сравнивались следующим образом: А и Б, А и В, Б и В. Допустим, в качестве критического был выбран уровень значимости р<0,05 и для каждого сравнения была получена своя вероятность ошибочного отвержения нулевой гипотезы, например, 5%. Казалось бы, все правильно. Однако мы получаем такую ошибку трижды при сравнении групп друг с другом. Поэтому при небольшом числе сравнений для учета эффекта множественных сравнений необходимо использовать следующую формулу:
р' = 0,05^
где к — число сравнений.
В приведенном примере мы получим вероятность ошибочно отвергнуть нулевую гипотезу (р) уже не 0,05, а 0,15, что не соответствует критическому значению уровня значимости. А если, например, будут сравниваться попарно 7 групп, то вероятность ошибочно обнаружить статистически значимые отличия там, где их нет, уже будет равна 0,35!
Правило: если число сравнений больше двух, необходимо воспользоваться дисперсионным анализом.
Разновидности критерия Стьюдента:
1. Т-тест для сравнения двух независимых выборок.
2. Т-тест для сравнения двух парных (зависимых) выборок.
3. Т-тест одной выборки (или одновыборочный Т-критерий). Этот тест позволяет выяснить, отличается ли среднее значение, полученное на основе данной выборки, от предварительно заданного контрольного значения. В научных исследованиях этот тест встречается довольно редко, хотя его использование может украсить научную работу. Остановимся на нем подробнее.
Например, в исследовании изучалось влияние нового вида лечения на систолическое давление. Допустим, за контрольные значения признака принимались цифры до начала лечения. После пройденного курса лечения проводились повторные измерения.
Логичным для выявления статистически значимых различий между группами представляется использование Т-теста для сравнения двух зависимых выборок (группы «до лечения» и группы «после лечения»).
Допустим, искомые статистически значимые различия были обнаружены, но возникает закономерный вопрос: да, новый метод лечения влияет на систолическое давление, но каким образом? Нормализовалось ли систолическое давление? Для ответа на этот вопрос можно предложить средние значения систолического давления в группах (при условии нормальности распределения) или же медианы (если распределение отличается от нормального) и таким образом показать, что после лечения систолическое давление снизилось. Но с точки зрения статистики, такое заявление считается голословным и может говорить только об имеющейся тенденции.
На помощь приходит Т-тест одной выборки. Известно, что нормальное значение систолического давления составляет 120 мм рт.ст. Это значение можно сравнить с результатами группы «до лечения» с использованием Т-теста одной выборки и показать наличие статистически значимых различий. Затем провести такой же анализ для группы «после лечения», и полученное отсутствие статистически значимых различий докажет, что новое лечение не только неким образом влияет на уровень статистического давления, но и оказывает воздействие, снижая его до нормальных значений.
Дисперсионный анализ
Как говорилось выше, с помощью критерия Стьюдента можно проводить сравнение только двух выборок. К сожалению, в отечественной литературе до сих пор часто встречаются примеры применения критерия Стьюдента для сравнения трех, четырех, пяти и более групп. Причем сравниваются либо группы попарно, либо все группы с контрольной, в результате чего происходит заведомое ошибочное завышение критического уровня значимости [6]. Хотелось бы особенно отметить, что сравнение нескольких групп с одной контрольной также считается множественным сравнением и требует применения дисперсионного анализа, даже если между собой эти группы не сравниваются!
Суть и процедура дисперсионного анализа подробно описаны в многочисленных книгах и пособиях по статистике, поэтому в данной статье останавливаться на них не будем. Мы обратим внимание на основные правила и ошибки использования дисперсионного анализа и особенно досконально рассмотрим выбор и применение апостериорных тестов, без которых дисперсионный анализ не выполняется.
Итак, при необходимости сравнения более двух выборок действуют следующие правила.
1. Сравнение более чем двух независимых выборок может быть проведено только с использованием
однофакторного дисперсионного анализа (ANOVA — One-Way ANalysis Of VAriance).
2. Сравнение более чем двух зависимых выборок может быть проведено только с использованием многомерного дисперсионного анализа (MANOVA — Multi-variate ANalysis Of VA riance). В SPSS современных версий MANOVA заменен на Общую линейную модель (ОЛМ). Однако процедура MANOVA остается доступной при использовании программного синтаксиса.
3. При дисперсионном анализе обязательно выполнение апостериорного теста, предполагающего введение поправок Бонферрони, Даннета, Тьюки и многих других. При отвержении нулевой гипотезы о равенстве средних апостериорные тесты позволяют выделить среди групп отличные от остальных.
Напомню, что для применения дисперсионного анализа, как и критерия Стьюдента, должны выполняться два условия:
— нормальность распределения;
— равенство дисперсий.
Как же быть, если критерий Левена показал наличие статистически значимых различий между дисперсиями независимых выборок? В такой ситуации на помощь приходят критерий Брауна-Форсайта и критерий Уэлча, интерпретирующие результаты аналогично дисперсионному анализу. Данные критерии находятся в диалоговом окне дисперсионного анализа, в случае неравенства дисперсий их необходимо выбрать дополнительно. Поэтому при использовании современных статистических программ утверждение о невозможности проведения дисперсионного анализа для негомогенных по дисперсиям групп также является устаревшим.
Остановимся подробнее на апостериорных тестах. Дисперсионный анализ позволяет проверить гипотезу о равенстве всех средних. Если гипотеза не подтверждается, нельзя узнать, какая именно группа статистически значимо отличается от других. Дело в том, что в результате дисперсионного анализа мы получаем всего один уровень значимости, независимо от количества сравнений. Например, для сравнения четырех групп (А, B, C и D) был проведен дисперсионный анализ, в результате которого получен уровень значимости р=0,01. Что дает эта информация? Крайне мало. Мы можем только предположить, что среди сравниваемых четырех групп есть отличные друг от друга, но не можем знать, какие именно.
На помощь приходят апостериорные тесты. Результатом их введения является:
— получение конкретного уровня значимости для каждой пары сравнений;
— корректировка уровня значимости для нивелирования эффекта множественных сравнений (корректировка ошибки I рода).
Например, программа SPSS Statistics предлагает на выбор целых 18 апостериорных тестов. Как же определиться среди такого многообразия?
Наиболее популярным тестом в медико-биологических исследованиях является поправка Бонферро-ни. Однако задачей апостериорных тестов также является коррекция ошибки I рода — ошибочного отвержения исследователем нулевой гипотезы, или, иными словами, ошибочного заключения о существовании различий, которых в действительности нет. При этом уровень ошибки I рода делится на количество сравнений для получения нового критического уровня значимости. В нашем примере проводилось 4 сравнения, поэтому критический уровень значимости будет уже не привычный 0,05, а скорректированный на количество сравнений: 0,05 : 4 = 0,0125.
Понятно, что поправка Бонферрони хорошо контролирует ошибку I рода, но при этом является очень консервативной и приводит к повышению вероятности ошибки II рода (вероятности принять неверную нулевую гипотезу, т.е. не найти действительно существующее различие там, где оно есть). Таким образом, поправка Бонферрони хорошо работает, если число сравнений невелико. Если число сравнений превышает 5-8, метод становится слишком строгим и даже весьма большие различия приходится признавать статистически незначимыми.
Если при проведении дисперсионного анализа выявлены статистически значимые различия (р<0,05) между группами, а после введения поправки Бон-феррони таковые отсутствуют, можно воспользоваться либеральными апостериорными тестами. Кроме того, поправку Бонферрони не рекомендуется применять при количестве сравнений более пяти. Однако следует помнить, что либеральные критерии завышают вероятность ошибки I рода.
Особенности выбора апостериорного теста при количестве сравнений больше пяти:
1. Критерий НЗР — наименьшая значимая разность (LSD — Least Significant Difference), а также критерий С-Н-К (Стьюдента-Ньюмена-Кейлса) не
рекомендуются, так как совсем не учитывают ошибку I рода.
2. Чуть большей мощностью и контролем ошибки
I рода обладают критерий Шеффе, критерий Дункана и критерий Тьюки (критерии расположены в порядке нарастания мощности).
3. Наиболее оптимальным критерием для замены поправки Бонферрони при большом числе сравнений (более 5) является Q-критерий Райана-Эйно-Габриэ-ля-Уэлча (Р-Э-Г-У). Однако Q-критерий имеет существенные ограничения: он может использоваться только при равенстве дисперсий и объемов всех сравниваемых групп.
4. Если выборки различаются по объему, то наиболее оптимальными апостериорными тестами становятся:
— критерий Габриэля (если выборки различаются по объему незначительно, на 2-3 значения);
— критерий Хохберга (если выборки различаются по объему существенно).
5. Если наблюдается разница дисперсий, то наиболее оптимальным апостериорным тестом будет критерий Геймса-Хоуэлла (однако в данном случае в дисперсионный анализ необходимо дополнительно ввести критерий Брауна-Форсайта и критерий Уэ-лча, как говорилось выше).
6. При сравнениях нескольких групп с одной контрольной в качестве апостериорного теста следует использовать критерий Даннета [7].
Для удобства читателей правила выбора и применения апостериорных тестов при дисперсионном анализе объединены в блок-схему (рис. 2).
В главе «Материалы и методы» диссертационного исследования или научной статьи необходимо подробно и точно описывать использованные статистические методы. В случае применения дисперсионного анализа нужно не только указать использованный метод, но и обосновать введение той или иной поправки на множественные сравнения.
Рис. 2. Алгоритм выбора апостериорного теста при дисперсионном анализе
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Если исследование распределения на нормальность показало его отсутствие хотя бы для одной выборки, то исследователю следует обратиться к непараметрическим критериям. Непараметрические методы не используют параметры распределения, такие как среднее значение и стандартное отклонение, а осуществляют ранжирование абсолютных значений признака, что позволяет нивелировать эффект выбросов и несимметричности распределения.
Правила применения непараметрических тестов:
1. Непараметрические тесты применяются там, где выборки из переменных, принадлежащих к интервальной шкале, не подчиняются нормальному распределению. В этих тестах обрабатывается не само измеренное значение, а его ранг.
2. Непараметрические тесты могут использоваться также в случаях, когда переменные относятся к порядковой шкале.
3. Непараметрические тесты могут применяться и при нормальном распределении значений. Но следует понимать, что в этом случае непараметрические тесты будут уступать в мощности параметрическим методам. Использование непараметрических тестов при нормальном распределении способно стать причиной пропуска различий между группами там, где различия фактически присутствуют.
4. Если необходимо произвести сравнение двух независимых выборок, причем выборки частично подчиняются нормальному распределению, а частично — нет, то рекомендуется всегда применять непараметрические тесты.
Непараметрические тесты для сравнения двух выборок:
• и-тест Манна и Уитни. Это самый известный и распространенный тест непараметрического сравнения двух независимых выборок.
• Тест Уилкоксона. Этот тест является традиционным непараметрическим тестом для сравнения двух зависимых выборок.
• Знаковый тест. Условия применения данного теста те же, что и для теста Уилкоксона (сравнение двух зависимых выборок), но, в отличие от него, здесь ведется подсчет только положительных и отрицательных разностей, что может оказаться полезным тогда, когда различия между выборками будут не слишком заметны.
Если предполагаемое количество сравнений больше двух, то следует обратиться к непараметрическим аналогам дисперсионного анализа — критерию Краскела-Уоллеса и критерию Фридмана. Часто исследователи в своих работах называют эти методы непараметрическим дисперсионным анализом, однако к такому определению следует подходить с осторожностью, поскольку к дисперсиям метод
Краскела-Уоллиса и метод Фридмана не имеют никакого отношения. Как говорилось ранее, непараметрические методы оперируют рангами.
Правила использования непараметрических тестов для множественных сравнений:
1. Н-тест Краскела-Уоллиса. Этот тест является модификацией U-теста Манна и Уитни на случай для более чем двух независимых выборок.
2. Тест Фридмана. Этот тест представляет собой расширение теста Уилкоксона для случая наличия более чем двух зависимых выборок.
Как и дисперсионный анализ, методы Краскела-Уоллиса и Фридмана показывают, есть ли фактическое различие между несколькими сравниваемыми группами, при этом остается неизвестным, между какими конкретно группами это различие присутствует. В результате теста мы имеем одно значение уровня значимости. Но в отличие от дисперсионного анализа, непараметрические тесты не предполагают введение апостериорных тестов. Поэтому тесты Краскела-Уоллиса и Фридмана считаются предварительными, или разведочными. С их использованием можно лишь предположить, что между группами имеются статистически значимые различия, и продолжить анализ с помощью тестов Манна-Уитни или Уилкоксона, попарно сравнивая все группы.
Однако следует помнить, что SPSS не имеет функции подсчета апостериорных тестов для нивелирования эффекта множественных сравнений при непараметрическом анализе. Поэтому корректные критические уровни значимости исследователю необходимо подсчитать вручную, используя уже известное правило «0,05 : количество сравнений». Например, в исследовании было 3 сравнения, следовательно, критический уровень значимости рассчитывается как 0,05 : 3 = 0,017.
Исходя из вышесказанного, указывать в главе «Материалы и методы» критерий Краскела-Уолли-са (или же критерий Фридмана) в качестве единственного статистического метода является некорректным. Так как в этом случае был проведен только предварительный анализ без выявления конкретных уровней значимости для каждой пары групп. Поэтому необходимо указывать и последующий тест Манна-Уитни (или же Уилкоксона) с новым критическим уровнем значимости. При использовании непараметрических методов для множественного сравнения групп недопустимо указывать уровень значимости р<0,05 в качестве критического! Необходимо произвести его перерасчет на количество сравнений.
В завершение приведем блок-схему, которая поможет исследователю выбрать правильный метод для статистической обработки данных (рис. 3).
Рис. 3. Алгоритм выбора статистического критерия
РЕКОМЕНДАЦИИ ДЛЯ ОФОРМЛЕНИЯ ПОДРАЗДЕЛА «СТАТИСТИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ»
Удивительно, но до сих пор примерно в 20% публикаций совершенно отсутствует информация о проведенном статистическом анализе либо появляются эпизодические упоминания о статистической обработке в тексте статьи, в основном в виде р<0,05.
При описании статистических методов следует избегать общих размытых фраз и клише, так они свидетельствуют либо о непонимании использованных статистических методов, либо о несерьезном подходе к публикации и собственному научному исследованию. Такие клише копируются из статьи в статью и представляют собой цепочку шаблонных сужений, часто логически незавершенных и ошибочных.
Наиболее часто в научных публикациях можно встретить следующие шаблонные фразы:
«В статье применялись методы вариационной статистики»;
«Обработку результатов проводили общепринятыми методами»;
««Результаты обрабатывались статистически»;
««Данные были подвергнуты статистической обработке»;
««Статистическая обработка производилась при использовании компьютера со стандартными программами»;
««Результаты были обработаны с помощью методов непараметрической статистики».
От термина «вариационная статистика» было ре-
комендовано отказаться еще в 70-х годах прошлого века, поскольку данное словосочетание не несет в себе никакого смысла: без вариаций не существует статистики.
Так же остается неясным, какие методы для авторов являются «общепринятыми» и какие программы являются «стандартными»: без указания конкретных статистических методов читателю невозможно догадаться, насколько адекватно проводился статистический анализ.
В последнем примере появляется некая конкретика, касающаяся использования непараметрических критериев, однако непараметрических методов существует большое количество.
Таким образом, подобных размытых и не несущих смысла формулировок следует избегать. Согласитесь, что вышеперечисленные шаблонные фразы не несут никакой информационной нагрузки и выглядят как обычная отписка.
Во многих публикациях встречается более подробное описание статистических методов, но содержащее ошибки и недоработки, например: «Достоверность значений определяли по ^критерию Стью-дента».
Во-первых, с точки зрения статистики, недопустимо использовать словосочетание «достоверность различий», а также варианты «были более статистически достоверными» и т.п. Слово «достоверность» нужно заменить на неразделимое словосочетание «статистическая значимость». К сожалению, примерно в 70% научных исследований до сих пор встречается эта ошибка.
Во-вторых, с помощью статистических критериев определяют статистическую значимость различий, а не значений. Поэтому откорректированная фраза будет выглядеть следующим образом: «Статистическую значимость различий между группами определяли с помощью критерия Стьюдента».
Еще один пример некорректного описания: ««Отличия считали достоверными при уровне доверительной вероятности, равной 0,05».
О недопустимости применения словосочетания «достоверность различий» мы уже упомянули. Вторая грубая ошибка заключается в том, что здесь спутаны понятия уровня значимости и доверительной вероятности. Это встречается довольно часто. Исходя из данной фразы, авторы уверены в своих собственных выводах не более чем на 5%! Кроме того, слово «отличие» в контексте словосочетания «статистически значимое отличие» в статистике не применяется. Слова «различие» и «отличие» несут в себе разный смысл. Различие — это разница, которая видна всем благодаря примененным статистическим методам. А отличие — конкретный признак, благодаря которому создается различие.
После исправления предложение выглядит следующим образом: «Различия считали статистически значимыми при уровне значимости менее 0,05».
Еще один подобный пример: «Достоверность различий между группами с уровнем значимости не менее 95% оценена с помощью непараметрического и-критерия Манна-Уитни».
Здесь авторы утверждают, что предельная вероятность отклонить нулевую гипотезу, когда на самом деле она верна (т.е. вероятность ошибки I рода) в их исследовании составляет 95%, вместо принятой в медико-биологических исследованиях 5% вероятности.
Часто авторы указывают неверный статистический метод. Например: ««В качестве критерия проверки нормальности распределения использовали метод Краскела-Уоллиса». В данном случае, скорее всего, имелся в виду критерий Колмогорова-Смирнова либо же исследование на нормальность не проводилось.
Об ошибках в описании статистических методов в научных исследованиях можно говорить бесконечно и посвятить им не один обзор, поэтому перейдем непосредственно к рекомендациям, как этих ошибок избежать.
Приведем классификацию основных ошибок в описании статистических методов [4].
1. Использование выражений типа М±т и М±о без указания, что за величины соединены знаком «±».
2. Использование выражений типа М±т для балльных признаков.
3. Применение ^критерия Стьюдента без проверки двух ограничительных условий.
4. Применение ^критерия Стьюдента для сравне-
ния средних более чем в двух группах, без проверки двух ограничительных условий.
5. Проведение классического дисперсионного анализа (ANOVA) без проверки двух ограничительных условий.
6. Применение t-критерия Стьюдента к дискретным, балльным признакам.
7. Использование в тексте статей конкретных значений достигнутого уровня статистической значимости без указания статистических критериев, для которых они вычислялись.
8. Утверждение, что уровень значимости принимался более 5%.
9. Утверждение, что уровень значимости принимался более 95%.
10. Использование слова «достоверно» применительно к результатам проверки статистических гипотез.
11. Упоминание о применении многомерных методов статистического анализа без конкретизации этих методов и описания результатов их использования.
12. Применение t-критерия Стьюдента в среде пакета EXCEL, в котором нет процедуры проверки нормальности распределения.
13. Представление данных корреляционного анализа без конкретизации используемого коэффициента корреляции.
14. Использование выражений «непараметрические данные», «непараметрические признаки», «параметрические признаки».
15. Упоминание в разделе «Материалы и методы» конкретных методов статистического анализа, результаты использования которых вообще не приводятся в тексте статьи.
16. Использование выражения вида «р>1», в котором, судя по контексту, величина р является вероятностью.
Как говорилось ранее, необходимо избегать размытых формулировок, использованные статистические методы нужно описывать точно и подробно. В подразделе «Статистическая обработка данных» требуется отразить следующее:
1. Статистическую программу, с помощью которой проводился статистический анализ, и ее версию. На данный момент указание программы Excel в качестве единственной статистической программы считается недопустимым. Также недопустимо указывать онлайн-калькулятор. Основными программами, рекомендованными к использованию, являются пакеты прикладных программ SPSS и STATISTICA.
2. Статистические методы (описываются подробно).
Во-первых, при необходимости указываются критерии и методы определения принадлежности исследуемого распределения к нормальному. Данное указание обязательно при наличии в статье количественных данных, особенно при использовании параметрических критериев.
Во-вторых, обоснованно описываются все использованные в работе статистические методы и критерии.
3. Вид описания результатов исследования.
Например: «Нормально распределенные данные представляли в виде M±Sd (где М — среднее значение, Sd — стандартное отклонение)».
И/или: «Результаты, распределение которых отличалось от нормального, представлены в виде Me [МКИ] (где Ме — медиана, МКИ — межквартильный интервал)».
И/или: «Качественные данные представляли в виде P±op (где Р — процентная доля, op — стандартное отклонение процентной доли).
Нужно заметить, что использование абсолютных значений является малоинформативным.
Обычно подраздел завершается фразой «Различия считались статистически значимыми при р<0,05». Если проводились множественные сравнения с помощью непараметрических критериев (например, критерия Краскела-Уоллиса), необходимо указать новый критический уровень значимости, скорректированный на количество сравнений.
Примеры написания подраздела «Статистическая обработка данных»:
1. Статистическая обработка данных проводилась с использованием программы SPSS Statistics 26. Принадлежность выборок к нормальному распределению определяли с помощью критерия Шапиро-Уи-лка и графиков квантилей. В качестве предварительного статистического метода применяли критерий Краскела-Уоллиса, с последующим попарным сравнением с помощью критерия Манна-Уитни. Различия считали статистически значимыми при р<0,01 (после пересчета на число сравнений). Результаты представляли в виде Me [МКИ] (где Ме — медиана, МКИ — межквартильный интервал).
2. Статистическую обработку полученных данных проводили при помощи программы STATISTICA 10.0. Для определения характера распределения использован критерий Колмогорова-Смирнова. Оценку различий между группами выполняли при помощи однофакторного дисперсионного анализа с последующим проведением апостериорного теста (поправки Бонферрони). Результаты представляли в виде M±Sd (где М — среднее значение, Sd — стандартное отклонение). Статистически значимыми считали различия при p<0,05.
3. Полученные результаты обрабатывали с помощью пакета прикладных программ SPSS Statistics 21. Количественные данные проверяли на нормальность распределения с использованием критерия Колмогорова-Смирнова. Для выявления статистических различий нормально распределенных данных применяли критерий Стьюдента для независи-
мых выборок. Количественные данные в таблицах представлены в виде М±Sd (где М — среднее значение, Sd — стандартное отклонение). Качественные данные представлены в виде P±op (где Р — процентная доля, op — стандартное отклонение процентной доли). Для анализа различий качественных данных использовали таблицы сопряженности и критерий хи-квадрат Пирсона. В качестве критического уровня значимости использовали p<0,05.
Финансирование исследования и конфликт интересов. Исследование не финансировалось каким-либо источником, и конфликты интересов, связанные с данным исследованием, отсутствуют.
ЛИТЕРАТУРА/REFERENCES
1. Гланц С. Медико-биологическая статистика. М: Практика; 1998. Glanc S. Mediko-biologicheskaja statistika [Biomedical statistics]. Moscow: Praktika; 1998.
2. Баврина А.П. Современные правила использования методов описательной статистики в медико-биологических исследованиях. Медицинский альманах 2020; 2: 95-104. Bavri-na A.P. Modern rules for the use of descriptive statistics methods in biomedical research. Medicinskij al'manah 2020; 2: 95-104.
3. Баврина А.П. Основные понятия статистики. Медицинский альманах 2020; 3: 101-111. Bavrina A.P. Basic concepts of statistics. Medicinskij al'manah 2020; 3: 101-111.
4. Леонов В.П. Статистика в кардиологии. 15 лет спустя. Медицинские технологии. Оценка и выбор 2014; 1: 17-28. Le-onov V. P. Statistics in cardiology. 15 years later. Medicinskie tekh-nologii. Ocenka i vybor 2014; 1: 17-28.
5. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. М: МедиаСфера; 2000. Rebrova O. Ju. Statisticheskij analiz medicin-skih dannyh. Primenenie paketa prikladnyh programm STATISTICA [Statistical analysis of medical data. Using the STATISTICA application package]. Moscow: MediaSfera; 2000.
6. Гржибовский А.М. Анализ трех и более независимых групп количественных данных. Экология человека 2008; 3: 50-58. Grzhibovskij A.M. Analysis of three and more independent groups of quantitative data. Ekologiya cheloveka 2008; 3: 50-58.
7. Toothaker L.E. Multiple comparison procedures. In: Sage University paper series on quantitative applications in the social sciences, 07-089. SAGE Publications; 1993; 104 p.
ИНФОРМАЦИЯ ОБ АВТОРЕ:
А.П. Баврина, к.б.н., доцент кафедры медицинской физики и информатики, руководитель Центра биомедицинской статистики, организации исследований и цифровой медицины ФГБОУ ВО «Приволжский исследовательский медицинский университет» Минздрава России. Для контактов: Баврина Анна Петровна, е-mail: annabavr@gmail.com