Научная статья на тему 'Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии'

Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
21068
3503
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
STATISTICA / SPSS / КРИТЕРИИ СТЬЮДЕНТА / КРИТЕРИЙ МАННА-УИТНИ / НЕЗАВИСИМЫЕ ГРУППЫ / СТЬЮДЕНТ КРИТЕРИЛЕРі / МАННА-УИТНИ КРИТЕРИі / ТәУЕЛСіЗ ТОПТАР / T-TEST / MANN-WHITNEY TEST / INDEPENDENT SAMPLES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.

В настоящей работе представлены общие сведения об использовании параметрического непарного критерия Стьюдента и непараметрического критерия Манна-Уитни для сравнения количественных признаков в независимых выборках. Описан алгоритм расчета критериев с использованием программного обеспечения Statistica 10 и SPSS 20, а также представлена интерпретация результатов расчетов. Настоящая статья призвана дать общие сведения об использовании критериев Стьюдента и Манна-Уитни, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF QUANTITATIVE DATA IN TWO INDEPENDENT SAMPLES USING STATISTICA AND SPSS SOFTWARE: PARAMETRIC AND NON-PARAMETRIC TESTS

This is the second paper of the series of articles where we present basic principles of statistical data analysis using Statistica and SPSS software for beginners. Step-be-step algorithms for Student’s unpaired t-test and Mann-Whitney test for independent samples are presented. The main aim of this paper is to provide basic knowledge on ho to compare continuous variables in two independent samples with practical examples using commonly used software. The article complements, but does not substitute specialized literature on biostatistics and clinical epidemiology.

Текст научной работы на тему «Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии»

Получена: 3 марта 2015 / Принята: 15 марта 2016 / Опубликована online: 6 мая 2016 УДК 614.2 + 303.4

СРАВНЕНИЕ КОЛИЧЕСТВЕННЫХ ДАННЫХ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК С ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ STATISTICA И SPSS: ПАРАМЕТРИЧЕСКИЕ И НЕПАРАМЕТРИЧЕСКИЕ

КРИТЕРИИ

Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498, Сергей В. Иванов 5, http://orcid.org/0000-0003-0254-3941 Мария А. Горбатова 2, http://orcid.org/0000-0002-6363-9595

1 Национальный Институт Общественного Здравоохранения, г. Осло, Норвегия;

2 Северный Государственный Медицинский Университет, г. Архангельск, Россия;

3 Международный Казахско-Турецкий Университет им. Х.А. Ясави, г. Туркестан, Казахстан;

4 Северо-Восточный Федеральный Университет, г. Якутск, Россия;

5 Северо-Западный Государственный Медицинский Университет им. И.И. Мечникова, г. Санкт-Петербург, Россия.

Резюме:

В настоящей работе представлены общие сведения об использовании параметрического непарного критерия Стьюдента и непараметрического критерия Манна-Уитни для сравнения количественных признаков в независимых выборках. Описан алгоритм расчета критериев с использованием программного обеспечения Statistica 10 и SPSS 20, а также представлена интерпретация результатов расчетов. Настоящая статья призвана дать общие сведения об использовании критериев Стьюдента и Манна-Уитни, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.

Ключевые слова: Statistica, SPSS, критерии Стьюдента, критерий Манна-Уитни, независимые группы.

Summary

ANALYSIS OF QUANTITATIVE DATA IN TWO INDEPENDENT SAMPLES USING STATISTICA AND SPSS SOFTWARE: PARAMETRIC AND NON-PARAMETRIC TESTS

Andrej M. Grjibovski 1-4, http://orcid.org/0000-0002-5464-0498, Sergej V. Ivanov 5, http://orcid.org/0000-0003-0254-3941 Maria A. Gorbatova 2, http://orcid.org/0000-0002-6363-9595

1Norwegian Institute of Public Health, Oslo, Norway;

2Northern State Medical University, Arkhangelsk, Russia;

3North-Eastern Federal University, Yakutsk, Russia;

international Kazakh-Turkish University, Turkestan, Kazakhstan;

5North-Western State Medical University n.a. I.I. Mechnikov, St. Petersburg, Russia.

This is the second paper of the series of articles where we present basic principles of statistical data analysis using Statistica and SPSS software for beginners. Step-be-step algorithms for Student's unpaired t-test and Mann-Whitney test for independent samples are presented. The main aim of this

paper is to provide basic knowledge on ho to compare continuous variables in two independent samples with practical examples using commonly used software. The article complements, but does not substitute specialized literature on biostatistics and clinical epidemiology.

Keywords: Statistica, SPSS, t-test, Mann-Whitney test, independent samples.

ТYЙiндеме

STATISTICA И SPSS БАГДАРЛАМАЛЫК КДМТАМАСЫЗ ЕТУД1 КОЛДАНУМЕН ЕК1 ТЭУЕЛС1З 1Р1КТЕМЕЛЕРД1Н САНДЫК МЭЛ1МЕТТЕР1Н САЛЫСТЫРУ: ПАРАМЕТРЛ1К ЖЭНЕ ПАРАМЕТРЛ1К ЕМЕС КРИТЕРИЛЕР

Андрей М. Гржибовский1-4, http://orcid.org/0000-0002-5464-0498, Сергей В. Иванов5, http://orcid.org/0000-0003-0254-3941 Мария А. Горбатова2, http://orcid.org/0000-0002-6363-9595

1 Когамдьщ Денсаулык сактау ¥лттык Институты, Осло к., Норвегия;

2 СолтYCтiк Мемлекетлк Медициналык Университетi, Архангельск к., Ресей;

3 Х.А. Ясави ат. Халыкаралык Казак - ТYрiк Университетi, Туркестан, Казакстан;

4 СолтYCтiк - Шыгыс Федералдык Университетi, Якутск к-, Ресей;

5 И. И. Мечников атынд. Солтуслк - Батыс мемлекеттiк медициналык университетi, Санкт-Петербург к., Ресей.

Осы жумыста тэуелсiз iрiктемелердH сандык белгтерш салыстыру Yшiн Стьюдент nараметрлiк косарлы емес критерилерiн жэне Манна-Уитни параметрлт емес критерилерiн колдану туралы жалпы мэлiметтер берiлген. Statistica 10 жэне SPSS 20 багдарламалык камтамасыз ету^ пайдаланумен критерилер мэлiметтерi есебшН алгоритмi суреттелген жэне есептер нэтижелершН интерпретациясы берiлген. Осы макала Стьюдент жэне Манна-Уитни критерилерш колдану туралы жалпы мэлiметтер беруге талап етiлген жэне статистика жэне клиникалык эпидемиология бойынша мамандандырылган эдебиеттi окудыц орнын баспайды.

Heri3ri сездер: Statistica, SPSS, Стьюдент критерилерш Манна-Уитни критериi, тэуелсiз топтар.

Библиографическая ссылка:

Гржибовский А. М., Иванов С. В., Горбатова М. А. Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии / / Наука и Здравоохранение. 2016. №2. С. 5-28.

Grjibovski A. M., Ivanov S. V., Gorbatova M. A. Analysis of quantitative data in two independent samples using Statistica and SPSS software: parametric and non-parametric tests. Nauka i Zdravookhranenie [Science & Healthcare]. 2016, 2, pp. 5-28.

Гржибовский А. М., Иванов С. В., Горбатова М. А. Statistica и SPSS багдарламалы; камтамасыз етуд1 колданумен ек1 тэуелаз ¡рктемелердщ сандык мэл1меттер1н салыстыру: параметрлк жэне параметрлк емес критерилер / / Гылым жэне Денсаулык сактау. 2016. №2. Б. 5-28.

Настоящая статья продолжает серию публикаций [11], посвященных статистическому анализу данных биомедицинских исследований. Цель данной серии статей -формирование у начинающего исследователя

базисных представлений о статистическом анализе данных, приобретение читателем практического опыта использования современного статистического программного обеспечения и предупреждение типичных

ошибок, возникающих в процессе статистической обработки данных.

Для более полного понимания представленного материала, авторы настоящей статьи настоятельно рекомендуют читателю предварительно ознакомиться с литературой по эпидемиологии [25, 16, 29]. Практические аспекты организации и анализа результатов различных типов научных исследований в здравоохранении (одномоментных, когортных, экологических, экспериментальных исследований и «случай-контроль») представлены в серии статей, опубликованной в журнале «Наука и Здравоохранение» в 2015 году [8, 9, 10, 12, 13].

Вопросы корректной статистической обработки данных исследований в здравоохранении актуальны не только в Казахстане, но и в странах СНГ, Европы и США, и высокое качество статистического анализа является обязательным условием востребованности научных результатов и транспарентности научных достижений отдельных исследователей и

исследовательских коллективов в международном научном сообществе [20, 1].

Настоящая статья посвящена вопросу сравнения количественных данных двух независимых групп с использованием программного обеспечения Statistica 10 и SPSS 20.

Любое хорошо организованное научное исследование имеет определенный план, и еще на этапе планирования формулируется исследовательская гипотеза. Примерами исследовательских гипотез служат утверждения «препарат A эффективнее препарата B», «в городе С заболеваемость туберкулезом выше, чем в городе D», «курение повышает риск развития артериальной гипертензии» и т.п. Целью любого исследования является проверка данной гипотезы, и в результате сбора и обработки исследовательских данных гипотеза будет либо принята, либо отклонена.

Ключевую роль в проверке исследовательской гипотезы играет статистический анализ данных. На этапе статистической обработки также формулируются 2 гипотезы - нулевая (Hq) и

альтернативная (Н1) [4, 24, 28]. Нулевая статистическая гипотеза предполагает, что различия между сравниваемыми группами отсутствуют. Альтернативная статистическая гипотеза, напротив, предполагает, что сравниваемые группы различаются.

Для принятия решения об отклонении нулевой гипотезы ориентируются на уровень статистической значимости (р).

Общепринятым в биомедицинских исследованиях критическим уровнем значимости является значение 0,05. Если р < 0,05, это говорит о том, что вероятность нахождения различий там, где их фактически нет, составляет не более 5%, и в этом случае нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Если р > 0,05, то принимается нулевая гипотеза, которая говорит о том, что сравниваемые группы не отличаются друг от друга. В ряде случаев за критический уровень значимости принимают значение 0,01 или 0,001, которые допускают вероятность зафиксировать различия там, где их нет, не превышающую 1% и 0,1% соответственно.

Для проверки статистических гипотез используются параметрические и непараметрические критерии.

Параметрические критерии оперируют понятиями нормального (гауссовского) распределения - средним арифметическим значением и стандартным отклонением. Нормальное распределение имеет симметричную колоколообразную форму и может быть описана с помощью среднего арифметического значения, стандартного отклонения, либо доверительных интервалов [7, 24, 6]. Именно по этой причине, прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального (способы проверки распределения подробно описаны в предыдущем выпуске журнала «Наука и Здравоохранение» и включают в себя построенние гистограммы распределения, квантильной диаграммы, расчет критериев Шапиро-Уилка и Колмогорова-Смирнова).

Параметрическим критерием для сравнения двух независимых групп является

критерий Стьюдента. В данной статье будет рассмотрен его наиболее широко используемый вариант - непарный критерий Стьюдента для сравнения двух независимых групп. Также существует одновыборочный критерий Стьюдента, который используется для сравнения количественного признака, характеризующего группу наблюдения, с определенным количественным значением [27], и парный критерий Стьюдента, использующийся для сравнения парных групп (например, в исследованиях «до-после») который будет рассмотрен в последующих выпусках.

Для того, чтобы использовать непарный критерий Стьюдента, необходимо соблюдение следующих условий [6, 26]:

1. Количественный тип данных (желательно, чтобы данные были непрерывными, а не дискретными).

2. Наличие не более чем двух выборок.

3. Выборки должны быть независимыми друг от друга (например, нельзя использовать непарный критерий Стьюдента для сравнения «до-после»).

4. Нормальное распределение изучаемого признака в популяции, из которой взяты выборки (как правило, сведения о распределении признака в популяции отсутствуют, и поэтому распределение оценивают в каждой из сравниваемых групп по-отдельности).

5. Равенство дисперсий изучаемого признака в популяциях, из которых взяты

выборки (дисперсии также оцениваются в каждой из сравниваемых групп по-отдельности). Современное программное обеспечение позволяет рассчитывать значение критерия Стьюдента и уровень статистической значимости, даже если дисперсии не равны.

Рассчитывается критерий Стьюдента по формуле:

t =

Mi - M2

V(Si2/ni + S22/ni)

где М1 и М2 - средние арифметические значения количественного признака группы 1 и группы 2;

Э1 и Э2 - стандартные отклонения признака для группы 1 и группы 2;

П1 и П2 - количество наблюдений в группе 1 и в группе 2 соответственно.

Расчет среднего арифметического значения для каждой из выборок производится по формуле:

M

Xi + X2 + X3 + ... + X,

где Х1 ... X - значения количественного признака в группе, для которой рассчитывается стандартное отклонение, п -количество наблюдений в данной группе.

Расчет значения стандартного отклонения для каждой из групп производится по формуле:

S = V (

(Xi - М)2 + (X2 - М)2 + (X3 - М)2 + ... + (X - М)2

После расчета значения критерия Стьюдента также потребуется рассчитать количество степеней свободы:

¿г = (П1 - 1) + (П2 - 1)

Далее используется таблица 1-распределения, в которой, с учетом количества степеней свободы, сравниваются эмпирическое и критическое значение 1: если эмпирическое значение превышает критическое для заданного уровня значимости (0,05, 0,01 или 0,001), то нулевая гипотеза

отклоняется и принимается альтернативная гипотеза, согласно которой сравниваемые группы различаются. Таблицы значений 1 для различных уровней статистической значимости приведены во многих руководствах по статистике, например, в [23, 4, 17].

Для наглядного представления о ручном методе расчета критерия Стьюдента приведем гипотетический пример.

Допустим, сравниваются две схемы лечения (базисная и новая), и конечной точкой, по которой судят об эффективности

n

)

n

одной или другой схемы терапии, является а группа 2 (п = 24) - новую схему терапии. срок госпитализации. Пациенты были Сведения о сроках госпитализации пациентов рандомизированы на две группы, из которых обеих групп представлены в таблице 1. группа 1 (п = 23) получала базисную терапию,

Таблица 1.

Сроки госпитализации пациентов, получавших базисную и новую схему терапии.

Группа 1 (базисная терапия) Группа 2 (новая схема терапии)

№ пациента Срок лечения, дней № пациента Срок лечения, дней № пациента Срок лечения, дней № пациента Срок лечения, дней

1 8 13 10 1 4 13 7

2 6 14 8 2 6 14 7

3 5 15 7 3 3 15 7

4 6 16 8 4 5 16 8

5 7 17 9 5 5 17 7

6 6 18 9 6 5 18 9

7 7 19 11 7 6 19 9

8 7 20 9 8 6 20 8

9 10 21 9 9 5 21 8

10 5 22 9 10 6 22 8

11 8 23 11 11 7 23 10

12 10 - - 12 7 24 9

На основании имеющихся данных по вышеприведенным формулам рассчитываем среднее арифметическое значение для каждой из групп: М1 = 8,04 дня, М2 = 6,75 дня (разница средних значений составляет 1,29 дня).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее рассчитываем значение стандартного отклонения для каждой из групп: Э1 = 1,77 дня, Э2 = 1,72 дня.

Подставляем полученные значения в формулу расчета критерия Стьюдента:

8,04 - 6,75 „„

1 ^(1,772/23 + 1,722/24) 2,53

Количество степеней свободы: df = (23 - 1) + (24 - 1) = 45.

Согласно табличным данным [23, 4, 17], для критического уровня статистической значимости, равного 0,05, и количества степеней свободы, равного 45, критическое

значение 1 составляет 2,014, ниже значения 1, полученного в результате расчетов, поэтому нулевая гипотеза отвергается и принимается альтернативная гипотеза: длительность госпитализации пациентов группы 2, получающих новую схему терапии в среднем на 1,29 дня меньше, чем у пациентов группы 1, получающих базисную терапию (1 = 2,53, df = 45, р < 0,05).

Отметим, что в данном примере соблюдены все требования, необходимые для использования критерия Стьюдента: анализируются количественные данные, сравниваются две независимые выборки (независимость наблюдений определена тем, что пациенты получали либо базисную, либо альтернативную терапию), признаки имеют распределение, близкое к нормальному (о способах проверки типа распределения будет сказано ниже) и дисперсии сравниваемого признака близки друг к другу по значению (так как близки значения стандартных отклонений в сравниваемых выборках, а дисперсия

является квадратом стандартного отклонения).

Если полученные в результате исследования данные не соответствуют, необходимым условиям применения критерия Стьюдента, для сравнения двух несвязанных выборок следует использовать методы непараметрической статистики, которые не требуют наличия нормального распределения данных. Непараметрические методы не используют параметры распределения, а осуществляют ранжирование абсолютных значений признака, что позволяет нивелировать эффект выскакивающих величин («выбросов») и скошенности распределения.

Конечно, методы непараметрической статистики могут быть использованы и при наличии нормального распределения количественного признака, но в таком случае они будут иметь меньшую мощность по сравнению с параметрическими методами, то есть могут не уловить имеющиеся различия между группами там, где различия фактически присутствуют.

Для сравнения двух независимых выборок из непараметрических методов наиболее часто используется критерий Манна-Уитни. Помимо данного критерия, для сравнения несвязанных выборок могут быть использованы и другие непараметрические критерии - непарный критерий Вилкоксона, критерий Колмогорова-Смирнова, критерий знаков и другие критерии, описанные в литературе по статистике [26, 5, 4, 19].

Критерий Манна-Уитни, как и критерий Стьюдента, имеет свои особенности применения:

1. Количественный или порядковый тип анализируемых данных.

2. Выборки должны быть независимыми друг от друга.

3. Не требуется нормальное распределение данных.

Алгоритм расчета критерия Манна-Уитни:

1. Значения переменных обеих групп объединяются в единый вариационный ряд и ранжируются в порядке возрастания или убывания.

2. Абсолютные значения переменных заменяются рангами. В случае, если несколько значений равны между собой, им присваивается средний ранг из тех, которые они получили бы, если бы не были равны (пример приведен ниже).

3. Сумма рангов подсчитывается отдельно для каждой группы.

4. Значение критерия Манна-Уитни рассчитывается по формуле:

U = ni X П2 +

nx х (Пх + i) 2

- Tx

где

П1 и П2 - количество наблюдений в сравниваемых группах,

Тх - большая из двух ранговых сумм, Пх - количество наблюдений в группе, имеющей большую из двух ранговых сумм.

5. По специальным таблицам, представленным в руководствах по статистике [23, 4, 17], определяется критическое значение и для определенных значений П1 и П2 и критического уровня р. Если рассчитанное значение и меньше или равно критическому, то нулевая статистическая гипотеза отвергается и принимается альтернативная гипотеза, свидетельствующая о существовании различий между группами.

Для наглядного представления о ручном методе расчета критерия Манна-Уитни приведем еще один пример, в котором будут представлены результаты гипотетического плацебо-контролируемого исследования, направленного на оценку эффективности препарата для снижения артериального давления у пациентов с артериальной гипертензией I степени. Пациенты группы 1 (п = 7) получали исследуемый препарат, а пациенты группы 2 (п = 9) - плацебо. Эффективность препарата оценивалась на основании динамики значения

систолического артериального давления (САД) после курса терапии препаратом/плацебо.

Исходные и ранжированные данные о динамике САД пациентов группы 1 и группы 2 представлены в Таблице 2.

Таблица 2.

Исходные и ранжированные значения динамики уровня САД пациентов с артериальной гипертензией I степени._

Исходные данные

Группа Группа 1 (препарат) Группа 2 (плацебо)

№ пациента 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9

Динамика САД, мм рт. ст -7 -8 -11 -15 0 -21 -17 -5 -8 -14 -3 -6 -3 +5 -16 -9

Ранжированные д анные

Динамика САД, мм рт. ст -21 -17 -16 -15 -14 -11 -9 -8 -8 -7 -6 -5 -3 -3 0 +5

Ранг 1 2 3 4 5 6 7 8,5 8,5 10 11 12 13 14 15 16

Группа 1 1 2 1 2 1 2 1 2 1 2 2 2 2 1 2

Следует заметить, что если бы исследуемый препарат снижал САД пациентов заведомо сильнее, чем плацебо, то все значения, соответствующие группе 1, расположились бы в левой части строки «Ранг», в соответствующие группе 2 - в правой части, но подобного распределения рангов фактически не наблюдается. Расчет критерия Манна-Уитни позволяет оценить вероятность того, что распределение рангов случайно, или они расположены определенным образом, что является следствием действия определенного фактора (в данном случае - исследуемого препарата).

На основании таблицы 1 рассчитывается сумма рангов для каждой из групп: для группы 1 - 46,5, для группы 2 - 89,5. В группе 2 ранговая сумма оказалась больше, поэтому используем ее для расчета значения критерия Манна-Уитни:

и = 7 х 9 +

9 х (9 + 1) 2

89,5 = 18,5

Критическое значение и для П1 = 7 и П2 = 9 составляет 12 [23, 4, 17]. Рассчитанное значение и превышает критическое, следовательно, принимается нулевая гипотеза, свидетельствующая об отсутствии различий между группами (р > 0,05).

Таким образом, возвращаясь к особенностям использования

параметрических и непараметрических критериев, можно выделить три этапа

проведения сравнения двух независимых групп:

1. Убеждаемся в том, что анализируемые данные являются количественными, а группы - независимыми.

2. Оцениваем распределение переменной в обеих группах: если оно близко к нормальному распределению, то следует использовать параметрические методы, если нет - методы непараметрической статистики.

3. Используем параметрический критерий, если в обеих группах близко к нормальному, или непараметрический критерий, если распределение переменной отличается от нормального.

Возможна ситуация, когда распределение данных похоже на нормальное, но скошено (пик колоколообразного распределения смещен влево относительно центра гистограммы при правосторонней асимметрии или вправо при левосторонней асимметрии). В таком случае возможно проведение трансформации данных таким образом, чтобы распределение стало похожим на нормальное, чтобы обеспечить возможность использования методов параметрической статистики, обладающих большей мощностью по сравнению с непараметрическими методами. При правосторонней асимметрии извлекают квадратный корень из значений признака, проводят логарифмическое преобразование с использованием натурального или десятичного логарифма, или осуществляют гармоническое преобразование по формуле

х' = - 1/х. При левосторонней симметрии данные возводят во вторую или третью степень [7]. Подбор того или иного способа «нормализации» распределения, как правило, проводят эмпирически. При этом следует учитывать, что преобразование данных должно быть произведено одним и тем же способом одновременно в обеих группах.

Также возможны ситуации, когда для сравнения данных используются методы непараметрической статистики, а для их представления требуется использовать параметры нормального распределения, хотя фактическое распределение отличается от нормального. В качестве примера подобной ситуации можно привести результаты исследования, посвященного проблеме кариеса у детей и подростков СевероЗападного региона России, опубликованные в 2011-2012 гг. [31, 32, 33]. В результатах исследования представлены значения индекса КПУ («кариес-пломбы-удаленные»). Данный индекс используется Всемирной организацией здравоохранения (ВОЗ) для оценки интенсивности кариозного поражения зубов у различных контингентов населения. Для представления описательной статистики индекса КПУ для различных категорий детского и подросткового населения в публикациях было использовано среднее арифметическое значение и его 95% доверительный интервал, а для статистического сравнения различных категорий детского и подросткового населения - непараметрический критерий Манна-Уитни. В данном случае использование непараметрического критерия обусловлено обнаруженным отличием фактического распределения значений индекса КПУ от нормального, а представление данных в виде среднего арифметического значения продиктовано требованиями ВОЗ описывать индекс КПУ как признак, имеющий нормальное распределение. Подобное требование имеет важное практическое значение, так как проведение сравнительной оценки состояния общественного здоровья в различных странах требует использования единых статистических подходов, а показатели нормального распределения в данном случае являются наиболее предпочтительными.

Для приобретения читателем практических навыков проведения статистического сравнения двух независимых выборок количественных переменных, в качестве практического примера будет рассмотрен фрагмент данных, которые были собраны в процессе крупного исследования, направленного на изучение метаболического синдрома и его детерминант в условиях неблагополучной социально-экологической ситуации в Южном Казахстане [15, 18, 14, 22]. В ходе данного исследования получены значения индекса массы тела (ИМТ) и уровня холестерина крови (непрерывные количественные признаки) 68 мужчин и 230 женщин (всего 298 пациентов).

В практическом разделе настоящей публикации будет проведено сравнение значений ИМТ и уровня холестерина крови у включенных в исследование мужчин и женщин (независимые группы) с использованием программного обеспечения Statistica 10 [21, 2] и SPSS 20 [3]. Данные пакеты статистических программ являются инструментами анализа данных, удобных в использовании начинающими исследователями, не требуют специального образования и приобрели заслуженную популярность среди исследователей стран СНГ, работающих в области медицины. Демо-версии программ Statistica и SPSS можно загрузить с официальных сайтов разработчиков (www.stаstsoft.com и www.ibm.com соответственно).

Следует отметить, что представленные ниже алгоритмы действий являются только инструментом анализа данных, так как корректная интерпретация полученных результатов требует наличия базисных знаний в области биомедицинской статистики, которые могут быть получены только путем изучения специализированной литературы [4, 30, 18, 17, 28].

Сравнение 2-х независимых групп с использованием программы Statistica 10.

Для начала работы необходимо открыть файл 2_BMI_chol_STAT.sta, который следует загрузить с сайта журнала «Наука и Здравоохранение». В данном файле представлены следующие вариационные ряды:

1. Пол пациента (переменная «Gender»): значение «1» соответствует мужчинам, значение «2» - женщинам (переменная является номинальной дихотомической).

2. ИМТ пациентов (переменная «BMI»): непрерывная количественная переменная.

3. Уровень холестерина крови (переменная «Cholesterol»): непрерывная количественная переменная.

Задача статистического анализа данных -выяснить, различаются ли включенные в исследование мужчины и женщины по значению ИМТ и уровню холестерина. Таким образом, сравниваемыми переменными являются ИМТ и уровень холестерина, а пол является группирующей дихотомической переменной.

На первом этапе обработки данных следует выбрать метод статистического анализа, и для этого необходимо определить тип распределения (алгоритм проверки типа распределения подробно описан в предыдущей статье настоящей серии [11]).

Краткое описание действий:

1. Вход в раздел описательной статистики.

Выбираем меню «Statistics» и входим в раздел «Basic Statistics/Tables», в появившемся окне выбираем раздел «Descriptive Statistics» и подтверждаем выбор нажатием на кнопку «ОК».

2. Выбор вариационных рядов для анализа.

В окне «Descriptive Statistics» нажимаем на кнопку «Variables» (в левом верхнем углу окна), после чего наводим мышь на название вариационного ряда «BMI», выделяем его нажатием на левую кнопку мыши, затем наводим мышь на «Cholesterol», и, удерживая на клавиатуре кнопку «Ctrl», снова нажимаем на левую кнопку мыши, после чего подтверждаем выбор вариационных рядов нажатием на кнопку «ОК».

3. Настройка расчета статистических критериев для проверки распределения на «нормальность».

В окне «Descriptive Statistics» нажимаем на вкладку «Normality» и проставляем галочки напротив позиций, соответствующих расчету значений критериев Колмогорова-Смирнова (Kolmogorov-Smirnov & Lilliefors test for normality) и Шапиро-Уилка (Shapiro-Wilk's W test).

4. Настройка параметров вывода показателей описательной статистики.

Нажимаем на вкладку «Advanced» и проставляем галочки, соответствующие выводу показателей описательной статистики: среднего арифметического значения (Mean), медианы (Median), стандартного отклонения (Standard Deviation), степени асимметрии (Skewness) и эксцесса (островершинности) распределения (Kurtosis), верхнего и нижнего квартилей (Lower & upper quartiles).

5. Настройка вывода вышеперечисленных статистических критериев, графиков и показателей описательной статистики для группы мужчин и женщин по-отдельности.

В окне «Descriptive Statistics» нажимаем на кнопку «By Group», в появившемся окне нажимаем на кнопку «Grouping Variable(s)», выбираем вариационный ряд «Gender» и подтверждаем выбор нажатием на кнопку «OK». Далее в окне «By Group» отмечаем галочкой единственную позицию «Enabled», с остальных позиций галочки убираем, после чего нажимаем на кнопку «OK».

6. Запуск анализа данных.

Возвращаемся на вкладку «Advanced» и

нажимаем на кнопку «G1», которая запускает анализ распределения и вывод показателей описательной статистики для переменных «BMI» и «Cholesterol» по-отдельности для мужчин и женщин.

Если все действия были выполнены, верно, то программа представит результаты, которые можно просматривать, переключаясь между окнами с помощью дерева каталогов (рисунок 1). Например, наведение курсора на раздел «Summary: BMI» в каталоге «Gender=2» откроет окно вывода результатов для переменной «BMI» в группе женщин.

Л1 STATISTICA - [Workbook!* - Summary: BMI]

^H File Edit View ¡nsert Format Statistics

m

□ & у в m a

S Normal Graph J Workbookl*

ВBasic Statistics/Tables (BMI_chol_STAT) рЬ-н I? Descriptive statistics dialog Gender=2

^ii* ^ hSSS

¿p Summary: Cholesterol E)-0 Gender=l

¿£¡3 Summary: BMI ¿¡p Summary: Cholesterol

Рис. 1. Дерево каталогов программы Statistica 10.

В результате программа представила четыре окна вывода результатов анализа, которые представлены на рисунках 2, 3, 4 и 5.

Согласно представленным результатам, в пользу нормального распределения переменной «BMI» как в группе мужчин, так и в группе женщин свидетельствуют следующие факты:

- Гистограмма распределения переменной «BMI» близка к колоколообразной (в группе мужчин и группе женщин по-отдельности).

- На квантильной диаграмме точки группируются по прямой (в группе мужчин и группе женщин по-отдельности).

- Среднее арифметическое значение и медиана имеют близкие значения (в группе мужчин и группе женщин по-отдельности).

- Статистическая значимость критерия Колмогорова-Смирнова превышает значение 0,05 (в группе мужчин и группе женщин по-отдельности).

- Статистическая значимость критерия Шапиро-Уилка превышает значение 0,05 (в группе мужчин).

- Значения асимметрии не превышает 1,0 (в группе мужчин и группе женщин по-отдельности).

- Значение эксцесса не превышает 1,0 (в группе женщин).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В пользу отличия имеющегося распределения от нормального свидетельствуют статистическая значимость

критерия Шапиро-Уилка в группе женщин, имеющая значение меньше 0,05, и значение эксцесса в группе мужчин, превышающее значение 1,0. Тем не менее, совокупная оценка всех результатов проверки на «нормальность» все же склоняет чашу весов в пользу соответствия фактического распределения переменной «BMI» нормальному как в группе мужчин, так и в группе женщин.

В отношении переменной «Cholesterol» форма гистограммы, имеющая

правостороннюю асимметрию, квантильная диаграмма, статистическая значимость критериев Колмогорова-Смирнова и Шапиро-Уилка и значения асимметрии и эксцесса создают достаточно оснований считать распределение переменной «Cholesterol» отличным от нормального.

Таким образом, на первом этапе обработки данных установлено, что для сравнения группы мужчин с группой женщин по значению ИМТ необходимо использовать параметрические критерии, а для сравнения группы мужчин с группой женщин по уровню холестерина крови - непараметрические критерии.

Задачей второго этапа исследования является ответ на вопрос - отличается ли ИМТ мужчин от ИМТ женщин и отличается ли уровень холестерина крови у мужчин от уровня холестерина крови у женщин.

Рис. 2. Результаты анализа переменной «BMI» (в группе мужчин) в программе Statistica 10.

Summary: BMI

«5

70

60

-О о 50

о

о

2. 30

20

10

0

K-S d= .05221. p> .20; ülliefora (X.15 Sfcapiro-Wilk W=.934M p=,015*6

----

\

10

20 25 30 35 40 X <= Category Boundary

45

50

Normal P-Plot: sin

> 1 £

z 0

-o

Ol

5 -1

jâ у

л*'

f

20

30 35 Value

40

45

50

Summary Statistics:BMI Valid N=230 Mean= 29.940348 Median= 29,720000 Lower Quartile= 25,970000 Upper Quartile= 33,760000 Std.Dev.= 5,815693 Skewness= 0,388660 Kurtosis= -0,094131

. мезл - :9,6iK □ мезл±5;

- (21.1247. 35 "Sc) IMeanti.se-SO -(18.5416. 41,3591)

Рис. 3. Результаты анализа переменной «BMI» (в группе женщин) в программе Statistica 10.

Рис. 4. Результаты анализа переменной «Cholesterol» (в группе мужчин)

в программе Statistica 10.

Summary: Cholesterol

K-Sd=.13393. p<01 ; Lilliefors p<,01 Shapîro-Wilk №.30953 p=.0G000

140

120

100

S3 а so

о 60

Z 40

20

0

гп

щ

т \

/ \

\ \

3456788 10 11 X <= Category Boundary

Normal P-Plot:

3 1 È

я 0

-1

у/ . ■ •

3 4 5 6 7 S 9 10 11 12 Value

Summary Statistics:Cholesterol Valid N=230 Mean= 5.000261 Median= 4,775000 Lower Quartile= 4,260000 Upper Quartile= 5,470000 Std.Dev.= 1,106896 Skewness= 1,767352 Kurtosis= 4,809823

7,0 6,5 6.0 5,5 5.0 1.5 1.0 3.5 3.0 2.5

. Mean - 54003 QMeaniS;

-(3.5921,6.1072) JMeanti.5i-S0 -(2.8307. 7.16561

Рис. 5. Результаты анализа переменной «0Ио1ез1его!» (в группе женщин)

в программе 31а11э11са 10.

Так как на первом этапе обработки данных мы установили, что распределение ИМТ в сравниваемых группах имеет нормальное распределение, то в данном случае правомерно использовать критерий Стьюдента.

Для этого снова выбираем меню «Statistics» и входим в раздел «Basic Statistics/Tables», в появившемся окне выбираем раздел «t-test, independent, by groups», и подтверждаем выбор нажатием на кнопку «ОК» (рисунок 6).

В появившемся окне нажимаем на кнопку «Variables» и выбираем переменную «BMI» как зависимую, а переменную «Gender» - как группирующую (как показано на рисунке 7), и подтверждаем выбор нажатием на «ОК».

Рис. 6. Окно «Basic Statistics and Tables» программы Statistica 10.

Рис. 7. Окно «Select the dependent variables and one grouping variable».

Программа вернется к окну «T-Test for Independent Samples by Groups», в котором нажмем на вкладку «Options», где отметим галочками позиции «Levene's test» и «Test w/ separate variance estimates» (рисунок 8). Первая позиция нужна для проведения оценки равенства дисперсий с помощью критерия

Levene, а вторая позиция позволит вывести результаты расчета коэффициента Стьюдента для случая, когда дисперсии в сравниваемых группах не равны.

Нажатие на кнопку «Summary» запускает анализ.

Рис. 8. Вкладка «Options» окна «T-Test for Independent Samples by Groups»

программы Statistica 10.

Результаты анализа данных представлены рассмотрение представленного длинного на рисунке 9. Проведем последовательное перечня табличных данных.

Variable T-tests. Grouping: Gender (BMI_chol_STAT) Group 1: 2 Group 2: 1

Mean 2 Mean 1 t-value df p t separ. var.est. df P 2-sided Valid N 2 Valid N 1 Std.Dev. 2 Std.Dev 1 F-ratio Variances P Variances Levene F(1.df) df Levene P Levene

BMI 29.94035 28 25647 2 174737 296 0 030441 2 402381 129 552910.017707 230 68 5.815693 4.838184 1.444901 0.076709 4.637712 296 0.032084

Рис. 9. Результаты расчета критерия Стьюдента в программе Statistica 10.

В первых двух графах представлены среднее арифметическое значение ИМТ женщин - 29,9 кг/м2 («Mean 2»), и мужчин -28,3 кг/м2 («Mean 2»). Стандартные отклонения представлены в соответствующих графах «Std. Dev. 2» и «Std. Dev. 1».

Для интерпретации результатов анализа, в первую очередь проверяем требование равенства дисперсий: уровень статистической значимости критерия Levene (графа «р Levene») составил 0,032, что ниже критического значения, равного 0,05. Таким образом, требование равенства дисперсий не соблюдено, и поэтому следует учитывать результаты расчета критерия Стьюдента, приведенные в графах «t separ. var. est.» -«df» - «р 2-sided». Согласно этим графам, рассчитанный уровень статистической значимости для критерия Стьюдента составил 0,018 (р = 0,018), что меньше критического уровня, равного 0,05.

Следует отметить, что если бы дисперсии оказались равны (значение в графе «р Levene» превышало бы 0,05), то результаты нужно было бы учитывать по графам «t value»

- «df» - «р». В целом, равенство дисперсий параметра в сравниваемых выборках наблюдается нечасто, и, к сожалению, проверяется исследователями еще реже. В данном случае отсутствие равенства дисперсий может быть в некоторой степени объяснено различием количества наблюдений в выборках (n = 230 в группе женщин, и n = 68 в группе мужчин).

Результаты проведенных расчетов можно представить следующим образом: ИМТ женщин в среднем превышала ИМТ мужчин на 1,6 кг/м2 (t = 2,402, df =129, р = 0,018).

Далее сравним значения уровня холестерина крови у мужчин с уровнем холестерина крови у женщин. Как было установлено ранее, распределение переменной «Cholesterol» отличается от нормального, поэтому будет использован критерий Манна-Уитни - метод непараметрической статистики.

Для этого откроем меню «Statistics» и выберем раздел «Nonparametrics». В открывшемся окне выберем раздел «Comparing independent samples (groups)» и подтвердим выбор нажатием на «ОК».

Рис. 10. Окно «Nonparametric Statistics» программы Statistica 1

В открывшемся окне «Comparing Two Groups» нажимаем на кнопку «Variables» и выбираем анализируемые переменные («Cholesterol» и «Gender») по аналогии с тем, как это сделано на рисунке 7, и кнопкой «ОК»

подтверждаем выбор. Программа вернется к окну «Comparing Two Groups», в котором для запуска анализа нажимаем на кнопку «MannWhitney U test» (рисунок 11).

Рис. 11. Окно «Comparing Two Groups» программы Statistica 10.

variable Mann-Whitney U Test (BMI_chol_STAT) By variable Gender Marked tests are significant at p <,05000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Rank Sum Group 1 Rank Sum Group 2 U Z p-value Z adjusted p-value Valid N Group 1 Valid N Group 2

Cholesterol 33648.50 10902,50 7083,500 -1.17900 0.238398 -1.17905 0.238377 230 68

Рис. 12. Результаты расчета критерия Манна-Уитни в программе Statistica 10.

В данном случае мы сравниваем 2 имеющиеся группы, поэтому программа проставляет коды групп самостоятельно в окна «Codes for:» для «Group 1» и «Group 2» (их можно самостоятельно изменить или назначить две сравниваемые группы из нескольких, если у группирующей переменной имеется более 2-х значений).

Результаты анализа представлены на рисунке 12. Самой важной является графа «p-value», которая представляет уровень статистической значимости критерия Манна-Уитни. Мы видим, что достигнутый уровень значимости составляет 0,238, что значительно превышает критической уровень, равный 0,05. Таким образом, результаты расчетов можно представить следующим образом: уровень холестерина крови у мужчин (Me = 4,92) статистически не отличался от уровня холестерина крови у женщин (Me = 4,78), U = 7084, Z = -1,2, p = 0,238 (значения медиан были рассчитаны ранее и представлены на рисунках 4 и 5).

Если из любопытства рассчитать значение критерия Манна-Уитни для переменной «BMI», имеющей близкое к нормальному распределение, то получим уровень статистической значимости, равный 0,039, в то время как в результате расчета критерия Стьюдента его значение оказалось значительно меньше - 0,018. Данный факт наглядно подтверждает то, что при наличии нормального распределения сравниваемых данных непараметрические статистические методы имеют меньшую мощность, чем параметрические.

Сравнение 2-х независимых групп с использованием программы SPSS 20.

В программе SPSS будут выполнены те же два этапа анализа - проверка распределения данных на «нормальность» и сравнение группы мужчин с группой женщин.

Для начала работы необходимо открыть файл 2_BMI_chol_SPSS.sav, который следует загрузить с сайта журнала «Наука и Здравоохранение». В файле представлены те же вариационные ряды, что и в файле данных

программы Statistica: пол пациента («Gender»), ИМТ («BMI») и уровень холестерина («Cholesterol») крови.

Краткое описание действий, направленных на проверку распределения данных:

1. Вход в раздел описательной статистики.

Выбираем меню «Analyze» и входим в раздел «Descriptive Statistics», подраздел «Explore».

2. Выбор вариационных рядов для анализа.

В окне «Explore» переносим из левого поля в поле «Dependent List» переменные «BMI» и «Cholesterol», а в поле «Factor List» переменную «Gender» (перенос осуществляется путем выделения нужной переменной и нажатием на стрелку между полями).

3. Настройка вывода параметров описательной статистики.

В окне «Explore» нажимаем на кнопку «Statistics» и отмечаем галочками позиции «Descriptives» и «Percentiles», после чего нажимаем на кнопку «Continue».

4. Настройка расчета статистических критериев для проверки распределения на «нормальность», гистограмм распределения и квантильных диаграмм.

В окне «Explore» нажимаем на кнопку «Plots» и отмечаем галочками позиции «Histogram» и «Normality plots with tests», после чего нажимаем на кнопку «Continue».

5. Запуск анализа данных.

В окне «Explore» нажимаем на кнопку «OK».

Программа представит параметры описательной статистики (таблицы «Descriptives» и «Percentiles» не приводится из-за большого размера), результаты расчетов критерия Шапиро-Уилка и Колмогорова-Смирнова с поправкой Lilliefors (таблица 3) и графики - гистограммы распределения и квантильные диаграммы (рисунки 13 и 14).

Все представленные программой SPSS результаты соответствуют тем, что были приведены выше в результатах анализа данных программы Statistica, и не требуют дополнительных комментариев.

Таблица 3.

Результаты проверки распределения переменных «BMI» и «Cholesterol» с помощью статистических критериев

Gender Kolmogorov-Smirnova Shapiro-Wi k

Statistic df Sig. Statistic df Sig.

BMI male ,066 68 ,200* ,965 68 ,051

female ,052 230 ,200* ,985 230 ,015

Cholesterol male ,158 68 ,000 ,881 68 ,000

female ,134 230 ,000 ,870 230 ,000

*. This is a lower bound of the true significance. a. Lilliefors Significance Correction

Гистограмма распределения переменной Квантильная диаграмма переменной «BMI» (мужчины) «BMI» (мужчины)

Гистограмма распределения переменной Квантильная диаграмма переменной «BMI» (женщины) «BMI» (женщины)

Рис. 13. Гистограммы распределения и квантильные диаграммы для переменной «BMI» в программе SPSS.

Гистограмма распределения переменной «Cholesterol» (мужчины)

Квантильная диаграмма переменной «Cholesterol» (мужчины)

Гистограмма распределения переменной «Cholesterol» (женщины)

Квантильная диаграмма переменной «Cholesterol» (женщины)

Рис. 14. Гистограммы распределения и квантильные диаграммы для переменной

«Cholsterol» в программе SPSS.

Далее проведем сравнение ИМТ в группе мужчин с ИМТ в группе женщин. Для этого снова войдем в меню «Analyze» и выберем

раздел «Compare Means», подраздел «Independent-Samples T Test» (рисунок 15).

¡tjj| BMI_chol_SPSS.sav [DataSetl] - IBM SPSS Statistics Data Editor

File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help

Ш ■ lBJ Щ ^

22:

Gender BMI

1 2.00 29.:

2 1.00 29,^

3 2.00 30,^

4 1.00 29,;

5 1.00 29.(

6 1.00 27.:

7 о nn IP. (

Reports

Descriptive Statistics Tables

Compare Means

General Linear Model

Generalized Linear Models

Mixed Models

Correlate

Regression

Loglinear

ra

л

Vis

Q Means...

Q One-Sample T Test... [H Independent-Samples T Test.. ¡rQ Paired-Samples T Test... H One-Way ANOVA..

Рис. 15. Выбор раздела «Independent-Samples T Test» меню «Analyze» программы SPSS 20.

В открывшемся окне «Independent-Samples T Test» перенесем переменную «BMI» в поле анализируемых переменных «Test variable(s)», а переменную «Gender» - в поле группирующей переменной «Grouping variable» (рисунок 16). Для начала анализа требуется установить определенные значения группирующей переменной: для этого нужно выделить слово

«Gender» в поле «Grouping Variable», затем нажать на кнопку «Define Groups», после чего появится окно «Define Groups», в котором установим для первой и второй группы значения «1» и «2» соответственно (рисунок 17). Выбор подтверждаем нажатием на кнопку «Continue». Запуск анализа производится нажатием на кнопку «OK».

Рис. 16. Окно «Independent-Samples Т Test» программы SPSS 20.

Рис. 17. Окно «Define Groups» программы SPSS 20.

Результаты анализа представлены в таблице 4. В двух графах «Levene's Test for Equality of Variances» программа представляет результаты расчета критерия Levene для оценки равенства дисперсий («F») и уровень статистической значимости («Sig.»). Так как уровень статистической значимости для критерия Levene (0,032) меньше критического значения 0,05, результаты смотрим во второй строке таблицы «Equal variances not assumed». Значение критерия Стьюдента (графа «t») составило -2,402, количество степеней свободы («df») - 129, уровень статистической

значимости («Sig. (2-tailed)») - 0,018. Результаты расчетов полностью соответствуют представленным на рисунке 12, за исключением того, что в программе Statistica 10 значение t равно 2,402, а не -2,402, но это не важно, так как значения t в t-распределении расположены симметрично относительно нуля.

Если бы дисперсии оказались равными, результаты следовало бы смотреть по первой строке таблицы («Equal variances assumed»).

Значение -1,68 в графе «Mean Difference» показывает, что ИМТ мужчин в среднем был на 1,68 кг/м2 ниже ИМТ женщин.

Результаты анализа переменной «BMI» с помощью критерия Стьюдента.

Таблица 4.

Levene's Test t-test for Equality of Means

for Equality of Variances

F Sig. t df Sig. Mean Std. Error 95% Confidence

(2- Difference Difference Interval of the

tailed) Difference

Lower Upper

BMI Equal variances assumed Equal variances not assumed 4,638 ,032 -2,175 -2,402 296 129,553 ,030 ,018 -1,68388 -1,68388 ,77429 ,70092 -3,20769 -3,07061 ,16007 ,29715

Далее выполним расчет критерия Манна-Уитни для переменной «Cholesterol», имеющей распределение, отличное от нормального.

Для этого снова войдем в меню «Analyze», выберем раздел «Nonparametric Tests», подраздел «Legacy Dialogs», в котором выберем позицию «2 Independent Samples», как показано на рисунке 18.

@ BMI_chol_SPSS.sav [DataSetl] - IBM SPSS Statistics Data Editor

File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Hell

BMM и J Regorts ► Descriptive Statistics ► Ё _

22: Tables ►

Gender BMI Compare Means ► General Linear Model ► Generalized Linear Models ► Mixed Models ► Correlate ► Regression ► Loglinear ► Neural Networks ► Classify ► Dimension Reduction ► Scale ► ■r var var V

1 2,00 29.

2 1.00 29.

3 2,00 30.

4 1.00 29,

5 1.00 29.

6 1.00 27,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7 2,00 25.

8 1.00 25,

9 1.00 24.

10 2.00 39.

11 2.00 41.

12 2.00 30, Nonparametric Tests ► Forecasting ► Survival ► A One Sample.. f\ Independent Samples... | Related Samples...

13 2.00 29.

14 2.00 32,

15 2.00 25 U2 Chi-square... 0 Binomial... SEUIS... □ 1-Sample K-S... Legacy Dialogs ►

16 1.00 29

17 1.00 29

18 1.00 27

19 2,00 26

20 2.00 28 IftJ 2 Independent Samples... Q K Independent Samples... Q 2 Related Samples... Q K Related Samples... JU U.IZ

21 2.00 23

22 2.00 27

23 1,00 24

24 2.00 26 L

Рис. 18. Выбор раздела «2 Independent Samples» меню «Analyze» программы SPSS 20.

В открывшемся окне «Two-Independent-Samples Tests» оставим отмеченной позицию «Mann-Whitney U», перенесем переменную «Cholestrol» в поле «Test Variable List», а переменную «Gender» - в поле «Grouping Variable» (рисунок 19), после чего потребуется нажать на слово «Gender» и выбрать значения группирующей переменной так, как показано на рисунке 17.

Рис. 19. Окно «Two-Independent-Samples Tests» программы SPSS 20.

Запуск анализа производится нажатием на кнопку «OK». Результаты анализа представлены в таблице 5.

Таблица 5.

Результаты анализа переменной «Cholesterol» с помощью критерия Манна-Уитни

Для представления результатов анализа потребуются значения по строкам «MannWhitney U», «Z» и «Asymp. Sig. (2-tailed)» (значение p). Результаты расчета полностью соответствуют тем, которые были получены с помощью программы Statistica и представлены на рисунке 12, и не требуют дополнительных комментариев.

В следующей статье будет представлен алгоритм обработки количественных данных двух парных выборок с использованием программ Statistica 10 и SPSS 20.

Литература:

1. Аканов А.А., Турдалиева Б.С., Изекенова А.К., Рамазанова М.А., Абдраимова Э.Т., Гржибовский А.М. Оценка использования статистических методов в научных статьях медицинских журналов Казахстана // Экология человека. 2013. №5. С. 61-64.

2. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: для профессионалов. СПб. : Питер, 2003. 688 с.

3. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб. : ООО «ДиаСофтЮП», 2005. 608 с.

4. Гланц С. Медико-биологическая статистика. М. : Практика, 1998. 459 с.

5. Гржибовский А.М. Анализ количественных данных для двух независимых групп // Экология человека. 2008. №2. С. 54-61.

6. Гржибовский А.М. Доверительные интервалы для частот и долей // Экология человека. 2008. №5. С. 57-60.

7. Гржибовский А.М. Типы данных, проверка распределения и описательная статистика // Экология человека. 2008. №1. С. 52-58.

8. Гржибовский А.М., Иванов С.В. Горбатова М.А. Исследования типа «случай-контроль» в здравоохранении // Наука и Здравоохранение. 2015. № 4. С. 5-17

9. Гржибовский А.М., Иванов С.В. Когортные исследования в здравоохранении // Наука и Здравоохранение. 2015. № 3. С. 5-16.

10. Гржибовский А.М., Иванов С.В. Поперечные (одномоментные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 2. С. 5-18.

11. Гржибовский А.М., Иванов С.В., Горбатова М.А. Описательная статистика с использованием пакетов статистических программ Statistica и SPSS // Наука и Здравоохранение. 2015. № 1. С. 7-23.

12. Гржибовский А.М., Иванов С.В., Горбатова М.А. Экологические (корреляционные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 5. С. 5-18.

13. Гржибовский А.М., Иванов С.В., Горбатова М.А. Экспериментальные

Cholesterol

Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) 7083,500 33648,500 -1,180 ,238

a. Grouping Variable: Gender

исследования в здравоохранении // Наука и Здравоохранение. 2015. № 6. С. 5-17.

14. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Гржибовский А.М. Типы пищевого поведения и абдоминальное ожирение // Медицина. 2015. №4. С. 92-95.

15. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Нускабаева Г.О., Садыкова К.Ж., Маденбай К.М., Гржибовский А.М. Психоэмоциональный стресс как предиктор типа пищевого поведения в Казахстане // Экология человека. 2015. №5. С. 36-45.

16. Зуева Л.П., Яфаев Р.Х. Эпидемиология: учебник. СПб : ООО «Издательство Фолиант», 2008. 752 с.

17. Лакин Г.Ф. Биометрия. М. : Высшая школа, 1990. 351 с.

18. Маденбай К.М., Шалхарова Ж.С., Шалхарова Ж.Н., Жунисова М.Б., Садыкова К.Ж., Нускабаева Г.О., Гржибовский А.М. Оценка связи между площадью подкожной жировой ткани и показателями электронейромиографии // Экология человека. 2015. №7. С. 58-64.

19. Петри А., Сэбин К. Наглядная статистика в медицине. М. : ГЭОТАР-Мед, 2003. 140 с.

20. Рахыпбеков Т.К., Гржибовский А.М. К вопросу о необходимости повышения качества казахстанских научных публикаций для успешной интеграции в международное научное сообщество // Наука и Здравоохранение. 2015. №1. С. 5-11.

21. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. М. : МедиаСфера, 2002. 312 с.

22. Садыкова К.Ж., Шалхарова Ж.С., Нускабаева Г.О., Садыкова А.Д., Жунисова М.Б., Маденбай К.М., Гржибовский А.М. Распространенность анемии, ее социально-демографические детерминанты и возможная связь с метаболическим синдромом в г. Туркестан, Южный Казахстан // Экология человека. 2015. №8. С. 58-64.

23. Статистический анализ эмпирических исследований [электронный ресурс]. URL: www.statexpert.org/articles/таблицы_крити ческих_значений_статистических_критериев (дата обращения 02.08.2015).

24. Субботина А.В., Гржибовский А.М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. №2. С. 5157.

25. Флетчер Р. Клиническая эпидемиология. Основы доказательной медицины: пер. с англ. / Р. Флетчер, С. Флетчер, Э. Вагнер. М. : Медиа Сфера, 1998. 352 с.

26. Харькова О.А., Гржибовский А.М. Сравнение одной и двух несвязанных выборок с помощью пакета статистических программ STATA: непараметрические критерии // Экология человека. 2014. №4. С. 60-64.

27. Харькова О.А., Гржибовский А.М. Сравнение одной и двух несвязанных выборок с помощью пакета статистических программ STATA: параметрические критерии // Экология человека. 2014. №3. С. 57-61.

28. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. СПб : ВМедА, 2002. 266 с.

29. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.

30. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.

31. Gorbatova M.A., Gorbatova L.N., Grjibovski A.M. Dental caries experience among 15-year-old adolescents in north-west Russia // Int. J. Circumpolar Health. 2011. Vol. 3. P. 232-235.

32. Gorbatova M.A., Gorbatova L.N., Pastbin M.U., Grjibovski A.M. Urban-rural differences in dental caries experience among 6-year-old children in the Russian north // Rural Remote Health. 2012. Vol. 12. P. 1999.

33. Gorbatova M.A., Grjibovski A.M., Gorbatova L.N., Honkala E. Dental caries experience among 12-year-old children in Northwest Russia // Community Dent. Health. 2012. Vol. 1. P. 20-24.

References:

1. Akanov A.A., Turdalieva B.S., Izekenova A.K., Ramazanova M.A., Abdraimova, Grjibovski A.M. Otsenka ispolzovania statisticheskih metodov v nauchnih statyakh Kazakhstana [Assesment of use of statistical methods in scientific articles of the Kazakhstan's medical

journals]. Ekologiya cheloveka [Human Ecology]. 2013. No.5. PP. 61-64. [in Russian]

2. Borovikov V. STATISTICA. Iskusstvo analiza dannikh na kompyutere: dlya professionalov [STATISTICA. The art of data analysis using computer: for professionals]. SPb.: Piter, 2003. P. 688.

3. Buhl A., Zofel P. SPSS: isskustvo obrabotki informatsii. Analiz statisticheskih daanikh i vosstanovlenie skritikh zakonomernostey [SPSS: the art of information analysis. Statistical data analysis and hidden regularities identification]. SPb.: OOO «DiaSoftUP», 2005. P. 608. [in Russian]

4. Glants S. Mediko-biologicheskaya statistika [The biomedical statistics]. M. : Praktika, 1998. PP. 459. [in Russian]

5. Grjibovski A.M. Analiz kolichestvennikh dannikh dlya dvuh nezavisimih grupp [Analysis of quantitative data of two independent samples]. Ekologiya cheloveka [Human Ecology]. 2008. No.2. PP. 54-61. [in Russian]

6. Grjibovski A.M. Doveritel'ny eintervaly dlya chastot i dolei [Confidence intervals for proportions]. Ekologiya cheloveka [Human Ecology]. 2008. No.5. PP. 57-60. [in Russian]

7. Grjibovski A.M. Tipy dannikh, proverka raspredeleniya I opisatelnaya statistika [Types of data, distribution estimation and descriptive statistics]. Ekologiya cheloveka [Human Ecology]. 2008. No.1. PP. 52-58. [in Russian].

8. Grjibovski A.M., Ivanov S.V., Горбатова М.А. Gorbatova M.A.Issledovaniya tipa sluchay-kontrol v zdravoohranenii [Case-control studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 4, рр. 5-17 [in Kazakhstan].

9. Grjibovski A.M., Ivanov S.V. Kogortnie issledovaniya v zdravoohranenii [Cohort studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 3, pp. 5-16. [in Kazakhstan]

10. Grjibovski A.M., Ivanov S.V. Poperechnie (odnomomentnie) issledovanoya v zdravoohranenii [Cross-sectional studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 2, PP. 5-18. [in Kazakhstan]

11. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Opisatel'naya statistika s ispol'zovaniem paketov statisticheskikh programm Statistica i SPSS [Descriptive statistics using Statistica and

SPSS software]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016, 1, рр. 7-23 [in Kazakhstan].

12. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Ekologicheskiye (korrelyatsionnye) issledovaniya v zdravoohranenii [Ecological (correlational) studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 5, рр. 5-18. [in Kazakhstan].

13. Grjibovski A.M., Ivanov S.V. Eksperimentalnie issledovaniya v zdravookhranenii [Experimental studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 6, рр. 5-17 [in Kazakhstan].

14. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K. Zh., Madenbay K.M., Grjibovski A.M. Tipy pischevogo povedeniya i abdominalnoe ozhirenie [Eating behavior types and abdominal obesity]. Meditsina [Medicine]. 2015, 4. PP. 92-95.

15. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K. Zh., Madenbay K.M., Grjibovski A.M. Psykhoemotsionalniy stress kak predictor tipa pischevogo povedeniya v Kazakhstane [Psychoemotional stress and eating behavior in Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. No.5. PP. 36-45. [in Russian]

16. Zueva L.P, Yafaev R.H. Epidemiologiya: uchebnik [Epidemiology: the textbook]. SPb : OOO «Izdatelstvo Foliant», 2008. P. 752. [in Russian].

17. Lakin G.F. Biometria [Biometrics]. M. : Viscshaya shkola. 1990. P. 351. [in Russian]

18. Madenbay K.M., Shalkarova Zh.S., Shalkarova Zh. N., Zhunissova M.B., Sadykova K. Zh., Nuskabayeva G.O., Grjibovski A.M. Otsenka svyazi mezhdu ploshadyu podkojnoy jirovoy tkani I pokazatelyami electroneyromiografii [Assesment of the relationship between subcutaneous fat tissue an results of electromyoneurography]. Ekologiya cheloveka [Human Ecology]. 2015. No.7. PP. 58-64. [in Russian]

19. Petri A., Sebin K. Naglyadnaya statistika v meditsine [Demonstrative statistics in medicine]. M. : GEAOTAR-Med, 2003. p. 140. [in Russian]

20. Rakhypbekov T.K., Grjibovski A.M. K voprosu o nedhodimosti povisheniya kachestva kazakhstanskih nauchih publicatsiy dlya uspeshnoy integratsii v mezhdunarodnoe

nauchnoe soobschestvo [The need for improvement of the quality of Kazakhstani publications for successful integration in the international research community]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015. No.1. PP. 5-11.

21. Rebrova O. Yu. Statisticheskiy analiz meditsinskih daanikh. Primenenie paketa prikladnikh program STATISTICA [Statistical analysis of medical data. Using of STATISTICA software]. M. : MediaSphera, 2002. P. 312.

22. Sadykova K.Zh., Shalkharova Zh.S., Shalkharova Zh.N. Nuskabaeva G.O., Sadykova A.D., Zhunissova M.B., Madenbay K.M., Grjibovski A.M. Rasprostranennost' anemii , yeye sotsial'no -demograficheskiye determinanty i vozmozhnaya svyaz' s metabolicheskim sindromom v g. Turkestan , Yuzhniy Kazakhstan [Prevalence of anemia, its socio-demographic determinants and potential association with metabolic syndrome in residents of Turkestan, Southern Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. No.8. P. 58-64. [in Russian]

23. Statistical analysis of empirical research [website] Available at: www.statexpert.org/articles/Ta6nMqbi_Kp MTMnecKM x_3HaneHMM_CTaTMCTMnecKMx_KpMTepMeB

(Accessed 02 August 2015).

24. Subbotina A.V., Grjibovski A.M. Opisatelnaya statistika I proverka normal'nosti raspredeleniya kolichestvennih dannikh [Descriptive statistics and normality testing for quantitative data]. Ekologiya cheloveka [Human Ecology]. 2014. No.2. PP. 51-57. [in Russian]

25. Fletcher R. et al. Klinicheskaya ehpidemiologiya. Osnovy dokazatel'noi meditsiny [Clinical epidemiology. Basics of the evidence-based medicine] / R. Fletchtr, C. Fletcher, E. Vagner. M.: Media Sphere, 1998. 352 p. [in Russian].

26. Kharkova O.A., Grjibovski A.M. Sravnenie odnoy i dvuh nesvyazannih viborok s pomoshyu paketa statisticheskih programm STATA: neparametricheskie kriterii [Analysis of one and two independent samples using STATA software: nonparametric tests]. Ekologiya cheloveka [Human Ecology]. 2014. No.4. PP. 60-64. [in Russian].

27. Kharkova O.A., Grjibovski A.M. Sravnenie odnoy i dvuh nesvyazannih viborok s pomoshyu paketa statisticheskih programm STATA: parametricheskie kriterii [Analysis of one and two independent samples using STATA software: parametric tests]. Ekologiya cheloveka [Human Ecology]. 2014. No.3. PP. 57-61. [in Russian].

28. Yunkerov V.I., Grigoryev S.G. Matematiko-statisticheskaya obraboka daanikh meditsinskih issledovaniy [Mathematical and statistical analysis of medical research data]. SPb : VMedA, 2002. P. 266. [in Russian]

29. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.

30. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.

31. Gorbatova M.A., Gorbatova L.N., Grjibovski A.M. Dental caries experience among 15-year-old adolescents in north-west Russia // Int. J. Circumpolar Health. 2011. Vol. 3. P. 232-235.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

32. Gorbatova M.A., Gorbatova L.N., Pastbin M.U., Grjibovski A.M. Urban-rural differences in dental caries experience among 6-year-old children in the Russian north // Rural Remote Health. 2012. Vol. 12. P. 1999.

33. Gorbatova M.A., Grjibovski A.M., Gorbatova L.N., Honkala E. Dental caries experience among 12-year-old children in Northwest Russia // Community Dent. Health. 2012. Vol. 1. P. 20-24.

Контактная информация:

Гржибовский Андрей Мечиславович - доктор медицины, магистр международного общественного здравоохранения, Старший советник Национального Института Общественного Здравоохранения, г. Осло, Норвегия; Руководитель отдела международных программ и инновационного развития ЦНИЛ СГМУ, г. Архангельск, Россия; Профессор кафедры общественного здоровья и здравоохранения Медицинского Института Северо-Восточного Федерального Университета, г. Якутск, Россия; Профессор Международного Казахско-Турецкого Университета им. Х.А. Ясяви, г, Туркестан, Казахстан.

Почтовый адрес: INFA, Nasjonalt folkehelseinstitutt, Postboks 4404 Nydalen, 0403 Oslo, Norway.

Email: Andrej.Grjibovski@gmail.com

Телефон: +4745268913 (Норвегия), +79214717053 (Россия), +77471262965 (Казахстан).

i Надоели баннеры? Вы всегда можете отключить рекламу.