Научная статья на тему 'СОВРЕМЕННЫЕ ПРАВИЛА ПРИМЕНЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА'

СОВРЕМЕННЫЕ ПРАВИЛА ПРИМЕНЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА Текст научной статьи по специальности «Математика»

CC BY
10867
1817
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Медицинский альманах
ВАК
Область наук
Ключевые слова
КОРРЕЛЯЦИЯ / ФУНКЦИОНАЛЬНАЯ И КОРРЕЛЯЦИОННАЯ СВЯЗЬ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / ДИАГРАММА РАССЕЯНИЯ / ЧАСТНАЯ КОРРЕЛЯЦИЯ

Аннотация научной статьи по математике, автор научной работы — Баврина А.П., Борисов И.Б.

Рассматриваются основные правила применения корреляционного анализа в научных исследованиях. Подробно разбираются требования к интерпретации и представлению результатов корреляционного анализа, такие как направленность, сила (или теснота связи), статистическая значимость, коэффициент детерминации. Дается понятие функциональной и корреляционной связи. Описываются основные параметрические и непараметрические методы корреляционного анализа: корреляции Пирсона, Спирмена, Кендалла, фи и Крамера, точечный бисериальный коэффициент и рангово-бисериальный коэффициент корреляции. Представлены условия применения каждого коэффициента корреляции. Уделяется внимание графическому представлению корреляционной зависимости при использовании параметрического метода Пирсона и ранговых методов. Особое внимание уделяется ложной корреляции и методу ее исключения - частной корреляции.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN RULES OF THE APPLICATION OF CORRELATION ANALYSIS

The basic rules for the application of correlation analysis in scientific research are considered. The requirements for the interpretation and presentation of the results of correlation analysis are discussed in detail, such as directionality, strength (or tightness of connection), statistical significance, coefficient of determination. The concept of functional and correlation connection is given. The main parametric and nonparametric methods of correlation analysis are described: Pearson, Spearman, Kendall, phi and Cramer correlations, point biserial coefficient and rank-biserial correlation coefficient. The conditions for the application of each correlation coefficient are presented. The attention is paid to the graphical representation of the correlation dependence when using the parametric Pearson method and rank methods. Great attention is given to false correlation and the method of its elimination - partial correlation.

Текст научной работы на тему «СОВРЕМЕННЫЕ ПРАВИЛА ПРИМЕНЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА»

I В ПОМОЩЬ ИССЛЕДОВАТЕЛЮ

СОВРЕМЕННЫЕ ПРАВИЛА ПРИМЕНЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА

УДК 577

03.01.02 — биофизика Поступила 27.07.2021

А. П. Баврина, И. Б. Борисов

ФГБОУ ВО «Приволжский исследовательский медицинский университет» Минздрава России, Нижний Новгород

Рассматриваются основные правила применения корреляционного анализа в научных исследованиях. Подробно разбираются требования к интерпретации и представлению результатов корреляционного анализа, такие как направленность, сила (или теснота связи), статистическая значимость, коэффициент детерминации. Дается понятие функциональной и корреляционной связи. Описываются основные параметрические и непараметрические методы корреляционного анализа: корреляции Пирсона, Спирмена, Кендалла, фи и Крамера, точечный бисериаль-ный коэффициент и рангово-бисериальный коэффициент корреляции. Представлены условия применения каждого коэффициента корреляции. Уделяется внимание графическому представлению корреляционной зависимости при использовании параметрического метода Пирсона и ранговых методов. Особое внимание уделяется ложной корреляции и методу ее исключения — частной корреляции.

Ключевые слова: корреляция; функциональная и корреляционная связь; коэффициент корреляции; диаграмма рассеяния; частная корреляция.

MODERN RULES OF THE APPLICATION OF CORRELATION ANALYSIS

A. P. Bavrina, I.B. Borisov

Privolzhsky Research Medical University, Nizhny Novgorod

The basic rules for the application of correlation analysis in scientific research are considered. The requirements for the interpretation and presentation of the results of correlation analysis are discussed in detail, such as directionality, strength (or tightness of connection), statistical significance, coefficient of determination. The concept of functional and correlation connection is given. The main parametric and nonparametric methods of correlation analysis are described: Pearson, Spearman, Kendall, phi and Cramer correlations, point biserial coefficient and rank-biserial correlation coefficient. The conditions for the application of each correlation coefficient are presented. The attention is paid to the graphical representation of the correlation dependence when using the parametric Pearson method and rank methods. Great attention is given to false correlation and the method of its elimination — partial correlation. Keywords: correlation; functional and correlation relationship; correlation coefficient; scatter chart; partial correlation.

Статья продолжает серию публикаций по применению медико-биологической статистики в научных исследованиях [1-3]. Цель данной серии статей — познакомить читателей с основными принципами и правилами представления медико-биологических данных в научных исследованиях, сформировать целостное представление о методах статистической обработки результатов медико-биологических исследований, а также предупредить возникновение ошибок при статистической обработке данных.

ВВЕДЕНИЕ

Корреляционный анализ — статистический метод изучения взаимосвязи между двумя и более случайными величинами.

Корреляционный анализ является очень популярным методом аналитической статистики, используемым в медико-биологических исследованиях. По мнению А.М. Гржибовского [4], в российских научных публикациях корреляционный анализ находится на втором месте среди используемых в научных статьях методов, после критерия Стьюдента.

Впервые термин «корреляция» был применен французским палеонтологом Жоржем Кювье (1769-1832) в XVIII в.: им был разработан «закон корреляции» частей и органов живых существ, для восстановления облика ископаемых животных. Однако в статистике термин «корреляция» (применительно к корреляции Спирмена) впервые использовал английский биолог и статистик Фрэнсис Гальтон (1822-1911) в конце XIX в. [5]. В 1892-м он первым предложил принципы того, как можно вычислить коэффициент корреляции. На работу Фрэнсиса Гальтона огромное влияние оказали труды Чарльза Дарвина, который приходился ему двоюродным братом. В 1888 г. Гальтон сделал доклад «Корреляции и их измерение, преимущественно по антропометрическим данным» на заседании Королевского общества, который был посвящен корреляции между длиной рук и ног у пропорционально сложенного человека.

Также огромный вклад в развитие корреляционного анализа внес Карл Пирсон (1857-1936), английский математик и биолог, чьим научным руководителем в Университетском колледже Лондона был Френсис Гальтон. Карл Пирсон является основоположником математической статистики, в частности, теории корреляции.

Кроме того, в развитие корреляционного анализа внесли существенный вклад следующие ученые: Чарльз Эдвард Спирмен (1863-1945), Морис Джордж Кендалл (1907-1983), Александр Александрович Чу-пров (1874-1926), Джордж Юл (1871-1951) и многие другие.

Приведем несколько определений корреляции.

Корреляция — это характеристика тесноты (силы)

связи между переменными, выраженная одним числом [6].

Корреляция — это статистическая взаимосвязь двух и более случайных величин.

Корреляция — это согласованные изменения переменных.

Корреляционная связь может быть положительной и отрицательной. Положительная корреляционная связь наблюдается, если увеличение среднего значения или ранга одной переменной приводит к увеличению среднего значения или ранга второй переменной. Всем известный пример положительной корреляции — связь роста и веса (чем больше рост, тем больше вес). Напротив, отрицательная корреляционная связь наблюдается, если увеличение среднего значения или ранга одной переменной приводит к уменьшению среднего значения или ранга второй переменной. Пример отрицательной корреляции: связь стажа работы и частотой травм на производстве (чем больше стаж работы, тем меньше частота травм).

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. ЕГО СВОЙСТВА. ФУНКЦИОНАЛЬНАЯ И СТАТИСТИЧЕСКАЯ КОРРЕЛЯЦИОННАЯ СВЯЗЬ

Обычно мерой корреляции (или силы связи) между случайными величинами служит коэффициент корреляции. Известно, что коэффициент корреляции лежит в пределах от -1 до 1. Чем ближе полученный коэффициент корреляции к -1 или 1, тем сильнее связь между исследуемыми величинами. При оценке силы связи коэффициентов корреляции используется шкала Чеддока (табл. 1).

Таким образом, коэффициент корреляции имеет следующие свойства:

— направленность, т.е. изменяется от -1 до 1;

— равен нулю, если случайные величины независимы (не коррелированы);

— имеет смысл только при линейной зависимости между случайными величинами (в случае применения коэффициента корреляции Пирсона);

Таблица1

Шкала Чеддока

Значение Интерпретация

От 0 до 0,3 Очень слабая

От 0,3 до 0,5 Слабая

От 0,5 до 0,7 Средняя

От 0,7 до 0,9 Сильная (высокая)

От 0,9 до 1,0 Очень сильная (очень высокая)

Примечание. При отрицательной корреляционной зависимости коэффициент корреляции имеет отрицательные значения, величина которых интерпретируется так же, как и для положительной зависимости.

— является безразмерной величиной, поэтому не зависит от единиц измерения;

— симметричен, т.е. не меняется, если X и У поменять местами.

Коэффициент корреляции, равный 1, математически означает полную функциональную связь (не корреляционную) и отсутствие изменчивости одновременно у двух показателей. Причин множество, но наиболее распространенных — две. Первая. Обе переменные детерминированы, т.е. константы их состоят из одинакового набора цифр. Второй — одна из переменных получена из второй с помощью арифметических операций (например, умножения, сложения или более сложных преобразований) [7].

Итак, в чем же различия между функциональной и статистической корреляционной связями? Функциональная связь проявляется, когда определенному значению первого признака соответствует только одно строго определенное значение второго признака. В данном случае первый признак именуется «фактор» (или факторный признак), а второй — «результат» (или результативный признак). При этом на значение результативного признака оказывает влияние только факторный признак. Примером такой связи в математике является зависимость площади круга от его радиуса, в химии — зависимость скорости протекания реакции от температуры. В медицине и биологии функциональные связи не встречаются, так как результирующая переменная всегда имеет зависимость от нескольких факторов.

Корреляционная связь, в отличие от функциональной, подразумевает не конкретное значение результативного признака для каждого фактора, а лишь тенденцию изменения результативного признака при изменении факторного признака. Иными словами, в случае корреляционной связи результативный признак показывает, как изменяется его среднее значение в зависимости от изменения факторного признака. При корреляционной связи на значение результативного признака всегда влияют несколько факторов,

причем один из них будет оказывать более заметное влияние, чем остальные.

ТРЕБОВАНИЯ К ИНТЕРПРЕТАЦИИ И ПРЕДСТАВЛЕНИЮ РЕЗУЛЬТАТОВ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Корреляционный анализ встречается в отечественной биомедицинской литературе чаще, чем в зарубежной, вероятно, из-за его кажущейся простоты [4]. Однако грамотный корреляционный анализ имеет много тонкостей и «подводных камней». Часто при представлении результатов корреляционного анализа авторы допускают ошибки и неточности. Одними из основных ошибок являются выбор неверного коэффициента корреляции и некорректная интерпретация результатов корреляционного анализа. Кроме того, авторы допускают следующую ошибку — по величине коэффициента корреляции судят о наличии статистически значимых различий, хотя данный коэффициент указывает только на силу связи.

Для корректного описания и грамотной интерпретации корреляционной связи должны использоваться следующие характеристики (к сожалению, обычно авторы уделяют внимание только одной или двум из них).

1. Однонаправленность или разнонаправленность. По направлению корреляционная связь бывает положительной и отрицательной.

2. Сила (или теснота) связи, согласно шкале Чеддо-ка. Кроме указания численного значения полученного коэффициента корреляции следует уделить внимание и графическому представлению. Для наглядного представления связи между двумя переменными используются (в случае применения корреляции Пирсона) диаграммы рассеяния — графики, на которых по оси X откладывается одна переменная, а на оси У — другая (рис. 1). Форма полученного скопления точек указывает на величину коэффициента корреляции и его направленность. Чем больше скопление точек напоминает прямую линию, чем кучнее они сгруппи-

Рис. 1. Внешний вид диаграмм рассеяния для сильной отрицательной связи, сильной положительной связи и отсутствия связи между переменными

рованы относительно этой линии, тем выше будет коэффициент корреляции. При этом направление наклона скопления точек укажет на «знак» коэффициента корреляции. Восходящее скопление точек слева направо означает положительную корреляционную зависимость. Нисходящее скопление точек слева направо говорит об отрицательной корреляционной зависимости. Скопление точек, напоминающее круг, свидетельствует об отсутствии корреляционной связи. Кроме того, с помощью диаграмм рассеяния можно доказать линейный характер связи между переменными, что является условием применения классического корреляционного анализа.

3. Уровень значимости коэффициента корреляции. В качестве критического в медико-биологических исследованиях обычно принимается р<0,05. Наряду с величиной коэффициента корреляции и его знаком, указывать уровень значимости является обязательным. Так как, например, при исследовании малых выборок может быть выявлена средняя или сильная корреляционная связь, при этом она может оказаться статистически незначимой (р>0,05).

4. Для понимания степени тесноты взаимосвязи между признаками необходимо воспользоваться коэффициентом детерминации Р (г2). Остановимся на нем подробнее, так как исследователями он обычно игнорируется. Коэффициент детерминации рассчитывается путем возведения коэффициента корреляции в квадрат. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах. Коэффициент детерминации показывает, какую долю вариабельности одного из изучаемых признаков способен объяснить другой признак. Иными словами, он отражает, насколько изменения зависимой переменной объясняются изменениями независимой, или, в статистических терминах, коэффициент детерминации описывает долю дисперсии (разброса) одной пе-

ременной, согласованно изменяющейся с дисперсией (разбросом) другой переменной [7].

Например, если две переменные имеют линейную функциональную связь, равную 1 или -1, то возведение ее в квадрат даст коэффициент детерминации, равный 100%. Можно сделать вывод, что изменение переменной Х полностью объясняется переменной У.

В случаях, когда полученный коэффициент корреляции меньше 1, коэффициент детерминации показывает, насколько изменение двух переменных является согласованным. Например, в исследовании определен коэффициент корреляции 0,710. Возведя его в квадрат, получаем значение 0,504, т.е. 50% вариабельности одной переменной можно объяснить вариабельностью второй переменной. Таким образом, при наличии сильной корреляционной связи (0,710) одна переменная может объяснить только половину вариабельности второй переменной.

Исследователи часто задают вопрос: стоит ли указывать в научном исследовании выявленные слабые корреляции? С точки зрения статистики, их указывать не принято по простой причине. Например, полученный коэффициент корреляции 0,425 свидетельствует о том, что лишь 18% вариабельности одной переменной объясняется вариабельностью другой. Остальные 82% вариабельности первой переменной никак не объясняются второй! При очень слабой корреляционной связи (которую часто можно увидеть в научных публикациях), например, равной 0,220, только 5% вариабельности одной переменной связаны со второй. Поэтому ответ на заданный выше вопрос очевиден.

МЕТОДЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА

От чего же зависит выбор конкретного коэффициента корреляции? Во-первых, от типа шкалы пере-

Таблица 2

Виды коэффициентов корреляции

Коэффициент корреляции Типы шкал

Переменная Х Переменная У

Коэффициент Пирсона (г) Интервальная с нормальным распределением Интервальная с нормальным распределением

Интервальная с нормальным распределением Порядковая

Коэффициент Спирмена (р) Интервальная с нормальным распределением Интервальная с распределением, отличным от нормального

Коэффициент Кендалла (т) Порядковая Порядковая

Коэффициент фи (ф) для таблиц 2х2 Номинальная Номинальная

Коэффициент Крамера (V) Для таблиц, больших по размеру, чем 2х2 Номинальная Номинальная

Рангово-бисериальный коэффициент (ггЬ) Номинальная Порядковая

Точечный бисериальный коэффициент (грЬ) Номинальная Интервальная с нормальным распределением

менной. Во-вторых, если обе переменные количественные, то выбор коэффициента корреляции объясняется формой распределения и некоторыми другими характеристиками. Правильно выбрать коэффициент корреляции поможет таблица 2.

Как видно из таблицы 2, каждый коэффициент корреляции обозначен своей буквой. Так, например, коэффициент корреляции Спирмена в тексте статьи нужно обозначать с помощью буквы р, коэффициент корреляции Кендалла—т и т.д. Это, во-первых, даст возможность читателю сразу понять, какой именно коэффициент корреляции был использован авторами, и во-вторых, это более грамотно.

В большом количестве публикаций, базирующихся на корреляционном анализе, вне зависимости от используемого коэффициента, его обозначают буквой г. Однако такое обозначение используется для коэффициента корреляции Пирсона, и часто догадаться, какой именно коэффициент брали авторы, не представляется возможным, особенно если в подразделе, посвященном статистической обработке данных, методы описаны неполно. Также не следует обозначать коэффициент корреляции заглавной буквой Я — такое обозначение используется для коэффициента детерминации.

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона является самым популярным коэффициентом корреляции среди других в научных публикациях, хотя он имеет существенные ограничения.

Условия применения параметрического коэффициента корреляции Пирсона:

1. Переменные Х и У являются непрерывными количественными данными.

2. Переменные Х и У имеют нормальное распределение. Поэтому исследование распределений количественных данных на нормальность обязательно перед проведением корреляционного анализа (методы исследования выборок на нормальность подробно описаны в публикации [1]). Если

распределение хотя бы одной выборки отличается от нормального, то использовать параметрический коэффициент корреляции Пирсона нельзя.

3. Характер связи между переменными Х и У должен быть линейным. Внешний вид диаграмм рассеяния при нелинейной корреляции представлен на рис. 2.

4. Должно удовлетворяться условие гомоскеда-стичности — свойства данных, которое заключается в постоянстве дисперсии случайных величин вдоль прямой регрессии (рис. 3). Если имеет место гетеро-скедастичность (рис. 3, Б), то результирующая переменная будет зависеть не только от факторной, но и от величины изменения дисперсии, что затруднит интерпретацию данных. При этом на диаграммах рассеяния скопления точек будут выглядеть как треугольники, трапеции и другие фигуры.

5. Наблюдения должны быть парными (признаки Х и У получены от одних и тех же участников исследования).

6. Объем выборки должен превышать 25 наблюдений.

Таким образом, принимая решение об использовании коэффициента корреляции Пирсона, необходимо убедиться, что количественные данные всех исследуемых выборок подчиняются закону нормального распределения, а также нужно построить диаграммы рассеяния, чтобы доказать линейность связи между признаками и их гомоскедастичность.

Недостатком использования коэффициента корреляции Пирсона является его сильная чувствительность к выбросам. При наличии в выборке единственного выброса величина коэффициента корреляции Пирсона может существенно снижаться.

При невыполнении вышеперечисленных условий следует воспользоваться ранговым коэффициентом корреляции Спирмена.

Коэффициент корреляции Спирмена

Корреляция Спирмена является ранговой, т.е. при расчете коэффициента корреляции не берутся чис-

Рис. 3. Внешний вид диаграмм рассеяния для переменных, удовлетворяющих условию гомоскедастичности (Л), и переменных, характеризующихся гетероскеда-стичностью (Б)

ленные значения, а используются соответствующие им ранги.

Условия применения непараметрического коэффициента корреляции Спирмена:

1. Не требует исследования распределений количественных данных на нормальность. Может применяться для выборок, данные которых частично или полностью не подчиняются закону нормального распределения.

2. Данные одной из выборок могут быть представлены в порядковой шкале, однако данные второй выборки должны быть количественными.

3. Объем выборки должен превышать 5 наблюдений.

4. Если имеет место большое количество одинаковых рангов по одной или обеим сопоставляемым переменным, то коэффициент корреляции Спирмена дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

Коэффициент корреляции Кендалла

Ранговая корреляция Кендалла является альтернативой методу Спирмена в случае двух порядковых шкал. Данный метод является мерой тесноты нелинейной связи и использует возрастание или убывание результативного признака при возрастании факторного. Таким образом, вычисление коэффициента Кендалла связано с подсчетом числа совпадений и инверсий. Для применения коэффициента корреляции Кендалла существует только одно условие: шкалы переменных Х и Y должны быть порядковыми.

Ранговые корреляции (Спирмена и Кендалла) можно представить графически (рис. 4), однако такое представление будет выглядеть совершенно иначе, нежели скопление точек, характерное для корреляции Пирсона. На рисунке 4, А представлена сильная прямая функци-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ональная связь, равная +1: увеличению признака Х сопутствует увеличение признака Y на ту же величину. Рисунок 4, Б представляет сильную обратную функциональную зависимость, равную -1: увеличение признака Х сопровождается пропорциональным уменьшением признака У Рисунок 4, В показывает отсутствие взаимосвязи между переменными Х и У: при изменении величины переменной Х величина переменной У может меняться случайным образом, как в сторону увеличения, так и в сторону уменьшения.

Коэффициент корреляции фи и У-коэффициент Крамера

Для исследования силы связи между переменными, измеренными в номинальной шкале, используют коэффициент корреляции фи и коэффициент Крамера.

Условия применения коэффициента корреляции фи:

1. Переменные Х и У должны быть измерены в дихотомической шкале.

2. Число признаков в сравниваемых переменных X и У должно быть одинаковым.

Коэффициент фи можно вычислить, используя четырехпольную таблицу сопряженности (2х2) (применение таблиц сопряженности в статистическом анализе описано в публикации [8]).

У-коэффициент Крамера является модифицированным коэффициентом корреляции фи, для таблиц, больших по размеру чем 2х2.

Условия применения корреляции V-коэффици-ента Крамера:

1. Переменные Х и У должны быть измерены в номинальной шкале, где количество кодировок больше двух (не дихотомические шкалы).

2. Число признаков в сравниваемых переменных X и У должно быть одинаковым.

Как и коэффициент корреляции фи, V-коэффициент Крамера вычисляется с использованием таблиц сопряженности (больших по размеру чем 2х2).

Точечный бисериальный коэффициент корреляции

Точечный бисериальный коэффициент корреляции вычисляется, когда переменная Х измеряется в номинальной дихотомической шкале (имеет только две кодировки, например, 0 и 1), а переменная Y — в количественной шкале (интервальной или шкале отношений).

Условия применения точечного бисериального коэффициента корреляции:

1. Сравниваемые признаки должны быть измерены в разных шкалах: переменная X — в шкале интервалов или отношений, переменная Y—в дихотомической шкале.

2. Переменная Х имеет нормальное распределение.

3. Число признаков в сравниваемых переменных X и Y должно быть одинаковым.

4. Для оценки уровня значимости точечного бисериального коэффициента корреляции следует пользоваться соответствующей формулой и таблицей критических значений для коэффициентов корреляции Пирсона и Спирмена, при k = n - 2.

К сожалению, точечный бисериальный коэффициент корреляции в SPSS не реализован, однако его можно рассчитать, воспользовавшись очень простой формулой.

Ж (Ж -1)

(1)

где x1 — среднее значение переменных, у которых номинальная переменная Y равна 1;

х0 — среднее значение переменных, у которых номинальная переменная Y равна 0;

Sx — стандартное отклонение для значений по переменной X;

— количество переменных, у которых номинальная переменная Y равна 1;

n2 — количество переменных, у которых номинальная переменная Y равна 0; N — общее количество переменных. Приведем пример расчета точечного бисериаль-ного коэффициента корреляции.

Пусть переменная Х — рост в сантиметрах, а переменная Y — это пол (где 1 — мужчины, 0 — женщины) (табл. 3).

1. Вычисляем промежуточные значения (средние значения и стандартное отклонение легко подсчитать в Excel):

N = 20, n1 = 10, n2 = 10;

S x = 9,2

X = 180,4; x0 = 164,8.

2. Вычисляем коэффициент корреляции:

180,4 -164,8 | 10 x 10

pb

9,2

20 (20 -1)

0,86

3. Находим число степеней свободы: к = (л1-1) + (По-1) = 18.

4. Находим критическое значение коэффициента корреляции по таблице 4 (специальной таблицы для точечного бисериального коэффициента корреляции не существует).

r = 0,44.

кр '

5. Сравниваем фактическое значение грЬ и критическое значение гкр. В нашем примере грЬ > г (0,86>0,44). Следовательно, можно сделать вывод: корреляция между ростом и полом статистически значима при р<0,05.

Важное дополнение. Знак полученного точечного бисериального коэффициента корреляции для интерпретации результатов не имеет значения.

Рангово-бисериальный коэффициент корреляции

Рангово-бисериальный коэффициент корреляции вычисляется, когда переменная Х измеряется в номинальной дихотомической шкале (имеет только две кодировки, например, 0 и 1), а переменная У — в порядковой шкале.

Условия применения рангово-бисериального коэффициента корреляции:

1. Сравниваемые признаки должны быть измерены в разных шкалах: переменная X — в порядковой шкале, переменная У — в дихотомической шкале.

2. Число признаков в сравниваемых переменных X и У должно быть одинаковым.

3. Число признаков, отмеченных кодом 0, не должно превышать числа признаков, отмеченных кодом 1, более чем на 3.

4. Для оценки уровня значимости рангово-бисериального коэффициента корреляции следует пользоваться формулой (2) и таблицей критических значений для коэффициентов корреляции Пирсона и Спирмена, при к = п - 2.

2 I- -Г =--(X - x0

Ж V 1 0

pb

(2)

х1 — среднее ранговое значение переменных, у которых номинальная переменная У равна 1;

х0 — среднее ранговое значение переменных, у которых номинальная переменная У равна 0; N — численность выборки.

Пример расчета. 10 подростков («1» — мальчики и «0» — девочки) были проранжированы на предмет

Таблица 3 Продолжение таблицы 3

Рост(Х) Пол (У) Рост(Х) Пол (У)

182 1 165 0

178 1 163 0

190 1 170 0

181 1 158 0

174 1 166 0

179 1 169 0

180 1 161 0

186 1 167 0

175 1 170 0

179 1 159 0

Таблица 4

Критические значения коэффициентов корреляции Пирсона и Спирмена

Степени свободы п - 2 Уровень значимости Степени свободы п - 2 Уровень значимости Степени свободы п - 2 Уровень значимости

0,95 0,99 0,95 0,99 0,95 0,99

5 0,75 0,87 20 0,42 0,54 60 0,25 0,33

6 0,71 0,83 21 0,41 0,53 70 0,23 0,30

7 0,67 0,80 22 0,40 0,52 80 0,22 0,28

8 0,63 0,77 23 0,40 0,51 90 0,21 0,27

9 0,60 0,74 24 0,39 0,50 100 0,20 0,25

10 0,58 0,71 25 0,38 0,49 125 0,17 0,23

11 0,55 0,68 26 0,37 0,48 150 0,16 0,21

12 0,53 0,66 27 0,37 0,47 200 0,14 0,18

13 0,51 0,64 28 0,36 0,46 300 0,11 0,15

14 0,50 0,62 29 0,36 0,46 400 0,10 0,13

15 0,48 0,61 30 0,35 0,45 500 0,09 0,12

16 0,47 0,59 35 0,33 0,42 700 0,07 0,10

17 0,46 0,58 40 0,30 0,39 900 0,06 0,09

18 0,44 0,56 45 0,29 0,37 1000 0,06 0,09

19 0,43 0,55 50 0,27 0,35

Таблица 5

Ранг агрессивности Пол

1 1

2 1

4 1

6 1

7 1

8 1

3 0

5 0

9 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10 0

внешних проявлении агрессивности по отношению к своим сверстникам (табл. 5) [9].

1. Вычисляем промежуточные значения: N = 10;

X = 4,67; х0 =6,75.

2. Вычисляем коэффициент корреляции:

Р = 10 '(4'67- 6'75) = - °'42

3. Находим число степеней свободы: к = (п1-1) + (П0-1) = 8.

4. Находим критическое значение коэффициента корреляции по таблице 4 (специальной таблицы для рангово-бисериального коэффициента корреляции также не существует).

г = 0,63.

кр '

5. Сравниваем фактическое значение грЬ и критическое значение гкр. В нашем примере грЬ > гкр (0,42<0,63). Следовательно, можно сделать вывод: корреляция между агрессивностью и полом не является статистически значимой.

Знак полученного рангово-бисериального коэффициента корреляции для интерпретации результатов также не имеет значения.

Итак, корреляционная связь, в отличие от функциональной, показывает лишь тенденцию изменения одной величины под действием другой. Следовательно, на основании корреляции можно утверждать лишь о степени связи между переменными, но не о существовании причинно-следственной зависимости между ними. Иными словами, выявление значимой корреляции еще не означает причинно-следственную связь между переменными.

Вполне возможно, что совместная вариация исследуемых признаков обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложной корреляцией. Для выявления ложной корреляции служит специальный метод, именуемый частной корреляцией.

Частная корреляция

Ложная корреляция широко известна в статистике и возникает, когда две и более независимых переменных связаны из-за наличия третьей неизвестной переменной, которую называют смешивающей.

Приведем несколько известных классических примеров ложной корреляции.

В Швеции было проведено исследование под условным названием «Аисты приносят детей». В Стокгольме в течение 73 лет регистрировалось число новоро-

жденных в год (у) и число аистов (х), которых содержало население. Рассчитанный коэффициент корреляции оказался близок к единице, т.е. полученную связь можно было толковать как чисто функциональную. Поскольку утверждение, что аисты приносят детей, довольно сомнительное, было решено поискать другое объяснение. Оказалось, что одновременные синхронные изменения числа аистов и числа новорожденных детей объясняются изменением среднего уровня жизни жителей Стокгольма. Эта переменная первоначально не являлась предметом рассмотрения, отчего и случился такой забавный курьез вследствие ложной корреляции.

Другой пример ложной корреляции — взаимосвязь продаж мороженого в городе с количеством утоплений. Между этими двумя переменными существует сильная положительная корреляция: продажи мороженого самые значительные, когда число утоплений в городских водоемах самое высокое. Можно ли утверждать, что продажа мороженого вызывает утопление или наоборот? Конечно, нет. В действительности в данном примере жаркая погода является смешивающей переменной, исключение которой покажет отсутствие зависимости между исследуемыми переменными.

Поэтому при обнаружении значимой корреляции между исследуемыми переменными всегда нужно задумываться о существовании скрытой смешивающей переменной, которая в действительности обуславливает полученный коэффициент корреляции. Из-за влияния неучтенных смешивающих переменных может искажаться истинная связь между переменными. В медико-биологических исследованиях обычно выявить такие смешивающие переменные не составляет труда еще на этапе планирования. Затем в ходе статистического анализа необходимо воспользоваться методом частной корреляции, чтобы исключить влияние предполагаемых смешивающих переменных.

ЗАКЛЮЧЕНИЕ

Таким образом, грамотный корреляционный анализ не характеризуется мнимой простотой, каждый коэффициент корреляции имеет множество условий применения, а интерпретация полученных результатов также не заключается в простом упоминании в тексте статьи полученного коэффициента корреляции.

Финансирование исследования и конфликт интересов. Исследование не финансировалось каким-либо источником, и конфликты интересов, связанные с данным исследованием, отсутствуют.

ЛИТЕРАТУРА/REFERENCES

1. Баврина А.П. Современные правила использования методов

описательной статистики в медико-биологических исследованиях. Медицинский альманах 2020; 2(63): 95-104. Bavrina A.P. Modern rules for the use of descriptive statistics methods in biomedical research. Medicinskij al'manah 2020; 2(63): 95-104.

2. Баврина А.П. Основные понятия статистики. Медицинский альманах 2020; 3(64): 101-111. Bavrina A. P. Basic concepts of statistics. Medicinskij al'manah 2020; 3(64): 101-111.

3. Баврина А.П. Современные правила применения параметрических и непараметрических критериев в статистическом анализе медико-биологических данных. Медицинский альманах 2021; 1(66): 64-73. Bavrina A.P. Modern rules for the use of parametric and nonparametric tools in the statistical analysis of biomedical data. Medicinskij al'manah 2021; 1(66): 64-73.

4. Гржибовский А.М. Корреляционный анализ в медицинских исследованиях. Бюллетень СГМУ 2000; 2: 22-23. Grzhibovskiy A.M. Correlation analysis in medical research. Byul-leten' SGMU2000; 2: 22-23.

5. Елисеева И.И., Юзбашев М.М. Общая теория статистики. Учебник. М: Финансы и статистика; 2002. Eliseeva I.I., Yuzba-shev M.M. Obshchaya teoriya statistiki. Uchebnik [General theory of statistics. Textbook]. Moscow: Finansy i statistika; 2002.

6. Гланц С. Медико-биологическая статистика. М: Практика; 1998. Glants S. Mediko-biologicheskaya statistika [Biomedical statistics]. Moscow: Praktika; 1998.

7. Ильин В.П. Корреляционный анализ количественных данных в медико-биологических исследованиях. Бюллетень ВСНЦ СО РАМН 2013; 4(92): 125-130. Il'in V. P. Correlation analysis quanti-

tative variables in medical-biological researches. Byulleten' VSNTs SO RAMN2013; 4(92): 125-130.

8. Баврина А.П., Саперкин Н.В. Наблюдательные эпидемиологические исследования и особенности представления результатов в научном отчете. Медицинский альманах 2021; 2(67): 83-89. Bavrina A.P., Saperkin N.V. Observational epidemiological studies and features of the presentation of findings in a scientific report. Medicinskij al'manah 2021; 2(67): 83-89.

9. Лупандин В.И. Математические методы в психологии. Учебное пособие. 4-е изд., переработанное. Екатеринбург: Изд-во Уральского университета; 2009. Lupandin V. I. Matematicheskie metody v psikhologii. Uchebnoe posobie [Mathematical methods in psychology. Tutorial]. 4th ed., revised. Ekaterinburg: Izd-vo Ural'skogo universiteta; 2009.

ИНФОРМАЦИЯ ОБ АВТОРАХ:

А.П. Баврина, к.б.н., доцент кафедры медицинской физики и информатики, руководитель Центра биомедицинской статистики, организации исследований и цифровой медицины ФГБОУ ВО «Приволжский исследовательский медицинский университет» Минздрава России;

И.Б. Борисов, к.б.н., доцент кафедры медицинской физики и информатики ФГБОУ ВО «Приволжский исследовательский медицинский университет» Минздрава России. Для контактов: Баврина Анна Петровна, е-mail: annabavr@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.