Исследование параметрических и непараметрических методов определения коэффициента корреляции данных с анормальными законами распределения

Сафарян Григорий Гагикович; Сергиенко Марина Петровна

УДК 006.91

Г.Г. САФАРЯН, М.П.СЕРГИЕНКО

ИССЛЕДОВАНИЕ ПАРАМЕТРИЧЕСКИХ И НЕПАРАМЕТРИЧЕСКИХ МЕТОДОВ ОПРЕДЕЛЕНИЯ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ДАННЫХ С АНОРМАЛЬНЫМИ ЗАКОНАМИ РАСПРЕДЕЛЕНИЯ

Исследуются особенности определения коэффициента корреляции двух функционально независимых коррелированных величин параметрическими и непараметрическими методами для случаев большого и малого числа наблюдений. Выявляются причины расхождения результатов, получаемых разными методами, предлагаются возможности их устранения. Изучается влияние закона распределения исходных величин на точность расчета коэффициента корреляции между ними. Даются рекомендации по оптимальному использованию разных методов для исследования корреляционных связей различных величин.

Актуальность исследования

Во многих областях жизнедеятельности человека существует необходимость математической обработки взаимосвязанных данных (это большинство технических отраслей, медицина, химия, биология, социология, психология и т.д.). При этом выделяют два вида взаимосвязи - функциональную и корреляционную. Под функциональной понимают связь, где существует полное соответствие между факторными и результативными признаками, т.е. определенному значению факторного признака соответствует одно и только одно значение результативного признака. Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.

В настоящее время для определения функциональной взаимосвязи с заданной необходимой точностью разработано большое количество аналитических и численных методов (методы наименьших квадратов, максимального правдоподобия и др. [1]). Результаты исследования корреляционных зависимостей получены для случая нормально распределенных данных [2, 3], нет единого подхода к выбору метода определения коэффициента корреляции (что вызвано разными результатами при использовании разных методов для одних и тех же исходных данных), предполагается использование опыта и навыков у исследователя, что придает результатам субъективный и рекомендательный характер. Такое состояние проблемы нельзя считать удовлетворительным, поскольку корреляция может иметь сильное влияние на точность результата измерения. При повышении точности и разрешающей способности средств измерительной техники и постоянном совершенствовании вычислительной техники и программного обеспечения к ней появляются возможности для более детального исследования физических величин и процессов, и одной из актуальных и важных задач является исследование корреляционных связей между исходными данными и способами их определения.

Постановка задачи

Для нахождения корреляции между двумя выборками наиболее часто используются коэффициент корреляции и ее выборочный коэффициент (параметрические), коэффициенты ранговой корреляции Спирмена и Кендалла (непараметрические) [2, 4]. В технической литературе [2,3] отмечается, что выборочный коэффициент корреляции может быть применен только при нормальном распределении обеих выборок. Таким образом, задачей является исследование: точности параметрических и непараметрических методов определения коэффициентов корреляции; влияния закона распределения на значение параметрических коэффициентов корреляции; корреляции при малом объеме выборок.

Цель исследования - определение границ применимости и усовершенствование разных способов вычисления коэффициента корреляции.

Способы расчета коэффициента корреляции

Как было отмечено выше, существуют параметрические и непараметрические способы определения коэффициента корреляции. В общем случае при параметрическом подходе коэффициент корреляции R случайных величин х и у рассчитывают по формуле [2]

_ _ М[(х - Мх)(у - Му)]

R _ СТС • (1)

где М[...] - математическое ожидание (МО) величины [...]; Мх , Му - МО исследуемых

величин х и у соответственно; с х , с у - средние квадратические отклонения (СКО)

величин х и у соответственно.

При этом величины х и у должны быть «...взаимно независимыми, одинаково распределенными двумерными случайными величинами, подчиняющимися нормальному распределению» [2]. Если же параметры функции нормального совместного распределения неизвестны, то в качестве оценки коэффициента корреляции используют выборочный коэффициент корреляции г:

]Г[(х1 - х)(у1 - у)] 1 _1

г _

п - (2)

Л£ (х1 - х)2 £ (у1 - у)2 ' V1_1 1_1

п п

где х _ (£ х1) / п, у _ (£ у! )/п.

1_1 1_1

Были проведены исследования, направленные на изучение влияния законов распределения исходных величин на точность определения коэффициента корреляции в соответствии с выражениями (1), (2). При этом в формуле (1) в качестве МО и СКО для случайной величины £, распределенной по нормальному закону, использовались выражения

- 1 п 1 п _ 2

М£ _ £ _1 ££ ; с^ _ -- £ (£ - £)2 , (3)

п 1 _1 ^ V п -11 _1

и тогда (1) и (2) совпадают; для величины, распределенной по равномерному закону и закону арксинуса, МО и СКО имеют вид [5]

М£ _ £тах + £тт с _ £тах - £™п М 2 ; ^ 2tp ^ (4)

где £min , £тах - наименьшее и наибольшее значения случайной величины £ ; ^ - доверительный коэффициент (^ _ -\[3 для равномерного закона распределения, ^ _ 42 - для

арксинусного закона распределения).

Также широко распространены при исследованиях корреляционных связей различного происхождения непараметрические методы, оперирующие не параметрами законов распределения исходных величин (МО, СКО), а рангами этих величин по каждому признаку. Выборочными мерами связи в этом случае служат ранговые коэффициенты корреляции. Наиболее используемыми являются коэффициент ранговой корреляции р Спирмена;

1 ^р

р_ 1 - п^РЛ), (5)

п 2

где Sp _ £ (ф -1) : ф - порядковый номер (по второму признаку) той пары признаков, 1=1

которая по первому признаку имеет номер 1; п - число наблюдений (пар рангов), и коэффициент ранговой корреляции т Кендалла:

4N

т = 1)-1, (6)

где N - количество тех пар рангов, для которых одновременно j > 1 и ^ > ^ .

Основными преимуществами непараметрических методов расчета коэффициента корреляции являются независимость от закона распределения исследуемых величин и нечувствительность к возможным выбросам в исходных данных, чего нельзя сказать о параметрических методах. При этом коэффициент ранговой корреляции р Спирмена является аналогом выборочного коэффициента корреляции г и эти критерии сравнимы по мощности. В то же время коэффициент ранговой корреляции т Кендалла отличается повышенной сложностью, поскольку количество используемых для расчета данных нелинейно возрастает с увеличением исходных данных, что существенно увеличивает время расчета и необходимые программные ресурсы.

Исследования проводились методом Монте-Карло генерирования совместного (двумерного) закона распределения коррелированных входных величин с произвольными законами распределения в соответствии с рекомендациями работы [6], включающими следующие операции:

1) генерирование двух последовательностей нормально распределенных некоррелированных случайных чисел и с нулевым математическим ожиданием и единичным стандартным отклонением;

2) формирование из этих последовательностей третьей последовательности

= г* + - (г*)2. В этом случае и представляют собой нормально распределенные коррелированные случайные величины с заданным коэффициентом корреляции г*;

3) преобразование от ^ и ^3 в виде интегральной функции нормированного нормального распределения и = Рн с получением последовательностей равномерно распределенных в диапазоне от 0 до 1 коррелированных случайных чисел и и «2 с коэффициентом корреляции г1,2, близким по значению к исходному коэффициенту г* ;

4) получение нормированных равномерно распределенных случайных чисел и>1н и и2н с

нулевым МО и единичным СКО в соответствии с выражением и>1,2н = (2 и^ - 1)л/3 ;

5) получение двух последовательностей коррелированных случайных чисел х и у с

заданными законами распределения методом обратных функций х = Б-1 (и1н), у = Б-1 (и2н),

где Б - интегральная функция заданного закона распределения.

Таким образом, были получены совместные (двумерные) функции распределения величин с нормальными, равномерными и арксинусными законами распределения и их комбинациями.

Для моделирования исходных данных согласно описанному алгоритму и расчета коэффициентов корреляции в соответствии с выражениями (1) - (6) были использованы пакеты Mathcad 13 и Statistica 6.0.

При наличии большого числа наблюдений (моделирование осуществлялось прип = 65000 с усреднением 50 раз) для двух нормально распределенных величин были получены зависимости коэффициентов корреляции г, р и т , рассчитанных по формулам

(2), (5) и (6) по одним и тем же данным, от заданного коэффициента корреляции г* (по модулю). Исследования показали, что для выборочного коэффициента корреляции (2) разность между ним и заданным значением коэффициента корреляции не превышает

2 • 10 4 . Формулы для расчета ранговых коэффициентов корреляции имеют систематичес-

кую составляющую погрешности и нуждаются во введении поправки при нахождении

коэффициента корреляции, которая показана на рис.1. СКО коэффициентов корреляции не превысило 7 • 10-4 .

0,25 0,2 0,15 0,1 0,05

Рис. 1. Поправки для расчета коэффициентов ранговой корреляции р Спирмена и т Кендалла

Показанные зависимости являются очень важными, поскольку отражают несовершенство непараметрических методов и отвечают на вопросы, почему разные методы определения коэффициента корреляции не дают одинаковый результат, каким методом пользоваться, и можно ли использовать сразу несколько методов. Очевидно, что прибавление поправки в соответствии с рис.1 позволит разными методами получить одинаковый результат и оптимально использовать непараметрические методы, когда это необходимо.

Теперь обратимся к вопросу влияния закона распределения исходных величин на точность расчета коэффициента корреляции R (1) с учетом выражений (3), (4) и выборочного коэффициента корреляции (2). Полученные значения коэффициентов корреляции при использовании выражения (1) приведены в табл. 1, при использовании выражения (2) - в табл.

2. СКО коэффициентов корреляции не превысило 8 • 10-4 .

Таблица 1

Я Заданный коэфс * шциент корреляции г

Закон 1, закон 2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Норм., норм. 0 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

Равн., равн. 0 0,09 0,19 0,29 0,39 0,48 0,58 0,68 0,78 0,89 1,00

Арксин.,арксин. 0 0,09 0,18 0,27 0,36 0,46 0,55 0,65 0,76 0,87 0,92

Норм., равн. 0 0,10 0,19 0,29 0,39 0,49 0,59 0,68 0,78 0,88 0,98

Норм., арксин. 0 0,09 0,19 0,28 0,38 0,47 0,57 0,66 0,76 0,85 0,95

Равн., арксин. 0 0,09 0,18 0,28 0,37 0,47 0,57 0,67 0,77 0,88 0,99

Таблица 2

г Заданный коэфф * ициент корреляции г

Закон 1, закон 2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Норм., норм. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Равн., равн. 0 0,09 0,19 0,29 0,39 0,48 0,58 0,68 0,79 0,89 1

Арксин.,арксин. 0 0,09 0,18 0,27 0,37 0,46 0,56 0,66 0,77 0,88 1

Норм., равн. 0 0,10 0,19 0,29 0,39 0,49 0,59 0,68 0,78 0,88 0,98

Норм., арксин. 0 0,09 0,19 0,28 0,38 0,48 0,57 0,66 0,76 0,85 0,95

Равн., арксин. 0 0,09 0,19 0,28 0,37 0,47 0,57 0,67 0,77 0,88 0,99

Табл. 1 и 2 показывают, что существует влияние закона распределения исходных величин на точность определения коэффициента корреляции, разность между заданным и полученным коэффициентами корреляции может достигать 0,08 при использовании выражения (1) и 0,05 - при использовании выражения (2). Однако если в высокой точности

определения коэффициента корреляции необходимости нет и исходные величины не обременены случайными погрешностями и промахами, возможно использование этих выражений.

Следует отметить некоторые ситуации, описанные в научно-технической литературе. Так, в [2] отмечено, что «если корреляция случайных величин х и у отлична от нормальной (т.е. если функция распределения этих величин не принадлежит совместному нормальному распределению), то коэффициент корреляции может принимать значения, близкие или даже равные нулю в тех случаях, когда х и у зависимы». В [1] показаны рисунки, когда при явно зависимых переменных коэффициент корреляции близок к нулю, в [3] описан случай,

когда зависимость величин ^ 2, где - нормально распределенная случайная величина с нулевым МО, не вызывает сомнений, однако их корреляционный момент равен нулю. По нашему мнению, первые две ситуации возникают вследствие наличия между исходными величинами помимо корреляционной еще и функциональной связи или их связи с третьей неизвестной величиной. Поэтому в данных случаях необходимо сначала найти эту зависимость (например, с помощью метода наименьших квадратов), а потом между функционально независимыми величинами искать корреляционную связь. Ситуация, описанная в третьем примере, возникла вследствие равенства МО величины 2 нулю, и естественно при возведении 2 в квадрат корреляционный момент стал равен нулю. При искусственном изменении МО величины 2 , что не влияет на точность расчета коэффициента корреляции, такой результат возникнуть не может, и коэффициент корреляции между

и будет равен 1.

При малом числе наблюдений (п = 2...30 с усреднением 1 • 106 раз) было проведено исследование точности определения коэффициента корреляции с использованием выражений (1), (2) и (5). Коэффициент ранговой корреляции т Кендалла для малых выборок рассмотрен не был, поскольку исследования показали его большую систематическую погрешность по сравнению с коэффициентом р Спирмена.

Рассмотрим случай, когда исходные величины распределены по нормальному закону, т.е. когда выражения (1) и (2) идентичны. Исследования показали, что при расчете коэффициента корреляции при малом числе наблюдений по формуле (1) для коррекции результата целесообразнее использование выражение

*

г = г

1 +

1 - г2 2 (п -1)

(7)

вместо выражения

*

г = г

1 +

1 - г2

2 (п - 3)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

, приведенного в [4].

0,2 0,4 0,6

0,8 г* 30 п'

0,8

0,6 0,4 0,2

0 0,2 0 4 „ , 10 0,4 0,6 0,8 г* 30 п20

а б

Рис. 2. Поправки к коэффициенту ранговой корреляции р Спирмена (а) и его СКО (б)

1

Для расчета коэффициента ранговой корреляции р Спирмена необходимо вводить поправку, показанную на рис. 2, а, и далее пользоваться выражением (7). СКО коэффициентов корреляции ср , близкие по значениям сг, показаны на рис. 2, б.

Преимуществом данного подхода, когда определяется коэффициент р Спирмена с введением соответствующей поправки, является возможность его применения при полном отсутствии информации о законе распределения исходных величин и наличии грубых погрешностей и промахов. Однако следует отметить, что СКО коэффициентов корреляции при малом числе наблюдений может быть достаточно большим (см.рис.2, б), поэтому у исследователя должна быть возможность проведения повторных наблюдений для последующего усреднения.

Рассмотрим влияние законов распределения исходных величин на точность определения коэффициента корреляции по формуле (1) с использованием (3), (4) и формулы (2). В табл.3 приведены максимальные отклонения полученного с использованием (1) коэффициента корреляции от коэффициента корреляции, полученного для нормально распределенных исходных величин (г из выражения (7)). В табл.4 приведены те же данные для случая использования выражения (2) при расчете коэффициента корреляции.

Таблица 3

Заданный коэф( * шциент корреляции г

Закон 1, закон 2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Равн., равн. 0 0,12 0,26 0,39 0,53 0,66 0,82 0,99 1,18 1,43 2,00

Арксин.,арксин. 0 0,06 0,13 0,19 0,26 0,33 0,41 0,49 0,59 0,72 1,00

Норм., равн. 0 0,02 0,03 0,05 0,07 0,09 0,11 0,12 0,15 0,17 0,22

Норм., арксин. 0 -0,01 -0,01 -0,02 -0,03 -0,04 -0,04 -0,05 -0,06 -0,07 -0,08

Равн., арксин. 0 0,09 0,19 0,28 0,38 0,48 0,59 0,72 0,85 1,03 1,45

Таблица 4

Заданный коэфф * ициент корреляции г

Закон 1, закон 2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Равн., равн. 0 0 -0,01 -0,01 -0,01 -0,02 -0,02 -0,02 -0,01 -0,01 0

Арксин.,арксин. 0 -0,01 -0,02 -0,03 -0,03 -0,04 -0,04 -0,04 -0,03 -0,02 0

Норм., равн. 0 0 0 -0,01 -0,01 -0,01 -0,01 -0,01 -0,02 -0,02 -0,02

Норм., арксин. 0 -0,01 -0,01 -0,01 -0,02 -0,02 -0,03 -0,03 -0,04 -0,04 -0,05

Равн., арксин. 0 -0,01 -0,01 -0,02 -0,02 -0,03 -0,03 -0,03 -0,03 -0,02 -0,01

Сравнение табл. 3 и 4 показывает, что использование выражения (1) с учетом эффективных оценок МО и СКО (3), (4) для разных законов распределения не является адекватным. При этом, как показали проведенные исследования, СКО коэффициента корреляции может возрасти до 3 раз по сравнению с приведенными на рис.2, б. Выражение (2) с достаточной точностью может быть использовано при разных законах распределения исходных величин. СКО коэффициента корреляции при этом не изменяется.

Выводы

Решена важнейшая задача выбора способа расчета коэффициента корреляции между функционально независимыми величинами для случаев большого и малого числа наблюдений.

Для случая большого числа наблюдений возможны два пути получения коэффициента корреляции с необходимой точностью:

1) использование непараметрических коэффициентов ранговой корреляции р Спирмена или т Кендалла с обязательным введением поправок. В этом случае нет необходимости в идентификации закона распределения исходных величин, а также нахождении грубых погрешностей и промахов;

2) использование параметрических (в частности, выборочного) коэффициентов корреляции. Однако в этом случае рекомендуется определить законы распределения исходных величин для того, чтобы установить, насколько возможно смещение результата вычисления коэффициента корреляции, хотя, как показали проведенные исследования, это смещение не является существенным для нормальных, равномерных и арксинусных законов распределения исходных величин, а также их комбинаций. Особое внимание необходимо уделять исключению грубых погрешностей и промахов, поскольку от этого сильно зависит точность определения МО и СКО исходных величин, посредством которых рассчитывают коэффициент корреляции.

Для случая малого числа наблюдений оптимальным является использование выборочного коэффициента корреляции (2) с введением поправки (7). Если же в исходных данных присутствуют грубые погрешности и промахи, исключение которых сильно влияет на объем выборки, следует воспользоваться коэффициентом ранговой корреляции р Спирмена с введением соответствующей поправки.

Научная новизна проведенных исследований заключается в сравнении по точности различных методов (параметрических и непараметрических) определения коэффициента корреляции двух случайных величин и нахождении поправочных коэффициентов, что позволило выработать единый подход к исследованию коррелированных данных. Оптимизирована формула для расчета коэффициента выборочной корреляции при малом числе наблюдений, рассчитаны поправочные коэффициенты для определения коэффициента ранговой корреляции Спирмена для этого случая. Показано, что влияние формы закона распределения исходных величин на точность определения выборочного коэффициента корреляции не настолько сильно, как принято считать.

Практическая значимость полученных результатов состоит в приобретении возможности с одинаковой точностью использовать параметрические и непараметрические методы обработки коррелированных величин в зависимости от условий проведения измерительного эксперимента, количества полученных данных, наличия в результатах эксперимента помех и др. Дальнейшим этапом в развитии этой темы может стать исследование корреляционной связи функционально зависимых величин.

Список литературы: 1. Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров и учащихся втузов. М.: Наука, 1981. 720 с. 2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.416 с. 3. ФрумкинВ.Д., РубичевН.А. Теория вероятностей и статистика в метрологии и измерительной технике. М.: Машиностроение, 1987. 168 с. 4. СтепновМ.Н. Статистические методы обработки результатов механических испытаний: Справочник. М.: Машиностроение, 1985. 232 с. 5. Захаров И.П. Теоретическая метрология. Харьков: ХТУРЭ, 2000.172 с. 6. Захаров И.П. Моделирование коррелированных данных при обработке результатов измерений// Моделювання та шфор-мацшт технологи. 2005. Вип. 33. С. 35-40.

Поступила в редколлегию 11.06.2006

Сафарян Григорий Гагикович, инженер кафедры МИТ ХНУРЭ. Научные интересы: исследование погрешностей вычислительных операций при цифровой обработке сигналов, статистическая обработка результатов измерений. Адрес: Украина, 61166, Харьков, пр. Лени-на,14, тел. 702-1331.

Сергиенко Марина Петровна, канд. техн. наук, с.н.с. кафедры МИТ ХНУРЭ. Научные интересы: метрологическая идентификация многопараметрических средств измерений. Адрес: Украина, 61166, Харьков, пр. Ленина,14, тел. 702-1331.

Аннотация научной статьи по физике, автор научной работы — Сафарян Григорий Гагикович, Сергиенко Марина Петровна

Похожие темы научных работ по физике , автор научной работы — Сафарян Григорий Гагикович, Сергиенко Марина Петровна

Investigation of parametric and nonparametric methods for determining the correlation coefficient of data with abnormal distribution laws