Научная статья на тему 'Замечание о некоторых классических критериях математической статистики'

Замечание о некоторых классических критериях математической статистики Текст научной статьи по специальности «Математика»

CC BY
99
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА / ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / КРИТЕРИИ ЗНАЧИМОСТИ / АСИМПТОТИЧЕСКИЙ АНАЛИЗ / PEARSON CORRELATION COEFFICIENT / PARTIAL CORRELATION / SIGNIfiCANCE CRITERIA / ASYMPTOTICAL ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Лунев Иван Сергеевич, Некруткин Владимир Викторович

В работе изучаются асимптотические свойства стандартного статистического критерия (иногда называемого t-критерием для коэффициента корреляции) для проверки гипотезы о значимости коэффициента корреляции Пирсона между случайными величинами x и y. Несмотря на то, что этот критерий обоснован только при условии гауссовости совместного распределения x и y, он является очень распространенным и включен в большинство статистических пакетов. При этом предположение о гауссовости распределений на практике, как правило, не выполняется, и поэтому возникает задача описания области применимости t-критерия при больших объемах выборки. В работе доказано, что при выполнении некоторых дополнительных условий этот критерий является асимптотически точным, если x и y независимы, в то время как обычной некоррелированности для этого бывает недостаточно. Также построен асимптотически точный и состоятельный критерий в случае, когда независимость отсутствует. Вычислительные эксперименты свидетельствуют о его применимости на практике. Кроме того, эти результаты перенесены с соответствующими изменениями на частный коэффициент корреляции.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A remark on certain classical criteria of mathematical statistics

The paper is devoted to asymptotical features of the standard statistical test for the significance of Pearson correlation between random variables x and y. Although this test (sometimes called t-test for the correlation coefficient) is only justified if the distribution of (x, y) is Gaussian, it is very widespread and is included in many statistical packages. However, in practice the Gaussian assumption usually fails. Thus, it is worth to describe the area of the correct application of t-test for big sample sizes. It is proven that under certain additional conditions, this test is asymptotically precise if x and y are independent, while the simple lack of correlation is not sufficient for such a feature. Also, the general asymptotically precise and consistent test for the significance of correlation coefficient is proposed. Computational experiments show that this test can be successfully applied in practice. Under modifications these results are transferred to the partial correlation coefficient.

Текст научной работы на тему «Замечание о некоторых классических критериях математической статистики»

УДК 519.234.3 Вестник СПбГУ. Математика. Механика. Астрономия. 2019. Т. 6 (64). Вып. 2 MSC 62G10, 62G20

Замечание о некоторых классических критериях математической статистики

И. С. Лунев, В. В. Некруткин

Санкт-Петербургский государственный университет,

Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

Для цитирования: Лунев И. С., Некруткин В. В. Замечание о некоторых классических критериях математической статистики // Вестник Санкт-Петербургского университета. Математика. Механика. Астрономия. 2019. Т. 6(64). Вып. 2. С. 221-231. https://doi.org/10.21638/11701/spbu01.2019.204

В работе изучаются асимптотические свойства стандартного статистического критерия (иногда называемого t-критерием для коэффициента корреляции) для проверки гипотезы о значимости коэффициента корреляции Пирсона между случайными величинами x и y. Несмотря на то, что этот критерий обоснован только при условии гауссовости совместного распределения x и y, он является очень распространенным и включен в большинство статистических пакетов. При этом предположение о гауссо-вости распределений на практике, как правило, не выполняется, и поэтому возникает задача описания области применимости t-критерия при больших объемах выборки. В работе доказано, что при выполнении некоторых дополнительных условий этот критерий является асимптотически точным, если x и y независимы, в то время как обычной некоррелированности для этого бывает недостаточно. Также построен асимптотически точный и состоятельный критерий в случае, когда независимость отсутствует. Вычислительные эксперименты свидетельствуют о его применимости на практике. Кроме того, эти результаты перенесены с соответствующими изменениями на частный коэффициент корреляции.

Ключевые слова : коэффициент корреляции Пирсона, частный коэффициент корреляции, критерии значимости, асимптотический анализ.

1. Введение. Хорошо известно, что некоторые классические критерии математической статистики основаны на предположении о гауссовости исходных распределений. Часто эти критерии восходят к результатам сэра Рональда Фишера, полученным еще в первой четверти прошлого столетия (см., например, [1]).

Такого рода процедуры обычно опираются на точные распределения соответствующих статистик. Конечно, на практике предположение о гауссовости выборок, как правило, не выполняется, и распределения этих статистик могут быть совершенно другими.

Тем не менее, во многих статистических пакетах (например, Statistica, R или SAS, из отечественных пакетов можно упомянуть STADIA, см. [2]) представлены именно эти классические критерии, и часто никаких альтернативных процедур не предусмотрено.

В связи с этим возникает вопрос об условиях применимости классических статистических критериев в том случае, когда выборки не являются гауссовскими. Кроме того, если эти условия не выполняются, желательно иметь альтернативный критерий для проверки соответствующей гипотезы.

(¡5 Санкт-Петербургский государственный университет, 2019

В настоящей работе эти задачи решаются для двух распространенных на практике критериев. А именно, рассматриваются гипотезы о равенстве нулю коэффициента корреляции Пирсона и частного коэффициента корреляции. Для обеих гипотез есть общеупотребительные классические критерии (они описаны в разделах 2 и 3), обоснованные в случае выборок из невырожденных гауссовских распределений, для краткости они в дальнейшем будут называться соответственно ЖсоТТ- и ^соТТ-критериями.

Во втором разделе работы (см. предложение 1 и замечание 1) показано, что при выполнении некоторых условий (их обсуждению посвящено замечание 3) Nсотт критерий является асимптотически точным, если рассматриваемые случайные величины являются не просто некоррелированными, но и независимыми.

Кроме того, в предложении 2 и замечании 2 приводятся достаточно универсальные асимптотически точные и состоятельные критерии проверки равенства нулю коэффициента корреляции, не требующие предположения о гауссовости выборки.

В разделе 4 помещены некоторые результаты численных экспериментов, подтверждающие практическую значимость полученных результатов.

Заметим, что нас интересует только случай р = 0 (проверяется именно эта гипотеза, а вопросы, связанные с ошибками второго рода рассматриваются только в самом общем виде — является ли критерий состоятельным или нет, см. предложение 2 и замечание 2). Поэтому мы опускаем обсуждение особенностей, связанных с оцениванием ненулевых коэффициентов корреляции (и проверкой соответствующих гипотез). В частности, здесь не рассматриваются вопросы применения так называемого ^-преобразования Фишера (см., например, [3, §69]), являющегося методом «стабилизации дисперсии» при р = 0 для гауссовских выборок.

Проверке гипотезы о равенстве нулю частного коэффициента корреляции рху | 2 между двумя случайными величинами х и у при исключении влияния третьей величины г посвящен раздел 3 работы. Поскольку рх у | х есть ничто иное, как обычный коэффициент корреляции между остатками линейных регрессий х на г и у на г, то все результаты о коэффициенте корреляции Пирсона переносятся с соответствующими изменениями и на этот случай.

2. Коэффициент корреляции Пирсона. 2.1. Асимптотические свойства МсоТТ-критерия. Пусть случайный вектор (х, у)т обладает непрерывными распределениями координат, причем дисперсии а'Х = Бх и = Бу предполагаются конечными.

Рассмотрим п независимых копий (х1, У1)т,..., (хп, уп)т этого вектора и будем проверять нулевую гипотезу

Но : рх,у = 0, (1)

где рх,у — коэффициент корреляции между х и у.

Если вектор (х, у)т имеет невырожденное двумерное гауссовское распределение, критерий для проверки гипотезы (1) хорошо известен. А именно, имеет место следующее утверждение (см., например, [3, §67] или [4, следств. 5.1.2]).

Теорема 1. Пусть (х1, у1)т,..., (хп, уп)т — независимые случайные одинаково 'распределенные гауссовские векторы, причем рх,у = 0. Положим

^п = \fri--2 —г=== , (2)

V1 - рп

где рп — выборочный коэффициент корреляции

- _ ЕГ=1(^ ~Х)Ы ~У)/п

Рп-Рх'У- 1п{х)-зп{у) ' ^

а ~И„(х) и в„(у) — выборочные стандарты. Тогда случайная величина ип имеет распределение Стьюдента с п — 2 степенями свободы.

Определение 1. Благодаря утверждению теоремы 1 получаем критерий с уровнем значимости а, который отвергает нулевую гипотезу, если |^п| > Тп-2,1-а/2, где Тт,7 — 7-квантиль распределения Стьюдента с т степенями свободы. Для краткости назовем этот критерий Nсогг-критерием.

Перейдем теперь к негауссовскому случаю. Основным утверждением, на которое опирается все дальнейшее повествование, является следующий факт.

Теорема 2. Рассмотрим п независимых копий (х1, у1)т,..., (хп, уп)Т случайного вектора (х, у)Т, причем предположим, что распределения х и у непрерывны и что их четвертые моменты конечны. Обозначим р = рх,у и

ар = Б (р (х^ + у,2) — 2х*уФ) /4, (4)

где хФ = (х — Ех)/ах, у* = (у — Еу)/ау. Тогда при п ^ <х

(5)

где рп — выборочный коэффициент корреляции (3).

Доказательство теоремы 2 можно найти в [5, теор. 8], оно основано на применении так называемого «дельта-метода» (см., например, [6, теор. 5.4.6] или [7, теор. 1.12]). Конечно, если р = 0, то предельная дисперсия (4) имеет вид

ар :=Б(хФуФ). (6)

Следующее утверждение посвящено условиям, при которых ^огг-критерий являлся асимптотически точным для проверки нулевой гипотезы (1), то есть когда вероятность ошибки первого рода критерия стремится к заданному значению а.

Предложение 1. Пусть выполнены условия теоремы 2. Тогда для того, чтобы Ncorr-критерий являлся асимптотически точным для проверки гипотезы (1), необходимо и достаточно, чтобы ар = 1.

Доказательство. Согласно теореме 2, СНо(\/прп) =>■ N(0, ад), поэтому распределение статистики определенной в (2), имеет такой же слабый предел. Осталось заметить, что квантили распределения Стьюдента с п степенями свободы сходятся к квантилям распределения N(0,1) при п —)■ оо. □

Замечание 1. В частности, если в условиях теоремы 2 случайные величины х и у независимы, то ^огг-критерий будем асимптотически точным.

Этим фактом можно объяснить популярность ^огг-критерия на практике. Так как, проверяя гипотезу о равенстве нулю коэффициента корреляции, пользователи обычно имеют в виду предварительную проверку независимости рассматриваемых

случайных величин, то при достаточно больших объемах выборки классический ЖсоТТ-критерий может служить для проверки именно этой гипотезы.

Вычислительные эксперименты (результаты некоторых из них помещены в раздел 4, см. рис. 1, а и б) в целом подтверждают эти рассуждения: объемы выборок, для которых вероятность ошибок первого рода достаточно близка в уровню значимости, оказываются для ЖсоТТ-критерия вполне реалистичными.

Следует отметить, что ЖсОТТ-критерий не будет состоятельным, если в качестве альтернативы рассматривать зависимость случайных величин х и у. Действительно, пусть распределение вектора (х, у)т обладает круговой симметрией, а для полярного радиуса г = \/х1 + у2 выполнены условия Ег2 > 0 и Ег4 < оо. Тогда рХ}У = 0 и, как нетрудно показать, а"Х = 0.5Ег4/(ЕгХ)Х. Таким образом, для любой положительной случайной величины гХ, удовлетворяющей условию Ег4 = 2(ЕгХ)Х, имеет место равенство <тх = 1. Примером может служить случайная величина г2, равномерно распределенная на множестве {1, 2, 6 + л/39}, для которой х и у некоррелированы, но зависимы.

2.2. Асимптотический критерий для негауссовских выборок. Как и

прежде, мы будем предполагать выполнение условий теоремы 2.

Будем по-прежнему рассматривать нулевую гипотезу Но : р = 0, а в качестве альтернативы Нр возьмем любое распределение, удовлетворяющее условиям теоремы 2, для которого 0 < |р| < 1. Задача состоит в построении асимптотически точного и состоятельного критерия для проверки гипотезы Но против альтернативы Нр.

Определение 2. Пусть для оценки аХ = аХ (п) асимптотической дисперсии аХ, определенной в (6), равенство Рн0 (аХ > 0) = 1 выполняется для любого достаточно большого п. Положим рп = \/прп/а. Наконец при а £ (0,1) введем а2-критерий, который отвергает нулевую гипотезу, если > С!_а/х, где С7 — 7-квантиль стандартного нормального распределения.

Предложение 2. 1. Если

л2 РНо Х /гт\

а ^ а0 при п ^ то, (7)

то аХ -критерий является асимптотически точным для проверки нулевой гипотезы.

2. Если Рнр (аХ > 0) = 1 и существует такое М, что Рнр (аХ < М) ^ 1 при п ^ то, то аХ-критерий является состоятельным против альтернативы Нр.

Доказательство. 1. Ввиду результата теоремы 2 асимптотическая точность критерия не требует специального доказательства.

2. Возьмем 6 > 0 и рассмотрим случай р > 0 (для отрицательных значений р все аналогично). Обозначив Вп событие {аХ < М}, получим, что

Рнр(Ы>$)>рнр(—(рп-р) < ~5а+^р, Вп) + Р\ар ар )

+ Ряр (^{Рп ~Р)< -6а + ^р, Всп) = Мп) + Мп). р V ап ап )

Далее будем иметь 72(п) < РНр (Вп) — 0 и

Мп) >РНр(^(Рп-р) < -6уГм+&р\

Р\ар ар /

что стремится к 1 ввиду теоремы 2. Утверждение доказано. □

Обсудим варианты выбора статистики а2. Если взять в качестве а2 оценку

А «о

- -I \ \ \ п V — / / ~ п V — / п / I /

г=1 \ \ 4 ^ ^ / \ > /у ^ ^ у /

которая является выборочным аналогом правой части (4), то все условия предложения 2 будут выполнены.

Поскольку статистика (8) является состоятельной оценкой предельной дисперсии а2 как при выполнении нулевой гипотезы, так и для альтернативы, то ее можно использовать не только для проверки гипотезы Но, но и при построении доверительных интервалов для неизвестного значения р. Нас, однако, интересует только случай р = 0, поэтому оценку (8) можно упростить. Возьмем в качестве а2 статистику

-2 ,= ЕГ=1<>^ -У? ^

0 ' пв2(ж)в2(у)

Поскольку при выполнении нулевой гипотезы аа02 является выборочным анало-

20 0,

гом а02, то сходимость (7) выполнена автоматически. Более того, для любой альтер-

РН

условий второго пункта предложения 2.

нативы Нр имеет место сходимость а2 —'р Енрх2у2, что обеспечивает выполнение

Определение 3. Назовем Осогг-критерием а-критерий с а2 = , а Мсогг-

2 2 р

критерием — а-критерий с а2 = о^ .

Замечание 2. Таким образом, и Осогг-критерий с оценкой предельной дисперсии (8), и Мсогг-критерий с оценкой (9) являются асимптотически точными и состоятельными для проверки гипотезы о значимости коэффициента корреляции.

Использование статистики (9), однако, представляется более предпочтительным, так как она при выполнении нулевой гипотезы выглядит «менее случайной».

Численное моделирование (см. рис. 1, в и г в разделе 4) это подтверждает: во всех проведенных экспериментах оказалось, что для достижения приемлемой близости вероятности ошибки первого рода к заданной величине уровня критерия а Мсогг-критерий требует в несколько раз меньшие объемы выборок, чем Ссогг-критерий.

3. Частный коэффициент корреляции. Пусть у случайных величин х, у и г есть конечные вторые моменты и ненулевые дисперсии аХ, а2 и а2, причем |рх,21 = 1 и |ру,г| = 1. Рассмотрим остатки

£1 = X - Ех - рх^ — (г - Ег), е2 = у - Еу - ^-(г - Ег) (10)

2

наилучших (в смысле среднеквадратического отклонения) линейных аппроксимаций случайных величин x и y с помощью случайной величины z.

Коэффициент корреляции р£1 ,£2 между этими остатками называется частным коэффициентом корреляции между x и y при исключении влияния z и обозначается Рх,у | z. Прямые вычисления показывают, что

Рх,у — px,z py,z /11\

Px,y\z- / / U-LJ

1 - px,z \/ 1 - py,z

Ситуация, когда рх,у = 0, а рху | г =0, обычно интерпретируется таким образом, что наблюдаемая зависимость между х и у объясняется исключительно их зависимостью от г. Отсюда возникает задача проверки гипотезы о том, что рх,у | 2 =0.

Так как рху | 2 является коэффициентом корреляции Пирсона для регрессионных остатков (10), то все основные утверждения раздела 2 переносятся и на этот случай. Кратко остановимся на соответствующих результатах.

Если (хх, ух, ..., (хп,уп,гп)т —независимые копии случайного вектора (х, у, г)т, имеющего невырожденное гауссовское распределение, то критерий для проверки такой гипотезы снова хорошо известен. Для этой цели рассматривается статистика

/Зп = Vn - 3 pXiV zj yj 1 - pl y i г , (12)

где px y | z — выборочный коэффициент частной корреляции:

_ Рх,у ~ Px,zPy,z Пч^

Px,y\z — !- !- • I1»5,)

V 1 - Рx,z \J 1 - Py,z

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поскольку статистика (12) при выполнении нулевой гипотезы Ho : px y | z = 0 имеет распределение Стьюдента с (n-3) степенями свободы (см., например, [3, § 68]), то критерий для проверки гипотезы Ho строится совершенно аналогично критерию Ncorr (см. определение 1). Для удобства назовем этот критерий Npcorr-критерием. В общем случае имеет место следующий аналог теоремы 2.

Теорема 3. Пусть (xi, yi, zi)T,..., (xn, yn, zn)T — независимые копии случайного вектора (x, y, z)T, причем предположим, что распределения x, y и z непрерывны, четвертые моменты x, y и z конечны, а px z = 1, py z = 1. Обозначим x*, y* и z* результат центрирования и нормировки x, y и z. Кроме того, положим

x* px , zz* y* Py, zz*

— у 7 V ф — .

1 - px, z у1 - рУ , z

Тогда C(^/n{px y z - px y z)) => N(0, ст2^ | J при n -> oo, где коэффициент pX}V\z определен в (13), а

a2xylz = D (pu,v (m*2 + v*2) - 2w*v*) /4. (14)

Доказательство. Так как x*, y* и z* центрированы и нормированы, то

Px,y | z = p(x* px,z z*, y* Py,z z*) = Eu*v* .

Ссылка на формулу (4) теоремы 2 завершает доказательство. □

Приведем теперь аналог предложения 1.

Предложение 3. Пусть выполнены условия теоремы 3. Для того чтобы ^рсогг-критерий был асимптотически точным для проверки гипотезы рху | 2 = 0, необходимо и достаточно, чтобы В(м*-уФ) = 1. Достаточным условием для этого является независимость регрессионных остатков (10).

Повторяя с естественными изменениями рассуждения раздела 2, построим асимптотический критерий для проверки гипотезы рху | 2 = 0. Пусть рХ,г и ру,г — выборочные коэффициенты корреляции между ж, г и у, г. Кроме того, положим

жг ж ^ гг г уг У гг г

~ _ ~вп(х) Рх'гЦп(г) Л _ 1п{у) Ру'г!п(г) иф — -- 7 V ф —

1 - Р*х,г X1 - Т

х:% \ г у:г

и определим статистики

Х,У |

= ' (16) г=1

где выборочный частный коэффициент корреляции рх у | 2 определен в (13). Далее, рассмотрим статистику т2 такую, что Рн0 (т2 > 0) = 1. Положив

7" \^Рх,у I г/

Г

и взяв а € (0,1), введем т-критерий для проверки гипотезы рх у | 2 = 0 точно так же, как это делалось для коэффициента корреляции Пирсона (см. определение 2).

Предложение 4. Если в условиях теоремы 3 т2 имеет вид (15) или (16), то т-критерий будет асимптотически точным и состоятельным.

Замечание 3. Остановимся на ограничениях, при которых получены результаты настоящей работы. Требование конечности четвертых моментов в теоремах 2 и 3 является естественным, так как оно обеспечивает конечность предельных дисперсий

(4) и (14). Что касается требования непрерывности распределений случайных величин ж и у в теореме 2, а также ж, у и г в теореме 3, то оно не является обязательным и введено только для удобства изложения.

Действительно, если в распределении случайных величин ж или у есть дискретная компонента, то выборочный коэффициент корреляции (3) оказывается для любого п определенным с вероятностью, меньшей 1. Поэтому, например, сходимость

(5) приобретает вид

что влечет за собой соответствующие изменения во всех дальнейших рассуждениях.

и

Более того, и традиционная формулировка теоремы о «дельта-методе», упомянутой в разделе 2, требует коррекции. Все эти изменения не влияют на основные выводы работы, но сильно загромождают ее изложение. Поэтому в статье использованы более сильные ограничения на распределения рассматриваемых случайных величин, делающие все рассуждения значительно прозрачнее.

4. Вычислительные эксперименты. В вычислительных экспериментах при различных объемах выборки и различных совместных распределениях случайных величин х и у с нулевым коэффициентом корреляции р производится сравнение (в смысле близости оценок вероятностей ошибок первого рода а с заданным уровнем значимости а = 0.05) трех критериев: Жсогг-критерия (см. определение 1), а также Ссогг-критерия и Мсогг-критерия (см. определение 3). Число повторностей при оценке вероятности ошибок первого рода выбрано равным N = 105, а моделирование проводилось методом зависимых выборок при п = 50 (50) 1000.

Так как погрешности оценок искомых вероятностей при таком числе повторно-стей не влияют на общие выводы из проведенных экспериментов, то доверительные интервалы для вероятностей ошибок первого рода графически не изображаются.

Общий вывод из всех проведенных (а не только представленных ниже) вычислительных экспериментов может быть сформулирован следующим образом.

Мсогг-критерий, по всей видимости, может быть использован на практике при проверке значимости коэффициента корреляции для объемов выборок, начиная с п порядка 50 ^ 100, если выборки производятся из распределений с компактными носителями, и начиная с п « 100^200, если эти распределения обладают не слишком «тяжелыми хвостами». Такие объемы выборок являются вполне реалистичными для практики.

Аналогичный вывод можно сделать об использовании ^огг-критерия в случае независимости случайных величин х и у.

4-1. Независимые координаты. Здесь представлено сравнение оценок вероятностей ошибок первого рода <3 с уровнем значимости а = 0.05 для описанных выше критериев в случае, когда случайные величины х, у независимы. В этом случае <г2 = 1, и для всех критериев вероятности этих ошибок должны быть близки к уровням значимости при достаточно больших п.

На рис. 1, а и б показаны оценки вероятностей ошибок первого рода для равномерного (как примера распределений с компактным носителем) и показательного (имеющего более «тяжелый» хвост, чем нормальное) распределений для трех описанных выше критериев.

Как и ожидалось, результаты моделирования показывают, что «классический» ^огг-критерий, как и Мсогг-критерий с оценкой предельной дисперсии (9) имеют примерно одинаковые и адекватные результаты при достаточно реалистичных объемах выборок.

В то же время Осогг-критерий с оценкой предельной дисперсии (8) демонстрирует существенное допредельное завышение вероятности ошибок первого рода над заданным уровнем значимости.

4-2. Зависимые, но некоррелированные переменные. Рис. 1, в и г являются иллюстрациями к ситуации, когда случайные величины х, у являются зависимыми, но некоррелированными.

На рис. 1, в показаны результаты сравнения оценок вероятностей ошибок первого рода а с заданным уровнем значимости а = 0.05 для трех описанных выше

а

0.07-0.0& 0.0: 0.040.03-

-О_согт -Мсогг -Ысогг

а

0.100

0.075

0.050

а

0.075

0.050

0.025

0.000

0.125 0.100 0.075 0.050

0.025

100 200 300 400 500 600 700 800 900 1000

согг ^—М согг — N согг

100 200 300 400 500 600 700 800 900 1000

-в согг -М согг -N согг

а

100 200 300 400 500 600 700 800 900 1000

-в согг -М согг -N согг

100 200 300 400 500 600 700 800 900 1000

Рис. 1. Оценки вероятностей ошибок первого рода а для критериев Осогг, Мсогг и Мсогг при а = 0.05 и различных объемах выборки п: а — равномерное распределение, независимость; б — экспоненциальное распределение, независимость; в — равномерное распределение в круге, некоррелированность; г — круговая симметрия, г2 € Сашша(1/2, 1), некоррелированность.

а

п

п

п

п

критериев в случае, когда выборка осуществляется из равномерного распределения в круге.

Здесь а"2 =2/3 = 1 и можно ожидать, что Ncorr-критерий продемонстрирует значительное расхождение между заданным уровнем значимости и вероятностью ошибки первого рода, а Мсогг-критерий с оценкой предельной дисперсии (9) окажется приемлемо точным при умеренно большом объеме выборки.

Моделирование подтверждает эти ожидания, причем для Мсогг-критерия близость вероятности ошибки первого рода к уровню значимости наблюдается во всем диапазоне рассматриваемых объемов выборок.

В примере, представленном на рис. 1, г, считается, что распределение вектора (ж, y)T обладает круговой симметрией, а квадрат полярного радиуса r2 = ж2 + y2 имеет гамма-распределение с параметром формы k = 1/2. Тогда, как нетрудно видеть, а 2 = 1.5.

Результаты в целом аналогичны показанным на рис. 1, в: вероятности ошибок первого рода для Ncorr-критерия сильно отличаются от заданного уровня значимости, в то время как М^^-критерий демонстрирует хорошую точность при относительно небольших объемах выборки.

Отметим, что в обоих экспериментах видна медленная скорость сходимости распределения статистики Gcorr-критерия к предельному нормальному распределению.

5. Заключение. Таким образом, в настоящей работе показано, что общеупотребительный классический критерий проверки значимости коэффициента корреляции, обоснованный в случае выборок из невырожденных гауссовских распределений, является асимптотически точным в случае, когда рассматриваемые случайные величины являются не просто некоррелированными, но и независимыми.

Также представлен достаточно универсальный асимптотически точный и состоятельный М^^-критерий проверки равенства нулю коэффициента корреляции, не требующий этих предположений.

Проведенные вычислительные эксперименты позволяют надеяться, что этот критерий может быть использован на практике при объемах выборок, начиная с n « 50 ^ 100, если выборки производятся из распределений с компактными носителями, и начиная с n « 100 ^ 200, если эти распределения обладают не слишком «тяжелыми хвостами».

Аналогичные результаты получены для частного коэффициента корреляции.

Авторы благодарят обоих анонимных рецензентов, чьи замечания, несомненно, способствовали улучшению нашей работы.

Литература

1. Фишер Р. Статистические методы для исследователей. М.: Госстатиздат, 1958.

2. Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. М.: ИНФРА-M, 2002.

3. ван дер Варден Б. Л. Математическая статистика. M.: ИИЛ, 1960.

4. Muirhead R. J. Aspects of multivariate statistical theory. New York: Wiley-Interscience, 2005.

5. Ferguson T. S. A course in large-sample theory. London: Chapman & Hall, 1996.

6. Lehmann E. L. Elements of large-sample theory. New York: Springer-Verlag, 1999.

7. Shao Ju. Mathematical statistics. New York: Springer-Verlag, 1999.

Статья поступила в редакцию 2 июля 2018 г.;

после доработки 2 декабря 2018 г.; рекомендована в печать 20 декабря 2018 г.

Контактная информация:

Лунев Иван Сергеевич — студент; [email protected]

Некруткин Владимир Викторович — канд. физ.-мат. наук, доц.; [email protected], vnekr@statmod. ru

A remark on certain classical criteria of mathematical statistics

I. S. Lunev, V. V. Nekrutkin

St. Petersburg State University, Universitetskaya nab., 7—9, St. Petersburg, 199034, Russian Federation

For citation: Lunev I. S., Nekrutkin V. V. A remark on certain classical criteria of mathematical statistics. Vestnik of Saint Petersburg University. Mathematics. Mechanics. Astronomy, 2019, vol. 6(64), issue 2, pp. 221-231. https://doi.org/10.21638/11701/spbu01.2019.204 (In Russian)

The paper is devoted to asymptotical features of the standard statistical test for the significance of Pearson correlation between random variables x and y. Although this test (sometimes called t-test for the correlation coefficient) is only justified if the distribution of (x,y) is Gaussian, it is very widespread and is included in many statistical packages. However, in practice the Gaussian assumption usually fails. Thus, it is worth to describe the area of the correct application of t-test for big sample sizes. It is proven that under certain additional conditions, this test is asymptotically precise if x and y are independent, while the simple lack of correlation is not sufficient for such a feature. Also, the general asymptotically precise and consistent test for the significance of correlation coefficient is proposed. Computational experiments show that this test can be successfully applied in practice. Under modifications these results are transferred to the partial correlation coefficient.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Keywords: Pearson correlation coefficient, partial correlation, significance criteria, asymptotical analysis.

References

1. Fisher R., Statisitcal methods for research workers (5th ed., Edinburgh, Oliver & Boyd, 1934).

2. Tyurin Yu.N., Makarov A. A., Data analisys on a computer (INFRA-M Publ., Moscow, 2002). (In Russian)

3. van der Waerden B.L., Mathematical statistics (Springer-Verlag, New York, 1969).

4. Muirhead R. J., Aspects of multivariate statistical theory (Wiley-Interscience, New York, 2005).

5. Ferguson T.S., A course in large-sample theory (Chapman & Hall, London, 1996).

6. Lehmann E. L., Elements of large-sample theory (Springer-Verlag, New York, 1999).

7. Shao Ju., Mathematical statistics (Springer-Verlag, New York, 1999).

Received: July 2, 2018 Revised: December 2, 2018 Accepted: December 20, 2018

Author's information:

Ivan S. Lunev — [email protected]

Vladimir V. Nekrutkin — [email protected], [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.