Научная статья на тему 'Проверка гипотез об однородности и симметричности распределений для многомерных данных'

Проверка гипотез об однородности и симметричности распределений для многомерных данных Текст научной статьи по специальности «Математика»

CC BY
952
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
проверка непараметрических гипотез для многомерных данных / testing non-parametrical hypotheses for multivariate data

Аннотация научной статьи по математике, автор научной работы — Бакиров Наиль Кутлужанович

Рассматриваются задачи проверки непараметрических гипотез для многомерных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Testing of non-parametrical hypotheses for multivariate data is considered.

Текст научной работы на тему «Проверка гипотез об однородности и симметричности распределений для многомерных данных»

ISSN 2074-1863 Уфимский математический журнал. Том 1. № 4 (2009). С. 3-23.

УДК 519.234.3

ПРОВЕРКА ГИПОТЕЗ ОБ ОДНОРОДНОСТИ И СИММЕТРИЧНОСТИ РАСПРЕДЕЛЕНИЙ ДЛЯ МНОГОМЕРНЫХ ДАННЫХ

Н.К. БАКИРОВ

Аннотация. Рассматриваются задачи проверки непараметрических гипотез для многомерных данных.

Ключевые слова: проверка непараметрических гипотез для многомерных данных.

1. Введение

В настоящей работе изучаются новые критерии проверки непараметрических гипотез для многомерных данных: об однородности распределений двух случайных векторов и симметричности многомерного распределения. Построенные тестовые статистики имеют простую структуру и инвариантны к линейным преобразованиям данных, после надлежащей нормировки их распределения слабо сходятся при нулевой гипотезе к распределениям типа омега-квадрат. Построенные критерии состоятельны против широкого класса альтернатив при минимальных моментных ограничениях.

2. Проверка симметричности

Пусть X\,X2,...,Xn — повторная выборка с общей функцией распределения (ф.р.) F(х). Для проверки гипотезы о симметричности:

Н0 : 1 — F(х + 0) — F(—х) = 0 для всех x G R1 (1)

в одномерном случае используют известные критерии: w2, Колмогоровского типа, Уотсона-Дарлинга, Хилла-Рао, знаковых статистик и др. [1]. Асимптотические уровни значимости могут быть найдены в предположении, что ф.р. F(х) непрерывна. К сожалению, асимптотическое распределение многомерных аналогов этих статистик зависит от ф.р. F, так что они не являются подобными. Задачи проверки симметричности многомерных распределений рассматривались, в частности, в работах [2]—[10]. В настоящем параграфе мы строим тесты для проверки многомерной симметричности ф.р. с заданным асимптотическим уровнем значимости, инвариантные к линейным преобразованиям данных.

Итак, пусть X1,X2,... ,Xn, — повторная выборка Xk G Rd,X1 ф 0,a.s., E|X1| < то. Мы рассматриваем гипотезы о симметричности распределения выборки с центром в нуле:

H01 : диагональная симметричность или X1 = — X1;

Н02 : сферическая симметричность или X1 = CX1 для всех ортогональных матриц C;

Н0з : эллиптическая симметричность, то есть случайный вектор MX1 сферически симметричен для некоторой положительно определенной матрицы M, а также варианты этих гипотез с неизвестными центрами симметрии.

N.K. Bakirov, Testing homogeneity and symmetry for multivariate data.

© Бакиров Н.К. 2009.

Поступила 01 июня 2009 г.

Все наши построения базируются на использовании эмпирических характеристических функций:

1 п

/пСО = - ^ехр№,хг)}’ (2)

¿=1

где (.,.) — скалярное произведение в Л4. В работах [11]-[12] они были применены для проверки гипотезы о независимости двух многомерных распределений.

§ 1. Диагональная симметричность

Пусть /(¿) — характеристическая функция случайного вектора Х1. Легко видеть, что

Н01 ^ /« = /(—),« € Я ^ 7(/,?) =' / |/(«) - /(-0|М() <Й = 0

JRd

для любой весовой функции ^(¿) такой, что интеграл существует и ^(¿) > 0 почти всюду (п.в.). Мы будем предполагать, что Е|Х11 < то.

Рассмотрим статистику

7(/n, Ы = / |/п(^) - /п(-^)|2^0(^) ^оСО = |^|-1-Й.

</ Rd

Заметим, что |/(¿) — /(—¿)| < Е|Х1||^|, поэтому 7(/, ^0) имеет интегрируемую особенность в нуле. По аналогичным причинам интеграл 7(/п, <^о) существует. Учитывая тождество

[ (1 — ехр{г(£, X)})|£|-4-7 (И = С(¿,7)|Х|7, У7 € (0, 2), (3)

о Rd

где С((,7) — положительная константа, мы можем легко вычислить

(п п

^ |Х + X, | — ^ X — X, |

¿,7=1 ¿,.7 = 1

(интеграл (3) сходится в нулевой точке в смысле главного значения, при необходимости, ввиду симметричности функции вт(£,Х), мы можем в (3) заменить ехр{г(£,Х)} на сов(£,X) и считать несобственный интеграл (3) сходящимся в обычном смысле). Используя формулу 3.241.4 [13] и рассматривая интеграл (3) как повторный, можно показать, что С((, 1) = п/Г (^гг1). Далее, по закону больших чисел для статистик Мизеса [1]

7(/п, Ы —^ 2С((, 1) (ЕX + X2| — Е|Xl — X2|) =

п—

= 2Сїм |/(і) - /(-)|2^о(і) ¿і. (4)

JRd

р

Так что, для всех альтернатив к гипотезе Н01 мы имеем 7(/п, <^о) —* ^.

Аналогично

П—»СЮ

р П

= 2 (1 - /п(2і))^о(і) = 4С(Й, 1)п-1 V X

</ Rd

-А 4С(¿, 1)ЕX!! = 2 / (1 — /(2())роМ * = с(/).

п—~ JRd

Заметим, что С(/) = 0, если X1 ф 0 п.в. Рассмотрим теперь асимптотическое поведение статистики 7(/п, <^о) при нулевой гипотезе Н01. Обозначим

£пС0 = ^п (Ш — /п(—¿)).

Нетрудно вычислить, что при Н01, Уі, в

ЕС«(і) = 0, Е£пС0£п(в) =2(/(і - в) - /(і +в)). (5)

Конечномерные распределения случайного процесса (сл.пр.) Сп(і) сходятся при п ^ то к конечномерным распределениям гауссовского (сл.пр.) С(і) с моментами (5) в силу многомерной центральной предельной теоремеы (ЦПТ). Из (5) следует, что

Е |С«(і) — Сга(в)|2 = Е |С(і) — С(в)|2 = 4(1 — / (і — в)) +

+2(2/(і + в) — /(2і) — /(2в)) < 8|і — в|Е|Хі|. (6)

Поэтому [14], гауссовский (сл.пр.) С (і) имеет модификацию с непрерывными траекториями. С другой стороны,

Е|Сп(і)|2 = Е|С(і)|2 = 2(1 — /(2і)) < 4шіп(1, |і|Е|Хі|). (7)

Следовательно, і Е|С(і)|2^0(і) Йі < то, поэтому по теореме Фубини мы можем определить Q = fRd |С(і)|2^0(і) Йі (для непрерывной модификации С (і)) как римановский интеграл.

Обозначим А1 = {і : |і| < є},А2 = {і : |і| > 1/є},А3 = {і : є < |і| < 1/є}. Применяя (7),

мы можем записать

(|Сп(і)|2 + |С(і)|2)^0(і) Йі < 8 ! <^0(і) Йі = 8^є, (8)

2 |*|>1/є

где — площадь единичной сферы в Лгі. С другой стороны, используя (7), запишем

Е^ (|С«(і)|2 + |С(і)|2)^0(і) Йі = ^У (1 — /(2і))^0(і) Йі =

1

= 4Е|Х^$, $ = J (1 — ео8 2і1)^0(і) Йі,

|*|<є|Хі|

здесь і = (і1, і2,... , і^) и мы использовали замену переменных. Очевидно, 0 < $ < 2С(Й, 1) и $ 0, если є ^ 0. Итак, по теореме Лебега об ограниченной сходимости

4Е |Х1|$ —► 0. (9)

є^0

Далее, для любого разбиения Дк, к = 1, 2,... , N множества А3 (шах &аш Дк = т) и ік Є Дк

к

имеем

/ |С«(і)|2^0(і) Йі = V |Сп(ік)|2 / ^0(і) Йі + «1, (10)

А3 к=1

где в силу (6),(7)

N г

ъга(^) |2 — |С«^ ^'2|

ЕЫ<^ / Е||Ш|2 — |€п(*к)|2|Ы*) * <

*¡=1 ^А* < 8 (тЕ^(¿) й -^ 0.

4 ' и Аз т—0

Представление, аналогичное (10), справедливо и для случайной величины (сл.в.) /Аз Ш|2Ы^(*. Далее, в силу сходимости конечномерных распределений сл.пр. £п(£) к конечномерным распределениям сл.пр. £(¿) имеем, что N N

^ |£п(^)|2 / ^0(:0 ^ ^ |£(^)|2 / ^оС0 (11)

, А ~ / А

к=1 •/Ак к=1 •/Ак

Объединяя теперь (8)—(11), получаем

Q = l£(t)lVo(t) dt = D - lim / |£n(t)|Vo(t) dt,

JRd JRd

Q = D - lim Qn, Qn = ^ |£(tfc)|2 / ^o(i) dt (12)

r—0 fc=i •'Afc

для некоторого разбиения Ak множества A3 с т —> 0. Поэтому, в частности, сл.в. Q есть

£—>0

слабый предел квадратичных форм Qn от центрированных гауссовских сл.в. и, следовательно, мы можем применить неравенство из [15]:

р \ Q ^ (^-1/1 а-

> (ф-1(1 - а)) \ < a, Va < 0.21515.

EQ V 4 2'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Определим тестовую статистику равенством

T = j I lXi + 1 — ^j = 1 lXi — X I = nJ (f»,yo)

n = 2 Ei=, X = G(fn) ■

Выше было показано, что при любой альтернативе

Tn p

-----> const > 0,

n n—

а при нулевой гипотезе H01

Tn —^ Q,

n—^

где Q есть слабый предел квадратичных форм от центрированных гауссовских сл.в., EQ = 1.

Таким образом, справедлива следующая теорема.

Теорема 1.Критерий, отвергающий гипотезу H01, при

Tn > л, л= (ф-‘(1 — 2))2 (13)

состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем a, Va — 0.21515________________________________________________________

Рассмотрим теперь асимптотическое поведение мощности в«. критерия (13). Запишем

1 — ^n = P{Tn — Л} = P{Un — EUn > v + (1 — Л)-------- X}, (14)

n — 1

где

2 1 n Un = n(n_ 1) S(|Xi — Xj 1 — |Xi + Xj l) ,X = |Xi |,

( ) i<j i=1

v = —EUn = E (|X1 + X2I — |X1 — X2I) , заметим, что v > 0 при альтернативах и в случае P{|X1| = 0} > 0 мы определяем мощ-

ность en как правую часть (14).

Пусть выполнено условие

C1) VH > 0 : Eexp{H|X1|2} < то,

тогда по экспоненциальному неравенству Чебышева

р /2(1 — Л)* > 4=) < р/Т |Xk|> (n — 1)^nv 1 <

I n — 1 VSJ < Ifci1 2(1+ Л) j-

< exp { — (n2—1+’ЛПV } (Eexp{|X,|})n - e-Cn^ (15)

для некоторой положительной константы С. С другой стороны, при условии С1) по теореме о больших уклонениях Р. Дасгупты для невырожденных и-статистик (см. теорему 1.6.4. в [1]) для любой последовательности 7„ —> 0

¡П

n—>оо

lim -lnP{Un - EUn >v + Yn} = «(тр), (16)

n n \2a/

где a2 = D^,^ = |Xi + X2I - |Xi - X2I,

u(x) = lninf(e-inEei(v-^).

t>0

Объединяя (15) и (16), получаем

Предложение 1. Для всех альтернатив, удовлетворяющих C1)

lim -ln(1 - en) = и{^] . n >^0 n V2a/

Заметим, что -2u(2^) есть показатель Ходжеса-Лемана критерия (13) и

2

/ V ч V2 7 чч

u(2a ) = - 805 (1 +o(1))-

когда V ^ 0, a > const > 0 (см. [1], § 1.2).

Замечание 1. Определим коэффициент диагональной симметричности как:

спл л /г Tn Sij=1 |X + Xj 1 - Sij=1 |X. - Xj 1

SYM = — = — ----------------—-------—^----------.

n 2n ^i=1 |X.|

Ясно, что 0 < SYM < 1 и SYM = 1 тогда и только тогда, когда сл.в. X = const = 0, Vi. Некоторые из его свойств даны в (4), теореме 1 и предложении 1. Заметим, что коэффициент SYM инвариантен к ортогональным преобразованиям данных и изменению масштаба.

Замечание 2. Если требование E|X1| < то для нулевой гипотезы и альтернатив не выполнено, то тогда можно заметить, что гипотезы H01 и H02 эквивалентны аналогичным гипотезам с повторной выборкой Y1, Y2,... , 1^, где Yk = Xk|Xk|-1 arctan |Xk|, k = 1, 2,... , n, (если сл.в. X1 не имеет моментов) или Yk = Xk|Xk|Y-1 (если мы знаем, что E|X1|Y < то). Заметим, что в первом случае соответствующее значение Tn не инвариантно к изменению масштаба.

Замечание 3. Наши рассуждения остаются справедливыми и для коэффициента

Т, = S„=1|X. + X г - S,,=1|X. - j (0 2)

n 2 Е.=1 |x.|y ’ Y fc ( ’ '■

Выясним теперь вопрос: "которое y лучше?" в некотором специальном случае и в некотором специальном смысле. А именно, рассмотрим локальную (v ^ 0) эффективность по

Ходжесу-Леману, сдвиговые альтернативы с X1 = N(в, E), где в = EX1 — параметр сдвига, E — единичная матрица. Заметим, что сл.в. |X1 -в|2 имеет распределение с d-степенями свободы. Можно подсчитать, что в данном случае при |в| ^ 0 показатель Ходжеса-Лемана есть

V2

— = |0|4G(y )(1 + o(1)),

где

1

V2 /г(d)г(d + V) ■

с<7) = Г2( ■+-) - 1

Ниже мы доказываем, что С<7) возрастает по 7 при 7 Е <0,1] так, что ответ такой: чем больше 7, тем лучше.

Лемма 1. С'<7) > 0, У7 € <0,1], У5.

Доказательство. Это неравенство эквивалентно следующему:

і Г2(п + х) ^ / Г'(п + 2х) Г'(п + х) \ .17.

- Г(п)Г(п + 2х) - Н Г(п + 2х) - Г(п + х) У , ( )

где п = й/2,х = 7/2. Известна следующая формула [16]:

Ф(1 + -) = = -Со + Ё -^--т, (18)

1(1 + -) ' — (— + -)

4 7 т=1

где СО — абсолютная константа. Теперь (17) может быть переписано как

лп+ж /*п+2ж

1 — ехр{ / Ф(-) й- — / Ф(-) й-} — х (Ф(п + 2х) — Ф(п + х)),

«/п ^ п+ж

или в силу (18) для V = — + п + х — 1

~ / х2 \ ~ 1 1 — П (1 — ^ ) — х2 Ё , , ч. (19)

V V2 I ^ ^(^ + х)

т=1 4 7 т=1 4 7

Применяя здесь неравенство (1 — а) < 1 — ^ а + аа? для а — 0, мы видим, что

(19) верно, если

^ 1 /те1\ 2

Ё v2(v + х) + 2 Ё V4 — 2 (Ё V2) . (20)

т=1 4 ' т=1 \т=1 /

Далее, оценивая суммы соответствующими интегралами, мы можем записать, что

СЮ

1 1 Г й-

V2 (V + х) (п + х)2 (п + 2х)

т=1

V2 (V + х) (п + х)2 (п + 2х) ,/п+ж+1 - 2(- + х)

<п + ж)2<п + 2ж) 2<п + ж + 1)2 3<п + ж +1)3’

^ 1 > 1 1 1 < 1 1

V4 “ <п + ж)4 3<п + ж + 1)3 ’ V2 “ <п + ж)2 п + ж

т=1 т=1

Применяя эти неравенства, мы можем доказать (20).

Лемма доказана.

Замечание. Аналогично можно показать, что У7 € <1,2) 350 = 50<7) : > 50

С<7) = 8ир{С<5)|5 < 7}.

§ 2. Сферическая симметричность

Гипотеза о сферической симметричности распределения выборки состоит в следующем: Я02 : Х1 = СХ1 для всех ортогональных матриц С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В одномерном случае (5 = 1) Н01 = Н02, поэтому мы предполагаем, что 5 > 2. Как легко видеть,

Я02 f <£) = f <С£), для всех £ Е Л и ортогональных матриц С

Л<Л ^ = 2/^^<£) - ^<сТ£)|2^<£) 5£5х<с) = 0

для любой весовой функции <^<£) такой, что интеграл существует и <^<£) > 0 п.в., здесь Х<С) — нормализованная мера Хаара на множестве ортогональных матриц^ 5%<С) = 1. Пусть

/п(г) = п 1 Ё ехр{г(^,Хк)}, /п(і, С) = п 1 Ё ехр{г(£,СХк)}

Г1

к=1 к=1

— выборочные характеристические функции. Рассмотрим статистику

Л</п,^0) = 1^ J ^!/пСО - /„<£,С)|2^0<£) 5£5х<С) =

п

= С<5,1)п-2 £ мм |х,|) - |х, - х,|),

¿,,= 1

где

1

д<и,'у) = и^~1 [ Vи2 — 2иуж + V2<1 — ж2)^ 5ж, и = 2 и ]

-1

и мы использовали формулу (3) § 1 вместе с равенством: Уа, Ь Е Л^

[ |а - СЬ| 5х<С)= / VI«!2 - 2<а,СЬ) + |Ь|2 5Х'<С) =

= Е/|а|2 - 2|а||Ь|£ + |Ь|2 = g(|а|, |Ь|),

где £ — первая координата случайного вектора равномерно распределенного на единичной сфере в Л^. Заметим, что ^<м,^) < |и| + |^| и

„л. .л .. .. 2^-1 Г<|)Г<|)

^<и,и) .¿|и|, /, 1^ ,

упГ<а - ^)

здесь Г<.) есть гамма-функция и мы использовали формулу: и = 2п^/2/Г<|). Для и = V функция ^<и^) может быть вычислена при помощи формулы 3.665.2 из [13].

По закону больших чисел для статистик Мизеса мы имеем, также как и в § 1,

Л</п,^0) -^ Л</,^). <21)

п—

Далее, при нулевой гипотезе

пЕЛ</п, Ы = С<5,1)Е^<|Х1|, |Х1|) =

n

= P - lim Vn, Vn = C(d, 1)^ V |Xk|. n—n J

fc=1

Окончательно определим тестовую статистику формулой

Q

nR(/„, »*) _ E"j=1 (g(|X.|, |Xj|) - |X. - Xj|)

V- wE-=i X |

Можно показать, как и ранее, что при n ^ то статистика Q. слабо сходится к квадратичной форме от центрированных гауссовских сл.в., EQ = 1. С другой стороны, в силу (21)

1 р

мы имеем для любой альтернативы к гипотезе Н02, что: -Q. —> const > 0.

-

Таким образом, справедлива следующая теорема.

Теорема 2. Критерий, отвергающий гипотезу Н02, при Q. > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем

a, Va < 0.21515....

§ 3. Проверка симметричности с неизвестными центром симметрии

Для неизвестного параметра a = EX1 мы рассматриваем гипотезы:

H01 : Xi - a = -(Xi - a),

Hq2 : Xi — a = C(Xi — a) для всех ортогональных матриц C.

Идея состоит в применении методов §§ 1-2 к центрированным сл.в. - X, к = 1, 2,... , Хп, где X = П ЕП=1 Х& — выборочное среднее. Предположим дополнитель-

n

но, что

12

C2) E|Xi|2 < то, матрица R = Cov(Xi,Xi) невырождена.

С3) IRd |t|2f2(t)^c(t) dt < то.

Рассмотрим подробнее условие C3). Известно равенство (см. [17], гл. 1, § 5, стр. 63)

js е‘('Д) ds = (щ) / IXIJ- (p|X|),

где p — радиус сферы с центром в нуле в Rd, d > 2, Jm(x) — функция Бесселя первого рода m-го порядка. Так что для Z = X1 — X2

|t|2/2(%o(t) dt = / І І /2(t) dt |

fRd Jo \Jsv і У

, \ d/2

= EX (м) lZ|Ji-3(ylZ') 7у! = CoElZl-1

где (см. [13], форм. 6.511, 6.561.14)

Co = (2n)d/2 / y!-d/2 Jd-2 (y) dy = —^ = C(d, 1)(d - 1).

Jo 2 i(~)

Другими словами, условие С3) эквивалентно свойству Е|Х1 — Х2|-1 < то, которое не является неестественным в многомерном случае: й > 1.

Рассмотрим сначала гипотезу о диагональной симметричности. Пусть

- 1 п — —

Я =-У'(ХЛ — X )(Х* — X )т

п

к=1

— выборочная ковариационная матрица и Хі = Я-1/2(Х^ — X) — нормированные выборочные значения.

Обозначим через Дп тестовую статистику:

ЕП,=і(іХ + X | —|Х — X1),

=-----------—----------------------------———----——.

2 ЕП=1 X | + 4 П-1 Еі<, X — х,1-1 — п-г ЕП,=і X — х, |

P

Можно показать, что Дп —> то при всех альтернативах удовлетворяющих С2), С3).

П—

Справедлива следующая теорема.

Теорема 3. При условиях С2),С3) критерий, отвергающий гипотезу НО г, при Дп — Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости.и не более чем а,Уа < 0.21515....

Рассмотрим гипотезу о сферической симметричности. Обозначим

_5 =______________Е",=. [д(Х — Х|, |Х, — Х|) — |Хі — х|]_____________

” л ЕП=, |Хі — X | + ТгЯ 2П-Г) Е<, IX — X, |-г — п-1 ЕП,=, |Хі — X; | ’

где функция д была определена ранее.

Справедлива теорема.

Теорема 4. При условиях С2),С3) критерий, отвергающий гипотезу Н02, при $п — Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а, а 0.21515

§ 4. Эллиптическая симметричность

Пусть выполнено условие С4) Е|Х1|4 < то.

Рассмотрим гипотезу об эллиптической симметричности распределения выборки или эквивалентно:

Н03 : распределение Л-1/2Х1 сферически симметрично, ЕХ1 = 0.

Здесь Л = Сс^<Х^ Х1). Обозначим Л = п Еп=1 Х;Х^, У, = Л?-1/2Х, и

gn(t) = n 1 ^ exp{i(í,yfc)}, g„(í,C) = n 1 ^ exp{¿(í,CYfc)}.

’ 1^exp{i(t,Yk)}, g„(í,C) = n 1 fc=i fc=i

Рассмотрим статистику

Р<^п,^0) = 1^ J^пСО - ^п<£,С)|2^0<£) 5£5Х<С) =

п

= С<5,1)п-2 £ (g(|У|, |У,|) - |У - У,|),

¿,,= 1

где функция д(и^) определена в § 2. Мы анализируем статистику Р<дп, ^0). Также, как и ранее, сделаем только некоторые замечания.

Во-первых, для V; = Л-1/2Х; и А = Л-1/2Л1/2 - Е по формуле Тейлора и закону больших чисел

1 п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-П(д,,М - д„(*, С)) « -р V [е,<‘,1'‘> - е,<‘-сг*> + г((, АУ*У(‘л>-

^ ¡К

- i(t,CAVi)e‘<‘’Cl'*>l |V<‘’Vi> - e‘<‘’Cli»l

J

+

+ <£ —йА/'<£)) - <сТ£ —йА/'<сТ£)).

С другой стороны, для £ = Л? - Л = Л1/2<у - Е)Л1/2, где У = п-1 ^п=1 V»мы имеем в силу С2) асимптотическое равенство Л1/2 = Л1/2 + ¿<£) + о<£),£ ^ 0 для некоторой симметричной матрицы ¿<£) линейной по £. Возводя его в квадрат, получаем £ = Л1/2£<£) + £<£)Л1/2 или

V - Е = Л-1/2Ь<£) + £<£)Л-1/2. <22)

При справедливости Н03 имеем /<£) = д <|£|2/2) для некоторой функции д : Л1 ^ Л1. Далее, так как А = -Л-1/2(Л1/2 - Л1/2) = -Л-1/2Ь<£) + о<£), то мы имеем в силу (22) для любых £ Е Л^

(t^ v/nA//(t)) = (t, v/nAt)g/ (|t|2/2) = —2T(t (^ - E )t)g (|t|2/2) +

+o(í) = o(í) - --= ¿(t, (ViVkT - E)/'(t)).

^П k=1

Это поможет нам проанализировать главную часть разности gn(t) - gn(t, C). Также, как и ранее, мы можем вывести при справедливости H03 и условий C2),C3),C4) что

nP(g„,^o) -^ Q,

n—»СЮ

где Q есть квадратичная форма от центрированных гауссовских сл.в. и для Z = Л 1/2Х1

Е° = 1/Ь |А‘(() - |А2(£)|2Ы«)Л5Х(С),

где

А1<£) = ехр{г<£, Z)} - ехр{г<£, CZ)},

А2<£) = <£, - Е)/'<£)) - (Ст£, - Е)/'(Ст£)).

Рассуждая, как и ранее, получаем

е{! |А1<£)|2^0<£) 5£5х(С) = 2С<5,1)^Е|Z| (23)

и

(*, /'(*)) = |<|У (|*|2/2) , А2(£) = (((, Z)2 - (£ CZ)2)д' (|£|2/2) , Е(А2(())2 = (д')2(2Е(£ Z)4 - 2Е(£ Z)2(£ CZ)2).

Рассмотрим слагаемые в последнем выражении. В силу сферической симметричности ф.р. сл.в. Z = <Zl, Z2,..., Zd)

3 Е<£, Z)4 = |£|4Е<|£|/£, Z)4 = |£|4EZ14 = |£|4Е|Z|4,

здесь последнее равенство выполнено для всех сферически симметричных распределений. С другой стороны,

У"(*,Сг )2 5х(С) = и2х |2Ее2 = 1 |(|2х |2, (24)

где £ есть первая координата случайного вектора, равномерно распределенного на единичной сфере в Л^. Итак,

ЕI(А2(())2 5х(С) = 2(д')2(|£|4Ег? - 1 |«|2Е|г12((, 2)2) = (25)

= 2(£, / '(())2а,Е х |4,

где = 2(5 - 1)5-2<5 + 2)-1. Пусть У есть независимая копия сл.в. Z, обозначим / =1 <£,/'<£))2^0<£) ^ж,уН |ж - У|-3<|ж|2|У|2 - <ж,У)2)

и предположим выполненным условие

С5) Е|Х1|2|Х1 - Х2|-1 < то.

Теперь нам потребуется следующая лемма.

Лемма 2. / = С<5,1)Ev<Z,У).

Доказательство. Нетрудно доказать следующую цепочку равенств:

/ = Е <£, Z)<£, У)ехр{г<£, Z - У)}^0<£) =

JRd

-Е [ —— ]Rd дадв

<1 - ехр{г<£, aZ - вУ)})^0<£)

а=в=1

-Е-*

С<5,1)|^ - вУ| = С<5,1)Ev<Z,У),

а=в=1

дадв

здесь мы использовали формулу (3). Все интегралы понимаются в смысле их главного значения (на бесконечности), Ev<Z,У) < то в силу С5).

Лемма доказана.

Следствие. В силу леммы 4 и (25)

Еу у |Д2(і)|2^о(і) ^Х(С) = 2С(й, 1)^(£,У)Е|£|4. (26)

Можно также показать, что

ЯеЕу у Д і (¿)Д2(¿)^о (¿) йійх(С) = е! /,[ехр{г(*.2)} — ехр{г(і,С2)}]((і,г)2 — («,Сг)2)) (27)

■7 Л + I 2

д' (И2/2) ^оСО ^йх(С)

= 2Е /^ехр{г(*,г)}((*,г)2 - 1 |(|2Х|2)д' (|£|2/2) ^0<*) Л,

здесь мы применили формулу (24). Действуя, как ранее, мы можем преобразовать (27):

Е / )2д' (|£|2/2) <М£) =

JRd

Е ехр{г(^)}(^)(^,/'(^))^о(^) ^ = (28)

JRd

е <г-у >1 да

(1 — ехр{г(і, — У)})^0(і) йі = С(й, У),

а=1

где v1<ж,y) = (ж,у)<|ж|2 - <ж,у))|ж - у| 1. Рассуждая аналогично, получаем

Е / ^рОС^)}|£|2^|2д' (|£|2/2) <М£) =

JRd

= Е|Z|2 /" ехр{г<£, Z)}<í,/'<í))^о<í) = С<5,1^2<^У), (29)

JRd

где = |ж|2((ж,у) - |у|2)|ж - у|-1.

Объединяя (23),(26)-(29) получаем, что при гипотезе Н03 для У, = Л-1/2Х,

Е^ = С(й, 1)Р — Ііт Я„,

п—<^

пп

Я = Я„(Уі,У2,... ,у„) = ^ Ё Іуі1 + 2п?пг—1г Ё-У)| Ё іуі

і=1 і<, і=1

21 —1) Ё(Vl(Уi'Уj} — й г’2<УЛ'Н'

1

ч) _

Окончательно определим тестовую статистику формулой Сп = пР<дп, ^0)/Лп.

Итак, верна следующая теорема.

Теорема 5. Путь выполнены условия С2),С4) и С5). Критерий, отвергающий гипотезу Н03, при Сп > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а, Уа < 0.21515....

Рассмотрим гипотезу:

Я0*3 : распределение Л-1/2(Х1 - 9) сферически симметрично при некотором неизвестном 9 Е Л* _ _ _

Обозначим Л = п Еп=1<Х; - Х)<Х» - Х)т, ^ = Л-1/2(Х, - Х),

С* = п Еп,-=1 (д(|^,|, X |) -^ - ^ |)

Сп Л* ,

Л

К = Д.(2ь Зг,..., Д.) + -27^-г) Е Д - ДI-1 + Ег,з(2„ Д),

-(- — 1) ' -(- — 1) '

к ' г<7 4 7 г<7

гДе ^э(х,У) = ((х,УГ — |У|2)|х — У|-1.

Теорема 6. Пусть выполнены условия С2),С4) и С5). Критерий, отвергающий гипотезу Н03, при С. > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а,Уа < 0.21515....

3. Проверка однородности

Пусть Х1, Х2, . . . Хи и У1, У2, . . . Ут, Хг, У Е Л — две независимые повторные выборки Х1, У[ ф 0,а.5.. Проверка гипотезы Н0 об однородности (совпадении) распределений X-ов и У-ов в случае й =1 традиционно производится на основе критериев типа Колмогорова-Смирнова, и>2, хи-квадрат, Манна-Уитни, Вилкоксона и других. В многомерном случае возникают трудности с определением асимптотических уровней значимости их аналогов, эти аналоги не инвариантны к линейным преобразованиям исходных данных. В настоящем параграфе работы предлагаются алгоритмы проверки однородности распределений двух повторных выборок в различных постановках и изучаются их свойства.

Рассмотрим следующий коэффициент:

С I с

НОМ = Ят>га =1 — -1-1-2, (30)

2—3

где

-.и т и т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-1 = “а Е |Хг — X, |, -2 = -, Е 1У — У I, -3 = — ЕЕ |Хг — У I,

-2 т2 ^ т— ^ ^

г,7=1 г,7=1 г=1 .7=1

здесь |. | — евклидова норма в Л и в случае —3 = 0 (что влечет —1 = —2 = 0) мы полагаем по определению, что Нт,и = 0. Коэффициент (30) может быть представлен через выборочные характеристические функции:

1 и 1 т

/га СО = -EeXPWi,X )}> #m(t) = — EeXP{i(t,Yfc)}

n ^ m

fc=i fc=i

(где (..) — скалярное произведение в Rd), а именно:

|2 dt

jßd |/ra(t) gm(t)| |t|l+d

H m. ч

Ißd (1 - |fn(t)|2 + 1 - |gm(t)|2 + 1 /ra(t) - gm(t)|2) Ifiß+d

Справедлива следующая теорема.

Теорема 7. 1) Пусть E(|X1| + |У1|)1пг(1 + |X1| + |Y1|) < ж, для некоторого 6 > 1, тогда почти, наверное

H = 1im H =, EIX1 - Xl| + E(|Y1 - Yl| .

H = mim« Hm" =1---------------------2Eix -1!-■

2) 0 < H < 1, H =1 X1 = Co = const, Y1 = C1 = const, C0 = C1,

H = 0 выборки X-ов и Y-ов однородны;

3) 0 < Hmn < 1, Hmn = 1 Xj = C0 = const, Yj = C1 = const, C0 = C1, Vi, j, если

m = n, то тогда Hn,n = 0 выборки X-ов и Y-ов совпадают (без учета их порядка),

если m = n, то тогда Hm,n = 0 Xi = Yj, Vi, j;

4) В условиях пункта 1) при справедливости нулевой гипотезы H0 об однородности

X-ов и Y-ов имеет место слабая сходимость распределений:

2mn

D - lim ------- —Hm,ra = Q, EQ = 1,

m + n

где Q — неотрицательная квадратичная форма от центрированных гауссовских случайных величин.

Доказательство. Пункт 1) следует из закона бошьших чисел для одновыборочных и двух-выборочных статистк Мизеса [16, стр. 69, 73]. Второй и третий пункты можно легко доказать, используя интегральное представление для Нтп через выборочные характеристические функции приведенное выше, и, пункт 4) доказывается так же как это делалось выше в §1.

Замечание 1. Для квадратичных форм Q, упомянутых в пункте 4), равномерно по Х1, У-! имеет место неравенство: Р^ > Л} < аУа < 0,21515... , где Л = (Ф-1(1 — |))2, Ф(.) — ф.р. нормальной (0,1) сл.в., Ф-1(.) — обратная функция. Таким образом, критерий, отвергающий гипотезу Н0 об однородности X-ов иУ-ов при

состоятелен против всех альтернатив, удовлетворяющих условиям пункта 1), он имеет асимптотический уровень значимости, равный а, У а < 0,21515 ....

Замечание 2. Задачу проверки гипотезы об однородности распределений одномерных случайных величин Хк, Ук, принимающих конечное число значений, можно свести к проверке однородности распределений выборок:

т + п

(31)

( х(Хк = аі) \ ( х(Ук = «і) \

\ Х(х = «<0 / \ Х(ук = /

здесь х(.) — индикатор соответствующего множества и |аг}^=1 — вероятные значения случайных величин Х&, Ук. Рассуждая, как и ранее, можно получить формулу

к=1 к=1

= Е(Рк - 5к)(Р1 - ®) (ег(*к іі) - ^ ,

к=1

следовательно, числитель Нт,п равен

<И = -^Е(Рк - 5к)(й - 51)

к=1

для некоторой константы г и, с другой стороны,

1 — /п(¿)дт(£) = 1 — Е Рк®^-*г) = 1 — ЕРк— ЕРк®^^

к,1=1 к=1 к=1

= Е Рк ® (1 — ег(*к-*г)), к=1

следовательно знаменатель Нтп равен

ОС _ОР 1 ( 1 — /™(^)дт(^) _ 0 ^ _ г) /т

Й3 = с (<г, 1)/*, |*|«+-1 = г ^Рк 51 = г( к=1

Мы видим, что вклад относительно малых рк, в Нт,п будет относительно мал. В этом

«-> 2шп т т

одно из их отличий т+п Нт,п от хорошо известного варианта статистики хи-квадрат критерия

2тп (Рк — 5к)2

т + п Рк + 9к

к=1

для проверки однородности ([20], стр. 88). Отметим также, что статистика

H _ ЕГ=і(Рк - qk)2

-Л m. n

2 — 2Е Г=1 Рк 5к

применима для проверки однородности, когда случайные величины Хк, Ук изменяются на

счетном множестве значении.

§ 5. Асимптотика функции мощности

Оценим теперь мощность в критерия (31) при увеличении объемов выборок. Пусть m = n,d =1 и выполнено условие Г. Крамера: 3L > 0 : E exp{L(|Xi| + |У!|)} < то. Имеем

1 — в = P{п(25з — Si — S2) < 2SзЛ} < P{(n — Л)(2Sз — Si — S2) <

< 2Лlogn} + P{S1 > log n} + P{S2 > logn}. (32)

Оценим два последних слагаемых. Ясно, что S1 < n ЕГ=1 |Xi| (аналогичное соотношение выполнено для S2), следовательно, в силу экспоненциального неравенства для сумм независимых случайных величин, удовлетворяющих условию Г. Крамера ([18], стр. 81): 3n0 : Vn > no

P{S1 > log n} + P{S2 > log n} < exp{—n\Jlog n}.

Обозначим единым символом C все положительные константы, зависящие только от размерности данных d и моментов E|X1|,E|Y11. Далее, имеем

г dt

C(2S3 — Si — S2) = J ^ |/ra(t) — gn(t)|2 |t|1+d > Д — Sn. (33)

где

Г dt 1 n

Д=/^ I/(i) — g(i)|2. s„ = n £ &. = 0.

& = 2Яе у (g(t) — /(t))(ei(t-X‘> — /(t) — e4«*> + 9(0)

(черта сверх означает комплексное сопряжение). Итак, для некоторой неслучайной последовательности ап —> 0

п

1 — в < ехр{—} + Р{5П > Д(1 + ап)}.

Легко видеть, что

г г№

^(1 — ехр{г(^,Х)}) — = С |Х |.

Интеграл понимается в смысле главного значения

С2/А + &| < С(|Хк| + Е|Хк| + |Ук| + Е|Ук|),

поэтому, в частности, для случайных величин £к условие Г. Крамера выполнено, следовательно ([19], стр. 208)

V = Ишвир 11п(1 — в) < — ^(А) = — 8ир(Дж — 1пЕех?1).

П—— <те П X

В соответствии с общей теорией больших уклонений Л,(Д) < то для достаточно малых А функция Л,(.) неотрицательна, выпукла и Л,(0) = 0 ([19], стр. 204).

Пусть теперь А ^ 0 и т* = вир{т|Е ехр{т|Х1| + т|^^|}} > 0 равномерно для достаточно

малых А, тогда Л-(Д) = (1 + о(1))Д2/(2а2) (см. [19], стр. 204, 208), здесь а2 = Е^.

Рассмотрим далее простые сдвиговые альтернативы Н1 : д(£) = ег0*/(¿), У£. Предположим, что существует плотность распределения р(ж), (соответствующая характеристической функции /(¿)), принадлежащая Ь2(Л1), положительная, абсолютно непрерывная, обладающая ненулевой, конечной фишеровской информацией I и пусть при в ^ 0

/те______________ в21

\/р(ж)р(ж + в) ^Ж ~ ——.

-те 8

Из результатов работы [20](стр. 88) следует, что

е// = 1‘Ш—Т (" II) <11

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

здесь е// — локальная, относительная асимптотическая эффективность критерия (31) по Ходжесу-Леману. Далее, при в ^ 0

/те /*те

|/(¿)|2 ^¿)2 = (2пв2 / р2(ж) ^ж)2,

•те —те

(1 + о(1))а2 = 8в2Е(1т / Г1/(¿)(еЙХ1 — /(¿)) ^)2 = 8п2в2, следовательно, в рассматриваемом случае для критерия (31)

те ^,Л2 (Г (р'<ж))2Аг)—1,

поэтому, например, для гауссовских распределений е// > 2П = 0,47... , для распределения Лапласа: р(ж) = Аехр{ — 2А|ж|}, е// > 0,375 и для логистического:

р(ж) = ех(1 + ех)—2,е// > 0,5. Отметим здесь, что е// = 1 для критериев Колмогорова-Смирнова и и>2, более того, они асимптотически оптимальны по Ходжесу-Леману (см.

[20]).

е// > 6 ( / р (ж) ¿ж ) ( / р(х) ^

§ 6. Проверка внутренней однородности выборки

Рассмотрим задачу проверки гипотезы Н01 о внутренней однородности как таковой выборки из независимых случайных векторов Х0, Х1, Х2,... Хп, Е|Х? | < то, при Н01 распределения Х&-х совпадают. В параметрической постановке она рассматривалась, например, А.Д. Бернштейном (против альтернатив, сближающихся с нулевой гипотезой при п ^ то). Обозначим /(г) характеристические функции случайных векторов Х&. Ясно, что

Н01 /(г) = /г(¿),УМ, г

/0 ж(1 - х) ¡нЛ |/(і,х) - #(і,х)|2, ^гттг ^х

|2 (і*

и(/) Т= ^0 Х(1 х) ЛЯа |/ (0,х) У(0,х)| , |*|

/о/д^(1 - ^е/(І,х)#(І.х). ^х ’

где

1 М 1 п

/<(>х) = т—Т+Г Е /к(і) 9(г,х) =------------і—Г Е Л

!’“] +1 к=0 п - [пх> к=^+1

здесь [.] — целая часть числа, таким образом, и(/) = 0 для всех альтернатив для фиксированного п.

Проверка гипотезы Н01 может быть произведена на основе статистики Нп = и(/п), полученной подстановкой в и(/) вместо /(¿.х) и $(£. х) соответственно их выборочных значений:

1 М 1 п

/п(і,х)^Т ^^ЕЄХР{І(І,Хк)}. #™(^.х) =---------г Г Е ЄХР{і(і,Х)}

ІпхІ + 1 п — ІпхІ '

к=0 к=[гаж]+1

и заменой в и(/п) интегралов на соответствующие интегральные суммы:

П Ей=1 хк(1 — хк)(2^3(Г) — 5*1(к) — 5*2(к))

где

ПЕ 1=1 ад 1 п

= 112 £ X — X|- = , . + .,2 Е |Х — X|.

4 о—П ( + ) » -і — Ь

1 к—1

¿,.7=0 ї,І=к

к—1 п

5з<к) = гт^гт-Т) ееХ — х>|. хк

к(п — к + 1)^^ ’ п

К > г=0

Ясно, что 0 < Нп < 0,5 с вероятностью 1 и что коэффициент Нп инвариантен к изометрическим преобразованиям и изменению масштаба данных, так что он может рассматриваться как мера внутренней однородности выборки. Можно также заметить, что Нп = 0 ^ Х1 = Х2 = ■ ■ ■ = Х„, п.в. При справедливости нулевой гипотезы Н01 можно показать (также, как и в [18], § 1, § 2), что Е — Ншп^те пНп = Ц*,ЕЦ* = 1, где Ц* — неотрицательная квадратичная форма от центрированных гауссовских случайных величин, так что критерий, отвергающий Н01 при

пНп > Л, (34)

имеет асимптотический уровень значимости не более чем а, У а < 0,21515....

|2 (И

ь и0/ ) = J0 Х(1 — х) Jк<1 / (г,х) — У(г,х)

ности альтернатив:

Обозначим теперь и0(/) = /0 х(1 — х) |/(¿.х) — д(і,х)|2, ¡-^Тт ^х. Для последователь-

ны : пи0(/) —> то. вир ЕX — Х^-1 < то

г,^,п

имеем Еп У]П_1 $з(к) < С, поэтому аналогично (32), (33) мы можем получить: УК > 0 1 - в < Р{п [ х(1 - х) / |/п(*,х) - #п(£,х)|2Т7|1+- йх < СЛК}+

'я3

И1

+К < РМ > пЦ,(/) - СЛК} + С,

где в — мощность критерия (34),

^ = 2Де / ж(1 - х) ^ - /(^))|^Тй йх

£п(^ = /п^ х) - /& х) - £п(^ х) + #(^ х).

По неравенству Коши-Буняковского

ЕЮ2 < 4ВД) ^ х(1 - х) ^ Е|£„(()|2йх < Сио(/)/п,

поэтому в —> 1 и, значит, критерий (34) состоятелен против последовательности альтернатив Н1п.

Пример. Рассмотрим проверку нулевой гипотезы Н0 : Хк = , к > 1 где , к > 1

повторная выборка против альтернативы Н1 : Хд = + Е(П), к > 1, где Е(х) — функция,

локально интегрируемая по Риману, и Е(х) не есть константа почти всюду по отношению к мере Лебега. В этом случае

ио(/) —

1

х(1 - х)

Зк3

1

- Г ег(^(5))йв---------— I ег(^(5))йв

х ^ 1 - х ] х

|/(£)|2^

йх,

что не равно нулю, так как иначе мы имели бы для всех достаточно малых |£|, что инте-гранд равен нулю или после элементарных преобразований

РХ р1

/ = х ег(*’^(5)) йв

оо

почти всюду по отношению к мере Лебега. Производная по х интеграла в левой части здесь существует и равна интегранду или ег(*’^(х)) = С(¿), что невозможно, так как Е(х) не есть константа.

Таким образом, рассматриваемый критерий состоятелен против всех сдвиговых альтернатив с ф.р. Е. К примеру, мы можем тестировать линейный тренд данных.

§ 7. Проверка некоторых линейных гипотез

1. Однородность к сдвигам. Рассмотрим гипотезу Н0 : (х) = (х - 0),Ух € Д,

для некоторого 0 € Д5 другими словами, распределения Х-ов и У-ов принадлежат одному сдвиговому семейству распределений или эквивалентны X - ЕХ = У - ЕУ. Пусть имеются две независимые повторные выборки Х1, Х2,... , Хп и У1, У2,... , равных объемов. В соответствии с используемым нами методом рассмотрим эмпирические характеристические функции

1 п 1 п

/пСО = - V ехР{*^,Х - Х)} #пС0 = - V ехр{г(£,ук - У)}.

п п

к=1 к=1

Пусть выполнены условия:

С) Е|Х1|2 + Е|У^2 < то, матрицы Со^(Х1,Х1) и Со^(У1,У1) невырождены, обозначим ^1 = Х1 - ЕХ1 - У1 + ЕУ1, в случае й =1 Е|Я-1/2(^1)|-1 < то и если й = 1, то тогда сл.в. ^1 имеет непрерывную плотность распределения р(х) такую, что р(0) = 0.

Обозначим /(¿) х.ф. сл.в. Х1 - ЕХ1 и рассмотрим случайный процесс

£пС0 = ^п СШ - ^пСФ .

Нетрудно подсчитать, что при справедливости Н0

E|í«(t)|2 = 2(1 -|f (t)|2)+2n |f(t)|2 -

f(t - -)f“-1(--)

n n

— 2(1 - |/(¿)|2) + 2Де [(*,/'(*))/(-*) - /(*)(*,/'(-*))] + |/(¿)|2(^,Д^) = V(*),

п^-те

где Д = Со^(Х1, Х1). Обозначим Х* = Д-1/2(Х1 - ЕХ1), У/ = Д-1/2(У1 - ЕУ1), рассуждая далее, как и в § 1 (проверка симметричности), мы можем подсчитать Уй = 1

1 Г V (*)

C(d 1Wfíd (t, Rt) d2X

dt = 2detR-1/2E|X* - Y*| +

lOC1 1 f i(t,Xi - EXi - Yi + EYi)ei(í’Xl-EXl-Yl+EYl) ^ ,

+2E ---------------------------d+i--------------------dt+

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

C (d 1)jRd (t,Rt)

2

\w 7 ^ — /

\2\f{ p-1/2+\|2

+2üí-f I, “J?4 - = “»-”2eix; - >л(. - gg) +

+2C0(dc1)deitR 1/2EX - Y*|-1 = 2(d - 1)detR-1/2E|X* - Y/|-1 =

= P - lim Un,

где C0(d, 1) = (d - 1)C(d, 1) (см. §1 (проверка симметричности)) и

C’(d, 1) = J íjSjd+S1 ds = C(d, 1),

что может быть показано также, как и при выводе формулы для C(d, 1):

dptR-1/2 _ n

и„ = 2(d -1)—— E |x* - Y*I-1, x* = R-1/2(X - X),

i,j=1

^ П _ _ __

Y* = R-1/2(Yj - Y), R = — £ {(Xi - X)(Xi - X)T + (Y - Y)(Y - Y)T} .

i=1

В случае d =1 мы имеем

1 f V (t) dt = 2detR-1/2 / |f (R-1/2t)|2dt = 4ndetR-1/2

C(d, 1^Rd (t, Rt)ÍÍ1 C(d, 1) jRd|f ( Л C(d, 1) p( ',

где p(x) — плотность распределения X* - Y^. Рассмотрим следующую тестовую статистикУ:

Q = 1 Í |fn(t) - gn(t)|2 dt =

Qn U„ C (d, 1)jRd (t, Rt) d+i dt

n n n n

П2 ЕЕ IX* - Y*I - ÍJT E |X* - x*| - £ E IY* - Y?I

i=1 fc=1 i,j=1 fc,Z=1

= n x----------------------- ———----------------------------------,

^ E E IX* - Y*|-1

i=1fc=1

где в случае d =1 мы заменяем знаменатель на 4ffp(0) для некоторой состоятельной оценки плотностир(х) в нулевой точке. Рассуждая, как и ранее, можно показать, что Qn —> Q

слабо, где Q — квадратичная форма от центрированных гауссовских случайных величин,

2

= 1. Соответственно, асимптотический уровень значимости будет иметь заданное значение а, У а < 0.21515... и тест будет состоятельным против всех альтернатив, подчиненных условиям С).

Если условие С) не выполнено, то тогда можно рассмотреть альтернативный вариант для проверки Н0, используя статистику:

^т,п Qm,n(A), ^т,п(А) | X

лепл т + П

п п

тп Е Е |х- А - 1 - п2 |х - х1 - т? Е |ук- ^

¿=1 к=1 ¿,.7=1 к,1=1

\/_________________________________________________________________

п т

п2 Е |Х - Х}1 + т2 Е |Ук - У1 ¿,.7=1 к,1=1

Можно заметить, что минимум фт,п(А) по А легко найти, перебирая значения А = X — 1}

Б

и Qm,n(A) < Qm,n(0) —> Q, EQ = 1, где Q есть неотрицательная квадратичная форма от

т,п^-те

центрированных гауссовских случайных величин. Таким образом, мы получаем верхнюю оценку для асимптотического уровня значимости:

lim P(Qm,„ > (Ф-1 (1 - а))2}< lim P(Qm,n(0) > (Ф-1(1 - а))2}<

т,п^-те 2 т,п^-те 2

< P {Q > (Ф-1(1 - а ))2} = а V а < 0,21515 ....

Соответствующий критерий будет состоятельным против всех альтернатив, подчиненных условию E (|X1| + |Y1|) < то. Действительно, рассмотрим

Rm,n(A) = C (d, 1)Х

2 n m 1 n 1 m

X ( |Xi- A - Yk| - E |Xi- X1 - m E|Yk - ^

1=1 k=1 i,j=1 k,1=1

(n m

E |Xj| + E |Y I | • Применяя закон

1=1 j=1

больших чисел, мы получаем

lim inf Rm,n(A) = inf C(d, 1)(2|X1 - A - Y1| - E|X1 - X2|-

m,ra^^ AeRd AeRd

-EiH - П|) = inf f |e - g(t)|2dt,

AeW Rd |t|d+1

правая часть здесь неотрицательна и равна нулю только при справедливости Н0, таким образом, для всех альтернатив Qm,n —> то, a.s. что означает состоятельность критерия

т,п^те

(здесь f (t), g(t) есть соответствующие характеристические функции).

2. Принадлежность сдвиго-масштабному семейству распределений. Пусть X, Y есть случайные вектора со значениями в Rd. Рассмотри гипотезу Н0 : Y — A + BX для некоторых неслучайных вектора A и матрицы B. Рассмотрим сначала одномерный случай: пусть E|X1|2 + E|Y1|2 < то. Рассуждая, как и ранее, рассмотрим тестовую статистику

2mn

Lm,n — inf Lm,ra(A,B), Lm,ra(A, B) — : X

АеД!,Б>0 m + n

n m n m

mn E E |Yfc- A - BXi| - П2 E B|X- Xj1 - m? E |Yfc- Y1

i=1 fc=1 ¿j=l fc,Z=1

x--------------------

n m

n2\/JX E |Xi- Xj1 + m? E |Yfc- Y1

i,j=1 fc,Z=1

где Sy, Sx есть соответствующие выборочные дисперсии. Заметим, что Lmn(A,B) есть выпуклая функция от A, B, что облегчает вычисление инфинума. Можно показать, что критерий, отвергающий Н0 в случае

Lm,n > (Ф-1 (1 - |))2,

имеет асимптотический уровень значимости менее чем а V а < 0,21515... и является состоятельным против всех альтернатив, подчиненных условию E (|X1| + |У1|) < то.

Рассмотрим теперь случай d =1 и специальный случай матрицы B: B = bB; для некоторой положительной константы b и ортогональной матрицы В;, этот случай соответствует ситуации, когда одна из выборок подвергается сдвигам, вращениям и изменению масштаба (что соответствует различным способам регистрации данных). Обозначим Sy, Sx выборочные дисперсии:

mn

= - V(Yfc - Y)(Yfc - Y)T, Sx = - V(X - Y)(Xi - Y)T m n

fc=1 i=1

и

2 mn

Mm,n = inf Mm,n(A,B), Mm,n(A,B ) = ---- -X

AeRd,b>0,B' m + n

n m n m

mn EE |Yfc- A - bB/Xi| - n2 E b|X- | - m2 E Y- Y|

i=1 k=1 i,j=1 k,1=1

s/ _____________________________________________________________

I-—— n m *

n2v |-j£ E |Xi- | + mi? E |Yk- Y|

X i,j=1 fc,Z=1

Можно показать, что критерий, отвергающий Н0 в случае

Mm,n > (Ф-1 (1 - а))2,

имеет асимптотический уровень значимости менее чем а V а < 0,21515... и является состоятельным против всех альтернатив, подчиненных условию E (|X1| + |Y1|) < то.

СПИСОК ЛИТЕРАТУРЫ

1. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука. 1995. 238 с.

2. M.L. Puri, P.K. Sen On the theory of rank order tests for location in the multivariate one-sample

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

problem // Ann. Math. Statist. V. 38. 1967. P. 1216-1228.

3. M. Huskova Asymptotic distribution of rank statistics used for multivariate symmetry // J. Multiv.Analysis. V. 1. No. 1. 1971. P. 461-484.

4. J. Mottonen, T.P. Hettsmansperger, H. Oja, J. Tienari On the efficiency of affine invariant

multivariate rank test // J. Multiv. Analysis. V. 66. 1998. P. 118-132.

5. K-T. Fang, L-X. Zhu, P.M. Bentler A nessesary test of goodness of fit for symmetry // J. Multiv.

Analysis. V. 45. 1993. P. 34-55.

6. V.I. Koltchinskii, L. Li Testing for spherical symmetry of a multivariate distributions // J. Multiv. Analysis. V. 65. 1998. P. 218-244.

7. J.C. Lee, T.C. Chang, P.R. Krishnaiah Approximation of the distribution s of the likelihood ratio statistics for testing certain structures of the covariance matrix of real multivariate normal populations. // APL TR 75-167, Aerospace Research Laboratory, Wright-Patterson, Ohio.

8. S. Csorgo, C.R. Heathcote Testing for symmetry // Biometrika. V. 74, No. 1. 1987. P. 177-184.

9. L. Baringhaus // Ann. Statist. V. 19, No. 2. 1991. P. 899-917.

10. G. Neuhaus, L-X. Zhu Permutation test for reflected symmetry // J. Multiv. Analysis. V. 67. 1998. P. 129-153.

11. Bakirov N.K., Rizzo M.L. , Szekely G.J. A multivariate nonparametric test of independence// Journal of Multivariate Analysis. 2006. V.97. Issue 8. P.1742-1756.

12. Bakirov N.K., Rizzo M.L. , Szekely G.J. Measuring and Testing Dependence by Correlation of Distances // The Annals of Mathematical Statistics. 2007. V.35. No. 6. P. 2769-2794.

13. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений, 4-е изд. М.: Физматгиз. 1962. 1100 с.

14. R.M. Dudley Gaussian processes on several parameters // Ann. Math. Statist. 1965. V. 36, No. 3. P. 771-788.

15. N.K. Bakirov, G.J. Szekely Extremal properties for Gaussian quadratic forms"Probability theory and related fields // Probability theory and related fields. 2003. V. 126. No. 2. P. 184-202.

16. M. Abramovitz, I. Stegun Handbook of mathematical functions. // National Bureau of Standards. 1964.

17. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. М.: Наука. 1965. 654 с.

18. Петров В.В. Предельные теоремы для сумм независимых случайных величин. M.: Наука. 1987. 320 с.

19. Боровков А.А. Теория вероятностей, 2-е изд. M.: Наука. 1986. 432 с.

20. Никитин Я.Ю. Об асимптотической эффективности по Ходжесу-Леману непараметрических критериев согласия и однородности // Теория вероятностей и ее применения. 1987. Т. 32, № 1. С. 82-91.

Наиль Кутлужанович Бакиров,

Институт математики с ВЦ УНЦ РАН, ул. Чернышевского, 112,

450008, г. Уфа, Россия E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.