ISSN 2074-1863 Уфимский математический журнал. Том 1. № 4 (2009). С. 3-23.
УДК 519.234.3
ПРОВЕРКА ГИПОТЕЗ ОБ ОДНОРОДНОСТИ И СИММЕТРИЧНОСТИ РАСПРЕДЕЛЕНИЙ ДЛЯ МНОГОМЕРНЫХ ДАННЫХ
Н.К. БАКИРОВ
Аннотация. Рассматриваются задачи проверки непараметрических гипотез для многомерных данных.
Ключевые слова: проверка непараметрических гипотез для многомерных данных.
1. Введение
В настоящей работе изучаются новые критерии проверки непараметрических гипотез для многомерных данных: об однородности распределений двух случайных векторов и симметричности многомерного распределения. Построенные тестовые статистики имеют простую структуру и инвариантны к линейным преобразованиям данных, после надлежащей нормировки их распределения слабо сходятся при нулевой гипотезе к распределениям типа омега-квадрат. Построенные критерии состоятельны против широкого класса альтернатив при минимальных моментных ограничениях.
2. Проверка симметричности
Пусть X\,X2,...,Xn — повторная выборка с общей функцией распределения (ф.р.) F(х). Для проверки гипотезы о симметричности:
Н0 : 1 — F(х + 0) — F(—х) = 0 для всех x G R1 (1)
в одномерном случае используют известные критерии: w2, Колмогоровского типа, Уотсона-Дарлинга, Хилла-Рао, знаковых статистик и др. [1]. Асимптотические уровни значимости могут быть найдены в предположении, что ф.р. F(х) непрерывна. К сожалению, асимптотическое распределение многомерных аналогов этих статистик зависит от ф.р. F, так что они не являются подобными. Задачи проверки симметричности многомерных распределений рассматривались, в частности, в работах [2]—[10]. В настоящем параграфе мы строим тесты для проверки многомерной симметричности ф.р. с заданным асимптотическим уровнем значимости, инвариантные к линейным преобразованиям данных.
Итак, пусть X1,X2,... ,Xn, — повторная выборка Xk G Rd,X1 ф 0,a.s., E|X1| < то. Мы рассматриваем гипотезы о симметричности распределения выборки с центром в нуле:
H01 : диагональная симметричность или X1 = — X1;
Н02 : сферическая симметричность или X1 = CX1 для всех ортогональных матриц C;
Н0з : эллиптическая симметричность, то есть случайный вектор MX1 сферически симметричен для некоторой положительно определенной матрицы M, а также варианты этих гипотез с неизвестными центрами симметрии.
N.K. Bakirov, Testing homogeneity and symmetry for multivariate data.
© Бакиров Н.К. 2009.
Поступила 01 июня 2009 г.
Все наши построения базируются на использовании эмпирических характеристических функций:
1 п
/пСО = - ^ехр№,хг)}’ (2)
¿=1
где (.,.) — скалярное произведение в Л4. В работах [11]-[12] они были применены для проверки гипотезы о независимости двух многомерных распределений.
§ 1. Диагональная симметричность
Пусть /(¿) — характеристическая функция случайного вектора Х1. Легко видеть, что
Н01 ^ /« = /(—),« € Я ^ 7(/,?) =' / |/(«) - /(-0|М() <Й = 0
JRd
для любой весовой функции ^(¿) такой, что интеграл существует и ^(¿) > 0 почти всюду (п.в.). Мы будем предполагать, что Е|Х11 < то.
Рассмотрим статистику
7(/n, Ы = / |/п(^) - /п(-^)|2^0(^) ^оСО = |^|-1-Й.
</ Rd
Заметим, что |/(¿) — /(—¿)| < Е|Х1||^|, поэтому 7(/, ^0) имеет интегрируемую особенность в нуле. По аналогичным причинам интеграл 7(/п, <^о) существует. Учитывая тождество
[ (1 — ехр{г(£, X)})|£|-4-7 (И = С(¿,7)|Х|7, У7 € (0, 2), (3)
о Rd
где С((,7) — положительная константа, мы можем легко вычислить
(п п
^ |Х + X, | — ^ X — X, |
¿,7=1 ¿,.7 = 1
(интеграл (3) сходится в нулевой точке в смысле главного значения, при необходимости, ввиду симметричности функции вт(£,Х), мы можем в (3) заменить ехр{г(£,Х)} на сов(£,X) и считать несобственный интеграл (3) сходящимся в обычном смысле). Используя формулу 3.241.4 [13] и рассматривая интеграл (3) как повторный, можно показать, что С((, 1) = п/Г (^гг1). Далее, по закону больших чисел для статистик Мизеса [1]
7(/п, Ы —^ 2С((, 1) (ЕX + X2| — Е|Xl — X2|) =
п—
= 2Сїм |/(і) - /(-)|2^о(і) ¿і. (4)
JRd
р
Так что, для всех альтернатив к гипотезе Н01 мы имеем 7(/п, <^о) —* ^.
Аналогично
П—»СЮ
р П
= 2 (1 - /п(2і))^о(і) = 4С(Й, 1)п-1 V X
</ Rd
-А 4С(¿, 1)ЕX!! = 2 / (1 — /(2())роМ * = с(/).
п—~ JRd
Заметим, что С(/) = 0, если X1 ф 0 п.в. Рассмотрим теперь асимптотическое поведение статистики 7(/п, <^о) при нулевой гипотезе Н01. Обозначим
£пС0 = ^п (Ш — /п(—¿)).
Нетрудно вычислить, что при Н01, Уі, в
ЕС«(і) = 0, Е£пС0£п(в) =2(/(і - в) - /(і +в)). (5)
Конечномерные распределения случайного процесса (сл.пр.) Сп(і) сходятся при п ^ то к конечномерным распределениям гауссовского (сл.пр.) С(і) с моментами (5) в силу многомерной центральной предельной теоремеы (ЦПТ). Из (5) следует, что
Е |С«(і) — Сга(в)|2 = Е |С(і) — С(в)|2 = 4(1 — / (і — в)) +
+2(2/(і + в) — /(2і) — /(2в)) < 8|і — в|Е|Хі|. (6)
Поэтому [14], гауссовский (сл.пр.) С (і) имеет модификацию с непрерывными траекториями. С другой стороны,
Е|Сп(і)|2 = Е|С(і)|2 = 2(1 — /(2і)) < 4шіп(1, |і|Е|Хі|). (7)
Следовательно, і Е|С(і)|2^0(і) Йі < то, поэтому по теореме Фубини мы можем определить Q = fRd |С(і)|2^0(і) Йі (для непрерывной модификации С (і)) как римановский интеграл.
Обозначим А1 = {і : |і| < є},А2 = {і : |і| > 1/є},А3 = {і : є < |і| < 1/є}. Применяя (7),
мы можем записать
(|Сп(і)|2 + |С(і)|2)^0(і) Йі < 8 ! <^0(і) Йі = 8^є, (8)
2 |*|>1/є
где — площадь единичной сферы в Лгі. С другой стороны, используя (7), запишем
Е^ (|С«(і)|2 + |С(і)|2)^0(і) Йі = ^У (1 — /(2і))^0(і) Йі =
1
= 4Е|Х^$, $ = J (1 — ео8 2і1)^0(і) Йі,
|*|<є|Хі|
здесь і = (і1, і2,... , і^) и мы использовали замену переменных. Очевидно, 0 < $ < 2С(Й, 1) и $ 0, если є ^ 0. Итак, по теореме Лебега об ограниченной сходимости
4Е |Х1|$ —► 0. (9)
є^0
Далее, для любого разбиения Дк, к = 1, 2,... , N множества А3 (шах &аш Дк = т) и ік Є Дк
к
имеем
/ |С«(і)|2^0(і) Йі = V |Сп(ік)|2 / ^0(і) Йі + «1, (10)
А3 к=1
где в силу (6),(7)
N г
ъга(^) |2 — |С«^ ^'2|
ЕЫ<^ / Е||Ш|2 — |€п(*к)|2|Ы*) * <
*¡=1 ^А* < 8 (тЕ^(¿) й -^ 0.
4 ' и Аз т—0
Представление, аналогичное (10), справедливо и для случайной величины (сл.в.) /Аз Ш|2Ы^(*. Далее, в силу сходимости конечномерных распределений сл.пр. £п(£) к конечномерным распределениям сл.пр. £(¿) имеем, что N N
^ |£п(^)|2 / ^0(:0 ^ ^ |£(^)|2 / ^оС0 (11)
, А ~ / А
к=1 •/Ак к=1 •/Ак
Объединяя теперь (8)—(11), получаем
Q = l£(t)lVo(t) dt = D - lim / |£n(t)|Vo(t) dt,
JRd JRd
Q = D - lim Qn, Qn = ^ |£(tfc)|2 / ^o(i) dt (12)
r—0 fc=i •'Afc
для некоторого разбиения Ak множества A3 с т —> 0. Поэтому, в частности, сл.в. Q есть
£—>0
слабый предел квадратичных форм Qn от центрированных гауссовских сл.в. и, следовательно, мы можем применить неравенство из [15]:
р \ Q ^ (^-1/1 а-
> (ф-1(1 - а)) \ < a, Va < 0.21515.
EQ V 4 2'
Определим тестовую статистику равенством
T = j I lXi + 1 — ^j = 1 lXi — X I = nJ (f»,yo)
n = 2 Ei=, X = G(fn) ■
Выше было показано, что при любой альтернативе
Tn p
-----> const > 0,
n n—
а при нулевой гипотезе H01
Tn —^ Q,
n—^
где Q есть слабый предел квадратичных форм от центрированных гауссовских сл.в., EQ = 1.
Таким образом, справедлива следующая теорема.
Теорема 1.Критерий, отвергающий гипотезу H01, при
Tn > л, л= (ф-‘(1 — 2))2 (13)
состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем a, Va — 0.21515________________________________________________________
Рассмотрим теперь асимптотическое поведение мощности в«. критерия (13). Запишем
1 — ^n = P{Tn — Л} = P{Un — EUn > v + (1 — Л)-------- X}, (14)
n — 1
где
2 1 n Un = n(n_ 1) S(|Xi — Xj 1 — |Xi + Xj l) ,X = |Xi |,
( ) i<j i=1
v = —EUn = E (|X1 + X2I — |X1 — X2I) , заметим, что v > 0 при альтернативах и в случае P{|X1| = 0} > 0 мы определяем мощ-
ность en как правую часть (14).
Пусть выполнено условие
C1) VH > 0 : Eexp{H|X1|2} < то,
тогда по экспоненциальному неравенству Чебышева
р /2(1 — Л)* > 4=) < р/Т |Xk|> (n — 1)^nv 1 <
I n — 1 VSJ < Ifci1 2(1+ Л) j-
< exp { — (n2—1+’ЛПV } (Eexp{|X,|})n - e-Cn^ (15)
для некоторой положительной константы С. С другой стороны, при условии С1) по теореме о больших уклонениях Р. Дасгупты для невырожденных и-статистик (см. теорему 1.6.4. в [1]) для любой последовательности 7„ —> 0
¡П
n—>оо
lim -lnP{Un - EUn >v + Yn} = «(тр), (16)
n n \2a/
где a2 = D^,^ = |Xi + X2I - |Xi - X2I,
u(x) = lninf(e-inEei(v-^).
t>0
Объединяя (15) и (16), получаем
Предложение 1. Для всех альтернатив, удовлетворяющих C1)
lim -ln(1 - en) = и{^] . n >^0 n V2a/
Заметим, что -2u(2^) есть показатель Ходжеса-Лемана критерия (13) и
2
/ V ч V2 7 чч
u(2a ) = - 805 (1 +o(1))-
когда V ^ 0, a > const > 0 (см. [1], § 1.2).
Замечание 1. Определим коэффициент диагональной симметричности как:
спл л /г Tn Sij=1 |X + Xj 1 - Sij=1 |X. - Xj 1
SYM = — = — ----------------—-------—^----------.
n 2n ^i=1 |X.|
Ясно, что 0 < SYM < 1 и SYM = 1 тогда и только тогда, когда сл.в. X = const = 0, Vi. Некоторые из его свойств даны в (4), теореме 1 и предложении 1. Заметим, что коэффициент SYM инвариантен к ортогональным преобразованиям данных и изменению масштаба.
Замечание 2. Если требование E|X1| < то для нулевой гипотезы и альтернатив не выполнено, то тогда можно заметить, что гипотезы H01 и H02 эквивалентны аналогичным гипотезам с повторной выборкой Y1, Y2,... , 1^, где Yk = Xk|Xk|-1 arctan |Xk|, k = 1, 2,... , n, (если сл.в. X1 не имеет моментов) или Yk = Xk|Xk|Y-1 (если мы знаем, что E|X1|Y < то). Заметим, что в первом случае соответствующее значение Tn не инвариантно к изменению масштаба.
Замечание 3. Наши рассуждения остаются справедливыми и для коэффициента
Т, = S„=1|X. + X г - S,,=1|X. - j (0 2)
n 2 Е.=1 |x.|y ’ Y fc ( ’ '■
Выясним теперь вопрос: "которое y лучше?" в некотором специальном случае и в некотором специальном смысле. А именно, рассмотрим локальную (v ^ 0) эффективность по
Ходжесу-Леману, сдвиговые альтернативы с X1 = N(в, E), где в = EX1 — параметр сдвига, E — единичная матрица. Заметим, что сл.в. |X1 -в|2 имеет распределение с d-степенями свободы. Можно подсчитать, что в данном случае при |в| ^ 0 показатель Ходжеса-Лемана есть
V2
— = |0|4G(y )(1 + o(1)),
где
1
V2 /г(d)г(d + V) ■
с<7) = Г2( ■+-) - 1
Ниже мы доказываем, что С<7) возрастает по 7 при 7 Е <0,1] так, что ответ такой: чем больше 7, тем лучше.
Лемма 1. С'<7) > 0, У7 € <0,1], У5.
Доказательство. Это неравенство эквивалентно следующему:
і Г2(п + х) ^ / Г'(п + 2х) Г'(п + х) \ .17.
- Г(п)Г(п + 2х) - Н Г(п + 2х) - Г(п + х) У , ( )
где п = й/2,х = 7/2. Известна следующая формула [16]:
Ф(1 + -) = = -Со + Ё -^--т, (18)
1(1 + -) ' — (— + -)
4 7 т=1
где СО — абсолютная константа. Теперь (17) может быть переписано как
лп+ж /*п+2ж
1 — ехр{ / Ф(-) й- — / Ф(-) й-} — х (Ф(п + 2х) — Ф(п + х)),
«/п ^ п+ж
или в силу (18) для V = — + п + х — 1
~ / х2 \ ~ 1 1 — П (1 — ^ ) — х2 Ё , , ч. (19)
V V2 I ^ ^(^ + х)
т=1 4 7 т=1 4 7
Применяя здесь неравенство (1 — а) < 1 — ^ а + аа? для а — 0, мы видим, что
(19) верно, если
^ 1 /те1\ 2
Ё v2(v + х) + 2 Ё V4 — 2 (Ё V2) . (20)
т=1 4 ' т=1 \т=1 /
Далее, оценивая суммы соответствующими интегралами, мы можем записать, что
СЮ
1 1 Г й-
V2 (V + х) (п + х)2 (п + 2х)
т=1
V2 (V + х) (п + х)2 (п + 2х) ,/п+ж+1 - 2(- + х)
<п + ж)2<п + 2ж) 2<п + ж + 1)2 3<п + ж +1)3’
^ 1 > 1 1 1 < 1 1
V4 “ <п + ж)4 3<п + ж + 1)3 ’ V2 “ <п + ж)2 п + ж
т=1 т=1
Применяя эти неравенства, мы можем доказать (20).
Лемма доказана.
Замечание. Аналогично можно показать, что У7 € <1,2) 350 = 50<7) : > 50
С<7) = 8ир{С<5)|5 < 7}.
§ 2. Сферическая симметричность
Гипотеза о сферической симметричности распределения выборки состоит в следующем: Я02 : Х1 = СХ1 для всех ортогональных матриц С.
В одномерном случае (5 = 1) Н01 = Н02, поэтому мы предполагаем, что 5 > 2. Как легко видеть,
Я02 f <£) = f <С£), для всех £ Е Л и ортогональных матриц С
Л<Л ^ = 2/^^<£) - ^<сТ£)|2^<£) 5£5х<с) = 0
для любой весовой функции <^<£) такой, что интеграл существует и <^<£) > 0 п.в., здесь Х<С) — нормализованная мера Хаара на множестве ортогональных матриц^ 5%<С) = 1. Пусть
/п(г) = п 1 Ё ехр{г(^,Хк)}, /п(і, С) = п 1 Ё ехр{г(£,СХк)}
Г1
к=1 к=1
— выборочные характеристические функции. Рассмотрим статистику
Л</п,^0) = 1^ J ^!/пСО - /„<£,С)|2^0<£) 5£5х<С) =
п
= С<5,1)п-2 £ мм |х,|) - |х, - х,|),
¿,,= 1
где
1
д<и,'у) = и^~1 [ Vи2 — 2иуж + V2<1 — ж2)^ 5ж, и = 2 и ]
-1
и мы использовали формулу (3) § 1 вместе с равенством: Уа, Ь Е Л^
[ |а - СЬ| 5х<С)= / VI«!2 - 2<а,СЬ) + |Ь|2 5Х'<С) =
= Е/|а|2 - 2|а||Ь|£ + |Ь|2 = g(|а|, |Ь|),
где £ — первая координата случайного вектора равномерно распределенного на единичной сфере в Л^. Заметим, что ^<м,^) < |и| + |^| и
„л. .л .. .. 2^-1 Г<|)Г<|)
^<и,и) .¿|и|, /, 1^ ,
упГ<а - ^)
здесь Г<.) есть гамма-функция и мы использовали формулу: и = 2п^/2/Г<|). Для и = V функция ^<и^) может быть вычислена при помощи формулы 3.665.2 из [13].
По закону больших чисел для статистик Мизеса мы имеем, также как и в § 1,
Л</п,^0) -^ Л</,^). <21)
п—
Далее, при нулевой гипотезе
пЕЛ</п, Ы = С<5,1)Е^<|Х1|, |Х1|) =
n
= P - lim Vn, Vn = C(d, 1)^ V |Xk|. n—n J
fc=1
Окончательно определим тестовую статистику формулой
Q
nR(/„, »*) _ E"j=1 (g(|X.|, |Xj|) - |X. - Xj|)
V- wE-=i X |
Можно показать, как и ранее, что при n ^ то статистика Q. слабо сходится к квадратичной форме от центрированных гауссовских сл.в., EQ = 1. С другой стороны, в силу (21)
1 р
мы имеем для любой альтернативы к гипотезе Н02, что: -Q. —> const > 0.
-
Таким образом, справедлива следующая теорема.
Теорема 2. Критерий, отвергающий гипотезу Н02, при Q. > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем
a, Va < 0.21515....
§ 3. Проверка симметричности с неизвестными центром симметрии
Для неизвестного параметра a = EX1 мы рассматриваем гипотезы:
H01 : Xi - a = -(Xi - a),
Hq2 : Xi — a = C(Xi — a) для всех ортогональных матриц C.
Идея состоит в применении методов §§ 1-2 к центрированным сл.в. - X, к = 1, 2,... , Хп, где X = П ЕП=1 Х& — выборочное среднее. Предположим дополнитель-
n
но, что
12
C2) E|Xi|2 < то, матрица R = Cov(Xi,Xi) невырождена.
С3) IRd |t|2f2(t)^c(t) dt < то.
Рассмотрим подробнее условие C3). Известно равенство (см. [17], гл. 1, § 5, стр. 63)
js е‘('Д) ds = (щ) / IXIJ- (p|X|),
где p — радиус сферы с центром в нуле в Rd, d > 2, Jm(x) — функция Бесселя первого рода m-го порядка. Так что для Z = X1 — X2
|t|2/2(%o(t) dt = / І І /2(t) dt |
fRd Jo \Jsv і У
, \ d/2
= EX (м) lZ|Ji-3(ylZ') 7у! = CoElZl-1
где (см. [13], форм. 6.511, 6.561.14)
Co = (2n)d/2 / y!-d/2 Jd-2 (y) dy = —^ = C(d, 1)(d - 1).
Jo 2 i(~)
Другими словами, условие С3) эквивалентно свойству Е|Х1 — Х2|-1 < то, которое не является неестественным в многомерном случае: й > 1.
Рассмотрим сначала гипотезу о диагональной симметричности. Пусть
- 1 п — —
Я =-У'(ХЛ — X )(Х* — X )т
п
к=1
— выборочная ковариационная матрица и Хі = Я-1/2(Х^ — X) — нормированные выборочные значения.
Обозначим через Дп тестовую статистику:
ЕП,=і(іХ + X | —|Х — X1),
=-----------—----------------------------———----——.
2 ЕП=1 X | + 4 П-1 Еі<, X — х,1-1 — п-г ЕП,=і X — х, |
P
Можно показать, что Дп —> то при всех альтернативах удовлетворяющих С2), С3).
П—
Справедлива следующая теорема.
Теорема 3. При условиях С2),С3) критерий, отвергающий гипотезу НО г, при Дп — Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости.и не более чем а,Уа < 0.21515....
Рассмотрим гипотезу о сферической симметричности. Обозначим
_5 =______________Е",=. [д(Х — Х|, |Х, — Х|) — |Хі — х|]_____________
” л ЕП=, |Хі — X | + ТгЯ 2П-Г) Е<, IX — X, |-г — п-1 ЕП,=, |Хі — X; | ’
где функция д была определена ранее.
Справедлива теорема.
Теорема 4. При условиях С2),С3) критерий, отвергающий гипотезу Н02, при $п — Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а, а 0.21515
§ 4. Эллиптическая симметричность
Пусть выполнено условие С4) Е|Х1|4 < то.
Рассмотрим гипотезу об эллиптической симметричности распределения выборки или эквивалентно:
Н03 : распределение Л-1/2Х1 сферически симметрично, ЕХ1 = 0.
Здесь Л = Сс^<Х^ Х1). Обозначим Л = п Еп=1 Х;Х^, У, = Л?-1/2Х, и
gn(t) = n 1 ^ exp{i(í,yfc)}, g„(í,C) = n 1 ^ exp{¿(í,CYfc)}.
’ 1^exp{i(t,Yk)}, g„(í,C) = n 1 fc=i fc=i
Рассмотрим статистику
Р<^п,^0) = 1^ J^пСО - ^п<£,С)|2^0<£) 5£5Х<С) =
п
= С<5,1)п-2 £ (g(|У|, |У,|) - |У - У,|),
¿,,= 1
где функция д(и^) определена в § 2. Мы анализируем статистику Р<дп, ^0). Также, как и ранее, сделаем только некоторые замечания.
Во-первых, для V; = Л-1/2Х; и А = Л-1/2Л1/2 - Е по формуле Тейлора и закону больших чисел
1 п
-П(д,,М - д„(*, С)) « -р V [е,<‘,1'‘> - е,<‘-сг*> + г((, АУ*У(‘л>-
^ ¡К
- i(t,CAVi)e‘<‘’Cl'*>l |V<‘’Vi> - e‘<‘’Cli»l
J
+
+ <£ —йА/'<£)) - <сТ£ —йА/'<сТ£)).
С другой стороны, для £ = Л? - Л = Л1/2<у - Е)Л1/2, где У = п-1 ^п=1 V»мы имеем в силу С2) асимптотическое равенство Л1/2 = Л1/2 + ¿<£) + о<£),£ ^ 0 для некоторой симметричной матрицы ¿<£) линейной по £. Возводя его в квадрат, получаем £ = Л1/2£<£) + £<£)Л1/2 или
V - Е = Л-1/2Ь<£) + £<£)Л-1/2. <22)
При справедливости Н03 имеем /<£) = д <|£|2/2) для некоторой функции д : Л1 ^ Л1. Далее, так как А = -Л-1/2(Л1/2 - Л1/2) = -Л-1/2Ь<£) + о<£), то мы имеем в силу (22) для любых £ Е Л^
(t^ v/nA//(t)) = (t, v/nAt)g/ (|t|2/2) = —2T(t (^ - E )t)g (|t|2/2) +
+o(í) = o(í) - --= ¿(t, (ViVkT - E)/'(t)).
^П k=1
Это поможет нам проанализировать главную часть разности gn(t) - gn(t, C). Также, как и ранее, мы можем вывести при справедливости H03 и условий C2),C3),C4) что
nP(g„,^o) -^ Q,
n—»СЮ
где Q есть квадратичная форма от центрированных гауссовских сл.в. и для Z = Л 1/2Х1
Е° = 1/Ь |А‘(() - |А2(£)|2Ы«)Л5Х(С),
где
А1<£) = ехр{г<£, Z)} - ехр{г<£, CZ)},
А2<£) = <£, - Е)/'<£)) - (Ст£, - Е)/'(Ст£)).
Рассуждая, как и ранее, получаем
е{! |А1<£)|2^0<£) 5£5х(С) = 2С<5,1)^Е|Z| (23)
и
(*, /'(*)) = |<|У (|*|2/2) , А2(£) = (((, Z)2 - (£ CZ)2)д' (|£|2/2) , Е(А2(())2 = (д')2(2Е(£ Z)4 - 2Е(£ Z)2(£ CZ)2).
Рассмотрим слагаемые в последнем выражении. В силу сферической симметричности ф.р. сл.в. Z = <Zl, Z2,..., Zd)
3 Е<£, Z)4 = |£|4Е<|£|/£, Z)4 = |£|4EZ14 = |£|4Е|Z|4,
здесь последнее равенство выполнено для всех сферически симметричных распределений. С другой стороны,
У"(*,Сг )2 5х(С) = и2х |2Ее2 = 1 |(|2х |2, (24)
где £ есть первая координата случайного вектора, равномерно распределенного на единичной сфере в Л^. Итак,
ЕI(А2(())2 5х(С) = 2(д')2(|£|4Ег? - 1 |«|2Е|г12((, 2)2) = (25)
= 2(£, / '(())2а,Е х |4,
где = 2(5 - 1)5-2<5 + 2)-1. Пусть У есть независимая копия сл.в. Z, обозначим / =1 <£,/'<£))2^0<£) ^ж,уН |ж - У|-3<|ж|2|У|2 - <ж,У)2)
и предположим выполненным условие
С5) Е|Х1|2|Х1 - Х2|-1 < то.
Теперь нам потребуется следующая лемма.
Лемма 2. / = С<5,1)Ev<Z,У).
Доказательство. Нетрудно доказать следующую цепочку равенств:
/ = Е <£, Z)<£, У)ехр{г<£, Z - У)}^0<£) =
JRd
-Е [ —— ]Rd дадв
<1 - ехр{г<£, aZ - вУ)})^0<£)
а=в=1
-Е-*
С<5,1)|^ - вУ| = С<5,1)Ev<Z,У),
а=в=1
дадв
здесь мы использовали формулу (3). Все интегралы понимаются в смысле их главного значения (на бесконечности), Ev<Z,У) < то в силу С5).
Лемма доказана.
Следствие. В силу леммы 4 и (25)
Еу у |Д2(і)|2^о(і) ^Х(С) = 2С(й, 1)^(£,У)Е|£|4. (26)
Можно также показать, что
ЯеЕу у Д і (¿)Д2(¿)^о (¿) йійх(С) = е! /,[ехр{г(*.2)} — ехр{г(і,С2)}]((і,г)2 — («,Сг)2)) (27)
■7 Л + I 2
д' (И2/2) ^оСО ^йх(С)
= 2Е /^ехр{г(*,г)}((*,г)2 - 1 |(|2Х|2)д' (|£|2/2) ^0<*) Л,
здесь мы применили формулу (24). Действуя, как ранее, мы можем преобразовать (27):
Е / )2д' (|£|2/2) <М£) =
JRd
Е ехр{г(^)}(^)(^,/'(^))^о(^) ^ = (28)
JRd
е <г-у >1 да
(1 — ехр{г(і, — У)})^0(і) йі = С(й, У),
а=1
где v1<ж,y) = (ж,у)<|ж|2 - <ж,у))|ж - у| 1. Рассуждая аналогично, получаем
Е / ^рОС^)}|£|2^|2д' (|£|2/2) <М£) =
JRd
= Е|Z|2 /" ехр{г<£, Z)}<í,/'<í))^о<í) = С<5,1^2<^У), (29)
JRd
где = |ж|2((ж,у) - |у|2)|ж - у|-1.
Объединяя (23),(26)-(29) получаем, что при гипотезе Н03 для У, = Л-1/2Х,
Е^ = С(й, 1)Р — Ііт Я„,
п—<^
пп
Я = Я„(Уі,У2,... ,у„) = ^ Ё Іуі1 + 2п?пг—1г Ё-У)| Ё іуі
і=1 і<, і=1
21 —1) Ё(Vl(Уi'Уj} — й г’2<УЛ'Н'
1
ч) _
Окончательно определим тестовую статистику формулой Сп = пР<дп, ^0)/Лп.
Итак, верна следующая теорема.
Теорема 5. Путь выполнены условия С2),С4) и С5). Критерий, отвергающий гипотезу Н03, при Сп > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а, Уа < 0.21515....
Рассмотрим гипотезу:
Я0*3 : распределение Л-1/2(Х1 - 9) сферически симметрично при некотором неизвестном 9 Е Л* _ _ _
Обозначим Л = п Еп=1<Х; - Х)<Х» - Х)т, ^ = Л-1/2(Х, - Х),
С* = п Еп,-=1 (д(|^,|, X |) -^ - ^ |)
Сп Л* ,
Л
К = Д.(2ь Зг,..., Д.) + -27^-г) Е Д - ДI-1 + Ег,з(2„ Д),
-(- — 1) ' -(- — 1) '
к ' г<7 4 7 г<7
гДе ^э(х,У) = ((х,УГ — |У|2)|х — У|-1.
Теорема 6. Пусть выполнены условия С2),С4) и С5). Критерий, отвергающий гипотезу Н03, при С. > Л состоятелен против всех альтернатив, он имеет асимптотический уровень значимости не более чем а,Уа < 0.21515....
3. Проверка однородности
Пусть Х1, Х2, . . . Хи и У1, У2, . . . Ут, Хг, У Е Л — две независимые повторные выборки Х1, У[ ф 0,а.5.. Проверка гипотезы Н0 об однородности (совпадении) распределений X-ов и У-ов в случае й =1 традиционно производится на основе критериев типа Колмогорова-Смирнова, и>2, хи-квадрат, Манна-Уитни, Вилкоксона и других. В многомерном случае возникают трудности с определением асимптотических уровней значимости их аналогов, эти аналоги не инвариантны к линейным преобразованиям исходных данных. В настоящем параграфе работы предлагаются алгоритмы проверки однородности распределений двух повторных выборок в различных постановках и изучаются их свойства.
Рассмотрим следующий коэффициент:
С I с
НОМ = Ят>га =1 — -1-1-2, (30)
2—3
где
-.и т и т
-1 = “а Е |Хг — X, |, -2 = -, Е 1У — У I, -3 = — ЕЕ |Хг — У I,
-2 т2 ^ т— ^ ^
г,7=1 г,7=1 г=1 .7=1
здесь |. | — евклидова норма в Л и в случае —3 = 0 (что влечет —1 = —2 = 0) мы полагаем по определению, что Нт,и = 0. Коэффициент (30) может быть представлен через выборочные характеристические функции:
1 и 1 т
/га СО = -EeXPWi,X )}> #m(t) = — EeXP{i(t,Yfc)}
n ^ m
fc=i fc=i
(где (..) — скалярное произведение в Rd), а именно:
|2 dt
jßd |/ra(t) gm(t)| |t|l+d
H m. ч
Ißd (1 - |fn(t)|2 + 1 - |gm(t)|2 + 1 /ra(t) - gm(t)|2) Ifiß+d
Справедлива следующая теорема.
Теорема 7. 1) Пусть E(|X1| + |У1|)1пг(1 + |X1| + |Y1|) < ж, для некоторого 6 > 1, тогда почти, наверное
H = 1im H =, EIX1 - Xl| + E(|Y1 - Yl| .
H = mim« Hm" =1---------------------2Eix -1!-■
2) 0 < H < 1, H =1 X1 = Co = const, Y1 = C1 = const, C0 = C1,
H = 0 выборки X-ов и Y-ов однородны;
3) 0 < Hmn < 1, Hmn = 1 Xj = C0 = const, Yj = C1 = const, C0 = C1, Vi, j, если
m = n, то тогда Hn,n = 0 выборки X-ов и Y-ов совпадают (без учета их порядка),
если m = n, то тогда Hm,n = 0 Xi = Yj, Vi, j;
4) В условиях пункта 1) при справедливости нулевой гипотезы H0 об однородности
X-ов и Y-ов имеет место слабая сходимость распределений:
2mn
D - lim ------- —Hm,ra = Q, EQ = 1,
m + n
где Q — неотрицательная квадратичная форма от центрированных гауссовских случайных величин.
Доказательство. Пункт 1) следует из закона бошьших чисел для одновыборочных и двух-выборочных статистк Мизеса [16, стр. 69, 73]. Второй и третий пункты можно легко доказать, используя интегральное представление для Нтп через выборочные характеристические функции приведенное выше, и, пункт 4) доказывается так же как это делалось выше в §1.
Замечание 1. Для квадратичных форм Q, упомянутых в пункте 4), равномерно по Х1, У-! имеет место неравенство: Р^ > Л} < аУа < 0,21515... , где Л = (Ф-1(1 — |))2, Ф(.) — ф.р. нормальной (0,1) сл.в., Ф-1(.) — обратная функция. Таким образом, критерий, отвергающий гипотезу Н0 об однородности X-ов иУ-ов при
состоятелен против всех альтернатив, удовлетворяющих условиям пункта 1), он имеет асимптотический уровень значимости, равный а, У а < 0,21515 ....
Замечание 2. Задачу проверки гипотезы об однородности распределений одномерных случайных величин Хк, Ук, принимающих конечное число значений, можно свести к проверке однородности распределений выборок:
т + п
(31)
( х(Хк = аі) \ ( х(Ук = «і) \
\ Х(х = «<0 / \ Х(ук = /
здесь х(.) — индикатор соответствующего множества и |аг}^=1 — вероятные значения случайных величин Х&, Ук. Рассуждая, как и ранее, можно получить формулу
(І
(І
к=1 к=1
(І
= Е(Рк - 5к)(Р1 - ®) (ег(*к іі) - ^ ,
к=1
следовательно, числитель Нт,п равен
(І
<И = -^Е(Рк - 5к)(й - 51)
к=1
(І
для некоторой константы г и, с другой стороны,
1 — /п(¿)дт(£) = 1 — Е Рк®^-*г) = 1 — ЕРк— ЕРк®^^
к,1=1 к=1 к=1
= Е Рк ® (1 — ег(*к-*г)), к=1
следовательно знаменатель Нтп равен
ОС _ОР 1 ( 1 — /™(^)дт(^) _ 0 ^ _ г) /т
Й3 = с (<г, 1)/*, |*|«+-1 = г ^Рк 51 = г( к=1
Мы видим, что вклад относительно малых рк, в Нт,п будет относительно мал. В этом
«-> 2шп т т
одно из их отличий т+п Нт,п от хорошо известного варианта статистики хи-квадрат критерия
2тп (Рк — 5к)2
т + п Рк + 9к
к=1
для проверки однородности ([20], стр. 88). Отметим также, что статистика
H _ ЕГ=і(Рк - qk)2
-Л m. n
2 — 2Е Г=1 Рк 5к
применима для проверки однородности, когда случайные величины Хк, Ук изменяются на
счетном множестве значении.
§ 5. Асимптотика функции мощности
Оценим теперь мощность в критерия (31) при увеличении объемов выборок. Пусть m = n,d =1 и выполнено условие Г. Крамера: 3L > 0 : E exp{L(|Xi| + |У!|)} < то. Имеем
1 — в = P{п(25з — Si — S2) < 2SзЛ} < P{(n — Л)(2Sз — Si — S2) <
< 2Лlogn} + P{S1 > log n} + P{S2 > logn}. (32)
Оценим два последних слагаемых. Ясно, что S1 < n ЕГ=1 |Xi| (аналогичное соотношение выполнено для S2), следовательно, в силу экспоненциального неравенства для сумм независимых случайных величин, удовлетворяющих условию Г. Крамера ([18], стр. 81): 3n0 : Vn > no
P{S1 > log n} + P{S2 > log n} < exp{—n\Jlog n}.
Обозначим единым символом C все положительные константы, зависящие только от размерности данных d и моментов E|X1|,E|Y11. Далее, имеем
г dt
C(2S3 — Si — S2) = J ^ |/ra(t) — gn(t)|2 |t|1+d > Д — Sn. (33)
где
Г dt 1 n
Д=/^ I/(i) — g(i)|2. s„ = n £ &. = 0.
& = 2Яе у (g(t) — /(t))(ei(t-X‘> — /(t) — e4«*> + 9(0)
(черта сверх означает комплексное сопряжение). Итак, для некоторой неслучайной последовательности ап —> 0
п
1 — в < ехр{—} + Р{5П > Д(1 + ап)}.
Легко видеть, что
г г№
^(1 — ехр{г(^,Х)}) — = С |Х |.
Интеграл понимается в смысле главного значения
С2/А + &| < С(|Хк| + Е|Хк| + |Ук| + Е|Ук|),
поэтому, в частности, для случайных величин £к условие Г. Крамера выполнено, следовательно ([19], стр. 208)
V = Ишвир 11п(1 — в) < — ^(А) = — 8ир(Дж — 1пЕех?1).
П—— <те П X
В соответствии с общей теорией больших уклонений Л,(Д) < то для достаточно малых А функция Л,(.) неотрицательна, выпукла и Л,(0) = 0 ([19], стр. 204).
Пусть теперь А ^ 0 и т* = вир{т|Е ехр{т|Х1| + т|^^|}} > 0 равномерно для достаточно
малых А, тогда Л-(Д) = (1 + о(1))Д2/(2а2) (см. [19], стр. 204, 208), здесь а2 = Е^.
Рассмотрим далее простые сдвиговые альтернативы Н1 : д(£) = ег0*/(¿), У£. Предположим, что существует плотность распределения р(ж), (соответствующая характеристической функции /(¿)), принадлежащая Ь2(Л1), положительная, абсолютно непрерывная, обладающая ненулевой, конечной фишеровской информацией I и пусть при в ^ 0
/те______________ в21
\/р(ж)р(ж + в) ^Ж ~ ——.
-те 8
Из результатов работы [20](стр. 88) следует, что
е// = 1‘Ш—Т (" II) <11
здесь е// — локальная, относительная асимптотическая эффективность критерия (31) по Ходжесу-Леману. Далее, при в ^ 0
/те /*те
|/(¿)|2 ^¿)2 = (2пв2 / р2(ж) ^ж)2,
•те —те
(1 + о(1))а2 = 8в2Е(1т / Г1/(¿)(еЙХ1 — /(¿)) ^)2 = 8п2в2, следовательно, в рассматриваемом случае для критерия (31)
те ^,Л2 (Г (р'<ж))2Аг)—1,
поэтому, например, для гауссовских распределений е// > 2П = 0,47... , для распределения Лапласа: р(ж) = Аехр{ — 2А|ж|}, е// > 0,375 и для логистического:
р(ж) = ех(1 + ех)—2,е// > 0,5. Отметим здесь, что е// = 1 для критериев Колмогорова-Смирнова и и>2, более того, они асимптотически оптимальны по Ходжесу-Леману (см.
[20]).
е// > 6 ( / р (ж) ¿ж ) ( / р(х) ^
§ 6. Проверка внутренней однородности выборки
Рассмотрим задачу проверки гипотезы Н01 о внутренней однородности как таковой выборки из независимых случайных векторов Х0, Х1, Х2,... Хп, Е|Х? | < то, при Н01 распределения Х&-х совпадают. В параметрической постановке она рассматривалась, например, А.Д. Бернштейном (против альтернатив, сближающихся с нулевой гипотезой при п ^ то). Обозначим /(г) характеристические функции случайных векторов Х&. Ясно, что
Н01 /(г) = /г(¿),УМ, г
/0 ж(1 - х) ¡нЛ |/(і,х) - #(і,х)|2, ^гттг ^х
|2 (і*
и(/) Т= ^0 Х(1 х) ЛЯа |/ (0,х) У(0,х)| , |*|
/о/д^(1 - ^е/(І,х)#(І.х). ^х ’
где
1 М 1 п
/<(>х) = т—Т+Г Е /к(і) 9(г,х) =------------і—Г Е Л
!’“] +1 к=0 п - [пх> к=^+1
здесь [.] — целая часть числа, таким образом, и(/) = 0 для всех альтернатив для фиксированного п.
Проверка гипотезы Н01 может быть произведена на основе статистики Нп = и(/п), полученной подстановкой в и(/) вместо /(¿.х) и $(£. х) соответственно их выборочных значений:
1 М 1 п
/п(і,х)^Т ^^ЕЄХР{І(І,Хк)}. #™(^.х) =---------г Г Е ЄХР{і(і,Х)}
ІпхІ + 1 п — ІпхІ '
к=0 к=[гаж]+1
и заменой в и(/п) интегралов на соответствующие интегральные суммы:
П Ей=1 хк(1 — хк)(2^3(Г) — 5*1(к) — 5*2(к))
где
ПЕ 1=1 ад 1 п
= 112 £ X — X|- = , . + .,2 Е |Х — X|.
4 о—П ( + ) » -і — Ь
1 к—1
¿,.7=0 ї,І=к
к—1 п
5з<к) = гт^гт-Т) ееХ — х>|. хк
/с
к(п — к + 1)^^ ’ п
К > г=0
Ясно, что 0 < Нп < 0,5 с вероятностью 1 и что коэффициент Нп инвариантен к изометрическим преобразованиям и изменению масштаба данных, так что он может рассматриваться как мера внутренней однородности выборки. Можно также заметить, что Нп = 0 ^ Х1 = Х2 = ■ ■ ■ = Х„, п.в. При справедливости нулевой гипотезы Н01 можно показать (также, как и в [18], § 1, § 2), что Е — Ншп^те пНп = Ц*,ЕЦ* = 1, где Ц* — неотрицательная квадратичная форма от центрированных гауссовских случайных величин, так что критерий, отвергающий Н01 при
пНп > Л, (34)
имеет асимптотический уровень значимости не более чем а, У а < 0,21515....
|2 (И
ь и0/ ) = J0 Х(1 — х) Jк<1 / (г,х) — У(г,х)
ности альтернатив:
Обозначим теперь и0(/) = /0 х(1 — х) |/(¿.х) — д(і,х)|2, ¡-^Тт ^х. Для последователь-
ны : пи0(/) —> то. вир ЕX — Х^-1 < то
г,^,п
имеем Еп У]П_1 $з(к) < С, поэтому аналогично (32), (33) мы можем получить: УК > 0 1 - в < Р{п [ х(1 - х) / |/п(*,х) - #п(£,х)|2Т7|1+- йх < СЛК}+
'я3
И1
+К < РМ > пЦ,(/) - СЛК} + С,
где в — мощность критерия (34),
^ = 2Де / ж(1 - х) ^ - /(^))|^Тй йх
£п(^ = /п^ х) - /& х) - £п(^ х) + #(^ х).
По неравенству Коши-Буняковского
ЕЮ2 < 4ВД) ^ х(1 - х) ^ Е|£„(()|2йх < Сио(/)/п,
поэтому в —> 1 и, значит, критерий (34) состоятелен против последовательности альтернатив Н1п.
Пример. Рассмотрим проверку нулевой гипотезы Н0 : Хк = , к > 1 где , к > 1
повторная выборка против альтернативы Н1 : Хд = + Е(П), к > 1, где Е(х) — функция,
локально интегрируемая по Риману, и Е(х) не есть константа почти всюду по отношению к мере Лебега. В этом случае
ио(/) —
1
х(1 - х)
Зк3
1
- Г ег(^(5))йв---------— I ег(^(5))йв
х ^ 1 - х ] х
|/(£)|2^
йх,
что не равно нулю, так как иначе мы имели бы для всех достаточно малых |£|, что инте-гранд равен нулю или после элементарных преобразований
РХ р1
/ = х ег(*’^(5)) йв
оо
почти всюду по отношению к мере Лебега. Производная по х интеграла в левой части здесь существует и равна интегранду или ег(*’^(х)) = С(¿), что невозможно, так как Е(х) не есть константа.
Таким образом, рассматриваемый критерий состоятелен против всех сдвиговых альтернатив с ф.р. Е. К примеру, мы можем тестировать линейный тренд данных.
§ 7. Проверка некоторых линейных гипотез
1. Однородность к сдвигам. Рассмотрим гипотезу Н0 : (х) = (х - 0),Ух € Д,
для некоторого 0 € Д5 другими словами, распределения Х-ов и У-ов принадлежат одному сдвиговому семейству распределений или эквивалентны X - ЕХ = У - ЕУ. Пусть имеются две независимые повторные выборки Х1, Х2,... , Хп и У1, У2,... , равных объемов. В соответствии с используемым нами методом рассмотрим эмпирические характеристические функции
1 п 1 п
/пСО = - V ехР{*^,Х - Х)} #пС0 = - V ехр{г(£,ук - У)}.
п п
к=1 к=1
Пусть выполнены условия:
С) Е|Х1|2 + Е|У^2 < то, матрицы Со^(Х1,Х1) и Со^(У1,У1) невырождены, обозначим ^1 = Х1 - ЕХ1 - У1 + ЕУ1, в случае й =1 Е|Я-1/2(^1)|-1 < то и если й = 1, то тогда сл.в. ^1 имеет непрерывную плотность распределения р(х) такую, что р(0) = 0.
Обозначим /(¿) х.ф. сл.в. Х1 - ЕХ1 и рассмотрим случайный процесс
£пС0 = ^п СШ - ^пСФ .
Нетрудно подсчитать, что при справедливости Н0
E|í«(t)|2 = 2(1 -|f (t)|2)+2n |f(t)|2 -
f(t - -)f“-1(--)
n n
— 2(1 - |/(¿)|2) + 2Де [(*,/'(*))/(-*) - /(*)(*,/'(-*))] + |/(¿)|2(^,Д^) = V(*),
п^-те
где Д = Со^(Х1, Х1). Обозначим Х* = Д-1/2(Х1 - ЕХ1), У/ = Д-1/2(У1 - ЕУ1), рассуждая далее, как и в § 1 (проверка симметричности), мы можем подсчитать Уй = 1
1 Г V (*)
C(d 1Wfíd (t, Rt) d2X
dt = 2detR-1/2E|X* - Y*| +
lOC1 1 f i(t,Xi - EXi - Yi + EYi)ei(í’Xl-EXl-Yl+EYl) ^ ,
+2E ---------------------------d+i--------------------dt+
C (d 1)jRd (t,Rt)
2
\w 7 ^ — /
\2\f{ p-1/2+\|2
+2üí-f I, “J?4 - = “»-”2eix; - >л(. - gg) +
+2C0(dc1)deitR 1/2EX - Y*|-1 = 2(d - 1)detR-1/2E|X* - Y/|-1 =
= P - lim Un,
где C0(d, 1) = (d - 1)C(d, 1) (см. §1 (проверка симметричности)) и
C’(d, 1) = J íjSjd+S1 ds = C(d, 1),
что может быть показано также, как и при выводе формулы для C(d, 1):
dptR-1/2 _ n
и„ = 2(d -1)—— E |x* - Y*I-1, x* = R-1/2(X - X),
i,j=1
^ П _ _ __
Y* = R-1/2(Yj - Y), R = — £ {(Xi - X)(Xi - X)T + (Y - Y)(Y - Y)T} .
i=1
В случае d =1 мы имеем
1 f V (t) dt = 2detR-1/2 / |f (R-1/2t)|2dt = 4ndetR-1/2
C(d, 1^Rd (t, Rt)ÍÍ1 C(d, 1) jRd|f ( Л C(d, 1) p( ',
где p(x) — плотность распределения X* - Y^. Рассмотрим следующую тестовую статистикУ:
Q = 1 Í |fn(t) - gn(t)|2 dt =
Qn U„ C (d, 1)jRd (t, Rt) d+i dt
n n n n
П2 ЕЕ IX* - Y*I - ÍJT E |X* - x*| - £ E IY* - Y?I
i=1 fc=1 i,j=1 fc,Z=1
= n x----------------------- ———----------------------------------,
^ E E IX* - Y*|-1
i=1fc=1
где в случае d =1 мы заменяем знаменатель на 4ffp(0) для некоторой состоятельной оценки плотностир(х) в нулевой точке. Рассуждая, как и ранее, можно показать, что Qn —> Q
слабо, где Q — квадратичная форма от центрированных гауссовских случайных величин,
2
= 1. Соответственно, асимптотический уровень значимости будет иметь заданное значение а, У а < 0.21515... и тест будет состоятельным против всех альтернатив, подчиненных условиям С).
Если условие С) не выполнено, то тогда можно рассмотреть альтернативный вариант для проверки Н0, используя статистику:
^т,п Qm,n(A), ^т,п(А) | X
лепл т + П
п п
тп Е Е |х- А - 1 - п2 |х - х1 - т? Е |ук- ^
¿=1 к=1 ¿,.7=1 к,1=1
\/_________________________________________________________________
п т
п2 Е |Х - Х}1 + т2 Е |Ук - У1 ¿,.7=1 к,1=1
Можно заметить, что минимум фт,п(А) по А легко найти, перебирая значения А = X — 1}
Б
и Qm,n(A) < Qm,n(0) —> Q, EQ = 1, где Q есть неотрицательная квадратичная форма от
т,п^-те
центрированных гауссовских случайных величин. Таким образом, мы получаем верхнюю оценку для асимптотического уровня значимости:
lim P(Qm,„ > (Ф-1 (1 - а))2}< lim P(Qm,n(0) > (Ф-1(1 - а))2}<
т,п^-те 2 т,п^-те 2
< P {Q > (Ф-1(1 - а ))2} = а V а < 0,21515 ....
Соответствующий критерий будет состоятельным против всех альтернатив, подчиненных условию E (|X1| + |Y1|) < то. Действительно, рассмотрим
Rm,n(A) = C (d, 1)Х
2 n m 1 n 1 m
X ( |Xi- A - Yk| - E |Xi- X1 - m E|Yk - ^
1=1 k=1 i,j=1 k,1=1
(n m
E |Xj| + E |Y I | • Применяя закон
1=1 j=1
больших чисел, мы получаем
lim inf Rm,n(A) = inf C(d, 1)(2|X1 - A - Y1| - E|X1 - X2|-
m,ra^^ AeRd AeRd
-EiH - П|) = inf f |e - g(t)|2dt,
AeW Rd |t|d+1
правая часть здесь неотрицательна и равна нулю только при справедливости Н0, таким образом, для всех альтернатив Qm,n —> то, a.s. что означает состоятельность критерия
т,п^те
(здесь f (t), g(t) есть соответствующие характеристические функции).
2. Принадлежность сдвиго-масштабному семейству распределений. Пусть X, Y есть случайные вектора со значениями в Rd. Рассмотри гипотезу Н0 : Y — A + BX для некоторых неслучайных вектора A и матрицы B. Рассмотрим сначала одномерный случай: пусть E|X1|2 + E|Y1|2 < то. Рассуждая, как и ранее, рассмотрим тестовую статистику
2mn
Lm,n — inf Lm,ra(A,B), Lm,ra(A, B) — : X
АеД!,Б>0 m + n
n m n m
mn E E |Yfc- A - BXi| - П2 E B|X- Xj1 - m? E |Yfc- Y1
i=1 fc=1 ¿j=l fc,Z=1
x--------------------
n m
n2\/JX E |Xi- Xj1 + m? E |Yfc- Y1
i,j=1 fc,Z=1
где Sy, Sx есть соответствующие выборочные дисперсии. Заметим, что Lmn(A,B) есть выпуклая функция от A, B, что облегчает вычисление инфинума. Можно показать, что критерий, отвергающий Н0 в случае
Lm,n > (Ф-1 (1 - |))2,
имеет асимптотический уровень значимости менее чем а V а < 0,21515... и является состоятельным против всех альтернатив, подчиненных условию E (|X1| + |У1|) < то.
Рассмотрим теперь случай d =1 и специальный случай матрицы B: B = bB; для некоторой положительной константы b и ортогональной матрицы В;, этот случай соответствует ситуации, когда одна из выборок подвергается сдвигам, вращениям и изменению масштаба (что соответствует различным способам регистрации данных). Обозначим Sy, Sx выборочные дисперсии:
mn
= - V(Yfc - Y)(Yfc - Y)T, Sx = - V(X - Y)(Xi - Y)T m n
fc=1 i=1
и
2 mn
Mm,n = inf Mm,n(A,B), Mm,n(A,B ) = ---- -X
AeRd,b>0,B' m + n
n m n m
mn EE |Yfc- A - bB/Xi| - n2 E b|X- | - m2 E Y- Y|
i=1 k=1 i,j=1 k,1=1
s/ _____________________________________________________________
I-—— n m *
n2v |-j£ E |Xi- | + mi? E |Yk- Y|
X i,j=1 fc,Z=1
Можно показать, что критерий, отвергающий Н0 в случае
Mm,n > (Ф-1 (1 - а))2,
имеет асимптотический уровень значимости менее чем а V а < 0,21515... и является состоятельным против всех альтернатив, подчиненных условию E (|X1| + |Y1|) < то.
СПИСОК ЛИТЕРАТУРЫ
1. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука. 1995. 238 с.
2. M.L. Puri, P.K. Sen On the theory of rank order tests for location in the multivariate one-sample
problem // Ann. Math. Statist. V. 38. 1967. P. 1216-1228.
3. M. Huskova Asymptotic distribution of rank statistics used for multivariate symmetry // J. Multiv.Analysis. V. 1. No. 1. 1971. P. 461-484.
4. J. Mottonen, T.P. Hettsmansperger, H. Oja, J. Tienari On the efficiency of affine invariant
multivariate rank test // J. Multiv. Analysis. V. 66. 1998. P. 118-132.
5. K-T. Fang, L-X. Zhu, P.M. Bentler A nessesary test of goodness of fit for symmetry // J. Multiv.
Analysis. V. 45. 1993. P. 34-55.
6. V.I. Koltchinskii, L. Li Testing for spherical symmetry of a multivariate distributions // J. Multiv. Analysis. V. 65. 1998. P. 218-244.
7. J.C. Lee, T.C. Chang, P.R. Krishnaiah Approximation of the distribution s of the likelihood ratio statistics for testing certain structures of the covariance matrix of real multivariate normal populations. // APL TR 75-167, Aerospace Research Laboratory, Wright-Patterson, Ohio.
8. S. Csorgo, C.R. Heathcote Testing for symmetry // Biometrika. V. 74, No. 1. 1987. P. 177-184.
9. L. Baringhaus // Ann. Statist. V. 19, No. 2. 1991. P. 899-917.
10. G. Neuhaus, L-X. Zhu Permutation test for reflected symmetry // J. Multiv. Analysis. V. 67. 1998. P. 129-153.
11. Bakirov N.K., Rizzo M.L. , Szekely G.J. A multivariate nonparametric test of independence// Journal of Multivariate Analysis. 2006. V.97. Issue 8. P.1742-1756.
12. Bakirov N.K., Rizzo M.L. , Szekely G.J. Measuring and Testing Dependence by Correlation of Distances // The Annals of Mathematical Statistics. 2007. V.35. No. 6. P. 2769-2794.
13. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений, 4-е изд. М.: Физматгиз. 1962. 1100 с.
14. R.M. Dudley Gaussian processes on several parameters // Ann. Math. Statist. 1965. V. 36, No. 3. P. 771-788.
15. N.K. Bakirov, G.J. Szekely Extremal properties for Gaussian quadratic forms"Probability theory and related fields // Probability theory and related fields. 2003. V. 126. No. 2. P. 184-202.
16. M. Abramovitz, I. Stegun Handbook of mathematical functions. // National Bureau of Standards. 1964.
17. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. М.: Наука. 1965. 654 с.
18. Петров В.В. Предельные теоремы для сумм независимых случайных величин. M.: Наука. 1987. 320 с.
19. Боровков А.А. Теория вероятностей, 2-е изд. M.: Наука. 1986. 432 с.
20. Никитин Я.Ю. Об асимптотической эффективности по Ходжесу-Леману непараметрических критериев согласия и однородности // Теория вероятностей и ее применения. 1987. Т. 32, № 1. С. 82-91.
Наиль Кутлужанович Бакиров,
Институт математики с ВЦ УНЦ РАН, ул. Чернышевского, 112,
450008, г. Уфа, Россия E-mail: [email protected]