МАТЕМАТИКА
i
УДК 519.2
В. И. Тимонин
АНАЛОГИ ДВУХВЫБОРОЧНЫХ СТАТИСТИК РЕНЬИ ДЛЯ ПРОВЕРКИ ГИПОТЕЗЫ ЛЕМАНА
Рассмотрена двухвыборочная задача проверки степенной гипотезы Лемана для цензурированных справа выборок. Предложен непараметрический критерий проверки этой гипотезы, являющийся аналогом критерия Реньи однородности двух выборок. Получены точные и предельные распределения статистики критерия при справедливости рассматриваемых гипотез.
В работе [1] была рассмотрена следующая задача. Пусть имеются две независимые выборки х = (ж1;...,хт), у = (у1,...,уп), причем хг ~ ^(х), у^ ~ С(х), г = 1 , т, ] = 1, п. Требуется проверить основную (нулевую) гипотезу
где к > 1 — известное фиксированное число.
Гипотезы вида (1) рассматривались впервые Леманом в работе [2] в качестве альтернативных к гипотезе однородности. Позднее Кокс [3] исследовал методы оценки зависимостей числа к от факторов (кова-риат), предполагая, что выполнена гипотеза (1) (точнее, аналогичное соотношение для функций ^(х) = 1 — ^(х), (5(х) = 1 — С(х)).
В работе [1] был предложен критерий проверки гипотезы (1), а также получены предельное распределение его статистики при выполнении гипотезы (1) и метод вычисления ее точных распределений. В настоящей работе исследуется задача проверки гипотезы (1) в том случае, когда выборки х, у являются цензурированными справа. Цензурирование часто имеет место при испытаниях технических систем, в клинических исследованиях и т.д.
При проверке однородности (т.е. при к = 1) в таких случаях наиболее часто применяют двухвыборочный критерий Реньи, статистика которого имеет вид [4]
Ho: F(x) = (G(x))k,
(1)
R
(2)
где Fm(x),Gn(x) — эмпирические функции распределения выборок
x,
HHm+n(x) = -— (mFm(x) + nG n (x) )
m + n V /
— объединенная эмпирическая функция распределения; q — фиксированное число, 0 < q < 1.
Реньи доказал, что предельное распределение Rq при условии k = 1 не зависит от параметра q и имеет вид
L(x) = (3)
i =0 v 7
Далее после введения необходимых обозначений определим статистику Rqk и докажем, что ее предельное распределение не зависит от параметров q и k. Затем рассмотрим метод вычисления ее точных распределений для произвольных q, k. В заключение приведем таблицы точных значений вероятностей P (Tqk < h) для ряда значений m,n,q,k,h и изучим вопрос допустимости использования предельного распределения при небольших объемах выборок x, y.
Без ограничения общности будем считать, что F(x)=x, G(x)=xko, k0 = 1/k, 0 6 x 6 1- Аналогом функции Hm+n (x) является функция
hmn = (mFm(x) + n(GJx))k) .
m + n V /
Далее для упрощения записи будем часто опускать индексы m, n функции hmn (x), обозначая ее через h(x).
Для дальнейшего изложения потребуется следующее утверждение.
Лемма. Пусть выполнена гипотеза (1). Тогда при m,n ^го справедливо равенство
P(sup |hmn(x) - x| ^ 0) = 1-
x
Доказательство очевидно в силу теоремы Гливенко и непрерывности на отрезке [0, 1] функции y = xk.
В работе [1] доказана теорема, которая используется при выводе основного результата.
Теорема 1. При m,n ^го, m/n ^ р > 0распределение случайного процесса
Zmn(x) = V^Fm (x) - (Gn(x))k), 0 6 x 6 1,
слабо сходится к распределению непрерывного гауссовского процесса Z(x) с характеристиками
EZ(x) = 0, EZ(s)Z(t) = s(1-t+^t1-ko(1-tko)), ß = k2p, s 6 t.
(4)
Рассмотрим статистику
Tk W(1 - q mgx ^ (x) - (Gn (x))k I (5
Tqk q mh)<q 1 - h(x)+ ^((h(x))!-fe0 - h(x)) ' (5)
где
% h
<aM = -77-;—;-тг, 0 < q < 1.
' 1 + ^(h1-k° - h)' У
Для предельного распределения статистики (5) справедлива следующая теорема.
Теорема 2. При m, n ^ то, m/n ^ р > 0 предельное распределение статистики Tqk не зависит от параметров q, k и совпадает с распределением Реньи (3).
Доказательство. Заметим прежде всего, что из условия <^(h) < q следует, что знаменатель дроби в статистике (5) ограничен снизу:
1 - h(x) + ^((h(x))1-k0 - h(x)) =
= (1 - p(h(x)))(1 + ^((h(x))1-k0 - h(x))) > 1 - q > 0.
В этом случае, как показано в работах [4, 5], в силу леммы при выводе асимптотического распределения можно заменить hmn(x) на предельную функцию ж, 0 6 x 6 1- С учетом теоремы 1 получим, что асимптотическое распределение статистики (5) совпадает с распределением функционала вида
Ф(Я(x)) = y^ sup |Z(Х)|
9 ^(ж)<д 1 - X + „(ж1 -0 - Ж) Рассмотрим строго возрастающее преобразование
У = *(ж)=1 + „(х^. - Ж) ■ [0' ^ |0'11' Пусть ж (у) — обратное преобразование. Тогда процесс
IV (у) =_?(Ж(»))_
КУ1 1 + „(х(у))1-к0 - х(у) является броуновским мостом, что следует из равенств
£И'(У) = 0 ^(">^(«) = 1 + „((ж(иЖ)()и-к. - Ж(и)) Х
х /1 - ж(') + „ФМ)1--» - ж('» \ = и - V), 0 6 и 6 V 6 1.
V 1 + „((ж('))1 0 - ж(' )) ) v '
Учитывая, что распределение функционалов типа экстремумов процессов не изменяется при монотонном изменении шкалы времени, получим при х = х(у)
\t—q suP —|—()—ko—т <h \ =
ip(x)<q 1 x + ß(X 0 x)
= p
q y<q 1 : x(yJ+ r((x(y))1—ko : x(y)J
( _ \
q _Wy)_< h
sup--¡-\- < h
fT—q
y^r
q y<q 1 _ x(yJ
1 + r((x(y))1-ko : x(y)) /
=^ я Я
Последняя вероятность является предельным значением вероятности Р(Яд < Н) для статистики Реньи (2).
Доказанная теорема позволяет проверить гипотезу (1) при больших объемах выборок т, п. На практике, особенно при испытаниях технических систем, количество образцов никогда не превышает нескольких десятков. Как будет показано далее, в этом случае использование предельного распределения может привести к значительным ошибкам при проверке гипотезы (1). По этим причинам важное значение имеет задача вычисления точных распределений статистики (5).
В работе [6] приведен метод вычисления точных распределений — статистик типа Колмогорова-Смирнова для случая I выборок, функции распределения которых связаны степенной зависимостью. Он основан на теории случайного блуждания по ячейкам /-мерной матрицы А; значения функции распределения статистик равны вероятности невыхода траекторий блуждания за пределы некоторого подмножества А0 С А. Применение этого метода к рассматриваемой статистике составляет содержание приводимой далее теоремы. Поскольку ее утверждение является простым следствием более общего результата из работы [6], то доказательство опускается.
Теорема 3. Вероятность Р(Тдк < Н) равна величине птп(Н), которая может быть вычислена с помощью итерационной процедуры
(h) = ("i-ij ik+7 + ikTj) (Ao) (6)
гк
1 гк + ] г'3-1 гк + ] с начальными и граничными условиями
noo(h) = 1, П—i,i(h) = 0, ni_i(h) = 0, i = 0,m, j = 0, n;
здесь
h > 0,
Xij
{0:
если (i, j) £ A0, если (i, j) £ A0.
Множество А0 состоит из пар целых чисел (г, ]), г = 0,т, ^ = 0,п, для которых справедливо хотя бы одно из следующих условий:
а)
б)
ij
1 + М1
д-feü ij
aij )
>
in
k-1
aij=
+ j '
(m + n)nk
-1
ij
1-kü ij
- aij)
< 9> П
1
п <
Д—q
(9'
1 - aij + ^ (a1jkü - aij)
< h
Метод позволяет рассчитывать точные распределения для больших объемов выборок т, п ввиду отсутствия в процедуре (6) больших или малых множителей.
В табл. 1,2 приведены рассчитанные точные значения вероятностей Р(Т^ < Л) для двух значений глубины цензурирования д: = 0,7; д2 = 0,85. Три значения аргумента = 1,78; Л2 = 1,96; Л3 = 2,24 выбраны как наиболее близкие к квантилям уровня 0,85; 0,9; 0,95 предельного распределения Реньи (3). Объемы выборок полагаются равными т = п и изменяются в пределах 20 6 т 6 10000. В таблицах приведены первые четыре цифры после запятой, т.е. если вероятность равна 0,83246, то в таблице записано 0,8325.
Анализ результатов расчета показывает очень медленную сходимость вероятностей к их предельным значениям. Даже при объемах выборок порядка 1000 разница может превышать 0,01. При объемах от 20 до 50 разница нередко составляет величину, доходящую до 0,1, причем точные вероятности всегда больше предельных. На практике, когда используются в основном асимптотические результаты, это приводит к существенному увеличению вероятности ошибок первого рода.
Сформулированные выводы справедливы не только для статистик (5). Оказалось, что медленная сходимость к предельным вероятностям имеет место и для к = 1 при использовании статистик (2). Применяя несколько измененную процедуру (6), были вычислены точные вероятности Р(Яд < 1,78) при т = п = 5000 и т = п = 10000, когда д = 0,9.
m
m
20
30
40
50
60
70
80
90
100
200
300
400
500
600
700
800
900
1000
2000
3000
5000
7500
10000
те
>
Значения вероятностей P(Tkq < h) при q = 0,7
При k =1,5 При k = 2 При k = 3
h = h = h = h= h = h = h= h = h =
= 1,78 = 1,96 = 2,24 = 1,78 = 1,96 = 2,24 = 1,78 = 1,96 = 2,24
0,9290 0,9589 0,9599 0,9013 0,9014 1 1 1 1
0,8978 0,9295 0,9762 0,9198 0,9569 0,9696 0,8308 0,9992 1
0,8836 0,9407 0,9652 0,8734 0,9396 0,9754 0,8945 0,9029 0,9998
0,8861 0,9312 0,9593 0,8983 0,9321 0,9668 0,9319 0,9408 0,9527
0,8802 0,9265 0,9618 0,8919 0,9427 0,9755 0,9183 0,9522 0,9725
0,8858 0,9220 0,9633 0,8952 0,9259 0,9666 0,9086 0,9542 0,9817
0,8835 0,9207 0,9652 0,8934 0,9398 0,9691 0,8758 0,9331 0,9736
0,8808 0,9249 0,9624 0,8990 0,9256 0,9707 0,8846 0,9255 0,9661
0,8723 0,9221 0,9640 0,8799 0,9270 0,9673 0,8956 0,9349 0,9593
0,8715 0,9113 0,9567 0,8748 0,9099 0,9601 0,8794 0,9192 0,9646
0,8650 0,9135 0,9560 0,8671 0,9187 0,9559 0,8645 0,9201 0,9596
0,8633 0,9088 0,9557 0,8617 0,9119 0,9570 0,8651 0,9149 0,9551
0,8623 0,9084 0,9550 0,8649 0,9096 0,9547 0,8668 0,9109 0,9557
0,8619 0,9092 0,9559 0,8613 0,9098 0,9558 0,8644 0,9120 0,9563
0,8607 0,9073 0,9560 0,8591 0,9091 0,9547 0,8647 0,9112 0,9570
0,8605 0,9074 0,9536 0,8601 0,9080 0,9546 0,8616 0,9114 0,9566
0,8592 0,9071 0,9534 0,8590 0,9089 0,9540 0,8634 0,9119 0,9562
0,8572 0,9061 0,9531 0,8595 0,9076 0,9549 0,8624 0,9070 0,9543
0,8561 0,9044 0,9521 0,8571 0,9051 0,9527 0,8564 0,9058 0,9539
0,8545 0,9033 0,9516 0,8546 0,9041 0,9519 0,8572 0,9053 0,9526
0,8535 0,9029 0,9514 0,8541 0,9034 0,9517 0,8550 0,9040 0,9520
0,8527 0,9023 0,9511 0,8532 0,9025 0,9512 0,8541 0,9032 0,9514
0,8525 0,9019 0,9509 0,8526 0,9022 0,9510 0,8534 0,9027 0,9513
0,8498 0,9000 0,9498 0,8498 0,9000 0,9498 0,8498 0,9000 0,9498
т
20
30
40
50
60
70
80
90
100
200
300
400
500
600
700
800
900
1000
2000
3000
5000
7500
0000
те
SN 181
Значения вероятностей Р(Т^ < Л) при д = 0,85
При к = 1,5 При к = 2 При к = 3
Л = Л = Л = Л = Л = Л = Л = Л = Л =
= 1,78 = 1,96 = 2,24 = 1,78 = 1,96 = 2,24 = 1,78 = 1,96 = 2,24
1 1 1 1 1 1 1 1 1
0,8209 1 1 1 1 1 1 1 1
0,9355 0,9370 1 0,8443 1 1 1 1 1
0,9260 0,9630 0,9676 0,8855 0,8855 1 1 1 1
0,8965 0,9391 0,9819 0,9258 0,9367 0,9999 1 1 1
0,8821 0,9384 0,9747 0,9156 0,9579 0,9624 0,8616 1 1
0,9012 0,9450 0,9664 0,9327 0,9578 0,9739 0,8602 0,9998 1
0,9065 0,9438 0,9717 0,9045 0,9557 0,9841 0,8920 0,8925 1
0,8781 0,9340 0,9733 0,8810 0,9336 0,9845 0,9076 0,9164 0,9999
0,8842 0,9212 0,9632 0,8874 0,9203 0,9720 0,8977 0,9123 0,9823
0,8727 0,9171 0,9583 0,8901 0,9220 0,9632 0,8809 0,9108 0,9733
0,8730 0,9188 0,9591 0,8766 0,9163 0,9627 0,8867 0,9244 0,9621
0,8679 0,9123 0,9573 0,8736 0,9162 0,9603 0,8847 0,9215 0,9641
0,8636 0,9122 0,9578 0,8706 0,9144 0,9577 0,8756 0,9254 0,9591
0,8611 0,9135 0,9566 0,8636 0,9152 0,9593 0,8741 0,9202 0,9583
0,8662 0,9139 0,9569 0,8686 0,9128 0,9577 0,8726 0,9165 0,9609
0,8640 0,9105 0,9556 0,8664 0,9118 0,9567 0,8698 0,9124 0,9595
0,8609 0,9086 0,9550 0,8664 0,9088 0,9558 0,8735 0,9124 0,9600
0,8582 0,9070 0,9531 0,8607 0,9075 0,9543 0,8637 0,9106 0,9543
0,8570 0,9050 0,9528 0,8590 0,9073 0,9525 0,8628 0,9055 0,9541
0,8550 0,9043 0,9522 0,8565 0,9044 0,9524 0,8576 0,9054 0,9539
0,8538 0,9032 0,9517 0,8556 0,9036 0,9522 0,8569 0,9053 0,9524
0,8536 0,9027 0,9515 0,8541 0,9033 0,9518 0,8553 0,9041 0,9519
0,8498 0,9000 0,9498 0,8498 0,9000 0,9498 0,8498 0,9500 0,9498
Предельное значение вероятности равно 0,8498, точные — 0,8532 (n = 10000). Разница превышает 0,003.
В заключение автор выражает признательность И.И. Барышниковой за составление программы, реализующей алгоритм (6).
СПИСОК ЛИТЕРАТУРЫ
1. ТимонинВ. И. О предельном распределении статистики одного непараметрического критерия // Теория вероятностей и ее применение. - 1987. - Т. 32. -№ 4. - С. 790-792.
2. Lehman E. The Power of Rank Tests // Annals of Mathematical Statistics. - 1953. -V. 24. - № 1.-P. 23-43.
3. C o x D. Regression Models and Life-Tables // J. Royal Statist. Society. - 1972. -V. B-34. - P. 187-220.
4. Гаек Я., Шидак З. Теория ранговых критериев. - М.: Наука. - 1971. - 376 с.
5. Королюк В. С., Боровских Ю. В. Аналитические проблемы асимптотики вероятностных распределений. - Киев: Наукова думка, 1981. - 240 с.
6. Тимонин В. И., Черномордик О. М. Метод вычисления точного распределения статистик типа Колмогорова-Смирнова при альтернативах Лемана // Теория вероятностей и ее применение. - 1985. - Т. 30. - № 3. - С. 572-573.
Статья поступила в редакцию 4.06.2004
Владимир Иванович Тимонин родился в 1952 г., окончил в 1975 г. Московский институт электронного машиностроения. Канд. физ.-мат. наук, доцент кафедры "Высшая математика" МГТУ им. Н.Э. Баумана. Автор 26 научных работ в области теории надежности и математической статистики.
V.I. Timonin (b. 1952) graduated from the Moscow Institute for Electronic Engineering in 1975. Ph.D. (Phys.-Math.), assoc. professor of "Higher Mathematics" department of the Bauman Moscow State Technical University. Author of 26 publications in the field of theory of reliability and mathematical statistics.