ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2010 Управление, вычислительная техника и информатика № 2(11)
УДК 519.24
В.П. Шуленин
СВОЙСТВА АДАПТИВНЫХ ОЦЕНОК ХОДЖЕСА - ЛЕМАНА В АСИМПТОТИКЕ И ПРИ КОНЕЧНЫХ ОБЪЕМАХ ВЫБОРКИ
Рассматриваются адаптивные оценки модифицированных вариантов оценки Ходжеса - Лемана. Для построения адаптивных оценок параметра сдвига симметричных распределений используются выборочные оценки функционалов, описывающих степень «тяжести хвостов» распределений. Исследуются свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от гауссовской модели в сторону «утяжеления хвостов» распределений.
Ключевые слова: робастные оценки, функция влияния, адаптивные оценки, метод статистических испытаний.
Оценка Ходжеса - Лемана (ЕЕ-оценка), предложенная в [1], среди большого числа оценок параметра положения случайной величины, принадлежит к группе лидеров по многим характеристикам. Для нормальной модели её абсолютная эффективность АЭ(Ф, ЕЕ) = 0,955, то есть она проигрывает оптимальному выборочному среднему X менее 5 % в эффективности. Оценка Ходжеса - Лемана является 5-робастной, её функция влияния ограничена и, следовательно, она «защищена» от наличия выбросов в выборке, её чувствительность к грубым ошибкам конечна и равна у* (Ф, ЕЕ) = 4% и 1,77, её предел устойчивости достаточно высок и равен є* (ЕЕ) = 0,29 (см., например [3]). В сравнении с этими характеристиками ЕЕ-оценки, выборочное среднее X, являясь оптимальной оценкой параметра сдвига 9 нормального распределения, имеет абсолютную эффективность АЭ(Ф, X) = 1, однако она теряет свойства оптимальности даже при небольших отклонениях от нормального распределения, её функция влияния неограниченна и у* (Ф, X) = ю , є* (X) = 0. Традиционно используемая альтернативная оценка параметра сдвига 9 в виде выборочной медианы X1/2 является 5-робастной, имеет максимально возможный предел устойчивости є*= 1/2, однако её абсолютная эффективность при нормальном распределении очень низкая и равна АЭ(Ф,X1/2) = 0,637 . Изучение характеристик ЕЕ-оценок в различных супермоделях, описывающих отклонения от нормального распределения в сторону «утяжеления хвостов» распределений показало, что свойства ЕЕ-оценок могут быть существенно улучшены путем различных модификаций этих оценок (см. [5, 9]), что и послужило основой для построения адаптивных оценок модифицированных вариантов оценки Ходжеса - Лемана.
В работе [9] показано, что модифицированные оценки Ходжеса - Лемана входят в класс обобщенных Е-оценок, асимптотические свойства которых описаны в [10]. В данной работе рассматриваются адаптивные оценки для обобщенных ва-
риантов оценок Ходжеса - Лемана. Изучаются свойства оценок в асимптотике и методом статистических испытаний при конечных объемах выборки.
1. Модифицированные варианты оценок Ходжеса - Лемана
Пусть Xj,...,Xn - последовательность н.о.р. случайных величин с функцией
распределения F(x - 9). Предполагаем, что ф.р. F непрерывна, симметрична, то
есть F e3S ={F: F(x) = 1 - F(-x), Vx eRj} и имеет плотность f (x), x e R1.
Оценка Ходжеса - Лемана параметра сдвига 9 определяется в виде медианы средних Уолша (Хг- + Xj)/2, 1 < i < j < n , общее число которых равно n(n +1)/2, и
записывается в виде
HL = med{(Xi + X} )/2, 1 < i < j < n }, (1)
где символ «med» обозначает выборочную медиану. Свойства HL-оценки хорошо изучены как в асимптотике, так и при конечных объемах выборки, и подробно описаны в литературе (см., например, [1 - 3]). Для описания модифицированных оценок Ходжеса - Лемана обозначим через X^,...,X(n) упорядоченную статистику выборки Xj,...,Xn, и пусть X([an]+1),...,X(n_[pn]) обозначает ap-урезанную выборку, a и р заданные пропорции урезания выборки, причем 0< a,р < 1/2. Обозначим через Cap множество m -наборов индексов (i1,..., im), удовлетворяющих условию { [an] +1 < i1 <,...,< im < n-[Pn]}, то есть множество Cap определяется в виде
Cap = {01,...,im): [an] +1 < i <,...,< im < n - [Pn]} . (2)
Модифицированные оценки Ходжеса - Лемана параметра 9, основанные на ap-урезанной выборке, были предложены в [5] и названы обобщенными оценками Ходжеса - Лемана. Эти оценки записываются в виде
HLaP (m) = med {(Xft) +... + X (im)) / m : (ІJ,..., im ) e CaP} . (3)
В классе этих обобщенных оценок выделим два случая. Пусть обе пропорции урезания выборки равны нулю, то есть a = Р = 0. В этом случае обобщенные оценки Ходжеса - Лемана записываются в виде
HL(m) = med{(X; +... + Xt )/m, 1 < i1 <... <im < n}. (4)
Далее, пусть m = 2 и a = p. В этом случае a -урезанный вариант оценки Ходжеса - Лемана, предложенный в [4], записывается в виде
HLa = med {(X(i) + X( j ))/2, k +1 < i < j < n - k }, k = [a n], 0 <a< 1/2. (5)
Асимптотические свойства HLap (m)-оценок вида (3) описаны в работе [9]. Некоторые из этих результатов для оценок (4) и (5) понадобятся ниже.
1.1. Для описания свойств Ж^^ценок вида (4) обозначим через F(m)* m-кратную свертку ф.р. F с собой, то есть F(m)* = F * F *... * F - (m раз), причем
F(1)* (x) = F(x), F(2)* (x) = F * F = J F(x - y)dF(y) и F(m)* = F(m-1)* * F . Плот-
ность ф.р. F(ш)* (x) обозначим через f(m)* (x), то есть f(m)* является m-кратной сверткой плотности f для ф.р. К Отметим, что с учетом введенных обозначений, функционал T(F) = 9 для F є ^, соответствующий оценке (4), задается неявно выражением вида
| F (ш-1)* (шТ^) - x)dF(x) = 1/2 или F(m)* (шТ^)) = 1/2. (6)
В работе [9] показано, что для F єЗS и | f(m-l)*(x)dF (х)> 0 ЕЬ(ш)-оценки асимптотически нормальны, то есть случайные величины 4п{( ЕЬ(ш) - T (F))/ст( F, ЕЬ(ш))} имеют асимптотически стандартное нормальное распределение, где асимптотическая дисперсия ^/nЕЬ(m) -оценки вычисляется по формуле
ст2( F, ЕЬ(ш)) = | Ш 2( х; F, ЕЬ(ш)^ (х) =
dF (х)
-------, F єЗs. (7)
I Г /(ш—1)1 (х)сР(х)
I—»
Функция влияния ИЦш)-оценок определяется выражением
77(“-1)* (х) - (1/2)
Щх; ^, ИЦш)) = —----------( ) ( / ) , х е Я1. (8)
7 /(ш—^ (х)й^ (х)
—ад
Для нормального распределения, то есть при ^ = Ф , функция влияния ИЬ(ш)-оценок записывается в виде
тг, ъ ти, чч Ф(т—1)* (х) — (1/2) / г— Г I х ^ 1
Ш(х;Ф,ИЬ(ш)) = ——-----------------= д/ш2п Ф| - I ——
|ф( ш—1)* (х)й? Ф( х) [_ 1>/Ш—11 2
= л/шп/2 <Ф(х/^2(т — 1)),
где <Ф(х) = 2Ф(\/2 х) — 1. Асимптотическая дисперсия уТпИЬ(т) -оценки вычисляется по формуле
а2
(Ф, ЕЬ(ш)) = | /F 2( х; Ф, ЕЬ(м)^ Ф( х) = шл/ПТ! | Ф 2( х /^2(ш -1) )е“х2/2 dx =
0
= шаг^(1 /Vш2 -1).
Чувствительность ЕЬ(ш)-оценки к грубым ошибкам равна
у*(Ф,ЕЬ(ш)) = -у/шп/2 , и чувствительность ЕЬ(ш)-оценки к локальным изменениям наблюдений вычисляется по формуле X* (Ф, ЕЬ(ш)) = ^ш /(ш -1) . Численные значения характеристик ЕЬ(ш)-оценок при F = Ф приведены в табл. 1.
Т аблица 1
Числовые характеристики робастности ИЬ(ш)-оценок при Г = Ф
Характеристики ш
1 2 3 4 5 10 ш и п —— ГО
у* (Ф, ИЬ(ш)) 1,253 1,772 2,171 2,507 2,802 3,693 ГО
X* (Ф, ИЬ(ш)) ГО 1,414 1,255 1,155 1,118 1,054 1,000
ст2(Ф, ИЬ(ш)) 1,571 1,047 1,019 1,011 1,007 1,002 1,000
Отметим, что при гауссовском распределении чувствительность ИЬ(ш)-оценок к грубым ошибкам возрастает с увеличением ш и достигает бесконечного значения (это является следствием неограниченной функции влияния при ш и П — го ). Далее, чувствительность ИЬ(ш)-оценок к локальным изменениям наблюдений и их асимптотическая дисперсия убывают до своих предельных значений, соответственно равных единице. Отметим также, что глобальная характеристика робастности оценок, называемая «точкой срыва» или пределом устойчивости, для ИЬ(ш)-оценок вычисляется по формуле е* (ИЬ(ш)) = 1 — 2—1/ш . В частности, при ш = 2 получаем известный результат для точки срыва оценки Ходжеса - Лемана в виде е* (ИЬ) = 1 — 2—12 = 0,29 (детали см. в [3, 6]). Отметим, что в классе обобщенных оценок Ходжеса - Лемана существует асимптотически эффективная оценка параметра сдвига 9 в одновыборочной задаче для симметричных распределений, то есть, если ф.р. Е е35 и её плотность /является решением дифференциального уравнения
ё2{— 1п/(х)}/ёх2 = а/(ш—1)*(х), (9)
где а - постоянная величина, тогда ст2(Е, ИЬ(ш)) = 1/I(/). Здесь I(/) - количество информации Фишера относительно параметра сдвига 9 распределения с плотностью / Убедимся в справедливости данного факта. Пусть
у(х) = — /'(х)/ /(х) = ё{— 1п /(х)}/ ёх ,
тогда уравнение (9) запишется в виде
(1/а)у /(х) = /(ш—1)* (х).
(■0 /
Далее, пусть а = 21 у (х)ёх < го , тогда
^ — ГО
ГГО /(ш—1)* (х)ёЕ(х) = (1/ а)ГГО у/(х)ёЕ(х) = (1/ а)I(/),
^ — ГО Л —ГО
а внутренний интеграл в числителе (7) равен
Л /(ш—1)* Си) ёу = (1/а){ Г—ГО у/ (у) ёу +1 0хёу(у)} = (1/2) + (1/а)[у(х) — у(0)] =
= (1/2) + (1/а) у (х).
1*го 2
Учитывая, что I у (х)ёЕ(х) = I(/), окончательно из (7) получаем
—ГО
ст2( Е, НЬ(т)) =-
ёЕ (х)
I Г /(т-1)* (х)ёЕ(х) (1/ а)2 Г у2(х)ёЕ(х)
Л —ГО
2
(10)
(1/а)212(/) 1 (/)
Отметим, что решением приведенного уравнения ё 2{- 1п / (х)}/ ёх2 = а /(т-1)* (х) при т = 2 является логистическая плотность /(х) = ехр(-х)/{1 + ехр(-х)}2. Для
этого распределения оценка Ходжеса - Лемана вида (1) является асимптотически эффективной оценкой параметра сдвига 9. Для больших объемов выборки п и при т и п НХ(т)-оценки совпадают с выборочным средним X, которое является эффективной оценкой параметра сдвига 9 при нормальном распределении.
1.2. Асимптотические свойства Жа-оценок вида (5) описаны в [6]. Приведем необходимые результаты. Отметим, что в отличие от НХ-оценки вида (1), которая вычисляется по исходной выборке Х1,...,Хп путем определения медианы средних значений Уолша (Xг- + X)/2 , 1 < / < ] < п , а - урезанная оценка Ходжеса - Лемана (Жа-оценка вида (5)) вычисляется на основе упорядоченной статистики Х(1),...,Х(п), из которой предварительно удалены к = [ап] наименьших и наибольших порядковых статистик. Функционал Та (Е), выборочной оценкой которого является оценка вида (5), задается неявно выражением
1 -а
| Е [2Та (Е) - Е_1(0^ = (1 - 2а)/2 , 0 <а< 1/2. (11)
а
1 -а -1
В работе [3] показано, что для Е еЗ, и I /(Е (/))ёt > 0 Жа-оценки
а
асимптотически нормальны, то есть случайные величины
л/п« НЬа- Та (Е))/а(Е, НЬа)} имеют асимптотически стандартное нормальное распределение, где функционал Та (Е) =9 определен в (11) и асимптотическая дисперсия 4пньа -оценки вычисляется по формуле
. (1 + 4а)(1 - 2а)2
СТЕ (НХа) = , ,2 . (12)
12 (|^“ / (Е ^ )^ )
Функция влияния Жа-оценки записывается в виде 1
1Е (х; Е, НЬа) =
Г (1 - 2а).«£п(х),\х | > Е1(1 -а) х е , (13)
| (2Е(х) -1), \ х\< Е_1(1-а) , .
Ниже (см. табл. 4 и 6) приводятся вычисления асимптотических дисперсий модифицированной оценки Ходжеса - Лемана (5) по формуле (12) для супермоделей, описывающих различные отклонения от нормального распределения.
2. Описание супермоделей
Изучение эффективности многих статистических процедур при изменении распределения вероятности наблюдений в некотором заданном классе (в рамках заданной супермодели) показывает (см., например, [3]), что эффективность часто зависит монотонно от некоторых общих свойств распределений. В частности, к таким общим свойствам относится «затянутость хвостов» распределений или «тяжесть хвостов» распределений. В литературе (см., например, [3]) описаны различные подходы для упорядочивания распределений в заданном классе по степени тяжести хвостов. Следуя работе [13], используем следующее определение. Пусть Е, О е 35|6. Говорят, что хвосты ф.р. Е легче хвостов ф.р. О (или О имеет
хвосты тяжелее, чем Е, и это записывают в виде Е <; О), если функция
О— (Е(х)) выпуклая для х >9, где 9 - точка симметрии для Е и О. Отметим, что если Е <; О, то также говорят, что распределения Е и О являются £-упорядо-ченными.
2.1. Рассмотрим супермодель 3^ в виде конечного семейства заданных симметричных распределений, то есть
з; = (Е0), Е(2), Е(3), Е(4)}, (14)
где Е^) =Ф - стандартное нормальное распределение, информация Фишера I(/(!)) = 1; Е(2) - логистическое, I(/(2)) = 1/3; Е(3) - Лапласа, I(/(3)) = 1; Е(4) -Коши, I (/(2)) = 1/2. Можно убедиться (см. [12]), что данная супермодель 3^ содержит ^-упорядоченные распределения, причем выполняется выражение
Е(1) <; Е(2) <; Е(3) <; Е(4). (15)
Следуя работе [14], рассмотрим меру «тяжести хвостов» распределения Е(х), х е Я1, в виде функционала QF (V, ц), определяемого выражением
1 V
(1/ V)! | Е_1(/)Ж -} Е_1(/)Ж }
QF (V, ц) =--------------------------------------------------------т-ц-, 0 ^<ц< 0,5. (16)
(1/ц){ | -}}
1-ц 0
Отметим, что для класса симметричных распределений 3; функционал QF (V; ц) записывается в виде
V ц
QF (V, ц) = {(1/V)} }/{(1/ц)} Е~\№}, 0 ^ <ц< 0, Е е 35. (17)
Например, для нормального распределения функционал QF (V, ц) равен Qф (V, ц) = ц ф [Ф-1 (V)]/ V ф [Ф-1 (ц)]. Численные значения функционала QF (V, ц) для значений V = 0,2, ц = 0,5 и ^-упорядоченных распределений из супермодели з; приведены в табл. 2.
Т аблица 2
Значения функционала QF (0,2;0,5) для Г
Ф.р. Е(1) Е(2) Е(3) Е(4)
QF (0,2;0,5) 1,755 1,805 1,916 2,500
Таким образом, в рамках супермодели 3^ выполняется выражение
Е <; О ^ QF (V, ц) < Q0 (V, ц).
Асимптотические дисперсии уТпИЬа -оценок, вычисленные для распределений из супермодели з; по формуле (12), приведены в табл. 6.
Абсолютные эффективности -\1пИЬа -оценок, вычисленные для распределений супермодели з; по формуле АЭ (Е, ИЬа) = {I(/) -ст2(Е, ИЬа )}-1, приведены на рис. 1.
АЭ (Е, ИЬа)
Рис. 1. Зависимости АЭ (Е, ИЬа) от параметра а для Е е 3^
Из рисунка наглядно видно, что качество ИЬа-оценок существенно зависит от параметра а. Для распределений с «тяжелыми хвостами» параметр а следует выбирать близким к 0,5. Например, для распределения Коши при а = 0,375 достигается максимальная абсолютная эффективность. Для нормального распределения следует выбрать параметр а = 0. Эти качественные соображения будут использованы ниже при адаптивном выборе параметра а, основываясь на выборочной оценке функционала QF (V, ц), построенной по исходной выборке *1,...,X.
2.2. Рассмотрим супермодель в виде семейства распределений Стьюдента 3Г е 3;, для которого ф.р. Ег (х) имеет плотность распределения /г (х) с г степенями свободы и записывается в виде
/Г (х) = А (г )(1 + (х2/ г))-(г+1)/2, х е Я1, А (г) = Г((г + 1)/2)/Л/ТП Г(г /2).
Можно убедиться, что функционал QF (V; ц) для распределений Стьюдента, то есть для Е (х) = Ег (х), вычисляется по формуле
<^, ц) = ц/2:рЕЕ1<^ .
г V /-2^(г - 2)/г • ЕГ'(ц)]
В частности, для v = 0,2 и ц = 0,5 с учетом того, что Ег-1(1/2) = 0 и /г-2 (0) = А(г - 2), получаем
QFr (0,2 ;0,5) = 5/-2 ^(г - 2)/г ^ (0,2)] /2А(г - 2) =
= 2,5 • (1 + [Е-1 (0,2)]2 /г)-(г-1)/2.
Численные значения функционала QF (0,2;0,5) приведены в табл. 3.
Т аблица 3
Значения функционала QF (0,2;0,5) для Г е 3Г
Г 1 2 3 4 5 7 9 25 г
йЕ (0,2;0,5) 2,50 2,00 1,90 1,85 1,83 1,81 1,79 1,77 1,75
Итак, для семейства распределений Стьюдента функционал QF (V; ц) монотонно зависит от числа степеней свободы , то есть выполняется неравенство
Q(ЕГ1; V, ц) < Q(Ег2; V, ц), для г2 < гх.
В работе [3] показано, что для Е г (х) е 3г асимптотическая дисперсия 4пИЬа -оценок для Ег (х) е 3г вычисляется по формуле
а2( Ег, ИЬа) =-
гп " Г(г+1) " 2 ' Г(г/2) ' 4 (1+4а)(1-2а)2
12 1 /2) т ( 1 [Г((г+1)/2)] {2 Е2г+1^(2г+1)/г Е-1(1-а)]-1}2
. (18)
В частности, из формулы (18) при а = 0 получаем формулу для вычисления асимптотической дисперсии уЩИЬ -оценки в виде
ст2( Ег, ИЬ) = -
гп " Г(г +1) " 2 ' Г(г / 2) "
12 • |_Г(г + (1/2)) ] [Г((г +1)/2) ]
(19)
Далее, из (18) при а ^ 1/2 следует формула для вычисления асимптотической дисперсии выборочной медианы Х1/2. Для -\/пХ1/2 -оценки асимптотическая дисперсия для Ег (х) е 3г вычисляется по формуле
2 — пг
а2( Ег, Х1/2) = —
Г(г/2) |_Г((г +1) / 2) _
Отметим, что для выборочного среднего X асимптотическая дисперсия >[пХ -оценки для Ег (х) е 3г вычисляется по формуле
ю г+1
ст\ (X) = А (г) | х2(1 + х2 / г) 2 ёх = г /(г - 2), г > 2. (21)
-ю
Численные значения асимптотических значений дисперсий оценок, рассчитанные по приведенным формулам (19) - (21) для Ег (х) е 3г при различных степенях свободы г, приведены в табл. 4.
Т аблица 4
Асимптотическая дисперсия и абсолютная эффективность оценок для Гг (х) е 3Г
Ст. св. г I (/) г = 1, I (/1) = 0,50 г = 2 I (/2) = 0,60 г = 3 I С/3) = 0,67 г = 5 I (/5) = 0,75
ст2(Ег, ИЬ) СТ2(Ег, ЗД ст2(Ег, X) 3,29 (0,61) 2,47 (0,81) ю (0,00) 1,92 (0,87) 2,00 (0,81) ю (0,00) 1,58 (0,95) 1,85 (0,80) 3,00 (0,50) 1,34 (0,99) 1,73 (0,77) 1,67 (0,80)
Ст. св. г I (/) г = 7 I (/7) = 0,80 г = 9 I С/9) = 0,83 г — ю, I (/ю) = 1,00
ст2(Ег, ИЬ) СТ2(Ег, ЗД ст2(Ег, X) 1,25 (1,00) 1,67 (0,75) 1,40 (0,89) 1,20 (1,00) 1,66 (0,72) 1,28 (0,94) 1,047 (0,96) 1,571 (0,64) 1,000 (1,00)
В этой таблице в скобках приведена абсолютная эффективность оценок 9 , вычисляемая по формуле
АЭ (Ег, 9) = {/ (/г)-стЕг (9)}-1,
где I(/г) - информация Фишера. Из данных таблицы (4) следует, что оценка Ходжеса - Лемана обеспечивает высокую абсолютную эффективность в рамках всего семейства распределений Стьюдента для числа степеней свободы г > 3 .
Асимптотическая относительная эффективность ИЬа-оценки относительно ИЬ-оценки Ходжеса - Лемана, вычисляемая по формуле
АОЭе (ИЬа : ИЬ) = ст2 (Е, ИЬ) /ст2 (Е, ИЬа), для Ег (х) е 3г, записывается в виде
АОЭе (ИЬ : ИЬ) = {2^-■>* , (22)
г (1 + 4 а)(1 - 2 а)2
где Ег (х) - табулированная функция распределения Стьюдента с г степенями
свободы и Е-1 также табулированная квантильная функция. Из формулы (22) получаем при г —— ю асимптотическую относительную эффективность
АОЭе (ИЬа : ИЬ) для нормального распределения, то есть для Е = Ф имеем
АОЭф (ИЬа : ИЬ) = {2Ф[^ ф 1(1-аЛ:-1}2 . (23)
(1 + 4 а)(1 - 2 а)
Из формулы (22) получаем при г = 1 асимптотическую относительную эффективность ЛОЭр (ЕЕа : ЕЕ) для распределения Коши, то есть для Е = Е1 имеем
ЛОЭг(ЕЕ :ЕЕ) = {2^^'(1 -аЯ-1}- = {1 -2а + ,-15ш(я(| -2а))}2 . (24)
1 (1 + 4 а)(1 - 2 а)2 (1 + 4а)(1 - 2а)2
Например, при а= 0,4 из (23) и (24) получаем ЛОЭф (ИЕ04 : ЕЕ) = 0,75 и ЛОЭрх (ЕЕ0,4 : ЕЕ) = 1,44.
2.3. Рассмотрим теперь гауссовскую модель с масштабным засорением, которая обычно используется при изучении влияния выбросов в выборке на оценку и определяется в виде
Зєт(Ф) = {Е:Еєт(х) = (1 -є)Ф(х) + єФ(х/т)}, 0 <є<1, т> 1. (25)
Можно убедиться (см. [3]), что функционал QЕ (V; ц) для распределений Е е3£т(Ф) вычисляется по формуле
) ц (1 -є)ф[Еєд^)] + єтф[ЕєД1(^)/т]
Q(Еєт; V, ц) = --------------------------------------------------^-, (26)
, (1 -є)Ф[Еє,т(ц)] + єтф[Ее,т(ц)/т]
где ф - стандартная нормальная плотность. В частности, для значений V = 0,2 и ц = 0,5 функционал QЕ (0,2;0,5) для Е е3£т (Ф) вычисляется по формуле
QФ (0,2;0,5) = 5лЙП|(1 ~6>Ф(х‘) + єтф(х‘1 т)}, (27)
°є'т 1 2(1 -є + єт)
где х = Е- (0,2) - квантиль уровня V = 0,2 функции распределения
Еєт (х) = (1 -є)Ф(х) + є Ф(х / т). Отметим, что для нормального распределения из формул (26) и (27) при є = 0 получаем
Qф (V, ц) = цф [Ф-1 (V)] / V ф [Ф-1 (ц)],
QФ (0,2 ;0,5) = 2,5 • ф [Ф-1 (0,2)] и 1,75.
Численные значения функционала QЕ (0,2;0,5) для Е еЗєт (Ф) приведены в табл. 5.
Т аблица 5
Значения функционала QF(0,2;0,5) для Г є36І(Ф)
т є
0,001 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0.35
т = 3 1,756 1,764 1,797 1,830 1,865 1,876 1,892 1,903 1,911
т = 5 1,757 1,777 1,850 1,916 1,962 1,996 2,020 2,036 2,046
т = 7 1,758 1,790 1,898 1,985 2,042 2,080 2,107 2,124 2,134
т = 10 1,760 1,809 1,959 2,064 2,126 2,166 2,192 2,208 2,218
В работе [3] показано, что асимптотическая дисперсия -ГпИЬа -оценки для Е(х) е 3е т (Ф) вычисляется по формуле
ст2^, ИЬа) = -•-
(1 + 4 а)(1 - 2 а)2
(28)
3 [(1 -е)2А + (2л/2Ве(1 -е)/лА + т2) + (е2/т)С]2
где А = 1 - 2Ф(х*л/2), В = 1 - 2Ф(хЧ 1 + т2 /т), С = 1 - 2Ф(х*л/2/т), х* = ЕеТт1(а) - квантиль уровня а для ф.р. Еет (х) = (1 -е)Ф(х) + еФ(х / т). Численные расчеты по формуле (28) приведены в табл. 8. Зависимости абсолютной эффективности АЭ (Еет, ИЬа) = {ст2(Еет, ИЬа у (/ет )}-1 от параметра а при различных значениях параметра е и фиксированном значении т = 3 приведены на рис. 2.
АЭ (Ее.х, ИЬа)
Рис. 2. Зависимости АЭ(Ее т,ИЬа) от параметра а при различных е и т = 3
Асимптотическая относительная эффективность оценки ИЬа-оценки относительно ИЬ-оценки Ходжеса - Лемана, вычисляемая по формуле АОЭе (ИЬа : ИЬ) = ст2(Е, ИЬ)/ ст2(Е, ИЬа), для Е(х) е3ет (Ф), приведена на рис. 3.
АОЭ (ИЬа: ИЬ)
Рис. 3. Зависимости АОЭе(ИЬа : ИЬ), Е(х) е 3е т(Ф), от параметра а при разных и т = 5
Из рис. 3 следует, что относительные достоинства ИЬа-оценок возрастают при «утяжелении хвостов» распределений, то есть при увеличении е-пропорции засорения грубыми ошибками исходной выборки. Этот факт является проявлением более общего свойства Ла-оценок, рассмотренных в [3].
Изучение асимптотических свойств ИЬа-оценок показало, что качество этих оценок существенно зависит от выбора пропорции урезания исходной выборки, которая характеризуется параметром а, 0 < а < 1/2. Например, если мы заинтересованы в уменьшении асимптотической дисперсии, то для распределений «близких по затянутости хвостов» к нормальному величину а следует выбирать близкой к нулю, для распределений с «тяжелыми хвостами» (например, Лапласа, Коши) параметр а следует выбирать близким к 1/2 . Таким образом, выбор параметра а можно связать с поведением функционала QF (V; ц) вида (16), который характеризует степень затянутости «хвостов» распределений при их изменении в заданной супермодели. Однако на практике функция распределения Е наблюдений Х1,...,Хп обычно неизвестна, поэтому естественно использовать вместо функционала QF (V; ц) его выборочную оценку, построенную по исходной выборке Х1,...,Хп. Выборочная оценка Q(Fn) функционала QF (V; ц) вида (16), построенная по выборке Х1,...,Хп методом подстановки, записывается в виде
где Х(1),...,Х(п) порядковые статистики выборки Х1,...,Хп. Отметим, что
Q(Fn) ^ Q(F; V, ц) при п ^ . Кроме того, результаты моделирования (см. [3])
показывают, что уже при объемах выборки п > 20 статистика Q(Fn) приемлема для определения типов распределений, различающихся степенью «затянутости хвостов» распределений. Для построения адаптивной оценки Ходжеса - Лемана (ИЬа -оценки), определим параметр <х(Х1,...,Хп) в виде
где параметры а1, а2, Q1 и Q2 задаются в соответствии с рассматриваемым типом супермодели и выборочная оценка Q( Еп) функционала QF (V; ц) определена в (29). Следуя [14], везде ниже полагаем V = 0,2 и ц = 0,5.
Пример 1. Рассмотрим супермодель 3^ = {Е(1), Е(2), Е(3), Е(4)}, определенную в (14). Примем следующие значения параметров: а1 = 0, а2 = 0,5, Q1 = 1,75,
3. Адаптивные Я£а-оценки
л=п-к+1 г=1 / V г=п-т+1 г=1
г=п-т+1
п
т
к = [V п], т = [ц п],
(29)
р
а!, Q(Еп)<й,
а( х1,..., хп ) = ^
а 2 - а
{Q(Fn) - Ш + а1, Ql < Q(Fn) < Q2 а2, Q(Fn) > Q2,
(30)
Q2 = 2,50. В табл. 6 приведены асимптотические дисперсии (строки п = да) для Жа-оценок, вычисленные по формуле (12), и выборочные дисперсии (строки п = 20) для Жа-оценок , полученные методом статистических испытаний при числе испытаний N = 10000 и п = 20.
Т аблица 6
Асимптотические и выборочные дисперсии Ніа-оценок для 3^. = {Т^, ,Т2, Е,, ,Т4}
Ф п ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬа
п = 20 1,04 1,07 1,09 1,15 1,25 1,39 1,43 1,04
- п = ж 1,047 1,060 1,085 1,156 1,256 1,390 1,571 1,047
Гаусс 20/ж 0,99 1,01 1,00 0,99 1,00 1,00 0,91 0,99
п = 20 3,06 3,09 3,11 3,24 3,50 3,87 3,96 3,14
¥г - п = ж 3,000 3,002 3,016 3,099 3,273 3,561 4,000 3,000
логист. 20/ж 1,02 1,03 1,03 1,05 1,07 1,09 0,99 1,05
п = 20 1,40 1,37 1,33 1,26 1,23 1,23 1,25 1,39
Рз - п = ж 1,333 1,322 1,296 1,224 1,146 1,070 1,000 1,306
Лаплас 20/ж 1,05 1,04 1,03 1,03 1,07 1,15 1,25 1,06
п = 20 3,93 3,66 3,36 2,81 2,47 2,43 2,45 2,66
Е4 - п = ж 3,290 3,208 3,025 2,616 2,345 2,283 2,467 2,467
Коши 20/ж 1,19 1,14 1,11 1,07 1,05 1,06 0,99 1,08
В строках (20 / ж) этой таблицы приведены отношения выборочных дисперсий ИЬа-оценок при п = 20 к асимптотическим дисперсиям. В правом столбце таблицы приведены данные для адаптивной ИЬа -оценки Ходжеса - Лемана, для которой параметр а(Хь...,Хп) определен выражением (30) при значении параметров: а1 = 0, а2 = 0,5 , О = 1,75 , О2 = 2,50 . Из данных таблицы (6) следует, что приведенные выше асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий ИЬа-оценок при конечных объемах выборки п > 20, за исключением некоторых значений при распределениях Лапласа и Коши. Для этих распределений с «тяжелыми хвостами», как показали результаты моделирования, качество асимптотики существенно улучшается при объемах выборки п > 40. Чтобы проиллюстрировать преимущество предложенных адаптивных ИЬа -оценок, применим критерий сравнения оценок, основанный на понятии
дефекта оценки (см. работы [2, 3]). Дефект оценки 0і, і = 1,...,к , среди сравниваемых оценок 01,..., 0к параметра 0 при заданном распределении Е определяется в виде
БЕ(Е, 0і) = 1 - шіп(ст2 (Е, 01),..., ст2(Е, 0к)}/ст2(Е, 0і), і = 1,..., к . (31)
Отметим, что если среди сравниваемых оценок 0;,...,0к есть эффективная оценка 0* параметра 0 при заданном распределении Е, для которой ст2(Е,0*) = 1/1(/), тогда шіп{ст2(Е,01),...,ст2(Е,0к)} = 1/1(/) и, следовательно, в
этом случае дефект оценки 0г равен единица минус ее абсолютная эффективность, то есть
БЕ(Е,0г) = 1 - АЭ(Е,0г), г = 1,..., к . (32)
При изучении свойств робастности сравниваемых оценок 01,...,0к параметра сдвига 0 в рамках супермодели 3, состоящей из конечного набора симметричных распределений 3 = {Е1,...,Ег}, изучают поведение дефективностей оценок на плоскости двух распределений (см. [2]). По оси абсцисс обычно откладывают дефективность для базовой (идеальной модели, обычно гауссовской), а по оси ординат - дефективность для альтернативной модели, входящей в супермодель 3={Е1,...,Ег}. При таком наглядном представлении дефективностей оценок на
плоскости двух распределений предпочтение отдается той оценке, которая окажется ближе к началу координат. Если же мы хотим сделать вывод о предпочтительности оценки среди сравниваемых оценок (Э1,..., 0к параметра 0 в рамках всей рассматриваемой супермодели 3 = {Е1,...,Ег}, то можно использовать евклидову метрику, которая, с использованием введенных обозначений, запишется в виде
ё (0 г; 3) =
Предпочтение в рамках всей рассматриваемой супермодели 3 = {Е1,...,Ег} отдается той оценке 0г среди сравниваемых оценок 01,..., 0к , для которой вычисленное значение евклидовой метрики ё(0г; 3) минимальное, то есть
ё(0г;3) = шт{ё(01;3),...,ё(0к;3)}, г = 1,..., к . (34)
Т аблица 7
Значения евклидовой метрики Ніа-оценок для супермодели 3^. = {Е(1), Е(2), Е(3), Е(4)}
0 ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬа
ё(0,3х ) 0,40 0,35 0,29 0,18 0,21 0,33 0,36 0,15
В этой таблице евклидова метрика (33) была вычислена по эмпирическим данным (при п = 20) таблицы (6) с использованием формулы (31). Таким образом, в
семействе ИЬа-оценок для супермодели 3^ предпочтение следует отдать адаптивной ИЬа -оценке, для которой ё(ИЬа, 3^) = 0,15 .
Пример 2. Рассмотрим супермодель 3ЄТ (Ф) вида (25). Для определения параметра а(Х1,...,Хп) по формуле (30) примем следующие значения параметров: а1 = 0, а2 = 0,5 ,О = 1,75 ,О2 = 2,00 . В табл. 8 приведены асимптотические дисперсии (строки п = ж) ИЬа-оценок, вычисленные по формуле (28), и выборочные дисперсии (строки п = 20) ИЬа-оценок, полученные методом статистических испытаний при числе испытаний N = 10000 и объёме выборки п = 20.
11 / А
, і = 1,..., к . (33)
Т аблица 8
Асимптотические и выборочные дисперсии Ніа-оценок для Г є 3в т (Ф) при т = 3
При п ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬ&
в = 0,00 п = 20 1,04 1,06 1,10 1,19 1,30 1,42 1,46 1,05
п = ж 1,047 1,060 1,085 1,156 1,256 1,390 1,571 1,047
20/ж 0,99 1,00 1,01 1,03 1,04 1,02 0,93 1,00
в = 0,05 п = 20 1,17 1,18 1,20 1,29 1,40 1,55 1,58 1,17
п = ж 1,171 1,172 1,189 1,252 1,351 1,490 1,681 1,171
20/ж 1,00 1,01 1,01 1,03 1,04 1,04 0,94 1,00
в = 0,10 п = 20 1,38 1,38 1,40 1,46 1,55 1,67 1,70 1,32
п = ж 1,311 1,302 1,308 1,360 1,457 1,600 1,803 1,303
20/ж 1,05 1,06 1,07 1,07 1,06 1,04 0,94 1,01
в = 0,20 п = 20 1,80 1,77 1,75 1,75 1,85 1,94 1,97 1,65
п = ж 1,651 1,628 1,605 1,622 1,709 1,861 2,091 1,617
20/ж 1,09 1,09 1,09 1,08 1,08 1,04 0,94 1,02
в = 0,30 п = 20 2,14 2,08 2,00 1,97 2,05 2,21 2,24 1,95
п = ж 2,090 2,062 2,004 1,966 2,032 2,191 2,454 1,993
20/ж 1,02 1,01 1,00 1,00 1,01 1,01 0,91 0,98
в = 0,40 п = 20 2,63 2,57 2,49 2,44 2,53 2,79 2,87 2,50
п = ж 2,655 2,627 2,543 2,425 2,455 2,616 2,921 2,483
20/ж 0,99 0,98 0,98 1,01 1,03 1,07 0,98 1,01
Для сравнения ИЬа-оценок с адаптивной ИЬа -оценкой в рамках супермодели
3в т (Ф) воспользуемся критерием, основанным на евклидовой метрике вида (33),
которая была вычислена по эмпирическим данным (при п = 20) табл. 8 с использованием формулы (31).
Т аблица 9
Значения евклидовой метрики Ніа-оценок для супермодели 3Е т (Ф)
0 ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬй
ё (0,3в ,х (Ф)) 0,15 0,12 0,11 0,19 0,32 0,48 0,52 0,03
Таким образом, в семействе Жа-оценок в рамках супермодели 3ет (Ф), согласно критерию (34), предпочтение следует отдать адаптивной -оценке, для которой параметр а(Х1,...,Хп) определяется выражением (30) и ё(Жа, 3ет (Ф)) = 0,03. На рис. 4 приведены абсолютные эффективности ИЬа-оценок и адаптивной ИЬ& -оценки для гауссовской супермодели с масштабным засорением, то есть для Е е3ЕТ (Ф). Из рисунка наглядно видно, что адаптивная Жа -оценка обладает преимуществом перед Жа-оценками с фиксированной пропорцией урезания а исходной выборки Х1,..., Хп.
АЭ (F, HLa)
Рис. 4. Абсолютные эффективности Жа-оценок в рамках супермодели 3е т(Ф), т = 3
Заключение
В работе предложены адаптивные оценки a-урезанного варианта (5) оценки Ходжеса - Лемана параметра сдвига симметричных распределений. Описаны асимптотические свойства предложенных оценок. Параметр a(X1,...,Xn) адаптивной HLa -оценки выбирается на основе информации, содержащейся в исходной выборке Xj,...,Xn, путем использования выборочной оценки функционала, характеризующего степень «тяжести хвостов» распределений. Приводятся свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от нормальной модели в сторону «утяжеления хвостов» распределений. Показано, что приведенные асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий Жа-оценок при конечных объемах выборки n > 20. Предложен критерий сравнения заданного семейства оценок (Э1,..., 0k параметра сдвига 0 в рамках супермодели 3, состоящей из конечного набора симметричных распределений. Этот критерий записан в виде евклидовой метрики с использованием понятия дефекта оценки при заданном распределении.
ЛИТЕРАТУРА
1. Hodges J.L., Lehmann E.L. Estimation of location based on rank tests // Ann. Math. Statist.
1963. V. 34. P. 598 - 611.
2. Andrews D.F., Bickel P.Z., Hampel F.R., et al. Robust estimation of location: survey and advances. Princeton, N.Y.: Princeton Univ. Press, 1972. 375 p.
3. Шуленин В.П. Введение в робастную статистику. Томск: Изд-во Том. ун-та, 1993. 227 с.
4. Шуленин В.П. Об устойчивости класса оценок Ходжеса - Лемана // Тр. 6-й Всес. конф. по теории кодирования и передачи информ. Москва - Вильнюс, 1978. С. 147 - 151.
5. Shulenin V.P. Asymptotic properties and robustness a generalized Hodges-Lehmann estimate.
Il-th PRAGUE Conf. On Information Theory. Abstracts. 1990.
6. Shulenin V.P., Deeva T.A. The numerical characteristics of robustness of the class of the Hodges-Lehmann Generalized estimators // Proc. the Third Russian-Korean International Symposium on Science and Technology. KORUS’99. June 22 - 25, 1999 at Novosibirsk State Technical University, Novosibirsk, Russia. V. 2. P. 510 - 513.
7. Shulenin V.P., Deeva T.A. Asymptotic efficiency for the generalized Hodges - Lehmann estimator under the normal scale mixture distributions. Computer data analysis and modeling. Minsk, 1998. V. 2. P. 107 - 112.
8. Shulenin V.P. Asymptotic properties of the trimmed GL- and U-statistics // бШ Prague Symposium on Asymptotic Statistics. Prague, 1998, August 23 - 28. Prague Stochatics’98. Abstracts. Р. 84.
9. Шуленин В.П. Асимптотические свойства урезанных GL-и U-статистик // Вестник ТГУ. Приложение. 2004. № 9(II). С. 184 - 190.
10. SerflingR.J. Generalized L-, M- and R-statistics // Ann. Statist. 1984. V. 12. P. 7б - 8б.
11. SerflingR.J. Approximation Theorems of Mathematical Statistics. N.Y.: Wiley, 1980. 371 p.
12. Хеттсманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987. 334 с.
13. Van Zwet W.R. Convex Transformations of Random Variables // Math. Centrum. Amsterdam,
19б4.
14. Hogg R.V. Adaptive robust procedures: partial review and some suggestions for future applications and theory // J. Amer. Statist. 1974. V. 35. P. 73 - 101.
Шуленин Валерий Петрович Томский государственный университет E-mail: [email protected]
Поступила в редакцию 23 марта 2010 г.