Научная статья на тему 'Свойства адаптивных оценок Ходжеса Лемана в асимптотике и при конечных объемах выборки'

Свойства адаптивных оценок Ходжеса Лемана в асимптотике и при конечных объемах выборки Текст научной статьи по специальности «Математика»

CC BY
1043
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБАСТНЫЕ ОЦЕНКИ / ФУНКЦИЯ ВЛИЯНИЯ / АДАПТИВНЫЕ ОЦЕНКИ / МЕТОД СТАТИСТИЧЕСКИХ ИСПЫТАНИЙ / ADAPTIVE ESTIMATION / ROBUST METHODS / SMALL SAMPLE VARIANCES / INFLUENCE FUNCTION / RELATIVE EFFICIENCY

Аннотация научной статьи по математике, автор научной работы — Шуленин Валерий Петрович

Рассматриваются адаптивные оценки модифицированных вариантов оценки Ходжеса Лемана. Для построения адаптивных оценок параметра сдвига симметричных распределений используются выборочные оценки функционалов, описывающих степень «тяжести хвостов» распределений. Исследуются свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от гауссовской модели в сторону «утяжеления хвостов» распределений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The adaptive HL -estimators are studied in this paper for finite samples (n = 20) and for the case, when n > ∞. They are shown to have good robustness and efficiency properties for sample sizes 20 and larger. Two measures of the performance estimators are considered. Monte Carlo study is based on N = 10000 random samples of sizes n = 20,40.

Текст научной работы на тему «Свойства адаптивных оценок Ходжеса Лемана в асимптотике и при конечных объемах выборки»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2010 Управление, вычислительная техника и информатика № 2(11)

УДК 519.24

В.П. Шуленин

СВОЙСТВА АДАПТИВНЫХ ОЦЕНОК ХОДЖЕСА - ЛЕМАНА В АСИМПТОТИКЕ И ПРИ КОНЕЧНЫХ ОБЪЕМАХ ВЫБОРКИ

Рассматриваются адаптивные оценки модифицированных вариантов оценки Ходжеса - Лемана. Для построения адаптивных оценок параметра сдвига симметричных распределений используются выборочные оценки функционалов, описывающих степень «тяжести хвостов» распределений. Исследуются свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от гауссовской модели в сторону «утяжеления хвостов» распределений.

Ключевые слова: робастные оценки, функция влияния, адаптивные оценки, метод статистических испытаний.

Оценка Ходжеса - Лемана (ЕЕ-оценка), предложенная в [1], среди большого числа оценок параметра положения случайной величины, принадлежит к группе лидеров по многим характеристикам. Для нормальной модели её абсолютная эффективность АЭ(Ф, ЕЕ) = 0,955, то есть она проигрывает оптимальному выборочному среднему X менее 5 % в эффективности. Оценка Ходжеса - Лемана является 5-робастной, её функция влияния ограничена и, следовательно, она «защищена» от наличия выбросов в выборке, её чувствительность к грубым ошибкам конечна и равна у* (Ф, ЕЕ) = 4% и 1,77, её предел устойчивости достаточно высок и равен є* (ЕЕ) = 0,29 (см., например [3]). В сравнении с этими характеристиками ЕЕ-оценки, выборочное среднее X, являясь оптимальной оценкой параметра сдвига 9 нормального распределения, имеет абсолютную эффективность АЭ(Ф, X) = 1, однако она теряет свойства оптимальности даже при небольших отклонениях от нормального распределения, её функция влияния неограниченна и у* (Ф, X) = ю , є* (X) = 0. Традиционно используемая альтернативная оценка параметра сдвига 9 в виде выборочной медианы X1/2 является 5-робастной, имеет максимально возможный предел устойчивости є*= 1/2, однако её абсолютная эффективность при нормальном распределении очень низкая и равна АЭ(Ф,X1/2) = 0,637 . Изучение характеристик ЕЕ-оценок в различных супермоделях, описывающих отклонения от нормального распределения в сторону «утяжеления хвостов» распределений показало, что свойства ЕЕ-оценок могут быть существенно улучшены путем различных модификаций этих оценок (см. [5, 9]), что и послужило основой для построения адаптивных оценок модифицированных вариантов оценки Ходжеса - Лемана.

В работе [9] показано, что модифицированные оценки Ходжеса - Лемана входят в класс обобщенных Е-оценок, асимптотические свойства которых описаны в [10]. В данной работе рассматриваются адаптивные оценки для обобщенных ва-

риантов оценок Ходжеса - Лемана. Изучаются свойства оценок в асимптотике и методом статистических испытаний при конечных объемах выборки.

1. Модифицированные варианты оценок Ходжеса - Лемана

Пусть Xj,...,Xn - последовательность н.о.р. случайных величин с функцией

распределения F(x - 9). Предполагаем, что ф.р. F непрерывна, симметрична, то

есть F e3S ={F: F(x) = 1 - F(-x), Vx eRj} и имеет плотность f (x), x e R1.

Оценка Ходжеса - Лемана параметра сдвига 9 определяется в виде медианы средних Уолша (Хг- + Xj)/2, 1 < i < j < n , общее число которых равно n(n +1)/2, и

записывается в виде

HL = med{(Xi + X} )/2, 1 < i < j < n }, (1)

где символ «med» обозначает выборочную медиану. Свойства HL-оценки хорошо изучены как в асимптотике, так и при конечных объемах выборки, и подробно описаны в литературе (см., например, [1 - 3]). Для описания модифицированных оценок Ходжеса - Лемана обозначим через X^,...,X(n) упорядоченную статистику выборки Xj,...,Xn, и пусть X([an]+1),...,X(n_[pn]) обозначает ap-урезанную выборку, a и р заданные пропорции урезания выборки, причем 0< a,р < 1/2. Обозначим через Cap множество m -наборов индексов (i1,..., im), удовлетворяющих условию { [an] +1 < i1 <,...,< im < n-[Pn]}, то есть множество Cap определяется в виде

Cap = {01,...,im): [an] +1 < i <,...,< im < n - [Pn]} . (2)

Модифицированные оценки Ходжеса - Лемана параметра 9, основанные на ap-урезанной выборке, были предложены в [5] и названы обобщенными оценками Ходжеса - Лемана. Эти оценки записываются в виде

HLaP (m) = med {(Xft) +... + X (im)) / m : (ІJ,..., im ) e CaP} . (3)

В классе этих обобщенных оценок выделим два случая. Пусть обе пропорции урезания выборки равны нулю, то есть a = Р = 0. В этом случае обобщенные оценки Ходжеса - Лемана записываются в виде

HL(m) = med{(X; +... + Xt )/m, 1 < i1 <... <im < n}. (4)

Далее, пусть m = 2 и a = p. В этом случае a -урезанный вариант оценки Ходжеса - Лемана, предложенный в [4], записывается в виде

HLa = med {(X(i) + X( j ))/2, k +1 < i < j < n - k }, k = [a n], 0 <a< 1/2. (5)

Асимптотические свойства HLap (m)-оценок вида (3) описаны в работе [9]. Некоторые из этих результатов для оценок (4) и (5) понадобятся ниже.

1.1. Для описания свойств Ж^^ценок вида (4) обозначим через F(m)* m-кратную свертку ф.р. F с собой, то есть F(m)* = F * F *... * F - (m раз), причем

F(1)* (x) = F(x), F(2)* (x) = F * F = J F(x - y)dF(y) и F(m)* = F(m-1)* * F . Плот-

ность ф.р. F(ш)* (x) обозначим через f(m)* (x), то есть f(m)* является m-кратной сверткой плотности f для ф.р. К Отметим, что с учетом введенных обозначений, функционал T(F) = 9 для F є ^, соответствующий оценке (4), задается неявно выражением вида

| F (ш-1)* (шТ^) - x)dF(x) = 1/2 или F(m)* (шТ^)) = 1/2. (6)

В работе [9] показано, что для F єЗS и | f(m-l)*(x)dF (х)> 0 ЕЬ(ш)-оценки асимптотически нормальны, то есть случайные величины 4п{( ЕЬ(ш) - T (F))/ст( F, ЕЬ(ш))} имеют асимптотически стандартное нормальное распределение, где асимптотическая дисперсия ^/nЕЬ(m) -оценки вычисляется по формуле

ст2( F, ЕЬ(ш)) = | Ш 2( х; F, ЕЬ(ш)^ (х) =

dF (х)

-------, F єЗs. (7)

I Г /(ш—1)1 (х)сР(х)

I—»

Функция влияния ИЦш)-оценок определяется выражением

77(“-1)* (х) - (1/2)

Щх; ^, ИЦш)) = —----------( ) ( / ) , х е Я1. (8)

7 /(ш—^ (х)й^ (х)

—ад

Для нормального распределения, то есть при ^ = Ф , функция влияния ИЬ(ш)-оценок записывается в виде

тг, ъ ти, чч Ф(т—1)* (х) — (1/2) / г— Г I х ^ 1

Ш(х;Ф,ИЬ(ш)) = ——-----------------= д/ш2п Ф| - I ——

|ф( ш—1)* (х)й? Ф( х) [_ 1>/Ш—11 2

= л/шп/2 <Ф(х/^2(т — 1)),

где <Ф(х) = 2Ф(\/2 х) — 1. Асимптотическая дисперсия уТпИЬ(т) -оценки вычисляется по формуле

а2

(Ф, ЕЬ(ш)) = | /F 2( х; Ф, ЕЬ(м)^ Ф( х) = шл/ПТ! | Ф 2( х /^2(ш -1) )е“х2/2 dx =

0

= шаг^(1 /Vш2 -1).

Чувствительность ЕЬ(ш)-оценки к грубым ошибкам равна

у*(Ф,ЕЬ(ш)) = -у/шп/2 , и чувствительность ЕЬ(ш)-оценки к локальным изменениям наблюдений вычисляется по формуле X* (Ф, ЕЬ(ш)) = ^ш /(ш -1) . Численные значения характеристик ЕЬ(ш)-оценок при F = Ф приведены в табл. 1.

Т аблица 1

Числовые характеристики робастности ИЬ(ш)-оценок при Г = Ф

Характеристики ш

1 2 3 4 5 10 ш и п —— ГО

у* (Ф, ИЬ(ш)) 1,253 1,772 2,171 2,507 2,802 3,693 ГО

X* (Ф, ИЬ(ш)) ГО 1,414 1,255 1,155 1,118 1,054 1,000

ст2(Ф, ИЬ(ш)) 1,571 1,047 1,019 1,011 1,007 1,002 1,000

Отметим, что при гауссовском распределении чувствительность ИЬ(ш)-оценок к грубым ошибкам возрастает с увеличением ш и достигает бесконечного значения (это является следствием неограниченной функции влияния при ш и П — го ). Далее, чувствительность ИЬ(ш)-оценок к локальным изменениям наблюдений и их асимптотическая дисперсия убывают до своих предельных значений, соответственно равных единице. Отметим также, что глобальная характеристика робастности оценок, называемая «точкой срыва» или пределом устойчивости, для ИЬ(ш)-оценок вычисляется по формуле е* (ИЬ(ш)) = 1 — 2—1/ш . В частности, при ш = 2 получаем известный результат для точки срыва оценки Ходжеса - Лемана в виде е* (ИЬ) = 1 — 2—12 = 0,29 (детали см. в [3, 6]). Отметим, что в классе обобщенных оценок Ходжеса - Лемана существует асимптотически эффективная оценка параметра сдвига 9 в одновыборочной задаче для симметричных распределений, то есть, если ф.р. Е е35 и её плотность /является решением дифференциального уравнения

ё2{— 1п/(х)}/ёх2 = а/(ш—1)*(х), (9)

где а - постоянная величина, тогда ст2(Е, ИЬ(ш)) = 1/I(/). Здесь I(/) - количество информации Фишера относительно параметра сдвига 9 распределения с плотностью / Убедимся в справедливости данного факта. Пусть

у(х) = — /'(х)/ /(х) = ё{— 1п /(х)}/ ёх ,

тогда уравнение (9) запишется в виде

(1/а)у /(х) = /(ш—1)* (х).

(■0 /

Далее, пусть а = 21 у (х)ёх < го , тогда

^ — ГО

ГГО /(ш—1)* (х)ёЕ(х) = (1/ а)ГГО у/(х)ёЕ(х) = (1/ а)I(/),

^ — ГО Л —ГО

а внутренний интеграл в числителе (7) равен

Л /(ш—1)* Си) ёу = (1/а){ Г—ГО у/ (у) ёу +1 0хёу(у)} = (1/2) + (1/а)[у(х) — у(0)] =

= (1/2) + (1/а) у (х).

1*го 2

Учитывая, что I у (х)ёЕ(х) = I(/), окончательно из (7) получаем

—ГО

ст2( Е, НЬ(т)) =-

ёЕ (х)

I Г /(т-1)* (х)ёЕ(х) (1/ а)2 Г у2(х)ёЕ(х)

Л —ГО

2

(10)

(1/а)212(/) 1 (/)

Отметим, что решением приведенного уравнения ё 2{- 1п / (х)}/ ёх2 = а /(т-1)* (х) при т = 2 является логистическая плотность /(х) = ехр(-х)/{1 + ехр(-х)}2. Для

этого распределения оценка Ходжеса - Лемана вида (1) является асимптотически эффективной оценкой параметра сдвига 9. Для больших объемов выборки п и при т и п НХ(т)-оценки совпадают с выборочным средним X, которое является эффективной оценкой параметра сдвига 9 при нормальном распределении.

1.2. Асимптотические свойства Жа-оценок вида (5) описаны в [6]. Приведем необходимые результаты. Отметим, что в отличие от НХ-оценки вида (1), которая вычисляется по исходной выборке Х1,...,Хп путем определения медианы средних значений Уолша (Xг- + X)/2 , 1 < / < ] < п , а - урезанная оценка Ходжеса - Лемана (Жа-оценка вида (5)) вычисляется на основе упорядоченной статистики Х(1),...,Х(п), из которой предварительно удалены к = [ап] наименьших и наибольших порядковых статистик. Функционал Та (Е), выборочной оценкой которого является оценка вида (5), задается неявно выражением

1 -а

| Е [2Та (Е) - Е_1(0^ = (1 - 2а)/2 , 0 <а< 1/2. (11)

а

1 -а -1

В работе [3] показано, что для Е еЗ, и I /(Е (/))ёt > 0 Жа-оценки

а

асимптотически нормальны, то есть случайные величины

л/п« НЬа- Та (Е))/а(Е, НЬа)} имеют асимптотически стандартное нормальное распределение, где функционал Та (Е) =9 определен в (11) и асимптотическая дисперсия 4пньа -оценки вычисляется по формуле

. (1 + 4а)(1 - 2а)2

СТЕ (НХа) = , ,2 . (12)

12 (|^“ / (Е ^ )^ )

Функция влияния Жа-оценки записывается в виде 1

1Е (х; Е, НЬа) =

Г (1 - 2а).«£п(х),\х | > Е1(1 -а) х е , (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

| (2Е(х) -1), \ х\< Е_1(1-а) , .

Ниже (см. табл. 4 и 6) приводятся вычисления асимптотических дисперсий модифицированной оценки Ходжеса - Лемана (5) по формуле (12) для супермоделей, описывающих различные отклонения от нормального распределения.

2. Описание супермоделей

Изучение эффективности многих статистических процедур при изменении распределения вероятности наблюдений в некотором заданном классе (в рамках заданной супермодели) показывает (см., например, [3]), что эффективность часто зависит монотонно от некоторых общих свойств распределений. В частности, к таким общим свойствам относится «затянутость хвостов» распределений или «тяжесть хвостов» распределений. В литературе (см., например, [3]) описаны различные подходы для упорядочивания распределений в заданном классе по степени тяжести хвостов. Следуя работе [13], используем следующее определение. Пусть Е, О е 35|6. Говорят, что хвосты ф.р. Е легче хвостов ф.р. О (или О имеет

хвосты тяжелее, чем Е, и это записывают в виде Е <; О), если функция

О— (Е(х)) выпуклая для х >9, где 9 - точка симметрии для Е и О. Отметим, что если Е <; О, то также говорят, что распределения Е и О являются £-упорядо-ченными.

2.1. Рассмотрим супермодель 3^ в виде конечного семейства заданных симметричных распределений, то есть

з; = (Е0), Е(2), Е(3), Е(4)}, (14)

где Е^) =Ф - стандартное нормальное распределение, информация Фишера I(/(!)) = 1; Е(2) - логистическое, I(/(2)) = 1/3; Е(3) - Лапласа, I(/(3)) = 1; Е(4) -Коши, I (/(2)) = 1/2. Можно убедиться (см. [12]), что данная супермодель 3^ содержит ^-упорядоченные распределения, причем выполняется выражение

Е(1) <; Е(2) <; Е(3) <; Е(4). (15)

Следуя работе [14], рассмотрим меру «тяжести хвостов» распределения Е(х), х е Я1, в виде функционала QF (V, ц), определяемого выражением

1 V

(1/ V)! | Е_1(/)Ж -} Е_1(/)Ж }

QF (V, ц) =--------------------------------------------------------т-ц-, 0 ^<ц< 0,5. (16)

(1/ц){ | -}}

1-ц 0

Отметим, что для класса симметричных распределений 3; функционал QF (V; ц) записывается в виде

V ц

QF (V, ц) = {(1/V)} }/{(1/ц)} Е~\№}, 0 ^ <ц< 0, Е е 35. (17)

Например, для нормального распределения функционал QF (V, ц) равен Qф (V, ц) = ц ф [Ф-1 (V)]/ V ф [Ф-1 (ц)]. Численные значения функционала QF (V, ц) для значений V = 0,2, ц = 0,5 и ^-упорядоченных распределений из супермодели з; приведены в табл. 2.

Т аблица 2

Значения функционала QF (0,2;0,5) для Г

Ф.р. Е(1) Е(2) Е(3) Е(4)

QF (0,2;0,5) 1,755 1,805 1,916 2,500

Таким образом, в рамках супермодели 3^ выполняется выражение

Е <; О ^ QF (V, ц) < Q0 (V, ц).

Асимптотические дисперсии уТпИЬа -оценок, вычисленные для распределений из супермодели з; по формуле (12), приведены в табл. 6.

Абсолютные эффективности -\1пИЬа -оценок, вычисленные для распределений супермодели з; по формуле АЭ (Е, ИЬа) = {I(/) -ст2(Е, ИЬа )}-1, приведены на рис. 1.

АЭ (Е, ИЬа)

Рис. 1. Зависимости АЭ (Е, ИЬа) от параметра а для Е е 3^

Из рисунка наглядно видно, что качество ИЬа-оценок существенно зависит от параметра а. Для распределений с «тяжелыми хвостами» параметр а следует выбирать близким к 0,5. Например, для распределения Коши при а = 0,375 достигается максимальная абсолютная эффективность. Для нормального распределения следует выбрать параметр а = 0. Эти качественные соображения будут использованы ниже при адаптивном выборе параметра а, основываясь на выборочной оценке функционала QF (V, ц), построенной по исходной выборке *1,...,X.

2.2. Рассмотрим супермодель в виде семейства распределений Стьюдента 3Г е 3;, для которого ф.р. Ег (х) имеет плотность распределения /г (х) с г степенями свободы и записывается в виде

/Г (х) = А (г )(1 + (х2/ г))-(г+1)/2, х е Я1, А (г) = Г((г + 1)/2)/Л/ТП Г(г /2).

Можно убедиться, что функционал QF (V; ц) для распределений Стьюдента, то есть для Е (х) = Ег (х), вычисляется по формуле

<^, ц) = ц/2:рЕЕ1<^ .

г V /-2^(г - 2)/г • ЕГ'(ц)]

В частности, для v = 0,2 и ц = 0,5 с учетом того, что Ег-1(1/2) = 0 и /г-2 (0) = А(г - 2), получаем

QFr (0,2 ;0,5) = 5/-2 ^(г - 2)/г ^ (0,2)] /2А(г - 2) =

= 2,5 • (1 + [Е-1 (0,2)]2 /г)-(г-1)/2.

Численные значения функционала QF (0,2;0,5) приведены в табл. 3.

Т аблица 3

Значения функционала QF (0,2;0,5) для Г е 3Г

Г 1 2 3 4 5 7 9 25 г

йЕ (0,2;0,5) 2,50 2,00 1,90 1,85 1,83 1,81 1,79 1,77 1,75

Итак, для семейства распределений Стьюдента функционал QF (V; ц) монотонно зависит от числа степеней свободы , то есть выполняется неравенство

Q(ЕГ1; V, ц) < Q(Ег2; V, ц), для г2 < гх.

В работе [3] показано, что для Е г (х) е 3г асимптотическая дисперсия 4пИЬа -оценок для Ег (х) е 3г вычисляется по формуле

а2( Ег, ИЬа) =-

гп " Г(г+1) " 2 ' Г(г/2) ' 4 (1+4а)(1-2а)2

12 1 /2) т ( 1 [Г((г+1)/2)] {2 Е2г+1^(2г+1)/г Е-1(1-а)]-1}2

. (18)

В частности, из формулы (18) при а = 0 получаем формулу для вычисления асимптотической дисперсии уЩИЬ -оценки в виде

ст2( Ег, ИЬ) = -

гп " Г(г +1) " 2 ' Г(г / 2) "

12 • |_Г(г + (1/2)) ] [Г((г +1)/2) ]

(19)

Далее, из (18) при а ^ 1/2 следует формула для вычисления асимптотической дисперсии выборочной медианы Х1/2. Для -\/пХ1/2 -оценки асимптотическая дисперсия для Ег (х) е 3г вычисляется по формуле

2 — пг

а2( Ег, Х1/2) = —

Г(г/2) |_Г((г +1) / 2) _

Отметим, что для выборочного среднего X асимптотическая дисперсия >[пХ -оценки для Ег (х) е 3г вычисляется по формуле

ю г+1

ст\ (X) = А (г) | х2(1 + х2 / г) 2 ёх = г /(г - 2), г > 2. (21)

Численные значения асимптотических значений дисперсий оценок, рассчитанные по приведенным формулам (19) - (21) для Ег (х) е 3г при различных степенях свободы г, приведены в табл. 4.

Т аблица 4

Асимптотическая дисперсия и абсолютная эффективность оценок для Гг (х) е 3Г

Ст. св. г I (/) г = 1, I (/1) = 0,50 г = 2 I (/2) = 0,60 г = 3 I С/3) = 0,67 г = 5 I (/5) = 0,75

ст2(Ег, ИЬ) СТ2(Ег, ЗД ст2(Ег, X) 3,29 (0,61) 2,47 (0,81) ю (0,00) 1,92 (0,87) 2,00 (0,81) ю (0,00) 1,58 (0,95) 1,85 (0,80) 3,00 (0,50) 1,34 (0,99) 1,73 (0,77) 1,67 (0,80)

Ст. св. г I (/) г = 7 I (/7) = 0,80 г = 9 I С/9) = 0,83 г — ю, I (/ю) = 1,00

ст2(Ег, ИЬ) СТ2(Ег, ЗД ст2(Ег, X) 1,25 (1,00) 1,67 (0,75) 1,40 (0,89) 1,20 (1,00) 1,66 (0,72) 1,28 (0,94) 1,047 (0,96) 1,571 (0,64) 1,000 (1,00)

В этой таблице в скобках приведена абсолютная эффективность оценок 9 , вычисляемая по формуле

АЭ (Ег, 9) = {/ (/г)-стЕг (9)}-1,

где I(/г) - информация Фишера. Из данных таблицы (4) следует, что оценка Ходжеса - Лемана обеспечивает высокую абсолютную эффективность в рамках всего семейства распределений Стьюдента для числа степеней свободы г > 3 .

Асимптотическая относительная эффективность ИЬа-оценки относительно ИЬ-оценки Ходжеса - Лемана, вычисляемая по формуле

АОЭе (ИЬа : ИЬ) = ст2 (Е, ИЬ) /ст2 (Е, ИЬа), для Ег (х) е 3г, записывается в виде

АОЭе (ИЬ : ИЬ) = {2^-■>* , (22)

г (1 + 4 а)(1 - 2 а)2

где Ег (х) - табулированная функция распределения Стьюдента с г степенями

свободы и Е-1 также табулированная квантильная функция. Из формулы (22) получаем при г —— ю асимптотическую относительную эффективность

АОЭе (ИЬа : ИЬ) для нормального распределения, то есть для Е = Ф имеем

АОЭф (ИЬа : ИЬ) = {2Ф[^ ф 1(1-аЛ:-1}2 . (23)

(1 + 4 а)(1 - 2 а)

Из формулы (22) получаем при г = 1 асимптотическую относительную эффективность ЛОЭр (ЕЕа : ЕЕ) для распределения Коши, то есть для Е = Е1 имеем

ЛОЭг(ЕЕ :ЕЕ) = {2^^'(1 -аЯ-1}- = {1 -2а + ,-15ш(я(| -2а))}2 . (24)

1 (1 + 4 а)(1 - 2 а)2 (1 + 4а)(1 - 2а)2

Например, при а= 0,4 из (23) и (24) получаем ЛОЭф (ИЕ04 : ЕЕ) = 0,75 и ЛОЭрх (ЕЕ0,4 : ЕЕ) = 1,44.

2.3. Рассмотрим теперь гауссовскую модель с масштабным засорением, которая обычно используется при изучении влияния выбросов в выборке на оценку и определяется в виде

Зєт(Ф) = {Е:Еєт(х) = (1 -є)Ф(х) + єФ(х/т)}, 0 <є<1, т> 1. (25)

Можно убедиться (см. [3]), что функционал QЕ (V; ц) для распределений Е е3£т(Ф) вычисляется по формуле

) ц (1 -є)ф[Еєд^)] + єтф[ЕєД1(^)/т]

Q(Еєт; V, ц) = --------------------------------------------------^-, (26)

, (1 -є)Ф[Еє,т(ц)] + єтф[Ее,т(ц)/т]

где ф - стандартная нормальная плотность. В частности, для значений V = 0,2 и ц = 0,5 функционал QЕ (0,2;0,5) для Е е3£т (Ф) вычисляется по формуле

QФ (0,2;0,5) = 5лЙП|(1 ~6>Ф(х‘) + єтф(х‘1 т)}, (27)

°є'т 1 2(1 -є + єт)

где х = Е- (0,2) - квантиль уровня V = 0,2 функции распределения

Еєт (х) = (1 -є)Ф(х) + є Ф(х / т). Отметим, что для нормального распределения из формул (26) и (27) при є = 0 получаем

Qф (V, ц) = цф [Ф-1 (V)] / V ф [Ф-1 (ц)],

QФ (0,2 ;0,5) = 2,5 • ф [Ф-1 (0,2)] и 1,75.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Численные значения функционала QЕ (0,2;0,5) для Е еЗєт (Ф) приведены в табл. 5.

Т аблица 5

Значения функционала QF(0,2;0,5) для Г є36І(Ф)

т є

0,001 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0.35

т = 3 1,756 1,764 1,797 1,830 1,865 1,876 1,892 1,903 1,911

т = 5 1,757 1,777 1,850 1,916 1,962 1,996 2,020 2,036 2,046

т = 7 1,758 1,790 1,898 1,985 2,042 2,080 2,107 2,124 2,134

т = 10 1,760 1,809 1,959 2,064 2,126 2,166 2,192 2,208 2,218

В работе [3] показано, что асимптотическая дисперсия -ГпИЬа -оценки для Е(х) е 3е т (Ф) вычисляется по формуле

ст2^, ИЬа) = -•-

(1 + 4 а)(1 - 2 а)2

(28)

3 [(1 -е)2А + (2л/2Ве(1 -е)/лА + т2) + (е2/т)С]2

где А = 1 - 2Ф(х*л/2), В = 1 - 2Ф(хЧ 1 + т2 /т), С = 1 - 2Ф(х*л/2/т), х* = ЕеТт1(а) - квантиль уровня а для ф.р. Еет (х) = (1 -е)Ф(х) + еФ(х / т). Численные расчеты по формуле (28) приведены в табл. 8. Зависимости абсолютной эффективности АЭ (Еет, ИЬа) = {ст2(Еет, ИЬа у (/ет )}-1 от параметра а при различных значениях параметра е и фиксированном значении т = 3 приведены на рис. 2.

АЭ (Ее.х, ИЬа)

Рис. 2. Зависимости АЭ(Ее т,ИЬа) от параметра а при различных е и т = 3

Асимптотическая относительная эффективность оценки ИЬа-оценки относительно ИЬ-оценки Ходжеса - Лемана, вычисляемая по формуле АОЭе (ИЬа : ИЬ) = ст2(Е, ИЬ)/ ст2(Е, ИЬа), для Е(х) е3ет (Ф), приведена на рис. 3.

АОЭ (ИЬа: ИЬ)

Рис. 3. Зависимости АОЭе(ИЬа : ИЬ), Е(х) е 3е т(Ф), от параметра а при разных и т = 5

Из рис. 3 следует, что относительные достоинства ИЬа-оценок возрастают при «утяжелении хвостов» распределений, то есть при увеличении е-пропорции засорения грубыми ошибками исходной выборки. Этот факт является проявлением более общего свойства Ла-оценок, рассмотренных в [3].

Изучение асимптотических свойств ИЬа-оценок показало, что качество этих оценок существенно зависит от выбора пропорции урезания исходной выборки, которая характеризуется параметром а, 0 < а < 1/2. Например, если мы заинтересованы в уменьшении асимптотической дисперсии, то для распределений «близких по затянутости хвостов» к нормальному величину а следует выбирать близкой к нулю, для распределений с «тяжелыми хвостами» (например, Лапласа, Коши) параметр а следует выбирать близким к 1/2 . Таким образом, выбор параметра а можно связать с поведением функционала QF (V; ц) вида (16), который характеризует степень затянутости «хвостов» распределений при их изменении в заданной супермодели. Однако на практике функция распределения Е наблюдений Х1,...,Хп обычно неизвестна, поэтому естественно использовать вместо функционала QF (V; ц) его выборочную оценку, построенную по исходной выборке Х1,...,Хп. Выборочная оценка Q(Fn) функционала QF (V; ц) вида (16), построенная по выборке Х1,...,Хп методом подстановки, записывается в виде

где Х(1),...,Х(п) порядковые статистики выборки Х1,...,Хп. Отметим, что

Q(Fn) ^ Q(F; V, ц) при п ^ . Кроме того, результаты моделирования (см. [3])

показывают, что уже при объемах выборки п > 20 статистика Q(Fn) приемлема для определения типов распределений, различающихся степенью «затянутости хвостов» распределений. Для построения адаптивной оценки Ходжеса - Лемана (ИЬа -оценки), определим параметр <х(Х1,...,Хп) в виде

где параметры а1, а2, Q1 и Q2 задаются в соответствии с рассматриваемым типом супермодели и выборочная оценка Q( Еп) функционала QF (V; ц) определена в (29). Следуя [14], везде ниже полагаем V = 0,2 и ц = 0,5.

Пример 1. Рассмотрим супермодель 3^ = {Е(1), Е(2), Е(3), Е(4)}, определенную в (14). Примем следующие значения параметров: а1 = 0, а2 = 0,5, Q1 = 1,75,

3. Адаптивные Я£а-оценки

л=п-к+1 г=1 / V г=п-т+1 г=1

г=п-т+1

п

т

к = [V п], т = [ц п],

(29)

р

а!, Q(Еп)<й,

а( х1,..., хп ) = ^

а 2 - а

{Q(Fn) - Ш + а1, Ql < Q(Fn) < Q2 а2, Q(Fn) > Q2,

(30)

Q2 = 2,50. В табл. 6 приведены асимптотические дисперсии (строки п = да) для Жа-оценок, вычисленные по формуле (12), и выборочные дисперсии (строки п = 20) для Жа-оценок , полученные методом статистических испытаний при числе испытаний N = 10000 и п = 20.

Т аблица 6

Асимптотические и выборочные дисперсии Ніа-оценок для 3^. = {Т^, ,Т2, Е,, ,Т4}

Ф п ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬа

п = 20 1,04 1,07 1,09 1,15 1,25 1,39 1,43 1,04

- п = ж 1,047 1,060 1,085 1,156 1,256 1,390 1,571 1,047

Гаусс 20/ж 0,99 1,01 1,00 0,99 1,00 1,00 0,91 0,99

п = 20 3,06 3,09 3,11 3,24 3,50 3,87 3,96 3,14

¥г - п = ж 3,000 3,002 3,016 3,099 3,273 3,561 4,000 3,000

логист. 20/ж 1,02 1,03 1,03 1,05 1,07 1,09 0,99 1,05

п = 20 1,40 1,37 1,33 1,26 1,23 1,23 1,25 1,39

Рз - п = ж 1,333 1,322 1,296 1,224 1,146 1,070 1,000 1,306

Лаплас 20/ж 1,05 1,04 1,03 1,03 1,07 1,15 1,25 1,06

п = 20 3,93 3,66 3,36 2,81 2,47 2,43 2,45 2,66

Е4 - п = ж 3,290 3,208 3,025 2,616 2,345 2,283 2,467 2,467

Коши 20/ж 1,19 1,14 1,11 1,07 1,05 1,06 0,99 1,08

В строках (20 / ж) этой таблицы приведены отношения выборочных дисперсий ИЬа-оценок при п = 20 к асимптотическим дисперсиям. В правом столбце таблицы приведены данные для адаптивной ИЬа -оценки Ходжеса - Лемана, для которой параметр а(Хь...,Хп) определен выражением (30) при значении параметров: а1 = 0, а2 = 0,5 , О = 1,75 , О2 = 2,50 . Из данных таблицы (6) следует, что приведенные выше асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий ИЬа-оценок при конечных объемах выборки п > 20, за исключением некоторых значений при распределениях Лапласа и Коши. Для этих распределений с «тяжелыми хвостами», как показали результаты моделирования, качество асимптотики существенно улучшается при объемах выборки п > 40. Чтобы проиллюстрировать преимущество предложенных адаптивных ИЬа -оценок, применим критерий сравнения оценок, основанный на понятии

дефекта оценки (см. работы [2, 3]). Дефект оценки 0і, і = 1,...,к , среди сравниваемых оценок 01,..., 0к параметра 0 при заданном распределении Е определяется в виде

БЕ(Е, 0і) = 1 - шіп(ст2 (Е, 01),..., ст2(Е, 0к)}/ст2(Е, 0і), і = 1,..., к . (31)

Отметим, что если среди сравниваемых оценок 0;,...,0к есть эффективная оценка 0* параметра 0 при заданном распределении Е, для которой ст2(Е,0*) = 1/1(/), тогда шіп{ст2(Е,01),...,ст2(Е,0к)} = 1/1(/) и, следовательно, в

этом случае дефект оценки 0г равен единица минус ее абсолютная эффективность, то есть

БЕ(Е,0г) = 1 - АЭ(Е,0г), г = 1,..., к . (32)

При изучении свойств робастности сравниваемых оценок 01,...,0к параметра сдвига 0 в рамках супермодели 3, состоящей из конечного набора симметричных распределений 3 = {Е1,...,Ег}, изучают поведение дефективностей оценок на плоскости двух распределений (см. [2]). По оси абсцисс обычно откладывают дефективность для базовой (идеальной модели, обычно гауссовской), а по оси ординат - дефективность для альтернативной модели, входящей в супермодель 3={Е1,...,Ег}. При таком наглядном представлении дефективностей оценок на

плоскости двух распределений предпочтение отдается той оценке, которая окажется ближе к началу координат. Если же мы хотим сделать вывод о предпочтительности оценки среди сравниваемых оценок (Э1,..., 0к параметра 0 в рамках всей рассматриваемой супермодели 3 = {Е1,...,Ег}, то можно использовать евклидову метрику, которая, с использованием введенных обозначений, запишется в виде

ё (0 г; 3) =

Предпочтение в рамках всей рассматриваемой супермодели 3 = {Е1,...,Ег} отдается той оценке 0г среди сравниваемых оценок 01,..., 0к , для которой вычисленное значение евклидовой метрики ё(0г; 3) минимальное, то есть

ё(0г;3) = шт{ё(01;3),...,ё(0к;3)}, г = 1,..., к . (34)

Т аблица 7

Значения евклидовой метрики Ніа-оценок для супермодели 3^. = {Е(1), Е(2), Е(3), Е(4)}

0 ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬа

ё(0,3х ) 0,40 0,35 0,29 0,18 0,21 0,33 0,36 0,15

В этой таблице евклидова метрика (33) была вычислена по эмпирическим данным (при п = 20) таблицы (6) с использованием формулы (31). Таким образом, в

семействе ИЬа-оценок для супермодели 3^ предпочтение следует отдать адаптивной ИЬа -оценке, для которой ё(ИЬа, 3^) = 0,15 .

Пример 2. Рассмотрим супермодель 3ЄТ (Ф) вида (25). Для определения параметра а(Х1,...,Хп) по формуле (30) примем следующие значения параметров: а1 = 0, а2 = 0,5 ,О = 1,75 ,О2 = 2,00 . В табл. 8 приведены асимптотические дисперсии (строки п = ж) ИЬа-оценок, вычисленные по формуле (28), и выборочные дисперсии (строки п = 20) ИЬа-оценок, полученные методом статистических испытаний при числе испытаний N = 10000 и объёме выборки п = 20.

11 / А

, і = 1,..., к . (33)

Т аблица 8

Асимптотические и выборочные дисперсии Ніа-оценок для Г є 3в т (Ф) при т = 3

При п ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬ&

в = 0,00 п = 20 1,04 1,06 1,10 1,19 1,30 1,42 1,46 1,05

п = ж 1,047 1,060 1,085 1,156 1,256 1,390 1,571 1,047

20/ж 0,99 1,00 1,01 1,03 1,04 1,02 0,93 1,00

в = 0,05 п = 20 1,17 1,18 1,20 1,29 1,40 1,55 1,58 1,17

п = ж 1,171 1,172 1,189 1,252 1,351 1,490 1,681 1,171

20/ж 1,00 1,01 1,01 1,03 1,04 1,04 0,94 1,00

в = 0,10 п = 20 1,38 1,38 1,40 1,46 1,55 1,67 1,70 1,32

п = ж 1,311 1,302 1,308 1,360 1,457 1,600 1,803 1,303

20/ж 1,05 1,06 1,07 1,07 1,06 1,04 0,94 1,01

в = 0,20 п = 20 1,80 1,77 1,75 1,75 1,85 1,94 1,97 1,65

п = ж 1,651 1,628 1,605 1,622 1,709 1,861 2,091 1,617

20/ж 1,09 1,09 1,09 1,08 1,08 1,04 0,94 1,02

в = 0,30 п = 20 2,14 2,08 2,00 1,97 2,05 2,21 2,24 1,95

п = ж 2,090 2,062 2,004 1,966 2,032 2,191 2,454 1,993

20/ж 1,02 1,01 1,00 1,00 1,01 1,01 0,91 0,98

в = 0,40 п = 20 2,63 2,57 2,49 2,44 2,53 2,79 2,87 2,50

п = ж 2,655 2,627 2,543 2,425 2,455 2,616 2,921 2,483

20/ж 0,99 0,98 0,98 1,01 1,03 1,07 0,98 1,01

Для сравнения ИЬа-оценок с адаптивной ИЬа -оценкой в рамках супермодели

3в т (Ф) воспользуемся критерием, основанным на евклидовой метрике вида (33),

которая была вычислена по эмпирическим данным (при п = 20) табл. 8 с использованием формулы (31).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Т аблица 9

Значения евклидовой метрики Ніа-оценок для супермодели 3Е т (Ф)

0 ИЬ ИЬ0,05 ИЬ0,10 ИЬ0,20 ИЬ0,30 ИЬ0,40 ИЬ0,50 ИЬй

ё (0,3в ,х (Ф)) 0,15 0,12 0,11 0,19 0,32 0,48 0,52 0,03

Таким образом, в семействе Жа-оценок в рамках супермодели 3ет (Ф), согласно критерию (34), предпочтение следует отдать адаптивной -оценке, для которой параметр а(Х1,...,Хп) определяется выражением (30) и ё(Жа, 3ет (Ф)) = 0,03. На рис. 4 приведены абсолютные эффективности ИЬа-оценок и адаптивной ИЬ& -оценки для гауссовской супермодели с масштабным засорением, то есть для Е е3ЕТ (Ф). Из рисунка наглядно видно, что адаптивная Жа -оценка обладает преимуществом перед Жа-оценками с фиксированной пропорцией урезания а исходной выборки Х1,..., Хп.

АЭ (F, HLa)

Рис. 4. Абсолютные эффективности Жа-оценок в рамках супермодели 3е т(Ф), т = 3

Заключение

В работе предложены адаптивные оценки a-урезанного варианта (5) оценки Ходжеса - Лемана параметра сдвига симметричных распределений. Описаны асимптотические свойства предложенных оценок. Параметр a(X1,...,Xn) адаптивной HLa -оценки выбирается на основе информации, содержащейся в исходной выборке Xj,...,Xn, путем использования выборочной оценки функционала, характеризующего степень «тяжести хвостов» распределений. Приводятся свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от нормальной модели в сторону «утяжеления хвостов» распределений. Показано, что приведенные асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий Жа-оценок при конечных объемах выборки n > 20. Предложен критерий сравнения заданного семейства оценок (Э1,..., 0k параметра сдвига 0 в рамках супермодели 3, состоящей из конечного набора симметричных распределений. Этот критерий записан в виде евклидовой метрики с использованием понятия дефекта оценки при заданном распределении.

ЛИТЕРАТУРА

1. Hodges J.L., Lehmann E.L. Estimation of location based on rank tests // Ann. Math. Statist.

1963. V. 34. P. 598 - 611.

2. Andrews D.F., Bickel P.Z., Hampel F.R., et al. Robust estimation of location: survey and advances. Princeton, N.Y.: Princeton Univ. Press, 1972. 375 p.

3. Шуленин В.П. Введение в робастную статистику. Томск: Изд-во Том. ун-та, 1993. 227 с.

4. Шуленин В.П. Об устойчивости класса оценок Ходжеса - Лемана // Тр. 6-й Всес. конф. по теории кодирования и передачи информ. Москва - Вильнюс, 1978. С. 147 - 151.

5. Shulenin V.P. Asymptotic properties and robustness a generalized Hodges-Lehmann estimate.

Il-th PRAGUE Conf. On Information Theory. Abstracts. 1990.

6. Shulenin V.P., Deeva T.A. The numerical characteristics of robustness of the class of the Hodges-Lehmann Generalized estimators // Proc. the Third Russian-Korean International Symposium on Science and Technology. KORUS’99. June 22 - 25, 1999 at Novosibirsk State Technical University, Novosibirsk, Russia. V. 2. P. 510 - 513.

7. Shulenin V.P., Deeva T.A. Asymptotic efficiency for the generalized Hodges - Lehmann estimator under the normal scale mixture distributions. Computer data analysis and modeling. Minsk, 1998. V. 2. P. 107 - 112.

8. Shulenin V.P. Asymptotic properties of the trimmed GL- and U-statistics // бШ Prague Symposium on Asymptotic Statistics. Prague, 1998, August 23 - 28. Prague Stochatics’98. Abstracts. Р. 84.

9. Шуленин В.П. Асимптотические свойства урезанных GL-и U-статистик // Вестник ТГУ. Приложение. 2004. № 9(II). С. 184 - 190.

10. SerflingR.J. Generalized L-, M- and R-statistics // Ann. Statist. 1984. V. 12. P. 7б - 8б.

11. SerflingR.J. Approximation Theorems of Mathematical Statistics. N.Y.: Wiley, 1980. 371 p.

12. Хеттсманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987. 334 с.

13. Van Zwet W.R. Convex Transformations of Random Variables // Math. Centrum. Amsterdam,

19б4.

14. Hogg R.V. Adaptive robust procedures: partial review and some suggestions for future applications and theory // J. Amer. Statist. 1974. V. 35. P. 73 - 101.

Шуленин Валерий Петрович Томский государственный университет E-mail: [email protected]

Поступила в редакцию 23 марта 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.