ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2016 Управление, вычислительная техника и информатика № 4 (37)
УДК 519.24
Б01: 10.17223/19988605/37/8
В.П. Шуленин
АСИМТОТИЧЕСКИЕ СВОЙСТВА МОДИФИЦИРОВАННЫХ СРЕДНИХ РАЗНОСТЕЙ ДЖИНИ
Изучаются свойства робастных оценок масштабного параметра. Показано, что модифицированная оценка средних разностей Джини имеет асимтотически нормальное распределение, является В-робастной оценкой и имеет ограниченную функцию влияния. Приводятся результаты сравнения оценок масштабного параметра в рамках гауссовской модели с засорением. Рассматривается адаптивный вариант предложенной оценки масштабного параметра.
Ключевые слова: масштабный параметр; робастные оценки; функция влияния; средняя разность Джини; и-статистики; адаптивные оценки.
В класс £/-статистик Хёфдинга [1] входят многие конкретные оценки параметров, представляющие практический интерес. Обобщение класса £/-статистик, описанное в работе [2], связанное с построением робастных оценок с ограниченными функциями влияния, приводит к рассмотрению £/-статистик, основанных на урезанных выборках, что позволяет изучать многие известные в теории робастности оценки параметров с единых позиций и открывает широкие возможности для построения новых оценок. Например, выборочное а-урезанное среднее Xа , 0 < а< 1/ 2, обычно применяемое в качестве робаст-ной оценки параметра положения случайной величины (с.в.) Х с функцией распределения (ф.р.) F, традиционно рассматривалось и изучалось как представитель семейства Ь-оценок в виде линейных комбинаций порядковых статистик Х(1),...,исходной выборки Х1,...,Хп. Доказанная ранее асимптотическая нормальность Xа -оценок (см., например [3, 4]) также непосредственно следует и из результатов работы [2] (см. пример 8.6.15 в [6]). В качестве другого примера приведем выборочную оценку средних разностей Джини, которая используется в качестве оценки масштабного параметра, характеризующего степень разброса с.в. X, и записывается в виде Л0 = [п(п -1)]—1 Е | Xi — X^ |. Эта оценка имеет асимптотически нормальное распределение [5, 6], её асимптотическая относительная эффективность по отношению к традиционно применяемой на практике оценке <1(0) = {п-1Е( Xi — X )2}1/2 стандартного отклонения очень высокая, в частности, при нормальном распределении Ф она равна АОЭф (Л0 : <1(0)) = 0,98 . И хотя Л0 -оценка подвержена меньшему влиянию выбросов в выборке, чем (0) -оценка, обе они имеют неограниченные функции влияния Хампеля [4]. В качестве ещё одного примера оценок масштабного параметра приведём семейство интер-а -квантильных размахов <3(а) = [X(n—[ап]) — X([аn])] / 2 ,
0 <а<1/2 [5, 6]. Эти оценки имеют ограниченные функции влияния, но их асимптотические эффективности по отношению к оценке стандартного отклонения при нормальном распределении Ф очень низкие. Например, для оценки интерквартильного размаха <?3(0,25) асимптотическая относительная
эффективность равна АОЭФ (<3(0,25): <1(0)) = 0,37. По этой причине в литературе (см., например, [5, 6]) рассматривают различные модификации оценок масштабного параметра с целью обеспечить и ограниченность функции влияния, и высокую эффективность по отношению к (0) -оценке при нормальном распределении Ф. К таким оценкам относится рассматриваемая в данной работе модифицированная оценка средних разностей Джини Л а, 0 <а< 1/2, определённая в (24). Эта оценка является
^-статистикой, основанной на урезанной выборке и её асимптотические свойства изучаются с использованием результатов работы [2]. В данном исследовании приводятся результаты сравнения Да -оценок с другими оценками масштабного параметра в рамках гауссовской модели с засорением и предлагается адаптивный вариант Да -оценок, для которых параметр а выбирается на основе информации, содержащейся в исходной выборке с использованием выборочной оценки функционала, характеризующего степень «затянутости хвостов» функции распределения Г изучаемой случайной величины Х.
1. и-статистики, основанные на урезанных выборках (иар -оценки)
Пусть Х1,...,Хп - последовательность нормальных оценок распределения (н.о.р.) случайных величин с ф.р. Г(х) и плотностью /(х), х еЯ1, Х^,...,Х^ - упорядоченная статистика исходной выборки Х1,...,Хп и Х^[ап]+1^,...,Х^п_[рп]^, обозначает ав-урезанную упорядоченную статистику выборки,
где а и в - заданные пропорции урезания выборки, причем 0 <а, Р < 1/2. Обозначим пар = п _[ап] _ [Рп]. Пусть задано «ядро» И(Х1,...,Хт), т < п, которое является симметричной функцией своих аргументов. Множество т-наборов индексов (,...,¡т), удовлетворяющих условию {[а п] +1 < /1 <,..., < Iт < п _ [Р п]}, обозначим через Сар, т.е.
СаР ={ {'ь^'т ) :[ап] + 1 < »1 < 1т < п _ [рп] }. (1)
Следуя работе [2], рассмотрим ^-статистики, основанные на ав-урезанных выборках, которые определяются в виде
ип, ар =
С п
ар
т
Е h(X01),..., Х(»т )). (2)
СП\
Ниже рассмотрим случай а = Р и переобозначим множество индексов Сар из (1) через
Са= {(1,...,т): [ап] +1 <»1 <,...,<т <п_[ап]}. (3)
Далее введем следующие обозначения. Пусть па = п _ 2[ап], и определим ограниченную функцию
£а (х; Г), 0 <а<1/2, х е Я1, в виде
, I[Г_1(а) < х < Г_1(1 _а)] Г_1(1_а) Г_1(1_а) ,т_1
§а (х; Г) = ^-1 ; „ -- I - | М^,..., хт_1, х) П dF(xI), (4)
(1 _ 2а) Г_1(а) Г_1(а) '=1
где I[А] - индикатор события А. Далее пусть 1а = Г_1(а), 1а = Г_1(1 _а) и значения функции gа (х; Г) в точках 1а и 1а обозначим соответственно в виде
Аа=_^а (1а, Г), Ва = gа (1а, Г). (5)
Среднее значение и дисперсию ga (Х; Г) соответственно обозначим в виде
1 Г _1(1_а) Г _1(1_а) т
иа (Г) =МГ^а(Х,Г)} = 1 т I - I ^...^П^х,.) (6)
(1 _2а) Г_1(а) Г_1(а) '=1
и
1а
Да (Г) = Вг {ga (Х, Г)} = I gX(x, Г)ёГ(х) _ иа(Г). (7)
1а
Теорема 1. Предположим, что ф.р. Г имеет плотность /, которая непрерывна и ограничена в точках 1а и 1а. Пусть функция ga (х; Г) непрерывна в точках 1а, 1а, и предположим, что для некоторых а <1а и Ь >1а выполняется условие
| Н(x1,...,Xm)|= M0 <С. (8)
а<Х1,...,Хт <Ь
Тогда \fnUn а -статистика имеет асимптотически нормальное распределение, т.е. выполняется выражение, согласно которому закон ^ - Ьа^') распределения вероятностей случайной величины в фигурных скобках является стандартным нормальным
L{^/n Uа a(Ua, F)} = #(0,1) при п ^с, (9)
где а (иа, F) - асимптотическая дисперсия а -статистики, вычисляемая по формуле
а2(Ща, F) = т2{Аа (F) + а(1 -а)(А + В*) + 2а^ ^(А* - Ва) + 2а 2АА }. (10)
Доказательство. Схема доказательства этой теоремы основана на использовании результатов работы [2], в которой отмечается, что при выполнении предположений для плотности /, функции ga (х; F) и ядра Н( Х1,..., хт) условия (8) применимы леммы (2.1-2.4) этой работы и при этом выполняется выражение вида
и п,а = Ща + п-1 ¿ЩХ,.; ^ ) + (п"1/2), (11)
1 =1
в котором ^ (х; F ,иа) обозначает функцию влияния Хампеля [4] оценки иа (Fn) функционала иа (F), определенного формулой (6). Из выражения (11) следует асимптотическая нормальность -у/Пип а -статистик с использованием теоремы Слуцкого и центральной предельной теоремы с учетом, что элементы выборки Х1,...,Хп являются последовательностью н.о.р. случайных величин [5, 6]. Справедливость формулы (10) проверяется непосредственно, путем вычисления функции влияния Ш (х; F ,иа) с учетом, что
\Щх; F,Ua )dF (х) = 0 и а2^, F) = J/F2(x; F,Ua ^(х). (12)
Стандартным способом убеждаемся (см.: [6. С. 195]), что функция влияния /F( х; F,Ua) имеет вид
Ш(х; F,Ua ) = т{Яа (х, F) - Ща + Аа (а-1 [ х <^а ]) + Ва (1 -а-1 [ х <|а ])}. (13) Отметим важное обстоятельство. Учитывая, что функция ga (х;F) ограничена, функция влияния /F(х; F,Ua) вида (13) также является ограниченной функцией и, следовательно, ип а -статистики являются В-робастными [4] и подвержены лишь ограниченному влиянию выбросов в выборке. Используя приведённое выражение (13) и вторую формулу в (12), после несложных преобразований получаем (10). Теорема доказана.
2. Средняя разность Джини и её модифицированный вариант
Обсуждение средней разности Джини как меры разброса случайных величин и её связь с кривой Лоренца приводятся в [7. С. 75]. Средняя разность Джини, как и медиана абсолютных разностей, относится ко второй группе функционалов, определяющих масштабный параметр (см. формулу (10.1.3) в [6]). В работах [5-7] функционал Т (F), определяющий среднюю разность Джини, записывают в разных вариантах. Обычно [7] его записывают в виде
А F = Т (К) = Я|х - y|dF (х^ (у). (14)
Другая форма записи функционала Т ^) [5, 6] имеет вид
1 1
Ар. = Т(F) = |F-1(0(4^ - 2^ = |F) J(г^ , J(г) = 4г - 2, 0 < г < 1. (15)
0 0
Выборочная оценка А0 = Т) средней разности Джини АF вида (14), построенная по выборке Х1,...,Хп методом подстановки, записывается в виде
~ 1 п п
А 0 = Т^п) = — 2Х|Хг - Х.|. (16)
п2 ,=1.=1
Если же при построении оценки не используются совпадающие индексы (/, ;) , то оценку записывают в асимптотически эквивалентном варианте вида
, 1 п
До = -Т—т X \Х -X; \. (17)
п(п - 1) 1Ф;=1
Отметим, что представление функционала Т (р) в виде (15) позволяет записать оценку в виде линейной комбинации порядковых статистик Х^,...,Х(п) исходной выборки Х1,...,Хп, т.е. в виде
Д = £аигХ(0, (18)
г=1
где весовые коэффициенты аы вычисляются по формуле
г/п '/п И -1 - п ат = | 3 (1 = | (4 - 2)^ =-—, (19)
(г-1)/п (г-1)/п п
и 3(^) = 4 - 2, 0 < ^ < 1, - функция, определяющая ¿-оценку [5, 6]. Отметим, что оценка Д0 = Т(рп) средней разности Джини Др = Т(р), согласно теореме (7.1.25) в [6], асимптотически нормальна, т.е. выполняется выражение
(До - Др)/Ср(Дп)} = ^(0,1) при п ^ад , (20)
где асимптотическая дисперсия \/ЙД0 -оценки вычисляется по формуле
4(Д>) = 1 2(X;F, ДР)йР(х) = |Ф^(х№(х)-(((х№(х) )2 , (21)
в которой функция ф р (х) определяется в виде
х
Фр (х) = 2х(2Р(х) -1) - 4ц р (х), |р (х) = | уёр(у). (22)
-ад
Можно убедиться (см., например, [5, 6]), что функция влияния /р(х;р, Др ) оценки Д0 = Т(рп) средней разности Джини Д р = Т (р) записывается в виде
/р(х; р, Др) = фр (х)-|фр (х)ёр(х) = фр (х) - 2(Др-|р), х е Я1. (23)
Отметим, что функция влияния /р (х; р, Д р ) не является ограниченной функцией и, следовательно, выборочные оценки средней разности Джини, так же как и оценка ^ (0) стандартного отклонения, подвержены сильному влиянию выбросов в выборке.
Рассмотрим теперь модифицированную оценку средней разности Джини, которая была предложена в [8]. Эта оценка является ^-статистикой, основанной на урезанной выборке, и имеет вид
Да = {(п - 2[ап] )(п - 2[ап] -1)}-1 X|Х() - Х(;}|, 0 < а < 1/2. (24)
с«
Функционал иа (р) из (6), соответствующий этой оценке при т = 2 и ядре к(х1, х2) =\ х1 - х2 \, записывается в виде
1 р(-а)
Да(р)= (1 - 2 )2 Ц|х-уИр(х>/р(у), 0 < а < 1/2. (25)
(1 2а) р-1 (а)
Далее функция gа (х; р) из (4) для данного случая при т = 2 и к(х1, х2) =\ х1 - х2 \ запишется в виде
* а ( х; р ) = 1 ^ х2(<)?1-а] {Фа (х, Р )/2 + 1а ( )}, (26)
где функция фа (х, р) и |а (р) вычисляются по формулам
1-а
Фа (х, р) = 4хр(х)- 2х - \ уйр(у), |а (р) = {р- (№. (27)
р (а
Величины Аа и Ва из (5) в данном случае, соответственно, равны
Аа = [(1 - 2а)^а - Ца (F)] / (1 - 2а)2, Ва = [(1 - 2а)^ - Ца (F)] / (1 - 2а)2. (28) Приведем выражение для функции влияния Ш (х; F, А а) оценки А а вида (24). Для простоты рассмотрим симметричные распределения, т.е. F е 3Х|0, тогда ца(F) = 0 и =-^а. Введём дополнительные обозначения:
Jl = Jl(F,а) = ¿фа(х,F)dF(x) = 2(1 -2а)2АаJ2 = J2(F,а) = ||;Фа(х,F)dF(x). (29)
С использованием формул (26)-(29), формула (13) для ограниченной функции влияния Ш(х; F, Аа )
оценки А а перепишется в виде
ш( Е,Я) 1 I [Фа (х, F) - Jl(F, а) - 4а(1 - 2а)^ ],|х|<1а, (30)
№(х;F,ААа) = ---г] - (30)
(1 -2а)2 [ [2(1 -2а)2^ -Jl(F,а)], |х|>^.
Согласно (10) асимптотическая дисперсия д/пА а -оценок вычисляется по формуле
с
а2^,Аа) = | №2(х;F,Аа)dF(х) =
-С
J2( F, а) - 2 ^2( F, а) + 8^( F, а)а(1 - 2а) F-1(а) + 8а(1 - 2а)3[ F-1(а)]2 „ ^
=--, г ез ™. (31)
(1 - 2 а)4
Используя формулы (29) и (31), получаем выражение для асимптотической стандартизованной дисперсии ¿Аа -оценок в виде
-2(
Аа^)
Пример 1. Приведём результаты вычислений асимптотической дисперсии оценки Д0 средней разности Джини при нормальном распределении, т.е. предполагаем, что
F(х) = Ф(х) = (1/>/2л)[ ехр{-х2 / 2^х . В данном случае функция фF (х) из (22) запишется в виде
^ -С
ФФ (х) = 2х(2Ф(х) -1) + (4 /-УТл) ехр{-х2/2}. Используя формулу (21), получаем (детали см. в примере (10.6.15) в [6]) значение асимптотической дисперсии л/пЛ0 -оценки средней разности Джини для нормального распределения, равное
а2(Ф, А0) = ГФф (х^Ф(х) - ((фф (х^Ф(х) )2 = ^л!6^-16 = 4(Л + ^-12) « 0,651. •> ' 3л л 3л
Стандартизованная асимптотическая дисперсия л/пЛ0 -оценки равна
а 2( F, А а) = а (Г; ^) = 4{ J2 - + 8 а(1 -а) ^ + 8 а (1 - 2 а)3 F еЗ™. (32)
\2
4(л + 6л/3-12) л + -12
а ГфФ (x)dФ(х) -(( (х^Ф(х))
52(Ф,А0) = 4-------= 4 "" = ^ 0,511.
1Г , чГ 3л-(16/л) 3
УфФ (x)dФ(х)) v >
Пример 2. Рассмотрим супермодель с засорением Зе т (Ф) = {F : Е(х) = Фе т (х) }, где
Фе,т (х) = (1 -е)Ф(х) + еФ(х / т), 0 <е< 1, т> 1.
Численные значения асимптотической стандартизованной дисперсии ст2^, А0) = а2(В; А0)/ А^ для л/пА0 -оценки средней разности Джини для супермодели Зе т (Ф), вычисленные по формуле (10.6.32) в [6], приведены в табл. 1.
Для сравнения оценки А0 средней разности Джини с оценкой (0) стандартного отклонения в рамках супермодели Згт(Ф) в табл. 2 приведены значения их асимптотических относительных эффективности АОЭр (А0 : ^(0)) = ^2(F; ^(0))/а2^; А0) для F еЗ£,т(Ф) .
Т а б л и ц а 1
Асимптотическая стандартизованная дисперсия с2(р,Д0) для р еЗЕ1 (Ф)
1 \ е 0,00 0,001 0,005 0,01 0,05 0,10 0,20 0,30
1 = 3 0,511 0,523 0,566 0,618 0,928 1,137 1,255 1,204
1 = 5 0,511 0,558 0,735 0,933 1,887 2,256 2,159 1,831
1 = 10 0,511 0,753 1,601 2,443 4,901 4,781 3,542 2,592
Т а б л и ц а 2
Асимптотическая относительная эффективность АОЭр(Д0 : 51(0)) для р еЗе 1(Ф)
1 \ е 0,00 0,001 0,005 0,01 0,05 0,10 0,20 0.30
1 = 3 0,978 1,046 1,274 1,468 1,679 1,612 1,304 1,140
1 = 5 0,978 1,634 3,011 3,518 2,512 1,712 1,183 1,010
1 = 10 0.978 8,740 10,53 7,730 2,114 1,269 0,907 0,825
Из данных табл. 2 следует, что оценка Д0 средней разности Джини, проигрывая лишь 2% в эффективности оценке 5 (0) стандартного отклонения при нормальном распределении, становится предпочтительнее уже при небольших отклонениях от нормального распределения в рамках супермодели Зе т (Ф).
Отметим, что при увеличении параметра т относительная эффективность АОЭф (Д0 : 51(0)) принимает неожиданно большие значения. По всей вероятности, это является следствием того факта, что оценка 5 (0) стандартного отклонения имеет неограниченную (квадратично возрастающую) функцию влияния, и при увеличении т и малых е её дисперсия резко возрастает (см. также теорему (2) в [10]).
Пример 3. В табл. 3 приведены результаты сравнения различных оценок масштабного параметра,
используя понятие дефекта оценки [12]. Напомним, что дефект ОБ(р,01) оценки 01, 1 = 1,...,к, среди
сравниваемых оценок 01,...,0к параметра 9 при распределении ропределяют в виде
ОБ(р,01) = 1 -шт(а2(р,01),...,с2(р,0к)} / с2(р,0г), 1 = 1,...,к . Отметим, что при сравнении оценок масштабного параметра используют вместо асимптотических дисперсий с2(р,01) их стандартизованные дисперсии с2(р,01), 1 = 1,...,к . Обычно дефекты оценок откладывают для наглядности на плоскости двух распределений [12]. В табл. 3 приведены дефекты оценок масштабного параметра с использованием их стандартизованных дисперсий в «плоскости двух распределений: р(1) - Гаусс, р(3) - Лаплас».
Т а б л и ц а 3
Дефекты оценок масштабного параметра для распределений = Ф и Р(3)
Дефекты оценок 5?1(0) 4(0) Д0 5?4 53(0,10) 5?3(0,25)
ОБ( р0), 5?) 0,00 0,12 0,02 0,14 0,38 0,63
ОБ( р(3), 5?) 0,20 0,00 0,04 0,21 0,35 0,52
Итак, среди сравниваемых оценок предпочтение следует отдать Д0 -оценке средней разности Джини. Отметим, что для симметричных распределений ограниченные функции влияния и асимптотические дисперсии 53 (0,25) -оценки интерквартильного размаха и оценки = ше^\ Х1 -ше^Х)\, 1 < 1 < п }, совпадают. Отметим также, что оценка 5>4 = ше^ \ Х1 - Х; \, 1 < 1 < ; < п} , в отличие от оценок 5 (0), 52 (0) и Д0 , также имеет ограниченную функцию влияния.
Пример 4. Вычисления асимптотической стандартизованной дисперсии а 2( F, А а) для А а -оценок вида (24) в рамках модели с засорением, т.е. для F е З8 т (Ф), показывают, что она существенно зависит от параметра а. Например, для нормального распределения минимальное значение асимптотической стандартизованной дисперсия а2(F, Аа) для Аа -оценок достигается при а = 0, а при т = 3 и е = 0,05 минимум достигается при а = 0,05. Для распределения Коши минимум достигается при а = 0,20 . Отмеченный факт приводит к необходимости адаптации параметра а к меняющемуся распределению в рамках заданной супермодели при практическом использовании Аа -оценок. Следуя работам [13, 14], определим адаптивный параметр а( Х1,..., Хп) для А а -оценок вида (24), вычисляемый по формуле
а1, 0(Fn) < 01,
а,+1 -а,
сх( Х1,..., Хп) = ^
- ) - } + аг, < д^п) < 01+1,, = 1,2, (33)
02 - 01
а3, ) > 03,
где параметры а1, а2, а 3, 01, 02 и 03 задаются в соответствии с рассматриваемым типом супермодели. В формуле (33) Q(Fn) - выборочная оценка, построенная по выборке Х1,...,Хп методом подстановки, для функционала ; V, ц), характеризующего степень затянутости хвостов распределения наблюдений [13]. Эта оценка записывается в виде
т ( п к Л ( п т Л
0 ^п; V, ц) = -I 2 Х(г)-2 Х(г) I/I 2 Х(0 - 2 Х(г) I, к = [V п], т = [цп], (34)
к у,=п-к+1 ,=1 у V'=п-т+1 ,=1 у
где 0 ^<ц<0,5 и Х(1),..., Х(п) - порядковые статистики выборки Х1,..., Хп. Следуя работе [13], ниже полагаем v = 0,2 и ц = 0,5. В качестве примера рассмотрим достаточно широкую супермодель Тьюки в виде ^-аппроксимаций квантильных функций заданных распределений [11]. Эта супермодель определяется в виде
^:^-Чо = А,1 + [^ -(1 -^2, 0<г< 1}. (35)
При определении адаптивного параметра сс(Х1,...,Хп) по формуле (33) в рамках супермодели Тьюки примем следующие значения параметров: а1 = 0, а2 = 0,2, а3 = 0,3, 01 = 1,76, 02 = 2,50,
03 = 4,30. Результаты сравнения адаптивной А а -оценки средней разности Джини с семейством А а -оценок, для которых параметр а, 0 <а< 1 / 2, фиксирован, приведены в табл. 4 в виде отношения асимптотической стандартизованной дисперсии оценки к минимальной стандартизованной дисперсии среди сравниваемых оценок при заданном распределении (т.е. при заданном значении параметра Х3).
Т а б л и ц а 4
Отношения асимптотических стандартизованных дисперсий Аа -оценок для ¥ еЗХ
Ф.р. 0( Ъ) А0,0 А0,01 А0,05 А0,10 А0,20 А0,30 А а
Равномерная 1,000 1,60 1,00 1,14 1,67 2,50 5,00 10,0 1,00
0,200 1,74 1,00 1,07 1,36 1,71 2,74 4,83 1,00
Гаусса- 0,1349 1,76 1,00 1,06 1,29 1,59 2,47 4,28 1,00
Лапласа -0,0802 1,84 1,06 1,00 1,04 1,17 1,65 2,71 1,00
-0,2450 1,91 1,51 1,11 1,00 1,05 1,35 2,12 1,00
-0,5500 2,10 С 1,67 1,11 1,00 1,10 1,57 1,00
Коши -1,000 2,50 С 3,87 1,59 1,16 1,00 1,22 1,00
-2,000 4,38 С 18,2 3,93 2,05 1,14 1,00 1,00
Приведенные в табл. 4 данные показывают, что адаптивная А а -оценка средней разности Джини обладает преимуществом перед урезанными А а -оценками средней разности Джини, для которых параметр а, 0<а< 1 / 2, фиксирован, при изменении распределения выборки в достаточно широком семей-
стве распределений 3. Отметим, что приведенные результаты сравнения являются асимптотическими. При конечных объемах выборки требуются дополнительные исследования. Предварительные результаты моделирования показывают, что отмеченное преимущество адаптивных Да -оценок начинает устойчиво проявляться уже при объемах выборки п > 40 и для других супермоделей.
Пример 5. Рассмотрим супермодель 3{Ф(с)} в виде семейства обобщенных гауссовских распределений с плотностью /(х, с), которая зависит от параметра с и определяется в виде
с) = , * / ехр{-[\х\/А(с)]с}, х е Я1, 0,5 < с < 3,0, А (с) = ^Г (1/ с)/ Г (3/ с) . 2А (с)Г(1/ с)
Отметим, что супермодель 3{Ф(с)} вида
Х 1 3{Ф(с)} = {р: р(х,с) = [с / Г(1/с)А(с)] | ехр{-[\х \/А(с)]с}с1х}, х еЯ1,
-ад
включает при с = 1 распределение Лапласа, и с = 2 соответствует нормальному распределению. Изменение эффективности для 0,5 < С < 1,75 приведены в табл. 5.
Т а б л и ц а 5
Относительные эффективности ЛОЭр(Д0 : ¿1(0)) и ЛОЭр(S2(0): ¿1(0)) для F еЗ{Ф(с)}
c 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,50
AO^F (V ¿1(0)) 1,74 1,41 1,21 1,09 1,03 1,00 0,98 0,96
AODf (¿2(0): ¿ДО)) 1,78 1,52 1,25 1,09 1,00 0,93 0,88 0,81
Итак, при изменении параметра с в интервале 0,5 < c < 1,75 оценка S2 (0) среднего абсолютных отклонений эффективнее оценки 51(0) стандартного отклонения. Кроме того, оценка Д0 средней разности Джини также предпочтительнее оценки S>1 (0) .
Заключение
Традиционно применяемые на практике оценки масштабного параметра, характеризующего степень разброса случайной величины, имеют неограниченные функции влияния Хампеля и обладают повышенной чувствительностью к наличию выбросов в выборке, что приводит к существенным искажениям статистических выводов. В данной работе предложена модифицированная оценка средних разностей Джини Д а, 0 <а< 1 / 2, которая входит в класс £/-статистик, основанных на урезанных выборках. Показано, что эта оценка асимптотически нормальна, имеет ограниченную функцию влияния, и, следовательно, защищена от влияния выбросов. При этом она обладает высокой эффективностью при нормальном распределении наблюдений. В работе приведены результаты сравнения предложенной оценки с другими оценками масштабного параметра в рамках гауссовской модели с засорением и предложен адаптивный вариант Да -оценок, для которых параметр а, характеризующий пропорцию «урезания» исходной выборки, выбирается на основе информации, содержащейся в исходной выборке с использованием выборочной оценки функционала, характеризующего степень «затянутости хвостов» функции распределения F изучаемой случайной величины X.
ЛИТЕРАТУРА
1. Hoefding W. A class of statistics with asymptotically normal distribution //Ann. Math. Statist. 1948. V. 19. P. 292-325.
2. Janssen P., Serfling R., Veraverbeke M. Asymptotic normality of U-statistics based on trimmed samples // J. Statist. Planning and
Inference. 1987. V. 16. P. 63-74.
3. Serfling R.J. Approximation Theorems of Mathematical Statistics. N. Y. : Wiley, 1980. 371 p.
4. Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М. : Мир,
1989. 512 с.
5. Шуленин В.П. Введение в робастную статистику. Томск : Изд-во Том. ун-та, 1993. 227 с.
6. Шуленин В.П. Математическая статистика. Ч. 3: Робастная статистика : учеб. Томск : Изд-во НТЛ, 2012. 520 с.
7. Кендэлл М., Стьюарт А. Теория распределений. М. : Наука, 1966. 587 с.
8. Шуленин В.П. Исследование устойчивости и асимптотических свойств урезанной средней разности Джини // Тр. IV Между-
народной конференции по теории вероятности и математической статистике. Вильнюс, 1985. C. 330-332.
9. Шуленин В.П. Асимптотические свойства GL и U-статистик // Вестник Томского государственного университета. Приложе-
ние. 2004. № 9 (11). C. 184-190.
10. Bickel P.J., Lehmann E.L. Descriptive statistics for nonparametric models. III. Dispersion // Ann. Statist. 1976. V. 4, No. 6. P.1139-1158.
11. Ramberg J.S., Schmeiser B.W. An approximative method for generating symmetric random variables // Commun ACM. 1972. V. 15. P. 987-990.
12. Andrews D.F., Bickel P.J., Hampel F.R., Huber P. J., Rogers W.H., Tukey J.W. Robust estimation of location: survey and advances. N. Y. : Princeton Univ. Press, 1972. 375 p.
13. Hogg R.V. Adaptive robust procedures: A partial review and some suggestions for future applications and theory // J. Amer. Statist. Assoc. 1974. V. 69. P. 909-923.
14. Шуленин В.П. Адаптивная оценка урезанной средней разности Джини // Методы и программное обеспечение обработки информации и прикладного статистического анализа данных на ЭВМ. Минск, 1985. C. 113-114.
Шуленин Валерий Петрович, канд. техн. наук. E-mail: [email protected] Томский государственный университет
Поступила в редакцию 21 апреля 2016 г.
Shulenin Valery P. (Tomsk State University, Russian Federation). The asymptotic properties of the modified Gini's mean difference.
Keywords: scale parameter; robust estimation; influence function; asymptotic relative efficiency; adaptive estimators. DOI: 10.17223/19988605/37/8
The paper proposes a modified estimator Gini's mean difference, which is part of a class U-statistics based on the trimmed samples. It is shown that this estimate is asymptotically normal, has a limited influence function, it has a high efficiency for a normal distribution of observations.
We assume that X1,...,Xn a random sample from a distribution function F(x) and we assume that has a density f (x) , x e R1, X(),...,X(n) - ordered statistics of the original sampleX^...,Xn . Let T(F) , F e 5 common functional that characterizes the scale parameter, which describes the degree of dispersion of the study of a random variable X . We consider the functional which is defined as
1 F1 (1-a)
Aa(F)= 2 J Jx - y\dF (x)dF (y), 0 <a<1/2.
(1 - 2a) F-1 (a)
Sample estimator of this functional, called a modified Gini's mean difference, written in the form
A a ={(n - 2[an] )(n - 2[an] -1)}-1 £|Xc)-X(j)\, 0 <a< 1/2, Ca = {(i, j): [an] + 1 < i < j < n - [an]}.
Ca
The results of the comparison of the proposed A a -estimators with other estimates of the scale parameter for Gaussian model with
s -fixed proportion of contamination, and proposed an adaptive version /A a -estimators for which the parameter a characterizing the proportion of "trimmed" of the original sample, selected on the basis of information contained in the original sample using a sample estimate functional, characterizing the degree of "heavy tails" of the distribution function of the random variable X under study.
REFERENCES
1. Hoeffding, W. (1948) A class of statistics with asymptotically normal distribution. The Annals of Mathematical Statistics. 19.
pp. 292-325. DOI: 10.1214/aoms/1177730196
2. Janssen, P., Serfling, R. & Veraverbeke, M. (1987) Asymptotic normality of U-statistics based on trimmed samples. J. Statist. Plan-
ning and Inference. 16. pp. 63-74. DOI: 10.1016/0378-3758(87)90056-5
3. Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics. New York: Wiley.
4. Hampel, F., Ronchetti, E., Rousseeuw, P.J. & Stahel, W. (1989) Robastnost' v statistike. Podkhod na osnove funktsiy vliyaniya [Ro-
bust Statistics. The Approach Based on Influence Functions]. Translated from English. Moscow: Mir.
5. Shulenin, V.P. (1993) Vvedenie v robastnuyu statistiku [Introduction to robust statistics]. Tomsk: Tomsk State University.
6. Shulenin, V.P. (2012) Matematicheskaya statistika. Ch. 3: Robastnaya statistika [Math statistics. Part 3. Robust statistics]. Tomsk:
NTL.
7. Kendall, M. & Stewart, A. (1966) Theory of distributions [Theory of distributions]. Translated from English. Moscow: Nauka.
8. Shulenin, V.P. (1985) [Investigation of the stability and asymptotic properties of the Gini truncated mean difference], Proc. of the
Fouth International Conference on the Theory of Probability and Mathematical Statistics. Vilnius. pp. 330-332. (In Russian).
9. Shulenin, V.P. (2004) The asymptotic properties of GL and U- statistics. Vestnik Tomskogo gosudarstvennogo universiteta. Prilozhenie - Tomsk State University Journal. Appendix. 9(11). pp. 184-190. (In Russian).
10. Bickel, P.J. & Lehmann, E.L. (1976) Descriptive statistics for nonparametric models. III. Dispersion. Ann. Statist. 4(6). pp. 11391158. DOI: 10.1214/aos/1176343648
11. Ramberg, J.S. & Schmeiser, B.W. (1972) An approximative method for generating symmetric random variables. Commun ACM. 15. pp. 987-990. DOI: 10.1145/355606.361888
12. Andrews, D.F., Bickel, P.J., Hampel, F.R., Huber, P. J., Rogers, W.H. & Tukey, J.W. (1972) Robust estimation of location: survey and advances. Princeton, New York: Princeton Univ. Press.
13. Hogg, R.V. (1974) Adaptive robust procedures: A partial review and some suggestions for future applications and theory. J. Amer. Statist. Assoc. 69. pp. 909-923. DOI: 10.1080/01621459.1974.10480225
14. Shulenin, V.P. (1985) Adaptive estimation trimmed Gini mean difference. Methods and software provision of information processing and application of statistical analysis of data on a computer. Minsk. pp. 113-114. (In Russian).