ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2013
Управление, вычислительная техника и информатика
№ 1(22)
УДК 512.2
В.А. Симахин, О.С. Черепанов
АДАПТИВНЫЕ ОЦЕНКИ ПАРАМЕТРА СДВИГА
На основе взвешенного метода максимального правдоподобия синтезированы и исследованы адаптивные оценки параметра сдвига.
Ключевые слова: адаптивные оценки, робастность, непараметрический алгоритм.
В настоящее время нет недостатка в робастных оценках параметра сдвига, что создает даже некоторое неудобство для пользователей (см., например, [1-6]). Как правило, такие оценки робастны на классе распределений и имеют низкую эффективность в отсутствии выбросов и на ряде распределений супермодели. Как выход были предложены адаптивные оценки. В рамках параметрической робастной статистики используется адаптация по параметру усечения, но не по виду распределения Е(х) [4, 5]. В рамках непараметрической задачи [6] предложена адаптация по виду распределения Е(х), но функция и параметр усечения подбираются эвристически. Становится понятным, что эффективные оценки в условиях непараметрической статистической неопределенности должны быть адаптивными как по виду априорного распределения (непараметрический подход), так и по отбраковке выбросов (робастный подход).
В работе на основе взвешенного метода максимального правдоподобия (ВММП) [7, 8] рассматриваются адаптивные робастные непараметрические оценки на примере параметра сдвига.
1. Взвешенный метод максимального правдоподобия (ВММП)
Пусть х1,..., хы - выборка н.о.р. из непрерывного распределения Е(х) с плотностью /(х). Обозначим: 0(х, 9), g(х, 9) - априорные функцию и плотность распределения из класса унимодальных симметричных распределений; 9 - неизвестный параметр; (х) - эмпирическую функцию распределения (э.ф.р.).
М-оценки неизвестного параметра 9 определяются на основе решения эмпирического уравнения вида
где ф( х, 9) - оценочная функция.
Анализ критерия радикальности и алгоритмов устойчивых оценок [3] позволяет сделать вывод, что устойчивые оценки можно синтезировать на основе ВММП [7] с оценочной функцией ф( х, 9) вида
(1.1)
ф(х, 9) = 1п g(х, 9) + р ^ (х, 9),
(1.2)
где I - параметр радикальности оценки, р - параметр, который определяется из условия несмещенности оценки, для параметра сдвига р = 0 [7].
Выражение (1.2) определяет ВММП с весами gl (х, 9) : при I = 0 получаем оценки максимального правдоподобия (ОМП), при I = 0,5 - радикальные оценки (РО), при I = 1 - оценки максимальной устойчивости (ОМУ) [3]. Физически роль параметра I сводится к определению степени «мягкого» усечения, как для удаленных выбросов, так и по форме априорного распределения.
Для модели Тьюки Е(х) = (1 -е)б(х, 9) + е- Н(х, 9) получаем взвешенную ОМП с весами
4-1
W (х, 0) = =|, +.
е- h( х, 9) f (х) I (1 -е) g (х, 9)
Если параметр радикальности l определить в виде
ln f (х)
l =
(1 -е)--
ln g (х, 9) _
то оценки ВММП вида (1.2) будут совпадать с ОМП. Как правило, H(х, 9) и е неизвестны и в результате весовые функции W(х, 9) невозможно определить. В то же время оптимальная оценка зависит только от интегрального параметра радикальности l. Следовательно, производя адаптацию оценок (1.2) по параметру радикальности, можно получать эффективные робастные оценки ВММП в классе устойчивых оценок [3].
2. Исследование оценки сдвига ВММП
Рассмотрим обобщенную М-оценку 9N параметра 9 , которая определяется на основе решения эмпирического уравнения вида [7], [11]
j ф( х, 9 N, TN (х, 9 N )dFN (х) = 0,
где T = (Ti,...,Tk)T ; T =|(х,t,9)dF(t); Гш = jSt(х,t,9)dFv(t).
Имеет место следующее представление
- d l-1
9n-9= j—ф(х,9,T)dF(х) -íy(t,9)dF(t),
L 59 J
k d
y(t, 9) = ф(t, 9, T(t, 9)) + V í Sj (х, t, 9)-ф^, 9, T(t, 9))dF(х).
,=! dT,
При выполнении ряда ограничений л/N(9N - 9) имеет асимптотически нор-
мальное распределение с дисперсией
а2 =
j—ф(х, 9, T)dF(х) -jv2(t, 9)dF(t).
59
В параметрическом случае (1.2) (St = 0)
ф( х, 9) =
_5_
50
g (х, 9)
gl-1( х, 9).
(2.1)
(2.2)
В^1ражения (2.1), (2.2) определяют дисперсию параметрического ВММП (классические М-оценки) и при I = 0 (2.1) совпадают с выражением для дисперсии ОМП, а при I = 1 ОМУ [3].
Для непараметрического ВММП, который будет рассмотрен ниже, для оценки сдвига получаем
ф(х, 0,71,72) = Т (х, 0) • Т21 -1 (х, 0),
X (х,/,0) = — К| 20~Х - I, 52(х,/,0) = — 51 (х,/,0).
П ' Им 1 Им У 2У” ’ 50 п '
В этом случае выражение (2.1) определяет дисперсию непараметрической оценки ВММП в зависимости от I.
Исследуем поведение дисперсии оценок ВММП параметра сдвига для параметрической задачи. В качестве супермодели возьмем модель Тьюки Е(х) = (1 -е)б(х, 0) + е- Н(х, 0) на конечном наборе распределений, имеющих
разную степень «тяжести хвостов»: четвертой степени (РЧС), нормального, Лапласа, Коши для асимметричных (АВ) и симметричных (СВ) выбросов [11]. Например, для нормального распределения
I (х) = 1
\/2л
С -х2 -(х-5)2 I
0,9е 2 +0,1е 2
для АВ; (2.3)
\ /
I (х) = 1
•\/2л
С х2 х2 А
-— 0 1 -—
0,9е 2 + ^ е 18 3
V У
для СВ. (2.4)
Для данных распределений были синтезированы оценки ВММП [11]. В выражение (2.1) подставлялись соответствующие распределения типа (2.3), (2.4), вычислялись дисперсии оценок для данных распределений и проводилось сравнение полученных оценок. В связи с ограниченным объемом работы приведем ряд результатов для распределений (2.3) , (2.4), которые являются типичными и для других распределений.
Для нормального распределения g (х, ц, X) оценка параметра сдвига принимает следующий вид:
I(х -ц) ^ (х, ц, s)dFN (х) = 0. (2.5)
Дисперсия данной оценки
| х2 g 21 (х, 0, s)dF (х)
2
II 1х2-1 I gl (х,0, 5^(х) I
а2 =■
5 у у
1. Исследовалась зависимость от I дисперсии оценки (2.5) при е=0 (см. табл. 1)
Т аблица 1
Эффективность оценки (2.5) при £ = 0
Оценка ОМП РО (1 = 0.5) ОМУ (1 = 1)
Дисперсия (кривая 1 на рис. 1, 2) 1 1,193 1,54
Эффективность 1 0,832 0,649
С ростом устойчивости оценки её эффективность снижается.
2. Исследовалась зависимость от l дисперсий оценок ВММП (см. табл. 3, 4; рис. 1, 2) на распределениях (2.3), (2.4).
Рис. 1. График дисперсий оценок от l Рис. 2. График дисперсий оценок от l
на распределении (2.3) на распределение (2.4)
На рис. 1, 2: 1 - оценка ВММП для НР е = 0; 2 - оценка ВММП для НР; 3 -оценка ВММП для Лапласа; 4 - оценка ВММП для Коши; 5 - оценка ВММП для РЧС.
Т аблица 2
Эффективности оценок на распределении (2.3)
Параметр Оценка
НР С2.5) Лапласа Коши РЧС
Оптимальный параметр радикальности O,3O3 O O O,48!
Дисперсия 1,303 І,939 3,4O2 І,376
Эффективность 1 O,672 O,383 O,947
Т аблица 3
Эффективность оценок на распределении (2.4)
Параметр Оценка
НР С2.5) Лапласа Коши РЧС
Оптимальный параметр радикальности O,^ O O O,532
Дисперсия 1,273 U8O3 3,4O2 U5O2
Эффективность 1 O,7O6 O,474 O,848
Эффективными оказываются взвешенные ОМП (оценки ВММП). Результат ожидаемый, но не очевидный.
3. Исследовалась зависимость от і дисперсии оценки (2.5) (см. табл. 4, 5) на распределениях (2.3), (2.4).
Дисперсия оценки (2.5) имеет выраженный минимум по і, поэтому находилось оптимальное і* - в результате получаем адаптивные оценки (АО).
Лидируют адаптивные оценки (АО). Высока эффективность радикальных оценок (РО). ОМУ имеют низкую эффективность. ОМП имеют низкую, особенно при АВ, или нулевую эффективность.
Т аблица 4
Эффективность оценки (2.5) на распределении (2.3)
Параметр Оценка
ОМП АО РО ОМУ
Дисперсия 3,5 1,303 1,364 1,72
Эффективность 0.372 1 0,955 0,758
Т аблица 5
Эффективность оценки (2.5) на распределении (2.4)
Параметр Оценка
ОМП АО РО ОМУ
Дисперсия 1,8 1,273 1,4 1,782
Эффективность 0,707 1 0,909 0,714
3. Адаптивные оценки ВММП
При непараметрическом уровне априорной информации (вид g (х, 0) неизвес тен), заменим g (х, 0) в (1.2) непараметрической симметризованной оценкой Ро зенблатта - Парзена gN (х, 0) :
20- х -t
К
dFN (1).
(3.1)
Например, для нормального ядра оценочные уравнения ВММП для оценки параметров сдвига 0 и масштаба X принимают следующий вид [7], [8]:
1 N N
—1— XX
N (N -1) г£ £
1
7+1
(3.2)
где
И1( г г1) = ехр -¡-
(0N 21])
X N
(0 N 2т )
7-1
= (х + х}-) / 2 - полусуммы Уолша.
Непараметрический подход на основе оценок Розенблатта - Парзена вида (3.1) позволяет осуществить адаптацию оценок ВММП по виду априорного распределения 0(х, 0). Однако такая адаптация не приводит к робастным непараметрическим оценкам. Для этого необходимо осуществить адаптацию оценок (3.2) по параметру радикальности 7, который осуществляет процесс «мягкого» усечения уменьшая влияние как удаленных выбросов, так и выбросов, нарушающих форму симметричного распределения. Для получения алгоритма адаптации необходим непараметрический метод нахождения оценки дисперсии оценок вида (3.2) в зависимости от параметра радикальности 7. К таким непараметрическим методам в общем случае относятся бутстреп-процедуры. В нашем случае достаточно использовать простые бутстреп-процедуры типа «]асккт1е» и алгоритмы поиска минимума по параметру радикальности 7 (0 <7 < 1) оценки СКО непараметрического ВММП (3.2).
4. Моделирование
Было проведено моделирование адаптивных оценок (3.2) и их сравнение с известными в робастной статистике оценками сдвига Ходжеса-Лемана и медианой для распределений с «тяжелыми» - Коши и «легкими» хвостами - РЧС при асси-метричных и симметричных выбросах ^ = 100). В табл. 6, 7 приведены результаты моделирования для этих случаев.
Лидируют параметрические адаптивные оценки ВММП, определенные в пункте 2 (АО (2)). Им немного проигрывают адаптивные оценки ВММП, определенные в пункте 3 (АО (3.2)). Это можно объяснить тем, что оценки АО (2) используют более высокий уровень априорной информации и являются оптимальными на этом уровне, а оценки АО (3.2) являются только асимптотически оптимальными. Необходимо отметить низкую эффективность классических робастных оценок Ходжеса-Лемана и медианы на ряде распределений.
Т аблица 6
Эффективность оценок параметра сдвига на распределении Коши с асимметричными выбросами
Параметр Оценка
ОМП АО (п. 2) АО (3.2) Медиана Ходжеса - Лемана
Дисперсия 0,0149 0,0132 0,0145 0,0200 0,0426
Эффективность 0,88590 1,0000 0,91 0,6600 0,3099
Т аблица 7
Эффективность оценок на распределении РЧП с асимметричными выбросами
Параметр Оценка
ОМП АО (п. 2) АО (3.2) Медиана Ходжеса - Лемана
Дисперсия 4,4959 1,3416 1,4304 4,8568 1,7537
Эффективность 0,3009 1,0000 0,9379 0,2762 0,7650
Для оценки адаптивных непараметрических оценок типа (3.2) был воспроизведен эксперимент Берана [6] N = 39+1 выброс из НР). На рис. 3 приведены оценка СКО адаптивной (робастной непараметрической) (Jackknife) оценки ВММП с ас-симетричным засорением в зависимости от параметра радикальности 7 (0 <7 < 1).
Рис. 3. ^ = 39+1 выброс) 1 - без выбросов; 2 - выброс = 5; 3 - выброс = 11
Заключение
Синтезированы адаптивные оценки параметра сдвига основе ВММП. Исследования показывают, что данные оценки сходятся к эффективным при разном уровне априорной информации относительно исходного априорного распределения и выбросов. Имеются обобщения адаптивных оценок ВММП на задачи регрессии [9] и прогноза [10].
ЛИТЕРАТУРА
1. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. М.: Мир, 1989. 512 с.
2. Хьюбер П. Робастность в статистике. М.: Мир, 1984. 303 с.
3. Шурыгин А.М. Прикладная статистика. Робастность. Оценивание. Прогноз. М.: Финансы и статистика, 2000. 223 с.
4. Basu A., Harris I.R., Hjort N.L., Jones M.C. Robust and efficient estimation by minimising a density power divergence // Biometrika. 1998. V. 85. P. 549-559.
5. Hogg V., Horn P.S., Lenth R.V. On adaptive estimation // J. Statistical Planning and Inference. 1984. V. 9. P. 333-1343.
6. Beran R. An efficient and robust adaptive estimator of location // Ann. Stat. 1978. V. 6. Ыо. 2. P. 292-313.
7. Симахин В.А. Непараметрическая статистика. Ч. II. Теория оценок. Курган: Изд-во КГУ, 2004. 163 с.
8. RymarI.V., Simakhin V.A. Nonparametric robust estimates of the shift and scale parameters // Proc. SPIE. 2005. V. 6160. P. 230-239.
9. Simakhin V.A. Nonparametric robust regression estimate // Proceedings SPIE. 2006. P. 130-139.
10. Simakhin V.A. Nonparametric robust prediction algorithms // Proc. International Symposium on Stochastic Models in Reliability Engineering, Life Science and Operations management. Beer Sheva, Israel, 2010. P. 1017-1030.
11. Симахин В.А. Робастные непараметрические оценки. LAMBERT Academic Publishing, Germany, 2011. 292 с.
Симахин Валерий Ананьевич
Черепанов Олег Сергеевич
Курганский государственный университет
E-mail: [email protected], [email protected] Поступила в редакцию 2 мая 2012 г.
Simakhin Valerii A., Cherepanov Oleg S. (Kurgan State University). Adaptive estimation of location parameter.
Keywords: Adaptive; robust; nonparametric; estimation.
There are proposed adaptive robust estimates of location parameter on the basis of weighted maximum likelihood method. The effectiveness of the proposed estimates in the case of symmetrical and asymmetrical outliers is studied. The robust nonparametric estimates appeared to be are effective and adaptive both to the kind of distribution and clogging sample degree.