Научная статья на тему 'Приближение оценки Qn параметра масштаба с помощью быстрых М-оценок'

Приближение оценки Qn параметра масштаба с помощью быстрых М-оценок Текст научной статьи по специальности «Математика»

CC BY
209
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБАСТНОСТЬ / M-ОЦЕНКИ / ПАРАМЕТР МАСШТАБА / ROBUSTNESS / M-ESTIMATES / SCALE PARAMETER

Аннотация научной статьи по математике, автор научной работы — Смирнов Павел Олегович, Шевляков Георгий Леонидович

Рассмотрены популярные робастные оценки параметра масштаба, обладающие высокой эффективностью, в частности оценка QN Предложено параметрическое семейство M-оценок, обеспечивающих более быстрые вычисления с допустимым снижением пороговой точки. Приведены результаты статистического моделирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPROXIMATION OF THE QN-ESTIMATE OF SCALE WITH THE HELP OF FAST M-ESTIMATES

Popular highly efficient robust estimates of scale including the Qn estimate are considered. A parametric family of M-estimates which allows to faster computations with acceptable decrease in breakdown points is offered. The results of the Monte-Carlo simulation are given.

Текст научной работы на тему «Приближение оценки Qn параметра масштаба с помощью быстрых М-оценок»

УДК 519.233.22

П. О. Смирнов, Г. Л. Шевляков

ПРИБЛИЖЕНИЕ ОЦЕНКИ QN ПАРАМЕТРА МАСШТАБА С ПОМОЩЬЮ БЫСТРЫХ М-ОЦЕНОК

Рассмотрены популярные робастные оценки параметра масштаба, обладающие высокой эффективностью, в частности оценка Qn. Предложено параметрическое семейство М-оценок, обеспечивающих более быстрые вычисления с допустимым снижением пороговой точки. Приведены результаты статистического моделирования.

Ключевые слова: робастность, М-оценки, параметр масштаба.

Один из подходов к оптимизации и принятию решений в условиях неопределенности вероятностных моделей сигналов и помех связан с использованием робастных статистических методов, обеспечивающих устойчивость и надежность результатов статистического анализа к возможным отклонениям от принятых гипотез о распределениях [1]. В свою очередь задачи робастного оценивания параметра масштаба распределений занимают второе по значению место после задач робастного оценивания параметра положения распределений [2]. В данной статье предлагаются быстрые высокоэффективные и робастные оценки параметра масштаба симметричных распределений.

Оценкой масштаба называется любая положительная статистика Sn, которая удовлетворяет равенству Sn(axi, ..., axn) = aSn(xi, ..., xn) для a > 0 [2-4]. Такая оценка определяет степень разброса значений в выборке и может использоваться как в непараметрических задачах, так и для оценивания значений неизвестного параметра масштаба семейства распределений вероятности. Примером такого параметра может служить параметр ст нормального распределения с плотностью

О О О 1 /О

вероятности N(0, ст ) = exp(-x /2ст) / (2пст ) , а возможной оценкой - стандартное отклонение SD.

Эта часто используемая оценка обладает серьезным недостатком: при небольших отклонениях от предполагаемой модели результат может оказаться далеким от истинного. Такими отклонениями могут быть загрязненные данные или ошибочные предположения о законе распределения генеральной совокупности. Классическая статистика рассматривает идеализированные условия, но, согласно [3], в статистических данных, как правило, встречается от 1 до 10 % больших ошибок, а некоторые ряды измерения после тщательной проверки не подтверждают принадлежность нормальному распределению, имея более тяжелые «хвосты».

Подобные отклонения от идеальной модели рассматриваются в робастной статистике. В зависимости от задачи в качестве робастных альтернатив для оценивания масштаба чаще всего используют межквартильный размах IQR = F^(3/4) - F^(1/4) или абсолютное медианное отклонение от медианы MAD = med, | xi - med x |. Одним из критериев робастности в данном случае служит пороговая точка оценки, т. е. наибольший процент наблюдений, который можно заменить произвольно большими значениями,

оказав лишь ограниченное влияние на значение самой оценки [2]. По этому критерию абсолютное медианное отклонение является более предпочтительным, поскольку оно имеет максимально возможную пороговую точку 50 %. Пороговые точки стандартного отклонения и межквартильного размаха равны 0 и 25 % соответственно.

Стандартное отклонение SD имеет минимальную возможную дисперсию для нормального распределения. Робастные же оценки обладают более высокой пороговой точкой, как правило за счет большей дисперсии, т. е. меньшей точности. В этом случае эффективность оценки MAD равна всего 36,7 %, поэтому возникает необходимость построения более эффективных оценок с максимальной пороговой точкой.

В работе [5] были предложены такие оценки, одна из которых, а именно Qn, впоследствии стала часто использоваться на практике. Оценка Q определяется как первый квартиль расстояний между наблюдениями: Q = {| х, - Xj |}№), k = C(h, 2), h = [n/2] + 1, и имеет асимптотическую эффективность 82,3 % и пороговую точку 50 %. Серьезным недостатком является большая вычислительная сложность такой оценки, так как задействовано n2 разностей между парами значений. Отметим, что даже более эффективный алгоритм [6] требует в 3-5 раз больше времени, чем MAD.

В данной статье используется параметрическое семейство оценок масштаба, имеющих такую же или большую эффективность за счет снижения пороговой точки, которая, тем не менее, остается в разумных пределах. Введенный параметр позволяет сохранить баланс между пороговой точкой и эффективностью в зависимости от решаемой задачи.

Постановка задачи. В теории робастности важным инструментом для анализа оценок является подход на основе функции влияния. Функция влияния IF(x; S, F) оценки S на модельном распределении F показывает устойчивость оценки к большим ошибкам в точке х и определяется как ее производная по Г ато [3]. Построим оценку масштаба с функцией влияния, совпадающей с IF(x; Q, F), тем самым обеспечив совпадение выражающихся через нее характеристик, в частности асимптотической дисперсии и эффективности.

Рассмотрим класс M-оценок масштаба S, задаваемых неявным уравнением

Z х(х, / S) = 0,

j Х(х) '

где х - некоторая оценочная функция, обычно четная и неубывающая при х > 0. Выбирая вид функции х, можно получать различные как робастные, так и неробастные оценки масштаба. Этот класс был введен Хьюбером и подробно рассмотрен в [2; 3].

Известно, что функция влияния таких оценок с точностью до нормирующего множителя совпадает с выбранной оценочной функцией 1К(х; S, К) ж х(х). Воспользуемся этим фактом и построим М-оценку масштаба Ма, приближающую Q, положив

ха (х) = са - а-1(Ф(х + а) - Ф(х - а)), а > 0,

где Ф(х) - стандартное нормальное распределение; са выбирается из условия состоятельности оценки

| d(х) = 0. При а = Ф-1(5/8) 42 = 0,450 6 функция влияния соответствующей оценки Ма будет совпадать с 1К(х; Q, Ф) [5].

Основной результат. Для удобства будем рассматривать другое параметрическое семейство, взяв первые несколько членов разложения Ф(х) в ряд Тейлора:

Ха (х) = Са - 3 (6 - а2 (х2 - 1)) ф(х), Са =

= (12 - а2) / (12 Тл).

Такое представление позволит получить результат в явном виде через элементарные функции.

Из-за своей простоты также будет интересен частный случай при а = 0:

Х0(х) = 1 / Тл - 2ф(х).

Исследования показали, что не имеет смысла рассматривать разложение с большей точностью: выигрыш в характеристиках минимален, а объем вычислений возрастает. В качестве альтернативы можно взять функцию ха р (х) с произвольным полиномом второй 2

степени от х , но в свете полученных результатов это также представляется избыточным.

Получим характеристики предложенной оценки. Формула для асимптотической дисперсии М-оценок масштаба выглядит следующим образом [3]:

V(Ма,Ф) = [&2 (х; Ма, Ф^Ф(х) = ([1ха((х))ф((х))^!х)2,

О хХа (х)ф(х)ёх)

что дает выражение для эффективности

1

еа =--------------=

а 2К (Ма ,Ф)

= 81(а2 - 4)2

8(432(2л/3 - 3) - 24(873 - 9)а2 + (16^3 - 9)а4 '

Максимальная достижимая эффективность составляет 95,9 %, но даже при а = 0 она не опускается ниже уровня 80,8 % (рис. 1).

Пороговая точка оценки определяется соотношением

-Ха (0) 12(72 - 2) - (72 - 4)а2

в случае четной монотонно возрастающей при х > 0 функции х(х). Эти условия будут выполнены при [0; 72], причем при нуле достигается максимум еа = 29,3 % (рис. 2).

Рис. 1. Эффективность оценки в зависимости от параметра а

Рис. 2. Пороговая точка оценки в зависимости от параметра а

Вычисление оценки как решения неявного уравнения в большинстве случаев затруднительно, но при этом возможно применение итеративных схем. В частности, можно ограничиться первой итерацией, получив так называемую М-оценку [2]:

0(1) _ 0(0) 2х(х,/ )

0----------

^2х( х, / 5)

05

Начальное приближение должно быть само по себе в высшей степени робастно. Подставляя предложенную оценочную функцию, получаем, что одношаговая оценка при а = 0 задается как уточнение медианы абсолютных отклонений:

Z0 -n/72

Л

k -«2/2 Ue ' ,

1 -

Z

V 2

x. - med x

и. =------------.

' 1,483MAD

*

Sa =

Xa (”) Xa (0)

4(a2 - 6)

Множитель перед MAD необходим для того, чтобы обеспечить состоятельность оценки на нормальном распределении.

Следует отметить, что функция влияния, а значит асимптотическая дисперсия и эффективность одношаговой оценки, будут несколько отличаться от первоначальных теоретических результатов. Но важным свойством таких оценок является то, что они наследуют пороговую точку начального приближения [6]. При выборе в качестве основы медианы абсолютных отклонений пороговая точка одношаговой оценки Ма повышается до 50 %.

Сравнение оценок. Приведем численные результаты статистического моделирования оценок при 50 000 испытаний на стандартном нормальном распределении (табл. 1). Параметр а имеет значение 0,450 6, что обеспечивает совпадение основных асимптотических характеристик оценок Ма и Q. Время вычисления оценок в миллисекундах соответствует конфигурации Intel Core i7 с частотой 2,8 ГГц. Влияние отклонений от идеальных условий проверялось на модели больших ошибок Тьюки вида (1 - е) Ф(х) + е Ф(х/ст) при е = 0,1, ст = 3. Результаты моделирования представлены в табл. 2. Таким образом, предложена оценка масштаба, имеющая такую же функцию влияния, асимптотическую дисперсию и эффективность, что и часто используемая оценка Qn. Результаты моделирования показывают, что одношаговый алгоритм вычисления

оценки не только требует значительно меньшего времени, но и обеспечивает меньшее смещение относительно оцениваемой величины, особенно на малых выборках. При подстановке медианы абсолютных отклонений в качестве начального приближения пороговая точка имеет максимально возможное значение 50 %, а свободный параметр позволяет повысить эффективность оценки до 95 %.

Библиографические ссылки

1. Цыпкин Я. З. Информационная теория идентификации. М. : Наука, 1995.

2. Хьюбер Дж. П. Робастность в статистике : пер. с англ. М. : Мир, 1984.

3. Робастность в статистике. Подход на основе функций влияния : пер. с англ. / Ф. Хампель, Э. Рон-четти, П. Рауссеу, В. Штаэль. М. : Мир, 1989.

4. Шуленин В. П. Введение в робастную статистику . Томск : Изд-во Том. ун-та, 1993.

5. Rousseeuw P. J., Croux C. Alternatives to the médian absolute déviation // J. of the American Statistical Association. 1993. Vol. 88, № 424. P. 1273-1283.

6. Rousseeuw P. J., Croux C. The bias of k-step M-estimators // Statistics & Probability Letters. 1994. Vol. 20, № 5. P. 411-420.

Таблица 1

Математическое ожидание и стандартизованная дисперсия оценок на нормальном распределении

в зависимости от размера выборки

n Среднее Дисперсия Время, мс

SD MAD Q Ma SD MAD Q Ma SD MAD Q Ma

20 0,986 0,958 1,190 0,951 0,532 1,365 0,789 0,656 0,003 0,004 0,007 0,005

60 0,996 0,986 1,062 0,985 0,511 1,350 0,676 0,632 0,010 0,011 0,036 0,014

200 0,998 0,996 1,019 0,995 0,499 1,345 0,638 0,616 0,034 0,034 0,164 0,045

1 000 1,000 0,999 1,004 0,999 0,493 1,364 0,605 0,609 0,168 0,169 1,022 0,228

œ 1,000 1,000 1,000 1,000 0,500 1,361 0,608 0,608 - - - -

Таблица 2

Математическое ожидание и стандартизованная дисперсия оценок на нормальном распределении с загрязнением (е = 10 %, ст = 3)

n Среднее Дисперсия

SD MAD Q Ma SD MAD Q Ma

20 1,290 1,047 1,345 1,083 1,601 1,447 0,993 0,886

60 1,324 1,070 1,195 1,110 1,750 1,410 0,875 0,829

200 1,336 1,078 1,144 1,120 1,815 1,426 0,824 0,807

1 000 1,340 1,081 1,126 1,124 1,823 1,415 0,794 0,808

P. O. Smirnov, G. L. Shevlyakov

APPROXIMATION OF THE ^ESTIMATE OF SCALE WITH THE HELP OF FAST M-ESTIMATES

Popular highly efficient robust estimates of scale including the Qn estimate are considered. A parametric family of M-estimates which allows to faster computations with acceptable decrease in breakdown points is offered. The results of the Monte-Carlo simulation are given.

Keywords: robustness, M-estimates, scale parameter.

© Смирнов П. О., Шевляков Г. Л., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.