Научная статья на тему 'Высокоэффективные робастные m-оценки параметра масштаба на базе q-оценки'

Высокоэффективные робастные m-оценки параметра масштаба на базе q-оценки Текст научной статьи по специальности «Математика»

CC BY
182
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
M-ОЦЕНКА / Q-ОЦЕНКА / РОБАСТНОСТЬ / ПАРАМЕТР МАСШТАБА / ГАУССОВСКОЕ РАСПРЕДЕЛЕНИЕ / РАСПРЕДЕЛЕНИЕ КОШИ / M-ESTIMATE / Q-ESTIMATE / ROBUSTNESS / SCALE PARAMETER / GAUSSIAN DISTRIBUTION / CAUCHY DISTRIBUTION

Аннотация научной статьи по математике, автор научной работы — Смирнов Павел Олегович, Широков Иван Сергеевич, Шевляков Георгий Леонидович

Широко используемая высокоэффективная робастная Q-оценка параметра масштаба, предложенная в работе Руссива и Крукса (1993), аппроксимирована с помощью «быстрых» хьюберовских M-оценок. Показано, что предложенные нами М-оценки являются высокоэффективными и робастными на произвольном распределении, благодаря правильному выбору параметров аппроксимации. Особое внимание уделено случаям гауссовского распределения и распределения Коши.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

High-efficiency and robust M-estimates of the scale parameter on the Q-estimate basis

The highly efficient and robust Q-estimate of the scale parameter proposed by Rousseeuw and Croux (1993) and commonly employed has been approximated using computationally fast Huber M-estimates. The suggested M-estimates were shown to be robust and highly efficient for an arbitary underlying data distribution due to right choosing the approximation parameters. The following indicators of the efficiency and robustness of M-estimates of scale were computed: their asymptotic variances, influence functions and breakdown points. A special attention was given to the particular cases of the Gaussian and Cauchy distributions. It is noteworthy that for the Cauchy distribution, the suggested robust estimate of scale coincides with the maximal likelihood estimate. Finally, the computation time of these highly-efficient and robust estimates of scale is 3-4 times less than for the corresponding Q-estimates.

Текст научной работы на тему «Высокоэффективные робастные m-оценки параметра масштаба на базе q-оценки»

Математика -►

DOI: 10.18721/JPM.10309 УДК 519.246.2

ВЫСОКОЭФФЕКТИВНЫЕ РОБАСТНЫЕ М-ОЦЕНКИ ПАРАМЕТРА МАСШТАБА НА БАЗЕ Q-ОЦЕНКИ

П.О. Смирнов, И.С. Широков, Г.Л. Шевляков

Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация

Широко используемая высокоэффективная робастная 0-оценка параметра масштаба, предложенная в работе Руссива и Крукса (1993), аппроксимирована с помощью «быстрых» хьюберовских М-оценок. Показано, что предложенные нами М-оценки являются высокоэффективными и робастными на произвольном распределении, благодаря правильному выбору параметров аппроксимации. Особое внимание уделено случаям гауссовского распределения и распределения Коши.

Ключевые слова: М-оценка; 0-оценка; робастность; параметр масштаба; гауссовское распределение; распределение Коши

Ссылка при цитировании: Смирнов П.О., Широков И.С., Шевляков Г.Л. Высокоэффективные робастные М-оценки параметра масштаба на базе 0-оценки // Научно-технические ведомости СПБГПУ. Физико-математические науки. 2017. Т. 10. № 3. С. 95-99. БО!: 10.18721/1РМ.10309

HIGHLY-EFFICIENT AND ROBUST M-ESTIMATES OF THE SCALE PARAMETER ON THE Q-ESTIMATE BASIS

P.O. Smirnov, I.S. Shirokov, G.L. Shevlyakov

Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russian Federation

The highly efficient and robust ^-estimate of the scale parameter proposed by Rousseeuw and Croux (1993) and commonly employed has been approximated using computationally fast Huber M-estimates. The suggested M-estimates were shown to be robust and highly efficient for an arbitary underlying data distribution due to right choosing the approximation parameters. The following indicators of the efficiency and robustness of M-estimates of scale were computed: their asymptotic variances, influence functions and breakdown points. A special attention was given to the particular cases of the Gaussian and Cauchy distributions. It is noteworthy that for the Cauchy distribution, the suggested robust estimate of scale coincides with the maximal likelihood estimate. Finally, the computation time of these highly-efficient and robust estimates of scale is 3-4 times less than for the corresponding ^-estimates.

Key words: M-estimate; ^-estimate, robustness; scale parameter; Gaussian distribution; Cauchy distribution

Citation: P.O. Smirnov, I.S. Shirokov, G.L. Shevlyakov, Highly-efficient and robust M-estimates of the scale parameter on the Q-estimate basis, St. Petersburg Polytechnical State University Journal. Physics and Mathematics. 10 (3) (2017) 95-99. DOI: 10.18721/JPM.10309

Проблема оценивания параметра масштаба является одной из наиболее важных в статистическом анализе [1, 2, 6, 8, 10]. В настоящее время наилучшей считается ро-

Введение

бастная высокоэффективная 0п-оценка параметра масштаба (п — размер выборки) [7]. Эта оценка определяется как первый квартиль расстояния между наблюдениями:

Qn = с{1 X - xj Hi

■j \hk)>

где с — константа, обеспечивающая состоятельность оценки; к = Ск (к = [и/2] + 1).

би-оценка является робастной, с максимально возможной пороговой точкой в = 0,5 и высокой для нормального распределения асимптотической эффективностью (82 %). К ее недостаткам следует отнести высокую асимптотическую сложность алгоритма вычисления, требующую 0(п1п(п)) времени и столько же памяти.

Напротив, для робастных М-оценок параметра масштаба характерна низкая вычислительная сложность. Кроме того, имеются возможности для повышения их эффективности.

Исходя из этого, целями данной работы являлись построение робастной высокоэффективной аппроксимации 0и-оценки с низкой вычислительной сложностью и адаптация полученной аппроксимации к различным типам распределений.

Постановка задачи

Рассмотрим класс М-оценок 51 параметра масштаба, заданных решением уравнения [5]:

^Х(х,. / 5) = 0, (1)

где х(х) — оценочная функция, которая обычно является четной и неубывающей для х > 0.

Аппроксимация бя-оценки

Общий случай. Важным инструментом статистического анализа оценок служит функция влияния 1¥ (х; 5, ¥), которая определяет меру изменения значения функционала оценки 5 = 5 (¥) на распределении ¥ от «засорения» в точке х [4]. При известной функции влияния асимптотическая дисперсия оценки 5 имеет вид

ЛУ ф, ¥) = 11¥ (х; 5, ¥ )2 ¿¥ (х).

Класс М-оценок параметра масштаба (1) имеет важное свойство: функция влияния 1¥ (х; 5, ¥) с точностью до коэффициента равна оценочной функции х(х) :

1¥(х; 5, ¥) ж х(х).

Таким образом, можно построить М-оценку с любой допустимой функцией

влияния и, соответственно, эффективностью.

Известно, что функция влияния Qn-оценки задается следующим выражением

[7]:

/¥(х;б,¥) = с[(1/4 ) - ¥(х + с1) + + ¥(х - с-1)] / + с-1) /(у) ¿у ]-1.

(2)

Поскольку оценочная функция х в выражении (1) определяется с точностью до произвольного множителя, нормирующий интеграл в выражении (2) можно опустить. Тогда 0п-оценке соответствует М-оценка, порожденная оценочной функцией

хе(х) = 44 - с • (¥(х + с-1) - ¥(х - с-1)), (3)

и, следовательно, функция влияния 1¥(х;х^,¥) совпадает с 1¥(х;0, ¥), обеспечивая совпадение и производных от нее характеристик.

Преобразуем выражение (3): произведем замену а = с_1, при этом не будем фиксировать а, рассматривая эту величину как параметр настройки оценки; далее разложим функцию распределения ¥ в ряд Тейлора, оставив только первые три члена:

¥(х ± а) = ¥(х) ± а/(х) +

1 о 1 ч т (4) + 4а2/'(х) ± ±а3/"(х) + о(а3).

2 6

Объединяя выражения (3) и (4), получим следующий результат.

Определение. Пусть плотность вероятности /(х) — аналитическая на R функция. Однопараметрическое семейство М-оценок с оценочными функциями вида

Ха(х) = са- 2/(х) - 3 а2/ "(х) (5)

назовем семейством МQn-оценок.

Константа са в выражении (5) обеспечивает состоятельность МQn-оценок.

распределение Гаусса. Рассмотрим М-оценку в случае гауссовской плотности распределения:

/(х) = Ф(х) = (2п)-1/2 ехр(-х2 / 2).

Тогда

Ф "(х) = (х2 - 1)ф(х), и оценочная функция принимает следую-

4

Математика

щии вид:

Ха (*) = Са - J (6 + а2 (*2 - 1))ф(х),

12 -а2

12л/Л

(6)

В важном частном случае при а = 0 вы ражение (6) принимает вид:

1

Хо(х) = ~т- 2j(x).

Vn

(7)

Этот результат напоминает обобщенную оценку Уэлша [3], задаваемую выражением

Х(х ) =

d + 2

- exp

( x2} d

d > 0.

При 1 = 2 эта оценка совпадает с М-оценкой параметра масштаба, определенной выражением (7). Максимально возможное значение асимптотической дисперсии для оценки, задаваемой выражением (7), равно 95,9 %.

Отсюда мы имеем следующий результат.

Теорема 1. MQn-оценки на гауссовском распределении при а е [0; л/2] являются В-робастными с ограниченной функцией влияния, задаваемой выражением

1¥(х; MQ, Ф) = = 2(12 - а2) - 8УЛ(6 + а2(х2 - 1))Ф(х) = 3(4 -а2) '

Доказательство теоремы приведено в работе [9]. Оно основано на интегрировании оценочной функции рассматриваемой MQn-оценкИ'

Асимптотическая эффективность подобных MQn-оценок с оценочной функцией вида (7) составляет 81 %, что лишь на 1 % меньше асимптотической эффективности Qn-оценок на гауссовском распределении. При этом достигается существенный

выигрыш в скорости вычислений [9].

распределение Коши. Теперь рассмотрим MQn-оценки для распределения Коши, имеющего «тяжелые хвосты», с оценочной функцией вида (5). В этом случае плотность распределения принимает вид

/ (х) =

п(1 + х2)

Чтобы получить небольшую сложность алгоритма, рассмотрим MQn-оценку в случае а = 0. Остальные значения параметра нас не интересуют, так как дают худшие результаты.

Теорема 2. MQn-оценка на распределении Коши, определенная выражением (5), является оценкой максимального правдоподобия для данного распределения и имеет оценочную функцию вида

, 1 х2 -1

Х0(х) =---

п х + 1

Доказательство теоремы также приведено в работе [9].

Максимально возможное значение асимптотической эффективности такой оценки параметра масштаба равно 100 % на распределении Коши, но для гауссовского распределения оно не превосходит 50 %.

Заключение

Для широкого класса распределений предложены робастные MQn-оценки параметра масштаба, имеющие небольшую сложность алгоритма и высокую скорость вычислений. Предложенные оценки близки по своей эффективности к высокоэффективной робастной Qn-оценке.

Важные случаи распределений Гаусса и Коши теоретически изучены в асимптотике.

Предложенный нами подход планируется применить на параметрических семействах и экспоненциально-степенных распределений.

список литературы

1. Balakrishnan N., Cohen A.C. Order statistics & inference: estimation methods. USA: Elsevier, 2014. 377 p.

2. Cramér H. Mathematical methods of statistics (PMS-9). USA: Princeton University Press, 2016. Vol. 9.

3. Genton M.G. Asymptotic variance of M-estimators for dependent Gaussian random variables // Statistics and Probability Letters. 1998. Vol. 38. No. 3. Pp. 255-261.

4. Hampel F.R., Ronchetti E.M., Rousseeuw P.J., Stahel W.A. Robust statistics: the approach

Са =

based on influence functions. USA, New Jersey: John Wiley, 1986.

5. Huber P.J. Robust statistics, USA, New Jersey: John Wiley, 1981.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Launer R.L., Wilkinson G.N. (eds.). Robustness in statistics. USA: Academic Press, 2014. 296 p.

7. Rousseeuw P.J., Croux C. Alternatives to the median absolute deviation // Journal of the American Statistical Association. 1993. Vol. 88. No. 424. Pp. 1273- 1283.

8. Shevlyakov G.L., Oja H. Robust correlation: Theory and applications, USA, New Jersey: John Wiley & Sons, 2016. Vol. 3.

9. Smirnov P.O., Shevlyakov G.L. Fast highly efficient and robust one-step M-estimators of scale based on Qn // Computational Statistics and Data Analysis. 2014. Vol. 78. Pp. 153-158.

10. Tarr G. Quantile based estimation of scale and dependence // Bulletin of the Australian Mathematical Society. 2015. Vol. 92. No. 01. Pp. 173-175.

Статья поступила в редакцию 29.06.16, принята к публикации 10.05.17.

СВЕДЕНИЯ ОБ АВТОРАх

СМИРНОВ Павел Олегович - кандидат физико-математических наук, доцент кафедры прикладной математики Санкт-Петербургского политехнического университета Петра Великого, Санкт-Петербург, Российская Федерация.

195251, Российская Федерация, г. Санкт-Петербург, Политехническая ул., 29 [email protected]

ШИРОКОВ Иван Сергеевич - аспирант кафедры прикладной математики Санкт-Петербургского политехнического университета Петра Великого, Санкт-Петербург, Российская Федерация. 195251, Российская Федерация, г. Санкт-Петербург, Политехническая ул., 29 [email protected]

ШЕВЛЯКОВ Георгий Леонидович — доктор физико-математических наук, профессор кафедры прикладной математики Санкт-Петербургского политехнического университета Петра Великого, Санкт-Петербург, Российская Федерация.

195251, Российская Федерация, г. Санкт-Петербург, Политехническая ул., 29 Georgy. [email protected]

REFERENCES

[1] N. Balakrishnan, A.C. Cohen, Order statistics & inference: estimation methods, Elsevier (2014).

[2] H. Cramer, Mathematical methods of statistics (PMS-9), Princeton University Press. (9) (2016).

[3] M.G. Genton, Asymptotic variance of M-estimators for dependent Gaussian random variables, Statistics and Probability Letters. 38 (3) (1998) 255- 261.

[4] F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust statistics: the approach based on influence functions, John Wiley (1986).

[5] P.J. Huber, Robust statistics, USA, New Jersey, John Wiley (1981).

Received 29.06.2016, accepted 10.05.2017.

[6] R.L. Launer, G.N. Wilkinson (eds), Robustness in statistics, Academic Press (2014).

[7] P.J. Rousseeuw, C. Croux, Alternatives to the median absolute deviation, Journal of the American Statistical Association. 88 (424) (1993) 1273-1283.

[8] G.L. Shevlyakov, H. Oja, Robust correlation: Theory and applications, John Wiley & Sons, (3) (2016).

[9] P.O. Smirnov, G.L. Shevlyakov, Fast highly efficient and robust one-step M-estimators of scale based on Qn, Computational Statistics and Data Analysis. 78 "(2014) 153-158.

[10] G. Tarr, Quantile based estimation of scale and dependence, Bulletin of the Australian Mathematical Society. 92 (01) (2015) 173-175.

THE AUTHORS

SMIRNOV Pavel O.

Peter the Great St. Petersburg Polytechnic University

29 Politechnicheskaya St., St. Petersburg, 195251, Russian Federation

[email protected]

Математика -►

SHIROKOV Ivan S.

Peter the Great St. Petersburg Polytechnic University

29 Politechnicheskaya St., St. Petersburg, 195251, Russian Federation

[email protected]

SHEVLYAKOV Georgiy L.

Peter the Great St. Petersburg Polytechnic University

29 Politechnicheskaya St., St. Petersburg, 195251, Russian Federation

[email protected]

© Санкт-Петербургский политехнический университет Петра Великого, 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.