Научная статья на тему 'Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции'

Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции Текст научной статьи по специальности «Математика»

CC BY
370
119
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛИЗАЦИЯ / ДВУМЕРНЫЙ БОКСПЛОТ / РОБАСТНОСТЬ / VISUALIZATION / BIVARIATE BOXPLOT / ROBUSTNESS

Аннотация научной статьи по математике, автор научной работы — Андреа Клитон, Смирнов Павел Олегович, Шевляков Георгий Леонидович

На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A bivariate boxplot based on robust highly efficient estimators of scale and correlation

A bivariate model-based boxplot based on fast highly efficient and robust FQn-estimates of scale and correlation is proposed. The choice of parameters is motivated by their high performance and is based on the state-of-the-art methods. It is shown that FQn-boxplot has a better speed performance over the conventional boxplot.

Текст научной работы на тему «Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции»

2013

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Управление, вычислительная техника и информатика

№ 1(22)

ОБРАБОТКА ИНФОРМАЦИИ

УДК 519.233.22

К. Андреа, П.О. Смирнов, Г.Л. Шевляков

ДВУМЕРНЫЙ БОКСПЛОТ НА ОСНОВЕ ВЫСОКОЭФФЕКТИВНЫХ РОБАСТНЫХ ОЦЕНОК МАСШТАБА И КОРРЕЛЯЦИИ

На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.

Ключевые слова: визуализация, двумерный боксплот, робастность.

В [1] предложен новый способ визуализации данных двумерными FQn-боксплотами, где показано, что FQn-боксплоты более эффективны для данных, распределенных по двумерному нормальному закону, чем другой хорошо зарекомендовавший себя непараметрический боксплот - бэгплот (Ьа^1о1) [2].

В разведочном анализе существует ряд методов первоначальной обработки одномерных данных. В настоящей статье рассматриваются проблемы анализа и представления двумерных данных. Отправной точкой в нашем обсуждении служит одномерный боксплот Тьюки [3], изображенный на рис. 1: он представляет собой прямоугольник с высотой, равной выборочному межквартильному расстоянию с отмеченной медианой в качестве оценки параметра положения и так называемыми «усами», зависящими от экстремальных порядковых статистик выборки.

У4-

0

о-«-

Выброс

Верхний квантиль

Медиана-Нижний квантиль

Внутренняя

область

' Внешняя область

0

Одномерный боксплот Тьюки Двумерный бэгплот

Рис. 1 Классический одномерный боксплот Тьюки и двумерный бэгплот

Двумерный боксплот является статистическим средством представления данных на плоскости. Он отображает информацию о параметрах положения, масштаба, асимметрии, «хвостах» и выбросах распределения (см. рис. 1). Для полноты описания двумерного распределения используется дополнительная характеристика статистической взаимосвязи между случайными величинами - коэффициент корреляции.

1. Робастные оценки параметра положения и масштаба

Использование робастных оценок параметров распределения (положения, масштаба, корреляции) в боксплотах является традиционным; при этом желательно, чтобы эти оценки были возможно более эффективными. В [4] проводится анализ десяти различных оценок параметров положения двумерных выборок: показано, что наилучшей оценкой является пространственная медиана (spatial median), минимизирующая сумму модулей невязок. Алгоритм вычисления пространственной медианы реализован в среде R; подробное его описание можно найти в [5].

Задача оценивания параметров масштаба занимает второе по значению место после оценивания параметров положения распределения. В общем случае, оценка параметра масштаба определяется статистикой

Sn : Sn(axi,.^,axn) = \a\Sn(x1,...,x„).

Классической оценкой масштаба является стандартное отклонение, однако при наличии выбросов в выборке стандартное отклонение - неробастная и неэффективная оценка.

Методы робастной статистики предлагают более устойчивые статистические оценки для случаев, когда в выборке данных присутствуют выбросы, в частности робастная, высокоэффективная, но вычислительно сложная Qn-оценка масштаба [6]. В [7] предложена «быстрая» робастная высокоэффективная FQn-оценка масштаба, основанная на аппроксимации функции влияния Qn-оценки. Показано, что максимальная эффективность предложенной FQn-оценки достигает 96%, а минимальное возможное ее значение не опускается ниже уровня 81% на нормальном распределении, при этом их пороговая точка (breakdown point) достигает 50%. Вычисление модифицированной FQn-оценки по выборке {x1, ..., xn} производится по формуле

FQn (x) = 1,483 MAD

( 7_____n_ ^

1 _ 70 _V2

72

(1)

_Ц- x; _ med x

где 7. = V , .

k ^ 1 1 1,483 • MAD

med x - выборочная медиана, а MAD = 1,483 med\xt _med x| - медианное абсолютное отклонение. Поправочный коэффициент 1,483 обеспечивает состоятельность оценки MAD и FQn на нормальных распределениях. Параметр масштаба, определяемый в уравнении (1), является одношаговой M-оценкой [7]. В среде R создан пакет{fastqn}, где реализован алгоритм вычисления быстрых FQn-оценок масштаба.

2. Робастное оценивание коэффициента корреляции

Классическая оценка корреляции двумерных данных дается выборочным коэффициентом корреляции Пирсона

r = _ x/ _ y/(V( _ x/ ( _ y)2)Vl,

- V x - V y „

где x =----- и y =-----. Как отмечено выше, классические оценки положения и

nn

масштаба, такие, как арифметическое среднее и дисперсия, неработоспообны в присутствии загрязненных данных. Различные робастные оценки коэффициента корреляции рассматриваются в [8, 9].

В [1] коэффициент корреляции вычисляется по методу минимального определителя ковариационной матрицы [10]. Ковариационная матрица, полученная по методу минимального определителя, является аффинно-эквивариантной оценкой, обладающей высокой эффективностью 88% на двумерном нормальном распределении и пороговой точкой около 25%. Применение метода минимального определителя ковариационной матрицы для построения FQn-боксплота обусловлено его устойчивым поведением в присутствии выбросов, а также его аффинно-эквивариантным свойством. Наряду с робастным коэффициентом по методу минимального определителя в нашей работе используется FQn робастная оценка коэффициента корреляции [11]:

r FQn2( x + y) _ FQ2( x _ y) (

rFQn = 2 2 , ()

Q FQ2( x + y) + FQn2( x _ y)

где векторы x и y центрированы соответствующими компонентами пространственной медианы и нормированы соответствующими FQn-оценками.

В работе [8] проведено сравнение различных методов по вычислению коэфи-циента корреляции. В результате такого исследования наилучшим среди робастных оценок коэффициента корреляци является rFQn.

3. Алгоритм построения двумерного Р^и-боксплота

Приведем алгоритм построения FQn-боксплота [1]:

1) Заданные точки (x, y) на плоскости преобразуются в новую систему координат (x', y'), определяемую главными осями эллипса равной вероятности для нормального распределения с центром (xc, yc): (xc, yc) = spatial median (x, y) [7],

x'= (x _ xc) cos a + (y _ yc) sin a y' = _(x _ xc )sin a + (y _ yc )cos a

✓ч ^ ^2 ^2

где tg2a = (2rMCD CT1 cr 2)/(a 1 _ct 2).

Главные оси (x', y') эллипса рассеивания двумерного нормального распределения пропорциональны оценкам масштаба, а угол поворота а главных осей зависит также и от оценки коэффициента корреляции.

2) Выбирается половина ближайших по расстоянию Махаланобиса точек к центру. Выпуклая оболочка этих точек определяет внутреннюю область бокспло-та. Расстояние Махаланобиса точек от центра ц определяется

Dm =\/ (x _H-):rS Ч x _ц)

где £ - ковариационная матрица, имеющая следующий вид:

£ =

( ~ 2 С1

Л

РСТ1 Ст2 ^ ^2

чрСТ1 СТ 2 а 2 у

(4)

где С1 = ^0п(х'), а2 = ^0п(у') и р = грдп.

3) Внешняя область представляет собой выпуклую оболочку множества точек, которые не попали во внутреннюю область и при этом находятся в пределах эллипса, вписанного в прямоугольник со сторонами, параллельными осям х' и у' с левой и правой границами:

х'ь = тах {х - (х ')}, у’ь = тах {у^ ус - (у ')},

Х'к = т1п {X(n), Хс + а^п (х '^ У} = т1п {У(n), Ус + аРвп(У ')},

где а - коэффициент, значение которого выбирается исходя из модели распределения данных.

4) Точки, лежащие за границей внешней области, рассматриваются как выбросы (рис. 2).

(5)

Л'

/

V

И

/

(хс,Ус)

/

/

(0,0)

Рис. 2 Построение .^„-боксплота

4. Вычислительная сложность алгоритма построения .Р^и-боксплота

Алгоритмическая сложность двумерного Едп боксплота составляет

О(п V 1о§(п),

где п - размер выборки. Ниже приводится список операций над выборкой и их соответственная алгоритмическая сложность:

1) Вычисление ковариационной матрицы минимального определителя является линейной функцией от числа входных данные, т.е. О(п).

2) Сложность перевода точек из одной системы координат в другую составляет О(п).

3) Пространственная медиана вычисляется итеративным алгоритмом О(сп), где в худшем случае с = 500 (с - число итераций).

4)Вычисление приближенной ^^п-оценки масштаба составляет О(п).

5) Алгоритм вычисления выпуклой оболочки точек составляет О(п^^(п)), когда точки на плоскости распределены по нормальному закону.

х

0 1-104 2-104 3-104 N*J log2 N

Рис. 3, Сравнение времени вычисления FQw-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N: N^Jlog N )

Рис. 4. Сравнение времени вычисления ^2п-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N N2)

Итоговая сложность построения нашего двумерного ^^п-боксплота составляет О(п л/Ю^Сп) +503п). Исследование сравнения времени вычисления алгоритмов ^^п-боксплота и бэгплота показало, что ^^п-боксплот работает намного быстрее. Исследование проводилось по методу Монте-Карло с увеличением размера дву-

мерной выборки, распределенной по нормальному закону, от 100-10000. Измерение времени вычисления для каждого размера выборки оценивалось арифметическим средним по времени из 10 разных выборок заданного размера. Вычисления проводились на ЭВМ Intel(R) Core(TM) i7-2620M, 2.7 GHz, Windows 7 64bit.

На рис. 3 легко увидеть линейную зависимость времени вычисления FQn-боксплота от преобразованного размера выборки NyJlog N . Применение линейной регрессии свидетельствует о том, что такая зависимость приближается к прямой (коэффициенты наклона и пересечения 0,001 и -3,5) с очень высокой степенью достоверности (R2 = 0,99). Бэгплот в свою очередь имеет вычислительную сложность O(N2). Как можно увидеть из рис. 4, применение линейной регрессии для бэгплота с высокой степенью достоверности (R2 = 0,99) дает квадратичную зависимость времени вычисления от преобразованного размера выборки (коэффициенты наклона и пересечения 4,410-7 и 3,410-2).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Предложеный FQn-боксплот построен на высокоэффективных оценках масштаба и корреляции, что обеспечивает его превосходство над бэгплотом. Рассматриваемые в литературе двумерные боксплоты делятся на два больших класса: ориентированные на данные и модельно-ориентированные боксплоты. Предложенный нами FQn-боксплот относится к классу модельно-ориентированных бок-сплотов, а именно ориентирован на модель двумерного нормального распределения. Превосходство FQn-боксплота над бэгплотом при отбраковке выбросов в случае двумерных нормально распределенных данных объясняется применением робастных высокоэффективных FQn-оценок параметров масштаба и коэффициента корреляции.

g 100

о

о

10 20 30 40 50

Процент смоделированных выбросов

Рис. 5 Результаты отбраковки выбросов: правильно обнаруженные выбросы -Р^и-боксплот (1) и бэгплот (2); неправильно - Р^и-боксплот (3) и бэгплот (4)

На рис. 5 проиллюстрировано поведение Р^и-боксплота при увеличении количества выбросов - оно является более устойчивым по сравнению с бэгплотом. Рис. 5 отражает значения чувствительности и специфичности получены для выборки, удовлетворяющей модели Тьюки - Хьюбера в виде засорения типа «сдвиг»

[12] с различными значениями параметра засорения е (вероятность появления выбросов в данных или процент смоделированных выбросов). Более подробное описание исследования мощности отбраковки выбросов при помощи двумерного FQn-боксплота можно найти в [1].

ЛИТЕРАТУРА

1. Андреа К., Лаврентьева Г.М., Смирнов П.О., Шевляков Г.Л., Визуализация данных двумерными fqn-боксплотами // Высокие технологии, фундаментальные исследования, экономика. Т.1: Сб. статей XII Междунар. научно-практ. конф. «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности». СПб.: Изд-во Политехн. ун-та, 2011. С. 59-65.

2. Rousseeuw P.J., Ruts I, Tukey J.W. The bagplot: A bivariate boxplot // The American Statistician. 1999. V. 53. P. 382-387.

3. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981.

4. Masse J.C., Plante J.F. A Monte Carlo study of the accuracy and robustness of ten bivariate location estimators // Computational Statistics & Data Analysis. 2003. V. 42. P. 1-26.

5. Vardi Y. and Zhang C.H. The multivariate L1-median and associated data depth // PNAS. 1999. V. 97. P. 1423-1426.

6. Croux C., Rousseeuw P.J. Time-efficient algorithms for two highly robust estimators of scale // Computational Statistics. 1992. V. 1. P. 411-428.

7. Смирнов П.О., Шевляков Г.Л. Приближение оценки Qn параметра масштаба с помощью быстрых M-оценок // Вестник Сибирского государственного аэрокосмического университета. 2010. Т. 5 (31). С. 83-85.

8. Shevlyakov G., Smirnov P. Robust estimation of the correlation coefficient: An attempt of survey // Austrian J. Statistics. 2011. V. 40. P. 147-156.

9. Shevlyakov G.L., Vilchevski N.O. Robustness in data analysis: criteria and methods. Utrecht: VSP, 2002. 315 p.

10. Hubert M., Rousseeuw P.J., Van Aelst S. High-breakdown robust multivariate methods // Statistical Science. 2008. V. 23. P. 92-119.

11. Bernholt T., Fischer P. The complexity of computing the MCD-estimator // Theoretical Computer Science. 2004. V. 326. P. 383-398.

12. Filzmoser P., Identification of Multivariate Outliers: A performance study // Austrian J. Statistics. 2005. V. 34. P. 127-138.

Андреа Клитон Смирнов Павел Олегович Шевляков Георгий Леонидович

Санкт-Петербургский государственный политехнический университет E-mail: kliton.andrea@gmail.com; s.paul@mail.ru; gshevlyakov@yahoo.com

Поступила в редакцию 4 мая 2012 г.

Andrea Kliton, Smirnov Pavel O., Shevlyakov Georgy L. (St. Petersburg State Polytechnical University). A bivariate boxplot based on robust highly efficient estimators of scale and correlation.

Keywords: visualization, bivariate boxplot, robustness.

A bivariate model-based boxplot based on fast highly efficient and robust FQn-estimates of scale and correlation is proposed. The choice of parameters is motivated by their high performance and is based on the state-of-the-art methods. It is shown that FQn-boxplot has a better speed performance over the conventional boxplot.

i Надоели баннеры? Вы всегда можете отключить рекламу.