Научная статья на тему 'Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции'

Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции Текст научной статьи по специальности «Кибернетика»

200
83
Поделиться
Ключевые слова
ВИЗУАЛИЗАЦИЯ / ДВУМЕРНЫЙ БОКСПЛОТ / РОБАСТНОСТЬ

Аннотация научной статьи по кибернетике, автор научной работы — Андреа Клитон , Смирнов Павел Олегович, Шевляков Георгий Леонидович

На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.

Похожие темы научных работ по кибернетике , автор научной работы — Андреа Клитон, Смирнов Павел Олегович, Шевляков Георгий Леонидович,

A bivariate boxplot based on robust highly efficient estimators of scale and correlation

A bivariate model-based boxplot based on fast highly efficient and robust FQn-estimates of scale and correlation is proposed. The choice of parameters is motivated by their high performance and is based on the state-of-the-art methods. It is shown that FQn-boxplot has a better speed performance over the conventional boxplot.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Текст научной работы на тему «Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции»

2013

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Управление, вычислительная техника и информатика

№ 1(22)

ОБРАБОТКА ИНФОРМАЦИИ

УДК 519.233.22

К. Андреа, П.О. Смирнов, Г.Л. Шевляков

ДВУМЕРНЫЙ БОКСПЛОТ НА ОСНОВЕ ВЫСОКОЭФФЕКТИВНЫХ РОБАСТНЫХ ОЦЕНОК МАСШТАБА И КОРРЕЛЯЦИИ

На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.

Ключевые слова: визуализация, двумерный боксплот, робастность.

В [1] предложен новый способ визуализации данных двумерными FQn-боксплотами, где показано, что FQn-боксплоты более эффективны для данных, распределенных по двумерному нормальному закону, чем другой хорошо зарекомендовавший себя непараметрический боксплот - бэгплот (Ьа^1о1) [2].

В разведочном анализе существует ряд методов первоначальной обработки одномерных данных. В настоящей статье рассматриваются проблемы анализа и представления двумерных данных. Отправной точкой в нашем обсуждении служит одномерный боксплот Тьюки [3], изображенный на рис. 1: он представляет собой прямоугольник с высотой, равной выборочному межквартильному расстоянию с отмеченной медианой в качестве оценки параметра положения и так называемыми «усами», зависящими от экстремальных порядковых статистик выборки.

У4-

0

о-«-

Выброс

Верхний квантиль

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Медиана-Нижний квантиль

Внутренняя

область

' Внешняя область

0

Одномерный боксплот Тьюки Двумерный бэгплот

Рис. 1 Классический одномерный боксплот Тьюки и двумерный бэгплот

Двумерный боксплот является статистическим средством представления данных на плоскости. Он отображает информацию о параметрах положения, масштаба, асимметрии, «хвостах» и выбросах распределения (см. рис. 1). Для полноты описания двумерного распределения используется дополнительная характеристика статистической взаимосвязи между случайными величинами - коэффициент корреляции.

1. Робастные оценки параметра положения и масштаба

Использование робастных оценок параметров распределения (положения, масштаба, корреляции) в боксплотах является традиционным; при этом желательно, чтобы эти оценки были возможно более эффективными. В [4] проводится анализ десяти различных оценок параметров положения двумерных выборок: показано, что наилучшей оценкой является пространственная медиана (spatial median), минимизирующая сумму модулей невязок. Алгоритм вычисления пространственной медианы реализован в среде R; подробное его описание можно найти в [5].

Задача оценивания параметров масштаба занимает второе по значению место после оценивания параметров положения распределения. В общем случае, оценка параметра масштаба определяется статистикой

Sn : Sn(axi,.^,axn) = \a\Sn(x1,...,x„).

Классической оценкой масштаба является стандартное отклонение, однако при наличии выбросов в выборке стандартное отклонение - неробастная и неэффективная оценка.

Методы робастной статистики предлагают более устойчивые статистические оценки для случаев, когда в выборке данных присутствуют выбросы, в частности робастная, высокоэффективная, но вычислительно сложная Qn-оценка масштаба [6]. В [7] предложена «быстрая» робастная высокоэффективная FQn-оценка масштаба, основанная на аппроксимации функции влияния Qn-оценки. Показано, что максимальная эффективность предложенной FQn-оценки достигает 96%, а минимальное возможное ее значение не опускается ниже уровня 81% на нормальном распределении, при этом их пороговая точка (breakdown point) достигает 50%. Вычисление модифицированной FQn-оценки по выборке {x1, ..., xn} производится по формуле

FQn (x) = 1,483 MAD

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

( 7_____n_ ^

1 _ 70 _V2

72

(1)

_Ц- x; _ med x

где 7. = V , .

k ^ 1 1 1,483 • MAD

med x - выборочная медиана, а MAD = 1,483 med\xt _med x| - медианное абсолютное отклонение. Поправочный коэффициент 1,483 обеспечивает состоятельность оценки MAD и FQn на нормальных распределениях. Параметр масштаба, определяемый в уравнении (1), является одношаговой M-оценкой [7]. В среде R создан пакет{fastqn}, где реализован алгоритм вычисления быстрых FQn-оценок масштаба.

2. Робастное оценивание коэффициента корреляции

Классическая оценка корреляции двумерных данных дается выборочным коэффициентом корреляции Пирсона

r = _ x/ _ y/(V( _ x/ ( _ y)2)Vl,

- V x - V y „

где x =----- и y =-----. Как отмечено выше, классические оценки положения и

nn

масштаба, такие, как арифметическое среднее и дисперсия, неработоспообны в присутствии загрязненных данных. Различные робастные оценки коэффициента корреляции рассматриваются в [8, 9].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В [1] коэффициент корреляции вычисляется по методу минимального определителя ковариационной матрицы [10]. Ковариационная матрица, полученная по методу минимального определителя, является аффинно-эквивариантной оценкой, обладающей высокой эффективностью 88% на двумерном нормальном распределении и пороговой точкой около 25%. Применение метода минимального определителя ковариационной матрицы для построения FQn-боксплота обусловлено его устойчивым поведением в присутствии выбросов, а также его аффинно-эквивариантным свойством. Наряду с робастным коэффициентом по методу минимального определителя в нашей работе используется FQn робастная оценка коэффициента корреляции [11]:

r FQn2( x + y) _ FQ2( x _ y) (

rFQn = 2 2 , ()

Q FQ2( x + y) + FQn2( x _ y)

где векторы x и y центрированы соответствующими компонентами пространственной медианы и нормированы соответствующими FQn-оценками.

В работе [8] проведено сравнение различных методов по вычислению коэфи-циента корреляции. В результате такого исследования наилучшим среди робастных оценок коэффициента корреляци является rFQn.

3. Алгоритм построения двумерного Р^и-боксплота

Приведем алгоритм построения FQn-боксплота [1]:

1) Заданные точки (x, y) на плоскости преобразуются в новую систему координат (x', y'), определяемую главными осями эллипса равной вероятности для нормального распределения с центром (xc, yc): (xc, yc) = spatial median (x, y) [7],

x'= (x _ xc) cos a + (y _ yc) sin a y' = _(x _ xc )sin a + (y _ yc )cos a

✓ч ^ ^2 ^2

где tg2a = (2rMCD CT1 cr 2)/(a 1 _ct 2).

Главные оси (x', y') эллипса рассеивания двумерного нормального распределения пропорциональны оценкам масштаба, а угол поворота а главных осей зависит также и от оценки коэффициента корреляции.

2) Выбирается половина ближайших по расстоянию Махаланобиса точек к центру. Выпуклая оболочка этих точек определяет внутреннюю область бокспло-та. Расстояние Махаланобиса точек от центра ц определяется

Dm =\/ (x _H-):rS Ч x _ц)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где £ - ковариационная матрица, имеющая следующий вид:

£ =

( ~ 2 С1

Л

РСТ1 Ст2 ^ ^2

чрСТ1 СТ 2 а 2 у

(4)

где С1 = ^0п(х'), а2 = ^0п(у') и р = грдп.

3) Внешняя область представляет собой выпуклую оболочку множества точек, которые не попали во внутреннюю область и при этом находятся в пределах эллипса, вписанного в прямоугольник со сторонами, параллельными осям х' и у' с левой и правой границами:

х'ь = тах {х - (х ')}, у’ь = тах {у^ ус - (у ')},

Х'к = т1п {X(n), Хс + а^п (х '^ У} = т1п {У(n), Ус + аРвп(У ')},

где а - коэффициент, значение которого выбирается исходя из модели распределения данных.

4) Точки, лежащие за границей внешней области, рассматриваются как выбросы (рис. 2).

(5)

Л'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/

V

И

/

(хс,Ус)

/

/

(0,0)

Рис. 2 Построение .^„-боксплота

4. Вычислительная сложность алгоритма построения .Р^и-боксплота

Алгоритмическая сложность двумерного Едп боксплота составляет

О(п V 1о§(п),

где п - размер выборки. Ниже приводится список операций над выборкой и их соответственная алгоритмическая сложность:

1) Вычисление ковариационной матрицы минимального определителя является линейной функцией от числа входных данные, т.е. О(п).

2) Сложность перевода точек из одной системы координат в другую составляет О(п).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3) Пространственная медиана вычисляется итеративным алгоритмом О(сп), где в худшем случае с = 500 (с - число итераций).

4)Вычисление приближенной ^^п-оценки масштаба составляет О(п).

5) Алгоритм вычисления выпуклой оболочки точек составляет О(п^^(п)), когда точки на плоскости распределены по нормальному закону.

х

0 1-104 2-104 3-104 N*J log2 N

Рис. 3, Сравнение времени вычисления FQw-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N: N^Jlog N )

Рис. 4. Сравнение времени вычисления ^2п-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N N2)

Итоговая сложность построения нашего двумерного ^^п-боксплота составляет О(п л/Ю^Сп) +503п). Исследование сравнения времени вычисления алгоритмов ^^п-боксплота и бэгплота показало, что ^^п-боксплот работает намного быстрее. Исследование проводилось по методу Монте-Карло с увеличением размера дву-

мерной выборки, распределенной по нормальному закону, от 100-10000. Измерение времени вычисления для каждого размера выборки оценивалось арифметическим средним по времени из 10 разных выборок заданного размера. Вычисления проводились на ЭВМ Intel(R) Core(TM) i7-2620M, 2.7 GHz, Windows 7 64bit.

На рис. 3 легко увидеть линейную зависимость времени вычисления FQn-боксплота от преобразованного размера выборки NyJlog N . Применение линейной регрессии свидетельствует о том, что такая зависимость приближается к прямой (коэффициенты наклона и пересечения 0,001 и -3,5) с очень высокой степенью достоверности (R2 = 0,99). Бэгплот в свою очередь имеет вычислительную сложность O(N2). Как можно увидеть из рис. 4, применение линейной регрессии для бэгплота с высокой степенью достоверности (R2 = 0,99) дает квадратичную зависимость времени вычисления от преобразованного размера выборки (коэффициенты наклона и пересечения 4,410-7 и 3,410-2).

Заключение

Предложеный FQn-боксплот построен на высокоэффективных оценках масштаба и корреляции, что обеспечивает его превосходство над бэгплотом. Рассматриваемые в литературе двумерные боксплоты делятся на два больших класса: ориентированные на данные и модельно-ориентированные боксплоты. Предложенный нами FQn-боксплот относится к классу модельно-ориентированных бок-сплотов, а именно ориентирован на модель двумерного нормального распределения. Превосходство FQn-боксплота над бэгплотом при отбраковке выбросов в случае двумерных нормально распределенных данных объясняется применением робастных высокоэффективных FQn-оценок параметров масштаба и коэффициента корреляции.

g 100

о

о

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10 20 30 40 50

Процент смоделированных выбросов

Рис. 5 Результаты отбраковки выбросов: правильно обнаруженные выбросы -Р^и-боксплот (1) и бэгплот (2); неправильно - Р^и-боксплот (3) и бэгплот (4)

На рис. 5 проиллюстрировано поведение Р^и-боксплота при увеличении количества выбросов - оно является более устойчивым по сравнению с бэгплотом. Рис. 5 отражает значения чувствительности и специфичности получены для выборки, удовлетворяющей модели Тьюки - Хьюбера в виде засорения типа «сдвиг»

[12] с различными значениями параметра засорения е (вероятность появления выбросов в данных или процент смоделированных выбросов). Более подробное описание исследования мощности отбраковки выбросов при помощи двумерного FQn-боксплота можно найти в [1].

ЛИТЕРАТУРА

1. Андреа К., Лаврентьева Г.М., Смирнов П.О., Шевляков Г.Л., Визуализация данных двумерными fqn-боксплотами // Высокие технологии, фундаментальные исследования, экономика. Т.1: Сб. статей XII Междунар. научно-практ. конф. «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности». СПб.: Изд-во Политехн. ун-та, 2011. С. 59-65.

2. Rousseeuw P.J., Ruts I, Tukey J.W. The bagplot: A bivariate boxplot // The American Statistician. 1999. V. 53. P. 382-387.

3. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981.

4. Masse J.C., Plante J.F. A Monte Carlo study of the accuracy and robustness of ten bivariate location estimators // Computational Statistics & Data Analysis. 2003. V. 42. P. 1-26.

5. Vardi Y. and Zhang C.H. The multivariate L1-median and associated data depth // PNAS. 1999. V. 97. P. 1423-1426.

6. Croux C., Rousseeuw P.J. Time-efficient algorithms for two highly robust estimators of scale // Computational Statistics. 1992. V. 1. P. 411-428.

7. Смирнов П.О., Шевляков Г.Л. Приближение оценки Qn параметра масштаба с помощью быстрых M-оценок // Вестник Сибирского государственного аэрокосмического университета. 2010. Т. 5 (31). С. 83-85.

8. Shevlyakov G., Smirnov P. Robust estimation of the correlation coefficient: An attempt of survey // Austrian J. Statistics. 2011. V. 40. P. 147-156.

9. Shevlyakov G.L., Vilchevski N.O. Robustness in data analysis: criteria and methods. Utrecht: VSP, 2002. 315 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Hubert M., Rousseeuw P.J., Van Aelst S. High-breakdown robust multivariate methods // Statistical Science. 2008. V. 23. P. 92-119.

11. Bernholt T., Fischer P. The complexity of computing the MCD-estimator // Theoretical Computer Science. 2004. V. 326. P. 383-398.

12. Filzmoser P., Identification of Multivariate Outliers: A performance study // Austrian J. Statistics. 2005. V. 34. P. 127-138.

Андреа Клитон Смирнов Павел Олегович Шевляков Георгий Леонидович

Санкт-Петербургский государственный политехнический университет E-mail: kliton.andrea@gmail.com; s.paul@mail.ru; gshevlyakov@yahoo.com

Поступила в редакцию 4 мая 2012 г.

Andrea Kliton, Smirnov Pavel O., Shevlyakov Georgy L. (St. Petersburg State Polytechnical University). A bivariate boxplot based on robust highly efficient estimators of scale and correlation.

Keywords: visualization, bivariate boxplot, robustness.

A bivariate model-based boxplot based on fast highly efficient and robust FQn-estimates of scale and correlation is proposed. The choice of parameters is motivated by their high performance and is based on the state-of-the-art methods. It is shown that FQn-boxplot has a better speed performance over the conventional boxplot.