Научная статья на тему 'Построение робастных оценок средних значений и вариаций двумерных данных на основе спектральной матричной нормы'

Построение робастных оценок средних значений и вариаций двумерных данных на основе спектральной матричной нормы Текст научной статьи по специальности «Математика»

CC BY
370
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / СРЕДНЕЕ ЗНАЧЕНИЕ / ВАРИАЦИЯ / РОБАСТНОСТЬ / DATA ANALYSIS / MEAN VALUE / VARIATION / ROBUSTNESS

Аннотация научной статьи по математике, автор научной работы — Бобров Александр Валерьевич, Перепелкин Евгений Александрович

Описываются алгоритмы построения робастных оценок средних значений и вариаций двумерных данных, полученные на основе спектральной матричной нормы. Рассматриваются алгоритмы для дискретных и непрерывных данных. Анализируются результаты тестовых расчетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of robust estimates of meano values and variations of two-dimensional data on the basis of the spectral matrix norm

The problem of estimating of mean values and variations of two-dimensional data is considered. Data can be represented as a matrix in discrete case, or as a function of two variables in the continuous case. Estimate of the mean value of discrete data is found as solution of the optimization problem with objective function in the form of the spectral norm of a matrix. In the continuous case the problem is reduced to the discrete case by sampling the domain of function. The inequalities to assess the influencet of errors in the data matrix on the results of calculations of mean values and variations in data are derived. The results of test calculations confirm the robustness of the estimates of the mean values and variations derived from spectral norms with respect to data errors.

Текст научной работы на тему «Построение робастных оценок средних значений и вариаций двумерных данных на основе спектральной матричной нормы»

2012

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Управление, вычислительная техника и информатика

№ 1(18)

ОБРАБОТКА ИНФОРМАЦИИ

УДК 519.6

А.В. Бобров, Е.А. Перепелкин

ПОСТРОЕНИЕ РОБАСТНЫХ ОЦЕНОК СРЕДНИХ ЗНАЧЕНИЙ И ВАРИАЦИЙ ДВУМЕРНЫХ ДАННЫХ НА ОСНОВЕ СПЕКТРАЛЬНОЙ МАТРИЧНОЙ НОРМЫ

Описываются алгоритмы построения робастных оценок средних значений и вариаций двумерных данных, полученные на основе спектральной матричной нормы. Рассматриваются алгоритмы для дискретных и непрерывных данных. Анализируются результаты тестовых расчетов.

Ключевые слова: анализ данных, среднее значение, вариация, робастность.

Теория робастных оценок составляет одно из наиболее важных и актуальных направлений в методах обработки данных [1-3]. Необходимость построения робастных оценок связана с целым рядом причин: ограниченным объемом выборки, пропуском данных, ошибками в записи данных и др. Один из подходов к построению робастных оценок основан на решении задач оптимизации. Пусть данные измерений представлены числовыми значениями х1, х2, ..., хп. Классическая оценка среднего значения

п

с=Ххм,

1=1

где ^ - весовые коэффициенты,

п

X М = ^ М - °.

1=1

Эта оценка является решением задачи оптимизации

п

с = а^тшX(5-х1 )2м1 .

1=1

Робастную оценку можно получить, решая задачу оптимизации

п

с = а^ттX| 5-х1 |р м1 .

5 • 1

1 =1

где 1 < р < 2 . Такие оценки принадлежат к классу М -оценок и называются Ьр -оценками [3].

В данной работе описываются алгоритмы построения робастных оценок средних значений и вариаций двумерных данных, полученные на основе спектральной матричной нормы. Рассматриваются алгоритмы для дискретных и непрерывных данных. Приводятся и анализируются результаты тестовых расчетов.

1. Дискретные данные

Пусть числовые данные представлены в виде матрицы

A=

1m

Обычно вычисляют взвешенное среднее значение с и вариацию данных ё в матрице А:

c=хх

і =1 j=1

ajwj

d=XX(c - aj)

і=1 j=1

2 W-

v

где Wj - весовые коэффициенты,

EEw=1,

wj >0.

і =1 j=1

Заметим, что значение с является решением задачи оптимизации

с = а^шт|\Б(я)||р ,

где

llB( *)||f = Hb (s))2

Vі=1 j=1

- норма Фробениуса матрицы B(5) с элементами bij (5) = (s - aij )^W~~. При этом

d = ||B(c)§ .

В вычислительной математике, методах обработки данных [4, 5] наряду с нормой Фробениуса применяются и другие матричные нормы, например гельдеровы нормы:

n m

Щ|j = max X |by I, И2 = °max (B), \\B\\» = max X\bv I,

i =1

j=1

где сттах (В) - максимальное сингулярное число матрицы В . В расчетах на реальных данных часто применяется 2-норма (спектральная норма), поскольку данная норма обладает свойством грубости (робастности) по отношению к изменениям в элементах матрицы [5]. Изменения (возмущения) в матрице данных возможны по ряду причин: технические ошибки при записи данных, отсутствие данных и др. Рассмотрим влияние возмущений в матрице данных на спектральную норму матрицы В(і') .

Сингулярные числа матрицы А размером п х т, упорядоченные по невозрастанию, обозначим ст1(А) >ст2(А) >... >сттт(пт)(А). Справедливы следующие утверждения [5].

Утверждение 1. Пусть матрицы Р , Q, Я размером п х т связаны соотношением Р = Q + Я . Тогда

|стг (Р) - стг ®)| < СТі(Я), і = 1,..., тіп(п,т).

Утверждение 2. Пусть матрица Q получена из матрицы P вычеркиванием строки или столбца. Тогда ст1 (P) > ст1 ^) > ст2 (P).

Рассмотрим два вида возмущений в матрице данных: ошибки в записи элементов матрицы и пропуски строк или столбцов.

Утверждение 3. Пусть две матрицы данных A и A отличаются k элементами, т.е.

I = I + Х45,.,

1 =1

где в матрицах I все элементы равны нулю, за исключением одного, равного единице. Составим вектор возмущений 5 = [51, ..., 5k ]. Тогда для любого я справедлива оценка

|1Б (*)\\2 -I Б( *41 < 11512,

( k \1/2

где И2 = (^512 ^ .

Доказательство. Обозначим через Аа^ элементы матрицы

АЛ = £! 51 .

1 =1

Тогда Ь(*) = Ь(*)- Аау^^ж* . В соответствии с утверждением 1

^1 (Б(*)) - <ст (Б(*))| < ст1 (Я), где матрица Я состоит из элементов Аа^^н’* . Справедливо неравенство [4]

ст1(Я) <||Я||р .

Из структуры матрицы Я следует неравенство

Яр <И 2.

Таким образом, для любого * справедлива оценка

|ст1 (Б ( я) )-СТ1 (Б( я) )|<||5|| 2.

Утверждение доказано.

Утверждение 4. Пусть в результате удаления строки или столбца в матрице данных Л получена матрица Л . Тогда для любого * справедлива оценка

||Б(*)|2 >||Б(*)||2 >СТ2(Б(*)).

Доказательство. Удаление строки или столбца в матрице Л означает удаление соответствующей строки или столбца в матрице Б(*). На основании утверждения 2 мы можем записать

СТ1 (Б(*)) > <ст (Б(*)) > СТ2 (Б(*)).

Утверждение доказано.

Мы предлагаем для оценки среднего значения и вариации данных в двумерном массиве использовать спектральную норму. Среднее значение определим как решение задачи оптимизации

с = а^шт|| В( 5)||2.

Вариацию данных будем вычислять по формуле

ё=| вес)!.

Определить значения с и ё достаточно просто, применяя системы компьютерной математики, например МЛТЬЛБ или 8С1ЬЛБ.

Пример 1. Тестовые расчеты проводились в системе МЛТЬЛБ на данных модульно-рейтинговой системы квалиметрии учебной деятельности студентов АлтГТУ. Матрица данных является ведомостью студенческой группы с семестровыми рейтингами студентов в 100-балльной шкале по предметам семестра. Заданы веса предметов. Необходимо определить рейтинг группы в целом и вариацию рейтинга в группе. Оценки рейтинга группы, полученные на основе нормы Фро-бениуса и спектральной нормы матрицы В(5), соответственно равны 65 и 64 , оценки вариации рейтинга в группе равны 19,2 и 14,7.

Рис. 1. Зависимость норм матриц В(з) и В (5) от 5 в примере 1

Предположим, что в ведомости не проставлены 10 % оценок. Соответствующие элементы матрицы А полагаются равными нулю. Оценки рейтинга группы равны 54 и 56 , оценки вариации рейтинга в группе равны 29,3 и 25,1 соответственно для нормы Фробениуса и спектральной нормы матрицы В (5).

Таким образом, оценка рейтинга группы изменилась на 16,9 % и 12,5 % при расчете соответственно на основе нормы Фробениуса и спектральной нормы.

2. Непрерывные данные

Пусть имеется массив данных в виде значений функции двух аргументов А = {({ У)/(X У) 6 О = [хшт , хшах ] Х [Ушт , Ушах ]} .

Например, это может быть фрагмент цифровой фотографии, данные геофизических измерений и т.д. Необходимо построить оценки среднего значения и вариации данных в области О , грубые по отношению к ошибкам в данных.

Среднее значение и вариация определяются в виде интегралов

хшах ушах хшах ушах

с = I I а(х, У)М!(х, У)ёхёу, ё = | | (с - а(х, у) )2 м>(х, у)ёхёу ,

ХШ1П УШ1П ХШ1П УШ1П

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где w(х, у) - весовая функция,

Хшах ушах

I I w(х, у)ёхёу = 1, w(х,у) > 0, (х, у) 6 О .

Хш1п уш1п

Введем функцию трех аргументов Ь(5,х,у) = (5-а(х,у))^Мху). Тогда

ё = ||Ь (с, х, у ||2,

(х \1/2

хшах ушах

где ||6(А х, у)|| =

I I Ь(5, х,у)2ёхёу V хш1п уш1п V

- норма функции Ь(5, х, у) как функции двух аргументов х и у в пространстве Ь2 (О). В свою очередь, значение с есть решение задачи оптимизации

с = а^шт| |Ь(5, х, у)||.

5

Норму функции Ь(5,х,у) в пространстве Ь2(О) можно приближенно вычислить, выполнив дискретизацию множества О конечным числом точек (х^, У]), I = 1,...,п , ] = 1,...,т . Например, при равномерной дискретизации по каждой из переменных

2 -1 Л 2 ] -1 Л

х = хШ1П +—^~ Л х , У] = Ушт +—^~ Л у ,

х — х

где Л = -^----ш1^, Л =

у

п т

оценка нормы Ь(5, х, у) имеет следующий вид:

||Ь(5, ^ уЯ ~л/ДхЛу ||В(5)|Е .

ЗДеСЬ ||В(*)||р = (

Р '

ґ ЛІ/2

і п т \

а'х"2 V г=1 ]=1 У

- норма Фробениуса матрицы В(5) с элементами Ь] (5) = 5 - а(х1, у]).

Таким образом, среднее значение данных в области О может быть найдено как решение задачи оптимизации

с = а^шт||В(5)||р .

При этом вариация данных будет равна

ё = ЛхЛу1|В(с)||р .

От нормы Фробениуса перейдем к спектральной норме матрицы В(5). Среднее значение определим как решение задачи оптимизации

с = а^шт| |В( 5)||2.

5

Вариацию данных будем вычислять по формуле

ё = Л х Л у||В (с)|2.

Пример 2. Пусть анализируемые данные представлены функцией

а( х, у) = 1,2( х - 5)2 +1,5( у + 7)2 + 2,7

в области О = [3,7] х [-10, -5]. На рис. 2 показаны значения а(х, у) в области О . Расчеты проводились при п = 100, т = 100. На рис. 3 показана зависимость ||В(5)||р и ||В(5)|2 от 5 для исходных данных. Значения

с = а^ ш1п |В(5)||р , с = arg ш1п |\В(5)||2

55

совпадают и равны 7,8. Значения

ё = Лх Лу||В (с)|р , ё = Л х Л у ||В (с)|2

равны соответственно 12,5 и 13,81.

а(х,У) 25 >,

3 -10 Рис. 2. Исходные данные

480

460 440 420 400 380 360 340

5 6 7 8 9 5

Рис. 3. Зависимость норм матрицы В(5) от 5 для исходных данных

Пусть в анализируемых данных пропущены 20 % значений. Соответствующие значения данных показаны на рис. 4. Зависимость ||В(5)||р и ||В(5)||2 от 5 при

пропущенных данных показана на рис. 5. В этом случае оценки средних значений и вариаций данных существенно отличаются при расчете на основе нормы Фро-бениуса и спектральной нормы матрицы В(5). Значение с, полученное на основе нормы Фробениуса, равно 6,39, на основе спектральной нормы - 7,48. Значения

а(х,у)

25 -

20 15 10 5

0 7

Рис. 4. Данные с пропущенными значениями

Рис. 5. Зависимость норм матрицы B(s) от s для данных с пропущенными значениями

d равны соответственно 22,07 и 13,81. Таким образом, оценка среднего значения, полученная на основе нормы Фробениуса, изменилась на 10,5 %, на основе спектральной нормы - на 4,1 %. Оценки вариаций изменились соответственно на 51,8 и 10,5 %.

Заключение

В статье описан метод расчета средних значений и вариаций двумерных дискретных и непрерывных данных на основе спектральной матричной нормы. Получены неравенства, позволяющие оценить влияние ошибок в матрице данных на результаты расчетов средних значений и вариаций данных. Результаты тестовых расчетов подтверждают грубость оценок средних значений и вариаций, полученных на основе спектральной нормы, по отношению к ошибкам в данных.

ЛИТЕРАТУРА

1. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания. М.: Статистика, 1980. 208 с.

2. ХьюберДж.П. Робастность в статистике. М.: Мир, 1984. 304 с.

3. Крянев А.В., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Физматлит, 2003. 216 с.

4. Воеводин В.В. КузнецовЮ.А. Матрицы и вычисления. М.: Наука, 1984. 320 с.

5. Лоусон Ч., Хенсон Р. Численное решение задач метода наименьших квадратов. М.: Наука, 1986. 232 с.

Бобров Александр Валерьевич Перепелкин Евгений Александрович Алтайский государственный технический университет им. И.И. Ползунова

E-mail; 22bav@mail.ru eap@list.ru Поступила в редакцию 30 октября 2011 г.

Bobrov Alexandr V., Perepelkin Evgeniy A. (Polzunov Altai State Technical University). Construction of robust estimates of meano values and variations of two-dimensional data on the basis of the spectral matrix norm.

Keywrds: data analysis, mean value, variation, robustness.

The problem of estimating of mean values and variations of two-dimensional data is considered. Data can be represented as a matrix in discrete case, or as a function of two variables in the continuous case. Estimate of the mean value of discrete data is found as solution of the optimization problem with objective function in the form of the spectral norm of a matrix. In the continuous case the problem is reduced to the discrete case by sampling the domain of function. The inequalities to assess the influencet of errors in the data matrix on the results of calculations of mean values and variations in data are derived. The results of test calculations confirm the robustness of the estimates of the mean values and variations derived from spectral norms with respect to data errors.

i Надоели баннеры? Вы всегда можете отключить рекламу.