Научная статья на тему 'Устойчивый метод главных компонент'

Устойчивый метод главных компонент Текст научной статьи по специальности «Математика»

CC BY
154
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД ГЛАВНЫХ КОМПОНЕНТ / УСТОЙЧИВОСТЬ / РОБАСТНОСТЬ / НЕРАВЕНСТВО ЧЕБЫШЕВА / УСТОЙЧИВЫЙ (РОБАСТНЫЙ) МЕТОД ГЛАВНЫХ КОМПОНЕНТ / STABLE (ROBUST) PRINCIPAL COMPONENT / PRINCIPAL COMPONENT ANALYSIS / STABILITY / ROBUSTNESS / CHEBYSHEV INEQUALITY

Аннотация научной статьи по математике, автор научной работы — Чечулин В. Л., Грацилёв В. И.

Описана модификация метода главных компонент, использующая веса наблюдений, полу­чаемых с использованием неравенства Чебышева; показана устойчивость этого способа по отношению к стандартному методу главных компонент при различной доле шума.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The robust method of principal components

Modification of the principal components method, which uses weights are obtained using the Chebyshev inequality was described; showing the stability of this method to the standard method of principal components with different percentage of noise.

Текст научной работы на тему «Устойчивый метод главных компонент»

2013 3(22)

Математика. Механика. Информатика

Вып.

УДК 519.23

Устойчивый метод главных компонент

В. Л. Чечулин, В. И. Грацилёв

Пермский государственный национальный исследовательский университет Россия, 614990, Пермь, ул. Букирева, 15 chechulinvl@mail.ru, (342) 2-396-424

Описана модификация метода главных компонент, использующая веса наблюдений, получаемых с использованием неравенства Чебышева; показана устойчивость этого способа по отношению к стандартному методу главных компонент при различной доле шума.

Ключевые слова: метод главных компонент; устойчивость; робастность; неравенство Чебышева; устойчивый (робастный) метод главных компонент.

Предисловие

Метод главных компонент (МГК) - статистический метод, используемый для снижения размерности изучаемых данных, а также для линейной аппроксимации данных, обладающий свойством наименьшей ошибки [1]. В наблюдениях нередко содержатся шумы и ошибки измерений. Для фильтрации такого рода шумов целесообразно использовать устойчивую модификацию МГК, основанную на неравенстве Чебышева.

Такой подход не требует информации о типе распределения выборки1, и был описан ранее для оценивания положения, масштаба выборки и линейной регрессии [6], [7], [8], [10], [11], и имеет прикладное значение [9].

1. Метод главных компонент

Главные компоненты [1] - это набор

(1) (р)

признаков у ,..., у , которые являются линейными комбинациями исходных признаков х (1),..., X 'кР), измеренных на объектах исследования, и упорядоченные по мере убывания дисперсии.

г -ой главной компонентой называется

1© Чечулин В. Л., Грацилёв В. И., 2013

В отличие от стандартных подходов к статистическому оцениванию, описанных в [2], и к устойчивому оцениванию - [4], [5].

такая нормированно-центрированная линейная комбинация исходного множества признаков

у(г) Т /,х(1\ 6 12х(2), 6 ... 6 I х(р) , (1)

У г 1 ееп^ г 2 еегОг гр ееп^'

где

х£П, Т X(г) Й X« , а ^ Т 1 к X« г Т \Тр,

п ] Т1

п - количество объектов в системе, которая не коррелирует ни с одной из предшествующих главных компонент и обладает наибольшей дисперсией из всех последующих и выполняется условие:

12 6 4 6...6¡р т 1. (2)

По формуле (1) необходимо вычислить р главных компонент для каждого объекта.

Коэффициенты ¡^ Т \1Л, 2,...,¡¡рf в

формуле (1) являются собственными векторами ковариационной матрицы размерности р 2 р признаков 5 .

Собственные векторы находятся из решения уравнения

Ё5 Й =. и\ Щ Т 0, (3)

где - г-ое по величине собственное значение матрицы 5 .

Собственные значения = { =2 ( ... ( = получаются из решения уравнения

5 й = | Т 0. (4)

В реальных задачах ковариационная матрица 5 часто неизвестна и её надо оценивать по следующим формулам:

Т х(1 > кх(1} й х(г) кх(1} - для

нецентриро-

ванных признаков,

■■■ Т Х('), *Х°\ - для

у сеПг сеп1г

центрированных признаков.

Число компонент, которое целесообразно использовать в дальнейшем, можно определить, проанализировав меру информативности метода главных компонент (относительную долю дисперсии) qm:

а Т

1 т

. =,6 . . . 6 = 1 ^ . . . V! т

Р

к =

(5)

¿Т 1

где т - количество компонент.

Мера информативности определяет остаточный процент информации, который получится при сжатии признаков до т компонент.

2. Устойчивый метод главных компонент

Устойчивый метод главных компонент получается с помощью использования устойчивой матрицы ковариации [7], которая вычисляется по формуле:

1 п п ' '' '

-Чу Т 1 к к ) й ^ ТР^) й х(1)\*к ^ ,

к к Т1 IТ 1

пп

к Т 2к к .

к Т1 IТ1

С

Начало

Ввод данных: Координат точек и весов

Вычисление стандартной матрицы ковариаций

Вычисление устойчивой матрицы ковариаций, учитывающей веса

Вычисление собственных значений устойчивой матрицы ковариаций

Вычисление меры информативности

Вычисление собственных векторов

устойчивой матрицы ковариаций *

Получение координат точек в новом п ространстве

Вывод новых координат

Далее применяется стандартный метод главных компонент.

Собственные значения и собственные векторы ищутся с помощью итерационного метода вращений Якоби [3]. Реализация алгоритма получения устойчивых главных компонент представлена в приложении.

конец

Рис. 1. Блок-схема устойчивого метода главных компонент

3. Сравнение устойчивого и стандартного методов

Для сравнения устойчивого и стандартного методов главных компонент сгенерированы коррелирующие между собой данные с убывающим коэффициентом размаха выборки. Для вычислительного эксперимента была выбрана модель с 1000 наблюдениями размерности 8. Первая координата имеет равномерно распределение R(-9; 11). Все последующие координаты определяются по формуле:

Т 0,3 ка

1

ч, у й

1 6 г те 1,

(6)

где г - случайная величина, имеющая равномерное распределение R(-10; 10).

Далее для исследования устойчивости методов к выделяющимся наблюдениям были

2013 Математика. Механика. Информатика Вып.3(22)

добавлены шумы. Шумы получаются следую- остальные координаты имеют распределение щим образом: первая координата точки-шума R(0; 100), т. е. шум в 10 раз превышает размах имеет распределение R(-100; 0), а все исходных данных.

1,00 1 01,00 1,00 0,9

0,8

0,7

0,3 0,2

1 2 3 4 5 6 7

Процент шума

- Сравнение стандартного метода с устойчивым при одинаковом проценте шума ■ доверительный уровень

- Сравнение стандартного метода со стандартным при 0 шума

- Сравнение устойчивого метода с устойчивым при 0 шума

Рис. 2. Сравнение устойчивого и стандартного МГК

- По стандартному методу

- По устойчивому методу

7 8 9

Процент шума

Рис. 3. Сравнение 1-го собственного вектора для устойчивого и стандартного МГК

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С помощью многомерного взвешивания, основанного на неравенстве Чебышева (см. [8], [11]), получены весовые коэффициенты для каждого наблюдения. В качестве контрольных данных берется собственный вектор первой главной компоненты. Последовательно по 1% внося в выборку шум, сравни-

ваются по критерию ^-квадрат собственные векторы, при данном уровне шума с собственным вектором при 0% шума.

Минимальным допустимым значением критерия является 0,9. При значениях ниже минимального говорить об однородности векторов нельзя.

0,6

0,5

0,4

0,1

0

0

8

9

1.11

1,2

1,1

з 0,9

0,8

0,7

^ 0,6

0,5

0,4

0,3

0,2

0

Как видно из рис. 2, 4, устойчивый метод в отличие от стандартного нечувствителен к шуму в несколько процентов, до 9% и более (стандартный метод начинает отклоняться от бесшумового варианта уже при 2% шума). При этом при отсутствии шума, как видно из рис. 2, 1-е собственные векторы, вычисленные двумя методами (стандартным и устойчивым), идентичны. Это указывает на применимость устойчивого (робастного) метода главных компонент.

Заключение

Описана устойчивая модификация метода главных компонент, использующая взвешивание наблюдений по алгоритму, основанному на неравенстве Чебышева, при этом вычисляется устойчивая ковариационная матрица, остальные же процедуры МГК остаются прежними. Взвешивание на основе неравенства Чебышева позволяет легко модернизировать методы статистического анализа до устойчивых введением весов наблюдений.

Список литературы

1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

2. Леман Э. Теория точечного оценивания: пер. с англ. М.: Наука, 1991. С. 9 -15.

3. Самарский А.А., Гулин А.В. Численные методы. М.: Наука, 1989. 432 с.

4. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М.: Мир, 1989. 512 с.

5. Хьюбер Дж. П. Робастность в статистике.

М.: Мир, 1984. 304 с.

6. Чечулин В.Л. К обоснованию метода устойчивого оценивания посредством неравенства Чебышева // Вестник Пермского университета. Сер.: Математика. Механика. Информатика. 2010. Вып. 2 (2). С. 29-32.

7. Чечулин В.Л. Об оценке масштаба (дисперсии) выборки, не использующей оценку положения (среднего) // Университетские исследования, 2011 (раздел: математика). URL:

http://www.uresearch .psu.ru/files/articles/553 _26764.doc (дата обращения: 25.06.2013).

8. Чечулин В. Л., Грацилёв В.И. Качественное сравнение способов устойчивого оценивания // Университетские исследования, 2012 (раздел: математика). URL: www.uresearch.psu.ru/files/articles/634_5215 3. doc (дата обращения: 25.06.2013).

9. Чечулин В.Л., Грацилёв В.И. Оценка относи-

тельной величины заработной платы с использованием устойчивого оценивания // Университетские исследования, 2013 (раздел: экономика). URL: http://www.uresearch.psu.ru/files/articles/639_58 093.doc (дата обращения: 25.06.2013).

10. Чечулин В.Л., Грацилёв В.И. О сравнении устойчивых оценок, основанных на неравенстве Чебышева // Университетские исследования, 2013 (раздел: математика). URL:

http://www.uresearch.psu.ru/files/articles/642 _69164.doc (дата обращения: 25.06.2013).

11. Чечулин В.Л., Грацилёв В.И. Устойчивое регрессионное оценивание, основанное на неравенстве Чебышева // Университетские исследования, 2013 (раздел: математика). URL:

http://www.uresearch.psu.ru/files/articles/649 _93562.doc (дата обращения: 25.06.2013).

The robust method of principal components

V. L. Chechulin, V. I. Gratsilyov

Perm State University, Russia, 614990, Perm, Bukirev st., 15 chechulinvl@mail.ru; (342) 2-396-424

Modification of the principal components method, which uses weights are obtained using the Chebyshev inequality was described; showing the stability of this method to the standard method of principal components with different percentage of noise.

Key words: principal component analysis; stability; robustness; Chebyshev inequality; stable (robust) principal component.

i Надоели баннеры? Вы всегда можете отключить рекламу.