Научная статья на тему 'Метод поиска экстремальных наблюдений в задаче нечеткой регрессии'

Метод поиска экстремальных наблюдений в задаче нечеткой регрессии Текст научной статьи по специальности «Математика»

CC BY
79
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЧЕТКАЯ РЕГРЕССИЯ / СТАТИСТИЧЕСКИЕ ВЫБРОСЫ / ПРЕОБРАЗОВАНИЕ ЛЕЖАНДРА / ВЫПУКЛЫЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Пономарев Игорь Викторович, Саженкова Татьяна Владимировна, Славский Виктор Владимирович

Изучение статистических данных на предмет выбросов является актуальной задачей современной математики. От надежности данных методов напрямую зависит качество последующей обработки массива данных и адекватность получаемых выводов. В общем случае данная задача предусматривает проверку всех имеющихся наблюдений и сопоставление с ними некого числового индикатора. Дальнейший вывод делается на основе сопоставления этих индикаторов между собой. В данной работе рассматривается методика поиск выбросов для одной из возможных регрессионных моделей, основанной на чебышевской норме. В основу предлагаемого подхода положено одно из известных преобразований, использующееся в выпуклом анализе, преобразование Лежандра. Основанный на этом преобразовании алгоритм позволяет относить к группе выбросов не отдельные наблюдения, а множество наблюдений. Это отличает данный метод от большинства использующихся алгоритмов. Также это позволяет решить поставленную задачу за один проход и сокращает время выполнения алгоритма. Приводится пример исследования выборки на предмет выбросов. Возможность сравнения получаемых характеристик дает возможность решать задачу для различного количества предполагаемых экстремальных значений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Method of Searching for Extreme Observations in a Problem of Fuzzy Regression

The study of statistical data for outliers is an urgent task of modern mathematics. The reliability of these methods directly affects the quality of the subsequent processing of statistical data sets and the adequacy of the resulting conclusions. In general, all available observations should be checked and compared with a certain numerical indicator. The further conclusion should be made by comparing these indicators among themselves. In this paper, a technique to search for statistical outliers for one of the possible regression models based on the Chebyshev norm is considered. The proposed approach is based on the Legendre transformation, one of the known transformations used in the convex analysis. This algorithm allows us to refer to the group of statistical outliers for a set of observations and not for individual observations. This key point distinguishes this algorithm from the most of the commonly used algorithms. This way, the task can be solved in one pass with less required time. An example of the study of a sample for outliers is presented. The possibility to compare the obtained characteristics provides the opportunity to solve the problem for a different number of assumed extreme values.

Текст научной работы на тему «Метод поиска экстремальных наблюдений в задаче нечеткой регрессии»

УДК 519.237.5

Метод поиска экстремальных наблюдений в задаче нечеткой регрессии

И.В. Пономарев1, Т.В. Саженкова1, В.В. Славский2

1 Алтайский государственный университет (Барнаул, Россия)

2 Югорский государственный университет (Ханты-Мансийск, Россия)

A Method of Searching for Extreme Observations in a Problem of Fuzzy Regression

I.V. Ponomarev1, T.V. Sazhenkova1, V.V. Slavsky2

1 Altai State University (Barnaul, Russia)

2 Ugra State University (Khanty-Mansiysk, Russia)

Изучение статистических данных на предмет выбросов является актуальной задачей современной математики. От надежности данных методов напрямую зависит качество последующей обработки массива данных и адекватность получаемых выводов. В общем случае данная задача предусматривает проверку всех имеющихся наблюдений и сопоставление с ними некого числового индикатора. Дальнейший вывод делается на основе сопоставления этих индикаторов между собой.

В данной работе рассматривается методика поиск выбросов для одной из возможных регрессионных моделей, основанной на чебышевской норме. В основу предлагаемого подхода положено одно из известных преобразований, использующееся в выпуклом анализе, — преобразование Ле-жандра. Основанный на этом преобразовании алгоритм позволяет относить к группе выбросов не отдельные наблюдения, а множество наблюдений. Это отличает данный метод от большинства использующихся алгоритмов. Также это позволяет решить поставленную задачу за один проход и сокращает время выполнения алгоритма. Приводится пример исследования выборки на предмет выбросов. Возможность сравнения получаемых характеристик дает возможность решать задачу для различного количества предполагаемых экстремальных значений.

Ключевые слова: нечеткая регрессия, статистические выбросы, преобразование Лежандра, выпуклый анализ.

БОТ 10.14258/izvasu(2018)4-18

The study of statistical data for outliers is an urgent task of modern mathematics. The reliability of these methods directly affects the quality of the subsequent processing of statistical data sets and the adequacy of the resulting conclusions. In general, all available observations should be checked and compared with a certain numerical indicator. The further conclusion should be made by comparing these indicators among themselves.

In this paper, a technique to search for statistical outliers for one of the possible regression models based on the Chebyshev norm is considered. The proposed approach is based on the Legendre transformation, one of the known transformations used in the convex analysis. This algorithm allows us to refer to the group of statistical outliers for a set of observations and not for individual observations. This key point distinguishes this algorithm from the most of the commonly used algorithms. This way, the task can be solved in one pass with less required time. An example of the study of a sample for outliers is presented. The possibility to compare the obtained characteristics provides the opportunity to solve the problem for a different number of assumed extreme values.

Key words: fuzzy regression, statistical outliers,

Legendre transformation, convex analysis.

1. Введение, постановка задачи. В на-

стоящее время одним из самых распространенных методов изучения закономерностей по статистическим данным является регрессионное моделирование. В математике разработано большое количество методов построения регрессионных за-

висимостей [1-4]. Стоит отметить, что при работе со статистическими данными исследователю приходится сталкиваться с проблемой выбросов — наблюдений, которые находятся аномально далеко от основной группы данных. Наличие выбросов может негативно сказываться на результатах

Метод поиска экстремальных наблюдений

моделирования, делая полученную модель непригодной для практического использования. В работах [5-7] предложены методы проверки данных на предмет выбросов для классической линейной регрессионной модели.

В данной работе (следуя [8,9]) будем рассматривать нечеткую линейную регрессионную модель Lж.

Пусть Кт — т-мерное арифметическое евклидово пространство. Пусть П конечное подмножество точек:

П = {(хъ,1, ..., хъ,т—1,Уъ) : i = 1,... ,п} ,

которое можно рассматривать как результат п экспериментов.

Определение 1. Минимальной шириной множества П вдоль переменной у назовем число

(т— 1

^тах У - ksxi,s - Ь\.

ъ—1 ,...,п

j=i

(1)

С геометрической точки зрения величина а(П) равна минимуму ширины «полосы» ограниченной двумя параллельными гиперплоскостями и содержащей множество П, ширина берется вдоль оси у в Rm (т.е. длина пересечения полосы с осью у).

Определение 2. Уравнение гиперплоскости на котором достигается (1) назовем уравнением

m — 1

У =

- b°,

(2)

j=i

или уравнением регрессии относительно чебышев-ской нормы.

Задачу о выбросах сформулируем следующим образом: требуется из имеющегося экспериментального множества данных 0 отбросить фиксированный процент данных (например 5%) так, чтобы оставшиеся данные 0о имели наименьшую величину разброса аж (00), т.е.

ато(0д) = min {аж(0') : 0' С 0, # [0'] = и0] ,

(3)

где # [0'] — число элементов в множестве 0', n0 < n, n — n0 = w0 — число выбросов.

2. Преобразование Лежандра. Преобразование Лежандра применяется в самых различных разделах чистой и прикладной математики: выпуклый анализ, механика, вариационное исчисление, геометрия, уравнения математической физики. В работе [10] определяется и исследуется обобщенное преобразование Лежандра для произвольного конечного подмножества евклидова пространства.

Пусть дана пара натуральных чисел 1 < r, s < n. Определим две функции:

Г 1 n

где {cik }k=i — перестановка последовательности {ci}'i=1 в порядке убывания:

Cil — Ci2 — * * * — Cik — * * * — Cin *

Таким образом:

MAX [{ci}n=i]=max[{ci}n=i] MIN [{ci}n=i] = min[{ci}n=i] *

Введенные функции обладают следующими свойства функции MAX.

r

1. Если для любого i {ai — bi}, то MAX {ai} — MAX {h}.

rr

2. Если i — 0, то

MAX {iai} = iMAX {ai}.

rr

3. Для любой перестановки а индексов {1,2,***,n} такой, что а(к) = ik, выполняется неравенство

MAX {a,} — air *

r r

4. MAX {ai + bi} < MAX {ai} + MAX {bi}.

r r r

Справедливость первых трех свойств непосредственно следует из определения функции MAX.

r

Для проверки четвертого свойства заметим, что не ограничивая общности можно считать, что

ai + bi — a? + b2 — * * * — ap + bp — * * * — an + bn*

Тогда из 3-го свойства следует искомое неравенство

MAX{ai + bi} = {ar + br} <

r

< MAX {ai} + MAX {bi} *

rr

Аналогичные свойства справедливы для MIN с

s

заменой в свойствах 3 и 4 знака неравенства на противоположное.

Определение 2. Обобщенным преобразованием Лежандра множества Q назовем пару функций:

( m— i Л

f+ (k) = MAX j ^ х,^ ks - yi : i = 1, * * * ,nj,

m—i

f— (k) = MINI ^ xisks - yi : i = 1, * * * ,n\,

s=i

где k = (ki, * * * , ks).

Опираясь на свойства функций MAX и MIN

rr

заметим, что:

• функции f+, f— — выпуклые вниз и вверх

rs

соответственно;

MAX [{а}

n] i=i ]

^ir+1;

MIN [{а}

n] i=i ]

разность f+(k) — f— (k) — неотрицательная функция, выпуклая вниз.

c

3. Основной результат. Докажем применимость введенного обобщенного преобразования Лежандра к поиску и устранению выбросов в регрессионной модели LTO.

Теорема. Справедливо равенство

= mm mili (k) - f-o_r (k)] . (4)

к 0<r<w0

Доказательство. Пусть минимальное значение в правой части (4) достигается при k = k0 и r = r0, и пусть множество точек Q занумеровано так, чтобы

xiko - У1 > x2ko - У2 > • • • > xnko - Уп,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

m — 1

где xHko = X) xi,sks.

s = 1

Возьмем в качестве выбросов множество Q\Q', состоящее из w0 = n - n0 точек. Так как функция f+ (k) — f—0-r (k) выпукла вниз и неотрицательна, то

a^(Q') = f+ (k0) - f—ü-r .

Следовательно,

аж < mm mili [f+ (k) - f—0_r0 (k)] .

к 0<r< w0

Докажем обратное неравенство. Пусть минимум левой части будет, если взять в качестве выбросов множество точек Q\ Q', и пусть оставшееся множество точек Q' = {Ai1, Ai2,..., An0}. Тогда

a«(Q'

min f'+ (k) - f'- (k),

к

Рис. 1. График регрессии La

и геометрически представлено на рисунке 1.

Точки А, В и С образуют экстремальный треугольник и, согласно теореме, являются «подозрительными» на выбросы. Визуально можно предположить, что точка В вносит больший эффект в вертикальную ширину данной полосы. Это подтверждается вычислением графика изменения функционала качества. На рисунке 2 первый столбец соответствует первоначальному набору данных, а следующие — данным после удаления одного наблюдения. Значит, самое существенное изменение происходит при удалении из данных точки В.

где {¡'+,1'-} — преобразование Лежандра множества О'. Пусть минимум достигается при k = ^, и пусть множество точек О занумеровано так, чтобы

Х^о - У1 > Х^0 - У2 > • • • > Хи^ - Уп.

Тогда номера точек [г1 < г2 < • • • < гп0 ] множества О' образуют связный (без пропусков) подынтервал в интервале номеров [1, 2,..., п], так в противном случае величину

¡'+ (ад - г- (ад

можно было бы уменьшить за счет другого выбора выбросов. Доказательство закончено.

На основе полученного равенства (4) была создана компьютерная программа, помогающая выделению из данного множества наблюдений «подозрительных» на выбросы.

4. Примеры вычислений. Для иллюстрации предлагаемого метода рассмотрим множество точек плоскости. Построим уравнение регрессии Lж, которое задается уравнениями

у = 1, 794 - 0, 848х, у = 0, 933 - 0, 848х

Рис. 2. Диаграмма изменения функционала а0

5. Заключение. Необходимо отметить, что указанный метод определяет только математическую характеристику наблюдений и никаким образом не иллюстрирует содержательную природу исследуемого наблюдения. Поэтому при проведении прикладных исследований возможно привлечение других методов, что будет способствовать разностороннему изучению проблемы и, как следствие, принятию более объективного решения.

Метод поиска экстремальных наблюдений.

Библиографический список

1. Tanaka H., Hayashi I., Watada J. Possibilistic Linear Regression Analysis with Fuzzy Model // European Journal of Operational Research. - 1989. - V. 40.

2. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М., 2007.

3. Gomez A.T., Sanchez, Jorge de Andres. Applications Of Fuzzy Regression In Actuarial Analysis // Journal of Risk & Insurance. — 2003. — V. 30.

4. Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. — М., 2010.

5. Cook R.D. Detection of Influential Observation in Linear Regression // Technometrics. — 1977. — Vol. 19, № 1.

6. Andrews D.F., Preg^n D. Finding the

outliers that matter // Journal of the Royal Statistical Society. — 1978. — Vol. 40.

7. Weisberg S. Applied linear regression, 3rd ed. — Jonh Wiley & Sans, Inc., 2005.

8. Пономарев И.В., Славский В.В. Нечеткая модель линейной регрессии // Доклады Академии наук. — 2009. — Т. 428, № 5.

9. Ponomarev I.V., Slavsky V.V. Uniformly fuzzy model of linear regression // Journal of Mathematical Sciences. — 2012. — Vol. 186, issue 3.

10. Куркина М.В., Пономарев И.В. Система нечетких отношений равенств в банаховом пространстве // Дифференциальные уравнения. Функциональные пространства. Теория приближений. Международная конференция, посвященная 100-летию со дня рождения С. Л. Соболева (Новосибирск, 5-12 октября 2008 г.) : тезисы докладов. — Новосибирск, 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.