Оценка эффективности алгоритмов робастного оценива

Антонов Владислав Александрович; Шамша Борис Владимирович

КОМПЬЮТЕРНЫЕ^

УДК 681.5.01

ОЦЕНКА ЭФФЕКТИВНОСТИ АЛГОРИТМОВ РОБАСТНОГО ОЦЕНИВАНИЯ

АНТОНОВ В.А, ШАМША Б.В.

Методом имитационного моделирования строятся модели качественных показателей алгоритмов робастного оценивания. В виде зависимых переменных моделей качественных показателей используются среднеквадратическая ошибка и медиана абсолютных отклонений параметров регрессии. Независимыми параметрами в моделях выступают длина выборки, вид засоренности зависимой и независимых переменных регрессии.

1. Введение

При обработке технико-экономической информации для построения статических зависимостей часто используется регрессионный анализ, который требует соблюдения определенных предпосылок и, в частности, нормальности закона распределения остатков. На практике данные, полученные с реальных объектов или процессов, как правило, имеют ограниченную длину выборки, имеют мультиколлинеарность и подвержены влиянию выбросов.

В этих условиях применение регрессионного анализа некорректно. Случаи, когда остатки не имеют нормального закона распределения, чаще всего обусловлены влиянием выбросов. В таких условиях необходимо перейти к другим методам оценивания, в частности, к робастным оценкам.

В настоящее время разработан ряд алгоритмов робастного оценивания, которые имеют ограниченную область использования. В этой связи возникает задача выбора области изменения исходной информации для наиболее эффективного использования тех или иных методов.

2. Алгоритмы робастного оценивания параметров регрессии

Пусть математическая модель регрессии представлена в линейном виде

Уі = x'i Р+ ui, i = 1,2,....,n , (1)

где yi,y 2 ,...,y n — значения выхода; xbx2,...,xn — р-размерные векторы независимых переменных в уравнении регрессии; р — р-размерный вектор неизвестных параметров, которые будут оценены; ui,u2,...,un — независимые от X случайные помехи с распределением F.

В статье рассматриваются восемь алгоритмов робастного оценивания параметров регрессии.

1) Метод наименьших квадратов медиан (LMS) [5]. Оценки получаем от минимизации квадратов медиан ошибок, т.е. решая

mrnp mediani<п(Уі-£k=ixkiPk)2 , (2)

LMS имеет точку пробоя близко к 50 %, но из-за - -1/3

своей n скорости сходимости он имеет нулевую

эффективность для центральной гауссовой модели.

2) Метод перевзвешенных наименьших квадратов (RLS) [5], вычисляемый

zn=i rairi2, (3)

|1 ,|е/ст |< 2.5,

где юі = 1 — веса, вычисленные от

[0 иначе.

LMS остатков и их оценки масштаба

Л

yn „0r2

^i = 1 ®i ri

Zn=1 Ю° - (p + 1)

(4)

3) Метод функциональных наименьших квадратов (FLS) [1], который является М-оценкой с тригонометрической функцией у . FLS вычисляется решением уравнения

1 1 n n

--у £Zxik sin(t[(yi - yj) - (xi - xj)P]} = Ф

t n j=1i=* 1 (5)

k = 1,..,p,

В данной работе предлагается методология оценки области применимости нескольких алгоритмов робастного оценивания параметров регрессии. Для этого с помощью имитационного моделирования методом Монте-Карло определяются зависимости качественных показателей алгоритмов от статистических свойств исходных данных. Далее предполагается определить модели этих зависимостей в аналитическом виде, что позволит определять значения критериев эффективности каждого алгоритма для конкретных статистических свойств исходных данных, а следовательно, и наиболее предпочтительный алгоритм оценивания.

где t є T , Т — окрестность нуля.

В качестве начального приближения используется LTS (см. ниже).

4) Метод наименьших усеченных квадратов (LTS) [5]. Оценки определяются как р-вектор:

р = argmin pEJ=1u2i], (6)

2 2 2

где u[1] < u[2] < ... < u[n] — упорядоченный ряд квадратов остатков u2 = (yi p=1xkipk)2; J — самое

РИ, 2000, № 2

93

большое целое число, меньше чем или равное п/ 2+1. Он имеет ту же самую асимптотическую эффективность для гауссовой модели, как М-оценки Хьюбера [9]. Точка пробоя LTS — 50 %, его скорость сходимости — n_1/2 .

5) Метод наименьших абсолютных отклонений (LAD) позволяет получить параметры, решая задачу минимизации:

mmpp(P) = £n=i|yi =ixkiPkl. (7)

ra(xj) = min{1,b/(xi - mx)'Cx1(Xi - mx)} ,

где b — 95% процентов от %2(p); mX,CX — оценка

минимума объема эллипсоида (MVE) для оценки положения и ковариации [6];

у(t) = min{1, c / 111} max t.

Используя LTS как начальную оценку, одношаговая GM-оценка может быть вычислена итеративно:

Его асимптотическое распределение, как известно, является нормальным в случае независимых ошибок [9], однако его точка пробоя является нулевой.

Р = Ро + Ем +'(ui(po)/6roi)xix'i ] 1

xEn-15 ®i +(ui(P 0)/ 5 ®i)xi

(12)

6) S-оценка [4]. Для каждого вектора р вычисляем

дисперсию S(u1(P),...,un(P)), которую получаем как решение

1/nZn=1P(ui/S) = b , (8)

где —b— = 0.5 , чтобы обеспечить точку пробоя на

supp(u)

уровне 50%.

Оценка масштаба остатков получена следующим образом:

ст = 1.4826(1 + 5/(n -p)) х mediani<n | ui((30) |. (13)

Оценка масштаба может быть получена также с помощью Qn алгоритма из [7].

GM-формула оценки имеет асимптотически нормальное распределение и ограниченную функцию влияния.

S-оценка определяется как argminp S(u1(P),...,un(P)) и конечная оценка масштаба определяется как ст = S(u1(P),...,un(P)) .

Мы использовали р -функцию с параметром с= 1,548 в виде

, [3(x/c)2 -3(x/c)4 + 3(x/c)6 ,|x|< c

P(x) =1 1 | | . (9)

С выбрано, чтобы получить точку пробоя 0,5. Увеличение (уменьшение) значения с повышает (понижает) асимптотическую эффективность в центральной гауссовой модели, но понижает (повышает) точку пробоя.

7)ММ-оценка [3]. Начальную оценку р0 с высокой точкой пробоя вычисляем как S-оценку. Далее вычисляем М-оценку с другой р -функцией

(с=4,687, P1(u) <P0(u) и Р1 (u) = supP0(u) = a ), как решение

zn=1+1(ui(P)/Sn) = 0, (10)

3. Описание экспериментальных исследований

В связи с регресс-эквивариантностью всех оценок все элементы вектора параметров регрессии приняты равными 1. В литературе показано, что несмотря на асимптотическую зависимость некоторых методов от количества независимых переменных регрессии, при выполнении условия n/p>5 и p<10 качество работы методов изменяется незначительно. Поэтому при моделировании будем использовать простую линейную модель без потери общности.

Независимые переменные X в модельном эксперименте генерировались двумя способами: как независимые стандартные нормальные переменные и как аналогичные, содержащие 10% выбросов, образованных перемещением 10% крайних точек правого хвоста вправо на 50. Сгенерированные независимые переменные длиной п использовались без изменений в течение всего моделирования.

Ошибки Uj генерировались как случайная величина с распределением, являющимся загрязненным нормальным распределением вида

F(e) = (1 -X)N(0,1) +XN(0, ст), (14)

которое удовлетворяет Q(P1) < Q(P0), где у 1 — первая производная р1 и Q(P) = En=1 Р1 (ui (Р) / Sn). ММ-

оценка имеет такое же асимптотически нормальное распределение, как S-формула оценки.

8) Одношаговая GM-оценка (S1S) [8]. Рассмотрим класс оценок, определенных как решение уравнения

En=1 ®i^(ui(P)/CTTOi)xi = 0 , (11)

94

где 2 — принимает значения 0,05, 0,1, 0,2, 0,3; ст — принимает значения 2, 3, 4, 5, 10, 15.

В данной модели степень загрязнения имеет прямую зависимость от значений Ли а .

Рассматривалось три значения длины выборок — п=50, 100, 200.

Для сравнения робастных методов будем использовать несколько критериев. Первый из них — среднеквадратичная ошибка (MSE). Но критерий MSE не является робастным, так как он может быть подвержен высокому влиянию маловероятных соРИ, 2000, № 2

бытий. Поэтому необходимо использовать более робастные критерии. В [2] была рассмотрена робастная альтернатива MSE — медиана абсолютных отклонений (MAD), определяемая как

1 Р -

MAD = - £ med(| рi - р; І). (15)

pi=l

Кроме этих критериев, в [2] рассматривались еще два критерия, отражающие смещение. Это среднее смещение параметров регрессии относительно среднего арифметического и его робастный аналог — среднее смещение относительно медианы. Но результаты, приведенные в [2], показали малую ценность этих критериев для определения наиболее предпочтительного робастного алгоритма. Поэтому в данной работе ограничимся MSE и MAD.

Для корректной интерпретации результатов и возможности их дальнейшего использования в целях определения наиболее предпочтительного метода необходимо применять относительные критерии для сравнения. Поэтому в качестве критериев будем использовать отношения MSE и MAD, полученные для робастного метода, к MSE и MAD, полученные для метода наименьших квадратов:

MSE =-

MSE

робастный метод

MSE

MAD =-

MAD

LS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

робастный метод

MAD

LS

(16)

Моделирования выполняли методом Монте-Карло с использованием 200 дублирований.

В нашем модельном эксперименте для генерации нормальных случайных величин использовался программный продукт MAPLE/R5. Генерация смешанного нормального распределения (14) выполнялась следующим образом. Генерировались две нормальных случайных величины N(0,1), N(0, ст) и случайная величина дискретного распределения с параметром 2 . Далее в соответствии с дискретнораспределенной выборкой в нормальной выборке N(0,1) заменялись (n* X) -элементов на соответствующие элементы выборки N(0, а ).

Для вычисления параметров регрессии методами LMS, LTS, RLS использовалась программа PROGRESS, описанная в [5]. Для вычисления оценок методом LAD применялалась подпрограмма вычисления симплекс-методом линейного про -граммирования из MAPLE /R5. Для вычисления S-, MM-, S1S- оценок и FLS использовались подпрограммы библиотеки статистических программ SatLib. Для вычисления параметра масштаба остатков применялась программа Qn [7].

4. Результаты модельного эксперимента

Моделирование показало, что результаты, основанные на MSE, грубо совместимы с теми, которые основаны на критерии MAD. Поэтому ограничимся анализом результатов только для MSE.

Относительно увеличения объема выборки все методы, кроме LMS, более точно оценивают параметры модели либо стабилизируются в окрестности его значения для n=100. Для LMS с увеличением выборки качество работы ухудшается. На рис.1 изображены зависимости эффективности RLS и MM-оценок от длинны выборки n.

Для случая нормально распределенных независимых переменных MM- и S1S- оценки работают наилучшим образом, хотя ММ-оценки немного лучше. При малой степени засоренности нормального распределения ошибки MM-, S1S-, FLS-оценки показали высокую эффективность и работают так же хорошо, как и метод наименьших квадратов. Оценки с низким уровнем эффективно -сти (LMS, S, LAD) работают намного хуже, чем метод наименьших квадратов. Оставшиеся оценки показывают средние результаты (рис. 2). При увеличении загрязнения качество работы LMS, LAD, RLS, S-оценок улучшается относительно остальных оценок (рис. 3) При максимальном загрязнении (Х=0,3, ст=10,15) все методы работают

1,3

1,1

0,9

0,7

0,5

0,3

RLS, n=50 RLS, n=100 RLS, n=200 , n=50 , n=100 , n=200

—і—і—і—і—і—і—і—і—і—і—і—і—і—і

2 3 4 5 6 7 8 9 10 11 12 13 14 15

Рис. 1. Зависимость MSE от значения масштаба загрязняющей выборки и длины выборки при X =0,05 при нормально распределенной независимой переменной

Рис. 2. Зависимость MSE от значения масштаба загрязняющей выборки при нормально распределенной независимой переменной, X =0,05,

n=100

РИ, 2000, № 2

95

2 3 4 5 6 7 8 9 10 11 12 13 14 15

Рис. 3. Зависимость MSE от значения масштаба загрязняющей выборки при нормально распределенной независимой переменной, X =0,3, n=100

практически одинаково, при этом RLS становится наилучшим методом.

Для случая независимых переменных с выбросами все оценки (абсолютный критерий), кроме S1S, показали результаты намного хуже, чем в предыдущем случае. Различие между оценками резко сократилось. LAD и FLS стали хуже, чем остальные. MM- и S-оценки занимают второе и третье место соответственно. RLS, LMS, LTS выполняются практически одинаково и показали средние результаты. S1S-оценки оказались лишь немного хуже, чем для случая нормально распределенных независимых переменных. При любом уровне загрязнения остатков все методы работают намного лучше, чем LS. Значения относительного критерия для независимой переменной с выбросами оказались меньше (рис. 4,5), чем для случая с нормальными независимыми переменными, в связи с тем, что абсолютные значения критерия для LS были намного хуже, чем для робастных методов, в первом случае.

Рис. 4. Зависимость MSE от значения масштаба загрязняющей выборки при независимой переменной с выбросами, X =0,05, n=100

1 - ♦—*--♦-----------♦----------♦

Рис. 5. Зависимость MSE от значения масштаба загрязняющей выборки при независимой переменной с выбросами, X =0,3, n=100

Таким образом, в случае нормально распределенных независимых переменных лучше использовать ММ-оценки, так как они наиболее предпочтительны и наименее вычислительно емкие, кроме случая загрязнения (Х=0,3, ст=15), для которого наилучшим оказался RLS. Для случая выбросов в независимых переменных наилучший выбор — S1S, так как остальные методы плохо справляются с выбро -сами двух типов — в независимых переменных и вертикальными выбросами.

5. Разработка моделей качественных показателей алгоритмов робастного оценивания

Результатом указанного выше модельного эксперимента являются зависимости качественных показателей алгоритмов робастного оценивания от статистических свойств исходных данных. Зависимости представляют собой наборы данных, по которым можно построить функциональные зависимости в аналитическом виде.

В модельном эксперименте использовались следующие статистические характеристики исходных данных:

— длина выборки — n;

— наличие выбросов в независимых переменных исходных данных — а;

— степень засоренности распределения ошибок (14) регрессионной модели — X;

— соотношение масштабов основной и загрязняющей составных частей распределения ошибок (14) регрессионной модели — СТ .

В качестве критериев эффективности использовались MSE и MAD из (16). В связи со сказанным выше модели качественных показателей в общем виде можно представить следующими выражениями:

MSE; = F; (n, а, X, ст),

MAD; = F'; (n,а,X, ст), (17)

i = 1,2,...,8

96

РИ, 2000, № 2

В моделях (17) а и n имеют качественный характер. Так, а показывает, есть выбросы в независимых переменных или нет, а n — определяет малую, среднюю или большую длину выборки. Поэтому целесообразно исключить эти параметры из представления моделей в виде (17) и построить ряд моделей для конкретных значений а и n в следующем виде:

MSE a’ni = F;(X, ст),

an (18)

MADa,ni = F'i (X,a),i = 1,2,...,8.

Модели в виде (18) представляют собой непрерывные функции, которые позволят определять наиболее предпочтительный алгоритм робастного оценивания посредством решения задач минимизации в виде

min MSEa,ni,i = 1,2,...,8, i

min MADa,ni,i = 1,2,...,8. (19)

i

В связи с нелинейным характером зависимостей (18) для определения моделей в явном виде можно использовать регрессионный анализ с нелинейным видом уравнения регрессии или нелинейным относительно независимых переменных регрессии. Для параметрической идентификации существуют формальные методы, чего нельзя сказать о структурной идентификации. Чтобы преодолеть проблему структурной идентификации при построении моделей, можно использовать аппарат искусственных нейронных сетей (ИНС). ИНС целесообразно использовать потому, что он является универсальным аппроксиматором, который не требует структурной идентификации. Будем использовать ИНС в режиме обучения, что позволит определить ее синаптические веса. Далее, в соответствии с выбранной топологией ИНС, функциями активации и определенными синаптическими весами, формируются модели качественных показателей алгоритмов робастного оценивания в аналитическом виде.

В данной работе представлена методика построения моделей качественных показателей алгоритмов робастного оценивания. Также определены посредством модельного эксперимента области применимости алгоритмов робастного оценивания и основные статистические характеристики, определяющие их применимость.

Литература: 1.Meintanis, S.G. and G.S. Donatos. A comparative study of some robust methods for coefficient-estimation in linear regression, Computational Statistics & Data Analysis, 23, (1997). P. 525-540. 2. You Jiazhong, A Monte Carlo comparison of several high breakdown and efficient estimators, Computational Statistics & Data Analysis. Vol: 30, Issue: 2, (1998). P. 25-55. 3. Hennig C., Efficient high-breackdown-point estimator in robust regression: which function choose?, Statistics & Decision 13, (1995). P. 221-241. 4. Rousseeuw, P.J. and Yohai V.J., Robust regression by means of S-estimators, in: J.Franke, W.Hardle, R.D.Martin (Eds.), Robust and Nonlinear Time Series Analysis (Lecture Notes in Statistics 26) (New York: Springer-Verlag, 1984). P. 256-272. 5. Rousseeuw P.J., Hubert M. Recent development in PROGRESS, Computational Statistics & Data Analysis, 20, (1997). P. 321-340. 6. Rousseeuw, P.J. Least median of squares regression, J. Am. Statist. Assoc., 79, (1984). P. 871-880. 7. Rousseeuw P.J.,Croux C. Explicit Scale Estimator with High Breakdown Point, L1-Statistical Analisis and Reated Methods, (1992). P. 77-92. 8. Coakley C.W. and Hettmansperger T.P. A bounded influence, high breakdown, efficient regression estimator, J. Am. Statist. Assoc., 88, (1993). P. 872-880. 9. ХьюберП. Pобастность в статистике. М.: Мир, 1984. 302с

Поступила в редколлегию 12.03.2000

Рецензент: д-р техн. наук, проф. Путятин В.П.

Антонов Владислав Александрович, аспирант кафедры ИУС XTYP3. Научные интересы: робастная статистика. Адрес: Украина, 61172, Харьков, ул. С.Грицевца, 24, кв. 43, тел. 40-94-51.

Шамша Борис Владимирович, канд. техн. наук, доцент, профессор кафедры ИУС XTyP3. Научные интересы: обработка данных и управление. Адрес: Украина, 61166, Харьков, ул. Космонавтов, 5, кв. 32, тел. 3327-78.

УДК 519.7

ВОЗМОЖНЫЕ ИНТЕРПРЕТАЦИИ ЛОГИЧЕСКОЙ АЛГЕБРЫ

ЯКИМОВА НА.__________________________

Доказывается принципиальная возможность рассматривать как логические алгебры некоторые частные виды алгебр. Устанавливается соответствие между элементами этих алгебр и элементами векторного логического пространства, а также между операциями над элементами этих алгебр и операциями над элементами векторного логического пространства.

Pассмотрим несколько частных алгебр, которые можно представлять как алгебры логического типа. Одной из них является алгебра двоичных кодов. При такой интерпретации логической алгебры беремр-компонентные наборы (ax, ..., ap) цифр из двухэлементного множества G={0, 1}. Им соответ-

ствуют векторы булева пространства размерности р. При этом нулевому вектору соответствует нулевой набор (0, ..., 0), а единичному - единичный набор (1, ..., 1). В роли базисных векторов а1, ..., ар используются всевозможные двоичные наборы, в состав которых входит по одной единице: (1, 0, ..., 0), (0, 1, ..., 0), ..., (0, ..., 0, 1) [1]. Под дизъюнкцией

базисных векторов ail v g2 v...v ai( в алгебре двоичных кодов понимается набор, у которого на i1, i2, ..., i-х местах стоят единицы, а на остальных местах — нули. Таким образом, каждый двоичный код можно единственным образом представить в виде линейной комбинации базисных кодов.

Дизъюнкция векторов булева пространства отвечает дизъюнкции соответствующих двоичных кодов: (a1, ..., ap)v(b1, ..., bp)=(a!vb1, ..., apvbp). Конъюнкции векторов при двоично-кодовой интерпретации логической алгебры соответствует конъюнкция двоичных наборов: (ax, ..., ap)A(bx, ..., bp)=(axAbx,

P^ 2000, № 2

97

Оценка эффективности алгоритмов робастного оценива Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Антонов Владислав Александрович, Шамша Борис Владимирович

Похожие темы научных работ по математике , автор научной работы — Антонов Владислав Александрович, Шамша Борис Владимирович

The estimation of effectiveness of robust estimators

Текст научной работы на тему «Оценка эффективности алгоритмов робастного оценива»