(1)
РАДИОТЕХНИКА/^^.,
ж ▼ а
УДК 621.396
СИНТЕЗ СВЕРХРОБАСТНЫХ ОЦЕНОК НА ОСНОВЕ БУТСТРЕПА
КОЛЯДИН В.Л.__________________________
Рассматривается общий подход к синтезу оценок, обладающих существенно более высокой робастностью, чем медиана выборки. Предлагается семейство таких оценок и метод адаптивного выбора оценки на основе бутстрепа. Путем статистического моделирования показывается, что синтезированные таким образом адаптивные оценки сохраняют работоспособность при наличии в выборке 90% и более аномальных измерений.
При решении широкого круга практических задач статистической обработки измерительной информации требуется робастность, т.е. устойчивость к изменению статистических свойств исходных данных в широких пределах. В большинстве случаев нужна устойчивость к наличию у распределения шума тяжелых хвостов, т.е. к наличию сильных выбросов (аномальных измерений). Известно, что классические процедуры оценивания параметров, оптимальные для нормального распределения и сводящиеся обычно к методу наименьших квадратов (МНК), робастными не являются. Наличие даже незначительного количества аномальных измерений с существенно большей дисперсией, чем у “нормальных” измерений, резко снижает показатели точности [1]. Именно поэтому на практике предпочитают использовать робастные процедуры, например метод наименьших модулей (МНМ). Простейшим примером оценивания по МНМ, соответствующим оцениванию одного скалярного параметра по прямым измерениям, является медиана выборки. Медиану считают наиболее робастной процедурой оценивания для этой задачи [1].
В данной работе вводится и исследуется новый класс процедур оценивания (далее - просто оценок), обладающих существенно более высокой робастностью, чем медиана, и допускающих оценивание в условиях, когда медиана уже практически неработоспособна. Такие оценки, именуемые ниже “сверхробастными”, сохраняют работоспособность при наличии 90% и более аномальных измерений. Под аномальными здесь понимаются измерения, имеющие существенно большую дисперсию ошибки и практически не несущие информации об оцениваемых параметрах.
Рассмотрим задачу оценивания одного скалярного параметра X по набору X = (x;,i = его пря-
мых независимых избыточных измерений:
(Х + Пі: " нормальные" измерения;
Xi =<~
[ Пі (X): аномальные измерения.
Здесь Пі — случайный аддитивный шум “нормальных” измерений, Пі — случайные результаты аномальных измерений. Аномальные измерения обладают существенно большей дисперсией, чем шумы “нормальных ” измерений, и могут вообще не зависеть от истинного значения оцениваемого параметра X .
Общим принципом формирования оценок по результатам прямых избыточных измерений является принцип минимума некоторой функции F(-) от невязок измерений:
di = Xi -X; i = 1,...,N .
Чаще всего в качестве F(-) используют Lp -норму невязок:
N
F(di,...,dN) = Ё ldlp;p ^1. (2)
i=1
При этом случай p = 2 (МНК) соответствует оцениванию по среднему значению. Такая оценка оптимальна по критерию минимума среднего квадрата ошибки для нормального распределения аддитивных ошибок, но она не обладает устойчивостью к аномальным измерениям. Поэтому для робастного оценивания обычно используют p = 1 (МНМ), что в данной задаче соответствует оцениванию по медиане выборки. Медиана выборки достаточно устойчива к наличию аномальных измерений. Однако при наличии их в выборке более 50% медиана в общем случае теряет устойчивость. Поэтому практический и теоретический интерес представляет синтез оценок, сохраняющих работоспособность при наличии в выборке доли аномальных измерений, заметно превосходящей 50%.
Рассмотрим класс оценок, основанных на минимизации функции от невязок:
£ kq(X) = ar§ min Fk,q (x1 - V-,XN-^ , (3)
где k и q — параметры, а функция Fkq(-) определяется выражением
Fk,q(d1,---,dN) = min ®m(|d1|,...,|dN|; q,N) . (4)
k<m< N
Здесь функция ®m (•) имеет вид
®m(D1,...,DN; q,N) = [M(D(21),...,D(2m)) +
+ qS(D(21),...,D2m))^/m]1/2N/m; Di >0, (5)
где D(i) — i-й в порядке возрастания элемент множества аргументов {D1,...,Dn} ; M(-) — выборочное среднее; S(•) — корень квадратный из выборочной дисперсии. Функция ®m(-) является своеобразной оценкой среднеквадратичного значения аргументов {Di,i = 1,...,N} , полученной по m < N наименьшим значениям. Второе слагаемое в
4
РИ, 2003, № 1
выражении (5) обеспечивает консервативность оценки, т.е. тенденцию к завышению значения в пределах выборочной вариабельности. При 1 << m < N и равномерном распределении {D;} в интервале [0,Dmax] значения функции (5) приблизительно равны среднеквадратичной величине всех
N значений {D;}.
Функция Fkq(-) обладает следующим важным свойством: величина Fkq(xi -x,...,xn -x) для множества измерений X = {Xi,...,Xn} имеет тенденцию принимать минимальные значения при тех значениях x, которые близки к точкам максимальной плотности расположения {х;} . Именно это свойство обуславливает тенденцию оценок (3)-(5) группироваться в точках максимума плотности распределения измерений.
Поскольку “нормальные” измерения по определению имеют существенно меньшую дисперсию, чем аномальные, плотность их значений значительно выше плотности аномальных измерений и сосредоточена в окрестности истинного значения параметра X . В силу этой особенности оценки вида (3)-(5) потенциально могут обеспечить сверхробастное оценивание.
Оценки (3)-(5) образуют параметрическое семейство и для их практического применения требуется процедура выбора конкретной оценки (параметров k, q). Поскольку оптимальное значение параметров зависит от статистических свойств измерений, которые по условию задачи неизвестны, необходима некоторая адаптивная процедура. В настоящей работе такая адаптивная процедура выбора параметров строится на основе сравнительно новой статистической техники, известной как “бутстреп” (bootstrap) [2]. В работе [3] показано, что применение бутстрепа для адаптивного выбора оценки из набора первичных оценок по минимуму Lp -нормы невязки позволяет существенно повысить робастность результирующей оценки. Здесь исследуется возможность применения этого подхода для первичных оценок вида (3)-(5).
Бутстреп позволяет оценить вариабельность наблюдаемого значения t(X) произвольной статистики t(-) — функции от случайной выборки X = {x1,...,xn} из неизвестной генеральной совокупности (т.е. при отсутствии априорной информации о законе распределения х;). Базовая идея бутстрепа предельно проста — в качестве апостериорной оценки вариабельности наблюдаемого значения t(X) используется вариабельность случайной величины t(X (X)), где X (X) — случайная выборка из гипотетической генеральной совокупности, образованной бесконечным числом копий исходной выборки X. На практике псевдовыборки X (X) получают из исходной выборки X на основе методов Монте-Карло следующим образом:
X (X) = {x*,...,xn}, х; = xr(i); P(r(i) = i) = 1/N; (6)
где {r(i); i = 1,...,N} — случайные независимые целые числа; P(A) — вероятность события A. При
РИ, 2003, № 1
достаточно общих предположениях доказано, что полученные таким образом оценки вариабельности величины являются состоятельными [4]. Основное достоинство бутстрепа—это возможность формировать состоятельные оценки точности без использования какой-либо априорной информации о статистических свойствах генеральной совокупности (т.е. только на основании наблюдаемых данных X). При этом не требуется каких-либо аналитических выкладок, а вид статистики t(-) может быть произвольным.
Исследование проводилось для следующей модели измерений общего вида (1). “Нормальные” ошибки измерений (величины и; в выражении (1)) представляют собой нормально распределенные случайные величины c нулевым средним и дисперсией ст2; аномальные ошибки п; — равномерно распределенные в интервале [0, 1000ст] случайные величины. При этом все измерения статистически независимы. Истинное значение оцениваемого параметра составляет X = 100ст . В силу ограниченного объема показаны только результаты моделирования для числа нормальных измерений в выборке Nn = 15 . Количество Na аномальных измерений в выборке изменялось от 0 до 100. Статистика ошибок рассчитывалась на основании 500 реализаций набора измерений X.
Предварительное моделирование показало, что параметр q оценки в выражениях (3)-(5) сравнительно мало влияет на результат. Поэтому при моделировании использовалось фиксированное значение этого параметра q = 3 . Адаптивно выбирался только параметр k — из набора значений k = 2, 4, 6, ... ,30 . Для адаптивного выбора параметра k по набору измерений X согласно описанной выше общей схеме бутстрепа формировались
случайные псевдовыборки Xm(X), m = 1,...,50 . Затем для каждого из указанных выше значений параметра k методом бутстрепа оценивалась среднеквадратичная точность X k , определяемая соотношениями (3)-(5):
Sk(X) = 1/M Z(Xk(X)-Xk(Xm))2. (7)
m=1
В качестве результирующей (адаптивной) выбиралась та оценка Я,k, для которой величина Sk минимальна. Помимо значений адаптивной оценки, определялись также значения среднего и медианы набора измерений X.
Величина ошибки для всех исследуемых оценок приведена ниже в виде отношения ст / ст; среднеквадратичных значений ошибки исследуемой (ст) и идеальной оценки (ст i). В качестве идеальной оценки использовалось среднее значение одних только “нормальных” измерений. Это соответствует гипотетической идеальной ситуации, когда точно известно, какие конкретные измерения Х; есть аномальными (и могут быть удалены). Для нор-
5
мально распределенных ошибок измерений среднее выборки является оценкой с наименьшей дисперсией. Поэтому величина ст / ст; для используемой модели измерений принципиально не может быть ниже единицы.
На рисунке показана зависимость относительной ошибки ст / стi от количества Na аномальных измерений в выборке (при наличии “нормальных” измерений Nn = 15) для оценки “медиана выборки” и предложенной выше сверхробастной оценки. Отчетливо наблюдается более высокая робастность предлагаемой оценки, чем у медианы. При наличии в выборке 14 и более аномальных измерений ошибка оценивания по медиане выборки резко возрастает. В то же время для предлагаемой сверхробастной оценки такого порогового эффекта не наблюдается и при заметно большем числе аномальных изменений.
10
3 6 о
О 4 О
I-
о.
медиана сверхробастная 1 1
1 1
.
■
10 15
Na
0
Более подробные численные результаты моделирования приведены в таблице, включая относительную точность оценок по среднему значению.
Из таблицы отчетливо видно, что предложенная адаптивная оценка значительно превосходит медиану по устойчивости к аномальным измерениям. Когда доля аномальных оценок достигает приблизительно 50% от общего числа измерений, ошибка медианы резко возрастает (в основном за счет смещения). Фактически при этом медиана становит-
ся неработоспособной. В то же время предложенная оценка позволяет проводить оценивание даже при наличии 90% аномальных измерений, лишь незначительно (порядка 1,5 раза) проигрывая идеальной оценке. Сверхробастные оценки даже при отсутствии аномальных измерений (Na = 0) уступают оптимальной для этого случая оценке по среднему значению не более, чем в 1,5 раза.
Отметим также, что устойчивость сверхробастных оценок повышается с увеличением дисперсии ано -мальных измерений. Хотя такое свойство представляется парадоксальным с точки зрения классической теории оценивания, оно имеет элементарное качественное объяснение. Чем выше дисперсия аномальных измерений, тем легче на их фоне выделить “нормальные” измерения.
Выводы
Предложено семейство оценок, обладающих существенно большей устойчивостью к аномальным измерениям, чем медиана выборки, традиционно считающаяся наиболее робастной оценкой. Оценки из предложенного семейства имеют тенденцию принимать значения в точках максимальной плотности измерений, что создает предпосылки для сверхробастного оценивания. Поскольку точность этого класса оценок зависит от неизвестных вероятностных характеристик измерений, требуется адаптивная процедура выбора оценки. Для реализации такой процедуры целесообразно использовать сравнительно новую статистическую технику - бутстреп. Применение бутстрепа позволяет оценить точность каждой оценки из используемого набора первичных оценок по единственной реализации вектора измерений. Затем в качестве результирующей выбирается та первичная оценка, для которой бутстрепом получена наилучшая оценка точности. Статистическое моделирование показывает, что синтезированные адаптивные оценки обладают гораздо большей устойчивостью к аномальным измерениям, чем медиана выборки, и сохраняют работоспособность при наличии 90% и более аномальных измерений.
Na Оценка
Среднее Медиана Сверхробастная
0 1,00 1,18 1,36
1 118 1,20 1,30
2 202 1,32 1,36
4 342 1,64 1,43
6 447 2,01 1,47
8 537 2,52 1,49
10 614 3,13 1,45
12 678 3,87 1,47
14 733 4,87 1,46
16 781 87 1,47
18 825 194 1,50
20 864 277 1,53
25 942 479 1,51
30 1008 642 1,53
50 1164 973 1,53
80 1273 1178 1,46
100 1313 1237 1,48
Литература: 1. Хьюбер П. Робастность в статистике. М.: Мир, 1984. 304 с. 2. Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сборник статей. М.: Финансы и статистика, 1988. 262 с. 3. Колядин В.Л. Синтез адаптивных робастных оценок на основе техники бутстреп // Радиоэлектроника и информатика. 2001. № 4. С. 18-22. 4. Davison A.C., Hinkley D.V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1997. 582 p.
Поступила в редколлегию 21.12.2002 Рецензент: д-р техн. наук, проф. Костенко П.Ю.
Колядин Владимир Леонидович, канд. техн. наук, докторант кафедры “Авиационно-космические радиотехнические системы” Национального аэрокосмического университета “ХАИ”. Научные интересы: неклассические методы статистического анализа данных, включая обработку сигналов и изображений. Увлечения и хобби: история науки, теннис. Адрес: Украина, 61129, Харьков, пр. Тракторостроителей ,162-Г, кв. 128, тел.14-81-44.
6
РИ, 2003, № 1