Научная статья на тему 'Робастные непараметрические оценки линейных функционалов'

Робастные непараметрические оценки линейных функционалов Текст научной статьи по специальности «Математика»

CC BY
275
79
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБАСТНЫЙ / НЕПАРАМЕТРИЧЕСКИЙ / ОЦЕНКА / ЛИНЕЙНЫЙ ФУНКЦИОНАЛ / ROBUST / NONPARAMETRIC / LINEAR FUNCTIONAL

Аннотация научной статьи по математике, автор научной работы — Симахин Валерий Ананьевич

Рассматривается построение алгоритмов робастных непараметрических оценок линейных функционалов на основе взвешенного метода максимального правдоподобия.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ROBUST NONPARAMETRIC ESTIMATION OF LINEAR FUNCTIONALS

Robust nonparametric algorithms for estimation of linear functionals on the basis of weighted maximum likelihood method is considered in the article.

Текст научной работы на тему «Робастные непараметрические оценки линейных функционалов»

УДК 519.234

В. А. Симахин

РОБАСТНЫЕ НЕПАРАМЕТРИЧЕСКИЕ ОЦЕНКИ ЛИНЕИНЫХ ФУНКЦИОНАЛОВ

Рассматривается построение алгоритмов робастных непараметрических оценок линейных функционалов на основе взвешенного метода максимального правдоподобия.

Ключевые слова: робастный, непараметрический, оценка, линейный функционал.

Пусть у1,..., ум - выборка непараметрической оценки регрессии (НОР) с функцией распределения (ФР) G(у) и 9 = |ф(?)^Я(?) <го, где

? = (^,..., tm)Т; H(?) = G(t1)••• G(tm). Непараметриче-

ские оценки функционала 9 при симметричных функциях ф(?) получили название ^/-статистик [1; 2]. В классе робастных оценок 9 применяется метод усечения выборки - усеченные ^/-статистики [3].

Обозначим через f (x) и F(x) плотность и ФР

случайной величины X = ф(71,..., Уп1), тогда 9 = |zdF(2). Выборку У1,..., Ym преобразуем в выборку x1,..., хм, где xj = ф(у,..., у ); N - мощность

множества {/ < /2 <... < /т}. При таком преобразовании задача оценивания параметра 9 сводится к задаче оценивания параметра сдвига распределения F (х). В параметрической статистике такой прием широко используется для синтеза несмещенных оценок параметров как функций от достаточных статистик и в вычислительном отношении достаточно удобен, однако основная сложность здесь связана с переходом от распределения G( у) к распределению F (х) [4]. В связи с этим будем считать, что вид ФР F (х) нам неизвестен и задача относится к классу непараметрических задач оценки параметра сдвига.

В настоящее время нет недостатка в робастных оценках параметра сдвига, что создает даже определенное неудобство для пользователей (см. например, [3; 5] и библиографические списки к ним). Отметим ряд особенностей таких оценок. Большинство из них робастны на классе и имеют низкую эффективность в отсутствии выбросов. Как выход предложены адаптивные оценки: в основном используется адаптация по параметру усечения, но не по виду F(х) [3], или адаптация ведется по виду распределения F(х), но функция и параметр усечения подбираются эвристически [6]. Эта работа Р. Берана интересна в двух аспектах: в ней, очевидно, впервые введены робастные непараметрические оценки плотности, а также использован метод подстановки на основе этих оценок для получения оценки параметра. Становится понятным, что робастные эффективные оценки должны быть адаптивными как по виду основного распределения, так и по отбраковке выбросов.

В данной статье на основе взвешенного метода максимального правдоподобия (ВММП) [7; 8] синтезированы адаптивные робастные непараметрические оценки и показано их использование для оценки линейных функционалов.

Взвешенный метод максимального правдоподобия. Пусть F(х, 9) - унимодальное непрерывное распределение с плотностью f (х, 9) и неизвестным параметром 9 - принадлежит к классу унимодальных распределений и х1,..., хм - выборка НОР из распределения F(х, 9). Обозначим через FN (х) эмпирическую функцию распределения (ЭФР), а через g (х, 9) -априорную плотность распределения.

М-оценки неизвестного параметра 9 можно определить на основе решения эмпирического уравнения вида

|ф(х, 9N )dFN (х) = 0,

(1)

где ф( х, 9) - оценочная функция.

Анализ критерия радикальности и алгоритмов устойчивых оценок [5] позволяет сделать вывод, что все эти оценки можно получить на основе ВММП с оценочной функцией ф( х, 9) вида

ф(х, 9) =

5

—1п g(л;9)+Р

59

gl (х, 9),

(2)

где I - параметр радикальности оценки; р - параметр,

который определяется по условию несмещенности оценки, в нашем случае р = 0 [7].

Нетрудно заметить, что (2) определяет ВММП с весами ^ (х, 9). При I = 0 мы получаем оценки максимального правдоподобия (ОМП), при I = 0,5 - радикальные оценки, при I = 1 - оценки максимальной устойчивости (ОМУ) [5]. Физически роль параметра I вполне понятна и сводится к определению степени мягкого усечения как для удаленных выбросов, так и по форме априорного распределения. Таким образом, варьируя параметром I, можно получать эффективные оценки при локальных отклонениях распределения F(х, 9) от априорного в классе устойчивых оценок.

В непараметрическом случае, когда вид g(х, 9) неизвестен, заменим g(х, 9) в (2) непараметрической симметризованной оценкой Розенблатта-Парзена

gN (X, 0) = -11К ( 29 , Х 1 | dFN (г).

к

(3)

Например, для нормального ядра уравнения для оценки параметров сдвига 0 и масштаба X принимают следующий вид [7; 8]:

1 N N

---------ЕЕ (9^у - г,) • Щ (2и) = 0,

N(N-1)^*-}к N 4 1

Г9 -г ^

УJN V Х N У

1

/ + 1

(4)

•Щ1( г„) = 0,

где

Щ.( г,,) = ехр {-

N-7, ,Е=,е,ф {-

(0N - г,])2

(0N - 2т )2

X + X 2

- полусуммы Уолша.

Рассмотрим обобщенную М-оценку 0N параметра 0, которая определяется на основе решения эмпирического уравнения вида

I ф(х, 0N, (X, 0N )dFN (X) = 0,

где Т = (Т1,..., Тк)Т; Т, = |Sl(х, г, 0^(г);

Т N = | ^ (X, г, 0)dFN (г).

В связи с ограниченностью объема статьи приведем без доказательства ряд результатов в окончательном виде.

Имеет место следующее представление:

0N-0 =

я ^

|—ф( х, 0, Т )dF (х) •{^(г, 0)dF (г)

Я0

Выражение (5) определяет дисперсию параметрического ВММП (классические М-оценки) и при / = 0

(5) совпадает с выражением для дисперсии ОМП, а при / = 1 - с выражением для дисперсии ОМУ [7].

Для непараметрического ВММП

ф(х, 0, Т, Т2) = Т (х, 0) • Т2/ -1 (х, 0),

^(Х, г, 0) = -1К (20--Х г ^ К к

N у

я

S2( х, г, 0) = — S1( х, г, 0).

Я0

Выражение (5) определяет дисперсию непараметрического ВММП в зависимости от /.

Зависимости дисперсии параметрической (рис. 1) и вариации непараметрической (типа «складного ножа» jackknife) (рис. 2) оценок ВММП для модели Тьюки с асимметричным засорением от параметра радикальности 1(0 < / < 1) приведены ниже (кривая 1 на рис. 1 - без выбросов, кривая 2 - 3 % выбросов, среднее - 4, кривая 3 - 10 % выбросов, среднее - 4; кривая 1 - на рис. 2 - без выбросов, кривая 2 - выброс - 5, кривая 3 - выброс - 11, N = 39 + 1 выброс).

Рис. 1

У (г, 0) = ф(г, 0, т (г, 0)) + к Я

+ЕI ^ ( х, г, 0)—ф(г, 0, Т (г, 0)^ ( х).

,=1 ЯТ,

При выполнении ряда ограничений л/ы (0N -0)

имеет асимптотически нормальное распределение с дисперсией

а2 =

[—ф(х, 0,Т^ (х) •{у 2(г, 0^ (г). (5)

3 ЯА

Я0

Техника доказательства основана на работах Г. М. Кошкина ([9]) и результаты имеют место для стационарных процессов со слабой зависимостью.

В параметрическом случае (S, = 0)

ф(х, 0) =

Я

—я (X, 0)

Я0

я1 -1( X, 0).

(6)

Рис. 2

Анализ дисперсии и вариации в зависимости от / (рис. 1, 2) показывает, что существует оптимальное /, доставляющее минимум дисперсии и вариации оценки.

2

X

2

-|/-1

X

2

X

N

г,] =

2

Адаптивные оценки взвешенного метода максимального правдоподобного. Непараметрический подход на основе оценок Розенблатта-Парзена вида (3) позволяет осуществить адаптацию оценок ВММП по виду распределения. Адаптации по параметру радикальности / (0 < / < 1) производится с помощью бутстреп-метода. Для этого достаточно использовать простые бутстреп-процедуры типа «складного ножа» ^асккпИе) и алгоритмы поиска минимума вариации непараметрического ВММП. Моделирование также показывает, что при оптимальном / наблюдается и минимальное смещение оценки.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Примеры. Как отмечалось выше, значительный интерес представляет нахождение робастных непараметрических оценок для и-статистик. Применим для этого адаптивные оценки ВММП.

В первую очередь нас интересуют робастные непараметрические оценки функции распределения

G(г) = | С (г - у^( у) и плотности в виде

я (г) = { к ((г - у) • нм1 ^(у), где С(у) - функция Хевисайда; К(у) - ядерная функция. Зафиксируем значение г = г0. От выборки у1,...,ум перейдем к выборкам х1 = С(г0 - у,) для ФР и х, = К((г0 - у,) • к,1) для плотности соответственно.

Представим результаты моделирования в зависимости от / для асимметричной модели выбросов Тью-ки N = 100, 10 % выбросов из нормального распределения со средним, равным пяти, рис. 3, 4). Хорошие результаты показывают радикальные оценки (/ = 0,5), / оптимально при / = 0,35, при / = 1 происходит достаточно сильное подрезание.

Рис. 3

Рис. 4

Результаты моделирования для вариаций оценок дисперсии (хк = 0,5 • (у1 - у,)) и средней разницы

Джини (хк = |у, - у, |) приведены на рис. 5, 6 (И = 30 + + 1 выброс).

а.е-65 ---------------1------------1------------1-----------1------------

0 0.2 0.-1 0.6 0.0 1

Рис. 5

И ------------1----------1----------1-----------1----------

О 0.2 0.4 0.6 0.8 1

Рис. 6

Таким образом, предложен адаптивный робастный непараметрический алгоритм нахождения линейных функционалов, который позволяет адаптивно (путем мягкого усечения) настраивать оценку в зависимости от исходного распределения и выбросов. Рассмотрено робастное оценивание функции распределения, плотности распределения типа Розенблатта-Парзена, дисперсии, средней разницы Джини. Проведено моделирование оценок для асимметричной модели засорений Тьюки. На модели эксперимента Бе-рана [7] проведено сравнение оценки Берана и вышеприведенной оценки. Они показывают одинаковые результаты, но в оценке Берана функция усечения и окно для нее (адаптация) подбирались эвристически

[6]. Необходимо отметить, что представленный в данной статье подход позволяет применять робастные оценки ФР и плотности методом подстановки для получения адаптивных оценок неявных параметров от нелинейных функционалов.

Библиографические ссылки

1. Королюк В. С., Боровских Ю. В. Теория и-ста-тистик. Киев : Наук. думка, 1989.

2. Непараметрическое оценивание функционалов по стационарным выборкам / Ю. Г. Дмитриев,

Г. М. Кошкин, В. А. Симахин и др. ; Тос. гос. ун-т. Томск, 1974.

3. Шуленин В. П. Введение в робастную статистику / Тос. гос. ун-т. Томск, 1993.

4. Воинов В. Г., Никулин М. С. Несмещенные оценки и их применения. М. : Наука, 1989.

5. Шурыгин А. М. Прикладная статистика. Робастность. Оценивание. Прогноз. М. : Финансы и статистика, 2000.

6. Beran R. An efficient and robust adaptive estimator of location // Ann. Stat. 1978. Vol. 6, № 2. P. 292-313.

7. Симахин В. А. Непараметрическая статистика.

Ч. II. Теория оценок / Курган. гос. ун-т. Курган, 2004.

8. Симахин В. А. Взвешенный метод максимального правдоподобия // Высокие технологии XXI века : материалы IX Междунар. науч.-техн. конф. : в 2 т. Т. 2. Воронеж, 2008. С. 661-672.

9. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М. : Наука, 2004.

V. А. Simakhin

ROBUST NONPARAMETRIC ESTIMATION OF LINEAR FUNCTIONALS

Robust nonparametric algorithms for estimation of linear functionals on the basis of weighted maximum likelihood method is considered in the article.

Keywords: robust, nonparametric, linear functional.

© CnMaxHH B. A., 2010

УДК 62-506.1

Н. А. Сергеева, Е. С. Терентьева

О НЕПАРАМЕТРИЧЕСКИХ ОЦЕНКАХ ФУНКЦИИ РЕГРЕССИИ И ЕЕ ПРОИЗВОДНЫХ ПРИ НАЛИЧИИ ПРОПУСКОВ ДАННЫХ

Рассмотрены непараметрические методы оценивания регрессии и ее производных по выборкам случайных величин с некоторыми особенностями при их измерении. Представлен бутстреп-метод, применяемый для решения задачи заполнения пропусков в неполных данных или устранения пустот в пространстве наблюдений.

Ключевые слова: непараметрическая оценка регрессии, Н-аппроксимация, бутстреп-метод, непараметрическая оценка производной функции регрессии, сходимость оценок.

Проблема моделирования дискретно-непрерывных процессов является одной из центральных в кибернетике. Определяющее значение при постановке задачи идентификации имеет математическая постановка, соответствующая различным априорным предпосылкам. Априорные сведения о процессе, по существу, определяют подход к задаче идентификации.

Ниже мы остановимся на задаче идентификации и связанной с ней задаче оценивания соответствующих вероятностных характеристик в условиях непараметрической неопределенности. В отличие от ставшего традиционным параметрического подхода к решению задачи идентификации в дальнейшем нам понадобятся некоторые качественные свойства поведения исследуемого процесса. Одним из главных этапов на пути решения этой задачи является оценивание регрессионных характеристик входных-выходных переменных процесса.

Непараметрический уровень априорной информации не предполагает наличия этапа выбора параметрической структуры модели, но требует некоторых сведений качественного характера о процессе, например от однозначности или неоднозначности его ха-

рактеристик, линейности для динамических процессов или характере нелинейности. При идентификации линейных динамических объектов мы сталкиваемся с необходимостью оценивания производной функции регрессии. Это связано с оценкой весовой функции линейной системы по измерениям функции переходной характеристики последней. Непараметрическая модель в этом случае представляет собой оценку интеграла Дюамеля.

Существенная особенность данного исследования состоит в предположении, что исходные выборки содержат пропуски данных при контроле входных-выходных переменных объекта. Это приводит к необходимости построения модифицированных непараметрических оценок функции регрессии и ее производных.

Пусть имеется неравномерная выборка статистически независимых наблюдений (иі, хі), і = 1,5, входных и выходных переменных системы объемом 5. Здесь иі - значение вектора наблюдений входных воздействий размерности т в і-й точке выборки, а хі -значение выходного воздействия в этой точке. Требу-

i Надоели баннеры? Вы всегда можете отключить рекламу.