Научная статья на тему 'Обобщённая непараметрическая регрессия и её свойства'

Обобщённая непараметрическая регрессия и её свойства Текст научной статьи по специальности «Математика»

CC BY
486
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ / КОЛЛЕКТИВНОЕ ОЦЕНИВАНИЕ / УПРОЩЁННЫЕ АППРОКСИМАЦИИ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / NONPARAMETRIC REGRESSION / COLLECTIVE ESTIMATION / SIMPLIFIED APPROXIMATIONS / ASYMPTOTIC PROPERTIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

Рассматривается методика синтеза и анализа обобщённой непараметрической регрессии. Идея рассматриваемого подхода состоит в построении упрощённых параметрических моделей относительно некоторого набора точек из обучающей выборки с последующей их интеграцией на основе методов непараметрической статистики. Исследуются свойства полученной аппроксимации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The generalized nonparametric regression and its properties

The technique of synthesis and analysis of the generalized nonparametric regression for solution of problems of restoration of stochastic associations under conditions of the incomplete information is proposed. The idea of the considered approach consists in construction of a set of the simplified parametrical models concerning system of reference points of a learning sample. Their subsequent integration into the generalized model is carried out on the basis of methods of a non-parametric statistician. Properties of the generalized nonparametric regression are investigated. Results of its comparison with a traditional nonparametric regression are analyzed. Conditions of their competence are defined.

Текст научной работы на тему «Обобщённая непараметрическая регрессия и её свойства»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2013 Управление, вычислительная техника и информатика № 3(24)

УДК 519.7

А.В. Лапко, В.А. Лапко

ОБОБЩЁННАЯ НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ И ЕЁ СВОЙСТВА

Рассматривается методика синтеза и анализа обобщённой непараметрической регрессии. Идея рассматриваемого подхода состоит в построении упрощённых параметрических моделей относительно некоторого набора точек из обучающей выборки с последующей их интеграцией на основе методов непараметрической статистики. Исследуются свойства полученной аппроксимации.

Ключевые слова: непараметрическая регрессия, коллективное оценивание, упрощённые аппроксимации, асимптотические свойства

На современном этапе развития теории обучающихся систем настойчиво обсуждается и разрабатывается идея о совместном использовании разнотипных моделей - как средства наиболее полного учета априорной информации. Известно яркое высказывание профессора В. Хардле [1]: «Совмещение параметрических и непараметрических составляющих может даже привести к построению лучшей модели, чем непараметрический или параметрический подход!». Получены первые успешные результаты исследований в данном направлении, к которым можно отнести методы локальной аппроксимации [2], гибридные модели [3-5], полупа-раметрические и частично линейные модели [1].

Разработан новый класс непараметрических моделей коллективного типа для решения задач восстановления стохастических зависимостей [6], распознавания образов [7] и анализа временных процессов [8]. Синтез подобных моделей сводится к непараметрическому оцениванию функционалов от семейства регрессий, построенных относительно системы «опорных» точек из экспериментальных данных. Их применение позволяет в наиболее полном объёме использовать информацию обучающей выборки, содержащуюся в её элементах, и взаимосвязи между ними.

Цель данной работы стоит в развитии методики синтеза обобщённой непараметрической регрессии, основанной на сочетании преимуществ параметрических и локальных аппроксимаций восстанавливаемой функции и исследовании её свойств.

1. Синтез обобщённой непараметрической регрессии

Пусть дана выборка V = (х1, у1, 1 = 1, п) из статистически независимых наблюдений значений у1 неизвестной однозначной зависимости

у = ^ (х )У х е Як (1)

и её аргументов X .

Полагается, что элементы выборки V проверены на наличие ошибок контроля и последние удалены. Причём соблюдается условие у1 Ф 0,1 = 1, п , необходимое

при использовании относительной ошибки аппроксимации восстанавливаемой зависимости.

Поставим в соответствие некоторым точкам (х1, у1) обучающей выборки V ,

условно назовём их опорными, упрощённые аппроксимации ф; (х, а) зависимости (1), параметры а которых удовлетворяют условиям

1 ( 1 —1 \

у =Ф1 (х , а ),

а = argmm

а п —

—1 Ё (у1 — Фі , а) і = —1

1, N.

(2)

і=1 і *і

Упрощённые аппроксимации ф; (х, а1), например линейные, проходят через

опорные точки (X, у1,1 = 1, N) и близки в среднеквадратическом к остальным

элементам обучающей выборки V .

Примем в качестве статистической модели зависимости (1) процедуру условного усреднения

N

ф(х ) = Ёф* У а )Х (х) ’

і =1

(3)

где положительная функция X1 (х) определяет «вес» правила ф; (х, а1) при формировании решения в ситуации х. Причём сумма X1 (х), 1 = 1, N, равна единице. Примером функции X1 (х) является «весовая» функция

к ( х - г

Пф

Xі (х) =

V V

N к ( х — X А

ЁПф ^х

і=1 V=1 V V У

составленная из положительных, нормированных и симметричных «ядерных»

на основе которых строятся непараметрические моде-

функций Су ф ли [9].

В этом случае при ф; (х, а1) = у1 и N = п статистика (3) преобразуется в традиционную непараметрическую регрессию

у = ф (х Ь^у1 х (х).

1=1

Проведём анализ обобщённой непараметрической регрессии (3) для линейных упрощённых аппроксимаций

к ______________________

Фі (x,аі ) = Ё^Х +Рі , і = 1 N.

V=1

V=1

Заметим, что в соответствии с методикой синтеза статистики ф( х) (3)

к

У=1

а параметры а'у, 1 = 1, N, определяются из условия минимума критерия (2). Тогда

(4)

У=1

Подставляя упрощённые аппроксимации (4) в выражение (3), получим

N

N к

(5)

1=1

1=1 у=1

Первое слагаемое в выражении (5) представляет собой непараметрическую регрессию, обладающую свойствами асимптотической сходимости к условному математическому ожиданию - оптимальной модели (1) в среднеквадратическом смысле [10, 11].

Вторая составляющая (5) играет роль поправочного члена и отражает условную взаимосвязь между точками обучающей выборки. Его значения, в соответствии с особенностями первого слагаемого (5), снижаются по мере роста объёма исходной информации, что подтверждается результатами аналитических исследований [11]. Наличие поправочного члена делает статистику (3) схожей с гибридными моделями, а слабая зависимость её свойств от вида опорных функций - с непараметрической регрессией.

Для синтеза обобщённой непараметрической регрессии разработана итерационная процедура формирования системы опорных точек. Идея предлагаемого метода основывается на последовательном анализе относительных расхождений между значениями восстанавливаемой зависимости и строящейся обобщённой непараметрической регрессии ^ (ф(х), ] = 1, t):

где 1Т = I \ - множество номеров точек, не входящих в число опорных с номе-

рами из множества I, а I - множество номеров точек исходной выборки. Если модель ^ (ф(х1), ] = 1, t) в некоторой точке х имеет максимальное расхождение с экспериментальным значением у1, то естественно принять эту точку (х1, у1) в качестве опорной при построении ^ +1) упрощённой аппроксимации.

Процедура формирования опорных точек заканчивается на t -й итерации, когда ошибка аппроксимации

меньше заданного порога Ж , удовлетворяющего пользователя. Здесь |1-| - количество элементов множества 1Т.

1

2. Модификация обобщённой непараметрической регрессии

Для повышения аппроксимационных свойств обобщённой непараметрической регрессии предлагается учитывать статистические оценки эффективности Ж1 упрощённых параметрических аппроксимаций ф1 (х, а1), 1 е /0. Здесь /0 - множество номеров опорных точек из выборки V . В качестве показателя эффективности 1-й аппроксимации может выступать среднеквадратический критерий

Ж1 = -

11=1 1 *1

Учёт эффективности целесообразно осуществить, вводя в «весовую» функцию X1 (х) ядерную меру близости между значением Ж1 и её минимальным значением (нулём). В результате полученная модификация обобщённой непараметрической регрессии (3) с учётом оценок эффективности упрощённых параметрических аппроксимаций имеет вид

' х ^ "о - Ж1

Ефі(х>а1) Пф

ф(- ) = :

V с, у

Ф

ЕПф

V с, у

Ф

0 - Ж1

с

где ск - параметр ядерной функции Ф её определения.

который характеризует область

3. Асимптотические свойства обобщённой непараметрической регрессии

Для удобства последующего анализа предположим, что х - скаляр и закон распределения р (х) известен. Тогда обобщённая непараметрическая регрессия типа (3) будет иметь вид

ф(- )=Ир-)Ё ф1 (-а1 К ^

(6)

Если принять

ф1 (х, а) = а1х+Р1,

то при выполнении условия (2) её прохождения через опорную точку

Pi 1 —1 1

= у -а х .

При этом упрощённая аппроксимация ф1 (х, а) соответствует выражению

ф1 (х, а) = у + а1 (х - х1).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда модель (6) запишется в виде статистики

N

у

Шр(х) 1=1-

1 Ы Х - Vі ^ 1 N ( х

ф(- У ф| — 1+ ^ Ё а1 (- - - )Ф

V=1

ІЄІ ,=1

Теорема. Пусть 1) кривая регрессии ф(х) и плотности вероятностей р (х, у), р (х), характеризующие распределения переменных х, у исходных статистических данных и опорных точек обобщённой непараметрической регрессии, являются ограниченными и непрерывными со всеми своими производными до второго порядка включительно; 2) ядерные функции Ф(и) являются положительными, симметричными и нормированными; 3) объём исходных статистических данных п ^да ; 4) последовательность с = с (N) ^ 0 при N ^да , а N ^да.

Тогда:

смещение

„2 А1 (х у) + А (х у) .

м(ф(х)-ф(х))~с —2 ’ ( )п( ) ; ()

2 р (х )В (х)

квадратическое отклонение

((ф(х) р (х))(2))2 ) (х, у)

М(ф(х)-ф(х))2~ Ф (х)1Ф(и)

с4

-+-

N6р (х) р (х)

А (х у)

4 р (х) В (х)

+ А1(х у)

. „ .. () 4р(х)В(х) 14 ' 1 1 ’

где М - знак математического ожидания; А (х, у), А1( х, у) - нелинейные функционалы от ф(х), р(х,у), р(х) и их производных; В(х) - дисперсия опорных точек; ||Ф(и)||2 = |ф2 (и)du . Здесь и далее бесконечные пределы интегрирования опускаются.

Из выражений (8), (9) при выполнении условий теоремы следует асимптотическая несмещённость, сходимость в среднеквадратическом и состоятельность обобщённой непараметрической регрессии.

Для доказательства данных утверждений используется технология преобразований, предложенная В. А. Епанечниковым при исследовании асимптотических свойств непараметрической оценки плотности вероятности [12] и развитая в работах [13-15].

В исследуемую модель (7) подставляются оптимальные значения параметров

а = Х ( - у1 )(хг - х1) /х ( - х1 )2 , I = 1, N,

1=1 1=1

1 ^ / 1 ^

минимизирующих критерий (2).

При выполнении последующих преобразований учитывается, что элементы исходной статистической выборки V и множества опорных точек являются значениями одних и тех же случайных величин (*, у) с плотностью вероятности р (*, у). Определим кривую регрессии

ф(* ) = { ур (у / *) ф

и проведём замену переменных (х - *)с- = и в составляющих М (ф(х)-ф(х)) и м (ф(х )-ф(х ))2.

Разложим функции ф(х - си), р (х - си) в ряды Тейлора в точке х и произведём интегрирование полученных выражений с учётом свойств ядерных функций.

Далее, проводя достаточно громоздкие вычисления и отбросив составляющие высших порядков малости при п ^да , N ^да получим приведённые асимптотические выражения смещения (8) и квадратического отклонения (9).

Установлено, что асимптотические свойства обобщённой непараметрической регрессии несущественно зависят от объёма выборки, используемой при идентификации упрощённых аппроксимаций. Эффективность предлагаемой модели в основном определяется законом распределения системы опорных точек и их количеством.

Сравнение аппроксимационных свойств исследуемой модели у =ф( х) и традиционной непараметрической регрессии у = ф (х) осуществляется путём анализа отношения соответствующих им среднеквадратических критериев

М|(ф(х)-ф(х))2 ёх

М|(ф(х)-ф(х))2 ёх

при п и N ^ да .

При выполнении условия Я > 1 имеет место преимущество ф( х) над ф (х). Поэтому ставится задача поиска условий синтеза обобщённой непараметрической регрессии, обеспечивающих выполнение данного требования.

Используемая схема исследований предполагает выполнение следующих действий.

Проинтегрируем выражение (9) и обозначим его через Ж . Определим оптимальное значение коэффициентов размытости с , С ядерных функций статистик ф(х) и ф(х), минимизирующих соответственно Ж и асимптотическое выражение среднеквадратического критерия [15]

1|Ф(и)||2 - -4

пс

Ж = -— |ф2 (х)р 1 (х)ёх + — |(( 1 (х) (ф(х)р(х))(2)) ёх .

Вычислим минимальное значение Ж0, Ж0 выражений Ж, Ж при оптималь-

- - Ж»

ных с , с . Проведём анализ отношения Я = ж и установим условия, при которых Я > 1.

Для равномерных законов распределения аргументов восстанавливаемой зависимости и опорных точек это условие определяется неравенством

N

У

22

тах

2 ута У

тах тах

Б (х)) У Б (х)) Б (х) 3 Б2 (х)

уЦ - максимальные значения восстанавливаемой зависимости и её

производной.

4. Анализ результатов вычислительных экспериментов

Проведём сравнение аппроксимационных свойств традиционной и обобщённой непараметрических регрессий при восстановлении стохастической зависимости

F (x) = 1 - x + exp(-20 (x - 0,5)2 ) ,

приведённой в работе [1].

При формировании исходных данных V = (X, y1, i = 1, n) объёма n значения

x е[0;1] определялись с равномерным законом распределения, а на значения функции накладывалась помеха в соответствии с выражением

yl = F (x1) + 2 (0,5 -е1) F (x1) r , i = 1, n .

Здесь r e[0;1] - уровень помех; е1 е [0;1] - случайная величина с равномерным законом распределения.

В статистике (3) при к = 1 упрощённые аппроксимации принимались линейными, а функции Ф(и) соответствовали оптимальным в среднеквадратическом смысле ядрам В.А. Епанечникова [12]. В качестве показателя эффективности сравниваемых моделей использовалась среднеквадратическая ошибка типа

W = П j (f(X1)-ty(x] )2 , n 1 =1

которая вычислялась по контрольной выборке объёма n = 1000. При её оценивании для каждого условия эксперимента проводилось 50 имитаций обучающих выборок, а полученные результаты усреднялись.

При формировании обобщённой регрессии (3) опорные точки выбирались из исходной выборки V с равномерным законом распределения.

Рис. 1 Зависимость среднеквадратической ошибки Ш от уровня помех г при объёме исходных данных п = 20 и отношении К/п = 0,5 . Кр. 1, 2 соответствуют традиционной непараметрической регрессии и исследуемой статистике (3)

Установлено, что точность аппроксимации обобщённой непараметрической регрессии в основном зависит от количества опорных точек, закона их распределения и уровня помех r. Исследуемая статистика обладает преимуществом над традиционной непараметрической регрессией при относительно малых объёмах исходных данных (N < 100 в условиях N/n е (0,2; 0,5) и r < 0,2). При больших значениях n эффективность сравниваемых моделей сопоставима, что согласуется с результатами аналитических исследований. С ростом уровня помех качество аппроксимации исследуемой статистики снижается. Вместе с тем двойное сглаживание, используемое при синтезе модели (3), обеспечивает её преимущество над непараметрической регрессией, что особенно проявляется при малых значениях уровня помех (рис. 1).

Заключение

Обобщённая непараметрическая регрессия для решения задач восстановления стохастических зависимостей занимает промежуточное положение между локальными и параметрическими методами аппроксимации функций и использует их преимущества. Структуру изучаемого класса моделей составляют семейство упрощенных параметрических аппроксимаций исследуемой функции, каждая из которых строится относительно системы опорных ситуаций из обучающей выборки. Объединение упрощенных аппроксимаций осуществляется с помощью непараметрической оценки оператора условного математического ожидания.

Установлено, что асимптотические свойства обобщённой непараметрической регрессии слабо зависят от вида упрощённых аппроксимаций и объёма выборки в задаче их идентификации. Эффективность предлагаемых моделей в значительной степени определяется законом распределения системы опорных точек и их количеством.

Исследуемая статистика обладает преимуществом над традиционной непараметрической регрессией при относительно малых объёмах исходных данных. При больших значениях n эффективность сравниваемых моделей сопоставима, что согласуется с результатами аналитических исследований.

ЛИТЕРАТУРА

1. Хардле В. Прикладная непараметрическая регрессия. М.: Мир, 1993. 349 с.

2. Катковник В.Я. Линейные и нелинейные методы непараметрического регрессионного анализа // Автоматика. 1979. № 5. С. 165-170.

3. Лапко А.В., Лапко В.А., Ярославцев С.Г. Разработка и исследование гибридных алгоритмов в задачах распознавания образов // Автометрия. 2006. № 1. С. 32-39.

4. Лапко В.А., Лапко В.А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.

5. Лапко А.В., Лапко В.А., Саренков А.В. Синтез и анализ линейных гибридных решающих функций в задаче распознавания образов // Системы управления и информационные технологии. 2012. № 1 (47). С. 66-69.

6. Лапко В.А. Синтез и анализ непараметрических моделей коллективного типа // Автометрия. 2001. № 6. С. 98-106.

7. Lapko V. A. Nonparametric models of pattern recognition of collective type // Pattern Recognition and Image Analysis. 2002. V. 12. No. 4. P. 354-361.

8. Лапко В.А. Непараметрические модели временных зависимостей, основанные на методе двойного коллективного оценивания // Автометрия. 2002. № 1. С. 42-50.

9. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. V. 33. No. 3. P. 1065-1076.

10. Надарая Э.А. Замечания о непараметрических оценках плотности вероятности и кривой регрессии // Теория вероятностей и её применение. 1970. Т. 15. № 1. С. 139-142.

11. Лапко А.В., Лапко В.А. Анализ асимптотических свойств многомерной непараметрической регрессии // Вестник СибГАУ. 2012. № 2 (42). С. 41-44.

12. Епанечников В.А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. № 1. С. 156-161.

13. Лапко А.В., Лапко В.А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Автометрия. 2010. Т. 46. № 3. С. 48 - 53.

14. Лапко А.В., Лапко В.А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных // Автометрия. 2008. № 3. С. 65-74.

15. Лапко А.В., Лапко В.А. Коллектив многомерных непараметрических регрессий, основанный на декомпозиции обучающей выборки по её объёму // Вестник СибГАУ. 2012. 3 (43). С. 42-46.

Лапко Александр Васильевич Лапко Василий Александрович

Институт вычислительного моделирования СО РАН,

Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева

E-mail: [email protected] Поступила в редакцию 5 марта 2013 г.

Lapko Alexandr V., Lapko Vas1ly A.. (Institute of Computational Modeling, Siberian Branch of Russian Academy of Sciences; Reshetnev Siberian State Aerospace University). The generalized nonparametric regression and its properties.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Keywords: nonparametric regression, collective estimation, simplified approximations, asymptotic properties.

The technique of synthesis and analysis of the generalized nonparametric regression for solution of problems of restoration of stochastic associations under conditions of the incomplete information is proposed. The idea of the considered approach consists in construction of a set of the simplified parametrical models concerning system of reference points of a learning sample. Their subsequent integration into the generalized model is carried out on the basis of methods of a non-parametric statistician. Properties of the generalized nonparametric regression are investigated. Results of its comparison with a traditional nonparametric regression are analyzed. Conditions of their competence are defined.

i Надоели баннеры? Вы всегда можете отключить рекламу.