Научная статья на тему 'Непараметрическая регрессия в условиях частичных сведений о виде восстанавливаемых закономерностей'

Непараметрическая регрессия в условиях частичных сведений о виде восстанавливаемых закономерностей Текст научной статьи по специальности «Математика»

CC BY
316
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
519.7 / НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ / СТОХАСТИЧЕСКИЕ ЗАВИСИМОСТИ / АПРИОРНЫЕ СВЕДЕНИЯ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / NONPARAMETRIC REGRESSION / STOCHASTIC DEPENDENCES / A PRIORI DATA / ASYMPTOTIC PROPERTIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

Предлагается непараметрическая модель стохастической зависимости, которая обеспечивает учёт априорных сведений о виде восстанавливаемых закономерностей. Исследуются её асимптотические свойства, проводится анализ результатов вычислительных экспериментов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NONPARAMETRIC REGRESSION IN THE CONDITIONS OF PARTIAL DATA ON A MODE OF RESTORED LEGITIMACIES

The nonparametric model of stochastic dependence which provides for registration of a priori data on a mode of restored legitimacies is offered. Its asymptotic properties are researched.

Текст научной работы на тему «Непараметрическая регрессия в условиях частичных сведений о виде восстанавливаемых закономерностей»

УДК 519.7

А. В. Лапко, В. А. Лапко

НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ В УСЛОВИЯХ ЧАСТИЧНЫХ СВЕДЕНИЙ

О ВИДЕ ВОССТАНАВЛИВАЕМЫХ ЗАКОНОМЕРНОСТЕЙ

Предлагается непараметрическая модель стохастической зависимости, которая обеспечивает учёт априорных сведений о виде восстанавливаемых закономерностей. Исследуются её асимптотические свойства, проводится анализ результатов вычислительных экспериментов.

Ключевые слова: непараметрическая регрессия, стохастические зависимости, априорные сведения, асимптотические свойства.

Для наиболее полного учёта априорной информации о виде восстанавливаемых зависимостей и экспериментальных данных о её локальном поведении широко используются гибридные модели [1]. Традиционные гибридные модели сочетают в одном решающем правиле преимущество параметрических и непараметрических аппроксимаций. При этом единое решающее правило образуют параметрическая модель восстанавливаемой зависимости и корректирующая её функция непараметрического типа, которые строятся в одном и том же пространстве переменных. Полученные результаты были развиты для условий наличия частичных априорных сведений о виде восстанавливаемых зависимостей в ограниченном пространстве признаков [2]. Основная проблема применения гибридных моделей состоит в выборе вида корректирующей функции, которая является трудно формализуемой. Для её обхода предлагается использовать непараметрическую регрессию, синтез которой основан на обобщении априорной информации о виде восстанавливаемых зависимостей и экспериментальных данных об их локальном поведении.

Цель работы состоит в обосновании возможности учёта априорных сведений о виде восстанавливаемых закономерностей при синтезе непараметрических моделей стохастических зависимостей, основанных на оценках плотности вероятности типа Розенблатта-Парзена [3].

Синтез модифицированной непараметрической регрессии. Пусть об искомой однозначной зависимости

у = у(х) V х еЯк

(1)

известно её описание

у1 = Р(х1,а) V X е Як2, к2 < к

относительно некоторого ограниченного набора признаков из х = (х1, х1), х1 = (хь, V = 1, к1), к = к1 + к2

и выборка V = (xV, V = 1, к, у', ' = 1, п ) экспериментальных данных, составленная из статистически независимых значений переменных х, у исследуемой зависимости (1). Параметры а полинома Р (х1, а) заданы.

Задача состоит в построении модифицированной непараметрической модели у (х) зависимости (1),

совмещающей в одном решающем правиле всю имеющуюся априорную информацию.

На основании исходных экспериментальных данных сформируем промежуточную обучающую выборку

V1 =( х, у1 = Р (х/, а), у,' = 1, п) .

Принимая в качестве оптимального решающего правила, в смысле минимума среднеквадратического отклонения, условное математическое ожидание ф( х) [4], построим непараметрическую регрессию

у (х )=Х у% (х)

(2)

где

Р,-(х) =

к1 ( П ф

п к1 (

X П ф

, = 1 У=1

'ф( у1 - у1'

В статистике (2) ядерные функции Ф(и) удовлетворяют условиям Н :

Ф(и) = Ф(-и), 0 < Ф(и) < да,

|ф(м ) ёи = 1, | и 2Ф(и )du = 1,

| ит Ф(и ) ёи <да, 0 < т <да ;

с = с (п), су = су (п), V = 1, к1 - коэффициенты размытости ядерных функций, значения которых убывают с ростом объёма п обучающей выборки. Здесь и далее бесконечные пределы интегрирования опускаются.

При оценивании зависимости в ситуациях х = (х1, х1) сначала вычисляется у1 = Р (х1, а), а затем

по данным (х1, у1) в соответствии со статистикой (2)

определяется значение у (х).

Оптимизация модифицированной непараметрической регрессии (2) по коэффициентам размытости

,=1

ядерных функций с, су, v = 1, к1 осуществляется в режиме «скользящего экзамена» из условия минимума статистической оценки среднеквадратической ошибки аппроксимации искомой зависимости.

Асимптотические свойства непараметрической регрессии. Без существенной потери общности будем считать, что в частичном наборе признаков хъ,

v = 1, к1 их количество к1 = 1. В качестве ядерной функции примем функцию вида

Ф(и ) =

1 V \u\ < 1

2 1 1

0 V |u| > 1.

В этом случае непараметрическая регрессия (2) запишется как

y(x ) = -

Z y ф

f-r тгЛ

V "1 у

ф

ХФ

V yi- y1A

(3)

(ncic )-1 Z Уф

y(x )=-

(

ф

yi - yi

(ncic )-1 Хф

i=1

Проведем преобразования

zi (x) _ Z2 (x)

_______________ Z1 (x)

Лф( yi - yi j z2 (x)

M-

= M

z1 (x) + z1 (x)

-(M z2 (x)- z2 (x))

M z2 (x) z2 (x) M z2 (x) где M - знак математического ожидания.

(5)

zi( x)

Ввиду ограниченности значений у( х) = ^

z2( х)

свойства статистики (3) зависят от асимптотического поведения M(^(х)), M (Т2(х)). Вычислим

( k 2

: Ф

Zav —----— I p(l,(v,v = 1,k2) d)d)...dxV.

м (2 (х))=(пс1с )-1 Х| ...|ф1 -1—к

'■=1 V с1 у

х,„ - х,\

Так как х1, х1ъ, V = 1, к2 являются значениями одних и тех же случайных величин /, ^, V = 1, к2 с плотностью вероятности р (/, ^, V = 1, к 2), то

M (Z2 (x))=(С1СГ J ...|Ф1 ~

: Ф

^Z“(( -tv)) P(t,Z,v = 1,k2) dtdtv..dtk2.

(xi -t)

Проведём замену переменных u = ■

Тогда справедливо следующее утверждение. Теорема. Пусть 1) частичные сведения

у1 = Р (х1, а) восстанавливаемой зависимости (1) принадлежат к классу линейных полиномов; 2) функция у = ф(х) и плотности вероятностей р (х) ,

р (х, у1) ограничены вместе со своими производными

до второго порядка включительно; 3) ядерные функции Ф(и) являются положительными, симметричными и нормированными; 4) последовательности коэффициентов размытости с1 (п), с (п) ядерных функций таковы, что при п ^да их значения стремятся к нулю. Тогда непараметрическая регрессия (3) обладает свойством асимптотической несмещённости.

Доказательство. Представим модель (3) в виде

av (x1v - tv)

uv =----------. После несложных преобразований

vc

получим

ck2-1 ( k2

M (( (x)) = —2-J...|Ф(и) Ф1 Z1

IT av U

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

v=1

( x c Л

x1 - c1u, x1-----------------u , v = 1, k 2

V av у

(6)

Разложим функцию

du du1... duk2.

. (4)

x1 - c1u, x1v-uv, v = 1, k 2

av )

в ряд Тейлора в точке x = (x1, x1v, v = 1, k2) и преобразуем (6) с учётом свойств:

111 ( k 2 Л

2k2-T J ...J^[Zuv у du1... duk2 = 1,

111 ( k 2 Л ____

J ...J ut ^Z uv j du1... duk 2 = 0 t = 1, k ^

111 ( k 2 Л

2^ J ...J ut Ф|^С uv у du1... duk 2 =P2 .

В результате при n имеем M (Z2 (x))

2k 2-1 ck 2-1

k2

П av

(7)

r-2 r^{\2 k 2 1

p (x)+-j p(2) (x)+— Z — p{M) (x)+0 (c 4)

где р{1 (х) , рV2* (х) - вторые производные плотности вероятности р (х1, хь, v= 1, к2) по переменным х1, хь, V = 1, к 2 соответственно.

i=1

i=1

X

Следуя приведённой технологии вычислений, найдём асимптотическое выражение для

М (1 (х))=(пс1с)-1 XI ...| у'

л

ф

і \

ф

( к 2 х — х' '

л1у *Чу

ХаУ

(І і у , хп

хь,у = 1,к2) ёу'ёх[ йхи ... йЕ1к2 =

|...|фI х1 -с1и,хь -—Му,у = 1,к2

ф(«)ф| Хиу ІРI х1 -с1и,х1у-----------иу,у = 1,к2 Iс1ис1и1...с1и1

2к 2-1 ск 2-1

П

ф(х) Р (х) + (ф(х) Р (х))'

(2)

IXІ(ф(х)Р(хС + 0(cl2c2,с14с4 ,у =1 к2)

2 у=1 ау у

М

(у(х))'

М

(х )

Ф(х) Р (х) + у (Ф(х) Р (х^ +

, с2Р^

X А (ф(х) Р (х))

2к2 - ау

2 22к 2 Р(х)+-у Р^(х)+~2кГ X ат рУ2) (х)

(9)

УJ =ФJ(^, УJ-1),' = 1,т .

периментов сравнивалась эффективность статистики (2) и традиционной непараметрической регрессии

у (х )=-

X у Пф

XПф

( ху - х' '

(11)

В качестве искомой зависимости (1) использовался полином второй степени

„2 , -.„2

у (х) = х2 + 2 х2 + х1 х2 + х3 + 0,5 х4 + 2 х5

(12)

. (8)

В выражении (8) (ф(х)р(х)) , (ф(х)р(х)) -

вторые производные произведения двух функций по переменным х1, хь,V = 1, к2 соответственно. Подставим выражения (7) и (8) в (5), получим

1 (х)

Из анализа выражения (9) следует, что при с1 = с1 (п)^ 0, с = с (п)^ 0 с ростом п ^да изучаемая статистика (3) обладает свойством асимптотической несмещённости.

Замечания. При к2 = 2 полученные результаты могут быть использованы при исследовании свойств статистических моделей, основанных на методе группового учёта аргументов [5]. Идея метода заключается в построении последовательности моделей

(10)

Ранее не используемая в моделях у, / = 1, J -1 компонента хі вектора аргументов х обеспечивает в наборе с УJ_1 минимальное расхождение значений УJ с экспериментальными данными. На каждом этапе процедуры (10) искомая зависимость оценивается в пространстве двух переменных (хі, уі-1).

Анализ результатов вычислительных экспериментов. На основании данных вычислительных экс-

каждый аргумент которого принимает значения из

интервала ху е [0; 1], V = 1,5 с равномерным законом

распределения. Частичные сведения о восстанавливаемой зависимости в соответствии с условиями теоремы определяются линейным полиномом

у1 = х3 + 0,5х4 + 2х5.

При формировании обучающей выборки V = (х1, V = 1,5, у',' = 1, п) на значения функции (12) накладывалась аддитивная помеха

у' =у(х)(1 + 2(в' -0,5)) , (13)

где в - случайная величина с равномерным законом в диапазоне [0; 1]; г - параметр, определяющий уровень шума.

При синтезе непараметрических моделей (2), (11) использовалась ядерная функция Епанечникова, а их оптимизация по коэффициентам размытости осуществлялась в режиме «скользящего экзамена» из условия минимума среднеквадратического критерия. При этом полагалось, что значения коэффициентов размытости су = с, V = 1,5 для непараметрической регрессии и с = с , V = 1,2 - для модели (2), так как интервалы изменения аргументов восстанавливаемой зависимости априори одинаковые. В качестве критерия эффективности моделей (2), (11) принимались среднеквадратические отклонения Щ2, Жи их значений от функции (12), которые оценивались по контрольной выборке Vk объёма пк = 10 000. При этом ситуации из выборки Vk, в которых исследуемые непараметрические модели не идентифицируют значения функции (12), не участвуют в формировании критериев их эффективности. Доля таких ситуаций не превышает значений 0,06 от объёма контрольной выборки.

Вычислительные эксперименты при фиксированных условиях исследования осуществлялись 60 раз. По полученным результатам восстанавливались плотности вероятности р) р(Щ) оценок среднеквадратических отклонений Щ2, Щ1 соответственно моделей (2), (11) (см. рисунок).

і=1

у=1

і=1 у=1

V

V=1

у

у=1

0.03 0.11 0.19 0.27 0.35 0.43 0.51 0.02 0.06 0.1 0.14

а б

Оценки плотностей вероятностей р(Щ) , р(Щ) среднеквадратических отклонений модифицированной непараметрической модели у (кривая 1) и непараметрической регрессии у (кривая 2). Условия эксперимента: объём обучающей выборки п = 50 (а), п = 200 (б); уровень шума в процедуре (13) г = 0,1

Анализ данных вычислительных экспериментов показывает, что статистические оценки законов распределения значений критериев эффективности Щ, Щ достоверно отличаются при различных объёмах обучающих выборок, причём интервалы изменения среднеквадратического критерия Щ непараметрической регрессии (11) характеризуются большими их значениями по сравнению с модифицированной регрессией (2). С ростом объёма обучающей выборки преимущество моделей (2) возрастает. Например, отношение Я = Щц/Щ средних значений Щ2, Щ соответствует 2, 3 при п = 50 и 3 при п = 200 .

Эффективность модифицированной непараметрической модели (2) объясняется возможностью снижения её размерности за счёт использования априорных сведений о наличии линейной взаимосвязи между переменными исследуемой зависимости. Данное заключение согласуется с результатами исследования гибридных моделей стохастических зависимостей [1].

Традиционная непараметрическая регрессия, основанная на оценке плотности вероятности типа Ро-зенблатта-Парзена, обобщена при построении статистических моделей в условиях наличия частичных сведений о виде восстанавливаемых зависимостей. Предлагаемая модифицированная непараметрическая

регрессия обладает свойством асимптотической несмещённости. Это позволяет аналитически обосновать возможность частичного сжатия пространства признаков на основе линейных преобразований без существенной потери полезной информации.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Перспективное направление дальнейших исследований состоит в развитии предлагаемого подхода на анализ свойств статистических моделей, основанных на методе группового учёта аргументов.

Библиографические ссылки

1. Лапко А. В., Лапко В. А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.

2. Лапко В. А. Синтез и анализ гибридных моделей стохастических зависимостей в условиях наличия их частного описания // Автометрия. 2004. № 1. С. 51-59.

3. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.

4. Надарая Э. А. Непараметрические оценки кривой регрессии // Тр. ВЦ АН ГССР. 1965. Вып. 5. С. 56-68.

5. Ивахненко А. Г. Непараметрический комбинированный алгоритм МГУА на операторах поиска аналогов // Автоматика. 1990. № 5. С. 14-27.

A. V. Lapko, V. A. Lapko

NONPARAMETRIC REGRESSION IN THE CONDITIONS OF PARTIAL DATA ON A MODE OF RESTORED LEGITIMACIES

The nonparametric model of stochastic dependence which provides for registration of a priori data on a mode of restored legitimacies is offered. Its asymptotic properties are researched.

Keywords: nonparametric regression, stochastic dependences, a priori data, asymptotic properties.

© Лапко А. В., Лапко В. А., 2011

i Надоели баннеры? Вы всегда можете отключить рекламу.