Научная статья на тему 'Коллектив непараметрических регрессий, основанный на декомпозиции обучающей выборки'

Коллектив непараметрических регрессий, основанный на декомпозиции обучающей выборки Текст научной статьи по специальности «Математика»

CC BY
83
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ / БОЛЬШИЕ ВЫБОРКИ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / ПРИНЦИПЫ ДЕКОМПОЗИЦИИ / КОЛЛЕКТИВНОЕ ОЦЕНИВАНИЕ / ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ / NONPARAMETRIC REGRESSION / THE BIG SAMPLES / ASYMPTOTIC PROPERTIES / PRINCIPLES OF DECOMPOSITION / COLLECTIVE ESTIMATIONS / PARALLEL COMPUTING TECHNOLOGIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Варочкин Сергей Сергеевич

Предложена методика синтеза и анализа коллектива непараметрических регрессий, обеспечивающего высокую вычислительную эффективность решения задач восстановления стохастических зависимостей за счет использования технологии параллельных вычислений. Исследованы асимптотические свойства этого коллектива, приведены результаты их сравнения со свойствами традиционной непараметрической регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Варочкин Сергей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COLLECTIVE OF NONPARAMETRIC REGRESSIONS BASED ON DECOMPOSITION OF TRAINING SAMPLE

The technique of synthesis and the analysis of collective nonparametric regresses providing high computing efficiency of the decision of problems of restoration of stochastic dependences due to use of technology of parallel calculations is offered. Asymptotic properties of collective are researched, its comparison with traditional nonparametric regression is made.

Текст научной работы на тему «Коллектив непараметрических регрессий, основанный на декомпозиции обучающей выборки»

УДК 519.7

А. В. Лапко, В. А. Лапко, С. С. Варочкин

КОЛЛЕКТИВ НЕПАРАМЕТРИЧЕСКИХ РЕГРЕССИЙ, ОСНОВАННЫЙ НА ДЕКОМПОЗИЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ

Предложена методика синтеза и анализа коллектива непараметрических регрессий, обеспечивающего высокую вычислительную эффективность решения задач восстановления стохастических зависимостей за счет использования технологии параллельных вычислений. Исследованы асимптотические свойства этого коллектива, приведены результаты их сравнения со свойствами традиционной непараметрической регрессии.

Ключевые слова: непараметрическая регрессия, большие выборки, асимптотические свойства, принципы декомпозиции, коллективное оценивание, параллельные вычислительные технологии.

Использование непараметрических моделей и алгоритмов, основанных на оценках плотности вероятности типа Розенблатта-Парзена, является одним из активно развивающихся направлений теории обучающихся систем. Эти модели и алгоритмы позволяют создавать типовые информационные средства, адаптируемые к условиям функционирования объектов различной природы. Однако при увеличении объема обучающей выборки вычислительная эффективность непараметрических статистик снижается. Подобные ситуации часто встречаются, например, при обработке больших массивов аэрокосмической информации. В этих условиях использование традиционных непараметрических моделей приводит к значительным временным затратам на формирование решений, в связи с чем возникает необходимость в разработке методики синтеза и анализа коллектива непараметрических регрессий, основанного на декомпозиции обучающих выборок по их объему.

Синтез коллектива непараметрических регрессий. Пусть V = (х', у', ' = 1, п) - выборка, составленная из п независимых наблюдений случайных величин х = ( ху, V = 1, к) и у, распределенных с неизвестными плотностями вероятностир(х,у) ир(х) > 0. Вид однозначной стохастической зависимости

у = ф(x1,..., хк ) (1)

априори не задан.

Разобьем выборку V на Т групп наблюдений Vj = (х', у', ' е 1] ) , ] = 1, Т . Здесь I. - множество номеров наблюдений переменных (х, у), составляющих ]-ю

Т ___

группу, причем и 1] = I = (' = 1, п) .

]=1

На основании каждой выборки V. осуществим синтез непараметрической регрессии [1]:

X у' Пф

'

х - х

у] = ф ](х Н

ХПФ

'

х - х

] = 1, Т , (2)

где Ф(и) - ядерные функции, удовлетворяющие условиям Н: ф(и) = ф(-и), 0 <ф(и)<¥,

|ф(м= 1, |и2 Ф(и)й?и = 1,

|ит ф(и)du <¥, 0 <т <¥;

Су(/'), V = 1, к - коэффициенты размытости ядерных функций, значения которых убывают с ростом количества элементов п. множеств I, ] = 1, Т. Здесь и далее бесконечные пределы интегрирования опускаются.

Рассмотрим ряд модификаций статистической оценки зависимости (1): _ _

- среднее значение у. = ф] (х) , ] = 1, Т . В качестве приближения у = ф(х) по статистической выборке V используется статистика

= _ 1 Т _

у = ф(х) = ТХф](х).

1 ]=1

(3)

Оптимизация частных непараметрических регрессий (2) по коэффициентам размытости сп, V = 1, к, ядерных функций осуществляется в режиме «скользящего экзамена» исходя из условия минимума статистической оценки точности аппроксимации зависимости (1)

Ж=1X (у -ф (х' ))2.

п] 'е1] — I ' л

При формировании слагаемых Ж] ситуация (х‘, у')

исключается из процесса обучения в выражении непараметрической регрессии (2); _ ___

- средневзвешенное значение у], ] = 1, Т. В этом случае обобщенная модель искомой зависимости формируется в соответствии с выражением

_ Т —

у=Ха ] ф ](х),

]=1

где а = -

Ж

Хж-

- весовые коэффициенты частных непа-

= 1, Т

сумма кото-

раметрических регрессий ф] рых равна единице;

- оценивание наиболее вероятного значения искомой зависимости. Будем полагать, что значение Тдостаточно для оценивания по выборке у „ ] = 1, Т, плотности вероятности частных решений р (у) при конкретном значении х. Для этого используем непараметрическую оценку плотности вероятности типа Розенблатта-Парзена [2]:

(~ ~ \

р (у )=ТС хф

у - у.

(4)

Выбор оптимального параметра с статистики (4) осуществляется по условию максимума функции правдоподобия

'=1

Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева

1 (с) = Пр(у )•

”=1 ' ’

в соответствии со ста-

При вычислении значений р (у ) тистикой (4) полагаем ' Ф ].

Наиболее вероятное значение у находим по условию

у = а^тах р

(у }■

І=1

где ф(') = М —0 ; М- знак математического ожидания.

Проведем в интеграле замену переменных (х -') с-1 = и и, разлагая функции ф(х - си), р(х - си) в ряд Тейлора в точке х, с учетом свойств ядерной функции Ф(и) получим

Ж1 = М

Здесь

(ф(х }-ф(х}}~ А1 (х }>

<Т ¿с2+а2 (х }т ¿с4 •

1 І=1 1 І=1

(5)

( т

=-т М Т2

М (ф(х )-ф(х }} =

Х(ф(х )-ф і (х }}2 +

І=1

Й(ф(х}- Ф і (х}) (ф(х}- ф»(х})

І=1 ¿=1 V

(6)

С учетом результатов исследования асимптотических свойств традиционной непараметрической регрессии, пренебрегая величинами малости с] /п. , с2с,4, ] = 1, Т, ' = 1, Т, приведем выражение (6) при достаточно больших значениях п, ] = 1, Т, к виду

М

используя численные методы поиска экстремума - максимума оценки плотности вероятности р (у) .

Асимптотические свойства коллектива нетараметричес-ких регрессий. Без существенной потери общности рассмотрим асимптотические свойства статистики (3) для случая, когда х - скаляр и вид плотности вероятности р(х) известен. В этих условиях справедливо следующее утверждение.

Теорема. Пусть ф(х), р(х, у), р(х) Ф 0 и первые их производные ограничены и непрерывны; ядерные функции Ф(и)е Н; последовательности с] = с(п) коэффициентов размытости ядерных функций таковы, что при п. ® ¥ значения с(п) ® 0, а значения пс. ® ¥, ] = 1, Т . Тогда при конечных значениях Т коллектив непараметрических регрессий (3) обладает свойством асимптотической несмещенности и состоятельности.

Д о к а з а т е л ь с т в о. По определению имеем

М (ф(х )) = Т X М (ф ](х )) =

= Т X (с-1 р(х))1 1ф(' )ф^ ^ 1 р(' )d',

(ф(х )-ф(х }}

^||Ф(м }||2 Ф2 (х} + с4

І=1

л л

пісі<

р(х}

Т Т

(А- (х ))'Ц

(А1 (х}}2

2 2 с А

І=1 1=1 і * І

(7)

Нетрудно заметить, что при выполнении условий с(п]) ® 0 и п.с.® ¥ при п.® ¥, ] = 1, Т, коллектив непараметрических регрессий (3) сходится в среднеквадратическом отклонении, а с учетом свойств асимптотической несмещенности является состоятельным.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сравнение аппроксимационных свойств коллектива непараметрических регрессий и традиционной непараметрической регрессии. Рассмотрим соотношения между асимптотическими смещениями, среднеквадратическими отклонениями и дисперсиями непараметрической регрессии у = ф(х) и у = ф(х) при оптимальных значениях коэффициента размытости ядерных функций.

Асимптотическое выражение смещения для непараметрической регрессии при х е К1

-1 п

у=у (х) = (пср (х)) X у”'Ф

(8)

А‘ (х ) = (ф (х) Р (х ))СТ / (2 Р (х)) >

А2 (х) = р(2) (х)ф(2) (х}|и4ф(и'')йиI(4р(х)),

где р(2)(х), ф(2)(х) - вторые производные по х соответствующих функций.

Отсюда при выполнении условий с(п) ® 0 и п.® ¥ следует свойство асимптотической несмещенности статистики (3). _ _

Для доказательства состоятельности оценки У = ф(х) вычислим ее дисперсию:

Б(ф(х))= м(ф(х)-ф(х)) -(м(ф(х)-ф(х)} .

Исследуем асимптотические свойства среднеквадратического отклонения:

'=1 V с

имеет вид [3]

Ж2 = М(ф(х)-ф(х)) ~ с2Л1 (х) + с4Л2 (х) ,

а для обобщенной непараметрической регрессии (3) определяется выражением (5).

Оптимальное значение с* статистики (8), минимизирующее асимптотическое выражение среднеквадратического отклонения

|м(ф(х)-ф(х)) dx , (9)

определяется по формуле

^||ф(и)|| |ф2 (х)р(х)dx^

п| (Л1 (х)) dx

где ||ф(и)|| =|ф2 (и)du .

Для получения аналитически значимых результатов

примем

= п/Т , і = 1, Т • В

этом случае оптимальные

значения с (п. ) = с (п/Т) = с частных непараметрических регрессий ф] (х), ] = 1, Т, в смысле минимума критерия типа (9) имеют вид с = сТ1/5.

Нетрудно показать, что при оптимальных значениях коэффициентов размытости разность между Ж и Ж2 дана выражением

Д Ж21 = Ж2 - Ж = (с* )2 (1 - Т2/5) X х Л1 (х) + Л2 (х)(с*)2 (1 + Т2/5)".

Знак ДЖ21 определяется разностью (1 - Т2 5) < 0 при Т > 1, т. е. умещение обобщенной непараметрической регрессии ф(х) больше, чем ф(х).

Как и следовало ожидать, при Т = 1 асимптотические смещения ф(х) и ф(х) одинаковы.

При разбиении исходной выборки на Т групп точек одинакового объема п / Т асимптотическое выражение критерия

Ж3 =|-М(ф(х)-ф(х)) ёх

при оптимальных коэффициентах с ядерных функций преобразуется к виду

W3

Il 1|2 J*

|ф(м)|| I ф2 (x) p(x)dx

<|(A1 (x)) dx 1 + T2

(10)

= w4

1 + T2

Тогда

1 + T2 W =--------------------W

"3 2T 6/5 4-

WL = 2T6/5 < 1 W3 = 1 + T2 ;

(11)

В этом нетрудно убедиться, если сравнить их главные дисперсионные составляющие в асимптотическом выражении критерия (9) при оптимальных коэффициентах раз-

мытости в W, и значение W5 =

6 5

T 6/5

в соответствующем

Т 0/5 ч Т 0/5

При этом связано с асимптотическим выражением критерия (9) для традиционной непараметрической регрессии соотношением

что подтверждает несколько большую эффективность в среднеквадратическом отклонении непараметрической регрессии (8) по сравнению с коллективом (3), например при Т = 2 отношение (11) равно 0,92, а при Т = 3 - 0,75.

Вместе с тем дисперсия статистики (8) больше, чем дисперсия коллектива непараметрических регрессий (3).

выражении критерия (7). Их отношение

= т6/5 > 1, "Т > 1.

W5

Как и следовало ожидать, коллектив непараметрических регрессий (3) характеризуется меньшей дисперсией по сравнению со статистикой (8).

Коллектив непараметрических регрессий, основанный на декомпозиции обучающей выборки по объему, обеспечивает возможность использования технологии параллельных вычислений при восстановлении многомерных стохастических зависимостей. Установлено, что этот коллектив имеет асимптотические свойства, а его дисперсия значительно меньше дисперсии традиционной непараметрической регрессии.

Библиографический список

1. Надарая, Э.А. Непараметрические оценки кривой регрессии / Э. А. Надарая // Тр. ВЦ АН ГССР, 1965. Вып. 5. С. 56-68.

2. Parzen, E. On estimation of a probability density function and mode / E. Parzen // Ann. Math. Statistic. 1962. Vol. 33. Р 1065-1076.

3. Лапко, А. В. Имитационные модели неопределенных систем / А.В. Лапко. Новосибирск : Наука, Сиб. отд-ние, 1993.

A. V. Lapko, V A. Lapko, S. S. Varochkin

COLLECTIVE OF NONPARAMETRIC REGRESSIONS BASED ON DECOMPOSITION OF TRAINING SAMPLE

The technique ofsynthesis and the analysis of collective nonparametric regresses providing high computing efficiency of the decision ofproblems of restoration of stochastic dependences due to use of technology ofparallel calculations is offered. Asymptotic properties of collective are researched, its comparison with traditional nonparametric regression is made.

Keywords: nonparametric regression, the big samples, asymptotic properties, principles of decomposition, collective estimations, parallel computing technologies.

i Надоели баннеры? Вы всегда можете отключить рекламу.