Научная статья на тему 'Об ансамблевом алгоритме последовательного обучения непараметрических оценок Надарая-Ватсона'

Об ансамблевом алгоритме последовательного обучения непараметрических оценок Надарая-Ватсона Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
135
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВОССТАНОВЛЕНИЕ РЕГРЕССИИ / АНСАМБЛЕВОЕ ОБУЧЕНИЕ / НЕПАРАМЕТРИЧЕСКАЯ ОЦЕНКА НАДАРАЯ-ВАТСОНА / ПАРАМЕТР РАЗМЫТОСТИ / REGRESSION / ENSEMBLE LEARNING / NADARAYA-WATSON ESTIMATOR / BANDWIDTH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мангалова Е.С.

Предложен алгоритм формирования ансамбля непараметрических оценок Надарая-Ватсона, основанный на принципе последовательного обучения моделей. Формализована процедура обучения ансамбля. Проведены численные исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT BOOSTED LEARNING OF NADARAYA-WATSON ESTIMATORS

The ensemble learning method proposed by the author is based on boosted learning of nonparametric Nadaraya-Watson estimators. There is a formalized algorithm of ensemble building. Algorithm is validated on the test tasks.

Текст научной работы на тему «Об ансамблевом алгоритме последовательного обучения непараметрических оценок Надарая-Ватсона»

Математические методы моделирования, управления и анализа данных.

УДК 519.6

ОБ АНСАМБЛЕВОМ АЛГОРИТМЕ ПОСЛЕДОВАТЕЛЬНОГО ОБУЧЕНИЯ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК НАДАРАЯ-ВАТСОНА

Е. С. Мангалова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: e.s.mangalova@hotmail.com

Предложен алгоритм формирования ансамбля непараметрических оценок Надарая-Ватсона, основанный на принципе последовательного обучения моделей. Формализована процедура обучения ансамбля. Проведены численные исследования.

Ключевые слова: восстановление регрессии, ансамблевое обучение, непараметрическая оценка Надарая-Ватсона, параметр размытости.

ABOUT BOOSTED LEARNING OF NADARAYA-WATSON ESTIMATORS

E. S. Mangalova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: e.s.mangalova@hotmail.com

The ensemble learning method proposed by the author is based on boosted learning of nonparametric Nadaraya-Watson estimators. There is a formalized algorithm of ensemble building. Algorithm is validated on the test tasks.

Keywords: regression, ensemble learning, Nadaraya-Watson estimator, bandwidth.

Введение. На сегодняшний день существует широкий спектр методов восстановления регрессии: от традиционных методов статистического анализа до современных алгоритмов машинного обучения [1]. В последние годы большую популярность получило построение ансамблей моделей [2]. Универсальность и эффективность ансамблевых методов восстановления регрессии позволяют применять их как для различных технических систем (в том числе и в ракетно-космической отрасли), так и в медицине, экономике и других областях науки и практики. Объединение нескольких моделей позволяет устранять те или иные недостатки моделей разных классов. В данной работе предложен алгоритм построения ансамбля непараметрических оценок Надарая-Ватсона [3], позволяющий получать более точные оценки в разреженных подобластях пространства входных переменных и на его границах, чем при построении единственной непараметрической оценки.

Постановка задачи. Пусть имеется множество наблюдений:

С = {{g2, ..., Яп}.

Каждое наблюдение характеризуется набором переменных:

^ = {{,х2,..., хТ,л},

где х1, х2, ..., хТ - независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной у. Требуется восстановить зависимость между независимыми

входными переменными х1, х2, ..., хТ и выходной переменной у.

При подобных постановках задачи одним из распространенных методов [4] восстановления зависимости между входом и выходом является непараметрическая оценка регрессии Надарая-Ватсона:

n m ( X ПК i =1 j=1 V V - xj

cj

nm X Пк i=1 j=1 ( xj - xj

I c

где К - ядерная функция; с - вектор параметров размытости.

Из-за особенностей распределения наблюдений в пространстве входных признаков может возникнуть следующая проблема: минимальные параметры размытости с, необходимые для того, чтобы оценка (1) существовала во всех точках пространства признаков, могут быть слишком большими и приводить к сильному сглаживанию в областях, где плотность наблюдений высока. Это чрезмерное сглаживание в областях с большим количеством наблюдений негативно влияет на точность оценки (1) в этих областях.

Другой недостаток оценки (1) связан с уменьшением точности на границах пространства входных переменных [5].

Объединение непараметрических оценок Надарая-Ватсона в ансамбль последовательного обучения позволяет устранять эти недостатки [6].

<Тешетневс^ие чтения. 2016

Алгоритм последовательного обучения непараметрических оценок Надарая-Ватсона. Идея построения ансамбля непараметрических оценок состоит в последовательном улучшении некоторой начальной (базовой) оценки регрессии Надарая-Ватсона за счет последовательного добавления непараметрических оценок невязок текущего ансамбля.

Ансамблем нулевого уровня Н0( х ) является непараметрическая оценка

Hо(x) =

n m / х п* i=1 j=1 v V — xj

cj

nm х п* i=1 j=1 f xj — xj

V c0

где с0 - вектор параметров размытости.

Каждая последующая непараметрическая оценка дополняет текущий ансамбль Нг-1( х ), минимизируя невязку между выходом объекта у и выходом текущего ансамбля Нг-1( х ):

Hq (X) = Hq ч( X) +

хп *

i=1 j =1

xj — xj "

cJ

q у

f

m п* x

j=1 v

0,

{i - Hq—1 (Xi ))

v q у

хп*

i=1 j=1

хп *

i=1 j=1

j

v q у

> о,

q = 1, 2, ..., Q.

j

v q у

= о,

Оптимизация параметров размытости на каждом шаге вычислительно затратна, поэтому была предложена процедура последовательного пересчета параметров размытости. На каждом шаге один из параметров размытости уменьшается в Ь раз (0 < Ь < 1).

Процесс добавления моделей в ансамбль продолжается до тех пор, пока добавление модели уменьшает ошибку, вычисленную по валидационным выборкам (предлагается использование кратной кросс-валидации). На первых итерациях (при больших параметрах размытости) алгоритм восстанавливает зависимость в разреженных областях. Начиная с некоторого шага, ядро непараметрической оценки в точках разреженных областей перестает захватывать какие-либо из имеющихся наблюдений, процесс формирования ансамбля для таких областей автоматически прекращается, начинается уточнение оценки в областях с достаточным количеством наблюдений.

Численные исследования показали эффективность предложенного алгоритма последовательного обучения ансамбля непараметрических оценок Надарая-Ватсона. В ходе решения тестовых задач восстановления регрессии было показано, что точность ансамбля непараметрических оценок Надарая-Ватсона превосходит единственную оценку как в разреженных областях пространства входных переменных, так и в областях с большим количеством наблюдений. Также продемонстрирована высокая эффективность предложенного ансамбля при оценке вблизи границ области входных переменных, а также в некоторой окрестности за ними. Для многомерных задач (с уменьшением соотношения «количество наблюдений / количество признаков») разница в точности между ансамблем последовательного обучения и единственной оценкой на границах и в разреженных областях становится более значительной.

Библиографические ссылки

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition, 2009. 312 р.

2. Polikar R. Ensemble Based Systems in Decision Making // IEEE Circuits and Systems Magazine, third quarter. 2006. P. 21-45.

3. Надарая Э. А. Непараметрические оценки плотности вероятности и кривой регрессии. Тбилиси : Изд-во Тбил. ун-та, 1983. 194 с.

4. Медведев А. В. Анализ данных в задаче идентификации // Компьютерный анализ данных моделирования. Минск : Изд-во Белорус. гос. ун-та. 1995. Т. 2. С. 201-206.

5. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993. 349 с.

6. Schapire R. E. The strength of weak learnability // Machine Learning. 1990. Vol. 5, No. 2. Pp. 197-227.

References

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition, 2009. 312 р.

2. Polikar R. Ensemble Based Systems in Decision Making. IEEE Circuits and Systems Magazine, third quarter 2006. P. 21-45.

3. Nadaraya E. A. Neparametricheskie ocenki plotnosti veroyatnosti i krivoj regressii [Non-parametric estimation of the probability density and the regression curve]. Tbilisi, izd, Tbil. un-ta, 1983. 194 p.

4. Medvedev A. V. Analiz dannih v zadache identifikacii [Data analysis in the identification problem]. Minsk, BGU. 1995. Vol. 2, pp. 201-206. (In Russ.)

5. Hardle W. Prikladnaya neperametricheskaya regre-ssiya [Applied nonparametric regression]. Mir, 1993. 349 p.

6. Schapire R. E. The strength of weak learnability. Machine Learning. 1990. Vol. 5, No. 2, pp. 197-227.

© Мангалова Е. С., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.