УДК 519.688
О.В. Красоткина, канд. физ.-мат. наук, доц., [email protected] (Россия, Тула, ТулГУ),
Т.Ч. Нгуен, асп., падуе п^о тшНпЬ75 12 @у ahoo.com.vn (Россия, Тула, ТулГУ),
В.В. Моттль, д-р техн. наук, проф., [email protected] (Россия, Москва, Вычислительный центр РАН)
МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ С РЕГУЛИРУЕМОЙ СЕЛЕКТИВНОСТЬЮ ДЛЯ ОТБОРА ПРИЗНАКОВ В ЗАДАЧЕ ОЦЕНИВАНИЯ ЗАВИСИМОСТЕЙ ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ
Рассматривается статистический подход к постановке задачи оценивания регрессионной зависимости в случае наличия малого числа наблюдений и богатого признакового описания. Для отбора существенных признаков в задаче оценивания регрессионной зависимости предлагается вероятностная модель, в которой отбором существенных регрессоров управляет единственный структурный параметр. Приводятся результаты экспериментального исследования предложенного алгоритма в сравнении с известными методами отбора признаков в задаче оценивания регрессионной зависимостей Lasso и Elastic Net.
Ключевые слова: оценивание зависимостей, линейная регрессия, сокращение признакового описания, байесовский подход, отбор признаков, принцип максимального правдоподобия.
Введение
Задача оценивания зависимостей по эмпирическим данным является одной из наиболее трудных в современной информатике. Пусть шей -множество объектов произвольной природы, которые характеризуются некоторой зависимой (скрытой) переменной y е Y. Как правило функция
y (ю) : Q ^ Y известна только для некоторого ограниченного набора объек-
число наблюдений.
Требуется продлить функцию на все множество, чтобы иметь возможность оценивать значения зависимой переменной для других объектов
исходная задача представляет собой задачу оценивания регрессионной зависимости.
Естественно, что компьютер не может непосредственно воспринимать физические объекты. Поэтому всегда необходима некоторая формальная переменная x(ю): О ^ X, выступающая как посредник
тов, называемого обучающей совокупностью
где N -
ю ^ О \ О . Предметом рассмотрения данной работы является случай, когда выходная переменная является действительно-значной ,€(ю): О ^ R и
между компьютером и природой, называемая признаком. Наиболее простым предположением является понимание признаковых представлений объектов как последовательностей действительных чисел x(ra)=(хх(ю),...,xn(ю))eRn, где n - число признаков. Именно этот случай является предметом рассмотрения данной работы.
Чем больше существует разных признаков, тем шире круг свойств объектов, учитываемых в регрессионной модели. Но если число признаков очень велико, то такая сложная модель теряет обобщающую способность, что приводит к необходимости сокращения исходного признакового описания.
В литературе принято разделять все методы отбора признаков на фильтры и встроенные методы. Фильтры применяются на множестве всех признаков до восстановления зависимости, независимо от используемого метода восстановления. Встроенные методы отбора признаков непосредственно инкорпорируются в метод решения задачи и, следовательно, существенно зависят от его специфики.
В данной работе используется байесовский подход к восстановлению зависимостей в эмпирических данных, а искомая зависимость выбирается в классе линейных. Метод отбора признаков, рассматриваемый в данной работе, относится к классу встроенных методов. Предлагается использовать в качестве априорных распределений коэффициентов регрессии параметрические распределения, общий структурный параметр которых обладает способностью подавлять значения коэффициентов регрессии, ограничивая число признаков, участвующих в модели.
Селективность, являясь структурным параметром алгоритма обучения, влияет на сложность обучаемой модели и тем самым представляет собой инструмент борьбы с переобучением с целью повышения обобщающей способности при восстановлении зависимостей в признаковых пространствах большой размерности. Выбрать подходящий уровень селективности можно одним из стандартных методов, например, по контрольной выборке или с помощью процедуры скользящего контроля.
Результаты экспериментального исследования на модельных и реальных данных наглядно демонстрируют адекватность механизма регулируемой селективности при восстановлении зависимостей в признаковых пространствах большой размерности по сравнению с другими современными встроенными методами отбора признаков - Lasso [2] и Elastic Net [3].
Вероятностная постановка задачи оценивания линейной регрессионной зависимости
Переобозначим обучающую совокупности следующим образом:
( X ,Y ) = {xj jxnj, yj, j = 1,..., N }; x.. = xt (ш j ), yj = y (ш j ). Будем предп°ла-
гать, что элементы обучающей совокупности выбраны независимо, а зависимая переменная получается как линейная функция
У^ (ю) = Iп= С}Х}(ю) + £, наблюдаемых значений признаков с неизвестными регрессионными коэффициентами c = (с15...,сп) е Rn. Здесь - шум с нулевым средним и дисперсией р.
Таким образом, зависимая переменная будет иметь следующее распределение в пространстве R
ф(У] \ с,x Р) =-/=exP V2np
-(yі -S”=iсл) /2р
Совместное условное распределение наблюдаемой обучающей со-
N
вокупности будет иметь вид Ф (Y | X, Cj,..., cn, р) = П^( У] I С’ Х, р)' Искомый
j=1
вектор регрессионных коэффициентов будем рассматривать, в свою очередь, как случайный, имеющий распределение с априорной плотностью W(cx,..,cn | ц), управляемой единственным структурным параметром Ц.
Для нашей обучающей совокупности апостериорная совместная плотность распределения регрессионных коэффициентов имеет вид
Р ^ 1 X ,Y , Ц P) « W (cl,''', Cn 1 Ц) Ф(Y 1 X , cn, P).
Для оценивания коэффициентов регрессии будем использовать метод максимального правдоподобия
(C1,..., €n ) = arg max[ln W( C1,..., cn 1 Ц) + ln Ф(Y 1 X, C1,..., cn , р)],
который приводит к следующему критерию обучения:
-ln W(C„...,Cn1ц) + 2^yj -XhC,Xj)2 ^ min . (1)
Причем в качестве априорной плотности распределения компонент C рассматривается нормальное распределение с нулевыми математическим ожиданием и дисперсией рг:
v(c- 1 r, р) = (1/2прг)1/2 exp [-Cf / (2рг) ].
В этом случае, совместное распределение коэффициентов регрессии имеет вид
/ 4-1/2 г
W(cCn 1 rl,''', rn, р) i=1 РГ ) eXP [-Xi=1 C"/(2РГ )
Кроме того, будем предполагать, что и сами величины, обратные дисперсиям, имеют априорное гамма-распределение у(1/r | а,в)«
(1/rt )a-1exp(-p/r). Тогда совместная априорная плотность распределения дисперсий 1/г. примет вид
П
G (V гп \а Р)=П [ (1/ г )а-1 ехР(- Р/ Г )
,=1
Принцип максимизации совместной апостериорной плотности
Р(с1,..., СП , г1,..., Г \ ^1,..., уы , а, Р, р) К
Ф( У1,-, Ум \ C1,•••, Сп , Р) ¥ Сп \ Г1>-> Гп , P)G ( П— Гп \ ^ Р)
приводит к следующему критерию обучения:
з (сР..., сп, г1,..., г, \а, р, р) = 2- X м ( уу - £ П=1 С1%ц)2 + 2 X +
2р 1 -1 ,=1 2 *=7 рг
м г=1 мг (2)
1 П П П
+ ТI1пГ +(а- 1)Х1пГ + РХ1/Г н ( ).
2 ^ 1=1 7=1 (с1’...’сп’г1’...’гп )
Такой критерий будем называть моделью линейной регрессии с регулируемой селективностью.
Попытки создания встроенных методов отбора признаков в задаче оценивания регрессионной зависимости с помощью выбора специфической формы априорного распределения коэффициентов регрессии встречались в литературе и ранее. Например, если априорная плотность распределения коэффициентов регрессии по формуле (1) - это совместное
распределение Лапласа ¥(с1,...,сп \ ц) = ¥(с1,...,сп) к П”_1ехр(-\ с1 \), то получим следующий критерий оценивания коэффициентов регрессии:
ХМ=1(У1 -IП=1 с,*,, )2 + 2р£>, Н .
•> с1 ,•• • ,С;
В литературе такой критерий называется моделью Lasso [2]. А если априорная плотность распределения коэффициентов регрессии по формуле
(1) имеет вид /(С | exp{-(С2 + р С )}, то получим следующий крите-
рии:
В литературе такой критерий называется моделью Elastic Net [3].
Модель регулируемой селективности отбора признаков в задаче оценки регрессии
Будем минимизировать критерий (2) методом Гаусса-Зайделя. Для этого найдем частные производные целевой функции
J (Cj,..., cn, rj,..., rn | a, P, p) по переменным ( c, r) = ( c15..., cn, rp..., rn).
Построим итерационный алгоритм минимизации критерия по принципу Гаусса-Зайделя. Пусть (ck, rk) — очередное приближение к точке минимума. Найдем очередное приближение (ck+1, rk+1) как
n
к+1
r = arg mm
к \ 2
I £ С )
■ +
2 /=1 p';-
і Л n n
+ a-1 l£ln r + e£V r
, ; = 1,..., n,
к+1
c = arg mm
У 7=1 7=1
1 ^ ^; , 1 - ^ +1
— / (У - / сх ) +---------c R '
2р ,=Л 1 ^'=1 17 2 р
где Rк+1 = diag(гк+1) - диагональная матрица, на главной диагонали кото-
~ 1 / к+1 рой стоят элементы вектора 1 / г .
Найдя частные производные по г и c , получим:
r=
тае x = (x jxnj).
..к+1 (cf )2 + 2рв _к+1
(2a - 1)p
c=
N
X Л T | ть к
£ x x + R
j j
j=1
N
£ УЛ-
j = j
Пошагово рассмотрим алгоритм для построения модели регулируемой селективности.
Шаг 1. Задаемся начальными приближениями ^0 = 1, 7 = 1,...,; .
Шаг 2. Вычисляем c0 =
N
£xtx t +I
t=1
N
£ ytxt, где I - единичная
t=1
матрица.
Шаг 3. Далее вычисляем очередные приближения (ек+1, гк+1) по формулам
„к+1 = (c; ) + 2pP c к+1
(2a - 1)p
N
£ x . x T + R
jj
j=1
к+1
N
£ y
x .
jj
j = j
Шаг 4. Если |ck+1 — ck| < s, выйти, иначе перейти к шагу 3.
Выберем параметры а ив следующим образом: а = 1 +1/(2р) и
в=V ( 2р) , тогда E(1/ r) = (2р +1) и E(1/r2) = (2р + 1)2р. Параметр 0 < р < да выполняет роль параметра регулируемой селективности. Если р ^ 0, E(1/r) = 1, а E(1/r2) = 0 ^ 1/r = ...= 1/rn = 1. Если р^-да, E(1/ r) = даи
E (1/ r2) = да но (( E(1 r,2)/E(1 r; )) = р)^да. Это означает, что при увеличении р, дисперсии могут существенно различаться, так как дисперсии увеличиваются быстрее, чем математические ожидания. Обычно алгоритм сходится за 10-15 итераций. Значения параметров р, р могут быть подобраны с помощью процедуры скользящего контроля (один из стандартных методов).
1
1
1111111 - а ♦ Еэ1:1та!ес1 уа!ие а Тгиеуа1ие
- а
- а
-
— Я в В 9 ВфНВВВВВВфВвВВВ ВВВЩВВВВВВВВИВО 1111111 1 1 В В В | В В | V 1 н- 1 1
.д 5________________________________________I____________________________________I___________________________________I____________________________________I___________________________________I___________________________________I____________________________________I___________________________________I____________________________________I___________________________________
' 0 5 10 15 20 25 30 35 40 45 50
Рис.1. Отбор признаков задачи с 49 признаками, имеющими стандартные Гауссовские распределения, 100 объектами и значением
целевой переменной
Экспериментальное исследование предложенного алгоритма на модельных данных. Для наглядной иллюстрации работоспособности алгоритма рассмотрим модельную задачу линейной регрессии с 49 признаками, 100 объектами и значением целевой переменной
у = х2 + 3х6 + 2х22 + £,, где х1 : N(х1 | 0,1),£,: N(£, | 0,0.5).
Получим € = 1 00008, € = 9.01475, €2 = 3.958091,
€ < 0.001524 V/ £{2,6,22} и <£, = 1.00006, €6 = 3.00379, €>2 = 1 99025,
€ = 0Vi £ {2,6,22}. Соответствующие веса показаны на рис.1. Легко увидеть, что только три веса значительно отличаются от нуля и близки к истинным значениям.
Систематическое сравнительное исследование качества работы алгоритма проводилось на тестовых данных, полученных в соответствии с моделью линейной регрессии. Все эксперименты выполнялись на выборке из 1000 объектов, из которых только 20 были отведены на обучение, а остальные 980 использовались для контроля качества построенной модели. В ходе экспериментов число признаков, измеренных на объектах, варьировалось от 20 до 500. Таким образом, в выборке число признаков значительно превосходит число наблюдений. Причем, в скрытой модели только два признака являлись релевантными. Это фактически означает, что только 2 коэффициента регрессии отличны от 0, а остальные являются нулевыми,
что исключает соответствующие признаки модели. Дисперсия шума в тестовой модели была установлена на уровне 10 % от дисперсии наблюдаемой переменной.
В ходе экспериментов на контрольной выборке подсчитывался относительный средний квадрат ошибки восстановления выходной переменной. Для каждого числа признаков п генерировалось 100 вариантов входных данных. В табл. 1 приведены усредненные по 100 экспериментам значения ошибки.
Таблица 1
Средняя ошибка восстановления наблюдаемой переменной на модельных данных для различных алгоритмов
n Lasso Elastic Net Регулируемая селективность
20 0.2359 0.2316 0.0887
100 0.2560 0.2528 0.1990
500 0.3115 0.3114 0.4150
Сравнительная оценка исследуемого алгоритма на реальных данных. Реальные данные были взяты из известных репозиториев иС1 (http://archive.ics.uci.edu/ml). Рис. 2 иллюстрирует число отобранных признаков на реальных данных. Для исследуемого алгоритма, в наборе
признаков удалялись те из них, для которых (тах(г)^г)> 10-2.Черная часть
столбца соответствует числу отобранных признаков. Для побора структурных параметров алгоритмов используется процедура скользящего контроля. В табл. 2 тоже приведены усредненные по 100 экспериментам значения ошибки.
Таблица 2
Средняя ошибка восстановления наблюдаемой переменной для различных алгоритмов, полученная на скользящем контроле,
на данных репозитория UCI
Data Lasso Elastic Net Управляемая селективность
Auto-Mpg 3.4702 ± 0.1422 3.4693 ± 0.1410 3.4675 ± 0.1326
Boston 5.0636 ± 0.2349 5.0668 ± 0.2382 5.0532 ± 0.2265
Diabetes 55.3143 ± 0.3342 55.3638 ± 0.3205 55.1746± 0.2925
Postate cancer 0.8100 ± 0.1132 0.8169 ± 0.1118 0.7978 ± 0.0886
Auto-Mpg
Boston
10
Lasso Elastic Net Our algorithm
Diabetes
am
Lasso Elastic Net Our algorithm
15
10
Póstate cancer
Lasso
SSLR _ Elastic Net Our algorithm
Рис. 2. Число отобранных регрессоров для каждого из исследуемых алгоритмов по отношению к общему числу признаков для данных
репозитория UCI
Заключение
Задача восстановления регрессионной зависимости рассматривается для весьма распространенного случая малого объема обучающей выборки. При этом существенным оказывается вопрос повышения обобщающей способности алгоритма восстановления регрессионной зависимости за счет сокращения количества признаковых переменных. Предлагаемый в данной работе метод сокращения признакового пространства основан на байесовском подходе к задаче восстановления зависимостей и относится к числу встроенных методов. Достоинством метода является то, что он позволяет отбросить неинформативные признаки, не используя переборные стратегии, непосредственно в процессе восстановления искомой регрессионной зависимости. Метод имеет два структурных параметра, которые легко контролируют богатство признакового описания и степень селекции признаковых переменных. Многочисленные эксперименты на модельных и реальных данных показывают эффективность предложенного алгоритма в сравнении с известными на текущий момент передовыми методиками отбора признаков.
Список литературы
1. Моттль В.В., Красоткина О.В.. Беспереборная минимизация числа аргументов в задаче восстановления линейной регрессионной зависимости по малым обучающим выборкам // Труды Всероссийской конференции “ММРО-11” М.:МАКС Пресс, 2003. С. 138-141.
2. Tibshirani, R. Regression shrinkage and selection via the lasso.// Journal of the Royal Statistical Societ. 1996. B 58. P. 267-288.
3. Hui Zou and Trevor Hastie B. Regularization and variable selection via the elastic net. // Journal of the Royal Statistical Society. 2005. 67. Part 2. P. 301-320.
4. Selectivity supervision in combining pattern-recognition modalities by feature- and kernel-selective Support Vector Machines. / A. Tatarchuk [et al.]. // Proceedings of the 19th International Conference on Pattern Recognition. Tampa. USA. December 8-11, 2008.
5. Feature Extraction, Foundations and Applications / I.M. Guyon [et al.]. // Springer. 2006.
6. Vetrov D. P., Kropotov D. A., Ptashko N. O.. An efficient method for feature selection in linear regression based on an extended Akaike’s information criterion. // Computational Mathematics and Mathematical Physics. 2009. Vol. 49. No. 11. P. 1972-1985.
7. UCI Machine Learning Repository: http://archive.ics.uci.edu/ml.
O. V. Krasotkina, T. T. Nguyen, V. V. Mottl
LINEAR REGRESSION MODEL WITH SUPERVISED SELECTIVITY FOR FEATURE SELECTION IN THE ESTIMATION PROBLEM OF DEPENDENCE BASED ON EMPIRICAL DATA
A statistical approach for statement of the regression estimation problem in case of a small number of observations and a rich feature description is considered. For essential feature selection in regression estimation problem a probabilistic model is proposed, in which a structural parameter controls fundamental regressor selection . Experimental results of proposed algorithm are shown in comparison with the well-known feature selection methods (Lasso and Elastic Net).
Key words: reduction of feature description, dependences estimation , linear regression, Bayesian approach, feature selection, maximum likelihood principle.
Получено 14.01.12