Известия Тульского государственного университета Естественные науки. 2015. Вып. 4. С. 67-78
= Математика =
УДК 519.6
Отбор признаков в задаче классификации при смещении решающего правила
П. А. Турков, О. В. Красоткина, В. В. Моттль
Аннотация. Существует множество задач распознавания образов, в которых в процессе наблюдения проиеходит изменение свойств исследуемого объекта. Наличие таких изменений означает, что решающее правило, обычно являющееся неизменным после его построения, изменяет свое положение с течением времени. Для адаптации создаваемого классификатора к происходящим изменениям используется непрерывно пополняемая обучающая совокупность, что в ряде случаев может приводить к проблеме переобучения.
Стандартным подходом для улучшения обобщающей способности является применение методов отбора признаков. В литературе, посвященной восстановлению зависимостей при смещении решающего правила, отбору признаков уделено достаточно мало внимания, а применение классических методов отбора признаков в условиях динамического решающего правила осложнено. Представленная статья предлагает новый метод для отбора признаков, основанный на байесовском подходе к задаче распознавания образов в потоках данных. В работе предложена иерархическая вероятностная модель для оценки параметров решающего правила, позволяющая отбирать признаки наряду с оцениванием параметров решающего правила. Предложенный критерий является несмещенным, обладает хорошими обобщающими и прогнозирующими свойствами, его максимальный риск стремится к конечному значению. Эффективность предложенного подхода проиллюстрирована в ходе экспериментов на тестовых данных.
Ключевые слова: смещение решающего правила, распознавание образов, отбор признаков, байесовский подход, динамическое программирование, анализ данных.
Смещение решающего правила означает, что характеристики исследуемого явления или объекта изменяются с течением времени. Происходящие изменения влияют на поступающие данные и снижают точность работы построенных ранее классификаторов. В качестве примеров задач, встречающихся на практике, можно привести проблемы обнаружения финансового
мошенничества, фильтрации спам-сообщений, категоризации прогнозов погоды и предпочтений клиентов [7].
Как и для классической задачи распознавания образов, для задач распознавания при смещении решающего правила актуальной является проблема переобучения, которая характеризуется плохой обобщающей способностью решающего правила, построенного по обучающей выборке. Как правило, данная проблема решается с помощью применения методов отбора адекватной признаковой информации. Основная идея такого подхода основана на предположении о наличии в исходном множестве данных нерелевантных признаков, влияние которых может уменьшить качество распознавания решающего правила, или избыточных признаков. Удаление таких признаков позволяет улучшить скорость и точность работы алгоритма обучения [1].
В соответствии с применяемыми в них критериями и методологиями среди методов отбора признаков можно выделить три группы: методы фильтрации, методы-обертки (wrapper methods) и встроенные методы:
• методы фильтрации. Данный подход, как описано в [2] или [3] удаляет нерелевантные признаки из исходного признакового набора, после чего передает полученное множество непосредственно алгоритму обучения. Как правило, исходная выборка анализируется для определения размерности подмножества признаков, соответствующего по структуре всему набору и используемого для его описания.
• методы-обертки. Релевантный признаковый набор выбирается исходя из результатов применения алгоритма классификации. В этом случае метод отбора признаков основывается на выделении подмножеств признаков и оценивании на каждом таком подмножестве параметров решающего правила, [4]. Целью метода является обнаружение признакового подмножества, на котором была получена наилучшая оценка с точки зрения качеств распознавания.
• встроенные методы. В данной группе содержатся методы обучения, включающие в себя и алгоритм классификации и способность отбора признаковой информации. Таким образом, создание релевантного признакового подмножества производится в процессе оценки параметров модели [5], [6].
1. Иерархическая вероятностная модель с отбором признаков в задаче распознавания образов при смещении
решающего правила
1.1. Байесовский подход к отбору признаков в задаче распознавания образов. Рассмотрим вначале постановку задачи обучения распознаванию образов при отсутствии динамики в данных. Пусть каждый объект и Е Q представлен точкой в линейном признаковом пространстве
х(ш) = (х^ш),... ,хп(ш)) £ Мп, а его скрытая принадлежность к одному из двух классов описывается индексом класса у(ш) £ {1, —1}. Функция
(х(ш),у(ш)):О — X х У (1)
известна в области ограниченного обучающего множества (х(шз),у(ш)) = = (х3-, у3-), 3 = 1, где N — число наблюдений. Необходимо продолжить функцию 1 на входное множество О, таким образом дав возможность оценивать принадлежность к классу для новых объектов ш £ О, не представленных в обучающем множестве. Предположим, что существует вероятностное пространство X х У с плотностью распределения Ф(х, у). В качестве модели генеральной совокупности используем два параметрических семейства плотностей распределения ф1 (х(ш)|(а, Ь)) и ф-1 (х(ш)|(а, Ь)), связанных с двумя классами объектов у(ш) = 1 и у(ш) = —1 и сконцентрированных в основном по разные стороны неизвестной разделяющей гиперплоскости у = аТх + Ь:
ф1(х|(а'Ь)) = { ^ [—I (аТх + Ь)] , ат х + Ь< 1, (2)
( |( т = / 1, аТх + Ь< —1, ф-1(х|(а,Ь)) = | ехр —с . у + Ь)] , атх + Ь < —1.
Данные плотности, не являющиеся плотностями распределения в классическом понимании, так как их интеграл по области определения не равен 1, согласно терминологии, предложенной Моррисом де Гроотом в [8], называются несобственными. Согласно предложенной модели объекты генеральной совокупности являются равномерно распределенными в областях атх + Ь > 1 и атх + Ь < —1, тогда как в зазоре между классами (а, Ь)тх < 1 и (а, Ь)тх > —1 значения плотностей экспоненциально уменьшаются.
Предполагая независимость объектов обучающей совокупности получаем, что совместная плотность распределения для всего обучающего множества будет равна следующему произведению:
N
Ф(х,- у ,3 = 1(а, Ь)) = П (х3 |(а, Ь)) =
3 = 1
П Ф1(х,-|(а,Ь))1 ( П Ф-1(хз|(а,Ь)) \3'-У]=1 ) V3 =-1
Априорные предположения для параметров разделяющей гиперплоскости опишем в виде плотности распределения Ф((а, Ь)|г). При отсутствии априорных предположений относительно параметра положения Ь данная плотность будет зависеть только от направляющего вектора а: Ф((а1,..., ап, Ь)|г) гс Ф((а1 ,...,ап)|г) Отдельные компоненты будем считать нормально распределенными в зависимости от дисперсий щ:
ФЫп) = exp(-(l/2n)a2), (3)
V(ah...,an\ri,..,rn) « (П Ti) 1/2 exp(-]^^(1/Ti)a2i),
i=1 i=1
а сами дисперсии Ti,i = 1, ...,n — распределенными по гамма-закону:
Y ((1/Ti)\a,e) = (1/Ti)a-1 exp(-p(1/Ti)) (4)
с математическим ожиданием E(1/Ti) = а/в и дисперсиями E((1/Ti)2) = а/в and set а = (1 + ц)2/2ц,,в = 1/2Для уменьшения вычислительной сложности и упрощения процедуры подбора параметров предлагается описание а и в как функций от значение которого определяется исходя из выражений а = (1 + ц)2/2л,в = 1/2^. Параметр ц называется параметром селективности, так как его значение непосредственно влияет на количество отбираемых признаков в модели. Так при л ^ 0, значения 1/Ti близки к 1 1/Ti = ... = 1/Tn = 1, и, следовательно, отбора признаков не происходит. С увеличением же значения ц все большее число элементов 1/Ti стремится к нулю и тем больше признаков исключается из модели. Таким образом, априорная плотность распределения для r будет иметь вид
n n
G(T1,..., Tn\») « (П 1/Ti)(1+^/2»-1 exp(-1/2(1/Ti)).
i=1 i=1
Тогда при сделанных предположениях апостериорная плотность для параметров a и b может быть оценена в соответствии с формулой Байеса:
p((a,b)\yj, j = 1,...,N) =
(x\y, j = 1 N (a b))
(5)
Ф((а , b)\r)G(r\^(x y, j = 1, ...,N, (a , b))
/ Ф((а, Ъ)'1г)Ф(ху у ,3 = 1,...,М, (а, Ъ)')й(а, Ъ)''
Так как знаменатель дроби (5) не зависит от целевых переменных, можно рассматривать только числитель:
Р((а,Ъ) I уу, 3 = ) а
Ф((а,Ъ)|г)С(ф)Ф(х,-, 3 = 1,..., N I у3, з = 1,...,М, (а,Ъ)). (6)
1.2. Модель смещения решающего правила на основе марковских случайных процессов. В дальнейшем для обозначения параметров гиперплоскости (а, Ъ) будем использовать w = (а, Ъ) и с этой целью к вектору признаков объекта х добавим последний элемент, равный единице. Тогда выражение для разделяющей гиперплоскости примет вид: у = wx.
Процесс обучения при смещении решающего правила предполагает, что в момент получения обучающей выборки Yt), наблюдатель имеет в своем распоряжении последнюю оценку для параметров разделяющей гипер-
плоскости ('_), полученную с использованием ранее полученных данных (Х5, не сохраняя все объекты обучения. Задача состоит в пересчете
оценки параметров гиперплоскости ('_ 1) на основании только что поступивших объектов = Т), (Х^, У^)].
Ключевым элементом нашего подхода к описанию проблемы смещения решающего правила является понимание зависимых от времени параметров гиперплоскости 'I как скрытых случайных процессов, обладающих марковскими свойствами [9]:
= q't_l + (&)= 0, М(^т) = (I, д = VI - (, 0 < q< 1.
Здесь ^ — белый шум с нулевым математическим ожиданием, дисперсия ( описывает скрытую динамику смещения решающего правила.
Априорная плотность распределения скрытой последовательности параметров = 1, ...,Т) будет пропорциональна произведению:
т
V = 1,...,Т ) = [] и('4|'4_1), г=1
dn/2(2n)n/2
v(wt|wt_i) xN(wt|V 1 - dwt-i,dI) =
exp ^- 2d (wt - V1 - dwt-i)T(wt - V1 - dwt-i)^ . (7)
Таким образом, произведение для оценивания апостериорной вероятности (5) примет вид
p(wtl(Xjy),j = 1,...,Nt,t = i,...,T) x ^(wt|r, t = 1,Т)С(ф)Ф(х,- y, wt, j = 1,...,Nt ,t = 1,...,T)•
V (w t,t = 1,...,T). (8)
Применим метод максимизации апостериорной вероятности и возьмем логарифм для перехода от произведения распределений к их сумме:
(w 11 (xj ,yj ),j = 1,...,Nt,t = 1,..., T) = = arg max p(wt|(xj ,yj ),j = 1, ...,Nt,t = 1, ...,T) =
wt,t=1,...,T
= arg max [к^Ф^^г^ = 1,...,T) + log G(r|^) + wt ,t=1,...,T
TT
+ ^ Y1 log ^i(xj M + ^ Y1 log ^-i(xj |wt) +
t=1 jt: Vj = i t=i jt'-Vj=-i
T
+ 5>g v(wt|wt-i) . (9)
t=2
2. Процедура оценки параметров иерархической вероятностной модели
2.1. Критерий обучения. Подставим в (1.2) априорные распределения (2), (3), (4), (1.2) и сформулируем следующую оптимизационную задачу:
6, (X = 1,...,Т) =
Т п Т Мг
= arg max
ЕЕ^м -
w , r
n n n
t=l i=l t=l i=l
2 £logri - (С1+-)2/2- - ri - l/ri -
i=l i=l - i=l 1 T '
- (Wt - ^ 1 - dwt-l)T (wt - V1 - dwt-l) t=2
(10)
при ограничениях
1 - Уг у ^ X, у < к у,
5г,3 > 0,3 = 1,...,Щ1 = 1,..,Т.
Для ее решения используем метод покоординатного спуска для двух групп переменных: параметров решающего правила wt,t = 1,...,Т и их дисперсий г. Тогда при зафиксированном параметре г получим
ъъ^г++ t=l i=l i t=l j=l
1T
+ —J Y(wt - V1 - dwt-l)T(wt - V1 - dwt-l) ^ min , (11)
2d £=2 wt,St,t=l,■■■T
1 - yt j wTxt , j < 8t j,
St,j > 0,j = 1,..., Nt, t = 1,...,T.
2.2. Приближенная процедура динамического программирования для оценивания параметров решающего правила. Перепишем критерий (2.1) в следующей форме:
T TT
J>'TQzt + z? + £(z£ - Azt-l)TU(zt - Azt-l) ^ min
£—* £—* £—* zt t=l ,____T
t=l t=l t=2
gjTz't-l + z'j - 1 > 0,j = (Nt-2 + 1),..., Nt-l z"t-l > 0,
где
Zt
/ // £
; zt = wt; zt = dt; gj
Vi xj Vi
U
Q
•7;A = ^ •J'
i i i
Г\ T^'" ' Tu
или в более общем виде
t t
Y,(t(zt, zt ) + £ 7t(zt_i, zt)
t=1
где
t=2
Zt(zt) = z'T Qt zt + С eT z'i,
^ mm , zt,t=1,...T
(12)
Yt(zt-i, zt) = (zt - Azt-i)T U(zt - Azt-i).
Критерий вида (12) называется парно-сепарабельным, так как каждое из слагаемых в этой сумме зависит от целевых переменных, принадлежащих одному или двум последовательно идущим моментам времени.
Подобные задачи решаются методом динамического программирования, основная идея которого связана с понятием последовательности функций Беллмана:
Jt(zt) = min Jt(zi,..., zt), (13)
Z1,. . . ,zt-1
z
z
tt
J(zi, . . . , zt) = £ Zs(zs) + ^ Ys(zs-1, zs). (14)
s=1 s=2
Основное свойство функций Беллмана, называемое прямым реккурентным соотношением, позволяет последовательно пересчитывать их значения начиная с первого:
Ji = Zi(zi), (15)
Jt(zt) = Zt(zt) + min [7t(zt-i,zt) + Jt-i(zt-i)] ,t = 2,...,T.
Zt-1
Однако реализация такого пересчета возможна только при условии принадлежности функций какому-либо конечно-параметрическому семейству. Так, если все слагаемые в (12) являются квадратичными, все функции Беллмана (13) также являются квадратичными:
Jt(zt) = (zt - zt)TQt(zt - zt) + Ct. (16)
В нашем случае в задаче (2.1) присутствуют ограничения, что делает невозможным точную численную реализацию процедуры динамического программирования.
2.3. Аппроксимация функций Беллмана. Как уже было сказано выше, в силу наличия в нашей задаче оптимизации (12) ограничений принадлежность функций Беллмана к конечно-параметрическому семейству не гарантируется. Применение процедуры динамического программирования к (12) основано на идее приближенной реализации, состоящей в замене, вообще говоря, неквадратичной функции
Ft(zt) = min \jt(zt-i, zt) + Jt-i(zt-i)] (17)
zt-1
подходящей квадратичной
Ft(z't) = F + (z't - F)TQt(z't - zt). (18)
В этом случае следующая расчитанная функция Беллмана Jt(zt) также будет квадратичной. Выбор подходящих параметров аппроксимации (zt, Qt) квадратичной функции Ft(zt) обусловлен сохранением особенностей исходной функции (17), таких как положение точек минимума функции zt = arg min Ft(zt), значения в точках минимума ct = min Ft(zt), а также матрица вторых производных в точке минимума Qt = V2Ft(zt)\argminFt(Zt).
2.4. Процедура динамического программирования «вперед-и-навстречу» для кросс-валидации. Для подбора оптимального значения параметра селективности ц в работе предлагается использование метода скользящего контроля [10], в ходе реализации которого во входном потоке выкалываются объекты, соответствующие одному моменту времени t*, тогда функции Беллмана для отсчетов t < t* называются левыми функциями Беллмана:
Jt ^ = ^ ^ S) + ^ Ъ^ S- 1 , ^
S=1
s=2
Jt (zt) = min Jt (zi,...,zt),
Z1,. . . ,zt-1
(19)
а для t > t* — сответственно правыми:
T
(z z. )=■
T- 1
J+ zt) = ^2, <t(zs) + £ Ys(zs - Ъ zs),
s=t+1
s=t
J+(zt)= min J+(zt,..., zt). zt+1, . . . , ZN
С учетом указанных выше обозначений (19) и (20)
'(1(^1) + 72(21, 22) + ..zт), г = 1
яТ) = < + 2ь) + _
|+7*+1(24,24+1) + ..., 2т), г = 2, Т - 1
1 (21, . . . , 2Т-1) + 1Т(2Т-1, 2Т) + (Т(2Т), г = Т.
(21)
Аппроксимации функций Беллмана обоих видов будем предполагать квадратичными:
£-(2'4) = с- + (^ - К)ТЯ- К), = с+ + (2'4 - 2+)Тд + - с+),
параметры которых могут быть вычислены в полном соответствии с выражениями, описанными ранее.
2.5. Оценка гиперпараметра. Используя условия Каруша-Куна-Таккера, найдем выражение для определения значения гиперпараметра г. Лагранжиан для критерия (11):
ь (г\^, = 1,...,Т) =
Т п и,2
Е Е +((1+ ^^ - 1/2) £ 1о§ * + (2^)-1£ 1/п
2
П
4=1 1=1 1 1=1 1=1
и одна из его частных производных
^^X ='--Т' = - £+ ((1 + ,)2/2М - 1/2) 1 -
Откуда следует
П = (Е + 1/2^ / ((1 + ^)2/2^ - 1/2) . (22)
3. Экспериментальная часть
Для экспериментального исследования разработанного метода были использованы искусственные данные, сгенерированные с помощью двух двумерных нормальных распределений с дисперсиями 0.5 и математическими ожиданиями -1 и 1 соответственно. В этих данных множества двух классов являются равнонаполненными, метки класов принимают значения из множества {-1,1}. Каждый созданный объект имеет 100 признаков, из которых первые два сгенерированы с помощью упомянутых выше распределений и являются соответственно релевантными, для получения остальных использовалось еще одно нормальное распределение с нулевым математическим ожиданием. После генерации каждых 50 объектов распределения повора-
Таблица 1
Экспериментальные результаты: ошибка классификации
Метод Ошибка классифи-цикации, %
OzaBagAdwin 14,62
SingleClassifierDrift 15,28
AdaHoeffdingOptionTree 14,76
DriftFeatureSelection 4.52
Таблица 2
Экспериментальные результаты: вектор дисперсий
Номер признака 1 2 3 100
Дисперсия 47,6407 48,1681 0,7355 0,0052
чивались относительно начала координат на угол 0.0314 рад., всего было получено 5000 объектов.
Для сравнения использовались некоторые алгоритмы для распознавания при смещении решающего правила из программного пакета Massive Online Analysis (MOA) [11].
• OzaBagAdwin — bagging с использованием метода ADWIN [12], который позволяет обнаруживать и оценивать происходящие в генеральной совокупности изменения. Составляющими ансамбля являются деревья решений для потоковых данных, листья которых представляют собой адаптивные байесовские классификаторы. Для опредедения оптимального значения числа компонентов ансамбля была проведена серия экспериментов, оптимальное значение выбиралось по минимуму ошибки.
• SingleClassifierDrift — одиночный классификатор в форме дерева решений с адаптивным байесовским правилом с обнаружением изменений концепта методом EDDM [13].
• AdaHoeffdingOptionTree — представляет собой адаптивное дерево решений с дополнительными (option) узлами; максимальное количество таких узлов —- 50.
Ошибка рассчитывалась как среднее между ошибками, полученными в каждом отсчете при использовании для классификации вновь поступивших объектов ранее рассчитанных параметров решающего правила. Итоговые результаты приведены в табл. 1. В табл. 2 показаны итоговые значения вектора дисперсии. Как можно видеть, первые две компоненты вектора являются на несколько порядков большими, чем остальные, что означает отбор первых двух признаков в качестве значащих.
Список литературы
1. Information-value-based feature selection algorithm for anomaly detection over data streams / Xiaozhen Zhou, Shanping Li, Cheng Chang, Jianfeng Wu, Kai Liu // Technical Gazette. 2014. V. 21. P. 223-232.
2. Dash M., Gopalkrishnan V. Distance based feature selection for clustering microarray data // DASFAA. 2008. P. 512-519.
3. Distributional word clusters vs. words for text categorization / R. Bekkerman, R. El-Yaniv, N. Tishby, Y. Winter // Journal of Machine Learning Research. 2003. V. 3. P. 1183-1208.
4. Kohavi R., John G. H. Wrappers for feature subset selection // Artif. Intell. 1997. V. 97. No. 1-2. P. 273-324.
5. Dimensionality reduction via sparse support vector machines / J. Bi, K. P. Bennett, M. J. Embrechts, C. M. Breneman, M. Song // Journal of Machine Learning Research. 2003. V. 3. P. 1229-1243.
6. Zhou Y., Jin R., Hoi S.C.H. Exclusive lasso for multi-task feature selection // Journal of Machine Learning Research - Proceedings Track. 2010. V. 9. P. 988-995.
7. Dongre P., Malik L. Stream data classification and adapting to gradual concept drift // International Journal of Advance Research in Computer Science and Management Studies. 2014. V. 2. No. 3. P. 125-129.
8. De Groot, Morris Optimal Statistical Decisions // McGraw-Hill Book Company, 1970.
9. Time-varying regression model with unknown time-volatility for nonstationary signal analysis / M. Markov, O. Krasotkina, V. Mottl, I. Muchnik // Proceedings of the 8th IASTED International Conference on Signal and Image Processing. Honolulu, Hawaii, 2006. P. 534-196.
10. Dynamic Programming Procedures in Nonstationary Signal Analysis / A. A. Kostin, A.V. Kopylov, V. V. Mottl, I. B. Muchnik // Pattern Recognition and Image Analysis. 2001. V. 11. No. 1. P. 205-208.
11. MOA: Massive Online Analysis / A. Bifet, G. Holmes, R. Kirkby, B. Pfahringer // Journal of Machine Learning Research. 2010. http://sourceforge.net/projects/ moa-datastream/
12. New ensemble methods for evolving data streams /Albert Bifet, Geoff Holmes, Bernhard Pfahringer, Richard Kirkby, Ricard Gavalda // In 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2009.
13. Learning with drift detection / J. Gama, P Medas, G. Castillo, P Rodrigues // In SBIA Brazilian Symposium on Artificial Intelligence. 2004. P. 286-295.
14. Accurate Ensembles for Data Streams: Combining Restricted Hoeffding Trees using Stacking /Albert Bifet, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer // Journal of Machine Learning Research - Proceedings Track. 2010. V. 13. P. 225-240.
Турков Павел Анатольевич ([email protected]), аспирант, кафедра информационной безопасности, Институт прикладной математики и компьютерных наук, Тульский государственный университет.
Красоткина Ольга Вячеславовна ([email protected]), к. ф.-м. н., доцент, кафедра информационной безопасности, Институт прикладной математики и компьютерных наук, Тульский государственный университет.
Моттль Вадим Вячеславович ([email protected]), д. т. н., профессор, Вычислительный центр им. А. А. Дородницына РАН, Москва.
Feature selection in the classification problem under concept
drift
P. A. Turkov, O. V. Krasotkina, V. V. Mottl
Abstract. There are many pattern recognition problems, in which target concept may undergo changes in observation process. These changes means that decision rule usually constant after estimation has been changed its position with time. Constantly replenishable training set has been used for building classificator adaptation and this can lead to overfitting problem. Classical approach for generalizing property improving is feature selection techniques. Feature selection has received little emphasis in the literature by concept drift problem, and classical feature selection methods application is connected with difficulties. This paper proposes the new Bayesian framework to feature selection in pattern recognition problem under concept drift. We suggest the hierarchical probability model for decision rule parameters estimation with sparse regularization. The proposed shrinkage criterion is unbiased, has grouping and oracle properties, its maximal risk diverges to a finite value. Experimental results show that the proposed framework is competitive on simulated data.
Keywords: concept drift, pattern recognition, feature selection, Bayesian approach, dynamic programming, data analysis.
Turkov Pavel ([email protected]), postgraduate student, department of information security, institute of applied mathematics and computer science, Tula State University.
Krasotkina Olga ([email protected]), candidate of physical and mathematical sciences, associate professor, department of information security, Institute of Applied Mathematics and Computer Science, Tula State University.
Mottl Vadim ([email protected]), doctor of technical sciences, professor, Dorodnicyn Computing Centre of RAS, Moscow.
Поступила 18.10.2015