Научная статья на тему 'Комбинаторные оценки вероятности переобучения пороговых конъюнкций для логических алгоритмов классификации'

Комбинаторные оценки вероятности переобучения пороговых конъюнкций для логических алгоритмов классификации Текст научной статьи по специальности «Математика»

CC BY
53
12
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Ивахненко А. А.

Получены и исследованы комбинаторные оценки вероятности переобучения для логических правил, имеющих вид пороговых конъюнкций над заданным подмножеством вещественных признаков. Введено понятие фиксированных объектов и предложены алгоритмы их эффективного вычисления. С их помощью построены верхние оценки вероятности переобучения, учитывающие эффекты расслоения и связности в семействе пороговых конъюнкций. Эти оценки предлагается использовать в качестве критерия информативности при поиске конъюнктивных закономерностей в логических алгоритмах классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Комбинаторные оценки вероятности переобучения пороговых конъюнкций для логических алгоритмов классификации»

УДК 519.22

А.А. Ивахненко

Московский физико-технический институт (государственный университет)

Комбинаторные оценки вероятности переобучения пороговых конъюнкций для логических алгоритмов классификации

Получены и исследованы комбинаторные оценки вероятности переобучения для логических правил, имеющих вид пороговых конъюнкций над заданным подмножеством вещественных признаков. Введено понятие фиксированных объектов и предложены алгоритмы их эффективного вычисления. С их помощью построены верхние оценки вероятности переобучения, учитывающие эффекты расслоения и связности в семействе пороговых конъюнкций. Эти оценки предлагается использовать в качестве критерия информативности при поиске конъюнктивных закономерностей в логических алгоритмах классификации.

Ключевые слова: переобучение, логические алгоритмы классификации, расслоение, связность, поиск закономерностей.

I. Задача индукции логических правил

Пусть задана выборка объектов X = (xi)L=1, описанных n действительными признаками, Xi = (x1, ..., хП), и каждому объекту Xi соответствует ответ yi из заданного конечного множества Y.

Алгоритмы классификации a: Rn ^ Y, основанные на взвешенном голосовании логических правил (rules), имеют следующий вид:

a(x) = argmax wrr(x),

yeY ^—4

reRy

где wr — вес правила r, обычно неотрицательный, Ry — множество правил класса у. В общем случае правило — это функция вида r: Rn ^ {0,1} из некоторого фиксированного параметрического семейства R. В данной работе рассматривается один из наиболее распространённых типов правил — семейство конъюнкций пороговых предикатов:

"(x) = r(x; •

jEu

l) € R", ш С {1, n} — подмно-

где x = (x1, ..

жество признаков, ^j — одна из операций сравнения {^ , ^}, cj — порог по j-му признаку.

Говорят, что правило r выделяет объект x, если r(x) = 1. Предполагается, что правила класса y должны выделять как можно больше объектов класса y и как можно меньше объектов всех остальных классов. Поэтому для поиска (индукции) правил класса y по обучающей выборке X С X решается задача двухкритериальной оптимизации:

P(r,X) = У2 r(xi)[yi = у] ^ max;

r

ж^еХ

N(r,X) = ^2 r(xi)[yi = y]

XiEX

На практике для этого оптимизируют некоторый критерий информативности, который является функцией от пары исходных критериев (Р^). В частности, это может быть энтропийный критерий, индекс Джини, точный тест Фишера, тест х2, тест и2 и другие [4], однако ни один из них не является безусловно предпочтительным. Большинство критериев оценивают степень неслучайности разбиения обучающей выборки X на два подмножества (положительные примеры х: г(х) = 1 и отрицательные х: г(х) = 0) относительно исходного разбиения выборки X на классы.

Недостаток стандартных критериев информативности в том, что они не учитывают переобучение. При оптимизации Р(г,Х) и N(г,Х) по обучающей выборке X соответствующие величины Р' = Р(г,Х) и N' = N(г,Х) уже не будут оптимальны на контрольной выборке X = Х\Х. Оценки [2, 5], основанные на теории Вапника-Червонен-киса [1], позволяют связать вероятность переобучения со сложностью семейства правил Я. Они зависят от ранга конъюнкции |и| и числа допустимых значений признаков х3 по каждой размерности ] € и, но не зависят от конкретной выборки данных X. Согласно экспериментам [5] эти оценки сильно завышены, что делает их непригодными для количественного предсказания значений

(Р ').

Точные комбинаторные оценки вероятности переобучения [6, 7] позволяют учитывать свойства расслоения и связности — более тонкие характеристики семейства, зависящие от данных X. До сих пор точные оценки удавалось получать лишь для некоторых модельных семейств алгоритмов: монотонных и унимодальных цепочек и многомерных сеток, интервалов и шаров булева куба, и т.п.

В данной работе предлагается оценка для семейства правил (1), используемого при решении практических задач [3]. Цель работы — получить критерий информативности набора признаков и,

1

с") =

который учитывал бы величину переобучения, возникающего при оптимизации порогов cj, j € ш.

II. Вероятность переобучения правил

Произвольное правило r € R класса y € Y индуцирует на выборке X бинарный вектор ошибок r = (п)^=1, где ri = [r(xi) = [yi=y\\.

Определим число ошибок правила r на выборке X С X :

m(r,X) ri

XiEX

и частоту ошибок правила r на выборке X:

1у(г,Х) = |^ym(r,X).

Методом обучения называется отображение вида а: 2X ^ R, которое произвольной обучающей выборке X С X ставит в соответствие некоторое правило r = ¡лХ из R. Метод а называется методом минимизации эмпирического риска (МЭР), если

цХ € R(X) = Arg min m(r,X),

rER

и пессимистичным методом МЭР, если aX = arg шах m(r,X).

rER(X)

Пессимистичный метод МЭР не реализуем на практике, так как контрольная выборка скрыта в момент обучения. Тем не менее он представляет значительный теоретический интерес, так как точные оценки вероятности переобучения для пессимистичного метода МЭР являются достижимыми верхними оценками для произвольного метода МЭР.

Разобъём выборку X всеми CL способами на две непересекающиеся подвыборки: обучающую X длины t и контрольную X длины k = L — t, неизвестную в момент обучения. Следуя слабой вероятностной аксиоматике [5], сделаем единственное вероятностное предположение, что все CL разбиений равновероятны. Данное предположение фактически эквивалентно стандартному предположению о независимости наблюдений в двух подвыборках. Определим для любого е > 0 вероятность переобучения метода а как

Qe(a,X) = P HaX,X) — v(aX,X) > е], (2)

где знак вероятности можно понимать как среднее по всем разбиениям: Р = У! yuy-

Возьмём в качестве R семейство правил (1) с полным набором признаков ш = {1, ..., п} и операцией сравнения ^ по всем признакам. Без ограничения общности будем полагать, что все правила относятся к фиксированному классу y € Y. Нашей основной задачей будет получение оценок вероятности переобучения для данного семейства.

III. Структура классов эквивалентности правил

Два правила эквивалентны: г ~ г', если их векторы ошибок совпадают: т = Г.

Допустим, что значения х1 каждого признака І Є ш попарно различны на объектах выборки X. Это предположение будет, в частности, выполнено с вероятностью 1, если объекты Хі выбирались из непрерывного распределения на К".

Пусть хIі — г-й элемент в вариационном ряду значений і-го признака х^1 < ... < х^Ь). Заменим в исходной матрице данных ||хі \\ьхп каждое зна-

(і) • ҐЛ

чение ху его рангом г в вариационном ряду. Очевидно, на этой матрице данных семейство К индуцирует то же множество векторов ошибок, что и на исходной. Поэтому далее будем полагать, что все признаки принимают целые значения 1, ..., Ь, и никакие два объекта не имеют равных значений одного и того же признака. Значения порогов с1 в правилах т(х; с1, ..., с") вида (1) также имеет смысл выбирать только из целых значений

0, ..., Ь.

Будем говорить, что правила связаны, если их векторы ошибок различаются только на одном объекте. Заметим, что число классов эквивалентности и граф связей зависят от значений признаков ||х11|, но не зависят от классификаций уі.

Пусть и и V — произвольные объекты из X. Будем говорить, что объект и доминируется объектом V по координате І, если и1 < V1. Будем говорить, что объект и доминируется множеством объектов Б С X, и писать и -< Б, если для каждого і Є ш существует объект в Є Б, такой, что и1 < в1. Если множество Б состоит из одного элемента в и и -< Б, то будем записывать и -< в.

Определение 3.1. Подмножество Б С X называется недоминирующимся, если любой объект в Є Б не доминируется подмножеством Б\в.

Обозначим множество всех недоминирующих-ся подмножеств мощности ц через Ыд:

Ыч = {Б С X: \Б| = ц, У в Є Бв ^ Б\в}.

Введем искусственное недоминирующееся подмножество Бо, состоящее из одного объекта х0 = (0, ..., 0). Обозначим Ы0 = {Б0}. Правило г(х;0, ..., 0) будем обозначать го.

Мощность произвольного недоминирующегося подмножества \Б\ не превышает п. Если подмножество Б — недоминирующееся, то любое его подмножество Б' С Б — также недоминирующееся. Очевидно, \Ыд\ ^ Счь. Для построения всех Б Є Ыд достаточно добавить к каждому подмножеству Б' Є Ыд—1 один объект, еще не входящий в него; если полученное подмножество — недоминирующееся, то оно войдет в Ыд.

Лемма 3.1. Для любого объекта х из недоми-нирующегося подмножества Б найдется хотя бы

один признак j € ш, по которому на данном x достигается maxsEs sj, причём

П

|^J Argmax(sj) = S.

j=i

Доказательство. Допустим, что это не так. Тогда существует x € S, такой, что для любого j € ш существует s € S\x, для которого xj < sj. Следовательно, x -< S\x, значит, S не является недоминирующимся подмножеством. ■

Поставим в соответствие подмножеству S правило

r(x,S)= r(x;maxx1, ..., шахx").

xES xES

Очевидно, разным S ставятся в соответствие разные r(x,S), так как значения каждого признака xj, i = 1, ..., L попарно различны. Следовательно, зная j и xij , можно однозначно указать объект xi. Следовательно, набор параметров cj = maxxEsxj, j = 1, ..., n задаёт подмножество S однозначно, и различным S не могут соответствовать одинаковые r(x,S).

На рис. 1 показан пример задачи с п = 2 признаками, L =10 объектами и семейство R правил вида

r(x; с1 ,с?) = [x1 < с1}[x2 < с2].

Каждое правило из R задается парой порогов (с1,с2), поэтому правилам соответствуют узлы прямоугольной сетки H = {0, ..., L}2. Отрезками соединены правила, лежащие в одном классе эквивалентности. Рядом с каждым классом эквивалентности подписано число ошибок на полной выборке m(r,X). Все одноэлементные подмножества являются недоминирующимися. Среди двухэлементных подмножеств недоминирующимися являются только пары несравнимых объектов, например пара объектов {(2,5),(5,1)}. Недоминирую-щихся подмножеств мощности больше 2 нет, так как размерность задачи п = 2.

Лемма 3.2. Пусть E С R — класс эквивалентности правил, cj (r) — j-й параметр правила r. Тогда классу E принадлежит также и правило

rE (x) = r(x;mm c1(r'), ..., min c"(r')).

V r'EE r'EE '

Доказательство. Рассмотрим два произвольных правила r'(x) = r(x; ci, ..., cn) и

r"(x) = r(x; di, ..., dn) из класса эквивалентности E. В силу их эквивалентности r'(x) = r"(x) для любого x € X. В силу их бинарности для любого x € X:

r'(x) = r'(x)r''(x) = П \xj ^ cj]\xj ^ dj] =

jEu

= П \xj ^ min(cj,dj)].

jEu

Следовательно, правило с порогами тт(с3 ,в?), І Є ш, также принадлежит Е. Применяя эти рассуждения к полученному правилу и поочерёдно ко всем остальным правилам из Е, получим утверждение теоремы. ■

Будем называть правило те(х) стандартным представителем класса эквивалентности Е. На рис. 1 стандартные представители соответствуют левым нижним точкам каждого класса эквивалентности: (0,0), (1,8), (2,5), (5,1) и т.д.

Теорема 3.3. Существует взаимно однозначное соответствие между множеством всех классов эквивалентности и множеством всех недоминиру-ющихся подмножеств.

Доказательство. Построим по заданному стандартному представителю те (х) недоминиру-ющееся подмножество Б. Если те(х) = го, то Б = Бо. Иначе пусть те(х) = т(х; с1, ..., с"). Рассмотрим множество объектов и = {х: те(х) = 1}. Оно не пусто, так как в противном случае класс эквивалентности Е содержал бы то. Выберем из множества и недоминирующееся подмножество "

Б = Кг^шах(х3).

^ хЕМ

1=1

Пусть т(х,Б) = т(х; d1, ..., dп). Докажем, что те(х) = т(х,Б) от противного. Допустим, что некоторые пороги в правилах те(х) и т(х,Б) не совпадают; скажем для определенности: d1 < с1. Возьмем правило т(х; d1 ,с2, ..., с"). Оно принадлежит Е, так как d1 = ш.аххЕи х1, и при фиксированных параметрах с2, ..., с" нет объекта, на котором при увеличении первого порога от d1 до с1 изменялся бы вектор ошибок. Следовательно, те (х) не может быть стандартным представителем класса эквивалентности Е. Получили противоречие.

Теперь докажем обратное: любому недомини-рующемуся подмножеству объектов Б соответствует один и только один класс эквивалентности Е. Поставим в соответствие недомини-рующемуся подмножеству Б класс эквивалентности Е, такой, что т(х,Б) Є Е. Покажем от противного, что не существует второго такого Б', Б' = Б, что т(х,Б') Є Е. Пусть

это не так: т(х,Б) = т(х; с1, ..., с") Є Е,

т(х,Б') = т(х; d1, ..., dп) Є Е и для определенности d1 < с1. Но тогда существует объект х% = а^шаххЕ,5(х1), такой, что х\ = с1. При этом т(х* ,Б) = 1 и т(х* ,Б') = 0, следовательно, эти два правила не могут принадлежать одному классу эквивалентности. ■

Следствие. Для каждого класса эквивалентности Е существует единственное недоминирую-щееся подмножество Б, такое, что те (х) = т(х,Б).

Следствие. Число классов эквивалентности равно Е"=о \Ыд\.

0 1 23456789 10

О Class 0(5) • Class 1(5)

Рис. 1. Двумерная выборка длины Ь = 10, по 5 объектов в каждом классе (отмечены крупными точками)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

О Class 0(5) • Class 1(5)

Рис. 2. Граф связей правил, показанных на рис. 1

Рис. 4. Зависимость Qє от є для трёх выборок

Рис. 5. Зависимость верхней оценки Q£, вычисленной по формуле 5, от £ для трёх выборок

Рис. 6. Сравнение зависимостей Qє и Q£ от є для выборок «Noise10» и «Noise20»

зей. Граф изоморфен графу связей, изображенному на рис. 2. По вертикальной оси отложено число ошибок т(г,Л)

Рис. 7. Сравнение зависимостей Q£ и Q£ от е для выборок «Correct» и «Noise10»

IV. Оценка вероятности переобучения

В методе порождающих и запрещающих множеств [7] вероятность переобучения Qe(p,X) может быть определена точно, если для каждого правила r G R указана совокупность подмножеств

{ХГУ,Х;У с X: V € V;} и коэффициенты сеу, такие, что для любой подвыборки X С X длины I

[рX = г] = ^ с™[Хто с X][Х'ГV С XX]. (3)

уЕУг

Подмножества Хеу называются порождающими, X'у — запрещающими. Указать такие подмножества всегда возможно, но не единственным способом. Чем меньше мощности множеств V, Хгу, X'у, тем эффективнее будет вычисляться оценка Я е ■

Определение 4.1. Множества объектов

Хт

Х

УЕУг

уЕУг

называются фиксированными для правила т.

Фиксированные объекты обязаны присутствовать во всех порождающих и запрещающих множествах для того, чтобы метод обучения ц выбрал правило т по обучающей выборке Х. Перепишем гипотезу (3) в виде верхней оценки:

Х = т] < [Хг С Х][Х'Г С X]. (4)

Теорема 4.1. Если справедливо (4), то

дЕ(^Л) < £ (вг(є)), (5)

тЕК

где тт = m(г,X\Хт\Х') — число ошибок правила т на нефиксированных объектах;

Ьт = Ь — \Хт и Х' \ и £т = I — \Хт \ — число нефиксированных объектов соответственно в полной выборке и в обучающей;

Рт = С£у /Сеь — верхняя оценка вероятности Р [^Х = г] получить правило г в результате обучения;

вг(е) = |^(т(?’,Х) — є к) — т{г, Хг) — максимальное число ошибок на нефиксированных обучающих объектах, при котором имеет место переобучение:

функция гипергео-

V'5; — о с£ метрического распределения [7].

Рассмотрим граф связей между правилами (рис. 2). Каждая вершина графа — это стандартный представитель класса эквивалентности, а связь между вершинами означает, что векторы ошибок правил различаются на одном объекте. Заметим, что топология графа зависит только от значений признаков объектов, но не зависит от классификации объектов.

Напомним, что рассматриваются только правила, относящиеся к фиксированному классу у. Будем говорить, что множество объектов Е(ц,г) С X ухудшает правило ц по сравнению с правилом т, если:

1) г(хі) = ц(хі) для всех хі Є X\D(q,г)^.

2) ц(хі) = [уі = у], г(хі) = [уі = у] для всех хі Є D(q,г).

Правила г и ц различаются только на множестве D(q,г), при этом правило г ошибается на всех объектах этого множества, а правило ц — ни на одном. Если не существует такого множества объектов для пары правил ц и г, то будем полагать D(q,г) = 0.

Теорема 4.2. Пусть множество объектов D(q,г) ухудшает правило г по сравнению с правилом ц. Тогда, чтобы пессимистичный метод МЭР выбрал правило г, объекты множества D(q,г) должны находиться в фиксированном множестве

Х '.

Доказательство. Докажем от противного. Пусть объект х Є D(q,г) при некотором разбиении попадал в обучение, и пессимистичный метод МЭР выбрал правило г. Тогда на этом же разбиении правило ц будет иметь на одну ошибку меньше на обучении, так как правило г ошибается на всех объектах из D(q,г), а ц — нет. Значит, метод МЭР должен выбрать ц. Пришли к противоречию, следовательно, доказываемое утверждение верно. ■

Теорема 4.3. Пусть множество объектов D(q,г) состоит из одного объекта х. Тогда, чтобы пессимистичный метод МЭР выбрал правило ц, объект должен находиться в Хд.

Доказательство. Докажем от противного. Пусть объект х Є D(q,г) при некотором разбиении попадал в контроль, и пессимистичный метод МЭР выбрал правило ц. Тогда на этом же разбиении правило г будет иметь на одну ошибку больше на контроле, так как правило г ошибается на всех объектах из D(q,г), а ц — нет. Значит, метод МЭР должен выбрать г. Пришли к противоречию, следовательно, доказываемое утверждение верно. ■

Следствие. Объекты недоминирующегося подмножества Б, такого, что г(х,Б) ~ г(х), являются фиксированными для правила г. Для правила г класса у Є У в Хт входят объекты из Б класса у, а в Х' — объекты из Б всех остальных классов.

Рассмотрим снова граф связей правил (рис. 2), но теперь расположим правила снизу вверх, по возрастанию числа ошибок на полной выборке т(г^), см. рис. 3. В первом (нижнем) слое расположены правила с наименьшим числом ошибок (в данном примере есть корректное правило, не допускающее ошибок на полной выборке). В следующем слое расположены правила, допускающие на одну ошибку больше, и так далее.

Теорема 3. Пусть Q — множество правил, связанных с правилом г, таких, что ^(ц,г)\ = 1. Тогда

ЦХ и D(q,г)) С Х'.

дЕЯ

Доказательство. Множество правил Я лежит слоем ниже относительно правила г. Утвер-

т Ь — т

ждение теоремы можно переписать в виде

U xq U U D(q,r) С х'г.

qEQ qEQ

Согласно теореме 1, UqeQ D(q,r) С X>r.

Если исключить из рассмотрения объект x = D(q,r), то правила r и q Є Q имеют одинаковые векторы ошибок, могут выбираться пессимистичным методом МЭР только на одинаковых разбиениях, следовательно, X'q С XГ для всех q Є Q. ■

Для отыскания фиксированных точек воспользуемся следующим алгоритмом. Будем просматривать правила послойно в порядке увеличения числа ошибок на полной выборке. Внутри слоя порядок просмотра правил не важен. Для каждого просмотренного правила r возьмем множество правил

Q = {q Є R: \D(q,r)\ = 1},

то есть правила, связанные с r и находящиеся на слой ниже. Для каждого такого правила q Є Q добавим x = D(q,r) в Xq по теореме 2. По теореме 3 добавим в Xj объекты множества IWXq U D(q,r)).

Заметим, что в рамках теории Вапника-Чер-воненкиса возможно получить оценку с аналогичной структурой [5]:

tER

где mT = m(r,X). Эта оценка учитывает расслоение семейства правил R по уровням числа ошибок тт. Оценка (5) более точна за счет учета связности. Чем точнее будут верхние оценки вероятностей Pt , тем точнее будет и оценка (5).

V. Эксперименты и выводы

Для эксперимента на модельных данных положим: число признаков n = 2, число классов

Y = {0,1}, число объектов L = 100, по 50 объектов в каждом классе. Возьмём четыре модельных выборки «Correct», «Noise10», «Noise20» и «Random», отличающихся только классификацией объектов. Для выборки «Correct» существует

правило, разделяющее два класса без ошибок. Выборка «Noise10» получается из «Correct» небольшим зашумлением: для 10 пограничных объектов класс меняется на противоположный. Для выборки «Noise20» класс меняется у 20 объектов. Выборка «Random» получается случайным назначением классов всем объектам. В качестве ориентира используем оценки Qe, вычисляемые методом Монте-Карло по 100 случайным разбиениям X = X U X, см. рис. 4.

На рис. 5 показано, что завышенность оценки (5) тем больше, чем менее точной является закономерность, содержащаяся в выборке. Также это можно наблюдать на рис. 6.

На рис. 7 показано, что завышенность полученных оценок относительно невелика.

Литература

1. Вапник ВН, Червоненкис А.Я. Теория распознавания образов. — М.: Наука, 1974.

2. Донской В.И., Башта А.И. Дискретные модели принятия решений при неполной информации. — Симферополь: Таврия, 1992. — 166 с.

3. Кочедыков Д.А., Ивахненко А.А., Воронцов К.В. Применение логических алгоритмов классификации в задачах кредитного скорин-га и управления риском кредитного портфеля банка // Всеросс. конф. ММРО-13, 2007. — С. 484-488.

4. Martin J.K. An exact probability metric for decision tree splitting and stopping // Machine Learning. — 1997. — V. 28, N 2-3. — P. 257-291.

5. Vorontsov K. V. Combinatorial probability and the tightness of generalization bounds // Patt. Rec. and Image Anal. — 2008. — V. 18, N 2. — P. 243-259.

6. Vorontsov K.V. Splitting and similarity phenomena in the sets of classifiers and their effect on the probability of overfitting // Patt. Rec. and Image Analysis. — 2009. — V. 19, N 3. — P. 412-420.

7. Vorontsov K. V. Exact combinatorial bounds on the probability of overfitting for empirical risk minimization // Patt. Rec. and Image Analysis. — 2010. — V. 20, N 3. — P. 269-285.

Поступила в редакцию 27.09.2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.