Научная статья на тему 'Комбинаторные оценки переобучения пороговых решающих правил'

Комбинаторные оценки переобучения пороговых решающих правил Текст научной статьи по специальности «Математика»

CC BY
179
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКОЕ ОБУЧЕНИЕ / COMPUTATIONAL LEARNING THEORY / МИНИМИЗАЦИИ ЭМПИРИЧЕСКОГО РИСКА / EMPIRICAL RISK MINIMIZATION / КОМБИНАТОРНАЯ ТЕОРИЯ ПЕРЕОБУЧЕНИЯ / COMBINATORIAL THEORY OF OVERFITTING / ВЕРОЯТНОСТЬ ПЕРЕОБУЧЕНИЯ / PROBABILITY OF OVERFITTING / ПОЛНЫЙ СКОЛЬЗЯЩИЙ КОНТРОЛЬ / ОБОБЩАЮЩАЯ СПОСОБНОСТЬ / GENERALIZATION ABILITY / ПОРОГОВОЕ ПРАВИЛО / THRESHOLD CLASSIFIER / ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ / COMPUTATIONAL COMPLEXITY / COMPLETE CROSS-VALIDATION

Аннотация научной статьи по математике, автор научной работы — Ишкина Шаура Хабировна

Оценивание обобщающей способности является фундаментальной задачей теории статистического обучения. Тем не менее, точные и вычислительно эффективные оценки до сих пор не известны даже для многих простых частных случаев. В данной работе исследуется семейство одномерных пороговых решающих правил. Применяется комбинаторная теория переобучения, основанная на единственном вероятностном допущении, что все разбиения множества объектов на обучающую и тестовую выборки равновероятны. Предлагается полиномиальный алгоритм для вычисления функционалов вероятности переобучения и полного скользящего контроля. Алгоритм основан на рекуррентном подсчете числа допустимых траекторий при блуждании по трехмерной сетке между двумя заданными точками с ограничениями специального вида. Проведенное сравнение полученных точных оценок обобщающей способности демонстрирует завышенность существующих верхних оценок и их неприменимость для реальных задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Combinatorial bounds of overfitting for threshold classifiers

Estimating the generalization ability is a fundamental objective of statistical learning theory. However, accurate and computationally efficient bounds are still unknown even for many very simple cases. In this paper, we study an one-dimensional threshold decision rules. We employ the combinatorial theory of overfitting based on a single probabilistic assumption that all partitions of a set of objects into an observed training sample and a hidden test sample are of equal probability. We propose a polynomial algorithm for computing both probability of overfitting and complete cross-validation. The algorithm exploits the recurrent calculation of the number of admissible paths while walking on a three-dimensional net between two prescribed points with restrictions of special form. We compare the obtain sharp estimate of the generalized ability and demonstrate that the known upper bound are too overstated and they can not be applied for practical problems.

Текст научной работы на тему «Комбинаторные оценки переобучения пороговых решающих правил»

ISSN 2074-1871 Уфимский математический журнал. Том 10. Ш 1 (2018). С. 50-65.

УДК 519.25

КОМБИНАТОРНЫЕ ОЦЕНКИ ПЕРЕОБУЧЕНИЯ ПОРОГОВЫХ РЕШАЮЩИХ ПРАВИЛ

Ш.Х. ИШКИНА

Аннотация. Оценивание обобщающей способности является фундаментальной задачей теории статистического обучения. Тем не менее, точные и вычислительно эффективные оценки до сих пор не известны даже для многих простых частных случаев. В данной работе исследуется семейство одномерных пороговых решающих правил. Применяется комбинаторная теория переобучения, основанная на единственном вероятностном допущении, что все разбиения множества объектов на обучающую и тестовую выборки равновероятны. Предлагается полиномиальный алгоритм для вычисления функционалов вероятности переобучения и полного скользящего контроля. Алгоритм основан на рекуррентном подсчете числа допустимых траекторий при блуждании по трехмерной сетке между двумя заданными точками с ограничениями специального вида. Проведенное сравнение полученных точных оценок обобщающей способности демонстрирует завышенность существующих верхних оценок и их неприменимость для реальных задач.

Ключевые слова: статистическое обучение, минимизации эмпирического риска, комбинаторная теория переобучения, вероятность переобучения, полный скользящий контроль, обобщающая способность, пороговое правило, вычислительная сложность.

Mathematics Subject Classification: 68Q32, 60С05

1. Введение

Рассмотрим следующую математическую модель принятия решений в условиях неполноты информации. Задана бинарная матрица, строки которой соответствуют объектам, столбцы — правилам принятия решений, называемым также классификаторами или гипотезами. В ячейке матрицы находится единица тогда и только тогда, когда данный классификатор ошибается на данном объекте. Из множества X всех строк матрицы случайно и равновероятно выбирается наблюдаемая обучающая выборка — подмножество X С X фиксированной мощности. Затем из множества A всех столбцов матрицы выбирается классификатор с минимальной частотой ошибок на X. Требуется оценить частоту ошибок этого классификатора на скрытой контрольной выборке X = X\X. Если разность частот ошибок на контрольной и обучающей выборках превышает е, то говорят, что произошло переобучение. Получение верхних оценок вероятности переобучения является одной из основных задач теории статистического обучения [1] [3],

Классические оценки Вапника-Червоненкиса [1] зависят только от размера матрицы ошибок. Будучи оценками «худшего случая», они завышены на порядки и плохо согласуются с результатами экспериментов [4]. Более тонкие оценки зависят от свойств отношения частичного порядка на множестве вектор-столбцов матрицы ошибок [5]. В комбинаторной

Sh.Kh. Ishkina, Combinatorial bounds of overfitting for threshold classifiers.

Работа выполнена при финансовой поддержке РФФИ, проекты № 15-37-50350 мсш_нр и № 14-07-00847.

© Ишкина Ш.Х. 2018.

Поступила 21 декабря 2016 г.

теории переобучения [6]-[8] обосновывается необходимость сочетания двух свойств, расслоения и связности [9, 12], Благодаря расслоению, классификаторы с высокой вероятностью ошибки вносят пренебрежимо малый вклад в переобучение. Благодаря связности, у классификаторов с близкими векторами ошибок резко снижается вклад в переобучение,

В [13] получены условия, при которых оценка расслоения-связности является точной. Им удовлетворяют, в частности, монотонные и унимодальные цепи классификаторов [9]. В практических задачах статистического обучения такие цепи могут порождаться элементарными пороговыми правилами, используемых в таких алгоритмах классификации, как решающие деревья, логические закономерности [14], алгоритмы вычисления оценок [15], а также при построении линейных классификаторов методом покоординатной оптимизации. Но при этом делается предположение о существовании безошибочного правила, практически не выполнимое в реальных задачах, В общем случае пороговые правила порождают последовательности классификаторов, называемые прямыми цепями.

Ранее для них были известны лишь верхние оценки ожидаемой частоты ошибок на контрольной выборке [16], Различные уточнения оценок расслоения-связности, например, учитывающие попарную конкуренцию между классификаторами [17] или послойную кластеризацию множества классификаторов [18, 19], также остаются завышенными для прямых цепей,

В данной работе предлагается алгоритм полиномиальной сложности для вычисления вероятности переобучения произвольной прямой цепи. Алгоритм основан на рекуррентном подсчете числа допустимых траекторий при блуждании по трехмерной сетке между двумя заданными точками с ограничениями специального вида,

1.1. Основные определения. Задано конечное множество X = {х\,..., хь}, элементы которого называются объектами, и конечное множество А, элементы которого называются классификатора,ми. Множество А называется семейством классификаторов.

Задана функция I: А х X ^ {0, 1} называемая индикатором ошибки. Если I(а,х) = 1, то говорят, что классификатор а допускает ошибку на объекте х. Бинарная матрица (/(а,х): х Е Х,а Е А) размера |Х|х|А| называется матрицей ошибок.

Предполагается, что каждому классификатору а Е А взаимно однозначно соответствует его вектор ошибок (I(а,Хг))]^=1, т.е. в матрице ошибок не может быть двух равных столбцов. Будем считать, что порядок строк в матрице ошибок не важен. Договоримся обозначать через а как классификатор, так и его вектор ошибок.

Числом ошибок классификатора а на выборке X С X называется величина

п(а,Х) = ^^ I(а,х).

хех

Частотой ошибок классификатора а на выборке X С X называется величина

и (а,Х) = п(а,Х)/\Х\.

Обозначим через [X]г множество всех подмножеств X мощноети I < Ь. Подмножества X Е [X]г будем называть обучающими выборкам,и, а их дополнения X = X\X — контрольным,и выборкам,и. Введем на множестве [Х]г равномерное распределение вероятностей:

?(Х) = 1/С1ь, X Е [X]г.

Переобученностью классификатора а на разбиении (X, X) называется величина

8(а,Х) = V (а,Х) — и (а,Х).

Если 8(а,Х) > е, то будем говорить, что классификатор а переобучен па X.

Методом обучения называется отображение ^: [X]г ^ А, которое каждой обучающей выборке X ставит в соответствие классификатор а = ^Х из семейства А,

Пессимистичной минимизацией эмпирического риска (ПМЭР) называется метод обучения, который выбирает классификатор, допускающий наименьшее число ошибок на обучающей выборке X, а если таких классификаторов в семействе несколько, то выбирает из них классификатор с наибольшим числом ошибок на контрольной выборке X [9], Для фиксированного метода обучения семейства классификаторов А, множества X

А, X, I) = ?[8{цХ,Х) ^ = У [5{цХ,Х) ^ е].

L хе[х]

Здесь и далее квадратные скобки будут использоваться для преобразования логического условия в числовое значение по правилу [истина] = 1, [ложь] = 0,

Полным скользящим контролем, (complete cross-validation, CCV) называется функционал, равный математическому ожиданию числа ошибок на контрольной выборке:

CCV(j, A, X, l) = Eu(jX, X) = -1 ^ u(jX,X).

С

L хе[х]1

Эффективное вычисление Qe и CCV непосредственно по определению возможно только при малых |X| = L — I. Если I близко к L/2, то число слагаемых экспоненциально по L.

1.2. Прямые последовательности классификаторов. Рассмотрим множества объектов, по которым различаются соседние классификаторы семейства A = {а0,... ,ар}:

Gp = {х е X 11( ар,х) = 1( ар+1,х)}, р = 0,...,Р — 1. (1)

Определение 1. Семейство классификаторов называется прям,ой последовательностью, если, множества Gp попарно не пересекаются.

Заметим, что из определения следует, что порядок классификаторов важен. Действительно, рассмотрим два семейства классификаторов, первое из которых является прямой последовательностью A = {а0,... ,ар}, а второе получается из первого перестановкой классификаторов ар и ар+1 для некоторого р\ A' = {а0,..., ар-1, ар+1, ар, ар+2,..., ар}. Определим множества G^ ^^ ^^^^ ^^^вда семейетво A' не является прямой последовательностью, поскольку соседние классификаторы ар-1 и ар+1 различаются по множеству объектов Gр-1 UG^, а классификаторы ар+1 и ар - по множеству объектов Gj)^ т.е. эти множества пересекаются.

Определение 2. Прямая последовательность A = {а0,...,ар} называется, прям,ой, цепью, если каждая пара соседних классификаторов различается, по одному объекту: |G^ = 1, р = 0,..., Р — 1. Число Р называется длиной прям,ой цепи, A.

Определение 3. Одномерным пороговым классификатором, над .множеством, X С R называется, семейство пороговых правил, а(х, в) = [х ^ в], где в е R - параметр, называемый порогом.

Согласно следующей теореме, понятия прямой последовательности и одномерного порогового классификатора являются синонимами.

Теорема 1. Определим .множество V прямых последовательностей, A = {а0,... ,ар}, таких, что J^^o |G^ = L, где G^ ^^^^^^^^^^ ^^ и множество U одномерных пороговых классификаторов над множеством X = {х1,... ,х¿} точек числовой, оси, таким, что каждому х^ соответствует истинная, метка класса, yi е {0,1}. Тогда, между этими множествами имеется, биекция.

Доказательство. Во множествах V и U объекты определены с точностью до переименования объектов множества X,

Каждый объект и G U однозначно определяется распределением объектов двух классов {0,1} на числовой оси, т.е. расположением точек множества X та оси R и набором правильных ответов {у1}... ,уь}- Значения порогов выбираются так, чтобы они всеми воз-

X

Каждый объект множества V однозначно определяется количеством единиц в векторе а0, т.е, п(а0, X) и последовательностью пар (n^nf)^_о, где пр0 - количество пулей в векторе ар, являющихся единицами в ар+1, и - количество единиц в векторе ар, являющихся нулями в ар+1. При наличии данной информации матрица ошибок {а0,... ,ар} строится следующим образом. Вектор а0 задается так, что на первых п(а0, X) позициях

стоят единицы, затем нули. Для каждого р последовательно, начиная ср = 0, вектор ар+1

р " р

получается из вектора ар путем инвертировапия щ нулей и п\ единиц.

Построим отображение f : U ^ V следующим образом. Пусть дан объект и G U, т.е. набор точек х1 ^ • • • ^ xl и правильных ответов у1}... Поставим ему в соответствие прямую последовательность v = f (и) G V.

Для этого введём индикатор ошибки I(а, Xi) = [a(xi, в) = у^ . Варьирование в порождает не более L + 1 классификаторов с попарно различными векторами ошибок. Они образуют прямую последовательность. Если все объекты xi попарно различны, х1 < х2 < • • • < xl, то прямая последовательность является прямой цепью.

Отображение f однозначно определяет прямую последовательность по семейству пороговых правил, т.е. оно является инъекцией. Докажем, что оно является сюръекцией.

Пусть дана прямая последовательность v G V, т.е. величина п(а0, X) и набор пар (uq, п^р-■ Построим матрицу ошибок {а0,..., ар}. Определим семейство пороговых правил и G U следующим образом. Поставим в соответствие каждому множеству Gp точки х^ = • • • = х^р*' и положим, что х1 < х1 < • • • < Хр_v Положим угр = 1, если I(ар,хгр) = 0, и Ур = 0 в противном случае. Легко проверить, что построенное семейство и является прообразом v при отображении f, т.е. v = f (и). Таким образом, отображепие f является биекцией, □

Пример 1. На рис, 1 показан пример прямой цепи. По оси х отложены объекты хг. Правильные решения уг показаны точк ами о и •. Порог и 9 выбраны посередине между соседними объектами. Ниже показан график числа ошибок классификаторов и матрица ошибок.

Ж1 Х2 Хз X4 х5 х6 X7 X

1»1»|0|0|0|»|0|-^

00 Ö-1 02 03 04 Ö-5 Об 0,7

п(ар ,X)

Ж1 1 0 0 0 0 0 0 0

X2 1 1 0 0 0 0 0 0

Хз 0 0 0 1 1 1 1 1

х4 0 0 0 0 1 1 1 1

X5 0 0 0 0 0 1 1 1

Хб 1 1 1 1 1 1 0 0

Х7 0 0 0 0 0 0 0 1

Рис, 1: Пример прямой цепи

54

Ш.Х. ИШКИНА

Определение 4. Прямая цепь А = {а0,...,ар} называется, возрастающей (убывающей), если каждый классификатор ар допускает т + р (соответственно, т — р) ошибок на множестве X при, некотором, значении т. Прямую цепь А будем называть монотонной, если, она, является, убывающей или возрастающей.

А

пи, показанной на рис, 1, имеется четыре участка монотонности: {а0,а^а2} и {а5,а6} — убывающие, {а2, аз, а^, а5} и {а6,а7} — возрастающие,

1.3. Постановка задачи. Найти способ вычисления функционалов вероятности переобучения и полного скользящего контроля С СУ за полиномиальное по Ь время для ПМЭР ^ и произвольной прямой последовательности А,

2. Переобучение произвольного семейства

Пусть дано произвольное подмножество О С X множества X Каждое разбиение (X, XX) множества X = X и X индуцирует разбиение (X П О, XX П О) подмножества О, Также любая пара разбиений (И', 3') и (И'', 3'') подмножеств О' С = X\D/ соответственно определяет разбиение (X, XX) множества X то правилу X = 3' и 3'' и X = 3' и 3''.

Назовем пару классификаторов а и а' неразличимыми на, .множестве X' С X, если 1(а, х) = 1(а', х) для всех х Е X',

Пусть дано произвольное семейство классификаторов А. Пусть на множестве Ах Ах [X]1 имеется отношение строгого порядка а Ух а'. Назовем его финитным, если для любых классификаторов а, а' Е А, неразличимых па множестве X' С X отношение а Ух а' не зависит от выбора разбиения множества X',

Пример 2. Определенные по следующим правилам отношения порядка являются финитными:

1, а Ух а1 ^^ п(а^) < n(а',X);

2, а Ух а ^^ 5(а.X) > б^'^).

Действительно, для любого X Е [X]1 и для любого X' справедливо равенство п(а^) = п(а^ П X') + п(а^ \ X'). Если классификаторы а и а' неразличимы на множестве X', то п(а, X' П X) = п(а', X' П X), откуда следует финитноеть отношения 1,

Для доказательства финитности отношения 2 перепишем переобученное! ь как 8(а^) = ~п(а, X) — (Ь^£)/п(а, X), Тогда утверждение следует из первого пункта.

Из определения вытекает следующее свойство:

Лемма 1. Пусть классификаторы, сем,ейства, А' С А неразличимы на множестве N. Тогда, для любого а Е А' выполнение финитного отн,ошения, а Ух а' одновременно для, всех а' Е А' \ {а} не зависит от выбора разбиения множества N.

Будем говорить, что па выборке X классификатор а лучше, чем а', если а Ух а'. Назовем метод обучения ^: [X] ^ А финитным, если результатом обучения является лучший с точки зрения финитного отношения Ух классификатор:

а = ^ а Ух а', У а! = а. (2)

Пример 3. Метод минимизации эмпирического риска (МЭР), выбирающий классификатор с минимальным числом ошибок на обучающей выборке, и метод максимизации переобученное™ (МП), выбирающий классификатор с максимальной переобученноетыо, являются финитными.

Метод МП возникает в задаче комбинаторного вычисления радемахеровской сложности

L 2

класса решающих правил [10]. Действительно, при I = ^ случайные величины

! + 1, если хг G X,

-

-1, если xi G X,

подчиняются радемахеровекому распределению Р (аг = 1) = Р (аг = — 1) = Тогда раде-махеровская сложность семейства равна ожидаемой переобученноети метода МП л [11]:

2 * - -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X) = E sup — У^ °гаг = E sup u(a, XX) — u(a, X) = (¡¡, XX).

aeA L

Радемахеровскую сложность можно рассматривать как величину, описывающую сложность класса решающих правил. Чем больше Радемахеровская сложность, тем лучше ошибки классификаторов семейства могут коррелировать со случайным шумом аг.

Обозначим через D подмножество объектов, по которым классификаторы семейства A = {ao,..., ap} различимы:

D = Go U ••• UGp-i = {x G X |3 a,a' G A: I(a,x) = I(a',x)}, (3)

где множества Gp определяются согласно (1).

Объекты множества N = X \ D назовем нейтральными. На множестве N классификаторы семейства неразличимы и допускают одинаковое число ошибок т. Через тр обозначим число ошибок классификатора ap на множестве D:

т = n(a, N), yaG A; (4)

тр = n(ap, D).

Сведем задачу вычисления вероятности переобучения Q£ и полного скользящего контроля CCV к нахождению числа разбиений множества D с некоторыми ограничениями.

D X

а через е — число ошибок классификатора ap на этих объектах. Введём две функции

N ap X

Np(t, e) = #{(X П N,X П N) | 6(ap,X) ^ e, t= |X П D|, e = n(ap,X П D)}, и число разбиений множества D, таких, что ap является результатом обучения: Dp(t, е) = #{(X П D, X П D) | ¡X = ap, t= |X П D|, е = n(ap,X П D)}.

Введём гипергеометрическую функцию распределения

^ min{[ s\,l,m}

Hlfm(s) = —f CmCL-m>

CL i o

где [xj — целая часть x, т.е. наибольшее целое число, не превосходящее x. Гипергеометрическая функция распределения HLm(s) для данного множества X мощности L и выборки X0 с X объем а т равна доле выборок множества X объема I, содержащих не более s элементов из X0. Будем полагать Сгп = 0 при невыполнении условия 0 ^ i ^ п.

Теорема 2. Для, произвольного сем,ейства, классификаторов A = {a0,... ,ap}, финитного метода обучения множества X мощности L, объема обучающей выборки I, точности, £ G (0, 1) вероятность переобучения имеет вид

1p

Q£ = Е Dp(f, e)Np(f,е), ^

L p=0 (t,e)evp

sp(e) = —(n(dp, X) — e(L — l)) — е.

где множество D, параметры mp u т определяются по (3) и (4) и

= {(t, е) | 0 ^ t ^ min{l, |D|}, 0 ^ е ^ min{t,mp}}; (6)

Npit, е) = С1£-щ Н1—щ (Sp(e)); (7)

I

L

Доказательство. Представим вероятность переобучения в виде

р

Qs = Е P [ßX = ap и ö(ap,X) ^ е\.

p=о

Рассмотрим множество разбиений (X, XX) с фиксированными значениями i и е:

t = |X П D|, e = n(ap,X П D). (8)

Множество допустимых значений (t, e) есть Фp, согласно (6),

Для таких разбиений выполнение условия ö(ap,X) ^ е не зависит от выбора разбиения множества D, а выполнение условия ßX = ap по лемме 1 не зависит от выбора разбиения множества N, поскольку классификаторы неразличимы на множестве N. Поэтому для

, , X

выполнены условия ßX = ap и 5(ßX,X) ^ е, равно произведению Np(t, e)Dp(t, е).

Докажем (7), Пусть n(ap,X П N) = s, тогда n(ap,X) = е + s. Условие ö(ap,X) ^ е эквивалентно условию n(ap,X) ^ j (n(ap, X) — e(L — l)), значит, s ^ sp(e). Число разбиений множества N при данных ins равно т, откуда следует

Sp(е) 1 sp(e)

Np (t, е) = ^ СтСL—\D\—m = СL-|D| Cl—t E СтС]--\0\-т = СL-\D\ HL-\D\( sp(e)).

s=0 UL-|D\ s=0 □

Для функционала полного скользящего контроля имеет место аналогичная теорема.

Теорема 3. Для, произвольного семейства классификаторов A = {а0,... ,ар}, финитного метода обучения ß, множества X мощности L, объема обучающей выборки I, функционал полного скользящего контроля имеет вид

1 р

ССУ = (Г 1)С1 У Е Dp(t, e)Fp(t, е), (9)

(L — «)Сl p=о (tе)еър

где

min{l—t,m}

Fp(t, е) = У СтС1———\-тНар, X) — s — e), (10)

s=0

множества О и определяются по (3) и (6), параметры тр и т определяются, по (4).

Доказательство. Запишем формулу полного скользящего контроля и переставим в ней знаки суммирования:

р р

1 р 1 р ССУ = сГ У У}^ = ар] и( ар, XX) = ^У У [рХ = ар]и(ар,Х).

ь хе[х]г р=о ь р=о хе[х]1

Выполнение условия ^X = ар по лемме 1 не зависит от выбора разбиепия множества N.

ар

п(ар, X) = п(ар, X) — п(ар, X) = п(ар, X) — п(ар, X П О) — п(ар, X П М).

Определим параметры Ь и е по формулам (8), Обозначим э = п(ар,Х П М), Из ограничений 8 + 1 т следует верхняя оценка параметра в в (10),

Легко проверить, что число разбиений множества N при данных ¿из равно откуда следует утверждение теоремы, □

Таким образом, задача сводится к вычислению для каждого р значений ИР(Ь, е) на всем множестве Фр. Для случая прямой последовательности далее будет описан рекуррентный алгоритм вычисления ИР(Ь, е).

3. Вычисление количества разбиений множества ребер прямой

последовательности

Пусть теперь семейство А = {ао,... ,ар} является прямой последовательностью. Объекты множества О будем называть ребрами прямой последовательности, А,

3.1. Сведение к задачам на левой и правой последовательностях. Рассмотрим классификатор ар и зафиксируем точку (Ь, е ) € Фр. Относительно ар прямая последовательность А разбивается на две: левую а0, а\,..., ар и правую ар, ар+\,..., ар.

Сведем задачу вычисления ИР(Ь, е) к нахождению числа разбиений множества ребер левой и правой последовательностей с некоторыми ограничениями.

Теорема 4. Пусть ^ - финитный метод обучения. Для каждого р для, всех (Ь, е) € Фр число разбиений множества О таких, что Ь = |Х П е = п(ар, Х П О) м ^Х = ар, равно

Ир(I, е) = ^ ^ Ьр(1',е')Пр(1",е"), (11)

1'+г"=г е'+е''=е

Ьр(г , е') = П ЬР,Х П Ьр)

Кр(г", е") = Щ(Х П Мр, Х П Мр)

,

,

где

Уй = 0,... ,р ар Ух аа, г' = |Х П Ьр|, е' = п(ар, Х П Ьр)

Уй = р + 1,... ,Р ар Ух аа, г" = Х П Мр|, е" = п(ар, Х П М

множества Ьр и, Мр - множества ребер левой, и правой, последовательностей, соответственно, точки (Ь',е') и (Ь",е") являются, элементами, множеств Ф'р и Фр соответственно, где

Фр = {(г',е') | 0 ^ г' ^ шт{/, |ЬР|}, 0 ^ е' ^ шт^', п(ар, Ьр)}}, (14)

Ф^= {(г", е") 1 0 ^ V' ^ шт{1, |М|}, 0 ^ е" ^ шт{Ъ", п(ар, Мр)}}. (15)

Доказательство. Множества Ьр и Мр не пересекаются, значит, классификаторы левой последовательности неразличимы на Мр, классификаторы правой последовательности неразличимы па Ьр. Тогда выполнение условия (2) для всех классификаторов левой последовательности по лемме 1 не зависит от выбора разбиения множества Мр, Аналогично, выполнение условия (2) для всех классификаторов правой последовательности не зависит от выбора разбиения множества Ьр, Значит, общее число разбиений множества О, в которых метод обучения выбирает ар, является произведением числа разбиений

множеств Ьр и Мр, в которых ар лучше всех классификаторов левой и правой поеледова-

, , ,

задаваемых параметрами ¿ие . □

Назовем разбиения множеств Ьр и Мр, удовлетворяющие условиям (12) и (13) соответственно, допустимыми.

Рассмотрим метод ПМЭР, Докажем, что он является финитным, значит, для него спра-

разбиений Ьр(V, е') и Кр(Ь'', е'') для всех точек множеств Ф'р и Ф'р.

Будем считать, что из классификаторов, минимизирующих число ошибок на обучающей выборке X и допускающих равное число ошибок на контрольной выборке X, выбирается классификатор с наибольшим номером. Данное ограничение не влияет на оценку вероятности переобучения и полного скользящего контроля, но позволяет точно вычислить искомое количество разбиений,

ар

ке X назовем вели чину Ар(а,Х) = п(а ,Х) — п( ар,Х).

Лемма 2. Метод ПМЭР является финитным с отношением порядка Ух, определенным, следующим образом,: классификатор ар лучше, чем классификатор а, на выборке X тогда, и только тогда, когда, выполнено одно из следующих условий:

1) Ар(а, X) > 0;

2) Ар(а,Х) = 0 и а находится, в левой, последовательности, и п(а, X) ^ п(ар, X);

3) Ар(а,Х) = 0 и а находится, в правой, последовательности, и п(а, X) < п(ар, X).

Лемма следует из определения ПМЭР,

А

цепью. Тогда левая и правая последовательности Ьр и Мр также являются цепями. Рассматривается метод ПМЭР ^ с определенным то лемме 2 отношением порядка Ух,

3.2. Нахождение числа допустимых разбиений множества ребер левой цепи.

Найдём Ьр(ге') для каждого р в каждой точке (Ь', е') Е Ф'р. Заметим, что при р = 0 решение задачи тривиально: множество Ф0 состоит из одной точки (0, 0) и Ь0(0, 0) = 1. Всюду далее считаем 1 ^ р ^ Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ар

канчивалась в а0. Обозначим {Ь0,..., Ьр}, где Ьа = ар-а для каждого d = 0,... ,р. Запас ошибок относительно ар запишем как Д0(Ьа,Х) = Ар(ар-а,Х) для каждого d.

Левая цепь Ьр составлена из возрастающих и убывающих монотонных участков. Обозначим множество всех ребер возрастающих монотонных участков цепи через Ср, убывающих монотонных участков цепи — через 1р. Верно, что Ср и I, = Ьр,

Цепь прямая, следовательно, Ь0 то ошибается та всех объектах Ср, т.е.

Ср = {х Е Ьр: 1(Ь0,х) = 0}, р р 0

1р = {х Е Ьр: 1(Ъ0,х) = 1}. У ;

Тогда верно, что е ' = |Х П 1,|, а |Х П Ср| = Ь' — е'.

Заметим, что, поскольку классификаторы левой цепи различимы только на объектах множества Ьр, то для любого классификатора Ь из левой цепи верно

А0(Ь,Х) = А0(Ь,Х П Ьр), УХ С X.

Отсюда следует, что, зафиксировав разбиение множества Ьр, мы определим запас ошибок па всех соответствующих обучающих выборках X.

Введём трехмерную сетку 0,р = {0,..., |Ьр|} х { — |Ьр|,..., |Ьр|} х {0,..., |Ьр|}.

Определение 6. Определим на 0,р множество Тр траекторий, выходящих из точ,-(0, 0, 0)

1) из точки (d, А, г) в точку ^ + 1, А, г) - «вправо»;

2) из точки (d, А, г) в точку ^ + 1, А + 1, г) - «вправо-вверх»;

3) из точки (d, А, г) в точку ^ +1, А — 1,г + 1) - «вправо-вниз»;

причем для каждого й переход из точки (й, А, г) удовлетворяет условию: пусть классификаторы, Ьа и Ьа+1 соединены ребром, х, тогда,

1) если х € Ср, то это переход вида, «вправо» или, «вправо-вверх»;

2) если, х € 1р, то это переход вида, «вправо» или, «вправо-вниз».

Теорема 5. Между разбиениями множества Ьр и траекториями из м,нож^ества, Тр имеется взаимно однозначное соответствие. Траектория, соответствующая разбиению (Х П Ьр, Х П Ьр), проходит через точки (й, А, г), где для, каждого й = 0,... ,р координата А = А0(Ьа,Х), а координата г равна числу ребер из Х П 1р между Ь0 и Ьа.

Доказательство. Пусть классификаторы Ьа_1 и Ьа соединены ребром х.

Если х € Х, то А0(Ъа,Х) = А0(Ьа_1,Х), так как запас ошибок зависит только от Х. Пусть х лежит в Х. Если х лежит в возрастающей цепи, то Ьа_1 не ошибается на этом ребре, тогда как Ьа ошибается. Тогда А0(Ьа,Х) = А0(Ьа_1,Х) + 1. Если же х лежит в 1р, то Ьа_ 1 ошибается на этом объекте, а Ьа — нет. Значит, А0(Ьа,Х) = А0(Ьа_1,Х) — 1.

Поставим в соответствие разбиению множества Ьр траекторию по следующему правилу,

( , А, ) = 0

(0,0, 0). Из этой точки вдоль траектории выполняется переход вида «вправо», если х € Х; «вправо-вверх», если х € Х П Ср; «вправо-вниз», если х € Х П 1р.

А

1

но целиком лежит на сетке Пр и, одедовательно, во множеетве Тр и однозначно определена. По тем же правилам каждой траектории из Тр можно однозначно поставить в соответствие разбиение множества Ьр, Значит, отображение из множества разбиений во множество траекторий Тр еюръективно и инъективно, т.е. оно биективно, □

Пример 4. На рис, 2 на нижнем графике изображена цепь, где выделены ребра, попавшие в обучающую выборку. Такому разбиению ребер цепи соответствует траектория, проекция которой па плоскость (й, А) изображена на верхнем графике, В данном примере

А

имеются классификаторы с отрицательным запасом ошибок. Следовательно, по лемме 2

0

пия. Исключив из рассмотрения траектории, не удовлетворяющие лемме 2, мы отбросим и разбиения, не являющиеся допустимыми.

Рис, 2: Соответствие разбиения цепи (нижний график) проекции траектории (верхний график). Двойными линиями выделены ребра цепи, попавшие в обучающую выборку

Определим множество

О' = I(d А ') О 0 ^ ъ ^ А и |А| ^ d и 1 , ,

р = А, г) Е р (либо А > 0, либо (А = 0ип(Ъа, X) ^п(Ъ0, X))) у [0

Лемма 3. Всякая точка (d, А, г) траектории из Тр, соответствующей допустимому разбиению множества Ьр, принадлежит множеству О'р С Ор.

Доказательство. Выполнение первых двух условий из определения (17) является следствием теоремы 5, Третье условие есть повторение условий леммы 2, □

Пусть Тр(А, А, г) есть число траекторий из Тр, соединяющих точку (0, 0, 0) с (А, А, г)

О р

разбиению множества Ьр следует

Лемма 4. В каждой точке (d, А, г) на, трехмерной сетке Ор величина Тр(А, А, г) вычисляется, рекуррентно.

1) Начальное условие Тр(0, 0, 0) = 1.

2) Если (А, А, г) Е Ор, то Тр(А, А, г) = 0.

3) Пусть Ьа-1 и Ьа соединены ребром, х. Тогда,

{

Тр(А — 1, А, г) + Тр(А — 1, А — 1, г), если х Е Ср, 1р(и,, а, ч = ^ тр(а — 1, а, {) + тр(а — 1, А + 1, I — 1), если х Е !р,

где множества Ср и 1р определяются, по (16).

Теорема 6. Пусть даны метод ПМЭР множество X мощности Ь, объем, обучающей выборки I и прямая цепь А = {а0,..., ар}. Тогда, для каж дого р = 1,... ,Р в каждой точке (£,е') множества Ф'р, определенного в (14), число Ьр(Ь',е') допустимых разбиений множества Ьр, определяемое по (12), равно

Ьр(£, е') = Тр(|Ьр|, г' — 2е', е')

и вычисляется, рекуррентно по правилам,, описанным в лемме 4, где Ьа = ар-а для, каждого а, при краевых условиях Ь0(0, 0) = 1.

Доказательство. Из теоремы 5 следует, что

Ар(а0,Х) = X П Ср| — |Х П 1р| =г' — 2е'.

Между разбиениями множества ребер левой цепи и траекториями из Тр имеется би-екция. Таким образом, число траекторий, проходящих через точку (р, Ь' — 2е', е'), равно

числу разбиений, удовлетворяющих условиям Ь' = |Х П Ьр| и е ' = п(ар,Х П Ьр). Оставив

О р ( , )

тории, соответствующие допустимым разбиениям. Их число равно Тр(|Ьр|, ¿' — 2е', е'). □

Замечание 1. Ограничения г ^ е' и А ^ ¿' — е', являющиеся следствием теоремы 5,

(0, 0, 0)

(' — 2е', е'). Действительно, поскольку величины г и А + г не возрастают, значит, не превосходят значений в конечной точке, т.е. г ^ е' и

А + i ^ £ — 2е' + е' = £ — е'.

Координата г ^ 0 значит, А ^ А + г ^ ¿' — е'. В силу этого замечания, в определение О р

Таким образом, мы научились решать задачу для левой цепи.

3.3. Нахождение допустимых разбиений множества ребер правой цепи. Решаем задачу вычисления Яр(^',е") для каждого р в каждой точке (1",е") Е Ф'р. Решение практически повторяет решение задачи для левой цепи после замены Ьр на Ер и точки (¿',е') на (уЪ",е"). Также имеются краевые условия: при р = Р множество Ф'р = {(0, 0)} и Кр(0, 0) = 1, Дадее полагаем, что 0 ^ р ^ Р — 1.

Обозначим классификаторы цепи через Ьа = ар+а для каждого К = 0,..., Р — р. Из леммы 2 следует, что для справедливости леммы 4 для правой цепи множество О'р необходимо заменить на множество Ор, определяемое следующим образом:

О" = I( 1 Д ) О 0 |Д| ^<и 1 , ,

р = \(1' д'г) Е р (либо Д > 0, либо (Д = 0ип(Ьа, X) < п(Ъо, X))) у [У)

По аналогии с теоремой 6, для правой цепи верна следующая теорема.

Теорема 7. Пусть даны метод ПМЭР множест во X мощности Ь, объем, обучающей выборки I и произвольная прямая цепь А = {а0,...,ар}. Тогда, для каждого р = 0,...,Р — 1 в каждой точке (Ь",е") множества Фр, определенного в (15), число Кр(1",е") допустимых разбиений множества, Ер, определяемое по (13), равно

Рр(1 ",е ") = Тр(\Кр1,г " — 2е ",е ")

и вычисляется, рекуррентно по правилам,, описанным в лемме 4, с заменой множества О'р на О' и Ьа на ар+а для, каждого К. Краевые условия Кр(0, 0) = 1.

Замечание 2. По лемме 2, для всех < = 0,..., Р запас ошибок классификатора аа цепи должен быть неотрицателен для допустимых разбиений множества ребер левой и правой цепи, В частности, Др(а0,Х) = Ь' — 2е' ^ 0 и Др(ар,Х) = ¿" — 2е" ^ 0, Значит, границы изменения вторых координат точек множеств Фр, Фр имеют вид

0 ^ е ^ шт{ , тр}, 0 ^ е' ^ шт{2^,п(ар, Ьр)}, 0 ^ е" ^ шт{^",п(ар, Ер)}.

3.4. Нахождение числа допустимых разбиений множества ребер прямой последовательности. Рассмотрим общий случай прямой последовательности А = {а0,... ,ар}, Сведем задачу вычисления количества допустимых разбиений левой и правой последовательностей к аналогичным задачам для прямых цепей.

Для этого построим прямую цепь Ас, такую, что А С Ас и первый и последний классификаторы семейств совпадают, следующим образом: для каждого г, такого, что |Сг| > 1, добавим в последовательность А прямую цепь

{ао,..., а—} и С и {аг+2,..., ар},

где прямая цепь С такова, что первым классификатором цепи является аг, последним — аг+х. Для определенности будем считать, что строится как прямая цепь, составленная из двух монотонных: убывающей цепи длины пх и возрастающей длины п0, где

пх = #{х Е Сг 11(аг,х) = 1}, по = #{х Е Сг 11(аг,х) = 0}.

Назовем построенную цепь Ас интерполяцией последовательности А. Ее длина равна |0|, ар Е А { р, . . . , о} С А

{ар, . . . , ао} С А

вследствие чего множества допустимых разбиений левой цепи и левой последовательности, определенные по (12), также совпадают. Вычислим их количество по теоремам 6 и 7 с единственным отличием.

Согласно (2), условие ар Ух а должно быть выполнено только для а Е А, Данное огра-

О р О р

их для случая интерполяции последовательности А:

Пр = |(А, А, г) Е Пр П" = ¡.(А, А, г) Е Пр

Ьа Е АДА или {Ьа Е А и 0 ^г^^и |А| ^ А

(А > 0 или (А = 0 и п(Ьа, X) ^ п(Ьо, X))))

И

Ьа Е Ас(Ьа Е А и 0 ^ г ^ А и |А| ^ А 1 , ,

(А > 0 или (А = 0 и п(ЬЛ, X) < п(Ьо, X)))) }' ^ ^

"■с и

Теорема 8. Пусть даны метод ПМЭР множество X мощности Ь, объем, обучающей выборки I и прямая последовательность А = {а0,..., ар}. Пусть прямая цепь Ас = {с0,..., сщ} является интерполяцией последовательности, А. Каждому классификатору ар Е А соответствует сгр Е Ас.

Тогда, для каждого р = 1,..., Р в каждой точке (Ь', е') множества определенного в (14), число Ьр(£,е') допустимых разбиений множества, Ьр, определяемое по (12), равно

Ьр(£, е') = Тр(|Ьр|, £ — 2е', е') (22)

и вычисляется, рекуррентно по правилам,, описанным в лемме 4, где Ьа = для, каждого А и множество П'р определено по (20). Краевые условия Ь0(0, 0) = 1.

Для каждого р = 0,... ,Р — 1 в каждой точке (Ь", е") множества Ф'р, определенного в (15), число Яр(1", е") допустимых разбиений множества Ер, определяемое по (13), равно

Рр(1 ",е") = Тр(1Жр1,1" — 2е ",е") (23)

и вычисляется, рекуррентно по правилам,, описанным в лемме 4, с заменой множества П'р на, П'р, определенного по (21), и Ьа на, сгр+а для каждого ¿.Краевые условия Кр (0, 0) = 1.

4. Алгоритм вычисления вероятности переобучения

и полного скользящего контроля Итак, в теореме 8 описан алгоритм нахождения количества допустимых разбиений мно-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

денные значения в формулы (11), (5) и (9). Для сокращения вычислений по теоремам 2 и 3 для каждого р предлагается заранее вычислить Ьр(1',е'), Кр(1",е"), Мр(1, е) и Рр(Ь, е), после чего сложить полученные значения. Схема вычислений показана в алгоритме 1.

4.1. Сложность алгоритма. Оценим сложность выполнения шагов 5-11 алгоритма 1.

При вычислении Ьр(и ,е') то теореме 6 на шагах 5-6 один раз для всех (¿, А, г) Е П'р вычисляются Тр(А, А, г), затем для каждого (£,е') Е величина Ьр(£,е') полагается равной Тр(— 2е',е'). Множество П'р вложено в куб со стороной 0(|Ьр|), поскольку каждая координата ограничена по модулю количеством ребер в левой последовательности. Следовательно, сложность выполнения шагов 5-6 составляет 0(\Ьр|3), Аналогично, сложность выполнения шагов 7-8 составляет 0(|Кр|)3).

Для нахождения Мр(1, е) и Рр(Ь, е) необходимо вычислить биномиальные коэффициенты Сгт и С^_р_т при всех возможных г за 0(Ь). Биномиальные коэффициенты для каждо-

мые Мр(1, е) и Рр(1, е) вычисляются за О(Ь). Множество вложено в квадрат со стороной Ь, значит, выполнение шагов 9-11 выполняется за 0(Ь3). Следовательно, сложность выполнения шагов 5-11 составляет 0(|0|3 + Ь3) = О(Ь3) для каждого р.

Множества и Фр вложены в квадрат со стороной Р, значит, шаги 12-13 выполняются за 0(Ь5), и сложность алгоритма 1 также составляет 0(Ь5).

Алгоритм 1: Вычисление вероятности переобучения и полного скользящего контроля

Вход: матрица ошибок прямой последовательности А = {а0,... ,ар},

Выход: вероятность переобучения Qe и полный скользящий контроль ССУ,

А А

т

= 0, . . . , Р

4

5

6

7

8

9 10 11

А {ар, . . . , ао} {ар, . . . , ар}

для всех точек (Ь' ,е') множества Фр, определенного по (14) найти Ьр(Ь',е') по формулам (22), (18) и (20);

для всех точек (Ь", е") множества Фр, определенного по (15) найти Яр(Ъ",е") по формулам (23), (18) и (21);

( , ) Ф р

вычислить Мр(1, е) по формуле (7);

вычислить Рр(1, е) по формуле (10); 1 р

12 Qs Е Е Ьр(г',е')Пр(г",е")Мр(г' + г",е' + е"У,

СЬ р=0 Ц',е')еъ'р (Р',е")еЩ

1 р

13 ССУ :=---¡- ЕЕ Е Ьр(1е ')Кр(1", е ")Рр(1' + И\ е' + е");

и р

(Ь — 1)СЬ р=о (4',е')еФ' (*",е")еФр

5. Сравнение с существующими оценками вероятности переобучения

Рассмотрим семейство одномерных пороговых решающих правил в задаче классификации с классами равной мощности. Покажем, что для данной задачи существующие верхние оценки вероятности переобучения являются завышенными.

На рис, 3 в логарифмической шкале отложены значения оценки Вапника-Червоненкиса [1], оценки расслоения-связности [12] и оценки Соколова [17] в сравнении с точной верхней оценкой вероятности переобучения прямой последовательности, Оценка расслоения-связности и Соколова является точной только в одном случае,

т

ница между классами определяется четко, и семейство является унимодальной цепью [9], С увеличением минимального количества ошибок оценка Соколова начинает превосходить точную верхнюю оценку. Оценка Вапника-Червоненкиса для рассматриваемой последовательности оказывается завышенной при любом значении минимального количества ошибок.

6. Заключение

Введено понятие финитного метода обучения, для которого разработан алгоритм вычисления вероятности переобучения и полного скользящего контроля прямых последовательностей классификаторов, порождаемых элементарными пороговыми правилами при варьировании параметра порога. Показано, что финитными являются метод минимизации эмпирического риска (МЭР) и метод максимизации переобученности (МП), Для МЭР показано, что существующие верхние оценки вероятности переобучения прямых последовательностей являются завышенными и неприменимыми для реальных задач.

> >

-1

20

36

44

точная верхняя оценка оценка Соколова

52 60 68 76 84 92

Минимальное количество ошибок

♦—♦ оценка расслоения-связности ■—■ оценка Вапника-Червоненкиса

100 108 116120

Рис, 3: Сравнение верхних оценок вероятности переобучения в логарифмической шкале. Горизонтальной линией указано значение Qe = 1, Условия эксперимента: Ь = 240,1 = 160, т = 20, £ = 0.05, По горизонтали отложено минимальное количество ошибок классификаторов

Задачей будущего исследования является применение данного алгоритма для повышения обобщающей способности методов статистического обучения, в частности, для совершенствования критериев отбора признаков, методов поиска логических закономерностей в данных, линейных и логических алгоритмов классификации. Другим направлением работы является обобщение данного алгоритма на другие функционалы обобщающей способности, в частности, на функционал ожидаемой переобученное ! н метода МП, равный раде-махеровской сложности семейства и связывающий комбинаторную теорию переобучения с теорией эмпирических процессов и с теорией неравенств концентрации вероятностной меры.

Автор выражает глубокую признательность научному руководителю К, В, Воронцову за постоянное внимание к работе и ценным замечаниям,

СПИСОК ЛИТЕРАТУРЫ

1. Вапник В.Н., Червоненкис А.Я. О равномерной сходимости частот появления событий к их вероятностям, // Теория вероятностей и ее применения. 1971. Т. 16, № 2. С. 264-280.

2. S. Boucheron, О. Bousquet, G. Lugosi Theory of classification: A survey of some recent advances // ES AIM: Probability and Statistics. 2005. Vol. 9. P. 323-375.

3. V. Koltchinskii Oracle Inequalities in Empirical Risk Minimization and Sparse Recovery Problems: École d'Été de Probabilités de Saint-Flour XXXVIII-2008. Lecture Notes in Mathematics. Springer, 2011.

4. К. V. Vorontsov Combinatorial probability and the tightness of generalization bounds // Pattern Recognition and Image Analysis. 2008. Vol. 18, no. 2. P. 243-259.

5. D. Haussier, N. Littlestone, M.K. Warmuth Predicting {0,1}-functions on randomly drawn points // Inf. Comput. December 1994. Vol. 115. P. 248-292.

6. Воронцов К.В. Комбинаторные оценки, качества обучения по прецедентам, // Доклады РАН. 2004. Т. 394, № 2. С. 175-178.

7. Воронцов К.В. Точные оценки, вероятности переобучения // Доклады РАН. 2009. Т. 429, № 1. С. 15-18.

8. K.V. Vorontsov Splitting and similarity phenomena in the sets of classifiers and their effect on the probability of overfitting // Pattern Recognition and Image Analysis. 2009. Vol. 19, no. 3. P. 412-420.

9. K.V. Vorontsov Exact combinatorial bounds on the probability of over fitting for empirical risk minimization // Pattern Recognition and Image Analysis. 2010. Vol. 20, no. 3. P. 269-285.

10. V. Koltchinskii Rademacher Penalties and Structural Risk Minimization // IEEE Trans. Inf. Theory. 2001. Vol. 47, no. 5. P. 1902-1914.

11. K.V. Vorontsov Combinatorial Theory of Overfitting: How Connectivity and Splitting Reduces the Local Complexity // 9th IFIP WG 12.5 International Conference, AIAI 2013, Paphos, Cyprus, September 30 - October 2, 2013, Proceedings. Springer-Verlag Berlin Heidelberg, 2013.

12. K.V. Vorontsov, A.A. Ivahnenko Tight combinatorial generalization bounds for threshold conjunction rules // 4th International Conference on Pattern Recognition and Machine Intelligence (PReMI'll). June 27 - July 1, 2011. Lecture Notes in Computer Science. Springer-Verlag, 2011. P. 66-73.

13. Животовский H.K., Воронцов К.В. Критерии точности комбинаторных оценок обобщающей способности // Интеллектуализация обработки информации (ИОИ-2012): Докл. Москва: Торус Пресс, 2012. С. 25-28."

14. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Математические методы. Программная система. Практические применения. М.: Фазис, 2006. 176 с.

15. Журавлёв Ю.И. Об алгебраическом подходе к решению задач, распознавания, или классификации // Проблемы кибернетики: Вып. 33. 1978. С. 5-68.

16. Гуз И.С. Конструктивные оценки полного скользящего контроля для пороговой классификации II Математическая биология и биоинформатика. 2011. Т. 6, № 2. С. 173-189.

17. Воронцов К.В., Фрей А.П., Соколов Е.А. Вычислимые комбинаторные оценки вероятности переобучения 11 Машинное обучение и анализ данных. 2013. Т. 1, № 6. С. 734-743.

18. Фрей А.П., Толстихин И.О. Комбинаторные оценки вероятности переобучения на основе кластеризации и покрытий множества алгоритмов // Машинное обучение и анализ данных. 2013. Т. 1, № 6. С. 761-778.

19. Фрей А.И., Толстихин И.О. Комбинаторные оценки вероятности переобучения на основе покрытий множества алгоритмов // Доклады РАН. 2014. Т. 455, № 3. С. 265-268.

Шаура Хабировна Ишкина,

ФИЦ «Информатика и управление» РАН,

ул. Вавилова, д. 44/2

119333, г. Москва, Россия

E-mail: shaura-ishkina@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.