Научная статья на тему 'Устойчивость алгоритмов обучения классификации, основанных на модифицированной модели вычислении оценок'

Устойчивость алгоритмов обучения классификации, основанных на модифицированной модели вычислении оценок Текст научной статьи по специальности «Математика»

CC BY
112
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДИФИЦИРОВАННАЯ МОДЕЛЬ ABO∗ / УСТОЙЧИВОСТЬ АЛГОРИТМОВ ОБУЧЕНИЯ / ОБУЧАЕМОСТЬ

Аннотация научной статьи по математике, автор научной работы — Анафиев А.С., Блыщик В.Ф., Донской В.И.

В этой статье получен следующий теоретический результат: существует устойчивый алгоритм A обучения модифицированной модели ABO∗, гарантирующий её обучаемость в форме универсального эмпирического обобщения непосредственно по одной обучающей выборке путём минимизации эмпирического риска. Чтобы получить этот результат, была доказана LOO устойчивость алгоритма A. Алгоритм A подробно описан в статье и является процедурой обучения с адаптацией, предполагающей варьирование только весов объектов обучающей выборки. Остальные параметры модели полагаются фиксированными. Этого оказалось достаточно, чтобы добиться требуемого результата. Предлагаемая модификация модели ABO минимальна: при вычислении оценок исключается только случай суммирования, когда объект “голосует за себя”. Легко показать, что в случае, когда модифицированная модель ABO∗ основана на использовании кратчайших элементарных логических отделителей (в частности тупиковых тестов), универсальное эмпирическое обобщение будет также иметь место.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

N this paper, we obtain the following theoretical result: there exists a stable algorithm A of the modified model ABO∗ training, guaranteeing its learnability in the form of universal empirical generalization directly by use learning sample by the way minimizing the empirical risk. To obtain this result the LOO stability of the algorithm A was proved. Algorithm A described in details in this article is a learning procedure with adaptation. It requires the adjustment of only the weights of objects of training sample. The remaining parameters of the model remain fixed. This is sufficient to achieve the desired result. Proposed modification of the model ABO is minimal: it excludes only the case where “the point is voting for itself”. It is easy to show that in the case when the modified model ABO∗ is learned by only the choice the shortest elementary logical separators (in particular a dead-end tests), a universal empirical generalization will also take place.

Текст научной работы на тему «Устойчивость алгоритмов обучения классификации, основанных на модифицированной модели вычислении оценок»

УДК 519.95 MSC2010: 68Q32

УСТОЙЧИВОСТЬ АЛГОРИТМОВ ОБУЧЕНИЯ КЛАССИФИКАЦИИ, ОСНОВАННЫХ НА МОДИФИЦИРОВАННОЙ МОДЕЛИ ВЫЧИСЛЕНИИ ОЦЕНОК

© А. С. Анафиев, В. Ф. Блыщик, В. И. Донской

Крымский ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ ИМ. В. И. ВЕРНАДСКОГО факультет математики и информатики пр-т Академика Вернадского, 4, г. Симферополь, 295007, Россия e-mail: aydera@mail.ru, donskoy@tnu.crimea.ua

Stability of Learning Classification Algorithms Based on the Modified Estimates Calculation Model.

Anafiyev A. S., Blyschik V. F., Donskoy V. I.

Abstract. In this paper, we obtain the following theoretical result: there exists a stable algorithm A of the modified model ABO* training, guaranteeing its learnability in the form of universal empirical generalization directly by use learning sample by the way minimizing the empirical risk. To obtain this result the LOO stability of the algorithm A was proved. Algorithm A described in details in this article is a learning procedure with adaptation. It requires the adjustment of only the weights of objects of training sample. The remaining parameters of the model remain fixed. This is sufficient to achieve the desired result. Proposed modification of the model ABO is minimal: it excludes only the case where “the point is voting for itself”. It is easy to show that in the case when the modified model ABO* is learned by only the choice the shortest elementary logical separators (in particular — a dead-end tests), a universal empirical generalization will also take place.

1. Введение. Постановка задачи

В теории машинного обучения центральным вопросом является проблема обучаемости, под которой понимают способность алгоритмов обучения к эмпирическому обобщению — свойству, заключающемуся в их способности по конечному множеству частных случаев (объектов, примеров, прецедентов) построить обобщение в виде решающего правила, способного гарантированно обеспечить высокую вероятность правильного принятия решения при предъявлении любого объекта, не участвовавшего в обучении.

В рамках этой статьи в качестве частного случая, достаточного для получения основного теоретического результата, взята задача обучения классификации объектов для случая двух классов.

Целью работы является доказательство возможности построения устойчивого алгоритма обучения классификации в рамках модифицированной модели вычисления оценок (ABO) на основе метода минимизации эмпирического риска по одной заданной обучающей выборке. Модификация модели, на первый взгляд, может показаться незначительной, и она, действительно, минимальна: изменяется лишь область суммирования в оценках, исключающая вклад в суммы ровно одной точки.

Модель ABO была создана академиком Ю. И. Журавлёвым [11, 13, 12] и развивала идеи предложенных им алгоритмов распознавания, основанных на построении тупиковых тестов таблиц обучения как совокупности оптимальных (по минимуму длины) элементарных классификаторов [6]. В дальнейшем теория моделей ABO получила широкое развитие в работах академиков В. Л. Матросова [18, 19] и К. В. Рудакова [2, 21], профессоров В. В. Рязанова [22], А. Г. Дьяконова [8, 9, 10], а также многих других исследователей [16, 20, 23, 17, 15].

Первоначальные модели ABO предполагали тщательный анализ таблиц прецедентов и позволяли автоматически получать функции принадлежности объектов классам. Заметим, что в этом смысле был получен важный результат, на основе которого стало возможным строить эмпирические нечёткие модели принятия решений, поскольку именно получение функций принадлежности, а не построение операций над ними, являлось “узким местом” теории нечётких множеств [14].

Являясь по сути эталонными, в случае точной начальной прецедентной информации модели ABO на уровне интуитивного представления должны были давать все более высокую точность с ростом числа эталонов, поскольку использовали не полное совпадение с ними, а аппроксимирующую функцию принадлежности, вычисляемую на основе специально введенного расстояния между объектами. Однако при непосредственном применении метода минимизации эмпирического риска по эталонной выборке статистическая теория обучения Вапника-Червоненкиса давала отрицательный результат об обучаемости, поскольку в указанной постановке ёмкость (VC размерность) модели ABO оказывалась бесконечной.

Более поздние теоретические результаты, показавшие, что обучаемость может быть обеспечена не только за счёт конечной ёмкости применяемого семейства решающих правил, но и за счёт устойчивости алгоритмов обучения [24, 25, 26, 27], послужили поводом для дополнительного изучения вопроса об обучаемости модели ABO методом минимизации эмпирического риска непосредственно по одной обучающей выборке.

В статье используются следующие основные обозначения:

(xi,... , xn) = X £ Xп С Rn — точка или допустимый объект, описанный n вещественными переменными-признаками;

К0 и К1 — два класса (множества) объектов, K0 U K1 = Xn; а £ {0;1} — номер

класса Ка;

(X, а) — прецедент или пример, являющийся парой, содержащей некоторый объект X с заведомо и точно известным номером класса а, которому этот объект принадлежит (X £ Ка);

Xi = {(Xj, aj)j=1} — обучающая выборка, состоящая из l прецедентов, представляющая собой набор представителей двух классов: Xi = T0 U Ti; T0 П Ti = 0; T0 C K0; Ti C Ki;

Xi — множество всевозможных обучающих выборок, содержащих l прецедентов (имеющих длину l);

F = {^ : Xn ^ {0; 1}} — произвольное семейство решающих правил (классификаторов);

A : Xi ^ F — произвольный алгоритм (или метод) обучения;

A(Xi) = h £ F — алгоритм классификации, обученный по данной выборке Xi;

A(Xi, д) — алгоритм классификации, обученный по данной выборке Xi в случае, если F — параметрическое семейство; д — набор параметров;

A(Xi)(x) £ {0; 1} — результат классификации объекта X алгоритмом A(Xi), обученным по выборке Xl;

v(A(Xi)) = i|{Xj : A(Xi)(Xj) = aj}j=i| — частота ошибок при классификации примеров выборки Xi алгоритмом A(Xi), обученным по этой же выборке Xi (в общем случае не все примеры выборки могут классифицироваться правильно);

P(A(Xi)) — вероятность ошибки (неизвестная) алгоритма A(Xi), обученного по произвольной выборке длины l; P(A(Xi)) = Ep |A(Xi)(X) = a(X)| , где a(X) — истинный, но неизвестный номер класса, которому принадлежит точка X;

Errp(A(Xi)) = P(A(Xi)) — эквивалентное обозначение вероятности ошибки алгоритма A(Xi);

Ep — математическое ожидание по мере P;

P — вероятностное распределение (неизвестное) на множестве допустимых примеров Xn х {0; 1};

Pi — вероятностное распределение (неизвестное) на множестве Xi = (Xn х {0;1})i всевозможных обучающих выборок длины l;

{0, если h(X) = a(X);

1, если h(X) = a(X) или h(X) не определено.

Следующие два параграфа имеют обзорный характер и предназначены для разъяснения ряда используемых определений и теорем теории машинного обучения, которые применялись в процессе получения основного результата работы.

2. VC РАЗМЕРНОСТЬ И ОБУЧАЕМОСТЬ

В теории машинного обучения одним из важнейших понятий является VC-размерность или емкость семейств отображений, из которых извлекаются решающие правила [3]. C этим понятием тесно связано представление об обучаемости алгоритмов в форме равномерной по классу используемых классификаторов сходимости эмпирических частот ошибок обученных классификаторов к их вероятностям. И поскольку данная статья посвящена обучаемости модифицированной модели ABO, ниже со ссылками на первоисточник приводятся основные положения статистической теории обучения Вапника-Червоненкиса.

Применение произвольного классификатора р £ F к l точкам из выборки Xi порождает l двоичных значений — бинарную строку

y = (yi,...,yj ,...,yl) : Уз = P(xj) £ I0, l}, j = l,...,l.

Будем называть строку у разбиением выборки Xi на два класса в соответствии со значениями 0 и 1 классификатора р и использовать обозначение у^ = p(Xi).

Применение одного и того же алгоритма к различным выборкам и применение различных алгоритмов к одной и той же выборке даёт, вообще говоря, различные разбиения. Алгоритмы-классификаторы семейства F, порождающие одинаковые разбиения любых допустимых выборок, будем называть подклассом эквивалентных алгоритмов семейства F.

Определение 1. [3] Пусть AF(Xi,... , Xi) — число различных классификаций выборки Xi на два класса, получаемое при использовании всех классификаторов семейства F. Функцией роста семейства F называется

mF(l) = max AF(X1,... ,Xi),

xi,...,xi

где максимум берётся по всем возможным последовательностям из l точек (допустимых объектов).

Определение 2. Энтропией семейства F на обучающих выборках длины l называется величина

HF(l) = EPi (ln AF(X1,..., Xi)).

В [3] доказано, что функция роста mF(l) либо тождественно равна 2i, либо, если это не так, мажорируется функцией h=0 С < 1.5h. Если это неравенство имеет место, то минимальное удовлетворяющее ему число h называют ёмкостью семейства классифицирующих функций F.

Определение 3. [3] VC-размерностью или ёмкостью семейства классифицирующих функций F = {р : Xn ^ {0,1}}, обозначаемой VCD(F), называется наибольшее значение l* такое, что найдется выборка Xi*, которая может быть разбита всеми 2i способами алгоритмами семейства F:

3Xi* : Vy £ {0, 1}1* Эр £ F (У = P(Xi*)),

но никакая выборка длины большей, чем l*, разбита функциями этого семейства всеми способами быть не может.

Если же при любом l найдется выборка, разбиваемая всеми 2i способами, то VC-размерность семейства F полагается неограниченной (равной те).

Теорема 1. [3] Вероятность того, что хотя бы для одного классификатора р, принадлежащего семейству F и выбранного методом минимизации эмпирического риска, частота ошибки на обучающей выборке длины l отклонится от её вероятности более, чем на любое

положительное £ > 0, удовлетворяет неравенствам

Pl[ sup |P(p(X^) — v(p(X^)| > £ ) < 6mF(2l)e-§~4;

V^e F /

Pl( sup |P(^(Xi)) — v(p(Xl))| ><■) < gHDlF!|(2i)e-т.

Следствие 1. Для того, чтобы частота ошибки на обучающей выборке любого решающего правила р, принадлежащего семейству F и выбранного методом минимизации эмпирического риска 'равномерно сходилась (по вероятности) при l ^ ж к вероятности ошибки этого правила р, достаточно, чтобы ёмкость VCD(F) семейства F была конечной.

Иначе говоря, конечность VCD(F) семейства F является достаточным условием обучаемости, понимаемой как гарантированная возможность найти путём минимизации эмпирической ошибки решающее правило р £ F такое, что его истинная вероятность ошибки гарантированно не будет превышать эмпирическую ошибку на сколь угодно малое положительное £ > 0 со сколь угодно высокой надёжностью при неограниченном росте длины обучающей выборки.

Необходимым условием обучаемости (в том же смысле, как это оговаривается в достаточном условии) является условие [3]

lim

l—— <^0 l

0.

Если VCD(F) = ж, то для любого l достоверно существует хотя бы одна выборка Xi, которую можно расклассифицировать всеми 2l способами. И если в пространстве всех выборок такие выборки имеют ненулевую меру, то можно показать, что найдётся константа c такая, что

lim l—— l

c > 0.

Поэтому необходимое условие обучаемости по Вапнику-Червоненкису, требующее сколь угодно малой энтропии на символ для класса F, является близким к требованию конечности VCD(F).

Определение 4. Семейство классификаторов F называется PAC (Probably Approximately Correct) обучаемым (при использовании семейства гипотез-классификаторов H), если существует алгоритм обучения A, который на основе прецедентного описания любого классификатора р £ F в виде обучающей выборки длины l, при любых вероятностных распределениях Pl (обучающих выборок) и P (допустимых точек-объектов признакового пространства с указанной принадлежностью классам) определяет гипотезу h £ H такую, что для любых £,ё : 0 < £, 8 < 2

Pl[ErrP(h) < £] > 1 — 8, (1)

и при этом существует функция l = l(£, 8), которая обеспечивает выполнение неравенства (1), где ErrP(h) = P[h(X) = р(Х)].

Вариант модели PAC обучаемости, когда целевой неизвестный классификатор р £ F заведомо содержится в семействе H, используемом для обучения, называется реализуемой PAC моделью (или правильной PAC обучаемостью) [25].

Теорема 2. [24, 27] Семейство классификаторов F является PAC обучаемым тогда и

только тогда, когда VCD(F) < те.

Несмотря на то, что известны различные подходы к формулировке обучаемости, во многих моделях требование конечности VC размерности семейства, в котором отыскивается классификатор или которое содержит искомый классификатор, является определяющим.

3. Устойчивость Алгоритмов ОБУЧЕНИЯ И ОБУЧАЕМОСТЬ

В этом параграфе обзорно даётся одна из формализаций устойчивости обучающих алгоритмов. Приводятся известные результаты [26], необходимые для решения поставленной задачи — исследования устойчивости и обучаемости модифицированной модели ABO.

Определение 5. Говорят, что имеет место универсальное эмпирическое обобщение, если для любого выбранного алгоритмом обучения A классификатора (гипотезы) частота ошибки этого классификатора на обучающей выборке сходится по вероятности к её математическому ожиданию при неограниченном росте длины обучающей выборки независимо от вероятностного распределения, т. е.

Уе > 0 Pij|P(A(X))) — v(A(Xi))|>е| ^ 0 при l ^те (2)

для любой гипотезы A(Xi) и любых вероятностных мер Pi и P.

Уточним, что в формуле для эмпирической частоты ошибки

i i

v (A(Xi)) =jJ2X(A(Xl )(xj ),a(xj))

l j=i

A(Xi)(Xj) — результат классификации точки Xj из примера (Xj, а) обучающей выборки Xi алгоритмом A(Xi), а a(Xj) = а — класс, к которому относится точка Xj согласно обучающему примеру (Xj, а).

Вероятность ошибки обученного алгоритма A(Xi), обозначенная в (2) как P(A(Xi)), есть вероятностная мера события-ошибки, состоящей в несовпадении результата классификации произвольной точки X алгоритмом A(Xi) с истинной, но неизвестной классификацией этой точки. Введенная выше функция потерь Л является характеристической функцией ошибки, поэтому

P(A(Xi)) = Err(A(Xl)) =

= J Л(A(Xl)(X),а(X))dP(X, а)= EP^Л(A(Xl)(X),a(X))^ ,

Xn x{0;1}

где E — символ математического ожидания, и в последнем выражении используется интеграл Лебега.

В определении 5 семейство решающих правил, в котором отыскивается классификатор A(Xi), не содержится в явном виде. Может оказаться, что алгоритм обучения (метод обучения по К. В. Воронцову [5]) обладает свойством “сужения” семейства, в котором в принципе могут отыскиваться гипотезы:

A : X ^ Fa с F, Fa = F.

(3)

Поэтому VC размерность семейства F, вообще говоря, может быть любой, и при этом возможно универсальное эмпирическое обобщение. В то же время сходимость (2) обеспечивается для любой гипотезы A(Xi) и тогда

sup |P(A(Xi)) - v(A(Xi)) | > e

{A(Xt)e Fa} )

VA(Xi)(|P(A(Xi)) - v(A(Xi))| >e)

V(A(Xi)[ |P(A(Xi)) - v(A(Xi)) | >e

но при этом

( sup |P(A(Xi)) - v (A(Xi))| >e

\{A(xl)e f}

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В определении Вапника-Червоненкиса равномерной сходимости эмпирической частоты к вероятности выбранного классификатора метод обучения вообще не фигурирует, но при выполнении соотношений (3) справедлива принадлежность A(Xi) = р £ F, поэтому при выполнении условия (3) равномерная сходимость по классу F влечёт универсальное эмпирическое обобщение. Следовательно, конечность VCD(F) при выполнении (3) является достаточным условием наличия универсального эмпирического обобщения; но, как будет показано ниже, не является необходимым.

Обозначим Xj обучающую выборку Xi, из которой удалён ровно один пример (Xj ,aj). Определение 6. [26] Алгоритм обучения A называется CVloo устойчивым (Cross-

Validation Leave-one out) независимо от распределения, если для любой вероятностной меры, для любой длины выборки I > lo найдутся такие положительные e(l),5(l) < 1, что при l > l0, l ^ то, e(l) ^ 0, £(l) ^ 0

Vj £ {1,..., l} Pi(|A(A(Xj),Xj) - A(A(Xi),Xj)| < e(l)) > 1 - 5(l),

где A — функция потерь.

Определение 7. [26] Алгоритм обучения A называется ELooerr устойчивым независимо от распределения, если для любой вероятностной меры при любом значении l > lo найдутся такие положительные e(l),^(l) < 1, что

( 1 l )

Vj £ {1,..., l} Pi(|Err(A(Xi)) - A(A(Xj),Xj)| < e(l)) > 1 - £(l),

где е(1) ^ 0, 5(1) ^ 0 при I ^ ж; Err(A(Xi)) — определённая выше вероятность ошибки классификатора A(Xi), обученного по данной выборке Xi; Л — определённая выше функция потерь.

Определение 8. [26] Алгоритм обучения A называется LOO устойчивым, если он одновременно CVloo устойчивый и ELooerr устойчивый.

Определение 9. Алгоритм обучения называется симметричным, если результат его применения к любой допустимой обучающей выборке не изменяется при любой перестановке входящих в эту выборку примеров.

Следующая теорема [26] особо важна для изложения главного результата статьи и поэтому приводится с подробным доказательством.

Теорема 3. LOO устойчивость симметричного алгоритма обучения классификации с ограниченной функцией потерь является достаточным условием для обеспечения универсального эмпирического обобщения.

Доказательство. Для упрощения формул обозначим h = A(Xi) и

эмпирическую ошибку обученного по выборке Xi алгоритма A(Xi) = h в среднем по этой же выборке.

Оценим математическое ожидание (вероятностную меру) квадрата отклонения вероятности ошибки решающего правила (гипотезы) h = A(Xi), полученного в результате обучения, от эмпирической ошибки этой гипотезы. Распределение Pi, и семейство H, которому принадлежит гипотеза h, полагаются произвольными.

Erri (A(Xi))

Ei(Err(h) - 1 £ )^(A(Xj),xj) + 1 £ )^(A(Xj),Xj) - Erri(A(Xi)))

2

j= 1

Последнее неравенство следует из того, что (а + b)2 < 2а2 + 2b2.

Оценим второе слагаемое (4).

i i 2

2Ei(- E A(A(Xj),Xj) - Erri(h))2

j=1

2e( у E a(a(X)

j=1

i ),xi) i

EA (A(Xi ),Xj j=i

2e/у E A(A(Xi), Xj) - у E A(A(Xf),Xj

j=i

j=i

= 2Ei is

E (a(A(Xi),Xj) - A(A(Xj),Xj))

j = 1 ' '

i /

E A(A(Xi),Xj) - A(A(Xj),Xj)) j=i 4

(5)

< 2MEy

(последний niar доказательства основан на использовании ограниченности функции потерь,

в силу чего

Ej=i (A(A(Xi),Xj) - A(A(Xj),Xj)

< M ■ i, где M — константа; в нашем

случае — при бинарной функции потерь A — имеем M = 1, и из квадрата модуля в (5) заменяем один модуль на i)

7

1

< 2EiуЕ |A(A(Xi),X,) - A(A(Xj), Xj)

j=1

1

2

2

2

= 2у EEi|A(A(Xi),Xj) - A(A(Xj),Xj)|

i j=1

(далее учитываем, что A — симметричный алгоритм; Ei| ■ | — математическое ожидание по вероятностному распределению Pi на множестве обучающих выборок не зависит от j)

= 2Ei|A(A(Xi),Xj) - A(A(Xj),Xj)|

для любого примера Xj (для любого j) из произвольной обучающей выборки Xi. Окончательно получаем неравенство

Ei(Err(h) - Erri (A(Xi)))2

1 i 2

< 2Ei(Err(A(Xi)) - у E A(A(Xj),Xj))

i j=1

+2Ei|A(A(Xi),Xj) - A(A(Xj),Xj)|,

в правой части которого содержатся два слагаемых, справедливых для любого j £ {1,..., i}. Первое слагаемое соответствует определению ELooerr устойчивости, а второе — CVLoo устойчивости. Если оба эти слагаемые при i ^ те одновременно стремятся к нулю, то,

согласно определению, имеет место LOO устойчивость, что влечёт универсальное эмпирическое обобщение, поскольку сумма указанных слагаемых является верхней оценкой вероятности квадрата отклонения вероятности ошибки полученной в результате обучения гипотезы, от её эмпирической ошибки. □

4. Определение модели ABO и её необучаемость

НЕПОСРЕДСТВЕННО ПО ЗАДАННОЙ ВЫБОРКЕ

(без дополнительной “контрольной”)

Будем полагать, что обучающая выборка состоит из двух частей — представителей (примеров) двух непересекающихся классов объектов Ко и Ki соответствующих выборочным значениям 0 и 1 классифицирующей функции:

Xi = {(Xj, aj)j=i} = То U Ti; То П Ti = 0;

То = {(X, а) : а = 0}; Т1 = {(x, а) : а = 1};

|XI = I; |То| = ко; |Ti| = ki.

Потребуем, чтобы в обучающей выборке X) не содержалось одинаковых точек (что легко обеспечивается исключением повторов и противоречий).

Метод (алгоритм) вычисления оценок (ABO), предназначенный для построения классификатора по заданной обучающей выборке, определяется следующим образом.

1. Точке X каждого примера (X, а) обучающей выборки ставится в соответствие неотрицательное число ш(Х) — “ вес” этого примера (эталона X).

2. Задаётся система множеств Д, называемых опорными, которые являются некоторым образом отобранными подмножествами множества {1, ...,n} номеров переменных. Каждому опорному множеству Д £ Q ставится в соответствие неотрицательное число W(Д) — “ вес” опорного множества.

3. Вводится расстояние между координатами Xi и yi точек X и у по формуле p(xi,yi) = I Xi - yil, i = 1,n.

4. Определяется функция близости по опорному множеству:

Bn(X,y)

1, если |{i е Д : p(Xi,yi) < е}| > до; 0, в противном случае,

где е и до — положительные числовые параметры; до > 2 |Д|.

5. Определяются оценки за класс Ка, а £ {0,1}:

r«(y) = 1 u(X) ■ W(Д) ■ Bn(X,y).

k a .~z

пепxeTa

6. Решающее правило, полученное в результате построения методом ABO по выборке Xi и заданных параметрах 0 алгоритма A(Xi, 0) классификации или распознавания номера класса а произвольной точки y (не обязательно содержащейся в таблице обучения), состоит

в следующем.

A(Xt, 0)(у) = а, если Г«(у) > Гi-а(у) + в; иначе значение A(Xi ;©)(у ) не определено.

Здесь 0 обозначает всю совокупность параметров, входящих в модель ABO:

© = (ш, W, Q,£,qo,ka,e).

Подчеркнём: A обозначает метод построения алгоритма классификации (в нашем случае — ABO, а A(Xi;0 ) — полученный по методу ABO по заданной выборке и набору параметров © конкретный алгоритм.

В тех случаях, когда для упрощения записи можно опустить использованные параметры, будем обозначать алгоритм, построенный согласно описанной модели ABO как A(Xi) или даже h = A(Xl) = A(Xl, 0).

7. Задаётся функция потерь. В рамках данной статьи — как

A(h, у )

0, если h(y ) = а (у );

1, если h(y ) = а (у ) или h(y ) не определено,

(6)

где h(y) — номер класса, определённый построенным алгоритмом, а а(у) — истинный номер класса, которому принадлежит точка у . Заданная таким образом функция потерь A является характеристической функцией ошибки.

8. Эмпирический функционал качества 1

1 ^ A(h,y )

1 y£Xi

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

определяет частоту ошибок при распознавании объектов произвольной обучающей выборки Xi длины 1.

9. Обучение в рамках модели ABO реализуется последовательной адаптивной процедурой нахождения таких значений параметров, при которых достигается как можно меньшее значение функционала качества на заданной для обучения выборки.

В классической модели ABO используются две выборки, которые называют обучающей и контрольной (что не всегда совпадает с соответствующими названиями выборок в других моделях). “Обучающая” выборка в модели ABO служит для задания эталонов, а контрольная — для обучения модели путём варьирования её параметров. При таком разбиении для обучения используется вторая, контрольная выборка, а “обучающая"(эталонная) выборка служит для фиксации конечно параметрической модели, имеющей VC размерность, которая была оценена в работах [15, 17] А. Г. Ицковым — сверху как mn, а В. В. Мамаевым — снизу как mn и сверху как 4mn, где n — число переменных-признаков, а m — число примеров в эталонной выборке. Полученные ими результаты совместны, если только ёмкость эталонной части модели ABO равна в точности mn.

Но даже при использовании только эталонной выборки алгоритмы распознавания, основанные на вычислении оценок, и прежде всего — тестовые, показали практическую

полезность и высокую точность, что с позиций современного представления о машинном обучении объясняется построением в этих алгоритмах кратчайших элементарных классификаторов-отделителей (осуществляется минимизация их сложности в колмогоровском смысле [7]) и бустинга [28] над ними.

Использованию в моделях ABO обучающей выборки “напрямую” по назначению препятствует следующий факт.

Теорема 4. Пусть модель ABO обучается по параметрам только по одной заданной обучающей выборке длины l. Тогда для любого из 21 возможных вариантов принадлежности обучающих примеров представленной выборки одному из двух классов в рамках этой модели может быть построен алгоритм, правильно классифицирующий все объекты обучающей выборки.

Доказательство. Функции близости Bq определяют для любой точки у некоторую специфическую окрестность в виде объединения цилиндрических множеств

O(V) = U {X е X : |{i е ^ : p(xi,Vi) < е]| > Яо].

qgq

Построим выборку Xi из l объектов так, что p(xj,х?) >> е, i е 1 ,n, для любой пары точек Xj = Xq, которые будут в эту выборку входить. Очевидно, это можно сделать, взяв в качестве точек выборки центры достаточно удалённых друг от друга шаров в Rn.

Рис. 1. Расположение шаров радиуса е с центрами, соответствующими точкам x\,x2,... обучающей выборки.

Получить такие центры можно, например, последовательно увеличивая все координаты предыдущего центра на одну и ту же величину D, превышающую, например, 3 ■ е (рис. 1). Тогда любой точке Xj, j = 1 ,...,l, обучающей выборки Xi построенный алгоритм присвоит тот же самый номер класса, который она имеет в выборке:

Г« (X)

1 ЕЕ ш(х) ' W(Q) ■ Bn(x,y) nenxeTa

ш(х £ Ta)

ka

E w (n) > e,

nen

и в то же время Г1-а(Х) = 0. Следовательно, для любого из 21 вариантов пометок точек выборки бинарными номерами классов можно построить алгоритм, способный настроиться на этот вариант разбиения. □

Замечание 1. При настройке алгоритма (мы принципиально различаем настройку и обучение! ) с целью получения любой заданной классификации достаточно варьировать лишь один параметр е; остальные разумно заданные параметры модели не повлияют на результат такой настройки.

Напомним [24, 27], что PAC-обучаемость произвольной модели M имеет место тогда и только тогда VCD(M) < те.

Следствие 2. Модель ABO, используемая в случае одной обучающей выборки, имеет неограниченную VC-размерность: VCD(ABO) = те.

Следствие 3. В случае использования одной обучающей выборки, модель ABO не удовлетворяет достаточному условию обучаемости статистической теории Вапника-Червоненкиса и не является PAC обучаемой.

PAC-обучаемость в классической модели ABO обеспечивается за счёт того, что к “обучающей” выборке добавляется так называемая “контрольная”, и эта контрольная выборка используется для адаптации параметров и минимизации на ней эмпирического риска. Полагается, что m примеров “обучающей” выборки обеспечивают получение фиксированного числа m эталонов. Построенная модель с зафиксированными эталонами обладает конечной вапниковской энтропией, определяемой только пространством настраиваемых параметров. Только затем осуществляется обучение по “контрольной” выборке.

Модифицированная модель ABO* имеет следующие отличия от описанной выше модели ABO.

1o. Изменена область суммирования для внутренней суммы в формуле вычисления оценок:

ra(y) = Е Е ш(х) ■W(п) ■ Bn(x,y).

1 a| nen {xeTa: x=n}

Область суммирования {X £ Ta : X = y} исключает вклад в оценку самой оцениваемой точки y, т.е. точка сама за себя не “голосует”.

Нормирующий коэффициент 1/(|Та| — 1) содержит в знаменателе число, в точности равное количеству точек класса Та, по которым происходит суммирование.

Естественно полагать, что если l — число всех примеров обучающей выборки, то |Та| представляет её некоторую часть, например, близкую к половине, ka = |Та| к 1/2.

2o. Перед началом обучения все точки выборки сортируются в лексикографическом порядке.

Эта сортировка считается внутренним начальным фрагментом алгоритма обучения, который сначала накапливает объекты в некоторый буфер в порядке их поступления и затем, до начала основной своей части, сортирует их. Благодаря этому любое изменение порядка примеров в изначально заданной обучающей выборке приводит к одной и той же последовательности примеров в отсортированной выборке, которая используется для обучения.

Очевидно, что любой алгоритм обучения модели ABO* с учётом предварительной сортировки (2o) будет симметричным.

3o. Решающее правило классификации или распознавания номера класса а произвольной точки у (не обязательно содержащейся в таблице обучения) состоит в следующем.

A(Xi, ©)(у) = а, если Га(у) > Г1_а(у) + в & Га(у) — Г1_а(у) > в;

A(Xi, ©)(у) не определено, если|Г«(у) — Г 1-а(у)| < в,

где в — пороговое значение, заданный параметр алгоритма; © обозначает всю совокупность параметров, входящих в модель ABO*: © = (ш, W, Q, е, q0, ka, в).

4o. Функция потерь определяется соотношением (6).

С целью получения доказательства LOO устойчивости алгоритмов, построенных в рамках модели ABO*, будем проводить обучение, варьируя только параметры ш(Х), X <Е (То U Т1}, чего достаточно для получения требуемого теоретического результата.

Если переписать формулу вычисления оценок в виде

то можно интерпретировать выражения

K(X, у)

1

Y W(Q) ■ Bq(X, у)

ka 1

как потенциальные функции [1]; тогда

га(у) = Y ш(Х) ' K(Х,у)

{xeTa: x=y}

и параметры параметры w(x), х е {T0 U Ti} можно интерпретировать как коэффициенты в разложении оценки по потенциальным функциям. Заметим, что указанная интерпретация служит лишь некоторым обоснованием целесообразности выбора именно и только этих параметров для описываемой ниже процедуры обучения.

5. Алгоритм A ОБУЧЕНИЯ МОДИФИЦИРОВАННОЙ МОДЕЛИ ABO*

И ЕГО СВОЙСТВА

Опишем алгоритм обучения модели ABO*, который будем далее обозначать A*.

Чтобы упростить формулы, будем полагать, что зафиксированы веса опорных множеств: W(О) = 1 для всех О е О.

Пусть задана константа в > 0 и пусть wo > 0 — начальное значение, одинаковое для всех параметров w(x) — весов точек х е {To U Ti}, определяющее начальные значения оценок га(0)(у), а е {0,1}.

При предъявлении на очередном шаге обучения t е {1, 2,... } очередной точки у обучающей выборки будем полагать, что имеет место ошибка в двух случаях.

В первом случае — если одновременно

|ra(t) (у) — г£)(у) >в, (8)

I и точка у принадлежит классу с номером 1 — а .

Заметим, что при выполнении условия (8) разность Гa(t)(y) — Г 1(^а(у) положительна. Для корректировки ошибки необходимо уменьшить оценку Га(^(у) и(или) увеличить оценку Г1-а(у).

Во втором случае будем считать, что ошибка имеет место, если

i ra(t)(y)—ri-a (у)| < в,

и тогда для её корректировки нужно увеличивать оценку ra(t)(y) по тому классу Ka, а е {0;1}, которому принадлежит очередная предъявляемая точка у обучающей выборки и/или уменьшать оценку по классу Ki_ a.

В случае, противном указанным двум, ошибки при предъявлении очередной точки у нет, и веса wt(x) не изменяются.

Будем полагать заданными положительные константы Ai и Д2. Обозначим До = Ai + Д2. Пусть, далее, yt = есть монотонно убывающая последовательность положительных чисел, t = 0, 1, 2, . . . .

В случае, если при предъявлении очередного примера у, принадлежащего классу Ki_ a, имеет место ошибка, выполняется процедура коррекции весов ровно ц точек х е {T0 U Ti}, ближайших к точке у = 1 по евклидовой метрике

Р(х,у)

П

N

Y,(xi—у^)2

i=i

по формулам

{wt(X) = max{wt-i(X) — y*Ai; 0}, если X принадлежит классу а,

(9)

wt(X) = wt-i (X) + YtA2, если X принадлежит классу 1 — а.

Если же очередной пример у классифицируется построенным к моменту его предъявления алгоритмом правильно, то изменение веса wt_i(X) не происходит ни для одной точки X обучающей выборки. Константа ц является параметром алгоритма обучения.

Очевидно, вес wt(X) каждого примера X на каждом шаге t будет неотрицательным. Под шагом t понимается очередной номер предъявления примера обучающей выборки.

При необходимости, если номер шага t превышает заданную длину обучающей выборки l, полагается, что выборка циклически повторно просматривается сначала до конца. Согласно процедуре (9), в результате коррекции на шаге t будем иметь

Yt min{Ai, А2} < |wt(X) — wt_i(X)| < Yt max{Ai, A2} < YtAo.

Величина суммарного изменения оценки ra(t)(y) (а £ {0;1}) в результате коррекции на шаге t будет заведомо ограничена величиной

Yt • ц • А0 • |0|

ka — 1 ,

поскольку вклад в суммирование, как оговорено выше, дают только ц точек.

6. CVloo устойчивость АЛГОРИТМА ОБУЧЕНИЯ A

Теорема 5. Алгоритм обучения A является CVloo устойчивым независимо от распределений вероятностей классифицируемых объектов и обучающих выборок.

Доказательство. Обозначим A(Xi) алгоритм классификации, полученный описанным выше модифицированным методом ABO* по заданной выборке Xi длины l, а A(Xj) — по той же выборке Xi, из которой удалён ровно один пример с номером j £ 1,l. Пусть a(Xj) — номер класса этого удаляемого объекта в таблице обучения. Функция потерь

0, если A(Xl)(Xj) = a(Xj);

1, если A(Xl)(Xj) = a(Xj) или A(Xl)(Xj) не определено.

Заданная таким образом функция потерь равна нулю, если построенный алгоритм правильно классифицирует точку Xj, и единице — если алгоритм даёт ошибку классификации или отказывается от решения. Можно дать следующую интерпретацию заданной функции потерь: любой вариант ответа алгоритма, отличный от правильного, является ошибкой. Классификация точки Xj обученным алгоритмом определяется сравнением оценок

ra(Xj) и ri_a(Xj).

AM(Xi),Xj П

После обучения по выборке Xi оценки имеют вид

T*a(Xj) = * 1 ^ ш(х) ^ W(Q) ■ BQ{xj,X); (10)

а {xeTa: x=Xj} ПеП

r1-a(Xj) = ^ w(x) ^ W(Q) ■ Bn(x j,x). (11)

1 a {xeTi_a} пей

Назовём величину

W(у, X) = ш(х) ^ W(Q) ■ Bn(y, X) пеп

обобщённым расстоянием от точки у до точки X. Заметим, что по окончании обучения вес любой точки ш(х)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ 1

0 < ш(х) < шо + Ао ^ — = шо + Ао < те

t=i 2

будет ограниченной величиной. Обобщённое расстояние также является ограниченным:

0 < W(у , X) < (шо + Ao)|Q|.

Точки обучающей выборки случайно и независимо извлекаются из генеральной совокупности Xn С Rn в соответствии с существующими условными распределениями вероятностей Ра, а е {0; 1}, точек классов Ка. Интеграл

Ma(Xj)= W(Xj,X)dPa(X) < те

X "

является математическим ожиданием обобщённого расстояния от точки Xj по классу Ка, а величина

К(X j ) = ^ W (X j,X) (12)

a {XeTa: X=Xj}

является выборочной средней этого же обобщённого расстояния (заметим, что в сумме в правой части равенства (12) ровно |Ta| — 1 членов).

Дисперсия

Da (Xj) = ((W (Xj ,X ) — Ma (Xj ))2 dPa(X) < ((шо + Ao)|Q|)2 I"

также является ограниченной. Тогда по теореме Чебышева при l ^ те и |Ta| ^ те

ra(Xj ) ^ Ma (Xj).

Напомним: мы полагаем, что при длине выборки l ^ те число примеров класса Ka в этой выборке тоже стремится к бесконечности: |Ta| ^ те, а е {0; 1}.

Возможны только следующие два случая.

1. При сколь угодно большой длине выборки l (l ^ ж) обученный алгоритм принимает решение о принадлежности точки Xj классу Ка на основе имеющего место неравенства

га(х) - ri-«(xj) > р,

где в — константа, параметр алгоритма. При l ^ ж это неравенство принимает вид

Ma(Xj) - Mi-a(Xj) > в,

и тогда

Ma (Xj) - Mi—а (Xj ) = в + С,

где С — некоторая положительная константа, поскольку числа Ma, M\—a и в являются константами (не зависящими от l) в рамках рассматриваемой вероятностной модели.

Пусть точка Xj обучающей выборки действительно принадлежит классу Ка (алгоритм принимает правильное решение).

После обучения алгоритмом по выборке Xj (по той же самой выборке Xi из которой удалён один пример (Xj ,а) из части выборки Та, состоящей из примеров класса Ка) оценки имеют вид

rj(Xj) = —£ £ Ш(х) ■ W(Q) ■ Bq(x, y); (13)

а пей {xeTa\{xj}}

rl—a(Xj) = ^ £ £ ш(х) ' W(П) ' вп(х,y), (14)

1 а пей {xeTi_a}

Сравним оценки (10) и (13)при l ^ ж. Они, вообще говоря, могут отличаться некоторыми весами (ш(х) и Ш(х)), поскольку при обучении по выборке Xi пример Xj участвовал в обучении и поэтому мог повлиять на процесс коррекции весов. Но при l ^ ж он мог инициировать коррекцию только один раз, поэтому пример Xj мог повлиять на веса лишь ^ ближайших к нему по евклидовой метрике точек из сколь угодно большого числа l предъявленных.

Выборка Xj состоит точно тех же примеров, что и выборка Xi, за исключением примера Xj. При обучении по выборке Xj пример Xj не участвует в коррекции, и указанные выше ^ точек по этому примеру не корректируются. Поэтому суммы (10) и (13) отличаются не более чем на положительную величину 01 (Xj), которую можно оценить сверху

0i(Xj) <

й- ■ (шо + Aq) ■ |Q|

0 при l ^ ж, |Та| ^ ж.

j ' |Та| - 1

Аналогично, оценки (11) и (14) не могут отличаться более чем на положительную величину 02(Xj), которую можно оценить сверху точно также

02(Xj) <

^ ■ (шо + Aq) ■ |Q|

|Tl—а|

0 при l ^ ж, |Ti—а| ^ ж;

0o(Xj) = 01 (Xj) + 02(Xj) ^ 0

как сумма двух бесконечно малых.

При l ^ ж

K(Xj) - Г1 -a(Xj) > в ^ ra(xi) - Г1 -a(Xj) = £ + в где £ > 0 — некоторая константа, £ > a0(Xj), и

Г« (Xj) - r?-a(Xj) = в + £ - a0(Xj) > !3,

и в пределе при l ^ ж алгоритмы A(Xi) и A(Xj), полученные в результате обучения по выборкам Xi и Xj будет давать одинаковый (в этом случае — правильный) ответ при классификации точки Xj с вероятностью единица.

Точно таким же способом показывается, что результат классификации алгоритмами A(Xi) и A(Xjj) в случае, когда, как и выше, ra(Xj) — Г^_a(Xj) > в, но точка Xj принадлежит классу Ki-a (в этом случае — уже ошибочный) также изменяться не будет. Таким образом, для любого а е {0; 1}

га(х^)—ri-a(Xj) > в ^ raj(Xj)—ri-jXj) > в.

Аналогичным способом легко показать обратное:

raj (Xj) — rl-„(Xj) > в ^ K(X3 ) — rl-a(Xj) > в.

2. При сколь угодно большой длине выборки l (l ^ ж) обученный алгоритм принимает решение об ошибке на основе имеющего место неравенства |ra(Xj) — ri-a(Xj)| < в. В этом случае

|ra(Xj) — г1—a(Xj)| = в — £; £> 0;

|raj(Xj) — rl-a(Xj)| < в — £ + ^o(Xj), £ = const > a0(Xj) ^ 0 при l ^ ж, поэтому Г*о!(Xj) — rlja(Xj)| < в, и в этом случае результат классификации точки Xj алгоритмами A(Xi) и A(Xj) в пределе при l ^ ж будет одинаковым.

В силу доказанного факта неизменяемости результатов классификации алгоритмами A(Xl) и A(Xj), при l ^ ж получаем

Vj е {1,...,l} Pl{|A(A(Xj),Xj)) — A(A(Xi),Xj))| =0} = 1, откуда немедленно следует CVloo устойчивость обучающего алгоритма A. □

7. ELooerr и LOO устойчивость и ОБУЧАЕМОСТЬ МОДИФИЦИРОВАННОЙ МОДЕЛИ ABO*

Теорема 6. Алгоритм A обучения модели ABO* с функцией потерь (6) является ELooerr устойчивым независимо от вида распределений вероятностей классифицируемых объектов и обучающих выборок.

Доказательство. Рассмотрим математическое ожидание

E(A(Xi))

У Л(A(Xi)(X), (x,a))dP(x,a)

(15)

Xn x{0;1}

где P — вероятностная мера на множестве Xn х {0; 1}, которое является вероятностью события, определяемого этой моделью как ошибка алгоритма, обученного по произвольной заданной выборке длины l, и включающего в себя как неправильную классификацию точек, так и отказ от классификации. Иначе говоря, величина (15) есть вероятность ошибки алгоритма A(Xi).

является выборочной средней или частотой ошибки алгоритма A(Xi), подсчитываемой методом скользящего контроля, и являющейся при l ^ те почти несмещённой оценкой [4, с. 267] величины E(A(Xi)) в том смысле, что если обозначить

то математическое ожидание оценки, полученной методом скользящего контроля будет

Величины pi-i и pi стремятся при l ^ те к одному и тому же пределу. Обозначим этот предел рте. При l ^ те разность pi-1 — рте = e1(l), где e1(l) — бесконечно малая, которая независимо от её знака стремится к нулю; e1(l) = o(l). Аналогично pi — р= e2(l), e2(l) = o(l). Поэтому

Таким образом, для любой выборки Xi и для любого j G {0,..., l} имеет место неравенство

Статистика

E(A(Xi)) = pi

|pi — pi-11 = |p^ + £2(l) — p^ — c 1 (l)| ^ о при l ^ те. Следовательно, при l ^ те, согласно закону больших чисел,

Последнее соотношение означает, что

Ve Ell0

l0(e) : Vl > l

0

< e.

(16)

Иначе говоря, в пределе при l ^ ж неравенство (16) выполняется достоверно, с вероятностью единица:

i 1

P{|E(A(X,)) - T£A(A(Xj),Xj))| < e(l)} = 1

l j= 1

для любой бесконечно малой e(l) ^ 0 при l ^ ж; и тем более для любой сколь угодно малой S(l) ^ 0 и для любого j £ {0,..., l} выполняется неравенство

1 1

P1 {|E(A(X)) - -£A(A(Xj),xj))| < e(l)} > 1 - S(l), l j=1

означающее ELooerr устойчивость алгоритма A. □

Теорема 7. Существует LOO устойчивый алгоритм обучения модифицированной модели ABO* методом минимизации эмпирического риска по одной заданной обучающей выборке, обеспечивающий обучаемость этой модели в форме универсального эмпирического обобщения.

Доказательство. Описанный выше (параграф 5) алгоритм A обучения модели ABO* является симметричным (стр. 36), CVloo устойчивым (по теореме 5) и ELooerr устойчивым (по теореме 6), следовательно, по теореме 3 обеспечивает универсальное эмпирическое обобщение по методу минимизации эмпирического риска по одной (без использования эталонной) обучающей выборке. □

Заключение

В статье получен следующий теоретический результат: существует устойчивый алгоритм A обучения модифицированной модели ABO*, гарантирующий её обучаемость в форме универсального эмпирического обобщения непосредственно по единственной заданной выборке путём минимизации эмпирического риска. Для получения этого результата была доказана LOO устойчивость алгоритма A. Алгоритм A подробно описан в данной статье и является процедурой обучения с поощрением. Он предполагает адаптацию только весов объектов обучающей выборки. Остальные параметры модели полагаются зафиксированными. Этого оказалось достаточно для достижения требуемого результата.

Предложенная модификация модели ABO является минимальной: исключается только случай, когда "точка голосует сама за себя".

Нетрудно показать, что в случае, когда в модифицированной модели ABO* процесс обучения заключается только в выборе по обучающей выборке кратчайших элементарных логических отделителей (в частности — тупиковых тестов), универсальное эмпирическое обобщение также будет иметь место.

Список ЛИТЕРАТУРЫ

1. Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин / М. А. Айзерман, Э. М. Браверман, Л. И. Розоноэр. — М.: Наука, 1970. — 320 c.

AIZERMAN, M. A., BRAVERMAN, E. M., & ROZONOER, L. I. (1970) Method of potential functions in the theory of learning machines. Moscow: Nauka.

2. Ашуров А. Р., Рудаков К. В. Алгоритмы вычисления оценок для задачи распознавания объектов с континуальной начальной информацией / А. Р. Ашуров, К. В. Рудаков // Ж. вычисл. матем. и матем. физ., 1984. — Т 24.— №12. — C. 1871-1880.

ASHUROV, A. R., RUDAKOV, K. V. (1984) Algorithms of Estimates Calculation for the Recognition Problem whith Continued Initial Information. J. Comput. Math. & Math. Phisycs, 24 (12), p. 18711880.

3. ВапникВ. Н., Червоненкис А. Я. Теория распознавания образов. М.: Наука, 1974. — 416 с. VAPNIK, V. N., CHERVONENKIS, A. Ya. (1974) Pattern Recognition Theory. Moscow: Nauka.

4. Вапник В. Н. Восстановление зависимостей по эмпирическим данным В. Н. Вапник. М.: Наука, 1979. — 448 с.

VAPNIK, V. N. (1974) Dependence Recovery by Use Empirical Data. Moscow: Nauka.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Воронцов К. В. Обзор современных исследований по проблеме качества обучения алгоритмов // Таврический вестник информатики и математики, 2004. — № 1. — С. 5-24.

VORONTZOV, K. V. (2004) Modern State of Art of the Learning Algorithms Quality. Tavrida J. of Computer Sci. Theory and Math., 1, p. 5-24.

6. Дмитриев А. Н., Журавлёв Ю. И., Кренделев Ф. П. О математических принципах классификации предметов и явлений // Дискретный анализ, 1966. — Вып. 7. — C. 3-15.

DMITRIEV, A. N., ZHURAVLEV Yu. I. & KRENDELEV F. P. (1966) On Mathematical Principles of Objects and Phenomenons Classification. Descreet Analisys, 7, p. 3-15.

7. Донской В. И. Колмогоровская гаожность и ее применение в машинном обучении // Таврический вестник информатики и математики, 2012. — № 2. — C. 4-35.

DONSKOY, V. I. (2012) Kolmogorov Complexity and its Application in Machine Learning. Tavrida J. of Computer Sci. Theory and Math., 2, p. 4-35.

8. Дьяконов А. Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических основ прогнозирования) / А. Г. Дьяконов. — М.: ВМК МГУ, 2010. — 278 с.

DYACONOV, A. G. (2010) Data Analisys, Learning by Precedents, Logical Games, WEKA, RapidMiner and MatLab systems (Practical Work on Computer, Chair of Mathematical Bases of Forecasting). Moscow: MSU.

9. Дьяконов А. Г. О выборе системы опорных множеств для эффективной реализации алгоритмов распознавания типа вычисления оценок // Ж. вычисл. матем. и матем. физ., 2000. — Т 40.— №7. — C. 1104-1118.

DYACONOV, A. G. (2000) The Choice of Support Set System for Effective Realization of the Recognition Estimates Calculation Algorithms. J. Comput. Math. & Math. Phisycs, 40 (7), p. 1104— 1118.

10. Дьяконов А. Г. Теория систем эквивалентностей для описания алгебраических замыканий обобщенной модели вычисления оценок // Ж. вычисл. матем. и матем. физ., 2011. — Т 51. — № 3. — C. 529-544.

DYACONOV, A. G. (2011) The Equivalence Systems Theory for the describing of algebraic Closings of Generalized Estimates Calculation Model. J. Comput. Math. & Math. Phisycs, 51 (3), p. 529-544.

11. Журавлев Ю. И. Алгоритмы распознавания, основанные на вычислении оценок / Ю. И. Журавлев, В. В. Никифоров // Кибернетика, 1971. — № 3. — C. 1-11.

ZHURAVLEV, Yu. I. (1971) Recognition Algoritms Based on Estimates Calculation. Cibernetics, 3,

p. 1-11.

12. Журавлев Ю. И. Избранные научные труды / Ю. И. Журавлёв. — М.: Магистр, 1998. — 420 с. ZHURAVLEV, Yu. I. (1998) Selected Scientific Works. Moskow: Magister.

13. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации / Ю. И. Журавлев // Проблемы кибернетики, 1978. — Вып. 7. — C. 5-68.

ZHURAVLEV, Yu. I. (1978) The Algebraic Approach to Recognition or Classification Problems. Problems of Cybernetics, 7, p. 5-68.

14. Заде Л. А. Понятие лингвистической переменной и его применение к принятию приближенных решений / Л. А. Заде. — М.: Мир, 1976. — 165 с.

ZADE, L. (1976) The concept of a linguistic variable and its application to the adoption of approximate solutions. Moscow: Mir.

15. Ицков А. Г. О емкости модели распознающих алгоритмов вычисления оценок / А. Г. Ицков // Журнал вычислительной математики и математической физики, 1982 — Т. 22.— № 4. — с. 975981.

IZKOV, A. G. (1982) On Capacity of the Model of Recognition Algorithms Based on Estimates Calculation. J. Comput. Math. & Math. Phisycs, 22 (4), p. 975-981.

16. Камилов М. М., Мирзаев Н. М., Раджабов С. С. Об одной модификации модели алгоритмов распознавания, основанных на вычислении оценок / М. М. Камилов, Н. М. Мирзаев, С. С. Раджабов // Доклады академии наук Республики Узбекистан, Ташкент: 2009. — Т. 258. — № 2. — с. 18-20.

KAMILOV, M. M., Mirzaev N. M., & Radgabov S. S. (2009) On the Modification of Recognition Algorithms Based on Estimates Calculation. Repotrs of Uzbekistan Academy of Science, 258 (2),

p. 18-20.

17. Мамаев В. В. Верхняя и нижняя границы емкости модели алгоритмов вычисления оценок / В. В. Мамаев // Депонир. в ВИНИТИ, 1997. — № 216-В97, 27.01.1997 г. — 5 с.

MAMAEV, V. V. (1997) Upper and Lower Bounds of the Capacity of the Model of Recognition Algorithms Based on Estimates Calculation. Deposited whith All-Russian Institute of Scientific and Technical Information, No. 216-В97.

18. Матросов В. Л. О критериях полноты модели алгоритмов вычисления оценок и её алгебраических замыканий / В. Л. Маторосов // Доклады академии наук СССР, 1981 — Т. 258. — № 4. — с. 791-796.

MATROSOV, V. L. (1981) On the criteria of completeness of the Model of Algorithms Based on Estimates Calculation and its Algebraic Closures. Reports of Russian Academy of Sciences, 258 (4), p. 791-796.

19. Матросов В. Л. Ёмкость алгебраических расширений модели алгоритмов вычисления оценок / В. Л. Матросов // Журнал вычислительной математики и математической физики, 1984 — Т. 11. — №5. — с. 1719-1730.

MATROSOV, V. L. (1984) The Capacity of the Algebraic Extensions of Algorithms of Calculating Estimates. J. Comput. Math. & Math. Phisycs, 11 (5), p. 1719-1730.

20. Плохонина Т. В. О некорректности алгебраического замыкания второй степени семейства алгоритмов вычисления оценок / Т. В. Плохонина // Журнал вычислительной математики и математической физики, 1985 — Т. 25.— № 7. — с. 1073-1086.

PLOKHONINA, T. V. (1985) On the Impropriety of Algebraic Closures of Second-Degree Family of Algorithms of Calculating Estimates. J. Comput. Math. & Math. Phisycs, 25 (7), p. 1073-1086.

21. Рудаков К. В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации / К. В. Рудаков // Кибернетика, 1987. — № 3. — с. 106-109.

RUDAKOV, K. V. (1987) Completeness and Universal Constraints in the Correction Problem of Heuristic Classification Algorithms. Cybernetics, 3, p. 106-109.

22. Рязанов В. В. Оптимизация алгоритмов вычисления оценок по параметрам, характеризующим представительность эталонных строк / В. В. Рязанов // Журнал вычислительной математики и математической физики, 1976 — Т. 16. — № 6. — с. 1559-1570.

RYAZANOV, V. V. (1976) Optimization of Algorithms of Calculating Estimates by the Parameters Characterizing the Representativity of the Reference Lines. J. Comput. Math. & Math. Phisycs, 16 (6), p. 1559-1570.

23. Хилков А. В. Формулы вычисления оценок для алгоритмов распознавания с опорными множествами / А. В. Хилков // Журнал вычислительной математики и математической физики, 1989 — Т. 29. — № 10. — с. 1565-1571.

KHILKOV, A. V. The Formulas for Calculating Estimates for Recognition Algorithms with Support Sets. J. Comput. Math. & Math. Phisycs, 29 (10), p. 1565-1571.

24. BLUMERA., EHRENFEUCHT A., HAUSSLERD., and WARMUTH M. K. Learnability and the Vapnik-Chervonenkis dimension / A. Blumer, A. Ehrenfeucht, D. Haussler and M. K. Warmuth // Journal of the ACM, 1989. — 36. — № 4.— p. 929-865.

25. BOUSQUET O., ELISSEEFF A. Algorithmic Stability and Generalization Performance / Olivier Bousquet , Andre Elisseeff // Advances in Neural Information Processing Systems, 2001. — № 13. — P. 196-202.

26. MUKHERJEE S. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization / Sayan Mukherjee, Partha Niyogi, Tomaso Poggio and Ryan Rifkin // Advances in Computational Mathematics, 2006. — No 25. — p. 161-193.

27. PESTOV V. PAC learnability versus VC dimension: a footnote to a basic result of statistical learning / Vladimir Pestov // Proc. 2011 International Joint Confernce on Neural Networks (IJCNN’2011), San Jose, CA (July 30-Aug. 5, 2011), p. 1141-1145.

28. SCHAPIRE R. E.The Strength of Weak Learnability / Robert E. Schapire // Machine Learning, 1990. — № 5. — p. 197-227.

i Надоели баннеры? Вы всегда можете отключить рекламу.