Научная статья на тему 'О ЁМКОСТИ МОДЕЛИ КЛАССИФИКАЦИИ'

О ЁМКОСТИ МОДЕЛИ КЛАССИФИКАЦИИ Текст научной статьи по специальности «Математика»

CC BY
38
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗМЕРНОСТЬ VC / КЛАССИФИКАТОР / СЛОЖНОСТЬ МОДЕЛИ / ВЫБОРКА / НЕЙРОННАЯ СЕТЬ

Аннотация научной статьи по математике, автор научной работы — Охлупина О.В., Прокопенко А.А., Згонникова А.О.

Рассмотрено математическое обоснование и применение VC-размерности. Приведены примеры классификаторов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT THE CAPACITY OF THE CLASSIFICATION MODEL

The mathematical justification and application of VC-dimension are considered. Examples of classifiers are given.

Текст научной работы на тему «О ЁМКОСТИ МОДЕЛИ КЛАССИФИКАЦИИ»

УДК 519.87

О ЁМКОСТИ МОДЕЛИ КЛАССИФИКАЦИИ

О.В. Охлупина, А.А. Прокопенко, А.О. Згонникова

ФГБОУ ВО «Брянский государственный инженерно-технологический университет»

Рассмотрено математическое обоснование и применение VC-размерности. Приведены примеры классификаторов.

Ключевые слова: размерность VC, классификатор, сложность модели, выборка, нейронная сеть.

Введение

Машинное обучение позволяет рассматривать вопросы предсказания поведения сложных систем при отсутствии точных предположений о механизмах, определяющих поведением таких систем. Назначение теории обобщения - установить качество алгоритмов классификации или регрессии. Среди методов машинного обучения выделяют два. В первом извлекается обучающая выборка, которая используется для обучения. Происходит предсказание по обучающей выборке, и далее метод, не изменяясь, в дальнейшем применяется для решения задачи предсказания. Во втором методе обучение происходят постоянно в процессе поступления данных

Теория обобщения позволяет оценить вероятности ошибки классификации будущих данных при условии, что обучение проведено на случайной обучающей выборке достаточно большого размера и в его результате функция классификации согласована с обучающей выборкой. Важнейшим параметром такой оценки является сложность - размерность класса функций классификации.

Понятие размерности VC

Введём следующие обозначения. Рассмотрим множество объектов Х. Функции классификации на множестве Х объединим в семейство классификаторов Н.

Пусть далее (х-, ...,хг ) £Х- произвольная выборка элементов, h £ Я.

Рассмотрим набор (h(xx), ...^(хг)) £ {-1,1}, который определим с помощью разбиения множества {х-, ...,хг} на подмножество положительных примеров: {Xjih(Xj) = 1} и отрицательных: {Xj! h(Xj) = -1}.

Считается, что множество {хх, ..., хг} полностью разбито функциями из Н, если

{(h(*i.....h(*j)):h £Я} = {-1,1}г .

Функцию роста для класса H определим по формуле:

шах

Яя(0 = , , |{h(xi),h(x2).....h(x,):h £ Я}|.

ßH(Z) < 2г (если найдётся выборка длины l, полностью разделимая функциями из Н, тогда #я(0 = 2г.

Теорема 1 (основная теорема теории VC-размерности).

Пусть Н - произвольный класс индикаторных функций. Тогда для него выполняется одно из следующих утверждений:

1) = 2г, для всех l.

2) найдётся полностью разделимая выборка максимальной длины d. Тогда #я(0 =

2г, при I < d и ßH(Z) < Е?=о (!) < при I > d.

Следовательно, функция Ся(/) = lnßw(Z) - линейная или, начиная с некоторого значения, ограничена логарифмической функцией O(dlnZ) (Например, она не может иметь вид: O(VI)).

Значение d - это размерность Вапника-Червоненкиса (VC-размерность класса H). Если выполняется пункт 1) теоремы 1, то VC-размерность равна бесконечности.

Теорема 2.

Пусть йп - евклидово пространство. Тогда:

1) й = п + 1 для множества линейных функций классификации над йп.

2) й = п для множества линейных однородных функций классификации над йп.

3) для класса линейных однородных классификаторов над йп имеет место неравенство:

Ст(0 = 1пЯт(0 = 1п(2 ^ - 1)) < (п - 1)(1п(/ - 1) - 1п(п - 1) + 1) + 1п 2

V ¿ = 0 /

при I > п.

Обозначим через Г - класс индикаторных функций на йп. Лемма 1.

Пусть F = F1 xF2 - декартово произведение классов индикаторых функций, С = F1 о F2 - класс композиций функций из классов F1 и F2 . Тогда для произвольного к

1. В^)<Вл(&)-В/2(&);

2. Вс(&)<Вл(&)-В/2(&);

Нейронная сеть представима в виде функций с векторными значениями.

где Ш; £ М, 1=1, ..., I, / = (/¿д, ...,Дт() - кортеж одномерных функций вида тип йт'-1 ^ й.

Композиция / = /г о /г-1 о ... о /2 о /1 - выход нейронной сети таких функций. Допустим, что Г - множество функций / вычислимых посредством нейронной сети, Ft -класс функций с векторными значениями /¿:йт'-1^йт', а Ft'-, - множество функций, определяющих у'-ю составляющую рассматриваемых композиций.

УС-размерность класса F ^ равна + 1 для каждого г г т

¿=1 У=1

г w

1 F4 ^

=1 =1 =1

т,■ , j

<М1 I , )di-1+1 = ГГ( п.

+ 1/ 11 + =1 =1 =1

где N = + 1) - общее количество параметров нейронной сети (справедливость

неравенств следует из теоремы 1 и леммы 1).

Перейдем к оценке VC-размерности F класса. Допустим, что n - это максимальный размер (по количеству элементов) множества, которое разбивается полностью элементами из F. Следовательно, 2n < (ne)w при условии п = 0(N logN). Отсюда следует, что VC-размерность F определяется величиной 0(N logN).

Замечание. VC-размерность множества, включающего в себя все линейные классификаторы, определяется размерностью пространства объектов. В действительности при практическом применении количество элементов выборки может не превосходить размерности пространства. Это связано с тем, что при разбиении выборки вещественными функциями объекты различных классов могут разбиваться с любым малым интервалом. Помимо этого, не ограничивается распределение подобных векторов в пространстве. Поэтому необходимо, чтобы объекты несовпадающих классов разбивались функциями с определённым положительным интервалом. При этом область определения классификаторов должна быть ограничена. VC-размерность, не зависящая от размерности пространства. позволяет получать оценки, применимые на практике.

Примеры классификаторов

1. / - постоянный классификатор, без параметра. Его УС-размерность - нулевая, потому что он не имеет возможности разбить даже одну точку. Размерность УС завершенной

классификационной модели, которая имеет возможность возвращать не более 2d отличных друг от друга функций классификации, меньше либо равна d, что является верхней оценкой VC-размерности.

2. / - пороговый классификатор действительных чисел с одним параметром, что означает что для определенного порога 0, функция классификации /о возвращает 1 при значении входного числа не менее 0, иначе возвращается 0. Размер / равен 1, так как, во-первых, классификатор разбивает одну точку. Во-вторых, он не может разбить двухточечные наборы.

3. / - интервальный классификатор с одним папаметром для вещественных чисел. Для фиксированного параметра 0, функция классификации /о возвращает 1, если входной номер принадлежит интервалу [6,6 + 4], иначе возвращается 0. Размерность / равна двум. Во-первых, потому что он может разбить некоторые наборы из 2 точек. Во-вторых, он не может разбить ни один набор из трёх точек.

4. / - прямая линия, соответствующая модели классификации точек на двумерной плоскости. Такая линия должна отделять положительные и отрицательные точки. Действительно существуют наборы из 3 точек, которые можно разбить, используя такую модель, любые 3 точки, не лежащие на одной прямой, могут быть разбиты. Ни один набор из 4 точек не подлежит разбиению. Таким образом, VC-размерность этого классификатора равна трём. Необходимо помнить, что при произвольности выбора любого расположения точек, их положение не может изменяться при попытках разбить их для присвоения метки.

Применение VC-размерности

В статистической теории обучения. По VC-размерности можно оценить вероятностную верхнюю границу ошибки в модели классификации. Согласно Вапнику, вероятность ошибкиопределяется выражением:

Pr (test error < training error + [d (log (2~) + l) — log Q) ) = 1 — ty, где D - VC-

размерность классификационной модели, 0 < ty < 1, также N - размер выборки (имеет ограничение: D << N. В противном случае, вероятность ошибки теста может быть намного выше, чем ошибка обучения).

В вычислительной геометрии. VC-размерность - один из определяющих параметров размера эпсилон-сетей, влияющий на сложность алгоритмов приближения на их основе. Наборы выборок, не имеющие конечной VC-размерности, могут не иметь конечных эпсилон-сетей. Границы.

1. Размерность VC двойственного семейства множеств _р строго меньше, чем

2VO(f)+1.

2. Размерность VC конечного множества-семейства Н самое большое log21Я |. Так как |Я П С| < |Я| по определению.

3. Учитывая семейство наборов Н, определять Hs как семейство множеств, которое содержит все перечисления s элемента H. VCDim^s) < VCDim(H) • (2s log2(3s)).

4. Учтём семейство набора Н и элемент Л0 £ Я, определять Я А Л0 := (ЛаЛ0|Л£Я), где А это симметричная разность множеств. Тогда VCDim^ А Л0) = VCDim(H).

Размер VC повышающего классификатора Представим, что у нас есть базовый класс В простых функций классификации, VC-размерность которых - D. Есть возможность создать более мощный классификатор, в котором объединены различные классификаторы из В. Такой метод принято называть бустингом. Учитывая Т классификаторов ...,ЛГ£5 и вектор веса ш £ RT, можно определить функцию классификации:

J(x) = s¿S,n(2t=1 • ht(x)). VC-размерность набора этих классификаторов (предполагая, Т, D > 3) не более Т • (D + 1) • (3 log(T • (D + 1)) + 2).

Размер виртуального канала нейронной сети

Нейронная сеть описывается ориентированный ациклическим графом G (V,E), где:

• V - набор узлов, каждый из которых есть простая вычислительная ячейка.

• E - набор ребер с весом.

• Вход в сеть представлен узлами графа без входящих ребер.

• Выход сети представлен узлами графа без исходящих ребер.

• Каждый промежуточный узел получает в качестве входных данных взвешенную сумму выходных данных узлов на его входящих ребрах с весами на ребрах.

• Каждый промежуточный узел выводит возрастающую функцию своего входа (функцию активации).

Заключение

Обычно VC-размерность определена на пространстве бинарных функций. Для работы с пространствами небинарных функций рекомендуются следующие обобщения. В случае многозначных функций использовать VC-размерность из [1] и [2]. Для вещественнозначных функций применяется псевдоразмерность (см. [3]).

Список литературы

1. Натараджан Б.К. Об обучающих наборах и функциях. - Машинное обучение. -1989. - 4. - С. 67-97.

2. Characterizations of learnability for classes of {0, ..., n}-valued functions [Электронный ресурс]. Режим доступа: https://dl.acm.org/doi/10.1145/130385.130423 (дата обращения 24.12.2021).

3. Pollard D. Convergence of stochastic processes [Электронный ресурс]. Режим доступа: http://www.bookre.org/reader?file=1015937 (дата обращения 24.12.2021).

4. Neural Network Learning: Theoretical Foundations (Martin Anthony, Peter L. Bartlett) [Электронный ресурс]. Режим доступа: http://www.bookre.org/reader?file=1184612 (дата обращения 24.12.2021).

Сведения об авторах

Охлупина Ольга Валентиновна - кандидат физико-математических наук, доцент кафедры математики, ФГБОУ ВО «Брянский государственный инженерно-технологический университет», e-mail: helga131081@yandex.ru.

Прокопенко Арина Александровна - студентка, группа ИСТ-201, Инженерно-экономический институт, ФГБОУ ВО «Брянский государственный инженерно-технологический университет», e-mail: kap.moral@mail.ru.

Згонникова Александра Олеговна - студентка, группа ИСТ-201, Инженерно-экономический институт, ФГБОУ ВО «Брянский государственный инженерно-технологический университет», e-mail: kap.moral@mail.ru.

ABOUT THE CAPACITY OF THE CLASSIFICATION MODEL

O.V. Okhlupina, A.A. Prokopenko, A.O. Zgonnikova

Bryansk State University of Engineering and Technology

The mathematical justification and application of VC-dimension are considered. Examples of classifiers are given.

Keywords: VC dimension, classifier, model complexity, sampling, neural network.

References

1. Nataradzhan B.K. Ob obuchayushchih naborah i funkciyah. - Mashinnoe obuchenie. -1989, 4. - S. 67-97.

2. Characterizations of learnability for classes of {0, ..., n}-valued functions [Elektronnyj resurs]. Rezhim dostupa: https://dl.acm.org/doi/10.1145/130385.130423 (data obrashcheniya 24.12.2021).

3. Pollard D. Convergence of stochastic processes [Elektronnyj resurs]. Rezhim dostupa: http://www.bookre.org/reader?file=1015937 (data obrashcheniya 24.12.2021).

4. Neural Network Learning: Theoretical Foundations (Martin Anthony, Peter L. Bartlett) [Elektronnyj resurs]. Rezhim dostupa: http://www.bookre.org/reader?file=1184612 (data obrashcheniya 24.12.2021).

About author

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Okhlupina O.V. - PhD in Physical and Mathematical Sciences, Associate professor of Department of Mathematics, Bryansk State University of Engineering and Technology, e-mail: helga131081@yandex.ru.

Prokopenko A.A. - student, IST-201 group, Institute of Engineering and Economics, Bryansk State University of Engineering and Technology, e-mail: kap.moral@mail.ru.

Zgonnikova A.O. - student, IST-201 group, Institute of Engineering and Economics, Bryansk State University of Engineering and Technology, e-mail: kap.moral@mail.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.