Научная статья на тему 'Невычислимость VC-размерности семейств классифицирующих функций'

Невычислимость VC-размерности семейств классифицирующих функций Текст научной статьи по специальности «Математика»

CC BY
80
11
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Донской В.И.

В статье получен следующий теоретический результат: ёмкость Вапника-Червоненкиса или, говоря иначе, VC-размерность произвольного общерекурсивного семейства классификаторов невычислима.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Noncomputability of VC Dimension of Classifier Families

The following theoretical result is got in the article: Vapnik-Chervonenkis capacity or, speaking otherwise, VC dimension of arbitrary general recursive family of classifiers is noncomputable. VC-dimension (VCD) or capacity of families of mappings which decision rules are extracted from, is one of major concepts of machine learning theory. Practice explored that VC dimension succeeded to be found only for a few simple families of classifiers. If to take into account that machine learning implies the use of computers, consideration of VC dimension of families of general recursive functions (algorithms) will be correct. Thus makes sense to examine such families of functions, which defined by neuron networks, decision trees, SVM, and other models in-use in the tasks of machine learning only. Such families, designated S, and functional F: S -> VCD(S), determined on these families and taking on a numerical value equal to the VC-dimension of these families, are examined. By description families of general recursive functions as the lines of arbitrary length, the functional is replaced by function in Turing presentation. Noncomputability of VCD(S) is further proved for arbitrary family S. Kolmogorov complexity of family of general recursive functions Kl(S) is entered to do that, where l is a variable which defines sample length. It is well known that Kolmogorov complexity of arbitrary string is noncomputable. We proved that comlexity Kl(S) is noncomputable as well. Inequality VCD(S) <= Kl(S) < VCD(S) log l was proven in [3]. Noncomputability of VCD(S) is proved by this inequality usage. Relation between sample compression, learnability, and VCD was studied in [8]. The compression function takes away from the sample so-called the compression set, consisting of no more than k teaching examples (number k is referred to the size of compression). In the same paper [8] it was proven, that at the length of sample l and the use of family of classifiers S there is a scheme of compression of size k, satisfying to inequality VCD(S ) < k <= V CD(S) log l. We proved that the size of compression k = k(l, S) is noncomputable as well.

Текст научной работы на тему «Невычислимость VC-размерности семейств классифицирующих функций»

удк 519.95

НЕВЫЧИСЛИМОСТЬ VC-РАЗМЕРНОСТИ СЕМЕЙСТВ КЛАССИФИЦИРУЮЩИХ ФУНКЦИЙ

© В. И. Донской

Таврический национальный университет им. В. И. Вернадского пр-т Вернадского, 4, Симферополь, Республика Крым, Россия e-mail: donskoy@tnu.crimea.ua

Noncomputability of VC Dimension of Classifier Families.

Donskoy V. I.

Abstract. The following theoretical result is got in the article: Vapnik-Chervonenkis capacity or, speaking otherwise, VC dimension of arbitrary general recursive family of classifiers is noncomputable. VC dimension (VCD) or capacity of families of mappings which decision rules are extracted from, is one of major concepts of machine learning theory. Practice explored that VC dimension succeeded to be found only for a few simple families of classifiers. If to take into account that machine learning implies the use of computers, consideration of VC dimension of families of general recursive functions (algorithms) will be correct. Thus makes sense to examine such families of functions, which defined by neuron networks, decision trees, SVM, and other models in-use in the tasks of machine learning only. Such families, designated S, and functional

F : S ^ VCD(S),

determined on these families and taking on a numerical value equal to the VC-dimension of these families, are examined. By description families of general recursive functions as the lines of arbitrary length, the functional is replaced by function in Turing presentation. Noncomputability of VCD(S) is further proved for arbitrary family S. Kolmogorov complexity of family of general recursive functions Kl(S) is entered to do that, where l is a variable which defines sample length. It is well known that Kolmogorov complexity of arbitrary string is noncomputable. We proved that comlexity Kl(S) is noncomputable as well. Inequality

VCD(S) < Ki(S) < VCD(S) log l

was proven in [3]. Noncomputability of VCD(S) is proved by this inequality usage.

Relation between sample compression, learnability, and VCD was studied in [8]. The compression function takes away from the sample so-called the compression set, consisting of no more than k teaching examples (number k is referred to the size of compression).

In the same paper [8] it was proven, that at the length of sample l and the use of family of classifiers S there is a scheme of compression of size k, satisfying to inequality

VCD(S) <k < VCD(S) log l. We proved that the size of compression k = k(l, S) is noncomputable as well.

1. Введение. Постановка задачи

В теории машинного обучения одним из важнейших понятий является УС -размерность или емкость семейств отображений, из которых извлекаются решающие правила. Если полагать, что машинное обучение подразумевает использование компьютеров, то корректным будет рассмотрение УС-размерности семейств рекурсивных функций (алгоритмов).

Обозначим 6 — семейство общерекурсивных функций (алгоритмов) вида

А : Хп ^ {0,1}, Хп = {Х = (хг ,...,х,- ,..,хп) : х € {0,1, 2,... , }}.

В теории машинного обучения функции семейства 6 называют классификаторами.

(Заметим, что при вычислениях на реальных компьютерах множество значений переменных ограничено: хг € {0,1,..., 2м — 1}, где М — зафиксированное целое положительное число. Обычно М является разрядностью компьютера — количеством бит, выделяемых для представления одного числа или одного элемента памяти).

В семействе 6 выделим множество подсемейств общерекурсивных классификаторов: {Уг С 6, С 6,... }. Будем называть эти подсемейства классами решающих правил. Такие классы в рамках парадигмы машинного обучения соответствуют семействам общерекурсивных классификаторов, реализуемых, например, нейронными сетями, решающими деревьями, машинами опорных векторов, алгоритмами вычисления оценок [4] и другими алгоритмическими моделями классификации.

Произвольный класс решающих правил (алгоритмов) будем обозначать ^, ^ С 6.

Выборка, состоящая из I произвольных элементов (точек) множества Xп, обозначается Хг = Хг,..., Х\ и представляет собой набор п х I чисел из расширенного натурального ряда. Теоретически и практически допустимо считать все рассматриваемые числа представленными в виде бинарных строк. Множество всех выборок обозначается Xг.

Применение произвольного классификатора А € ^ к I точкам выборки Хг порождает I двоичных значений - бинарную строку

У = (Уг,...,Уз ,...,Уг) : У = А(Х,-) € {0,1}, 3 = 1,..., I.

Будем называть строку у разбиением выборки Хг на два класса в соответствии со значениями 0 и 1 функции (алгоритма) А и использовать обозначение уА = А(Хг).

Применение одного и того же алгоритма к различным выборкам и применение различных алгоритмов к одной и той же выборке дает, вообще говоря, различные

разбиения. Алгоритмы, порождающие одинаковые разбиения любых допустимых выборок, будем называть подклассом эквивалентных алгоритмов семейства S.

Определение 1. [1] VC-размерностью или емкостью семейства функций S = {A : Xn ^ {0,1}}, обозначаемой VCD(S), называется наибольшее значение I* такое, что найдется выборка Xi*, которая может быть разбита всеми 2l способами алгоритмами семейства S:

aXi* : | {y: y = A(Xi*), A е S} |=2l*,

но никакая выборка длины большей, чем /*, разбита всеми способами быть не может. Если же при любом I найдется выборка, разбиваемая всеми 2i способами, то VC-раз-мерность семейства S полагается неограниченной (то).

Определение 2. Пусть B(S) — множество всех подмножеств семейства S и K е B(S). Назовем отображение

F : S ^ VCD(S), F е K,

функционалом комбинаторной размерности (VC-размерности).

Целью дальнейшего изложения является выяснение вопроса: является ли функционал комбинаторной размерности вычислимым?

2. Представление функционала комбинаторной размерности в виде функции, предназначенной для вычисления на машине Тьюринга

Функционал F ставит в соответствие некоторому подклассу общерекурсивных функций S число VCD (S). Переходя к эквивалентному тьюринговскому языку представления рекурсивных функций, покажем, что интересующие нас семейства S при зафиксированном (но любом!) значении параметров могут быть представлено словом W(S) на ленте машины Тьюринга. При таком представлении функционал F интерпретируется заданием функции, которая по слову W(S) должна, если функционал вычислим, выдавать число VCD(S). Указанное представление упростит рассмотрение вопроса о вычислимости функционала F .

Приведем примеры конструирования слова W(S) для некоторых используемых при машинном обучении классов S.

2.1. Семейство классификаторов, представляемых бинарными решающими деревьями (БРД). Программирование слова Ш^брд для представления семейства ^"БРД БРД с ^ листьями основано на представлении каждой из ^ — 1 вершин ветвления словом-атомом, состоящим из двух частей - префикса и окончания атома:

Код номера переменной или значение решающей функции (0 или 1)

Номер следующего атома в конкатенации или значение решающей функции (0 или 1)

Префикс атома может иметь п +1 значение, если 0 и 1 резервируются для значений классифицирующей функции, а значениями 2, 3,... , п + 1 кодируются номера переменных-признаков 1, 2,... , п. Окончание атома может иметь ^ значений: 0 и 1 резервируются также, как в префиксе. Остальные ^ — 2 значений соответствуют направленным рёбрам дерева, являющимися указателями на решающие вершины дерева (атомы списка). Указатель на одну (начальную вершину дерева) не требуется: нужны указатели только на ^ — 2 оставшиеся внутренние вершины. Всего получается ^ значений для окончания атома.

Слово Ш^брд будет конкатенацией вида: <атом><атом>...<атом>. Если значения префиксов и окончаний всех атомов слова Ш^брд зафиксировать, то будет задан некоторый единственный алгоритм А € ^Брд. Если же значения всех префиксов и окончаний считать пробегающими все допустимые значения, то слово Шбрд будет представлять все семейство ^брд .

Таким образом получается описание любого семейства БРД-классификаторов для любого сколь угодно большого (но конечного)

2.2. Семейство классификаторов , представляемых нейронными сетями. Описание слова определяется следующим образом.

Будем использовать гёделевы номера машин Тьюринга для представления рекурсивных функций ядер нейронных сетей. Узлы нейронной сети будут представляться атомами, состоящими из описания списка входов, строкой-описанием функции ядра и описанием выхода. Каждый узел имеет номер. Каждый вход узла имеет идентификатор, состоящий из номера узла и номера его входа. Каждый выход узла снабжается указателем на некоторый вход какого-либо узла. Свободные входы (на которые не направлен никакий указатель) предназначаются для приема описания классифицируемых объектов. Свободный выход предназначается для значений, выдаваемых нейронным классификатором.

Слово Ш^ми будет являться конкатенацией описаний узлов.

Если разрешить в слове W^NN любые допустимые значения параметров, то будет получено описание класса S^NN • Для любых возможных значений ^ получается описание семейства SNN •

2.3. Семейство классификаторов Sk-NN — по методу ближайших соседей.

Для формирования слова Wsfc_NN в каждом допустимом случае используется сама входная выборка, описание числа к, описание рекурсивной функции расстояния и описание рекурсивной функции вычисления а^шт.

3. Колмогоровскдя сложность и вычислимость УС -размерности

Определение 3. [6] Колмогоровская сложность слова (строки) х при заданном способе описания - вычислимой функции (декомпрессоре) Б есть

КБо (х) = шт{/(р)|Б(р) = х},

если существует хотя бы одно двоичное слово р такое, что Б(р) = х. Иначе полагается, что значение сложности не ограничено. Будем говорить, что в таком случае колмогоровская сложность не определена.

Здесь и далее /(р) обозначает длину слова р в битах.

Определение 4. Условная колмогоровская сложность слова х при заданном слове у есть

К во (х|у) = ш1п{/(р)|Б(р,у) = х}; если у - пустое слово, то КБо (х|у) = КБо (х)

Определение 5. Говорят, что декомпрессор (слова х) не хуже декомпрессора Б2, если КБ01 (х|у) < КБ02(х|у) + 0(1). Декомпрессор называют оптимальным, если он не хуже любого другого декомпрессора.

Теорема 1. (Соломонова-Колмогорова) [6]. Существуют оптимальные декомпрессоры.

Эта теорема позволяет использовать в определении колмогоровской сложности произвольный оптимальный декомпрессор.

Определение 6. [6] Колмогоровской сложностью КБ(х) слова (строки) х называют сложность КБи (х) при способе описания и, являющемся произвольным оптимальным декомпрессором. Соответственно, условной колмогоровской сложностью КБ(х|у) слова х при заданном слове у называют сложность КБи(х|у).

Доказан и хорошо известен следующий факт теории колмогоровской сложности [5, 2, 9]:

Теорема 2. Колмогоровская сложность KS(x|y) не является вычислимой функцией.

Определение 7. [3] Пусть U — такая частично-рекурсивная функция, что для каждого алгоритма A Е S и для любой выборки Xi найдется двоичное слово p, которое обеспечивает выполнение равенства U(p,Xi) = уА, где yA = A(Xi),..., A(Xi) — двоичное слово (строка) длины l. При этом каждый алгоритм A Е S полагается определенным на каждой выборке Xi из Xi. Функция U с указанными свойствами существует в силу существования универсальной функции двух аргументов для любого семейства частично-рекурсивных функций одного аргумента.

1. Сложность алгоритма A относительно выборки Xi по частично-рекурсивной функции U есть

Ku(A|Xi) = min{len(p) : U(p,Xi) = уА}.

2. Сложность алгоритма A на множестве X1 по частично-рекурсивной функции U есть

Ku,xi (A) = max Ku(A|XTi)

3. Сложность семейства алгоритмов S на множестве Xi по частично-рекурсивной функции U есть

KU,X 1(S) = max KU,X '(A).

4. Сложность семейства алгоритмов S на множестве Xi есть

Ki(S) = rmin KU,Xi(S).

U tPp.r,

В приведенном определении сложность семейства алгоритмов S на множестве всех возможных выборок Xi длины l - это наименьшая длина двоичного слова p, по которому можно восстановить самый сложный (и любой) алгоритм A Е S. Важно, что слово p обрабатывается одной и той же функцией (программой) U*, причем, согласно 4°, наилучшей в следующем смысле. Программа U* обеспечивает наибольшее сжатие информации о семействе S в слово p длины Ki (S). Мажоранту сложности Ki(S) можно получить, если точно указать структуру слова p, подлежащего расшифровке, и его длину в битах, а также представить алгоритм обработки этого слова, который будет использоваться вместо программы U* для оценивания сложности сверху.

Теорема 3. Колмогоровская сложность K^S) произвольного семейства общерекурсивных функций S невычислима.

Доказательство. В определении колмогоровской сложности Kl(S) содержится невычислимое (в силу теоремы 2) выражение

Ku(A|Xi) = min{/en(p) : U(p,Xi) =

Это приводит к невычислимости Ki(S). □

Теорема 4. [3] Пусть система частично-рекурсивных функций S вида A : Xn —> {0,1} имеет ограниченную емкость hs = VCD(S) и колмогоровскую сложность Kl (S). Тогда при конечных значениях hs > 2 и / > hs имеет место двойное неравенство

hs < Ki(S) <hs logl. (1)

Теорема 5. VC-размерность произвольного рекурсивного семейства S невычислима.

Доказательство. Предположим, что hs вычислима. Из неравенств (1) следует

Ki(S ) = hs + j,

где j - константа из целочисленного отрезка 0,1, 2,... , [hs(logl — 1)]. Тогда Ki(S), как сумма двух вычислимых слагаемых - hs и константы, - также должна быть вычислимой. Но это приводит к противоречию: в силу теоремы 3, колмогоровская сложность Ki(S) вычислимой не является. □

Связь между сжатием обучающей выборки, обучаемостью и VCD была изучена в работе Флойда и Вармута [8]. Функция сжатия отбирает из обучающей выборки так называемое множество сжатия, состоящее из не более чем k обучающих примеров (число k называют размером сжатия).

В этой же работе [8] было доказано, что при длине обучающей выборки I и использовании семейства классификаторов S существует схема сжатия размера k, удовлетворяющая неравенству

VCD(S) < k < VCD(S)logl. (2)

Теорема 6. Размер сжатия k = k(/, S) при использовании для обучения рекурсивного семейства S и длине обучающей выборки, равной I, невычислим.

Доказательство. Предположим, размер сжатия k является вычислимым. Но тогда, с учетом неравенства (2),

VCD(S) = k — j > 0, (3)

где j — некоторая константа. Учитывая, что ) непустого семейства S прини-

мает положительные целочисленные значения, можно сделать вывод, что VCD(S) вычислима. Действительно, при таком предположении размер k - вычислим, константа j - вычисли ма и k—j - вычисли мая функция (здесь ^ — ^ - рекурсивная функция - усеченная разность,- заменяющая обычное вычитание в формуле (3)). Но сделанное предположение противоречит теореме 5: VCD(S) является невычислимой. □

Заключение

В статье получен следующий теоретический результат: емкость Вапника-Червоненкиса или, говоря иначе, VC-размерность произвольного общерекурсивного семейства классификаторов невычислима.

Направление дальнейших исследований связано с повышением точности оценок VC-размерности на основе метода pVCD [3].

Описок литературы

1. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. М.: Наука, 1974. — 416 с. V. N. Vapnik Statistical Learning Theory. Wiley, New York, 1998.

2. Вьюгин В. В. Колмогоровская сложность и алгоритмическая случайность / В. В. Вьюгин. — М.: МФТИ, 2012. — 131 с.

V. V. V'yugin Kolmogorov Complexity and Algorithmic Randomness. MPTI, Moscow, 2012.

3. Донской В. И. Сложность семейств алгоритмов обучения и оценивание неслучайности извлечения эмпирических закономерностей / В. И. Донской // Кибернетика и системный анализ, 2012. — № 2. — С. 86-96.

V. I. Donskoy. Complexity of families of learning algorithms and estimation of empirical pattern extraction nonrandomness // Cybernetics and System Analysis, 2012, 2, pp. 86-96.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Журавлев Ю. И. Алгоритмы распознавания, основанные на вычислении оценок / Ю. И. Журавлев, В. В. Никифоров // Кибернетика, 1971. — № 3. — С. 1-11.

Yu. I. Zhuravlev. Recognition algorithms based on estimates calculation // Cybernetics, 1971, 3, pp. 1-11.

5. Звонкин А. К., Левин Л. А. Сложность конечных объектов и обоснование понятий информации и случайности с помощью теории алгоритмов / А. К.|;Звонкин, Л. А. Левин // Успехи математических наук, 1970. — Т. 25:6(156). — С. 85-127.

A. K. Zvonkin, L. A. Levin. The complexity of finite objects and the development of the concepts of information and randomness by means of the theory of algorithms // Uspekhi Mat. Nauk, 1970, 25:6(156), pp. 85-127.

6. Колмогоров А. Н. Теория информации и теория алгоритмов // А. Н. Колмогоров. — М.: Наука, 1987. — 304 с.

A. N. Kolmogorov. Selected Works. Volume III: Information Theory and the Theory of Algorithms. Math. and its Applications, Volume 27, 1993.

7. Успенский В. А, Верещагин Н. К., Шень А. Колмогоровская сложность и алгоритмическая случайность / В. А. Успенский, Н. К. Верещагин, A. Шень. — М.:МЦНМО, 2010. — 556 с.

V. A. Uspensky, N. K. Vereshchagin, A. Shen. Kolmogorov complexity and algorithmic randomness. MCCME, Moskow, 2010.

8. Floyd S., Warmuth M. Sample Compression, learnability, and the Vapnik-Chervonenkis dimension / Sally Floyd, Manfred Warmuth // J. Machine Learning. - 1995. — Vol. 21. — Iss. 3. — P. 269-304.

9. Li M., Vitanyi P. An introduction to Kolmogorov complexity and its applications / Ming Li, Paul M. B. Vitanyi. — New York: Springer-Verlag, 1997. — 637 p.

Статья поступила в редакцию 02.06.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.