Ученые записки Таврического национального университета им. В. И. Вернадского
Серия «Физико-математические науки» Том 23 (62) № 2 (2010), с. 56-65.
УДК 519.95
В. И. Донской
ОЦЕНКИ ЕМКОСТИ ОСНОВНЫХ КЛАССОВ АЛГОРИТМОВ ЭМПИРИЧЕСКОГО ОБОБЩЕНИЯ, ПОЛУЧЕННЫЕ pVCD МЕТОДОМ
В работе представлены оценки емкости (VC-Dimension) основных классов алгоритмов эмпирического обобщения, используемых в задачах распознавания образов. Оценки получены новым pVCD методом, который основан на колмогоровском подходе к определению сложности и сводится к построению сжатого описания информации об алгоритмах каждого рассматриваемого класса в виде битовой строки.
Ключевые слова: емкость Вапника-Червоненкиса, машинное обучение.
Введение
Используемый в статье рУСО метод предполагает сужение семейства моделей эмпирического обобщения до классов частично-рекурсивных функций и даже уже -до классов вычислимых функций, реализуемых на компьютерах. Целесообразность такого подхода объясняется реализацией алгоритмов обучения и распознавания, как правило, именно на компьютерах. Поэтому исходное математическое описание семейств используемых моделей и правил распознавания в более широких классах, в частности, использование семейств непрерывных функций, влечет завышение оценок их сложности, которые к тому же очень трудно получать. Традиционное завышение оценок сложности семейств моделей обучения и распознавания объясняется тем, что математическое мышление создателей моделей чаще всего (и особенно на начальном творческом уровне) не рекурсивно по своей природе. Но при переходе к компьютерной реализации исходные модели и семейства решаюших правил автоматически сужаются до конечных рекурсивных схем. Именно последние используются для получения решений, и поэтому именно они и должны оцениваться.
Далее используются следующие обозначения. 5 — произвольное семейство частично-рекурсивных функций (алгоритмов), состоящее из функций вида А :
Хп ^ {0,1}; Хп = {X = (хх, ...Хп) : Xi € {0,1,..., 2м - 1}}. Выборка, состоящая из I произвольных элементов множества Хп, обозначается Хг = Хх,... ,Хг и представляет собой упорядоченный набор п х I ограниченных чисел из расширенного натурального ряда. Теоретически и практически допустимо считать все рассматриваемые числа представленными в виде бинарных строк. Множество всех выборок обозначается Хг.
Обучающей выборкой называется пара (Хг,щ), где а = (ах,...,аг), а^ = ^(Х^-),] = 1, ...,1; ^ : Хп ^ {0; 1} - некоторая заранее неизвестная, но предполагаемая существующей классифицирующая функция. Множество всех возможных обучающих выборок Х1 х {0; 1}1 представляет собой генеральную совокупность, из которой могут извлекаться обучающие выборки. Задача обучения состоит в нахождении по заданной обучающей выборке (Хг,аг) функции ^ или как можно более "близкой"к ней решающей функции (алгоритма или правила) А* € Б. Отыскиваемая функция ^, также как и её аппроксимация А*, являются предикатами, определяющими некоторое свойство или закономерность. Именно обобщение свойств выборки (частных наблюдений) с целью выбора решающего правила или нахождения закономерности определяет применяемый метод - эмпирическую индукцию. Изначальная некорректность метода эмпирической индукции, обусловленная неединственностью множества решений задачи обучения, приводит к дополнительной проблеме обоснования выбранного решающего правила.
Семейство Б, внутри которого отыскивается решение, определяется условиями, которым должна удовлетворять искомая функция, и выбором модели обучения (и соответствующего класса алгоритмов распознавания), например, вычисления оценок, нейронных сетей, деревьев решений или алгебраических корректирующих моделей над перечисленными и/или другими эвристическими алгоритмами [2, 4, 6, 7, 9]. В частности, отыскивается такая функция А* € Б, для которой эмпирический риск и1 (А) = 1-х ^ \=х |А(Х^-) — а^ | минимален.
Сложность семейств алгоритмов, применяемых в указанных задачах, имеет большое значение для обоснования выбора решений. Впервые важнейшее значение сложности семейств решающих правил в задачах эмпирического обобщения показали В. Н. Вапник и А. Я. Червоненкис [1]. Предложенная ими мера сложности, вообще говоря, произвольных вещественнозначных функций - так называемая ёмкость или УС-размерность, - возможно, является одним из самых ярких и полезных понятий для развития теории индуктивной математики (и не только). В данной статье приводится алгоритмическое определение сложности семейств алгоритмов, основанное на идеях А. Н. Колмогорова [5], и рассматривается применение введенной меры алгоритмической сложности для оценивания УС -размерности. Статья развивает новое направление в алгоритмической теории обучения, элементы которого впервые появились в работе автора [3].
Множество {0,1}* всех строк из нулей и единиц любой длины обычным образом (лексикографически и по длине)представляет целые неотрицательные числа 0,1,2,.... Длина слова p £ {0,1}* обозначается len(p). Класс частично-рекурсивных функций обозначается Pp.r.. Логарифмы полагаются по основанию 2.
Определение сложности по Комогорову и pVCD метод
Определение 1. Пусть U — такая частично-рекурсивная функция, что для каждого алгоритма A £ S и для любой выборки Xi найдется двоичное слово p, которое обеспечивает выполнение равенства U(p, XXi) = у, где у = A(Xi),..., A(Xi) — двоичное слово (строка) длины l. При этом каждый алгоритм A £ S полагается определенным на каждой выборке Xi из X1. Функция U с указанными свойствами существует в силу существования универсальной функции двух аргументов для любого семейства частично-рекурсивных функций одного аргумента.
(1) Сложность алгоритма A относительно выборки Xi по частично-рекурсивной функции U есть
Ku(A|Xi) = min len(p) : U(p,Xi) = y.
(2) Сложность алгоритма A на множестве Xl по частично-рекурсивной функции U есть
Kuxi(A) = max Ku(A|Xi)
xiexl
(3) Сложность семейства алгоритмов S на множестве Xi по частично-рекурсивной функции U есть
Ku, xi(S) = m|| Ku, x i(A).
(4) Сложность семейства алгоритмов S на множестве Xi есть
Ki(S) = min Ku,xi(S).
U t Pp.r.
В приведенном определении сложность семейства алгоритмов S на множестве всех возможных выборок Xi длины l - это наименьшая длина двоичного слова p, по которому можно восстановить самый сложных (и любой) алгоритм A £ S. Важно, что слово p обрабатывается одной и той же функцией (программой) U*, причем, согласно (4), наилучшей в следующем смысле. Программа U* обеспечивает наибольшее сжатие информации о семействе S в слово p длины Ki(S). Мажоранту сложности Ki(S) можно получить, если точно указать структуру слова p, подлежащего расшифровке, и его длину в битах, а также представить алгоритм обработки этого слова, который будет использоваться вместо программы U* для оценивания сложности сверху.
Теорема 1. [10] Пусть система частично-рекурсивных функций S вида A : Xn —^ {0,1} имеет ограниченную емкость hs и колмогоровскую сложность Ki(S). Тогда при конечных значениях hs > 2 и l > hs имеет место двойное неравенство hs < Ki (S) < hs log l.
Свойства сложности Ki (S).
(1) Колмогоровская сложность семейства алгоритмов равна наименьшему целому, большему или равному логарифму функции роста этого семейства: Ki (S ) = [log ms (l)l.
(2) 0 < Ki(S) < l.
(3) Если Ki (S) = o(l) при l ^ те, то имеет место равномерная сходимость эмпирических частот ошибок к их вероятностям по всему классу S.
(4) Для любого алгоритма U £ Pp.r. выполняется неравенство Ki (S) <
Kv,x i (S).
Будем обозначать hs = VCD(S) емкость класса S. Подход к оцениванию VCD на основе неравенства VCD(S) < len(p) : U(p,Xi) = y = (A(Xi),... ,A(Xi)) называется методом программирования оценки VCD, сокращенно — pVCD [3]. Метод pVCD предполагает конструирование сжатого описания (слова) одной и той же структуры для любого A £ S и указания алгоритма U, обрабатывающего вход (p,XXi). Длина такого слова p обозначается pVCD(S) = len(p). Оценка pVCD(S) может быть получена не единственным способом, и ее качество определяется найденным алгоритмом сжатия U. Иначе говоря, pVCD(S) - это длина любого слова p такого, что его структура позволяет расшифровать при помощи некоторой программы U любой алгоритм из семейства S. При этом, хотя pVCD(S) определяется неоднозначно, имеет место оценка VCD(S) < pVCD(S). Построение слова p как можно меньшей длины и указание расшифровывающей его программы требует искусства программирования и изобретательности, всегда необходимой для получения новых математических результатов. В большинстве случаев точное определение структуры слова p делает очевидным алгоритм его расшифровки, что исключает необходимость подробного выписывания этого алгоритма.
Лемма 1. (Об аддитивности pVCD оценки композиции алгоритмов).
Пусть S0 = {/0 = f1 о ■ ■ ■ о fr : f1 £ S1,..., fr £ Sr} — класс композиций алгоритмов зафиксированной структуры /0(/1,..., fr), принадлежащих семействам Si,..., Sr, для которых известны оценки ,pVCD(S1) = L1,... ,pVCD(Sr) = Lr. Тогда справедлива оценка pVCD(S0) = Xj=1 Lj.
Доказательство. Поскольку структура композиции неизменна, любой входящий в нее алгоритм определяется совокупностью слов p1,...,pj,...,pr, имеющих длины L1,...,Lj,...,Lr. Для обработки этих слов, согласно pVCD методу программирования оценок и соотношению Uj (pj ,Xi) = y = fj (Xi), указаны алгоритмы
Uj, j = 1,..., r, каждый из которых по слову pj восстанавливает алгоритм f. Поэтому легко указать алгоритм (программу) Us0 , обрабатывающую конкатенацию Ро = pip2-.pr и соответствующую композиции fo = fi о ■ ■ ■ о fr. Такая программа будет содержать подпрограммы Uj, j = 1,...,r, которые восстанавливают все алгоритмы fi,..., fr, и переходы между этими подпрограммами, предопределенные зафиксированной структурой композиции и известными длинами Li,...,Lj, ...,Lr подслов, входящих в конкатенацию p0 = pip2...pr.
1. Оценивание VCD класса DNFm)jU>n дизъюнктивных нормальных форм, содержащих не более чем ^ конъюнкций над n переменными
и не более m литералов
Дизъюнктивной нормальной формой (ДНФ) представления булевых функций
М a i
\ I / Г; i Г; 2 J>kj \ Г
называется выражение вида у (xj i л xj 2 л ... л xj к J), где x = x при а = 1
j=i ' j (положительный литерал) и xa = x при а = 0 (отрицательный литерал); ^ - число
м
конъюнкций в ДНФ; m = ^ kj - суммарное число литералов, входящих в ДНФ.
j=i
Обозначим DNFm,M,n — семейство булевых функций, представимых в виде ДНФ, содержащих не более чем ^ конъюнкций над n переменными и не более m литералов. Покажем, что для этого семейства функций справедлива оценка
pVCD(DNFm;M;n) = m + (^ - 1 + m) [log(n + 1)].
Действительно, слово р/, позволяющее закодировать информацию о любой ДНФ, состоящей из ^ конъюнкций над n переменными, можно представить конкатенацией двоичных слов сформированных из таких блоков, как показано в таблице 1.
Номер переменной Xj, ] е 1, ...,п, входящей в конъюнкцию, или ноль - разделитель блоков
Двоичная цифра 1, если Xj входит в конъюнкцию с инверсией, или 0 - в противном случае
ТАБЛИЦА 1. Фрагмент слова, кодирующего литерал
Чтобы представить в двоичном коде один любой номер переменной или ноль, достаточно зарезервировать + 1)] двоичных разрядов. Поскольку номера пе-
ременных начинаются с единицы, номер ноль можно использовать как признак разделения конъюнкций в строке. Чтобы указать знак литерала - с инверсией или без неё - достаточно одного двоичного разряда. При таком кодировании на каждый литерал в слове pf будет расходоваться +1)] +1 бит. На ^-ю конъюнкцию будет расходоваться kj (|"^(п+1)] +1) бит для представления литералов. (^-1) |"^(п+1)] бит понадобится для разделителей. Поэтому длина слова не превысит
Ем
^(|"1о§(п + 1)] +1) = т + - 1 + т)Г^(п + 1)].
Если ДНФ содержит V < у конъюнкций, то последние у — V блоков слова заполняются нулями.
Пусть дана ДНФ х3х5 V х2х4 из класса ОМГ10,2,5 - не более чем с 10 литералами и не более чем с двумя конъюнкциями. Число переменных п = 5. Десятичная (для облегчения восприятия) структура слова : |3|1|5|0|0|2|0|4|1|0|. Алгоритм расшифровки и поясняется следующей таблицей 2.
Цифра Пояснение
слова pf
3 Взять переменную хз
1 х3 берется без инверсии
5 Взять переменную х5
0 х5 берется с инверсией
0 Поскольку вместо номера переменной - ноль, получена конъюнкция хзЖ5, и далее начинается описание следующей конъюнкции, если за считанным нулем не последует второй ноль; счетчик выделенных конъюнкций увеличивается на единицу
2 Поскольку цифра не равна нулю, включить в новую текущую конъюнкцию переменную х2
0 х2 берется с инверсией
4 Взять переменную х4
1 х4 берется без инверсии
0 Поскольку вместо номера переменной - ноль, получена конъюнкция а?2х4; счетчик выделенных конъюнкций становится равным двум. Значение у = 2 свидетельствует об окончании слова pf и получениии результата расшифровки х3х5 V х2х4
Таблица 2. Расшифровка ДНФ по слову pf
2. Оценивание VCD нейронной сети с единственным скрытым слоем, содержащим k элементов (класс NNk,i)
В работе [11] для нейронной сети с единственным скрытым слоем, содержащим к элементов, и зафиксированной непараметрической активационной функцией а представлена оценка
VCD(NNki) = (2kn + 4k + 2) x log(e(kn + 2k + 1)).
Используя pVCD метод, легко получить оценку
pVCD(NNk>1) = M (nk + 2k + 1),
где M — число бит памяти, выделяемых для записи одного параметра; n — размерность входа.
Действительно, нейронные сети рассматриваемого класса полностью определяются nk + 2k + 1 параметрами: nk параметров соответствуют коэффициентам связи каждой из k внутренних вершин с каждым из n входов; k параметров определяют пороги суммирования для внутренних вершин и один параметр соответствует порогу выходной вершины сети. Если для каждого параметра используется M бит памяти, то каждую сеть рассматриваемого класса можно задать словом pf длины M(nk + 2k + 1). Алгоритм расшифровки этого слова состоит в последовательном считывании параметров (по M бит) согласно единому зафиксированному их порядку по всему классу. Считанные параметры подставляются в зафиксированные участки памяти алгоритма расшифровки.
Оценка, полученная pVCD методом, будет лучше известной [11] при M < 2log(e(kn + 2k + 1)), и ее выигрыш растет с ростом размерности задачи n.
3. VCD класса Nk,m нейронных сетей с k элементами в каждом из m
скрытых слоев
Для класса Nk,m нейронных сетей с k элементами в каждом из m скрытых слоев аналогичным образом получена оценка
pVCD(Nfc,m) = M (nk + 2mk2).
4. VCD суперпозиции f(Fb...,Fk) с фиксированным логическим
корректором f е P2(k)
Пусть Fi,...,Fk — семейства алгоритмов вида A : Xn —> {0,1}, имеющие VCD VCD(F1),..., VCD(Fk), и f — зафиксированная булева функция. Обозначим f (Fi,..., Ffc) = {f (fi,..., ffc) : fi е Fi,i = 1, k}. В работе [11] получена оценка
VCD(f(Fi,... ,Fk)) < 2klog(ek) max {VCD(Fi)}
i=1,..,k
Использование pVCD метода (см. лемму 1) позволяет получить
k
pVCD(f(Fi,... ,Fk)) = У pVCD(Fi) < k max pVCD(Fi).
i=i
5. VCD класса бинарных решающих деревьев с ^ листьями
pVCD метод позволяет получить оценку
pVCD(BFTn,M) = (^ - 1)(Tlog nl + riog(^ + 3)1)
для класса BFTn,^ бинарных решающих деревьев с ^ листьями; n — число булевых переменных. Логико-комбинаторным методом автору ранее удалось получить
оценку VCD(BFTn^) < у log(ny), которая в результате применения pVCD метода оказалась улучшенной.
Для класса BSPn^ [9] композиций бинарных решающих деревьев не более чем с у листьями и линейными предикатами во внутренних вершинах, зависящими от n числовых переменных, занимающих по M бит памяти каждая, pVCD оценка имеет вид (см. лемму 1)
pVCD(BSPn^) = (у - 1)(Tlog n] + riog(^ + 3)1 + nM).
6. VCD структурной композиции линейного алгебраического корректора k эвристических моделей F1,..., Fk (класс L(F1,..., Fk))
Для совокупности эвристических алгоритмов с произвольным линейным корректором pVCD метод позволяет получить оценку
k
pVCD(L(Fi, ...,Fk)) = Mk + ^ pVCD(Fi)
i=1
7. Оценивание VCD интервальных множественных автоматов (IMA)
Класс решающих функций Fima, порождаемый IMA, описывается на основе следующих двух определений.
Определение 2. [8] Множественным автоматом (MA) называется пятерка
< Q, £,5,qo,F>,
где Q — конечное множество состояний; £ — конечный алфавит; 5 : Q x £ —> 2Q — множественная функция переходов; qo £ Q — начальное состояние; F С Q — множество финальных состояний. Последовательность po,P1 ,...,pn называется принимаемым путем для входа Ш1,... ,шп, если p0 = q0, pi = 5(pi-1,wi) для любого i = 1,...,n и pn £ F. Автомат MA вычисляет функцию /ma : £* —> {0,1}, где /ма(ш) = 1, если число принимаемых путей для ш = (ш1,ш2,... ,шп) является нечетным, и /ма(ш) = 0, если это число — четное.
Определение 3. [8] Интервальным множественным автоматом (IMA) называется пара < A,C >, где A — множественный автомат с алфавитом £ = {0,1,..., у — 1}, C — множество, состоящее из у вещественных чисел: C = {c0, c1,..., c^-1}; c0 = —то; c0 < c1, ••• < c^-1. Индексом числа а, обозначаемым indc(а), называется max{i : ci < а}.
Функция /<a,c>, вычисляемая IMA < A,C >, ставит в соответствие вещественной числовой последовательности (x1,... ,xn) £ Rn значение /A(indc (x1),..., indc (xn))).
В работе [8] получена оценка
VCD(Fjma) = O(Mlog ^ + r2)),
где ^ = |£|, r = |Q|. Сначала авторы [8] оценили сверху число способов обработки IMA входной последовательности как (VCD(F/ma)■ n + 2)^■ 2O(^r ), затем получили окончательный результат.
Применение pVCD метода дает существенно лучшую оценку
pVCD(Fjma) = MM + r2) + r.
Выводы
Приведенные примеры оценивания VCD классов алгоритмов эмпирического обобщения при помощи pVCD метода и сравнение полученных оценок с известными ранее оценками позволяют заключить, что pVCD метод дает не худшие, а иногда даже лучшие результаты, чем логико-комбинаторные методы, применяемые для оценивания емкости. При этом оценки, получаемые pVCD методом, согласуются по своей структуре с известными из литературы оценками. Метод pVCD особенно эффективен для оценивания VCD классов сложных композиций алгоритмов эмпирического обобщения.
В дальнейшем целесообразно получить pVCD-оценки для классов моделей эмпирического обобщения, не рассмотренных в данной статье, в частности, АВО, потенциальных функций и др. [1, 4, 9]
Список литературы
[1] Вапник В. Н. Восстановление зависимостей по эмпирическим данным. - М: Наука, 1979. - 447 с.
[2] Донськой В. Й. Бтарт виршуючи дерева у задачах ттелектуального анал1зу тфор-мацп // Науков1 bíctí Нащонального техшчного ушверситету "Кшвський полиехшч-ний 1нститут". - 2001. - Вип. 5. -С.12-18.
[3] Донской В. И. Колмогоровская сложность классов общерекурсивных функций с ограниченной емкостью // Таврический вестник информатики и математики. - 2005. -№1. - C. 25-34.
[4] Журавлев Ю. И. Об алгебраическом подходе к 'решению задач 'распознавания // Проблемы кибернетики. - 1978. - Вып. 33. - С. 5-68.
[5] Колмогоров А. Н. Теория информации и теория алгоритмов. - М: Наука, 1987. - 304 с.
[6] Матросов В. А. Корректные алгебры ограниченной емкости над множествами некорректных алгоритмов // ДАН СССР. - 1980. - Т.253, №1. - С. 25-30.
[7] Хайкин С. Нейронные сети: полный курс - М.:Из-во "Вильямс 2006. - 995 с.
[8] Beimel A., Kushilevitz E. Learning Unions of High Dimentional Boxes over the Reals // Inf. Proc. Letters. - 2000. - vol.73, Issue 5-6. - P. 213-220.
[9] Devroye L. A., Gyorfi L., Lugosi G. Probabilistic Theory of Pattern Recognition - NY: Springer-Verlag, 1996. - 636 p.
[10] Donskoy V. I. The estimations based on the Kolmogorov Complexity and Machine Learning from Examples // Proc. of the 5-th Int. Conf. "Neural Networks and Artificial Intelligence"(ICNNAI'2008). - Minsk:INNS. - 2008. - P. 292-297.
[11] Sontag E.D. VC dimension of Neural Networks //In Neural Networks and Machine Learning. - Berlin: Springer, 1998. - P. 69-95.
Ощнки м1сткост1 основних клас1в алгоритм1в емшричного узагальнен-ня, одержан! pVCD методом
У роботг представленг оцгнки мгсткостг (VC-Dimension) основних класгв алгоритмгв емпгричного узагальнення, використованих в задачах роз-пгзнавання образгв. Оцгнки одержат новим pVCD методом, який заснова-ний на колмогоровському пгдходг до визначення складностг г зводиться до побудови стислого опису гнформацп про алгоритми кожного даного класу у виглядг бгтового рядка.
Ключов1 слова: Мютюсть Вапника-Червоненкиса, машинне навчання.
VC-Dimension Estimations of the Basic Algorithms of Empirical Generalization for Pattern Recognition Problems obtained by the pVCD method
In this paper, VC-Dmenswn estimations for Dedswn Trees, Neural Networks, DNF, Function ComposUwns obtamed by pVCD method are presented. The pVCD method гя based on the Kolmogorov' approach to complexUy defimtion.
Keywords: VC-Dimension, Machine Learning