УДК 519.95
КОЛМОГОРОВСКАЯ СЛОЖНОСТЬ И ЕЕ ПРИМЕНЕНИЕ В
МАШИННОМ ОБУЧЕНИИ © В. И. Донской
ТАВРИЧЕСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ ИМ. В.И. ВЕРНАДСКОГО ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАТИКИ
пр-т Вернадского, 4, г. Симферополь, 95007, Украина e-mail: [email protected]
Abstract. The materials represented in this article carry, mainly, surveying character. The aim of the paper is complete enough presentation of possibilities of mathematical apparatus of algorithmic complexity and probability for application in machine learning. Nevertheless, some new results are presented: theorems about exact compressors and decompressors, approach to determination of the moment of stopping of learning procedure on the basis of complexity analogue of the Bayes rule et al.
Введение
Машинное обучение — важнейшее из направлений теоретических исследований и создания приложений в современной информатике. Сложность решения задач в этой области для математиков определяется прежде всего неполнотой начальной информации и неоднозначностью получаемых решений. Это объясняет появление множества подходов и попыток не только к построению теории машинного обучения и соответствующих алгоритмов, но и даже к самому определению обучаемости [5].
Хорошо обоснованные и приемлемые для практического использования математические результаты в этой области получаются не всегда. Но замечательной особенностью развития машинного обучения является то, что практика зачастую опережает теорию, и появляются успешно работающие обученные программы и автоматы.
Использование колмогоровской сложности и алгоритмической случайности [9, 10] в теории машинного обучения позволяет синтезировать алгоритмы обучения, основываясь на идеях отождествления эмпирического обобщения данных с их максимальным сжатием [18, 21].
Представляемые в данной статье материалы носят, главным образом, обзорный характер. Целью работы работы является достаточно полное представление возможностей математического аппарата алгоритмической сложности и случайности для применения в машинном обучении. Тем не менее, в статье содержатся и новые результаты : теремы о точных компрессорах и декомпрессорах, подход к определению момента остановки процедуры обучения на основе сложностного аналога правила Байеса и другие.
1. Основные понятия колмогоровской сложности
Определение 1. [10] Колмогоровская сложность слова х при заданном способе описания — вычислимой функции (декомпрессоре) О есть
КвО (х) = шт{/(р)|О(р) = х},
если существует хотя бы одно двоичное слово р такое, что О(р) = х. Иначе полагается, что значение сложности не ограничено. Будем говорить, что в таком случае колмогоровская сложность не определена.
Здесь и далее /(р) обозначает длину слова р в битах.
Определение 2. Условная колмогоровская сложность слова х при заданном слове у есть
К во (х|у) = ш1п{/(р)|°(р,у) = х};
если у — пустое слово, то Кво(х|у) = Кво(х)
Определение 3. Говорят, что декомпрессор О\ (слова х) не хуже декомпрессора О2, если К£д1 (х|у) < Квд2(х|у) + 0(1). Декомпрессор называют оптимальным, если он не хуже любого другого декомпрессора.
Теорема 1. (Соломонова-Колмогорова) [10]. Существуют оптимальные декомпрессоры.
Доказательство. Покажем, что найдется такая частично рекурсивная функция-декомпрессор А, что для любой другой частично рекурсивной функции-декомпрессор О = О(р,у) будет выполнено неравенство
КвА(х|у) < КвО(х|у) + св.
Здесь со — константа, не зависящая от х и у. Используя универсальную частично рекурсивную функцию и с подходящим номером п, для любого декомпрессора О можно записать равенство
О(р,у) = и (П (р,у)) = х.
Колмогоровская сложность относительно декомпрессора О есть
КвО (х|у) = /(р).
Далее, осуществляя группировку аргументов, можно определить функцию А следующим образом:
А((п,р),у) = и (П (р,у)) = х.
Здесь пара слов (п,р) рассматривается как их конкатенация, длина которой есть /(пр) = /(р)+/(п). Тогда А((п,р),у) = Д(р, у) = х для любого допустимого декомпрессора Д. Поэтому для любого номера функции п, определяющего декомпрессор Д, найдется константа Сд > /(п), зависящая только от выбора этого декомпрессора, такая, что
К5А(х|у) = /(пр) < /(п) + /(р) + 8 = (х|у) + сд, где константа 8 определяет дополнительное число бит, которое может потребоваться для того, чтобы входящий в конкатенацию пр номер используемой универсальной функции п мог быть отделен от аргумента р. Это можно сделать разными способами независимо от слова р, например, при помощи специального так называемого самоограничивающего кодирования. Подробнее это будет показано ниже при разборе определения колмогоровской сложности, данного Витаньи и Ли [25]. □
Замечание. Конкатенация ху двух строк х и у не может рассматриваться как пара (ху), поскольку в конкатенации, вообще говоря, не содержится информация о нужном разделении строки ху на две подстроки. Поэтому конкатенация дополняется информацией, обеспечивающей её правильное разделение.
Определение 4. Функция f (х) называется перечислимой сверху, если существуют вычислимая функция ^(х, к), определенная для всех слов х и всех натуральных чисел к, для которой ^(х, 0) > ^(х, 1) > ^(х, 2) > ... и f (х) = ^(х, к) для каждого значения х. При любом к значение ^(х, к) является верхней оценкой для f (х). Функция f (х) называется перечислимой снизу, если существует аналогичная нижняя оценка Ь(х, к).
Теорема 2. Функция К 5 перечислима сверху, причём |{х : К$(х) < п}|< 2п для всех п.
Доказательство. Покажем, что множество пар {(п,х) : К 5(х) < п}, где п — натуральное число, а х — двоичное слово, перечислимо. Если Кб"(х) < п, то существует фигурирующая в определении вычислимая функция — декомпрессор Д. Используя установленный стандартный порядок двоичных слов, можно организовать вычисления, начиная с к = 0, в соответствии с этим порядком. Т. е. перебирать слова р по мере роста их длины, соблюдая условие (х) < п. Будут перебираться все слова, длина которых не превышает п. Как только окажется, что Д(р) = х, перечисляющий алгоритм будет выдавать пару (/(р) + к, х) и увеличивать к на единицу. Если первая выдача будет парой (/(р) +0, х) , то выдаваемая перечисляющая последовательность будет иметь вид (/(р) + 0, х), (/(р) + 1, х), (/(р) + 2, х)... . Поскольку перебираются все слова длины не больше п, то сумма этих длин У]П- 2— = 2п — 1 < 2п. Поэтому
|{x : KS(x) < n}| < 2n. Определим функцию F(x, k) = /(p) + n — k как последовательность оценок сверху сложности KS(x), полагая F(k,x) = то при k > n. Тогда F(x, 0) > F(x, 1) > F(x, 2) > ... и KS(x) = F(x, k), поскольку это предельное
соотношение соответствует неравенству k > n для любого заданного n. □
Лемма 1. Для любой вычислимой функции f(x) имеет место неравенство KS(f (x)) < KS(x) + O(1) для всех тех значений x, когда f (x) определена.
Доказательство. Пусть D — оптимальный декомпрессор в определении KS(x) = KSD (x) = min{/(p) : D(p) = x}. Возьмем в качестве другого декомпрессора композицию вычислимых функций f о D и рассмотрим
KSfoD(f (x)) = min{/(p) : f (D(p)) = f (x))} = min{/(p) : D(p) = x} = KS(x).
KS (f (x)) < KSf oD (f (x)) + O(1).
□
Теорема 3. Любая частично рекурсивная (вычислимая) функция L(x) такая, что L(x) < KS(x) в тех точках, в которых L(x) определена, ограничена некоторой константой C, то есть L(x) < C для всех x.
Доказательство. Предположим, что существует вычислимая функция L(x), являющаяся оценкой снизу колмогоровской сложности: L(x) < KS(x). Определим функцию A(n), которая ставит в соответствие натуральному числу n минимальное в порядке перечисления значение x такое, что L(x) > n . Функция A(n) будет вычислимой в силу предположения, что L(x) вычислима. Тогда L(A(n)) < KS(A(n)) по сделанному предположению, что L(x) < KS(x). Согласно определению функции A(n), имеет место неравенство L(A(n)) > n . Согласно лемме 1, KS(A(n)) < KS(n) + ci. Получается цепочка неравенств:
n < L(A(n)) < KS(A(n)) < KS(n) + ci < /ogn + c2,
где c1 и c2 — некоторые константы. Но следующее из этой цепочки неравенство n < log n + c2 не выполняется для всех n, больших некоторого значения n0. Полученное противоречие доказывает теорему. □
Замечание. Теорема 3 доказывает несуществование именно функции — нижней оценки колмогоровской сложности для произвольного x.
Теорема 4. Колмогоровская сложность KS не является вычислимой функцией.
Доказательство. Предположив, что вычислима, получим, что вычислима функция f (х) = (х) — 1, и тогда f (х) < К5"(х) для всех непустых строк х. Но такой нижней оценки для колмогоровской сложности не существует согласно теореме 3. □
Теорема 5. Колмогоровская сложность (х) = шт{/(р)|Д(р) = х} конечной строки х определена тогда и только тогда, когда существует машина Тьюринга Тс (компрессор) такая, что Тс (х) = р.
Доказательство. Действительно, если существует машина Тьюринга Д такая, что Д(р) = х, то существует система подстановок Маркова Мд, алгоритмически эквивалентная МТ Д (реализующая тот же самый алфавитный оператор). Применение Мд к слову р даст х = Мд (р). Зафиксируем выполненную при этом последовательность марковских подстановок:
£(МД, у, х) = {вь ..., в;,..., вм : в; = Х; ^ р;},
где Х; — левая часть подстановки (замещаемое подслово), а р; — правая часть подстановки (замещающее подслово), вместе с последовательностью к1,..., к;,..., км номеров символов текущего обрабатываемого слова, начиная с которых реализуются подстановки. Тогда компрессор Тс может быть композицией машин Тьюринга двух типов: подвода головки к символу с номером к; (обозначим эти машины Т;1 ) и заменой подслова р; на подслово Х; (обозначим их Т;2 ). Применение к слову х последовательно машин Т1, Т2,..., Т,1, Т,2,.., Т1, Т2 даёт композицию Тс такую, что Тс(х) = р
(машина T-j2 должна быть снабжена заключительным состоянием). Аналогично до-
1 дол
казывается, что если для строки x существует машина Тьюринга Тс (компрессор) такая, что Тс (x) = p, где p - некоторая строка, то можно указать соответствующую ей машину-декомпрессор DyC такую, что DyC (p) = x, и тогда колмогоровская сложность KSD(x) = min{/(p)|D(p) = x} будет определена. □
Определение 5. Назовем точной колмогоровской сложностью строки x
KC (x) = min min{/(p)|D(p) = x}.
{D|D(p)=x}
Как видно из последнего определения, точная колмогоровская сложность определяется наилучшим декомпрессором.
Теорема 6. Точная колмогоровская сложность не является вычислимой функцией.
Доказательство. Если бы KC была вычислима, то она была бы нижней оценкой колмогоровской сложности KS: KC(x) < KS(x). Но таковой оценки не существует по теореме 3. □
Определение 6. Пусть x — конечная строка, и множество её компрессоров (x) = {TC|TC(x) = p} не является пустым. Назовем
KT(x) = min {/(p)|TC(x) = p}
Tc &a
сжатием строки наилучшим компрессором.
Очевидно, для конечной строки x сжатие удовлетворяет двойному неравенству 0 < Kt(x) < /(x). Значение 0 соответствует пустой строке.
Теорема 7. Если /(x) < то, то KC(x) = KT(x).
Доказательство. Предположим, что KC(x) < KT(x). Зафиксируем наилучший декомпрессор D*, соответствующий значению KC(x) = /(p*) на слове p*. Зафиксируем это слово p* - кратчайшее описание строки x. Используя марковское представление декомпрессора D*, построим, как это было сделано при доказательстве теоремы 5, алгоритм-компрессор TD* такой, что TD* (x) = p*. Но тогда KT(x) < KC(x). Точно также, предположив, что Kt(x) < KC(x), используем наилучший компрессор для построения соответствующего декомпрессора, и получим Kt (x) > KC(x). □
В работах [25, 26] исходная колмогоровская сложность KS(x) определяется, на первый взгляд, иначе (и обозначается C(x)). Используется понятие самоограничивающего кода x заданной бинарной строки x^2...xn, который определяется соотношением x = x1x1x2x2...xn—1xn-1xn—xn. В правой части этого соотношения содержится префиксный код, в котором каждая пара символов, кроме последней, одинакова, а последний символ является инверсией предпоследнего. Действительно, пусть x и y -две бинарных строки такие, что x является префиксом строки у, то есть y = xt при непустом окончании т . Обозначим длины этих строк /(x) = n и / (у) = m. Убедимся, что код x не будет префиксом кода у:
x - x 1 x2 ...xn ;
y = x1x2 ...xnyn+1 ...ym; x — x 1x1x2x2 ...xn—1xn—1xn 'xn,
y = x1x1 x2x2...x„—1x„—1x„x„yra+1yra+1...ym-ym.
Используя такой префиксный код, определяют стандартный самоограничивающий код x для любой строки x согласно соотношению x = /(x)x. Это соотношение определяет, что к исходной строке приписывается префикс, являющийся самоограничивающим кодом ее длины, и /(x') = n + 2] logn[, где n = /(x).
Определение 7. [26] Пусть T2,..., Ti,... — стандартное перечисление машин Тьюринга, а 01, ф2,..., фг,... — перечисление соответствующих этим машинам частично рекурсивных функций. Колмогоровская сложность строки x по заданной строке y определяется выражением
C(x|y) = min{/(i'p) : фг(р,у) = x,p G {0,1}*,i G N}; C(x) = C(x|A).
p,i
В этом определении Витаньи и Ли сложность слова x определяется длиной конкатенации номера i машины-декомпрессора Di, представленного в самоограничивающем коде, и кода слова x. Пусть
(p*, i*) = arg min{/(i p) : фг(р, y) = x,p G {0,1}*, i G N}
P,i
По слову i , представленному в самоограниченном коде, можно определить описание декомпрессора (машины) i и отделить его от слова p. Затем можно выполнить программу i (промоделировать её) на любом другом допустимом декомпрессоре — машине D. Тогда
C(x|y) < Cd(x|y) + /(i'),
откуда следует, что C(x|y) = KS(x|y) — колмогоровская сложность относительно некоторого оптимального способа описания Di».
Теорема 8. (О сложности конкатенации строк). Пусть xy — конкатенация строк x и y. Тогда выполняется неравенство
KS(xy) < KS(x) + 2 log KS(x) + KS(y) + c, (1)
где c — некоторая константа.
Доказательство. Пусть p и q — такие слова, что KS(x) = /(p) и KS(y) = /(q). Пусть D — произвольный декомпрессор. Предположим, что имеет место равенство D'(pq) = xy = D(p)D(q). Но D'(pq) не может быть определено однозначно, поскольку разные разбиения слова pq на части p1 q1 = p2q2 = pq могут давать различные результаты декомпрессии. Чтобы разделение конкатенации pq было корректным, можно применить самоограничивающий код / (p)pq, чем обеспечивается выполнение условия D' (/(p)pq) = D(p)D(q) = xy. Тогда
KSD' (xy) = 2 log /(p) + /(p) + /(q);
KSD' (xy) = KS (x) + 2 log KS (x) + KS (y).
Переходя от декомпрессора D к оптимальной машине, согласно теореме Соломонова-Колмогорова получаем неравенство (1) с константой с, не зависящей от x и y. □
Теорема 9. (Колмогорова-Левина о декомпозиции сложности пары строк) [9]. КБ (х, у) = КБ (х) + КБ (у|х) + КБ (х,у)).
2. ПРЕФИКСНАЯ СЛОЖНОСТЬ
Префиксная сложность является модификацией простой колмогоровской сложности, приспособленной для построения универсальной вероятностной меры на множестве последовательностей. Если Б — некоторое множество строк, в котором любая пара строк удовлетворяет условию: одна из них не является префиксом другой, то множество Б называют беспрефиксным. Вычислимая функция и(р, у) двух переменных называется префиксно-корректной по первому аргументу, если для любого у множество строк р, на которых эта функция определена, является беспрефиксным. Иногда такую функцию называют самоограниченным декомпрессором. Определение распространяется на случай пустой сроки Х: и(р, Х) = и(р). Если и(р) = х для некоторой строки х, то множество {р : и(р) = х} является беспрефиксным. И тогда компрессор Тс (см. ниже теорему 11) порождает для всех допустимых конечных строк х беспрефиксное множество.
Определение 8. Пусть и — произвольная вычислимая префиксно-корректная функция. Условная префиксная колмогоровская сложность строки х при условии у есть
КРи(х|у) = { тЬ{/(р)|и(р,у) = х} Зр и(р,у) = х
| то, Ур и(р, у) = х
Теорема 10. Существует такая (универсальная) префиксно-корректная функция А = А(р, у), что для любой вычислимой префиксно-корректной функции и = и(р, у) и для всех х и у имеет место неравенство
КРл(х|у) < КРи(р,у) + 0(1).
Доказательство. Аналогично доказательству теоремы Соломонова-Колмогорова для сложности КБ. □
Определение 9. Условной префиксной сложностью КР(х|у) называют условную префиксную сложность КР^(х|у) по любой зафиксированной универсальной префиксно-корректной функции А.
Определение 10. Назовем точной условной префиксной сложностью КРС (х|у) = тт тт{/(р)|и (р,у) = х},
{и | и (р,у)=х}
если множество префиксно-корректных функций {и : и(р, у) = х} не пусто, иначе будем говорить, что точная префиксная сложность не определена, и полагать, что КРС (х|у) = то.
Если точная префиксная сложность определена, то для любой универсальной вычислимой префиксно-корректной функции и и для любой универсальной префиксно-корректной функции А
КРС(х|у) < КРд(х|у) < КРи(р,у) + 0(1),
КРС(х|у) < КР(х|у).
Поэтому точную префиксную сложность КРС(х|у) можно считать условной префиксной сложностью КР(х|у) (по некоторой наилучшей универсальной вычислимой префиксно-корректной функции и* ). Это позволяет освободиться от латентной константы.
В определении префиксной сложности можно использовать в качестве функции и так называемую префиксную машину Тьюринга. Это приводит к эквивалентному понятию и оказывается полезным для дальнейшего изложения.
Префиксной называют машину Тьюринга Т, описываемую, например, следующим образом [12]. Предполагается, что у такой машины помимо рабочей ленты есть входная лента, на которой имеется односторонняя читающая головка. Крайняя левая клетка ленты содержит специальный маркер, справа от которого может быть записана любая последовательность нулей и единиц. Изначально читающая головка находится у левого края входной ленты под специальным маркером. Шаги вычислений машины Тьюринга определяются как символом, который «видит» читающая головка, так и символом, который «видит» головка на рабочей ленте. В зависимости от этих символов и текущего состояния машина предпринимает то или иное действие. Это действие состоит в изменении внутреннего состояния, записи нового символа на рабочей ленте, а также может включать в себя сдвиг и влево, и вправо на рабочей ленте и сдвиг только вправо читающей головки входной ленты. Результат работы машины обычным образом записывается на рабочей ленте, которая изначально является пустой. Когда машина останавливается, читающая головка входной ленты находится в точности над первым пробелом, следующим за заданным на входной ленте словом.
Теорема 11. Областью определения префиксной машины является беспрефиксное множество.
Доказательство. Пусть Б - множество строк, для которых результат работы префиксной машины Т определен. Если х Е Б, то машина Т останавливается при условии, что выполнены все необходимые вычисления, на рабочую ленту выдано результирующее слово г = Т (х) и на входной ленте прочитаны в точности все символы строки х, но не более. Последнее условие соответствует нахождению входной головки на символе, следующем за последним символом строки х. Рассмотрим две строки: х Е Б и у Е Б. Предположим, что х является префиксом строки у, то есть у = хт при непустом окончании т. Но тогда, начав работу над словом у, машина Т сначала произведёт в точности такие же действия, как при работе над словом х, и затем она остановится, не продолжая просмотр окончания т слова у. Но тогда результат работы машины на слове у не может быть определен. Это противоречие доказывает, что область определения префиксной машины Т — беспрефиксное множество. □
В литературе встречаются другие, эквивалентные определения префиксной машины. В работе [19] префиксная машина Тьюринга Т определяется так. Эта машина снабжена тремя лентами: однонаправленной входной лентой (только для чтения), однонаправленной выходной лентой (только для записи) и двунаправленной рабочей лентой. Вдоль однонаправленных лент головка перемещается только слева направо. Все ленты — двоичные, пустой символ не используется. Рабочая лента инициализируется нулями. Машина Т останавливается на входе р, выдавая г = Т(р), если р находится слева от входной головки, и г находится слева от выходной головки. Множество таких слов р образуют префиксный код. Такие коды называют самоограничивающими программами. Префиксная машина всегда предполагает существование способа, позволяющего указать, где именно на ленте ограничивается входное слово.
Теорема 12. Для любой префиксной МТ можно указать эквивалентную ей обычную МТ.
Доказательство. Пусть Т — произвольная префиксная машина, заданная своей таблицей команд, а х — произвольная входная строка. Рассмотрим подпрограмму-функцию /при£(х,к), возвращающую к-й символ входной строки х. Подпрограмма реализуется подтаблицей с конечным множеством дополнительных состояний. Чтобы получить обычную машину Тьюринга Т1, эквивалентную префиксной машине Т, достаточно реализовать указанную подпрограмму внутри последовательности вычислений одноленточной машины. Машина Т1 начинает работу, положив к = 0, и пропускает (пройдя до конца вправо) входное слово. Эти действия имитируют подготовку входной ленты префиксной машины. Далее она выполняет шаги, логически эквивалентные последовательности вычислений машины Т, вне зоны записи любого
входного слова. Аналогом обращения к выделенной входной ленте префиксной машины Т будет обращение к подпрограмме /при£(х,к). При таком обращении будет происходить следующее:
- вычисление к := к + 1;
- запоминание при помощи специального маркера ячейки ленты, на которой прерываются вычисления;
- переход в начальное состояние подтаблицы-подпрограммы;
- считывание символа х[к];
- подвод к ячейке ленты, соответствующей точке возврата;
- возврат в следующее по логике обработки машины Т состояние.
□
Замечание. МТ, суммирующая любой начальный отрезок произвольной конечной двоичной последовательности х, применима к любому её префиксу. Но такой сумматор не реализуем на префиксной МТ. Поэтому
Следствие 1. Префиксные МТ образуют специфический собственный подкласс машин Тьюринга.
Следствие 2. Любая префиксно-корректная вычислимая функция вычислима на МТ без маркера конца входа.
В справедливости последнего следствия можно убедиться иным способом [3].
Для префиксной сложности КР справедлива такая же теорема о несуществовании нетривиальной вычислимой оценки снизу, как и для колмогоровской сложности КБ. Из этой теоремы следует, что префиксная сложность не является вычислимой. Её доказательство [11], такое же, как и доказательство аналогичной теоремы для колмогоровской сложности КБ.
Лемма 2.
КРС(х,у) < КРС(х) + КРС(у).
Доказательство. Пусть слово х восстанавливается по кратчайшему слову р наилучшей машиной Т1, соответствующей точной префиксной сложности КРС(х), а слово у восстанавливается по кратчайшему слову д наилучшей машиной Т2, соответствующей точной префиксной сложности КРС (у). По следствию 2 обе эти машины могут не использовать маркер конца входа. Тогда Т1 о Т2(рд) = ху, где Т1 о Т2 — композиция
машин Тьюринга. Сначала машина Т1 применяется к слову р и выдаёт х. После её работы головка машины Т2 будет обозревать первый символ слова д. Следовательно,
КР^ (ху) = КРС (х) + КРС (у) = |р| + |д|.
Тогда для любой наилучшей машины КРС(х, у) < КРу10у2 (х,у). □
Приведем без доказательства еще несколько полезных теорем.
Теорема 13. Любая частично рекурсивная (вычислимая) функция Р(х) такая, что Р(х) < КР(х) в тех точках, в которых Р(х) определена, ограничена некоторой константой С, то есть Р(х) < С для всех х.
Теорема 14. Префиксная сложность не является вычислимой.
Теорема 15. Обычная и префиксная сложности связаны неравенством УхКБ(х) < КР(х) + 0(1), причем разность КР(х) — КБ(х) стремится к бесконечности с ростом длины строки х [11].
Теорема 16. [11]. Существует всюду определённая вычислимая функция f, оценивающая сверху КБ и на бесконечном множестве равная КБ.
Теорема 17. [11] Существует всюду определённая вычислимая функция f, оценивающая сверху КР и на бесконечном множестве равная КР.
3. Универсальное распределение
Определение 11. Вещественнозначная функция f : N ^ И. называется перечислимой, если существует МТ, вычисляющая рекурсивную функцию ^ такую, что
р
<^(< х,£ >) =< р,д >, где есть ¿-е рациональное приближение значение f(х).
5
В этом смысле функцию f, допускающую указанную аппроксимацию, называют рекурсивной.
Определение 12. Будем называть функцию Р : N ^ [0,1] вероятностным распределением, если хеN Р(х) < 1. Неравенство вводится для удобства, и полагается, что недостающая вероятность е =1 — ^хек Р(х) сосредоточена на неопределенном элементе и Е N. В этом случае Р называют полумерой.
Определение 13. Рассмотрим семейство полумер (вероятностных распределений) Р£ на N (эквивалентно - на {0,1}*). Назовем перечислимую снизу полумеру т Е Р£ максимальной, если для любой другой перечислимой снизу полумеры ^ для некоторой константы с и для всех х выполнено неравенство ^(х) < т(х).
Можно сказать, что максимальная полумера m «выделяет» так много вероятности каждому объекту, как любое другое распределение семейства P£ с точностью до мультипликативного множителя. В этом смысле она является универсальной относительно априорной неопределенности. В некоторых случаях использование полумеры m в пространстве {0,приводит к тем же результатам, которые даёт использование истинного неизвестного априорного распределения.
Теорема 18. Семейство Pe содержит элемент m, который мультипликативно доминирует все элементы из Pe. Иначе говоря, для любой полумеры P G Pe существует константа c такая, что cm(x) > P(x) для всех x G N.
Доказательство. Можно найти в работах [3, 21, 12]. □
Назовем максимальную в указанном смысле перечислимую снизу полумеру универсальным распределением.
Теорема 19.
- log m(x) = KP(x) + O(1).
Доказательство. Сначала докажем неравенство — log m(x) < KP(x) + O(1). Перепишем неравенство в эквивалентной форме 2-KP(x) < cm(x), где c = 0 - некоторая константа. В силу максимальности полумеры m(x) достаточно показать, что функция 2-KP(x) является a) перечислимой снизу b) полумерой. Убедимся в справедливости b). Неравенство £x 2-KP(x) < 1 для полумеры действительно выполняется, так как префиксная сложность KP(x) = /(x) - минимальная длина слова - определена для совокупности слов x, образующий префиксный код. А для префиксного кода справедливо неравенство Крафта Еx 2-1(x) < 1.
Убедимся в справедливости а). Известно, что функция префиксной сложности KP(x) перечислима сверху: существует вычислимая функция F такая, что KP(x) < F(x, k) для любого натурального k. Тогда 2-KP(x) > L(x, k) = 2-F(x'fc), следовательно, 2-KP(x) перечислима снизу.
Теперь докажем обратное неравенство: — log m(x) > KP(x) + O(1). Как уже было показано, функция 2-KP(x) = ^(x) > 0 является полумерой; m(x) > 0, поскольку cm(x) > ^(x) > 0. Обозначим
П = sup |m(x) — ^(x)| < 1; 5 = inf m(x) > 0.
x x
Тогда ^(x) > m(x) — n > cim(x) для любой константы ci такой, что ci < 1 — n/m(x). В качестве c — 1 можно взять 1 — n /5, получая ^(x) > (1 — n /5)m(x) или 2-KP(x) > (1 — n /5)m(x), и тогда —KP(x) > log m(x) + O(1) или — logm(x) > KP(x) + O(1). □
Следствие 3. - log m(x) = KPC(x) + O(1).
4. Сжатие и оценки обучаемости
Определение 14. [13] Алгоритмом Оккама с параметрами а > 1 и в : 0 < в < 1 над классом (целевых) гипотез G, в котором сложность любой гипотезы (длина её бинарного описания) не превышает n, называется алгоритм обучения, который:
(i) выполняется за полиномиальное время от длины выборки и
(ii) в результате обучения выдаёт гипотезу, имеющую сложность, не превышающую nale.
В определении 14 не оговаривается, является ли полученная гипотеза согласованной с обучающей выборкой; кроме этого, выбранная гипотеза может даже не принадлежать классу G.
Теорема 20. [13] Для алгоритма Оккама над классом (целевых) гипотез G, в котором сложность любой гипотезы не превышает n, независимо от распределения вероятностей на признаковом пространстве (е, 8)-обучаемость [5] имеет место при длине выборки l, оцениваемой как
l = о(ilnl + (n" /е)1/(1-в) е8
где а > 1 и в : 0 < в < 1.
В случае согласованности алгоритма Оккама с обучающей выборкой в = 0, и тогда __
1 = о(1 (n° + ln I
Теорема 21. (Occam's Razor теорема) [13]. Пусть G и H — классы концептов. Пусть g Е G — целевой концепт и n(g) - длина его бинарного представления s(g). Пусть A — алгоритм обучения и даны константы а > 1 и в : 0 < в< 1. Предположим, что алгоритм A, используя выборку X длины l, извлеченную из признакового пространства в соответствии с вероятностным распределением на нём, выдаёт гипотезу h Е H, согласованную как минимум с (1 — |)l примерами из Xt, и её строчное бинарное описание s(h) имеет длину, не большую чем n(g)ale. Тогда, если
, J (1,1 ((n(g)° >1/(1-8)4
l = O{maX(j 1с«Н *
или, при в = 0,
l = O''n(g)
е
то полиномиальная обучаемость [5] имеет место.
Оценка длины выборки, которая требуется для PAC обучаемости в сложност-ной версии Occam's Razor теоремы, основанной на длине описания s (h) < n(g)a выбираемого при обучении концепта h, может быть уточнена [20]:
.V 2 (2 ln 2 ■ n(g)a\1/(1-в)Ч / = ma^ - ln —,
£ 5 \ £
Константы а и в, фигурирующие в Occam's Razor теореме можно интерпретировать следующим образом. Бинарное описание выбранной гипотезы должно иметь длину, не превышающую n(g)a/e, где а - степень расширения описания целевого концепта, а в - степень сжатия описания выборки.
Попытки уточнения Occam's Razor теоремы привели к следующей формуле для длины выборки, необходимой для (£, 5)-обучаемости и определяемой сжатием описания выбираемого при обучении концепта h [20]:
/2 1 (2ln 2 ■ p(n, s,5/2)\1/(1-e)N / = max - ln -, -
£ 5 £
где p(n, s,5/2) - характеризующая сжатие описания концепта оценочная функция такая, что KP(h) < p(n, s,5/2)/e; n - размерность признакового пространства, s -верхняя граница возможных длин описаний по допустимым классам концептов. Если можно указать оценку сверху Mh такую, что p(n, s, 5/2)< Mh для всех допустимых значений параметров функции p, то требуемая длина выборки будет определяться как
2, 2 (2ln2 ■ Mh^ 1/(1-/3)4
/ = ma^ - ln -
£ 5 £
и при полном сжатии выборки (в = 0 ) как
( 2 2 ( 2 ln 2 ■ Mh / = ma^ - ln -
£ 5 £
Оценка Mh может быть получена pVCD методом [4, 15].
Версия Occam's Razor теоремы, основанной на вапниковской ёмкости VCD(H) семейства концептов H, из которого извлекается концепт h, определяет следующую оценку выборки, требуемую для PAC обучаемости [20, 13, 16]:
max ( VCD(H) — 1,1 ln Л < /(H, 5, £) < 4 (VCD(h) log 12 + log 2
\ 32£ £ 0 J £ \ £ 5
Из приведенных оценок видно, что колмогоровская сложность KP(h) выбранной гипотезы h Е H и VCD(H) при их использовании для оценивания результатов машинного обучения дают близкие результаты. Действительно, выбор семейства гипотез наименьшей ёмкости влечёт минимизацию колмогоровской сложности этого семейства, что согласуется с установленным в [4, 15] неравенством для колмогоровской сложности K (H) произвольного конечного семейства гипотез H (семейства рекурсивных функций H):
VCD(H) < Ki(H) < VCD(H) logl.
В случае конечного семейства гипотез H оценка длины выборки, обеспечивающей обучаемость для любого согласованного с выборкой концепта h Е H, имеет вид:
l(H, 8, е) > ^ln H.
е8
Это неравенство, как и многие другие фундаментальные результаты, связанные с обучаемостью, были получены В. Н. Вапником еще в начале 1970-х годов [1, 2].
Связь между сжатием обучающей выборки, обучаемостью и VCD была изучена в работе Флойда и Вармута [17] не основе следующих понятий. Для любого Y С X (X — признаковое пространство) и произвольного класса концептов C вводится обозначение C|Y = {c П Y : c Е C} — ограничение концепта по области (множеству) Y.
Схема сжатия выборки размера не более k для класса концептов C описывается функцией сжатия, функцией реконструкции и их применением следующим образом. Используя конечную обучающую выборку, согласованную с классом концептов C, функция сжатия K отбирает из неё так называемое множество сжатия A, состоящее из не более k помеченных обучающих примеров. Функция реконструкции ^ использует это множество сжатия для построения концепта-гипотезы Ca = <^(A) — результата обучения. При этом гипотеза Са, вообще говоря, может не содержаться в классе C, но должна быть согласованной со всеми примерами исходной обучающей выборки.
Пример. Рассмотрим класс Cl однородных линейных концептов в Rn и согласованную выборку D длины l > n, состоящую из точек x = x1,..., xn, удовлетворяющих уравнению a1x1 + ... + anxn = 0. Неизвестные коэффициенты a = a1,...,an определяют один из концептов ca Е C^o. Пусть множество сжатия Al состоит из любых k = n попарно различных примеров обучающей выборки. Тогда, используя эти k примеров, функция реконструкции определяемая алгоритмом решения системы однородных линейных уравнений, однозначно восстанавливает <^(Al) = ca. Заметим,
что VCD(CLo) = n. Если l < n, то функции реконструкции, обеспечивающей безошибочное нахождение неизвестного целевого концепта, для этого примера не существует, так как по l < n точкам невозможно однозначное восстановление линейного концепта.
Для класса неоднородных линейных концептов CL, соответствующих уравнениям
а1ж1+...+агажга = а0, параметр сжатия k должен быть не меньше d = VCD(CL) = n+1.
□
Класс концептов называется максимальным, если добавление любого концепта к этому классу увеличивает его VCD. Класс концептов C, имеющий VCD(C) = d, называется классом-максимумом, если для каждого конечного подмножества Y С C, при |Y| = m > d, семейство C|Y содержит $d(|Y|) = d=0 C^| концептов.
Теорема 22. [17]. Пусть класс концептов С С 2х является классом-максимумом, VCD(C) = d, обучающая выборка X имеет длину l > d. Тогда для любого концепта c G C найдётся множество сжатия A, состоящее ровно из d примеров, и функция реконструкции такие, что cA = c.
Теорема 23. Пусть класс концептов C С 2х является классом-максимумом, VCD(C) = d, и выборочное пространство может быть бесконечным. Тогда для класса концептов C при длине обучающей выборки l существует схема сжатия размера k, удовлетворяющего неравенству d < k < d log l.
Теорема 24. Пусть C С 2х класс концептов со схемой компрессии размером не более d = VCD(C). Тогда для любых £,5 таких, что 0 < £, 5 < 1, использование обучающего алгоритма, соответствующего этой схеме компрессии, обеспечит, (£, 5) обучаемость при длине выборки, удовлетворяющей неравенству
l > Т^ (И + vcdc) + ^ >» )
для любого в : 0 < в < 1.
Нужно подчеркнуть, что сжатие в последних теоремах характеризуется относительно длины выборки, а не длиной бинарной строки. Но, тем не менее, в указанных условиях возможно сжатие информации о семействе концептов ёмкости d до бинарной строки, длина которой не будет превышать O(d log l)[4]. Теоретически колмого-ровская сложность произвольного класса вычислимых функций может быть равной его ёмкости d, в силу чего, с учетом перечислимости колмогоровской сложности сверху, возможно сжатие информации о таком классе до строки длины d.
В работе [24] схема компрессии размера k уточняется следующим образом. Функция сжатия K ставит в соответствие каждой обучающей выборке Xi длины l единственную её подвыборку V = V(Xi) длины k, называемую ядром сжатия. Функция K в схеме k-сжатия полагается зафиксированной. Функция реконструкции ^ = <^(V, x) тоже зафиксирована и ставит в соответствие паре ядро-точка значение 1 или 0. Таким образом определяется решающее правило и некоторый концепт Су = c^(K, <^,x). Этот концепт Су, вообще говоря, может не принадлежать классу концептов C. Но для любого целевого концепта семейства C и для любой заданной выборки длины l функция реконструкции согласована со всеми точками этой выборки.
Ядерным размером называется минимальная мощность ядра сжатия по всем возможным схемам сжатия (варьируются функции сжатия, реконструкции и выборки длины l).
Если зафиксировать любую схему компрессии с ядерным размером k и использовать определяемую ею функцию реконструкции то в соответствии с данными выше определениями, применение этой функции к произвольным точкам признакового пространства, вообще говоря, может давать ошибки. Нужно убедиться, что использование функции обеспечивает обучаемость.
Характеризация сжатия ядерным размером позволяет считать произвольным признаковое пространство, поскольку речь идёт о числе примеров в ядре, а не о битовой строке, кодирующей сложность.
Будем полагать, что концепты класса C и функция реконструкции измеримы по Борелю. Из этого следует измеримость множеств, определённых ниже при доказательстве теоремы, и правомочность использования теоремы Фубини.
Теорема 25. [24]. Для любой схемы компрессии с ядерным размером k при длине выборки l > k, ошибка Err функции реконструкции как решающего правила, определяющего принадлежность произвольной точки x целевому концепту G, может, быть оценена неравенством
P(Err > е) < Ck(1 — e)l-k.
Доказательство. Пусть Xl — множество любых выборок длины l; (x1, ...,xi) = Xi — произвольная выборка длины l из Xl; Pl — вероятностная мера на множестве Xl выборок длины l (по этой мере оценивается вероятность события Err > е). Будем обозначать A* — ядро сжатия произвольной схемы компрессии с ядерным размером k; ^*(A*, x) — результат применения функции реконструкции определяющий, возможно с ошибкой, принадлежность точки x концепту c; c(x) — истинное значение
этой принадлежности. Обозначим Е = {Хг € Хг : Рг(Х € ХгЛ^*(А*, X) = с(Х)) > е} — множество всевозможных выборок длины I, точки которых классифицируются функцией с вероятностью ошибки, превышающей е. Эквивалентное определение — Е = {Х € X' : Рг(Х € X Л р*(А*,£) = с(Х)) < 1 - е}.
Пусть Т — множество всех Ск подпоследовательностей номеров любых к точек выборки; £ = (¿1,...,£д) € Т. Набор £ определяет подпоследовательность выборки Х^, . Введём следующие обозначения.
А — множество всех выборок длины /, для которых по каждой выборке Х^ ..., Хг функция сжатия К выделяет ядро, состоящее из точек Х41, ...,Х4к этой выборки. Очевидно, и £ет А- = Хг.
Е- С А- — такое подмножество выборок, на котором применение функции реконструкции даёт правильное решение с вероятностью, меньшей 1 — е. То есть, Е- — это все выборки, для которых функция сжатия К выделяет ядро, состоящее из точек этих выборок с номерами ¿1, , а функция реконструкции даёт правильное решение с вероятностью, меньшей 1 — е.
По определению соответствующих подмножеств, Е- = Е П А-, откуда с учётом равенства У-еТ А- = Хг следует Е = у-еТ Е-.
Обозначим далее:
и — множество всех выборок длины /, для которых вероятность правильной классификации при помощи функции реконструкции с выделяемым функцией компрессии К ядром {х41 , } ограничена величиной 1 — е. Тогда Е- = Ц- П А-.
В- — множество всех выборок длины I таких, что входящие в них точки с номерами вне множества {¿1,..., ¿д} правильно классифицируются функцией реконструкции.
Если выборка принадлежит множеству А-, то функция сжатия К выделяет из выборок этого множества ядро, состоящее из точек х41 ,..., этой выборки. По определению схемы компрессии, все остальные точки этой выборки с номерами вне множества {¿1, } должны классифицироваться правильно. Поэтому А- С В-. Вместе с равенством Е- = Ц- П А- это даёт
Р'(Е--) = Р1 (А- П Ц) < Р'(В-- П Ц-).
Пусть п- такая перестановка координат точек выборки Х1,..., Хг,..., X', что ¿г М- г, г = 1,...,к; п- : Хг ^ Хг. Тогда п-(Ц-) - множество всех выборок длины /, для которых вероятность правильной классификации входящих в них точек при помощи функции реконструкции с ядром {х1, ..., Жд} ограничена величиной 1 — е. Перестановка вводится для удобства дальнейших рассуждений: без потери общности
применяется замена (переименование) } м- }.
р(Е) < п и-) = р1(п-(В-) п п--(и-)). Р1 (п-(В-) п п--(Ц-))= | I(п4-(В4-))<Р,
где I(п-(В-)) — характеристическая функция множества п-(В-), которая выделяет из всех выборок длины I такие выборки, что входящие в них точки с номерами вне множества {¿1,...,£?} правильно классифицируются функцией реконструкции, т. е. правильно классифицируются I — к точек.
Интегрирование производится по множеству п-(Ц-) выборок таких, что вероятность правильной классификации входящих в них точек при помощи функции реконструкции с ядром {х1, ..,£&} ограничена величиной 1 — е.
Ядра компрессии извлекаются из выборок, поэтому существует некоторое множество V- ядер размера к такое, что п-(Ц-) = V- х X.
По теореме Фубини
У I(п-(В-)^Р = / <11* I I(п-(В--))<Р1-к.
Обозначим ЖС1,...,Хй — множество точек выборки Хг, правильно классифицируемое функцией реконструкции с ядром х1, ...,£&. Тогда
(ж1,...,жЛ) х XП ) = (жь...,ж*) х Ж^..,^.
Рг(Е-~) < J I(п-(В-))<Р1-к = J <Р1-к < (1 — е)1-к.
Рг(Е--) < (1 — е)1-к.
Число различных подпоследовательностей длины к последовательности Х1, ...,Х равно С?. Поэтому
Р(Е) = Р1 Щ Е-) < ^ Р*(Е) = |Т|(1 — е)1-к = С?(1 — е)1-к. \-ет / -ет
□
Теорема 26. [24]. Для любой схемы компрессии, имеющей ядерный размер к, (е,д)-обучаемость имеет место при длине выборки I, определяемой неравенством
(2 1 2к 4к I > шах< - 1п -, — 1п--+ 2к
[е д е е
Доказательство. Преобразуем неравенство Ск (1 — е)1 к < 8 (см. предыдущую теорему) в эквивалентное неравенство
1п 1 +1п ск
1 > —п+г—еу+к
которое выполняется при условии / > 1 (/п| + к 1п/) + к = 1 /п| + к( 11п / + 1), поскольку /к > Ск, и для малых е выполняется: — 1п(1 — е) > е. В оценку входят два слагаемых. Поэтому неравенство будет иметь место, если одновременно каждое слагаемое будет не больше величины //2, что приводит к системе из двух неравенств:
2 > 11п1, , Л 2 > £ й> (2)
2 > к (11п / + 1) . 1 У
Второе из этих двух неравенств путём подстановки в правую часть оценки для / можно преобразовать следующим образом:
l > 2k ( 1 ln(2k(1 lnl + 1)) + 1
£ £
l > 2k
1 4k 1 - ln--+ 1
££
1 4k l > 2k-ln — + 2k.
££
Из полученной системы неравенств
l > " ln 1,
- £ О '
2fc 4fc
l > 2k ln 4k + 2k.
£
£
получается оценка
f 2, 1 2k , 4k
"
l > max< - ln -, — ln--+ 2k
[£ 8 £ £
□
Сравнивая эту оценку длины выборки, требуемой для обучаемости с параметром размера сжатия k, с аналогичной оценкой обучаемости Блумера и Литтлстоуна [14], полученной на основе размерности Вапника-Червоненкиса d = VCD(F) класса функций F, используемого для обучения, -
f 4 2 8d 8d 1 l > max < - ln —, — ln — >,
£ 8 £ £
можно заметить, что эти оценки достаточно близки.
Литтлстоном и Вармутом [24] также получены аналогичные результаты для схемы сжатия размера k с дополнительной информацией, обозначаемой Q — некоторым множеством, добавляемым отображением сжатия к ядру выборки. Это отображение ставит в соответствие любой выборке пару: множество Q и ядро размера k. Так что сжатие оценивается числом элементов в Q и размером ядра k.
Теорема 27. [24]. Для любой схемы компрессии с ядерным размером k и дополнительной информацией Q при длине выборки l > k, ошибка Err функции реконструкции как решающего правила, определяющего принадлежность произвольной точки x целевому концепту G, может быть оценена неравенством
P(Err > е) < |Q|Cf (1 - е)1-к.
Если схему компрессии ослабить так, что классификация выборки, по которой найдено ядро, при помощи функции реконструкции допускает ошибку в s < l — k её точках, то будет иметь место следующий результат:
Теорема 28. [24]. Для любой схемы компрессии с ядерным размером k, допускающей не более s ошибок при длине выборки l > k, ошибка Err функции реконструкции как решающего правила, определяющего принадлежность произвольной точки целевому концепту G, может быть оценена неравенством
P(Err > е) <Ct+sCf (1 — e)1-k.
5. Использование универсального распределения для аппроксимации неизвестного распределения
Для понимания следующей теоремы нужно учесть, что полиномиальная (е, 8) обучаемость является частным случаем (е, 8) обучаемости и влечёт последнюю [5].
Теорема 29. [21, 22] Полиномиальная обучаемость над универсальным распределением т имеет место тогда и только тогда, когда имеет место обучаемость над любым простым распределением P при условии, что выборка извлекается в соответствии с распределением т.
Доказательство. Пусть P — любое простое распределение: найдется константа Ср > 0 такая, что Срm(x) > P(x). Предположим, что имеет место обучаемость над распределением m с ошибкой е /ср, и имеется соответствующий определению полиномиальной обучаемости алгоритм A полиномиальной сложности. Зафиксируем его. Пусть Err — множество объектов, на которых обученный концепт даёт ошибку. Тогда с вероятностью не меньшей 1 — 8 жеегг m(x) < е /ср
и ExGErr P(x) < СР ExGErr m(x) < е.
Поскольку алгоритм A извлекает обучающую выборку всегда в соответствии с
распределением m, то его точное выполнение в условиях распределения P должно
давать в качестве результата тот же самый концепт, определяющий множество Err.
Следовательно, из полиномиальной обучаемости над универсальным распределением
m следует полиномиальная обучаемость над любым простым распределением P.
Пусть теперь имеет место полиномиальная обучаемость над любым простым распределением P, вероятность ошибки не больше £, и обученный алгоритм даёт ошибку только на множестве Err. Но по условию теоремы, извлечение выборки происходит в соответствии с распределением m, поэтому ^ceErr m(x) < £, что доказывает полиномиальную обучаемость над m. □
зЗамечания, касающиеся теоремы. Параметр обучаемости £/ср требует знания константы cp = KP (P) - префиксной сложности неизвестного простого распределения P (см. ниже теорему об этом равенстве). При решении задач обучения приходится иметь дело с некоторыми подмножествами признакового пространства, и для таких подмножеств D использовать условные распределения m(-|D). В связи с этим Ли и Витаньи получили более тонкий критерий обучаемости, который будет приведен ниже без доказательства.
Определение 15. [22]. Вероятностное распределение P : S ^ R, где s = N U u, Sicen P(x) < 1, Szes P(x) = 1, u — некоторый неопределенный элемент, называется перечислимым, если множество точек {(x,y) : x e N, y e Q, P(x) > y} рекурсивно перечислимо.
Определение 16. [22] Распределение P называется простым, если существует перечислимое распределение Q такое, что 3c : Vx (cQ(x) > P(x)), где c < 2KP(Q)+O(1) — константа. Говорят, что P доминируется перечислимым распределением Q.
Теорема 30. [21] Если распределение P(x|y) перечислимо, то для всех допустимых x, y имеет место неравенство
2KP(P)m(x|y) > P(x|y).
Теорема 31. [22] Пусть H — класс концептов, D С N - выборочное пространство, ^ = min{l(s(g)) : g G G} и c — константа. Класс H полиномиально обучаем над универсальным распределением m тогда и только тогда, когда он полиномиально обучаем над любым простым распределением P таким, что существует, перечислимое распределение Q, доминирующее P, которое удовлетворяет условию KP(Q) < clog^ + O(1), и кроме этого, выполняется одно из следующих условии:
(i) выборка извлекается согласно условному распределению m(-|D);
(ii) KP(D) < clog^ + O(1) и выборка формируется так, что полиномиальное число примеров извлекаются в соответствии с безусловным распределением m(-), причем степень полинома не превышает константы c.
6. Байесовский подход к обучению и MDL
Правило Байеса определяет наиболее вероятную гипотезу h при заданном обучающем множестве D согласно соотношению
Pr{h|D} = ,
которое может быть представлено в эквивалентной форме:
- log Pr{h|D} = - log Pr{D|h} - logPr{h} + logPr{D}.
Наиболее вероятная гипотеза h при заданном обучающем множестве D должна минимизировать — log Pr{h|D}. Поскольку Pr{D} не меняется при выборе гипотез, байесовское правило выбора гипотезы из семейства может быть представлено в виде:
h* = argmin(— log Pr{D|h} — log Pr{h}). Использование универсального распределения приводит к соотношению
h* = argmin(— log m{D|h} — log m{h}) и далее, с учетом соотношения — logm(x) = KP(x) + O(1), к правилу
h* = argmin(KP (D|h) + KP (h))).
Последнее соотношение является выражением принципа MDL (Minimum Description Length), который является одной из формализаций «бритвы Оккама»: наилучшая гипотеза для данного набора данных та, которая минимизирует сумму длины описания кода гипотезы (также называемой моделью) и длины описания множества данных относительно этой гипотезы [25].
Базирующаяся на строгом математическом обосновании, применении колмого-ровской сложности и универсальной меры m, уточнённая версия MDL называется идеальным MDL. Применение и обоснование идеального MDL проиллюстрировано выше на байесовской схеме выбора гипотезы [25]. Имеет место фундаментальное неравенство [26]:
KP (D|h) + KP (h) - a(P,h) < - log Pr{D|h} — log Pr(h) < KP (D|h) + KP (h),
где a(P, h) = KP (P (D|h)) + KP (h). При малом значении a(P, h) левая и правая оценки становятся приблизительно равными друг другу, и тогда KP (D|h) + KP (h) ~ — log Pr{D|h} — log Pr(h). Это рассуждение лежит в основе доказательства следующего утверждения.
Теорема 32. [26], с.359. Байесовское правило и идеальный МДР при извлечении решения из допустимого класса гипотез Н выбирают одну и ту же гипотезу: Л* = Л* при условии, что величина а(Р, Л) является достаточно малой.
Таким образом, минимизация суммы КР(Д|Л) + КР(Л) обеспечивает выбор гипотезы Л* в соответствии с правилом Байеса, которое, как известно, является оптимальным: обеспечивает минимум среднего риска.
Казалось бы, если правило Байеса является оптимальным, то его и нужно применять, не изобретая новых способов выбора решений. Но непосредственное использование байесовского правила требует знания априорных распределений вероятностей, а они, как правило, неизвестны: в задачах машинного обучения в качестве начальной информации представляется обучающая выборка, по которой приходится аппроксимировать неизвестные распределения. Идеальный МЮЬ позволяет обойтись без информации об истинных априорных распределениях. Но возникают другие трудности: и префиксная сложность КР(ж), и универсальное распределение т(ж) = 2-КР(ж)-0(1) не являются вычислимыми. Поэтому нужно рассчитывать на использование вычислимых оценок колмогоровской сложности.
Рассмотрим условную сложность КР(Д|Л), входящую в минимизируемую сумму КР(Д|Л) + КР(Л). По определению префиксной колмогоровской сложности, КР(Д|Л) = шт{/(р) : и(р, Л) = Д} для некоторого оптимального декомпрессора и. Здесь декомпрессор и - префиксная машина Тьюринга, которая принимает вход в виде пары строк (р - сжатого описания и Л - применяемой гипотезы) и в результате выдает описание обучающей информации в виде строки Д. Если КР(Д|Л) = 0, то и (А, Л) = Д, где Л - пустое слово. В таком случае будем говорить, что гипотеза Л полностью описывает данные Д. Действительно, декомпрессор и точно восстанавливает данные Д, используя при этом в качестве входа только описание гипотезы Л. В противном случае будем использовать запись КР(Д|Л) = КР(Д \ Д), где Р> -часть обучающих данных, которые правильно описываются гипотезой Л. Обозначим Д \ Д = Д(Л) - выделенную подпоследовательность последовательности-строки Д и будем говорить, что Д(Л) - неописанный гипотезой Л остаток данных. Тогда принцип МЮЬ принимает эквивалентный вид
Л* = а^ш1п(КР {Д(Л)} + КР {Л})
и формулируется так: наилучшая гипотеза для данного набора данных та, которая минимизирует сумму длины описания кода гипотезы (также называемой моделью) и длины описания множества данных, не описываемых (не объясняемых) этой гипотезой.
Для согласованных с данными D гипотез это правило будет выглядеть так:
h* = arg min KPjh),
h€Hc(D)
где Hc(D) - класс гипотез, согласованных с данными D.
Обучающая выборка D является совокупностью примеров (Xj, о-)j=i. Будем использовать для отдельного примера выборки обозначение eXj = (Xj, aj). Тогда D = Уj=i eXj. Будем считать независимыми вероятности Pr{eXj|h} и полагать, что
Pr{D|h} = Pr{exi|h} ... Pr{exj|h} ... Pr{ex|h}
Тогда по правилу Байеса наиболее вероятная гипотеза h при заданном обучающем множестве D определяется соотношениями
p/,im Pr{h} nj=i Pr{exj |h} Pr{h|D} =-PT{D}-,
i
- log Pr{h|D} = - log Pr{h} - log Pr{exj|h} + log Pr{D}.
j=i
Байесовское правило выбора гипотезы может быть представлено в виде:
i
h* = argmin(-log Pr{h} — у log Pr{exj |h}).
j=i
Переходя к универсальному распределению и далее - к префиксной сложности, получаем
i
h* = argmin(— log m{h} — \ log m{exj |h}),
j=i
h* = argmin(KP (h) + ^ KP (exj |h)).
^ея
Напомним, что правило Байеса предполагает заданным обучающее множество Д, которое можно представить как таблицу, содержащую I строк и п + 1 столбцов, где п — размерность признакового пространства.
Префиксная сложность гипотезы КР(Л) - это кратчайшее описание гипотезы Л: кратчайшее двоичное слово р, позволяющее получить Л = и(р) при помощи некоторого декомпрессора и. По этому слову р при помощи алгоритма-декомпрессора и можно корректно восстановить гипотезу Л по её описанию к с учетом того, что Дот(Л) С X, и Л является функцией из множества X в {0,1}.
Оценим условную префиксную сложность KP(exj |h) одного примера обучающей выборки. KP(exj |h) — это наименьшая длина такой бинарной строки p, что найдётся декомпрессор U, который по двоичному слову p и представленной корректным описанием гипотезе h определяет строку, «описывающую» пример exj в следующем смысле. Слово p определяет соответствие между признаковым описанием примера Xj и значением целевой гипотезы aj в обучающей таблице D при условии использования гипотезы h. Если h(Xj) = aj, то гипотеза h полностью описывает пример. В этом случае никакое слово p не требуется, и оно полагается пустым, т. е. KP(exj |h) = 0. В противном случае гипотеза h не описывает пример, но его описание может быть получено из заданной для обучения таблицы D. Для этого требуется указать декомпрессору в слове p номер нужной строки в таблице. Поскольку в таблице D имеется ровно l строк, для указания на нужную строку потребуется ] log l[ бит. Извлечение целевого значения aj потребует задания размерности n, чтобы отделить это значение от описания признаков примера. Для этого потребуется ] log n[ бит. Применяя стандартный самоограничивающий код, окончательно получаем: KP (exj |h) = 0, если гипотеза правильно описывает пример exj, и KP (exj |h) < 2] log log n[+] log n[+] log l[, если пример exj противоречит гипотезе h. Объединяя эти случаи, получаем
i
KP (D|h) = ^ KP (exj |h) < k (2] log log n[+] log n[+]log l[) , j=i
где k - число примеров из l, неправильно классифицируемых гипотезой h, или
KP(D|h) < Vemp ■ l ■ (2] log log n[+]log n[+]log l[) ,
где vemp - эмпирическая частота ошибок гипотезы h на выборке D длины l. Учитывая, что согласно теореме Соломонова-Колмогорова сложность определяется лишь с точностью до аддитивной константы, условную префиксную сложность данной обучающей выборки D при данной гипотезе h можно приближенно оценить следующим образом:
KP(D|h) « vempl(2 log log n + log(nl)).
Правило Байеса и оптимальная остановка при обучении
Обучение отличается от настройки на обучающую выборку или её прямой аппроксимации тем, что предполагает организацию последовательного процесса усложнения решающего правила (гипотезы) с целью достижения его способности к эмпирическому обобщению. По отношению к самой выборке, способность к обобщению проявляется в том, что часть её примеров, не использованных на некотором
этапе обучения, правильно классифицируется сформированным на этом этапе решающим правилом. В этом смысле показательна обучающая процедура линейной коррекции Розенблатта-Новикова, в которой вектор коэффициентов решающего правила — линейного отделителя — корректируется только при ошибочной классификации очередного обучающего примера. Коррекция происходит путём использования этого примера — добавления его с регулирующим скорость сходимости коэффициентом к вектору линейного отделителя.
Процесс обучения можно представить как последовательный подбор решающего правила, при котором его сложность постепенно увеличивается, а обобщающая способность оценивается на каждом шаге Обозначая решающее правило, полученное на шаге как Л^, получаем последовательность Л0, Л1,..., Л^,..., где в — номер шага остановки. При этом сложность пошагово синтезируемого решающего правила не убывает:
КР(Ло) < КР(ЛО < ... < КР(Л*) < ... < КР(Лв).
По мере обучения все большее число примеров классифицируется правильно, поэтому условная сложность КРне возрастает:
КР(Д|Ло) > КР(Д^) > ... > КР> ... > КР(£|Лв).
В соответствии с байесовским подходом, необходимо рассматривать последовательность суммарных сложностей КР+ КР(Л^); и следует остановиться на том шаге когда указанная суммарная сложность в процессе обучения перестанет убывать. Учитывая, что
КР- КР(£|^_1) < 0, а КР(Л*) - КР(Л^) > 0, условие остановки можно определить следующим образом:
V = * : КР- КР(Л*_1) - (КР(Д|Л*_1) - КР(Я|^)) > 0.
Проиллюстрируем этот подход на примере последовательного обучения для случая, когда решающее правило отыскивается в классе бинарных решающих деревьев (БРД). Процесс коррекции представляет собой увеличение числа внутренних вершин бинарного дерева на единицу, что влечёт увеличение числа решающих вершин-листьев ^ также на единицу: ^ = + 1. Используя рУСД метод [4, 6, 7, 15], можно получить следующую оценку сложности БРД с ^ листьями:
К5< (^ - 1)(]log(n + 1)[+] 1оёМ+1).
Программирование слова p для декомпрессии любого БРД с ß листьями с целью получения оценки сложности KS(h^) основано на представлении каждой из ß — 1 вершин ветвления словом-атомом, состоящим из двух частей (конкатенации префикса и окончания атома):
Код номера переменной или значение решающей функции (0 или 1) Номер следующего атома в конкатенации или значение решающей функции (0 или 1)
Префикс атома может иметь n +1 значение, если 0 и 1 резервируются для значений классифицирующей функции, а значениями 2, 3,... , n + 1 кодируются номера признаков 1, 2,... , n. Окончание атома может иметь ß значений: 0 и 1 резервируются как в префиксе. Остальные ß — 2 значений соответствуют направленным рёбрам дерева, являющимися указателями на решающие вершины дерева (атомы списка). Указатель на одну (начальную вершину дерева) не требуется: нужны указатели только на ß — 2 внутренних вершин. Всего получается ß значений для окончания атома.
Использование стандартного самоограничивающего кода позволяет получить оценку
KP(hJ < 2 (] loglogn[+] loglogß[) + (ß — 1)(] log(n + 1)[+] logß[),
KP(hM) ^ 2 (log log n + log log ß) + (ß — 1)(log(n + 1) + log ß).
Усложнение БРД при добавлении ровно одной условной вершины приводит к увеличению сложности KP(hM) на длину одного атома, приблизительно равную
log(n + 1) + log ß.
Если при этом число ошибочно классифицируемых примеров выборки уменьшится на единицу, то сложность KP(hM) уменьшится на величину logZ. Оптимальная остановка ветвления (синтеза БРД) определяется неравенством
log(n + 1) + logß > logZ,
позволяющим определить оптимальное число листьев синтезируемого дерева. При больших n для оценки наибольшего числа листьев ß, после достижения которого должна следовать остановка синтеза БРД, можно применять неравенство
log(nß) > log Z.
Тогда условие остановки синтеза определяется соотношением ß > Z/n.
Так, если в обучающей выборке содержится Z = 300 примеров, а число признаков n = 20, то увеличивать сложность БРД ради правильной классификации ещё только
одного примера не следует при ^ > 15. Но нужно учесть, что при увеличении эмпирической точности классификации (на одном шаге усложнения БРД) на два и более примера, это ограничение снимается.
Заключение
Применение математического аппарата теории колмогоровской алгоритмической сложности и случайности в машинном обучении позволило получить следующие важные результаты.
1. Удалось строго обосновать подход к синтезу решающих правил (гипотез), основанный на принципе их кратчайшего представления (описания).
2. Реализовать на основе теории универсального распределения байесовский подход к синтезу решающих правил, не требующий традиционной оценки вероятностных распределений.
3. Обосновать критерий остановки процедуры синтеза решающего правила на основе оценивания минимума суммарной сложности (данных и самого правила).
4. Построить ряд моделей сжатия информации и получить для них оценки обучаемости, в частности, в РАС модели [5] и в (е, $) модели обучения.
5. Обнаружить связь между размерностью Вапника-Червоненкиса УСД(1т(А)) подкласса гипотез 1т(А), из которого извлекается решение алгоритмом обучения (алгоритмическим отображением) А, и минимальным возможным сжатием описания любой гипотезы из этого класса: УСД(1т(А)) является оценкой сложности выбранной гипотезы снизу.
Направление дальнейших исследований связано с повышением точности выводов на основе префиксной колмогоровской сложности за счет улучшения качества её оценок.
Список литературы
1. Вапник В. Н. Восстановление зависимостей по эмпирическим данным / В. Н. Вапник. — М.: Наука, 1979. — 448 с.
2. Вапник В. Н. Теория распознавания образов / В. Н. Вапник, А Я Червоненкис. — М.: Наука, 1974. — 416 с.
3. Вьюгин В. В. Колмогоровская сложность и алгоритмическая случайность / В. В. Вьюгин. — М.: МФТИ, 2012. — 131 с.
4. Донской В. И. Колмогоровская сложность классов общерекурсивных функций с ограниченной ёмкостью / В. И. Донской // Таврический вестник математики и информатики, 2005. — № 1. — С. 25-34.
5. Донской В. И. Машинное обучение и обучаемость: сравнительный обзор / В.И.Донской // Intellectual Archive. - 2012. - № 933 — 19 c. http://www.sciteclibrary.ru/texsts/rus/stat/st4820.pdf
6. Донской В. И. Оценки ёмкости основных классов алгоритмов эмпирического обобщения, полученные pVCD методом / В. И. Донской // Ученые записки ТНУ им. В. И. Вернадского. Серия „Физико-математические науки", 2010. - Т. 23 (62). - № 2. - С. 56-65.
7. Донской В. И. Сложность семейств алгоритмов обучения и оценивание неслучайности извлечения эмпирических закономерностей / В.И.Донской // Кибернетика и системный анализ, 2012. - № 2. - С. 86-96.
8. Донской В. И. Эмпирическое обобщение и распознавание: классы задач, классы математических моделей и применимость теорий. Часть I; Часть II / В.И.Донской // Таврический вестник информатики и математики, 2011. - № 1. - С. 15-26; - № 2. - С. 31-42.
9. Звонкин А. К. Сложность конечных объектов и обоснование понятий информации и случайности с помощью теории алгоритмов / А. К. Звонкин, Л. А. Левин // Успехи математических наук, 1970. - Т. 25:6 (156). - С. 85-127.
10. Колмогоров А. Н. Теория информации и теория алгоритмов // А. Н. Колмогоров. — М.: Наука, 1987. - 304 с.
11. Мучник А. А. Гиперпростые множества, возникающие при вычислимой аппроксимации сверху префиксной сложности / А. А. Мучник, А. Л. Семенов. — M.: ВЦ РАН, Отделение кибернетики, 2002. - 9 с.
http://alexander.shen.free.fr/muchnik/publications/hh-simple.pdf
12. Успенский В. А. Колмогоровская сложность и алгоритмическая случайность / В. А. Успенский, Н. К. Верещагин, A. Шень. - М.: МЦНМО, 2010. - 556 с.
13. Blumer A. Occam's Razor / A. Blumer, A. Ehrenfeucht, D. Haussler, M. Warmuth // Information Processing Letters, 1987. - Vol. 24 (6). - P. 377-380.
14. Blumer A. Learning faster than promise by the Vapnik-Chervonenkis dimension / Anselm Blumer, Nick Littlestone // Discrete Applied Mathematics, 1989. - Vol. 24. - Iss. 1-3. - P. 47-63.
15. Donskoy V.I. The Estimations Based on the Kolmogorov Complexity and Machine Learning from Examples / V. I. Donskoy // Proceedings of the Fifth International Conference "Neural Networks and Artificial Intelligence"(ICNNAI'2008). - Minsk: INNS. - 2008. - Р. 292-297.
16. Ehrenfeucht A. A general lower bound on the number of examples needed for learning / A. Ehrenfeucht, D. Haussler, M. Kearns, L. Valiant // Inform. Computations, 1989. - 82. - P. 247 -261.
17. Floyd S. Sample Compression, learnability, and the Vapnik-Chervonenkis dimension / Sally Floyd, Manfred Warmuth //J. Machine Learning, 1995. - Vol. 21. - Iss. 3. - P. 269-304.
18. Gammerman A. Kolmogorov complexity: Sources, theory and applications / Alexander Gammerman, Vladimir Vovk // Computer Journal, 1999. - Vol. 42. - No. 4. - p. 252-255.
19. Hutter M. Algoritmic complexity // Scholarpedia. - 2008. - 3 (1):2573. http://www.scholarpedia.org/article/Algorithmic complexity.Prefix Turing machine
20. Li M. Sharpening Occam's Razor / Ming Li, John Tromb, Paul M. B. Vitanyi. - Research Rep. CT-94-03. - Amsterdam: ILLC, 1994. - 13 p. http://www.illc.uva.nl/Research/Reports/CT-1994-03.text.pdf
21. Li M. An introduction to Kolmogorov complexity and its applications / Ming Li, Paul M. B. Vitanyi. — New York: Springer-Verlag, 1997. — 637 p.
22. Li M. Learning Simple Concepts under Simple Distributions / Ming Li, Paul M. B. Vitanyi // SIAM J. Comput. — Vol. 20. — Iss. 5. — P. 911-935.
23. Li M. Theories of Learning / Ming Li, Paul M. B. Vitanyi //In Proc. Int. Conf. Of Young Computer Scientists. — Beijing, China. — 1993. — 8 P.
24. Littlestone L. Relaring Data Compression and Learnability / Nick Littlestone, Manfred K. Warmuth. — Technical Report. — Santa-Cruz: University of California, 1986. — 13 p. http://users.soe.ucsc.edu/ manfred/pubs/T1.pdf
25. Vitanyi P. Ideal MDL and Its Relation to Bayesianism Bayesianism / Paul M. B. Vitanyi, Ming Li // In Proc. ISIS: Information, Statistic and Induction in Science. — Singapore: World Scientific, 1996. — P. 282-291.
26. Vitanyi P. Minimum description length induction, Bayesianism, and Kolmogorov complexity / Paul M. B. Vitanyi, Ming Li // IEEE Transactions on Information Theory, 2000 — Vol. 46. — N2. — P. 446-464.
Статья поступила в редакцию 24.11.2012