УДК 519.7
НЕКОТОРЫЕ ПОЛОЖЕНИЯ И ЗАДАЧИ ТЕОРИИ ШАБЛОНОВ
© Анафиев A.C.
Таврический национальный университет им. В.И. Вернадского
факультет математики и информатики
пр-т Вернадского, 4, г. Симферополь, 95007, Украина e-mail: aydera@mail.ru
Abstract. The main definitions, positions and problems of template theory are considered. The new types of templates are introduced. Some properties of polynomial templates are considered. New tasks which play an important role of the construction of high-quality decision rules are emphasized.
Введение
Рассмотрим стандартную постановку задачи обучения по прецедентам. Дано множество объектов X, множество ответов Y и некоторая неполная информация о целевой зависимости /* : .V —Y представленная в виде конечного набора прецедентов {(xi Е X. Hi Е Y)}ei=v где Ui = f*(xi), i = 1.1. При этом набор {xi,... ,x¿} С X будем называть обучающей выборкой и обозначать X1.
Задача обучения по прецедентам заключается в том, чтобы восстановить неизвестную целевую зависимость /* между объектами и ответами, т.е. построить алгоритм о* : X —V. который будет удовлетворять следующим требованиям.
• Алгоритм о* (х) должен воспроизводить на объектах обучающей выборки заданные ответы: г/(.г() = y¿, i = 1..Í. Причем, равенство здесь можно понимать и как приближенное, в зависимости от специфики задачи.
• На алгоритм о* могут накладываться разного рода априорные ограничения, такие как, линейность, монотонность, гладкость и т.д., а также и их сочетания. Более того, может быть задана некоторая модель данного алгоритма [1].
• Алгоритм о* должен достаточно хорошо восстанавливать неизвестную целевую зависимость /* не только на объектах обучающей выборки, но и на всем множестве объектов X. Другими словами, алгоритм о* должен обладать обобщающей способностью.
При этом фраза «достаточно хорошо восстанавливает» означает, что искомый алгоритм о* должен быть лучшим в некотором семействе алгоритмов относительно некоторого заранее известного функционала качества.
Кроме этого, при решении задачи обучения по прецедентам заранее фиксируется класс решающих правил А, из которого и будет выбираться оптимальный алгоритм, удовлетворяющий вышеописанным требованиям.
При этом, в большинстве случаев, класс решающих правил А выбирается достаточно широким, что приводит к неприменимости многих оценок, например, оценок Вапннка-Червоненкиса [3], для оценки качества полученного алгоритма и получения «рецепта» - как выбирать оптимальное (близкое к оптимальному) решающее правило в заданном семействе А.
Для сужения класса решающих правил А с целью построения более качественных решающих правил была предложена теория шаблонов [2], Рассмотрим основные определения и положения данной теории,
1, Некоторые определения и положения теории шаблонов
Определение 1. Оператор /:(-)—>• .1 будем называть шаблоном множества алгоритмов А относительно параметрического множества 0, Если при этом 0 = Рк, то шаблон t будем называть к-параметрическим и обозначать ^,
Приведем здесь также определение модели алгоритмов [1],
Определение 2. Моделью алгоритмов называется параметрическое семейство отображений А = {(р(х,6) \ в £ 0}, где ц) : X х 0 —У - некоторая фиксированная функция, 0 - множество допустимых значений параметра 9, называемое пространством параметров или пространством поиска.
Данное определение можно переформулировать, используя понятие шаблона.
Определение 3. Моделью алгоритмов называется параметрическое семейство отображений А = {/(х) | / = t(в), в £ 0}, где 1(9) - некоторый фиксированный шаблон, 0 - множество допустимых значений параметра в.
Задавая модель алгоритма с помощью шаблона, мы акцентируем свое внимание на конструктивных особенностях решающих правил и на возможность сужения области неопределенности, задаваемой моделью алгоритмов. При этом параметрическое множество определяет количество параметров и их допустимые значения, а шаблон показывает каким образом связаны между собой параметры и переменные. Тогда возникают следующие две интересные задачи: первая (прямая) - как можно использовать структуру и вид связей между параметрами и переменными для построения качественных решающих правил, адекватных данной выборке; и вторая, (обратная,) - задача, нахождения структуры, выборки описываемой в виде шаблона.
Также можно рассматривать модель отдельной функции.
Определение 4. Тройку Л// = (0. I. 0) такую, что 1(6) = /, где / — шаблон множества А относительно параметрического множества 0 н 0 (г 0. будем называть моделью функции / е А.
Определение 5. Множество
А/(0) = {./' е .1 М,г = (0. ¿,0)}
будем называть образом шаблона £ на множестве А относительно параметрического множества 0,
Определение 6. Шаблон t называется универсальным шаблоном, выборки Xе- = (х{, Уг)|=1) если V/ (Е и V? = 1,1 выполняется = г/{.
Будем говорить, что шаблон удовлетворяет выборке X1 = (х^, если
3/ е Д4 такая, что V? = 1,£ выполняется /(.г() = ц,.
Замечание. В некоторых задачах равенство = гц можно понимать как при-
ближенное.
Определение 7. Шаблон называется минимальным шаблоном, для выборки Xе, если он имеет наименьшее число параметров среди всех удовлетворяющих выборке X1 шаблонов.
Тогда, становится, актуальной задача, построения минимального или близкого к минимальному шаблонов удовлетьворяющих обучающей выборке! И какова, сложность отыскания 'таких шаблонов для, различного рода задач, обучения по прецедентам.
Рассмотрим несколько различных видов шаблонов. Обозначим 9^ = (9\,... ,9к).
Определение 8. Шаблон называется а-шаблоном, если его можно представить в виде
= к ( ы (#(*>) , ^(хг,..., хп)) ,...,Нт(фт (>}) , ч>т{х ь ■ ■ ■, хп)) ) ,
(1)
где
1) х\,... ,хп - символы переменных функций из А;
2) к - т-местный функциональный символ;
3) Ну - 2-местный функциональный символ;
4) ^pj - 5-местные функциональные символы, _) = 1. ///. 5 (Е {0, ...,п}, причем
функции (Рз(х1,..., хп) будем называть свойствами множества X выделяемые шаблоном,
5) ф^ - р-меетные функциональные символы, _) = 1. ///. р е {0,..., к}.
При этом, если т = к и ф^ = 9j, j = 1, к, то шаблон называется простым.
Пусть ^ алгебраическое поле с операциями сложения + и умножения • . Простой шаблон с ..., = + ... + г2) = • и функциями-
свойствами (Рз(х1,..., хп) = Х{г • ... • ацТ, ] = 1, к, называется полиномиальным шаблоном множества функций .! = {/: —над полем $ относительно параметрического множества О =
Согласно определению, каждый полиномиальный шаблон I1' можно представить в виде
к
г(вг,..., вк) = 9г ■ хц ■ ... ■ Х{1Г1 + ... + 9к ■ хЧк • ... • х^ = ^ 0-, ■ .г(, • ... • х^ . (2) Причем произведения = х-з • ... • х-з , ] = 1, к, будут свойствами множества X.
1-1 1т ^
выделяемые шаблоном t. Число г^ будем называть рангом свойства а относительно шаблона I будем говорить, что он порожден множеством свойств Б = {^х, «2,..., и обозначать £ 1= Б.
Полиномиальный шаблон над полем tv будем обозначать а через tk,r - А;-пара-метричеекий полиномиальный шаблон, который способен выделять из множества X только свойства ранга не больше, чем г.
Получены следующие оценки ёмкости класса решающих правил порожденных полиномиальными шаблонами [2].
Определение 9. Поля, элементы которых можно представить в виде log М-ра зря. i-ного двоичного кода, М < оо, будем называть М-полями. М-поле, содержащееся во множестве рациональных (целых) чисел, будем называть М--полем рациональных (целых) чисел.
Теорема 1. Пусть $ некоторое М-поле, тогда ёмкость класса h(A,Tk,г) образа множества всех к-параметрических полиномиальных шаблонов, порожденных свойствами ранга не выше г, удовлетворяет неравенству
h(A~k,r) ^ min( k(r\og(n + 1) + logM),
k(n\og(r + 1) + logM), P(r) log M),
где P(r) — число свойств множества X, выделяемые всеми шаблонами из ранга не больше, чем г.
Следствие 1. Емкость h{Pk,r{n)) класса i\r(n) полиномов над М-полем рациональных чисел, Q от п переменных степени не выше г с к отличными от нуля коэффициентами удовлетворяет неравенству
h(Pk,r(n)) ^ min( к (г log(n + 1) + logM),
k(n\og(r + 1) + logM),
(n + г)!
, , logM). nlrl
Следствие 2. Емкость h(P% r(n)) класса P|r(n) полиномов Жегалкина от n переменных степени не выше г с к отличными от нуля коэффициентами удовлетворяет неравенству
h(Plr(n)) ^ min ( k(r\og(n + l) + 1), k(n\og(r + l) +
\ ¿=o
Как показано в [2], учет числа параметров при оценивании ёмкости класса решающих правил позволяет намного улучшить известные оценки. Кроме этого, данная теорема подчеркивает целесообразность построения минимальных (с минимальным числом параметров) шаблонов.
Приведем численную оценку зависимости вероятности неслучайной настройки на выборку от числа параметров ^-параметрического полиномиального шаблона.
Теорема 2. Для, того, чтобы, вероятность Р(Д^, (■, S£) настройки на, какие-нибудь £ — 5£ элементов выборки X1 длины £ алгоритмами семейства Atk, - образа, к-пара-метрического полиномиального шаблона, - была, меньше некоторого заданного г] > 0
необходимо, чтобы, число параметров к удовлетворяло условию к < (£- St + log f? - log (Cf • <y(£ - Si))) , 1
где 7(i — Si) = ---—1 при i — Si —oo, Si — число ошибок, допускаемых
X — 2 ^ w^j+J-
ho обучающей выборке алгоритмом, из семейства Atk построенным в результате обучения.
Доказательство. По теореме 2,7 из [2]
P(At*, i, Si) < т(i - Si) ■ Cf ■ 2fe(log^1} • 2-R'(xi'A^ или, согласно определению степени частичной закономерности R' [2], Р(Л(,. £, Si) < 7(i - Si) ■ Cf • 2fe(log^1} • 2-{t-k-M).
Тогда, если
7(t - Si) ■ Cf ■ ■ 2 < rh (*)
то и Р(Л^, i, Si) < г]. Из (*) следует, что
log (7(i - Si) ■ Cf • 2fe(log^1} • 2-(£-k-M^) < log f], log (Cf ■ 7(i - Si)) + log (г^10^"1)) + log (2-(^-fe-«)) < log fj, log (Cf • 7(i - Si)) + ¿(logI - 1) - (i - k - Si) < log n, k(\ogi - 1) - i + k + Si < log r] - log (Cf • 7(i - Si)) ,
k Yogi < i - Si + logr] - log (Cf • 7(i - Si)) .
Откуда следует утверждение теоремы
i - Si + log r] - log (Cf • 7(i - Si))
k <
log i
Следствие 3. Для, того, чтобы, вероятность £, 0) безошибочной настройки
на, выборку Xе длины i ^ 10 алгоритмами семейства Atk была, меньше некоторого заданного г] > 0 необходимо, чтобы, число параметров к удовлетворяло условию
i + log Г]
к <
log i
Доказательство. Следует из теоремы 2, учитывая, что Si = 0 и 7(i) « 1 при
О ю [1]. " " □
Кроме этого в [2] была получена численная оценка зависимости вероятности неслучайной настройки на выборку от числа параметров ^-параметрического полиномиального шаблона для булевою случая (рассматривается булева выборка Х|0
Следствие 4. Для, того, чтобы, вероятность Р(Л^, (■, безошибочной настройки на, выборку ^{01} длины, 1^10 алгоритмами семейства А{к, - образа, к-параметрического шаблона над полем {0,1}, - была, меньше некоторого заданного г] > 0, необходимо, чтобы, число параметров к удовлетворяло условию
к < I — 1оц I — 1о§ Т].
Приведем таблицу, которая показывает каким должно быть число параметров к, чтобы вероятность неслучайной безошибочной настройки на выборку Х|0 ^ длины I ^-параметрическим полиномиальным шаблоном была выше 90%,
1 к ^
10 3
20 12
30 22
40 31
50 41
60 51
1 к ^
70 61
80 70
90 80
100 90
1000 987
10000 9983
2, Теорема существования полиномиального шаблона
Теорема 3 (существования полиномиального шаблона). Для произвольной корректной выборки Xе длины I существует к-па,ра,м,етрич,еский полиномиальный шаблон к ^ I, удовлетворяющий выборке X1.
Здесь возникают следующие интересные задачи:
• задача, поиска условий существования и вида, обучающей выборки Xе, для, которой не существует к-параметрического полиномиального шаблона с к < I параметрами удовлетворяющего выборке X1;
• задача, нахождения минимального к, при котором, для, выборки X1 существует удовлетворяющий ей к-параметрический полиномиальный шаблон.
Заключение
В работе приведены основные определения, положения и проблемы теории шаблонов, Введены новые типы шаблонов, такие как, универсальные и а-шаблоны. Получено условие на количество параметров /¿-параметрического полиномиального шаблона ^, при котором вероятность настройки на выборку алгоритмами семейства Д^ будет меньше некоторого г] > 0,
Выделены новые задачи теории шаблонов, которые играют важную роль при построении качественных решающих правил и сужении области неопределенности при решении задач обучения по прецедентам,
Список литературы
1. Donskoy V. I. The Estimations Based on the Kolmogorov Complexity and Machine Learning from Examples // Proceedings of the Fifth International Conference «Neural Networks and Artificial Intelligence» (ICNNAI'2008), Minsk, 2008, - p.p. 292-297.
2. Анафиев А.С. Теория шаблонов в задачах обучения по прецедентам и выбора моделей. Диссертация на соискание ученой степени кандидата физико-математических наук. - 2007. - 135 с.
3. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. - 448 с.
4. Воронцов К.В. Вычислительные методы обучения по прецедентам. Курс лекций по машинному обучению. - 2009 г. - 42 с.
http: / / www.machinelearning.ru / wiki/images/8/8d /Voron-ML-Intro.pdf
Статья поступила в редакцию 21.12.2008