УДК 519.7
М-МОДЕЛИ АЛГОРИТМОВ. ЁМКОСТЬ И КОЛМОГОРОВСКАЯ СЛОЖНОСТЬ КЛАССА М-ПОЛИНОМОВ (с) Анафиев А.С.
Таврический национальный университет им. В.И. Вернадского
факультет математики и информатики
пр-т Вернадского, 4, г. Симферополь, 95007, Украина e-mail: [email protected]
Abstract. The problems with elements bounded by a bit array are extracted in a special class of learning by precedents problems. A notion of M-models of learning algorithm is introduced. The Kolmogorov complexity and the VCD of M-polynomials and M-polynomials of Zhegalkin with fc-component are estimated. The notions of complexity and a degree of compression by algorithms of M-models for training samples are introduced.
Введение
Рассмотрим постановку задачи обучения по прецедентам. Пусть заданы множество объектов X, множество ответов Y и существует некоторая целевая зависимость /* между объектами и ответами, о которой известны лишь значения iji = f*(x{) на конечном наборе точек {xi,,,,, хе} С X. Пары (объект - Xi, ответ - у^) называют прецедентами, а совокупность таких пар X1 = {(жьУг)}1= i ~~ обучающей выборкой.
Необходимо построить алгоритм1 о : X —Y восстанавливающий неизвестную целевую зависимость /* на всем множестве объектов X. т.е. обладающий обобщающей способностью. Очевидно, что возникает вопрос, как оценивать качество восстановления алгоритмом о целевой зависимости /*. Учитывая, что /* задана частично -обучающей выборкой Xе, - то и оценивание обобщающей способности алгоритма происходит по выборке X1 относительно некоторого функционала качества Ф (а,Х£).
Обычно, при решении такого рода задач алгоритм о выбирается из некоторого параметрического семейства отображений
А = (<p(x,j) I 7 е Г}
называемого моделью [1] алгоритма о, где ц> : X х Г —Y - некоторая фиксированная функция, Г - множество допустимых значений параметра 7, называемое пространством параметров или пространством поиска. А одним из методом решения задачи обучения по прецедентам является выбор алгоритма о 6 А, доставляющего максимум функционалу качества Ф:
а(х) = ащтахФ (а, Xе).
а&А
Таким образом, задачу обучения по прецедентам можно представить как пятерку (X, Y, Xе, А, Ф). В зависимости от априорной информации и различного рода предположений относительно каждого элемента данной пятерки, возникают разного рода
^Под алгоритмом понимается вычислимая (частично-рекурсивная) функция.
задачи обучения и методы их решения. Основными проблемами при решении задач обучения являются адекватность выбранной модели А модели неизвестной целевой зависимости }'* и оценка качества обобщающей способности построенного в результате обучения алгоритма а G А.
Одними из важнейших характеристик обучающей епоеобноети класса решающих правил служат ёмкость класса [2] и колмогоровская сложность [3]. Связь между этими двумя важными характеристиками классов показана в [4]. Развитие колмогоров-ского подхода к поиску закономерностей в данных привело к принципу минимума длины описания (minimum description length - MDL) [5, 6, 7], где под обучением понимается сжатие исходных данных, в нашем случаем, сжатие обучающей выборки. Обозначим через Мм = [0, 2м — 1] - расширенный натуральный ряд ограниченный разрядной сеткой длины М. Выделим следующий класс задач обучения по прецедентам: множество объектов X С Мм х Мм х ,,, х Mм, множество отве-
п раз
тов Y С Мм, а, в модели алгоритмов А будем требовать, чтобы, ц> была вычислимой (частично-рекурсивной) функцией и Г С Мм х Мм х ,,, х Mм- Такого рода модели
к раз
будем называть М-моделями.
Замечание. В дальнейшем будем рассматривать только такого рода задачи.
Для М-модели А произвольный алгоритм о G А можно запрограммировать (закодировать) последовательностью длины2
£(а) = £(<р) + кМ,
где i(ip) - длина программы, которая по конечному слову .г G .Y п параметру 7 е Г восстанавливает слово у = ip(x, 7), исходную выборку X1 длины i - последовательностью длины ((и + 1 )М без учета разделительных битов, а обучающую выборку X1 с помощью произвольного алгоритма о G А - словом длины ¿{а) + п£М, т.е. вначале кодируется алгоритм, а затем объекты выборки,
1, Полиномиальные модели
Рассмотрим модель алгоритмов . !„./,.,. М-полиномов3 от п переменных с к слагаемыми степени не выше г:
f к
• Ь»./, .г = < ^ 7j • xi[ • ■ ■ ■ • Xi{, 5 Tj
U=1
Вычислим длину ¿{a) двоичной последовательности, с помощью которой можно восстановить любой полином о G Л,,./,..,.. Для того, чтобы закодировать полином, необходимо закодировать все его к отличных от нуля слагаемых. Каждое слагаемое s
2Длина вычисляется без учета разделительных битов, если таковые требуются.
3Будем говорить М-полиномы, так как они определяются М-моделями.
полностью представляется двоичным словом4:
pl{s)=p\.p\.....р\,
длины г log(n + 1), или
р2($) = Р\-Р\.....Р2п,
длины nlog(r + 1), где р\ - либо номер (в двоичной системе счисления) переменной, которая стоит на i месте в слагаемом s, либо нуль, если переменная на ¿-ом месте отсутствует, i = l,r, a pj - число вхождений (в двоичной системе счисления) переменной ,r¡ в слагаемое s, j = 1, п.
Например, для п = 5 и г = 4 слагаемое si = .г i .г i.r-, полностью определяется словом p1(si) = 001,100,101,000 или словом p2(si) = 001,000,000,001,001, а слагаемое s<¿ = х\ = X5X5X5X5 - словом р1^) = 101,101,101,101 или словом p2(s2) = 000.000.000.000.100.
Тогда весь полином о = 7i«i + ... + Jksk можно представить словом
р1 = Ti ■ Pl($i) ■ 72 ■ Pl($2).....7к ■ Р1($к)
длины k(r log(n + 1) + М), или словом
р2 = 7i ■ p2{si) ■ 72 ■ P2(s2).....7к ■ P2(sk)
длины к(п log(r + 1) + М), или словом
Рз = ГЦ . Г]2.....Г}Р(п,г);
\ть ~Ь г)!
длины Р(п, г)М, где Р(п, г) =--—---число всех возможных слагаемых полинома
п! г!
от и переменных степени не выше г, при этом //( = 0. если слагаемое s¿ не входит в полином, и rji = тj, где 7j - коэффициент при слагаемом s¿.
Теорема 1. Емкость h класса .!„./,.,. полиномов от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству
(ín \
k(rlog(n + 1) + М), k(nlog(r + 1) + М), v ''М J .
Доказательство. Доказательство теоремы проведем согласно принципу программирования оценки VCD, сокращенно - pVCD, предложенного в работе [8], основными этапами которого являются:
1. Изучение семейства решающих правил А и определение минимальной совокупности свойств (параметров, структурных особенностей), конкретное указание которых позволяет для некоторого алгоритма U сформировать двоичное слово ра такое, что для любого входа х выполняется U(pa, х) = а(х), где о 6 А и U — некоторый алгоритм (машина), который для аргумента х по слову (программе) р вычисляет правильный ответ у.
2. Определение длины i(pa) слова ра как искомой оценки сверху.
4Точкой . будем обозначать конкатенацию строк.
Рассмотрим произвольный полином о G АПукуГ, который, как показано выше, однозначно определяется словом длины
((fi г ) '
k(r\og(n + 1) + M), k(nlog(r + 1) + M), v ''M
Пусть К, (Л) - сложность семейства решающих правил А по Колмогорову: длина самого короткого двоичного слова, содержащее всю информацию, необходимую для восстановления произвольно решающего правила о G А при помощи какого-нибудь фиксированного способа (алгоритма) декодирования [3]. В нашем случае, учитывая, что произвольный полином о G А можно закодировать последовательностью длиной 1(a), то Ке(А) = £(а). Тогда, в силу неравенства [8]
h(A) ^ К ¿(А) «С h{A) log справедливо утверждение теоремы, □
Теорема 2. Емкость h класса A^kr полиномов Жсгалкина от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству
HAl,k,r) ^ min \k(rlog(n + 1) + М), k(n\og(r + 1) + М), ¿С;
\ ¿=о
Доказательство. Доказательство проводится аналогично доказательству Теоремы 1, □
Зависимости оценки ёмкостей классов Awи -4ioo,fc,2 от числа слагаемых к при фиксированных значениях числа переменных п = 100 и степени г = 1 и г = 2, т.е., соответственно, класса линейных и квадратичных отделителей, приводятся в табл. 1 и табл. 2, соответственно.
Таблица 1. Зависимость оценки h ёмкости Аюо,&,1 от числа слагаемых к
к кг log(n + 1) knlog(r + 1) (те + г)! МП, 1 (100))
T)\v\
1 6,658 100 101 6,658
2 13,316 200 101 13,316
3 19,975 300 101 19,975
4 26,633 400 101 26,633
5 33,291 500 101 33,291
6 39,949 600 101 39,949
7 46,607 700 101 46,607
8 53,266 800 101 53,266
9 59,924 900 101 59,924
10 66,582 1000 101 66,582
14 93,215 1400 101 93,215
15 99,873 1500 101 99,873
16 106,531 1600 101 101
Таблица 2. Зависимость оценки К ёмкости 0^,2 от числа слагаемых к
к кг\о%(п + 1) кп\о%(г + 1) (п + г)! Л(Р*)2(100))
п)т'
1 13,316 158,496 5151 13,316
2 26,633 316,993 5151 26,633
3 39,949 475,489 5151 39,949
4 53,266 633,985 5151 53,266
5 66,582 792,481 5151 66,582
6 79,899 950,978 5151 79,899
7 93,215 1109,474 5151 93,215
8 106,531 1267,970 5151 106,531
9 119,848 1426,466 5151 119,848
10 113,164 1584,963 5151 113,164
Как видно из таблиц 1 и 2, число слагаемых полиномов является важной характеристикой класса решающих правил Ап^уГ, и его учет при оценивании ёмкости классов . !„./,.,. позволяет существенно улучшить оценки. Более того, оценку из теоремы 1 можно улучшить.
Теорема 3. Емкость И класса .!„./,.,. полиномов от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству
НАпАг) <: кМ
Доказательство. Доказательство проведем аналогично доказательству теоремы 1, Так как любое слагаемое полинома можно пронумеровать от 0 до 2р(п'ггде Т>( \ (п + г)1
Р{п,г) =-;—;--число слагаемых полинома от п переменных степени не выше г,
п\ г!
то, чтобы закодировать все слагаемые, нам потребуется Ь2 = ]1оg(P(n,r))[ двоичных разрядов. Тогда произвольный полином а е А, а = 71 зх + ,,, + 7^ с к отличными от нуля коэффициентами можно закодировать словом
Р = ^Ъ^ ■ .....ч7^ ■
м бит ь-2 бит м бит ь-2 бит
4-v-'
к раз
откуда, согласно принципу р\'( 'Р. следует утверждение теоремы, □
На следующей таблице, на примере класса . 1 ю./,.-2. приведено сравнение оценок из теоремы 1 и теоремы 3,
Пример. Пусть дана выборка длины I = 10 от 10 переменных и М = 64, Как уже отмечалось, чтобы закодировать такую выборку нам необходимо 1М = 640 бит. Тогда по таблице 3 видно, что для сжатия выборки (обучения по выборке) полиномами от 10 переменных степени не выше 2, нам необходимо построить полином хотя бы
1о§
+ г)!
п\ г!
Таблица 3. Сравнение оценок ёмкости класса полиномов ПРИ M = 64
к kr(\og(n + 1) + M) A;M]log (P(n,r))[
1 130,10 71
2 260,20 142
3 390,30 213
4 520,39 284
5 650,49 355
6 780,59 426
7 910,69 497
8 1040,79 568
9 1170,89 639
10 1300,98 710
с 9 (639 < 640) отличными от нуля коэффициентами. Но для надежности (согласно MDL) желательно, чтобы число таких слагаемых было как можно меньше.
Определение 1. Сложностью выборки Xе будем называть величину
С(Х'.Л) = min £{а,Хе),
aÇ.A
где ¿(а, Xе) длина последовательности, по которой с помощью алгоритма о можно восстановить выборку X1.
Определение 2. Степенью сжатия выборки относительно семейства решающих правил А будем называть величину
£М - С(Xе, А), если С(Xе, А) < £М оо, иначе.
Становятся интересными следующие вопросы: способны, ли алгоритмы заданной модели сжимать исходную выборку, если да, то насколько хорошо; как оценивать на, основании оценки сложности и степени сжатия, выборки относительно данной модели качество восстановления, желательно, иметь численную оценку надежности построенного в качестве решения алгоритма; вычислить введенные характеристики С и R класса, решающих правил, для, известных моделей алгоритмов.
Заключение
Выделены особые классы задач обучения по прецедентам и М-моделей алгоритмов обучения, элементы которых ограничены разрядной сеткой. Сделаны оценки колмогоровской сложности и VCD классов М-полиномов и М-полиномов Жегалки-на. Введены понятия сложности и степени сжатия обучающей выборки алгоритмами семейства М-моделей, влияющих на качество обучения. Выделяется ряд интересных и важных проблем, которые планируется решать в дальнейшем в рамках данной темы,
П(Х'. А)
список литературы
1. Воронцов К. В. Вычислительные методы обучения по прецедентам. Курс лекций по машинному обучению. - 2009 г. - 42 с.
http: / / www.machinelearning.ru / wiki/images / 8/8d /Voron-ML-Intro.pdf
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979. — 448 с.
3. Колмогоров А.Н. Теория информации и теория алгоритмов. -М.: Наука, 1987. - 304 с.
4. Donskoy V. I. The Estimations Based on the Kolmogorov Complexity and Machine Learning from Examples // Proceedings of the Fifth International Conference «Neural Networks and Artificial Intelligence» (ICNNAI'2008), Minsk, 2008, - p.p. 292-297.
5. Li M., Vitanyi. An Introduction to Kolmogorov Comlexity and Its Applications (revised and expanded second ed.). New York: Springed-Verlag, 1997.
6. Rissanen J. Modeling by shortest data description. Automatica, 14:465-471, 1978.
7. Rissanen J., Tabus I. Kolmogorov's structure function in MDL theory and lossy data compression. In P.D. Grunwald, I.J. Myung, and M.A. Pitt (Eds.) // Advances in Minimum Description Length: Theory and Applications. - MIT Press. - 2004.
8. Донской В.И. Колмогоровская сложность классов общерекурсивных функций с ограниченной ёмкостью // Таврический вестник информатики и матем. - 2005. — .V" 1. - С. 25-34.
9. Донской В.И. Использование колмогоровской сложности для обоснования значимости эмпирических закономерностей / / Интеллектуализация обработки информации - 2006. Тезисы докладов. - Симферополь. - 2006. - С. 63-67.
Статья поступила в редакцию 10.06.2010