М-модели алгоритмов. Ёмкость и колмогоровская сложность класса m-полиномов

Анафиев А.С.

УДК 519.7

М-МОДЕЛИ АЛГОРИТМОВ. ЁМКОСТЬ И КОЛМОГОРОВСКАЯ СЛОЖНОСТЬ КЛАССА М-ПОЛИНОМОВ (с) Анафиев А.С.

Таврический национальный университет им. В.И. Вернадского

факультет математики и информатики

пр-т Вернадского, 4, г. Симферополь, 95007, Украина e-mail: [email protected]

Abstract. The problems with elements bounded by a bit array are extracted in a special class of learning by precedents problems. A notion of M-models of learning algorithm is introduced. The Kolmogorov complexity and the VCD of M-polynomials and M-polynomials of Zhegalkin with fc-component are estimated. The notions of complexity and a degree of compression by algorithms of M-models for training samples are introduced.

Введение

Рассмотрим постановку задачи обучения по прецедентам. Пусть заданы множество объектов X, множество ответов Y и существует некоторая целевая зависимость /* между объектами и ответами, о которой известны лишь значения iji = f*(x{) на конечном наборе точек {xi,,,,, хе} С X. Пары (объект - Xi, ответ - у^) называют прецедентами, а совокупность таких пар X1 = {(жьУг)}1= i ~~ обучающей выборкой.

Необходимо построить алгоритм1 о : X —Y восстанавливающий неизвестную целевую зависимость /* на всем множестве объектов X. т.е. обладающий обобщающей способностью. Очевидно, что возникает вопрос, как оценивать качество восстановления алгоритмом о целевой зависимости /*. Учитывая, что /* задана частично -обучающей выборкой Xе, - то и оценивание обобщающей способности алгоритма происходит по выборке X1 относительно некоторого функционала качества Ф (а,Х£).

Обычно, при решении такого рода задач алгоритм о выбирается из некоторого параметрического семейства отображений

А = (<p(x,j) I 7 е Г}

называемого моделью [1] алгоритма о, где ц> : X х Г —Y - некоторая фиксированная функция, Г - множество допустимых значений параметра 7, называемое пространством параметров или пространством поиска. А одним из методом решения задачи обучения по прецедентам является выбор алгоритма о 6 А, доставляющего максимум функционалу качества Ф:

а(х) = ащтахФ (а, Xе).

а&А

Таким образом, задачу обучения по прецедентам можно представить как пятерку (X, Y, Xе, А, Ф). В зависимости от априорной информации и различного рода предположений относительно каждого элемента данной пятерки, возникают разного рода

^Под алгоритмом понимается вычислимая (частично-рекурсивная) функция.

задачи обучения и методы их решения. Основными проблемами при решении задач обучения являются адекватность выбранной модели А модели неизвестной целевой зависимости }'* и оценка качества обобщающей способности построенного в результате обучения алгоритма а G А.

Одними из важнейших характеристик обучающей епоеобноети класса решающих правил служат ёмкость класса [2] и колмогоровская сложность [3]. Связь между этими двумя важными характеристиками классов показана в [4]. Развитие колмогоров-ского подхода к поиску закономерностей в данных привело к принципу минимума длины описания (minimum description length - MDL) [5, 6, 7], где под обучением понимается сжатие исходных данных, в нашем случаем, сжатие обучающей выборки. Обозначим через Мм = [0, 2м — 1] - расширенный натуральный ряд ограниченный разрядной сеткой длины М. Выделим следующий класс задач обучения по прецедентам: множество объектов X С Мм х Мм х ,,, х Mм, множество отве-

п раз

тов Y С Мм, а, в модели алгоритмов А будем требовать, чтобы, ц> была вычислимой (частично-рекурсивной) функцией и Г С Мм х Мм х ,,, х Mм- Такого рода модели

к раз

будем называть М-моделями.

Замечание. В дальнейшем будем рассматривать только такого рода задачи.

Для М-модели А произвольный алгоритм о G А можно запрограммировать (закодировать) последовательностью длины2

£(а) = £(<р) + кМ,

где i(ip) - длина программы, которая по конечному слову .г G .Y п параметру 7 е Г восстанавливает слово у = ip(x, 7), исходную выборку X1 длины i - последовательностью длины ((и + 1 )М без учета разделительных битов, а обучающую выборку X1 с помощью произвольного алгоритма о G А - словом длины ¿{а) + п£М, т.е. вначале кодируется алгоритм, а затем объекты выборки,

1, Полиномиальные модели

Рассмотрим модель алгоритмов . !„./,.,. М-полиномов3 от п переменных с к слагаемыми степени не выше г:

f к

• Ь»./, .г = < ^ 7j • xi[ • ■ ■ ■ • Xi{, 5 Tj

U=1

Вычислим длину ¿{a) двоичной последовательности, с помощью которой можно восстановить любой полином о G Л,,./,..,.. Для того, чтобы закодировать полином, необходимо закодировать все его к отличных от нуля слагаемых. Каждое слагаемое s

2Длина вычисляется без учета разделительных битов, если таковые требуются.

3Будем говорить М-полиномы, так как они определяются М-моделями.

полностью представляется двоичным словом4:

pl{s)=p\.p\.....р\,

длины г log(n + 1), или

р2($) = Р\-Р\.....Р2п,

длины nlog(r + 1), где р\ - либо номер (в двоичной системе счисления) переменной, которая стоит на i месте в слагаемом s, либо нуль, если переменная на ¿-ом месте отсутствует, i = l,r, a pj - число вхождений (в двоичной системе счисления) переменной ,r¡ в слагаемое s, j = 1, п.

Например, для п = 5 и г = 4 слагаемое si = .г i .г i.r-, полностью определяется словом p1(si) = 001,100,101,000 или словом p2(si) = 001,000,000,001,001, а слагаемое s<¿ = х\ = X5X5X5X5 - словом р1^) = 101,101,101,101 или словом p2(s2) = 000.000.000.000.100.

Тогда весь полином о = 7i«i + ... + Jksk можно представить словом

р1 = Ti ■ Pl($i) ■ 72 ■ Pl($2).....7к ■ Р1($к)

длины k(r log(n + 1) + М), или словом

р2 = 7i ■ p2{si) ■ 72 ■ P2(s2).....7к ■ P2(sk)

длины к(п log(r + 1) + М), или словом

Рз = ГЦ . Г]2.....Г}Р(п,г);

\ть ~Ь г)!

длины Р(п, г)М, где Р(п, г) =--—---число всех возможных слагаемых полинома

п! г!

от и переменных степени не выше г, при этом //( = 0. если слагаемое s¿ не входит в полином, и rji = тj, где 7j - коэффициент при слагаемом s¿.

Теорема 1. Емкость h класса .!„./,.,. полиномов от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству

(ín \

k(rlog(n + 1) + М), k(nlog(r + 1) + М), v ''М J .

Доказательство. Доказательство теоремы проведем согласно принципу программирования оценки VCD, сокращенно - pVCD, предложенного в работе [8], основными этапами которого являются:

1. Изучение семейства решающих правил А и определение минимальной совокупности свойств (параметров, структурных особенностей), конкретное указание которых позволяет для некоторого алгоритма U сформировать двоичное слово ра такое, что для любого входа х выполняется U(pa, х) = а(х), где о 6 А и U — некоторый алгоритм (машина), который для аргумента х по слову (программе) р вычисляет правильный ответ у.

2. Определение длины i(pa) слова ра как искомой оценки сверху.

4Точкой . будем обозначать конкатенацию строк.

Рассмотрим произвольный полином о G АПукуГ, который, как показано выше, однозначно определяется словом длины

((fi г ) '

k(r\og(n + 1) + M), k(nlog(r + 1) + M), v ''M

Пусть К, (Л) - сложность семейства решающих правил А по Колмогорову: длина самого короткого двоичного слова, содержащее всю информацию, необходимую для восстановления произвольно решающего правила о G А при помощи какого-нибудь фиксированного способа (алгоритма) декодирования [3]. В нашем случае, учитывая, что произвольный полином о G А можно закодировать последовательностью длиной 1(a), то Ке(А) = £(а). Тогда, в силу неравенства [8]

h(A) ^ К ¿(А) «С h{A) log справедливо утверждение теоремы, □

Теорема 2. Емкость h класса A^kr полиномов Жсгалкина от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству

HAl,k,r) ^ min \k(rlog(n + 1) + М), k(n\og(r + 1) + М), ¿С;

\ ¿=о

Доказательство. Доказательство проводится аналогично доказательству Теоремы 1, □

Зависимости оценки ёмкостей классов Awи -4ioo,fc,2 от числа слагаемых к при фиксированных значениях числа переменных п = 100 и степени г = 1 и г = 2, т.е., соответственно, класса линейных и квадратичных отделителей, приводятся в табл. 1 и табл. 2, соответственно.

Таблица 1. Зависимость оценки h ёмкости Аюо,&,1 от числа слагаемых к

к кг log(n + 1) knlog(r + 1) (те + г)! МП, 1 (100))

T)\v\

1 6,658 100 101 6,658

2 13,316 200 101 13,316

3 19,975 300 101 19,975

4 26,633 400 101 26,633

5 33,291 500 101 33,291

6 39,949 600 101 39,949

7 46,607 700 101 46,607

8 53,266 800 101 53,266

9 59,924 900 101 59,924

10 66,582 1000 101 66,582

14 93,215 1400 101 93,215

15 99,873 1500 101 99,873

16 106,531 1600 101 101

Таблица 2. Зависимость оценки К ёмкости 0^,2 от числа слагаемых к

к кг\о%(п + 1) кп\о%(г + 1) (п + г)! Л(Р*)2(100))

п)т'

1 13,316 158,496 5151 13,316

2 26,633 316,993 5151 26,633

3 39,949 475,489 5151 39,949

4 53,266 633,985 5151 53,266

5 66,582 792,481 5151 66,582

6 79,899 950,978 5151 79,899

7 93,215 1109,474 5151 93,215

8 106,531 1267,970 5151 106,531

9 119,848 1426,466 5151 119,848

10 113,164 1584,963 5151 113,164

Как видно из таблиц 1 и 2, число слагаемых полиномов является важной характеристикой класса решающих правил Ап^уГ, и его учет при оценивании ёмкости классов . !„./,.,. позволяет существенно улучшить оценки. Более того, оценку из теоремы 1 можно улучшить.

Теорема 3. Емкость И класса .!„./,.,. полиномов от п переменных с к слагаемыми, степени не выше г, удовлетворяет неравенству

НАпАг) <: кМ

Доказательство. Доказательство проведем аналогично доказательству теоремы 1, Так как любое слагаемое полинома можно пронумеровать от 0 до 2р(п'ггде Т>( \ (п + г)1

Р{п,г) =-;—;--число слагаемых полинома от п переменных степени не выше г,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п\ г!

то, чтобы закодировать все слагаемые, нам потребуется Ь2 = ]1оg(P(n,r))[ двоичных разрядов. Тогда произвольный полином а е А, а = 71 зх + ,,, + 7^ с к отличными от нуля коэффициентами можно закодировать словом

Р = ^Ъ^ ■ .....ч7^ ■

м бит ь-2 бит м бит ь-2 бит

4-v-'

к раз

откуда, согласно принципу р\'( 'Р. следует утверждение теоремы, □

На следующей таблице, на примере класса . 1 ю./,.-2. приведено сравнение оценок из теоремы 1 и теоремы 3,

Пример. Пусть дана выборка длины I = 10 от 10 переменных и М = 64, Как уже отмечалось, чтобы закодировать такую выборку нам необходимо 1М = 640 бит. Тогда по таблице 3 видно, что для сжатия выборки (обучения по выборке) полиномами от 10 переменных степени не выше 2, нам необходимо построить полином хотя бы

1о§

+ г)!

п\ г!

Таблица 3. Сравнение оценок ёмкости класса полиномов ПРИ M = 64

к kr(\og(n + 1) + M) A;M]log (P(n,r))[

1 130,10 71

2 260,20 142

3 390,30 213

4 520,39 284

5 650,49 355

6 780,59 426

7 910,69 497

8 1040,79 568

9 1170,89 639

10 1300,98 710

с 9 (639 < 640) отличными от нуля коэффициентами. Но для надежности (согласно MDL) желательно, чтобы число таких слагаемых было как можно меньше.

Определение 1. Сложностью выборки Xе будем называть величину

С(Х'.Л) = min £{а,Хе),

aÇ.A

где ¿(а, Xе) длина последовательности, по которой с помощью алгоритма о можно восстановить выборку X1.

Определение 2. Степенью сжатия выборки относительно семейства решающих правил А будем называть величину

£М - С(Xе, А), если С(Xе, А) < £М оо, иначе.

Становятся интересными следующие вопросы: способны, ли алгоритмы заданной модели сжимать исходную выборку, если да, то насколько хорошо; как оценивать на, основании оценки сложности и степени сжатия, выборки относительно данной модели качество восстановления, желательно, иметь численную оценку надежности построенного в качестве решения алгоритма; вычислить введенные характеристики С и R класса, решающих правил, для, известных моделей алгоритмов.

Заключение

Выделены особые классы задач обучения по прецедентам и М-моделей алгоритмов обучения, элементы которых ограничены разрядной сеткой. Сделаны оценки колмогоровской сложности и VCD классов М-полиномов и М-полиномов Жегалки-на. Введены понятия сложности и степени сжатия обучающей выборки алгоритмами семейства М-моделей, влияющих на качество обучения. Выделяется ряд интересных и важных проблем, которые планируется решать в дальнейшем в рамках данной темы,

П(Х'. А)

список литературы

1. Воронцов К. В. Вычислительные методы обучения по прецедентам. Курс лекций по машинному обучению. - 2009 г. - 42 с.

http: / / www.machinelearning.ru / wiki/images / 8/8d /Voron-ML-Intro.pdf

2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979. — 448 с.

3. Колмогоров А.Н. Теория информации и теория алгоритмов. -М.: Наука, 1987. - 304 с.

4. Donskoy V. I. The Estimations Based on the Kolmogorov Complexity and Machine Learning from Examples // Proceedings of the Fifth International Conference «Neural Networks and Artificial Intelligence» (ICNNAI'2008), Minsk, 2008, - p.p. 292-297.

5. Li M., Vitanyi. An Introduction to Kolmogorov Comlexity and Its Applications (revised and expanded second ed.). New York: Springed-Verlag, 1997.

6. Rissanen J. Modeling by shortest data description. Automatica, 14:465-471, 1978.

7. Rissanen J., Tabus I. Kolmogorov's structure function in MDL theory and lossy data compression. In P.D. Grunwald, I.J. Myung, and M.A. Pitt (Eds.) // Advances in Minimum Description Length: Theory and Applications. - MIT Press. - 2004.

8. Донской В.И. Колмогоровская сложность классов общерекурсивных функций с ограниченной ёмкостью // Таврический вестник информатики и матем. - 2005. — .V" 1. - С. 25-34.

9. Донской В.И. Использование колмогоровской сложности для обоснования значимости эмпирических закономерностей / / Интеллектуализация обработки информации - 2006. Тезисы докладов. - Симферополь. - 2006. - С. 63-67.

Статья поступила в редакцию 10.06.2010

М-модели алгоритмов. Ёмкость и колмогоровская сложность класса m-полиномов Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Анафиев А. С.

Похожие темы научных работ по математике , автор научной работы — Анафиев А. С.

Текст научной работы на тему «М-модели алгоритмов. Ёмкость и колмогоровская сложность класса m-полиномов»