Научная статья на тему 'Эмпирическое обобщение и распознавание: классы задач, классы математических моделей и применимость теорий. Часть II'

Эмпирическое обобщение и распознавание: классы задач, классы математических моделей и применимость теорий. Часть II Текст научной статьи по специальности «Математика»

CC BY
71
8
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Донской В. И.

Предложена классификация задач распознавания по их основным свойствам. Обосновывается целесообразность выбора методов решения, согласованных с особенностями классов задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Classification of pattern recognition problems is offered. This classification is founded on the basic properties of pattern recognition problems. It is shown, a choice of methods of decisions must be coordinated with features of classes of pattern recognition problems.

Текст научной работы на тему «Эмпирическое обобщение и распознавание: классы задач, классы математических моделей и применимость теорий. Часть II»

УДК 519.95

ЭМПИРИЧЕСКОЕ ОБОБЩЕНИЕ И РАСПОЗНАВАНИЕ: КЛАССЫ ЗАДАЧ, КЛАССЫ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И ПРИМЕНИМОСТЬ ТЕОРИЙ. ЧАСТЬ II © Донской В. И.

Таврический национальный университет им. В.И. Вернадского

факультет математики и информатики

пр-т Вернадского, 4, г. Симферополь, 95007, Украина e-mail: donskoyOtnu.crimea.ua

Abstract. Classification of pattern recognition problems is offered. This classification is founded on the basic properties of pattern recognition problems. It is shown, a choice of methods of decisions must be coordinated with features of classes of pattern recognition problems.

1. Корректные алгоритмы и задачи распознавания из класса D/ - /RT/AS V LS/-

В первой части статьи [1] рассматривались задачи обучения распознаванию в детерминистской постановке и предполагалось, что выбор решающего правила f : X —> {0,1} осуществляется го некоторого семейства S и отождествляется с нахождением точного решения системы

' f(Xi) = оц; f (X2) = a2;

< .................... (1)

f (Xi) = a; , f e S,

Здесь ш : X —> {0,1} — отображение объектов генеральной совокупности X в значения их основного свойства: aq = u(Xq); Xq e X; aq e {0,1}; Отображение ш порождает столбец значений этого основного свойства в правой части системы (1) и отражает в таблице обучения {(Xq,uj(Xq)),q = 1,...,l} закономерность, в соответствии с которой объекты из генеральной совокупности обладают или не обладают основным свойством. Следует подчеркнуть, что в теории машинного обучения и распознавания представляют интерес именно те задачи, в которых закономерность ш существует и отличается от случайной функции, равномерно распределяющей зна-

{0; 1} X

в правой части системы (1) должны содержаться не какие угодно столбцы, а именно тб^ которые связаны с объектами выборки некоторой закономерностью.

Если извлеченная из генеральной совокупности в соответствии с моделью К\Т выборка является безошибочной, то выбор в процессе обучения правила распознавания, которое допускает ошибки на этой выборке, прсдст^влястся бессмысленным. Поэтому в этом случае требуется найти точное решение /* функциональной системы (1) в некотором классе решений Б. Это решение /* называется точной настройкой на выборку. Если система имеет более чем одно решение /* Е Б, то при достаточно Б правило может давать большую ошибку

Ег(/*)= I \/*(Х) - /0(X)^Р(X),

X €Х

определяемую отличием выбранного решения /* от существующего истинного правила классификации /0 по вероятностной мере Р(•) на генеральной совокупности X. Мера Р(•), если она существует, оценивает вероятность появления объектов X Е X. Если такая мера не существует, не имеет смысла для некоторых задач, то ошибка точного на выборке решения /* в некоторых случаях может иметь место почти всюду на X. Поэтому для того, чтобы выполнялось равенство /* = /0 при условии, что выборка — безошибочная, решение системы (1) должно быть единственным. Действительно, если существуют два решения этой системы /* и /** — функции, совпадающие на выборке ХС^ — то их продолжения на X могут различаться почти всюду (например: /**(Х) = /*(Х), если X Е Хь и /**(Х) = /**(Х), если X Е X \ Хг] у — инверсия значения у Е {0,1}).

Здесь и в дальнейшем продолжением выборки будем нсхзывсхть любую последовательность объектов из X, не содержащую элементов этой выборки.

Представим теперь, что в обучающей информации появились ошибки, которые привели к изменению только столбца а = (а\,...,а1 )Т в системе (1) и превращению его в столбец с ошибками аь. Пусть система

' /(XI) = аЕ;

/ (X*) = а*Е;

....................

/ (XI) = аЕ; / Е Б,

также имеет решение /Е. Но тогда /Е = /0, и в таком случае представляется абсурдной точная настройка алгоритма обучения на выборку. Это приводит к следующему выводу: для любой выборки Х\, в которой отражена некоторая закономерность, должны существовать такие двоичные сто лбецы аЕ, что то таблице обучения (Хг, аЕ)

точная настройка является невозможной. В связи с этим представляется важной теорема 2 из первой части статьи, которую можно усилить до необходимого и достаточного условия существования таких столбцов:

Теорема 1. Пусть в задаче обучения распознаванию решающее правило выбирается из семейства Б, и обучающая информация представляется в виде (Хг, а). Тогда для любой выборки Хг булевский набор а такой, что точная настройка невозможна, найдется если и только если УС Б (Б) < I.

Как и в первой части этой статьи [1], ёмкость класса Б решающих функций (размерность Вапника-Червоненкиса [2]) обозначается УСБ(Б).

Будем говорить, что найдено точное решение задачи, если реализован выбор /* = /0. В этом случае решение /* системы часто называют корректным, алгоритмом. Напомним, что в работах Ю. И. Журавлева корректными называются алгоритмы, безошибочно распознающие элементы любой заданной контрольной выборки [3]. Целесообразно уточнить используемые ниже понятия, связанные с корректностью алгоритмов.

Определение 1. Решающее правило (алгоритм) называется корректным (на выборке), если оно является точным решением системы (1). Решающее правило (алгоритм) называется абсолютно точным решением задачи обучения распознаванию, если позволяет безошибочно определить основное свойство а = /0(Х) для любого объекта X генеральной совокупности X.

Следствие 1. Корректный на выборке длины I алгоритм,, выбранный из семейства Б, имеющего ёмкость УСБ(Б) > I, может давать ошибку почти всюду на, генеральной совокупности объектов X.

Нужно подчеркнуть, что алгоритмы всюду в этой статье рассматриваются с точностью до классов функциональной эквивалентности. Иначе говоря, одним и тем же считаются все алгоритмы (машины Тьюринга), которые для одной и той же начальной информации (слова на ленте) всегда выдают один и тот ^ке результат.

Теорема 2. Для, того, чтобы, выбор корректного на, выборке алгоритма, из заданного семейства Б в задаче обучения распознаванию из класса, Б/ — /К\Т VБТ/ — /— всегда обеспечивал, получение абсолютно точного решения, необходима и достаточно,

Б

до функциональной эквивалентности корректный на, этой выборке алгоритм,.

Доказательство. Необходимость. Действительно, если для какой-нибудь выборки Б

ектов этой выборки всегда классифицируется неверно. Если же корректность на выборках достигается всегда^ но хотя бы для одной выборки не единственным алго~ Б

на множестве последовательностей из X не будут совпадать. Тогда хотя-бы один из них будет давать ошибки на своем продолжении.

Достаточность. Если выбор корректного на выборке алгоритма из заданно-Б не всегда обеспечивает получение абсолютно точного решения, то для некоторой выборки существует корректный алгоритм, не являющийся абсолютно точным решением. Зафиксируем эту выборку. Постановка задачи предполагает существование абсолютно точного решения. Это точное решение — некоторое правило /0 — также будет корректным на зафиксированной (безошибочной в соответствие с рассматриваемой моделью) выборке. Тогда корректное на ней решение — не единственно. П

В задачах обучения распознаванию предполагается использование только конеч-

Б

конечной выборки длины I существует единственный с точностью до с|)ункциональ~ ной эквивалентности корректный на этой выборке алгоритм, то УС О (Б) < I.

Следствие 2. Для того, чтобы, выбор корректного на выборке длины I алго-

Б

О/ — /К\Т V БТ/ — /— всегда обеспечивал, получение абсолютно точного решения, необходимо выполнение условия УСБ(Б) < I.

Но условие УСО(Б) < I не является достаточным. Это сразу же видно из слу-

Б

/0 /0 Е Б

осуществления возможности нахождения абсолютно точного решения.

2. Обучение или настройка?

Детерминистская постановка задач обучения распознаванию предполагает суще/

каждой выборке Хг должен сопоставляться единственный булевый вектор <5*, в котором а* = /0(Хг), I = 1,...,/. Пары < Хг,5* > для каждой выборки Хг определяют закономерность (регулярность), выделяющую вектор х из всех остальных 2г — 1 соответствий < Хг,а >. Выше установлено, что для устранения неоднозначности и

обеспечения возможности получить точное решение задачи обучения распознаванию необходимо и достаточно чтобы существовала возможность нахождения точного решения системы (1), и это решение должно быть единственным. При этом обязательно должно выполняться емкостное ограничение УСБ(Б) < I, поскольку в противном случае условие единственности корректного алгоритма для любой выборки длины I немедленно нарушается.

Теперь можно рассмотреть вопрос об отличии обучения от настройки. Этот вопрос представляется важнейшим в теории обучения распознаванию.

Если не ограничивать емкость используемого для решения задачи обучения рас-Б

речивую начальную информацию (достаточно представить абсурдно-тривиальный пример использования решающего правила как суммы характеристических точек выборки любой конечной длины). В таком случае ни о каком обучении говорить не приходится.

Будем называть обучением ^снизу-вверх^ такой последовательный процесс построения по заданной обучающей выборке решающего правила /0, на каждом этапе которого происходит минимальное необходимое усложнение /0, обеспечивающее уменьшение ошибок решающего правила на обучающей выборке. При обучении происходит поэтапное усложнение решающего правила и, соответственно, расширение Б

поэтапного усложнения решающего правила определяют алгоритм обучения.

Для обоснования алгоритма обучения ^снизу-вверх^ целесообразно приводить теорему о возможности расширения (в процессе выполнения именно этого алгоритма) семейства правил, которому принадлежит вычисляемое решающее правило, до

Б0 /0 ёмкость УСБ(Б0) < /, где I длина обучающей выборки.

Обучением ^сверху-вниз^ будем называть последовательный процесс нахождения решающего правила /0, принадлежащего некоторому подклассу минимальной

Б из выбранного Б

ленный на дости^кение наибольшей точности правила /0 на заданной обучающей выборке.

Для обоснования алгоритма обучения по методу ^сверху-вниз^ целесообразно приводить теорему об адекватности изначально заданного семейства — наличии ис-

Б

при поэтапном сужении начального семейства.

Комбинированным обучением будем называть процесс построения решающего правила, сочетающий оба метода обучения — ^ снизу-вверх^ и ^ сверху-вниз Ж Такой процесс аналогичен поиску с возвратом.

Процесс нахождение решения системы (1), отличающийся от обучения, будем называть настройкой.

3. Особенности класса О/ — /Я*Е V БЕ/ — /—

Если выборка содержит ошибки, то можно считать, что их появление связано с «искажением» правильной выборки, или, говоря иначе, с переходом от правильной — к ошибочной выборке. Будем обозначать такой переход следующим образом:

~~ Ег ~ ~ Ег ~

< Хг,Х >—х Х*,~ЕГ >. Переход Хг —> X* можно рассматривать как изменение набора точек выборочного пространства в пределах допустимого множества и говорить о безошибочной паре < X*, X* >, переходящей в пару < X* ,ХЕг >. Обозначим А(Ет) = ||<~* — <ХЕг|| — число ошибок в векторе аЕг. Если условие теоремы 1 не

Б решающее правило / г, точ-

но настроенное на выборку (X* ,ХЕг) (эмпирическая ошибка при этом — нулевая: е * = 0), то истинная ошибка этого правила е = е(/ЕК) > А(Ег).

Если выполняется условие теоремы 2, — точная настройка на ошибочную выборку (пару < XX*, (~Ег >) будет невозможна. Настроиться точно можно будет только на безошибочную выборку.

Пусть X — такое подмножество элементов обучающей выборки, что их удаление из этой выборки позволяет осуществить точную настройку, но удаление никакого собственного подмножества X С X из выборки уже не позволяет настроиться точно. Будем называть такой набор детерминированной помехой. Из её определения усматривается переборный алгоритм фильтрации (удаления) X из обучающей выборки по критерию возможности точной настройки.

Пусть Атах — наибольшее число ошибок А(Ет), порождаемых переходом

< Хг,Х >—4< X*,ХЕг >, является изначально заданным параметром задачи. Процесс обучения может состоять из следующих последовательно решаемых подзадач:

10 Б

/0

20 Атах

30 Собственно обучение одним из описанных выше методов.

Таким образом, для решения задач из класса О/ — /К*ЕVБЕ/ — / — целесообразно применять корректные алгоритмы.

4. Особенности класса ЫВ/Бк/ — / — /

Класс недетерминированных задач обучения распознаванию характеризуется тем, что не имеется никакой информации о законах, определяющих существование и появление той или иной выборки Хг — последовательности элементов из X. Более

/0

Полагается, что недетерминированные и стохастические задачи обучения распознаванию принципиально различаются. Информация о существовании вероятностных распределений или более — об их типах — в стохастических задачах в некоторых случаях может дать возможность в явном виде выписать статистически оптимальное решающее правило. В стохастических задачах речь идет о решениях, получаемых с точностью, определяемой заданием вероятностных мер.

Рассмотрим следующую задачу. Пусть XMT — множество шифров машин Тьюринга. X(М) Е XMT — шифр машины М — является натуральным числом, которое, в частности,может быть представлено двоичной строкой конечной длины. Машина Тьюринга М называется самоприменимой, если, начав работу над словом р = X(М),

М

тпагов.

Обозначим решающую функцию, которую должен найти алгоритм обучения, следующим образом:

Известно, что данная функция /%а не является вычислимой — не существует алгоритма (строго определенного тезисом Черча-Тьюринга), правильно вычисляющего для любого входа X(М) значение /£а(Х(М). Тем не менее, можно сконструировать обучающую выборку Шяа = М1 и Ш0, состоящую из = т1 примеров шифров самоприменимых машин Тьюринга и 1Ш01 = т0 примеров несамоприменимых машин. Что же будет, если выборку Шяа предоставить как начальную информацию — таблицу обучения — для построения алгоритма распознавания свойства самоприменимости? Такого алгоритма в принципе не существует. Тем не менее, алгоритм обучения, выбранный из подходящего для данной задачи семейства и имеющий достаточную ёмкость, может дать в качестве решения частичную функцию /%а, которая безошибочно классифицирует все примеры выборки Шза.

Приведенный пример принадлежит классу недетерминированных задач: неизвестно, существует ли вообще правильное решение (в данном примере — не существут алгоритмического правильного решения), и неизвестно, существует ли какой-нибудь

/™(Х)

1, М

0, М

закон появления объектов генеральной совокупности. Но предикат, определяющий основное свойство свойство самоприменимости) и отражающий соответ-

ствующую закономерность — существует. Данный пример доказывает следующую теорему.

Теорема 3. Существуют недетермированные задачи обучения распознаванию, для которых абсолютно точное решающее правило не является вычислимым.

Для решения задач из класса N0/0^/ — / — /— целесообразно использовать алгоритмы, извлекающие закономерность, которая имеет как можно меньшую колмо-горовскую сложность. Действительно, недетерминированность предполагает полное отсутствие сведений о распределении объектов генеральной совокупности и вследствие этого допускает подход к выбору решения, которое можно обосновать как неслучайное.

Для задач из класса N0/0^/К\Т V БТ/ — /— целесообразно применение алгоритмов наименьшей колмогоровской сложности [5].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Классификация длин выборок

Практика применения машинного обучения показала, что одна и та же длина обучающей выборки может в некоторых случаях оказаться достаточной для получения требуемой точности распознавания, а в других случаях — быть слишком короткой. Так, взяв тривиальный пример детерминированной задачи с заведомо линейным но неизвестным решающим правилом-предикатом /0(х1,х2) ах\ + Ьх2 = с ^ для случая двух переменных-признаков и точную выборку, в которой две точки будут принадлежать классу "лежащих на прямой можно абсолютно точно решить задачу восстановления линейного предиката.

Для обучения многослойных нейронных сетей требуются большие выборки, поскольку нейросетевые семейства решающих правил имеют большую емкость.

Классы, длин выборок для рассмотренных выше задач, обучения распознаванию должны, определяться ситуативно, в зависимости от ем,кости семейств, из которых в процессе обучения извлекается, решающее правило.

Ниже приведена таблица, согласно которой следует определять значение параметра БЬви

в стандартных кодах БТВ/УЛЯ/БГЫ/БЬи/Лт задач обучения распознаванию; I длина обучающей выборки.

Параметр БЬеп Значение параметра Определяющее условие

ББ Малая выборка 1 < УСБ(Б)

АН Средняя выборка УСБ(Б) < 1 < 1.5УСБ(Б)

ЬБ Большая выборка 1 > 1.5УСБ(Б)

6. Класс Бк/С/ — / — /Б1

Параметр ЛП1 = Б1 (специальная информация) в стохастических параметрических задачах чаще всего определяет типы используемых вероятностных распределений и, возможно, специфические характеристики параметров (в приведенном ниже примере — равенство ковариационных матриц классов).

Рассмотрим пример ^-параметрической стохастической задачи обучения распознаванию объектов двух классов, которая хорошо изучена в теории статистических решений.

Пусть согласно дополнительной информации условные вероятности появления в выборке объектов каждого из двух классов 3 Е {0,1} имеют многомерное нормальное распределение

р(Х 3) = ^^ 11/2 ехр{—2(Х — М )Т я~ЛХ — М )}>

где X Е Кга; М^ и ^^ — математическое ожидание и ковариационные матрицы двух классов 3 = 1, 2. Пусть также известны так называемые априорные вероятности появления объектов каждого из классов: ро и р1. Известно, что оптимальная (минимизирующая средний риск ошибки) дискриминантная функция в случае равных

о = 1 =

д(Х) = ХТ^-1(Мо — М1) — 2 МТ Мо + 2 МТ ^ М1 + 1п( ^). (3)

2 2 р 1

Соответствующая решающая функция /д имеет вид

г т- д(Х] < 0

/д(Х' = \1, д(Х) > о.

Решение приведенной задачи, когда задана только обучающая выборка (Х|,й)длины I, состоит в нахождении по этой выборке статистических оценок ро,р1} Мо, М!1, Я и вычислении д(Х) по формуле (3).

В рассматриваемой задаче, очевидно, не существует абсолютно точного реше-/

роятностей и ковариационной матрице — соответствующая статистическая задача

ной вероятностной меры — распределений и априорных вероятностей). В постановке обучения распознаванию наилучшее решение / является известным и требует только вычисления статистических оценок ро,р1} Мо, М1} Ё.

Никакой корректный алгоритм для решения приведенной статистической задачи, разумеется, не подходит. Действительно, разделяющая поверхность д(Х), соответствующая наилучшему решающему правилу, является линейной, в то же время классы пересекаются, и выборка, вообще говоря, может оказаться не разделимой линейно. Тогда корректный алгоритм построит нелинейное правило распознавания, заведомо худшее, чем /д.

Обобщим этот вывод на случай произвольной стохастической задачи обучения распознаванию с двумя пересекающимися классами. Среди всевозможных решающих правил для такой задачи обязательно существует правило, минимизирующее вероятность ошибки или заданную функцию потерь (взвешенную функцию ошибки). Будем обозначать такое наилучшее правило /03, а соответствующую ему дискрими-нантную функцию обозначим д03. Очевидно, что любой корректный алгоритм, примененный к рассматриваемой задаче, определит решающее правило, вообще говоря, отличающееся от /03, поскольку точки обучающей выборки могут быть расположены «по разные стороны» дискриминантной функции д03 произвольным образом. Следовательно, корректные алгоритмы для решения таких задач не подходят.

Для стохастических параметрических задач распознавания ёмкость класса, которому принадлежит дискриминантная функция, вообще говоря, не имеет значе-ния^ важно лишь ТО5 чтобы эта функция минимизировала средний риск ошибки. Эта функция уже определена стохастическими параметрами задачи, и её не требуется отыскивать ни в каком классе.

7. Стохастические непараметрические задачи обучения

распознаванию (STD = S)

С непараметрическими задачами распознавания дело обстоит иначе. Вероятностные распределения предполагаются существующими, но они неизвестны; их восстановление по обучающей выборке как правило приводит к не менее сложным задачам, чем задача обучения распознаванию в классической постановке.

Для задач рассматриваемого класса всегда можно полагать существование некоторой решающей функции foS (дискриминантной функции goS) наилучшей в статистическом смысле. Эта функция является неизвестной, и алгоритм обучения, конечно, должен находить её наилучшее приближение. Понятно, что такой алгоритм вовсе не обязан быть корректным на выборке. Но должен ли он давать на этой выборке минимальную эмпирическую ошибку, т.е. иметь на ней как можно более близкую к точной настройку?

Учитывая результаты рассмотрения параметрических стохастических задач, можно предположить, что для рассматриваемого класса задач обучения перенастройка (выбор корректного или с очень малой эмпирической ошибкой алгоритма) может привести к большим ошибкам классификации объектов, не принадлежащих обучающей выборке. По-видимому, это связано с тем, что неизвестная дискрими-нантная функция goS (если она бейесовская, минимизирующая средний риск, т.е. статистически оптимальная) должна быть полиномом невысокой степени для неизвестных, но существующих многоэкстремальных (и, тем более, одноэкстремальных) вероятностных распределении.

Представляется целесообразным пытаться искать решающее правило как можно более близкое к бейесовскому классификатору — по максимуму апостериорной условной вероятности класса. Для некоторых семейств моделей распознавания доказаны теоремы о качестве приближения отыскиваемых решающих правил к бейесовскому. Именно такие модели наиболее пригодны для работы с непараметрическими стохастическими задачами обучения распознаванию.

Нужно обратить внимание на то, что в ряде случаев, оценивая эмпирический риск, на самом деле осуществляют оценку наихудшего правила из используемого семейства S. Подчеркнём — в определённом выбранном для решения задачи семействе правил S. Так в работе [2] эмпирический риск оценивается как равномерное по всему семейству S уклонение частоты ошибки решающего правила A на выборке от вероятности A

sup\v(A) - P(A)|.

Aes

A

наилучшему правилу foS, которое для задач рассматриваемого класса является статистически оптимальным.

Заключение

В статье предложено выделить среди задач обучения распознаванию по эмпирической информации такие классы однотипных задач, для решения которых можно осуществить обоснованный выбор метода решения. Целесообразность такого подхода объясняется тем, ч^то достаточно богатый набор моделей и методов решения задач распознавания образов, созданный более чем за полвека, не всегда правильно используется.

Построенная классификация задач дополнена указаниями методов обучения распознаванию, наиболее подходящих для каждого конкретного класса задач.

Направления дальнейшей работы связаны с уточнением классификатора задач и дальнейшим углублённым исследованием подходов к обоснованию применимости или неприменимости различных математических моделей обучения к задачам из введенных в работе типовых классов.

список литературы

1. Донской В. И. Эмпирическое обобщение и распознавание: классы задач, классы математических моделей и применимость теорий. Часть I / В. И. Донской // Таврический вестник информатики и математики. — 2010. — №1. — С.15 — 23.

2. Вапник В. Н. Теория распознавания образов / В. Н. Вапник, А. Я. Червоненкис. — М.: Наука, 1974. - 416 с.

3. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации / Ю. И. Журавлев // Проблемы кибернетики. — Вып.33.— М.: Наука, 1978.— С. 5—68.

4. Нильсон Н. А Обучающиеся машины / Н. Нильсон. — М.:Мир, 1967. — 180 с.

5. Donskoy V. I. The Estimations Based on the Kolmogorov Complexity and Machine Learning from Examples / V. I. Donskoy // Proceedings of the Fifth International Conference "Neural Networks and Artificial Intelligence" (ICNNAI'2008). - Minsk: INNS. - 2008. - P. 292 - 297.

Статья поступила в редакцию 10.12.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.