Научная статья на тему 'Элементы статистической концепции обучения нейронной сети и прогнозирование точности ее функционирования'

Элементы статистической концепции обучения нейронной сети и прогнозирование точности ее функционирования Текст научной статьи по специальности «Математика»

CC BY
155
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научное приборостроение
ВАК
RSCI
Область наук

Аннотация научной статьи по математике, автор научной работы — Малыхина Г. Ф., Меркушева А. В.

Обучение нейронной сети (НС) для ряда задач (распознавание образов, нелинейная регрессия, идентификация распределения вероятности) анализируется в обобщенной форме на основе концепции, включающей вероятностную трактовку передаточной функции НС вход-выход, и базовых понятий элементов статистической теории обучения. Это понятия, имеющие математически формализованную основу: мера многообразия (множества) отображений НС и изоморфного ему множества функций потерь; характеристика этого многообразия на основе энтропии и размерности Вапника-Червоненкиса; функционал риска (ФР) и условие, допускающее его оценку функционалом эмпирического риска (ФЭР); граница отличия величины фактического ФР от ФЭР. Описанные элементы статистической теории обучения обепечивают возможность прогноза и корректирования ("управления") показателя функционирования НС после обучения, т. е. при тестировании сети на данных, не участвовавших в обучении.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ELEMENTS OF THE STATISTICAL LEARNING CONCEPT FOR A NEURAL NETWORK AND ACCURATE PREDICTION OF ITS OPERATION

The learning of neural networks (NN) for many problems (pattern recognition, nonlinear multi-parameter regression, probability distribution identification) is considered in generalized form on the basis of a concept that includes probabilistic interpretation for the NN input-output transfer function and basic notions having a mathematically formalized foundation: diversity (a set) of mapping being realized by NN (and a set of loss functions isomorphic to it); characteristics of that diversity on the basis of entropy and Vapnik-Chervonenkis dimension; risk functional (RF) and a condition allowing RF approximation by means of an empirical risk functional (ERF); the limits of the actual RF departure from ERF. The elements of the leaning statistical theory described here provide prediction and correction ("control") of the NN operation index after leaning, i.e. at the stage of NN testing with the data on not participating in learning.

Текст научной работы на тему «Элементы статистической концепции обучения нейронной сети и прогнозирование точности ее функционирования»

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2005, том 15, № 1, c. 29-45

ОБЗОРЫ =

УДК 621.391+519.21+519.245 © Г. Ф. Малыхина, А. В. Меркушева

ЭЛЕМЕНТЫ СТАТИСТИЧЕСКОЙ КОНЦЕПЦИИ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ И ПРОГНОЗИРОВАНИЕ ТОЧНОСТИ ЕЕ ФУНКЦИОНИРОВАНИЯ

Обучение нейронной сети (НС) для ряда задач (распознавание образов, нелинейная регрессия, идентификация распределения вероятности) анализируется в обобщенной форме на основе концепции, включающей вероятностную трактовку передаточной функции НС вход—выход, и базовых понятий элементов статистической теории обучения. Это — понятия, имеющие математически формализованную основу: мера многообразия (множества) отображений НС и изоморфного ему множества функций потерь; характеристика этого многообразия на основе энтропии и размерности Вапника—Червоненкиса; функционал риска (ФР) и условие, допускающее его оценку функционалом эмпирического риска (ФЭР); граница отличия величины фактического ФР от ФЭР. Описанные элементы статистической теории обучения обепечивают возможность прогноза и корректирования ("управления") показателя функционирования НС после обучения, т. е. при тестировании сети на данных, не участвовавших в обучении.

ВВЕДЕНИЕ

Расширению области приложений методов обработки информации на основе нейронных сетей (НС) как наиболее мощного средства аппроксимации многопараметрических зависимостей (многомерных функций) может способствовать более полное представление о статистических концепциях и принципах обучения НС. Корректно формализованная и логически адекватная основа процесса обучения строится на элементах статистической теории обучения [1-5] и позволяет учитывать вероятностный тип зависимости вход—выход НС, т. е. вероятностный тип зависимости передаточной функции сети, которая связана с ее структурой и величиной синаптических весов [6].

В практической реализации алгоритмов обучения НС особенно трудной остается задача оценки соотношения между доступным размером обучающей выборки, достигнутом при обучении показателем точности работы НС (выполнения желаемого вида многопараметрического отображения) и ожидаемым показателем точности преобразования на данных, не использовавшихся при обучении. Такую проверку нейросети называют тестированием, и показатель качества выполнения требуемого преобразования сетью определяется достигнутой (за счет обучения) способностью НС к обобщению.

Основные понятия, концепции и некоторые аспекты статистической теории обучения рассматриваются применительно к НС с прямым распространением сигнала [6-7], супервизорной ("с учителем") формой обучения и вероятностным представлением как входных данных (векторов х

с распределением Р(х)), так и выхода НС — вектора у с условным распределением Р(у|х).

Супервизором (учителем) выдается сети набор одинаково и независимо распределенных векторов х из распределения Р(х) с соответствующими значениями выхода у из распределения Р(у|х). Этим создается обучающая выборка образцов — примеров:

{хьуь Х2,У2; ...; х„,у„}. (1)

Считается, что распределения Р(х) и Р(у|х) вполне определенные, но неизвестные, а доступной информацией служит только обучающая вы-борка{х1,у1; х2,у2; ...; хп,уп}. Обучаемая НС за счет выбора значений ее параметров (совокупности а синаптических весов из некоторой допустимой области определения Л) способна выполнять набор функций отображения (Дх,а), аеЛ}. Задача обучения состоит в выборе некоторой функции, которая принадлежит множеству {Дх,а), аеЛ} и которая предсказывает (наилучшим образом) ответы супервизора. Отбор такой функции основывается на обучающем множестве (1), состоящем из п случайных и независимых, одинаково распределенных (НОР) наблюдений, извлекаемых в соответствии с вероятностью Р(х, у) = Р(х)Р(у|х). Выбор лучшего из доступных приближений к желаемому отображению (т. е. к откликам супервизора) осуществляется минимизацией риска. Это значит, что нужно выполнить три этапа.

1. Найти подходящую меру расхождения (так называемую функцию потерь) Ь(у, Дх,а)) между откликом супервизора у и откликом, который обеспечивается обучаемой НС.

2. После этого на основе вероятности Р(х,у) следует получить функционал риска (ФР) в виде ожидаемой функции потерь Л(а)!):

Я(а) = \ [Ц у, / (х, а))]сР(х, у).

(2)

для

/х,а)еЬ2 регрессией является функция, которая минимизирует функционал (2) с функцией потерь в форме (4):

Ц(у,/(х,а)) = (у - /(х,а))2

(4)

3. Найти функцию /х,ао), которая минимизирует функционал риска Я(а) по классу функций (Дх,а), аеЛ} в условиях, где распределение совместной вероятности Р(х,у) неизвестно и доступна только информация, содержащаяся в обучающем наборе (множестве) (1).

Рассматриваемая модель обучения НС, принцип минимизации функционала риска, его компоненты и этапы реализации для получения лучшего отображения, аппроксимирующего желаемое отображение (задаваемое супервизором на обучающей выборке), охватывает все основные задачи, которые решаются средствами НС. Это — задачи распознавания образов, оценки нелинейной регрессии и выбора максимально правдоподобной плотности вероятности [8-10].

• При бинарном распознавании образов выход у, определяемый супервизором, принимает два значения у = {0, 1}, а (Дх,а), аеЛ} — это набор функций-индикаторов (т. е. функций, которые принимают только два значения — нуль или единицу). В качестве функции потерь принимается выражение

10, если у = /(х, а);

Ц(у,/(х,а)) =. ' ^ ^ ' '' (3)

[1, если у Ф /(х, а).

Для этой функции потерь функционал (2) обеспечивает вероятность ошибки классификации (т.е. когда ответы у, даваемые супервизором, и ответы, даваемые функцией-индикатором /х,а), отличаются). Поэтому задача состоит в том, чтобы найти функцию, которая минимизирует вероятность ошибки классификации. При этом мера вероятности Р(х,у) неизвестна, но имеются обучающие данные (1).

• В задаче оценки регрессии ответы супервизора у и набор{/(х,а), аеЛ}, который содержит функцию регрессии /х,а0), связаны соотношением

/ (х, а 0) = | у d уР(х, у). Причем известно, что

Так что задача оценки регрессии — это задача минимизации функционала риска (2) с функцией потерь (4) в ситуации, где распределение вероятности Р(х,у) неизвестно, но имеются обучающие данные (1).

• В задаче оценки плотности распределения вероятности из набора плотностей {р(х,а), аеЛ} в качестве функции потерь может использоваться выражение

Ц(р(х,а)) = - 1с^(р(х,а)).

(5)

1) Функционалом принято называть скаляр, величина которого зависит от некоторых функций. Здесь это функционал риска ^(а), однако в функционале (2) остается "сквозная" переменная а, которая делает этот функционал зависящим от аеЛ. Параметр а определяет разнообразие функций отображения {/(х,а),аеЛ}, которые могут быть реализованы обучаемой нейронной сетью. Функционал риска Я(а) определен как математическое ожидание функции потерь Ц(у, /(х,а)) по вероятностной мере dP(x,y).

Желаемая плотность минимизирует функционал (2) с функцией потерь (5). Так что снова, чтобы оценить плотность, исходя из данных (1), нужно минимизировать функционал риска при условии, что распределение вероятности Р(х,у) неизвестно, а данные (хь х2,..., хп) независимы и одинаково распределены.

Развитие введенных выше исходных представлений о статистической основе обучения позволяет:

• ввести понятие эмпирического риска Лэмпир (а) в виде среднего (по обучающей выборке) от функции потерь;

• ввести формализованное выражение для фактического риска (взвешенной по вероятности функции потерь), который характеризует уровень обобщения НС;

• установить правило индукции принципа минимизации эмпирического риска (принципа МЭР), согласно которому при увеличении размера обучающей выборки ^эмпир (а) ^ ^(а) (эмпирический риск стремится к его фактическому значению [1,

3, 5, 6, 11].

Обоснование справедливости принципа МЭР использует понятие энтропии Н(п), характеризующей многообразие набора функций (Дх,а), аеЛ}, и понятие размерности Вапника—Черво-ненкиса, определяющей (для того же набора функций) способность реализовать разделение набора обучающих точек (векторов) дихотомией различного вида 2). В упрощенной формулировке возможность применять правило принципа МЭР определяется условием выполнения соотношения Н (п) _ 0

-0, которое верно при сильном возрастании размера обучающей выборки.

2) Дихотомия набора векторов (точек) z1,...,.zn — это

разделение их на две группы из несовпадающих точек.

Следующим этапом является оценка скорости сходимости ^эмпир (а) ^ ^(а) эмпирического риска к фактической его величине (ожидаемой на фазе тестирования). Такая оценка получается в форме верхней границы возможного различия фактической функции риска от ^эмпир (а) . Эта граница

| Я(а) - ^эмпир (а) | зависит от объема обучающей

выборки и размерности Вапника—Червоненкиса и может быть определена как для конкретной задачи с фиксированной функцией распределения Р(х,у), так и в толерантной форме, т. е. в форме границы, которая справедлива при любой функции распределения.

Наличие таких границ позволяет (еще на стадии обучения сети) с помощью размера обучающей выборки и меры сложности набора отображений (характеризуемой РВЧ) влиять (и корректировать) на показатели обобщения НС на стадии ее тестирования, а затем и функционирования [11-14].

Особенно продуктивным оказывается так называемый метод структурной минимизации эмпирического риска в задаче бинарного распознавания образов, в которой используются разделяющие плоскости (или их нелинейные отображения в пространство размерности выше, чем размерность входных векторов). Эти плоскости выбираются по критерию наибольшей величины минимального отстояния от нее разделяемых точек (векторов) обучаемой выборки и называются оптимальными разделяющими плоскостями. Векторы, помещающиеся на границах плоского слоя, окружающего разделяющую плоскость и свободного от разделяемых точек, называют "векторами поддержки". Этот метод порождает новый класс алгоритмов, основанных на векторах поддержки, а НС, обучаемые с помощью этого метода, называют сетями с векторами поддержки

3)

3) Такого типа алгоритмы и НС, допускающие обучение на их основе, в американской терминологии называют SVM-алгоритмами (от support vector machine) и SV-нейронными сетями.

аеЛ}. Цель обучения достигается минимизацией функционала риска

Д(а) = | б( г, а)аР( г) (6)

при условии, что вероятностная мера Р(г) неизвестна, но имеется обучающая выборка в форме набора независимых одинаково распределенных (НОР) данных

(7)

Функция потерь Q(z,а) строится на основе функции отображения, реализуемого нейронной сетью (при текущем наборе значений а ее синап-тических весов), поэтому два набора: набор функций потерь (<2(г,а), аеЛ} и набор функций отображения НС {/(г,а), аеЛ} — имеют взаимно однозначное соответствие (изоморфны), а численность их совпадает 4). В связи с этим описываемые ниже характеристики этих наборов (энтропия, функция роста, размерность Вапника—Червонен-киса) относятся в равной мере одновременно к обоим наборам (множествам).

Чтобы минимизировать функционал риска (6) при неизвестной вероятностной мере Р(г), используются возможности принципа МЭР. Ожидаемый функционал риска 5) ^(а) заменяется функционалом эмпирического риска (8), образованным на основе обучающего множества (7):

1 n

Яэмпир.(а) = - 2 Q(Zi ' а).

(8)

i =1

АНАЛИТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ОСНОВНЫХ КОНЦЕПЦИЙ СТАТИСТИЧЕСКОЙ ТЕОРИИ ОБУЧЕНИЯ НС

Анализ элементов статистической теории обучения [15] удобно проводить, используя более компактную (чем выше) форму обозначений. Пара векторов (х,у) — вход и выход НС — обозначается одной буквой г, тогда роль распределения Р(х,у) займет вероятностная мера Р(г). Таким образом, общая форма задачи обучения основана на понятии вероятностной меры Р(г), определенной на пространстве Z, и наборе функций потерь {<2(г,а),

Принцип МЭР имеет общий характер и связан с методами решения ряда задач обучения (оценка регрессии с помощью метода наименьших квадратов (МНК), метод максимального правдоподобия для оценки плотности вероятности). Так, в задаче регрессии вводится (п+1)-мерная переменная, используется функция потерь (4) и функционал эмпирического риска (8) в виде ^эмпир (а) =

= (1/п)ЕП=1(Уг - /(хг,а))2, который следует минимизировать. Эта процедура соответствует МНК. Для выбора функции плотности вероятности из данного набора {р(х,а), аеЛ} при подстановке

4) Выражаясь вполне строго, следует говорить о мощности множества {0(г,а), аеЛ}, так же как и о мощности множества {/(г, а), аеЛ} функций отображения, которые могут быть реализованы НС (за счет выбора значений а ее синаптических весов из допустимого множества этих значений Л). Использование понятия набор вместо множество сделано для простоты и в связи с тем, что эти множества (наборы) можно считать дискретными и перечислимыми или конечными по численности значений.

5) Под ожидаемым имеется ввиду математическое ожидание — усреднение по вероятностной мере Р(г).

функции потерь (5) в (8) получается метод максимального правдоподобия, и, чтобы найти аппроксимацию плотности распределения, нужно минимизировать ЛЭмпир.(а) = -(1/п) ХыЬ^х г, а)].

К прикладным аспектам статистической теории обучения относится формализованная трактовка следующих этапов [1, 2, 6, 13-14].

• Обоснование использования принципа МЭР для оценки фактического функционала риска (ФР) Я(а) и его минимального значения, которое может быть получено на НС с доступным ей набором отображений {/(г,а), аеЛ] (и соответственно с набором функций потерь {<2(г,а), аеЛ]). Это значит, что требуется определить условия, при которых принцип МЭР может служить начальным звеном процедуры оценки фактического ФР 6), т. е. показателя точности обобщения НС. Таким образом, рассмотренные ниже условия обеспечивают правомерность следующей цепочки соотношений 7):

а n = arg-j min

аеЛ

1 n

R (а) =-EQ(Zi,а

эмпир. n ¡=1

R(an)n

-—R (a 0),

где а 0 значение, которое дает min R (а):

(9)

a 0 = arg

rnin R(а) г;

аеЛ J

аеЛ

R,

.(а n ) n

Вер.

-^(а о).

(10)

Здесь и далее "Вер." — вероятность. Выражение (9) показывает, что решение, найденное с использованием МЭР, сходится к лучшему решению, которое может реализовать НС, а (10) показывает, что величина эмпирического риска сходится к наименьшему риску.

• Установление, насколько быстро наименьшее значение Яэмпир (а) сходится (при возрастании

п) к наименьшей величине фактического риска Я.

• Получение соотношений для границы раз-

личия ЭФР Яэмпир и ФР Я, которые зависят от размера обучающей выборки и меры многообразия отображений нейронной сети. Эта граница различия позволяет прогнозировать достижимый показатель обобщения НС.

Обоснование использования принципа МЭР

Обоснование использования принципа МЭР состоит в получении условия равномерной сходимости (т. е. сразу для всего набора {<2(г,а), аеЛ]) эмпирического риска к действительному риску

Я(а) [12]:

lim Вер.- max[) - R,,^. (а)]> £ I = 0

(11)

для любого малого е,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6) Далее без дополнительной детализации будут использоваться сокращения ФР Я(а) — для фактического риска (функции потерь, усредненной по вероятностной мере) и ЭФР Яэмпир (а) — для эмпирического функционала

риска (среднего по обучающей выборке от функции потерь). ФР Я(а) соответствует величине риска для НС с параметрами а, т.е. при отображении /(г,а).

7) Сходимость по вероятности означает (например, в (9)), что Вер [|Я(ап) - Я(а0)|„^„ > е ] = 0 при любом ма-

лом е. Или более строго: для любых малых чисел п> 0 и е> 0 существует такое п0, что при п > п0 с вероятностью не менее 1-п выполняется соотношение ||Я(ап) -Я(а0)|| < е.

где п относится к объему обучающей выборки, по которой формируется Яэмпир 8).

Значимость этого условия связана с содержащимся в нем утверждением, что любой анализ адекватности использования принципа МЭР должен предусматривать наименее благоприятный ("наихудший" относительно аеЛ) случай соотношения Я(а) и Яэмпир. .

Логическая схема получения условия равномерной сходимости основана на концепциях, играющих важную роль в статистической теории обучения нейронных сетей. Это прежде всего относится к понятию энтропии для набора функций {^(г,а), аеЛ}) и одновременно для набора {/(г,а), аеЛ] функций отображений, реализуемых нейронной сетью. Понятие энтропии вводится в два этапа: сначала для функций-индикаторов, а затем — для функций общего вида.

Энтропия набора (множества) функций-индикаторов. Энтропия набора функций-индикаторов {<2(г,а), аеЛ]) (т. е. функций, принимающих только два значения 0 или 1) характеризует меру разнообразия этого набора (на выборке обучающих векторов гь г2, -, г п) величиной ЛЛ(гь г2, ■.., гп), представляющей число различных способов разделений (дихотомий) этой выборки, которые могут быть получены с использованием функций заданного набора. Величину ЯЛ(гь г 2, -, г „) = 1п [ЛЛ(гь г 2, -, г „)], называют случайной энтропией, поскольку она образована с использованием (случайной) обучающей выборки, формируемой на основе распределения

8) Этот тип сходимости называют равномерной односторонней сходимостью. Здесь и далее более строго следовало бы использовать символ sup (супремум) вместо max, однако, как правило, в практике Л является дискретным и конечным перечнем параметра а.

Р(г1, г2,., гп). Математическое ожидание — вероятностное среднее (обозначаемое символом Е) называют просто энтропией НЛ(п) набора функций-индикаторов {<2(г,а), аеЛ} на обучающей выборке размера п:

Н л (п) = Е{ Н л (гх, г 2,^, г п)} = = Е{1п Nл (г1, г 2,^, г п).

(12)

Энтропия Н (п) описывает ожидаемое разнообразие данного набора функций-индикаторов на обучающей выборке размера п.

Энтропия набора функций общего вида. Совокупность {<2(г,а), аеЛ} функций общего вида, значения которых находятся в ограниченных пределах А < Q(z, а) < В , ограничена п-мерным кубом со стороной В - А. Она может трактоваться как совокупность точек в этом кубе или как совокупность п-векторов я (а) = ^(г1,а), Q(г2,а),..., Q(гn,а)]T, каждый из которых определяется значением аеЛ. Известно, что из такой совокупности можно выделить (минимальную по численности) е-сеть векторов 9), число которых удобно обозначить ^(е; г1, г 2, ..., г п), т. к. это число зависит от Л, определяющего набор ^(г,а), аеЛ}, от величины е и от самой обучающей выборки г1, г2, ..., гп (поскольку последняя определяет совокупность векторов я (а): {я(а) = 02(гьа), Q(г2,а),..., Q(гn,а)]T, аеЛ}.

Логарифм величины N (е; г1, г2, ..., гп) (которая является случайной, как и обучающая выборка г1, г 2, ..., гп) называют случайной е-энтропией Вапни-ка—Червоненкиса:

НЛ(е; г1, г 2, г п) = 1n(NЛ(е; г1, г 2, г п)).

Ее математическое ожидание НЛ(е, п) = Е{НЛ(е; г1, г 2, ..., г п) чаще всего называется просто энтропией Вапника—Червоненкиса или УС-энтропией. Форма написания УС-энтропии НЛ(е, п) соответствует тому, что она характеризует меру разнообразия набора ^(г,а), аеЛ} функций общего вида (а более точно — конечную е-сеть этого набора) с точки зрения ожидаемого количества дихотомий выборки размера п из совокупности данных с распределением Р(г1, г 2, ..., г п ).

9) Набор векторов {я(а), аеЛ } имеет минимальную е-сеть я(а1), я(а2),..., я(ап), если существует N = = ^(е; г1, г2, ..., гп) векторов я*аО,* я(а2),..., q(аN), таких что для любого вектора я(а ), аеЛ среди этих векторов может быть найден вектор я(аг), который е-близок к я(а ). Это значит, что р(я(а *), я(а г)) = = ши! | Q(z,а*)-QЭмпир.(г,а,)|<е, где Р — евклидоНо

1<г<п

расстояние между векторами я(а ) и я(аг).

Понятия энтропии имеют ту же направленность, но более конструктивную форму, что и условия равномерной сходимости типа (11), обеспечивающие правомерность использования принципа МЭР. Так, в задачах распознавания образов средствами НС применяются индикаторные функции потерь. В этом случае условие равномерной сходимости даже в более сильной (двусторонней) форме (13) обеспечивается при выполнении соотношения (14) [16]:

(13)

Нт Вер.|шах|Я(а) - Дэмпир. (а) > е [ = 0 для любого малого е;

1,т НИШ = 0.

(14)

Для задач более широкой постановки, в которых в качестве набора функций потерь требуется применение функций общего вида (не относящихся к функциям-индикаторам), условие двусторонней равномерной сходимости, обеспечивающее справедливость использования принципа МЭР для прогноза обобщения НС и оценки фактического риска, выполняется одновременно с соотношением (15) для энтропии Вапника—Червоненкиса:

1,т Н^еш=0

пшч п

для любого малого е.

(15)

Энтропия Вапника—Червоненкиса для набора функций общего вида строится, как показано выше, с использованием е-сети ограниченной совокупности п-векторов {q(а)=[Q(гl,а), Q(г2,а),..., Q(г а)]т, аеЛ}.

Таким образом, обоснованность практического применения логической последовательности соотношений (9) и (10) определяется установленной в статистической теории обучения импликацией

[11-13]:

НтН^еЩ. = 0, Уе «

ЬтВер.|тЛЯ(а) -^эмпир.(а) > е= 0, Уе.

(16)

Границы различия рисков и прогноз обобщения нейронной сети

Условия для адекватности применения принципа МЭР, выраженные в форме предельных соотношений для энтропии, носят асимптотический характер и, строго говоря, могут использоваться

пш

п

п

только при очень больших размерах обучающих выборок. Поэтому представляет интерес оценка скорости сходимости минимума эмпирического риска к оптимально достижимому фактическому ФР, условие для получения этой оценки, установление такого условия в общей форме, которая пригодна для совокупности задач с различными видами вероятностной меры Р(гь г 2, - , г п), и получение границ различия эмпирического и фактического рисков, которые позволяют прогнозировать уровень обобщения нейронной сети после обучения.

Существующий подход к решению первой группы перечисленных вопросов (т. е. кроме границ различия рисков) удобно проследить на задаче распознавания образов, решаемой нейросетевыми средствами, где в качестве набора функций потерь {^(г,а), аеЛ] используются индикаторные функции. Получение результатов здесь базируется на модификации и некотором развитии рассмотренной выше концепции энтропии, которая отражает меру многообразия набора функций потерь {^(г,а), аеЛ] и ту же меру для набора {/(х,а), аеЛ] функций отображения нейронной сети.

Помимо рассмотренной ранее энтропии набора индикаторных функций

Нл(п) = Е{Нл(г2,...,гп)] = = Е{1п Nл (г„ г 2,., г „)

вводится модифицированная УС-энтропия (МУСЕ) Нмусе (п) и так называемая функция роста Ол (п):

Н м усе (п) = 1п{Е[ Н л (г„ г 2,..., г п )]],

mvce

Ол(n) = ln\ max Ыл(zl,..„zn)

I Z\,..., Zn

(17)

Скорость сходимости эмпирической оценки риска к его фактическому значению

В обязательном условии (необходимом и достаточном) для применимости принципа МЭР, которому должна удовлетворять любая НС, использующая этот принцип, нет информации о скорости сходимости минимального эмпирического риска к величине ФР НС при обобщении. Условием быстрой сходимости ФР при значении вектора а весов у НС, минимизирующего Яэмпир , к оптимальному значению ФР в обобщении служит соотношение

lim H M

;(и)=0.

Модифицированная УС-энтропия Н мусе (п) представляет логарифм ожидаемого (взвешенного по распределению вероятности) значения случайной энтропии Nл (г1, г2,..., гп ), а функция роста Ол (п) является логарифмом случайной энтропии, максимизированной по возможным вариантам значений в обучающей выборке. Эти функции определены таким образом, что для любого значения п справедливо неравенство

Н л (п) < Нмусе(п) < О л (п).

На основе определения функций модифицированной УС-энтропии и функции роста могут быть даны основные положения элементов статистической теории обучения, относящиеся к группе поставленных выше вопросов.

При этом быстрая 10) сходимость гарантирует экспоненциальное убывание вероятности превышения разностью рисков любого малого числа е:

Вер.(Я(аn) - R(a0) >е} < exp(-c£2n),

где c — некоторая положительная постоянная.

Надо заметить, что как соотношение, описывающее условие применимости принципа МЭР, так и условие быстрой сходимости справедливы только для данной вероятностной меры, т.е. для того распределения P(z1, z2, ■■■, Zn), которое входит в формирование энтропий Hл (и) и Hmmvce (n).

Однако наиболее важно построить НС для решения многих различных задач — для различных вероятностных мер. Другими словами, желательно установить, при каких условиях принцип МЭР является адекватным и обеспечивается быстрой сходимостью независимо от вероятностной меры P(z), т.е. независимо от вида функции совместного распределения данных входа—выхода, используемых для обучения НС и для ее последующей работы на новых данных.

Таким условием для применимости принципа МЭР при любом виде распределения P(Z) служит выполнение соотношения для функции роста

G л (n) lim-= 0.

n^^ n

Условие в этой форме обеспечивает также быструю сходимость.

Описанные основы понятий и концепций прикладной теории обучения НС позволяют рассмотреть

10) Принято считать, что сходимость происходит быстро, если для любого п > п0 выполняется условие: Вер.{Я(аи) - Я(а00) > е]< ехр(- с£ п), где с>0 — положительная постоянная. Т.е. вероятность отличия Я(ап) от Я(а0) (при п больше некоторого значения п0) убывает быстрее экспоненты ехр(- с£ п).

метод получения границ для разницы ФР (при значении вектора а, минимизирующего ^эмпир )

и оптимального значения ФР в обобщении. Эти границы более строго определяют скорость сходимости и устанавливаются сначала для вполне определенной функции распределения, а затем это ограничение снимается и определяются "глобальные" оценки границы, ориентированные на любой вид распределения. Глобальные оценки границы как более общие несколько шире.

Ряд преобразований (описанных ниже) позволяет получить неасимптотические оценки, которые ориентированы на объемы обучающих выборок, реально имеющихся в прикладных задачах при решении их средствами нейронных сетей. Таким образом, оценки для скорости обучения и показателей достижимых уровней обобщения НС будут основываться на различного типа границах, которые оценивают пределы этих показателей для фиксированного количества элементов обучающей выборки, позволяют их прогнозировать и в известной степени держать под контролем.

Оценка скорости обучения НС

Получение неасимптотической (т.е. для заданного размера обучающей выборки) границы на скорость равномерной сходимости связано с введением нового понятия — размерности Вапни-ка—Червоненкиса (РВЧ) п). РВЧ служит для определения конструктивной границы на функцию

роста Ол (п). Показано [5], что функция роста

может

либо

выражаться

соотношением

О (п) = п 1п 2, либо быть ограничена величиной

О л (п) < И

' п / 1п— + 1

И

V у

где И — это такое Ол (п) = И 1п2

11) РВЧ не имеет ничего общего с обычным понятием размерности вектора, матрицы или пространства.

лизованы нейронной сетью) является необходимым и достаточным условием для адекватного использования принципа МЭР независимо от вероятностной меры. Конечность значения РВЧ обеспечивает также и быструю сходимость.

РВЧ имеет и несколько другую трактовку. РВЧ набора функций-индикаторов ^(г,а), аеД Q(z,а) е (0, 1)} — это максимальное число И векторов г1,—, ZИ, которые могут быть разделены на две части всеми 2И возможными способами путем использования функций этого набора. Если такое разделение возможно для любого числа п векторов, то РВЧ равно бесконечности.

Для набора функций общего вида, имеющих границы а и А: {а< Q(z,а) <А, аеД}, РВЧ определяется с помощью специальным способом образованного набора индикаторных функций. Вместо конечной функции общего вида создается функция-индикатор

I(г,а,в) = а) - в}, ае Л,

(18)

где в — некоторая постоянная; в — ступенчатая функция (функция Хэвисайда), принимающая значение 1, если ее аргумент (выражение в скобках) положителен, и принимающая значение 0, если аргумент менее нуля. Другими словами, функция в определяется выражением

в (и) = ■

(О, если и< 0;

1,

если и > 0.

целое число, для которого и одновременно Ол (И + 1) Ф Ф (И + 1) 1п 2 . Иначе говоря, функция роста может быть либо линейной функцией от п, либо быть ограниченной и иметь верхнюю границу в виде логарифмической функции.

Считается, что РВЧ набора функций-индикаторов Ш(г,а), аеД Q(z,а) е (0, 1)} будет конечной, если функция роста для этого набора является линейной. Кроме того, считается, что РВЧ набора функций-индикаторов является конечной и равной И, если функция роста ограничена логарифмической функцией с коэффициентом И.

Конечность РВЧ набора функций-индикаторов (которые в качестве отображения могут быть реа-

При этом в качестве РВЧ набора функций общего вида принимается РВЧ набора соответствующих функций-индикаторов (18).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следствием этого правила определения РВЧ служат два положения, которые полезны в практическом приложении к нейронным сетям.

• Для набора линейных индикаторных функций (в п-мерном пространстве z\ — zn), которые имеют вид Q(z,а) = в{^=1 аkzk + а0}, РВЧ равна И = п + 1, т. к., используя функции этого набора, можно разделить по крайней мере п + 1 векторов.

• Для набора линейных функций общего вида Q(z, а) = хп=1 аkzk + а0 (в п-мерном пространстве zl — zn) РВЧ также равна И= п + 1, поскольку этой величине (п + 1) равна РВЧ соответствующих индикаторных функций (если использовать а0-в вместо «0, что не изменит набора индикаторных функций).

Можно, например, рассмотреть плоскость w*Tx - Ь = 0, |^*||=1, называемую Д-разделяющей при условии, если она классифицирует векторы х следующим образом:

У = ■

1, если w *т х - Ь > Д; -1, если w *т х - Ь <-Д.

Тогда для некоторой совокупности векторов х, принадлежащих шару радиуса R, набор Д-разде-ляющих плоскостей имеет РВЧ ^ величина которой ограничена в соответствии с неравенством

h < шт

г " R2" Л

Д 2 , п

V

+1.

Это показывает, что, хотя в общем случае РВЧ набора плоскостей равна п+1 (где п — размерность входного пространства), величина РВЧ набора Д-разделяющих плоскостей при большой величине Д может быть меньше, чем п+1.

Как отмечено выше, величина РВЧ ограничивает функцию роста Gл (п) и, следовательно, дает форму условия адекватности использования принципа МЭР вне зависимости от распределения вероятностей. Тем не менее, справедливость этого условия пока гарантирована только для очень больших п, т. е. носит асимптотический характер. С точки зрения приложений НС желательно получение границ для различия минимального значения Rэмпир от функции риска при обобщении

R(а) для фактически реализуемых размеров обучающей выборки. Такие границы установлены в двух модификациях: свободные от типа распределения (толерантные) границы и границы, соответствующие определенному распределению, связанному со спецификой решаемой задачи. Имея в виду зависимость границ от п, их называют также границами для скорости сходимости процесса обучения НС.

Свободные от типа распределения (толерантные) границы для скорости сходимости процесса обучения получены Вапником [12], [13]. Для набора функций (<2(г,а), аеЛ}, имеющих конечное значение РВЧ и ограниченных как целое:

0 < Q(z, а) < B, а е Л , B — константа, (19)

выполняется условие в виде неравенства (20), которое связывает фактический риск R(а) и его эмпирическую оценку Rэмпиp.(a). Неравенство (20) дает предел возможного превышения R(a) своей оценки Rэмпиp.(a). С вероятностью не менее 1-п одновременно для всех функций (19) выполняется ограничение (20):

R(a) < Rэмпиp.(а) + ^ 1 + , (20)

где h — значение РВЧ; е определяется выражением (21):

е = 4

2п

^1п + 1) - 1п п

Для функций потерь НС в виде набора функций-индикаторов, используемых в задаче (бинарного) распознавания образов, постоянная B равна единице, так что в этом случае правая часть выражения (20) приобретает более простой вид.

Точные (зависящие от распределения) границы для сходимости процесса обучения определяют границы для степени отличия фактического риска от его эмпирической оценки Rэмпиp.(a) и учитывают информацию о вероятностной мере. При анализе задачи получения таких границ используется метод, основанный на так называемом теоретико-множественном подходе [2, 10].

• Допускается (по априорной информации), что вероятность P(z) относится к набору (множеству) Р вероятностных мер, который является частью большего набора Р0 , т. е. P(z)е Р с Р0.

• Используется расширенное (обобщенное) определение функции роста

G р (е, п) = 1п] шах Е р(2) Nл (е^,...^ п \.

[р (г )еР

(22)

Для функций-индикаторов аеЛ,

Q(z,а) е (0, 1)}и для экстремального случая, когда Р=Р0, расширенное определение Gл (е, п) совпадает с простой функцией роста Gл (п). Для другого крайнего случая, когда Р содержит только Р(г), обобщенная функция роста совпадает с модифицированной УС-энтропией Нм[усе (п), выражение которой дано в (17).

В общем случае для ограниченного (константами А и В) набора функций потерь А < Q(z,а) < В, аеЛ} при больших п выполняется соотношение [10, 16]:

Вер.

шах

аеЛ

[ Q(z, а)dP(z) -1 Шzi, а)

п г=1

> е

<12ехр

( Gр (е /6(В - А) ;2п)

1п(п)

В - А

(21)

Показано, что из этого соотношения может быть получена другая форма различия фактического риска и его эмпирической оценки. Для достаточно большого п с вероятностью не менее 1-п одновременно для всех аеЛ (включая то а, которое минимизирует Rэмпиp ) справедлива граница

различия фактического риска и его эмпирической оценки, определяемая выражением:

2

£

п

п

п

п

| Q(z, a)dP(z)

<

< 1 Eq( ) + \GAP (г/6(B - A);2n) - ln n/12 <-E Q(z,a) +J---. (23)

П i=1

К сожалению, эта граница не конструктивна, поскольку нет метода для оценки обобщенной функции роста. Чтобы эти границы стали практически полезными и точными, нужна оценка обобщенной функции роста для данных набора функций потерь и набора P вероятностных мер, но метод получения оценки обобщенной функции роста пока окончательно не разработан.

Прогноз и контроль показателя обобщения НС, реализуемого сетью после обучения, может основываться на рассмотренных выше границах. Так, при больших значениях размера обучающей выборки n второе слагаемое в правой части выражения (20) становится близким к нулю. Тогда функционал эмпирического риска становится хорошей оценкой ФР при обобщении, который отражает показатель обобщения НС и либо косвенно, либо непосредственно (как в случае задачи распознавания образов) характеризует процент количества ошибок, среднеквадратичную ошибку аппроксимации и другие показатели обобщения НС.

Принцип структурной минимизации риска

Элементы прикладной теории, связанные с прогнозированием, контролем и "управлением" показателем обобщения обученной НС, включают условие адекватности применения принципа минимизации функционала эмпирического риска 12), которое учитывает размер обучающей выборки и соответствует такому ее объему, каким практически располагает исследователь. Формализованное обоснование принципа МЭР, использующее ряд модификаций концепции энтропии набора функций {Q(z,a), аеЛ}, приводит к получению границ предельного различия ФЭР и ФР фазы обобщения нейронной сети с учетом размера обучающей выборки. Таким образом, эти результаты получены для малых объемов обучающих данных, обычно доступных при решении прикладных задач. Тем не менее, следует отметить некоторое несовершенство рассмотренного метода. Если при использовании соотношения (20) для границы скорости сходимости (предела различия минимума эмпирического риска и риска при обобщении) величина отношения n/h велика, то второе слагаемое в правой

12) Иногда его называют принципом индукции минимизации эмпирического риска, имея в виду логический вывод правомерности его применения для прогнозирования функционала риска на фазе обобщения нейронной сети.

части (20) будет незначительно, и вследствие этого фактический риск R(a) очень близок к Лэмпир.(а), а малая величина R^n^Xa) обеспечивает малую величину фактического (ожидаемого) риска. Однако когда n/h мало, то даже малое значение R^npXa) не гарантирует малости реального риска. В этом случае минимизация R(a) требует нового принципа, который может быть получен минимизацией одновременно обоих слагаемых в (20). Одно из них зависит от величины R^^., а второе зависит от РВЧ набора функций {Q(z,a), аеЛ}. При этом необходимо найти метод, который наряду с минимизацией R^^. контролирует и "управляет" РВЧ обучаемой сети. Такой метод строится на основе принципа структурной минимизации риска (СМР) [5, 9].

Принцип СМР состоит в минимизации функционала риска относительно эмпирического риска и РВЧ набора фунций {Q(z,a), аеЛ} (являющегося отражением множества функций отображения, реализуемых НС). В наборе S функций {Q(z^), ае Л} вводится некоторая структура, состоящая из последовательности расширяющихся наборов (подмножеств) Sk функций {<2(г,а), аеЛк}, таких что их объединение заполняет общий набор (множество) функций:

Si с S2 с... с Sn с... с S* = У Sk ,

(k) (24)

S * = S,

где символ = означает, что объединение S " плотно" в множестве S.

При этом к допустимым относятся структуры, обладающие тремя свойствами:

• S везде плотно в S, т.е. в S может быть найдена функция Q(z,o), достаточно близкая от функции, выбранной (любым образом) в S.

• РВЧ h любого подмножества Sk — конечная величина.

• Каждый элемент Sk структуры ограничен в целом (некоторой константой Bk):

0 < Q(z, a) < Bk при a е Лк.

Принцип СМР предполагает, что для данной обучающей выборки {z1, z2,---, zn}(численностью n) выбирается элемент структуры Si , l = l(n) и выбирается такая функция из Sl , для которой гарантированный риск (20) является минимальным. Принцип предполагает существующее противоречие между качеством аппроксимации и сложностью аппроксимирующей функции (фактически сложностью структуры НС). При возрастании n минимум R^h,. снижается, однако слагаемое, ответственное за доверительный интервал (второе слагаемое в (20)), возрастает. Принцип СМР принимает во внимание оба фактора.

Метод СМР обеспечивает для любой функции распределения сходимость к лучшему решению с вероятностью единица [5, 9]. Этот метод является достаточно общим, независимым от распределения условием адекватности сходимости эмпирического риска к риску при обобщении. Функции Q(z,OLn'n'>), которые минимизируют риск Я(ап,(п)) на элементе Б, структуры, сходятся к функции, минимизирующей риск на всем множестве функций ^(г,а), аеЛ}. При достаточно большой обучающей выборке (при п—> асимптотическая скорость сходимости Я(а П(п)) к общему минимуму Я(а) на всем множестве Б определяется выраже-

нием

13)

V(п) = Г (п) + В, (п):

И, (п) 1п(п)

(25)

при условии, если изменение I = 1(п) таково, что

Ил В,(п)Н>(п)1п(п) —0.

п—п

(26)

В (25) ВI — это граница для функций из Б,, а г,(п) — скорость аппроксимации:

ГI (п) =

ш1п Г Q(г, а)ар(г) - шш Г Q(г, а)аР(г).

аеЛ, аеЛ

V (п)-1 К п - £ о!

Вер.

с, где с — константа.

выше представления об элементах СТО для задачи распознавания образов.

Метод разделяющих (гипер-) плоскостей14 и его модификация [17-20]. Для минимизации эмпирического риска на наборе линейных индикаторных функций

/ (х, ■) = в

I г =0

■те е W

(27)

при обучающей выборке (х1,_у1),...,(х,,у,), где п-

вектор х] = (х),...,хп)т и у} е {0,1}, 1 = 1,...,I, требуется найти вектор параметров НС ■ = w2, ..., ^п)т, компоненты которого в качестве синаптиче-ских весов сети обеспечивают наименьшее значение для Яэмпир.^):

1 ' Г {

Яэмпир.М = , 2[ - ?(х 1, . 1 1=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(28)

Элементы теории построения алгоритмов обучения НС

Для выполнения процедур принципа СМР в обучающих алгоритмах нужно контролировать два фактора, присутствующие в соотношении (20) для границ:

• величину эмпирического риска;

• слагаемое, определяющее доверительный интервал в оценке (20), путем выбора из структуры элемента Б, с подходящей величиной РВЧ —

и стремиться их оба минимизировать.

Метод удобно проанализировать на задаче распознавания образов, рассматривая обучение нейронных сетей двух типов:

1) НС с прямым распространением сигнала (простого аналога взаимодействия нейронов) и

2) НС "с векторами поддержки", появление которых связывают с определенным этапом развития статистической теории обучения (СТО).

Чтобы следовать этой схеме анализа, требуется введение ряда соотношений, уточняющих описанные

К сожалению, в прикладных задачах набор линейных индикаторных функций часто оказывается неспособным обеспечить малое значение эмпирического риска [18]. В качестве возможности увеличения гибкости набора функций применяются два подхода.

• Использование более общего набора индикаторных функций, который является суперпозицией линейных индикаторных функций.

• Отображение входных векторов х в пространство более высокой размерности и создание в этом пространстве Д-разделяющих плоскостей, у которых в слое толщиной Д с каждой стороны плоскости не содержится разделяемых точек (векторов).

Первый подход связан с обучением НС обычной структуры, второй вариант связан с НС "с векторами поддержки". Как отмечено выше, сети такой структуры и алгоритмы для их обучения сформировались в одном из направлений СТО.

Сигмоидная аппроксимация индикаторных функций НС. Анализ требования минимизации функционала (20) в связи с обучением НС показывает, что непосредственное использование

13) Об асимптотической скорости сходимости V(n) случайной величины п=1,2,... к ¿¡0 говорят, когда

14) Поскольку рассмотрение проводится в векторном пространстве распознаваемых "точек" х, то разделение их осуществляется гиперплоскостями. Этот несколько перегруженный термин сначала указан в форме "гиперплоскость", а далее для простоты будет говориться о плоскости, подразумевается, конечно, везде ее многомерность, т. е. по сути дела-гиперплоскость.

В формуле (27) и следующих слагаемое с индексом 0 соответствует смещению нейрона. При этом считается, что условная дополнительная компонента х0=1, а w0 представляет величину смещения [7].

п

градиентного метода для набора строго индикаторных функций невозможно, поскольку для них градиент равен или 0 или 1. Поэтому индикаторные функции аппроксимируются сигмоидными функциями15-1

Дх,= },

(29)

г =0

где S — гладкая монотонная функция, для которой = 0 или -1, £(+«>) = +1. Это — сигмоидные функции типа 51(м) =

1

или S2(и) =

2агс^(и) + т

1 + ехр(-и) 2п

При использовании одного из видов сигмоид-ной функции функционал

» =

- !(Х г , W))2

(30)

становится гладким по w (непрерывно дифференцируемым), имеет градиент и поэтому может быть минимизирован с применением градиентных методов. Так, градиентный метод крутого спуска (по поверхности Лэмпир.^)) использует правило обновления w в форме соотношения:

W(п+1) = W(п) - у(и) вгаа кмпир>(п))], где верхним индексом (п) указан номер итерации обновления; у(п) > 0 и обычно зависит от номера итерации. Для сходимости метода градиентного спуска достаточно, чтобы у(п) удовлетворяло условию:

£ у(п) и £ [у1п)]2 , т.е. ряд из у(п) расхо-

»12

»

п=1

п=1

дится, а ряд из [у(п)]2 — сходится.

Таким образом, идея состоит в сигмоидальной аппроксимации индикаторных функций на стадии оценки коэффициентов w (синаптических весов НС) и использовании индикаторных функций с этой аппроксимацией на стадии распознавания.

Обобщение этой идеи ведет к более общим структурам НС с распространением сигналов вперед (без обратных связей [21, 22]). Так, чтобы увеличить гибкость набора решающих правил при обучении, рассматривается суперпозиция нескольких линейных функций-индикаторов. Такая суперпозиция соответствует сети нейронов, вместо отдельного нейрона, для которого достаточно набора простых индикаторных функций. При этом все функции-индикаторы в этой суперпозиции заменяются сигмоидными функциями.

Метод вычисления градиента эмпирического

риска для сигмоидной аппроксимации функции активации нейронов, связанный с алгоритмом обратного распространения [7], введен в работах [4, 5]. Показано, что РВЧ нейронных сетей зависит от вида сигмоидной фнкции и количества синаптиче-ских весов в НС. При некоторых общих условиях РВЧ сети ограничена (хотя значение РВЧ обычно очень велико). Если РВЧ не меняется в процессе обучения, то способность НС к обобщению (т.е. показатели точности выполнения требуемого от нее отображения на новой информации с прежними статистическими характеристиками) зависит от того, насколько хорошо НС минимизирует эмпирический риск на достаточно большом обучающем материале.

При минимизации эмпирического риска с использованием метода обратного распространения возникают три проблемы.

1. Функционал эмпирического риска может иметь несколько локальных минимумов, и процедура минимизации гарантирует сходимость к некоторому из них. Поэтому в общем случае функция, найденная с использованием процедуры, основанной на градиенте, может быть далеко не лучшей. Качество полученной аппроксимации зависит от многих факторов и в особенности от начальной величины параметров алгоритма.

2. Сходимость к локальному минимуму может быть довольно медленной из-за высокой размерности пространства синаптических весов НС.

3. Сигмоидная функция имеет масштабирующий параметр, который влияет на качество. Чтобы выбрать этот параметр нужно сбалансировать противоречие между качеством аппроксимации и скоростью сходимости. Поэтому считается, что хорошая минимизация Лэмпир. во многих отношениях зависит от искусства исследователя.

Оптимальные разделяющие плоскости. Для

получения структуры НС, альтернативной к НС прямого распространения, следует сначала рассмотреть "оптимальные" разделяющие плоскости (фактически гиперплоскости с плоскопараллельной зоной, свободной от точек обучающей выборки) [23].

В задаче бинарного распознавания обучающие данные {(хьу:), ^уО, ..., (хгу); хеЯп, уе {-1, +1}} могут быть разделены на два класса плоскостью

w х - Ь = 0,

(31)

15) Сигмоидной называют функцию активации нейрона в НС (имеющую смысл его передаточной функции) с монотонным ростом от нуля до единицы (как у функции распределения вероятности) или от -1 до +1.

причем считается, что выход НС у = 1 соответствует х е класс 1, а выход у = -1 соответствует х е е класс2.

Набор векторов разделяется оптимальной плоскостью (или Д-разделяющей гиперплоскостью), если безошибочное разделение этого набора на два класса достигается с помощью плоскости при

пустом слое с максимальной толщиной Д с каждой стороны этой плоскости [6].

Свойство разделяющей плоскости указывать, по какую сторону от нее лежит некоторый обучающий вектор хг, может быть представлено соотношением

wт х г - Ь > 1, если уг = 1; w т х г - Ь <-1, если уг =-1.

Более компактное описание этого свойства дает (эквивалентное по смыслу) выражение

у{[wтхг -Ь]> 1, г = 1,2,...,/ .

(32)

ЭЬ^0,Ьр,а] ') Э Ь

= 0,

ЭЬ(w 0, Ь0, а(0))

Э

= 0.

w

Явный вид этих условий (получаемый подстановкой развернутой формы лагранжиана (34)) позволяет выявить ряд свойств оптимальной гиперплоскости.

• Коэффициенты для оптимальной гиперплоскости удовлетворяют ограничению

г =1

Xаг(0)у, = 0, а(0) > 0, г = 1,2,...,/. (35)

(0)

• Параметр оптимальной гиперплоскости w0 является линейной комбинацией векторов обу-

чающего набора

w 0 =х а(0) угх г

г =1

(0)

> 0,

г = 1,2,..., /. (36)

• Решение удовлетворяет условию (называемому условием Куна—Таккера)

(0)

{[(х г W 0) - Ь0] Уг - 1} = 0.

(37)

Показано [6, 24], что при условии (32) плоскость будет оптимальной, если норма вектора w, определяющего нормаль (перпендикуляр) к этой плоскости будет минимальной. Поэтому для определения оптимальной плоскости требуется минимизация функционала (33) Ф^) при дополнительном выполнении условия (32):

ф^) = ||2 = 1 ^ (33)

Решением этой задачи условной минимизации является "седловая" точка функционала Лагранжа (лагранжиана) Ь^,Ь,а), а = («1, ..., а/), который сводит задачу к безусловной минимизации за счет введения дополнительных параметров а, называемых множителями Лагранжа:

Ь^, Ь, а) =1 ^ т w)- X аг {уг [wтх,, - Ь] -1}, (34)

2 г =1

где а — множители Лагранжа.

Поскольку здесь (для удобства) условия с множителями Лагранжа введены в функционал со знаком минус, то этот функционал должен минимизироваться относительно w, Ь и максимизируется относительно осг > 0. Решение w0, Ь0 и (г = 1,., /) удовлетворяет условиям

Из этих условий следует, что только некоторые обучающие векторы в выражении (36) — "векторы поддержки" — могут иметь в разложении w0 ненулевые коэффициенты ос^00>. Векторы поддержки — это векторы хг, для которых в (32) достигается равенство, т. е. они поддерживают (принадлежат им) плоскости, лежащие с двух сторон от разделяющей плоскости и образующие слой (толщины 2Д), свободный от обучающих точек. Поэтому получается соотношение:

w 0 =

Х0) Уг х г

(0)

> 0,

(38)

где а — множество индексов совокупности векторов поддержки, определяющих w0.

Подстановка выражений для w0 обратно в лагранжиан (34) с учетом условия (37) дает функционал

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ 1 /

Ж(а) = Х аг - - X а га }УгУ] х т х } . (39)

Остается максимизировать этот функционал в квадранте неотрицательных (аг > 0, г =1,2,.,/) при ограничении

X агУг = 0.

(40)

Подстановка выражения (38) для w0 в (31) приводит к плоскости в виде выражения, связывающего векторы поддержки:

аг(0) х т х г + Ь = 0.

(41)

В случае, когда обучающие данные линейно неразделимы, может применяться метод получения квази-оптимальной разделяющей плоскости. Для этого используются новые переменные § (так называемые переменные бездействия, § > 0). Пе-ременые § служат допустимой величиной погружения некоторой части из обучающих точек в "свободный" слой 2Д, принадлежащий оптимальной разделяющей плоскости для остальной (большей) части обучающих точек. Чтобы количество и величина нарушений оптимальности были наименьшими, в минимизируемый функционал

г =1

вводится регуляризирующая компонента. Конструкция функционала имеет вид:

Ф(£) = w т w + С £ £ г ,

г =1

где постоянная С играет роль параметра регуляризации (в смысле А.Н. Тихонова). Функционал минимизируется при условии

у Хг - Ь] > 1-§, г = 1,2,..., I.

Использование описанного выше метода условной оптимизации на основе введения множителей Лагранжа (с переходом к безусловной минимизации по расширенному перечню параметров) приводит к тому, что оптимальная плоскость снова выражается соотношением (41) на векторах поддержки. Коэффициенты аг определяются путем максимизации того же квадратичного выражения (39), как и в случае линейной разделимости. Однако здесь требуется использовать несколько отличающиеся ограничения в виде условий (42):

0 < а < C; i = 1,2,...,l; £ ay = 0.

(42)

Бозером и Гуйоном (Во8ег В., Оиуоп I.) [19] было отмечено, что для описания оптимальных разделяющих плоскостей в признаковом пространстве и для оценки компонент вектора нормали (39) (представляющей эту разделяющую плоскость) требуется использовать произведение двух векторов г(х1) и г(х2), которые являются изображениями в признаковом пространстве входных векторов х1 и х2. Поэтому, если есть возможность оценить произведение двух векторов в признаковом пространстве г(х1) и г(х2) в виде функции двух переменных во входном пространстве ггтг=К(х,хг), тогда будет возможно и создать решения, которые эквивалентны оптимальной плоскости в признаковом пространстве. Чтобы получить это решение, следует заменить произведение хгтх;- в (39) и (41) функцией К(хг, х;). Другими словами, создаются нелинейные решающие функции, которые во входном пространстве имеют вид:

I (x) = sign

£atK (x i, x) + b

(векторы поддержки Xi)

(43)

При отсутствии возможности разделимости анализируемого набора точек (векторов) плоскостью эта задача решается с помощью поверхности общего вида (в «-мерном пространстве). Для этого осуществляется преобразование в так называемое пространство признаков, которое имеет более высокую размерность (сравнительно с исходной размерностью векторов обучающей выборки) и в котором, как доказано Ковером (Cover T.) [27], может быть достигнута разделимость с помощью гиперплоскости. Такой метод при решении задачи распознавания образов используется нейронной сетью с векторами поддержки16-1. Применяется концепция отображения входных обучающих векторов в пространство Z признаков, имеющее более высокую размерность, причем нелинейное преобразование выбирается априорно и "произвольно". В этом новом признаковом пространстве строится оптимальная разделяющая плоскость. Целью является создание ситуации (подобно рассмотренному ранее примеру), при которой для Д-разделяющих гиперплоскостей РВЧ определяется отношением Я7Д2. Для получения хорошего обобщения у НС следует контролировать РВЧ и уменьшать ее величину путем построения Д-разделяющей гиперплоскости с максимальным значением Д-слоя. Собственно, ради повышения Д и используется пространство высокой размерности.

которые эквивалентны линейным решающим функциям (33) в признаковом пространстве. Коэффициенты а в (43) определяются путем решения уравнения (44) при ограничениях (42):

i I i

W(a) = £ ai - - £

i=1 2 i, j =1

a a 1y1y1K(x,, x,). (44)

16) По американской терминологии это — Support vector neural network. Реже используются термины Support vector machine (SVM) или SVM-type neural network.

и 1 =1 '* 1

В то же время, согласно функциональному анализу, общая форма произведения векторов определяется посредством симметричной, положительно определенной функции К(х,у), удовлетворяющей условию Мерсера [28]: для любого сигнала с конечной энергией (| )2 dt > 0) справедливо неравенство | К(х, у)х)y)dxdy > 0 . Поэтому

любая функция К(х,у), удовлетворяющая условию Мерсера, может быть использована для получения правила (43), что эквивалентно созданию оптимальной разделяющей плоскости в некотором признаковом пространстве.

Обучаемую НС, реализующую отображения в виде (43), называют нейронной сетью с векторами поддержки [29]. Использование различных выражений для внутреннего произведения в форме К(Х,Хг) позволяет создавать различные НС этого типа с произвольным типом решающих поверхностей (нелинейных во входных пространствах) [30-32].

Например, сеть с радиальными базисными функциями (РБФ-сеть) [6, 33] и решающими функциями типа

/

/ (х) =

' I II х - хг ||2 X у{ аг ехр<! —-^

г =1 I а

v

(где а, г = 1,., / и а — параметры РБФ-сети) может быть выполнена с использованием функций

вида К(х,хг) = ехр-!-

||х - хг||2

а

В этом случае

НС при обучении будет находить как центры хг, так и соответствующие веса ос,. Такая НС обладает некоторыми полезными свойствами:

• задача оптимизации этой НС имеет единственное решение;

• процесс обучения идет довольно быстро;

• использование введенного вида решающего правила позволяет в процессе обучения сети определить набор векторов поддержки;

• получение нового набора решающих функций достигается простым изменением только функций (ядра К(х,хг)), которые определяют скалярное произведение в признаковом пространстве Z.

Способность к обобщению у нейронной сети прямого распространения (НС_ПР) и сети с векторами поддержки. Способность к обобщению у НС_ПР и НС с векторами поддержки (8УМ) основана на рассмотренных элементах статистической теории обучения и на полученных оценках для скорости сходимости эмпирического риска к его действительной величине. Кроме того, чтобы гарантировать высокие показатели обобщения обучаемой сети, нужно построить структуру

с 82 с... с 8п с... с 8 на наборе решающих функций 3 = {^(г,а), аеЛ} и затем выбрать как подходящий элемент 3 в структуре, так и функцию Q(z,dn) е 31 в этом элементе, которая минимизирует границу (20). Граница (16) может быть переписана в простой форме:

Я(аП) < Дэмпир.(аП) + ^

с \ п

V И(п)

v у

(45)

где первый член — это оценка риска, а второй является доверительным интервалом для этой оценки.

При создании НС определяется набор допустимых функций с некоторым значением РВЧ И*. Для данного размера п обучающей выборки величина И* определяет доверительный интервал П(п/й*). Поэтому формирование НС связано с выбором структуры, подходящей для данного обучающего набора. В период обучения НС минимизируется первый член в границе (45) (количество ошибок на обучающем наборе).

Если при построении НС она будет выбрана слишком сложной (относительно доступного набора обучающих данных), то доверительный ин-

тервал 0.(п/И*) будет большим. В случае если даже возможно минимизировать эмпирический риск до нуля, то количество ошибок на тестирующем наборе (т. е. при обобщении) может оказаться все же большим. Этот случай называют переподгонкой или избыточной подгонкой (под тонкую статистически случайную структуру обучающей выборки). Чтобы избежать избыточной подгонки (и получить малый доверительный интервал), следует стремиться создать НС с малой величиной РВЧ. Поэтому для получения хорошего обобщения у НС нужно, во-первых, предложить подходящую архитектуру НС и, во-вторых, настройкой параметров НС получить функцию отображения, которая минимизирует число ошибок на обучающих данных. Совместное решение этих задач для НС осуществляется на эвристической основе, или, по-просту говоря, с помощью интуиции и искусства исследователя.

В методах сетей с векторами поддержки можно управлять обоими параметрами: в случае задачи распознавания с разделимостью обучающих точек получается единственное решение, которое минимизирует эмпирический риск (возможно, вплоть до нуля) путем использования Д-разделяющих гиперплоскостей с максимальным Д-слоем (т.е. на основе получения набора отображений НС с наименьшей величиной РВЧ).

В общем случае для той же задачи получается единственное решение, когда выбирается сбалансированная величина параметра С в минимизируемом функционале Ф(§) с регуляризирующей компонентой, т. к. от С зависит предпочтительное соотношение между оценкой ошибки обобщения и ее доверительным интервалом.

ЗАКЛЮЧЕНИЕ

В рамках прикладной статистической теории обучения показан единообразный способ формализации группы задач, решаемых средствами нейронных сетей (НС) супервизорным методом ("с учителем"): распознавание образов, нелинейная регрессия и оценка плотности распределения вероятности. При этом применено вероятностное описание по входу и выходу НС с требованием ориентироваться не на сами вероятностные меры, а только на известные данные обучающей выборки. Три указанные задачи рассмотрены в терминах понятий: набор функций отображения НС, функция потерь и функционал риска. Все они параметризованы вектором а, компоненты которого представляют совокупность настраиваемых синаптиче-ских весов НС.

Следуя работам [1-5], используется нетрадиционное компактное представление обучающей выборки в форме Zь z2, ..., zn (где Zi объединяет

вход сети Хг и ее выход уг ), многообразия наборов (множеств) функций отображения НС {Дг,а), аеЛ}, функций потерь {<2(г,а), аеЛ}, фукциона-лов эмпирического риска {яэмпир.(а)}(среднего от функции потерь) и соответствующих функционалов риска {Я(а)}(функций потерь, взвешенных по вероятностной мере Р(г)). В этом представлении даны отмеченные выше три основные задачи, решаемые с помощью НС.

Рассмотрены основные концепции элементов статистической теории обучения.

• Принцип минимизации эмпирического риска (принцип МЭР).

• Условия правомерности его применения в форме наличия сходимости к нулю вероятности максимального (по набору отображений) отличия величины Я(а) и Яэмпир.(а). Фактический риск непосредственно или косвенно характеризует ожидаемую частоту ошибок НС при тестировании (ошибок на стадии обобщения).

• Базовые для статистической теории обучения понятия энтропии, УС-энтропии, модифицированной УС-энтропии и функции роста — для обучающей выборки или усредненно по вероятностному распределению обучающих данных, которые разным образом характеризуют меру многообразия набора функций потерь {^(г,а), аеЛ} (или изоморфного ему набора функций отображения НС).

• Условие правомерности расширенного применения принципа МЭР, который использует понятие энтропии и условие быстрой сходимости к нулю отличия Я(а) и Яэмпир.(и), выраженные через модифицированную УС-энтропию и функцию роста.

• Для скорости сходимости процесса обучения приведены границы, основанные на размерности Вапника—Червоненкиса и функции роста. Границы на скорость сходимости приспособлены к реальному (небольшому) количеству обучающих данных и получены в двух формах: толерантные границы, справедливые независимо от вида распределения вероятностей, и точные (зависящие от распределения) границы. Эти границы позволяют прогнозировать и в определенной мере влиять на показатели обобщения НС в процессе ее функционирования после завершения обучения.

• Рассмотрен принцип структурной минимизации риска, который предусматривает получение возможно лучших показателей обобщения НС путем одновременной минимизации Яэмпир. и размерности Вапника—Червоненкиса набора функций потерь {<2(г,а), аеЛ}(или изоморфного ему набора функций отображения НС).

• Изложены элементы теории построения алгоритмов обучения НС. Для задачи распознавания образов рассмотрен метод построения оптималь-

ной разделяющей (гипер-) плоскости, использующий понятие "векторов поддержки". Метод приспособлен для линейно разделимой совокупности точек (образов) и имеет приближенную форму для случая не полностью разделимой совокупности образов.

• Показано, что для неразделимой совокупности образов целесообразно преобразование входного пространства в пространство признаков более высокой размерности, в котором уже может быть реализована линейная (с помощью гиперплоскости) разделимость образов. Для этого достаточно произведение векторов заменить некоторой симметричной функцией ("ядром") ^(x,y), удовлетворяющей условию Мерсера.

• Подход на основе построения Д-разде-ляющей ("оптимальной") гиперплоскости и перехода в признаковое пространство более высокой размерности применяется в НС с векторами поддержки (support vector neural networks), сетях с радиальными базисными функциями (RBF-сетях) и может быть использован в сетях прямого распространения сигнала общего вида (без обратных связей).

Таким образом, рассмотренные элементы статистической теории обучения показывают, что "абстрактный" анализ помогает раскрытию общей модели обобщения, реализуемого нейронной сетью. Согласно этой модели, способность к обобщению обучаемой НС зависит от меры многообразия отображений у НС. Это понятие более емко, чем просто размерность пространства или число свободных параметров у функции потерь). Оно является основой в оценке границы различия эмпирического риска и ошибки обобщения НС в фазе ее функционирования.

Развитие SVM-методов продолжается в направлении уточнения границ различия, использующих оценки функции роста и РВЧ, расширения области применения структур НС с векторами поддержки (SV-структур НС) и создания ядер ^(x,y) с желательными свойствами инвариантности.

СПИСОК ЛИТЕРАТУРЫ

1. Вапник В.Н., Глазкова Т.Г., Кощеев В.А., Ми-хальский А.И., Червоненкис А.Я. Алгоритмы и программы восстановления зависимостей. М.: Наука, 1984. 814 с.

2. Vapnik V.N. The Nature of Statistical Learning Theory. NY: Springer-Verlag, 1995. 188 p.

3. Vidyasagar A. A Theory of Learning and Generalization. NY: Springer-Verlag, 1997. 210 p.

4. Poggio T., Girosi F. Networks for approximation and learning // Proceedings of IEEE. 1990. V. 84. P. 1481-1497.

5. Vapnik V.N. Statistical Learning Theory. NY: Wiley, 1998. 736 p.

6. Hay kin S. Neural Networks: A Comprehensive Foundation. Upper Saddle River, NY: Prentice-Hall, 1994. 646 p.

7. Меркушева А. В. Применение нейронной сети для текущего анализа нестационарного сигнала (речи). I. Основные принципы // Научное приборостроение. 2003. Т. 13, № 1. С. 64-71.

8. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 411 с.

9. Devroye L., Giorf L., Lugo si G. A Probability Theory of Pattern Recognition. NY: SpringerVerlag, 1996. 210 p.

10. Вапник В.Н. Оценка зависимостей на основе эмпирических данных. М.: Наука, 1979. 448 с.

11. Blumer A., Ehrenfeucht D., Haussler D., War-muth M.K. Learning ability and the Vapnik— Chervonenkis dimension / J. ACM. 1989. V. 36, N 4. P.929-965.

12. Вапник В. Н. Необходимые и достаточные условия для сходимости метода минимизации эмпирического риска // Сборник АН СССР по распознаванию, классификации и предсказанию. М.: Наука, 1989. Т. 2. С. 217-249.

13. Vapnik V.N. Principles of Risk Minimization for Learning Theory // Advances in Neural Information Processing Systems. San Mateo, CA.,1992. V. 4 / Kaufman. P. 831-838.

14. Kearns M.J., Vizirani U.V. An Introduction to Computational Learning. Cambridge, MA: MIT Press, 1994. 183 p.

15. Alon N., David B., Cesa-Bianchi N., Haussler D. Scale-Sensitive Dimensions, Uniform Convergence, and Learnability // J. ACM. 1997. V. 44. P. 617-631.

16. Вапник В.Н. Необходимые и достаточные условия для равномерной сходимости среднего к его ожиданию // Теория вероятностей и ее приложение. М.: Наука, 1981. Т. 26. С. 532553.

17. Burtlett P.L., Long P., Williamson R.C. Fatt-Shattering and Learnability of Real-Valued Functions // Journ. Comput. Syst. Sci. 1996. V. 52, N 3. P. 434-452.

18. Burtlett P.L., Shawe-Taylor J. Generalization Performance on Support Vector Machine and other Pattern Classifiers // Advances in Kernal Methods — Supoprt Vector Learning / Eds.: Sholkopf B., Buges C., Smola A. Cambridge, MA: MIT Press, 1999. 167 p.

19. Boser B., Guyon I., Vapnik V. A Training Algorithm for Optimal Margin Classifiers // Proceedings of 5th Annual Workshop on Computation Learning Theory. Pittsburgh, PA: ACM, 1992.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

P.144-152.

20. Opper M. On the Annealed VC Entopy for Margin Classifier: a Statistical Mechanics Study // Advances in Kernal Methods — Supoprt Vector Learning / Eds.: Sholkopf B., Buges C., Smola A. Cambridge, MA: MIT Press, 1999. 167 p.

21. Hasson M.M. Fundamentals of Artificial Neural Networks. Cambridge, MA: MIT Press, 1995. 186 p.

22. Меркушева А.В. Применение нейронной сети для текущего анализа нестационарного сигнала (речи). II. Исследование и оптимизация нейронной сети // Научное приборостроение. 2003. Т. 13, № 1. С. 72-84.

23. Вапник В.Н. Теория распознавания образов. М.: Наука, 1974. 353 с.

24. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир. 176 с.

25. Тихонов А.Н., Гончарский А.В., Степанов В.В., Ягола А.Г. Регуляризующие алгоритмы и априорная информация. М.: Наука, 1983. 198 с.

26. Морозов В.А., Гребенников А.И. Методы решения некорректно поставленных задач // Алгоритмические методы. М.: МГУ, 1992. 320 с.

27. Cover T.M., Thomas J.A. Elements of Information Theory. NY: Wiley, 1991. 396 p.

28. Колмогоров А.Н., Фомин С.В. Элементы теории функционального анализа. М.: Наука, 1989. 79 с.

29. Girosi F., Jones M., Poggio T. Regularization Theory and Neural Networks Architectures // Neural Computations. 1995. V. 7, N 2. P. 219269.

30. Burges C.G. Simplified Support Vector Decision Rule // Proceedings of 13th Intern. Conference on Machine Learning. San Matteo, CA, 1996. P. 7177.

31. Cortes C., Vapnic V. Support Vector Networks // Machine Learning. 1995. V. 20. P. 273-297.

32. Girosi F. An Equivalence Between Sparse Approximation and Support Vector Machine // Neural Computations. 1998. V. 10, N 6. P. 14551480.

33. Fung C.F. On Line Adaptive Training Using Radial Basis Functions // Neural Networks. 1996. V. 9, N 9. P. 1597-1618.

Санкт-Петербург

Материал поступил в редакцию 10.12.2004.

ELEMENTS OF THE STATISTICAL LEARNING CONCEPT FOR A NEURAL NETWORK AND ACCURATE PREDICTION OF ITS OPERATION

G. F. Malychina, A. V. Merkusheva

Saint-Petersburg

The learning of neural networks (NN) for many problems (pattern recognition, nonlinear multi-parameter regression, probability distribution identification) is considered in generalized form on the basis of a concept that includes probabilistic interpretation for the NN input—output transfer function and basic notions having a mathematically formalized foundation: diversity (a set) of mapping being realized by NN (and a set of loss functions isomorphic to it); characteristics of that diversity on the basis of entropy and Vapnik—Chervonenkis dimension; risk functional (RF) and a condition allowing RF approximation by means of an empirical risk functional (ERF); the limits of the actual RF departure from ERF. The elements of the leaning statistical theory described here provide prediction and correction ("control") of the NN operation index after leaning, i.e. at the stage of NN testing with the data on not participating in learning.

i Надоели баннеры? Вы всегда можете отключить рекламу.