АНАЛИЗ ПАРАМЕТРИЧЕСКОЙ пластичности многослойных НЕЙРОННЫХ СЕТЕЙ

А. Ю. Дорогое

результатам прогноза, наиболее близко совпадающих с реальным браком. Считаем целесообразным рекомендовать для практических целей пользоваться результатами расчетов именно по этой формуле.

ПЕРЕЧЕНЬ ССЫЛОК

1. Долгов Ю,А, Анализ граничного метода контроля качества кристаллов ИМС при выборке малого объема // Технология и конструирование в электронной аппаратуре. - 1992. -

Вып. 4. - С. 26-30.

2. Статистический приемочный контроль по количественному признаку. Планы контроля: ГОСТ 20736-75 (СТ СЭФ 167279). - М.: Изд-во стандартов, 1982. - 120 с.

3. Шор Я,Б, Статистические методы анализа и контроля качества и надежности. - М.: Сов. радио, 1962. - 552 с.

4. Гаскаров Д,В,, Шаповалов В,И, Малая выборка. -М.: Статистика, 1978. - 248 с.

5. Долгов Ю,А, Статистический контроль качества продукции при выборках малого объема // Технология и конструирование в электронной аппаратуре. - 1993. - Вып.2. - С.17-21.

Надшшла 12.04.99 Шсля доробки 17.05.99

УДК 007:159,955:519,72

АНАЛИЗ ПАРАМЕТРИЧЕСКОЙ ПЛАСТИЧНОСТИ МНОГОСЛОЙНЫХ

НЕЙРОННЫХ СЕТЕЙ

А. Ю. Дорогов

В статье рассматриваются многослойные нейронные сети прямого распространения. Пластичность нейронной сети оценивается числом степеней свободы нелинейного оператора. Вводится понятие структурной модели сети, как ориентированного графа, для которого определены весовые функции вершин и дуг. На основе структурной модели получены аналитические выражения для расчета числа степеней свободы. Приведены примеры расчета степени пластичности для двухслойных нейронных сетей.

Multilayer feedforward neural nets are researched on the paper. Plasticity of neural net is estimated by freedom degrees of nonlinear operator. Structure models of neural net are suggested. Model is represented by oriented graph with weighted arcs and nodes. Analytic expressions for calculation of freedom degrees are resulted on base of structure model. Examples of two-layers neural nets are given.

ВВЕДЕНИЕ

Многослойные сети прямого распространения широко используются в задачах распознавания образов, аппроксимации функций, системах адаптивного управления [1,2]. Для сетей подобного вида предложен ряд эффективных алгоритмов обучения, среди которых наибольшую известность получил алгоритм Error Back propagation [3], основанный на рекуррентном использовании градиентного метода поиска экстремума. При практическом использовании нейронных сетей, неизбежно, возникает вопрос выбора структуры сети. Для многослойных сетей прямого распространения необходимо определить количество слоев в сети и количество нейронов в каждом слое. Существует ряд рекомендаций по выбору структуры, основанных на эмпирическом исследовании сетей. Но любое экспериментальное исследование неразрывно связано с конкретной задачей, поэтому трудно ожидать, что рекомендации будут пригодными как для задач распознавания, так и, например, для задач аппроксимации функций. По-види-

мому, для каждой прикладной области существует свой набор критериев, которые следует использовать при выборе структуры. Тем не менее, можно выделить критерии, общие для различных приложений. Одним из таких критериев может служить способность нейронной сети к обучению. Интуитивно можно предположить, что чем больше "знаний" способна поглотить сеть, тем лучшими свойствами она будет обладать при использовании в конкретной задаче. Способность к обучению (в литературе часто используется удачный термин "пластичность") целесообразно оценивать числом независимых настроек, существующих в сети. Это значение, как правило, меньше чем полное количество синаптических весов, подвергающихся изменению в процессе обучения сети. (Исключением является однослойный персептрон, для которого соблюдается равенство.) В механике для оценки числа независимых координат используется понятие "число степеней свободы". Близкую аналогию можно провести и для нейронных сетей. В самом деле, нейронную сеть можно представить как нелинейный оператор, осуществляющий преобразование входного вектора в выходной. Полное множество операторов образует многомерное пространство, в котором каждый оператор можно рассматривать как некоторую материальную точку. Изменение синаптических весов нейронной сети приводит к перемещению точки-оператора в пространстве операторов. Следуя далее механической аналогии, будем называть число независимых координат, необходимое и достаточное для однозначного определения местоположения точки-оператора в пространстве операторов, числом степеней свободы нейронной сети. Класс операторов, порождаемых изменением синаптических весов, образует некоторую поверхность (многообразие) в пространстве операторов. Число степеней свободы, по существу, определяется размерностью минимального про-

странства, в которое можно погрузить некоторую малую окрестность любой точки многообразия операторов.

На этапе обучения нейронная сеть обычно линеаризуется в окрестности некоторых точек нелинейных функций активации нейронов. В пределах этой окрестности все операторы можно рассматривать как линейные. Поэтому задача вычисления степеней свободы состоит в том, чтобы определить размерность линейной оболочки класса операторов, порождаемого нейронной сетью. Решению поставленной задачи и будет посвящена данная работа.

базисных векторов в смежных терминальных пространствах, размерности которых, очевидно, совпадают. Базисные вектора всегда будем выбирать так, чтобы они принадлежали базовым направлениями. С учетом введенных определений класс операторов, соответствующий всей нейронной сети будет определяться произведением:

W = А1Р12А2Р23'"An - 1Pn - 1, nAn .

(1)

Выражению (1) соответствует линейный граф, показанный на рис.2.

1 СТРУКТУРНАЯ МОДЕЛЬ НЕЙРОННОЙ СЕТИ

На рис.1 показана многослойная нейронная сеть прямого распространения. В полносвязанной сети каждый из нейронов ( связан со всеми нейронами предшествующего слоя. Размерность входного вектора для данной сети равна N, а выходного М . Поставим в соответствие каждому г -му нейронному слою пару век торных градуированных [4] пространств (Ег, Ог) с размерностями

(рг, д ) . Указанные пространства будем называть терминальными пространствами нейронного слоя. Условие градуировки задается фиксированным разложением каждого пространства в прямую сумму одномерных подпространств, которые назовем базовыми направлениями.

(p',g) (p2,g2) (p3,g3)

(pn~',gnI) (p",g)

Uk

слой 1

Ife

слой 2

слой n-1 слой n

Рисунок 1 - Многослойная полносвязанная нейронная

сеть

Каждый нейронный слой можно описать нелинейным оператором Аг . Изменение синаптических весов в слое г

порождает класс операторов Аг , осуществляющих отображение пространств так, что (Ег) Аг ^ Ог. Как уже было отмечено, для задачи оценки пластичности можно

считать, что класс Аг состоит из линейных операторов. Связь между смежными слоями определим операторами

проектирования Рг ; + 1 так, что (Ог) Рг ; + 1 с ^ Ег +1. Операторы Рг г +1 будем считать фиксированными операторами, осуществляющими не более чем перестановку

Pl2 P 23 Pn-1,n

Рисунок 2 - Структурная модель многослойной нейронной сети

Каждой вершине графа отвечает класс операторов одного нейронного слоя, а дуги соответствуют операторам проектирования Рг г +1 . На данном графе определены функции весов вершин и дуг. Весом г -ой вершины будем считать пару чисел (pl, g ), а весом дуги ранг оператора связи Тг г +1 = rankPi г +1 . Максимальный ранг

операторов в классе Аг назовем рангом класса и обозначим Тг. Очевидно,

Тг = max(rank А) = mtn(pl,g ) = pl°g .

A e Аг

Вычисление минимума в многозначной логике [5] рассматривается как операция логического умножения, в последнем выражении и далее для обозначения этой операции используется символ " ° ".

г г +1 г г +1

Поскольку g = p , то Тг г +1 = g = p , и

нетрудно показать, что в этом случае

Тг,г + 1 ^ mtn(Тг,Тг + 1) = Тг°Тг + 1. (2)

Взвешенный граф, приведенный на рис.2, отражает структурные свойства нейронной сети. В дальнейшем такой граф будем называть структурной моделью нейронной сети.

2 РАЗМЕРНОСТЬ ПРОСТРАНСТВА

ОПЕРАТОРОВ

Будем считать класс операторов Аг полным, т.е. образующим пространство операторов. Последнее означает, что полный класс операторов изоморфен тензор-

ному произведению [6] пространств (Е, В) и, следовательно, его размерность равна

¿1шЛг = й1ш(Е х В1) = р1 д .

Обозначим через ^ подкласс операторов класса Ш (см. выражение (1)), который порождается классом операторов Лi, при фиксированных в общем положении операторов для остальных классов Лу у Ф г . Легко проверить, что класс ^ будет линейным подпространством. Условие "общее положение" [4] означает, что фиксация операторов в классах Лу осуществляется таким образом, чтобы обеспечить наибольшую размерность подпространства ^ . Для класса операторов Ш линейной оболочкой будет объединение операторных подпространств Шг, т.е.:

L(W) = W1 и W2 и W3 и ... и Wn- 1 и Wn .

Рассмотрим компоненту 6 +) . Обозначим через т^

ранг произведения последовательности операторов,

предшествующих классу Лг в выражении (1), а через тС

ранг произведения последовательности операторов следующих за этим классом. Поскольку ранг произведения операторов не превосходит минимального ранга сомножителей, то учитывая условие (2) и следуя принципу "общего положения", можно записать:

ri = r, °r2°...°ri - 2°ri -, , где r, = N ,

(4)

(3)

Т = т + 1°тг + 2°...°тп_ 1 °тп_^ где ^ = М . (5)

Величину т^ будем называть входным рангом для

класса Лг, а величину тС выходным рангом. Входной и выходной ранги, по существу, определяют "степень участия" класса Лг в формировании операторного подпространства Шг . На рис.3. показана мнемоническая схема порождения операторного подпространства Шг .

Размерность этого линейного пространства по определению будет равна числу степеней свободы. Обозначим эту величину через S , полагая

S = dim(L( W)) = dimW .

Как известно [4], размерность объединения любой пары пространств B' и B" определяется следующим выражением:

dim(В'и B") = dim(B') + dim(B") - dim(B' n B") .

s

Г i

c

Г i

E1 [

> D"

1

Ei Di

Рисунок 3 - Схема порождения операторного подпространства Wi

В Приложении показано, что градуированные подпространства образуют дистрибутивную решетку по операциям " и" и " п ". В этом случае допустимо к выражению (3) многократно применить последнею формулу, в результате получим:

dimW = dimW1 + dimW2 + dimW3~

- dimWn -1 + dimWn

- dimW1 n( W2 и W3 и ... и Wn -1 и Wn) -

- dimW2 n (W3 и W4 и ... и Wn-1 и Wn) -

- ... - dimWn - 3 n( Wn -1 и Wn)-d im( Wn -1 и Wn).

В этом выражении обозначим через 6 + ) все положи-

с( - )

тельные компоненты, а через 6 все отрицательные, тогда можно записать:

По теореме о структуре линейного отображения [4], для цепочки операторов, предшествующих Лг, существу-

1г

ют такие прямые разложения пространств Е и Е

11 E = Eo'

)E2 = El ,

что е1 изоморфно Е1 и имеет размерность т^, а е0

составляет нулевое пространство (ядро линейного отображения). Аналогично, для цепочки операторов, следующих за Лг существуют прямые разложения

D = Dn Ф D ^ D

D = D

dimW = S( + ) -S( )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

такие, что D^ изоморфно D1И имеет размерность r; , а

О0 составляет нулевое пространство.

Нулевое пространство при отображении переходит в нулевой вектор, поэтому операторное подпространство

Шг изоморфно тензорному произведению Е1 х о1 . Обозначим изоморфное отображение символом " ^ ", тогда можно записать

5 Г 1

размерность Тг +1, а Е0 составляет нулевое пространство. Класс операторов, образованных объединением Шг +1 и Шг + 2 и ... и Шп _ 1 и Шп , осуществляет отобра-

1 -1 жение пространства Е в Оп , при этом пространство Ео

переходит в нулевой вектор. Таким образом, существует изоморфизм:

Шг = Ег1 х В\ = Е1 х ОП , (6)

откуда следует, что

п

= т5тс и, следовательно б + ) = ^ т,¡тс.

г = 1

На рис.4 приведена графическая интерпретация выражения (6). Внешний прямоугольник соответствует максимально-возможному операторному пространству нейронной сети при заданных размерностях входного и выходного векторов, а внутренний - отвечает операторному подпространству ^ .

Ш + 1 и + 2 и ... и Шп _1 и Шп = Е1 х Оп

(8)

Е1}

Е 1 X Б"

У У

У

Е} X Б"

Б"

Искомое операторное многообразие образуется пересечением объединения (8) с операторным подпространством Шг . На рис.5 показана мнемоническая схема порождения операторного подпространства .

Рисунок 5 - Схема порождения операторного многообразия

Поскольку т\ + 1 = т\°Тг < т\, то е\ с Е1 . Подставляя (6) и (8) в (7) и учитывая, что 01 с Опполучим:

п(+ 1 и + 2 и ... и Шп_ 1 и Шп) = = ё1ш( е1 х Оп)п( Е1 X 0п) =

= й{ш( е1 п е\)х( Оп п 0п) = й{ш( Е1 X Оп) = т^ + 1.

Рисунок 4 - Графическая интерпретация операторного подпространства Шг

На рис.6 приведена геометрическая интерпретация последнего выражения.

Рассмотрим теперь компоненту 6 ) . Общий член для

с( _)

6 имеет вид:

п( шг + 1 и шг + 2 и ... и шп _ 1 и шп) . (7)

Для цепочки операторов, предшествующих классу аг + 1 существуют прямые разложения пространств

1 ~ 1 ~ 1 Е = Е 0 ® Е1 ■

,г + 1 _ ^г +1

Е2 = Е

г +1

Е}

Е } X Б"

у

N_

Е} х Б"

Е } х Б"

~ 1 г +1

Подпространства Е1 , Е1 изоморфны и имеют Рисунок 6 - Графическая интерпретация образования

операторного подпространства

Б"

n - 1

) _ i c

Подводя итог получим S = £ Vi + i т^ , и оконча-

i = 1

тельно будем иметь

n-1

i c V; + .

S = S<+) - ^) = £ VS1VC1 - £ Vi + iVi

i = 1 i = 1

(9)

3 ПРИМЕРЫ

Рассмотрим двухслойную нейронную сеть с параметрами

n = 2 , p1 = N, g1 = p2 = D , g2 = M .

На основании (9) можно записать S = r1 ri+r2Г2-.

Из выражений (4) и (5) получим

А = N, rs2 = r1 = N°g1 = N°D ,

r\ = r2 = p2°M = D°M, r2 = M .

В результате будем иметь следующую расчетную Ф°рмУлУ

S = N(D°M) + (N°D)M- (N°D)(D°M) . (10)

Рассмотрим различные варианты.

1) Пусть D < min(N, M), тогда

S = ND + DM - D2 . (11)

Из этой формулы, очевидно, что наихудшей пластичностью обладает сеть со структурой типа "двухсторонний узел" (см. рис.7). Для этого типа сети значение D = 1 и, следовательно, S = N + M .

2) Пусть D > max(N, M) , тогда из формулы (10) следует

S = NM + NM - NM = NM .

Это значение является максимально возможным для класса операторов, действующих из пространства размерности N в пространство размерности M, поэтомус точки зрения пластичности сети нет смысла увеличивать число нейронов в первом слое больше, чем max(N, M) . Нетрудно показать, что этот вывод справедлив для всех скрытых слоев в многослойных сетях. Отметим, что значение NM совпадает с числом степеней свободы однослойного персептрона.

3) Структуры типа "односторонний узел" (см. рис.8)) часто используются для реализации аппроксиматоров функций.

Слой 1

Слой 2

f3 fl

Рисунок 8 - Нейронная сеть "односторонний узел"

Рассмотрим число степеней свободы для такой сети. Из формулы (10) при условии M = 1 , следует

S = N + (N°D) - (N°D) = N .

т.е. пластичность данной сети не зависит от числа нейронов в первом слое, вполне достаточно наличие только одного нейрона. Но с другой стороны для задач аппроксимации нелинейных функций необходимо обеспечить достаточный "запас" по элементарным нелинейностям [7], реализуемым функциями активации нейронов. Это еще раз подтверждает предположение, что для каждой задачи существуют собственные критерии качества нейронной сети, определяющие ее структуру, и в целом задача синтеза структуры является многокритериальной.

Рисунок 7 - Нейронная сеть "двусторонний узел"

n

ЗАКЛЮЧЕНИЕ

Пластичность нейронных сетей характеризует дифференциальную способность нейронной сети к обучению. Можно сказать, что качество одной нейронной сети лучше другой, если первая при прочих равных условиях обладает лучшей пластичностью. В данной работе получены формулы расчета степени пластичности многослойных сетей прямого распространения. Приведенные выражения позволяют определить точное значение степени пластичности на основе структурных характеристик нейронной сети. Доказано, что пластичность многослойных сетей не может быть выше, чем пластичность однослойного персептрона. Этот вывод не отрицает целесообразности использования многослойных сетей, а напротив подтверждает необходимость многокритериального подхода к задаче структурного синтеза. В работах [9,10,11] приведены дополнительные результаты по оценке пластичности нейронных сетей прямого распространения с более сложной структурной организацией.

Данная работа поддержана грантом Минобразования РФ.

ПРИЛОЖЕНИЕ

ГРАДУИРОВАННЫЕ МОДУЛЯРНЫЕ РЕШЕТКИ

Пусть Е конечномерное пространство размерности N . Как известно [8], совокупность всех подпространств Е пространства образует модулярную решетку и по включению с операциями объединения и пересечения. Если А , В , С - подпространства пространства Е , тогда для модулярной решетки имеет место

А п ((А п В) и С) = (А п В) и (А п С) .

Откуда следует А п (В и С) = (А п В) и (А п С) .

Условие градуировки в терминологии теории решеток означает, что фиксируется множество независимых элементов вг е Е, образующих прямое разложение пространства Е .

Е = в1 ® в2 ® ... ® вN . (П1)

Неразложимые далее независимые элементы называются атомами. В решетке подпространств атомы, по существу, предоставляют собой одномерные подпространства пространства Е . Среди всех подпространств выделим подмножество подпространств которые имеют атомные разложения в системе атомов {в^ в2, ..., вN} .

Такие подпространства будем называть градуированными с условиями градуировки (П1). Множество градуированных подпространств замкнуто относительно объединений и пересечений и образуют подрешетку Ш моду-

лярной решетки и . Покажем, что эта решетка дистрибутивна. Пусть А , В , С градуированные подпространства в системе атомов {вр в2, ..., вN} , тогда

А = I вг , В = I ву , С = X в, ,

г е I у е / к е К

где I, ], К - множества индексов. Поскольку элементы вг независимы то вг п ву = 0 если г ф у и напротив вг п вг = вг, кроме того вг и вг = вг. Учитывая эти условия, получим:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А п В = I вг , А П С = I вг , В П С = I вг ,

г е I П / г е I П К г е / П К

откуда следует:

А П(В и С) = I вг = I вг и I вг =

г е I П(/ П К) г е I П / г е I П К

= (А П В) и (А П С) .

Дистрибутивность решетки Ш следует из дистрибутивности операций " и", " п"над числовыми множествами I, / , К .

ПЕРЕЧЕНЬ ССЫЛОК

1.

Mills Peter M., . Zomaya Albert Y, Tade Moses O. Neuro-Adap-tive Process Control. Practical Approach. - England: JOHN WILEY&SONS,- 1995. - 212p.

Cichocki A., Unbernhauen R. Neural Networks for optimization and signal processing. - Stuttgart: - JOHN WILEY&SONS, -1994. - 526p.

Уоссерман Ф. Нейрокомпъютерная техника. Теория и практика. М.: Мир, 1992. - 240с.

Кострикин А.И., Манин Ю.М. Линейная алгебра и геометрия.- М.: Наука, - 1986. - 304с.

Яблонский C.B. Введение в дискретную математику. - М.: Наука, - 1986. - 384с.

Ефимов H.B, Розендорн Э.Р. Линейная алгебра и многомерная геометрия. - М.: Наука, 1970. - 528с. Fundamentals of neural Networks, Architectures algorithms and application. Lourence Fauselt, USA, Florida, 1994. -461p. Скорняков Л.А. Элементы теории структур. М.: Наука, -1982. - 160с.

Дорогов А.Ю., Алексеев А.А. Анализ пластичности двухслойных быстрых нейронных сетей //Труды международной научно-технической конференции "Нейронные, реляторные сети и модели" - Ульяновск, 19-21 мая 1998г. Т.1. С.49-51.

10. Дорогов А.Ю. Оптимизация структуры двухслойной ядерной нейронной сети по критерию параметрической пластичности// Сборник докладов 5 Всероссийской конференции "Нейрокомпьютеры и их применение" НКП-99. Москва, 17-19 февраля 1999г.- С.368-371.

11. Алексеев А.А., Дорогов А.Ю. Пластичность двухслойных быстрых нейронных сетей// Известия АН. Теория и системы управления. №5, 1999.-С.121-126.

Надшшла 15.03.2000

2.

5.

8.

9.

АНАЛИЗ ПАРАМЕТРИЧЕСКОЙ пластичности многослойных НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — А Ю. Дорогое

Похожие темы научных работ по математике , автор научной работы — А Ю. Дорогое

Текст научной работы на тему «АНАЛИЗ ПАРАМЕТРИЧЕСКОЙ пластичности многослойных НЕЙРОННЫХ СЕТЕЙ»