Об одном алгоритме обучения многослойной нейронной сети

Руденко Олег Григорьевич; Штефан Андреас

матрицы

УДК 681.513.7

Z(n), Z* (n), Z(n), Z*(n) є RN x n —

ОБ ОДНОМ АЛГОРИТМЕ ОБУЧЕНИЯ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ

РУДЕНКО О.Г., ШТЕФАНА.

Предлагается рекуррентный алгоритм настройки параметров многослойной нейронной сети, основанный на методе наименьших квадратов и использующий ограниченное число обучающих образов.

Искусственные нейронные сети (ИНС) находят все более широкое применение при решении задач классификации и распознавания образов [1-3], прогнозирования [4], оценивания и идентификации [58], управления сложными объектами [5,9], обработки сигналов [10-12]. ИНС являются альтернативой классическим методам, использующим математические модели заданной структуры в виде различных полиномов. Основной особенностью ИНС является их способность к обучению, осуществляемому путем коррекции весовых параметров, используемых при описании ИНС, и основанному на сравнении выходных сигналов нейронной сети с обучающими образами, поступающими в последовательные моменты времени. Так как ИНС представляют собой многослойные структуры, при коррекции этих параметров используется информация о желаемых (оптимальных) сигналах скрытых слоев. Несмотря на то, что такая информация практически всегда отсутствует, обучение нейронной сети возможно.

Наиболее широкое распространение для коррекции параметров в ИНС получил back propagation algorithm [1-3]. Однако в последнее время все большее внимание исследователей привлекает метод наименьших квадратов (МНК) и его модификации, эффективность которых при решении данной задачи обучения подтверждается многочисленными работами [6,8,9,11,12]. В этих работах изучается МНК, рекуррентный МНК (РНМК) и взвешенный РНМК, причем оценки последнего более привлекательны, так как могут быть применены и для коррекции нестационарных параметров.

Рассмотрим еще одну модификацию МНК — РНМК со скользящим окном (с ограниченной или фиксированной памятью), который, как и взвешенный РНМК, удобен для коррекции изменяющихся во времени параметров.

Трехслойная нейронная структура, представленная на рис., содержит один скрытый слой и L, M и N узлов во входном, скрытом и выходном слоях соответственно.

Обучающие образы поступают в последовательные моменты времени n=0,1,2, ... Для любого момента времени n данная структура может быть

охарактеризована матрицами: x(n) є RL х n — матрица входов, составленная из текущих векторов входного обучающего образа

x(i) = (-1, x1 (i), x2 (i), ..., xL (i))T размерности

L x 1 (i = 1, n);

значений действительных и желаемых выходов, действительных и желаемых входов выходного слоя соответственно;

Y(n), Y* (n), Y(n), Y*(n) є RM x n — матрицы значений действительных и желаемых выходов, действительных и желаемых входов скрытого слоя

соответственно; V є rlx M, W є RM xN —

матрицы весов скрытого и выходного слоев соответственно; f(•), ст() — функции активации (например,

{ + exp[- (•)] 1 или tanh(-)).

Задача настройки нейронной сети [1-3] сводится к минимизации некоторого наперед выбранного функционала (критерия качества). Так, искомые матрицы весов скрытого V и выходного W слоев найдем, минимизируя функционалы:

I1 = *{(Z* (n)-WY(n))T (Z* (n)-W(n))j; (1)

I2 = trj(Y* (n) - VX(n))T (Y* (n) - W(n))j . (2)

Используя правила дифференцирования матричных выражений, из условий

5W

= 0

и

dI2_

5V

= 0

для случая, когда число указаний учителя превышает число неизвестных параметров, получаем следующие выражения для искомых оценок:

W(n) = Z*(n)YT (n)[Y(n)YT (n)]-1; (3)

V(n) = Y* (n)XT (n)[X(n)XT (n)]-1. (4)

Отметим, что в выражении (3) используются выходные сигналы скрытого слоя Y(n), информация о которых обычно отсутствует. Из условия

|1 = Z* (n)- WY(n) = 0

можно получить следующее соотношение для определения Y(n):

Y(n) = (wTw) 1WTZ* (n). (5)

Здесь принято во внимание, что n > m . Тогда компоненты желаемого сетевого входа выходного слоя

~i (n), i = 1, M определятся как yi = f (уі (n)l, а

действительный сетевой вход выходного слоя вычисляется так:

Y(n) = VX(n). (6)

С другой стороны, при известном желаемом выходе Z * (n) сети желаемый вход выходного слоя Y(n) может быть определен по формуле:

Y(n)=WT (n)W(n) WT (n)Z* (n),

(7)

74

РИ, 1997, № 1

-1

Рис. Трехслойная нейронная структура

где W (n) — матрица оценок искомых весов выход-

ного слоя; Z* (n) — N х n -матрица, элементами

которой являются ~ (j) = a-1 (zi (j)), i = 1,N; j = 1, n .

Выражения (3), (4), (5), (7) являются MHK-оценками, рекуррентные формы которых применительно к обучению нейронных структур приведены в [6,8,9,11]. Как уже отмечалось, более привлекательными являются оценки взвешенного MHK и его рекуррентные аналоги [4,11]. На наш взгляд, также более гибкими по сравнению с обычными MHK-оценками являются оценки, основанные на MHK, использующие однако ограниченное число обучающих образов, — оценки MHK с ограниченной (фиксированной) памятью (окном).

Обозначим буквой S фиксированное число используемых в алгоритме обучающих образов. Предположим, что s > M и s > L . Отметим, что схема вывода рекуррентной формы остается такой же, если при настройке матрицы весов W используются S образов ( s > M), а при настройке весовой матрицы V _ S' образов (S' > L). Тогда соответствующие оценки (3), (4) примут вид:

Ws (n) = Z S (n)Yj (n)[Ys (n)YsT (n)] 1;

(8)

Vs(n) = Ys(n)xT(n)Xs(n)xT(n)] , (9)

где ицдекс S говорит о том, что в алгоритмах используется информация об S последних обучающих образах.

Особенностью алгоритмов с S=const является то, что используемые в них матрицы формируются следующим образом: в матрицы после поступления каждого образа включается информация о вновь поступившем n-м образе, а из нее исключается информация об (п-8)-м. В зависимости от того, как формируется новая матрица (добавляется ли сначала новая информация, а затем исключается устаревшая либо же сначала исключается устаревшая, а затем добавляется новая), возможны две рекуррентные формы MHK с окном. Остановимся на этом подробней.

Так как рекуррентные формы для (8) и (9) получаются аналогично, рассмотрим рекуррентную форму оценки (8). Пусть на основе (п-1)-го образа получена оценка:

W (n _ 1) = Zs (n _ 1)yJ (n _ 1) Ys (n _ 1)yJ (n _ 1)] 1. (10)

Обозначим

R_1(n _ 1)= Ys (n _ 1)YST (n _ 1). (И)

При поступлении нового (п)-го образа строим новую вспомогательную оценку с использованием ^+1)-образа:

W(n) = Zs+1(n)YsT+1(n)Ps+1(n), (12)

РИ, 1997, № 1

75

где Ps+i(n)= Ys+i(n)YT+1(n)

-1

R

-1(n -1) + y(n)yT (n)] . (13)

Применение к (13) леммы об обращении матриц при условии, что матрица R-1 ( -1) — неособенная,

дает

ps +1(n) = Rs (n - 1)-

RS(n- !)y(n)yT(n)RS(n - !) 1+yT (n)Rs (n - 1)y(n)

. (14)

Подставив (14) в (12) с учетом (8), после несложных преобразований получим:

W (n) = W (n - 1) +

+ Rs (n - 1)y(n - S + 1)yT (n - S + 1)RS (n -1)

1 - yT (n - S + 1)Rs (n - 1)y(n - S +1) ;

Rs (n) = Ps-1( n -1)- pS-1(n - !)y(n)y T (n)pS-1(n -!) .

1 + y T (n)pS-1(n-1) y(n)

Начальные значения матриц P и R выбираются, как в обычном рекуррентном МНК. Как уже отмечалось, рекуррентные процедуры оценивания матрицы весов V легко могут быть получены аналогично. В соответствии с (4) в алгоритмах будут использоваться сетевые входы x(1), x(2),..., x(n) и желаемые выходы узлов скрытого слоя:

(21)

(22)

+

z*(n)- Ws (n - 1)y(n)]yT (n)ps+1(n).

(15)

А так как для получения МНК-оценки с окном S=const необходимо исключить (и-8+1)-й образ, можно записать

W(n) = ZS (n)YsT (n)Ps (n) (16)

где Rs (n)

Ys+1(n)Ys+1(n)- y(n - s+1)y(n - s+1)T ;

ZS(n)YsT(n) = ZS+1 (n)YsT+1 (n) - z(n - S + 1)yT(n - S +1) .

С учетом введенных обозначений и при тех же условиях, что и выше, получаем

RS(n) = pS+1( n) +

+ ps+1(n)y(n - S + 1)yT (n - s + 1)pS+1(n) .

1 - yT (n - s + 1)ps +1 (n)y(n - s + 1) (17)

Подстановка данного выражения в (16) приводит к следующей рекуррентной процедуре:

W( n) = W( n) -

^(n-S +1)-W(n)y(n-S +1) yT(n-S + 1)Rg(n) .(18)

Таким образом, рекуррентный алгоритм настройки матрицы весов W, получаемый путем добавления нового (п)-го обучающего образа и последующего исключения старого (n-S+1)-ra, описывается соотношениями (14), (15), (17), (18).

Если же при настройке весовой матрицы W сначала исключается самый старый, (п^+1)-й, образ, а затем добавляется вновь поступивший, (п)-й, то, как нетрудно показать, рекуррентная процедура настройки будет иметь вид:

*

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У (1),..., У (n).

Если ИНС содержат более одного скрытого слоя, процедуры коррекции матриц весов этих слоев будут иметь аналогичный вид и использовать как желаемые выходные сигналы данного слоя, так и выходные сигналы предыдущего скрытого слоя [12].

Литература: 1.Rojas R. Theorie der neuronalen Netze Springer. Verlag, Berlin: Heidelberg, New York.— 1997.— 446 s. 2.Bishop C.M. Neural networks for pattern recognition. Oxford: University Press.— 1995.— 482 p. 3.Scherer A. Neuronale Netze. Grundlagen und Anwendungen. Braunschweig/Wiesbaden: Vieweg.— 1997.— 249 s. 4. Chen C. LP. A rapid supervised learning neural network for function interpolation and approximation // IEEE Trans. Neural Networks.- 1996.- V.7.— №5.- P.1220-1229. 5.Narendra K. S., Parthasarathy K. Identification and control of dynamical systems using neural networks // IEEE Trans. Neural Networks.- 1990.- V. 1.- №1.- P.4-27. 6. Tiguni Y, SakaiH, Tokomura H. A real-time learning algorithm for a multilayered neural network based on the extended Kalmah filter // IEEE Trans. Signal Processing.- 1992.- V.40.- P.959-966. 7. Nelles

O, Ernst S, Isermann R. Neuronale Netre zur Identifikation nichtlinearer, dynamischer Systeme: Ein Ueberblick // Automatisierungstechnik.- 1997.- V.45.- №6.- S.251-262. 8. Chen S, Billings S. A. Neural network for nonlinear dynamic system modelling and identification // Int. J. Control.- 1992.- V.56.- №2.- P.319-346. 9. Jagannathan S, Lewis F. L. Multilayer discrete-time neural-net controller with guaranteed performance // IEEE Trans. Neural Networks.- 1996.- V.7.- №1.- P.107-130. 10. Cichocki A., Unbehauen R. Neural networks for optimization and signal processing, John Wiley & Sons.- 1997.- 521 p. 11. Chen S, Cowan C.F.N., Grant P. M. Orthogonal least squares lerning algorithm for radial basis function networks // IEEE Trans. Neural Networks.- 1991.- V.2.-№2.- P.302-309. 12. Wang G.-J, Chen C.-Ch. A fast multilayer neural-network training algorithm based on the layer-by-layer optimizing procedures. // IEEE Trans. Neural Networks.- 1996.- V.7.- №3.-

P. 768-775.

W (n) = W (n - 1) +

"(n)- W(n - 1)y(n) yT (n)ps-1(n - 1);

W (n) = W (n - 1)-[ z* (n - S +1)- W (n - 1)y(n - S + 1)]yT (n - S + 1)Rs (n -1); PS-1( n -1) = Rs (n -1) +

Поступила в редколлегию 28.12.97 Руденко Олег Григорьевич, д-р техн. наук, профес-(1Q) сор, зав. кафедрой ЭВМ ХТУРЭ. Научные интересы: ' адаптивные системы, нейронные сети. Увлечения: изобразительное искусство, южноамериканская литература. Адрес: 310726, Украина, Харьков, пр. Леннина, 14, тел. (0572)47-15-12.

(20) Штефан Андреас, д-р-инженер, руководитель фир-

мы «Dr. Stephan&Parnter, System- und Softwarehaus», Ильменау, Германия. Научные интересы: адаптивные системы. Увлечения: путешествия. Тел. 84-10-67.

76

РИ, 1997, № 1

Об одном алгоритме обучения многослойной нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Руденко Олег Григорьевич, Штефан Андреас

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Руденко Олег Григорьевич, Штефан Андреас

About multilayer neural network learning algorithm

Текст научной работы на тему «Об одном алгоритме обучения многослойной нейронной сети»