Научная статья на тему 'Об одном алгоритме обучения многослойной нейронной сети'

Об одном алгоритме обучения многослойной нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
101
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Руденко Олег Григорьевич, Штефан Андреас

Предлагается рекуррентный алгоритм настройки параметров многослойной нейронной сети, основанный на методе наименьших квадратов и использующий ограниченное число обучающих образов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About multilayer neural network learning algorithm

The problem of multilayer neural network learning using modified LMS is considered. The algorithm uses limited patterns quantity for tuning of weighting matrices elements in network layers. The recurrent forms of learning algorithm, that permit define more precisely unknown parameters using sequential pattern processing, are proposed.

Текст научной работы на тему «Об одном алгоритме обучения многослойной нейронной сети»

матрицы

УДК 681.513.7

Z(n), Z* (n), Z(n), Z*(n) є RN x n —

ОБ ОДНОМ АЛГОРИТМЕ ОБУЧЕНИЯ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ

РУДЕНКО О.Г., ШТЕФАНА.

Предлагается рекуррентный алгоритм настройки параметров многослойной нейронной сети, основанный на методе наименьших квадратов и использующий ограниченное число обучающих образов.

Искусственные нейронные сети (ИНС) находят все более широкое применение при решении задач классификации и распознавания образов [1-3], прогнозирования [4], оценивания и идентификации [58], управления сложными объектами [5,9], обработки сигналов [10-12]. ИНС являются альтернативой классическим методам, использующим математические модели заданной структуры в виде различных полиномов. Основной особенностью ИНС является их способность к обучению, осуществляемому путем коррекции весовых параметров, используемых при описании ИНС, и основанному на сравнении выходных сигналов нейронной сети с обучающими образами, поступающими в последовательные моменты времени. Так как ИНС представляют собой многослойные структуры, при коррекции этих параметров используется информация о желаемых (оптимальных) сигналах скрытых слоев. Несмотря на то, что такая информация практически всегда отсутствует, обучение нейронной сети возможно.

Наиболее широкое распространение для коррекции параметров в ИНС получил back propagation algorithm [1-3]. Однако в последнее время все большее внимание исследователей привлекает метод наименьших квадратов (МНК) и его модификации, эффективность которых при решении данной задачи обучения подтверждается многочисленными работами [6,8,9,11,12]. В этих работах изучается МНК, рекуррентный МНК (РНМК) и взвешенный РНМК, причем оценки последнего более привлекательны, так как могут быть применены и для коррекции нестационарных параметров.

Рассмотрим еще одну модификацию МНК — РНМК со скользящим окном (с ограниченной или фиксированной памятью), который, как и взвешенный РНМК, удобен для коррекции изменяющихся во времени параметров.

Трехслойная нейронная структура, представленная на рис., содержит один скрытый слой и L, M и N узлов во входном, скрытом и выходном слоях соответственно.

Обучающие образы поступают в последовательные моменты времени n=0,1,2, ... Для любого момента времени n данная структура может быть

охарактеризована матрицами: x(n) є RL х n — матрица входов, составленная из текущих векторов входного обучающего образа

x(i) = (-1, x1 (i), x2 (i), ..., xL (i))T размерности

L x 1 (i = 1, n);

значений действительных и желаемых выходов, действительных и желаемых входов выходного слоя соответственно;

Y(n), Y* (n), Y(n), Y*(n) є RM x n — матрицы значений действительных и желаемых выходов, действительных и желаемых входов скрытого слоя

соответственно; V є rlx M, W є RM xN —

матрицы весов скрытого и выходного слоев соответственно; f(•), ст() — функции активации (например,

{ + exp[- (•)] 1 или tanh(-)).

Задача настройки нейронной сети [1-3] сводится к минимизации некоторого наперед выбранного функционала (критерия качества). Так, искомые матрицы весов скрытого V и выходного W слоев найдем, минимизируя функционалы:

I1 = *{(Z* (n)-WY(n))T (Z* (n)-W(n))j; (1)

I2 = trj(Y* (n) - VX(n))T (Y* (n) - W(n))j . (2)

Используя правила дифференцирования матричных выражений, из условий

5W

= 0

и

dI2_

5V

= 0

для случая, когда число указаний учителя превышает число неизвестных параметров, получаем следующие выражения для искомых оценок:

W(n) = Z*(n)YT (n)[Y(n)YT (n)]-1; (3)

V(n) = Y* (n)XT (n)[X(n)XT (n)]-1. (4)

Отметим, что в выражении (3) используются выходные сигналы скрытого слоя Y(n), информация о которых обычно отсутствует. Из условия

|1 = Z* (n)- WY(n) = 0

можно получить следующее соотношение для определения Y(n):

Y(n) = (wTw) 1WTZ* (n). (5)

Здесь принято во внимание, что n > m . Тогда компоненты желаемого сетевого входа выходного слоя

~i (n), i = 1, M определятся как yi = f (уі (n)l, а

действительный сетевой вход выходного слоя вычисляется так:

Y(n) = VX(n). (6)

С другой стороны, при известном желаемом выходе Z * (n) сети желаемый вход выходного слоя Y(n) может быть определен по формуле:

Y(n)=WT (n)W(n) WT (n)Z* (n),

(7)

74

РИ, 1997, № 1

-1

Рис. Трехслойная нейронная структура

где W (n) — матрица оценок искомых весов выход-

ного слоя; Z* (n) — N х n -матрица, элементами

которой являются ~ (j) = a-1 (zi (j)), i = 1,N; j = 1, n .

Выражения (3), (4), (5), (7) являются MHK-оценками, рекуррентные формы которых применительно к обучению нейронных структур приведены в [6,8,9,11]. Как уже отмечалось, более привлекательными являются оценки взвешенного MHK и его рекуррентные аналоги [4,11]. На наш взгляд, также более гибкими по сравнению с обычными MHK-оценками являются оценки, основанные на MHK, использующие однако ограниченное число обучающих образов, — оценки MHK с ограниченной (фиксированной) памятью (окном).

Обозначим буквой S фиксированное число используемых в алгоритме обучающих образов. Предположим, что s > M и s > L . Отметим, что схема вывода рекуррентной формы остается такой же, если при настройке матрицы весов W используются S образов ( s > M), а при настройке весовой матрицы V _ S' образов (S' > L). Тогда соответствующие оценки (3), (4) примут вид:

Ws (n) = Z S (n)Yj (n)[Ys (n)YsT (n)] 1;

(8)

Vs(n) = Ys(n)xT(n)Xs(n)xT(n)] , (9)

где ицдекс S говорит о том, что в алгоритмах используется информация об S последних обучающих образах.

Особенностью алгоритмов с S=const является то, что используемые в них матрицы формируются следующим образом: в матрицы после поступления каждого образа включается информация о вновь поступившем n-м образе, а из нее исключается информация об (п-8)-м. В зависимости от того, как формируется новая матрица (добавляется ли сначала новая информация, а затем исключается устаревшая либо же сначала исключается устаревшая, а затем добавляется новая), возможны две рекуррентные формы MHK с окном. Остановимся на этом подробней.

Так как рекуррентные формы для (8) и (9) получаются аналогично, рассмотрим рекуррентную форму оценки (8). Пусть на основе (п-1)-го образа получена оценка:

W (n _ 1) = Zs (n _ 1)yJ (n _ 1) Ys (n _ 1)yJ (n _ 1)] 1. (10)

Обозначим

R_1(n _ 1)= Ys (n _ 1)YST (n _ 1). (И)

При поступлении нового (п)-го образа строим новую вспомогательную оценку с использованием ^+1)-образа:

W(n) = Zs+1(n)YsT+1(n)Ps+1(n), (12)

РИ, 1997, № 1

75

где Ps+i(n)= Ys+i(n)YT+1(n)

-1

R

-1(n -1) + y(n)yT (n)] . (13)

Применение к (13) леммы об обращении матриц при условии, что матрица R-1 ( -1) — неособенная,

дает

ps +1(n) = Rs (n - 1)-

RS(n- !)y(n)yT(n)RS(n - !) 1+yT (n)Rs (n - 1)y(n)

. (14)

Подставив (14) в (12) с учетом (8), после несложных преобразований получим:

W (n) = W (n - 1) +

+ Rs (n - 1)y(n - S + 1)yT (n - S + 1)RS (n -1)

1 - yT (n - S + 1)Rs (n - 1)y(n - S +1) ;

Rs (n) = Ps-1( n -1)- pS-1(n - !)y(n)y T (n)pS-1(n -!) .

1 + y T (n)pS-1(n-1) y(n)

Начальные значения матриц P и R выбираются, как в обычном рекуррентном МНК. Как уже отмечалось, рекуррентные процедуры оценивания матрицы весов V легко могут быть получены аналогично. В соответствии с (4) в алгоритмах будут использоваться сетевые входы x(1), x(2),..., x(n) и желаемые выходы узлов скрытого слоя:

(21)

(22)

+

z*(n)- Ws (n - 1)y(n)]yT (n)ps+1(n).

(15)

А так как для получения МНК-оценки с окном S=const необходимо исключить (и-8+1)-й образ, можно записать

W(n) = ZS (n)YsT (n)Ps (n) (16)

где Rs (n)

Ys+1(n)Ys+1(n)- y(n - s+1)y(n - s+1)T ;

ZS(n)YsT(n) = ZS+1 (n)YsT+1 (n) - z(n - S + 1)yT(n - S +1) .

С учетом введенных обозначений и при тех же условиях, что и выше, получаем

RS(n) = pS+1( n) +

+ ps+1(n)y(n - S + 1)yT (n - s + 1)pS+1(n) .

1 - yT (n - s + 1)ps +1 (n)y(n - s + 1) (17)

Подстановка данного выражения в (16) приводит к следующей рекуррентной процедуре:

W( n) = W( n) -

^(n-S +1)-W(n)y(n-S +1) yT(n-S + 1)Rg(n) .(18)

Таким образом, рекуррентный алгоритм настройки матрицы весов W, получаемый путем добавления нового (п)-го обучающего образа и последующего исключения старого (n-S+1)-ra, описывается соотношениями (14), (15), (17), (18).

Если же при настройке весовой матрицы W сначала исключается самый старый, (п^+1)-й, образ, а затем добавляется вновь поступивший, (п)-й, то, как нетрудно показать, рекуррентная процедура настройки будет иметь вид:

*

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У (1),..., У (n).

Если ИНС содержат более одного скрытого слоя, процедуры коррекции матриц весов этих слоев будут иметь аналогичный вид и использовать как желаемые выходные сигналы данного слоя, так и выходные сигналы предыдущего скрытого слоя [12].

Литература: 1.Rojas R. Theorie der neuronalen Netze Springer. Verlag, Berlin: Heidelberg, New York.— 1997.— 446 s. 2.Bishop C.M. Neural networks for pattern recognition. Oxford: University Press.— 1995.— 482 p. 3.Scherer A. Neuronale Netze. Grundlagen und Anwendungen. Braunschweig/Wiesbaden: Vieweg.— 1997.— 249 s. 4. Chen C. LP. A rapid supervised learning neural network for function interpolation and approximation // IEEE Trans. Neural Networks.- 1996.- V.7.— №5.- P.1220-1229. 5.Narendra K. S., Parthasarathy K. Identification and control of dynamical systems using neural networks // IEEE Trans. Neural Networks.- 1990.- V. 1.- №1.- P.4-27. 6. Tiguni Y, SakaiH, Tokomura H. A real-time learning algorithm for a multilayered neural network based on the extended Kalmah filter // IEEE Trans. Signal Processing.- 1992.- V.40.- P.959-966. 7. Nelles

O, Ernst S, Isermann R. Neuronale Netre zur Identifikation nichtlinearer, dynamischer Systeme: Ein Ueberblick // Automatisierungstechnik.- 1997.- V.45.- №6.- S.251-262. 8. Chen S, Billings S. A. Neural network for nonlinear dynamic system modelling and identification // Int. J. Control.- 1992.- V.56.- №2.- P.319-346. 9. Jagannathan S, Lewis F. L. Multilayer discrete-time neural-net controller with guaranteed performance // IEEE Trans. Neural Networks.- 1996.- V.7.- №1.- P.107-130. 10. Cichocki A., Unbehauen R. Neural networks for optimization and signal processing, John Wiley & Sons.- 1997.- 521 p. 11. Chen S, Cowan C.F.N., Grant P. M. Orthogonal least squares lerning algorithm for radial basis function networks // IEEE Trans. Neural Networks.- 1991.- V.2.-№2.- P.302-309. 12. Wang G.-J, Chen C.-Ch. A fast multilayer neural-network training algorithm based on the layer-by-layer optimizing procedures. // IEEE Trans. Neural Networks.- 1996.- V.7.- №3.-

P. 768-775.

W (n) = W (n - 1) +

"(n)- W(n - 1)y(n) yT (n)ps-1(n - 1);

W (n) = W (n - 1)-[ z* (n - S +1)- W (n - 1)y(n - S + 1)]yT (n - S + 1)Rs (n -1); PS-1( n -1) = Rs (n -1) +

Поступила в редколлегию 28.12.97 Руденко Олег Григорьевич, д-р техн. наук, профес-(1Q) сор, зав. кафедрой ЭВМ ХТУРЭ. Научные интересы: ' адаптивные системы, нейронные сети. Увлечения: изобразительное искусство, южноамериканская литература. Адрес: 310726, Украина, Харьков, пр. Леннина, 14, тел. (0572)47-15-12.

(20) Штефан Андреас, д-р-инженер, руководитель фир-

мы «Dr. Stephan&Parnter, System- und Softwarehaus», Ильменау, Германия. Научные интересы: адаптивные системы. Увлечения: путешествия. Тел. 84-10-67.

76

РИ, 1997, № 1

i Надоели баннеры? Вы всегда можете отключить рекламу.