матрицы
УДК 681.513.7
Z(n), Z* (n), Z(n), Z*(n) є RN x n —
ОБ ОДНОМ АЛГОРИТМЕ ОБУЧЕНИЯ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ
РУДЕНКО О.Г., ШТЕФАНА.
Предлагается рекуррентный алгоритм настройки параметров многослойной нейронной сети, основанный на методе наименьших квадратов и использующий ограниченное число обучающих образов.
Искусственные нейронные сети (ИНС) находят все более широкое применение при решении задач классификации и распознавания образов [1-3], прогнозирования [4], оценивания и идентификации [58], управления сложными объектами [5,9], обработки сигналов [10-12]. ИНС являются альтернативой классическим методам, использующим математические модели заданной структуры в виде различных полиномов. Основной особенностью ИНС является их способность к обучению, осуществляемому путем коррекции весовых параметров, используемых при описании ИНС, и основанному на сравнении выходных сигналов нейронной сети с обучающими образами, поступающими в последовательные моменты времени. Так как ИНС представляют собой многослойные структуры, при коррекции этих параметров используется информация о желаемых (оптимальных) сигналах скрытых слоев. Несмотря на то, что такая информация практически всегда отсутствует, обучение нейронной сети возможно.
Наиболее широкое распространение для коррекции параметров в ИНС получил back propagation algorithm [1-3]. Однако в последнее время все большее внимание исследователей привлекает метод наименьших квадратов (МНК) и его модификации, эффективность которых при решении данной задачи обучения подтверждается многочисленными работами [6,8,9,11,12]. В этих работах изучается МНК, рекуррентный МНК (РНМК) и взвешенный РНМК, причем оценки последнего более привлекательны, так как могут быть применены и для коррекции нестационарных параметров.
Рассмотрим еще одну модификацию МНК — РНМК со скользящим окном (с ограниченной или фиксированной памятью), который, как и взвешенный РНМК, удобен для коррекции изменяющихся во времени параметров.
Трехслойная нейронная структура, представленная на рис., содержит один скрытый слой и L, M и N узлов во входном, скрытом и выходном слоях соответственно.
Обучающие образы поступают в последовательные моменты времени n=0,1,2, ... Для любого момента времени n данная структура может быть
охарактеризована матрицами: x(n) є RL х n — матрица входов, составленная из текущих векторов входного обучающего образа
x(i) = (-1, x1 (i), x2 (i), ..., xL (i))T размерности
L x 1 (i = 1, n);
значений действительных и желаемых выходов, действительных и желаемых входов выходного слоя соответственно;
Y(n), Y* (n), Y(n), Y*(n) є RM x n — матрицы значений действительных и желаемых выходов, действительных и желаемых входов скрытого слоя
соответственно; V є rlx M, W є RM xN —
матрицы весов скрытого и выходного слоев соответственно; f(•), ст() — функции активации (например,
{ + exp[- (•)] 1 или tanh(-)).
Задача настройки нейронной сети [1-3] сводится к минимизации некоторого наперед выбранного функционала (критерия качества). Так, искомые матрицы весов скрытого V и выходного W слоев найдем, минимизируя функционалы:
I1 = *{(Z* (n)-WY(n))T (Z* (n)-W(n))j; (1)
I2 = trj(Y* (n) - VX(n))T (Y* (n) - W(n))j . (2)
Используя правила дифференцирования матричных выражений, из условий
5W
= 0
и
dI2_
5V
= 0
для случая, когда число указаний учителя превышает число неизвестных параметров, получаем следующие выражения для искомых оценок:
W(n) = Z*(n)YT (n)[Y(n)YT (n)]-1; (3)
V(n) = Y* (n)XT (n)[X(n)XT (n)]-1. (4)
Отметим, что в выражении (3) используются выходные сигналы скрытого слоя Y(n), информация о которых обычно отсутствует. Из условия
|1 = Z* (n)- WY(n) = 0
можно получить следующее соотношение для определения Y(n):
Y(n) = (wTw) 1WTZ* (n). (5)
Здесь принято во внимание, что n > m . Тогда компоненты желаемого сетевого входа выходного слоя
~i (n), i = 1, M определятся как yi = f (уі (n)l, а
действительный сетевой вход выходного слоя вычисляется так:
Y(n) = VX(n). (6)
С другой стороны, при известном желаемом выходе Z * (n) сети желаемый вход выходного слоя Y(n) может быть определен по формуле:
Y(n)=WT (n)W(n) WT (n)Z* (n),
(7)
74
РИ, 1997, № 1
-1
Рис. Трехслойная нейронная структура
где W (n) — матрица оценок искомых весов выход-
ного слоя; Z* (n) — N х n -матрица, элементами
которой являются ~ (j) = a-1 (zi (j)), i = 1,N; j = 1, n .
Выражения (3), (4), (5), (7) являются MHK-оценками, рекуррентные формы которых применительно к обучению нейронных структур приведены в [6,8,9,11]. Как уже отмечалось, более привлекательными являются оценки взвешенного MHK и его рекуррентные аналоги [4,11]. На наш взгляд, также более гибкими по сравнению с обычными MHK-оценками являются оценки, основанные на MHK, использующие однако ограниченное число обучающих образов, — оценки MHK с ограниченной (фиксированной) памятью (окном).
Обозначим буквой S фиксированное число используемых в алгоритме обучающих образов. Предположим, что s > M и s > L . Отметим, что схема вывода рекуррентной формы остается такой же, если при настройке матрицы весов W используются S образов ( s > M), а при настройке весовой матрицы V _ S' образов (S' > L). Тогда соответствующие оценки (3), (4) примут вид:
Ws (n) = Z S (n)Yj (n)[Ys (n)YsT (n)] 1;
(8)
Vs(n) = Ys(n)xT(n)Xs(n)xT(n)] , (9)
где ицдекс S говорит о том, что в алгоритмах используется информация об S последних обучающих образах.
Особенностью алгоритмов с S=const является то, что используемые в них матрицы формируются следующим образом: в матрицы после поступления каждого образа включается информация о вновь поступившем n-м образе, а из нее исключается информация об (п-8)-м. В зависимости от того, как формируется новая матрица (добавляется ли сначала новая информация, а затем исключается устаревшая либо же сначала исключается устаревшая, а затем добавляется новая), возможны две рекуррентные формы MHK с окном. Остановимся на этом подробней.
Так как рекуррентные формы для (8) и (9) получаются аналогично, рассмотрим рекуррентную форму оценки (8). Пусть на основе (п-1)-го образа получена оценка:
W (n _ 1) = Zs (n _ 1)yJ (n _ 1) Ys (n _ 1)yJ (n _ 1)] 1. (10)
Обозначим
R_1(n _ 1)= Ys (n _ 1)YST (n _ 1). (И)
При поступлении нового (п)-го образа строим новую вспомогательную оценку с использованием ^+1)-образа:
W(n) = Zs+1(n)YsT+1(n)Ps+1(n), (12)
РИ, 1997, № 1
75
где Ps+i(n)= Ys+i(n)YT+1(n)
-1
R
-1(n -1) + y(n)yT (n)] . (13)
Применение к (13) леммы об обращении матриц при условии, что матрица R-1 ( -1) — неособенная,
дает
ps +1(n) = Rs (n - 1)-
RS(n- !)y(n)yT(n)RS(n - !) 1+yT (n)Rs (n - 1)y(n)
. (14)
Подставив (14) в (12) с учетом (8), после несложных преобразований получим:
W (n) = W (n - 1) +
+ Rs (n - 1)y(n - S + 1)yT (n - S + 1)RS (n -1)
1 - yT (n - S + 1)Rs (n - 1)y(n - S +1) ;
Rs (n) = Ps-1( n -1)- pS-1(n - !)y(n)y T (n)pS-1(n -!) .
1 + y T (n)pS-1(n-1) y(n)
Начальные значения матриц P и R выбираются, как в обычном рекуррентном МНК. Как уже отмечалось, рекуррентные процедуры оценивания матрицы весов V легко могут быть получены аналогично. В соответствии с (4) в алгоритмах будут использоваться сетевые входы x(1), x(2),..., x(n) и желаемые выходы узлов скрытого слоя:
(21)
(22)
+
z*(n)- Ws (n - 1)y(n)]yT (n)ps+1(n).
(15)
А так как для получения МНК-оценки с окном S=const необходимо исключить (и-8+1)-й образ, можно записать
W(n) = ZS (n)YsT (n)Ps (n) (16)
где Rs (n)
Ys+1(n)Ys+1(n)- y(n - s+1)y(n - s+1)T ;
ZS(n)YsT(n) = ZS+1 (n)YsT+1 (n) - z(n - S + 1)yT(n - S +1) .
С учетом введенных обозначений и при тех же условиях, что и выше, получаем
RS(n) = pS+1( n) +
+ ps+1(n)y(n - S + 1)yT (n - s + 1)pS+1(n) .
1 - yT (n - s + 1)ps +1 (n)y(n - s + 1) (17)
Подстановка данного выражения в (16) приводит к следующей рекуррентной процедуре:
W( n) = W( n) -
^(n-S +1)-W(n)y(n-S +1) yT(n-S + 1)Rg(n) .(18)
Таким образом, рекуррентный алгоритм настройки матрицы весов W, получаемый путем добавления нового (п)-го обучающего образа и последующего исключения старого (n-S+1)-ra, описывается соотношениями (14), (15), (17), (18).
Если же при настройке весовой матрицы W сначала исключается самый старый, (п^+1)-й, образ, а затем добавляется вновь поступивший, (п)-й, то, как нетрудно показать, рекуррентная процедура настройки будет иметь вид:
*
У (1),..., У (n).
Если ИНС содержат более одного скрытого слоя, процедуры коррекции матриц весов этих слоев будут иметь аналогичный вид и использовать как желаемые выходные сигналы данного слоя, так и выходные сигналы предыдущего скрытого слоя [12].
Литература: 1.Rojas R. Theorie der neuronalen Netze Springer. Verlag, Berlin: Heidelberg, New York.— 1997.— 446 s. 2.Bishop C.M. Neural networks for pattern recognition. Oxford: University Press.— 1995.— 482 p. 3.Scherer A. Neuronale Netze. Grundlagen und Anwendungen. Braunschweig/Wiesbaden: Vieweg.— 1997.— 249 s. 4. Chen C. LP. A rapid supervised learning neural network for function interpolation and approximation // IEEE Trans. Neural Networks.- 1996.- V.7.— №5.- P.1220-1229. 5.Narendra K. S., Parthasarathy K. Identification and control of dynamical systems using neural networks // IEEE Trans. Neural Networks.- 1990.- V. 1.- №1.- P.4-27. 6. Tiguni Y, SakaiH, Tokomura H. A real-time learning algorithm for a multilayered neural network based on the extended Kalmah filter // IEEE Trans. Signal Processing.- 1992.- V.40.- P.959-966. 7. Nelles
O, Ernst S, Isermann R. Neuronale Netre zur Identifikation nichtlinearer, dynamischer Systeme: Ein Ueberblick // Automatisierungstechnik.- 1997.- V.45.- №6.- S.251-262. 8. Chen S, Billings S. A. Neural network for nonlinear dynamic system modelling and identification // Int. J. Control.- 1992.- V.56.- №2.- P.319-346. 9. Jagannathan S, Lewis F. L. Multilayer discrete-time neural-net controller with guaranteed performance // IEEE Trans. Neural Networks.- 1996.- V.7.- №1.- P.107-130. 10. Cichocki A., Unbehauen R. Neural networks for optimization and signal processing, John Wiley & Sons.- 1997.- 521 p. 11. Chen S, Cowan C.F.N., Grant P. M. Orthogonal least squares lerning algorithm for radial basis function networks // IEEE Trans. Neural Networks.- 1991.- V.2.-№2.- P.302-309. 12. Wang G.-J, Chen C.-Ch. A fast multilayer neural-network training algorithm based on the layer-by-layer optimizing procedures. // IEEE Trans. Neural Networks.- 1996.- V.7.- №3.-
P. 768-775.
W (n) = W (n - 1) +
"(n)- W(n - 1)y(n) yT (n)ps-1(n - 1);
W (n) = W (n - 1)-[ z* (n - S +1)- W (n - 1)y(n - S + 1)]yT (n - S + 1)Rs (n -1); PS-1( n -1) = Rs (n -1) +
Поступила в редколлегию 28.12.97 Руденко Олег Григорьевич, д-р техн. наук, профес-(1Q) сор, зав. кафедрой ЭВМ ХТУРЭ. Научные интересы: ' адаптивные системы, нейронные сети. Увлечения: изобразительное искусство, южноамериканская литература. Адрес: 310726, Украина, Харьков, пр. Леннина, 14, тел. (0572)47-15-12.
(20) Штефан Андреас, д-р-инженер, руководитель фир-
мы «Dr. Stephan&Parnter, System- und Softwarehaus», Ильменау, Германия. Научные интересы: адаптивные системы. Увлечения: путешествия. Тел. 84-10-67.
76
РИ, 1997, № 1