СИСТЕМЫ И ПРОЦЕССЫ УПРАВЛЕНИЯ
УДК 681.513
ПРОГНОЗИРУЮЩАЯ АДАПТИВНАЯ НЕЙРОННАЯ СЕТЬ С ДИНАМИЧЕСКИМИ НЕЙРОНАМИ-ФИЛЬТРАМИ
БОДЯНСКИЙЕ.В., ПОПОВ С.В., ЧЕПЕНКО ТЕ.
Рассматривается задача прогнозирования в реальном времени нестационарных временных последовательностей в условиях структурной и параметрической неопределенности. Предлагается модифицированный алгоритм обучения прогнозирующей нейронной сети, элементами которой являются динамические нейроны — фильтры с конечной импульсной характеристикой — КИХ-нейроны.
Задача прогнозирования нестационарных временных рядов по их предыстории, заданной в виде растущей выборки наблюдений x(1), x(2), x(k), ..., часто встречается в различных областях науки, техники и экономики, а для ее решения наработан достаточно мощный арсенал разнообразных методов.
В случае, если прогнозирование необходимо производить в реальном времени по мере поступления новых данных, весьма эффективным представляется адаптивный подход, возможности которого ограничены требованием априорного задания структуры математической модели прогнозируемого процесса. Если же природа временной последовательности неизвестна, наиболее адекватным в данной ситуации является применение искусственных нейронных сетей (ИНС), позволяющих по прошлым наблюдениям восстановить нелинейное отображение вида
x(k) = Я (x (k -1), x(k - 2),..., x (k - nA)) +
+e(k) = x(k) + e(k), (1)
где X(k) — оценка (прогноз) значения x(k), полученная на выходе искусственной нейронной сети, представляющей в данном случае нелинейную авторегрессионную модель; e(k) — ошибка прогнозирования.
Эффективность использования НАР-модели в задачах прогнозирования определяется теоремой Тэ-кенса о диффеоморфизме [1], устанавливающей существование порядка nA, который обеспечивает
сколь угодно малые значения ошибки e(k), и универсальными аппроксимирующими свойствами нейронных сетей [2, 3]. В качестве основы для построения НАР-моделей обычно используются многослойные ИНС с прямой передачей информации, входной (нулевой) слой которых образован линиями элементов чистой задержки с отводами. На рис. 1. приведена обобщенная архитектура
На первый скрытый слой сети поступает
n = П1 = Па = nA] -мерный вектор x[1], сформированный в нулевом слое с помощью элементов задержки z-1 (z-1x(k) = x(k—1)) и образованный прошлыми значениями прогнозируемого процесса
x(k-1), x(k -2},..., x^k -nA]). Выходным сигналом первого скрытого слоя является (n[2] '1)-вектор x[2], подающийся на вход второго скрытого слоя и т.д. На выходе L-го (выходного) слоя появляется прогнозный m = -мерный вектор x(k). Таким образом, каждый слой имеет n[l] входов и n[l+1] выходов и характеризуется ((n[l] + 1)' n[l+1])-матрицей синаптических весов Wtl] и (n[l+1] 'n[l+1])-диагональным оператором Т[1], образованным нелинейными функциями активации у[1] ,j = 1, 2,...,
n[l+1].
“Строительным блоком” такой сети является стандартный статический нейрон, реализующий нелинейное отображение
n[l] + 1 синаптических весов wW которого подлежат уточнению в процессе обучения нейронной сети.
Всего сеть содержит неизвестных
1=р '
1-й скрытый слой 2-й скрытый слой выходной слой
Рис. 1. L-слойная ИНС с прямой передачей информации
48
РИ, 2003, № 2
параметров, настраиваемых с помощью процедуры обратного распространения ошибок.
Общим недостатком прогнозирующих сетей, построенных на статических нейронах, является чрезвычайно большое количество настраиваемых весов и низкая скорость обучения, что, естественно, вызывает серьезные проблемы, особенно при работе в реальном времени. В связи с этим Э. Ваном [47] было предложено в прогнозирующих нейронных сетях вместо стандартных статических нейронов использовать их динамические аналоги, у которых синаптические веса образованы цифровыми фильтрами с конечной импульсной характеристикой (КИХ-фильтры) так, как это показано на рис. 3.
Рис. 3. Синапс — КИХ-фильтр
Несложно видеть, что
ui'i+11W=''S'iW'w-W'WV -1+•••
,и
+w [i]xl
JinA
и(к - nAl)
или uJ'+1 (k) = wJ? Txi^ (k), где
wJ? =[ЦМЗ--J I >
!4(k) ==( *!4W.*S4(k-0 *їЧ(к - n £])
|nA + ^ x1j -векторы.
Тогда нелинейное отображение, реализуемое динамическим КИХ-нейроном, условное изображение которого приведено на рис. 4, можно записать в виде
ijl+1 (k) = yW |ujl+1 (k)j = yW
( [il Л
V Р+Чги
L uJi W
'=0
. ( „м
z wJ?Tx!4w
i=0
И хотядинамический нейрон содержит |„A] + ij +1
параметров, что превышает количество синаптических весов стандартного нейрона, сеть, построенная из таких узлов, содержит много меньше параметров, чем стандартная архитектура на статических нейро -нах с линиями задержки на входе, реализующая те же функции. В [5] было доказано, что в сети на стандартных нейронах количество параметров растет геометрически в зависимости от nA, в то время как в ИНС с динамическими нейронами число настраиваемых синаптических весов есть линейная функция от nA и L.
Для обучения ИНС на динамических нейронах в [4, 5] была введена градиентная процедура, получившая название обратного распространения ошибок во времени (Temporal error backpropagation—TEBP). Вводя в рассмотрение стандартный одношаговый критерий обучения
J(k) = 2|e(k)||2 = 1 d(k)-xW,wW,_,WL^
=2||d(k) - x(k)||2
(здесь d(k) — обучающий сигнал, в качестве которого в задачах прогнозирования принимается текущее значение x(k)), можно записать в общем виде алгоритм его минимизации:
wJ?(k+1=W!?(k)-4 l](k) vWj^(^,
где -qt Ч (k) — параметр, определяющий скорость сходимости процесса обучения и полагаемый в TEBP-процедуре постоянным [4-7].
Применяя далее цепное правило в виде
VwHJ(k)= -
5J(k)
SuJl+1l (k)
/ mu' wJIJ J
[i+i]
W,
получаем
WJ?(k +1 =
= w{‘](k) -4 l](k)-
5J(k)
,1
5uJ1+^ (k)
V w MurJ(k)
(2)
РИ, 2003, № 2
49
С учетом того, что
іН ЛЛ = V Jl+1]
»rw = 2 = S w|i]Tx[4(k)
i i
и ^w^Ujl+1 (k) = X-^ (k), можно ввести в рассмот-
dJ(k) = gp] /^1
рение локальную ошибку п+н, . п / и окон-
6uj J (kj
чательно представить алгоритм обучения (2) в форме wj!](k +1) = wP](k) 4(k)sH(k)x{l](k).
Процесс вычисления локальных ошибок, следуя обычной методике обратного распространения, начнем с выходного слоя, выходной сигнал которого является и выходом сети в целом, т.е.
(k) = *M(k).
x(KJ = x1 Поскольку
{L+Ч ги - Jk) -1 5Іle(k)ll _
= -e
(k) ' jL+1]| j(k) ^ jL] '(ujL+4w)>
sur^J(k)
от
[L+1]
(k)
алгоритм настройки нейронов выходного слоя сразу же можно записать в виде
(3)
+e
а + j[L (k)
после чего переписать алгоритм (4) в виде
w!4(k+1) . wj[4W+
j[L(k)
а +
2 ’
который является обобщением процедуры обучения многослойных ИНС, введенной в [9], а при а^-0 представляет нелинейное расширение алгоритма Уидроу-Хоффа.
Для скрытых слоев сети локальная ошибка может быть записана в форме
jw =.,м
Д!+Ч +k
Z Z
q=1 t=k
SJ(k)
J!+14]+k
= z z
Jk) gu[ql+1(t)
9uj^ (k) q=1 t=k 5uql+1 (t) 6uj (k)
4+1(t)
Jl]|
= z z e](trq
= Y
Suj^ (k)
и. i u^^f r« ^
' ' q=1 t=k Sxj ' (k)
С учетом соотношения
ujpw= i wjqvxpt - kq
k'=0
„М
ДЧ .xW,
W(L(k +1 =
= W(L (k) + 4L (k)ej (k)УjL jujL+1 (^jXiL (k) =
= wjiL](^+4 L](k)ej(k)j[L(k).
Скорость настройки сети существенным образом зависит от значения скалярного параметра ^L (k) и может быть увеличена путем использования процедур второго порядка, среди которых наиболее распространен алгоритм Л евенберга- Марквардта [8], принимающий в данном случае вид
w(L(k +1) = wjL(k) + j«(j[4«j[4TM+«f‘j[4W- (4)
где a>0 — регуляризующий параметр; I — единичная матрица соответствующего размера.
Хотя данный алгоритм обладает высокой скоростью сходимости, его использование в реальном времени ограничивается необходимостью обращения на каждом такте (n[L] 'n[L])-матрицы. Используя для обращения формулу Шермана-Моррисона и проводя цепочку очевидных преобразований, можно получить простое выражение
[L](
получаем выражение
5ujlq+1(t)
дч
MJ-k "ри 0 ^t -k ^ n!S>
Sxj ^ (k) [о в противном случае,
откуда локальная ошибка окончательно приобретает вид
ЧЧ+k
fw4й '(ujV)) 2 2
v > q=1 t=k
w1
[l]
jqt-k
4+4
[l-= r
Г1 і -M +o
' ' q=1 r=0
, ч П! +1]
P'(u(4W) X Ar1TWwjJ
w(q =
(qr
(5)
где aW (k) = (s[4 (k), 8q4(k+1),..., sP! (k+nj[“4) J.
С учетом (5) алгоритм обратного распространения ошибок во времени может быть записан в виде
w(!] (k +1) = wj[J (k) -Ч (k)5p (k)x[1J (k), (6)
і = wW /Уї - J4 (k Д1+1
P]<
здесь
(J[L](k)J[L]T(k) + al) lj[LW = J[ ^ 2 5j4(k) =
-ej(k) у j1 1 '( ujl](k)j, 1 = L,
у jM] І uj1^1 A[ql+1^k)
w
p]
jq’
1 < !<L-1.
В целях оптимизации по скорости процесса обучения в скрытых слоях перепишем алгоритм их настройки в виде
50
РИ, 2003, № 2
wi?(k+о=w!;iw -
_j 'і
I „М
Z A['+4T(^w]
V l'"4 '( »ІЧ(Ч)х[Ч(к):
V 4-1 )
(k) + ^4 (k) J (k) y|1_^ J (k) j xJ4 (k) = ['І/тіДД/тітМі
= wW
ji
= wjj (k) + цш (k) J (k) T^ (k)
после чего, применяя алгоритм Левенберга-Марк-вардта и формулу Шермана-Моррисона, окончательно получаем простую адаптивную процедуру:
щ м eJ^(k)jP(k)
w[;](k+1=w[i]^) +J і<і
a +
т|Ч(к)
< 1 < L . (7)
Чтобы придать алгоритму (7) сглаживающие свойства, которые необходимы при обработке “зашумленных” сигналов, процедуру обучения можно модифицировать следующим образом [ 10]:
wW (k +1) = wJ? (k) +
eJ1](k)Ti1](k)
a[4(k)
(k +1) = Pa^ (k) + T^ (k)
і - 4
И,
(8)
0 < p < 1,
где p — параметр сглаживания.
Несложно видеть, что при р=0 приходим к нелинейной форме алгоритма Уидроу-Хоффа, при р=1 получаем процедуру стохастической аппроксимации.
Сеть на динамических нейронах может работать в двух режимах: обучения и собственно прогнозирования, при этом благодаря “внутренней памяти” КИХ-нейронов на вход ИНС достаточно подавать лишь одно значение прогнозируемой последовательности так, как это показано на рис. 5.
Рис. 5. Нейронная сеть в режиме обучения
Более глубокая предыстория сигнала формируется в динамических нейронах скрытых слоев. Таким образом, при прогнозировании одномерных временных рядов ИНС имеет только один вход, в то время как использование статических нейронов приводит к тому, что сеть должна иметь как минимум nA входов.
Режим прогнозирования, иллюстрируемый рис. 6, реализуется еще проще, при этом выходной сигнал (прогноз) сети по обратной связи через элемент задержки z-1 подается на ее вход.
Рис. 6. Нейронная сеть в режиме прогнозирования
Таким образом, прогнозирующая адаптивная нейронная сеть с динамическими нейронами — КИХ-фильтрами, обладая стандартной архитектурой многослойной ИНС с прямой передачей информации, имеет меньшее количество настраиваемых синаптических весов и характеризуется высокой скоростью обучения.
Литература: 1. Packard N, Crutchfield J., Farmer J., Shaw R. Geometry from a time series // Phys. Rev. Lett. 1980. 45. P. 712-716. 2. HornikK, StinchcombeM, White H. Multilayer feedforward networks are universal approximators // Neural Networks. 1989. 2. P. 359-366. 3. Cybenko G. Approximation by superpositions of a sigmoidal function // Mathematics of Control, Signals and Systems. 1989. 2. N4. P. 303-314. 4. Wan E. Temporal backpropagation for FIR neural networks // Int. Joint Conf. on Neural Networks. V. 1. San Diego, 1990. P. 575-580. 5. GershenfeldS.F. Studies in the Sciences of Complexity. Vol. XVII. Reading: Addison-Wesley, 1994. P. 195-218. 6. BackA.D., WanE.A., Lawrence S., Tsoi A.C. A unifying view of some training algorithms for multilayer perceptrons with FIR filter synapses / Ed. by J. Vlontzes, J. Hwang, E. Wilson “Neural Networks for Signal Processing”. N.J.: IEEE Press, 1994. P. 146-154. 7. Yu H.-Y, Bang S.-Y. An improved time series prediction by applying the layer-by-layer learning method to FIR neural networks // Neural Networks. 1997. 10. P. 17171729. 8. Nelles O. Nonlinear System Identification. Berlin: Springer, 2001. 785 p. 9. Бодянский E.B., Запорожец О.В. Адаптивный нейрорегулятор для нелинейного динамического объекта // Изв. РАН. Теория и системы управления. 2002. N 2. С. 92-96. 10. Bodyanskiy Ye., Kolodyazhniy V., Stephan A. An adaptive learning algorithm for a neuro-fuzzy network // Ed. by B. Reusch “Computational Intelligence. Theory and Applications”. Berlin-Heidelberg-New York: Springer, 2001. P. 68-75.
Поступила в редколлегию 24.03.2003.
Рецензент: д-р техн. наук, проф. Алексеев О.П.
Бодянский Евгений Владимирович, д-р техн. наук, профессор кафедры искусственного интеллекта, научный руководитель ПНИЛ АСУ ХНУРЭ, член IEEE. Научные интересы: адаптивные системы, искусственные нейронные сети. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 702-18-90. E-mail: [email protected]
Попов Сергей Витальевич, канд. техн. наук, старший научный сотрудник ПНИЛ АСУ ХНУРЭ, член IEEE. Научные интересы: обработка и прогнозирование стохастических процессов и полей на основе адаптивных и нейросетевых технологий. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 702-18-90. E-mail: [email protected]
Чепенко Татьяна Евгеньевна, аспирантка кафедры искусственного интеллекта ХНУРЭ. Научные интересы: прогнозирование временных рядов различной физической природы. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.
РИ, 2003, № 2
51