Научная статья на тему 'Обучение искусственных нейронных сетей в стохастических условиях'

Обучение искусственных нейронных сетей в стохастических условиях Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
253
55
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Воробьев Сергей Анатольевич

Рассматривается задача обучения искусственных нейронных сетей в стохастических условиях для прямонаправленных сетей типа радиально-симметричной сети и многослойного перцептрона. При этом, при синтезе алгоритмов настройки синаптических весов сети, важным является требование наличия фильтрующих свойств у разрабатываемых алгоритмов. Исследуется сходимость предлагаемых алгоритмов в стохастических условиях обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Воробьев Сергей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обучение искусственных нейронных сетей в стохастических условиях»

Таблица 2

Код 39 Код 128 EAN-13 Код варианта 1 Код варианта 2

do 2 2 2 2 4

Рош(2)*1011 10.5 5.5 2.1 10.5 10.5

РЛ03 0.1831 14 47 0.1221 0

РП *1013 0.1923 7.519 9.844 0.1282 0

Полезный эффект от применения предложенного корректирующего кода заключается в повышении верности считываемой информации и снижении требований к аппаратуре обеспечения.

Литература: 1. Стариченко ОГолуб В. Коды и кодирование информации, штриховое кодирование выбор и применение штриховых кодов//Руководящий нормативный документ по стандартизации КНД 50-051-95. К.: Госстандарт Украины. 1995. 32 с. 2. Али К. Абуд Аль-Амери. Способы и средства помехоустойчивого штрихо-

вого кодирования — декодирования алфавитно-цифровой информации. К. 1994. 24 с. 3. Шувалов В. П, Захарченко Н. В. И др./ Под ред. Шувалова В. П. Передача дискретных сообщений. М.: Радио и связь, 1990. 142 с. 4. Зюко А. Г., Кловский Д. Д, Назаров М. В., Финк Л. М. Теория передачи сигналов. М.: Радио и связь, 1986. 242с.

Поступила в редколлегию 12.03.98

Голуб Владимир Иванович, начальник инженерного центр украинского объединения почтовой связи “УКР-ПОЧТА”. Адрес: 252001, Украина, Киев-1, Хрещатик, 22, тел. (044) 228-37-12.

Жамхарьян Александр Сергеевич, аспирант кафедры сети связи, НИЛ-20. Адрес: 270021, Украина, Одесса, ул. Кузнечная, 1, тел. (8-0482) 23-61-80.

Фомина Ольга Владимировна, аспирант кафедры сети связи, НИЛ-20. Адрес: 270021, Украина, Одесса, ул. Кузнечная, 1, тел. (8-0482) 23-61-80.

УДК 681.51.015:519.7

ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ В СТОХАСТИЧЕСКИХ УСЛОВИЯХ

ВОРОБЬЕВ С.А.

Рассматривается задача обучения искусственных нейронных сетей в стохастических условиях для прямонаправленных сетей типа радиально-симметричной сети и многослойного перцептрона. При этом, при синтезе алгоритмов настройки синаптических весов сети, важным является требование наличия фильтрующих свойств у разрабатываемых алгоритмов. Исследуется сходимость предлагаемых алгоритмов в стохастических условиях обучения.

В последние годы для решения задач идентификации, моделирования и управления нелинейными системами широко применяются искусственные нейронные сети [ 1 -4]. Основными задачами при проектировании нейронной сети являются выбор ее архитектуры и типа активационных функций нейронов, разработка алгоритмов настройки синаптических весов нейронов (алгоритмов обучения). Подробнее остановимся на задаче обучения нейронной сети в стохастических условиях.

Градиентная процедура настройки синаптических весов имеет вид

а(к +1) = а(к) + п(к )s(k ,a)Vaf (р(к ),а) =

= а(к) + п(к )є(к ,а)0(р(к ),а). (1)

T

где а(к) = (а1(к),а2(к),...,аПа (к)) — вектор синап-

тических весов нейронной сети; ц(к) — параметр шага поиска, принимаемый чаще всего постоянным; Wmf(р(к),а) = 0(р(к),а) — градиент функции

f (р(к),а) по синаптическим весам; р(к) = (у(к -1),

...,у(к - п),и(к - 1),...,и(к - p))T ; f (•) - некоторая функция;

е(к ,а) = у (к) - у (к ,а) (2)

— ошибка идентификации; у(к) и и (к) — соответственно выход и вход системы; у (к,а) = f (ф(к ),а).

Далее остановимся на более конкретных задачах настройки нейронных сетей в стохастических условиях. Рассмотрим радиально-симметричную искусственную нейронную сеть (RBFN-сеть), которая состоит из трех слоев, называемых: входным, скрытым и выходным [5]. Функцией первого слоя является простое прохождение входного сигнала на уровень скрытого слоя, который выполняет нелинейное преобразование пространства входных сигналов в новое пространство. При этом преобразование строится с помощью активационной функции гауссовского типа

Hi = exp[-||x - С/| |2 / Sjf], l = 1,2,..., L,

где 11»|| — евклидова норма вектора; ci и Si — соответственно центр и ширина гауссовской функции. Выходной слой сети представляет собой линейную комбинацию выходов нейронов скрытого слоя

L

ут (к) = "Laim (к )Hi (к), m = 1,2,..., s, i=1 .

Здесь со1т (к) — настраиваемые весовые множители между скрытым и выходным слоем сети (синаптические веса). Таким образом, вектор настраиваемых синаптических весов m-го нейрона выходного слоя имеет вид

T

ат (к) = (а 1т (к),а2т (к),...,аLm (к)) .

Для идентификации детерминированных объектов в теории искусственных нейронных сетей применяется алгоритм Уидроу-Хоффа [6]:

л л H (к )б(к ,0» т )

О»т (к +1) = ю т (к) + 2 т H(к), (3)

\\Н(к)\\2 (3)

где H(к) = (Щ(к),H2(к),...,HL(к))Т , е(к,£т) =

= ут (к) О» т (к) H (к).

88

РИ, 1998, № 1

Однако при работе в стохастических условиях алгоритм (3) должен также обладать фильтрующими свойствами, что можно достичь, введя в (3) параметр сглаживания а:

(оm (к +1) = Оm (к) + ar 1(к)є(к,Оm )H(к),

и и 2

< r (к) = аг(к -1) +1H(к)|| ,

0 <а< 1, 0 < a < 2, r(0) = 1.

(4)

Алгоритм (4) совпадает с (3) при а = 0 и с процедурой Гудвина-Рэмеджа-Кейнеса [7] при а = 1.

Проведем анализ сходимости алгоритма (4). Запишем (4) относительно ошибки настройки синаптических весов с5т (к) =от (к) -соm (к):

О~т (к) = о m (к -1) + ar 1(к)H(к) х хе(к,Ооm).

Тогда функция Ляпунова примет вид

V(к) = ~m (к)~m (к) = V(к -1) +

+ 2ar -1 (к)~m (к - 1)H(к)(є(к,ооm) -- #m (к)) + 2ar -1 (к)~m (к - 1)H(к)4m (к) +

(5)

(6)

+ a2r-2 (к)||H(к)||2 (е(к,£m) -4m (к))2 +

+ 24m (к )(е(к, Оо m )-4 m (к)) + 4І(к), где 4m (к) — помеха с нулевым средним и ограничен-

2

ной дисперсией U4m . Вводя обозначения

4m (к) =е(к, £ m)-4m (к) и Ь(к) = -HT (к)~ m (к -1) и усредняя (6) по 4m (к), получаем

M{V(к) / 3 к } = V(к -1) - 2ar - (к) х

X Ь(к)4m (к) + a2r- (к)||H(к)f 4 (к) + (7)

a2r~2 (к)|H(,к)\\2v4 ,

11 и ^m

Здесь M {• / •} — символ условного математического ожидания; 3к — и -алгеб-.ра, порожденная величинами {>’(0),y(1),...,у(к)}, 30 с... сЗк .

Далее, как и в [7], будем рассматривать последовательность (7) как супермартингал. При этом принципиальным моментом является выполнение на каждом

шаге настройки сети условия r 2 (к) > r(к)r(h -1) или,

(а(ку(к-1) + +|\И(к)\\2)2 > (а(ку(к-1) + |\И(к)\^У(к-1).

Следовательно, нахождение требуемого а (к) связано с решением неравенства

(к) + а(к)(2r(к -1) H(к)\

2

- r2 (к - 1))r~2(к -1) + (|H(к)||4 -1|H(к)||2 Дк - l))r~2 (к -1) > 0,

которое принимает вид

где

\в(к) >.Щк),

в(к) = а (к) +

2\\H(к)\\ - ^к -1)

2r (к -1) :

m(к) =

( ,, „2 2 £2

2\\H(к)\\z - r2(к -1)

2r(h -1)

11 ц4 11 |,2

||H(к)||4 -||H(к)f r(к -1) = 1 r 2 (к -1) 4

Из (9), (10) получаем

II и 2

2 H(к f - r(к -1) 1

а(к) --------------> —,

2r (к -1) 2

откуда имеем

2

H (к )\\2

1 —----—<а(к) < 1.

r (к-1)

Из (11) следует очевидное соотношение

(1 -а(к)) Z ак-J-1|H(к)|2 < ||H(к)|2, j=1

(8)

(9)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(10)

(11)

являющееся решением уравнения а(к) = (а0а(к -1) + (1 -а0),0 <а0 < 1.

Следовательно, сходимость алгоритма (4) может обеспечиваться либо постоянным ростом величины

2

H (к) , что можно сделать путем настройки центра

и ширины гауссовской функции, либо соответствующим изменением параметра сглаживания а (к), который должен увеличиваться от 0 до 1.

Далее, используя в качестве характеристики скорости сходимости изменение функции Ляпунова на каждом шаге, можно оценить влияние а(к) на скорость сходимости алгоритма (9). Значение, обеспечивающее максимальную скорость сходимости, равно 2

rih) = a||H(к)|| .

Кроме того, r(к) определяется вторым соотношением из (4), откуда видно, что максимальное быстродействие алгоритма достигается при a = 1 и а(к) = 0, т. е. обеспечивается процедурой (3).

Следовательно, в стохастических условиях для RBFN-сети с алгоритмом настройки синаптических весов (4) следящие свойства алгоритма (4), которые определяют скорость обучения сети, вступают в противоречие с его фильтрующими свойствами. Поэтому в процессе настройки синаптических весов целесообразно начинать работу с малых значений

параметра а (к), обеспечивая тем самым высокую скорость обучения сети, далее увеличивать его до уровня, обеспечивающего компромисс между фильтрующими и следящими свойствами алгоритма (4).

Рассмотрим теперь задачу настройки многослойного перцептрона вида [8]:

РИ, 1998, № 1

89

Hq

y(k +1) = 2®(q)f

i=1

Hq -1

2 4?-1)f

t=1

f

2 a(j}y(k - j +1) + 2 af),+ju(k - j +1)

j=1

j=1

(12)

где aSk) — синаптические веса k -го слоя;

сигмои-

f (•) = {1 + exp[-(•)]} 1 или f (•) = tanh(^) дальная функция активации или функция гиперболического тангенса соответственно. Запишем нелинейный одношаговый вариант алгоритма Марквар-дта [9]:

a(k +1) = a(k) + (G(p(k),a)GT (p(k),a) + + p(k)E)~lG(p(k),a)e(k,a),

(13)

Здесь a(k) = (a1(k),a2(k),...,®na(k)) — (1xna) -век-

q

тор всех синаптических весов; na = t(ni + 1)ni+1 + nq-1nq,

i=0

q — количество слоев сети; ni,1 .' q < ni — количество нейронов /-го слоя; s(k,a) определяется соотношением (2); p(k) > 0 , E — единичная матрица, G(p(k),a) = Vaf (<p(k),a). Используя соотношения

lim (G(tp(k),a)GT (p(k),a) +

p(k )^0

_ + p(k) E)- = (G(p(k ),a)GT (p(k ),a))+,

(G(p(k ),a)GT (p(k ),a))+ G(p(k ),a) =

= (G(p(k),a))+ = G(p(k),a)\\G(p(k),a)|| 2,

запишем оптимальный по быстродействию вариант алгоритма (13) в виде

a(k +1) = a(k) + —У^4 G(p(k),a), (14)

||G(p(k),®)|| ( )

который в линейном случае совпадает с алгоритмом настройки синаптических весов Уидроу-Хоффа [7]. Как и в предыдущем случае, для того, чтобы придать дополнительные сглаживающие свойства алгоритму (14), необходимые при его использовании для настройки MLP-сети в задаче идентификации нелинейного нестационарного стохастического объекта, введем следующую экспоненциально-взвешенную модификацию:

a(k +1) = a(k) + r l(k)(y(k) - y(k,a))G(p(k),a),

и ii2

<r(k) = ar(k -1) + |\G(p(k),a)|| ,

0 < a < 1, r (0) = 1.

Анализ сходимости процедуры (15) можно провести с использованием той же техники, что была применена ранее. Однако следует учесть, что

G(p(k ),a) — это градиент активационной функции, а алгоритм (15) в целом является нелинейным. Литература: 1. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks // IEEE Trans. on Neural Networks. 1990. Vol.1, N1. P.4-26. 2. Sudharsanan S.I., Sudareshan M.K. Supervised training of dynamical neural networks for associative memory design and identification of nonlinear maps // Int. J. Neural Systems. 1994. Vol.5, N3. P.165-180. 3. Pham D.T., LiuX. Neural Networks for Identification, Prediction and Control. London: Springer-Verlag, 1995. 238p. 4. Chen S, Billings S.A. Neural networks for nonlinear dynamic system modeling and identification // Int. J. Control. 1992. Vol.56, N2. P.319346. 6. Moody J., Darken C.J. Fast learning in networks oflocally-tuned processing units // Neural Computation. 1989. N1. P.281 -294. 6. Rojas R. Neural Networks. A Systematic Introduction. Berlin: Springer-Verlag, 1996. 502p. 7. Goodwin G. C, Ramadge P.J., Caines P.E. A globally convergent adaptive predictor / / Automatica. 1981. Vol.17, N1. P.135-140. 8. Tan Y., van Cauwenberghe A. Nonlinear one-step-ahead control using neural networks: control strategy and stability design // Automatica. 1996. Vol.32, N12. P. 1701-1706. 9. Marquardt D. An algorithm for least-squares estimation on nonlinear parameters // SIAM J. Appl. Math. 1963. N11. P.431-441.

Поступила в редколлегию 05.03.98 Воробьев Сергей Анатольевич, канд. техн. наук, старший научный сотрудник проблемной научно-исследовательской лаборатории автоматизированных систем управления ХТУРЭ. Научные интересы: искусственные нейронные сети, фильтрация и прогнозирование нестационарных процессов, фракталы и фрактальная размерность, иррационализм. Хобби: психология, иностранные языки, музыка. Служебный адрес: 310726, Украина, Харьков, пр. Ленина, 14; тел. (0572)409890, (0572)434278, e-mail: svor@kture.kharkov.ua.

90

РИ, 1998, № 1

i Надоели баннеры? Вы всегда можете отключить рекламу.