Научная статья на тему 'Многомерная искусственная нейронная сигма-пи сеть и алгоритм ее обучения'

Многомерная искусственная нейронная сигма-пи сеть и алгоритм ее обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
835
124
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бодянский Евгений Владимирович, Кулишова Нонна Евгеньевна

Предлагается многомерная искусственная нейронная сигма-пи сеть, позволяющая восстанавливать с заданной точностью произвольную многомерную функцию векторного аргумента. Отличительной особенностью сети является одновременное использование как радиально-базисных, так и сигмоидальных активационных функций. Предложенный градиентный алгоритм обучения основан на обратном распространении ошибки и позволяет настраивать синаптические веса сети в реальном времени. Результаты эксперимента не противоречат теоретическим.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Multidimensional artificial neural sigma-pi network and its learning algorithm

The approximation problem of objects with many inputs and many outputs (MIMO) is considered. For system simulation with multidimensional input and output parameter sets multidimensional artificial neural Sigma-Pi network is offered. This networks combine the advantages of the multilayer perceptrons and radial basis function networks. Comparison with the multilayer perceptron in the chaotic process approximation problem is given.

Текст научной работы на тему «Многомерная искусственная нейронная сигма-пи сеть и алгоритм ее обучения»

1490 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1998. P.391-410. 8. Maleusieux F., Ridoux O., Boizumault P. Abstract compilation of Prolog. / In Jaar J. Editor // Joint International Conference and Symposium on Logic Programming. Manchester, United Kingdom. June 1998. MIT Press. P.130-144. 9. Power J., Robinson E. Premonoidal categories and notions of computation. // Mathematical Structures in Computer Science. № 7 (5). October 1997. P. 453-468. 10. Corradini A., Asperti A. A categorical model for logic programs: Indexed monoidal categories. / In Proceedings REX Workshop ’92 // Springer Lectures Notes in Computer Science. 1992. P. 5-36. 11. Corradini A., Montanari U. An algebraic semantics for structured transition systems and its application to logic programs. // Theoretical Computer Science. №103(1). August 1992. P.51- 106. 12. Barbuti R., Giacobazzi R., Levi G. A General Framework for Semantics-based Bottom-up Abstract Interpretation of Logic Programs // ACM Transactions on Programming Languages and Systems. № 15(1). 1993. P. 133-181. 13. Finkelstein S., Freyd P., Lipton J. Logic programming in tau categories. // In Computer Science Logic ’94, volume 933 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1995. P. 249-263. 14. Шекета В.І. Модифікаційні предикатні запити / Науковий журнал «Проблеми програмування» інституту програмних систем НАН України. 2004. №2 - 3. С.339-343

// Спеціальний випуск за матеріалами 4-ї МНПК “УкрП-рог'2004”, 1-3 червня 2004. Київ, Кібернетичний центр НАН України. 15. Шекета В.І. Ініціалізація еластичних семантик над простором Гербранда для модифікаційних предикатних запитів // Міжнародний науково-технічний журнал «Вимірювальна та обчислювальна техніка в технологічних процесах”. Хмельницький. 2003. № 2(22). С.13-18. 16. Шекета В.І. Aналіз семантики шаблонів виклику модифікаційних предикатних запитів для інформаційних систем на основі баз даних і знань // Комп’ютерна інженерія та інформаційні технології // Вісник національного університету “Львівська політехніка”. Львів. 2003. № 496. C.217s228 .

Надшшла до редколегії 12.09.2005

Рецензент: д-р техн. наук, проф. Горбійчук М.І.

Шекета Василь Іванович, канд. техн. наук, доцент кафедри програмного забезпечення факультету автоматизації та комп’ютерних наук Івано-Франківського національного технічного університету нафти і газу. Наукові інтереси: абстрактне логічне програмування, інформаційні системи на основі баз даних і знань. Адреса: Україна, 76019, м. Івано-Франківськ, вул. Карпатська, 15, тел.: (380) 03422 421-27 (роб.), е-mail: [email protected].

УДК 681.513:519.7

МНОГОМЕРНАЯ ИСКУССТВЕННАЯ НЕЙРОННАЯ СИГМА-ПИ СЕТЬ И АЛГОРИТМ ЕЕ ОБУЧЕНИЯ

БОДЯНСКИЙ Е.В., КУЛИШОВА Н.Е._____________

Предлагается многомерная искусственная нейронная сигма-пи сеть, позволяющая восстанавливать с заданной точностью произвольную многомерную функцию векторного аргумента. Отличительной особенностью сети является одновременное использование как радиально-базисных, так и сигмоидальных активационных функций. Предложенный градиентный алгоритм обучения основан на обратном распространении ошибки и позволяет настраивать синаптические веса сети в реальном времени. Результаты эксперимента не противоречат теоретическим.

Введение

Для решения задач моделирования, идентификации и управления широко применяются искусственные нейронные сети, в частности, многослойные персептро-ны (MLP) и радиально-базисные сети (RBFN) [1-4]. Многослойные персептроны весьма эффективны как универсальные аппроксиматоры [5]. По аппроксимирующим свойствам им не уступают и RBFN [6], однако низкая скорость обучения MLP, основанного на обратном распространении ошибок, ограничивает их применение, особенно в задачах реального времени. Основным же недостатком RBFN является экспоненциальный рост количества нейронов с увеличением размерности вектора входных сигналов, так называемое «проклятие размерности».

Обобщение положительных свойств MLP и RBFN обеспечивают Е -П нейронные сети [2]. Они организованы из двух слоев нейронов, причем нейроны

скрытого слоя имеют нелинейные функции активации двух типов (сигмоидальные и радиально-базисные). Выходной слой осуществляет линейную комбинацию выходных сигналов нейронов скрытого слоя. Хотя

подобная архитектура позволяет Е -П сети аппроксимировать практически любые функции [7], на практике это свойство реализовано в отношении систем с отображением Rn ^ R1 [8 - 11].

Целью исследований является разработка архитектуры Е -П сети, эффективной для интерполяции и аппроксимации многомерных функций.

1. Архитектура сети

Большинство реальных объектов характеризуется многомерными совокупностями входных и выходных параметров, в связи с чем для моделирования подобных объектов предлагается многомерная Е -П сеть, архитектура которой представлена на рис. 1.

Сеть имеет n входов в нулевом слое, содержит h пар нейронов в скрытом слое, m нейронов в выходном слое и реализует отображение у є Rn ^ x є Rm в форме y = F(x).

Вектор входной последовательности (n +1) поступает на скрытый слой, который состоит из двух блоков нейронов с разными функциями активации.

Каждому нейрону скрытого слоя предшествует сумматор с n+1 настраиваемыми входами каждый. Попарно нейроны объединены умножителями. Выходной слой образован m нейронами типа адаптивного линейного ассоциатора с h+1 входами каждый. Всего же сеть содержит h(2n+m+2)+m настраиваемых параметров, подлежащих восстановлению в процессе обучения.

122

BE, 2005, 1 4

Пусть нелинейный объект обладает неизвестной передаточной функцией такой, что

y (k) = f(x(k)), (1)

где x(k) - n-мерный вектор входных переменных; y(k) - m- мерный вектор выходных переменных.

Тогда выходной сигнал, формируемый сетью, соответствующей объекту (1) и содержащей h нейронов, можно записать в форме

y (k) = F(x(k)) = w 0 (k) + w (k)~ (k) =

= wo(k) + w(k)[9(v(k)) о y(u(k))] =

= wo (k) + w(k)[9i (a(k)x(k)) ° Vi (b(k)x(k))], (2)

здесь

w(k) - h x m, a(k) - h x (n +1), b(k) - h x (n +1)

- матрицы настраиваемых синаптических весов; wo (к) - m-мерный вектор синаптических весов; ф(») - радиально-базисные функции активации; ф(»)

- сигмоидальные функции активации; о - символ прямого произведения векторов.

Введя

Vi (k) = Е aij(k)xj(k) j=0

aT (k)x(k)

ui (k) = E bij(k)xj(k) = bT(k)x(k)

j=0

- входные векторы для нейронов скрытого слоя (здесь aT - i-я строка h x (n +1) матрицы весов a(k); bf

- i-я строка h x (n +1) матрицы весов b(k)), можно переписать (2) в форме:

y(k) = w 0 (k) + w(k)fo ( a(kMk)) ° Ф i (b(kMk))] =

= w0 (k)+w(кЇФі(Vi (k)) ° vi(u i (k))].

(3)

В качестве активационных функций, удовлетворяющих всем необходимым требованиям по точности аппроксимации [6], можно выбрать традиционный гауссиан и гиперболический тангенс

ф(и) = e ° , и) = tanh(u),

2

U

а также более простые тригонометрические функции

ф(и) = cos(u), ф(и) = sin(u).

BE, 2005, 1 4

123

2. Алгоритм обучения

Для настройки матрицы весов w(к) используется одношаговый критерий обучения

ВД = 2 |e(k)||2 = !| |y(k) - y (k)||2. (4)

Выходной слой образован адаптивными линейными ассоциаторами, а их обучение проводится путем минимизации критерия Е( к) в соответствии с известным алгоритмом Уидроу-Хоффа [2]:

w(k +1) = w (к) +

+ (y(k +1)- w(k)~ (к +1 ))yT (к +1)

1~<к +1)|2 ’

где е(к} = («Цк),к)ёт{к))Т - вектор апостериорных ошибок обучения нейронов выходного слоя.

Теперь можно окончательно записать процедуры обучения векторов параметров аг(к) и Ь,(к) в виде:

аг{к + ^ = а^к) + Ла{к)(у (к +1)-w (к + ^y (к +1))^ •

. . д®( af (к) х(к +1))

•W;^) Wi (ЬГ {к) ^ к + ^---—------^ *( к + 1

Ьг(к + 1) = Ь;(к) + % (к)(у{к +1)-w(к +1)у(к +1))Т ■

дуг (bf {к)х(к+1))

----------------х( к +1).

дщ у ’

•Wi^)К [af (к)х(к +1)]

где y (k +1) = (1, yT(k + 1))T —h +1) Х1 вектор выходных сигналов нейронов скрытого слоя. Алгоритм обучения можно записать в виде системы:

Jai(k +1) = ai(k) - % (k)Va. (k)E(k),

|bi(k +1) = bi(k) -^b(k)Vb.(k)E(k),

где ?7а(к),%(к) - параметры шага обучения матриц

а(к) и Ь(к) соответственно; ^a1(k)E(k),Vb.(k)E(k)

- градиент критерия обучения Е[к}.

Для определения градиента критерия (4) введем апостериорную ошибку

Є(к + 1) = (y (к + 1) - w (к + 1)y (к + 1) f w, (к + 1) (6)

(здесь wi{k +1) - i-я строка матрицы весов w(к +1)), которая с учетом (2) и (3) имеет вид:

e(k +1) = (y(k +1) -w(k)y(k + 1))Tw.(k +1) =

= (y(k +1) -w(k +1) •

3. Имитационный эксперимент

(9)

Для исследования аппроксимирующих свойств предложенных архитектуры и алгоритма обучения проведен эксперимент по восстановлению двухмерной тестовой последовательности, имеющей хаотическую структуру, которая описывается уравнениями Мандельброта [12]:

\ х(к +1) = х2(к) - у1 (к) + вх,

[ у( к +1) = 2 х( к) у( к) +ву. (10)

Аппроксимация проведена для 100 точек, обучение повторяется в ходе 40 эпох. Для алгоритма (5), (9) параметр шага составляет h = 0,01; количество нейронов в скрытом слое равно 20. Для сравнения модель (10) была также аппроксимирована многослойным персептроном, который содержит два скрытых слоя по 7 нейронов в каждом. Количество точек, эпох обучения и параметр шага для MLP выбраны такими же, как и для сигма-пи сети. Результаты аппроксимационной процедуры приведены на рис. 2.

• [фі (a(k + 1)x(k +1)) о у. (b(k + 1)x(k + 1))])T w. (k +1) =

= (y(k +1) - w(k +1) • [фі(v(k +1)) о у. (u(k + 1))])T w. (k +1).

(7)

Дифференцирование критерия Е(к} по переменным aij и bij с использованием апостериорной ошибки в форме (7) дает следующий результат:

Ж(к)

даИ

"(к)

сЄ( к)

daii

=-^{к) w-^) Vi (иДк))

д<р,{ у(к))

Ж

х#)=

Точность аппроксимации оценивалась посредством вычисления среднеквадратичного отклонения. Значения отклонения для разных сетей и для каждого сигнала в отдельности приведенні в таблице.

Многослойный персептрон Сигма-пи сеть

Сигнал х(к ) Сигнал У(к) Сигнал х(к ) Сигнал У(к )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Средне- квадратичное отклонение 0.1030 0.1110 0.0210 0.0115

= -еТ'

, .дщ (af (к) х( к))

(к) v, (bf (к) #))--^" хАк);

m ^ ш ^(к, wiW я( .,м) ^ хдк,.

. .дщ (bf (к) х( к))

(к) "#) я К (к) х( к))--------хАк),

= -еТ'

(8)

Полученный алгоритм обучения достаточно прост с вычислительной точки зрения и позволяет решать в реальном времени задачи эмуляции нелинейных нестационарных объектов управления. Особенно эффективным представляется применение данного алгоритма в задачах большой размерности.

124

BE, 2005, 1 4

Выводы

Научная новизна разработанной архитектуры искусственной нейронной сети заключается в удачном сочетании преимуществ радиально-базисных и сигмоидальных активационных функций. Градиентный алгоритм обучения позволяет настраивать синаптические веса сети в реальном времени с заданной точностью. Практическое значение имеют высокая скорость обучения и универсальные аппроксимирующие свойства предложенной сети, они будут особенно полезны при обработке многомерных функций векторного аргумента. В перспективе исследования предполагают разработку сигма-пи сети без использования процедуры прямого произведения входных векторов скрытого слоя.

Литература: 1. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks// IEEE Trans. on Neural Networks. 1990. 1, № 1. P. 4 - 27. 2. Cichocki A., Unbehauen R. Neural Networks for Optimization and Signal Processing. Stuttgart: Teubner, 1993. 526 p. 3. Elanaya S.V.T., Shin Yu. C. Radial basis function neural network for approximation and estimation of nonlinear stochastic dynamic systems // IEEE Trans. on Neural Networks. 1994. 5, № 4. P. 594 - 603. 4. Pham D. T., Liu X. Neural Networks for Identification, Prediction and Control. London: Springer-Verlag, 1995. 238 p. 5. Hornik K. Approximation capabilities of multilayer feedforward networks// Neural Networks. 1991.4, P. 251 - 257. 6. Park J., Sandberg I.W. Universal approximation using radial-basis

function networks// Neural Computation. 1991.3. P. 246 - 257.

7. Luo Yu., Shen Sh. Lp Approximation of Sigma-Pi neural networks//IEEE Trans. on Neural Networks. 2000. 11, № 6. P. 1485 - 1489. 8. Бодянский Е.В., Колодяжный В.В., Кулишо-ва Н.Е. Прогнозирующая сигма-пи искусственная нейронная сеть // Матеріали міжнар. конф. з управління «Автоматика - 2001». Одеса, 2001. Т. 2. С. 141.9. Бодянский Е.В., Кулишова Н.Е. Обобщенный алгоритм обучения прогнозирующей искусственной S-P нейронной сети// Проблемы бионики. 2001. Вып. 54. С. 10 - 14. 10. Бодянский Е.В., Кулишова Н. Е. S-P искусственная нейронная сеть на обобщенных формальных нейронах// Сб. науч. трудов 7-й меж-дунар. конф. «Теория и техника передачи, приема и обработки информации». Харьков: ХТУРЭ, 2001. С. 404 - 405.

11. Bodyanskiy Y., Kolodyazhniy V., Kulishova N. Generalized forecasting Sigma-Pi neural network//Intelligent Technologies - Theory and Applications. Ed. by Sincak P., Vascak J., Kvasnicka V., Pospichal J. Amsterdam. Berlin. Oxford. Tokyo. Washington: IOS Press. 2002. 36 p. 12. Mandelbrot B.B. Die fraktale Geometrie der Natur.Basel: Birkhaеuser Verlag, 1991. 491 S.

Поступила в редколлегию 12.12.2005

Рецензент: д-р техн. наук, проф. Алексеев О.П.

Бодянский Евгений Владимирович, д-р техн. наук, проф. кафедры искусственного интеллекта ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. (0572) 702-18-90.

Кулишова Нонна Евгеньевна, канд. техн. наук, с.н.с., доц. каф. инженерной и компьютерной графики ХНУРЭ. Адрес: 61166, Харьков, пр. Ленина, 14, тел. (0572) 702-13-78.

б

в

Рис. 2. Результаты имитационного эксперимента: а - аппроксимация x(k); б - аппроксимация y(k) (исходная функция практически совпадает с выходом сигма-пи сети); в - среднеквадратичная ошибка аппроксимации сигма-пи сети по эпохам (по оси абсцисс - логарифмические показатели); г - среднеквадратичная ошибка аппроксимации MLP по эпохам

BE, 2005, 1 4

125

i Надоели баннеры? Вы всегда можете отключить рекламу.