1490 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1998. P.391-410. 8. Maleusieux F., Ridoux O., Boizumault P. Abstract compilation of Prolog. / In Jaar J. Editor // Joint International Conference and Symposium on Logic Programming. Manchester, United Kingdom. June 1998. MIT Press. P.130-144. 9. Power J., Robinson E. Premonoidal categories and notions of computation. // Mathematical Structures in Computer Science. № 7 (5). October 1997. P. 453-468. 10. Corradini A., Asperti A. A categorical model for logic programs: Indexed monoidal categories. / In Proceedings REX Workshop ’92 // Springer Lectures Notes in Computer Science. 1992. P. 5-36. 11. Corradini A., Montanari U. An algebraic semantics for structured transition systems and its application to logic programs. // Theoretical Computer Science. №103(1). August 1992. P.51- 106. 12. Barbuti R., Giacobazzi R., Levi G. A General Framework for Semantics-based Bottom-up Abstract Interpretation of Logic Programs // ACM Transactions on Programming Languages and Systems. № 15(1). 1993. P. 133-181. 13. Finkelstein S., Freyd P., Lipton J. Logic programming in tau categories. // In Computer Science Logic ’94, volume 933 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1995. P. 249-263. 14. Шекета В.І. Модифікаційні предикатні запити / Науковий журнал «Проблеми програмування» інституту програмних систем НАН України. 2004. №2 - 3. С.339-343
// Спеціальний випуск за матеріалами 4-ї МНПК “УкрП-рог'2004”, 1-3 червня 2004. Київ, Кібернетичний центр НАН України. 15. Шекета В.І. Ініціалізація еластичних семантик над простором Гербранда для модифікаційних предикатних запитів // Міжнародний науково-технічний журнал «Вимірювальна та обчислювальна техніка в технологічних процесах”. Хмельницький. 2003. № 2(22). С.13-18. 16. Шекета В.І. Aналіз семантики шаблонів виклику модифікаційних предикатних запитів для інформаційних систем на основі баз даних і знань // Комп’ютерна інженерія та інформаційні технології // Вісник національного університету “Львівська політехніка”. Львів. 2003. № 496. C.217s228 .
Надшшла до редколегії 12.09.2005
Рецензент: д-р техн. наук, проф. Горбійчук М.І.
Шекета Василь Іванович, канд. техн. наук, доцент кафедри програмного забезпечення факультету автоматизації та комп’ютерних наук Івано-Франківського національного технічного університету нафти і газу. Наукові інтереси: абстрактне логічне програмування, інформаційні системи на основі баз даних і знань. Адреса: Україна, 76019, м. Івано-Франківськ, вул. Карпатська, 15, тел.: (380) 03422 421-27 (роб.), е-mail: [email protected].
УДК 681.513:519.7
МНОГОМЕРНАЯ ИСКУССТВЕННАЯ НЕЙРОННАЯ СИГМА-ПИ СЕТЬ И АЛГОРИТМ ЕЕ ОБУЧЕНИЯ
БОДЯНСКИЙ Е.В., КУЛИШОВА Н.Е._____________
Предлагается многомерная искусственная нейронная сигма-пи сеть, позволяющая восстанавливать с заданной точностью произвольную многомерную функцию векторного аргумента. Отличительной особенностью сети является одновременное использование как радиально-базисных, так и сигмоидальных активационных функций. Предложенный градиентный алгоритм обучения основан на обратном распространении ошибки и позволяет настраивать синаптические веса сети в реальном времени. Результаты эксперимента не противоречат теоретическим.
Введение
Для решения задач моделирования, идентификации и управления широко применяются искусственные нейронные сети, в частности, многослойные персептро-ны (MLP) и радиально-базисные сети (RBFN) [1-4]. Многослойные персептроны весьма эффективны как универсальные аппроксиматоры [5]. По аппроксимирующим свойствам им не уступают и RBFN [6], однако низкая скорость обучения MLP, основанного на обратном распространении ошибок, ограничивает их применение, особенно в задачах реального времени. Основным же недостатком RBFN является экспоненциальный рост количества нейронов с увеличением размерности вектора входных сигналов, так называемое «проклятие размерности».
Обобщение положительных свойств MLP и RBFN обеспечивают Е -П нейронные сети [2]. Они организованы из двух слоев нейронов, причем нейроны
скрытого слоя имеют нелинейные функции активации двух типов (сигмоидальные и радиально-базисные). Выходной слой осуществляет линейную комбинацию выходных сигналов нейронов скрытого слоя. Хотя
подобная архитектура позволяет Е -П сети аппроксимировать практически любые функции [7], на практике это свойство реализовано в отношении систем с отображением Rn ^ R1 [8 - 11].
Целью исследований является разработка архитектуры Е -П сети, эффективной для интерполяции и аппроксимации многомерных функций.
1. Архитектура сети
Большинство реальных объектов характеризуется многомерными совокупностями входных и выходных параметров, в связи с чем для моделирования подобных объектов предлагается многомерная Е -П сеть, архитектура которой представлена на рис. 1.
Сеть имеет n входов в нулевом слое, содержит h пар нейронов в скрытом слое, m нейронов в выходном слое и реализует отображение у є Rn ^ x є Rm в форме y = F(x).
Вектор входной последовательности (n +1) поступает на скрытый слой, который состоит из двух блоков нейронов с разными функциями активации.
Каждому нейрону скрытого слоя предшествует сумматор с n+1 настраиваемыми входами каждый. Попарно нейроны объединены умножителями. Выходной слой образован m нейронами типа адаптивного линейного ассоциатора с h+1 входами каждый. Всего же сеть содержит h(2n+m+2)+m настраиваемых параметров, подлежащих восстановлению в процессе обучения.
122
BE, 2005, 1 4
Пусть нелинейный объект обладает неизвестной передаточной функцией такой, что
y (k) = f(x(k)), (1)
где x(k) - n-мерный вектор входных переменных; y(k) - m- мерный вектор выходных переменных.
Тогда выходной сигнал, формируемый сетью, соответствующей объекту (1) и содержащей h нейронов, можно записать в форме
y (k) = F(x(k)) = w 0 (k) + w (k)~ (k) =
= wo(k) + w(k)[9(v(k)) о y(u(k))] =
= wo (k) + w(k)[9i (a(k)x(k)) ° Vi (b(k)x(k))], (2)
здесь
w(k) - h x m, a(k) - h x (n +1), b(k) - h x (n +1)
- матрицы настраиваемых синаптических весов; wo (к) - m-мерный вектор синаптических весов; ф(») - радиально-базисные функции активации; ф(»)
- сигмоидальные функции активации; о - символ прямого произведения векторов.
Введя
Vi (k) = Е aij(k)xj(k) j=0
aT (k)x(k)
ui (k) = E bij(k)xj(k) = bT(k)x(k)
j=0
- входные векторы для нейронов скрытого слоя (здесь aT - i-я строка h x (n +1) матрицы весов a(k); bf
- i-я строка h x (n +1) матрицы весов b(k)), можно переписать (2) в форме:
y(k) = w 0 (k) + w(k)fo ( a(kMk)) ° Ф i (b(kMk))] =
= w0 (k)+w(кЇФі(Vi (k)) ° vi(u i (k))].
(3)
В качестве активационных функций, удовлетворяющих всем необходимым требованиям по точности аппроксимации [6], можно выбрать традиционный гауссиан и гиперболический тангенс
ф(и) = e ° , и) = tanh(u),
2
U
а также более простые тригонометрические функции
ф(и) = cos(u), ф(и) = sin(u).
BE, 2005, 1 4
123
2. Алгоритм обучения
Для настройки матрицы весов w(к) используется одношаговый критерий обучения
ВД = 2 |e(k)||2 = !| |y(k) - y (k)||2. (4)
Выходной слой образован адаптивными линейными ассоциаторами, а их обучение проводится путем минимизации критерия Е( к) в соответствии с известным алгоритмом Уидроу-Хоффа [2]:
w(k +1) = w (к) +
+ (y(k +1)- w(k)~ (к +1 ))yT (к +1)
1~<к +1)|2 ’
где е(к} = («Цк),к)ёт{к))Т - вектор апостериорных ошибок обучения нейронов выходного слоя.
Теперь можно окончательно записать процедуры обучения векторов параметров аг(к) и Ь,(к) в виде:
аг{к + ^ = а^к) + Ла{к)(у (к +1)-w (к + ^y (к +1))^ •
. . д®( af (к) х(к +1))
•W;^) Wi (ЬГ {к) ^ к + ^---—------^ *( к + 1
Ьг(к + 1) = Ь;(к) + % (к)(у{к +1)-w(к +1)у(к +1))Т ■
дуг (bf {к)х(к+1))
----------------х( к +1).
дщ у ’
•Wi^)К [af (к)х(к +1)]
где y (k +1) = (1, yT(k + 1))T —h +1) Х1 вектор выходных сигналов нейронов скрытого слоя. Алгоритм обучения можно записать в виде системы:
Jai(k +1) = ai(k) - % (k)Va. (k)E(k),
|bi(k +1) = bi(k) -^b(k)Vb.(k)E(k),
где ?7а(к),%(к) - параметры шага обучения матриц
а(к) и Ь(к) соответственно; ^a1(k)E(k),Vb.(k)E(k)
- градиент критерия обучения Е[к}.
Для определения градиента критерия (4) введем апостериорную ошибку
Є(к + 1) = (y (к + 1) - w (к + 1)y (к + 1) f w, (к + 1) (6)
(здесь wi{k +1) - i-я строка матрицы весов w(к +1)), которая с учетом (2) и (3) имеет вид:
e(k +1) = (y(k +1) -w(k)y(k + 1))Tw.(k +1) =
= (y(k +1) -w(k +1) •
3. Имитационный эксперимент
(9)
Для исследования аппроксимирующих свойств предложенных архитектуры и алгоритма обучения проведен эксперимент по восстановлению двухмерной тестовой последовательности, имеющей хаотическую структуру, которая описывается уравнениями Мандельброта [12]:
\ х(к +1) = х2(к) - у1 (к) + вх,
[ у( к +1) = 2 х( к) у( к) +ву. (10)
Аппроксимация проведена для 100 точек, обучение повторяется в ходе 40 эпох. Для алгоритма (5), (9) параметр шага составляет h = 0,01; количество нейронов в скрытом слое равно 20. Для сравнения модель (10) была также аппроксимирована многослойным персептроном, который содержит два скрытых слоя по 7 нейронов в каждом. Количество точек, эпох обучения и параметр шага для MLP выбраны такими же, как и для сигма-пи сети. Результаты аппроксимационной процедуры приведены на рис. 2.
• [фі (a(k + 1)x(k +1)) о у. (b(k + 1)x(k + 1))])T w. (k +1) =
= (y(k +1) - w(k +1) • [фі(v(k +1)) о у. (u(k + 1))])T w. (k +1).
(7)
Дифференцирование критерия Е(к} по переменным aij и bij с использованием апостериорной ошибки в форме (7) дает следующий результат:
Ж(к)
даИ
"(к)
сЄ( к)
daii
=-^{к) w-^) Vi (иДк))
д<р,{ у(к))
Ж
х#)=
Точность аппроксимации оценивалась посредством вычисления среднеквадратичного отклонения. Значения отклонения для разных сетей и для каждого сигнала в отдельности приведенні в таблице.
Многослойный персептрон Сигма-пи сеть
Сигнал х(к ) Сигнал У(к) Сигнал х(к ) Сигнал У(к )
Средне- квадратичное отклонение 0.1030 0.1110 0.0210 0.0115
= -еТ'
, .дщ (af (к) х( к))
(к) v, (bf (к) #))--^" хАк);
m ^ ш ^(к, wiW я( .,м) ^ хдк,.
. .дщ (bf (к) х( к))
(к) "#) я К (к) х( к))--------хАк),
= -еТ'
(8)
Полученный алгоритм обучения достаточно прост с вычислительной точки зрения и позволяет решать в реальном времени задачи эмуляции нелинейных нестационарных объектов управления. Особенно эффективным представляется применение данного алгоритма в задачах большой размерности.
124
BE, 2005, 1 4
Выводы
Научная новизна разработанной архитектуры искусственной нейронной сети заключается в удачном сочетании преимуществ радиально-базисных и сигмоидальных активационных функций. Градиентный алгоритм обучения позволяет настраивать синаптические веса сети в реальном времени с заданной точностью. Практическое значение имеют высокая скорость обучения и универсальные аппроксимирующие свойства предложенной сети, они будут особенно полезны при обработке многомерных функций векторного аргумента. В перспективе исследования предполагают разработку сигма-пи сети без использования процедуры прямого произведения входных векторов скрытого слоя.
Литература: 1. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks// IEEE Trans. on Neural Networks. 1990. 1, № 1. P. 4 - 27. 2. Cichocki A., Unbehauen R. Neural Networks for Optimization and Signal Processing. Stuttgart: Teubner, 1993. 526 p. 3. Elanaya S.V.T., Shin Yu. C. Radial basis function neural network for approximation and estimation of nonlinear stochastic dynamic systems // IEEE Trans. on Neural Networks. 1994. 5, № 4. P. 594 - 603. 4. Pham D. T., Liu X. Neural Networks for Identification, Prediction and Control. London: Springer-Verlag, 1995. 238 p. 5. Hornik K. Approximation capabilities of multilayer feedforward networks// Neural Networks. 1991.4, P. 251 - 257. 6. Park J., Sandberg I.W. Universal approximation using radial-basis
function networks// Neural Computation. 1991.3. P. 246 - 257.
7. Luo Yu., Shen Sh. Lp Approximation of Sigma-Pi neural networks//IEEE Trans. on Neural Networks. 2000. 11, № 6. P. 1485 - 1489. 8. Бодянский Е.В., Колодяжный В.В., Кулишо-ва Н.Е. Прогнозирующая сигма-пи искусственная нейронная сеть // Матеріали міжнар. конф. з управління «Автоматика - 2001». Одеса, 2001. Т. 2. С. 141.9. Бодянский Е.В., Кулишова Н.Е. Обобщенный алгоритм обучения прогнозирующей искусственной S-P нейронной сети// Проблемы бионики. 2001. Вып. 54. С. 10 - 14. 10. Бодянский Е.В., Кулишова Н. Е. S-P искусственная нейронная сеть на обобщенных формальных нейронах// Сб. науч. трудов 7-й меж-дунар. конф. «Теория и техника передачи, приема и обработки информации». Харьков: ХТУРЭ, 2001. С. 404 - 405.
11. Bodyanskiy Y., Kolodyazhniy V., Kulishova N. Generalized forecasting Sigma-Pi neural network//Intelligent Technologies - Theory and Applications. Ed. by Sincak P., Vascak J., Kvasnicka V., Pospichal J. Amsterdam. Berlin. Oxford. Tokyo. Washington: IOS Press. 2002. 36 p. 12. Mandelbrot B.B. Die fraktale Geometrie der Natur.Basel: Birkhaеuser Verlag, 1991. 491 S.
Поступила в редколлегию 12.12.2005
Рецензент: д-р техн. наук, проф. Алексеев О.П.
Бодянский Евгений Владимирович, д-р техн. наук, проф. кафедры искусственного интеллекта ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. (0572) 702-18-90.
Кулишова Нонна Евгеньевна, канд. техн. наук, с.н.с., доц. каф. инженерной и компьютерной графики ХНУРЭ. Адрес: 61166, Харьков, пр. Ленина, 14, тел. (0572) 702-13-78.
б
в
Рис. 2. Результаты имитационного эксперимента: а - аппроксимация x(k); б - аппроксимация y(k) (исходная функция практически совпадает с выходом сигма-пи сети); в - среднеквадратичная ошибка аппроксимации сигма-пи сети по эпохам (по оси абсцисс - логарифмические показатели); г - среднеквадратичная ошибка аппроксимации MLP по эпохам
BE, 2005, 1 4
125