Научная статья на тему 'Численные методы обучения искусственной нейронной сети'

Численные методы обучения искусственной нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
821
108
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / ARTIFICIAL NEURAL NETWORKS / ИНТЕГРО-ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ / INTEGRO-DIFFERENTIAL EQUATIONS / ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ / OPTIMAL CONTROL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Андреева Елена Аркадьевна, Мазурова Ирина Сергеевна

Решается задача моделирования и обучения искусственной нейронной сети достаточно общей топологии, динамика которой описывается системой интегро-дифференциальных уравнений. Задача обучения искусственной нейронной сети рассматривается как задача оптимального управления с нефиксированным временем. Сформулированы необходимые условия оптимальности весовых коэффициентов искусственной нейронной сети и внешнего управляющего воздействия с учетом заданных ограничений и вида функционала. Исходная задача сведена к дискретной задаче оптимального управления, которая решается на основе методологии быстрого автоматического дифференцирования. Проведен анализ влияния параметров задачи на оптимальное решение.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Андреева Елена Аркадьевна, Мазурова Ирина Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NUMERICAL METHODS OF ARTIFICIAL NEURAL NETWORK TRAINING

The problem of artificial neural network modeling is studied. The artificial neural network is characterized by the enough general topology and is described by the system of integral differential equations. Training on the artificial neural network usage is considered as an optimal control problem with variable duration of the process. Considering the defined constraints and the form of the functional, the necessary conditions of optimality of the artificial neural network weighting coefficients incorporating external influence are formulated. The initial current problem is reduced to a discrete optimal control problem, which is solved by the methodology of the fast automatic differentiation. The influence of the task parameters on the optimal solution is analyzed.

Текст научной работы на тему «Численные методы обучения искусственной нейронной сети»

УЧЕНЫЕ ЗАПИСКИ ПЕТРОЗАВОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Декабрь, № 8. Т. 1 Физико-математические науки 2014

УДК 519.7

ЕЛЕНА АРКАДЬЕВНА АНДРЕЕВА

доктор физико-математических наук, профессор, заведующий кафедрой компьютерной безопасности и математических методов управления математического факультета, Тверской государственный университет (Тверь, Российская Федерация) andreeva. tvgu@yandex. ru

ИРИНА СЕРГЕЕВНА МАЗУРОВА аспирант кафедры компьютерной безопасности и математических методов управления математического факультета, Тверской государственный университет (Тверь, Российская Федерация)

IrinaSMazurova@gmail. com

ЧИСЛЕННЫЕ МЕТОДЫ ОБУЧЕНИЯ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ*

Решается задача моделирования и обучения искусственной нейронной сети достаточно общей топологии, динамика которой описывается системой интегро-дифференциальных уравнений. Задача обучения искусственной нейронной сети рассматривается как задача оптимального управления с нефиксированным временем. Сформулированы необходимые условия оптимальности весовых коэффициентов искусственной нейронной сети и внешнего управляющего воздействия с учетом заданных ограничений и вида функционала. Исходная задача сведена к дискретной задаче оптимального управления, которая решается на основе методологии быстрого автоматического дифференцирования. Проведен анализ влияния параметров задачи на оптимальное решение.

Ключевые слова: искусственные нейронные сети, интегро-дифференциальные уравнения, оптимальное управление

ВВЕДЕНИЕ

В последние десятилетия большое внимание уделяется исследованию искусственных нейронных сетей, которые эффективно используются в различных системах управления, медицине и экономике. В статье рассмотрена проблема моделирования и обучения искусственных нейронных сетей с достаточно общей топологией, описываемой системой интегро-дифференциальных уравнений. При этом целью обучения является минимизация ошибки обучения, энергии сети и времени обучения, то есть решается многокритериальная задача. Для решения этой задачи используется аппарат математической теории оптимального управления, с помощью которого находятся оптимальные значения весовых коэффициентов дискретной нейронной сети. Заметим, что таким способом может быть решен большой класс задач, включающих создание ассоциативной памяти, модель распознавания образов, прогнозирования и т. д.

ПОСТАНОВКА ЗАДАЧИ

Рассмотрим математическую модель нейронной сети, в которой динамика отдельного нейрона описывается на основе биологических предпосылок [1], [5]. Искусственная нейронная сеть состоит из нейронов, каждый из которых взаимодействует со всеми остальными нейронами. Воздействие j-го нейрона на i-й нейрон в момент времени t характеризуется весовым коэффициентом Wj.(t). Пусть x(t) - функция, характеризу-

© Андреева Е. А., Мазурова И. С., 2014

ющая состояние i-го нейрона в момент времени t, i = 1, n . Динамика искусственной нейронной сети описывается системой интегро-дифферен-циальных уравнений:

( • n Л

X (t) = ~РгХг (t) + f I J X ЮУ (z)xj (z)dz + Угиг (t) ,

V0 j=1 ) (1)

t e[0,T ]

с начальными условиями x;(0) = в, i = 1, n , (2)

где в - параметр, определяющий скорость затухания i-го нейрона при отсутствии внешнего воздействия, fi - функция активации, при этом yt ui (t) - внешнее воздействие на нейрон в момент времени t. Коэффициенты е, в, уi, i, j = 1, n , - заданные неотрицательные параметры модели.

Весовые коэффициенты нейронной сети w^t) и внешние воздействия ui(t) являются функциями

управления и ограничены ____

\а>у (t)| < atj, |u,.(t)| < at, i, j = 1,n , п. в. t e [0,T] (3)

где a у, a., i, j = 1, n , заданные положительные параметры модели, полагаем mu (t) = 0.

Задача оптимального управления заключается в минимизации функционала:

T n n

J (m, u) = J X (X am2 (t)+ 2 (t)) dt +

0 '=1 j'=! (4)

+ X Mt X (T) - 4 )2 + T,

i=1

где первое слагаемое характеризует энергию рассматриваемой нейронной сети, зависящую

112

Е. А. Андреева, И. С. Мазурова

от текущей конфигурации сети, atj - параметр, определяющий меру влияния значения весового коэффициента между нейронами i и j и на минимизируемый функционал, второе слагаемое характеризует ошибку обучения нейронной сети, - параметр, определяющий меру воздействия этого слагаемого на минимизируемый функционал, A - целевой вектор.

Задача оптимального управления заключается в том, чтобы обучить нейронную сеть таким образом, чтобы минимизировать функционал (4) и построить оптимальные значения весовых коэффициентов, внешнего управляющего воздействия. Задача оптимального управления с нефиксированным временем процесса была рассмотрена в работе [2] для модели искусственной нейронной сети, описываемой системой дифференциальных уравнений с запаздывающим аргументом.

НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ

Особенностью поставленной задачи является большая размерность управляющих функций, наличие распределенного запаздывания и нефиксированное время процесса.

Для решения задачи (1)-(4) перейдем от задачи оптимального управления с нефиксированным временем процесса к задаче с фиксированным временем процесса. Для этого осуществим следующую параметризацию:

t(т) = £т, те [0,T0], t(T0) = £T0 = T и введем обозначения:

x(t(t)) = x(T), a>(t(T)) = О(T), u(t(т)) = й(т).

В этих обозначениях задача оптимального управления примет вид:

i0 n n

J (X (т),о(т), U (т), t (т)) = J £ J (J av (d)j (t))2

0 i =1 j =1

+ (т) )dT + JM,■(x, (T0) - A )2 + t(T0 ),

x, (T) = T) + £f I £ J&j (z)Xj (z)dz

^ 0 j=1

i = 1, n , t(T) = £. Введем новые переменные:

yi(t) = £ j J О(z)Xj(z)dz, i =1n,

+уи(т)

0 j =1

такие что

У(T) = £ J <S>ij(T)X (т), i = У n, y(0) = 0 .

j=1

У (T) = £ J (T) (T), i = 1, n,

%) = £.

Построим функцию Понтрягина:

H (t, X, y ,m, U,£, r, p, s,A0) =

= -£ (J (mv (t))2 + aUi (t)2 ) +

i=1 j=1

+J Pi (т)(-£РХ (t) + £f (у (t) ) + £yiUi (t)) + (9)

n f n

+J r (t) £J®j (t) (t)

i=1 j=1

+ s(T)£.

Теорема. Пусть а>0 (T),i,j = 1, n - оптимальные весовые коэффициенты, г/, (т), i = 1,n - оптимальные управляющие внешние воздействия, £ - оптимальное значение параметра, <х. и <7i отличны от нуля, тогда

®(т) =

aij, Ф(т) > av _

Фу (т),1 Фу (т)1- aj- , i, j = 1 n, (10)

-aij , Ф j (T) <-ay

где

. ,, riT)Xj(т) . . —

Ф j (т) = тгт~---, г, J = 1,n ,

u (т =

2Х,Щ/

at, Y i(т) > a _

Yi T),|Yi T)|< a., i = 1, n,

-ai, Y i(T) <-ai

(11)

где

Yi(t) = PT^, i = 1,и.

2Л0а.

0i

n n

= -0 J (J av (d\ (T))2 + &iUi(T)2 ) +

+J Pi (т)(-д-х, (t)+fi (.^i(т))+уя (t)) + (12)

(5)

J Г T) J^^j-(T) Ъ(T)

j=1

+ s(T) = 0,

а система дифференциальных уравнений для сопряженных функций имеет вид (13):

pi(т) = £Pi (т)Д - £J rj (T)®ji(T), i =1, n (13)

j=1

r (T) = -£pt (t) ^7^-, s(T) = 0,

с условием трансверсальности на правом конце (14):

В этих переменных исходная система примет вид (6)-(8): __

Xi (T) = -£РХ T) + £fi (y>i (T)) + £yz/i (T), i = 1, и , (6)

pt (T) = ~2AMi (X. (T0)-A,), i =1, и

r (T0) = 0, i =1,n , s(T0) = -V

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(14)

(7)

(8)

ДИСКРЕТНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

Для определения оптимального решения рассмотрим дискретную аппроксимацию начальной задачи, в которой используется правило левых

Численные методы обучения искусственной нейронной сети

113

прямоугольников для аппроксимации интеграла и схема Эйлера аппроксимации производных. Вводя следующие обозначения Ат = T0 / q,

тк = kАт, tq = т0 , х = %(тд yk = утх

сак = Q (т), йгк = йг {тк X i, j = X n к = 0, q -1, п°с-троим дискретную задачу оптимального управления, которая состоит в минимизации функции:

q-1 n n

I (t, x, у, Q, й, Т) = АтТ£ £ (£ aj (Q )2 +

n k=1 г=1 j =12 (15)

+ ^ak2) + ZMt (xtq - a ) + tq,

при ограничениях

- ATPxk + ATfi [yk) + , (16)

xk+1 = xk

yk+1 = yk +

А<£

j=1

tk+1 = tk +АТ,

sy-x;,

i = 1, n, k = 0, q -1.

На функции управления наложены ограничения

|<| - ая,Щ,‘ = 0. К‘| - а,, (17)

i, j = 1, n, k = 0, q -1.

Для решения задачи (15)—(17) в работе используется методология быстрого автоматического дифференцирования, разработанная в ВЦ РАН под руководством Ю. Г. Евтушенко, позволяющая с единых позиций определять градиенты для явно и неявно определенных функций и для вычислительных процессов, которые являются результатом дискретизации непрерывных систем, описываемых дифференциальными и интегро-дифференциальными уравнениями [4]. В соответствии с методологией быстрого автоматического дифференцирования введем множители Лагранжа p, r и s, тогда функция Лагранжа для данной задачи может быть представлена следующим выражением

q-1 n n

L(t, x y, ю, й, т r, p, Mo)=a ATZ Z (Z a <4k)2 +

k =0 i =1 j=1 q-1

-an*2) +Aatq +A ZM' X - A') +ZZ Pik+1(xk

i=1 k=0 i=1

+АтЩХ? -АтТ/(y.k)-АтТй) + ZZrk+1(yik+1 -

Дг q-1 n n

—=a aTZ Z (Z a (Qbjk )2 + auik 2)+

Vb k =0 i=1 j=1

q -1 n

+ Z Z Pk+1 (АТРХк -Ат/ (y k ) - АТУгйгк ) + (20)

k=0 i=1

q-1 n

q-1

+ZZrk+'(А ZP!)-Zsk+‘Ат

k =0 i=1 1 —j=1 , — k=0-

l, j = 1, n, k, m = 0, q -1,

где

pm=pim+'-а трг'р,+attz

j =1

p,q=-2AM, (xq -Ai), r,m =АхТрГ ЩР- + r"+‘, = o,

m m+1 q т

S = S , S = -An.

(21)

(22)

(23)

0 (24)

На основе быстрого автоматического дифференцирования разработан комплекс программ построения оптимального управления и проведен численный эксперимент, результаты которого представлены ниже. Заметим, что основное вычислительное время при расчете градиента по формулам (18)-(20) требуется на нахождение векторов p и r, для этого необходимо решить 2 системы уравнений с q ■ (n2 + n) неизвестными.

Проведено исследование зависимости результатов работы метода от параметров задачи.

На рис. 1—2 представлены функции, соответствующие оптимальному состоянию нейронной сети, X, (t), i = 1,3, и оптимальные весовые коэффициенты, соц (t), i, j = 1,3. Целью работы нейронной сети является перевод ее из состояния х0 = (2,1,0) в состояние A = (1,0,5).

Рис. 1. Функции состояния нейронной сети xi (t), i = 1,3

114

Е. А. Андреева, И. С. Мазурова

Параметры режима, представленного на рис. 1-2, следующие: n = 3, T0 = 5, Ат = 0,1, | uk |< 0,1, в = 0,5, | rnf |< 1, at = 0,1, Mt = 10000, точность метода s = 0,000001. За 101841 итерацию значение минимизируемого функционала достигло величины 0,5176, что означает достаточно высокую эффективность метода, при этом оптимальное время процесса T = 2,8.

В таблице приведены значения минимизируемого функционала при различном значении времени процесса

Значения минимизируемого функционала при различном значении времени процесса

T 2 2,2 2,4 2,6 2,8 3 3,2

1opt 2002,4 7,203 0,559 0,558 0,518 0,686 0,723

1opt1 0,9402 1,034 0,559 0,558 0,518 0,686 0,723

^opt2 2001,5 6,169 9,9-10-5 2,1-10-5 7,3-10-6 2,8-10-6 2,4-10-6

q~1 n n _

где Ioph =Д (£ ^ О»/ )2 + 2),

k=1 i =1 j =1

n _ 2

Jopt2 = ЁMi ~ Ai ) , Iopt = Iopt1 + lopt2.

i =1

Из таблицы следует, что найденное оптимальное время процесса T = 2,8 соответствует наименьшему значению минимизируемого функционала, то есть за время работы нейронной сети

T = 2,8 значение величины ошибки обучения и энергии нейронной сети достигает наименьших значений, при уменьшении или увеличении времени процесса увеличивается значение минимизируемого функционала.

ЗАКЛЮЧЕНИЕ

Аналогичный подход распространяется на оптимальное управление моделью искусственной нейронной сети, динамика которой описывается следующей системой интегро-дифференциаль-ных уравнений:

x(t)=~fi,x,со+f,IJ (т)xj(T~8j)dr

+ YU(t),

■ j=1

t e[0,T ]

с начальными условиями ___

X (t) = 0t (t), t e [~r ~ max(A ),0], i = 1, n ,

где параметр Sj, j = 1,n учитывает запаздывание при передаче сигнала от одного нейрона к другому, а параметр r в интегральном слагаемом в аргументе функции активации учитывает тот факт, что внешнее воздействие на нейроны ИНС накапливается на интервале запаздывания [t-r, t]. Решение задачи оптимального управления с фиксированным временем процесса для такой нейронной сети рассмотрено в работе [3].

* Работа выполнена в соответствии с Программой поддержки ведущих научных школ (НШ-5264.2012.1).

СПИСОК ЛИТЕРАТУРЫ

1. Андреева Е. А. Оптимизация нейронных сетей: Учеб. пособие. Тверь, 2007.

2. Андреева Е. А., Пустырнакова Ю. А. Численные методы обучения искусственных нейронных сетей с запаздыванием // ЖВМ и МФ. 2002. Т. 42. C. 1383-1391.

3. Большакова И. С., Шаронов Д. А. Обучение нейронной сети с запаздыванием // Программные продукты и системы. 2011. № 2. С. 35-37.

4. Евтушенко Ю. Г. Оптимизация и быстрое автоматическое дифференцирование. М., 2013. 144 с.

5. Майоров В. В., Мышкин И. Ю. Математическое моделирование нейронов сети на основе уравнений с запаздыванием // Математическое моделирование. 1990. Т. 2. № 11. С. 64-76.

Andreeva E. A., Tver State University (Tver, Russian Federation) Mazurova I. S., Tver State University (Tver, Russian Federation)

NUMERICAL METHODS OF ARTIFICIAL NEURAL NETWORK TRAINING

The problem of artificial neural network modeling is studied. The artificial neural network is characterized by the enough general topology and is described by the system of integral differential equations. Training on the artificial neural network usage is considered as an optimal control problem with variable duration of the process. Considering the defined constraints and the form of the functional, the necessary conditions of optimality of the artificial neural network weighting coefficients incorporating external influence are formulated. The initial current problem is reduced to a discrete optimal control problem, which is solved by the methodology of the fast automatic differentiation. The influence of the task parameters on the optimal solution is analyzed. Key words: artificial neural networks, integro-differential equations, optimal control

REFERENCES

1. Andreeva E. A. Optimizatsiya neyronnykh setey [Optimization of neural network: Educational book]. Tver, 2007.

2. Andreeva E. A., Pustyrnakova Yu. A. Numerical methods for training artificial neural networks with delay [Chislen-nye metody obucheniya iskusstvennykh neyronnykh setey s zapazdyvaniem]. ZhVMiMF. 2002. Vol. 42. P 1383-1391.

3. Bolshakova I. S., Sharonov D. A. Training a neural network with delay [Obuchenie neyronnoy seti s zapazdyvaniem]. Programmnyeprodukty i sisitemy [Program products and systems]. 2011. № 2. P 35-37.

4. Evtushenko Yu. G. Optimizatsiya i bystroe avtomaticheskoe differentsirovanie [Optimization and fast automation differentiation]. Moscow, 2013. 144 p.

5. Mayorov V. V., Myshkin I. Yu. Mathematical modeling of neuronal networks based on equations with delay [Matematicheskoe modelirovanie neyronov seti na osnove uravneniy s zapazdyvaniem]. Matematicheskoe modelirovanie [Mathematical modeling]. 1990. Vol. 2. № 11. P 64-76.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 04.04.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.