ИЗВЕСТИЯ
ПЕНЗЕНСКОГО ГОСУДАРСТВЕННОГО ПЕДАГОГИЧЕСКОГО УНИВЕРСИТЕТА имени В. Г. БЕЛИНСКОГО ФИЗИКО-МАТЕМАТИЧЕСКИЕ И ТЕХНИЧЕСКИЕ НАУКИ № 18 (22)2010
IZVESTIA
PENZENSKOGO GOSUDARSTVENNOGO PEDAGOGICHESKOGO UNIVERSITETA imeni V. G. BELINSKOGO PHYSICAL, MATHEMATICAL AND TECHNICAL SCIENCES № 18 (22) 2010
УДК 004.032.26 + 519.6
ИСПОЛЬЗОВАНИЕ МЕТОДА ДОВЕРИТЕЛЬНЫХ ОКРЕСТНОСТЕЙ ПРИ РЕШЕНИИ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ В ЧАСТНЫХ ПРОИЗВОДНЫХ НА НЕЙРОННЫХ СЕТЯХ С РАДИАЛЬНЫМИ БАЗИСНЫМИ ФУНКЦИЯМИ АКТИВАЦИИ
© Ю. Н. ЗЕМСКОВА, В. И. ГОРБАЧЕНКО, Е. В. АРТЮХИНА Пензенский государственный педагогический университет им. В. Г. Белинского, кафедра вычислительных систем и моделирования e-mail: [email protected]
Земскова Ю. Н., Горбаченко В. И., Артюхина Е. В. - Использование метода доверительных окрестностей при решении дифференциальных уравнений в частных производных на нейронных сетях с радиальными базисными функциями активации // Известия ПГПУ им. В. Г. Белинского. 2010. № 18 (22). С. 151-158. - Рассмотрен метод Канса для решения дифференциальных уравнений в частных производных на нейронных сетях. Изложен метод доверительных окрестностей при решении задач минимизации квадратичного функционала ошибки. Ставятся эксперименты, которые сочетают в себе метод Канса и доверительных окрестностей для нелинейных параметров. Делается вывод о том, что при решении дифференциальных уравнений в частных производных эффективно использовать метод Канса совместно с методом доверительных окрестностей для линейных и нелинейных параметров. Ключевые слова: метод доверительных окрестностей нелинейные параметры, нейронные сети.
Zemskova J. N., Gorbachenko V. I., Artyukhina E. V. - The using of trust neighbourhood method to solution partial differential equation on neural networks with radial basis function// Izv. Penz. gos. pedagog. univ.
im.i V. G. Belinskogo. 2010. № 18 (22). P. 151-158. - The method Kansa is viewed for solution partial differential equation on neural networks. The trust neighbourhood method is expounded for problem solving of quadratic functional minimization. Put up experiments, which combine the method Kansa end the trust neighbourhood method for nonlinear parameters. Conclude, in process solution partial differential equation on neural networks the method Kansa end the trust neighbourhood method for nonlinear parameters is usefull.
Keywords: the trust neighbourhood method, nonlinear parameters, neural network Метод Канса для радиальных базисных функции
В процессе математического моделирования многие задачи науки и техники сводятся к системам дифференциальных уравнений. Получить их точные решения сложно, поэтому необходимо использовать численные методы. Известно много методов, таких как метод конечных разностей и метод конечных элементов. Эти методы требуют определения сетки (области дискретизации), где функции локально аппроксимированы. Построение сетки в двух или больше измерениях является нетривиальной задачей. Обычно используются аппроксимации только низшего порядка, приводящие к непрерывной аппроксимации функции на сети, но не ее частных производных. Нарушение непрерывности аппроксимации производной может неблагоприятно влиять на стабильность решения. В то же время схемы более высокого порядка, необходимые для более точных аппроксимаций пространственных производных, обычно приводят к дополнительным вычислительным затратам. Чтобы увеличить точность схемы низкого порядка требуется, чтобы вычислительная сетка была уточнена за счет более высокой плотности элементов в областях около контуров. Это, однако, также достигается за счет увеличения вычислительных затрат.
Другим методом нахождения приближенного частного решения является бессеточный метод, основанный на использовании радиальных базисных функций (РБФ). С тех пор, как Канса [1] предложил модифицированный РБФ-метод, пригодный для решения параболических, гиперболических, и эллиптических дифференциаль-
ных уравнений в частных производных (ДУЧП), метод успешно применялся для решения ДУЧП различных типов. Преимущество РБФ состоит в том, что они содержат единственную независимую переменную, являющуюся расстоянием между точкой, в которой находится нейрон - центр функции активации и точкой в которой находится значение аппроксимируемой функции, независимо от размерности задачи. Радиальные базисные функции оказываются особенно привлекательными, когда область не может быть выражена как пересечение (произведение) областей более низких размерностей. Во всех методах интерполяции для хаотических наборов данных РБФ превосходит все другие методы относительно точности, стабильности, эффективности, простоты выполнения.
Метод Канса для РБФ на нейронных сетях
В [2-7] авторы сосредотачиваются на исследовании эффективности применения нейронной сети к решению ДУЧП. Предложен алгоритм, адаптирующий параметры нейронных сетей - линейные параметры (веса) и нелинейные параметры (центры и ширины РБФ активации) сетей. Для адаптации параметра применяется идея двухступенчатого итерационного градиентного метода. В этом смысле, параметры центров, ширины и параметров выходных весов обучены и согласованы.
Рассмотрим эту идею.
Чтобы выражать алгоритм ясно и кратко, в качестве РБФ рассмотрим только гауссиан. Выбранная функция определяется как
Фк (х) = ехр(-(х,. -ск)2/ак2) , (1)
где ак > 0 и параметры ск , ак - центр и ширина ^й РБФ-функции.
Будем рассматривать РБФ-сеть как аппроксиматор функции с помощью (1):
т т . ,
и (X) = £ мкфк (X) = £ wk ехр (- (X - ск )7ак2 ) , (2)
к=1 1=1
где т - число радиальных базисных функций (скрытых нейронов).
Из уравнения (2) производные функции и (X) рассчитываются следующим образом
, V д!и т дф
и< , (х) =------= £ wk------к—.
дх] ...дх1 к=1 дх] ...дх1
Производные (например, до второго порядка относительно х) рассчитываются следующим образом
т
и1 (х )=£ м,ккк (х), (3)
к=1
ии (х )=£ wkhk (х), (4)
к=1
где
Ф дх
дф(,)____/ / „\2/„Л ( 2(х-ск)
^ ( х )=“дГ = еХР (-( х - Ск )^ ак2 )'
а,2
к /
.м , „ , ч (х - с )2 - о 5. а2
^ ( х = 4бХР (-( х - Ск )^ ак 2 ).
(х - Ск ) - 05 2 ^
а4
Рассмотрим двумерное уравнение Пуассона в области О
Ди = р (х), х е О (5)
где Д - оператор Лапласа, х - пространственная координата, р -известная функция от переменной х, и - неизвестная функция х , которую необходимо найти. Уравнение (5) удовлетворяет граничным условиям Дирихле и/или Неймана на границе дО
u = p1 (x), x e 5Qj
n xVu = p2 (x), x e 9Q2
(6)
(7)
где п - единичная внешняя нормаль (направленная наружу); V - оператор градиента; дЦ и дО2 - границы области, такие, что дЦ и дЦ = дО и дЦ п дЦ = 0 ; р1 и р2 - известные функции х.
Численные решения ДУЧП вида (5), (6), (7) зависят от аппроксимирующей функции и ее производных. Предлагается решение и и его производных аппроксимировать в терминах базисных функций (2), (3), (4). Проектирование нейронной сети основано на информации, обеспечиваемой данным ДУЧП и его граничными условиями.
Неизвестные параметры сети wk, ск, Ьк к = 1,2,...,т должны быть найдены так, чтобы минимизировать нижеследующую сумму квадратов ошибок (СКО)
] = 1,2,..., К - некоторые дискретные точки, в которых ищется решение, они фиксированны, Я1,Я2 -штрафные множители.
где n-1, А-i, a_j - коэффициенты обучения в момент t -1. Вышеупомянутые шаги продолжаются, пока l в (8) не станет меньше некоторого значения. Этот процесс является интерактивным градиентным алгоритмом.
Известно, что коэффициенты обучения очень важны для сходимости сетевых параметров. Если они малы, сходимость является плохой; если коэффициенты являются большими, параметры колеблются и не сходятся. Но выбор лучших коэффициентов зависит от задачи, и иногда это является недостатком рассмотренного алгоритма. Также трудность составляет подбор m - количества параметров сети и N, K - количества дискретных точек, в которых минимизируется СКО, они называются обучающим множеством [8].
Метод Канса с использованием алгоритма сопряженных градиентов для линейных параметров
В работах [9, 10] предложено решение рассмотренной выше трудности с подбором коэффициента nt-i в (9). В [9, 10] разработаны алгоритмы скорейшего спуска и сопряженных градиентов для обучения весов сети. Алгоритм скорейшего спуска обучения весов сети более эффективен, чем градиентного спуска с подбором коэффициента. Использование алгоритма метода сопряженных градиентов (МСГ) при нахождении nt-i существенно повысило точность [2, 9, 10] в десять раз.
(8)
где w =
Алгоритм типа градиентного спуска, состоящий из двух шагов, одновременно оптимизирует веса w^), центры к(,) и ширину а^ следующим образом.
Шаг 1: зафиксировав , а^, находят w^, который минимизирует СКО по следующей формуле
Wi
Шаг 2: зафиксировав w^, находят с^, а^, которые минимизируют СКО по следующим формулам
(9)
Рассмотрим МСГ минимизации квадратичного функционала. Итак, мы ищем, при каких w = (w(1), w^2),..., w(m)) СКО в (8) существенно уменьшится.
Перепишем СКО [11], так как собираемся минимизировать по весам:
1 K +N 0 1 .. „2
F (w )=2§ f (w) = 2I |f (w )|| 2.
(10)
Использование МСГ при обучении нейронных сетей основано на известном в оптимизации разложении функционала качества (10) в ряд Тейлора в окрестности точки минимума (ограничиваются тремя членами в разложении)
F (w + p ) = F (w ) + gTp +1 pTGp,
(11)
где g =
dF dF
dw1 dw2
dF
dw„
вектор градиента, G =
d2 F dw1dw1
d2 F dwmdwl
d F
dwldwm
d2F
dwmdwm
Гессиан.
При минимизации СКО (10) алгоритм МСГ принимает вид:
і) i>(i)=-g(i)
о\ (") ("-1) ■ ("-1)
2) wv - wv ; +n„-iP
.м
4) Ри =
((g„ - g"-i), gи ) -(ри-Р g»-i)
(и-1)
5) рИ=_^+Рир
6) переход на пункт 2
Пи_1 во втором шаге вычисляется с помощью скорейшего спуска [9, 10, 12].
Метод доверительных областей
Методы безусловной минимизации гладких функций распадаются на два обширных класса [11]. Имеются в виду «методы с регулировкой шага» и «методы доверительной окрестности». Алгоритм типа градиентного спуска с подбором коэффициента и скорейший спуск, относятся к методам с регулировкой шага. Исходной посылкой для построения методов доверительной окрестности служит суждение о том, что на точку минимума модельной квадратичной функции разумно ориентироваться лишь при условии, что она ищется в окрестности, где эта функция хорошо описывает поведение данной функции F (обозначения такие же, как и в предыдущем пункте). Размеры такой окрестности предлагается характеризовать ограничением на величину нормы вычисляемого вектора направления поиска.
Формализованное правило выбора очередной точки wк+1, звучит так: в качестве wк+1 надо брать сумму wк + рк , где рк - решение при некотором А вспомогательной задачи вида
min
peR"
gkP+“PTGkP I,
(12)
при ограничении ||р|| < А.
Как искать такие рк, подсказывает следующее соображение: если X - число, при котором матрица Gк + XI, где I - единичная матрица, положительно определена, то решение р системы уравнений
^+ XI) р = ^ (13)
будет решением задачи (12) с А > ||р|| , когда X = 0 , и с А = ||р|| , когда X > 0 .
T
Однако нахождение гессиана вычислительно затратно. Существуют способы аппроксимировать гессиан с целью снижения выпонения времени процессора. Одним из таких методов доверительных областей является метод Левенберга-Марквардта. Метод Левенберга-Марквардта определяет направление рк с помощью решения системы уравнений вида
(Jjk+ V) pk=-JkTfk , (14)
где V - некоторое неотрицательное число, Jк - якобиан для F. Метод эффективен, но только при удачном выборе Хк .
Если посмотреть на (11), (12), то МСГ относится к методам доверительной окрестности. Однако данный метод менее затратен и очень эффективен [13]. Как было сказано выше, его использовали при обучении весов.
В методе Канса оптимизировать СКО приходится по параметрам, которые входят нелинейно. Как это сделать, чтобы получить меньшую СКО?
Ясно, что гессиан, в данном случае более трудоемок в вычислении. Решение уравнений (13), (14) для центров и ширины потребует много времени процессора. Поэтому предлагается использовать метод сопряженных градиентов для нахождения центров и ширин.
МСГ для нелинейных параметров
Для минимизации F(с), или F (а) предлагается следующий алгоритм:
1) рм=-,<■>
г>\ (п) (п-1) , (П-1) 7-1/ \ (П) (П-1) , (П-1) 7-т / \ и
2) С = С + ПичР для г (с) или а = а +ПИ-1Р Для г (а), в зависимости от того, какой
функционал минимизировать
Jn-1)
(и) (n-1)
у\ ) — !
(и-1)
3) g( n)
в = ((gп gn-1 )’ gn ) ) вп _ -(Pn-1, gn-1 )
5) p(n)=-g(n)+PnP(n-1)
6) переход на пункт 2
В данном алгоритме g =
dF dF_
dc1 dc2
dF
dc
для F (c), a g =
dF dF
da1 da2
dF
da_
для F (a).
Элементы градиента в первом случае:
N - 4
2IK + u22, - Pi) wke a
i=l
^(Xi - Cxk )2 +(У, - cyk )2 , (Cxk, cyk )
r4 - 3a2r2 + a
+^2Z(Mj- Pu)• a27,
j=1
где rk =\l( xi - crk) + (yi - c, ) , (cxk, cyk ) - центр к-того нейрона, во втором случае для х-координаты:
.. 2 л 2 „
2Z(M11, + u22. - Pi ) wke 4 •( X - ck )• Гк 6Qk + ^2Z(Uj - Pu )
¿=1 Ык ]=1 ^к
для ^-координаты аналогично.
Если оптимизировать нелинейные параметры, то Пп- на втором шаге подбирают достаточно малой.
Общий алгоритм обучения
С учётом выше сказанного составим алгоритм обучения.
1) В общем цикле проверяется критерий, при котором заканчивается процесс обучения. Увеличиваем счётчик итераций.
2) Происходит генерация случайных точек множества.
T
T
7
a
к
к
r
2
ИЗВЕСТИЯ ПГПУ ♦ Физико-математические и технические науки ♦ № 18 (22) 2010 г.
3) В циклах, которые повторяются фиксированное число раз, последовательно происходят циклы обучения весов, потом ширин, потом центров.
Циклы обучения весов, ширин, центров происходят описанным выше МСГ. Необходимо определить, сколько обучать какой-либо параметр.
Экспериментальные исследования
Экспериментальное исследование проводилось на примере модельной краевой задачи первого типа:
Дм (х, y ) = sin (пх )• sin (ny), (15)
u (x, y) = 0. (16)
Данная задача имеет аналитическое решение. Оно ищется в области [0,1М0,1] Центры функции активации нейронов располагаются в области решения, и небольшая часть нейронов может располагаться вне области решения. Количество нейронов тридцать шесть. Контрольные точки располагаются случайным образом внутри области решения (100 точек) и по границе (18 точек на каждой стороне). Как ясно из общего алгоритма координаты контрольных точек меняются. Для оценки погрешности решения рассчитывалась относительная среднеква-
дратическая погрешность решения Ne = .í^(u¡ -ua¡) u2 , где ua¡ - аналитическое решение в точке ua¡ - по-
лученное решение в точке, евклидова норма ошибки L2e = ^^(и,- - иа1) . Критерием, при котором заканчивается
процесс обучения, является выполнение условия
N 2 -К ^ 2
НМЦ + Ы22,- Р1) Y,(uj - РУ )
< 10-6.
(17)
N К
Этот критерий является СКО, деленным на количество контрольных точек. Хотя второе слагаемое не имеет штрафного множителя, элементы градиента всё равно его используют для более качественного обучения.
Лучшие результаты представлены в таблице 1. Для удобства представления результатов используется сокращение: КЦ - общее количество циклов обучения, за которые достигнут критерий окончания обучения, КЦО -фиксированное количество циклов обучения по какому-то параметру, либо фиксированное количество циклов обучения, в которых последовательно содержатся циклы обучения весов, ширин и центров.
Таблица 1.
Зависимость точности от количества циклов обучения на сгенерированном множестве контрольных точек методом сопряженных градиентов по линейным и нелинейным параметрам
КЦО КЦ КЦО по центрам КЦО по ширине КЦО по весам L2 е N е
2 20817 2 2 2 6,810-5 1,410-4
1 23000 2 2 2 10-4 2,210-4
Как видно из таблицы 1 среднеквадратическая погрешность решения и евклидова норма ошибки меньше при меньшем количестве итераций, если на сгенерированном множестве проводить два цикла обучения параметров. Процесс обучения и разницу между полученным и аналитическим решением в первом случае можно увидеть из рисунка 1. Как видно из рисунка1 процесс обучения сходится достаточно быстро.
Если центры и ширину обучать градиентным методом с подбором коэффициента, а веса обучать МСГ, то результаты несколько иные, они представлены в таблице 2 и рисунке 2.
i =1
i =1
График разности аналитического и численного решения х ю"5
а) разность между аналитическим и полученным решением
-о
1-0.5
итерация
б) функционал ошибки, деленный на количество точек в зависимости от итераций
Рис. 1. Результаты экспериментов с количеством циклов обучения на сгенерированном множестве равном двум
Таблица 2.
Оптимизация только весов методом сопряженного градиента
КЦО КЦ КЦО по центрам КЦО по ширине КЦО по весам L2 е N е
1 23158 1 1 2 2,1-10-4 4,3-10-4
График разности аналитического и численного решения
а) разность между аналитическим и полученным решением
х 10
I
итерация
б) функционал ошибки, деленный на количество точек в зависимости от итераций
Рис. 2. Результаты экспериментов после применения МСГ только к обучению весов
Из рис. 2 процесс обучения, начиная с итерации, равной 10 000, начинает сходиться медленнее или даже расходится, а критерий выхода из процесса обучения меньше 5 • 10-5.
Из рисунков 1 и 2 видно, что процесс обучения сходится быстрее, когда МСГ применяется к обучению центров и ширины.
Из анализа данных двух таблиц видно преимущество использования МСГ для обучения нелинейных параметров. Среднеквадратическая погрешность решения меньше в два раза, число циклов обучения на 158 меньше по сравнению с использованием МСГ только по линейным параметрам для второго случая. Для первого случая среднеквадратическая погрешность решения меньше в три раза, циклов меньше на 2341 по сравнению с использованием МСГ только по линейным параметрам.
Выводы
Для обучения параметров радиальных базисных сетей предложено использовать метод доверительных окрестностей.
Разработан алгоритм, включающий обучение весов сети, линейно входящих в сумму квадратов ошибок с помощью минимизации квадратичного функционала ошибки методом сопряженных градиентов, и содержащий также обучение центров и ширин, нелинейно входящих в сумму квадратов ошибок, которое производится методом сопряженных градиентов для доверительной окрестности.
Разработанный алгоритм обеспечивает высокую точность при меньшем количестве циклов обучения.
Быстрее сходится по сравнению с МСГ, который используется только для линейных параметров.
В тоже время менее трудоемок, по сравнению с другими методами доверительных окрестностей.
Благодарности. Работа выполнена по тематическому плану научно-исследовательских работ Пензенского государственного педагогического университета, проводимых по заданию Федерального агентства по образованию.
СПИСОК ЛИТЕРАТУРЫ
1. Kansa E. J. Motivation for using radial basis functions for solve PDEs // J. Appl. Sci. and Computing. 1994. Vol. 1. P. 1-8.
2. Jianyu L., Siwei L., Yingjiana Q., Yapinga H. Numerical solution of elliptic partial differential equation using radial basis function neural networks // Neural Networks. 2003. Vol. 16. № 5/6. P. 729-734.
3. Васильев А. Н. Нейросетевое моделирование в математической физике // Нейрокомпьютеры: разработка, применение. 2009. № 5. С. 25-38.
4. Артюхина Е. В., Горбаченко В. И. Решение краевых задач математической физики на радиально-базисных нейронных сетях // Программные продукты и системы. 2007. № 3 (79). С. 74-77.
5. Горбаченко В. И. Нейросетевые алгоритмы решения краевых задач теории поля // Нейрокомпьютеры: разработка, применение. 2007. № 8. С. 13-20.
6. Горбаченко В. И., Артюхина Е. В. Обучение радиально-базисных нейронных сетей при решении дифференциальных уравнений в частных производных // Нейрокомпьютеры: разработка, применение. 2007. № 9. С. 150-159.
7. Горбаченко В. И. , Артюхина Е. В. , Земскова Ю. Н. Использование радиально-базисных нейронных сетей для решения краевых задач математической физики // Новые информационные технологии и системы: Труды VIII Международной научно-технической конференции. Ч. 1. Пенза: ПГУ, 2008. С. 124-130.
8. Хайкин С. нейронные сети: полный курс. М.: Вилямс, 2006. 1104 с.
9. Горбаченко В. И., Артюхина Е. В. Исследование градиентных алгоритмов обучения весов радиально-базисных нейронных сетей для решения краевых задач математической физики // Известия ПГПУ им. В. Г. Белинского. 2009. № 13 (17). С. 134-143.
10. Горбаченко В. И., Артюхина Е. В., Артюхин В.В. Радиально-базисные нейронные сети для решения краевых задач бессеточными методами // Нейроинформатика-2010: Сборник научных трудов XII Всероссийской научно-технической конференции. В 2-х частях. Часть 2. М.: НИЯУ МИФИ, 2010. С. 237-247.
11. Гилл Ф., Мюррей У. , Райт М. Практическая оптимизация. М.: Мир, 1985. 509 с.
12. Василев Ф. П. Численные методы решения экстремальных задач. М.: Наука, 1988. 552 с.
13. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.