ИЗВЕСТИЯ
ПЕНЗЕНСКОГО ГОСУДАРСТВЕННОГО ПЕДАГОГИЧЕСКОГО УНИВЕРСИТЕТА имени В. Г. БЕЛИНСКОГО ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ №26 2011
ПГПУ
ИМ. В. Г. БЕНИНСКОГО
IZVESTIA
PENZENSKOGO GOSUDARSTVENNOGO PEDAGOGICHESKOGO UNIVERSITETA IMENI V.G. BELINSKOGO PHYSICAL AND MATHEMATICAL SCIENCES №26 2011
УДК: 004.032.26
МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ ПРИ РЕШЕНИИ КРАЕВЫХ ЗАДАЧ В ТРЕХМЕРНОМ ПРОСТРАНСТВЕ НА НЕЙРОННЫХ СЕТЯХ С РАДИАЛЬНЫМИ БАЗИСНЫМИ ФУНКЦИЯМИ АКТИВАЦИИ
© Ю.Н. ЗЕМСКОВА Пензенский государственный педагогический университет им. В. Г. Белинского, кафедра информатики и вычислительных систем e-mail: [email protected]
Земскова Ю.Н. — Метод сопряженных градиентов при решении краевых задач в трехмерном пространстве на нейронных сетях с радиальными базисными функциями активации // Известия ПГПУ им. В. Г. Белинского. 2011. № 26. С. 399—404. — Рассмотрен градиентный алгоритм для решения краевых задач на радиальных базисных нейронных сетях в трёхмерном пространстве. Изложен метод сопряженных градиентов при решении задач минимизации квадратичного функционала. Экспериментальные исследования данных алгоритмов для решения краевых задач показали эффективность в случае использования метода сопряженных градиентов для нахождения линейных и нелинейных параметров.
Ключевые слова: метод сопряженных градиентов, нелинейные параметры, радиальные базисные нейронные сети
Zemskova J. N. — Method of the interfaced gradients at the decision of regional problems in threedimensional space on neural networks with radial basic functions of activation // Izv. Penz. gos. pedagog. univ. im.i V. G. Belinskogo. 2011. № 26. P. 399—404. — The gradient algorithm for the decision of boundary value problem on radial basic neural networks in three-dimensional space is considered. Method of the interfaced gradients is stated at the decision of problems of minimization square-law functional. Experimental researches of the given algorithms for the decision of boundary value problem have shown efficiency in case of use of the method of the interfaced gradients for a finding of linear and nonlinear parameters. Keywords: method of the interfaced gradients, nonlinear parameters, radial basic neural networks
Градиентный алгоритм обучения радиальных базисных нейронных сетей
В [1] авторы предлагают использовать радиальные базисные нейронные сети (RBFNN) для решения дифференциальных уравнений в частных производных (ДУЧП). Предложен алгоритм, адаптирующий параметры нейронных сетей - линейные параметры (веса) и нелинейные параметры (центры и ширины) RBFNN. Для обучения RBFNN применяется идея двухступенчатого итерационного градиентного метода. Приведём кратко суть метода, в качестве радиальной базисной функции (RBF) рассмотрим гаус-
сиан:
ук (x)=exp (-rl/al) , (1)
где г - = — с - У, в-, а- - центр и ширина кой ИВЕ, а- > 0, х = (х1, Х2,... хп) - координаты точек области
решения ДУЧП, п -размерность пространства.
Рассмотрим ИВЕММ в качестве аппроксиматора решения ДУЧП:
т т
и (х) = ^2 тк¥к (х) = ^2 ™к еХР (—гк/ак), (2)
к=1 ъ=1
где т - число радиальных базисных функций (скрытых нейронов).
Из уравнения (2) производные функции и (х) рассчитываются следующим образом
/ л _ д&и _ д&^к
3 (х) = дхз ...Зхн = ^ ткдХ~дХ1.
к= 1 '*
Производные (например, до второго порядка относительно х) рассчитываются следующим образом
Щ (х) =^2 ЮкЬк (х), (3)
к= 1
т
(х) = ^2 Шкь,к (х), (4)
Щіі (х/
к= 1
где
д(^к / 2 / 2 \ ( 2 (хі — Сік) \
кк (х) = оХТ =ехр 1-Гк/"к) • (,-------------)
Ж к _ л ^ т ^ 2 /„ 2 \ ( (хі — Сі к) — 0.5 •
дхі
ь к (х) = дГ~ = 4 еХР (-Гк/ак)
Рассмотрим двумерное уравнение Пуассона в области П
Ди = р (х), х € П (5)
где Д - оператор Лапласа, х - пространственные координаты точки области решения П, р - известная функция аргумента х, и- искомая функция х. Уравнение (5) удовлетворяет граничным условиям Дирихле и/или Неймана на границе дП
и = р1 (х), х € дП1 (6)
п х Уи = р2 (х), х € дП2 (7)
где п - единичная внешняя нормаль; V- оператор градиента; дП1 и дП2 - границы области, такие, что дП1 и дП2 = дП и дП1 П дП.2 = 0; Р1 и р2 - известные функции х.
Предлагается решение и и его производных аппроксимировать с помощью функций (2), (3), (4). Проектирование нейронной сети основано на информации, обеспечиваемой данным ДУЧП и его граничными условиями.
Неизвестные параметры сети т-, с - = (в1 - ,в2 к ,вз к), а - к = 1, 2,...,т должны быть найдены
так, чтобы минимизировать функционал ошибки
П 2
I = ^ (ш, с, а) = 1 Е [иц (х(г)) + и22 (х(г)) — р (х(г))] +
г=1
Ь 2
+А12 Е [и (х(3)) — р1 (х(3))] (8)
3 = 1
к 2 +^22 I] [П1и1 (х(з)) + П2и2 (х(з)) — р2 (х(з))]
3=Ь
2
а
к
где и11 (х(г)) , и22 (х(г)) , и (х3) , и1 (х(3)), и2 (х(3)) рассчитываются по (3), (4), ш = (т1, т2,..., тт),
с = (сх, с2,..., ст), а = (а1, а2,..., ат) и х(г) € П, х(3) € дП, г = 1, 2,..., М, ] = 1, 2,..., К - некоторые
контрольные точки, А1,А2 - штрафные множители.
Алгоритм типа градиентного спуска, состоящий из двух шагов, одновременно оптимизирует веса
т-, центры с-и ширину а- следующим образом.
Шаг 1: зафиксировав с- = (в1к, в2к, вз-), а- , находят т-, минимизируя функционал ошибки (8) по
следующей формуле ( )
* * 1 * 1 д1 (с*-1, а*-1, ш*-1)
— п дт- . (9)
Шаг 2: зафиксировав и>(г), находят в(г), а(г), которые минимизируют функционал ошибки (8) по следующим формулам
в« а(0,
* г-1
в*к = вк
* г-
ак = ~ ак
(с*-1, а*-1
— в*-1 д1 д~ ’ " ' (10)
( двк )
, , д1 (с*, а*-1, ш*)
1— а*-1 ----—, (11)
дак
где п*-1, в*-1, а*-1 - коэффициенты обучения на предыдущем шаге настройки параметров сети Ь — 1, П*, в *, а* - коэффициенты обучения на текущем шаге настройки параметров сети £. Вышеупомянутые шаги продолжаются, пока I в (8) не станет меньше некоторого значения. Этот процесс является интерактивным градиентным алгоритмом.
Известно, что коэффициенты обучения очень важны для сходимости сетевых параметров. Если они малы, сходимость является плохой; если коэффициенты являются большими, параметры колеблются и не сходятся. Но выбор лучших коэффициентов зависит от задачи или подбирается, что является трудоемкой и вычислительно сложной задачей. Также подбором находится т - число нейронов ИВЕММ и N,К -количество контрольных точек, в которых минимизируется функционал ошибок.
Нахождение линейных параметров RBFNN с использованием алгоритма сопряженных градиентов
Рассмотрим проблему выбора лучших коэффициентов обучения п*-1 линейных параметров ш = (т1, и>2,..., тт) в (9). Рассмотрим задачу (5) с граничными условиями (6) в трёхмерной области. Для обучения ИВЕММ используем алгоритм, основанный на нахождении весов ш = (и>1, и>2,..., тт) по методу сопряженных градиентов (МСГ) для минимизации квадратичного функционала [3]. Алгоритм МСГ для минимизации квадратичного функционала для нахождения весов ИВЕММ можно записать в виде последовательности шагов:
1. Определяется направление поиска р(0) = — Е(0), Е(0) = д1(д^,™) - вектор градиента;
2. Вектор весов вычисляется по формуле ш(п) = ш(п-1) + Пп-1Р(”-1), где Пп-1 вычисляется с помощью скорейшего спуска [3];
3. Вычисляется вектор градиента g(n) = ,..., ;
4. Для нахождения коэффициента используется формула вп = (»’ 8’-81,8П));
5. Вычисляется новое направление поиска р(п) = — g(n) + впР(п-1);
6. Проверяется условие окончания итерационного процесса, если условие выполнено, то выход из цикла обучения, иначе переход на пункт 2.
Эффективность такого метода доказана экспериментально в [3] для двумерного случая.
МСГ для нелинейных параметров
Для минимизации функционала ошибки (8), по нелинейным параметрам с = (с1, с2,..., ст) и а = (а1, а2,..., ат) предлагается использовать следующий алгоритм [2]:
1. Определяется направление поиска р(0) = — g(0), g(0) - вектор градиента по соответствующим параметрам с или а;
a(n-1) +en-lp(n-1),
2. Новые значения вычисляются по формулам в(п) = в(п-1) +ап-1р(п-1) и а(п) где коэффициенты ап-1 и вп-1 подбираются экспериментально;
3. Вычисляется вектор градиент g(n);
4. Для нахождения коэффициента используется формула вп = (-’ 8’~^,8п);
5. Определяется новое направление поиска р(п) = — g(n) + впР(п-1);
6. Проверяется условие окончания итерационного процесса, если условие выполнено, то выход из цикла обучения, иначе переход на пункт 2.
Компоненты вектора градиента g(n)в пунктах 1 и 3 алгоритма вычисляются по формулам:
дІ
дak
N
-—=4> fun* + U22i - Pi) wk e ak
i=1
2r4k - 7ak rik +3ak
K
+ A^2 (Uj -Plj) • wke j=1
r2
" ak j
k з ,, ak
дІ
д^к
где rik -
І6
N
Е
i=1
. /л \ r2 — 2a2
(u11* + u22i - Pi) wke afc • [xi - clk ) • ——6------------------ + 2A
K
Е
j=l
rjk
(uj - Plj) •e afc
x(j) - Clk
(i)
x\' - Clk
+ fx2i) - C2k\ + (x^ - C3^ , (Clk ,C2k, C3k) - центр k-того нейрона, l = І, 3.
Для обеспечения обобщающей способности ИВЕММ необходимо соблюдать при обучении соотношение между необходимым количеством нейронов и количеством контрольных точек [4]: т <х 3N + К. Большое количество контрольных точек ведет к увеличению времени решения задачи. Для обеспечения достаточной обобщающей способности сети ценой минимальных вычислительных затрат предлагается исследовать вопрос многократной случайной генерации относительно небольшого числа контрольных точек внутри и на границе области решения, компенсирующее нарушение пропорции.
Таким образом, обучение ИВЕММ происходит следующим образом:
1. Происходит генерация случайных контрольных точек.
2. При зафиксированных с и а проводится некоторое число итераций алгоритма определения линейных параметров ш.
3. При зафиксированных ш проводится алгоритм определения нелинейных параметров с и а.
4. Проверяется критерий окончания процесса обучения
N
K
J2 (Ulli + U22* - Pi) (uj - P1j)2
+
j=1
< є,
N K
где £ - достаточно маленькое число, если критерий окончания выполняется, то обучение останавливается, иначе переход на шаг 1.
Экспериментальные исследования
Экспериментальное исследование проводилось на примере модельной краевой задачи с граничными условиями первого рода
Ди (x, y, z) = sin (nx) • sin (ny) • sin (nz), u (x, y, z) = 0.
Данная задача имеет аналитическое решение — 3^2 sin (nx) • sin (ny) • sin (nz). Задача решается в области [0,1] х [0,1] х [0,1]. Центры функции активации нейронов располагаются в области решения. Количество нейронов 5 х 5 х 5 - внутри области, 5 х 5 - на каждой грани, нет точек, которые принадлежат рёбрам грани, 5 - на рёбрах, нет точек на концах рёбер, 8 точек в углах многогранника. Контрольные точки располагаются случайным образом внутри области решения и по границе. Как ясно из общего алгоритма
2
7
a
к
2
a
к
к
координаты контрольных точек меняются. Для оценки погрешности решения рассчитывалась относи-
[N 2 /
тельная среднеквадратическая погрешность решения Ме = \ Е (и — иаг) \ \ Е и2. и евклидова норма
/ N 2
ошибки L2e = \ Е (ui — uai) , где uai - аналитическое решение в точке uai - полученное решение в точке.
у i=1
Критерий окончания процесса обучения.
Задача решалась на компьютере с процессором Intel Core2 Duo T5750 2.00Ггерц с оперативной памятью —- 2.00 ГБ.
Результаты использования МСГ для линейных параметров и градиентного метода для нелинейных параметров сравниваются с МСГ для линейных и нелинейных параметров. Они представлены в таблице
1. Для удобства представления результатов используется сокращение: ВВ - время выполнения в секундах, КЦО - фиксированное количество циклов обучения по определенному параметру.
Таблица 1. Сравнение результатов выполнения МСГ по линейным параметрам(первая строка) и МСГ по
линейным и нелинейным параметрам(вторая строка)
ВВ КЦО по центрам КЦО по ширине КЦО по весам L2e Ne
со О О 1 1 2 6 7 1—1 О 1 со 6 3 — О 1 со
со О 00 2 2 2 4 6 — О 1 со 4 3 — О 1 со
Как видно из таблицы 1 среднеквадратическая погрешность решения и евклидова норма ошибки меньше во втором случае. Процесс обучения в первом случае можно увидеть из рисунка 1. Во втором случае - из рисунка 2.
Как видно из рисунка 1 процесс обучения сходится достаточно быстро в начале обучения.
итерация
Рис. 1 Результаты экспериментов в первом случае: функционал ошибки На рисунке 2 процесс обучения сходится быстрее на конечном этапе.
н.ркпилnRa нпгша піииРіки r крялпатр
итерация
Рис. 2 Результаты экспериментов во втором случае: функционал ошибки
Из анализа данных таблицы и двух рисунков видно преимущество использования МСГ для обучения нелинейных параметров. Среднеквадратическая погрешность решения и евклидова норма невязки на 31% уменьшается, если используется МСГ для нелинейных параметров, а вот время выполнения в первом случае на 28% меньше, чем во втором случае.
Выводы
Для обучения нелинейных параметров радиальных базисных сетей предложено использовать метод сопряженных градиентов.
Разработан алгоритм, содержащий обучение центров и ширины радиальных базисных функций, нелинейно входящих в сумму квадрата ошибки, которое производится методом сопряженных. Разработанный алгоритм обеспечивает более высокую точность, чем алгоритм, в котором ширина и центры обучаются методом градиентного спуска.
Благодарности
Работа выполнена по тематическому плану научно-исследовательских работ Пензенского государственного педагогического университета, проводимых по заданию Министерства образования и науки Российской Федерации.
Список литературы
1. L. Jianyu, L. Siwei, Q. Yingjiana, H. Yapinga Numerical solution of elliptic partial differential equation using radial basis function neural networks // Neural Networks. 2003. 16(5/6). P. 729-734.
2. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.
3. Горбаченко В.И., Артюхина Е.В., Артюхин В.В. Радиально-базисные нейронные сети для решения краевых задач бессеточными методами // Нейроинформатика2010: Сборник научных трудов XII Всероссийской научно-технической конференции. В 2х частях. М.: НИЯУ МИФИ, 2010. Часть 2. С. 237247.
4. Хайкин С. Нейронные сети: полный курс. М.: Вильямс, 2006. 1104 с.