Научная статья на тему 'Метод сопряженных градиентов при решении краевых задач в трехмерном пространстве на нейронных сетях с радиальными базисными функциями активации'

Метод сопряженных градиентов при решении краевых задач в трехмерном пространстве на нейронных сетях с радиальными базисными функциями активации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
568
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ / НЕЛИНЕЙНЫЕ ПАРАМЕТРЫ / METHOD OF THE INTERFACED GRADIENTS / NONLINEAR PARAMETERS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Земскова Ю. Н.

Рассмотрен градиентный алгоритм для решения краевых задач на радиальных базисных нейронных сетях в тр

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Земскова Ю. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of the interfaced gradients at the decision of regional problems in three-dimensional space on neural networks with radial basic functions of activation

The gradient algorithm for the decision of boundary value problem on radial basic neural networks in three-dimensional space is considered. Method of the interfaced gradients is stated at the decision of problems of minimization square-law functional. Experimental researches of the given algorithms for the decision of boundary value problem have shown efficiency in case of use of the method of the interfaced gradients for a finding of linear and nonlinear parameters.

Текст научной работы на тему «Метод сопряженных градиентов при решении краевых задач в трехмерном пространстве на нейронных сетях с радиальными базисными функциями активации»

ИЗВЕСТИЯ

ПЕНЗЕНСКОГО ГОСУДАРСТВЕННОГО ПЕДАГОГИЧЕСКОГО УНИВЕРСИТЕТА имени В. Г. БЕЛИНСКОГО ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ №26 2011

ПГПУ

ИМ. В. Г. БЕНИНСКОГО

IZVESTIA

PENZENSKOGO GOSUDARSTVENNOGO PEDAGOGICHESKOGO UNIVERSITETA IMENI V.G. BELINSKOGO PHYSICAL AND MATHEMATICAL SCIENCES №26 2011

УДК: 004.032.26

МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ ПРИ РЕШЕНИИ КРАЕВЫХ ЗАДАЧ В ТРЕХМЕРНОМ ПРОСТРАНСТВЕ НА НЕЙРОННЫХ СЕТЯХ С РАДИАЛЬНЫМИ БАЗИСНЫМИ ФУНКЦИЯМИ АКТИВАЦИИ

© Ю.Н. ЗЕМСКОВА Пензенский государственный педагогический университет им. В. Г. Белинского, кафедра информатики и вычислительных систем e-mail: [email protected]

Земскова Ю.Н. — Метод сопряженных градиентов при решении краевых задач в трехмерном пространстве на нейронных сетях с радиальными базисными функциями активации // Известия ПГПУ им. В. Г. Белинского. 2011. № 26. С. 399—404. — Рассмотрен градиентный алгоритм для решения краевых задач на радиальных базисных нейронных сетях в трёхмерном пространстве. Изложен метод сопряженных градиентов при решении задач минимизации квадратичного функционала. Экспериментальные исследования данных алгоритмов для решения краевых задач показали эффективность в случае использования метода сопряженных градиентов для нахождения линейных и нелинейных параметров.

Ключевые слова: метод сопряженных градиентов, нелинейные параметры, радиальные базисные нейронные сети

Zemskova J. N. — Method of the interfaced gradients at the decision of regional problems in threedimensional space on neural networks with radial basic functions of activation // Izv. Penz. gos. pedagog. univ. im.i V. G. Belinskogo. 2011. № 26. P. 399—404. — The gradient algorithm for the decision of boundary value problem on radial basic neural networks in three-dimensional space is considered. Method of the interfaced gradients is stated at the decision of problems of minimization square-law functional. Experimental researches of the given algorithms for the decision of boundary value problem have shown efficiency in case of use of the method of the interfaced gradients for a finding of linear and nonlinear parameters. Keywords: method of the interfaced gradients, nonlinear parameters, radial basic neural networks

Градиентный алгоритм обучения радиальных базисных нейронных сетей

В [1] авторы предлагают использовать радиальные базисные нейронные сети (RBFNN) для решения дифференциальных уравнений в частных производных (ДУЧП). Предложен алгоритм, адаптирующий параметры нейронных сетей - линейные параметры (веса) и нелинейные параметры (центры и ширины) RBFNN. Для обучения RBFNN применяется идея двухступенчатого итерационного градиентного метода. Приведём кратко суть метода, в качестве радиальной базисной функции (RBF) рассмотрим гаус-

сиан:

ук (x)=exp (-rl/al) , (1)

где г - = — с - У, в-, а- - центр и ширина кой ИВЕ, а- > 0, х = (х1, Х2,... хп) - координаты точек области

решения ДУЧП, п -размерность пространства.

Рассмотрим ИВЕММ в качестве аппроксиматора решения ДУЧП:

т т

и (х) = ^2 тк¥к (х) = ^2 ™к еХР (—гк/ак), (2)

к=1 ъ=1

где т - число радиальных базисных функций (скрытых нейронов).

Из уравнения (2) производные функции и (х) рассчитываются следующим образом

/ л _ д&и _ д&^к

3 (х) = дхз ...Зхн = ^ ткдХ~дХ1.

к= 1 '*

Производные (например, до второго порядка относительно х) рассчитываются следующим образом

Щ (х) =^2 ЮкЬк (х), (3)

к= 1

т

(х) = ^2 Шкь,к (х), (4)

Щіі (х/

к= 1

где

д(^к / 2 / 2 \ ( 2 (хі — Сік) \

кк (х) = оХТ =ехр 1-Гк/"к) • (,-------------)

Ж к _ л ^ т ^ 2 /„ 2 \ ( (хі — Сі к) — 0.5 •

дхі

ь к (х) = дГ~ = 4 еХР (-Гк/ак)

Рассмотрим двумерное уравнение Пуассона в области П

Ди = р (х), х € П (5)

где Д - оператор Лапласа, х - пространственные координаты точки области решения П, р - известная функция аргумента х, и- искомая функция х. Уравнение (5) удовлетворяет граничным условиям Дирихле и/или Неймана на границе дП

и = р1 (х), х € дП1 (6)

п х Уи = р2 (х), х € дП2 (7)

где п - единичная внешняя нормаль; V- оператор градиента; дП1 и дП2 - границы области, такие, что дП1 и дП2 = дП и дП1 П дП.2 = 0; Р1 и р2 - известные функции х.

Предлагается решение и и его производных аппроксимировать с помощью функций (2), (3), (4). Проектирование нейронной сети основано на информации, обеспечиваемой данным ДУЧП и его граничными условиями.

Неизвестные параметры сети т-, с - = (в1 - ,в2 к ,вз к), а - к = 1, 2,...,т должны быть найдены

так, чтобы минимизировать функционал ошибки

П 2

I = ^ (ш, с, а) = 1 Е [иц (х(г)) + и22 (х(г)) — р (х(г))] +

г=1

Ь 2

+А12 Е [и (х(3)) — р1 (х(3))] (8)

3 = 1

к 2 +^22 I] [П1и1 (х(з)) + П2и2 (х(з)) — р2 (х(з))]

3=Ь

2

а

к

где и11 (х(г)) , и22 (х(г)) , и (х3) , и1 (х(3)), и2 (х(3)) рассчитываются по (3), (4), ш = (т1, т2,..., тт),

с = (сх, с2,..., ст), а = (а1, а2,..., ат) и х(г) € П, х(3) € дП, г = 1, 2,..., М, ] = 1, 2,..., К - некоторые

контрольные точки, А1,А2 - штрафные множители.

Алгоритм типа градиентного спуска, состоящий из двух шагов, одновременно оптимизирует веса

т-, центры с-и ширину а- следующим образом.

Шаг 1: зафиксировав с- = (в1к, в2к, вз-), а- , находят т-, минимизируя функционал ошибки (8) по

следующей формуле ( )

* * 1 * 1 д1 (с*-1, а*-1, ш*-1)

— п дт- . (9)

Шаг 2: зафиксировав и>(г), находят в(г), а(г), которые минимизируют функционал ошибки (8) по следующим формулам

в« а(0,

* г-1

в*к = вк

* г-

ак = ~ ак

(с*-1, а*-1

— в*-1 д1 д~ ’ " ' (10)

( двк )

, , д1 (с*, а*-1, ш*)

1— а*-1 ----—, (11)

дак

где п*-1, в*-1, а*-1 - коэффициенты обучения на предыдущем шаге настройки параметров сети Ь — 1, П*, в *, а* - коэффициенты обучения на текущем шаге настройки параметров сети £. Вышеупомянутые шаги продолжаются, пока I в (8) не станет меньше некоторого значения. Этот процесс является интерактивным градиентным алгоритмом.

Известно, что коэффициенты обучения очень важны для сходимости сетевых параметров. Если они малы, сходимость является плохой; если коэффициенты являются большими, параметры колеблются и не сходятся. Но выбор лучших коэффициентов зависит от задачи или подбирается, что является трудоемкой и вычислительно сложной задачей. Также подбором находится т - число нейронов ИВЕММ и N,К -количество контрольных точек, в которых минимизируется функционал ошибок.

Нахождение линейных параметров RBFNN с использованием алгоритма сопряженных градиентов

Рассмотрим проблему выбора лучших коэффициентов обучения п*-1 линейных параметров ш = (т1, и>2,..., тт) в (9). Рассмотрим задачу (5) с граничными условиями (6) в трёхмерной области. Для обучения ИВЕММ используем алгоритм, основанный на нахождении весов ш = (и>1, и>2,..., тт) по методу сопряженных градиентов (МСГ) для минимизации квадратичного функционала [3]. Алгоритм МСГ для минимизации квадратичного функционала для нахождения весов ИВЕММ можно записать в виде последовательности шагов:

1. Определяется направление поиска р(0) = — Е(0), Е(0) = д1(д^,™) - вектор градиента;

2. Вектор весов вычисляется по формуле ш(п) = ш(п-1) + Пп-1Р(”-1), где Пп-1 вычисляется с помощью скорейшего спуска [3];

3. Вычисляется вектор градиента g(n) = ,..., ;

4. Для нахождения коэффициента используется формула вп = (»’ 8’-81,8П));

5. Вычисляется новое направление поиска р(п) = — g(n) + впР(п-1);

6. Проверяется условие окончания итерационного процесса, если условие выполнено, то выход из цикла обучения, иначе переход на пункт 2.

Эффективность такого метода доказана экспериментально в [3] для двумерного случая.

МСГ для нелинейных параметров

Для минимизации функционала ошибки (8), по нелинейным параметрам с = (с1, с2,..., ст) и а = (а1, а2,..., ат) предлагается использовать следующий алгоритм [2]:

1. Определяется направление поиска р(0) = — g(0), g(0) - вектор градиента по соответствующим параметрам с или а;

a(n-1) +en-lp(n-1),

2. Новые значения вычисляются по формулам в(п) = в(п-1) +ап-1р(п-1) и а(п) где коэффициенты ап-1 и вп-1 подбираются экспериментально;

3. Вычисляется вектор градиент g(n);

4. Для нахождения коэффициента используется формула вп = (-’ 8’~^,8п);

5. Определяется новое направление поиска р(п) = — g(n) + впР(п-1);

6. Проверяется условие окончания итерационного процесса, если условие выполнено, то выход из цикла обучения, иначе переход на пункт 2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Компоненты вектора градиента g(n)в пунктах 1 и 3 алгоритма вычисляются по формулам:

дІ

дak

N

-—=4> fun* + U22i - Pi) wk e ak

i=1

2r4k - 7ak rik +3ak

K

+ A^2 (Uj -Plj) • wke j=1

r2

" ak j

k з ,, ak

дІ

д^к

где rik -

І6

N

Е

i=1

. /л \ r2 — 2a2

(u11* + u22i - Pi) wke afc • [xi - clk ) • ——6------------------ + 2A

K

Е

j=l

rjk

(uj - Plj) •e afc

x(j) - Clk

(i)

x\' - Clk

+ fx2i) - C2k\ + (x^ - C3^ , (Clk ,C2k, C3k) - центр k-того нейрона, l = І, 3.

Для обеспечения обобщающей способности ИВЕММ необходимо соблюдать при обучении соотношение между необходимым количеством нейронов и количеством контрольных точек [4]: т <х 3N + К. Большое количество контрольных точек ведет к увеличению времени решения задачи. Для обеспечения достаточной обобщающей способности сети ценой минимальных вычислительных затрат предлагается исследовать вопрос многократной случайной генерации относительно небольшого числа контрольных точек внутри и на границе области решения, компенсирующее нарушение пропорции.

Таким образом, обучение ИВЕММ происходит следующим образом:

1. Происходит генерация случайных контрольных точек.

2. При зафиксированных с и а проводится некоторое число итераций алгоритма определения линейных параметров ш.

3. При зафиксированных ш проводится алгоритм определения нелинейных параметров с и а.

4. Проверяется критерий окончания процесса обучения

N

K

J2 (Ulli + U22* - Pi) (uj - P1j)2

+

j=1

< є,

N K

где £ - достаточно маленькое число, если критерий окончания выполняется, то обучение останавливается, иначе переход на шаг 1.

Экспериментальные исследования

Экспериментальное исследование проводилось на примере модельной краевой задачи с граничными условиями первого рода

Ди (x, y, z) = sin (nx) • sin (ny) • sin (nz), u (x, y, z) = 0.

Данная задача имеет аналитическое решение — 3^2 sin (nx) • sin (ny) • sin (nz). Задача решается в области [0,1] х [0,1] х [0,1]. Центры функции активации нейронов располагаются в области решения. Количество нейронов 5 х 5 х 5 - внутри области, 5 х 5 - на каждой грани, нет точек, которые принадлежат рёбрам грани, 5 - на рёбрах, нет точек на концах рёбер, 8 точек в углах многогранника. Контрольные точки располагаются случайным образом внутри области решения и по границе. Как ясно из общего алгоритма

2

7

a

к

2

a

к

к

координаты контрольных точек меняются. Для оценки погрешности решения рассчитывалась относи-

[N 2 /

тельная среднеквадратическая погрешность решения Ме = \ Е (и — иаг) \ \ Е и2. и евклидова норма

/ N 2

ошибки L2e = \ Е (ui — uai) , где uai - аналитическое решение в точке uai - полученное решение в точке.

у i=1

Критерий окончания процесса обучения.

Задача решалась на компьютере с процессором Intel Core2 Duo T5750 2.00Ггерц с оперативной памятью —- 2.00 ГБ.

Результаты использования МСГ для линейных параметров и градиентного метода для нелинейных параметров сравниваются с МСГ для линейных и нелинейных параметров. Они представлены в таблице

1. Для удобства представления результатов используется сокращение: ВВ - время выполнения в секундах, КЦО - фиксированное количество циклов обучения по определенному параметру.

Таблица 1. Сравнение результатов выполнения МСГ по линейным параметрам(первая строка) и МСГ по

линейным и нелинейным параметрам(вторая строка)

ВВ КЦО по центрам КЦО по ширине КЦО по весам L2e Ne

со О О 1 1 2 6 7 1—1 О 1 со 6 3 — О 1 со

со О 00 2 2 2 4 6 — О 1 со 4 3 — О 1 со

Как видно из таблицы 1 среднеквадратическая погрешность решения и евклидова норма ошибки меньше во втором случае. Процесс обучения в первом случае можно увидеть из рисунка 1. Во втором случае - из рисунка 2.

Как видно из рисунка 1 процесс обучения сходится достаточно быстро в начале обучения.

итерация

Рис. 1 Результаты экспериментов в первом случае: функционал ошибки На рисунке 2 процесс обучения сходится быстрее на конечном этапе.

н.ркпилnRa нпгша піииРіки r крялпатр

итерация

Рис. 2 Результаты экспериментов во втором случае: функционал ошибки

Из анализа данных таблицы и двух рисунков видно преимущество использования МСГ для обучения нелинейных параметров. Среднеквадратическая погрешность решения и евклидова норма невязки на 31% уменьшается, если используется МСГ для нелинейных параметров, а вот время выполнения в первом случае на 28% меньше, чем во втором случае.

Выводы

Для обучения нелинейных параметров радиальных базисных сетей предложено использовать метод сопряженных градиентов.

Разработан алгоритм, содержащий обучение центров и ширины радиальных базисных функций, нелинейно входящих в сумму квадрата ошибки, которое производится методом сопряженных. Разработанный алгоритм обеспечивает более высокую точность, чем алгоритм, в котором ширина и центры обучаются методом градиентного спуска.

Благодарности

Работа выполнена по тематическому плану научно-исследовательских работ Пензенского государственного педагогического университета, проводимых по заданию Министерства образования и науки Российской Федерации.

Список литературы

1. L. Jianyu, L. Siwei, Q. Yingjiana, H. Yapinga Numerical solution of elliptic partial differential equation using radial basis function neural networks // Neural Networks. 2003. 16(5/6). P. 729-734.

2. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.

3. Горбаченко В.И., Артюхина Е.В., Артюхин В.В. Радиально-базисные нейронные сети для решения краевых задач бессеточными методами // Нейроинформатика2010: Сборник научных трудов XII Всероссийской научно-технической конференции. В 2х частях. М.: НИЯУ МИФИ, 2010. Часть 2. С. 237247.

4. Хайкин С. Нейронные сети: полный курс. М.: Вильямс, 2006. 1104 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.