Научная статья на тему 'Нелинейный метод наименьших квадратов и блочные рекуррентно-итерационные процедуры в обучении нейронных сетей'

Нелинейный метод наименьших квадратов и блочные рекуррентно-итерационные процедуры в обучении нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1204
469
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ / НЕЛИНЕЙНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / БЛОЧНОЕ ПСЕВДООБРАЩЕНИЕ / БЛОЧНЫЕ РЕКУРРЕНТНО-ИТЕРАЦИОННЫЕ ПРОЦЕДУРЫ / NEURAL NETWORKS TEACHING / NONLINEAR LEAST SQUARES METHOD / BLOCK PSEUDO-INVERSION / BLOCK RECURRENT AND ITERATIVE PROCEDURES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сараев Павел Викторович

Работа посвящена развитию алгоритмов обучения нейронных сетей прямого распространения на основе нелинейного метода наименьших квадратов с псевдообращением. Рассматривается возможность применения формулы блочного псевдообращения матриц Клайна в алгоритмах обучения на основе декомпозиции вектора весов. Данный подход позволяет снизить вычислительные затраты за счет псевдообращения матриц малых размеров.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article is devoted to the development of the feedforward neural networks teaching algorithms based on nonlinear least squares method with pseudo-inversion. Application of Cline block pseudoinversion formula to teaching algorithms based on weights vector decomposition is considered. This approach allows to decrease computational costs by virtue of pseudo-inversion of matrices of small size.

Текст научной работы на тему «Нелинейный метод наименьших квадратов и блочные рекуррентно-итерационные процедуры в обучении нейронных сетей»

УДК 519.7 ББК 22.19

НЕЛИНЕЙНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И БЛОЧНЫЕ РЕКУРРЕНТНО-ИТЕРАЦИОННЫЕ ПРОЦЕДУРЫ В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ1

Сараев П. В.2

(Государственное образовательное учреждение высшего профессионального образования «Липецкий государственный технический университет», Липецк)

Работа посвящена развитию алгоритмов обучения нейронных сетей прямого распространения на основе нелинейного метода наименьших квадратов с псевдообращением. Рассматривается возможность применения формулы блочного псевдообращения матриц Клайна в алгоритмах обучения на основе декомпозиции вектора весов. Данный подход позволяет снизить вычислительные затраты за счет псевдообращения матриц малых размеров.

Ключевые слова: обучение нейронных сетей, нелинейный метод наименьших квадратов, блочное псевдообращение, блочные рекуррентно-итерационные процедуры.

Введение

Эффективным инструментом моделирования сложных систем, о функционировании которых отсутствует априорные знания, является нейростевое моделирование, основанное на построении зависимостей между входными и выходными переменными с помощью нейронных сетей (НС). Одним из этапов построения НС является обучение, которое фактически оказывается нелинейной задачей о наименьших квадратах. Наиболее часто для ее ре-

1 Работа выполнена при финансовой поддержке РФФИ, грант № 09-07-97531-р_центр_а.

2 Павел Викторович Сараев, кандидат технических наук, декан, (psaraev@yandex.ru).

24

шения применяются алгоритмы, основанные на методе Ньютона, в частности, метод Гаусса-Ньютона. Для возможности корректного применения данного метода при нахождении направления минимизации целевой функции необходимо использовать операцию псевдообращения матриц, обобщающую обычное обращение. В данной работе рассматривается повышение эффективности применения метода Гаусса-Ньютона с псевдообращением для обучения НС на основе формулы блочного псевдообращения матриц Клайна, предлагается алгоритм для обучения НС на основе указанной формулы.

1. Обучение нейронных сетей с помощью нелинейного метода наименьших квадратах

Наиболее распространенным классом НС являются сети прямого распространения (НС ПР) [3]. В НС ПР нейроны разделяются на несколько групп, называемых слоями. Нейроны, составляющие слой, не связаны друг с другом; на их входы подаются выходные значения нейронов предыдущего слоя.

Функционирование одновыходной т-слойной НС при единичной функции активации в выходных нейронах представляется в форме

(1) у = W(т)а (... (V(2)а (V(1)х)) ...) .

где х € К” - вектор входов НС; у € К - выход НС; а - нелинейная функция активации; W(1) € кМгх(Мг-1+1) - веса нейронов слоя I (учитывается также фиктивный единичный входной сигнал каждого нейрона), I = 1,..., т; N - число нейронов в слое I. Из (1) видно, что работу 1-го слоя НС ПР в векторно-матричной форме можно представить как

у(1) = а (ш(1)у(1-1)) ,

где у(1) € К^г - выходы нейронов слоя I; у(0) = х - вектор входов НС. Функция (1) имеет суперпозиционный характер, лежащий в основе многих алгоритмов эффективного использования НС

ПР. Важным обстоятельством является возможность дифференцирования выходов сети по весовым коэффициентам и входным переменным НС.

Важным этапом построения НС ПР является обучение - параметрическая идентификация нейросетевой модели на основе массива известных данных

{Xi,yi},i = 1,.. .,k.

Степень близости вектора выходов сети на i-ом примере у и указаний учителя yi при текущем векторе весов НС w G Rs характеризуется мгновенным функционалом качества, который обычно представляет собой евклидову норму вектора отклонений:

Г

(2) Qi(e(w)) = (yi(w) - yi)T(yi(w) - yi) = Y^(Vij(w) - )2.

j=i

Интегральная степень соответствия нейросетевой модели данным

из обучающего множества задается функционалом

k k

(3) j (w) = ^ Qi(w) = E(yi(w) - yi)2.

i=i i=i

Цель обучения - определение такого вектора весов w*, чтобы функционал (3) принимал минимальное значение:

(4) w* = arg min J(w).

w€Rs

По сути, требуется решить нелинейную задачу о наименьших квадратах (НЗНК). Метод решения НЗНК называется нелинейным методом наименьших квадратов (НМНК).

Учет квадратичности (3) приводит к разработке алгоритмов, ориентированных на решение НЗНК. Аппроксимируем (3) в окрестности текущего вектора весов wt квадратичной моделью

(5) J(w) w J(w*)+VwJ(wt)(w-wt)+2(w-wt)TVWJ(wt)(w-wt) Применяя к (5) необходимое условие оптимума функции, приходим к уравнению

VJ(wt) + V2J(wt)(w - wt) = 0.

Из псевдорешения этого уравнения получается метод Ньютона для решения НЗНК с псевдообращением

(6) Д-ш4 = w — ад* = - [У23(ад*)] + У3(ад*),

где [У23^¿)] + - псевдообратная матрица к исходной (матрица Мура-Пенроуза), являющаяся обобщением обратной матрицы на случай вырожденных и прямоугольных матриц. Использование псевдообращения позволяет не заботиться о невырожденности и даже квадратности матрицы Гессе оптимизируемой функции. Минимизируемый функционал (3) для НЗНК можно представить в форме

(7) 3 ^) = 1 Л^)ТЛ^),

где Л^) = у^) — у - вектор невязок; у^) - вектор выходов НС ПР, составленный на примерах обучающего множества; у -вектор указаний учителя (множитель 1 /2 не влияет на решение задачи (4)). Будут справедливы формулы:

(8) У3 М = Я/Т^)ЯМ, где Л'Т ^) - матрица Якоби вектора невязок, и

(9) У23 ^) = Л'Т ^)Л'^) + С^),

где С^) - матрица, содержащая информацию о вторых частных производных элементов вектора Л^). Подставляя (8) и (9) в (6), получаем ньютоновское направление минимизации с псевдообращением: [ ]

(10) Дwt = — [Я/Т^)Я'^) + ^^*)] + Я/Т^*)Я^*). Матрица ф^*) сложно рассчитывается, поэтому (10) в чистом виде не применяется.

В основе большинства алгоритмов НМНК лежит предположение о том, что с каждой итерацией слагаемое Л/Т^*) Л'^*) становится все более значимым по сравнению с ф^*). Действительно, при ||3^ 0 матрица ф^*) стремится к нулевой. В методе Гаусса-Ньютона с псевдообращением полагается, что С^) = 0:

(11) Дwt=— [Я/Т^)Я'^)] +Я/Т^)Я^)=— [Я'^*)] +Я^4). Матрица Якоби Л/Т^) для НС ПР может быть рассчитана на основе алгоритма, аналогичного процедуре обратного распространения ошибки.

2. Блочные рекуррентно-итерационные процедуры в обучении

В работе [2] для решения НЗНК было предложено использовать блочные рекуррентно-итерационные процедуры (БРИП). В данной работе предлагается их применение к обучению НС ПР. Суть БРИП состоит в том, что направление для минимизации НЗНК на некотором шаге итерационного процесса, определяемое с помощью метода Гаусса-Ньютона с псевдообращением, не следует вычислять непосредственно по формуле (11). Вместо это предлагается воспользоваться формулой Клайна для псевдообращения блочных матриц [1]:

И Б] + =

А+(/ - БЬ)

ь

(12) где

(13) Ь = С + + (/ - С+С)КБТ(А+)ТА+ (/ - ВС+),

С = (/ - АА+)Б, К = (/ + МТМ)-1, М = А+Б(/-С+С). Данный способ обосновывается преимуществами вычислительного характера, имеющими место при псевдообращения матриц небольших размеров. Формула Клайна позволяет реализовать рекуррентную процедуру псевдообращения матрицы, состоящей из нескольких блоков.

БРИП основываются на разбиении исходного вектора параметров и> на произвольное количество подвекторов адг,г = 1,..., п. На каждой итерации на основе рекуррентного алгоритма Клайна определяется направление минимизации вдоль каждой группы весов Дад\

Рассмотрим ситуацию, когда вектор ад разбивается на две части: ад1 и ад2. Алгоритм Гаусса-Ньютона в соответствии с (12) для модели с скалярным выходом можно записать как

Дад11

(14)

Дад2

№ У

^у] + (у - У) =

(У - у).

Это позволяет определить сначала один вектор

Дw2 = ¿(у — у),

затем на основе этого вычислить и другой:

Дw1 = (УТху)+ (I — УТ2 у^) (у — у) =

= №у)+ (у — у — ^уД^).

БРИП могут быть применены для обучения НС ПР; при этом разбиение вектора весов становится естественным, вытекающим из самой структуры сети [4]. В отдельную часть могут быть выделены как всего слоя, так и отдельных нейронов; другие разбиения содержательного смысла не имеют. Рассмотрим НС ПР стандартной структуры. Пусть и - вектор линейно входящих (веса нейрона выходного слоя), а V - вектор нелинейно входящих в НС параметров (веса нейронов скрытых слоев). Так как порядок составления вектора w ([ иТ V11 ]Т или [ V11 иТ ]Т) может быть выбран произвольным, алгоритм определения направления минимизации на основе (14) запишем в виде

Дv = ¿(у — у), Ди = (^у)+ (у — у — ^уД^ .

Вследствие того, что параметры и входят в НС линейно, справедливо, что

VTУ = Ф,

где Ф = Ф^) е Мкх? - простым способом вычисляемая матрица, составленная из значений нелинейных функций 0^,ж),г = 1,..., 5, на примерах обучающего множества:

Ф

01^,Ж1) 01^,Ж2)

02(V,Ж1) 02 (V, Ж2)

01 (V, Ж&) 02^,Жй)

0д С«,Ж1) 0д(V, Ж2)

0д ^,Ж*;)

Итак, получили следующую формулу определения направления минимизации вдоль линейно входящих весов стандартной НС ПР:

Ли = Ф+ (у - у - УуЛ^,

где матрица Якоби У^у может быть вычислена аналогично алгоритму обратного распространения ошибки (ОРО) с учетом су-перпозиционной структуры нейросетевой модели.

БРИП для параметрической идентификации НСМ могут быть распространены на многослойные сети. Пусть А = [А1 А2 ... АП и А^.- = [А1 А2 ... А-, тогда рекур-

рентный алгоритм блочного псевдообращения может быть представлен в следующем виде:

А+ =

А+.”_1(1 — Ага^1..га-і) ¿1..”-1

А+.га_ 2(1 Ага-1^1..га-2)

¿1..”- 2

А+.2 = [А ^] + =

А+(/ - А2І1) ¿1

Таким образом, определив матрицу А+, можно рекуррентно посчитать другие части псевдообратной блочной матрицы. Выпишем формулу для нахождения псевдообратной матрицы А+ ¿:

А+.г-1— Аг^1..г-1)

¿1..г- 1

(15)

А+.* =

где матрица Ь1..^ строится на основе А+ 1 и А^.

Теперь применим данные формулы для вычисления направлений минимизации. Введя обозначение Лад1л =

Дш1Т Д»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Д»

получим:

Д»” = ¿1..га_1 (у - у),

Д»1"”-1 = А+.га_1(/-Ага£1..га_1)(у-у) = А+.„_1(у-у-АгаДш”), 30

Т

Лад”-1 = ¿1..га-2(у - у - АпЛад”),

Лад1..”-2 = А+.п-2(/ - Ага-1Ь1..га-2)(у - у - АгаЛад”) =

= А+.га-2(у - у - АгаЛад” - Ага-1Лад”-1),

Лад2 = ¿1(у - у - АпЛадп - Ап-1Ладп-1 - ... - АзЛад3),

Лад1 = А+(/-А2Ь1)(у-у-АгаЛадга-Ага-1Ладга-1-.. .-А2Лад2) =

= А+(у - у - АпЛадп - Ап-1Ладп-1 - ... - А2Лад2).

Видно, что рекуррентная формула для вычисления направления оптимизации г-го подвектора весов (г = п,..., 2) записывается как

А- Лад-^ , и для подвектора Лад1:

А- Лад- ^ .

При п = 2 получается в точности (14). Для алгоритма Гаусса-Ньютона А- = у - находится с учетом суперпозиционной структуры на основе процедуры, аналогичной ОРО. Далее приведен предлагаемый алгоритм 1 использования БРИП в обучении НС.

Алгоритм 1. Применение БРИП в обучении НС ПР

1) Вычисление А+, Б := А+.

2) Вычисление поблочно псевдообратной матрицы А+.

а) г := 2.

б) Вычисление ¿1..г-1 на основе Б и Аг.

в) Вычисление А+ г, Б := А+ г.

г) г := г + 1.

/ п

(17) Лад1 = А+ (у - у - ^

(16) Ладг = ¿1..г-1 ( у - у - ^

д) Если і < п, возврат на шаг 2б.

3) г := у — у.

4) Определение подвекторов Дш\

а) і := п.

б) Дшг := £і..і_і2:.

в) і := і — 1.

г) г := г — Аі+1Дшг+1.

д) Если і > 2, возврат на шаг 4б.

е) Дш1 := А+г.

Заметим, что нет необходимости хранить все матрицы Аі..і - достаточно знать эту матрицу на текущем шаге рекуррентного процесса. Кроме того, саму матрицу А+ также нет надобности вычислять. При нахождении подвекторов для увеличения эффективности используется рекуррентно рассчитываемый вектор г.

Можно найти некоторую аналогию предлагаемого алгоритма 1 с процедурой обратного распространения ошибки, которая послойно находит градиент функционала качества по вектору весов НС. Алгоритм 1 обладает большей гибкостью, поскольку позволяет находить направление изменения значений весов в любом порядке - как от последнего слоя к первому, так от первого слоя к последнему, и даже в произвольном порядке.

Данный алгоритм, как и БРИП вообще, могут основываться не только на базе метода Гаусса-Ньютона, но и на базе других методов ньютоновского типа с псевдообращением, определяющих направление минимизации по (10):

Дш = — [Я/Т(ш4)Я' (ш4) + ф(ш4)] + Я/Т(ш4 )Я(ш4).

Это связано с тем, что общая схема формирования направления описывается формулой Дш = Я+у, где Я - аппроксимация матрицы Гессе (своя для каждого метода); у - вектор, содержащий информацию об указаниях учителя (в методе Гаусса-Ньютона

у = Я(ш) = у(ш) — у).

32

Заключение

Данная работа обобщает результаты, полученные в [2], с учетом специфики задачи обучения НС ПР. Предложенный алгоритм на основе БРИП позволяет усовершенствовать процедуры обучения НС ПР, основанных на применении НМНК, в частности, метода Гаусса-Ньютона. Данный алгоритм устанавливает также связь между направлениями минимизации для подвекторов вектора весов НС ПР.

Литература

1. АЛБЕРТ А. Регрессия, псевдоинверсия и рекуррентное оценивание. - М.: Наука, 1977. - 224 с.

2. БЛЮМИН С. Л., ПОГОДАЕВ А. К. Блочные рекуррентноитерационные процедуры решения нелинейной задачи о наименьших квадратах // Журнал вычислительной математики и математической физики. - 1992. - Т. 32, №8. -С. 1180-1186.

3. ОСОВСКИЙ С. Нейронные сети для обработки информации. - М.: Финансы и статистика, 2002. - 344 с.

4. САРАЕВ П. В. Использование псевдообращения в задачах обучения искусственных нейронных сетей // Электронный журнал «Исследовано в России». - 2001. - №29. - С. 308317.

NONLINEAR LEAST SQUARES METHOD AND BLOCK RECURRENT AND ITERATIVE PROCEDURES IN NEURAL NETWORKS TEACHING

Pavel Saraev, Lipetsk State Technical University, Lipetsk, Cand.Sc., dean (psaraev@yandex.ru).

Abstract: The article is devoted to the development of the feedforward neural networks teaching algorithms based on nonlinear least squares method with pseudo-inversion. Application of Cline block pseudoinversion formula to teaching algorithms based on weights vector decomposition is considered. This approach allows to decrease computational costs by virtue ofpseudo-inversion ofmatrices ofsmall size.

Keywords: neural networks teaching, nonlinear least squares method, block pseudo-inversion, block recurrent and iterative procedures.

Статья представлена к публикации членом редакционной коллегии Б. Т. Поляком

i Надоели баннеры? Вы всегда можете отключить рекламу.