Количество мультипликативных операций при подборе весовых коэффициентов искусственной нейронной сети

Крючин Олег Владимирович; Арзамасцев Александр Анатольевич; Слетков Денис Викторович; Зенкова Наталья Александровна

УДК 519.95

КОЛИЧЕСТВО МУЛЬТИПЛИКАТИВНЫХ ОПЕРАЦИЙ ПРИ ПОДБОРЕ ВЕСОВЫХ КОЭФФИЦИЕНТОВ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ

Ключевые слова: параллельные алгоритмы; искусственные нейронные сети; оценка эффективности алгоритмов; кластерные вычислительные системы.

Производится оценка количества мультипликативных и аддитивных операций, необходимых для обучения и с-кусственных нейронных сетей последовательными и параллельными алгоритмами. В качестве нейросетевых структур использованы многослойный персептрон, сеть Вольтерри и сеть каскадной корреляции Фальмана. В качестве методов подбора весовых коэффициентов использованы метод полного сканирования и некоторые градиентные методы - метод наискорейшего спуска, QuickProp и RPROP.

ВВЕДЕНИЕ

Аппарат искусственных нейронных сетей (ИНС) -это математический аппарат, являющийся компьютерной моделью нейронных сетей биологических объектов, обладающий способностями к обучению на основе эмпирических данных, работе в случае недостатка информации или при ее значительной зашумленности. Данный аппарат обладает удивительной «гибкостью», обеспечивающей «приспособление» ИНС-моделей к различным эмпирическим данным за счет изменения их структуры и настроечных параметров [ 1].

Обучение ИНС сводится к минимизации значения невязки:

N-1 N-1 Р-1

£ 6-у У = £ £ - к, Ї

(1)

і=0 ,=0

где di - г-е выходное значение моделируемого объекта; у{ - г-е выходное значение ИНС; N - количество строк в обучающей выборке; Р - количество выходов объекта (размерность векторов di и Уi ).

Выходные значения ИНС рассчитываются по следующей формуле:

(2)

где - входные данные, а и> и ц - управляющие параметры (значения весовых коэффициентов и активационных функций нейронов).

Обучение ИНС, как правило, требует значительных временных затрат. Одним из способов решения этой проблемы стала разработка параллельных алгоритмов обучения и использование кластерных систем [2-4]. Различные способы распараллеливания имеют различную эффективность. Одним из традиционных способов оценки скорости работы алгоритма является подсчет

сделанных им мультипликативных операций, поэтому целью данной работы является вычисление количества мультипликативных операций для последовательных и параллельных алгоритмов обучения ИНС. На основе полученных данных предполагается вычислить эффективность параллельных алгоритмов.

ИСПОЛЬЗУЕМЫЕ СТРУКТУРЫ ИНС

Будем рассматривать следующие структуры организации ИНС - многослойный персептрон, сеть каскадной корреляции Фальмана и сеть Вольтерри. Выбор данных структур обусловлен их широким использованием в задачах аппроксимации и прогнозирования временных рядов [2-3].

Многослойный персептрон (MLP) - это полносвязная сеть прямого распространения.

Сеть каскадной корреляции Фальмана - это специализированная многослойная нейронная конструкция, в которой подбор структуры сети происходит параллельно с ее обучением путем добавления на каждом этапе обучения одного скрытого нейрона [5-6].

Сеть Вольтерри - это динамическая сеть для нелинейной обработки последовательности сигналов, задержанных относительно друг друга [7].

АКТИВАЦИОННЫЕ ФУНКЦИИ НЕЙРОНОВ

На рис. 1 представлен нейрон, имеющий 2 добавочных весовых коэффициента (импульса ( р1 и рЕ )), значение одного из которых остается неизменным, а второй обучается наряду с прочими весовыми коэффициентами. Также аргумент активационной функции имеет коэффициент (с^ ), и, таким образом, выходное значение нейрона может быть выражено формулой (3):

( N

У= Ї

і = 1

(3)

и

і=0

с

где Nl - количество слоев; Ni - количество нейронов па i-м слое; P - количество выходов; L - количество входов.

Аналогично, можно посчитать количество мультипликативных и аддитивных операций для сети каскадной корреляции Фальмана (8) и (9) и сети Вольтерри (1G) и (11):

NU -і N -і

ZyC= £ Z N (Ui)+ £ (n0 +i )+p(n0 + N1):

(8)

i=0

Рис. 1. Модель нейрона

где / - активационная функция, а ^ - вектор входных сигналов размерности Nх.

Использование импульсов и коэффициента позволяет более гибко настраивать активационные функции.

СЛОЖНОСТЬ ВЫЧИСЛЕНИЯ ВЫХОДНЫХ ЗНАЧЕНИЙ ИНС

V-1 "і-1

£ е N (u, ) + 2 £(N0 +i)

еyC = £еNlu, ) +

i=0 i=0

+ 2p(n0 + N1 )+N + 2P + L;

l -1

и

+ i )+

ZyV £ ZN (u i )

(9)

(1G)

Количество мультипликативных операций, необходимых для вычисления выходных значений ИНС, складывается из количества мультипликативных операций, необходимых для вычисления выходных значений нейронов, и количества синаптических связей:

V -і

Z y = £ z N (Ui )+lw

(4)

i=0

l -1 U

NT-1

JyV

£ еN (Ui)+2 £ N,N,-1 +L (Nl - і)

i=0

i=1

. (11)

Для приведения аддитивных операций к мультипликативным введем коэффициент о, который прямо пропорционален времени, затрачиваемому на одну аддитивную операцию. Следовательно, на основе (6)-(11) можно вывести (12)-(14):

где 1ц - количество нейронов в сети; 1К - количество

синаптических связей (весовых коэффициентов).

Аналогично можно вычислить количество аддитивных операций, необходимых для вычисления выходных значений ИНС:

е у = £ е N (Ui )+lw+ е I

(5)

i=0

где 01 - количество аддитивных операций, необходимых для изменения счетчиков цикла.

Можно расписать формулы (4)-(5) для различных типов структур. Так, формулы (6)-(7) определяют количество операций при использовании многослойного персептрона:

l -і U

ZyM £ ZN (u )+ £ NiNi-1 +

(l -1 U

+ а

\ (12)

£ е N (Ui)+2 £ NN-1 + 2Nl+P+L

l -1 U

zyC =

£zn (и,)+ £(N 0 +i MN 0 +N1)+

fl -1 и

+ о

i=0

N-і,

£ е N (U,) + 2£ N 0 +i)

i=0 i=0

+ o(2p(N + N)+N + 2P + l)

(1З)

l -і и

zyM £ zN(u, )+ £ NiNi-і ;

(б)

i=0

l -і U

i=1

е yM £ е N (Ui ) + 2 £ NiNi-і + 2 Nl+P + L = (7)

i=0

i=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

l-1

U

ZyV = £ zN (иі ) +

l-1

и

+ а

£ еN (и,)+2 £ N,N,-і + l(nl - і)

(14)

,=0

nl -1

i=0

i=1

nl -1

i=0

i=1

i=0

nl-і

i=0

nl -1

nl -і

i = 0

i=1

СЛОЖНОСТЬ ВЫЧИСЛЕНИЯ ЗНАЧЕНИЯ НЕВЯЗКИ

Как было указано, значение невязки вычисляется по формуле (2). При этом для вычисления £ по г-й строке необходимо сделать £ у +1 мультипликативных и

0у +2Р аддитивных операций. Следовательно, для вычисления полной невязки £ требуется Nу + 1)+ 1 мультипликативных и N0 у +2NP аддитивных операций соответственно. Кроме того, требуется N аддитивных операций для организации суммирования. Обобщая вышесказанное, можно вывести формулы (15)-(17):

^ =N (С у+1)+1; (15)

0£ =N (0у + 2Р); (16)

7, = Се+о0е= N(Qy +1 + о0 у + 2стР) + 1. (17)

Если использовать параллельное вычисление невязки, то необходимо разделить обучающую выборку по процессорам так, чтобы каждый вычислял погрешность по своей части выборки, а затем ведущий суммировал результаты (19):

є =

£ <

к=0

(18)

где єк - значение невязки на к-м процессоре [2].

Каждый процессор, за исключением ведущего, обрабатывает М строк. Ведущий работает с М строками:

М =

N

п

N п -1

N моё п = 0

N моё п Ф 0;

(19)

М= |М

N тоё п = 0

(20)

N -М(п -1), N моё п Ф 0.

Для работы параллельного алгоритма необходимо: перед началом обучения разделить обучающую выборку на п частей и передать ее на процессоры; при каждом вычислении невязки передавать на процессоры вектор весовых коэффициентов ^ и возвращать значение невязки £ к .

Для передачи/отправки 1 элемента обучающей выборки требуется одна мультипликативная и две аддитивные операции, таким образом, для передачи на к-й процессор необходимой ему выборки требуется М(Р+Ь) мультипликативных и 2М(Р+Ь) аддитив-

ных операций, а для передачи на все п — 1 процессоров -

М (р + Ь)(п — 1) мультипликативных и 2М(Р + Ь)

(п — 1) аддитивных операций. Обозначим количество

передаваемых чисел Р (Р = МР+МЬ ). Поскольку для разделения выборки на п частей необходимо две мультипликативные и N аддитивных операций, то для выполнения первого пункта на ведущем процессоре

выполняется 2 + Р (п — 1) мультипликативных и

N + 2Р (п — 1) аддитивных операции, а на неведущем -

Р мультипликативных и 2Р аддитивных. Кроме того, неведущий процессор не может начать получение данных, пока ведущий не отправит их, т. е. к-й процессор

(к > 0) ожидает выполнения ведущим 2 + кР мультип-лиативных и N+ 2кР аддитивных операций. Таким образом, на к-м процессоре (к> 0) выполняется

2 + кР+аЫ + 2аkP пустых операций (соответствующих операциям подготовки данных на ведущем процессоре) и у(Р>,у) операций, время выполнения которых соответствует времени межпроцессорной передачи Р чисел при скорости интерконекта V . Таким обра-

- г'(о)

зом, ведущий процессор затрачивает С^/ мультипликативных операций (21), а к-й процессор - С^ (22):

С(0) = 2 +Р(п -1) + аN + 2Ра(п -1) =

= Р(п - 1)(2а +1)+ аN + 2;

С (0 = 2 + кР + аN + 2аkP + у(Р,у)+ Р + 2аР

= Р (к + 1)(1 + 2а) + аN + у(р,л)+ 2.

(21)

(22)

Вычисление значения невязки состоит из нескольких этапов.

1. Передача на все процессоры значений вектора весовых коэффициентов (размерностью 1К ). Для этого на ведущем процессоре требуется 1^ (п — 1) мультипликативных и 21К(п — 1) аддитивных, а на к-м неведущем

- 1К мультипликатиных и 21К аддитивных для получения. Кроме того, к-й процессор ожидает выполнения ведущим к1К мультипликативных и 2к1м, аддитивных операций. Исходя из этого, а также из того, что для передачи 1К элементов требуется у(1К,у) операций, к-

й процессор выполняет к1К + 2аЫК + у(1К, V) +

+1^ + 2а1^ операций.

2. Вычисление значения невязки.

3. Возвращение на ведущий процессор значений невязки. Для этого на к-м неведущем - 1 мультипликативная и 2 аддитивных операции, а на ведущем - п — 1 мультипликативных и 2п — 2 аддитивных для приема и 1 + 2а + ^(1,V) операций ожидания. Такими образом^,

к

Таблица 1

Количество операций, необходимых для вычисления невязки

Этап Ведущий процессор Неведущий (к-й) процессор

1 1„(п -1)(1 + 2°) к1м (1 + 2о) + 7(М у) + 1м (1 + 2о)

2 М (су +1+00у + 2оР)+1 М (Су+1+о0у + 2оР)+1

3 п (1+ 2о)+ у (1, у) 1+2о

4 о (п -1) +1

нулевой процессор выполняет С(3 операции (значение С& вычисляется по формуле (23)):

С(3 = п -1 + 2а(п -1)+ у(1,у)+1 + 2ст = = п + 2ап + У (1, у).

(23)

4. Вычисление ведущим процессором результата. Требуется п — 1 аддитивных операций и 1 мультипликативная.

Количество операций, необходимых для этих этапов, представлено в табл. 1.

До начала получения ведущим процессором вычисленных другими процессорами значений невязки ведущий рассылает весовые коэффициенты и вычисляет £ о , а прочие получают значения М, вычисляют значения невязки £ к и отправляют результат.

Сє0 =1укп-1Х1+2а)+М (Су +1+&бу+ а )+1;

С& = (1+2а ХК+К+1)+ у (1м,,у)+

+М (су + 1+ аву+ а )+1.

(24)

(25)

Кроме того, необходимо учитывать время передачи невязки (У (1 , у)). Таким образом, ведущий процессор может начать прием данных с к-го после тахСв0 ,С& + у (1, у)). Поскольку получение завершается после того, как значение невязки будет послано самым медленным процессором, то для параллельного вычисления невязки требуется операций, где вычисляется по формуле (26):

- тах (тах(3е0 + к (2а + 1),С ек + К1, у))) +

к=1..п-14 4 "

а (п -1) + 1.

(26)

Таким образом, можно вывести формулу (27), показывающую эффективность алгоритма распараллеленного на уровне вычисления невязки:

где /£ - количество вычислений невязки; Х£ - количество прочих операций алгоритма (не относящихся к вычислению значения невязки).

ГРАДИЕНТНЫЕ АЛГОРИТМЫ

Известно, что градиентные алгоритмы подбора весовых коэффициентов основываются на идее вычисления градиента и изменении весовых коэффициентов в противоположном направлении. В данной работе рассмотрены три наиболее распространенных алгоритма -алгоритм наискорейшего спуска, QшckProp и КРЯОР.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Алгоритм наискорейшего спуска применяет для вычисления нового значения г-го весового коэффициента на 1-й итерации следующую формулу:

м(/+1 = м(/]— ,?(/+1)У£(/) + цз()У£(/, (28)

коэффициент обучения (шаг); У є =

Зє Зє

Зє

дм0 Зм дм1

■ градиент; q - коэффици-

ент момента.

Таким образом, можно заметить, что в данном случае количество мультипликативных операций равно трем, а количество аддитивных равно двум.

QuickProp вычисляет весовые коэффициенты иначе:

ц'і +:) = тах

Ує

(і )

Л

Ує

іі-і

-Ує Іїї ^мах

(29)

где qMAX - максимальный коэффициент момента (Фальманом предложено значение 1,75 [7]);

А^1 1 = У1+1)^(і-1) , Ам>(-1)ф 0

М+1)Ує(і) , Aw(I-1) = 0;

(30)

(31)

е (2 ) =

1 е 2е + К

піе 2 е +С^+ К

(27)

Следовательно, количество мультипликативных операций равно трем, а количество аддитивных - двум. Алгоритм RPROP использует следующие формулы:

а

Ы1 })=

,(/+1):

1 ,Уе(/)>0

0 ,Уе{/) = 0

-1 ,Уер) < 0;

^ва ^) ’вмЛХ )

(32)

тах\ва^) ’ вмлх ) 1)уер) > 0 (33)

таХв_Ъ ^ ),вмм )

.(1)

,Уе(/-1)Уе(/) < 0 ,Уе( 1 -1)Уе( 1) = 0;

Ам() = sign (уе(/)) 5;

(I+1)

(34)

Таким образом, в данном случае количество мультипликативных операций также равно 3 , а количество аддитивных - одному.

Исходя из вышесказанного, а также из того, что для вычисления одного элемента градиента требуется ^е + 1 мультипликативных и 0е + 3 аддитивных операций, можно вывести, что для одной итерации градиентных методов требуется количество операций, равное приведенному в табл. 2.

Каждая параллельная итерация градиентного метода состоит из нескольких этапов:

- рассылка ведущим процессором вектора весовых коэффициентов ^;

- вычисление элементов своей части градиента и весовых коэффициентов;

- передача на ведущий процессор новых значений весовых коэффициентов.

Первый этап требует у ведущего процессора /№(п — 1) мультипликативных и 2/к(п — 1) аддитивных

операций, а у к-го неведущего - /^,(к+1)+у(/^,,у) (/К - на прием, к/К - ожидание отправки ведущими) и 2Цк +1) ( 2/^ — прием, 2/г/ ' — ожидание отправки). Количество операций, необходимых для второго этапа, приведено в табл. 3. Что касается третьего этапа,

то неведущий процессор производит / ^ мультипликативных и 2/К аддитивных операций, а ведущий -

1^п + у(/, у) (/М! (п — 1) операций приема и / К операций ожидания) и 21 К (п — 1) .

Поскольку первый этап требует операций на ведущем процессоре и Сна прочих (вычисляются

по формулам (35)-(36)), а второй - С^д и С^ (данные из табл. 4), то перед началом приема ведущий процессор должен ожидать Сс ) операций:

Со0 = С(п—1)+ 2<(п—1)=С(п—1Х1+2а);

Сок =С(к + 1)+ )+ 2<(к + 1) =

= С(к+1Х1+2а)+у(Су);

С( 3) =1 + 2аИ

СОк + 2аЫ

(35)

(36)

(37)

Количество операций, необходимых для одной итерации градиентных методов

Таблица 2

Метод Количество мультипликативных операций Количество аддитивных операций

Метод наискорейшего спуска С (Се + 4) К (0е + 5)

QшckProp С (Се + 4) К (0е +5)

КРШР К (Се + 4) К (0е + 4)

Таблица 3

Количество операций, необходимых для второго этапа параллельной итерации градиентных методов

Метод Количество мультипликативных операций на ведущем процессоре Количество аддитивных операций на ведущем процессоре Количество мультипликативных операций на неведущем (к-м) процессоре Количество аддитивных операций на неведущем (к-м) процессоре

Метод наискорейшего спуска ^ (Се + 4) ^ (0. + 5) 1 (Се + 4) К (0е + 5)

QuickProp ^ (Се + 4) )5 + < ^ 1 (Се + 4) К (0е + 5)

КРШР К (Се + 4) )4 + < 1 (Се + 4) С (0е + 4)

Таблица 4

Значения коэффициента эффективности при прогнозировании значений температуры воздуха

Кластер ТГУ Кластер ТГТУ Кластер МВЦ

аюО (4 процессора) 0,9312 0,9287 0,9401

аюО (6 процессоров) 0,9304 0,9273 0,9393

аюО (8 процессоров) 0,9297 0,9259 0,9387

ає (4 процессора) 0,9124 0,8974 0,9199

ає (6 процессоров) 0,9112 0,8951 0,9182

ає (8 процессоров) 0,9103 0,8936 0,9169

Таблица 5

Значения коэффициента эффективности при прогнозировании массы улова креветки

Кластер ТГУ Кластер ТГТУ Кластер МВЦ

аюО (4 процессора) 0,9235 0,9199 0,9297

аюО (6 процессоров) 0,9221 0,9157 0,9291

аюО (8 процессоров) 0,9204 0,9105 0,9283

ає (4 процессора) 0,8921 0,8822 0,9091

ає (6 процессоров) 0,8906 0,8793 0,9079

ає (8 процессоров) 0,8891 0,8769 0,9067

С

- тахО^оо

+420>С1 +Ск + 6Ц + у^,у\ (38)

Таким образом, эффективность параллельных градиентных алгоритмов, выраженную формулой (39), можно расписать как (40) для метода наискорейшего спуска и QuickProp и (41) для RPROP:

лм>0

-юО .

п2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

юО

„ (?)_ 1о1м, (СЕ + 4 + + 5°) + К,

аюод\А й

п2лл

АюОК

(2 ) =

^оК (Се + 4 + р9е + 4°)+

п2

(39)

(40)

(41)

юО

где Iо - количество итераций; Хо количество прочих операций алгоритма.

ЭКСПЕРИМЕНТЫ

Для проверки приведенных выше формул был проведен эксперимент. Он состоял в прогнозировании температуры воздуха в городе Тамбове. Для этого были использованы две структуры ИНС - многослойный персептрон и сеть Вольтерри. Обучающая выборка состояла из 300 строк, каждая из которых содержала 4 входных и одно выходное значение. Результаты приведены в табл. 4.

Другой эксперимент состоял в прогнозировании массы улова креветки в Индийском океане. Для эксперимента использовался многослойный персептрон. Результаты приведены в табл. 5.

ВЫВОДЫ

Таким образом, можно сделать вывод, что использование параллельных алгоритмов обучения ИНС позволяет распределить вычислительную нагрузку, что, в свою очередь, снижает временные затраты. Следовательно, параллельные алгоритмы достаточно эффективны для решения задач обучения ИНС.

ЛИТЕРАТУРА

1. Зенкова Н.А. Моделирование на основе аппарата искусственных нейронных сетей как метод исследования в психологической науке // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2009. Т. 14. Вып. 3. С. 577-590.

2. Крючин О.В. Использование кластерных систем для обучения искусственных нейронных сетей при применении параллельного вычисления значения невязки // Наука и образование в развитии промышленной, социальной и экономической сфер регионов России. 2 Всероссийские научные Зворыкинские чтения: сб. тез. докл.

2 Всерос. межвуз. науч. конф. (Муром, 5 февраля 2010 г.). Муром, 2010. 1 электрон. опт. диск (CD-ROM).

3. Крючин О.В. Параллельные алгоритмы обучения искусственных нейронных сетей // Информационные технологии и математическое моделирование (ИТММ-2009): материалы 8 Всерос. науч.-практ. конф. с междунар. участием (12-13 ноября 2009 г.). Томск, 2009. Ч. 2. С. 241-244.

4. Крючин О.В. Разработка параллельных градиентных алгоритмов обучения искусственной нейронной сети // Электронный журнал «Исследовано в России». 2009. № 096. С. 1208-1221. "ЖЬ: http://zhumal.ape.relarn.ru/articles/2009/096.pdf. Загл. с экрана.

Солдатова О.П., Семенов В.В. Применение нейронных сетей для решения задач прогнозирования // Электронный журнал «Исследовано в России». 2009. № 136. С. 1270-1270. URL:

http://zhurnal.ape.relarn.ru/articles/2006/136.pdf. Загл. с экрана. Fahlman S.E., Lebiere C. The cascade-correlation learning architecture: Tech. Rep. CMU-CS-90-100. School of Computer Science. Carnegie Mellon University. August 1991.

Fahlman S.E. The recurrent cascade-correlation architecture: Tech. Rep. CMU-CS-91-100. School of Computer Science. Carnegie Mellon University. 1991.

Поступила в редакцию 23 ноября 2012 г.

Kryuchin O.V., Arzamastsev A.A., Sletkov D.V., Zenkova N.A. QUANTITY OF MULTIPLICATIVE OPERATIONS AT WEIGHTS COEFFICIENTS OF ARTIFICIAL NEURAL NETWORK SELECTION

The estimation of quantity of the multiplicative and additive operations necessary for training of artificial neural networks by consecutive and parallel algorithms is made. As neuro-network structures the multilayer perseptron, Volterry structure and network of cascade correlation of Falmana were used. As methods of weights coefficients the method of full scanning and some gradients methods - a method of the quickest descent, QuickProp and RPROP were used.

Key words: parallel algorithms; artificial neural networks; estimation of algorithms efficiency; cluster computation systems.

QUANTITY OF MULTIPLICATIVE OPERATIONS AT WEIGHTS COEFFICIENTS OF ARTIFICIAL NEURAL NETWORK SELECTION

Текст научной работы на тему «Количество мультипликативных операций при подборе весовых коэффициентов искусственной нейронной сети»