Исследование скорости обучения нейронных сетей

Рындин А.А.; Ульев В.П.

УДК 004.891

ИССЛЕДОВАНИЕ СКОРОСТИ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ А.А. Рындин, В.П. Ульев

В статье рассматривается задача оптимизации скорости обучения нейронных сетей прямого распространения. Рассмотрены основные направления исследования скорости обучения нейронных сетей с обратным распространением ошибки. В качестве оптимизации алгоритма обратного распространения ошибки для нейронных сетей прямого распространения предложена методика адаптивной коррекции весовых коэффициентов с обратной связью и алгоритм начальной инициализации

Ключевые слова: нейронная сеть, адаптивная коррекция веса, инициализация веса, обратное распространение ошибки

Исследование аппроксимационной

способности технологии нейронных сетей проводится в рамках диссертационной работы по изучению возможностей управления процессами кредитования юридических лиц на основе

разработки скоринговых моделей оценки. Инструментом управления процессом банковского кредитования выступает скоринговая система, позволяющая на основе моделей оценки,

накопленной статистики кредитования юридических лиц и других факторов финансовой эффективности организации и экономического состояния региона прогнозировать кредитоспособность потенциальных заемщиков. Использование технологии нейронных сетей в составе гибридной скоринговой системы, сочетающей методики нечетких множеств и генетических алгоритмов, позволяет эффективно решать основную задачу категорирования и прогнозирования кредитоспособности

потенциальных заемщиков.

Предметом исследования является

оптимизация скорости и качества обучения многослойных нейронных сетей прямого распространения сигнала методом обратного распространения ошибки (Back propagation). Рассмотрим методику обучения с обратным распространением ошибки более подробно.

Алгоритм Румельхарта-Хинтона-Вильямса относится к алгоритмам обучения с учителем. Для обучения сети, так же как и для однослойного персептрона, необходимо иметь множество пар векторов {xs, ds}, s = 1...S, где {xs} = {x1,..., хs} -множество входных векторов x, {ds} = {d1,..., ds} -множество эталонов выходных векторов. Совокупность пар {xs, ds} образуют обучающее множество. Количество элементов S в обучающем множестве должно быть достаточным для обучения сети, чтобы под управлением алгоритма сформировать набор параметров сети, дающий нужное отображение x ^ у. Ошибкой сети можно

Рындин Александр Алексеевич - ВГТУ, д-р техн. наук, профессор, e-mail: [email protected], тел. 8(473) 243-77-04 Ульев Виталий Петрович - ВГТУ, соискатель, e-mail: u [email protected], тел. 8(903) 850 49 37

считать Еs = ||ёз - уз|| для каждой пары (хз, ёз). Суть алгоритма обучения сводится к минимизации суммарной квадратичной ошибки, которая имеет вид:

где ] - число нейронов в выходном слое.

Таким образом, если считать обучающее множество 8 заданным, то ошибка сети зависит только от вектора параметров: Е = Е(Р). При

обучении на каждой итерации корректируются параметры сети в направлении антиградиента Е:

АР = -гЧЕ( р) (2)

В теории оптимизации доказано, что данный подход обеспечивает сходимость к одному из локальных минимумов функции ошибки, при условии правильного выбора е > 0 на каждой итерации. Такой метод оптимизации называется методом наискорейшего спуска. Коррекции параметров сети необходимо рассчитывать на каждой итерации. Поэтому каждая итерация требует расчета компонент градиента и выбора оптимального шага. Алгоритм обратного распространения ошибки - способ расчета компонент градиента. Идея метода в том, чтобы представить Е в виде сложной функции и последовательно рассчитать частные производные по формуле для сложной функции. Алгоритм обратного распространения разбивается на два этапа. На первом этапе на вход сети подаётся некоторый входной вектор из обучающего множества, производится расчёт выходов нейронной сети. На втором этапе подсчитывается ошибка (5) для каждого выхода сети и начинается её обратное распространение от выходного слоя к входному, учитывая предположение, что связь с большим весовым коэффициентом вносит большую долю ошибки.

АЖ, = -£(—) (3)

4 дЖп.;

У

Ж, = Ж, + АЖ, (4)

где - весовой коэффициент связи между ь нейроном и ]-нейроном.

Если в процессе обучения наступает момент, когда ошибка в сети попадает в рамки допустимых значений, говорят, что наблюдается сходимость алгоритма обучения.

К наиболее значимым недостаткам алгоритма обратного распространения ошибки можно отнести следующее:

- наличие локальных минимумов функции или гиперплоскости ошибки, в которых возможно зацикливание алгоритма;

- большое количество итераций обучения, требуемое для достижения приемлемых значений ошибки сети.

Рассмотрим основные подходы обеспечения и ускорения сходимости:

1. Оптимизация выбора начальных весов. Цель состоит в определении таких начальных значений весов, при которых начальное значение ошибки минимально. Классический подход состоит в случайным выборе малых значений для всех весов.

2. Упорядочение данных. Чтобы обучение не двигалось в ложном направлении при обработке задачи классификации или распознавания, но не задачи аппроксимирования временных рядов, данные нужно перемешивать случайным образом. Иначе есть вероятность, что нейросеть "выучит" последовательность случайно оказавшихся рядом значений как истинное правило, и потом будет делать ошибку.

3. Управление величиной шага коррекции веса. По сути шаг коррекции веса - мера точности и скорости обучения сети. Показатель точности обратно пропорционален показателю скорости обучения. При этом следует отметить следующий важный момент: при увеличении шага коррекции увеличивается скорость обучения, но ошибка может не снизиться до требуемого уровня за счет того, что сеть просто пропустит убывание функции ошибки. При снижении шага коррекции повышается точность подстройки сети, тем не менее алгоритм спуска по поверхности ошибки может попасть в локальный минимум и низкого значения шага коррекции просто не хватит, что бы его преодолеть.

4. Оптимизация топологии сети. Целью

данного подхода является определение оптимальной топологии сети, обеспечивающей лучшую сходимость. При этом следует отметить два основных подхода: деструктивный и

конструктивные методы, реализующие удаление или добавление элементов нейросети соответственно.

В результате исследования сходимости обучения многослойной нейронной сети прямого распространения определено, что наиболее существенное влияние на процесс обучение имеет коэффициент коррекции веса. В настоящее время известны такие оптимизационные методики как обучение по расписанию (увеличение шага коррекции с ростом итераций обучения) и применение импульса, определяющего вектор

смещения веса с предыдущего шага итерации. При этом, на лицо следующие недостатки: в первом случае, изменение коэффициента коррекции по времени не учитывает реального значения функции ошибки, во втором случае, использование импульса позволяет подстраивать шаг коррекции под конкретный вес в зависимости от его предыдущего состояния, что в целом может привести к параличу нейросети.

Таким образом, методика адаптивной коррекции веса с обратной связью является попыткой компенсирования описанных выше недостатков. Суть методики заключается в том, что изменение шага коррекции сети учитывает состояние ошибки ее выхода, тем самым реализуя обратную связь, обеспечивающую увеличение точности подстройки сети при снижении ошибки выхода нейросети и наоборот. При этом обеспечивается успешное прохождение локальных минимумов функции ошибки в диапазоне неприемлемых, высоких значений ошибки вывода нейронной сети за счет большого шага коррекции.

На каждой итерации рассчитывается новое значение шага коррекции весовых коэффициентов как максимальная доля абсолютного отклонения выхода нейросети от его эталонного значения: аЪ8(йк - ук)

ERRk =

(5)

e = ERRmax = max(ERR1.. .ERRk) (6)

В результате сравнения алгоритмов обратного распространения ошибки со статическим шагом коррекции и адаптивной коррекцией веса с обратной связью получены следующие практические результаты. Смоделирована нейронная сеть прямого распространения с одним нейроном во входном слое, десятью нейронами в скрытым слоем и одним нейроном в выходном слое. Сформирована обучающая выборка на основе функции синуса четверти периода. Адаптивный метод коррекции веса с обратной связью показал существенное увеличение скорости обучения нейронной сети более чем в 30 раз до достижения заданного порога приемлемой ошибки.

Обеспечение оптимального выбора начальных весов позволяет еще до запуска процедуры обучения нейросети предопределить время настройки. Классический подход состоит в случайном выборе малых значений для всех весов. Данный подход в полной мере оправдан для связей входных векторов или нейронов их реализующих с первым скрытым слоем. При проведении практических испытаний нейронной сети прямого распространения с обратным распространением ошибки и сигмоидальной функцией активации отмечена тенденция возрастания масштаба изменения весовых коэффициентов от первого слоя к последнему.

Суть предлагаемой методики первичной оптимизации весовых коэффициентов заключается в их последовательном усилении от слоя к слою на основе начальной случайной инициализации, тем

самым реализуя некоторое приближение начального распределения весовых коэффициентов к обученному состоянию нейросети.

х к х 1аупит (7)

где W1J - весовой коэффициент связи 1-ого и ого нейрона;

к - коэффициент масштабирования;

1аупит - порядковый номер слоя ]-ого нейрона.

Таким образом, значения весовых коэффициентов, изначально инициализированные случайным образом малыми величинами, увеличиваются в соответствии с порядковым номером слоя. В качестве универсализации данного правила, в качестве параметра 1аупит может выступать порядковый номер связи в топологической модели прохождения сигнала от входа к выходу сети.

Полученные практические результаты показывают увеличение скорости обучения по методике обратного распространения ошибки от 2 до 10 раз, что может быть объяснимо уменьшением количества итераций корректировки

масштабированных начальных весовых

коэффициентов относительно их базовых малых

значений. В качестве недостатка данного подхода следует отметить преднамеренную ориентацию нейросети, при которой алгоритм градиентного спуска окажется в не очень удачной области поверхности ошибки и не сможет достичь приемлемых результатов. Тем не менее,

полученные практические результаты дают хороший стимул для дальнейших исследований методики в части определения характера распределения весовых коэффициентов нейросети.

Литература

1. Уоссермен.Ф. Нейрокомпьютерная техника: теория и практика, - М.: Мир, 1992. -240с.

2. Горбань А. Н. Обучение нейронных сетей. -М.: изд. СССР-США СП «Параграф», 1990. -160 с.

3. Барцев С. И., ОХОНИН В. А. Адаптивные сети обработки информации. Красноярск : Ин-т физики СО АН СССР, 1986. Препринт N 59Б. - 20с.

4. Хайкин С. Нейронные сети: полный курс = Neural Networks: A Comprehensive Foundation, - М.: «Вильямс», 2006. - 1104с.

5. Rumelhart D. E., McClelland J. L. Parallel Distributed Processing: Explorations in the Microstructures of Cognition, -Cambridge, MA: MIT Press, 1986.

Воронежский государственный технический университет

INVESTIGATION OF SPEED TRAINING NEURAL NETWORKS A.A. Ryndin, V.P. Ulyev

The paper considers the problem of optimizing the learning rate backpropagation neural networks. The main directions of research training speed of neural networks with back propagation error. As an optimization algorithm for error back propagation neural networks for the dissemination of the technique of direct adaptive correction weights with feedback and algorithm of first initialization

Key words: neural network, adaptive correction weights, weight initialization, backward error propagation

Исследование скорости обучения нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рындин А. А., Ульев В. П.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рындин А. А., Ульев В. П.

INVESTIGATION OF SPEED TRAINING NEURAL NETWORKS

Текст научной работы на тему «Исследование скорости обучения нейронных сетей»