Научная статья на тему 'Анализ характеристик обучения в многослойных нейронных сетях'

Анализ характеристик обучения в многослойных нейронных сетях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
72
16
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В Н. Лопин

Введены и исследованы количественные характеристики процесса обучения в многослойных нейронных сетях методом компьютерного моделирования. Целью проведенного исследования являлось установление зависимости качества обучения нейронных сетей от элементной избыточности сети, пороговых свойств базисных элементов, интенсивности процесса обучения. Полученные результаты позволяют устанавливать взаимосвязь характеристик обучения и топологии сети. Предпринята попытка объяснения высокой надежности реальных нейронных сетей наличием структурной избыточности и способностью их переобучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Are entered and the quantitative characteristics of learning process in multilayer neuronal nets by a method of computer modelling are investigated. The purpose of conducted research was the installation of relation of quality of training neuronal nets from an element redundancy of a net, threshold properties of basis elements, intensity of learning process. The obtained outcomes allow to install correlation of the characteristics of training and topology of a net. The attempt of explanation a high reliability actual neuronal nets by availability of a structural redundancy and ability of their conversion training is undertaken.

Текст научной работы на тему «Анализ характеристик обучения в многослойных нейронных сетях»

В. Н. Лопин: АНАЛИЗ ХАРАКТЕРИСТИК ОБУЧЕНИЯ В МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЯХ

УДК 519.72;616.8 - 091.81

АНАЛИЗ ХАРАКТЕРИСТИК ОБУЧЕНИЯ В МНОГОСЛОЙНЫХ

НЕЙРОННЫХ СЕТЯХ

В. Н. Лопин

Введены и исследованы количественные характеристики процесса обучения в многослойных нейронных сетях методом компьютерного моделирования. Целью проведенного исследования являлось установление зависимости качества обучения нейронных сетей от элементной избыточности сети, пороговых свойств базисных элементов, интенсивности процесса обучения. Полученные результаты позволяют устанавливать взаимосвязь характеристик обучения и топологии сети. Предпринята попытка объяснения высокой надежности реальных нейронных сетей наличием структурной избыточности и способностью их переобучения.

Are entered and the quantitative characteristics of learning process in multilayer neuronal nets by a method of computer modelling are investigated. The purpose of conducted research was the installation of relation of quality of training neuronal nets from an element redundancy of a net, threshold properties of basis elements, intensity of learning process. The obtained outcomes allow to install correlation of the characteristics of training and topology of a net. The attempt of explanation a high reliability actual neuronal nets by availability of a structural redundancy and ability of their conversion training is undertaken.

Компьютерное моделирование нейронных сетей является эффективным направлением в проверке гипотез об организации информационных процессов в реальных биологических нейронных сетях [1, 2, 3]. Одним из важных вопросов такого моделирования является установление взаимосвязи между основными характеристиками процесса обучения нейронных сетей.

В настоящей работе предпринята попытка такого исследования процесса обучения на примере модели нейронной сети, использующей алгоритм обратного функционирования. В этой модели выделяются три слоя нейронов: входной слой, промежуточный слой, выходной слой. Все физические связи между слоями определены некоторыми коэффициентами передачи. Варьирование этих коэффициентов передачи в диапазоне действительных чисел позволяет реализовывать тормозящие и возбуждающие связи между элементами сети. Коэффициенты с нулевыми значениями характеризуют отсутствие связей между элементами. Таким образом, любому множеству коэффициентов передачи можно ставить в соответствие некоторую логическую топологию, определяющую нейронный ансамбль.

Исследование процесса обучения нейронных сетей осуществлялось на уровне обучения логическим функциям. Задача обучения нейронной сети была сформулирована следующим образом:

Для заданной обучающей последовательности (X, Y), определяющей систему булевых функций Y = F(X) ,

найти вектор управления Q , обеспечивающей требуемый режим обучения. Здесь: У = Е(Х) - множество логических функций, Q - матрица коэффициентов передачи физических связей сети. Считается, что логические функции этой системы могут быть не полностью определенными.

В качестве базисной модели нейрона выбран элемент, описываемый

сигма-функцией вида:

y = 1 /

1 + e i = 1

(1)

где у - выход, (х^ ..., хп) - входы, (м^, ..., мп) - коэффициенты передачи, к - коэффициент крутизны сигма-функции. Это согласуется с моделью нейрона, предложенной в работе [1].

Целью проведенного исследования являлось установление зависимости времени обучения нейронных сетей от элементной избыточности сети, пороговых свойств базисных элементов, интенсивности процесса обучения. Указанные свойства сети были выражены через соответствующие количественные показатели. Время обучения Т определялось относительным числом итераций обучения, элементная избыточность связывалась с количеством элементов в промежуточном слое S, пороговые свойства элемента определялись коэффициентом крутизны сигма-функции К, интенсивность обучения определялась величиной шага обучения N. Таким образом, исследовалась функция трех переменных вида:

Т = (К, N) . (2)

Исследования проводились на примере обучения сети распознаванию системы булевых функций вида:

У = ^ (X) ,

где У = (у1, у2, У3, у4) - булевы функции, X (х 1, Х2, Х3, х4) - аргументы функций.

Моделирование выполнялось на компьютере, с использованием специально разработанного исследовательского программного комплекса. Программный комплекс позволял, перед началом исследований, устанавливать необходимые диапазоны изменения шага обучения, коэффициента крутизны сигма-функции, количества элементов промежуточного уровня, погрешности

1НФОРМАТИКА

обучения. После этих установок выполнялся автоматизированный расчет функции (2) по разработанному алгоритму исследований. Алгоритм предусматривал расчет функции (2) от одной переменной при фиксированных двух других переменных. Расчет функции использовал многократное повторение процедур обучения для достижения статистической достоверности результатов. Для любого набора переменных ( £ , К , N ) выполнялось 100 независимых процедур обучения. Процедура обучения использовала в качестве исходного случайный нейронный ансамбль, формируемый генератором случайных чисел. Временной фактор обучения сопоставлялся с числом компьютерных итераций обучения для заданной погрешности обучения. Отношение среднего числа итераций к максимальному числу итераций определяло относительное среднее время Т обучения на любом наборе (£ , К , N). Программный комплекс позволял документировать результаты исследований в виде табличных и графических зависимостей (рис. 1, 2, 3). Погрешность обучения определялась квадратичной ошибкой вида:

X =

X - ^)

V = 1

0, 5,

(3)

Рисунок 2 - Зависимости среднего времени обучения от коэффициента крутизны

где у., dj - реальные и желаемые выходы обучения.

В результате проведенного исследования было получено табличное задание функции (2), отображаемой некоторой гиперповерхностью в пространстве ( Т, £ , К , N ).

Рисунок 1 - Зависимость среднего времени обучения от количества элементов в промежуточном слое

Рисунок 3 - Зависимости среднего времени обучения величины шага обучения

На рис. 1, 2, 3 приведены типовые сечения этой гиперповерхности. Эти сечения определяют зависимости среднего времени обучения от коэффициента крутизны

82

"Радюелектрошка, шформатика, управлшня" № 2, 1999

В. H. Лопин: АНАЛИЗ ХАРАКТЕРИСТИК ОБУЧЕНИЯ В МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЯХ

T(K) сигма-функции, количества элементов в промежуточном слое T(£) , величины шага обучения T(^ . Функция Т(К) , приведенная на рис.2, показывает, что параметр Т существенно уменьшается с увеличением К до некоторого оптимального значения К = К0р(

(К = 3, 5). Дальнейшее увеличение коэффициента крутизны приводит к постепенному увеличению среднего времени обучения. Зависимость Т(£) , представленная на рисунке 1, определена для £>(£> 5). Значение

£ . определяет минимальное количество элементов в

Ш1П 1 "

промежуточном слое для конкретной обучающей последовательности. Из этой зависимости следует, что в диапазоне - $0р((5 - 10) происходит существенное

уменьшение параметра Т . Однако, при £ > 3 ( (£ > 10)

происходит увеличение параметра Т. Зависимость Т(N , приведенная на рисунке 3, показывает, что среднее время обучения существенно уменьшается с увеличением шага обучения до некоторого оптимального значения Т0рг (0,9). Дальнейшее увеличение шага обучения

приводит к резкому увеличению времени обучения. Указанные свойства функции Т(К, Б, N проявляются и при обучении сети с числом промежуточных слоев больше двух.

Компьютерное исследование функции Т(К, 3, N на множестве сечений позволило установить следующие общие свойства:

1. Среднее время обучения сети Т существенно уменьшается с увеличением коэффициента крутизны сигма-функции на оптимальном интервале области определения {1, А } функции Т(К) . Для К > А характерно монотонное возрастание функции.

2. Область определения функции Т(£) имеет левую границу В , определяющую возможность обучения сети на заданном числе входов. Необходимым условием обучения сети является £ > В . Для области определения функции Т(£) всегда можно указать интервал {В, С} , на котором характерно существенное убывание этой функции. При £ > С происходит монотонное возрастание функции Т(£) .

3. Область определения функции T ( N) содержит интервал {0, D} , на котором отмечается существенное убывание функции. Для N>D функция существенно возрастает.

4.Значения характерных точек A , B, C, D зависят от вида обучающих последовательностей (X, Y) .

Выявленные свойства функции T(K, S, N) позволяют сделать некоторые выводы о характере обучения в многослойных нейронных сетях данной топологии.

ВЫВОДЫ

1. Улучшение обучаемости сети связано с усилением пороговых свойств базисных нейронов, увеличением их числа в промежуточном слое, форсированием процесса обучения с учетом ограничений на область определения функции T(K, S, N) .

2. Процесс обучения позволяет генерировать бесконечное множество нейронных ансамблей на фиксированной физической топологии сети. Эта особенность позволяет объяснить причину высокой надежности реальных нейронных сетей, в которых гибель достаточно большого числа нейронов головного мозга, как правило, существенно не влияет на функции ЦНС. Вероятно, в процессе гибели нейронов, постоянно происходит формирование новых нейронных ансамблей в результате переобучения нейронных сетей. Нейронная сеть после обучения усваивает закономерности обучающих последовательностей и реагирует на любые входные последовательности в соответствии с этими закономерностями.

Полученные результаты имеют прикладное значение для создания субоптимальных моделей искусственных нейронных сетей, используемых в задачах распознавания образов.

ПЕРЕЧЕНЬ ССЫЛОК

1. David E. Rumelhart, Geoffrey E. Hinton and Ronald J. Williams. Learning Representations By Back - Propagating Errors.// Nature, Vol. 323, No, 6188, pages 533-536; October 9,1986.

2. Geoffrey E. Hinton. Connectionist Learning Procedures.// Artificial Intelligence, Vol. 40, Nos, 1-3, pages 185-234; September 1989.

3. Дунин-Барковский В.Л. Информационные процессы в нейронных структурах. М.: Наука, 1978, 163 с.

Надшшла 19.04.99

i Надоели баннеры? Вы всегда можете отключить рекламу.