Обзор типов искусственных нейронных сетей и методов их обучения

Воронов Иван Викторович; Политов Евгений Александрович; Ефременко Владимир Михайлович

УДК 697.245

И.В. Воронов, Е.А. Политов, В.М. Ефременко

ОБЗОР ТИПОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И МЕТОДОВ

ИХ ОБУЧЕНИЯ

В [1] и [2] были рассмотрены основные методы прогнозирования электропотребления промышленных предприятий, как в долгосрочной, так и в краткосрочной перспективе, и был сделан вывод о целесообразности применения для решения этих задач искусственных нейронных сетей (далее -ИНС).

В настоящее время известно множество видов ИНС, каждый из которых имеет свои характерные особенности, и, соответственно, оптимален для решения тех или иных задач. Задача прогнозирования электропотребления - является задачей прогнозирование временного ряда на основе определенного набора входных сигналов (параметров). В статье рассматриваются несколько существующих видов ИНС, приводится их структура, методы обучения, особенности реализации, и производится их анализ на применимость для решения данной задачи.

Все ИНС являются совокупностью двух типов элементов - нейронов и связей между ними. Нейроны представляют собой простые процессоры, вычислительные возможности которых ограничиваются некоторым правилом комбинирования входных сигналов и правилом активации, позволяющим вычислить выходной сигнал по совокупности входных сигналов. Выходной сигнал элемента посылается другим элементам по взвешенным связям, с каждой из которых связан весовой коэффициент, или вес. В зависимости от его значения передаваемый сигнал или усиливается, или подавляется.

Все ИНС можно классифицировать по следующим признакам.

1. Множество нейронов. Все нейроны можно отнести к трем различным типам: входные нейроны, которые получают сигналы из внешней среды; выходные нейроны, которые выводят во внешнюю среду результаты вычислений; скрытые нейроны, которые предназначены для трансформации сигналов.

2. Структура связей. Структура связей отражает то, как соединены элементы сети. В некоторых моделях она носит иерархический характер, когда связи допускаются только между нейронами, расположенными в соседних слоях; в некоторых моделях допускаются обратные связи между слоями или внутри одного слоя; так же есть и круговые модели, где все элементы замкнуты посредством общего круга.

3. Правило распространения сигналов по сети. Каждая конкретная модель сети предполагает наличие некоторого правила обновления состояния элементов сети, то есть правила комбинирования входящих сигналов, вычисления исходящего сигнала, посылки сигнала другим элементам.

4. Правило комбинирования входящих сигналов. Часто выходное значение элемента определяется комбинированием путем суммирования входящих значений. Это может быть как простое суммирование, так и, к примеру, метод квадрата разно -сти между значением силы связи и значением передаваемого по связи сигнала с последующим суммированием таких разностей для всех входящих связей данного элемента.

5. Правило вычисления сигнала активности. Для всех элементов имеется правило вычисления выходного значе-

ния, которое передается либо следующим элементам, либо во внешнюю среду. Это правило называют функцией активности, а соответствующее выходное значение - активностью элемента. Функции активности имеют много разновидностей: тождественная функция, пороговая функция, сигмоидальная функция.

6. Правило обучения, корректирующие связи. Целью обучения сети является изменение весовых значений связей таким образом, чтобы в результате получить требуемое поведение сети. Типичной формой обучения является управляемое обучение, когда для каждого набора данных, подающегося на вход сети, известен соответствующий выходной набор. В начале обучения весовые коэффициенты устанавливаются равными малым случайным значениям, и в процессе обучения на вход сети подаются набор за набором из обучающего множества; значения весовых коэффициентов корректируются до тех пор, пока для всех вводимых образцов ошибки не станут меньше некоторого заданного значения. Правило обучения определяет сам способ корректировки весов связей.

Сегодня известны и широко применяются для решения различных задач несколько различных типов ИНС [3]: многослойный персептрон, сети на основе радиальных базисных функций, карты самоорганизации, рекуррентные нейронные сети. Рассмотрим вкратце структуру и особенности каждого вида сетей.

Многослойный персептрон,

или многослойные сети прямого распространения

Такие сети, как правило, состоят из множества сенсорных элементов (входных узлов), образующих входной слой; одного или нескольких скрытых слоев вычислительных нейронов и одного выходного слоя нейронов. Многослойные

персептроны имеют три отличительных признака:

- каждый нейрон имеет гладкую (всюду дифференцируемую) нелинейную функцию активации (как правило, сигмоидальную);

- сеть содержит один или несколько слоев скрытых нейронов, не являющихся частью входа или выхода сети;

- сеть обладает высокой степенью связности, реализуемой посредством синаптических соединений.

Комбинация всех этих свойств наряду со способностью к обучению на собственном опыте обеспечивает высокую вычислительную мощность многослойного персептрона. Установлено, что многослойный персептрон имеет достаточную точность и скорость для прогнозирования временных рядов [3, 334].

К недостаткам данного типа ИНС можно отнести сложность теоретического анализа ввиду распределенной нелинейности и высокой связности сети, а также трудность визуализации процесса обучения сети ввиду наличия скрытых нейронов.

Сети на основе радиальных базисных функций

Архитектура сетей на основе радиальных базисных функций (далее - РБФ) предполагает наличие трех слоев, выполняющих различные функции [3, 342]. Входной слой состоит из сенсорных элементов, которые связывают сеть с внешней средой. Второй слой является единственным скрытым слоем сети, он выполняет нелинейное преобразование множества входных сигналов в множество скрытых сигналов. В большин-

стве реализаций скрытое множество имеет более высокую размерность, чем входное, причем, чем выше размерность скрытого слоя, тем более высокой будет точность аппроксимации. Основой функционирования нейронов скрытого слоя являются радиальные базисные функции [3, 371].В отличие от многослойных персептронов, обучаемых алгоритмом обратного распространения ошибок, архитектура сетей на основе РБФ создается в соответствии с определенными принципиальными установками [3, 408].

ИНС на основе радиальных базисных функций так же подходят для прогноза временных рядов, но их отличает меньшая точность предсказания и большее число требуемых входных параметров по сравнению с многослойными персеп-тронами [3, стр. 389].

Карты самоорганизации

Карты самоорганизации -это особый класс ИНС, осно-

ванный на конкурентном обучении. Отдельные нейроны выходного слоя такой сети соревнуются за право активации, в результате чего активным оказывается только один нейрон в сети (или в группе). Выходной нейрон, который выиграл данное соревнование, называется победившим. Одним из способов организации конкуренции между нейронами является использование отрицательных обратных связей между ними. В картах самоорганизации нейроны помещаются в узлах одно- или двухмерной решетки. Нейроны в ходе

конкурентного процесса избирательно настраиваются на

различные входные сигналы.

Положения настроенных так нейронов-победителей упорядочиваются по отношению друг к другу так, что на решетке создается значимая система

координат. Таким образом, самоорганизующиеся системы характеризуются формированием топографических карт входных сигналов, в которых

Рис. 1. Архитектурный граф многослойного персептрона с двумя скрытыми слоями

базисных функций

Рис. 2. Пример сети на основе радиальных базисных функций

Рис. 3. Самоорганизующаяся карта признаков

пространственное местополо-

жение нейронов решетки является индикатором встроенных статистических признаков, содержащихся во входных примерах. Отсюда берет свое происхождение само название «самоорганизующиеся карты». Особенностью алгоритма

самоорганизующихся карт является легкая реализация при большой сложности анализа его свойств с использованием математического аппарата.

С помощью самоорганизующейся карты признаков спрогнозировать временной ряд нельзя в силу самой структуры этого вида ИНС, но мы можем её использовать на начальном этапе для отбора входных параметров, и для выбора конфигурации основной расчетной ИНС.

Рекуррентные нейронные сети

Рекуррентными называются нейронные сети, имеющие одну или несколько обратных связей. Обратные связи могут быть локального или глобального типов. Если в качестве основы для построения рекуррентной сети взят многослойный пер-септрон, то применение обратной связи может принимать несколько форм. Во-первых, можно замкнуть выходной слой многослойного персептрона на его входной слой. Во-вторых, можно замкнуть выход скрытого слоя на вход. Так как многослойный персептрон может содержать несколько скрытых слоев, то последняя форма обратной связи может быть сконфигурирована разными способами. Это приводит к тому, что рекуррентные сети имеют богатый спектр архитектурных форм. Преимущества использования ИНС с рекуррентными связями заключаются в большей гибкости прогноза, подстройки сети под изменяющуюся внешнюю среду, способности качественно прогнозировать временные ряды.

Самым важным свойством нейронных сетей является их способность обучаться на основе данных окружающей среды, и в результате обучения повышать свою производительность (точность вычислений) [3, стр. 89]. Повышение производительности происходит со временем в соответствии с определенными правилами. Обучение нейронной сети происходит посредством интерактивного процесса корректировки синаптических весов и порогов. В идеальном случае нейронная сеть получает знания об окружающей среде на каждой итерации процесса обучения, который предполагает следующую последовательность собы-

тий:

- в нейронную сеть поступают сигналы из внешней среды;

- в результате этого изменяются свободные параметры нейронной сети;

- после изменения внутренней структуры нейронная сеть отвечает на возбуждения уже иным образом.

Для различных видов архитектуры ИНС применяются те или иные алгоритмы обучения. Между собой алгоритмы обучения отличаются способом настройки синаптических весов нейронов. Еще одной отличительной характеристикой является способ связи обучаемой нейронной сети с внешним

Рис. 4. Полносвязная рекуррентная сеть с двумя входами, двумя скрытыми нейронами, и одним выходным нейроном

миром. На основании этого все алгоритмы обучения ИНС делятся на две большие группы.

Обучение с учителем. Концептуально участие учителя можно рассматривать как наличие знаний об окружающей среде, представленных в виде пар вход-выход [3, 107]. При этом сама среда неизвестна обучаемой нейронной сети. Учителю подается обучающий сигнал из окружающей среды. На основе встроенных знаний учитель формирует и передает обучаемой нейронной сети желаемый отклик, соответствующий данному входному сигналу. Этот желаемый результат представляет собой оптимальные действия, которые должна выполнить нейронная сеть. Параметры сети корректируются на основе обучающего сигнала и сигнала ошибки (разности между желаемым и текущим откликом нейронной сети). Таким образом, в процессе обучения знания учителя передаются в сеть в максимально полном объеме. После окончания обучения учителя можно отключить и позволить нейронной сети работать самостоятельно. Форма обучения с учителем является обучением на основе коррекции ошибок.

Обучение без учителя, или обучение на основе самоорганизации, осуществляется без вмешательства внешнего учите-

ля, контролирующего процесс обучения [3, стр. 108]. Существует лишь независимая от задачи мера качества представления, которому должна научиться нейронная сеть, и свободные параметры сети оптимизируются по отношению к этой мере.

Рассмотрим два наиболее распространенных алгоритма обучения, применяемых для ИНС, построенных на основе многослойного персептрона [4].

Обучение ИНС по алгоритму обратного распространения ошибок.

Для корректировки весов многослойной сети в процессе управляемого обучения применяется алгоритм обратного распространения ошибок.

Данный алгоритм определяет два потока в сети: прямой поток от входного слоя к выходному и обратный поток от выходного к входному. Прямой поток продвигает входной сигнал через сеть, в результате чего в выходном слое получаются выходные значения сети. Обратный поток подобен прямому, но он продвигает назад по сети значения ошибок, в результате чего определяются величины, в соответствии с которыми следует корректировать весовые коэффициенты в процессе обучения. В обратном потоке значения проходят по взвешенным связям в направлении,

обратном направлению прямого потока. Например, в прямом потоке элемент скрытого слоя посылает сигналы каждому

элементу выходного слоя, а в обратном потоке элемент скрытого слоя будет получать сигналы ошибок от каждого элемента выходного слоя. В процессе обучения каждый набор входных сигналов из обучающего множества будет иметь соответствующий целевой набор выходных сигналов, который

должен получиться для данного входного набора. Таким образом, сети предъявляется набор и вычисляется вектор ошибок, в результате чего выясняется, насколько следует изменить

значения весов; процесс повторяется для каждого набора. Полный цикл рассмотрения всех имеющихся наборов входных сигналов называется эпохой. Все наборы подаются на рассмотрение сети снова и

снова, эпоха за эпохой, пока на протяжении одной эпохи все значения реального выхода для каждого набора не попадут в допустимые рамки.

Обучение ИНС по алгоритму на основе метода модельной «закалки».

Одним из недостатков детерминированных алгоритмов типа алгоритма обратного распространения, использующих метод градиентного спуска, является возможное попадание сети в область локального минимума. Попав в такой минимум, сеть не может больше двигаться по поверхности ошибок к наиболее оптимальному решению. Метод модельной «закалки» сначала ухудшает работу сети, чтобы потом ее усовершенствовать. Единого и окончательного алгоритма модельной «закалки» нет, но принцип, на котором базируется метод модельной «закалки», заложен, например, в основу алгоритма Метрополиса. Основной процедурой этого алгоритма является случайный выбор части системы для изменения. Изменения всегда при-

Вектор СОСТОЯНИЯ

Обучаемая

система

Желаемый

отклик

Фактический ^

ОТКЛИК

——У Е

Сигнал ошибки

Рис. 5. Блочная диаграмма обучения с учителем

Вектор состояния

Обучаемая

система

Рис. 6. Блочная диаграмма обучения без учителя

нимаются, если уменьшается глобальная энергия системы, а если наблюдается рост энергии, то изменения принимаются с некоторой вероятностью [4, 148].

На основе рассмотренных видов ИНС возникает алгоритм прогноза электропотребления.

1. Первичный отбор входных параметров.

2. Апробирование работы

многослойного персептрона с различными входными параметрами и с различной конфигурацией самой сети (число нейронов скрытого слоя, параметры активационной функции, наличие и тип рекуррентных связей и так далее) на сокращенном обучаемом множестве.

3. Построение самоорганизующейся карты признаков на основе проведенных испытаний.

4. Выявление самой оптимальной конфигурации ИНС по построенной карте

5. Обучение многослойного персептрона выбранной конфигурации на полном обучающем множестве входных параметров.

6. Получение прогноза электропотребления на основе обученной ИНС.

СПИСОК ЛИТЕРАТУРЫ

1. Политов Е.А., Воронов И.В., Ефременко В.М. Выбор модели для долгосрочного прогнозирования электропотребления промышленного предприятия / Вестн. КузГТУ. 2006, №6, с. 71-73.

2. Воронов И.В., Политов Е.А., Ефременко В.М. Использование нейронной сети для краткосрочного прогнозирования электропотребления промышленного предприятия / Вестн. КузГТУ. 2006, №6, с. 73-74.

3. Хайкин С. Нейронные сети: полный курс, 2-е издание. - М.: Издательский дом «Вильямс», 2006. -1104 с.

4. Каллан Р. Основные концепции нейронных сетей. - М.: Издательский дом «Вильямс», 2003. - 288

с.

□ Авторы статьи:

Ефременко Владимир Михайлович

- канд. техн. наук, доц. каф.электроснабжения горных и промышленных предприятий

Воронов Иван Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- ассистент каф. электроснабжения горных и промышленных предприятий

Политов Евгений Александрович

- соискатель каф. электроснабжения горных и промышленных предприятий

Обзор типов искусственных нейронных сетей и методов их обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Обзор типов искусственных нейронных сетей и методов их обучения»