Научная статья на тему 'Комбинированное обучение нейронных сетей на основе эволюционного программирования'

Комбинированное обучение нейронных сетей на основе эволюционного программирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
206
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Топчий А. П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Комбинированное обучение нейронных сетей на основе эволюционного программирования»

другие атрибуты сценария), а также установку цветовой гаммы экранов для режимов обучения и контроля.

5. Режим обучения оснащен сервисными функциями, обеспечивающими благоприятные условия для работы с информацией. Ситуационные задачи выдаются в соответствии с запросом (сценарием) и следуют в логической последовательности, оговоренной опытными экспертами. Немаловажным фактором является индивидуальная установка цвета экранов.

6. Режим рейтинга осуществляется в соответствии с критериями, заданными в режиме адаптации (см. п. 4) с привлечением той же информации, что и в режиме обучения. Однако, смена экранов производится по закону случайных чисел, уровни сложности чередуются, контролируется отведенный лимит времени и ведется индивидуальный протокол.

7. Комплекс оснащен технологическими программами. Одна из них формирует текстовый файл, отражающий структуру данных и логику подачи материала, что удобно при отладке системы. Другая программа выполнена в виде промежуточной базы данных, обеспечивающей работу с экранами на начальных этапах (уточнение постановки задачи, привлечение дополнительных данных, отдаленных последствий и т.п.). Готовая ситуация переписывается в структуры основного комплекса.

УДК 658.512

А'П* Топчнй КОМБИНИРОВАННОЕ ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ ЭВОЛЮЦИОННОГО ПРОГРАММИРОВАНИЯ

1. ВВЕДЕНИЕ

Основным сдерживающим фактором в нейронных вычислениях было и остается в большинстве приложений требование осуществления обучения

Искусственных Нейронных Сетей (ИНС) в реальном масштабе времени. С учетом

характерного для таких задач количества обучаемых параметров ~ 10^-106 для этого необходимы значительные вычислительные затраты, что наряду с уникальностью обучающих алгоритмов и подходов к проектированию ИНС

приводит к огромной стоимости “синтетической психики” Как следствие, на первый план выходит разработка эффективных алгоритмов обучения нейронных сетей.

Обучение нейронных сетей представляет собой сложную задачу оптимизации, которая характеризуется как мультимодальностью целевой функции, так и высокой размерностью пространства поиска. Кроме того использование нейросетей во многих приложениях предполагает адаптацию архитектуры и связности ИНС в реальном времени. Стандартные алгоритмы обучения, основанные на градиентном спуске [1], хотя и обеспечили успех применения ИНС при решении некоторых задач, но не удовлетворяют требуемому уровню как по скорости сходимости, так и по качеству, во многих других задачах. Прежде всего это связано с локальным характером поиска, осуществляемого градиентными алгоритмами типа метода обратного распространения ошибки и его модификаций. Сложная топология гиперповерхности, задаваемой целевой функцией, имеет множество локальных минимумов, не дающих оптимального решения. Методы наискорейшего спуска в этом случае не способны обучить сеть и часто сходятся в локальном минимуме. Подобные трудности осложняются с ростом размеров обучаемой ИНС. Другая трудность заключается в необходимости

модифицировать методы градиентного спуска для каждой конкретной нейросетёвой архитектуры, так как вычисф^ие производной целевой функции по параметрам нейросети в общем случае нетривиально.

Развиваемый нами подход к оптимизации параметров при обучении многослойный ^!НС как к процессу эволюционной адаптации позволяет в значительной, степени решить проблемы присущие локальным градиентным алгоритмам. Главную роль при этом играет моделирование эволюции. Эволюционные Алгоритмы'(ЭА) свободны от традиционных недостатков, так как ЭА осуществляв глобальный пОйск,

ЭА не требуют вычисления производных.

Следует ожидать, что использование ЭА для оптимизации ИНС позволит повысить качество и скорость обучения [2]. Более того, естественный параллелизм ЭА допускает эффективную реализацию на многопроцессорных вычислительных системах. Независимость основных процедур алгоритма от архитектуры оптимизируемой системы практически гарантирует робастность обучения в условиях отказов отдельных групп нейроэлементов.

В предлагаемом алгоритме адаптации параметров ИНС комбинируются как глобальный эволюционный, так и локальный поиск. Это позволяет значительно ускорить процесс обучения ИНС. Основу алгоритма составляет метод эволюционного программирования.

2. ЭВОЛЮЦИОННОЕ ПРОГРАММИРОВАНИЕ

Эволюционное Программирование (ЭП) является наиболее известным методом моделирования лолюции при исследовании традиционных проблем искусственного интеллекта [3.4J. ЭП исходит из предположения, что ЭВОЛЮЦИЯ оптимизирует поведение особи (т.е. действительные значения потенциального Решения), а не генетический код. ЭП , таким образом, фокусируется на эволюции фенотипа. Ни рекомбинация, ни другие генетические операторы не используются, так как они относятся к генотипическому уровню. Единственный способ изменения и вариации разнообразия решений — мутации. В отличие от генетических алгоритмов (ГА) в ЭП не требуется кодирование параметров решения, а мутации Реализуются добавлением нормально распределенных случайных величин с нулевым средним и динамически подстраиваемой дисперсией к компонентам Родительских решений. Последнее означает, что дисперсия мутаций определяется как функция качества родителей. Формирование параметров потомков описывается следующим выражением:

xi + m,j = xi,j + + 2 j )

I где xtJ — j-й элемент /'-го родителя, xHmj — j-й элемент i-го потомка, N(0,5) нормально распределенная случайная величина с нулевым средним и дисперсией б, ft '— величина качества /-го родителя, kj — константа пропорциональности масштабу flt Zj— гарантированная минимальная величина дисперсии, /—1,..., л, и — размер особи (количество элементов в векторе параметров).

Селекция также отличается от ГА и представляет собой некоторую форму стохастического соревнования между особями. Следующий псевдокод описывает типичный вариант ЭП

генерация начальной популяции т случайных особей, используя адекватное представление проблемы;

оценить все исходные особи, используя целевую функцию,

текущая популяция = начальная популяция;

repeat

промежуточная популяция = текущая популяция (родителей),

Гог i= 1 to т do begin

генерировать /-го потомка копированием /-го родителя;

мутация У-го потомка нормально распределенной случайной пеличинои;

оценить /-го потомка целевой функцией;

поместить /-го потомка в промежуточную популяцию;

end;

for j= 1 to 2m do

организовать последовательное соревнование между /-ой особью и к другими случайно выбранными особями из промежуточной популяции, используя их относительные оценки качества для определения победителя;

расставить особи в промежуточной популяции в убывающем порядке по числу побед в соревновании;

выбрать т особей ( включая или исключая родителей ) с наибольшим числом побед в новую текущую популяцию; until выполняется критерий останова;

Эта базовая схема составляет основу исследуемого ЭП-алгоритма обучения ИНС.

3. ПОСТАНОВКА ЗАДАЧИ ПАРАМЕТРИЧЕСКОГО ОБУЧЕНИЯ

Рассмотрим постановку задачи обучения нейронной сети прямого распространения с тремя слоями обрабатывающих элементов (нейроноп) и двумя слоями весов.

Элементы первого слоя являются входными. Входной слой элементов передает поступающие сигналы на нейроны скрытого слоя через веса первого слоя. Нейроны скрытого слоя принимают на свой вход взвешенные суммы сигналов и осуществляют их нелинейное преобразование при помощи заданной функции активации sigm(x). Затем преобразованные сигналы распространяются по весам второго слоя к слою выходных элементов, где вновь взвешенная сумма сигналов нелинейно преобразуется и формирует выходную активность сети. Нейронной сети, осуществляющей эти преобразования соответствует функция:

fH fN N \

Ft»(*> wij. vij h]h Mj)=slsm 14 sigrn Iv„ А Щ +H2„

\i=i

где tv',y, hl„ h2j e 91, sigm(x) — нелинейная функция активации, x' элементы обучающей выборки, параметры v,j, — веса первого и второго слоев, а Л/„ h2j — пороги скрытого и выходного слоев сети. Параметры и,у, г,у. Л/,, ЛГ, полностью описывают нейронную сеть с заданным количеством элементов N.H.M во входном, скрытом и выходном слое соответственно. Пусть также заданы обучающие данные в виде выборки пар "вход желаемый выход", то есть т г R

множество {I 1 ,х / }/=i R — размерность выборки. Тогда обучение сети состоит в отыскании весов и порогов, минимизирующих разницу между действительным F(Я,) и желаемым tt выходом сети. Целевой функцией являемся средне-квадратичная ошибка сети Е:

К

E=^tri-F(xri))2 (3) i = 1

При этом размерность пространства параметров составляет d MH+HN+H+N.

В типичных приложениях размерность (/-К)1—10s, что характеризует сложность проблемы.

4. АЛГОРИТМ КОМБИНИРОВАННОГО ОБУЧЕНИЯ

Перспективный способ уменьшения вычислительной затратности ЭА обучения состоит в том, что в многослойной сети прямого распространения элементы скрытого слоя могут рассматриваться как популяция, если ввести адекватную Функцию качества на множестве эти* нейроэлементов. Это позволяет оперировать не с популяцией нейронных сетей, а с ансамблем активностей скрытых элементов в единственной сети.

В предлагаемом алгоритме обучение нейронной сети основано на адаптации активностей в популяции скрытых элементов. Основная идея метода состоит в том, что эта адаптация осуществляется в процессе эволюции весов первого слоя, которые и формируют активности скрытых элементов. Эволюция весов первого слоя опирается на технику эволюционного программирования. При этом веса второго слоя обучаются при помощи быстрого градиентного метода, что позволяет оценивать скрытые представления и направлять ход эволюции.

Ключевым моментом является возможность определить функцию качества паттернов активностей каждого из элементов скрытого слоя в трехслойной сети:

Величина <?/' приблизительно оценивает вклад в оши®*у обучения стремится /-н скрытый элемент. Можно показать, что любая л рои дур У н(,ПИНвйНая максимизировать значения е]ч если 1!к-*{з1рп(•<*>). щт

сигмоидная функция. * «Ьиксицованного , полностью

В такой сети группа параметров ^ вь|борке. Эта группа

определяет активность у-го элемента ы, на обучающей р................^

Рассматривается как особь в популяции из Я элем , гг1птиетсхвии с лп

каждой особи в течении процесса эволюции оценивает последних

Ясно, что это требует знания весов Щ следующего ело*.■ Н«ождение последних нетрудно при помощи стандартного метода наискоре у ’ и и

сводится к обучению персептрона только с одним

желаемыми выходами 1к. иУтиоуется лишь для части нейронов с

На каждой итерации набор весов ^му^^ ионного программирования. В

наименьшими значениями качества^ в ^е эво^ц но распр€деленной

общем случае мутации реализуются д^а^ением нр нальной

случайной величины с нулевым средним и дисперсией Р епом;

качеству скрытого представления и пропорционально .

Уу-* Уу+N(0. аЕ/е^ (5) „«изменившейся частью нейронов

Сформированные потомки с аптируетСЙ фиксированным числом

составляют новую сеть. Последний сл°й } Фк новым внутренним

шагов метода градиентного спуска 'д“ь™ П£ чен„ая ошибка сети £ представлениям нейронов-потомков. Если У итерации. Обновленные

неудовлетворительна, то следует переход к н р (у,.метим что в ЭП

значения V и IV поинимаются если ошибка уменьшилась. •

пичения у у и щ принимаются, с^.и / одного потомка для каждого

отсутствует необходимость создавать более чем д

нейрона [5|. В целом алгоритм описывается следующи

1. Генерация исходной сети: „авномерно распределенных на

1.1. Генерация параметров скрытого слоя р Р

интервале [-1.0,1.0].

1.2. Вычисление активностей скрытых элементов. ^ ........к „„-----

1.3. Настройка параметров выходного слоя в течении 25-30 итерации дельти-

пРввила.

2. Определение полной ошибки сети.

3. Вычисление функции качества скрытых нейронов е

4. Repeat

5. Генерация нейронов-потомков посрслс і пом мчпшнн скрытых элементов с наименьшим качеством

6. Определение активностей элементов скрытою слоя.

7. Обучение выходного слоя дельта-правилом.

8. Вычисление полной ошибки сети E0//Jp и качества киждшо из скрытых

В каждом представлении отбор сохраняет лучшие вн представления, а

паттерны активностей с большим вкладом в ошибку и: . Поскольку ЭП

осуществляет глобальный поиск, данный алгоритм преодолевает локальные минимумы несмотря на локальный характер обучения последнего слоя.

Экспериментальное моделирование проводилось для сети с 15 входными, 25 скрытыми , 15 выходными элементами (т.е. 15-25-15) и сети с архитектурой 25-35-25. Обучающие выборки содержали соответственно 25 и 35 пар бинарных образов и были полностью случайны. Такие некоррелированные данные традиционно трудны для обучения. Решение тестовых задач усреднилось и сравнивалось с результатами стандартного алгоритма "back - propagation". Средний достигаемый уровень ошибки был в 1.5 2.5 раза меньше чем у "back propagation" для

примерно равного процессорного времени. Более того в большинстве попыток "back - propagation" не мог обучить сеть. В тоже время комбинированное обучение оказывается более стабильным и результат практически не зависит от начальных условий.

Основная черта комбинированного алгоритма резкое уменьшение ошибки после 2-10 поколений и медленное обучение после 50-100 поколений в окрестности минимума целевой функции. Такая динамика обучения указывает на способность эволюции отсекать неперспективные подпространства не исследуя при этом тщательно пространство в целом. С другой стороны стохастические операторы неизбежно меняют характер градиентного спуска в окрестности минимума и приводят ЭП-алгоритм в соответствие с многоточечной версией алгоритма имитации отжига [6].

1. D.Rumelhart, J.McCleland and The PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA: MIT Press, 1986.

2. A.P. Topchy. O.A. Lebedko, V.V. Miagkikh, Fast Learning In Multilayered Neural Networks By Means Of Hybrid Evolutionary And Gradient Algorithms, in Proc. First Intl. Conf. on Evolutionary Computation and Its Appplications, Moscow, pp. 390-398, 1996.

3. L.J.Fogel, A.J.Owens and M.J.Walsh, Artificial Intelligence through Simulated Evolution, John Wiley & Sons, 1966.

4. И.Л.Букатова. Эволюционное моделирование и его приложения, М.: Наука, 1979.

5. D.B.Fogel, L.J.Fogel, V. W. Porto, Evolving Neural Networks, Biological Cybernetics, v.63, pp.487-493, 1990.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

нейронов

9. if Ефр < Epar„, then принять нейроны-потомки в сеть else вернуться к родительской популяции.-

10. Until Ефр удовлетворяет требуемому уровніо.

11. Stop.

5. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ

ЛИТЕРАТУРА

6. S.Kirkpatrick, C.Gelal and M.Vechy. Optimization by simulated annealing. Science, v.220, pp.671-680, 1983.

УДК 519.237.8

А.Г.Броневич, А.Н.Каркищенко I МЕРА ВКЛЮЧЕНИЯ ХЭММИНГА ВЕРОЯТНОСТНОГО РАСПРЕДЕЛЕНИЯ В НЕЧЕТКИЙ ИНТЕРВАЛ

Введен не

В „,сто»щ<* .рем. важное ».че»«е приобрел*. проблем. “’»«“*

-««до. обР.б^» .-mo*„ss;

неопределенное™, к которым можно от"^“ у мкогве „„т™, необходимость, нечеткость и т.д. Как призна „ Г11 к-птппой

основополагающей в этой области является работа^^ ефер , qto

излагается единая точка зрения на неопредсленн неопоелеленности

распределение уверенности. Оказалось, что введенное огл ^..... может

обобщает и одновременно вклю iusi классическую вероя Последние

быть представлено с помощью так называема* с!1учакных множе^ть ^.По^едн^

Результаты позволили по-новому взглянуть на теорию н® положения Г31 в

возможностей, теоретически обосновать многие изв оанее в теории

частности, принцип обобщения, правило Демпстера, р

нечетких множеств были введены эвристически. П.'ПЛЯТНОСТНЫХ

Данная статья посвящена проблеме классификации в^ятн^ых

распределений, которая в той или иной форме возника р и в заДачах связанных с необходимостью принятия Ре^ни аГ классификации лежит технического проектирования [4]. В основе мет н(,„ет*ий интеовал.

Построение меры включения вероятиостиых распрсде!!^ об батыв{уощиж как которая оказывается необходимой для систем упр ■ ба.иоуется на

нечеткую так и статистическую информацию. Да«н^„ “ер“ f ^твенн^ популярной в приложениях метрике Хэмминга. Введ оазмытых границ

отличается от предложенной в [3] и учитывающей тольк ф

нечетких множеств. _-_-UUT и НИЖНИХ

Предложенный подход основан на “сп°^ЬЗ°ис“Нязанных с ними семейств вероятностей в теоретико-возможностной додели чные условия

•«Ролтностных »«РР В р«бо1е найдены КСРТ.

Включения вероятностного распределениеi в нечетКой классификации

позволяют построить новую нетрадиционную У кие вероятностные и распределений. Эта схема эффективно сочетает нечеткие методы.

Определения и постановка задачи

Пусть X - измеримое пространство, на котором задана а-алгебра событий

А • Произвольное нечеткое нормальное поя“"°*е^®^гкимС интервалом. С. этим принадлежности f4.x) мы также будем называт

интервалом будем связывать меру возможности ЯШ(Л)-зир М* и меру необходимости N№S( А)= inf (l - /X*)) - Л е А.

х*А

i Надоели баннеры? Вы всегда можете отключить рекламу.