Научная статья на тему 'НЕЛИНЕЙНАЯ ДИНАМИКА ИЗМЕНЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ НЕЙРОННОЙ СЕТИ В ПРОЦЕССЕ ОБУЧЕНИЯ'

НЕЛИНЕЙНАЯ ДИНАМИКА ИЗМЕНЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ НЕЙРОННОЙ СЕТИ В ПРОЦЕССЕ ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
45
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гавриленко Т.В., Егоров А.А., Еловой С.Г.

Анализ данных - одно из основных направлений в современной науке и технике. Подавляющее большинство задач, решаемых с помощью анализа данных, можно свести к задачам классификации и прогнозирования. И в том, и в другом случае главной целью является нахождение некоторой функции QUOTE QUOTE способной описать зависимость между параметрами и QUOTE QUOTE Чаще всего зависимость между переменными величинами QUOTE QUOTE и представ-ленная нелинейно, и уровень взаимодействия не может быть определен с помощью только значения коэффициента корреляции. В таком случае обычно говорится, что значения носят случай-ный или близкий к случайному характер. Неопределенность значений такова, что можно причислить функцию QUOTE QUOTE к случайной. Применение искусственных нейронных сетей (НС) в задачах классификации и прогнозирования фактически стало стандартом «де-факто» [1], так как позволяет практически сразу перейти к ре-шению целевой задачи без осуществления анализа данных математическими и статистическими методами. В свою очередь, решение задач классификации и прогнозирования с помощью нейронных сетей можно сравнить с решением задачи поиска нелинейной функции регрессии, которая может быть охарактеризована отношением между множеством зависимых переменных QUOTE QUOTE и множеством независимых пе-ременных QUOTE QUOTE В отличие от слож-ной функции нелинейной регрессии, в основе ней-ронной сети лежит множество элементарных функ-ций в многоуровневой структуре.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «НЕЛИНЕЙНАЯ ДИНАМИКА ИЗМЕНЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ НЕЙРОННОЙ СЕТИ В ПРОЦЕССЕ ОБУЧЕНИЯ»

Раздел II

МЕТОДЫ И МОДЕЛИ ПРОЕКТИРОВАНИЯ И РАЗРАБОТКИ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ

Т.В. Гавриленко, А.А. Егоров, С.Г. Еловой

НЕЛИНЕЙНАЯ ДИНАМИКА ИЗМЕНЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ НЕЙРОННОЙ СЕТИ В ПРОЦЕССЕ ОБУЧЕНИЯ

Введение. Анализ данных - одно из основных направлений в современной науке и технике. Подавляющее большинство задач, решаемых с помощью анализа данных, можно свести к задачам классификации и прогнозирования. И в том, и в другом случае главной целью является нахождение некоторой функции у = /(х), способной описать зависимость между параметрами у их = = (х,..., xi,..., хп). Чаще всего зависимость между переменными величинами х и у, представ-ленная нелинейно, и уровень взаимодействия не может быть определен с помощью только значения коэффициента корреляции. В таком случае обычно говорится, что значения х

носят случай-ный или близкий к случайному характер. Неопределенность значений такова, что можно причислить функцию у = /(х) к случайной.

Применение искусственных нейронных сетей (НС) в задачах классификации и прогнозирования фактически стало стандартом «де-факто» [1], так как позволяет практически сразу перейти к решению целевой задачи без осуществления анализа данных математическими и статистическими методами. В свою очередь, решение задач классификации и прогнозирования с помощью нейронных сетей можно сравнить с решением задачи поиска нелинейной функции регрессии, которая может быть охарактеризована отношением между множеством зависимых переменных У = = {у, у2,..., ут} и множеством независимых пе-ременных X = (х, X,. ., X). В отличие от слож-ной функции нелинейной регрессии, в основе ней-ронной сети лежит множество элементарных функ-ций в многоуровневой структуре.

Цели и задачи исследования. Целью настоящего исследования является изучение динамики поведения весовых коэффициентов НС в процессе обучения с различными начальными условиями (^(^ ) Ф ) Ц е N i ФЦ)

и

на разных классах обучающих выборок данных.

Объекты и методы. Для достижения цели эксперимента был разработан пакет прикладных

программ. Обучение НС реализовано методом обратного распространения ошибки, при этом в процессе обучения НС изменяются только весовые коэффициенты нейронов ^. В качестве функции

активации перед началом обучения из некоторого набора реализована сигмоидальная функция, на практике большинство исследователей используют гладкие нелинейные функции [1; 2].

В классической (полносвязной, линейной) структуре НС множество входов могут активизировать несколько (или все) нейронов в первом слое, а те в свою очередь - нейроны второго слоя и т.д. до выходного слоя. Весовой коэффициент каждого входа является параметром функции активации ¥ нейронной сети:

т _

а = ¥ (Е^ их и + Ьу ^ 7=^ П

7=1

где -у-й коэффициент /-го слоя.

Общий вид НС представлен на рис. 1.

Входной слой Скрытый слой Выходной слой

Рис. 1. Структура нейронной сети

Общие сведения. Исходя из теоремы Хехт -Нильсона [3], НС с нелинейными функциями активации могут воспроизводить любые многомерные нелинейные функции. При этом НС были и остаются черным ящиком, на вход которого подается вектор входных данных, а на выходе ожи-

дается некоторое значение с допустимом погрешностью. Исследователей нейронных сетей, как правило, мало интересуют конкретные реализации значений весовых коэффициентов НС. Необходимо отметить, что значения весовых коэффициентов можно рассматривать в качестве одной из основ структуры НС. С точки зрения решения любой целевой задачи (классификации или прогнозирования) наиболее эффективный показатель -это ошибка обучения нейронной сети. Фактически НС является динамической детерминированной во времени системой с обратной связью. Нейронные сети относятся к автономным системам, так как внутренняя структура (количественный состав связей и сами связи между нейронами сети) не зависит от времени t, несмотря на то, что процесс обучения происходит последовательно и итеративно [4].

1. Обучение НС

Для проведения эксперимента были подготовлены несколько обучающих выборок данных:

1. Выборка данных с одной зависимой переменной, имеющей линейную зависимость. Выборка сгенерирована с заданным коэффициентом корреляции (значение коэффициента корреляции >0,85).

2. Реальные медико-биологические данные (состояние кардиореспираторной системы пациента) - параметры состояния сердечно-сосудистой системы. Девять параметров измерения (значение коэффициента корреляции от 0,07 до 0,85).

3. Выборка данных с двумя независимыми переменными. Выборка сгенерирована с заданным коэффициентом корреляции (значение коэффициента корреляции <0,05).

4. Выборка данных, состоящая из случайных значений входного и выходного параметров. Данные сгенерированы с равномерным законом распределения.

Данные для 1-й, 3-й, 4-й выборок были сгенерированы в математическом пакете Statistica по заданным параметрам.

Процесс обучения НС начинается с установки начальных значений весовых коэффициентов W. Начальные значения весовых коэффициентов случайны (использовался стандартный генератор случайных чисел в среде разработки MS Visual Studio C#) (wp e [0,1]), в процессе обучения

W e R. Этот шаг настройки НС является единственным шагом, который носит случайный характер. Все дальнейшие процедуры имеют детерминированный характер, т.е. дальнейшие из-мене-ния значения весовых коэффициентов подчиняются детерминированному алгоритму. В

общем случае каждая эпоха обучения НС формирует но-вое состояние весовых коэффициентов

Начальное состояние НС и дальнейшие изменения значений ^ на каждом этапе обучения

могут быть зафиксированы, и, при необходимости, воспроизведены. Для реализации целей исследования было проведено множество экспериментов (процессов обучения НС) со структурно-идентичными НС, отличающимися только начальными значениями весовых коэффициентов .

Были получены многомерные фазовые пространства состояния весовых коэффициентов, отображающие динамику поведения весовых коэффициентов в процессе обучения НС. Для визуализации полученных многомерных фазовых пространств состояния весовых коэффициентов были получены двумерные проекции фазового пространства состояния весовых коэффициентов на плоскости. Количество эпох обучения составляло более 10 000 итераций.

Значения коэффициентов НС были рассмотрены в качестве решений системы уравнений Отто - Ресслера [5]:

dx dt

= - y - z

dy

— = x + ay dt

dz dt

= b + z( x - c)

где а, Ъ, с - положительные константы;

х, у, z - значения весовых коэффициентов НС. В данной статье фазовые пространства состояний представлены множеством значений трех весовых коэффициентов выходного слоя (рис. 1). Динамика поведения весовых коэффициентов скрытых слоев здесь не рассматривается, но имеет похожую динамику.

2. Динамика поведения весовых коэффициентов выходного слоя НС на различных выборках данных

Рассмотрим динамику поведения значений весовых коэффициентов и проекции трехмерных фазовых пространств, построенных на основе уравнений Отто - Ресслера.

2.1. Динамика поведения значений весовых коэффициентов для выборки данных с одной зависимой переменной, имеющей линейную зависимость

На рис. 2. представлены примеры проекций на плоскость на выборке данных с одной зависимой переменной, имеющей линейную зависи-

а ъ с

мость (значение коэффициента корреляции >0,85) | (рис. 2).

Рис. 2. Примеры проекций многомерных фазовых пространств динамики поведения весовых коэффициентов НС в процессе обучения на плоскость с координатами х, .у, при различных начальных значениях Шу,

а, Ъ, с - различные обучения вновь создаваемых НС

Данные в обучающей выборке имеют линейную зависимость. В случае рис. 2, а и с речь идет о полной стабилизации системы и отсутствии перспективы дальнейшего обучения сети. Увеличение итераций обучения по алгоритму обратного распространения не приводит к желаемому резуль-тату. Рис. 2, Ъ можно рассматривать как предел приближения ошибки обучения сети к 0, но в данном конкретном случае НС была выбрана ошибо-чная траектория обучения, попавшая в цикл. Для данной выборки не было обучено ни одной НС с приемлемой ошибкой (ошибка обучения пре-восходила 100 000). На основе рис. 2 можно с уверенностью утверждать, что с помощью использовавшихся алгоритмов обучения НС решение для данной выборки найдено не будет. Это объясняется тем, что аттракторы не стабилизируются вокруг точек, дающих малые значения ошибки обучения.

Для примера представлены графики изменения значений весовых коэффициентов двух

нейронов выходного слоя НС (рис. 3).

На рис. 3 представлен пример динамики поведения весовых коэффициентов НС, при условии повторения процесса обучения с различными начальными значениями весовых коэффициентов.

2.2. Динамика поведения значений весовых коэффициентов для выборки с реальными медико-биологическими данными

На рис. 4 представлены примеры проекций трехмерных фазовых пространств динамики поведения весовых коэффициентов НС на плоскость (обучение НС на реальных медико-биологических данных).

Из рис. 4 видно, что в зависимости от начального состояния системы меняется и характер аттрактора (т.е. компактного подмножества фазового пространства динамической системы), описывающего поведение весовых коэффициентов НС и, как следствие, структуру НС.

Рис. 3. Примеры изменения значений весовых коэффициентов НС во время обучения. 16 000 итераций обучения НС:

по оси абсцисс - номер итерации, а по оси ординат - значения весовых коэффициентов

b

Рис. 4. Примеры проекций многомерных фазовых пространств динамики поведения весовых коэффициентов НС в процессе обучения на плоскость с координатами х, у, при различных начальных значениях (начальные значения выбираются случайно) для реальных медико-биологических данных:

а, Ь, с - различные обучения вновь создаваемых НС

2.3. Динамика поведения значений весовых коэффициентов для выборки данных с двумя независимыми переменными

На рис. 5 представлены примеры проекций трехмерных фазовых пространств динамики поведения весовых коэффициентов НС на плоскость на выборке данных с двумя независимыми переменными, имеющими нелинейную зависимость (значение коэффициента корреляции <0,05). Весовые коэффициенты НС при обучении на основе выборки данных с нелинейной зависимостью явно следуют некоторой траектории (рис. 5).

При этом траектории носят случайный характер, зависящий исключительно от начального состояния весовых коэффициентов. Рис. 4, 5, а показывают, что обучение сети также может привести к некоторому «странному» аттрактору. В таком случае решение найдено не будет. Рис. 5, Ь и с отражает траекторию обучения НС, стремя-

щуюся к устойчивому состоянию. При этом видно, что траектория изменения весовых коэффициентов во время обучения НС носит хаотический характер, присутствуют явно выраженные точки бифуркации (т.е. в данной точке система становится неустойчивой относительно флуктуа-ций и возникает неопределенность: станет ли состояние системы хаотическим или она перейдет на новый, более дифференцированный и высокий уровень упорядоченности).

Именно наличие точек бифуркации может быть верным признаком того, что структура НС может быть зафиксирована в эффективном для решения задачи состоянии. Точки бифуркации позволяют алгоритму обучения не зациклиться и перейти к поиску решения (возможно более успешного) в других значениях весовых коэффициентов НС.

abc

Рис. 5. Примеры проекций многомерных фазовых пространств динамики поведения весовых коэффициентов НС в процессе обучения на плоскость с координатами х, у, при различных начальных значениях wy, выборка данных с нелинейной зависимостью переменных:

a, b, c - различные обучения вновь создаваемых НС

c

a

2.4. Динамика поведения значений весовых коэффициентов для выборки данных, состоящей из случайных значений входного и выходного параметров

Динамика поведения весовых коэффициентов приведена на рис. 6.

Из рис. 3 и 7 видно, что изменения значений весовых коэффициентов имеют некоторый общий тренд и фиксируются в некоторой ограниченной области значений, но при этом наблюдается случайный характер изменения значений

для той или иной задачи зависит не только от количества нейронов и слоев в структуре НС, но и от начального состояния весовых коэффициентов. Обучение сети с различными начальными значениями весовых коэффициентов приводит к различным результатам. Весовые коэффициенты демонстрируют хаотическую динамику поведения в процессе обучения НС. Исследование динамики поведения весовых коэффициентов в процессе обучения позволит ответить на вопрос о целесообразности применения НС для решения задач

Ъ

Рис. 6. Примеры проекций многомерных фазовых пространств динамики поведения весовых коэффициентов НС в процессе обучения на плоскость с координатами х, у, при различных начальных значениях Шу. Выборка данных состоит из случайных значений входного и выходного параметров:

а, Ъ, с - различные обучения вновь создаваемых НС

Рис. 7. Примеры изменения значений весовых коэффициентов НС во время обучения на выборке случайных значений. Более 60 000 итераций обучения НС:

по оси абсцисс номер итерации, а по оси ординат значения весовых коэффициентов

а

с

весовых коэффициентов НС и даже можно говорить о хаотичном характере динамики поведения значений весовых коэффициентов.

Заключение. Изучение поведения весовых коэффициентов НС позволило показать, что результат обучения и возможность применения НС

классификации и прогнозирования в различных областях народного хозяйства. В процессе изучения динамики поведения весовых коэффициентов можно выделить наиболее перспективные условия (начальные значения весовых коэффициентов) обучения НС для той или иной области.

Примечания

1. Хайкин С. Нейронные сети: полный курс : пер. с англ. 2-е изд., испр. М. : Вильямс, 2006. 1104 с.

2. Rasheed W. A. J. Cooperative Neural Network Generalization Model Incorporating Classification and Association // European Journal of Scientific Research. 2009. № 4. Р. 639-648.

3. Hecht-Nielsen R. Neurocomputing. Addison-Wesley. 1989. 433 p.

4. Кроновер Р. М. Фракталы и хаос в динамических системах. Основы теории. М. : Постмаркет, 2000. 352 с.

5. Шустер Г. Детерминированный хаос. М. : Мир, 1988. 253 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.