Научная статья на тему 'Применение нейронных сетей для аппроксимации данных'

Применение нейронных сетей для аппроксимации данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
11132
3048
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Филатова Татьяна Владимировна

Рассматривается применение искусственных нейронных сетей для решения задачи аппроксимации данных и сопоставление результатов с традиционным методом построения трендовых моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Филатова Татьяна Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The application artificial neural networks for the decision of a task of approximation of the data and comparison of results to a traditional method of construction trend of models are considered.

Текст научной работы на тему «Применение нейронных сетей для аппроксимации данных»

Т. В. Филатова

ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АППРОКСИМАЦИИ ДАННЫХ

Рассматривается применение искусственных нейронных сетей для решения задачи аппроксимации данных и сопоставление результатов с традиционным методом построения трендовых моделей.

В последние несколько лет наблюдается взрыв интереса к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или автоматизации. Такой успех определяется несколькими причинами.

1. Богатыми возможностями. Нейронные сети - мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. Нейросети нелинейны по своей природе. Кроме того, нейронные сети справляются с «проклятием размерности», которое не позволяет моделировать линейные зависимости в случае большого числа переменных.

2. Простотой в использовании. Нейронные сети учатся на примерах. Пользователь нейронной сети подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает структуру данных. От пользователя, конечно, требуется какой-то набор эвристических знаний о том, как следует отбирать и подготавливать данные, выбирать нужную архитектуру сети и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейронных сетей, гораздо скромнее, чем, например, при использовании традиционных методов статистики.

1. ОСНОВНЫЕ ПОНЯТИЯ

Нейронная сеть - это система, состоящая из многих простых вычислительных элементов, работающих параллельно, функция которых определяется структурой сети, силой взаимосвязанных связей, а вычисления производятся в самих элементах или узлах.

Нейронная сеть - это набор нейронов, определенным образом связанных между собой. Работу искусственного нейрона можно описать следующим образом [1] (рис. 1).

Входной

сигнал

Нейрон получает входные сигналы (исходные данные либо выходные сигналы других нейронов нейросети) через несколько входных каналов. Каждый входной сигнал проходит через соединение, имеющее определенную интенсивность (или вес); этот вес соответствует синаптической активности биологического нейрона. С каждым нейроном связано определенное пороговое значение. Вычисляется взвешенная сумма входов, из нее вычитается пороговое значение, и в результате получается величина активации нейрона.

Сигнал активации преобразуется с помощью функции активации (или передаточной функции). В результате получается выходной сигнал нейрона:

п

5 = (X, М) = М0 +Х .

1=1

Наиболее распространенными функциями активации являются следующие: пороговая, сигнум (или модифициро-

ванная пороговая функция), логистическая, гиперболический тангенс, линейная, линейная ограниченная, радиальнобазисная и др. Как правило, передаточные функции всех нейронов в сети фиксированы, а веса являются параметрами сети и могут изменяться. Если сеть предполагается для чего-то использовать, то у нее должны быть входы (принимающие значения интересующих нас переменных из внешнего мира) и выходы (прогнозы или управляющие сигналы). Кроме этого в сети может быть еще много промежуточных (скрытых) нейронов, выполняющих внутренние функции. Входные, скрытые и выходные нейроны должны быть связаны между собой.

Наиболее распространенными являются многослойные сети, в которых нейроны объединены в слои. Слой - это совокупность нейронов, на которые в каждый такт времени параллельно поступает информация от других нейронов сети. После того, как определено число слоев и число элементов в каждом из них, нужно найти значения для весов и порогов сети, которые минимизировали бы ошибку прогноза, выдаваемого сетью. Именно для этого служат алгоритмы обучения. С использованием собранных исторических данных веса и пороговые значения автоматически корректируются с целью минимизации этой ошибки. По сути, этот процесс представляет собой подгонку модели, которая реализуется сетью, к имеющимся обучающим данным. Ошибка для конкретной конфигурации сети определяется путем прогона через сеть всех имеющихся наблюдений и сравнения реально выдаваемых выходных значений с желаемыми (целевыми) значениями. Все такие разности суммируются в функцию ошибок, значение которой и есть ошибка сети. В качестве функции ошибок чаще всего берется сумма квадратов ошибок:

Е(м) = Х( - у, )2, (1)

I

где ё - желаемый выход сети, у - реальный выход сети.

Самый известный вариант алгоритма обучения нейронной сети - так называемый алгоритм обратного распространения [2]. Существуют современные алгоритмы второго порядка, такие, как метод сопряженных градиентов и метод Левенберга-Маркара [3], которые на многих задачах работают существенно быстрее (иногда на порядок). Алгоритм обратного распространения в некоторых случаях имеет определенные преимущества.

2. ПОСТАНОВКА ЗАДАЧИ

Рассмотрим задачу аппроксимации ряда динамики, т.е. построение функции по конечному набору точек, на реальном примере о количестве проданных авиабилетов за 3 года (данные приведены по месяцам на рис. 2, N = 36 - объём выборки).

Приступая к разработке нейросетевого решения, как правило, сталкиваются с проблемой выбора оптимальной архитектуры нейронной сети. Так как области применения наиболее известных парадигм пересекаются, то для решения конкретной задачи можно использовать различные типы нейронных сетей, и при этом результаты могут оказаться

х

одинаковыми. Будет ли та или иная сеть лучше и практичнее, зависит в большинстве случаев от условий задачи.

10000

9000

8000

7000

6000

5000

4000

У

1 5 9 13 17 21 25 29 33

месяцы

У, =-

(2)

где у, - новая переменная; My = — X yt - выборочная оце-

нейное преобразование y = -

Рис. 2. Периодический ряд динамики продаж авиабилетов

Задачи аппроксимации экспериментальных данных можно решать с помощью искусственных нейронных сетей следующих типов: многослойного персептрона, сетей с радиально-базисными функциями, вероятностных сетей, обобщенно-регрессионных сетей [1,4].

Решим поставленную задачу с помощью нейронных сетей типа радиальная базисная (RBF), обобщенно-регрессионная (GRNN) и линейной сети. Моделирование решения задач проводилось с применением пакета прикладных программ Neural Network Toolbox (NNT) системы MATLAB [4].

Искусственные нейросети выходные значения представляют, как правило, в определенном диапазоне или масштабируют. Выполним предобработку данных - нормировку исходных данных yt ( t = 1, N) , для этого воспользуемся стандартной формулой:

У, - My

Сеть типа радиально-базисной функции (ИБР) имеет промежуточный слой из радиальных элементов, каждый из которых воспроизводит гауссову поверхность отклика:

ф(5) = ехр(-52/2с2), (3)

где параметр с определяет радиус влияния каждой базисной функции и быстроту стремления к нулю при удалении от центра (рис. 3). Поскольку эти функции нелинейны, для моделирования произвольной функции нет необходимости брать более одного промежуточного слоя. Для моделирования любой функции необходимо лишь взять достаточное число радиальных элементов. Остается решить вопрос о том, как следует скомбинировать выходы скрытых радиальных элементов, чтобы получить из них выход сети. Оказывается, что достаточно взять их линейную комбинацию (т.е. взвешенную сумму гауссовых функций). Сеть ИБР имеет выходной слой, состоящий из элементов с линейными функциями активации

ф(5) = /5, (4)

где к - угловой коэффициент наклона прямой.

нка математического ожидания;

выборочная оценка дисперсии.

Существуют и другие функции масштабирования, из них самая простейшая - минимаксная функция, выполняющая линейное преобразование после определения минимального и максимального значений функции так, чтобы получаемые значения находились в нужном диапазоне. ЛиУ, У/,тт

масштабирует

У ,,тах У/,тт

исходную выборку в единичный отрезок [0, 1].

Предобработку полезно провести для того, чтобы повысить скорость и качество обучения.

Задача аппроксимации функции для нейронной сети формируется как задача контролируемого обучения (обучение с учителем). Суть задачи состоит в следующем. Имеются значения функции в отдельных точках (узлах), система базисных функций и векторов регулируемых весовых коэффициентов. Необходимо обучить сеть, т. е. выбрать весовые коэффициенты при базисных функциях так, чтобы их комбинация давала аналогичную зависимость, которая наилучшим образом аппроксимирует множество значений функции отклика.

3. ПРИМЕНЕНИЕ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ

Рис. 3. Радиальная базисная функция

Процесс обучения КБР-сетей включает две стадии: процесс настройки центров базисных функций (3) и обучение нейронов в скрытом слое, поэтому эти сети обучаются достаточно быстро.

Для решения поставленной задачи была создана КБР-сеть (рис. 4) с допустимой среднеквадратической ошибкой Е(ю)=0,3 и параметром влияния, равным 1, значение которого устанавливается тем большее, чем больший диапазон входных значений должен быть принят во внимание. В качестве входных элементов было взято время ґ = 1, N, а выхода - уровни временного ряда у'. Функции пакета МЭТ, используемые при создании КБР-сети: пй = newrb(ґ; у'; 0,3; 1) - создание радиальной базисной нейронной сети с обучением; уп' = = біш(пє1, ґ) - моделирование сети.

Чтобы полученный выход сети соответствовал реальному (истинному) масштабу данных, было выполнено обратное преобразование:

уп, = уп'1Л[Оу + Му, (5)

где упі - преобразованный выход сети; уп' - выход сети; Му и Бу описаны выше.

Г IW{1.1} Ь{1}

А

LW{2.1}

Ь{2}

21

Рис. 4. Нейронная сеть с радиально-базисными элементами

В результате моделирования ИБР-сети для реальных данных была получена аппроксимирующая функция (рис. 5). На рис. 6 приведен график соответствующей ошибки (отклонения фактических данных от расчётных) е, = у1 — уп1.

месяцы

Рис. 5. Аппроксимация данных с помощью радиально-базисной сети

месяцы

Рис. 6. Ошибка аппроксимации данных ИБР-сетью

4. ПРИМЕНЕНИЕ ОБОБЩЕННО-РЕГРЕССИОННОЙ НЕЙРОННОЙ СЕТИ

Обобщенно-регрессионная нейронная сеть (вИМЫ), как и ИБР-сети, имеет радиально-базисный слой с числом нейронов, равных числу элементов или менее обучающего множества, но еще включает линейный слой. ОЯЫЫ-сеть копирует внутрь себя все обучающие наблюдения и использует их для оценки отклика в произвольной точке. Окончательная выходная оценка сети получается как взвешенное среднее выходов по всем обучающим наблюдениям, где величины весов отражают расстояние от этих наблюдений до той точки, в которой производится оценивание (и, таким образом, более близкие точки вносят больший вклад в оценку).

Первый промежуточный слой сети вЯЫЫ состоит из радиальных элементов. Второй промежуточный слой (линейный) содержит элементы, которые помогают оценить взвешенное среднее. Для этого используется специальная процедура. Каждый выход имеет в этом слое свой элемент, формирующий для него взвешенную сумму. Чтобы получить из взвешенной суммы взвешенное среднее, эту сумму нужно поделить на сумму весовых коэффициентов. Последнюю сумму вычисляет специальный элемент второго слоя. После этого в выходном слое производится собственно деление (с помощью специальных элементов «деления»). Таким образом, число элементов во втором промежуточном слое на единицу больше, чем в выходном слое. Как правило,

в задачах регрессии (аппроксимации) требуется оценить одно выходное значение и, следовательно, второй промежуточный слой содержит два элемента.

Процесс обучения GRNN-сети аналогичен обучению RBF-сети. Первоначально настраиваются центры базисных функций (3), затем с фиксированными параметрами RBF-нейронов обучается выходной слой.

Для решения поставленной задачи была смоделирована GRNN-сеть с нулевой ошибкой £(ю) = 0 и коэффициентом сглаживания, равным 1, наибольшее значение (равное 1) которого соответствует наиболее сглаженному ряду (рис. 7). В качестве входных элементов было взято

время t = 1, N,, а выхода - уровни временного ряда у'.

Функции пакета NNT: net = newgrrn(t, у', 1) - создание GRNN-сети; yn' = sim(net, t) - моделирование сети.

А -* LW{2,1} г—)®* 7^

Ь{1} 1 36 Ь{2} 1

Рис. 7. Обобщенно-регрессионная нейронная сеть

Полученная аппроксимирующая функция исследуемых данных с помощью вИКЫ-сети представлена на рис. 8, причем предварительно было сделано обратное преобразование (5). График соответствующей ошибки (отклонения фактических данных от расчётных) е1 = у{—^ дан на рис. 9.

месяцы

Рис. 8. Аппроксимация данных с помощью обобщенно-регрессионной сети

месяцы

Рис. 9. Ошибка аппроксимации данных ОКЫЫ-сетью

5. ПРИМЕНЕНИЕ ЛИНЕЙНОЙ НЕЙРОННОЙ СЕТИ

Линейная сеть - это самая простая нейросеть, которая не содержит промежуточных (скрытых) слоев и в выходном слое содержит только линейные элементы (т.е. элементы с линейной функцией активации (4)). Но для решения поставленной задачи использовалась модифицированная сеть - линейная сеть с задержкой на входе (рис. 10).

<D'

ґ

/

/ ■

• уи

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

delays

Рис. 10. Линейная нейронная сеть с задержкой на входе

Для рассматриваемого ряда динамики характерны внутригодичные, повторяющиеся устойчиво из месяца в месяц изменения в уровнях, т.е. сезонные колебания. Поэтому предлагается использовать линейную сеть с задержкой на входе шести предыдущих входных элементов. Входными величинами этой сети являются уровни временного ряда у', получаемые преобразованием (2). Выходной слой сети будет содержать один элемент, соответствующий выровненному значению ряда. Для обучения такой сети требуется большой объём выборки, более 100, поэтому в качестве обучающей выборки использован исходный ряд, повторенный 4 раза, при этом N = 144.

Фрагмент программы создания и адаптации линейной сети:

delays = [1 2 3 4 5 6] - вектор задержки; net=newlin([-2 2.8], 1, delays, 0.01); in=con2seq(y'); d=in; nnet=adapt(net, in, d); yn'=sim(nnet, d).

Процесс адаптации (приспособления) линейной сети к данным приведен на рис. 11.

Рис. 11. Адаптация линейной сети к обучающей выборке

После того как сеть «адаптируется», её можно использовать для интерполяции и экстраполяции данных.

Результат аппроксимации данных с применением линейной сети приведен на рис. 12.

10000

9000

8000

7000

6000

5000 •*

4000

1 4 7 10 13 16 19 22 25 28 31 34

месяцы

с помощью линейной сети с задержкой

6. СРАВНИТЕЛЬНЫЙ АНАЛИЗ

Проанализируем полученные результаты сглаживания ряда динамики традиционным методом аналитического выравнивания, т.е. построения трендовой модели. Динамический ряд (рис. 1) является стационарным периодическим рядом, т.е. общей тенденции развития нет, но явно выделяется циклическая составляющая временного ряда и, естественно, случайная компонента. Поэтому для сглаживания данного РД были использованы в качестве модели тренда ряд Фурье и мультипликативная модель [5]. Ряд Фурье или модель тригонометрического тренда имеет вид

у, = ао +Е а ь (6)

где а0, а, Ь,■ - неизвестные параметры, п = 6 — число гармоник, N = 36 - длина ряда динамики (объём выборки). Для решения задачи идентификации параметров данного уравнения применяли классический метод наименьших квадратов [5]. Графики исходного и выровненного рядов динамики приведены на рис. 13.

месяцы

Рис. 13. Сглаживание ряда динамики рядом Фурье

При мультипликативной модели уровень РД можно представить как произведение его составляющих:

(7)

у, = y •y^ , t = 1, ж,

у у,

где отношение у / у представляет собой коэффициент

сезонности (К), а у, / у8 - отражает влияние случайного

фактора, у - средний уровень ряда соответствующего

периода внутри года (месяца, квартала) за ряд лет.

Оценочные значения для модели (7) можно представить в виде

у, = у • К),, і = Щ (8)

Графики исходного и выровненного рядов динамики приведены на рис. 14.

10000 1 9000 — 8000 7000 6000 5000 4000

1 4 7 10 13 16 19 22 25 28 31 34

Рис. 14. Сглаживание ряда динамики с применением мультипликативной модели

Качество аппроксимации различными методами оценивалось по коэффициенту детерминации (табл. 1), ко-

Рис. 12. Аппроксимация данных

торый характеризует так называемую долю «объясненной» дисперсии и определяется как

R2 = 1 --

X(y,- y,)2 t__________

X(y,- m2

где уг - исходные значения, уг - выровненные значения, Му - выборочное среднее исходного ряда динамики. Качество аппроксимации тем лучше, чем ближе этот коэффициент к 1.

Т а б л и ц а 1

Ряд Фурье Мультипли- кативная модель GRNN- сеть RBF- сеть Линейная сеть

Коэффициент детерминации (R2) 0,8747 0,7262 0,9473 0,9918 0,6422

Неудовлетворительной качество аппроксимации с применением линейной сети объясняется её простотой и спецификой исходного ряда динамики, который включает сезонные колебания. При отсутствии ярко выраженных колебаний можно предпочесть использование линейной сети, так как при этом обеспечивается сглаживание данных от случайной составляющей.

По приведенным данным можно сделать вывод о том, что применение нейронных сетей даёт приемлемый (достаточно высокий) уровень аппроксимации исходных наблюдаемых данных, прежде всего это благодаря наличию в КБР и вККЫ нейросетях скрытого слоя нейронов с нелинейными радиально-базисными функциями активации, которые позволяют отслеживать малейшие изменения в уровнях исследуемого временного ряда. При использовании КБР-сети получили Я2 = 0,9918; это случай когда реальный выход нейросети и желаемый выход (что по смыслу совпадает с оценочными и реальными значениями) практически совпадают. Применяя традиционные методы, практически невозможно достичь такого высокого значения коэффициента детерминации.

Любой ряд динамики содержит случайную составляющую, поэтому наиболее приемлемо использование

метода, который выявляет общую тенденцию развития исследуемого ряда, так как при прогнозировании наиболее важно учесть закономерности изменения уровней ряда, а не случайные явления, влияющие на исследуемый показатель. Поэтому в рассматриваемом примере наиболее предпочтительным вариантом является использование вЯМЫ-сети, так как она обеспечивает высокое качество аппроксимации и показывает тенденции изменения показателя в наиболее продолжительных отрезках времени.

Результаты применения традиционных методов сглаживания ряда динамики по сравнению с использованием нейронных сетей типа КБР и вККЫ не намного уступают по качеству. Если нет возможности применять нейросети, то предпочтительнее использовать ряд Фурье для аппроксимации исследуемых данных, а не мультипликативную модель.

Таким образом, для рассматриваемого примера аппроксимации данных по известным объёмам продаж авиабилетов применение нейронных сетей обеспечивает высокое качество аппроксимации и может использоваться для анализа и прогнозирования деятельности авиапредприятий.

ЛИТЕРАТУРА

1. Нейронные сети Statistica neural Networks. М.: Телеком, 2000.

2. Организация и обучение искусственных нейронных сетей /Авт.-сост. Л.В. Калацкая, В.А. Новиков, В.С. Садков. Мн.: БГУ, 2003.

3. Bishop C. Neural networks for pattern recognition. Oxford: University Press, 1995.

4. Медведев В. С., Потемкин В. Г, Нейронные сети. MATLAB 6. М.: Диалог - МИФИ, 2002.

5. Статистика: Учебник / Под ред. проф. И.И. Елисеевой. М.: ООО «ВИТРЭМ», 2002.

Статья представлена кафедрой прикладной математики факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию «Кибернетика» 20 апреля 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.