Научная статья на тему 'Методы прогнозирования временных рядов на основе искусственных нейронных сетей с элементами временной задержки'

Методы прогнозирования временных рядов на основе искусственных нейронных сетей с элементами временной задержки Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2012
242
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чепенко Татьяна Евгеньевна

Рассматривается задача обучения специализированных нейронных сетей, предназначенных для прогнозирования рядов показателей, описывающих поведение сложных многосвязных систем. Описывается метод обучения искусственных нейронов многослойных нейросетей с прямой передачей информации, обладающий робастными свойствами в условиях возмущений с неизвестным распределением. Обобщаются методы обучения прогнозирующих рекуррентных нейросетей на динамических нейронах-фильтрах с конечной и бесконечной импульсной характеристиками, отличающиеся высоким быстродействием и повышенными сглаживающими свойствами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чепенко Татьяна Евгеньевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods of multivariate nonstationary time series prediction on the base of special artificial neural networks with time delay elements

The development of learning methods of the artificial neural networks with time delay elements are considered. The learning methods of artificial neural networks that have robust properties in conditions of disturbances with unknown distribution is described. The generalization learning methods of predictive recurrent neural networks on dynamic neurons-filters with finite-impulse and infinite-impulse response are presented.

Текст научной работы на тему «Методы прогнозирования временных рядов на основе искусственных нейронных сетей с элементами временной задержки»

УДК 004.855 Т.Е. ЧЕПЕНКО

МЕТОДЫ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ НА ОСНОВЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ С ЭЛЕМЕНТАМИ ВРЕМЕННОЙ ЗАДЕРЖКИ

Рассматривается задача обучения специализированных нейронных сетей, предназначенных для прогнозирования рядов показателей, описывающих поведение сложных многосвязных систем. Описывается метод обучения искусственных нейронов многослойных нейросетей с прямой передачей информации, обладающий робастными свойствами в условиях возмущений с неизвестным распределением. Обобщаются методы обучения прогнозирующих рекуррентных нейросетей на динамических нейронах-фильтрах с конечной и бесконечной импульсной характеристиками, отличающиеся высоким быстродействием и повышенными сглаживающими свойствами.

1. Введение

Проблема обработки больших объемов разнообразной, подчас неполной и противоречивой диагностической информации выходит на передний план в различных областях, таких как прогнозирование и моделирование, управление, оптимизация, анализ данных, прикладная статистика [1-3]. Решение этих задач связывают с новыми информационными технологиями [4,5]. Так как многие системы реального времени демонстрируют комплексные нелинейные характеристики, к ним неприменимы способы обработки, характерные при использовании теории линейных систем [6-9]. Нейронные сети - это один из самых универсальных методов для решения задач прогнозирования в ситуациях, когда в экспериментальных данных отсутствует часть информации, а имеющаяся информация зашумлена. Все сказанное выше определяет актуальность исследования нейросетевых технологий обработки сигналов.

Развитие в области теории и приложений нейронных сетей идет в самых разных направлениях - это поиск новых нелинейных элементов, которые могли бы реализовывать слож-

ное поведение нейронов, новые архитектуры нейронных сетей, поиск новых областей приложения нейротехнологий. Значительное место в данных исследованиях традиционно занимает математическое моделирование. В связи с этим возникает необходимость проанализировать возможности моделирования структуры нейросетей, рекуррентные методы настройки этих нейросетевых моделей, а также свойства сходимости изучаемых процедур обучения, их преимущества и недостатки.

Цель исследования - обобщение методов обучения искусственных нейронных сетей с элементами временной задержки, предназначенных для прогнозирования нестационарных рядов показателей, описывающих поведение многосвязных систем.

Задачи исследования:

- анализ методов обучения искусственных нейронных сетей и обоснование возможности применения в задачах моделирования и прогнозирования сложных многосвязных систем;

- обобщение методов обучения искусственных нейросетей с элементами временной задержки.

2. Обучение искусственной нейронной сети

Типичная искусственная нейросеть состоит из множества простых вычислительных элементов, размещаемых послойно и использующихся параллельно. Весовые коэффициенты, которые определяют силу связи между элементами, подстраиваются во время работы сети, тем самым обеспечивая хорошие эксплуатационные показатели. Нейросети образуют классы в соответствии с характеристиками элементов, архитектурой и правилами обучения. Так, нейросети, в которых входной сигнал распространяется через слои сети от входа к выходу, известны как аппроксимирующие нейросети прямого распространения. Эта разновидность сети способна к обучению комплексным отображениям входа-выхода.

Многослойная нейросеть является универсальным аппроксиматором, однако не существует конструктивных оценок, позволяющих определить точное количество нейронов в скрытом слое. Многослойная нейросеть может обладать произвольными начальными условиями, при этом необходимо начать процесс обучения. Таким образом, нейросеть обладает аппроксимирующими свойствами в том случае, если её весовые коэффициенты обучены с помощью того или иного правила настройки, минимизирующего принятый критерий обучения. Если есть заданный критерий обучения и есть соответствующая процедура, которая минимизирует этот критерий, то нейросеть будет обладать требуемыми аппроксимирующими свойствами.

Обучение в общем случае - многоэкстремальная задача оптимизации, для решения которой используются:

- процедуры локальной оптимизации с вычислением частных производных первого порядка (градиентная процедура; методы одномерной и двумерной оптимизации целевой функции в направлении антиградиента; метод сопряженных градиентов; методы, учитывающие направление антиградиента на нескольких шагах процедуры);

- процедуры локальной оптимизации с вычислением частных производных первого и второго порядка (метод Ньютона; методы оптимизации с разреженными матрицами Гессе; квазиньютоновские методы; метод Гаусса-Ньютона; метод Левенберга-Марквардта);

- стохастические процедуры оптимизации (поиск в случайном направлении; метод Монте-Карло (численный метод статистических испытаний); имитация отжига);

- процедуры глобальной оптимизации (перебор значений переменных, от которых зависит целевая функция).

Класс процедур обучения, известных как процедуры прогнозирования ошибки, может быть получен для многослойной нейросети при использовании методов нелинейной настройки систем.

Оценка параметров в нелинейных моделях основана на нелинейных методах оптимизации [3].

Процедуры, которые используются для обучения нейросетей - классические процедуры, такие как процедура обратного распространения ошибки во времени, обладают низкой скоростью сходимости. В связи с этим необходимо провести исследования, направленные на улучшение скорости сходимости. В ходе этих исследований нужно оптимизировать

процессы обучения нейросети, чтобы проводить обучение сети как в реальном времени, так и на коротких выборках. В силу того, что выборка реальных данных имеет, как правило, ограниченный объем, необходимо обеспечить максимальную скорость сходимости на короткой выборке. Так, можно ввести в структуру нейросети фактор времени, организовав на входе цепочку элементов чистой задержки. Однако такой подход ведет к тому, что количество синаптических весов резко возрастает, что неприемлемо для работы в условиях ограниченной выборки, т.е. в условиях, когда выборка ограничена, невозможно решить задачу прогнозирования с помощью классических нейросетей, у которых на входе -цепочка элементов чистой задержки. В связи с тем, что классические архитектуры нейронных сетей с элементами чистого запаздывания в нулевом слое не отвечают поставленным требованиям, необходимо обратиться к другим конструкциям, которые специальным образом ориентированы на работу с временными рядами. Именно к таким сетям и относятся нейросети, построенные на так называемых динамических нейронах, представляющих собой, по сути, нелинейные цифровые фильтры. Хотя подобные сети были разработаны достаточно давно, однако не поднимался вопрос оптимизации процессов обучения нейросе-тей во времени. Этот вопрос не является проблемным, если обучающая выборка может быть сколь угодно велика. Но для работы с реальными данными эта выборка всегда ограничена.

3. Обучение прогнозирующей нейросети с прямой передачей информации на

динамических нейронах

Диапазон задач, решаемых с помощью нейротехнологий, в настоящее время достаточно велик, это обстоятельство не позволяет создавать универсальные нейросети, которые бы не были сформированы под определенную задачу. Структура нейросети выбирается в соответствии с особенностями и степенью сложности решаемых задач, таких как, например, обработка сигналов различной природы в технических, медицинских, экономических и прочих приложениях.

Для решения некоторых классов задач существуют оптимальные нейросетевые конфигурации. Если задача не может быть сведена ни к одному из известных классов задач, тогда решается проблема синтеза новой конфигурации.

Можно отметить, что чем сложнее архитектура нейросети, тем больше задач она способна решить. Процесс работы нейросети зависит также от настройки синаптических связей, поэтому необходимо найти оптимальные значения весовых коэффициентов, т.е. провести обучение. Кроме параметра качества подбора весов важную роль играет также время обучения. Эти два параметра могут быть связаны обратной зависимостью, поэтому на практике обычно требуется достичь определенного компромисса.

Рассмотрим случай, когда прогнозирование необходимо проводить в реальном времени по мере поступления новых данных. Используем нейросети, которые по прошлым наблюдениям позволяют восстанавливать нелинейное динамическое отображение вида:

х (к ) = Б (х (к-1),х (к-2) ,...,х (к-пА)) + е (к ) = х (к) + е (к),

где х (к) - оценка (прогноз) значения х (к), полученная на выходе искусственной нейронной сети (ИНС), представляющей в данном случае нелинейную авторегрессионную модель; е (к) - ошибка прогнозирования.

В качестве основы для построения нелинейных авторегрессионных моделей обычно используются многослойные нейросети с прямой передачей информации, входной (нулевой) слой которых образован линиями элементов чистой задержки с отводами.

Стандартный статический нейрон реализует нелинейное отображение

[1+1] [1], [1+1К [1] х- -У- Чи- ') =

Г [1] ^ Г [1] Л п!] [1+1] ['] пИ

1=0

^ [1] [1] 2 wL■iJ х1

1=0

синаптические веса w[■1i] которого подлежат уточнению в процессе обучения нейронной

сети.

Нелинейное отображение, реализуемое динамическим нейроном, можно записать в виде:

(

[1]

Л

(

[1]

Л

4+1] (к) = < (+1] (к)) ди^ (к) = у?1] (к)

V / V

Общим недостатком прогнозирующих сетей, построенных на статических нейронах, является чрезвычайно большое количество настраиваемых весов и низкая скорость обучения, что, естественно, вызывает серьезные проблемы, особенно при работе в реальном времени.

Хотя количество параметров, которые содержит динамический нейрон, превышает количество синаптических весов стандартного нейрона, сеть, построенная из таких узлов, содержит намного меньше параметров, чем стандартная архитектура на статических нейронах с линиями задержки на входе.

Для обучения нейросетей на динамических нейронах в [10] была введена градиентная процедура, получившая название обратного распространения ошибок во времени:

1) Одношаговый критерий обучения

I (к )= !||е (к )||2 = (к)-N (х(],...,^])) = ^ (к)-X (к )||2,

где d (к) - обучающий сигнал, в качестве которого в задачах прогнозирования принимается текущее значение х (к).

2) Процедура минимизации критерия обучения

Wjl1] (к +1) = ^ (к )-уш(к)

. = ллД1]

ЙТ (к)

-V

ди[1+1] (к) >[1]

и?+1] (к),

?1

здесь у[1] (к) параметр, определяющий скорость сходимости обучения. 3) Локальная ошибка обучения

1 (к) = 5[1] (к).

ди[ ] (к)

4) Процедура настройки нейронов выходного слоя

Wj1L] (к + 1) = W|1L] (к) +У[Ь] (к )е? (к ) ? ' (и^+1] (к)) Х[Ь] (к) :

= W^1L] (к) + У[1] (к)eJ (к) 111] (к).

5) Локальная ошибка обучения для скрытых слоев сети

т.. 51 (к) Ч+^+к 5и^1+1] (1)

ди[1] (к) я=1 1=к

ди[1] (к)

? " (и?1 (к ))ТГ «г1 (• Ж?-

-1 ^ -1 / я=1 1=к дх[1] (к)

п[1]+к . п1+1 пА +к

6) Адаптивная процедура

[1] т е[1] (кI (к)

W|l1] (к +1) = W|11] (к)+ ? 1 1 < 1

Р+ 111] (к)

< 1 < 1,

где в >0 - регуляризующий параметр;

Процедура настройки процесса обучения в скрытых слоях оптимизирована по скорости. 7) Модифицированный метод обучения

в1] (к +1) = ав1] (к) + 111] (к) 2 , 0 <а< 1,

где а - параметр сглаживания. Метод модифицирован в целях придания сглаживающих свойств, необходимых при обработке "зашумленных" сигналов [7].

Следует отметить, что прогнозирующие нейронные сети на базе динамических нейронов могут применяться при решении задач, связанных с моделированием сложных нелинейных динамических систем, в частности, в задачах прогнозирования нестационарных временных рядов.

Предложенный метод обучения нейросетей на динамических нейронах-фильтрах [11] характеризуется повышенными сглаживающими свойствами и высоким быстродействием, что позволяет работать в режиме реального времени.

В основе большинства рекуррентных методов обучения лежит гипотеза о нормальном распределении помех, что привело к использованию методов, основанных на критерии наименьших квадратов, которые на практике оказываются чрезвычайно чувствительными к отклонениям фактического закона распределения от нормального.

При работе в реальном времени решение задач робастной настройки, основанных на минимизации критериев, отличных от квадратичного, затруднено в силу численной громоздкости. Преодоление указанных трудностей видится в использовании нейросетевых методов обработки информации. Вводя в рассмотрение теоретическую текущую ошибку настройки, вектор неизвестных коэффициентов, подлежащих определению, вектор независимых входных переменных, включающих в частном случае и параметр времени, и робаст-ный критерий оценивания Р. Вэлша, получили метод обучения [5], являющийся многошаговой процедурой. Так как использование этого метода в режиме реального времени затруднено в связи с необходимостью обработки на каждом такте всей выборки наблюдений, был предложен [12] метод обучения на основе одношаговой процедуры.

4. Метод обучения локально-рекуррентной нейронной сети на динамических нейронах-фильтрах

Особенность нелинейной авторегрессионной модели состоит в том, что синапсы ее нейронов по сути являются адаптивными динамическими фильтрами. Вместе с тем, остается открытым вопрос о выборе порядка фильтра, определяющего динамические свойства синтезируемой прогнозирующей сети. В связи с этим были предложены [13] локально-рекуррентные нейронные сети, синапсы которых являются адаптивными рекуррентными фильтрами с бесконечной импульсной характеристикой.

Для обучения этих сетей предложена группа градиентных процедур, чья скорость сходимости оказалась явно недостаточной при обработке больших массивов информации.

Наиболее эффективной процедурой настройки локально-рекуррентных нейронных сетей на сегодня является процедура рекуррентного обратного распространения ошибок, обеспечивающая минимизацию в пакетном режиме (обучение по эпохам) критерия обучения:

шний обучающий сигнал, в качестве которого в задаче настройки используется значение выхода реального объекта.

Базовым элементом локально-рекуррентной нейронной сети является динамический нейрон-фильтр, синапсы которого представляют собой адаптивные фильтры с бесконечной импульсной характеристикой.

Отображение, реализуемое синапсами и динамическим нейроном 1-го слоя сети, в целом может быть записано в виде

где е(к) =(е1 (к),е2 (к)

(к))'; е-(к) = ^(к)-х[Ь+1](к) = у- (к )-у- (к); <1-(к)

- вне-

иГ (к) = Д wJ^ (к-р) + (к-р) = х^ (к) = (к);

п[1]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

>= ^„,[1]х[1].

V ^[1]и[1]

Wl

14 ().

[1]

, - с[1]^[1],

)

,[1+1],

ПМ

и? ] (к) = 2 и?+1] (к);

1=1

,;1+1] (к )=^[1] (и?+1] (к)),

где

W

п[1]

=

р=0

п¥

[1]7-Р.

= 2 7

•=0 ?1Р р=0

^ =

(

w[1] ^1] w[1] v[1] v[1] v[1]

JlnV

х11] (к) = ( х11] (к),х11] (к- 1),...,х11] (к - ) ,и[1] (к - 1),...,и[1] (к-п^.

Динамический нейрон-фильтр является объединением линейного адаптивного рекуррентного фильтра со стандартным нелинейным статическим нейроном.

Адаптивный нейрон-фильтр фактически представляет собой настраиваемую модель авторегрессии - скользящего среднего вида

у(м-1 )и(к) = w( к,г-1) х(к).

Здесь г -1- оператор сдвига назад.

Для обучения нейронной сети используем процедуру послойной оптимизации критерия обучения.

Метод обучения многослойной локально-рекуррентной сети может быть реализован в виде такой последовательности шагов:

1) вычисление ошибки обратного распространения е[1+1] (к) для всех к = 1, 2, ..., N

Ь (к) ,1=и

е[1+1]

(к ) =

п[1+1] N-к [1+1] 5и['+1] (к + Г)

2 Г](к + г) Л+1

Я=1 г=1

5х[1+1] (к)

,1 < 1 <

2) вычисление локальной ошибки 8[1+1] (к) для всех к =1,2, ...,№

8Р+1] (к) = е?+1] (кЦ1] ' (иР+1] (к));

3) вычисление производных сигнала внутренней активации и11+1] (к) по настраиваемым синаптическим весам с помощью соотношений:

»Л(к)=х1Ч(к - р)+^»Т (к - ■)

J1Р

■=1

д^ = „П (к - р +" (к - ■);

а,-[1+ц =и1 (к р)+¿Л«

J1Р

J1Р

4) вычисление оптимального значения параметра шага [8] и уточнение вектора параметров каждого синапса 8[11+1] (к) с помощью соотношения: 46

,,, ,,, еС+Ч (к )Е™ (к)

■ (к+1)=■ (к)+- .(„ь,;(' 1 <1 < Ь

а1 (к)

2

а-1] (к +1) = ра11] (к)+ Е-1] (к)

,0 <р< 1,

где и- ' (К) = V■ ' ( ' (К)) У^—1^

11] (к) = у[1]' (+1] (к)) 5) вычисление локальных приращений весов с помощью соотношений:

Л1.] (к) = «дч (к +1)-«дч (к) = (к)я[_1+1] (к)ди[ ] (к) •

ДwW (к) = wW (к +1)-wjip (к) = ^ (к — (к)-д. (к ) = у[1] (к )8;1+1] (к ;

.да

6) уточнение синаптических весов по всей обучающей выборке (за эпоху) с помощью соотношений:

т N т т N дТк ди[1+1] (к) м

Нф (к)=£ (к)=- -Ь^, (к) = 2 д. (к).

к=1 ^ 7 к=1 ди[ ] (к) дw

■р

к=1

Разработанный метод [14] предназначен для решения задач настройки многомерных нестационарных стохастических динамических существенно нелинейных объектов, функционирующих в условиях априорной и текущей структурной и параметрической неопределенности, и обладает как сглаживающими, так и следящими свойствами, а также сочетает возможности как градиентных процедур, так и процедур оптимизации второго порядка.

Предложенный метод обучения нейронных сетей на нейронах-фильтрах отличается высокой скоростью сходимости благодаря оптимальному выбору шага поиска, что позволяет повысить стабильность при обработке зашумленных данных.

Выводы

Научная новизна. В результате проведенного исследования были проанализированы возможности моделирования стуктуры нейросетей и обобщены методы обучения нейронных сетей, предназначенных для прогнозирования нестационарных рядов показателей, описывающих поведение многосвязных систем.

Метод обучения прогнозирующих нейросетей с прямой передачей информации на динамических нейронах-фильтрах с конечной импульсной характеристикой имеет повышенные сглаживающие свойства и отличается высоким быстродействием, что позволяет использование в режиме реального времени.

Метод обучения нейросети с прямой передачей информации на основе минимизации робастного критерия оценивания Вэлша характеризуется вычислительной простотой, что дает возможность использования в режиме реального времени и работы в условиях негаус-совских помех.

Метод обучения прогнозирующих локально-рекуррентных нейронных сетей на нейронах-фильтрах с бесконечной импульсной характеристикой отличается от известных методов высокой скоростью сходимости благодаря оптимальному выбору шага поиска, что позволяет повысить стабильность при обработке зашумленных данных.

Практическая значимость. Решение поставленной задачи исследования дает возможность предсказать нежелательные режимы поведения сложных многосвязных систем и улучшить качество процессов управления ими.

Перспективы исследования. Методы обучения прогнозирующих нейросетей, отличающиеся высоким быстродействием и повышенными сглаживающими свойствами, могут быть использованы для дальнейшего решения перспективных задач моделирования и прогнозирования поведения динамических многосвязных систем в условиях априорной и текущей неопределенности относительно их структуры и параметров.

Список литературы: 1. Rey J. W. W. Robust Statistical Methods Berlin-Heidelberg-New York: SpringerVerlag, 1978. 128 p. 2. WelshR. E. Nonlinear statistical data analysis // Proc. Comp. Sci. and Statist. Tenth Ann. Symp. Interface. Held at Nat'l Bur. Stds.Gaithersburg, MD. 977. P. 77-86. 3. Nelles O. Nonlinear System Identification. Berlin: Springer, 2001. 785 p. 4. Applications and Innovations in Intelligent Systems XV: Proceedings of AI-2007, the Twenty-seventh SGAI International Conference on Innovative Techniques and Applications of Artificial Intelligence / BirkhAuser, 2008. 350 p. 5. Cichocki A., Unbehauch R. Neural Networks for Optimization and Signal Processing. Stuttgart: Teubner, 1993. 526 p. 6. ChenS., BillingsS.A., Grant P. M. Non-linear systems identification using neural networks / // International Journal of Control. 1990. V 51. P. 1191-1214. 7. Bodyanskiy Ye., Kolodyazhniy V., StephanA. An adaptive learning algorithm for a neuro-fuzzy network // Computational Intelligence. Theory and Applications. Berlin - Heidelberg - New York: Springer, 2001. P. 68-75. 8. Бодянский Е. В. Обнаружение разладок в нелинейных стохастических последовательностях с помощью рекуррентных искусственных нейронных сетей // Проблемы бионики. 1998. Вып. 49. С. 23-33. 9. HornikK. Multilayer feedforward networks are universal approximators / K. Hornik, M. Stindcombe, H. White // Neural Networks. 1989. 2. P. 359-366. 10. Wan E. Temporal backpropagation: an efficient algorithm for finite impulse response neural networks // Proceedings of the 1990 Connectionist Models Summer School: Morgan Kaufmann, 1990. P. 131-140. 11. Бодянский Е. В, Попов С.В., Чепенко Т.Е. Прогнозирующая адаптивная нейронная сеть с динамическими нейронами-фильтрами // Радиоэлектроника и информатика. 2003. №2 (23). С. 48-51. 12. ПлиссИ.П., ЧаплановА.П., Чепенко Т.Е Нейросетевая робастная идентификация объекта управления // Радиоэлектроника и информатика. 2002. №2 (19). С. 52 - 54. 13. BackA.D., TsoiA.C. FIR and IIR synapses, a new neural network architecture for time series mode ling // Neural Computation. 1991. № 3. P. 375-385. 14. Бодянский Е. В, Попов С.В., Чепенко Т.Е. Алгоритм обучения локально рекуррентной нейронной сети в задаче идентификации нелинейных динамических объектов // АСУ и приборы автоматики. 2004. Вып. 126. С. 17-22.

Поступила в редколлегию 09.11.2011 Чепенко Татьяна Евгеньевна, научный сотрудник ПНИЛ АСУ ХНУРЭ. Научные интересы: искусственные нейронные сети, прогнозирование временных рядов. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. (057) 702-18-90.

i Надоели баннеры? Вы всегда можете отключить рекламу.