УДК 681.513.7
А.М. ЧЕРНОДУБ
НАВЧАННЯ РЕКУРЕНТНИХ НЕЙРОННИХ МЕРЕЖ МЕТОДОМ ПСЕВДОРЕГУЛЯРИЗАЦІЇ ДЛЯ БАГАТОКРОКОВОГО ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ_____________________________________________________________________________
Анотація. Розглядається задача багатокрокового прогнозування часових рядів. Представлені існуючі моделі рекурентних та нерекурентних нейронних мереж, що застосовуються для задач прогнозування. Описується спосіб навчання нейромереж методом розширеного фільтра Калмана з обчисленням похідних методом зворотного поширення в часі. Пропонується метод псевдорегуля-ризації для зменшення ефекту зникнення градієнтів, що приводить до підвищення якості прогнозування в багатокроковому випадку. Наводяться результати чисельних експериментів на прикладі прогнозування кількості сонячних плям за рік і хаотичного процесу Маккея-Гласса.
Ключові слова: псевдорегуляризація, рекурентні нейромережі, зворотне поширення в часі, розширений фільтр Калмана.
Аннотация. Рассматривается задача многошагового прогнозирования временных рядов. Представлены существующие модели рекуррентных и нерекуррентных нейронный сетей, которые применяются для задач прогнозирования. Описывается способ обучения нейросетей методом расширенного фильтра Калмана с вычислением производных методом обратного распространения во времени. Предлагается метод псевдорегуляризации для уменьшения эффекта исчезновения градиентов, что приводит к повышению качества прогнозирования в многошаговом случае. Приводятся результаты численных экспериментов на примере прогнозирования годового количества солнечных пятен и хаотического процесса Маккея-Гласса.
Ключевые слова: псевдорегуляризация, рекуррентные нейронные сети, обратное распространение во времени, расширенный фильтр Калмана.
Abstract. The problem of time series multi-step prediction is considered. The existing models of recurrent and nonrecurrent neural networks which are used for prediction problems were represented. Efficient training method of neural networks using Extended Kalman Filter and Backpropagation Through Time technique of dynamic derivatives calculation is described. Pseudoregularization method for vanishing gradients effect reducing that leads to prediction accuracy in muli-step case improvement is proposed. The results of numerical experiments on the example of yearly sunspots number and Chaotic Mackey-Glass Time Series predicting are presented.
Keywords: Pseudoregularization, Recurrent Neural Networks, Backpropagation Through Time, Extended Kalman Filter.
1. Вступ
Прогнозування часових рядів є актуальною науковою проблемою, що має безліч застосувань у теорії управління, в економіці, медицині, фізиці та інших галузях. Нейромережеві методи добре себе зарекомендували як засіб моделювання динамічних систем при невідомій апріорі математичній моделі динамічної системи [1]. Нейронна мережа може бути навчена на відомих прикладах реалізацій динамічного процесу і потім використовуватися для прогнозування на нових даних.
Існують два базових підходи для надання нейронним мережам на базі багатошарових персептронів властивостей, необхідних для обробки динамічних даних: додавання ліній затримок на вхід мережі та додавання рекурентних зв'язків до внутрішньої структури нейронної мережі. В першому випадку, при використанні «методу часового вікна» (Time Delay Neural Networks, Time-Window Neural Networks, Finite Impulse Response Neural Networks, Time-Lagged Neural Networks, Focused Multilayer Perceptrons, Dynamic Multilayer Perceptrons) [1-3], нейронна мережа отримує на вхід разом з поточним вхідним сигналом
© Чернодуб А.М., 2012
ISSN 1028-9763. Математичні машини і системи, 2012, № 4
затримані в часі минулі значення вхідних сигналів. Навчання нейромережі виконується з обчисленням похідних за відомим методом зворотного поширення (Backpropagation, BP) і з застосуванням градієнтного методу оптимізації першого або другого порядку. Плюсами цього підходу є його простота й технологічність: за нашими оцінками, зараз більш ніж в 90% випадків для прогнозування часових рядів використовується саме така схема. З іншого боку, при застосуванні такої схеми кількість і порядок затримок часового вікна мають бути встановлені апріорі. Якщо ці величини не будуть відповідати порядку динамічного процесу, нейромережа буде погано навчатися або зовсім не навчиться. Іншим мінусом цього підходу є погана якість багатокрокових прогнозів, коли як вхідні дані для прогнозу на новий крок використовуються власні прогнозні дані нейромережі, отримані для попередніх кроків.
Другим базовим підходом введення динаміки в нейромережі прямого поширення є додавання внутрішніх рекурентних зв'язків у приховані, вхідні або вихідні шари нейромережі (Recurrent Multilayered Perceptrons, Simple Recurrent Neural Networks, NARX Neural Networks) [1, 3]. Для визначення впливу минулих тактів на поточний результат вводиться обчислення спеціальних динамічних похідних. Динамічні похідні належать до одного з двох видів за способом обчислення: «рекурентне навчання в реальному часі» (Real-Time Recurrent Learning, RTRL) [1, 4] або «зворотне поширення в часі» (Backpropagation Through Time, BPTT) [1, 4, 5]. Як оптимізаційний метод для налаштування ваг нейромережі може використовуватися, як і в першому випадку, будь-який градієнтний оптимізаційний алгоритм. Такі рекурентні мережі за своєю структурою більш відповідають динамічним процесам, що моделюються, і тому краще показують себе в задачах керування і багатокрокового прогнозування. Разом з тим навчання таких мереж є більш важким завданням через додаткові ступені вільності в таких мережах, на практиці процес навчання часто не сходиться. Крім того, при розрахунках динамічних похідних у персептроно-подібних мережах має місце ефект зникнення градієнта (gradient vanishing) [1, 6], що додатково ускладнює для алгоритму навчання виявлення кореляцій між минулими входами і поточними цільовими виходами мережі.
Ми пропонуємо оригінальний підхід для навчання рекурентних нейромереж шляхом накладення додаткових обмежень на величину модуля градієнта при зворотному поширенні в часі в цільову функцію оптимізації навчання нейромережі. Як функція оптимізації використовується метод розширеного фільтра Калмана. Проводиться експериментальне порівняння запропонованого методу навчання зі звичайним методом навчання зворотного поширення в часі BPTT(h) для рекурентних нейромереж, а також багатошарових пе-рсептронів з лінією затримок на прикладі багатокрокового прогнозування кількості плям на сонці за рік (числа Вольфа) [7], а також хаотичного процесу Маккея-Гласса [7-8].
2. Багатошаровий персептрон з лінією затримок
Схема багатошарового персептрона з лінією затримок порядка N показана на рис. 1. Персептрон містить нейрони з лінійною функцією активації для нейронів вхідного шару і сиг-моїдальної функції активації для нейронів прихованого і вихідного шарів (у наших експериментах ми використовували функції активації гіперболічного тангенса). Вагові значення між шарами нейронів задаються матрицями W(1) й W(2). Персептрон отримує на вхід x(k) поточне значення часового ряду y (k), а також затримані минулі значення y(k -1), y(k - 2),..., y(k - N), які реалізуються за допомогою елементів затримки z_1, z-2 ..., z~N, і за цими даними навчається робити прогноз наступного значення y(k +1) .
Розрахунок вихідного значення нейромережі y виконується за формулою
(1)
де w ') - ваги нейронів прихованого шару, f ( ) - активаційні функції нейронів прихованого шару, w(2) - ваги нейронів вихідного шару, g() - активаційні функції нейронів вихідного шару. На рис. 1 показано нейромережу з п'ятьма нейронами у прихованому шарі, який отримує на вхід стан порядка N. Похідні для навчання обчислюються звичайним (статичним) методом зворотного поширення. В нашій роботі як градієнтний метод оптимізації ми використовували метод глобального розширеного фільтра Кал-мана (Global Extended Kalman Filter, GEKF) [1, 8-9], тому, замість
d [e(k )2]
0.9
—1—Однокрокова похибка на навчальній виборці — м—Багатокрокова похибка на навчальній виборці —*—Багатокрокова похибка на тестовій виборці .
\\х ч Ч\
\ X, ч. „
—-JS—. X— -М- -И—М-—К я—
градієнтів
мо якобіани
dw
d~
dw
ми обчислює-
Це робиться шля-
10 15 20
Кількість епох навчання нейромереж
хом пропускання значення 1 на кожному зворотному проході замість пропускання поточної помилки навчання є(к), що приводить до отримання якобіанів замість градієнтів при тих же обчисленнях, оскі-
Э [е(к)2] 0 . ,чЭу
льки-----------= 2е(к)—.
э^ э^
Для виконання прогнозування на Н кроків вперед проводиться така ітеративна процедура:
1. Персептрон виконує прогноз на один крок вперед, отримує оцінку наступної величини часового ряду у(к +1).
2. На основі наявних реальних минулих входів і отриманої оцінки формується новий вхідний вектор для нейромережі
х(к + 1) = [ у(к + 1) у(к) ... у(к - N+1)]Г.
3. Прогнозується нове значення у(к + 2).
Кроки 2 - 3 виконуються, поки не буде отримана необхідна оцінка у(к + Н).
На рис. 2 показано результати навчання багатошарового персептрона з лінією затримок задачі прогнозування на один крок вперед на процесі Маккея-Гласса. Після кожної епохи навчання нейромережа також тестувалася на здатність виконувати прогноз на Н = 14 кроків вперед.
Як випливає з графіків на рис. 2, якість однокрокового прогнозування прямо не пов’язана з якістю багатокрокового прогнозування. При збільшенні кількості епох навчан-
Рис. 2. Залежність якості однокрокового та багатокрокового прогнозування від кількості епох навчання
ня якість однокрокового прогнозування монотонно зростає, а якість багатокрокового прогнозування має певний локальний мінімум.
3. Рекурентна нейронна мережа NARX
З метою підвищення якості багатокроко-вого прогнозування використовують рекурентні нейронні мережі, що мають додаткові зворотні зв’язки та за рахунок специфічного способу навчання дозволяють розрахувати вплив власних похибок нейромережі на якість багатокроко-вого прогнозу.
Рекурентна нейронна мережа NARX (Nonlinear AutoRegression with external inputs) [1, 3] (рис. 3) є модифікацією багатошарового персептрона з додаванням зворотних зв'язків до вхідного шару нейронів, реалізованих затримками z-1. Розрахунки вихідного значення мережі у виконуються аналогічно (1), відмінність полягає тільки в тому, що в матриці ваг прихованого шару W(1) тепер також зберігаються ваги для рекурентних зв'язків.
Головною відмінністю в навчанні рекурентної нейромережі NARX від багатошарового персептрона з лінією затримок на вході є використання динамічних похідних, що в нашому випадку розраховуються методом усіченого зворотного поширення в часі BPTT(h) замість статичних похідних, як для навчання багатошарового персептрона з лінією затримок. Схема обчислення похідних під час зворотного проходу представлена на рис. 4. На такті к, після обчислення вихідного значення у(к +1), мережа розгортається назад у часі на глибину усікання h .
Рис. 3. Схема рекурентної нейромережі КЛИХ. Сірим кольором позначені вхідні нейрони для рекурентних зв’язків
Рис. 4. Схема обчислення динамічних похідних методом зворотного поширення в часі
для рекурентної нейромережі КЛКХ
При цьому рекурентна мережа може бути представлена у вигляді багатошарового персептрона прямого поширення з більшою кількістю шарів, де кожний шар відповідає одному з минулих тактів к — 1 ,к — 2,..., к — Н . Похідні обчислюються методом зворотного
поширення, якии застосовується для отриманої розгорнутої в часі неиромережі прямого розповсюдження. Локальні градієнти, що обчислюються у процесі процедури зворотного поширення, визначаються такими співвідношеннями:
дНі° _ /. '(£)„^доит(к+ц, (2) г?_/цк -1)£ „д • (3)
80ит (к-1+1) _ 81]У
М+1, (4)
де „(1) - ваги нейронів прихованого шару, / (к) - активаційна функція ] -го нейрона прихованого шару на такті к , „(2) - ваги нейронів вихідного шару, 8™° - локальний градієнт
сім ~ •
для J -го нейрона прихованого шару, д]. - локальний градієнт для ] -го нейрона вхідного шару, 1 < І < Ь , Ь - порядок лінії затримки для рекурентних зв’язків, д(^ит(п) - локальний градієнт вихідного шару для п -го кроку розгортання у часі назад.
4. Навчання нейромереж методом розширеного фільтра Калмана з псевдорегуляри-зацією
При обчисленні динамічних похідних методом ВРТТ(Ь) для персептроно-подібних нейромереж значну роль відіграє ефект зникнення градієнта, що погіршує якість навчання нейромереж для моделювання довготривалих залежностей. Зміст цього ефекту можна інтуїтивно зрозуміти, глянувши на формули обчислення локальних градієнтів (2)-(4). Абсолютне
сім
значення кожного нового локального градієнта дJ на практиці виходить менше, ніж попереднього градієнта дню, оскільки воно є добутком функцій по модулю менших числа 1: початкові градієнти доит рівні або менші за 1, ваги нейронної мережі й „(2) не можуть бути більше 1 , оскільки це приводить до випадку перенавчання, похідні активаційних функцій /() завжди менше 1. Більш строгий доказ ефекту зникнення градієнта і дослідження на цю тему містяться в [6].
У нашій роботі ми пропонуємо метод навчання нейромереж з оптимізацією локальних градієнтів, названий нами «псевдорегуляризація». Суть псевдорегуляризації полягає в мінімізації у процесі навчання нейромережі функціонала, що містить в собі функцію від величин локальних градієнтів, наприклад, типу Q(w):
Q(w) _ е(„) + 1^ (1 -8™ („)2), (5)
j_l
де е(„) - середньоквадратична похибка моделювання динамічного процесу, д1^ - локальні градієнти (3), 1 - задана апріорі константа псевдорегуляризації. Нашою метою є навчання нейромереж динаміці деякого процесу з максимізацією абсолютних значень градієнтів вхідних нейронів у середньому:
«_М-І(8”(к)2). (6)
j _1
При цьому враховується, що в реальних системах, внаслідок ефекту зникнення градієнта, д(„) << 1. У формулі (6) К - кількість нейронів у прихованому шарі, N° - кіль-
кість елементів навчальної вибірки. На інші локальні градієнти (4) обмеження, аналогічні другому доданку (5), не накладаються, оскільки нам невідомий ступінь впливу минулих тактів роботи системи на поточний такт. Проте накладання таких обмежень можливо: якщо це зробити, воно буде за змістом аналогічно апріорному визначенню часових затримок у багатошарових мережах прямого поширення з лінією затримок на вході.
Другий доданок функціонала (5) може бути мінімізований з використанням звичайних градієнтних методів. Для цього обчислимо похідні квадрата локального градієнта (2) по вагах прихованих і вихідного шарів. Враховуючи, що 8?° (к) є функцією тільки від ваг вихідного
(2)
(8?° (к )2 )=
(7)
^ 8?°(к)2) _ 28?°(к)/,' (к -1)„8, J
а,
д
М2)
(8?° (к)2)_ 0, , ф а.
(8)
Аналогічно, обчислимо похідні для квадрата локального градієнта (3) по вагах прихованого і вихідного шарів:
д
8 (к)2 )= 28,м (к)/, '(к -1)8?°, , _Ь
д
д„
(8?(к)2)_ 0, , фЬ
(9)
д„а2)
(8(к )2)_ 28 іМ (к) /1 '(к - 1)]Г
(1)
і_1
д„а2)
(8?° (к)).
(10)
д
0
д
д
5. Навчання нейромереж методом розширеного фільтра Калмана
Фільтр Калмана є ефективним рекурсивним фільтром, який за рядом зашумлених і неповних вимірів дозволяє оцінити внутрішній стан динамічної системи. Він застосовується в широкому спектрі технічних пристроїв, від спідометрів автомобіля до радіоприймачів і радарів. Навчання нейронних мереж є досить несподіваним застосуванням теорії фільтрації Калмана [1, 4, 9] і, разом з тим, дуже ефективним: з одного боку, якість такого навчання перебуває на рівні кращих пакетних алгоритмів другого порядку, таких як метод Левенберга-Марквардта або квази-ньютонівських методів [8], а з іншого - навчання проводиться в режимі он-лайн, що є актуальним у випадку вибірок даних великого обсягу і задач керування.
Навчання нейронної мережі методом розширеного фільтра Калмана розглядається як спроба виконання оцінки дійсного стану деякої невідомої «ідеальної» нейромережі, що забезпечує нульову нев’язку. Під станами в цьому випадку розглядаються значення ваг нейромережі „(к), а під нев’язкою - поточна помилка навчання е(к). Цей динамічний процес навчання може бути описаний парою рівнянь у просторі станів (11) і (12). Рівняння стану (11) являють собою модель процесу, що представляє собою еволюцію вектора ваг під впливом випадкового процесу Х(к), який вважається білим шумом з нульовим математичним очікуванням і відомою діагональною коваріаційною матрицею Q :
„(к +1) _ „(к) + Х(к). (11)
Рівняння виходу (12) являє собою лінеарізовану модель нейромережі (1) на такті к , зашумлену випадковим процесом £ (к), який вважається білим шумом з нульовим математичним очікуванням, і відомою діагональною коваріаційною матрицею Я :
И(к) _ду'(м’(І)’У(к)-Х(к)) + «к), <12)
д„
де „(к) - ваги нейромережі, у(к) - постсинаптичні потенціали нейронів, х(к) - вхідні
значення мережі. Обчислення миттєвих значень похідних проводиться методом зворо-
д„
тного поширення у випадку багатошарового персептрона з лінією затримок або методом зворотного поширення в часі у випадку рекурентного персептрона. Помилка е(к) розраховується за формулою
е(к) _ г(к) - ~(к), (13)
де г (к) - цільове значення для нейромережі, у (к) - реальний вихід нейромережі, що розраховується по (1).
Перед навчанням нейромережі виконується етап ініціалізації. Задаються коваріа-ційні матриці шуму вимірювань Я _Г і динамічного шуму навчання Q _ ц/ . Розмір матриці Я в нашому випадку дорівнює х , розмір матриці Q дорівнює х відповідно, де - кількість вихідних нейронів, - кількість вагових коефіцієнтів нейромережі.
Коэффіціент г є швидкістю навчання, у нас г_ 0,001, коефіціент і визначає шум вимірювання, у нас /і _ 10-5. Також задаються одинична на етапі ініціалізації матриця коваріа-ції Р, що має розмір х , і нульова матриця вимірювань И, що має розмір хN „. На такті к виконуються такі дії.
1) Виконується прямий прохід нейромережі, обчислюється вихід нейромережі у (к) згідно з формулою (1).
2) Виконується зворотний прохід нейромережі: методом зворотного поширення обчислюються якобіани —. Формується багатокритеріальна матриця спостережень ?(к):
(14)
ду ду ду
я (к )
3) Формується матриця відхилень Е(к):
Е (к) _[е(к)].
(15)
4) Обчислюються нові значення ваг нейромережі „(к +1) і матриці кореляції Р(к +1) за формулами (16)—(18):
К(к) _ Р(к)?(к)т [H(k)P(k)H(k)T + Я]-1, (16)
Р(к +1) _ Р(к) - К (к)? (к )Р(к) + Q, (17)
„(к +1) _ „(к) + К (к )е(к). (18)
Дії 1 - 4 виконуються для всіх елементів навчальної вибірки.
6. Навчання нейромереж з використанням псевдорегуляризації
Для максимізації величин локальних градієнтів для вхідних нейронів (6) ми пропонуємо
використовувати додатковий розширений фільтр Калмана, що працює одночасно з першим фільтром, але має іншу цільову функцію оптимізації. Будемо вважати, що виходом моделі динамічного процесу навчання на кожному такті є величини д/м(к)2, 7 _ 1,2,...,Ь , які обчислюються під
час виконання зворотного проходу, Ь -кількість рекурентних зв’язків нейроме-режі. Відповідно, для додаткового виходу
г. д[(^ (к ))2]
розраховуються якобіани ----------------,
д„
7 _ 1,2,...,Ь для формування матриці спостережень Й , а другий доданок функціонала Q(„) формує матрицю відхилень Е :
Рис. 5. Залежність величин локальних градієнтів для вхідних нейронів від параметра X
Н (к) =
1Э[(8Т )2] 1Э[(8Т )2]
Эw1
Эw1
1Э[(8Ш 1Э[(82")2]
і
Эw1
Э[(8[» )2] Эw1
і
Эwn
Э[(8[»д )2] Эw,,
і
і
і
Э[(8Т )2]
Эw1
Э[(82")2]
Эw
N.
Э[(8^)2] Эw
N.
(19)
Е(к)=[Я(1 -8(„о2) Я(1 8(w)2) ... Я(1 -8(w)2)]г. (20)
Корекція ваг нейромережі відбувається на кожному такті за формулами, аналогічними (16)-(18). На рис. 5 показано результати навчання рекурентних нейромереж на процесі Маккея-Гласса при різних значеннях параметра і.
г
7. Послідовності для прогнозування
Для проведення експериментів було взято два відомі приклади числових рядів, що використовуються для порівняння якості прогнозування різних алгоритмів: числа Вольфа і процес Маккея-Гласса (рис. 6).
Числа Вольфа - це кількість плям на Сонці за рік, ці дані фіксувалися астрономами, починаючи з 1700 року. В наших експериментах навчальна вибірка містить дані з 1700 по 1920 рік, а тестова вибірка - з 1921 по 1979 рік, як і в [7]. Другою числовою послідовністю було взято процес Маккея-Гласса. Послідовність Маккея-Гласса задано рівнянням
X
х+ =(1 -ь)х + а 1 + ^ ,І = т,т + V.. ,
1 + (ХГ-Т)
де t > 1 - цілі числа. Для проведення експериментів була сгенерована послідовність з використанням таких значень параметрів: а = 0,2; b = 0,1; t = 17, як в [7] і [8]. Перші 1000 значень сгенерованої послідовності були проігноровані, 500 наступних значень використані як навчальна вибірка, наступні 150 - використані як текстова вибірка.
Рис. 6. Числові ряди для навчання нейромереж: числа Вольфа (справа), процес Маккея-Гласса
Якість багатокрокового прогнозування оцінювалася за критерієм середньоквадра-тичної помилки з обрієм, М8Б(И), за формулою
і н 1 МЖ(Н) = -£< (А-І,)1 >2, (17)
Н к=1
де ук - прогнозні значення, Ік - цільові значення, Н - обрій прогнозування.
8. Експериментальні результати
Спочатку, для вирішення задачі прогнозування, було навчено 100 багатошарових персепт-ронів з лінією затримок (МЬР). Задача навчання для МЬР ставилася фактично в такий спосіб: за N відомими минулими значеннями послідовності (ук, ук-1,---, ук-м) дати оцінку
ук+1 наступного значення ук+1, в наших експериментах N = 5. Кількість нейронів у прихованому шарі варіювалася від 3 до 8, навчання велося методом глобального розширеного фільтра Калмана. У процесі тренування мережі навчалися протягом 50 епох на навчальній послідовності і після кожної епохи перевірялися на якість багатокрокового прогнозування на навчальній вибірці. Для чисел Вольфа обрій прогнозування становив Н = 10, для процесу Маккея-Гласса Н = 14 . Мережа, що показала кращий результат на тестовій послідовності після 50 епох, тестувалася на тестовій вибірці. Цей результат вважається остаточним і представлений у таблицях і на графіках.
Потім було навчено по 100 рекурентних нейромереж КЛЯХ, у наших експериментах N = 5 і Ь = 5, з обчисленням динамічних похідних методом зворотного поширення в часі. Кількість нейронів у прихованому шарі для цих мереж коливалася від 3 до 7, навчання велося також методом глобального розширеного фільтра Калмана протягом 50 епох.
Рис. 7. Залежність помилки багатокрокового прогнозування від обрію
прогнозування
Нарешті було навчено по 100 рекурентних мереж протягом 50 епох з використанням псевдорегуляризації з використанням додаткового розширеного фільтра Калмана, параметра величини псевдорегуляризації 1 = 0,1. Методи відбору мереж і тестування аналогічні. Результати представлені в табл. 1, 2 і на рис. 7.
Таблиця 1. Результати багатокрокового прогнозування чисел Вольфа
Назва підходу/Н 1 1 3 4 5 6 10
МЬР 0,0118 0,0150 0,0437 0,0589 0,0736 0,0874 0,1065
КЛЯХ Є^іе 0,0507 0,0510 0,0594 0,0664 0,0709 0,0764 0,0879
КЛЯХ Pseudoregu-ІагІЕайоп 0,0475 0,0489 0,0541 0,0581 0,0616 0,0653 0,0735
Таблиця 1. Результати багатокрокового прогнозування процесу Маккея-
Назва підходу/Н 1 1 3 4 5 10 14
МЬР 0,0007 0,0015 0,0030 0,0055 0,0090 0,0337 0,0516
КЛЯХ Є^іе 0,0010 0,0014 0,0033 0,0054 0,0086 0,0140 0,0313
КЛЯХ Pseudoregu-ІагІЕайоп 0,0011 0,0015 0,0031 0,0050 0,0079 0,0111 0,0189
ласса
9. Висновки
У роботі запропоновано новий метод навчання рекурентних нейромереж із застосуванням псевдорегуляризації для зменшення ефекту зникнення градієнта. Було проведено експериментальне дослідження пропонованого методу на прикладах числових послідовностей чисел Вольфа і процесу Маккея-Гласса, що показало ефективність нового методу для багато-крокового прогнозування часових рядів у порівнянні із традиційним навчанням рекурентних нейромереж методом розширеного фільтра Калмана. Використання псевдорегуляризації забезпечило зменшення помилки багатокрокового прогнозування для рекурентних нейромереж в середньому на 10-30%.
СПИСОК ЛІТЕРАТУРИ
1. Хайкин C. Нейронные сети: полный курс / Хайкин С.; пер. с англ. - [2-е изд., испр.]. - М.: Вильямс, 2006. - 1104 с.
2. Gers F.A. Applying LSTM to Time Series Predictable Through Time-Window Approaches / F.A. Gers, D. Eck, J. Schmidhuber // Proc. оf International Conference on Artificial Neural Networks. - Berlin, 2001.
- Р.669 - 676.
3. Осовский C. Нейронные сети для обработки информации / Осовский С. - М.: Фінанси й статистика, 2002. - 344 с.
4. Cernansky M. Simple recurrent network trained by RTRL and Extended Kalman Filter algorithms / M. Cernansky, L. Benuskova // Neural Network World. - 2003. - N 13, Vol. 3. - Р. 223 - 234.
5. De Jesus O. Backpropagation: Algorithms for a Broad Class of Dynamic Networks / O. de Jesus, M.T. Hagan // IEEE Transactions on Neural Networks. - 2007. - N 1, Vol. 18. - P. 14 - 27.
6. Hochreiter S. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies / S. A Field Guide to Dynamical Recurrent Neural Networks / S. Hochreiter, Y. Bengio, P. Frasconi [et al.] // IEEE Press. - 2001. - 421 p.
7. Bone R. Advanced Methods for Time Series Prediction Using Recurrent Neural Networks / R. Bone, H. Cardot // Recurrent Neural Networks for Temporal Data Processing, Chapter 2, Intech. - Croatia. -2011. - P. 15 - 36.
8. On the convergence of EKF-based parameters optimization for Neural Networks / Alessandri A., Cuneo M., Pagnan S. [et al.] // Proc. of the 42nd IEEE Conference on Decision and Control. - Maui, Hawaii, USA, 2001. - Vol. 6. - Р. 6181 - 6186.
9. Prokhorov D.V. Toyota Prius HEV Neurocontrol and Diagnostics / D.V. Prokhorov // Neural Networks.
- 2008. - N 21. - Р. 458 - 465.
Стаття надійшла до редакції 30.07.2012