Вибір нейроемулятора на основі методу керуючих локальних градієнтів у методі нейроуправління з еталонною моделлю

Чернодуб А.М.

УДК 68l.5l3.7

А.М. ЧЕРНОДУБ ВИБІР НЕЙРОЕМУЛЯТОРА НА ОСНОВІ МЕТОДУ КЕРУЮЧИХ ЛОКАЛЬНИХ ГРАДІЄНТІВ У МЕТОДІ НЕЙРОУПРАВЛІННЯ З ЕТАЛОННОЮ МОДЕЛЛЮ

Анотація. Розглядаються задачі нейроідентифікації і нейроуправління з еталонною моделлю для нелінійного динамічного об'єкта. Аналізується проблема вибору нейроемулятора для навчання нейроконтролера, пропонується новий критерій на основі аналізу керуючих локальних градієнтів для вхідних нейронів нейроемулятора. Наводяться результати чисельних експериментів щодо навчання нейроконтролерів методами градієнтного спуска і розширеного фільтра Калмана.

Ключові слова: нейроуправління, нейроемулятор, рекурентна нейронна мережа, розширений фільтр Калмана.

Аннотация. Рассматриваются задачи нейроидентификации и нейроуправления с эталонной моделью для нелинейного динамического объекта. Анализируется проблема выбора нейроэмулятора для обучения нейроконтроллера, предлагается новый критерий на основе анализа управляющих локальных градиентов для входных нейронов нейроэмулятора. Приводятся результаты множественных численных экспериментов по обучению нейроконтроллеров методами градиентного спуска и расширенного фильтра Калмана.

Ключевые слова: нейроуправление, нейроэмулятор, рекуррентная нейронная сеть, расширенный фильтр Калмана.

Abstract. Neuroidentification and neurocontrol with the reference model problems for nonlinear dynamic object are considered. A problem of proper neuroemulator choosing for neurocontroller training is analyzed. A new criterion on the basis of local control gradients analysis for input neuroemulator's neurons is proposed. Results of numerical simulations of neurocontroller training by a gradient descent method and for an Extended Kalman Filter method are given.

Keywords: neurocontrol, neuroemulator, Recurrent Neural Network, Extended Kalman Filter.

1. Вступ

Нейроуправління є різновидом адаптивного керування, коли як будівельні блоки систем керування використовуються штучні нейронні мережі. Нейронні мережі мають ряд унікальних властивостей, які роблять їх потужним інструментом для створення систем керування: здатність до навчання на прикладах і до узагальнення даних, здатність адаптуватися до зміни властивостей об'єкта керування і зовнішнього середовища, придатність для синтезу нелінійних регуляторів. За останні 20 років було розроблено велику кількість методів ней-роуправління, найпопулярнішими на даний момент серед яких є методи нейроуправління з еталонною моделлю [l] (Model Reference Adaptive Neurocontrol) і системи адаптивної критики [2] (Adaptive Critics).

Метод нейроуправління з еталонною моделлю, також відомий як «схема з нейрое-мулятором і нейроконтролером» або «зворотне поширення в часі», був запропонований на початку 1990-х [l], [З, С. l68], [4-6], [7, C. 978], [8, С. 861]. Цей метод не вимагає знання математичної моделі об'єкта керування. Замість цього прямій динаміці об'єкта керування навчається окрема нейронна мережа, нейроемулятор, далі вона використовується для обчислення похідних при навчанні нейроконтролера.

При цьому з множини навчених нейроемуляторів зазвичай обирають той, що забезпечив найменшу середньоквадратичну помилку моделювання об'єкта керування. Однак, чи є такий критерій кращим, якщо нейромережа використовується з метою подальшого навчання іншої нейромережі, послідовно підключеної до першої, а не власне для моделювання об'єкта керування?

ISSN l028-9763. Математичні машини і системи, 2012, № З

6l

У статті пропонується новий критерій відбору нейроемуляторів, який дозволяє в середньому більш ефективно навчати нейроконтролери в методі нейроуправління з еталонною моделлю та приводяться результати чисельних експериментів на типовій завдачі керування динамічним об'єктом.

2. Метод нейроуправління з еталонною моделлю

Нехай задано динамічний об'єкт керування, поведінка якого визначається дискретними формулами (1-2):

5 (к +1) = Ф(5 (к), и(к)), (1)

у(к +1) = ¥(5 (к)), (2)

де и(к) - вхідний сигнал, у(к +1) - вихідний сигнал на такті к . Формули (1-2) вважаються апріорі невідомими. Незважаючи на те, що стан динамічного об'єкта 5(к) є недоступним для зовнішнього спостереження, його можливо оцінити різними способами. Для оцінки стану 5 (к) ми використовуємо модель КАКХ:

5(к) = [и(к) ... и(к - Ь) у(к) ... у(к - #)]г. (3)

Мета керування формулюється таким чином: нехай на такті к об'єкт керування перебуває в положенні у(к) і задана уставка г (к +1), яка є бажаним положенням об'єкта керування на наступному такті. Контролеру необхідно згенерувати такий сигнал керування и(к), щоб зробити відмінність між уставкою г (к +1) та положенням у(к +1) мінімальним. У методі нейроуправління з еталонною моделлю уставка г(к +1) додатково згладжується еталонною моделлю, в ролі якої використовується, як правило, стабільна лінійна динамічна система невеликого порядку. Таким чином, замкнений нейроконтролером об'єкт керування мусить мати таку ж поведінку, як і еталонна модель.

При стандартному використанні нейронних мереж для вирішення задач розпізнавання зазвичай існують 2 етапи функціонування:

1) етап навчання нейронної мережі на прикладах даних;

2) етап використання навченої мережі для розпізнавання.

Метод нейроуправління з еталонною моделлю (рис. 1) передбачає 3 етапи:

1) етап навчання в режимі офф-лайн першої нейронної мережі, нейроемулятора, моделюванню об'єкта керування;

2) етап навчання в режимі он-лайн другої нейронної мережі, нейроконтролера, керуванню об'єктом керування;

3) етап використання навченого нейроконтролера для керування об'єктом (нейроемулятор на цьому фінальному етапі не використовується).

3. Навчання нейроемуляторів

Нейроемулятор являє собою нейронну мережу, навчену прямій динаміці об'єкта керування. У статті використано багатошаровий персептрон як нейронну мережу. Навчання ней-

) Еталонна тт(к +1)

1 модель

Уставка і (-

г(к + 1) і _Ь Ь.—^ Нейро- и(к) _ Об’єкт > І їх

НтоьН контролер керування

5Ш

/ \

—> Нейро- У(к + 1)

Нтш-Н* емулятор >

3(к)

Рис. 1. Структурна схема методу нейроуправління з еталонною моделлю

роемулятора виконується згідно зі схемою «навчання з учителем». Нейромережа отримує на вхід х(к) стан £ (к) об'єкта керування. Таким чином, нейроконтролер являє собою не-рекурентну мережу, його «динамізація» відбувається за рахунок використання динамічних входів (3).

Розрахунок вихідного значення мережі ~ (к +1) виконується за формулою

~(к +1) = g(£ «’->/(£ «у*,)), (4)

І і

де «(1) - вагові коефіціенти нейронів прихованого шару, / () - активаційні функції нейронів прихованого шару, «(2) - вагові коефіціенти нейронів вихідного шару, g () - активаційні функції нейронів вихідного шару. У наших експериментах були використані персеп-трони з одним прихованим шаром і тангенціальними активаційними функціями у прихованому і вихідному шарах. На рис. 2 показано нейроемулятор з чотирма нейронами у прихованому шарі, який отримує на вхід стан з параметрами Ь = 0 і N = 1.

Подібним чином сконструйовані нейрое-мулятори можуть навчатися різними градіентни-ми оптимізаційними методами з обчисленням похідних за методом зворотного поширення помилки (Васкргора§а1іоп, ВР). При цьому розмір обраного часового вікна, заданого параметрами Ь і N, має бути встановленим приблизно рівним порядку модельованого динамічного процесу, інакше алгоритму навчання буде неможливо знайти кореляцію між входом нейромережі і цільовим виходом.

4. Навчання нейроконтролерів

У нашій роботі нейроконтролери являють собою багатошарові персептрони з одним прихованим шаром, однак для них неможливе навчання з учителем, оскільки цільові значення керуючих сигналів и(к) невідомі. Для корекції ваг нейроконтролера використовується метод зворотного поширення помилки через попередньо навчений нейроемулятор.

Навчання нейроконтролера виконується в режимі он-лайн, паралельно з керуванням об'єктом. На такті к нейроконтролер отримує на вхід значення уставки г(к +1) та вектор стану £(к):

хсо (к) = [г (к +1) £ (к )]Т (5)

і генерує керуючий сигнал и(к) (рис. 1). Сигнал и(к) надходить до об'єкта керування й переводить його в положення у(к +1) і одночасно на нейроемулятор, який генерує реакцію ~(к +1). Якщо нейроемулятор є добре навченим, то ||у(к +1) - ~(к +1)|| <є, у наших

експериментах є» 10-3. Також значення уставки г(к +1) надходить на еталонну модель, яка генерує цільове значення для навчання нейроконтролера гт(к +1). У ролі еталонної моделі використовується стабільна лінійна динамічна система першого порядку з передатною функцією Т(^) = —1—, значення параметра а > 0 змінюються, а також просто дублю-

ая +1

ється значення уставки г (к +1) (цей випадок в описі експериментів зазначено як а = 0 ). На

Рис. 2. Багатошаровий персептрон для моделювання динамічного процесу

підставі вихідного значення еталонної моделі гтф +1) і нового положення об'єкта керування у(к +1) формується поточна помилка керування е(к:) :

е(к ) = гтф +1) - у(к + !)• (6)

Далі відбувається етап корекції ваг нейроконтролера залежно від обраного алгоритму оп-тимізації. Нами використано дві версії методу нейроуправління з еталонною моделлю: з методом градієнтного спуска [1, 3] і з методом розширеного фільтра Калмана [4-5].

Метод градієнтного спуска. При використанні цього алгоритму помилка керування єф) (6) пропускається через нейроемулятор у зворотному напрямку за методом зворотного поширення помилки, при цьому корекція ваг нейроемулятора не виконується. Для вхідних нейронів нейроемулятора розраховується вектор локальних градієнтів дш :

В" = [й ... й™], (7)

з компонентів якого вибирається локальний градієнт 8и, відповідний до нейрона нейроемулятора, на який надходить керування иф) . Назвемо цей локальний градієнт 8и керуючим локальним градієнтом. При використанні вхідного вектора (5) 8и = й2. Керуючий локальний градієнт 8и пропускається далі через нейроконтролер за методом зворотного поширення помилки. Він використовується при розрахуванні локальних градієнтів прихованого і вхідного шарів нейроконтролера, а також похідної помилки по вагових коефіцієнтах

дЕ . дЕ .

прихованого й вихідного шарів нейроконтролера: —г— і —— . Далі проводиться корекція

дw дм>()

ваг за методом градієнтного спуска: w(k +1) = w(k) + а Дw(k), де а - швидкість навчання,

дw(k)=дЕ(Ч.

дw(k )

Метод розширеного фільтра Калмана. Для корекції ваг нейроконтролера за методом розширеного фільтра Калмана на кожному такті k також використовується механізм зворотного поширення помилки через нейроемулятор, але тепер пропускається не поточне значення помилки е(к) (6), а значення 1, що при тих же обчисленнях забезпечує отриман-

. д~ д~ . дЕ . дЕ

ня векторів якобіанів —г— і —— замість векторів градієнтів —г— і ——, оскільки

дw дw(2) дw дw

дЕ = e(k) . Ці якобіани на кожному такті формують матрицю спостережень фільтра Ка-

дw дw

лмана Нф) розміром 1х К, К - сумарна кількість елементів матриць w(1) і w(2).

На початку роботи алгоритму навчання задається кореляційна матриця Р розміром К хК. На першому такті вона встановлюється рівній одиничній матриці: Р(1) = І. Ми не розбиваємо матрицю Р на кілька окремих матриць, як це робиться в методі незв'язного розширеного фільтра Калмана (БЕКБ) [4], [7, С. 960], [8, С. 855], оскільки подібне розбиття виконується винятково з метою економії обчислювальних ресурсів. Задається матриця

швидкості навчання Я = -1, в нашому прикладі п = 0,001, і матриця шуму процесу Q, у

П

нас Q = 10-41. На такті k, після знаходження помилки керування е(к) і заповнення матриці Н ф) описаним вище способом, проводяться розрахунки нових значень вагових коефіцієнтів нейроконтролера w(k +1) і матриці кореляції Рф +1) :

К ^) = Р^ )Н ф )т [Н ^ )Рф )Н ф )т + Я]-1, (8)

Р(к +1) = Р(к) - Кф)Нф)Рф) + Q,

(9)

w(k +1) = w(k) + К ф )e(k). (10)

Зазначимо, що градієнти дЕ і якобіани для навчання нейроконтролера обчис-

дw дw

люються звичайним методом зворотного поширення помилки (Васкргора§а1;іоп), а не методом усіченого зворотного поширення помилки в часі (ВРТТ(Ь)) [7, С. 942], [8, С. 836], [9] або рекурентного навчання в реальному часі (ЯТКЬ) [7, С. 949], [8, С. 840], [9-10]. Не дивлячись на те, що замкнена динамічна система має рекурентні зв'язки, використання статичних похідних є коректним, оскільки, по-перше, використані нами мережі не мають внутрішніх рекурентних зв'язків, а по-друге, тому, що при зворотному поширенні градієнта через послідовно з'єднаний нейроконтролер і нейроемулятор має місце ефект зникнення градієнта, що робить зазначені динамічні похідні чисельно дуже близькими до використовуваних нами статичних похідних вже при глибині усікання к = 1.

5. Параметр 0 для нейроемуляторів

У ході експериментів по навчанню нейроконтролерів виявлено, що деякі добре навчені нейроемулятори з помилкою порядка 10-6 не завжди забезпечують якісне навчання нейроконтролерів. При навчанні методом фільтра Калмана частина нейроконтролерів взагалі не навчилася.

При аналізі локальних градієнтів вхідних нейронів нейроемуляторів 8Ш (7), які розраховуються під час навчання нейроконтролерів, виявлено, що в таких неуспішних ней-роемуляторах абсолютні значення керуючих локальних градієнтів 8и відносно малі в порівнянні з модулями інших локальних градієнтів векторів 8Ш . При цьому точність нейрое-муляторів у сенсі середньоквадратичної помилки приблизно рівна. Це можна пояснити в такий спосіб. Представимо, що послідовно з'єднані нейроемулятор і нейроконтролер є єдина нейронна мережа, в якій перші два шари ваг відповідають нейроконтролеру, а другі два шари - нейроемулятору. При навчанні нейроконтролера локальні градієнти пропускаються через ваги нейроемулятора і попадають на нейроконтролер через вхідний нейрон нейроемулятора, відповідний до вихідного нейрона нейроконтролера. Це означає, що при цьому використовується тільки керуючий локальний градієнт 8и із усього вектора 8м, для інших локальних градієнтів зворотне поширення закінчується на даному етапі і вони не впливають на корекцію ваг нейроконтролера.

Для оцінки відносної величини модулів локальних керуючих градієнтів 8и ми вводимо параметр в:

1 £ 8?&) + %&) + к + 82 +і+2^)

п £ 8І(к)

де п - кількість елементів навчальної виборки. Локальні градієнти 81(к),...,8м+1+2(к),k = {1,2,...,п} обчислюються методом зворотного поширення помилки, який застосовується на навчальній виборці після навчання нейроемулятора, для пропуску через нейроемулятор завжди використовується величина 1.

6. Результати навчання нейроемуляторів

У нашій роботі для чисельних експериментів по ідентифікації і керуванню використано нелінійний динамічний об'єкт другого порядку з [11], який, у свою чергу, є незначно модифікованою версією об'єкта керування з [1]. Об'єкт керування задано формулою

y(k +1) :

y(k)y(k -1)y(k - 2)u(k -1)[y(k - 2) -1] + u(k)

1 + y(k -1)2 + y(k - 2)2

(12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

де u(k) - вхідний сигнал, y(k +1) - вихідний сигнал на такті к .

Навчання нейроемуляторів проводилося в середовищі MATLAB без використання пакета Neural Networks Toolbox. На об'єкт подавався ідентифікаційний сигнал u (к) = sin(2.^k /300) і проводилося протоколювання виходів y(k). На основі записаних даних були сформовані навчальна і тестова вибірки прикладів динаміки в кількості 1000 і 200 прикладів відповідно. На них були навчені нейроемулятори методом навчання з учителем. Як алгоритм навчання був використаний метод глобального розширеного фільтра Калмана (Global Extended Kalman Filter, GEKF) [7, С. 955], [8, С. 854], [10]. Для обчислення

якобіанів нейромереж —, які необхідно мати для роботи алгоритму GEKF, використову-

dw

вався метод зворотного поширення помилки. Для всіх шарів нейромереж були використані тангенціальні активаційні функції, кількість нейронів у прихованому шарі варіювалася від

3 до 7.

Усього було навчено 2 множини по 250 нейроемуляторів: ней-

роемулятори A, куди потрапили нейроемуля-тори, для яких значення MSE менше 1x10-5, та нейроемулятори Б, які містять нейроемулятори, для яких MSE менше 1x10-5 і, додаткова умова, в < 20 (табл. 1). Для оцінки якості нейроемуляторів використовувалася стандартна формула середньоквад-ратичної помилки: MSE =< (~к - tk)2 >, де ~к - вихід нейромережі, tk - цільове значення.

Таблиця 1. Характеристики навчених нейроемуляторів

MSE, мін. MSE, середнє q, мін. q, середнє

Нейроемулятори A 7,22 x10-6 9,17 x10-6 2,32 18,73

Нейроемулятори Б 8,48 x10-6 9,32 x10-6 2,00 11,23

7. Результати навчання нейроконтролерів

Після навчання нейроемуляторів було проведено навчання нейроконтролерів, для чого нейромережі і алгоритми їх навчання були змодельовані в середовищі Simulink, без використання пакета Neural Network Blockset. Кожний експеримент по навчанню нейрокон-тролерів тривав 100 250 тактів, з яких упродовж 100 000 тактів на нейроконтролер подавався випадковий процес і виконувалося їх навчання методами градієнтного спуска або розширеного фільтра Калмана (навчальна ділянка); далі протягом 250 тактів, що залишилися, ваги нейроконтролерів не коректувалися, на них подавалася тестова уставка, як показано на рис. З (тестова ділянка), і фіксувалося середньоквадратичне відхилення MSE траєкторії проходження об'єкта керування від траєкторії еталонної моделі на цій ділянці.

Рис. 3. Приклад траєкторії руху об’єкта керування з навченим нейроконтролером на тестовій ділянці, а=0,001, помилка керування М8Е=0,0019

Таблиця 2. Помилки керування навчених нейроконтролерів, навчання методом градієнтного спуска

a = 0 a = 0,001 a = 0,002 a = 0,005

Нейроемулятори А, MSE, мін. 0,0072 0,00б0 0,00бб 0,0107

Нейроемулятори Б, 9 < 20, MSE, мін. 0,0074 0,0059 0,00б4 0,010б

Нейроемулятори А, MSE, середнє 0,0117 0,0101 0,0102 0,0135

Нейроемулятори Б, 9 < 20, MSE, середнє 0,0088 0,0072 0,0075 0,0112

Таблиця 3. Помилки керування навчених нейроконтролерів, навчання методом розширеного фільтра Калмана

a = 0 a = 0,001 a = 0,002 a = 0,005

Нейроемулятори А, MSE, мін. 0,0013 0,0019 0,0018 0,0017

Нейроемулятори Б, 9 < 20, MSE, мін. 0,0013 0,0019 0,0018 0,0017

Нейроемулятори А, MSE, середнє 0,039б 0,0420 0,0419 0,0539

Нейроемулятори Б, 9 < 20, MSE, середнє 0,0030 0,0045 0,0054 0,0351

Для кожного з нейро-емуляторів з множин А і Б було навчено по

4 нейроконтролери з різними параметрами а еталонної моделі, результати наведено в табл. 2-3. При приблизно рівній якості навчання нейроемуля-торів (табл. 1) використання запропонованого критерію відбору нейроемуляторів, які склали множину ней-роемуляторів Б, забезпечило підвищення якості навчання ней-роконтролерів у середньому на 25-30% для навчання методом градієнтного спуска і приблизно на порядок

- для навчання методом розширеного фільтра Калмана.

8. Висновки

В роботі запропоновано новий критерій відбору нейроемуляторів для навчання нейроконт-ролерів у методі нейроуправління з еталонною моделлю. Було проведено експериментальне дослідження пропонованого критерію з навчанням 500 нейроемуляторів і 4000 нейро-контролерів, що показало його ефективність у порівнянні з традиційним способом відбору нейроемуляторів за методом найменшої середньоквадратичної помилки на тестовій виборці даних.

У рамках подальших досліджень планується випробувати даний критерій разом з іншими методами нейроуправління, в яких передбачено етап попередньої нейроідентифікації об'єкта керування: прогнозуючого модельного нейроуправління [6], [12] і гібридного нейро-ПІД керування [3, С. 159], [6], а також з використанням кубатурного фільтра Калмана [8, С. 787], [13].

СПИСОК ЛІТЕРАТУРИ

1. Narendra K.S. Identification and control of dynamical systems using neural networks / K.S. Narendra, K.K. Parthasarathy // IEEE Transactions on Neural Networks. - 1990. - N 1. - P. 4 - 27.

2. Prokhorov D. Adaptive Critic Designs / D. Prokhorov, D. Wunsch // IEEE Transactions on Neural Networks. - 1997. - Vol. 8, N 5. - P. 997 - 1007.

3. Омату С. Нейроуправление и его приложения / Омату С., Халид М., Юсоф Р.; пер. с англ. - М.: ИПРЖР, 2000. - 272 с.

4. Feldkamp L.A. Training controllers for robustness: multi-stream DEKF / L.A. Feldkamp, G.V. Pusko-rius // Proc. of International Conference on Neural Networks, (Orlando, FL, USA, 27 Jun - 2 Jul 1994). -1994. - Vol. 4. - P. 2377 - 2382.

5. Prokhorov D.V. Toyota Prius HEV Neurocontrol and Diagnostics / D.V. Prokhorov // Neural Networks.

- 2008. - N 21. - P. 458 - 4б5.

6. Чернодуб А.Н. Обзор методов нейроуправления / А.Н. Чернодуб, Д.А. Дзюба // Проблемы программирования. - 2011. - № 2. - С. 79 - 94.

7. Хайкин C. Нейронные сети: полный курс / Хайкин C.; пер. с англ. - [2-е изд., испр.]. - М.: Вильямс, 200б. - 1104 c.

8. Haykin S. Neural Networks and Learning Machines, Third Edition / Haykin S. - New York: Prentice Hall, 2009. - 93б p.

9. De Jesus O. Backpropagation: Algorithms for a Broad Class of Dynamic Networks / O. De Jesus, M.T. Hagan // IEEE Transactions on Neural Networks. - 2007. - Vol. 18, N 1. - P. 14 - 27.

10. Cernansky M. Simple recurrent network trained by RTRL and extended Kalman filter algorithms / M. Cernansky, L. Benuskova // Neural Network World. - 2003. - Vol. 3, N 13. - P. 223 - 234.

11. Venelinov Topalov A. Online learning in adaptive neurocontrol schemes with a sliding mode algorithm / A. Venelinov Topalov, O. Kaynak // IEEE Transactions on Systems, Man and Cybernetics. Part B: Cybernetics. - 2001. - Vol. 31, Is. 3. - P. 445 - 450.

12. Hagan M.T. Neural networks for control / M.T. Hagan, H.B. Demuth // Proc. of the American Control Conference. - San Diego, USA, 1999. - Vol. 3. - P. 1б42 - 1б5б.

13. Arasaratnam I. Cubature Kalman Filters / I. Arasaratnam, S. Haykin // IEEE Transactions on Automatic Control. - 2009. - Vol. 54, Is. б. - P. 1254 - 12б9.

Стаття надійшла до редакції 29.03.2012

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чернодуб А. М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чернодуб А. М.

Текст научной работы на тему «Вибір нейроемулятора на основі методу керуючих локальних градієнтів у методі нейроуправління з еталонною моделлю»