ОБЗОРЫ =
УДК 681.51+ 621.391 © Г. Ф. Малыхина, А. В. Меркушева
МЕТОД КОНТРОЛЯ СОСТОЯНИЯ ПОДСИСТЕМЫ (ОБЪЕКТА) ПРИ НЕПОЛНОЙ ИЗМЕРИТЕЛЬНОЙ ИНФОРМАЦИИ О СОВОКУПНОСТИ ПАРАМЕТРОВ, ОПРЕДЕЛЯЮЩИХ
ЕЕ ДИНАМИКУ.
II. НЕЙРОННЫЕ СЕТИ, ОТРАЖАЮЩИЕ ДИНАМИКУ ВХОДНОЙ ИНФОРМАЦИИ И ПОСТРОЕННЫЕ НА ПРИНЦИПЕ ОБРАТНЫХ СВЯЗЕЙ (РЕКУРРЕНТНЫЕ СЕТИ)
В информационно-измерительных системах (ИИС) и информационно-управляющих системах (ИУС), отражающих состояние контролируемого объекта (подсистемы), существенна проблема отображения в условиях отсутствия воздействия некоторых параметров состояния на датчики измерительной системы, т. е. при неполной измерительной информации. Решение этой проблемы получено на основе анализа уравнений динамики системы объект—ИИС (в пространстве параметров состояния) и использования алгоритмов нейронных сетей (НС), способных отражать изменение входных данных во времени. Вторая (из 3) часть статьи рассматривает структуру и обучение НС, построенных на принципе обратных связей и называемых рекуррентными.
ВВЕДЕНИЕ В РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ
Кроме известной сложности проблемы обработки и анализа нестационарного сигнала в информационно-измерительных системах (ИИС), решению которой посвящен ряд работ [1-4], значительные трудности возникают при интерпретации многомерного сигнала параметров состояния контролируемого объекта в случае, если часть его компонент находится вне зоны чувствительности измерительных датчиков. На решение этой проблемы неполной измерительной информации о состоянии динамического объекта (подсистемы) направлен метод, который основан на представлении уравнений динамики и наблюдения контролируемого объекта в рекуррентной форме и на использовании нейронной сети (НС), отражающей динамику входной информации. В [5] применительно к общей задаче показаны особенности темпоральных НС прямого распространения.
Для метода контроля параметров состояния динамического объекта средствами ИИС при неполной информации здесь анализируются НС, построенные на принципе обратных связей (рекуррентные сети). В отличие от темпоральных НС прямого распространения, в которых реакция на динамику входных данных связана с кратковременной памятью, реализованной на сосредоточенных (в последовательности) или распределенных элементах временной задержки (ЭВЗ), НС рекур-
рентного типа отличаются тем, что в их структуре используются обратные связи, охватывающие всю НС или отдельные ее слои. Такие рекуррентные нейронные сети (РНС) с глобальными или локальными обратными связями (ОС) сравнительно с темпоральными НС прямого распространения имеют несколько меньшие требования к памяти и рассматриваются как адаптивное устройство отображения вход—выход.
В круг задач, решаемых с помощью РНС, входит нелинейное предсказание, адаптивное выравнивание каналов связи (проблема эквализации), обработка речи, контроль производственнотехнологических процессов по критерию оптимальной динамики и элементы технической диагностики.
Особенности применения глобальной обратной связи в структуре РНС можно проследить на 4 видах сети. Эти РНС имеют определенную общность: они включают "статический" многослойный персептрон (МСП) и используют способность МСП производить нелинейное отображение. Согласно Тсою и Бэку (Tsoi, Back [б]), структура, характерная для РНС общего вида на основе МСП, включает две линии ЭВЗ на (q - 1) единиц ЭВЗ. Через одну линию ЭВЗ на МСП поступает входной сигнал u(n), а через другую — сигнал обратной связи y(n + 1) с выхода сети (рис. 1) 1).
1) Выход сети у(п + 1) задержан относительно входных данных на единицу ЭВЗ.
Такая структура представляет отображение вход—выход, эквивалентное нелинейной авторегрессии (НАР) с входом на линии ЭВЗ (НАР_ВЗ). На вход НАР_ВЗ подается д-мерный вектор и(п) = = [и(1), и(2),..., и(п - д + 1)]т и аналогичный д-вектор задержанных значений выхода РНС у(п) = [У(1), у(2),..., у(п - д + 1)]т. Так что выход РНС у(п + 1) определяется нелинейной авторегрессионной зависимостью вида
У(п + 1) = = ^(у(1),у(2),...,у(п - д + 1), и(1), и(2),..., и(п - д + 1)).
Модель НАР_ВЗ отражает особенность общей ОС, однако РНС может использовать и локальные ОС, которые охватывают один или несколько отдельных слоев МСП.
Входной
Выходной
сигнал
Рис. 1. Модель нелинейной авторегрессии с временной задержкой внешнего входа (НАР_ВЗ) на основе РНС
x(n)
u(n) Входной вектор-сигнал
q-блок элементов временной задержки
Нелинейный Линейный І y(n+1) ^-блок элемен-
скрытый 1—► выходной тов временной
слой x(n+1) слой задержки
y(n)
Выходной
вектор-сигнал
Рис. 2. Модель пространства состояний — прототип РНС Элмана
РНС И МОДЕЛЬ ПРОСТРАНСТВА СОСТОЯНИЙ
Для целей метода интерпретации измерений при недостаточной информации2-1 полезно рассмотреть структуру НС (рис. 2), которая служит прототипом РНС Элмана (Elman [7]), является РНС на основе рекуррентного МСП (Р_МСП), а также хорошо моделирует пространства состояний. Скрытые нейроны определяют состояние сети. Выход скрытого слоя x(n+1) подается через q-блок ЭВЗ З) на вход РНС. Этот же вектор-сигнал x(n+1) через выходной слой, состоящий из линейных нейронов, в виде вектора y(n+1) подается через _р-блок ЭВЗ на выход РНС (вектор y(n)). Таким образом, входной слой этой РНС состоит из объединения q узлов обратной связи и m узлов источника внешнего воздействия на сеть (m равно размерности вектора u(n), u(n) = [u1(n), u2(n),..., um(n)]T), а число ЭВЗ в блоке обратной связи (q) равно размерности вектора x(n) = [x1(n), x2(n),..., xq(n)]T Величина q определяет порядок РНС.
Описание в дискретном времени динамики модели пространства состояний 4) определяется уравнениями:
x(n + 1) = f(x(n), u(n)), (2)
2) Этот метод рассмотрен в подготовленной к публикации 3-й части статьи и основан на рекуррентной форме модели динамики объекта в пространстве состояний.
3) Здесь и далее ^-блоком ЭВЗ называется параллельное включение q ЭВЗ. За д-ЛВЗ сохраняется обозначение для линии из q элементов единичной временной задержки с равномерно расположенными отводами для выхода сигнала с различной степенью задержки.
4) Вектор параметров состояния х(п) = [х1(п), х2(п), ..., xq(n)]T в этом случае относится к моменту времени
t = /0 + пТ, где Т — шаг отсчета времени эволюции динамической системы.
у(п) = Сх(п), (3)
где Ї — нелинейная функция, характеризующая скрытый слой, а С — матрица синаптических весов, определяющая выходной слой.
Принцип такого описания НС вполне соответствует модификации Элмана в виде простой РНС
[7] и модификации Пускориуса и Фельдкампа (Ршкогіш, Feldkamp) в виде рекуррентного многослойного персептрона (Р_МСП) [8]. Структура Элмана (рис. 3, а) содержит рекуррентные связи от скрытых нейронов через блок ЭВЗ (слой контекстных элементов) на входные узлы ОС. На другую часть входных узлов подается (как и в описанной выше общей структуре) вектор-сигнал ("управляющий" вектор).
Основой простой РНС Элмана служит однослойный персептрон. РНС на основе Р_МСП (рис. 3, б) имеет одну или несколько ОС, каждая из которых охватывает один слой Р_МСП, т. е. подает через блок ЭВЗ выходной сигнал слоя на его входные узлы, общее число которых позволяет передавать на вход этого слоя также и выход предыдущего слоя 5).
При использовании индексов I, II и вых. для первого, второго и выходного слоев Р_МСП и тех же индексов для нелинейной функции ф преобразования сигнала этими слоями модель пространства состояний для Р_МСП описывается соотношениями:
5) Более сложный вариант структуры, не нашедший пока применения, предложен Гайлсом [9]. В нем использован "нейрон второго порядка", возбуждение которого осуществляется за счет произведений компонент входного сигнала и сигнала обратной связи, поступающего на его входные узлы.
Контекстный слой
Входной вектор-сигнал и (п)
Блок элементов временной задержки
Скрытый слой нейронов
Выходной слой нейронов
Выходной
вектор-сигнал
Хвых.(п+1)
а
Входной вектор-сигнал •
и (п)
Выходной
вектор-сигнал
Хвых.(п+1)
б
Рис. 3. Простая структура РНС на персептроне с одним скрытым слоем (а) и РНС общего вида на многослойном персептроне с несколькими скрытыми слоями (б)
х\(п + 1) = Ф1(х1(п), и(п));
хц(п + 1) = фп(хп(п), Х1(п)); (4)
Хвых.
(п + 1) Фвых.(хвых.(п), хк(п + 1))5
где к — число скрытых слоев в НС.
Описанная структура Р_МСП является обобщением НС Элмана и показывает расширенную трактовку модели пространства состояний, поскольку функции преобразования отдельных слоев Р_МСП могут быть различными.
ЭЛЕМЕНТЫ ТЕОРИИ МОДЕЛИ ПРОСТРАНСТВА СОСТОЯНИЙ
Как отмечено выше, метод интерпретации данных ИИС при недостатке измерительной информации существенно использует концепцию моде-
ли пространства состояний. Согласно Сонтагу (Sontag [10]), состояние динамической системы (ДС) определяется как совокупность величин, которые, объединяя всю информацию относительно прошлого поведения ДС совместно с данными о внешнем воздействии на систему, позволяют описать будущее ДС. При анализе нелинейной ДС (в форме с дискретным временем), которая контролируется с помощью некоторой ИИС, используется представление ДС уравнениями:
х(п + 1) = Ф^а • х(п) + Wb • и(п)); (5)
у(п) = С • х(п), (6)
где q-мерный вектор х(п) имеет компонентами q параметров состояния^, га-мерный вектор и(п) = = [^(п), и2(п),..., ит(п)] — входное воздействие на ДС; р-мерный вектор у(п) = [у:(п), у2(п),., ур(п)]Т — вектор-сигнал выхода ДС. Вектор у(п) — это из-
мерительные данные (получаемые в ИИС), которые имеют совокупную эффективность системы датчиков, описываемую матрицей С размерности (рхд). В (5), (6) (дхд)-матрица Wa представляет синаптические веса д нейронов скрытого слоя, которые связаны обратной связью с узлами входного слоя; (дхт)-матрица Wb представляет веса тех скрытых нейронов, которые связаны с узлами источника воздействия, находящимися во входном слое (считается, что элементы смещения также включены в рассматриваемые матрицы); (рхд)-матрица С представляет синаптические веса р линейных нейронов в выходном слое. Нелинейная вектор-функция ф(.) с идентичными компонентами определяет отображение в д-мерном пространстве состояний
R “
ф
в форме
X! ф( х1)
X 2 = ф (X ) = ф( X 2)
ф
_ хд. ф( Хд ) _
состояние достижимо за несколько временных шагов при любом исходном состоянии. Наблюдаемость — это возможность определения текущего состояния НС из конечного набора измерений сигналов входа и выхода.
Наиболее важны локальные формы управляемости и наблюдаемости, в частности в окрестности точки равновесия [12]. Если за точку равновесия принять точку x, то для нее будет выполняться условие x = ф(А^х + B•u). Изменением начала отсчета можно привести точку равновесия в точку x = 0, u = 0, для которой справедливо условие
0 = ф(0). Кроме того, суть условий управляемости и наблюдаемости, согласно [13], достаточно проанализировать для случая одномерных входа и выхода, для которого уравнения (5), (6) принимают вид:
x(n + 1) = ф^^х(п) + wb•м(n)), у(п) = сЧ(п),
(7)
Пространства Rm, Rg, Rp называют входным пространством, пространством состояний и выходным пространством, а величину д — порядком ДС. Рис. 2 представляет сигнально-потоковый граф динамической системы по рекуррентной модели пространства состояний порядка д с т входами и р выходами. Уравнение (6) является уравнением измерения.
В описанной структуре Р_МСП параметры пространства состояний (скрытого слоя) определяются только теми нейронами, выходы которых идут через блок ЭВЗ на обратную связь; к ним не относятся нейроны выходного слоя. Другой вид рекуррентной структуры на персептроне с одним или несколькими слоями дан на рис. 3, где выход НС или отдельного слоя (как на рис. 3, б) подается в виде обратной связи на вход НС или на вход соответствующего слоя.
УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ
В МОДЕЛИ ПРОСТРАНСТВА СОСТОЯНИЙ ДЛЯ ДИНАМИЧЕСКОЙ СИСТЕМЫ
Как модели пространства состояний ДС, в которых состояние представляется набором компонент вектора-сигнала нейронов скрытого слоя (рис. 2), могут быть представлены многие РНС. Поэтому важны такие признаки модели ДС, как управляемость и наблюдаемость [11]. РНС (как любая ДС) считается управляемой, если любое ее
(8) (9)
где wb и c — векторы; у(п) и и(п) — скалярные величины.
В окрестности точки равновесия (х = 0, и = 0) уравнения (8), (9) можно линеаризовать, сохраняя один член в разложении Маклорена (разложении Тейлора в окрестности нуля):
8x(n + 1) = ф'(0) Wa•8x(n) + ф'(0) wb•8u(n), (10)
где 8x(n) и 8и(п) — малые смещения вектора состояния x(n) и управления и(п); ф'(0) — якобиан от ф(у) относительно своего аргумента v в точке v = 0. Линеаризованная система уравнений имеет вид
(11) (12)
где (дхд)-матрица A и д-вектор Ь определяются соотношениями:
8x(n + 1) = A•8 x(n) + Ь8и(п); 8у(п) = cT•8x(n),
A = ф'(0) а,
Ь = ф'(0) Wb.
(13)
(14)
Уравнения (11), (12) имеют линеаризованную форму, поэтому для них можно использовать результаты из теории управления [11, 12], которые определяют условия управляемости и наблюдаемости линейной динамической системы.
Локальная управляемость
Повторное использование уравнения (11) дает соотношения
8х(п + 1) = А-8х(п) + Ь-8и(п);
8х(п + 2) = А-8х(п + 1) + Ь-8и(п + 1);
..........................-1........ (15)
8х(п + д) = А-Ь-8х(п) + А -Ь-8и(п + д - 1)+
+...+ А-Ь-8и(п + 1) + Ь8и(п),
где д — размерность пространства состояний (вектора х).
Таким образом, для ДС, описываемой линеаризованным уравнением (11), управляемость эквивалентна тому, чтобы матрица Мупр. (называемая матрицей управляемости) имела полный ранг (д), т. е. чтобы ее определитель не был равен нулю:
д-1
Мупр. = [А Ь, ..., А Ь, Ь],
Бе1(Мупр.) Ф 0.
Управляемость применительно к РНС
Рекуррентная нейронная сеть, описываемая уравнениями (8), (9), управляется последовательностью входных воздействий в виде вектора ид, который определен выражением
(16)
иЧ(п) = [и(п), и(п + 1), • • •, и(п + Ч - 1)]Т.
(17)
Следовательно, можно рассмотреть отображение
0(х(п), ич(п)) = (х(п), х(п + ч)) , (18)
где О — нелинейное преобразование в пространстве размерности 2ч (Я 2ч —0—— Я 2ч ).
Из (18) следует, что
1) состояние х(п + ч) является нелинейной функцией своего прошлого значения х(п) и входных сигналов и(п), и(п + 1),..., и(п + ч - 1);
2) якобиан от х(п + ч) по иЧ(п), оцененный в начале координат (0, 0), равен матрице управляемости Мупр. из (16).
С другой стороны якобиан отображения О относительно х(п) и ич(п) можно выразить по правилу его определения:
тупр- _ ^ (0,0) _
{Эх(п)/Эх(п)} (0,0)
{Эх(п)/Эи Ч (п)}(0,0)
I X 0 М уп
{дх(п + Ч)/дх(п)} (0,0) {дх(п + Ч)/ди ч (п)} (0,0)
(19)
Локальная наблюдаемость
Повторное совместное использование уравнений (11) и (12) позволяет получить соотношения:
8у(п) = ст-8х(п);
8у(п + 1) = ст-8х(п + 1) =
= ст-А-8х(п) + ст-Ь-8и(п);
8у(п + д - 1) = ст-Ад *8х(п) + (21)
+ ст^Ад 2 -Ь-8и(п) +
+...+ ст^Ь8и(п + д - 3) +
+ ст-Ь-8и(п + д - 2).
Так что линеаризованная система, описываемая уравнениями (11), (12), — наблюдаемая при условии, если матрица Мнабл. имеет ранг д, т. е. полный ранг:
Л / 4 т\д-1]
(22)
Мнабл. = [с, сА , ..., с(А ) ],
Бе1;(Мнабл.) ф 0.
Теперь положим, что РНС описывается уравнениями (8) и (9) и получает воздействие
ид-1(п) = [и(п), и(п + 1),., и(п + д - 1)]т (23)
и что вектор-сигнал выхода, определяемого начальным состоянием х(п) и последовательностью управлений (воздействий на НС) ид-1(п), будет определяться выражением
Уд(п) = [у(п), у(п + 1),., у(п + д - 1)]т. (24)
Тогда можно рассмотреть отображение Н
Я
2ч-1
2 ч—1
такое что
Н(ич-1(п), х(п)) = (ич-1(п), у,(п)).
(25)
Показано [13], что якобиан от Уд(п) по х(п) равен матрице наблюдаемости Мнабл. из (22). Поэтому если выразить якобиан от Н относительно ид-1(п) и х(п), то получится
где I — единичная матрица; 0 — нулевая матрица; X — некоторая матрица, которая не влияет на величину якобиана.
Определитель Бе1^у0п0)) = Ое1;(1) • Бе1;(Мупр.) =
= Бе1;(Мупр.), т. е. если Мупр. имеет полный ранг, то и якобиан имеет полный ранг. В этом случае будет существовать обращение уравнения (18)
(х(п), х(п + д)) = 0~'(х(п), ид(п)). (20)
Уравнение (20) устанавливает существование последовательности управлений {ид(п)}, которые локально могут перевести состояние ДС х(п) в состояние х(п + д) за д временных шагов.
т набл J (0,0) :
{ди Ч-1(п)/ди Ч-1 (п)}(0,0)
{Эи Ч_1(и)/Эх(и)}(0,0)
I X
{Эу Ч (п)/ди ч-1(п)}(0,0)
{ду ч (и)/Эх(п)}(0,0)
0 М
набл.
(26)
) = Бе1(МНабл.) Ф 0.
И следовательно,
Бе1^ ^) = Ое1(1) • Бе1(МНабл
Таким образом, J н0аб0)' имеет полный ранг, и соотношение (25) обратимо:
(и-1(п), х(п)) = Н 1(и9-1(п), Уд(п)). (27)
Следовательно, х(п) выражается с помощью нелинейной функции Н-1 через ид-1(п) и Уд(п), а обратная ей нелинейная функция Н отражает наблюдение РНС в соответствии с (25).
Модель пространства состояний для РНС с одним входом и одним выходом, которая описывается уравнениями (8) и (9), можно преобразовать в эквивалентную ей форму модели типа вход— выход. Уравнения модели пространства состояний позволяют выразить у(п + д) через х(п) и ид(п):
у(п + д) = Ф(х(п), ид(п)), (28)
где д — размерность пространства состояний РНС; Ф — отображение
R 2, __^ R .
При условии, что модель РНС обладает свойством наблюдаемости, имеет место соотношение типа
х(п) = Т(у9(п), ид-1 (п)), (29)
где Т — отображение
R 2д __^ R 2д .
Подстановка (29) в (28) дает выражение
у(п + д) = Ф(¥(уд(п), ид-1(п)) = Б(уд(п), ид (п)). (30)
При этом ид-1 содержится в ид в качестве его первых (д-1) элементов, и отображение Б
R2д -_^ R
объединяет отображения Ф и Т.
Используя определения уд(п) и ид(п) по (23) и (24), уравнение (30) можно преобразовать к развернутой форме:
у(п + д) =
= Б(у(п),.,у(п + д-1), и(п),..., и(п - д + 1)). (31)
Таким образом, показано существование отображения, которое связывает выход у(п + 1) через свои предшествующие значения у(п),..., у(п + д-1), и текущие, и прошлые значения входного сигнала и(п),..., и(п - д + 1). Чтобы полученное представление вход—выход было эквивалентно модели пространства состояний по (8) и (9), РНС должна быть наблюдаема.
Практическая реализация описанной эквивалентности — это, в частности, то, что описанная выше модель НАР_ВЗ (МСП с двумя ЛЭВЗ на входе и с обратной связью с выходного нейрона (рис. 1)) фактически может имитировать соответствующую полностью рекуррентную модель пространства состояний, изображенную на рис. 2 (если принять т = 1 и р = 1). При этом поведение эк-
вивалентных НС не будет отличаться с точки зрения преобразования вход—выход.
АЛГОРИТМЫ ОБУЧЕНИЯ
Как известно, применяются две формы обучения: обучение набором данных, в котором корректировка весов НС производится методом предъявления серии обучающих примеров (СОП), и режим последовательного обучения, при котором веса корректируются каждый раз после отдельного предъявления. Аналогичным образом обучаются РНС [14, 15]. Однако для РНС форма обучения СОП имеет смысл, близкий к последовательному обучению обычного МСП: настройка весов РНС производится после получения установившейся реакции выхода на поступающие на вход обучающие сигналы.
Непрерывное обучение применяется, когда нет возможности переустановить начальные состояния и требуется обучение в реальном времени. Отличительная черта непрерывного обучения — это то, что сеть обучается в то время, пока сигнал все еще обрабатывается сетью. Процесс обучения не прерывается, например, при использовании РНС для моделирования нестационарного сигнала. В этой ситуации непрерывное действие РНС не предоставляет удобного времени, чтобы остановить обучение и начать его заново с другими значениями начальных параметров сети.
Имея в виду эти две формы обучения, можно рассмотреть алгоритмы обучения, специфичные для РНС: алгоритм обратного распространения во времени (ОРВ), который предполагает возможность разворачивания темпоральной РНС в цепочку "статических" МСП. Такое разворачивание РНС дает возможность использовать обычный алгоритм обратного распространения (алгоритм ОРО [4]). Алгоритм ОРВ может выполняться способом СОП, последовательным способом для выполнения обучения в реальном времени или с помощью их комбинации. Алгоритм обучения реального времени выводится из модели пространства состояний.
Оба алгоритма обучения основаны на методе спуска по градиенту и используют текущую оценку функции стоимости (усредненного квадрата ошибок) для ее минимизации по набору синаптических весов НС. Оба алгоритма достаточно просты по логике исполнения, но могут медленно сходиться. Кроме того, они похожи в том, что представление сигнально-потоковым графом для алгоритма ОРВ может быть получено из перестановки представления сигнально-потокового графа для определенной формы рекуррентного алгоритма обучения реального времени [16].
Алгоритм обучения реального времени (непрерывного), основанный на градиентном спуске, использует минимальное количество информации — мгновенную оценку градиента функции стоимости (функции риска) по параметрам, которые подставляются в НС. При этом некоторое ускорение процесса обучения может быть достигнуто путем использования теории фильтра Калмана, которая позволяет более эффективно использовать обучающие данные.
Для улучшения процедуры обучения РНС Гайлсом (Giles [17]) предложено несколько эвристических правил, которые могут быть сведены к ряду практических рекомендаций.
• Обучающие примеры должны следовать лексикографическому порядку — наиболее короткие строки символов предъявляются сети в первую очередь.
• Обучение должно начинаться с малых обучающих образцов, а затем в ходе обучения их размер может наращиваться.
• Обновление величины синаптических весов НС должно происходить, только если ошибка отбрасываемого примера больше некоторого порога (выбираемого в контексте решаемой задачи).
• Во время обучения можно использовать некоторое экспоненциальное снижение величины весов ("распад" или релаксацию весов), что своеобразно служит грубым способом регуляризации, направленной на ограничение нормы весов НС.
Первое правило особенно полезно там, где оно применимо, оно смягчает проблему близкого к нулю значения градиента, которая возникает при использовании для обучения РНС метода градиентного спуска.
а
w22
W12
w
б
Xl(0)
x>(0)
Xl(1) Xl(2)
wll wll
Xl(n)
Время 0
n+1
w
11
1
2
n
Рис. 4. Граф структуры РНС с двумя нейронами (а) и ее сигнальнопотоковый граф (б). РНС на (б) развернута во времени
Обучение по алгоритму обратного распространения во времени
Алгоритм обратного распространение во времени (ОРВ) — расширение алгоритма ОРО [4] — является основным принципом реализации способа обучения РНС. Алгоритм ОРВ строится путем так называемого разворачивания время-зависи-мого функционирования РНС в многослойную (однородную) нейронную сеть с распространением вперед, структура которой наращивается на
1 слой за каждый шаг по времени работы исходной РНС. Так, если N — РНС, которую требуется обучать темпоральной задаче, начинающейся со времени п0 и длящейся до момента п, а № — это нейронная сеть с распространением вперед, получающаяся при разворачивании время-зависимого (темпорального) действия РНС N то № соотносится с исходной РНС N как показано на рис. 4.
• Для каждого временного шага интервала (п0, п), сеть № имеет слой с к нейронами, где к — число нейронов, содержащихся в РНС N.
• В каждом слое сети № содержится копия каждого нейрона сети N.
• Для каждого временного шага I (I е [п0, п]) синаптическая связь нейрона / в слое I (в развернутой сети) к нейрону у в слое I + 1 в сети № является копией связи нейрона / к нейрону у в сети N.
На рис. 4 отображена упрощенная модель РНС (без ЭВЗ) из двух нейронов с обратными связями (эта сеть N представлена графом ее структуры) и преобразованная форма РНС в виде эквивалентной сети прямого распространения (сеть № показана сигнально-потоковым графом на рис. 4, б). Эквивалентная форма сети прямого распространения удобна для выполнения обычного алгоритма ОРО, который служит эмуляцией алгоритма ОРВ для исходной рекуррентной сети N.
Обучение по алгоритму ОРВ в формате использования СОП
В этой модификации алгоритма ОРВ множество данных разделяется на независимые серии, каждая из которых представляет один из анализируемых видов временного (темпорального) образца (ТО). Если начало серии (ТО) — п0, а конец ее — п1, то общая функция риска (стоимости) определяется выражением:
1 п1
Е'общ.К,Щ) = 2 ЕЕе2(п), (32)
п=по ]'ел
где Л — множество индексов у, принадлежащих тем нейронам сети, для которых известны желаемые отклики выхода; еу(п) — сигнал ошибки выхода нейрона у, измеренный относительно желаемого значения выхода.
Чувствительность сети определяется как частные производные функции риска Еобщ. относительно весов сети. Чтобы определить чувствительность, можно использовать развитый Вильямсом и Пенгом (Williams, Peng [18]) алгоритм ОРВ для OCП, который строится на обычном алгоритме ОРО с OCn (или с обучением эпохами [4, 13]). Алгоритм основывается на следующих процедурах.
• Выполняется проход в прямом направлении через сеть для интервала [n0, n1]. Запоминается полный список входных данных, состояния сети (ее синаптических весов) и желаемого отклика за этот временной интервал.
• Выполняется обратный проход, в ходе которого на основе зарезервированных данных осуществляется вычисление компонент локального градиента
Sj(n) = -{дЕобщ.(«0, ni)ldv;(n)}
(33)
по формуле Sj(«) =
¥(vj(n)) ej(n)
¥(v, (n))x
e, (n) +
для n = n1 ;
(34)
Е wk ■ sk(n+l)
+ е w
kєA
для n0 < n < n1 ,
где р '(.) — производная функции активации по своему аргументу; п0 < п < п2; Уу(п) — индуцированный потенциал нейрона у, который с помощью функции р преобразуется в его выходной сигнал; Wjк — синаптический вес связи от к ку-му нейрону.
Использование (34) повторяется, начиная с п2, шаг за шагом в обратной последовательности по п (п2, п2 - 1,..., п0 + 1). Число шагов равно длине временного интервала (п0, п1).
• После завершения ОРВ до момента п0 + 1 применяется корректировка синаптичекого веса Wji нейрона у
Aw„. = -п
дЕобщ. (n0 , «і)
дw ji
-П Е ^ j (n) xt (n -1)},
(35)
n=n0 +1
где п — параметр скорости обучения; хг(п - 1) — входной сигнал, приложенный к синапсу / нейрона у в момент времени п - 1.
x
Процедура ОРВ для ОСП существенно отличается от процедуры ОРО тем, что желаемые отклики специфицируются для нейронов во многих слоях НС, потому что выходные нейроны многократно дублируются, когда динамическое поведение РНС разворачивается в НС прямого распространения.
Сокращенный алгоритм ОРВ
Для того чтобы применять алгоритм ОРВ для процедуры реального времени, при минимизации функции риска приходится использовать текущую величину суммы квадратов ошибок
Е(п) = 2 Е е) (п). (36)
2 уеЛ
Для последовательного способа обучения по алгоритму ОРО используется градиент Е(п) для подстройки синаптических весов на каждом шаге времени п. Подстройка производится постоянно в процессе работы сети. Однако, чтобы сделать процесс возможно гибким, производится запоминание входных данных и состояния сети только на конечном интервале, называемом глубиной использования данных (ГИД). Практически это значит, что при обозначении ГИД через к информация старше к единиц времени не принимается во внимание. Если бы этого не делалось, то длительность вычисления (так же как и объем запоминаемой информации) линейно возрастал бы от времени, достигая таких значений, что продолжение обучения могло бы стать неэффективным. Эту вторую форму алгоритма называют усеченным ОрВ или алгоритмом УОРВ [18].
Изменение ОРВ при переходе к УОРВ достаточно очевидно. Локальное значение градиента определяется теперь на глубину к (по времени), поэтому у нейрона у для времени I значение этого градиента дает соотношение
5/1) = -дЕ(1)/ду(1), V:уеЛ, п - к < I < п. (37)
Тогда общий вид выражений для локального градиента в алгоритме УОРВ дает выражение
5(0 = У(У}(1)) е;(0 для I = п,
5(0 = р'(у[))* (38)
х Е [ку5к (I + 1)] для п - к < I < п.
ке Л
После вычисления УОРВ в обратном направлении (до момента времени п - к + 1) производится подстройка синаптических весов Wji нейрона у по соотношению
у) = П ■ Е (5 у (I) • х, (I -1)), (39)
I =п-к+1
где п и х,(1 - 1) определены ранее, а 5(0 определяется по (38).
Использование wkj■ в (38) требует, чтобы сохранялись предшествующие значения весов. Задача несколько облегчается при очень маленьком значении параметра п, когда на каждом шаге веса меняются несущественно.
Сравнение (38) и (34) показывает, что в отличие от алгоритма ОРВ с ОСП в алгоритме ОРВ реального времени используется только текущий сигнал ошибки (в момент п). Поэтому не приходится хранить предшествующие значения желаемого отклика. В результате алгоритм УОРВ проводит вычисления для всех предшествующих отсчетов времени практически аналогично способу, каким алгоритм ОРО осуществляет вычисления для скрытых нейронов МСП.
С точки зрения практических аспектов реализации алгоритма ОРВ усечение его — это не слишком искусственный способ. Если РНС устойчива, то должны сходиться производные ЭЕ(0/ду/(0, т. к. вычисления назад по времени слишком далеко соответствуют более сильной обратной связи (которая, грубо говоря, равна крутизне сигмоида, умноженной на вес). В любом случае глубина усечения к должна быть достаточно велика, чтобы вычисленные производные хорошо аппроксимировали фактические их значения. Это требование создает нижнюю границу для величины к.
Процедура разворачивания для алгоритма ОРВ обеспечивает полезное средство для изображения РНС в виде последовательного (каскадного) соединения идентичных слоев с прямым (вперед) распространением сигнала. Это помогает понять, как реализуется процедура алгоритма ОРВ для РНС. Но это преимущество имеет обратную сторону. Процедура хорошо работает для сравнительно простых РНС, состоящих из небольшого количества нейронов. В то же время выражения, связанные с алгоритмом ОРВ, в частности (38), становятся громоздкими, когда процедура ОРВ применяется к общим видам структур, которые встречаются в практике. Для этих ситуаций Вер-босом ^егЬо8 [19]) рекомендован более общий подход, согласно которому каждое выражение для слоя прямого распространения порождает соответствующий набор выражений обратного распространения. Преимущество этого подхода состоит в его однородной трактовке прямых и рекуррентных (обратных) связей. Однако следует отметить, что изложение этого метода в [19] не ориентировано на непосредственное использование и пока не нашло прикладной адаптации.
Вектор параметров состояния х(п)
Смещение
Входной вектор и(п)
►Ми)
Выходной вектор У (и + 1) ►У2(и)
Рис. 5. Сигнально-потоковый граф полносвязной РНС с четырьмя нейронами (д = 4), двумя входами (т = 2) и двумя выходами (р = 2)
Рекуррентный алгоритм обучения НС в реальном времени
Название алгоритма рекуррентного обучения реального времени (РОРВ) отражает его назначение для полносвязной РНС и для реализации подстройки весов в реальном времени, т. е. в процессе выполнения сетью обработки сигналов [14]. Полносвязная РНС простой структуры может состоять из д нейронов и иметь т внешних входов (внешний сигнал с т компонентами). Сеть имеет две функционально различные (но объединенные кон-
катенацией в один слой 6)) группы нейронов. На входные узлы одной группы поступают сигналы обратной связи с выхода всех нейронов слоя (т. е. вектор х(п) параметров состояния), а на входные узлы другой группы нейронов поступает т-вектор входного воздействия и(п).
Принципы построения алгоритма РОРВ удобно проанализировать на несложной структуре полносвязной рекуррентной НС (рис. 5), которая имеет
6) Образующие отдельный слой с двумя последовательно расположенными группами узлов, имеющих в каждой из групп различное функциональное назначение.
в своем составе д = 4 нейрона, вектор из параметров состояния х(и) размерности 4 и т = 2.
Описание модели пространства состояний, определяемое уравнением (8), в развернутом виде выражается соотношением
х(и + 1) =
т • %(и)),...,р^т • %(и)),
•,ф(™ д • ^(и))]т,
(40)
0
% т(и) 0
(44)
• Ф(п) — это диагональная (дхд)-матрица, у которой к-й диагональный элемент является частной производной активационной функции по
своему аргументу, оцененной в точке w Т ■ ^(п):
Ф(п) = diag{р'(w^ ^(п)),..^'^Т -£(п)),
••• ,р'(wТ -£(п))}.
При этих обозначениях можно произвести дифференцирование уравнения (40) по Wj, и применение правила вычисления производной сложной функции позволяет получить рекурсивное уравнение
Лу(п + 1) = Ф(и)-^а(и) Л(и) + Щи)], У = 1, 2,..., д.
(46)
где р — активационная функция нейронов; Wj — (д + т + 1)-вектор синаптических весов нейрона у в РНС и £(п) — (д + т + 1)-вектор, описанный ниже.
Векторы Wl, ., wд определяются соотношением W^ = Ыау Wbj]T, у = 1, ., д, (41)
в котором wa>j и wb>j — это у-е столбцы транспонированных полных матриц весов W.T и W^T .
(д + т + 1)-вектор ^(п) определяется выражением
£(п) = [х(п) u(n)]T, (42)
где х(п) — д-мерный вектор параметров состояния; и(п) — (т + 1)-мерный входной вектор (т компонент внешнего воздействия и 1 компонента постоянного смещения на нейрон, причем первая компонента и(п) равна 1 и соответственно первый элемент в wbj равен смещению Ьу, приложенному к нейрону у).
Для некоторого упрощения удобно ввести матрицы Лу(п), Щп) и Ф(п), определяя их следующим образом.
• Лу(п) — (дхд + т + 1)-матрица, элементы которой суть частные производные от х(п) по вектору веса Wj:
Лу(п) = Эx(n)/Эwj, у = 1, 2,., д. (43)
• Щп) — это (дхд + т + 1)-матрица, у которой все строки нулевые, кроме строки у, которая равна транспонированному вектору £(п):
Это рекурсивное уравнение описывает нелинейную динамику состояния (т. е. эволюцию состояния) процесса обучения в реальном времени. Оно дает математическую форму реализации алгоритма РОРВ.
Теперь для завершения алгоритма необходимо соотнести матрицу Л/(п) с градиентом поверхности ошибки (градиентом функции риска) относительно Wj. Для этого вначале с помощью уравнения измерения (9) определяется р-вектор сигнала ошибки
е(п) = ^п) - у(п) = ^п) - С-х(п).
Сумма квадратов ошибки (или, точнее, квадрат нормы вектора-сигнала ошибки)
Е(п) = Еп = (1/2) е(п)Т-е(п)
определяет функцию риска (ФР) — суммарную величину текущего значения ошибки
ФР = Еобщ. =
XЕп = (1/2) £(е(и)т • е(и)). (47)
(и)
(и)
В свою очередь критерий минимизации ФР служит для настройки весов РНС. Алгоритм крутого спуска осуществляет движение к минимуму по поверхности ошибок в направлении, противоположном градиенту ФР (Еобщ).
Таким образом, для выполнения алгоритма РОРВ необходимо получение выражения для градиента (символ V) от Еобщ.:
У„(Еобщ.) дЕобщ. ^
= ХідЕи/ М=£У w (Еп ),
(48)
(и)
(и)
(45)
где УДЕи) — градиент от Е(и) относительно матрицы весов W = (т. е. относительно каждого
элемента этой матрицы).
Непосредственное вычисление градиента предоставляет способ получения уравнения обновления весов РНС, не делая аппроксимаций. Однако, чтобы получить алгоритм обучения РНС в реальном времени, необходимо использовать текущую оценку градиента, а именно оценку мгновенного значения У„,(Еи), которая могла бы служить аппроксимацией для метода крутого спуска.
Для этой цели требуется использовать квадратичную ошибку Еи в текущем времени и и, мини-
мизируя ее, двигаться против градиента этой функции ошибок:
дЕп /дwj = {де(п) /дwj}e(n) =
= -С-{дх(п) /Эwj}e(n) =
= -С-ЛДп)-е(п), у = 1,., д. (49)
Подстройка вектора синаптических весов Wу нейрона у осуществляется по соотношению
Лwj(n) = -П'ЭЕп /Эw =
= П'С'Л;(п)-е(п), у = 1,., д (50)
где п — параметр скорости обучения; Лу(п) — определяется выражением (43).
В начале алгоритма обучения проводится инициализация матрицы Лу(0) в виде Лу(0) = 0 для всех у, т. е. предполагается, что в начальный момент РНС пребывает в некотором постоянном состоянии.
В Приложении дана сводка соотношений, определяющих алгоритм РОРВ. Представленный там алгоритм применим к РНС с произвольной (дифференцируемой) функцией активации нейронов р(.). Для случая сигмоидальной нелинейности нейронов в виде функции гиперболического тангенса следует использовать выражение (51), которое показывает связь выхода нейрона у с потенциалом его возбуждения (у,-):
ху(п + 1) = рУу(п)) = 1аиЬ(Уу(п)),
р'(Уу(п)) = дрУу(п)) /дуу(п) = 8ееЬ2(Уу(п)) =
= 1 - [Ху(п + 1)]2. (51)
В этом же Приложении для полносвязной РНС (рис. 1П ) дан пример применения алгоритма РОРВ. Показаны порядок и обозначения параметров модели пространства состояний (матриц Wa, Wb и вектора С); построение вектора £(п) и матрицы Лу. Приведены выражения для подстановки параметров анализируемой РНС и граф чувствительности рассматриваемой полносвязной РНС.
Использование в алгоритме РОРВ текущего ("мгновенного") градиента VW(Е(n)) означает, что этот описанный здесь алгоритм отличается от алгоритма ОРВ (не выполняющегося в реальном времени), основанного на VW(Еобщ.). Однако это отличие аналогично отличию стандартного алгоритма обратного распространения (алгоритма ОРО [4]) при двух вариантах обучения: с настройкой параметров сети после каждого предъявления примера ^ашр1е-метод) и с настройкой после предъявления серии образцов фа^-метод). Хотя алгоритм РОРВ не гарантирует движения по поверхности ошибок (Еобщ.^) ) в направлении, противоположном градиенту, различие между РВ
и не-РВ вариантами алгоритма часто очень незначительны, и методы становятся почти идентичными, когда параметр скорости обучения выбирается очень малым. Самым неприятным потенциальным последствием этого отклонения от модификации, построенной на истинном градиенте (^(Ео6щ.)), является то, что наблюдаемая траектория (полученная как зависимость точек эволюции весов при градиентном спуске по поверхности Е(п)) может стать зависимой от темпа изменения веса, производимого алгоритмом РОРВ. Последняя ситуация может трактоваться как дополнительный источник обратной связи, вносящий элемент неустойчивости в систему. Этого эффекта можно избежать, используя достаточно малое значение п, — малое настолько, чтобы масштаб изменения веса был намного меньше масштаба весов функционирующей сети.
Одной из стратегий, часто используемых при обучении РНС, является усиливающее влияние учителя (УВУ) [14, 15]. В области адаптивной фильтрации эта стратегия известна как метод выровненной ошибки [20]. В основном УВУ состоит в замене действительного выхода нейрона (во время обучения сети) на соответствующий желаемый отклик. Эта замена действует в последующих за ней вычислениях динамического поведения сети. Стратегия УВУ, кроме алгоритма РОРВ, используется и в некоторых других алгоритмах обучения, но для ее применения необходимо, чтобы нейрон, подвергнутый УВУ, блокировал свой выход в обратную связь сети. По данным Вильямса и Зипсера (^ППаш8, Zipser [15]) использование при обучении стратегии УВУ имеет определенные преимущества.
• УВУ может приводить к более быстрому обучению. Причина состоит в предположении, что сеть правильно обучена на всей предшествующей части задачи, относящейся к нейрону, для которого реализовано УВУ.
• УВУ может служить как некоторый корректирующий механизм во время процесса обучения. Например, синаптические веса НС могут иметь корректные значения, но тем не менее сеть функционирует где-то в неверной области пространства состояний. В этом случае простая подстройка параметров (без УВУ) является неправильной стратегией.
• Алгоритм обучения, основанный на градиенте функции риска (ФР) и использующий УВУ, оптимизирует ФР иначе, чем аналогичный алгоритм без применения УВУ. Поэтому обе версии алгоритма могут давать несколько отличающиеся по комплекту весов НС при условии, что соответствующий сигнал ошибки не равен нулю. Но в последнем случае и в самом обучении нет необходимости.
Описанный алгоритм РОРВ работает недостаточно быстро, что связано главным образом с необходимостью многократно вычислять текущее (на каждом временном шаге) значение градиента. Совершенствование алгоритма основано на трактовке супервизорного (с учителем) обучения РНС как оптимальной фильтрации. Применение такого подхода позволяет рекуррентно использовать информацию, содержащуюся в обучающих данных, путем своеобразного возвращения к первой итерации процесса обучения. Основой усовершенствованного алгоритма РОРВ для рекуррентной нейронной сети служат элементы теории фильтров Калмана 7).
Исчезающий градиент у РНС
В практическом приложении РНС при обучении с использованием алгоритма, основанного на градиентном спуске, встречается ситуация исчезающего градиента [21, 22]. Ситуация связана со стремлением получить желаемый отклик НС в текущий момент времени и с тем, что этот отклик зависит не только от текущего входного сигнала, но и от его прошлых значений. Суть в том, что за счет комбинации нелинейных нейронов предельно малое изменение отдаленного по времени входного сигнала почти не изменяет обучение сети. Проблема может возникнуть даже в том случае, если большое изменение в отдаленных по времени входных данных влияет на переменные параметры состояния РНС, но это изменение почти не отражается на величине градиента. Это явление, называемое проблемой исчезающего градиента, при применении алгоритма, основанного на градиентном спуске, делает трудным обучение РНС при редко проявляющихся изменениях входных данных. В связи с этим Бенгио (Ва^ю [22]) для многих прикладных задач полагает необходимым сохранять информацию о состоянии РНС в течение возможно длительного времени, особенно при анализе зашумленной информации.
ИСПОЛЬЗОВАНИЕ РНС В ПРИКЛАДНЫХ ЗАДАЧАХ
Экспериментальный подход к моделированию ДС с неизвестными параметрами используется в задаче идентификации [11, 23, 25]. Процедура идентификации включает этапы планирования и отбора структуры модели, оценку параметров, проверку моделей и имеет интерактивную форму вычисления, в которой можно возвращаться или двигаться вперед (относительно описанных эта-
7) Рассмотрению фильтров Калмана в приложении к РНС будет посвящена отдельная статья.
пов) до построения удовлетворительной модели. При анализе ДС для построения удобно параметризованной модели и ее идентификации можно использовать процедуры, основанные на модели пространства состояний или на модели вход—выход. Выбор этих двух схем идентификации зависит от информации о входных и наблюдаемых переменных ДС.
Система идентификации на основе пространства состояний
Система идентификации использует модель ДС в виде
х(п + 1) = 1"(х(п), и(п)), (52)
у(п) = Ь(х(п)), (53)
где Ц.,.) и у(.) — нелинейные вектор-функции, вид каждой из которых неизвестен. (53) является обобщением (9).
Для идентификации ДС могут быть использованы две НС: первая НС-1 отражает уравнение процесса (52), вторая НС-II — уравнение измерения (53). Учитывая, что х(п) является задержанной на единицу времени переменной х(п + 1) и что х(п + 1) обозначает оценку для х(п + 1), структуру первой НС можно представить рис. 6, а. Эта НС включает конкатенацию двух групп входных узлов, на одну из которых поступает вектор-сигнал внешнего воздействия и(п), а на другую — вектор параметров состояния х(п). Совместное действие и(п) и х(п) определяет на выходе сети оценку х(п + 1). Вектор сигнала ошибки:
е^п + 1) = х(п + 1) - х(п + 1). (54)
В (54) х(п + 1) играет роль желаемого отклика, и предполагается, что локальное состояние доступно для получения величины ошибки. Ошибка е^п + 1) служит для подстройки синаптических весов РНС на основе минимизации функции риска.
Вторая НС (НС-II, рис. 6, б ) имитирует систему измерения и работает с реальным состоянием х(п) (в целом неизвестной) ДС, получая оценку у(п) выхода НС. Вектор-сигнал ошибки еП(п) = = у(п) - у(п), в котором у(п) играет роль желаемого выхода, служит для образования ФР и подстройки синаптических весов РНС на основе минимизации этой ФР.
Обе НС (рис. 6) работают синхронно и дают решение модели пространства состояний, необходимое для обеспечения идентификации ДС. Такой способ идентификации называют последовательно-параллельной моделью идентификации в распознавании для обозначения того факта, что реальное состояние неизвестной ДС подается на модель идентификации так, как это показано
на рис. 6, а. Используемая здесь форма обучения относится к УВУ.
Последовательно-параллельную модель следует
отличать от параллельной модели идентификации, в которой х(п), поступающее на НС-Г, заменяется на х(п) (получается из х(п + 1) после ЭВЗ Z _1).
Вход
и(и)
Неизвестная
ДС
х (и + 1)
£ ї (., )
а
х(и)
г-1
Л —
НС-!
Сигнал ошибки Є (и + 1)
С
Состояние
х(и)
б
Неизвестная
ДС
Рис. 6. Решение задачи идентификации на основе двух РНС. а — РНС-!, отражающая процесс ДС (объекта, подсистемы);
б — РНС-П для измерительной системы
Входной
сигнал
и(п+1)
и(и-1)
г-1
и(и-2)
и(и-д+2)
в
и(и-д+1)
У(и-д+1) | Г'
у(и - д+2)
У(и-1)
г-1
У(и)
Е1
к
у(и+1)
г-1
Неизвестная
динамическая
система
•--►
Многослойный
персептрон
Реальный выход ДС
Предсказанный выход у(п +1)
©Г'
Сигнал ошибки е(и+1)
У (и+1)
Рис. 7. РНС при решении задачи идентификации в форме модели нелинейной авторегрессии с временной задержкой внешнего входа (НАР_ВЗ)
Практическое преимущество этой альтернативной модели обучения состоит в том, что модель НС функционирует точно таким образом, как неизвестная ДС, т. е. таким образом, каким модель будет использоваться после окончания обучения. Поэтому вполне вероятно, что модель, полученная за счет параллельного способа обучения, может показывать автономное поведение, которое пре-
восходит поведение модели, полученной за счет последовательно-параллельного типа обучения. Но параллельный способ обучения дольше, чем последовательно-параллельный. В частности, в рассматриваемой ситуации оценка х(п), используемая в параллельном способе, обычно не так точна, как фактическое состояние х(п), введенное
в структуру последовательно-параллельного способа обучения
Модель вход—выход
Эта модель в идентификации используется, когда имеется доступ только к выходному вектору ДС. Для упрощения анализа достаточно рассмотреть ДС с одним входом и одним выходом (т. е. скалярные и(п) и у(п)) и структуру модели НАР_ВЗ, при которой соотношения вход—выход имеют вид
у(п +1) =
= р(у(п),...,у(п - д + 1), и(п),..., и(п - д + 1)), (55)
где д — порядок ДС.
Таким образом, оценка у(п + 1) реального выходного сигнала РНС у(п + 1) используется для получения сигнала ошибки
е(п + 1) = у(п + 1) - у(п + 1),
где у(п + 1) играет роль желаемого отклика сети. Как обычно, подстройка весов РНС осуществляется, исходя из минимизации ФР, в качестве которой принимается квадрат сигнала ошибки.
Модель идентификации (рис. 7) относится к последовательно-параллельной форме с УВУ, т. к. реальный выход ДС у(п + 1) (а не модели идентификации) подается через обратную связь на вход.
Система адаптивного управления с опорной моделью (САУ_ОМ)
Другой областью применения РНС является адаптивное управление [8, 24, 25]. В структуру управления входит базовая опорная модель (имитатор желаемого и оптимального поведения ДС), РНС — как управляющее устройство (контроллер) и объект управления (ОУ), в качестве которого может быть некоторый производственнотехнологический комплекс (рис. 8, а).
Стратегия адаптивного управления, ориентированная на опорную модель, предполагает, что при создании системы управления на РНС имеется достаточно информации относительно анализируемой ДС. От контроллера и через объект управления (ОУ) подается обратная связь на вход системы, образуя сеть с внешней рекуррентностью. ОУ получает входной сигнал ис(п) от контроллера и внешнее управляющее воздействие щ. Эволюция ОУ во времени является функцией приложенных воздействий и своего собственного состояния хОУ(п). Выход ОУ уОУ(п + 1) определятся вектором параметров его состояния хОУ, а также возможными шумами. Контроллер получает на входе внешне определенный опорный сигнал г(п) и выход уОУ(п + 1), преобразованный за счет ЭВЗ в уОУ(п).
Контроллер производит сигнал управления
ис(п) = МхДп), уоу(п), г(п), w), (56)
где хс — соответственное состояние контроллера; w — вектор параметров НС, доступный для подстройки; вектор-функция Г1(. , . , . , . ) определяет соотношение вход—выход контроллера.
Желаемый отклик й(п + 1) объекта управления обеспечивается выходом опорной модели (ОМ), которая дает этот отклик в качестве реакции на сигнал г(п). Поэтому й(п + 1) является функцией сигнала г(п) и собственного состояния хом(п) опорной модели
А(п + 1) = Гом(хом(п), г(п)). (57)
Вектор-функция Гом определяет соотношение вход— выход опорной модели. Ориентиром для подстройки параметров сети служит движение в направлении антиградиента поля ФР, которое определяется квадратом нормы вектора ес(п + 1) = = А(п + 1) - уОУ (п + 1). И цель подстройки весов сети w определяется минимизацией функции риска.
Метод управления в САУ_ОМ (рис. 8, а) можно назвать прямым, т. к. он не требует идентификации параметров объекта управления и параметры контроллера непосредственно подстраиваются, чтобы улучшить функционирование ОУ. Однако пока для подстройки параметров контроллера (на основе сигнала ошибки) нет достаточно точных и достоверных методов. Поэтому неизвестный объект управления структурно включается между контроллером и ошибкой выхода. В связи с эти предложена более гибкая структура САУ_ОМ, реализующая непрямое управление (НПУ) (рис. 8, б). В этой структуре используется двухступенчатая процедура:
1. Модель объекта управления ОУ (обозначаемая
п
ОУ ) служит для обеспечения оценок, необходимых для получения разностных соотношений выхода ОУ со значениями входа ОУ, которые предшествуют выходу ОУ и его внутренним состояниям. Описанная процедура использована для обу-
п
чения НС идентификации ОУ, и модель ОУ считается моделью идентификации.
п
2. Модель идентификации ОУ используется (после обучения) вместо ОУ для вывода оценок динамических производных ОУ по компонентам вектора параметров контроллера, которые доступны для подстройки.
Таким образом, в непрямом управлении, нейронная сеть с внешней рекуррентностью составлена из контроллера и представления ОУ в форме вход—выход, которое эмулируется моделью иден-
п
тификации ОУ .
Єс (и)
а
е(и)
б
Рис. 8. Структуры РНС для системы адаптивного управления с опорной моделью (САУ_ОМ): а — схема прямого управления; б — схема непрямого управления
Приложение РНС для создания контроллеров с общей структурой, показанной на рис. 8, б, занимает значительное место в сфере систем адаптивного управления (от двигателей и биореакторов до автоматических подсистем) [8, 24]. Часто эти контроллеры включают рекуррентные МСП, а для обучения начинают использовать довольно трудоемкие алгоритмы на основе фильтров Кал-мана.
ЗАКЛЮЧЕНИЕ
В целях применения в ИИС для анализа данных при неполной измерительной информации рассмотрены разновидности структуры, элементы теории и алгоритмы обучения рекуррентных нейронных сетей (РНС), а также их приложения — идентификация динамического объекта (подсистемы) и адаптивное управление по "эталонной" модели. Проанализированы модель пространства состояний динамического объекта, понятия и условия управляемости и наблюдаемости. В терминах пространства состояний представлена модель нелинейной авторегрессии, построенной на РНС с внешним входом на линии элементов временной задержки.
Проанализированы два способа обучения РНС: на основе алгоритма обратного распространения во времени (алгоритм ОРВ) и на основе рекуррентного алгоритма обучения реального времени (РАО_РВ). Намечен путь усовершенствования РАО_РВ на основе фильтров Калмана. Приведены некоторые рекомендации (эвристического типа), позволяющие противодействовать ухудшению характеристик обучения РНС при значениях градиента, близких к нулю.
Таким образом, в предшествующей [5] и в этой частях статьи проанализированы структуры темпоральных (с прямым распространением сигнала) и рекуррентных (с обратными связями) нейронных сетей, реагирующих на изменение входной информации изменением реализуемого сетью отображения. Эти виды нейронных сетей используются в методе интерпретации данных, получаемых и обрабатываемых ИИС в условиях, когда не весь набор параметров состояния контролируемого динамического объекта (подсистемы) воздействует на датчики измерительной системы. Метод трактовки измерительных данных при неполной информации 8) основан на рекуррентном представлении уравнений динамики контролируемого объекта и уравнения наблюдения (определяющего преобразование информации в системе измерения)
и на использовании темпоральной или рекуррентной нейронной сети.
ПРИЛОЖЕНИЕ. Сводка соотношений, определяющих алгоритм рекуррентного обучения в реальном времени (алгоритм РОРВ). Пример
Параметры
т — размерность входного сигнала; д — размерность пространства состояний; р — размерность выходного сигнала; — вектор синаптиче-
ских весов нейрона, у =1, 2, ..., д.
Инициализация
1. Множеству синаптических весов (компонентам векторов ^у, у = 1, 2, ..., д) присваиваются малые значения, выбираемые из равномерного распределения.
2. Начальная величина всех компонент вектора состояния полагается равной нулю, х(0) = 0.
3. Начальная величина всех векторов Л также полагается равной нулю, Лу(0) = 0 для у = 1, 2,., д.
Процедура вычислений
Для п = 0, 1, 2, ... вычисляются значения векторов (в указанной ниже последовательности):
Лу(п + 1) = Ф(п){'а(п) Лу(п) + Щп)},
е(п) = ^п) - С-х(п),
Д-иу(п) = п С Лу(п) е(п).
Определения для х(п + 1), Лу(п), Ц/(п) и Ф(п) приведены в основном тексте статьи выражениями (40), (43), (44) и (45).
Формирование алгоритма РОРВ
Формирование алгоритма выполнено для полносвязной рекуррентной сети (рис. 1П), которая включает 3 нейрона, два входных узла и один выход. Сеть имеет двухкомпонентный вход (входной вектор и(п), т = 2), характеризуется 3-компонентным вектором х параметров состояния нейронного слоя (д = 3) и имеет скалярный выход (р = = 1). Матрицы 'а, 'ь имеют вид:
Г11 Г12 1 3 зГ ' Ъ Г14 1 1Л зГ
'а = £ Г22 3 2 £ , 'ь = Ь2 2 £ 2 £
1 3 2 3 £ 1 3 3 £ 1 3 3 Г35 _
8) Метод предполагается опубликовать в виде третьей части настоящей статьи.
Первый столбец матрицы 'ь представляет смещения (Ьь Ь2, Ь3), приложенные к нейронам 1,
2 и 3. Матрица С в данном случае является вектором (поскольку мы рассматриваем скалярный выход сети) С = [1, 0, 0].
2-1
2-
2-1
Рис. 1П. Полносвязная РНС двумя входами, двумя скрытыми нейронами и одним выходным нейроном
Имея в виду, что т = 2, д = 3, можно с помощью выражения (42) (основного текста статьи) определить £(п) и ^/-элементы (А;>и) матрицы А;(п):
%(п) = [х:(п) Х2(п) Х3(п) 1 щ(п) Н2(п)]т,
^,ы(п + 1) =
= ф'(у,{п))-
({],ы (п) + 5^ (п)}
(г)
где 5к;- — символ Кронекера (к, у = 1, 2, 3); индекс / = 1, 2,., 6.
Подстройка параметров сети по алгоритму рекуррентного обучения реального времени (РОРВ) осуществляется на основе выражения
Д^к /(п) = п№(п)) - Х:(п)Я1,к /(п).
Отметим, что индексы в этом выражении принимают свои значения в соответствии с определением матриц: 'а = {^;г}, (у г) = 1, 2, 3 и 'ь = {м>п}, у = 1, 2, 3, / = 4, 5, 6.
W)
Рис. 2П. Граф чувствительности полносвязной РНС, показанной на рис. 1П
Эволюция величины подстройки весов Awki(n) рассматриваемой нейронной сети может быть представлена графом чувствительности, который показан на рис. 2П.
СПИСОК ЛИТЕРАТУРЫ
1. Gaunaurd G.C., Strifors H.C. Signal analysis by mean of time-frequency transformation of Wigner type // Proceedings of IEEE. 1996. V. 84, N 9. P.1231-1247.
2. Исмаилов Ш.Ю., Меркушева А.В. Нейросете-вой алгоритм на вейвлет-преобразовании нестационарного сигнала в ИИС // Труды Международной научной конференции по мягким вычислениям и измерениям SCM’2001. СПб.: Изд. ГЭТУ (ЛЭТИ), 2001. Т. 1. С. 251-256.
3. Малыхина Г.Ф., Меркушева А.В. Вейвлет-фильтрация нестационарного сигнала с адаптацией на основе нейронной сети // Труды Международной научной конференции по мягким вычислениям и измерениям SCM’2001. СПб.: Изд. ГЭТУ (ЛЭТИ), 2001. Т. 1. С. 239-242.
4. Меркушева А.В. Применение нейронной сети для текущего анализа нестационарного сигнала (речи), представленного его вейвлет-отображением. I. Основные принципы // Научное приборостроение. 2003. Т. 13, № 1. С. 6470.
5. Малыхина Г.Ф., Меркушева А.В. Метод контроля состояния подсистемы (объекта) при неполной измерительной информации о совокупности параметров, определяющих ее динамику. I. Анализ структуры нейронной сети, приспособленной к динамическому характеру анализируемой информации // Научное приборостроение. 2004. Т. 14, № 1. С. 57-67.
6. Tsoi A.C., Back A.D. Locally recurrent globally feet-forward networks: A critical review // IEEE Transactions on Neural Networks. 1994. V. 5. P.222-239.
7. Elman J.L. Finding structure in time // Cognitive Science. 1990. V. 14. P. 179-211.
8. Puskorius G.V., Feldkamp L.A. Dynamic neural networks methods applied to on-vehicle idle speed control // Proceedings of IEEE. 1996.
V. 84. P.1407-1420.
9. Giles C.L., Sun G.Z., Lee Y.C., Chen D. Higher order recurrent networks and grammatical interference // Advances in Neural Information Processing Systems. San Mateo, CA: Morgan Kauf-mann, 1990. V. 2. P. 382-387.
10. Sontag E.D. Mathematical control theory: Dynamic finite-dimension systems. N.Y.: Springer Verlag, 1990. 360 p.
11. Сейдж Э.П., Уайт Ч.С. Оптимальное управление системами. М.: Радио и связь, 1982. 391 с.
12. Levin A.V., Narendra K.S. Control of nonlinear dynamic systems using neural networks: Reliability, identification and control // IEEE Transactions on Neural Networks. 1996. V. 7. P. 30-42.
13. Haykin S. Neural networks. N.Y.: Prentice-Hall, 1999. 842 p.
14. Williams R.J., Zipser D. Learning algorithms for continually running fully recurrent neural networks // Neural Computation. 1989. V. 1. P. 271280.
15. Williams R.J., Zipser D. Gradient-based learning algorithms for recurrent networks and their computational complexity // Back-propagation: Theory, Architecture and Applications / Eds. Chau-vin Y., Rumelhart D.E. Hillsdale, N.Y.: Lawrence Erlbaum, 1995. P. 433-484.
16. Beaufays F., Wan E.A. Relating real-time back-propagation through time: Application to flow-graph inter-reciprocity // Neural Computation. 1994. V.6. P.396-406.
17. Giles C.L. et al. Constructive learning of recurrent neural networks: Limitation of recurrent cascade
correlation with simple solution // IEEE Transactions on Neural Networks. 1995. V. 6. P. 829836.
18. Williams R.J., Pang J. An efficient gradient-based algorithm for on-line training the recurrent -network trajectories // Neural Computation. 1990. V. 2. P.4090-5100.
19. Werbos P.J. Back-propagation through time: What it does and how do it // Proceedings of IEEE. 1990. V. 78. P. 1550-1560.
20. Mendel J.M. Lessons in estimation theory for signal processing. Communication and control. Englewood Cliffs, N.Y.: Prentice-Hall, 1995. 360 p.
21. Hochreiter S., Schmithuber J. LSTM can solve hard long time lag problems // Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 1997. V. 9. P. 473-479.
22. Bengio Y., Simard P., Frasconi P. Learning long time dependences with gradient descent is difficult // IEEE Transactions on Neural Networks. 1994. V. 5. P. 157-166.
23. Цыпкин Я.З. Информационная теория идентификации. М.: Наука, Физматлит, 1995. 336 с.
24. Puskorius G.V., Feldkamp L.A. Neuro control of nonlinear dynamic systems on the basis of recurrent neural networks // IEEE Transactions on Neural Networks. 1994. V. 5. P. 279-297.
25. Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь, 1989. 439 с.
Санкт-Петербург
Материал поступил в редакцию 20.01.2004.
PLANT (SUBSYSTEM) STATE CONTROL AT INCOMPLETE MEASUREMENT INFORMATION ON THE PARAMETER SET DETERMINING ITS DYNAMICS. II. FEEDBACK-BASED NEURAL NETWORKS (RECURRENT NETWORKS) REPRESENTING THE INPUT INFORMATION DYNAMICS
G. F. Malykhina, A. V. Merkusheva
Saint-Petersburg
In information-measurement systems (IMS) and information-control systems representing the state of the plant (subsystem) being controlled, there exist problems that arise in conditions when some state parameters have no effect on subsystem measuring sensors, i. e. in conditions of incomplete information. This problem is solved based on analysis of the plant-IMS system dynamics equation (in the state parameters space), and neural network (NN) algorithms. The second (of three) paper parts considers the structure and learning algorithms for feedback-based NN called recurrent NN, which adequately simulate the input data dynamics.