Научная статья на тему 'Прогнозирующая нейронная сеть и алгоритмы ее обучения'

Прогнозирующая нейронная сеть и алгоритмы ее обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1334
142
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Е. В. Бодянский, С. В. Попов

Предлагается подход к решению задач прогнозирования и раннего обнаружения изменения свойств нестационарных стохастических последовательностей, описываемых нелинейными разностными уравнениями авторегрессии скользящего среднего (NARMA-модели). Предполагается, что прогнозируемая последовательность является нестационарной в широком смысле, причем изменения структуры, свидетельствующие о возникшей разладке, происходят в заранее неизвестные моменты времени. Предлагается архитектура рекуррентной искусственной нейронной сети и новые алгоритмы ее обучения, позволяющие с высокой точностью и быстродействием получать прогнозы контролируемого сигнала и обнаруживать моменты изменения его свойств.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An approach to prediction and early properties changes detection problems solution for nonstationary stochastic sequences that are described by nonlinear difference autoregression moving average equations (NARMA-models) is proposed. The forecasted sequence is assumed to be nonstationary in a wide sense, and structure changes pointing to emerging faults are assumed to occur in moments, unknown a priori. Architecture of an artificial neural network and its learning algorithms are proposed that enable obtaining high quality predictions of the monitored signal and detection of its properties changes moments.

Текст научной работы на тему «Прогнозирующая нейронная сеть и алгоритмы ее обучения»

тво НТУУ "Кшвський пол1техшчний ¡нститут", 1998, -с. 9-15.

10. Архипов А.Е., Архипова С.А. Идентификация аппроксимативных моделей методом варьирования данных.//Адап-тивш системи автоматичного управлшня. // Межв1дом. науково-техн. зб. - Днтропетровськ: Системы технологи, 1998. - Вип. 1 (21). с. 81-86.

11. Архипов А.Е., Архипова С.А. Селекция структуры линейной регрессии путем случайного варьирования исходных данных.// Системы технологи. Досл1дження динамти \ оптим1-зашя параметр1в технолопчних процеав: Зб1р. наук. праць. - Вип.2 - Днтропетровськ: "Системы технологи", 1998. - с. 3-9.

12. Архипов А.Е. Выбор, оценка качества и методы повышения точности аппроксимативных моделей в задачах идентификации. - К.: УМК ВО, 1992. - 56 с.

13. Архипов А.Е. Коррекция смещений коэффициентов регрессии, обусловленных ошибками в независимых переменных. Тези допов1дей 1-оТ УкрашськоТ конференци з автоматичного керування. АВТОМАТИКА-94 (КиТв,12-23 травня 1994 р.) - КиТв, 1994, с.123.

Надшшла 02.03.2000 П1сля доробки 10.03.2000

УДК 681.513.6

ПРОГНОЗИРУЮЩАЯ НЕЙРОННАЯ СЕТЬ И АЛГОРИТМЫ ЕЕ ОБУЧЕНИЯ

Е. В. Бодянский, С. В. Попов

Предлагается подход к решению задач прогнозирования и раннего обнаружения изменения свойств нестационарных стохастических последовательностей, описываемых нелинейными разностными уравнениями авторегрессии - скользящего среднего (NARMA-модели). Предполагается, что прогнозируемая последовательность является нестационарной в широком смысле, причем изменения структуры, свидетельствующие о возникшей разладке, происходят в заранее неизвестные моменты времени. Предлагается архитектура рекуррентной искусственной нейронной сети и новые алгоритмы ее обучения, позволяющие с высокой точностью и быстродействием получать прогнозы контролируемого сигнала и обнаруживать моменты изменения его свойств.

Пропонуеться тдх1д до вирШення задач1 прогнозування i раннього виявлення змiн властивостей нестащонарних стоха-стичних послiдовностей, що описуються нелiнiйними рiзнице-вими рiвняннями авторегресп - ковзного середнього (NARMA-моделi). Припускаеться, що прогнозована послiдовнiсть е не-стащонарною в широкому розумiннi, при чому змiни структу-ри, що свiдчать про виникаюче розладнання, вiдбуваються у заздалегiдь невiдомi моменти часу. Запропоновано архiтекту-ру штучно'1 нейронно'1 мережi i новi алгоритми 'i'i навчання, що дозволяють з високою точнiстю та швидкодieю отримувати прогнози контрольованого сигналу та виявляти моменти змiни його властивостей.

An approach to prediction and early properties changes detection problems solution for nonstationary stochastic sequences that are described by nonlinear difference autoregression - moving average equations (NARMA-models) is proposed. The forecasted sequence is assumed to be nonstationary in a wide sense, and structure changes pointing to emerging faults are assumed to occur in moments, unknown a priori. Architecture of an artificial neural network and its learning algorithms are proposed that enable obtaining high quality predictions of the monitored signal and detection of its properties changes moments.

ВВЕДЕНИЕ

Задача раннего обнаружения разладок достаточно часто встречается на практике и, прежде всего, в технической диагностике механизмов и машин и тесно связана с проблемой адаптивного прогнозирования нестационарных стохастических последовательностей. Для решения этой проблемы предложено множество подходов, свя-

занных в значительной мере с методами математической статистики, теории случайных процессов, адаптивной идентификации, однако жесткие предположения о стохастических свойствах рядов и их структуре, как правило, линейной, ограничивают возможности традиционного адаптивного подхода.

Последние годы характеризуются всплеском исследований в области теории и практики искусственных нейронных сетей, в том числе и для решения задач прогнозирования [1-9]. Предложенные нейронные сети, обеспечивая высокое качество прогнозирования, тем не менее, не способны обнаруживать и сигнализировать об изменениях свойств контролируемого сигнала, что совершенно необходимо в задачах априорной диагностики в реальном времени.

В данной работе предложена архитектура прогнозирующей рекуррентной искусственной нейронной сети и алгоритмы ее обучения, позволяющие не только получать прогноз нелинейной стохастической последовательности, но и обнаруживать моменты изменения ее свойств по ходу процесса обучения и прогнозирования. Предлагаемая сеть обладает высокой скоростью обучения и обеспечивает оптимальную точность прогноза на принятом классе моделей.

1 АРХИТЕКТУРА ПРОГНОЗИРУЮЩЕЙ

НЕЙРОННОЙ СЕТИ

Архитектура предлагаемой прогнозирующей искусственной нейронной сети приведена на рис. 1 и представляет собой сеть элементарных нейронов, отличающихся видом функций активации и алгоритмами обучения, являющимися в общем случае рекуррентными процедурами безусловной или условной оптимизации.

Прогнозируемая стохастическая последовательность [г(к)}, к = 1, 2, 3, ... предварительно обрабатывается входным нейроном С таким образом, что все ее значения (прошлые и будущие) принадлежат интервалу [-1, +1] .

х(к -

Рисунок 1 - Рекуррентная прогнозирующая нейронная сеть

Для этого в реальном времени вычисляются экстремальные значения последовательности [г(к)}.

гтах(£) = тах{гтах(£ - 1), г(£)}, гтах(£) = тт{гтах(£ - 1), г(£)},

(1)

после чего сигнал кодируется так, что

„ ... тах... тт.,. х(£) = 2г( £) - г (£) - г (£)

та^^ тт,, , '

г (£) - г (£)

(2)

при этом всегда -1 < х(£) < 1 .

Сигнал {х(£)} далее подается на входной слой сети,

образованный элементами чистого запаздывания г 1 : -1

г х(£) = х(£-1), в результате чего на выходе этого слоя формируется набор задержанных значений х(£-1), х(£-2), ... , х(£-й). При этом, чем больше значение й, тем более широкими возможностями обладает сеть.

Первый скрытый слой образован стандартными нейронами с нелинейной функцией активации, на входы которых подаются задержанные значения сигнала х(£) и по цепи обратной связи каждого нейрона - задержанные

значения прогноза х}-(£) , / = 1, 2, ... , й. Входы нейронов, обозначенные соответствуют входам обучающего сигнала, а у описывает функцию активации.

В результате обработки последовательности {х(£)} нейронами первого скрытого слоя на их выходах появляются одношаговые прогнозы

х1 (£) = у(х(£ - 1), х1 (£ - 1))

х2(£) = у(х(£ - 1), х(£ - 2), х2(£ - 1), х2(£ - 2))

(3)

хй(£) = у(х(£ - 1),..., х(£ - й), хй(£ - 1), ..., хй(£ - й)),

соответствующие нелинейному процессу авторегрессии -скользящего среднего (КАЙМА) порядка от 1 до й.

Второй скрытый слой образован однотипными элементарными нейронами, вычисляющими оценки точности

прогнозов х^(£) в виде дисперсий обновляющих последовательностей о2е (£) .

1

Нейронами третьего скрытого слоя производится попарное объединение сигналов из второго слоя с целью получения оценок уу(£), / = 1, 2, ... , й-1 таких, что

У]( £) = 1 £) у1 -1( £) + (1 -1 £)) х1 + 1( £), У о (£ ") = х 1 (£),

(4)

при этом весовые коэффициенты С: (к) характеризуют

оценку точности прогноза уу(£) по сравнению с уу -1 (£)

и ху +1 (£). Вектор весов с(£) = (с 1(£), с2(£), ..., с^-1(£))

описывает качество прогнозов, получаемых в третьем слое, при этом оно, естественно, должно быть выше, чем в первом слое. Изменение соотношений между элементами этого вектора свидетельствует об изменении структуры модели сигнала, т.е. о возникшей разладке.

Четвертый слой полностью аналогичен второму и предназначен для оценки точности прогнозов у1 (£),

2, ... , й, £ = 1, 2, 3, ... - текущее дискретное время.

Вводя в рассмотрение ошибку прогнозирования у-го нейрона первого скрытого слоя

£у(£) = х(£) - х(£) = х(£) - у(иу(£)),

(8)

запишем дельта-правило настройки синаптических весов

ту( £ + 1) = ту( £) + пу( £ )£у( £ )Уту( иу( £)) = = ту( £) + пу (£ )гу( £) Оу( £), 1

(9)

у2(£), ..., уй- 1(£) , которые затем подаются на единствен- где Пу(£) - параметр 0ага поиска, принимаемый обычно

постоянным, Ут у(иЛ£)) = ОЛ£) - градиент функции

ный нейрон пятого слоя, являющийся по структуре линейным ассоциатором и вычисляющий объединенный оптимальный прогноз х (£) .

Нейрон, обозначенный П, предназначен для декодирования сигнала х (£) к исходной шкале

г(£) = 0, 5(гтах(£)(х (£) + 1) -гт1п(£)(х (£) - 1)). (5)

И, наконец, последний нейрон сети вычисляет точность окончательного прогноза.

2 АЛГОРИТМЫ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ

активации по настраиваемым весам.

Сходимость алгоритма (9) обеспечивается в достаточно широком интервале варьирования параметра шага Пу(£) , однако естественным представляется выбор шага,

обеспечивающего максимальную скорость. Можно показать [10], что в детерминированном случае максимальное быстродействие обучения обеспечивается алгоритмом

х(£) - ху(£) ту( £ + 1) = ту( £) + —-Ц-^ ОД £) =

у у Оу (£ )||2 у

Выходной сигнал у-го нейрона первого скрытого слоя может быть представлен в виде

х у (£) = у

£ туг(£)х(£-1) + £ туг(£)х(£ - 1) +

\г = 1

г = 1

+ туо( £)) = у( тТ( £) Ху( £)) = у( иу( £))

(6)

где у(•) - нелинейная функция активации, обычно сиг-

моидальная или гиперболического тангенса, а в нашем случае более простые в вычислительном отношении, но тем не менее удовлетворяющие всем необходимым условиям

У( иг (£)) =

1, 5иг(£) - 0, 5и. (£), или БШ 2)иу( £), или

) аг^апуиД £),

ту(£) = (Жу0(£), ту1(£), ..., туу(£), ту1 (£), ..., туу(£)) -

-(2у + 1) х 1 - вектор настраиваемых синаптических ве-

" " Т

сов, Ху( £) = (1, х (£ - 1),..., х (£ - у), ху( £ - 1),..., ху( £ - у))

- вектор входов у-го нейрона, иу(£) = тт(£)Ху(£) , у = 1,

ту£ +

х£ - у

1, 51 - и2ЦХ]Щ2 1

Х:£ ,или

т;£ +

х£ - х;£

--Ху£, или

(10)

ео8 2 иуЩХуЩ 2

х£ - ху£

-Х£ .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ту£ + 2"-

Несложно видеть, что в линейном случае (10) совпадает с алгоритмом обучения Уидроу-Хоффа.

В случае, если контролируемый сигнал наблюдается на фоне помех, алгоритм обучения должен обладать как следящими, так и фильтрующими свойствами, для чего может быть использована процедура [11]

(7)

ту( £ + 1) = ту( £) + г-1 (£)(х (£) -х у( £)) Оу( £),

гу(£) = агу(£ - 1) + ||Оу(

||2 ,0 < а < 1, гу(0) = 0,

(11)

близкая по свойствам при а = 1 к алгоритму стохастической аппроксимации Гудвина-Рэмеджа-Кэйнеса.

После каждого такта обучения нейронов первого скрытого слоя несложно получить многошаговый прогноз в виде

ху(£ + I) = у(тТ(£ + I)ХЛ£ + I)),

где

X1(k + 1) = (1, x(k),..., x(k-j + 1), i,(k),..„ X,(k-j + 1))T , г 1 г г T

x (k) = £ cf (k)yj(k) = yT(k)c0(k), (19)

Xj(k + 2) = (1, xj(k + 1), x(k),..., x(k - j + 2), xj(k + 1), ...

j = 1

..., xj(k - j + 2))T, где вектор весов c0(k) = (cf(k), cf (k),..., cf - 1 (k))T отве-

• d -1

Xj(k + j) = (1, xj(k + j - 1), .••, x(kX xj(k + j - 1), .••, xj(k))T, чает условию несмещенности, £ cf (k) = ETc0(k) = 1,

• „ „ „ j = 1

Xj(k + l) = 1, xj(k + l - 1), ..., xj(k - l + 1), xj(k + l - 1), ... y(k) = (y1 (k), y2(k), ..., yd-1(k))T , E = (1, 1, ..., 1)T . Тре-

к -] + 1 ))Т, (13)

„ ритму обучения вида [13]:

Во втором скрытом слое с помощью рекуррентных

процедур

бование оптимальности прогноза x (k) приводит к алго-

оЕ2 (k) = ^оЕ2 (k - 1) + jzj(k) (14)

для стационарного и

ое2 (k) = ао2 (k - 1) + (1 - а)е?(k) ,0 < а < 1 (15)

j j j

P( k + 1) = P( k) -

-(P(k)y(k + 1))(P(k)y(k + 1))T X

X (1 + yT(k + 1 )P(k)y(k + 1 ))-1,

c*( k + 1) = c*( k) + , N

^ w г г (20) + P(k + 1)(x(k + 1) -yT(k + 1)c*(k))y(k + 1 ),

c0(k + 1) = c0(k) -

-P(k + 1)(ETP(k + 1 )E)-1 (ETc*(k + 1) - 1)E,

c* = (d - 1 )-1,

для нестационарного сигналов вычисляется точность полученных прогнозов.

Попарное объединение прогнозов в третьем скрытом где с*(к+1) - оценка стандартного рекуррентного метода

слое в виде (4) призвано обеспечить более высокое каче- наименьших квадратов.

ство прогнозирования, при этом обучение нейронов это- многошаговый прогноз этого слоя имеет вид го слоя, являющихся двухвходовыми линейными ассоциаторами, осуществляется с помощью процедуры [12] X (к + 1) = уТ(к + I)с0(к + 1) (21)

(ь 1)_ 5-( кк) (,) £ / ( к + 1 ) (У ]- 1 ( к + 1 )- х ] + 1 (к + 1)) и после декодирования нейроном Б может быть преобра-

С- (к +1) ( ь + 1- с- (к) + ( к + 1 ) '

к 1) к 1) зован в прогноз исходной последовательности г(к + I) .

к + 1) _ к) + (у- _ 1 (к + 1) - х- + 1(к + 1))2, (16) На выходе сети производится оценка точности объе-

с.(о) _ 0 5 диненного прогноза в виде

В четвертом скрытом слое на основе ошибки о2-(k) = k - 1 о2"(k - 1) + 1 (г(k) - z(k))2 (22) Vj(k) = x(k) -yj(k) и формул типа (14), (15) вычисляются дисперсии o2V (k) , при этом можно показать [12], или

что o2z (k) = ао2г( k - 1) + (1 - а)( z (k) - z (k))2,0 <а< 1, (23)

о2 vj (k )< min{o2j -1 (k ),o2j +1 (k)}, (17) при этом можно показать [13], что

т.е. прогнозы, получаемые в третьем скрытом слое по (j2-(k)< min{mino2E(k),mino2V (k)},Vj, (24)

z j j

точности не уступают лучшим прогнозам первого

скрытого слоя. т.е. прогноз на выходе сети является действительно оп-

Мног°шаг°вый прогноз аналогично (12) может быть тимальным на классе всех NARMA-моделей порядка от 1

записан в виде до d.

у-(к + 1) _ с^(к + 1)уу_ 1 (к +1) + (1 _с^(к + 1))Ху(к + I) .(18)

В пятом скрытом слое сети, образованном (й _ 1 )-входовой адалиной, производится объединение прогнозов в виде

ЗАКЛЮЧЕНИЕ

Предлагаемая искусственная нейронная сеть является специализированной вычислительной структурой, предназначенной для решения задач прогнозирования и раннего обнаружения изменения свойств стохастических по-

следовательностей, описываемых различными NARMA-уравнениями с неизвестными параметрами. В результате обучения сеть обеспечивает оптимальное на классе данных моделей прогнозирование, при этом, если вместо нейронов первого скрытого слоя использовать стандартные структуры прогнозирующих сетей типа MLP, RBFN, SOM и т.п., можно говорить об оптимальном на ансамбле нейросетей [14] прогнозе. С вычислительной точки зрения подобная метанейросеть не намного сложнее рассмотренной выше, поскольку программы, реализующие стандартные архитектуры, входят в состав многих некоммерческих пакетов прикладных программ [15].

ПЕРЕЧЕНЬ ССЫЛОК

1. Wong F.S. Time series forecasting using backpropagation neural networks // Neurocomputing. - 1990/91. - 2. - P. 147159.

2. Groot de C., Wuertz D. Analysis of univariate time series with connectionist nets: A case study of two classical examples // Neurocomputing. - 1991. - 3. - P. 177-192.

3. Connor J.T., Martin R.D., Atlas L.E. Recurrent neural networks and robust time series prediction // IEEE Trans. Neural Networks. - 1994. - 5. - N2. - P. 240-254.

4. Saxen H. Nonlinear time series analysis by neural networks. A case study // Int. J. Neural Systems. - 1996. - 7. - N2. - P.

195-201.

5. Madhavan P.G. A new recurrent neural network learning algorithm for time series prediction // J. of Intelligent Systems. -

1997. - 7. - N1, 2. - P. 103-116.

6. Yu H.-Y., Bang S.-Ya. An improved time series prediction by applying the layer-by-layer learning method to FIR neural networks // Neural Networks. - 1997. - 10. - N9. - P. 1717-1729.

7. Nie J. Nonlinear time-series forecasting: A fuzzy-neural approach // Neurocomputing. - 1997. - 16. - P. 63-76.

8. Billings S.A., Hong X. Dual-ortogonal radial basis function networks for nonlinear time series prediction // Neural Networks. - 1998. - 11. - P. 479-493.

9. Conway A.J. Macpherson K.P., Brown J.C. Delayed time series prediction with neural networks // Neurocomputing. - 1998. -18. - P. 81-89.

10. Бодянский Е.В. Адаптивные алгоритмы идентификации нелинейных объектов управления // АСУ и приборы автоматики. - 1987. - Вып. 81. - С. 43-46.

11. Бодянский Е.В. Обнаружение разладок в нелинейных стохастических последовательностях с помощью рекуррентных искусственных нейронных сетей // Проблемы бионики. -

1998. - Вып. 49. - С. 23-33.

12. Bodyanskiy Ye.V., Vorobyov S.A., Stephan A. Detection of NARMA-sequence order using recurrent artificial neural networks // Proc. of European Control Conference ECC'99. -Karlsruhe, Germany, 1999. - CD-ROM.

13. Бодянский Е.В. Автоматическое обнаружение разладок с помощью искусственной нейронной метасети // Проблемы бионики. - 1998. - Вып. 49. - С. 34-38.

14. Sharkey A.J.C. On combining artificial neural nets // Connection Science. - 1996. - 8. - N3, 4. - P. 299-313.

15. Braun H., Feulner J., Malaka. R. Praktikum Neuronale Netze. Berlin: Springer-Verlag, 1996. - 242 P.

Надшшла 06.03.2000 Шсля доробки 10.03.2000

УДК 621.3.049.77.002:519.24

МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ГРАНИЧНОГО ВЫБОРОЧНОГО

КОНТРОЛЯ

А. Ю. Долгов

Предлагается метод повышения эффективности прогнозирования (оценок) величины брака в принятых пластинах при граничном выборочном контроле качества кристаллов интегральных микросхем.

The method of increase of a forecasting effectiveness (ratings) of a spoilage size in the accepted plates at boundary selective quality surveillance of integrated microcircuits crystals is offered.

Граничный контроль [1] является основным методом контроля качества при производстве кристаллов интегральных микросхем. Основой метода является выборка малого объема (обычно n=5, иногда и=10), по которой следует судить о качестве кристаллов на пластине, содержащей от 400 до 4000 потенциально годных изделий. Такой малый объем выборки связан с количеством тестовых ячеек на пластине, которые имеют другую структуру, чем рабочие ячейки, и количество которых не может быть увеличено без ущерба для выхода годных. Но этот малый объем контрольной выборки исключает применение классических методов статистического контроля по количественному признаку [2], хотя сам по себе является достаточно эффективным. Так при реша-

ющем правиле "5 из 5" (т.е. при попадании всех пяти измеренных величин в норму по конструкторской документации) точность прогноза выхода годных, т.е. величина возможного брака на принятых пластинах, колеблется от 0 до 69 %, а при решающем правиле "3 из 5" -от 15 до 85% [1]. Такие точности не могут удовлетворить производство, однако метод остается по прежнему востребованным, так как не имеется другого столь же простого в применении на практике, а для классических методов контроля, как уже упоминалось, не хватает объема выборки.

Классический метод прогнозирования состоит в том, что определяются квантили граничных значений по норме конструкторской документации относительно среднего арифметического контрольной выборки, нормированные среднеквадратическим отклонением этой же выборки. По квантилям с помощью закона распределения Стьюдента определяются вероятности, лежащие вне границ нормы, которые затем складываются в прогнозируемый брак. Анализ этого метода прогнозирования брака показал, что слишком большой разброс между минимальным и максимальным значениями брака при одних

i Надоели баннеры? Вы всегда можете отключить рекламу.