---------------------□ □--------------------------
Запропоновано метод синтезу поліноміальних нейронних мереж для вирішення задач прогнозування нестаціонарних часових рядів, що є альтернативою багатошаровим персептронам та радіально -базисним нейронним мережам використання яких обмежене при вирішенні багатьох практичних задач. Запропонований метод простий з точки зору чисельної реалізації і дозволяє ускладнювати архітектуру нейронної мережі без необхідності перерахунку вже налаштованих синаптичних ваг
Ключовї слова: прогнозуюча модель, поліномі-альна ортогональна нейронна мережа, поліноми Чебишева, орто-синапс, синаптичні ваги
□----------------------------------□
Предложен метод синтеза полиномиальных нейронных сетей для решения задач прогнозирования нестационарных временных рядов, являющихся альтернативой многослойным персептронам и радиально-базисным нейронным сетям, использование которых ограничивается при решении многих практических задач. Предложенный метод прост с точки зрения численной реализации и позволяет усложнять архитектуру нейронной сети без необходимости пересчета уже настроенных синаптических весов
Ключевые слова: прогнозирующая модель, полиномиальная ортогональная нейронная сеть, полиномы Чебышева, орто-синапс, синаптические веса ---------------------□ □--------------------------
УДК 004.67
АДАПТИВНАЯ
ПОЛИНОМИАЛЬНАЯ
НЕЙРОСЕТЕВАЯ
ПРОГНОЗИРУЮЩАЯ
МОДЕЛЬ ВРЕМЕННЫХ РЯДОВ И ЕЕ ОБУЧЕНИЕ
Е . В . М а н т у л а
Аспирант* E-mail: elenamantula@gmail.com
С . В . М а ш т а л и р
Кандидат технических наук, доцент* E-mail: zerginio.m@gmail.com *Кафедра информатики Харьковский национальный университет радиоэлектроники пр. Ленина, 16, г. Харьков, Украина, 61166
1. Введение
Задача прогнозирования временных рядов часто встречается во многих приложениях, а для ее решения разработан целый арсенал методов - от простейших эмпирических до весьма сложных, основанных на интеллектуальном подходе, при этом инструментом прогнозирования в итоге является математическая модель - от простейшей регрессионной до сложной нейросетевой [1, 2].
Возможность использования того или иного метода определяется объемом априорной информации о решаемой задаче, при этом задача существенно усложняется такими факторами как нелинейность, нестаци-онарность, стохастичность, хаотичность изучаемого явления. В этих случаях предыстория не может быть использована для нахождения параметров модели [3].
Интеллектуальные нейронные сети, используемые в подобных случаях, могут обеспечивать высокое качество предсказания. Однако, хотя они, обладая универсальными аппроксимирующими свойствами в процессе обучения, способны с заданной точностью восстановить практически любую нелинейную функцию, заданную набором наблюдений, их практическое использование ограничивается потребностью для настройки своих параметров иметь достаточно большую по объему обучающую выборку. И дело здесь не в том, что имеющихся в распоряжении исследователя наблюдений недостаточно. Просто в практических задачах временные ряды настолько часто меняют свои свой-
ства, что нейронная сеть просто не успевает обучиться на отдельных стационарных участках временного ряда
[4].
В связи с этим возникает необходимость построения на основе нейросетевого подхода упрощенных прогнозирующих моделей, которые имели бы высокую скорость обучения в условиях ограниченной обучающей выборки, а также в случаях, когда данные на обработку подаются через произвольные заранее неизвестные интервалы времени, позволяющие усложнять архитектуру нейронной сети и обладающие возможностью перестраивания своих характеристик непосредственно по ходу решения задачи.
В данной работе предлагается адаптивная полиномиальная нейросетевая прогнозирующая модель и процедура ее обучения в условиях ограниченного объема априорной информации, обладающая высокими аппроксимирующими и экстраполирующими свойствами.
2. Литературный обзор и постановка проблемы
На сегодняшний день существует достаточно много математических методов решения задачи прогнозирования нестационарных временных рядов. К данным методам можно отнести различные классические статистические методы, применяющиеся для анализа стационарных процессов. К данным методам можно отнести регрессионные, корреляционные, спектраль-
ные, метод Бокса-Дженкинса. Однако к их недостаткам можно отнести тот факт, что они ограничены для анализа и моделирования непредсказуемых скачков, поэтому их целесообразно использовать для краткосрочных прогнозов. Также для решения данной задачи используются адаптивные методы, основанные на экспоненциальном сглаживании и интеллектуальные [5].
Исходной информацией для построения математической прогнозирующей модели является временной ряд, который описывает изучаемый показатель. При этом задача синтеза модели существенно усложняется нестационарностью показателей, высоким уровнем стохастичности или хаотичности, нелинейностью и тому подобными факторами [6].
В реальных задачах часто возникает случаи, когда исходная выборка наблюдения слишком мала по объему, или когда прогнозируемый процесс содержит как нерегулярные тренды, так и внезапные скачки. В этих случаях предыстория не может быть использована для нахождения параметров модели.
Еще более сложная ситуация возникает, когда наблюдения распределены на временной шкале неравномерно, т.е. квантование контролируемого процесса происходит с переменным шагом.
В этом случае спектр возможных подходов становится еще меньшим [7, 8].
Наиболее часто для решения подобных задач прогнозирования используются интеллектуальные нейронные сети - многослойный персептрон и его модификации, лежащие в основе рекуррентных нейронных сетей, а также радиально-базисные ИНС [1].
Однако несмотря на то, что эти сети обеспечивают высокое качество предсказания, они обладают целым рядом недостатков, ограничивающих их использование при решении многих практических задач. Так, многослойные персептроны, обучаемые на основе обратного распространения ошибок, достаточно медленно настраивают свои параметры и требуют больших объемов обучающей выборки.
Радиально-базисные ИНС обучаются с высокой скоростью благодаря тому, что их выходной сигнал линейно зависит от настраиваемых синаптических весов, однако наличие большого количества свободных параметров полей радиально-базисных активационных функций вынуждает решать дополнительные задачи кластеризации, а кроме того не следует забывать о достаточно часто возникающем в реальных задачах «проклятии размерности» [9].
Достойной альтернативой многослойным и радиальнобазисным ИНС являются полиномиальные нейронные сети [2], использующие в качестве активационных функций те или иные полиномы и имеющие целый ряд преимуществ перед традиционными сетями: простоту с точки зрения численной реализации, высокую скорость обучения в условиях ограниченной обучающей выборки, а также в случаях, когда данные на обработку
подаются через произвольные заранее неизвестные интервалы времени, а архитектура нейронной сети может быть усложнена без необходимости пересчета уже настроенных синаптических весов.
В связи с этим в настоящей работе предлагается подход к синтезу адаптивных прогнозирующих моделей, который производится в условиях ограниченной обучающей выборки, при этом данные на обработку могут подаваться через произвольные заранее неизвестные интервалы времени.
3. Ортогональная полиномиальная искусственная нейронная сеть
В качестве активационных полиномиальных функций весьма перспективным представляется использование ортогональных полиномов, которые лежат в основе так называемых, ортогональных ИНС [3 - 5], основным преимуществом которых является простота обучения на основе метода наименьших квадратов с диагональной ковариационной матрицей.
Среди множества возможных ортогональных полиномов наиболее эффективными представляются полиномы Чебышева [6], обладающие целым рядом полезных свойств, связанных с традиционным в обучении ИНС квадратичным критерием.
На рис. 1 приведена архитектура полиномиальной нейронной сети, реализующей прогнозирующую модель нелинейной авторегрессии с экзогенными входами (NARX - модель) вида:
У(к) = %(к - 1),...,У(к - пл),х(к - 1),...,х(к - Пв)) или, переобозначая переменные,
у(к) = f(zl(k),...,znл(k),znл+l(k),...,zp(k),...,znл+nв(k)),
где у(к) - прогнозируемая временная последовательность в момент дискретного времени к = 1,2,...; у(к) - ее прогноз по имеющимся на (к - 1)-й момент реальным наблюдением; х(к- 1),...,х(к -пв) - значения экзогенной (внешней) переменной, определяющие поведение прогнозируемого ряда; пл, пв - глубина используемой предыстории; zp(k) = у(к-р) , если р^Пл и Zp(k) = х(к-р)при р>Пл.
т
Рис. 1. Полиномиальная ортогональная нейронная сеть
€
Входные сигналы 21(к),...,2р(к),...,2п +п (к) с рецепторного слоя подаются на первый скрытый слой сети, именуемый слоем полиномиального расширения, где реализуется нелинейное чебышевское преобразование
^р(к)) = 1,
^р(к)) = гр(к),
^(к)) = 222р(к),
^ь(2р(к)) = 2гр(к)£ь_і(гр(к)) - ^^(к)),
(1)
на основе которого входные сигналы zp(k) , р = 1,2,...,па + пв преобразуются так, что на выходах первого скрытого слоя формируются сигналы
ф1(к) = f0(zl(k)),..., Ф(Ь+1)(пА+пв)(к) = 4(Ч+пв(к)).
Второй скрытый слои образован адаптивным линейным ассоциатором [1] с (Ь + 1)(пА + пв) входами и таким же количеством настраиваемых синаптических весов w = ^1^2,...^(Ь+1)(п^+п^))т . На выходе второго скрытого слоя в результате формируется скалярный сигнал
( Ь+1 )(пА+пв)
а (к) = X Wlфl(k) = wтф(k),
где Ф(к) = (ф1(k),ф2(к),...,-1(Ь+1)(пА+пв)(к))Т .
В ортогональной нейронной сети, введенной в [5], вместо адаптивного линейного ассоциатора предлагается использовать элементарный персептрон Розен-блатта с фиксированной активационной функцией гиперболического тангенса
Рис. 2. Орто-синапс выходного слоя полиномиальной нейронной сети
Преобразование, реализуемое орто-синапсом, может быть записано в виде
У (к) = Х wJ0fj0(У [Н](к)),
і=0
а отображение (2), реализуемое сетью в целом:
^ Ь (Ь+1)(па+Пв)
У (к) = Х w]0f10( X Wlфl(k)).
і=0 і 1=1
(3)
(4)
Такая сеть содержит (h + 1)(пл + пв) + h +1 настраиваемых в процессе обучения синаптических весов.
4. Обучение ортогональной полиномиальной искусственной нейронной сети
У (к) = ф°(У 1Н'(к)) = ьтЬ(У [Н](к)).
Понятно, что единственная активационная функция не может обеспечить никакие дополнительные аппроксимирующие свойства.
Сама же кривая гиперболического тангенса может выполнять только роль ограничителя
-1 < У (к) < 1.
При этом, при произвольном нелинейном преобразовании ф0(°) , нейронная сеть в целом производит отображение
^ (Ь+1)(ПА+Пв)
у (к) = ф0^тф(к)) = Ф° X WlФl(k).
(2)
Для улучшения аппроксимирующих и экстраполирующих свойств сети мы предлагаем формировать выходной слой не на основе единственной фиксированной активационной функции, а на основе так называемого орто-синапса [6], схема которого приведена на рис. 2.
В качестве активационной функции здесь используются те же полиномы Чебышева (1).
Кроме того, имеется h +1 настраиваемых синаптических весов, что улучшает качество решения рассматриваемой задачи.
Обучение сети производится на основе обратного распространения ошибок [1], при этом сначала настраиваются веса w0 = К,..Х) выходного слоя, а затем вектор весов w второго скрытого слоя.
Первый скрытый слой сети является непараметрическим и не содержит настраиваемых параметров.
Для настройки вектора весов выходного слоя w0 целесообразно воспользоваться оптимальными по быстродействию алгоритмами, например, аддитивно-мультипликативной модификацией алгоритма Качмажа [9 - 12].
w0(k) = w0(k -1) + у У(к)Г У (к2) F(k) =
= ^)(к -1) + У
= Wo(k -1) + у
Р + | Р(к)||2 е(к)Р(к)
Р + | Р(к)Г
(5)
У(к) - w0T(k - 1)Р(к)
Р + 1 Р(к)Г
Р(к),
где F(k) = £00(У[Н](к)),£10(У[Н](к)),...,£ь0(У[Н](к)))т, 0 <у< 2, в > 0 - параметры алгоритма, выбираемые из эмпирических соображений.
Здесь важно отметить, что, поскольку выходной сигнал сети у (к) линейно зависит от вектора синаптических весов выходного слоя w0, их настройка может быть произведена максимально быстро.
Поскольку в реальных задачах анализируемый ряд у(к) «загрязнен» различными возмущениями и по-
1=1
1=1
3
мехами, для их фильтрации вместо одношагового алгоритма (5) можно воспользоваться многошаговыми процедурами типа метода наименьших квадратов на скользящем окне.
Тогда оценка "№0(к) на скользящем окне из s наблюдений может быть записана в виде:
Р(к) = Ps(k - 1) -
Ps(k - 1)Р(к)РТ(к^(к - 1)
Ps(k) = Р(к) +
1+ рт(к^(к - 1)Р(к) Р(к)Р(к - s)FT(k - s)P(k)
1 - Рт(к - s)P(k)F(k - s) ,
w1(k) = w1(k -1) -п(к)
Э1(к)
Эwl
= Wl(k -1) + п(к)е(к)
Эу (к) Эwl
= ^(к-1) + п(к)е(к)Хw°(к)Э^ (у (к))фі(к),
Эу
і=0
или в векторной форме:
w(k) = w(k -1) + г|(к)е(к^0 (к)
ЭР(к)
Эу .
где п(к) > 0 - параметр шага обучения,
(Ь +1) х 1-вектор, образованный частными производ-
эf0(У [Н]к»
Эу
Алгоритм (8) может быть также переписан в более привычной в обучении нейронных сетей форме 8 -правила обучения [1]:
w(k) = w(k-1) +г|(к)8(кХ)(к),
ЭР(к)
(9)
w0(k) = X Р(а)РТ(а))-1 X Р(а)У(а) (6)
а=k-s+1 a=k-s+1
или в рекуррентной форме:
(7)
Ps(k) = Ps(k -1) + Р(к)у(к) - Р(к - s)y(k - s),
w0(k) = Ps(k)ps(k).
Синаптические веса второго скрытого слоя в описание сети (4) входят нелинейно, следовательно, для их настройки необходимо использовать алгоритмы, основанные на обратном распространении ошибок.
Введем в рассмотрение целевую функцию обучения
1 1
Лк) = ^2(к) = -(у(к) - У(к))2 =
= 1(у(к)-^°£»(У [Н](к)))2 =
2 ]=0
= |(у(к) - ’^1ТР(к))2 =
1 Ь (Ь+1)(пл+пв)
= ^(у(к) -£ w0f°( £ \^ф|(к)))2 =
2 j=0 1=1
1
= 2(у(к) - w0TF(wTф(k)))2,
которая может быть минимизирована по W| с помощью градиентного алгоритма
ф(к), (8)
"ЭР (к)"
Эу ,
где 8(к) = е(к^0(к)(—^-) - так называемая локаль-
ду
ная ошибка ( 8 -ошибка) обучения многослойной сети.
Необходимо отметить также, что в силу нелинейной зависимости выхода сети у(к)от синаптических весов w(k) второго скрытого слоя, скорость сходимости алгоритма (7) существенно ниже, чем скорость процедуры (5), поэтому для обучения нейронной сети в целом можно использовать обучение по эпохам, применяемое в обучении многослойных сетей.
Тем не менее, поскольку обучается только один скрытый слой, рассматриваемая нейросетевая модель все равно настраивается быстрее, чем стандартный трехслойный персептрон.
Данная методика значительно упрощает построение прогнозирующей модели на основе нейросете-вого подхода, поскольку для обучения требуется минимальный по объему набор данных, что особенно полезно для решения таких весьма специфических задач, как, например, проблема контроля и прогнозирования показателей загрязнения окружающей среды, где сложность заключается в том, что временные ряды настолько часто меняют свои свойства, что нейронная сеть просто не успевает обучиться на отдельных стационарных участках временного ряда.
5. Выводы
1. В настоящей работе рассмотрена задача прогнозирования нестационарных нелинейных временных рядов в условиях ограниченного объема априорной информации.
2. Для решения данной задачи предложен подход, основанный на синтезе полиномиальных нейронных сетей, который является альтернативой многослойным персептронам и радиально-базисным нейронным сетям, имеющих ряд недостатков, ограничивающих их использование при решении различных практических задач. К преимуществам данного подхода перед традиционными нейронными сетями можно отнести вычислительную простоту и высокую скорость обучения в условиях ограниченной обучающей выборки, а также в случаях, когда данные на обработку подаются через произвольные заранее неизвестные интервалы времени. Подход позволяет усложнять архитектуру нейронной сети без необходимости пересчета уже настроенных синаптических весов.
3. Предложена процедура обучения данной нейронной сети, основанная на использовании ортогональных полиномов в качестве активационных функций и и базирующаяся на обучении по эпохам (данный вид обучения используется для многослойных сетей). Именно поскольку обучается только один скрытый слой, рассмотренная нейросетевая модель настраивается быстрее, чем стандартный трехслойный персеп-трон.
Е
Литература
1. Хайкин, С. Нейронные сети: полный курс [Текст] У C. Хайкин. - М.: Изд. дом «Вильямс», 200б. - 1104 с.
2. Pao, Y. H. Adaptive Pattern Recognition and Neural Networks [Text] У Y. H. Pao. - Reading, MA: Addison-Wesley, 1989 - 320 p.
3. Yang, S.-S. An ortonormal neural network for function approximation [Text] У S.-S. Yang, C.-S. Tseng УI IEEE Transactions on Systems, Man, and Cybernetics. - 199б. - Vol. 2б, № 12. - P. 92Б-93Б.
4. Lee, T. T. The Chebyshev polynomial-based unified model neural networks for function approximation [Text] У T. T. Lee, J. T. Jeng Ц IEEE Transactions on Systems, Man, and Cybernetics. - 1998. - Vol. 28, № 12. - P. 92Б-93Б.
Б. Patra, J. C. Nonlinear dynamic system identification using Chebyshev functional link artificial neural networks [Text] У J. C. Patra, A. C. Kot Ц IEEE Transactions on Systems, Man, and Cybernetics. - 2002. - Vol. 32, №4. - P. Б0Б-Б11.
6. Бодянский, Е. В. Искусственные нейронные сети: архитектуры, обучение, применение [Текст] У Е. В. Бодянский, О. Г. Руденко УУ Харьков. ТЕЛЕТЕХ, 2004. - 372 с.
7. Бидюк, П. И. Методы прогнозирования [Текст] : Т. V П. И. Бидюк, О. С. Меняйленко, О. С. Половцев. - Луганск: Альма-матер, 2008 - 301 с.
8. Бидюк, П. И. Методы прогнозирования [Текст] : Т. 2 У П. И. Бидюк, О. С. Меняйленко, О. С. Половцев. - Луганск: Альма-матер, 2008 - 305 с.
9. Райбман, Н. С. Построение моделей процессов производства [Текст] У Н. С. Райбман, В. М. Чадеев. - М.: Энергия, 1975. - 37б с.
10. Бодянский, Е. В. Ортосинапс, ортонейроны и нейропредиктор на их основе [Текст] У Е. В. Бодянский, Е. А. Викторов, А. Н. Слип-ченко Ц Системи обробки шформації. - 2007. - Вип. 4 (б2). - С. 139-143.
11. Бодянский, Е. В. Субоптимальное управление стохастическими процессами [Текст] У Е. В. Бодянский, С. Г. Удовенко, А. Е. Ачкасов, Г. К. Вороновский. - Харьков: Основа, 1997. - 140 с.
12. Перельман, И. И. Оперативная идентификация объектов управления [Текст] У И. И. Перельман. - М: Энергоатомиздат, 1982. - 272 с.
-------------------------□ □------------------------------
В роботі представлено загальний метод кластериза-ції об’єктів, що використовує нечіткі бінарні відношення для визначення міри близькості векторів ознак об’єктів за «кутовою» та «довжинною» напівметриками. Даний метод реалізований у вигляді трьох алгоритмів. Програмна реалізація даного методу показала його ефективність при розв’язанні різних прикладних задач та простоту в застосуванні
Ключові слова: кластерний аналіз, кластер, нечіткі бінарні відношення, розбиття об’єктів, кластеризація об’єктів
□----------------------------------□
В работе представлено общий метод кластеризации объектов, использующий нечеткие бинарные отношения для определения меры близости векторов признаков объектов по «угловой» полуметрике и полуметрике длины. Данный метод реализован в виде трех алгоритмов. Программная реализация данного метода показала его эффективность при решении различных прикладных задач и простоту в применении
Ключевые слова: кластерный анализ, кластер, нечеткие бинарные отношения, разбиение объектов, кластеризация объектов
-------------------------□ □------------------------------
УДК Б19.8
ДЕЯКІ МЕТОДИ АВТОМАТИЧНОГО ГРУПУВАННЯ ОБ'ЄКТІВ
Н. Е. Кондрук
Кандидат технічних наук, доцент Кафедра кібернетики і прикладної математики Ужгородський національний університет пл. Народна, 3, м. Ужгород, Україна, 88000 Е-mail: kondrukne@gmail.com
1. Вступ
В останні десятиліття спостерігається ріст інтересу до нового напрямку в обробці інформації - інтелектуальному аналізу даних (Data Mining).
В запропонованій роботі розглядається часткова задача інтелектуального аналізу даних - задача
кластерного аналізу, відома як задача автоматичного групування об’єктів, класифікації без учителя або таксономії.
Кластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об’єктів на підмножини (кластери), так, щоб кожен кластер складався з схожих об’єктів, а об’єкти різних кластерів істотно відрізнялися.
21і|............................................................................................................................................................
©