Научная статья на тему 'Системный подход к синтезу математических моделей прогнозирования взаимосвязанных нестационарных временных рядов'

Системный подход к синтезу математических моделей прогнозирования взаимосвязанных нестационарных временных рядов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
235
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ / СТРУКТУРНАЯ ИДЕНТИФИКАЦИЯ / МЕТОД "ГУСЕНИЦА"-SSA / МЕТОД ГРУППОВОГО УЧЁТА АРГУМЕНТОВ / THE“CATERPILLAR”-SSA METHOD / FORECAST / STRUCTURAL IDENTIFICATION / THE METHOD OF GROUP ARGUMENTS ACCOUNTING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щелкалин В. Н.

В работе приведена структурная схема, подходящая для описания практически любой известной на сегодняшний день комбинированной, гибридной или декомпозиционной модели прогнозирования временных рядов. На основе данной схемы предложены методы структурной идентификации разреженных нелинейных моделей взаимосвязанных нестационарных временных рядов на основе методов «Гусеница»SSA, быстрого ортогонального поиска, метода группового учёта аргументов и моделей SARIMA

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щелкалин В. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A systematic approach to the synthesis of forecasting mathematical models for interrelated non-stationary time series

The study presents a schematic diagram suitable to describe almost any presently known combined, hybrid or decomposition model for forecasting time series. The diagram has laid the basis for the suggested methods of structural identification of sparse nonlinear models of interrelated non-stationary time series on the basis of “Caterpillar”-SSA methods, fast orthogonal search, a group accounting method, and SARIMA models.Often a plurality of measured features is insufficient for building a model of satisfactory quality. It is necessary to extend the set of features by means of functional transformations of initial signs to decrease the uncertainty of the linear model. The study suggests that components of the “Caterpillar”-SSA method expansion, applied to the forecast and exogenous time series, should be viewed as generated variables.In one of the suggested models, the method of fast orthogonal search is used for optimal thinning. In the other--the method of group arguments accounting is applied to thin the Kolmogorov-Gabor polynomial, which is built on the expansion components of the “Caterpillar”-SSA method that is applied to the forecast and exogenous time series. To correct the forecasts in both models, we used the seasonal model of autoregression the integrated moving average. The analysis and modeling of the considered method prove its effectiveness in the search of an optimal model structure, and the time for determining the model parameters considerably shortens alongside.Therefore, a systematic approach is a set of methods and tools that facilitates overall researching of the properties and structure of the interrelated non-stationary time series and presents them as systems with all complex inter-element relationships.

Текст научной работы на тему «Системный подход к синтезу математических моделей прогнозирования взаимосвязанных нестационарных временных рядов»

У роботi приведено структурну схему, вiдповiд-ну для опису практично будь-яког вiдомоi на сьогод-тшнш день комбiнованоi, гiбридноi або декомпози-цiйноi моделi прогнозування часових рядiв. На основi дашп схеми запропоновано методи идентифжацп розриджених нелтшних моделей взаемопов'язаних нестащонарних часових рядiв на основi методiв «Гусениця»-ББА, швидкого ортогонального пошуку, методу групового урахування аргументiв та моделей БАЯША

Ключовi слова: прогнозування, структурна и)ен-тифтащя, метод «Гусениця»-ББА, метод групового

урахування аргументiв

□-□

В работе приведена структурная схема, подходящая для описания практически любой известной на сегодняшний день комбинированной, гибридной или декомпозиционной модели прогнозирования временных рядов. На основе данной схемы предложены методы структурной идентификации разреженных нелинейных моделей взаимосвязанных нестационарных временных рядов на основе методов «Гусеница»-ББА, быстрого ортогонального поиска, метода группового учёта аргументов и моделей БАЯША

Ключевые слова: прогнозирование, структурная идентификация, метод «Гусеница»-ББА, метод

группового учёта аргументов -□ □-

УДК 519.254

|DOI: 10.15587/1729-4061.2015.40065|

СИСТЕМНЫЙ ПОДХОД К СИНТЕЗУ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ ВЗАИМОСВЯЗАННЫХ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ

В. Н. Щелкалин

Инженер

Кафедра прикладной математики Харьковский национальный университет радиоэлектроники пр. Ленина, 14, г. Харьков, Украина, 61166 E-mail: vitalii.shchelkalin@gmail.com

1. Введение

Развитие методов прогнозирования определяется степенью математического описания процессов, имеющих место в различных отраслях науки и техники с учётом математических достижений, технических ограничений, качества и объёма выборки данных и ограничений на ресурсы, в том числе и временные, формирования математической модели.

Традиционные методы прогнозирования временных рядов (ВР) предназначены, как правило, для линейных и стационарных ВР и только в последние десятилетия начали активно развиваться методы прогнозирования нелинейных, но стационарных и детерминированных ВР, и линейных, но нестационарных ВР. Однако, линейное поведение свойственно только относительно простым процессам. Большинству естественным материальным процессам, как правило, присуще нелинейное нестационарное поведение. И при моделировании данных процессов используются определенные упрощения, особенно в отношении априорно устанавливаемого базиса преобразования ВР в новые, удобные для обработки и анализа метрические пространства. Необходимое условие корректного представления нелинейных и нестационарных ВР заключается в том, чтобы иметь возможность формирования адаптивного базиса, функционально зависимого от содержания самих данных [1].

Повышение точности прогнозирования ВР является важной, но зачастую сложной задачей, стоящей перед лицами, принимающими решения во многих

областях науки и техники. Эффективным способом повышения точности прогнозирования может быть комбинирование нескольких моделей или использование гибридных моделей.

В настоящее время всё чаще возникает потребность не только в повышении точности моделирования, но и в создании качественно новых моделей, учитывающих нелинейность поведения реальных процессов исследования. Анализ подобных моделей намного сложнее, чем линейных, причём разработка методики и общих подходов к исследованию в настоящее время далеко от завершения. Являясь более богатым и сложным, мир нелинейных моделей представляется для современной науки более перспективным в плане открытия новых закономерностей и описания сложных явлений. Методы исследования нелинейных нестационарных моделей в настоящее время быстро прогрессируют [2].

Важным шагом в процессе идентификации моделей прогнозирования является отбор существенных переменных и их лаговых значений для того, чтобы получить самую простую модель, то есть модель, которая обеспечивает удовлетворительные прогнозы с наименьшим числом параметров. Правильный выбор этих переменных существенно влияет на точность получения результатов прогнозирования и на время, необходимое для определения модели.

Наиболее простым средством, широко применяемым для определения количества лаговых переменных при моделировании ВР, является автокорреляционная (АКФ) и частная автокорреляционная функции (ЧАКФ). Авторегрессионные модели, построенные с

©

использованием автокорреляционной функции, включают в себя все лаговые значения до выбранного порядка. Однако не все лаговые значения могут иметь существенное влияние на прогнозируемую величину. Поэтому полезной является процедура прореживания структуры авторегрессионных моделей.

Оптимальное прореживание - метод упрощения структуры регрессионной модели. Основная идея прореживания: элементы модели, которые оказывают малое влияние на ошибку аппроксимации ВР, можно исключить из модели без значительного ухудшения качества аппроксимации. Такой отбор переменных повышает эффективность обучения модели за счёт устранения избыточных и несущественных переменных.

Одним из методов, который может быть использован для оптимального прореживания, является метод полного перебора, в котором рассматриваются все комбинации подмножеств переменных. Этот метод гарантирует оптимальное решение, но задача обнаружения подмножества переменных имеет большие временные затраты, когда количество переменных является большим. Поэтому актуальными являются методы субоптимального прореживания, а модели с настроенными параметрами, доставляющие минимум заданному функционалу качества, называются моделями субоптимальной структуры.

Также, АКФ и ЧАКФ измеряют только степень линейной зависимости между переменными и их задержками и не отражают нелинейные отношения. Для построения адекватных нелинейных математических моделей достаточно эффективным является расширение множества переменных модели с помощью различных преобразований исходных прогнозируемого и экзогенных временных рядов. Например, путём добавления в регрессионную модель регрессоров в степенях и их комбинации. Однако это приводит к существенному повышению сложности модели. Поэтому необходимо использовать быстрые алгоритмы отбора переменных модели. Такое расширение множества переменных называется порождением переменных.

Проблема мультиколлинеарности является основной при порождении признаков и может приводить к неустойчивости оценок параметров модели и их дисперсии. Признаками наличия мультиколлинеарности являются: значительные изменения в оценках параметров при добавлении или удалении параметра модели, превышение некоторого порога абсолютным значением корреляции между переменными, близость к нулю определителя матрицы парных корреляций признаков [3]. Основными методами устранения мультиколлине-арности являются либо выбор признаков, либо введение ограничений на параметры модели [4, 5].

Современный этап развития методов прогнозирования характеризуется все более расширяющимся применением сложных математических моделей и методов. В настоящее время эффективное моделирование сложных процессов предполагает использование различных приемов декомпозиции модели. Декомпозиция позволяет реализовать общую модель как совокупность иерархически взаимосвязанных более простых моделей разного уровня иерархии. Такая структура модели позволяет повысить точность и адекватность моделирования в случае многомерных, нелинейных и нестационарных процес-

сов, упростить и повысить устойчивость процесса идентификации [6].

Исследователи в области построения математических моделей систем, объектов, процессов стремятся к созданию универсальной, обобщённой методики решения этой задачи. Идея применения системного подхода как методологической основы постановки и решения проблем идентификации модели не является новой для научной литературы. Одним из первых её высказал в 1984 г. В. Я. Ротач: «...задача построения математической модели объекта является системной задачей, требующей для своего решения системного подхода» [7]. В системном подходе, в отличие от традиционного, анализ ведется от системы к элементам, от сложного к простому.

2. Анализ литературных данных и постановка проблемы

Одними из наиболее главных наработок в прогнозировании ВР на протяжении последнего десятилетия являются комбинации математических моделей и гибридные модели. Гибридные математические модели и методы были использованы в различных приложениях. Математические модели и методы, использующие искусственные нейронные сети (ИНС) и алгоритмы поиска наиболее значимых переменных, являются наиболее часто используемыми. Не менее популярными среди гибридных математических моделей являются модели на основе метода «Гусеница^-SSA и моделей сезонной авторегрессии - проинтегрированного скользящего среднего (SARIMA). Использование компонент разложения метода «Гусеница^-SSA является достаточно эффективным способом порождения переменных [8-10].

Среди гибридных математических моделей следует также выделить модели, объединяющие ИНС с моделями ARIMA [11-14], метод группового учёта аргументов (МГУА) с ИНС [14], МГУА с различными преобразованиями [15], МГУА с LSSVM (least squares support vector machines) [16].

Гибридные модели, предложенные в [8-10] включают в себя большое количество лаговых переменных. Это приводило к значительным временным затратам на обучение модели. Кроме того, точность модели падает из-за присутствия в модели значительного количества незначимых переменных. Поэтому актуальной задачей является разработка методов для получения моделей с разряженной структурой. Основной целью статьи является предложить метод отбора существенных переменных для моделирования временного ряда с заданной точностью.

Анализ литературы [17-22] позволяет сделать вывод, что по мере развития прогностика существенно видоизменяется, возникают новые методологические подходы, совершенствуются методы разработки прогнозов, приобретают более четко определенный вид, расширяются сферы объектов прогнозирования, уровень и эффективность использования прогнозов.

Множества переменных моделей, приведенных в [8-10] бывает недостаточно для построения модели удовлетворительного качества. В этом случае требуется расширить множество переменных с помощью

yt = F

Pt

преобразований исходных переменных с целью уменьшения недоопределённости линейной модели.

В некоторых методах поиска наиболее существенных переменных модели, таких как, например, генетические алгоритмы, необходимо одновременно оценивать множество решений на каждой итерации алгоритма, что требует больших вычислительных затрат [23].

Достаточно много методов было предложено для решения задачи отбора переменных модели, такие как эволюционные алгоритмы [24, 25] и ортогональный метод наименьших квадратов [11, 26]. Эволюционные методы опираются на генетические алгоритмы при выборе адекватной модели. Алгоритм случайного поиска для отбора переменных и их задержек рассматривает множество переменных и произвольно формирует группы переменных. Данный вид поиска обычно применяется в сочетании с многослойными нейронными сетями [12], с нейронными сетями с радиально-базисными функциями (RBF) [13] или с методом опорных векторов (SVM) [27] в качестве руководства для поиска оптимального подмножества переменных. Ортогональные методы используют набор ортогональных переменных-кандидатов, уменьшающих среднеквадратическую ошибку аппроксимации модели. Также популярными среди методов отбора значимых переменных являются: методы индуктивного построения регрессионных моделей, шаговые методы, Лассо (Least absolute shrinkage and selection operator), алгоритм ступенчатой регрессии, метод наименьших углов (LARS, Least Angle Regression) и пр. [3].

Тем не менее, проблема поиска подмножества подходящих переменных нередко может стать трудноразрешимой [28]. Проблема выбора переменных как трудноразрешимая охарактеризована в [29].

3. Цели и задачи исследования

Целью проведенных исследований является:

1. Рассмотреть системный подход к построению математических моделей прогнозирования взаимосвязанных нестационарных ВР.

2. Используя системный подход, синтезировать гибридные разреженные нелинейные математические модели прогнозирования взаимосвязанных нестационарных ВР.

Для достижения поставленных целей решались следующие задачи:

1. Предложена структурная схема моделей прогнозирования взаимосвязанных нестационарных ВР, подходящая для описания практически любой, известной на сегодняшний день, комбинированной, гибридной или декомпозиционной модели прогнозирования ВР.

2. Предложены эффективные методы порождения и отбора значимых переменных моделей прогнозирования взаимосвязанных нестационарных ВР.

Основная идея отбора переменных заключается в исключении подмножества переменных, которые

не только имеют незначительную, или вовсе не имеют, прогностическую информацию, но и те, которые сильно коррелируют между собой. Таким образом, задача состоит в выборе подмножества переменных с минимальной потерей или без потери точности моделирования.

3. На основе предложенной структурной схемы прогнозирования взаимосвязанных нестационарных ВР разработать гибридные разреженные нелинейные математические модели прогнозирования взаимосвязанных нестационарных ВР.

4. Гибридные математические модели и методы прогнозирования взаимосвязанных нестационарных временных рядов

Пусть имеется прогнозируемый ВР у^ 1 = 1,п и экзогенные ВР х["', 1 = 1,п, 1 = 1,^ Необходимо определить прогнозную нелинейную функцию F от лаго-вых значений порождённых переменных (ПП) р['',

i = 1, ? " такую, что

N+1 Л f N+1 Л f N |

(1) (1) (2) (2) (2) 1иГ' J [и"1 J I?"1 ' Pt-t2 , — ,Pt-t4 ,pt-t1 ,Pt-t2 , — ,Pt-tn2.....pt-t1 ,Pt-t2 , — ,Pt-t„N+1

и г'

где et ~ N (0, о;;) - ошибки модели.

4. 1. Системный подход к синтезу математических моделей прогнозирования нестационарных взаимосвязанных временных рядов

Для того чтобы реализовать процесс прогнозирования, необходимо выявить его основные этапы и определить их содержание. При этом описание процесса прогнозирования следует формировать с учётом системного подхода, что требует построения системного описания как ВР, так и процедуры прогнозирования.

При системном исследовании описание элементов математической модели прогнозируемого случайного процесса проводится не само по себе, а лишь в связи и с учетом их места в целом. Элементы рассматриваются как относительно неделимые - только в рамках конкретной задачи и данной математической модели. Свойства прогнозной математической модели как целого определяются не только и не столько свойствами её отдельных элементов, сколько свойствами её структуры, особыми интегративными связями рассматриваемой математической модели. Сложность и многообразие элементов, связей математической модели обусловливают её иерархическое строение -упорядоченную последовательность ее различных компонентов и уровней взаимосвязи между ними. Говоря о системном подходе, имеют в виду также выработку средств соединения, синтеза в теоретическом знании отдельных представлений о сложных случайных взаимосвязанных процессах.

Рассмотрим модель сложной системы (процесса), представленную в форме триад (рис. 1) [30].

Рис. 1. Модель сложной системы (процесса) в форме триад

Опишем монады данной модели: I - интегратив-ные свойства модели; Т - цель функционирования модели; S - множество структур модели; Р - множество параметров базовых элементов и связей между

ними; Ф - множество базовых элементов (подсистем) модели; Н - множество отношений между базовыми элементами модели. Общее число триад подлежащих рассмотрению в такой системе равно С3. Остановимся подробнее на триадах «З-Ф-Н» и «1-Ф-Н», раскрывающих механизм образования различных структур из элементов множеств Ф и Н.

В [8, 9] приведен обзор литературы, в которой предложены различные типы комбинированных, гибридных или декомпозиционных моделей прогнозирования ВР. Основные из этих моделей приведены на рис. 2.

На рис. 3 изображена структурная схема, подходящая для описания практически любой, известной на сегодняшний день, комбинированной, гибридной или декомпозиционной модели прогнозирования ВР.

Рис. 2. Основные гибридные модели, используемые при прогнозировании нестационарных ВР

Рис. 3. Структурная схема моделей прогнозирования нестационарных взаимосвязанных временных рядов

X =

Yi

X(N)

Здесь y(j), x(l) - эндогенные и экзогенные

(i)

ВР соответственно, j = 1,Ny; pt - компоненты разложения (КР), базисные функции или порождённые переменные. Четырёхугольниками обозначены математические модели. В свою очередь КР могут быть разложены на более простые КР (EMD, SSA, SVM, разложение Фурье и пр.) (рис. 3, a) или, наоборот, сгруппированы в более интерпретируемые составляющие (рис. 3, б, SSA, GMDH и пр.). Также КР могут порождать ВР (рис. 3, в) (например, мгновенные амплитуды в методе Гиль-берта-Хуанга и пр.). Агрегирующей моделью часто выступают сумматор, искусственная нейронная сеть или полином Колмогорова-Габора и пр.; корректирующей - модель ARIMA и пр. Среди методов отбора переменных можно выделить: GA, FOS, LARS, LASSO, GMDH и пр.

Различают гомогенный состав иерархической модели, содержащей однотипные элементы (как, например, в методе МГУА, многослойном персептроне) и гетерогенный состав, элементы которой разнотипны. В общем случае состав, как правило, является смешанным. Однотипность не означает полной идентичности и определяет только близость основных свойств. Гомогенности, как правило, сопутствует избыточность и наличие скрытых, дополнительных, не использованных ресурсов или возможностей.

4. 2. Краткое описание используемых математических моделей и методов прогнозирования нестационарных взаимосвязанных временных рядов

В статье предложены два метода структурной идентификации гибридных разреженных моделей. Первый метод основан на использовании методов «Гусени-ца^-SSA, быстрого ортогонального поиска и модели SARIMA. Второй - на использовании метода «Гусени-ца^-SSA, МГУА и модели SARIMA.

Рассмотрим структурную схему моделей прогнозирования (рис. 3). Для первой и второй из предлагаемых моделей в качестве порождающих переменных выбираем КР метода «Гусеница^-SSA. В качестве метода прореживания переменных для первого метода выбираем метод FOS, для второго - МГУА. В качестве агрегирующей модели в первом методе выбираем обычный сумматор, а во втором - редуцированный методом МГУА полином Колмогорова-Габора. В качестве корректирующей модели для обоих случаев выбираем модель SARIMA, построенную на остаточных ошибках агрегирующей модели.

Поэтому вначале рассмотрим модели и методы, составляющие предлагаемые гибридные.

4. 2. 1. Многомерный вариант метода «Гусени-ца^-SSA

Пусть требуется получить прогноз N+1 взаимосвязанных нестационарных ВР Y=y1, y2, ..., yn и X(l) = = x(l), xj0, ..., x^ , i = 1,N произвольных длин ny и n (l), i = 1,N соответственно. Алгоритм анализа временных рядов многомерным вариантом метода «Гусени-ца^-SSA состоит из следующих этапов.

1. Вложение.

Выбираем длину окна L и строим траекторную матрицу

Y ... YKy X« X«

X

K Xi2) x22) ... xk2)

Kx(i) 1 2 KX

X

(n)

... X1

(n) i

]=[

= IY X(1) X(2) ... X1

r(N)l

из векторов вложения х|') = (х|') х(-1 ... х|+)ь_1) ,

1<Л<К (1), К (1) =п й-Ь-1, 1 = 1,^ Здесь Y - траекторная

матрица ряда Y, Х(1), 1 = 1,N - траекторная матрица рядаХ(1), 1 = Щ

2. Сингулярное разложение.

Сформируем матрицу S = ХХТ и произведём сингулярное разложение траекторной матрицы X ВР. Обозначим:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Х1, Х2, ..., - собственные числа матрицы S, взятые в порядке убывания ( Х1> Х2>...> >0);

- и1, и2, ..., и - ортонормированная система собственных векторов матрицы S, соответствующих этим собственным числам.

Произведём разложение траекторной матрицы

X = X1 +... + Xd,

(1)

где

X;=^UjVT; ^ j=1- 2- - d; d = max{i|X,>0}.

3. Группировка.

Разложение (1) в сгруппированном виде может быть записано следующим образом:

X = Xji + X,2 +... + Xv

(2)

где X, = X, + X, +... + X, ; 1 = |ь, 1 ..., 1 }, 1 = 1,г; I- -

I) 1 1-2 1-р) 1 I 11 Л2' ' J ' 1

непересекающиеся подмножества множества индексов {1, 2, ..., d}.

4. Диагональное усреднение.

Матрицы X,, 1 = 1,г сгруппированного разложения переводятся в систему новых рядов длины п. Для этого они разбиваются следующим образом X,. ^У^ XII1) XI20 ... X(N)]. Далее производится диагональное усреднение каждой из матриц Уг и X(k), к=1, 2, ..., N, ) = ^преобразуя их в ВР ^ и XX(к), к=1, 2, ..., N, ) = 1,г соответственно. В результате каждая матрица XI порождает многомерный ВР (^ XX(1) XX[2) ... XX) = й - восстановленную аддитивную компоненту исходного ряда ^ X(1) X(2) ... Xм). Переобозначим ВР ^ и XX(к), к=1, 2, ..., N, ) = й в ВР у® X<4 1 = Л = й.

4. 2. 2. Метод отбора переменных

Важным вопросом построения модели прогнозирования взаимосвязанных нестационарных ВР является определение экзогенных переменных и их лаговых значений, т. е. передаточной функции модели. При вы-

боре наилучшего подмножества регрессоров имеются два противоположных по характеру критерия. С одной стороны, для получения надёжных прогнозов ВР, в модель нужно включать как можно больше регрессоров. С другой стороны, с увеличением числа регрессоров возрастает дисперсия прогноза и увеличиваются затраты, связанные с получением информации о дополнительных регрессорах, поэтому желательно включать в уравнение как можно меньше регрессоров.

-(j) где w =

V v

0 x(j)

—(j) —(0) i T\-1 T — g , w = (V ) ■ P ■ y - решение для

w , полученное на предыдущем шаге и одинаковое для всех кандидатов р®. Таким образом, добавление разных переменных-кандидатов приводит к изменению только последнего элемента вектора w .

0) т - МАт -(0)

Обозначив аи' = 1 р ■ у -I V ■ w , оценки моде-

4. 2. 2. 1. Алгоритм быстрого ортогонального поиска

Среди алгоритмов, предложенных выше, для поиска вида передаточной функции модели предлагается использовать алгоритм быстрого ортогонального поиска, как одного из наиболее эффективных и быстрых. Метод быстрого ортогонального поиска (FOS, Fast Orthogonal Search) был предложен М. Коренбергом [31] для определения адекватной модели и её параметров. В этом алгоритме для определения существенных переменных используются следующие соображения.

Пусть требуется отобрать существенные переменные модели вида

y=PT■g,

где У = (У1,У2,--Уп ^ g = (gl,g2,--gn ^

P=

p(1) p12) pf p(22)

p(M) p2M)

рП1) p(n2) ; p(M)

-0)

р - вектор представляющий]-ю переменную.

Пусть VTV - разложение Холецкого матрицы РтР. При добавлении переменной-кандидата в матрицу Р разложение Холецкого примет вид:

-(j) Р

P PÙ)| =

V1 0

V(j)lT xj

v -(j) V v

0 x(j)

(3)

где (уй х - новый столбец матрицы V, а для модифицированной матрицы Р система нормальных уравнений Рт ■ у = Рт ■ Р ■ g будет иметь вид

-(j) Р

„ j "(j) P Р

■ y.

Из выражения (3) следует T

V1 0

jT (j) v x'

Л! "(j)

V v

0 x'

(j)

"(j)

pt ■ У jT -

Р ■ У

(4)

_ (j)

а из (4) - w =

x(j) Vx v

-(0) w

jT - (jT "(0) ■ Уv I ■ w

ли могут быть получены из выражения:

-(j)

V v

0 x'

(j)

/-(0)4 w

x

Можно определить изменения в весовых коэффици-

/-(0)4

-(j) .-(j) -(j) ентах g , Дg , используя выражение g =

-(0)

\-> T —(0) T —(0) где g - решение P1 ■ P ■ g = P1 ■ w до изменения ма-

. (0) —(0)4 трицы P I V ■ g = w . Тогда

0

.-(j) + Ag ,

v "(j)' V v

0 x(j)

.-(j) Ag =

(5)

и новые оценки у:

у« = ГP p(j)ï g(j) = y<0) + fP p(j)\ A(j)

-(0) n

где y = P-g

оценка, полученная на предыду-

щем шаге, а Ду^ = ^Р AgНаилучшая пере-

-0) • :—

менная из множества р , J = 1,т - признак, который дает наибольшее приращение Ду. Таким образом,

' Рт 4

(A У )2 = |a j1 A y(j) = (A g(j))1

r. "«4 ."(j) P p Ag .

Подставляя преобразованное разложение Холец-кого (3):

VAy(j)l2=ÎAg(j)4 T

V1

0

j1 (j) v x"'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V v

0 x'

(j)

.-(j) ■ Ag a.

Применив выражение (5), получим

VA?'4 "

"(j)'

V v

IV 0 x(j),

\ 2

."(j) ■ Ag

02

Таким образом,

.-(j) Ay

2 a

(j)

2

По этому выражению можно судить о том, насколько сильно добавление j-й переменной влияет на моделируемый временной ряд, а, следовательно, позволяет отобрать существенные переменные из множества кандидатов.

4. 2. 3. Модель авторегрессии - проинтегрированного скользящего среднего

Сезонная модель авторегрессии - проинтегрированного скользящего среднего (SARIMA) в операторной форме может быть представлена в следующем виде [32]:

yt =

9MB) ф;+(вГ

(6)

где у^ 1 = 1,п - исходный или преобразованный (нормированный или прологарифмированный) центрированный ВР; п - объём выборки; В - оператор сдвига по времени на одну единицу назад, такой что В1хк = хк-1;

Ф++ (В) - обобщенный оператор авторегрессии порядка р+ = + р- = £р&;

Ф++(В) = ФР.(В)^5С11 VSD22

D1, 1 = 1,п5 - порядок взятия разности S1; S1, 1 = 1,п5 -период 1-й периодической компоненты, причем S1 = 1;

BS

- количество периодических компонент; VS упрощающие операторы такие, что

Vt =(1 - BSl ) Xt = Xt - 3

Ф*. (B) - обобщенный оператор авторегрессии порядка

p вида

ФИВ)=П ^(BSl ); фкИ, 1=1,nS

полиномы от В 1 степеней р1 соответственно, определяющие составляющие авторегрессии периодических компонент с периодами S1 соответственно; 0*. (В) - обобщенный оператор скользящего среднего порядка

вида

е;.(в)=и ^ (BSi ); вЦ^ 1=1,nS

полиномы от ВЙ1 степеней *1 соответственно, определяющие составляющие скользящего среднего периодических компонент с периодами S1 соответственно; а1 - случайный процесс типа белый шум.

4. 2. 4. Метод группового учета аргументов

В наиболее общем виде функцию, аппроксимирующую зависимость одного ВР от N других можно представить следующим образом:

yt = F(x(Vt2) ,...,x(n)).

В качестве такого аппроксиматора часто выступает полином Колмогорова-Габора [6]:

N /л N N ,л /л

yt = ao+Xai ■ x(,+H

1=1 1=1 j=1

N N N

ъ ^ ■ xi0-x<j)^ x<k)-1=1 j=1 k=1

aij - Xt - Xt +

(7)

В МГУА эта сложная зависимость заменяется множеством простых функций, так называемых частичных описаний (ЧО):

yM= f (xt1),xf)); yt21) = f (xf),xf)); ...; ytC1) = f (xtM-1),xtM)),

(8)

где С = С^ причем функция f всюду одинакова.

Часто в качестве функции f выбираются простые зависимости вида:

у, ( xtl) ,xtj) ) = ao + a1 ■ x(') + aj ■ x<j) + a3 ■ x(') ■ xf

y(xtl),xtj))

= a0 + a1 ■ xil)+ a2 ■ xij)-

+ a= a5 ^

(9)

(10)

связывающие только две переменные.

Модели (8) составляют первый ряд метода, из которых выбираются Я наилучших моделей по комбинированному критерию эффективности и внешнего дополнения. На втором этапе алгоритма полученные и отобранные на обучающей выборке значения у[1;1) перенумеровываются по порядку и рассматриваются в качестве аргументов второго ряда:

у(12)=f(у11д),у(2д)); у,22) = f(yt1j),y?j)); .;

(CR ,2) ,( (R-11) (RJ)\

yt - f (yt 'Vt ).

Коэффициенты данных моделей находятся, используя данные той же обучающей последовательности, которая использовалась и на первом этапе алгоритма. Алгоритм построения рядов продолжается до тех пор, пока будет уменьшаться минимальная ошибка комбинированного критерия эффективности и внешнего дополнения наилучшей модели каждого следующего ряда или пока сложность модели не превысит информативные возможности обучающей выборки.

4. 3. Структурная идентификации гибридных нелинейных разреженных математических моделей временных рядов

В моделях, рассмотренных в [8, 9] использовались все лаговые переменные определённого порядка как значимые. Таким образом, это приводило к существенным временным затратам при идентификации таких моделей. Кроме того, оценивание большого количества

n

и

несущественных лаговых переменных приводило к неточностям в оценивании переменных.

В статье предложен метод идентификации передаточных функций моделей, представленных в [8, 9], использующий алгоритм быстрого ортогонального поиска, который отбирает лаговые переменные прогнозируемого и экзогенных временных рядов таким образом, что первыми отбираются переменные наиболее коррелируемые с прогнозируемой величиной.

Пусть задано множество прогнозируемой и экзогенных переменных

X -[у, х11) х[2)

На этапе группировки методом «Гусеница»-SSA данное множество переменных преобразуется в сумму компонент разложения:

у =1 у х? = Х х ] = 1,К

(у)

у, - FOS

(ы+1)г щ ()

«о + X

!=1 .И у

(в)

ф;(в) 1

Прогнозные значения компонент предлагается получать при помощи моделей, предложенных в [9].

4. 3. 1. 1. Метод структурной идентификации гибридной разреженной модели на основе методов «Гу-сеница»-5$А, быстрого ортогонального поиска и модели SARIMA

Перед выполнением алгоритма переменные необходимо нормировать.

1. Формируем множество прогнозируемого и экзогенных ВР:

(11)

X = [ у, х« х,2)

] ■

Применяя метод «Гусеница»-SSA к данным ВР, переходим к множеству порождённых переменных

4. 3. 1. Гибридная разреженная модель на основе методов «Гусеница»-SSA, быстрого ортогонального поиска и модели SARIMA

(1)

X'' = [^ 11

((N+1):

w,

(1)

w;

w1

((N+1)^;

w

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(2) (2)

((N+1)1-:

w

(2)

П((Н+1)г)

X' -

(2)

[у11) у[:

~(2,2) ~(2,г

х х

у(г) х(1,1) х(1,2)

x(N,l) x(N,2)

е) г)].

(2,1)

От множества X переходим к следующему множеству переменных:

Также вводим обозначения

w

•1)= у[1), 1 - 1,г, w[г+('И)г+1)- х?д), 1 -1,г, j - 1,N.

Выберем величины максимальных задержек по времени т1 для 1-й КР соответственно, 1 -1,(N +1)г. Тогда получим множество

1. Методом FOS определяются наиболее значимые переменные из множества X'' и определяются коэффициенты модели

у, - FOS

(т)г т

■ X X

1-1 j-0

(12)

2. Определяются остаточные ошибки модели

е, - у, - FOS

(N+l)г т,

«0 + X X а ijWti)j 1-1 j=0

и строится для них модель SARIMA:

X'' - w

_^Д1) ,,Д1)

w

(1)

w

((N+1» ,„((N+1).

wt

w

(2) (2)

((N+1)^

w

(2)

>+1)г)

Матрицу X'' будем использовать в алгоритме FOS в качестве матрицы Р.

В качестве модели, описывающей отношение между прогнозируемым ВР и порождёнными ВР wik) используем модель регрессии, построенную на компонентах разложения метода 'Tусеница"-SSA w[i), 1 -1,(N +1)г и их задержках w[1-j, 1 -1, (N +1) г, j - 1,т1:

(Мг щ (

у, -«0 + X Xaijwt1-) j+е 1-1 j=0

Обозначим через FOS(•) - оператор, прореживающий, подаваемую в качестве его аргумента, регрессию путём применения алгоритма FOS к переменным данной регрессии. Тогда предлагаемая модель примет вид:

/ (N+1)! - ^

у, -FOS

X X

1-1 j-о

В качестве корректирующей модели выберем модель SARIMA. Тогда окончательный вид модели будет следующий:

е ^ а

е, Ф++(В) аt.

3. Строится модель (11).

4. Проверяется адекватность модели и вычисляются прогнозы, предварительно перейдя к разностной форме записи модели.

Для модели (11) дадим обозначение «Гусени-ца»^А - FOS - SARIMA.

Рис. 4. Схема алгоритма структурной идентификации гибридной разреженной модели на основе методов «Гусеница»-SSA, FOS и модели SARIMA

4. 3. 2. Гибридная нелинейная разреженная модель на основе методов «Гусеница^-SSA, МГУА и модели SARIMA

Как было сказано выше, в качестве эффективного аппроксиматора выступает полином Колмогорова-Га-бора:

(N+1)r ml

у, = ao + Е E a-w" + l=1 j=0

(N+1)r (N+1)r ml mj

+е EEE

l=1 j=1 k=0 h=0

aïikhwt-kw Еь+••■+et,

(13)

4. 3. 2. 1. Метод структурной идентификации гибридной разреженной нелинейной модели на основе методов «Гусеница^-SSA, МГУА и модели SARIMA

Перед выполнением алгоритма переменные необходимо нормировать.

1. Формируем множество прогнозируемого и экзогенных ВР:

x = [у, x« xt2' ... x(n)] .

Применяя метод «Гусеница»-88А к данным ВР, переходим к множеству признаков

где (13) - полином Колмогорова-Габора, построенный на компонентах разложения метода "Гусеница''-SSA

w

l = 1,(N +1)r и их задержках w,-, i = 1,(N +1)r,

1 = 1,т^ а = (а0,а10,.,ай,.,айкЬ,.) - вектор коэффициентов модели, 1, 1, ... = 1, 2, ....

Поэтому в данном разделе в качестве порождённых переменных предлагается использовать не только компоненты разложения метода «Гусеница»-88А и их лаговые значения, но и их степени и сочетания.

Запишем полином (13) в виде линейной комбинации порождённых переменных,

у, = Е ^Р?, II=M,

(14)

где индекс l p(l)

номер члена линейной комбинации, pt"' - мономы полинома Колмогорова-Габора. Переменные р,1-1 поставлены в однозначное соответствие мономам полинома (13).

В работе предложен метод идентификации разреженных нелинейных математических моделей ВР, основанных на полиномиальных функциях высоких порядков, способных выполнять сложные нелинейные отображения. Точность моделирования требует большого количества базисных функций их задержек, степеней и сочетаний. Поэтому алгоритм FOS для редукции линейной комбинации (14) является непригодным при большом количестве компонент разложения. В этом случае для редуцирования полинома (13) целесообразнее использовать МГУА.

Обозначим через GMDH(») - оператор прореживающий, подаваемый в качестве его аргумента, полином Колмогорова-Габора путём применения МГУА к переменным данного полинома. Тогда предлагаемая гибридная прореженная нелинейная модель на основе методов «Гусеница^-SSA, МГУА и модели SARIMA примет следующий вид:

yt = GMDH

(N+1)r (N+1)r ml mj

(N+1)r ml

ее

l=1 j=0

Е Е EEajbw&wHb+•

l=1 j=1 k=0 h=0

eq„(B)

Ф++(в)

(15)

X'' = |w(1' w(-)

w

(1) w(2) w(2) t-m. wt wt-1

w

■(2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w

((N+1)r) w((N+1>

t-1

w

((N+1)r)

((N+1)r)

2. Методом GMDH формируется нелинейная модель

f (N+1)r ml

yt = GMDH

a,

ЕЕ

l=1 j=0

a«wH+

(N+1)r (N+1)r ml m.

Е ЕЕЕ

l=1 j=1 k=0 h=0

Е Е EEaljkbwt-kwtl+•

(16)

3. Определяются остаточные ошибки модели

et = yt - GMDH

a0 +

(N+1)r ml

ЕЕ

l=1 j=0

aïwt- j+

(N+1)r (N+1)r ml mj

"E E EEa-+••■

j wt-kwt-h "

l=1 j=1 k=0 h=0 и строится для них модель SARIMA:

£t =

e;-(B) Ф++(В)'

4. Строится модель (15).

5. Проверяется адекватность синтезированной модели и вычисляются прогнозы, предварительно перейдя к разностной форме записи модели.

Рис. 5. Схема алгоритма структурной идентификации гибридной разреженной нелинейной модели на основе методов «Гусеница»-SSA, МГУА и модели SARIMA

Прогнозные значения компонент \¥1 предлагается получать при помощи моделей, предложенных в [9].

Для модели (15) дадим обозначение «Гусени-ца^-SSA - МГУА - SARIMA.

5. Способы обнаружения мультиколлинеарности

Важным условием, необходимым для получения состоятельных оценок модели, является отсутствие мультиколлинеарности. При наличии мультиколлинеарности определитель матрицы X''TX'' системы нормальных уравнений равен или близок нулю и, следовательно, матрица вырождена. Поэтому решения системы нормальных уравнений не существует.

Для оценки мультиколлинеарности в работе предлагается использовать следующий критерий:

X2 —(N -1 -1 (2п + 5)] ^(|XX),

где XXTXX - определитель матрицы

(17)

щий асимптотическое распределение Пирсона X с

1/2п (п -1) степенями свободы; п - число наблюдений; М - число независимых переменных; матрица I Xт)( I составлена из значений независимых переменных, преобразованных по формуле

^л/п

где х; , о1 - соответственно среднее значение и сред-неквадратическое отклонение для ¿-ой независимой переменной.

Считается, что мультиколлинеарность отсутствует, если выполняется условие

Х > Хтабл ,

где X - расчётное значение критерия X , определяемое по формуле (17), Xтабл - табличное значение критерия X2 с 1/2М(М-1) степенями свободы и выбранным уровнем надёжности.

В противном случае для каждой ¿-й переменной определяются величины

^ -

м

IX^ '

ных компонент или к КР метода «Гусеница»-88Л, что и делается в данной работе.

Для непосредственной оценки порядка выбираемых моделей с учётом требований точности и надёжности результатов исследуются показатели относительной надежности оценок параметров (коэффициенты вариации):

О: (т)

V1 --^А 1=±1, ...,±т.

Коэффициент вариации используется как мера рассеивания коэффициентов модели. Для проведения конкретных расчётов могут задаваться специальные ограничения, определяющие надёжность полученных коэффициентов модели, например

О: (т) -

< 0,5 (1 - 0,т).

Подобное ограничение должно задаваться для каждого отдельного случая. Действительно, с увеличением порядка модели уменьшается величина о1 (т), но и величины при больших порядках модели быстро уменьшаются. В этой связи надёжность (достоверность) получаемых оценок коэффициентов существенно падает. Таким образом, необходимо достижение определённого компромисса между некоторым увеличением точности и уменьшением надёжности при увеличении порядка модели. Для используемых моделей выбирается такой порядок, для которого реализуется условие

О1(т)

< 1,

где величина 1 задаётся из некоторых условий, например по критерию Стьюдента. Но можно указать и область значений порядка модели, для которого надёжность вычисляемых оценок коэффициентов мала. Эта область задаётся условием

О1(т)

< ^

где Гхтх) - 1-й диагональный элемент матрицы [XX^

При отсутствии мультиколлинеарности величина d1 близка к единице, при наличии мультиколлинеар-ности - стремится к бесконечности.

Знание величины d1 даёт основание оставить или отбросить показатель х". Надёжность принимаемого решения относительно независимой переменной х" определяется величиной

^-Ц -1) п^, 1 1 1 ;м-1

которая имеет распределение Фишера с v1 - п - М и v1 - М -1 степенями свободы.

Если выполняется условие ^ > Р , то принимается решение о том, что независимая переменная х1' должна оставаться в модели. В целях устранения или уменьшения мультиколлинеарности можно переходить к разностям для исходной информации или использовать методы факторного анализа, метод глав-

где , - значение критерия Стьюдента с V степенями свободы и уровнем надёжности р. В этом случае доверительный интервал для коэффициентов модели имеет вид

ат -(т)< ат < ат

+ ЧлА

и включает нулевые значения коэффициентов ат , т. е. гипотеза о нулевом математическом ожидании оценок коэффициентов не отвергается [21].

6. Результаты исследования исследований эффективности предложенных моделей прогнозирования временных рядов

Исследование предлагаемых гибридных моделей на основе многомерного варианта метода «Гусе-

¡к

т

т

ница»^Л, МГУА, Р08 и моделей SЛRIMЛX осуществим, сопоставляя их результаты прогнозов с результатами прогнозов, полученных гибридными моделями на основе методов «Гусеница»-SSA и моделей SARIMA [9]. Реализация рассмотренных моделей производилась в математическом пакете МЛ^ЛВ RT014a.

Тестирование будем проводить на ВР часовых значений потребления электроэнергии объёма 1008 значений, что соответствует 6 неделям (рис. 6), с учётом изменения температуры воздуха (рис. 7). Обучение моделей будет производиться на выборках данных за 5 недель (840 значений), а тестирование - на данных последней недели. Прогноз будет выполняться одно-шаговый и производиться скольжение окна до последнего значения ВР.

Сравнительный анализ эффективности прогнозирования рассмотренными моделями будем осу-

ществлять при помощи статистики RMSE (Root Mean Squared Error):

RMSE = I -1 ? (yt - yt )2,

где П| - количество вычисленных прогнозов, у, -фактические значения ВР, у, - прогнозные значения ВР.

Для упрощения эксперимента выберем длину окна L=T4. В модель включим все 24 КР прогнозируемого ВР и 24 КР экзогенного ВР. Выберем максимальную величину задержки для каждой из КР равной т1=10, 1 -1,2 ■ 24.

На рис. 8 приведена столбчатая диаграмма зависимости среднеквадратической ошибки моделирования ВР от включения в модель 1-ой переменной, отобранной методом F0S. Для наглядности отобразим зависимость только для 30-и первых отобранных переменных.

Рис. 6. График ВР часовых значений потребления электроэнергии за 6 недель (в МВт)

Рис. 7. График ВР часовых значений изменения температуры воздуха за 6 недель (в С°)

Рис. 8. Зависимость среднеквадратической ошибки аппроксимации ВР методом РОБ от включения в модель ¡-й

переменной

i t=1

Тестирование будет проводиться следующим образом. Длина окна метода «Гусеница»-$$А будет фиксированной, но модели одного класса будут отличаться количеством переменных, отобранных алгоритмом FOS и корректирующей моделью. На рис. 8 изображена столбчатая диаграмма зависимости среднеквадрати-ческой ошибки прогнозирования ВР методом «Гусе-ница»-SSA - FOS - SARIMA от включения в модель ьго регрессора, отобранного по алгоритму FOS. Для наглядности отобразим зависимость только для 80-и первых отобранных переменных.

В результате обучения модели «Гусеница»-SSA -FOS - SARIMA, для наиболее эффективной модели метод FOS отобрал 60 переменных (рис. 9). С ростом числа оцениваемых параметров и связанным с этим улучшением точности происходит уменьшение статистической надёжности оценок параметров. Это объясняется тем, что при переходе от быстрого убывания величин дисперсий ошибки модели к медленному, векторы переменных модели становятся практически линейно зависимыми, а матрицы соответствующих систем нормальных уравнений - плохо обусловленными.

На рис. 10 приведены прогнозы модели «Гусени-ца»-SSA - FOS - SARIMA.

Ошибка RMSE модели «Гусеница»-SSA - FOS -SARIMA составила 5,791.

Протестируем модель «Гусеница»-SSA - МГУА -SARIMA на тех же данных. В качестве ЧО выберем (10). Параметры метода «Гусеница»-SSA оставляем теми же. Для МГУА, для упрощения, выберем количество слоёв не более 15-и и количество отбираемых моделей на каждом слое - 40.

Точки предыстории, по которым осуществляется выбор модели тренда оптимальной сложности, разбиваем на обучающую и проверочную последовательности. Объём проверочной выборки составляет 30 % от общего объёма данных. Разбиение целесообразно осуществлять по величине их дисперсии относительно среднего значения. При этом способе разбиения предыстории для определения коэффициентов модели используем более удалённые точки от среднего значения, а проверочную последовательность составим из точек, имеющих меньшую дисперсию.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 9. Зависимость среднеквадратической ошибки прогнозирования ВР методом «Гусеница»-5$А — FOS — SARIMA

от включения в модель иго регрессора

4600 4500 4400 4300 4200 4100 4000 3900 3800 3700

1 —Временной ряд

А Л/ I — Прогноз 1

1 г V 1

, / 1 'I г м /\Ц Л

г п

\ 1 \ * Р 1 ) \ д\ и г \ / 1 г

*Н IX)

о о о о

Рис. 10. График потребления электроэнергии и прогнозы, полученные моделью «Гусеница»-SSA — FOS — SARIMA

В результате обучения модели «Гусеница»-SSA -МГУА - SЛRIMЛ была получена модель МГУА со следующей структурой (табл. 1).

Таблица 1

Структура модели, полученной по МГУА

№ слоя Индексы переменных

15 6

14 7, 120

13 211, 7, 214, 196

12 492, 283, 65, 113, 314, 548

11 156, 76, 25, 72, 2, 1, 29, 155

10 164, 572, 0, 418, 157, 374, 49, 411, 413, 191, 574

9 92, 42, 527, 17, 128, 2, 550, 433, 482, 293

8 32, 588, 5, 17, 31, 7, 15, 35, 25, 24, 21

7 42, 410, 65, 209, 59, 201, 419, 64, 206, 28, 302, 417, 297

6 7, 15, 19, 25, 29, 32, 27, 30, 2, 37, 22

5 34, 11, 17, 23, 26, 36, 37, 28, 35, 6, 38, 22

4 270, 78, 32, 12, 37, 15, 22, 28, 26, 29, 24, 31, 16

3 40, 2, 42, 8, 4, 47, 12, 57, 24, 28, 29, 17, 22, 46, 32, 13

2 639, 642, 638, 700, 59, 63, 201, 100, 234, 297, 301, 270, 356, 212, 205

1 2114, 935, 824, 1045, 2104, 1054, 833, 934, 711, 598, 721, 608, 2109

переменные 20, 45, 9, 21, 8, 10, 35, 30, 7, 6, 40

На рис. 11 приведены прогнозы модели «Гусени-ца»^Л - МГУА - SЛRIMЛ.

Ошибка RMSE модели «Гусеница»-SSA -МГУА - SЛRIMЛ составила 3,639.

На рис. 12 приведены ошибоки прогнозирования для рассмотренных классов моделей.

Из результатов видно существенное снижение ошибки прогнозирования предложенными нелинейными разреженными моделями в сравнении с гибридными моделями на основе методов «Гусеница»-SSA и моделей SЛRIMЛ.

7. Выводы

В работе приведена структурная схема, подходящая для описания практически любой известной на сегодняшний день комбинированной, гибридной или декомпозиционной модели прогнозирования временных рядов. На основе данной схемы предложены методы структурной идентификации разреженных нелинейных моделей взаимосвязанных нестационарных временных рядов на основе методов «Гусеница^-SSA, быстрого ортогонального поиска, метода группового учёта аргументов и моделей SARIMA.

Рис. 1 16 14

12 10

1. График потребления электроэнергии и прогнозы, полученные моделью «Гусеница^-SSA — МГУА — SARIMA

Рис. 12. Диаграмма ошибок прогнозирования для рассмотренных классов моделей

Метод «Гусеница»-SSA в работе применяется для порождения переменных. Метод быстрого ортогонального поиска, в одной из предложенных моделей, применяется для оптимального прореживания. В другой - метод группового учёта аргументов применяется для прореживания полинома Колмогорова-Габо-ра, построенного на компонентах разложения метода «Гусеница»-SSA, примененного к прогнозируемому и экзогенным временным рядам. Для коррекции прогнозов в обеих моделях использовалась сезонная модель авторегрессии - проинтегрированного скользящего среднего.

Выбор соответствующего набора лаговых значений переменных повышает эффективность модели прогнозирования, снижает затраты на параметрическую идентификацию модели и облегчает интерпретацию прогнозируемого ВР.

Предложенный алгоритм структурной идентификации на основе алгоритма FOS использует тот факт, что базисные функции, наиболее коррелируемые с прогнозируемым ВР являются наиболее значимыми переменными модели. Алгоритм сортирует все возможные переменные-кандидаты в порядке убывания

их корреляции с прогнозируемым ВР. Показано, что такой порядок отбора гарантирует, что наиболее существенные переменные будут отобраны первыми. Используемый в работе алгоритм быстрого ортогонального поиска применяется, чтобы отобрать наиболее значимые переменные и вычислить связанные с ними весовые коэффициенты с помощью ортогонального поиска и разложения Холецкого.

Экспериментальные результаты показывают высокую эффективность предложенных моделей прогнозирования в сравнении с гибридными моделями на основе методов «Гусеница^-SSA и моделей SARIMAX.

Таким образом, решение проблемы синтеза класса математических моделей прогнозирования взаимосвязанных нестационарных ВР является сложным, требующим перебора большого количества вариантов. Субъектом структурной идентификации (СИ) таких моделей должен быть коллектив специалистов, а сама СИ должна являться системным объектом. Используя приведенные схемы и с появлением новых методов разложения, отбора, порождения переменных и прогнозирования временных рядов, можно синтезировать новые классы гибридных моделей.

Литература

1. Давыдов, В. А. Очистка геофизических данных от шумов с использованием преобразования Гильберта-Хуанга [Текст] /

B. А. Давыдов, А. В. Давыдов // Электронное научное издание "Актуальные инновационные исследования: наука и практика". - 2010. - № 1.

2. Городеций, А. Е. Нечеткое математическое моделирование плохо формализуемых процессов и систем [Текст] / А. Е. Городе-ций, И. JI. Тарасова. - СПб.: Изд-во Политехи, ун-та, 2010. - 336 с.

3. Стрижов, В. В. Методы выбора регрессионных моделей [Текст] / В. В. Стрижов, Е. А. Крымова. - М.: Вычислительный центр им. А. А. Дородницына, 2010. - 60 с.

4. Страгович, В. Г. Адаптивное управление [Текст] / В. Г. Страгович. - М.: Наука, 1981. - 381 с.

5. Смоляк, С. А. Устойчивые методы оценивания [Текст] / С. А. Смоляк, Б. И. Титаренко. - М.: Статистика, 1980. - 208 с.

6. Седов, А. В. Моделирование объектов с дискретно-распределенными параметрами: декомпозиционный подход [Текст] / А. В. Седов. - М.: Наука, 2010. - 438 с.

7. Гинсберг, К. С. Проблема структурной идентификации для цели проектирования системы автоматического управления [Текст]: труды X междун. конф. / К. С. Гинсберг // Идентификация систем и задачи управления. - Институт проблем управления им. В. А. Трапезникова РАН. - М.: , 2015. - С. 43-80.

8. Щелкалин, В. Н. Гибридные модели и методы прогнозирования временных рядов на основе методов «Гусеница^-SSA и Бокса-Дженкинса [Текст] / В. Н. Щелкалин // Восточно-Европейский журнал передовых технологий. - 2014. - Т. 5, № 4 (71). - С. 43-62. doi: 10.15587/1729-4061.2014.28172

9. Щелкалин, В. Н. Гибридные математические модели и методы прогнозирования временных рядов с учётом внешних факторов [Текст] / В. Н. Щелкалин // Восточно-Европейский журнал передовых технологий. - 2014. - Т. 6, № 4 (72). - С. 38-58. doi: 10.15587/1729-4061.2014.31729

10. Щелкалин, В. Н. Гибридные математические модели и методы прогнозирования взаимосвязанных нестационарных временных рядов [Текст] / В. Н. Щелкалин // Восточно-Европейский журнал передовых технологий. - 2015. - Т. 1, No 4 (73). -

C. 42-58. doi: 10.15587/1729-4061.2015.37317

11. Zhang, G. P. Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model [Text] / G. P. Zhang // Neurocomputing. - 2003. - Vol. 50. - P. 159-175. doi: 10.1016/s0925-2312(01)00702-0

12. Jain, A. An evaluation of artificial neural network technique for the determination of infiltration model parameters [Text] / A. Jain, A. Kumar // Applied Soft Computing. - 2006. - Vol. 6, Issue 3. - P. 272-282. doi: 10.1016/j.asoc.2004.12.007

13. Su, C. T. Combination of time series and neural network for reliability forecasting modeling [Text] / C. T. Su, L. I. Tong, C. M. Leou // Journal of Chinese Industrial Engineering. - 1997. - Vol. 14. - P. 419-429.

14. Wang, W. Improving daily stream flow forecasts by combining ARMA and ANN models [Text] / W. Wang, P. V. Gelder, J. K. Vrij-ling // International Conference on Innovation Advances and Implementation of Flood Forecasting Technology, 2005.

15. Onwubolu, G. C. Design of hybrid differential evolution and group method of data handling networks for modeling and prediction [Text] / G. C. Onwubolu // Information Sciences. - 2008. - Vol. 178, Issue 18. - P. 3616-3634. doi: 10.1016/j.ins.2008.05.013

16. Samsudin, R. A hybrid GMDH and least squares support vector machines in time series forecasting [Text] / R. Samsudin, P. Saad, A. Shabri // Neural Network World. - 2011. - Vol. 21, Issue 3. - P. 251-268. doi: 10.14311/nnw.2011.21.015

17. Бэнн, Д. В. Сравнительные модели прогнозирования электрической нагрузки [Текст] / Д. В. Бэнн, Е. Д. Фармер; пер. с англ. - М.: Энергоатомиздат, 1987. - 200 с.

18. Тутубалин, В. Н. Теория вероятностей и случайных процессов [Текст]: учеб. пособие / В. Н. Тутубалин. - М.: Изд-во МГУ, 1992. - 400 с.

19. Прангишвили, И. В. Идентификация систем и задачи управления: на пути к современным системным методологиям [Текст] / И. В. Прангишвили, В. А. Лотоцкий, К. С. Гинсберг, В. В. Смолянинов // Проблемы управления. - 2004. -№ 4. - С. 2-15.

20. Щелкалин, В. Н. Системный поход к синтезу класса моде- лей для прогнозирования взаимосвязанных нестационарных временных рядов [Текст] / В. Н. Щелкалин // Материалы 15-й Международной научно-технической конференции SAIT, 2013. - УНК «ИПСА» НТУУ «КПИ», 2013. - С. 338-339.

21. Горелова, В. Л. Основы прогнозирования систем [Текст]: учеб. пособ. / В. Л. Горелова, Е. Н. Мельникова. - М.: Высш. шк., 1986. - 287 с.

22. Гребенюк, Е. А. Проблемы субъективности в решении задач управления и прогноза, связанных с анализом временных рядов [Текст] / Е. А. Гребенюк, М. Г. Логунов, О. А. Мамиконова, Л. А. Панкова. - Человеческий фактор в управлении, 2006. -С. 156-178.

23. Valenca, I. Hybrid Systems to Select Variables for Time Series Forecasting Using MLP and Search Algorithms [Text] / I. Valenca, T. Ludermir, M. Valenca // Eleventh Brazilizn Symposium on Neural Networks, 2010, p. 247 - 252. doi: 10.1109/sbrn.2010.50

24. Yao, L. Genetic algorithm based identification of nonlinear systems by sparse volterra filters [Text] / L. Yao // IEEE Transactions on Signal Processing. - 1999. - Vol. 47, Issue 12. - P. 3433-3435. doi: 10.1109/78.806093

25. Abbas, H. Volterra-system identification using adaptive real-coded genetic algorithm [Text] / H. Abbas, M. Bayoumi // IEEE Transactions on Systems, Man and Cybernetics, Part A. - 2006. - Vol. 36, Issue 4. - P. 671-684. doi: 10.1109/tsmca.2005.853495

26. Chen, S. Orthogonal least squares learning for radial basis function networks [Text] / S. Chen, C. Cowan, P. Grant // IEEE Transactions on Neural Networks. - 1991. - Vol. 2, Issue 2. - P. 302-309. doi: 10.1109/72.80341

27. Ivakheneko, A. G. A review of problems solved by algorithms of the GMDH [Text] / A. G. Ivakheneko, G. A. Ivakheneko // Pattern Recognition and Image Analysis. - 1995. - Vol. 5, Issue 4. - P. 527-535.

28. Guyon, I. An introduction to variable and feature selection [Text] / I. Guyon and A. Elisseeff // J. Mach. Learn. Res. - 2003. -Vol. 3. - P. 1157-1182.

29. Blum, A. L. Selection of relevant features and examples in machine learning [Text] / A. L. Blum, P. Langley // Artificial Intelligence. - 1997. - Vol. 97, Issue 1-2. - P. 245-271. doi: 10.1016/s0004-3702(97)00063-5

30. Гузаиров, М. Б. Системный подход к анализу сложных систем и процессов на основе триад [Текст] / М. Б. Гузаиров, Б. Г. Ильясов, И. Б. Герасимова // Проблемы управления. - 2007. - № 5. - С. 32-38.

31. Korenberg, M. J. A robust orthogonal algorithm for system identification and time-series analysis [Text] / M. J. Korenberg // Biological Cybernetics. - 1989. - Vol. 60, Issue 4. - P. 267-276. doi: 10.1007/bf00204124

32. Евдокимов, А. Г. Оперативное управление потокораспределением в инженерных сетях [Текст] / А. Г. Евдокимов, А. Д. Тевя-шев. - Х.: Вища школа, 1980. - 144 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.