Особенности прогнозирования в условиях структурной неопределенности исследуемых объектов

Кузнецов Е. С.

Электронный журнал Cloud of Science. 2014. T. 1. № 1.

http://cloudofscience.ru

УДК 004.942

Особенности прогнозирования в условиях структурной неопределенности исследуемых объектов

Е. С. Кузнецов ФГБОУ ВПО Нижегородский государственный технический университет им. Р. Е. Алексеева 603950, ГСП-41, г. Нижний Новгород, ул. Минина, д. 24 e-mail: yegor_s@rambler.ru

Аннотация Рассмотрены особенности новой методики и алгоритмов прогнозирования, основанных на определении оптимальных базовых параметров процессов, оптимально дискретизированных по уровню и времени во временные ряды. Показано, что информационные системы прогнозирования, разработанные на основе этой методики, позволяют эффективно прогнозировать различные процессы.

Ключевые слова: модель исходных данных, оптимальная дискретизация данных, оптимальные базовые параметры данных, прогнозирующие операторы, прогнозирование, прогнозируемость.

ГРНТИ 28.29.00; 28.17.19

1. Введение

Развитие прогностики как науки в последние десятилетия привело к созданию множества методов, процедур, приемов прогнозирования. По оценкам зарубежных и отечественных систематиков прогностики [1], насчитывается свыше ста методов прогнозирования, в связи с чем перед исследователями возникает задача выбора метода, который давал бы адекватные прогнозы для изучаемых систем и связанных с ними процессов.

Опыт показывает, что собственную оценку сложности реализации конкретного метода можно выполнить, если иметь четкое математическое описание — математическую модель (ММ) конкретного метода, выраженную, например, в лингвистической форме в виде прогнозирующего оператора (ПО):

где {у }, 1 е[1, М ] — исходный ряд данных длины М; {р}}, р} е[ #,..., рп ] — подбираемые параметры или оптимизируемые по выбранному критерию оптимальности; {у^}, sf е[1,2,..., Ь] — прогнозируемые выборки ряда; / —

прогнозирующий оператор, характеризующий каждый из известных методов.

(1)

В практических исследованиях в качестве модели ПО, в основном, используются следующие функции /: линейная (ARMA, ARIMA) [2], квадратичная, степенная, показательная, экспоненциальная (экспоненциального сглаживания), логистическая. При этом не все процессы удается прогнозировать такими моделями, хотя в ряде случаев их удается заменять линейной комбинацией гармонических или иных функций.

Выбор метода прогнозирования обычно определяется использованием априорной информации о процессе и об объекте, который его породил.

В последнее время набирают популярность методы прогнозирования, ориентированные на обучение по прецедентам (относящиеся к разделу машинного обучения) или индуктивное обучение, основанные на выявлении общих закономерностей по частным эмпирическим данным. В этом случае, если линейная модель регрессии представляется необоснованной и предложить адекватную нелинейную модель /({уі};{ру}) ^ {у^} также не удается, в качестве компромисса строится модель вида

где фу — некоторые преобразования исходных признаков, в общем случае нелинейные. Задача состоит в том, чтобы подобрать неизвестные одномерные преобразования ф у, при которых достигается минимум квадратичного функционала ошибок [3]. Поэтому чаще используются такие модели ПО, сложность идентификации параметров которых не сильно зависит от вида их нелинейностей.

Одной из главных задач в моделях прогнозирования является нахождение порядка п ПО, который определяется преимущественно числом ее параметров [2] {Ру }, Ру є [Р1, Р2,.., Рп ] и определяет точность прогноза.

Заметим, что на практике иногда требуется прогнозировать непрерывные (аналоговые) процессы конечной длительности Т. Во многих таких случаях частота

дискретизации исходного сигнала при дальнейших расчетах не меняется, что не

соответствует строго теореме В. А. Котельникова [9], [11]. Чаще она выбирается из соображений практики кратной секунде, минуте, часу и т. д., что свидетельствует о возможной потере необходимой информации в исходных данных уже на стадии дискретизации сигнала. Выбор по Котельникову осложняется еще и тем, что не

всегда просто указать верхнюю частоту . В нашем случае, как увидим далее, модель ПО настраивается на оптимальную = 1/ Лї, учитывающую минимум потерь

исходной информации.

п

(2)

2. Метод прогнозирования на основе оптимальных базовых параметров

В известных, наиболее популярных методах определение (подбор) порядка модели и значений других параметров ПО, влияющих на точность прогнозирования модели, осуществляется независимыми между собой способами (только для п или только для Лґ).

Поэтому нами выбрана такая модель ПО, при которой ее параметры были бы согласованы между собой и находились (идентифицировались) по единому критерию специально введенных оптимальных базовых параметров (ОБП) [4], [5], [6].

Модель основана на предварительной дискретизации исходных векторных процессов продолжительности Т одновременно по времени, с периодом Лґ = Т / М, и по значению в д-уровневые временные ряды исходной длины М:

имеющие ограничения по диапазону изменения параметров ММ — уг- и продолжительности:

где r — количество компонент векторного процесса.

Определение значений ОБП заключается в нахождении такой «тройки» {A/opt, qopt, ftopt} или «пары» БП {q opt, иор1}(если есть доверие к дискретизации исходных данных и Atopt = At), при которой энтропия (3) по БП временного ряда

При этом ПО на основе локализованных ОБП {Atopt, q t, nopt} представим в виде:

Если изначально дан дискретный процесс с фиксированным шагом Д?, то для прогнозирования определяются только q ор1 и иор1. Если же изначально имеется выборка из непрерывного процесса с неоптимальным и требующим уточнения шагом Д?, то по имеющимся М отсчетам сигнал методом сплайнов восстанавливается в «непрерывный». Затем образуются новые наборы выборок процессов с разными шагами дискретизации в интервале Т /Мтах < Д < Т /Мшт, где Т — длитель-

y0, ..., yn-1, ..., y-n+1, ..., yi, ..., yk-n+1, ..., Ук, ..., yM-1

у=i

(З)

(4)

{УІ } будет минимальна:

Eymn = “ЇЙ (1^2^(Д^ q, n; Уі)) = log2 Ny,mm = «у ;opt ' log2

(5)

где

q є[qm1n, qm£K], n є [nmin, nmaxL Ny, ;mm =

(6)

f ({y\}, {Atopt, qopt, nopt}) —К yrf}.

(7)

ность исходного процесса. Тот набор из упомянутых наборов БП будет иметь число компонент Мор1 = Т /А/ор1, на котором параметры д, п дают среди всех наборов

выборок процессов наименьшее значение энтропии (3). Так определяется вся тройка ОБП {А/ор^ ^Ор^ ПОр1} .

3. Построение прогнозирующего оператора при к < М

Предлагаемый метод прогнозирования, используя только динамические параметры исходных данных, позволяет построить по ряду (2) ПО для любого к = п, п +1,..., М -1 в виде д-значной логической функции с ОБП — {А/, д, п}:

(Ук+1,..;Ук+1 ) =

т Т Т ~^\ (8)

= ( (уА^ - n+1,..., Ук - п+1 ) , (ук-п+2,..., Ук - п+2 ) , *" , {yk,..., Ук ) \~-fk,

или эквивалентной таблице истинности (ТИ), см. табл. 1 [8].

Таблица 1. Таблица истинности

Аргументы прогнозирующего оператора Прогноз

(^'1,..., У0) ^ .—і , (У1—1,..-,УпГ—1 )Т (уп ,..., Уп )

(y^,..., У1) M2,..., у2 ) — К (1 г )Т уУп +1, ..., Уп + 1 /

( У к —п+1 , ..., У к—п+1 ) (у£—п + 2,"', Ук—п + 2 ) — (+l,..., Ук+1 )

• • •

(Ум—п—1, ..., Ум—п—1 ) (1 г ) уУМ—п ,•••, Ум—п^ (ум—2, ■■■, Ум—2 ) (ум—1, -", Ум—1 )

/ 1 г )Т уУМ — п ,•••, Ум — п } (1 г ) \Ум—п+1, ..., Ум—п+1 ^ К - ^ -

Строки ТИ ПО строятся по всем идущим подряд п членам ряда отсчетов и следующего за ними отсчета, в качестве прогнозируемого ими значения. Величина п, является порядком математической модели ПО данных (2).

Порядок прогнозирующего оператора может определяться как минимальное п, при котором по одной и той же п -последовательности отсчетов прогнозируются одинаковые значения.

Когда числа п и q определяют ОБП, то ТИ оказывается непротиворечивой и

ПО может допускать минимизацию в базисах функций д-значной алгебры логики.

4. Модификация прогнозирующего оператора прогнозирование при к > М

Для прогнозирования неизвестных выборок вне заданного ряда (3) при к > М требуется модификации алгоритма (8).

Прогнозирование при к > М заключается в пошаговом построении продолжения ТИ с (М -п + 1)-й по (М + )-ю строку, где М + = 1,2,...,Ь; Ь — номер

максимального шага прогнозирования или так называемого «прогнозного горизонта» для пополнения выборок данных (8), имеющихся в исходной ТИ.

Для определения уМ+^ используется последовательное сравнение (М- п+sf)-й

п -последовательности со всеми п -последовательностями, уже имеющимися в исходной таблице, рассматриваемыми как опорные («эталонные») по критерию «минимума расстояния» между ними [6].

Ум+/ = агЕ тт ) (9)

Ук е [ Уп +1. Уп + 2. Ум + /-1 ]

где

<(-V) = Е Е у •

Уе[1,п ] 1е[1,г ]

к = п +1, п + 2,..., М + -1. (10)

В критерии близости (9) используются весовые функции индекса ] = 1,2,..., п с типом веса г = {с, I, е, к}:

у(с) = 1, у® =1+(1-7)/п, у (е) = е- ', у) = ]-1. (11)

Возможна модификация формулы (7) с учетом классов эквивалентности, каждому из которых соответствует одинаковое прогнозируемое значение исходного ряда [7].

5. Связь оптимальных базовых параметров

с предсказуемостью и восстанавливаемостью

Из введенных обозначений и алгоритма прогнозирования (8) для векторного временного ряда (3), удовлетворяющего условиям (4), существует ММ ПО, который по пор начальным, следующим подряд с шагом А/ор(. = Т / Морй, дорй-значным

выборкам исходного ряда (3) позволяет вычислить все оставшиеся М - пор1 выборок. Исходя из этого, характеризуем «голографическое» свойство векторного М, д, п-процесса — «восстанавливаемость» (с точностью 1/ дор1.) с помощью прогнозирующего оператора (7) по п г известным, следующим подряд векторам-

столбцам, последующих вектор-столбцов с любыми изменениями в них значений ряда. И это позволяет естественным образом ввести понятие «предсказуемость (прогнозируемость)» (Рг) поведения векторного ПО, как отношения энтропии

Ук+1-у УМ+-/-] ,

предсказываемой части векторных процессов к энтропии базовой (начальной части):

Предсказуемость (12) векторного ряда (3) обладает свойствами:

- зависит явно только от длины М и порядка п ор(. ПО (8);

- не может превышать длины М векторного ряда;

- возрастает с ростом М, если — ряд М, д, п при своем продолжении

« М + АМ, ^, V -рядом»;

- при пор(. = 1 предсказуемость Рг ряда максимальна и равна М.

Доказательство перечисленных свойств следует из возможности представления функции / ПО (5) в форме ТИ по тексту полной длины М [4].

6. Отличительные особенности предложенного метода

Предложен и проверен экспериментально на информационной системе прогнозирования метод, основанный на предварительной оптимальной дискретизации («оптимальном загрублении») исходных данных во временные ряды.

Используемые ОБП ^, д, п} находятся одновременно по единому энтропийному критерию, а не по различным известным ранее критериям оптимальности каждого из параметров, например, Н. Акшке [1] и В. А. Котельникова [9].

Применяемый ПО един как для скалярных, так и для векторных процессов.

Метод позволяет уточнить частоту дискретизации исходных данных, если она была выбрана не оптимально.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Используемый ПО определяется в общем случае в виде нелинейной логической функции для любого прогнозируемого процесса.

Данный метод может быть применим в случае неизвестной функциональной зависимости прогнозируемого значения.

7. Методика экспериментов. Оценка точности прогнозирования

Механизм верификации [1] прогноза позволяет выполнить оценку достоверности и точности прогноза по участку эталонного временного ряда. В качестве оценки точности прогноза используется формула

где У' — исходный (реальный) процесс; - — шаг прогноза; Ь — длина прогноза. Сравниваются исходный (у '(-), - е [М - Ь,М -1]) и спрогнозированный процессы

Рг = (іо§2 доМГор,/іо82 дПрТ) +1=(М - Пор4 )/пор4 +1 = м/пор4 < м . (12)

сохраняет ОБП, т. е. при АМ > 0 остается стационарным

(13)

(у(5), 5 е [М - Ь,М -1]) на основе исходного процесса с отброшенным концом (у '(5), 5 е [0,М - Ь -1]) . Поиск оптимальных базовых параметров и построение прогнозирующего оператора (12) осуществлялись на участке к е [0, М — Ь — 1].

В качестве экспериментальных данных был выбран «классический» тестовый ряд Ряд О-Звпвя G [2], представляющий месячные международные авиаперевозки (в тысячах) в течение 12 лет с 1949 по 1960 гг. Отличительной особенностью международных перевозок является наличие ярко выраженной сезонной составляющей. Ниже приведена таблица сравнения точности прогноза предложенного метода с наиболее популярными: метод экспоненциального сглаживания и АММА.

Таблица 2. Результаты прогнозирования международных авиаперевозок

4opt = 49, «opt = 3; r = 1, M = 119; E = 1б.84; Pr = 40

Er (L)

L 1 5 10 15 20 25

ОБП З.б5 19 24 2б 34 34

Экспоненциальное сглаживание 17.5 14 24 23 30 35

ARIMA 7 23 33 37 53 57

Исходя из результатов, можно сделать вывод, что предложенный метод при прогнозировании временных рядов с ярко выраженной сезонной компонентой уступает методу прогнозирования, основанному на экспоненциальном сглаживании. На рис. 1 изображен результат прогнозирования методом на основе оптимальных базовых параметров, выполненный с помощью программы Forecast [S], [12]. Синей линией изображен прогнозный ряд, красной — исходный ряд.

Но даже с учетом того, что прогнозирующий оператор не использует в явном виде информацию о сезонности, наличии и характеристик тренда, полученный прогноз является удовлетворительным. Если из исходного ряда вычленить тренд и сезонную компоненту, то будет получена псевдослучайная составляющая, показанная на рис. 2. Прогноз случайной составляющей показан на рис. 3. Синей линией изображен прогнозный ряд, красной — исходный ряд. В табл. 3 приведена таблица оценки точности прогноза предложенного метода.

Таблица З. Точность прогнозирования случайной составляющей международных авиаперевозок

qopt = 32,«opt = 3; r = 1, M = 119; Pr = 40

L 1 2 3 4 5 10 15

Er (L) 0.03б 0.03б 0.029 0.025 0.035 0.053 0.04б

Рисунок 1. Прогноз международных перевозок

Рисунок 2. Случайная составляющей ряда международных перевозок

Рис. З. Прогноз случайной составляющей ряда международных перевозок

8. Заключение

Таким образом, в статье предложен и проверен экспериментально новый метод прогнозирования временных рядов, основанный на предварительной оптимальной дискретизации («оптимальном загрублении») исходных данных во временные ряды. Данный метод зарекомендовал себя в задачах прогнозирования рядов, в которых априорная информация не позволяет сделать вывод о функциональной зависимости прогнозируемого значения от n предыдущих. В тех случаях, когда имеется априорная информация, например, информация о наличии сезонной компоненты, следует использовать гибридный двухуровневый подход: «классическими» методами прогнозируется регулярная часть модели (сезонность, линейность и т. п.), а остаток модели прогнозируется на основе предложенной структурной идентификации базовых параметров его источника.

Предложенный алгоритм может применяться при решении практических задач системного анализа, сводимых к задаче оптимальной дискретизации по уровню и по времени и к задаче прогнозирования временных рядов.

Литература

[1] Akaike H. A new look at the statistical model identification. // Automatic Control,

IF.F.F. Transactions on. 1974 Vol. 19. No. 6. P. 716-723. (doi: 10.1109/TAC.1974.

1100705).

„ Особенности прогнозирования в условиях

Е. С. Кузнецов _ г ..г ^ .. . „

•' структурной неопределенности исследуемых объектов

[2] Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление.— М. : Мир, 1974.

[3] Вапник В. Н. Восстановление зависимостей по эмпирическим данным.— М. : Наука, 1979.

[4] Кирьянов К. Г. Выбор оптимальных базовых параметров источников экспериментальных данных при их идентификации // Идентификация систем и задачи управления: тр. 3-й междунар. конф.— М. : ИПУ РАН, 2004. С. 187-208.

[5] Кирьянов К. Г. Идентификация динамических и информационных характеристик многоканальных систем на основе оптимальной дискретизации данных // Идентификация систем и задачи управления: тр. 9-й междунар. конф.— М. : ИПУ РАН, 2012. С. 252-265.

[6] Кирьянов К. Г., Кузнецов Е. С. Особенности прогнозирования дискретных и аналоговых векторных процессов на основе идентификации их базовых параметров // Труды 14-й Научной конференции по радиофизике. — Н. Новгород : ННГУ, 2010. С. 278-279.

[7] Кирьянов К. Г., Кузнецов Е. С. Модификация метода прогнозирования аналоговых и дискретных процессов в программе forecast 2 // Труды 12-й Научной конференции по радиофизике.— Н. Новгород : ННГУ, 2008. С. 271-273.

[8] Кирьянов К. Г., Кузнецов Е. С. Информационная система прогнозирования векторных временных рядов // Информационные системы и технологии (ИСТ-2010): тез. докл. междунар. науч.-техн. конф.— Н. Новгород : НГТУ, 2010. С. 158-159.

[9] Конева Е. С. Выбор моделей для реальный временных рядов // Автоматика и телемеханика. 1988. № 6. С. 3-18.

[10] Прогностика. Технология / под ред. В. И. Сифорова. — М. : Наука, 1990.

[11]Романюк Ю. А. Основы цифровой обработки сигналов. В 3-х ч. Ч.1. Свойства и преобразования дискретных сигналов: учеб. пособие.— М. : МФТИ, 2005.

[12] Свидетельство о государственной регистрации программы для ЭВМ. № 2008611799 / Кирьянов К. Г., Кузнецов Е. С. 09.04.2008.

Автор: Егор Сергеевич Кузнецов, Институт радиоэлектроники и информационных технологий Нижегородского государственного технического университета им. Р. Е. Алексеева.

Forecasting Features in the Structural Uncertainty Investigated Objects

Ye. S. Kuznetsov Nizhniy Novgorod State Technical University n.a. R. E. Alekseev 24, Minin st., Nizhniy Novgorod, 603155

Annotation Features of a new method and the algorithms of forecasting based on definition of optimum base parameters of processes and signals are considered, as well as optimum digitization of level and time in time numbers. The research demonstrates that information systems of forecasting, developed on the basis of this method, allows effective prediction of different processes. Key words: Model of the initial data, optimum digitization of the data, optimum data base parameters, predicting operators, forecast

Reference

[1] Akaike H. A new look at the statistical model identification. // Automatic Control, IEEE Transactions on. 1974 Vol. 19. No. 6. P. 716—723. (doi: 10.1109/TAC.1974. 1100705).

[2] Boks D., Dzhenkins G. Analiz vremennyh rjadov. Prognoz i upravlenie.— M.: Mir.

[3] Vapnik V. N. Vosstanovlenie zavisimostej po jempiricheskim dannym.— M.: Nauka, 1979.

[4] Kirjanov K. G. Vybor optimal'nyh bazovyh parametrov istochnikov jeksperi-mental'nyh dannyh pri ih identifikacii // Identifikacija sistem i zadachi upravlenija: tr. 3 mezhdunar. conf.— M.: IPU RAN, 2004. P. 187-208.

[5] Kirjanov K. G. Identifikacija dinamicheskih i informacionnyh harakteri-stik mnog-okanal'nyh sistem na osnove optimal'noj diskretizacii dannyh // Identifikacija sistem i zadachi upravlenija: tr. 9-j mezhdunar. conf. — M.: IPU RAN, 2012. P. 252-265.

[6] Kirjanov K. G., Kuznetsov E. S. Osobennosti prognozirovanija diskretnyh i analo-govyh vektornyh processov na osnove identifikacii ih bazovyh para-metrov // Trudy 14-j Nauchnoj conf. po radiofizike. — N. Novgorod: NNGU, 2010. P. 278-279.

[7] Kirjanov K. G., Kuznetsov E. S. Modifikacija metoda prognozirovanija analogo-vyh i diskretnyh processov v programme forecast 2 // Trudy 12-j Nauchnoj konferencii po radiofizike.— N. Novgorod: NNGU, 2008. P. 271-273.

[8] Kirjanov K. G., Kuznetsov E. S. Informacionnaja sistema prognozirovanija vek-tornyh vremennyh rjadov // Informacionnye sistemy i tehnologii (IST-2010): tez. dokl. mezhdunar. nauch.-tehn. konf.— N. Novgorod: NGTU, 2010. P. 158-159.

[9] Koneva E. S. Vybor modelej dlja real'nyj vremennyh rjadov // Avtomatika i teleme-hanika. 1988. № 6. P. 3-18.

[10]Prognostika. Tehnologija / Siforova V. I. (ed.).— M.: Nauka,1990.

[11]Romanjuk Ju. A. Osnovy cifrovoj obrabotki signalov. Ch.1. Svojstva i preobrazovani-ja diskretnyh signalov: ucheb. posobie.— M.: MFTI, 2005.

[12]Svidetel'stvo o gosudarstvennoj registracii programmy EVM. №2008611799 / K. G. Kirjanov, E. S. Kuznetsov. 09.04.2008

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузнецов Е. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кузнецов Е. С.

Forecasting Features in the Structural Uncertainty Investigated Objects

Текст научной работы на тему «Особенности прогнозирования в условиях структурной неопределенности исследуемых объектов»