Научная статья на тему 'Метод анализа многомерных временных рядов с использованием корректировки предварительно рассчитанной обратной матрицы: исследование в сравнении с другими методами Data Mining'

Метод анализа многомерных временных рядов с использованием корректировки предварительно рассчитанной обратной матрицы: исследование в сравнении с другими методами Data Mining Текст научной статьи по специальности «Математика»

CC BY-NC-ND
340
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Бизнес-информатика
ВАК
RSCI
Область наук

Аннотация научной статьи по математике, автор научной работы — Перминов Г. И.

В ходе анализа многомерных временных рядов применение традиционных статистических методов определяется соблюдением достаточно строгих предпосылок, позволяющих использовать лежащий в основе этих методов МНК К ним относятся: отсутствие мультиколли-неарности, гетероскедастичности и автокорреляции. В задачах экономического анализа и многомерного прогнозирования с целью уменьшения числа рассматриваемых переменных и быстрого получения приблизительных закономерностей целесообразно прибегнуть к методам интеллектуального анализа данных.. Методы интеллектуального анализа данньх позволяют решить проблемы определения структуры математической модели и вырождения обратной матрицы, когда статистические методы не дают должного результата.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод анализа многомерных временных рядов с использованием корректировки предварительно рассчитанной обратной матрицы: исследование в сравнении с другими методами Data Mining»

МЕТОД АНАЛИЗА МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ С ИСПОЛЬЗОВАНИЕМ КОРРЕКТИРОВКИ ПРЕДВАРИТЕЛЬНО РАССЧИТАННОЙ ОБРАТНОЙ МАТРИЦЫ: ИССЛЕДОВАНИЕ В СРАВНЕНИИ С ДРУГИМИ МЕТОДАМИ Data Mining

Г.И. Перминов,

к.т.н, доцент кафедры бизнес-аналитики Государственного университета - Высшей школы экономики

В ходе анализа многомернъх временнъх рядов применение традиционнъх статистических методов определяется соблюдением достаточно строгих предпосълок, позволяющих использовать лежащий в основе этих методов МНК К ним относятся: отсутствие мультиколлинеарности, гетероскедастичности и автокорреляции. В задачах экономического анализа и многомерного прогнозирования с целью уменьшения числа рассматриваемъх переменнъх и быстрого получения приблизительнъх закономерностей целесообразно прибегнуть к методам интеллектуального анализа даннъх. Методш интеллектуального анализа даннъх позволяют решить проблемъ определения структури математической модели и вирождения обратной матрицш, когда статистические методш не дают должного результата.

^ л

1. Проблема выбора структуры математической модели

До настоящего времени основное внимание уделялось вопросам параметрической идентификации, тогда как структурная идентификация системы считалась заданной. Реальные задачи практики часто имеют дело с плохо структурированными данными, когда неизвестна не только сама модель, но и принадлежность её к тому или иному классу: линейная или нелинейная, детерминированная или стохастическая и так далее. Для практики важна проблема структурной идентификации систем. Эта проблема решается в таких методах интеллектуального анализа, как эволюционное и генетическое программирование, построение, обучение и анализ с помощью искусственных нейронных сетей и др.

2. Проблема вырождения обратной матрицы1

При возникновении проблемы мультиколлинеарности диагональные элементы матрицы, обратной к матрице системы нормальных уравнений, соответствующие линейно зависимым аргументам, обращаются в бесконечность, что и приводит к воз-

никновению проблемы вырождения обратной матрицы.

Здесь рассматривается метод решения этой проблемы — не рассчитывать заново обратную матрицу при подключении/удалении в модель новых членов, а корректировать обратную матрицу, полученную на предыдущем шаге.

Предлагаемый метод базируется на 3-х теоремах (доказательство теорем 1, 2, 3 здесь опускается):

Теорема 1. При добавлении в модель новой переменной нет необходимости рассчитывать обратную матрицу заново. Можно скорректировать ранее вычисленную обратную матрицу по предложенному правилу.

Пусть х1, х2,...^п — линейно независимые векторы, xn+1 — вектор той же размерности, что и x^■.

Определим матрицы Xп и Xп+1; Фп и Фп+1:

Утверждается, что

1В разработке алгоритма принимал участие Трубицын Н.Ф.

(1)

(2)

Здесь АТ = (Аф А2, ..., Ап) — коэффициенты линейной комбинации х1, х2, ..., хп, аппроксимирующие хп+1 по методу наименьших квадратов;

р — сумма квадратов погрешностей аппроксимации.

Теорема 2. Если обратная матрица рассчитана, то при удалении переменной из модели нет необходимости определять новую обратную матрицу, достаточно скорректировать имеющуюся матрицу по определённому правилу.

Если

(3)

Фп и Фп+1 определены выше в (1) и (2).

Здесь Фп* — матрица пхп, а — п — мерный вектор,

С — скаляр.

Теорема 3. Здесь описываются рекуррентные процедуры по включению в модель новых членов и выбрасыванию старых Пусть

Утверждается, что

ф,' = ф! ,

С* (4)

а *а *т

Здесь Ф*п-1, а*, С* определяются соотношением

ФУ =

Ф„_і а * а *г С*

Матрица Ф П_1 получается из матрицы Фп-1 путём перемещения г-ой строки и г —го столбца в конец.

3. Алгоритм структурно-параметрической идентификации модели, порождающей наблюдаемый процесс

Пусть имеем многомерный процесс с г входами и 5 выходами.

Цель исследования — поиск механизма, порождающего данный процесс.

Будем представлять процесс следующей феноменологической моделью:

^ выход процесса с г входами и 5 выходами определяется настоящим и прошлым значением входа процесса

и/к),..., и(к-п), I = 1, 2, ..., г ^ и прошлыми значениями выходных сигналов

П — глубина памяти г-го входа и, т. — глубина памяти у-го выхода 1.

Представим информацию об истории процесса в виде:

Х={и1(к),..., И](к-П1);иг(к),..., иг(к-п,); г](к),..,г;(к-т

или

г8(к-1),..„ г5(к-т,)},

Число членов выражения (5) равно

(5)

(6)

Пусть нас интересует некоторый а-ый выход 1(к). Представим его в виде нелинейной полиномиальной регрессионной модели:

р р р

1(к) = а0+'^а,х,(к) + Х»л(А)л (А).

Ы 1=1 м

+ И Ё Ё ач1Х' №х) ^Х1 (к)+ ■■■■ +

ЕЕ-Х ач-щ (А’)- ■ (А’К (*)

г-1 у—і q=v

q — степень нелинейности.

(7)

Заметим, что сложность модели быстро растет с увеличением д. Если р — число прессоров, то число членов модели (6) равно

{р + дУ-р\д\

(8)

Здесь п! = 1*2*3*.*т.

По нашему мнению следует ограничиться значениями д <= 4 и р < =20. При этом максимально допустимое число членов будет 10626.

Задача идентификации модели процесса заключается в поиске регрессионных параметров

[Ад, А], А2,..., А„-і]-А

Здесь Ао=ао, А1=а1, ..., Ар = ар, Ар+1 = а11,

(9)

Введем сигнальный вектор — вектор регрессоров

где

У0(к)=1

У/(к)=и1(к)

Уп1+,(к)=и,(г-п,)

У„_2 (к) = = 5Г1 (к - т, )5,_, (к - т,л)

К-1 (к.) = г] (к - т5). (10)

Теперь модель (7) запишется в виде

г(к)=Уг(к)А (11)

Так как модель линейная по параметрам, то элементы вектора А можно определять по методу наименьших квадратов (МНК). Однако непосредственное применение МНК затруднительно по следующим причинам:

1) высокая размерность (много параметров, некоторые из них присутствуют несколько раз с различными лагами, комбинации регрессоров),

2) слабая обусловленность обратной матрицы из-за мультиколлинеарности.

Введение большого количества регрессоров не только усложняет структуру модели, но и обязательно вносит мультиколлинеарность, что приводит к увеличению погрешности. Поэтому определение рациональной структуры модели — важная задача, требующая нетривиальных поисков.

Для структурной идентификации модели результирующей переменной требуется найти простой метод выбора существенных регрессоров. Предлагаемый алгоритм основывается на трех вышеприведённых теоремах.

Идея предлагаемого алгоритма заключается в выборе «перспективных на существенность» членов в массиве исходных данных для включения в модель, при этом после выбора следующего члена делается проверка, нет ли «неперспективных на существенность» членов в модели. Их следует исключить.

Прямой перебор возможных регрессоров в исходном массиве с проверкой перспективности по тем или иным критериям с решением задач МНК на каждом этапе включения члена в модель делает задачу практически неразрешимой. Использование теорем 1—3 позволяет свести прямой пересчёт к поправкам, это даёт возможность избежать многочисленных обращений матриц — самой трудоёмкой операции метода.

Шаг 1.

Задать параметры г, т, 5, т, д и N.

Задать уровень значимости ¥а ¥ теста. Например, ¥0,05 = 3,84 + 9,9/Ж

Вычислить число максимально возможных членов

(р + ч)\

п = ■

р\д\

где

Сформировать векторы:

X, V), У1,...,УП_1 (см. выражение 11).

Шаг 2.

Положить к = 1. Это означает, что сначала выбирается модель, включающая только один член.

Шаг 3.

Для оставшихся п-к возможных членов V*, I =1,

2, ... , п-к вычислим коэффициенты их представления в виде комбинации текущих членов модели

чтобы оценить, что даёт (какую новую информацию) член V*:

Вычислим

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[^е,.(а)2(а)]2

а =

: = 1 - к.

Здесь а — индекс суммирования.

Шаг 4.

Выберем член с максимальным значением Qh обозначим его Утях, соответствующие й{ и обозначим атах и Е~тах. Сформируем новую матрицу данных: Д^Н^Лах].

Вычислим Стах = Е~тах Е~тах. Теперь матрица 0*+1 = (Дш ^^+1)"1 может быть вычислена, используя приведённые математические факты, весьма просто, без фактического обращения.

Шаг 5.

Вычислим параметры модели, погрешности и информационный критерий ¥ с учетом добавления Ртах в модель.

Шаг 6.

Если Bk+1 < Bk и F >= F0 05, то включаем Vmax в модель (k => k+1) и переходим к шагу У.

Иначе (если Bk+1 >Bk или F < Fa) новые члены в модель не включаются и процедура построения структуры модели заканчивается.

Шаг 7.

Вычислим для всех k членов F и BIC:

F, Bk-1, і, і = 1, ..., k, т.е. критериальные значения, когда отбрасывается i-ый член из k-членной модели. Для этого отбросим i-ый вектор из матрицы Rk и получим матрицу Rk_1,i (обозначим через max).

Сдвинем i-ую строку матрицы Ф~к и i-ый столбец в конец (вниз). Изменённую матрицу Ф~к обозначим как:

Тогда

Шаг 8.

Рассмотрим вычисленные на шаге У величины. Обозначим наименьшие значения Ft и Bk_1,i через Fmin и Bmin соответственно.

Если Bmin<Bk, то выбросим соответствующий

член, k< = k-1, Rk<= Rk,mim Фк <= ^mi^ ak < =

ak,min и переходим на шаг У.

Если Fmin< Fa, отбрасываем соответствующий член и переходим к шагу У.

Если отброшен последний выбранный член или когда все возможные члены включены в модель, процедура заканчивает построение модели. Во всех других случаях необходимо перейти к шагу З.

Замечание. В алгоритме шаги 1 и 2 инициируют алгоритм, шаги З, 4, 5 и б используются при выборе члена, шаги У и 8 используются при отбрасывании члена.

4. Программная реализация алгоритма и сравнение результатов, полученными различными методами Data Mining

Сравнение результатов, полученных различными методами интеллектуального анализа данных, и с применением предлагаемого алгоритма проводилось на многомерном массиве макроэкономических показателей России с результирующей переменной «Средний индекс РТС».

Описание исходных данных представлено в табл.1:

Приведем некоторые результаты:

4.1. Предлагаемая модель (установлена предельная степень модели — квадратичная) (рис.1)

Квадратичная модель имеет вид:

RTS=50,4590625+0,00747140*IMQ(t-4)* RTS(t-l)-9,72723960*INVFC(t-2) *RTS(t-8)

В квадратичную модель, помимо самого «Среднего индекса РТС (RTS_M)» с лагом 1 и 8 месяцев, вошли «Индекс производства — добыча полезных ископаемых (IMQ_C)» c лагом 4 месяца и «Инвестиции в основной капитал (INVFC_M)» с лагом 2 месяца.

4.2. Эволюционный алгоритм «Поиск законов

(Find Law)» пакета PolyAnalyst

Алгоритм FL предназначен для автоматического нахождения в данных нелинейных зависимостей (вид которых не задаётся пользователем) и представления результатов в виде математических формул, включающих в себя и блоки условий. Алгоритм основан на технологии эволюционного, или генетического, программирования. Поскольку структура и параметры модели эволюционного программирования значительно зависят от расчётного времени, приведём два варианта — расчётное время 0,2 и 0,8 минут.

Таблица 1

Имя Описание Комментарий

Time Дата, которой соответствует исследуемый показатель. Месяц, год

UNEMPL_M Количество безработных (на конец месяца) (UNEMPL_M) млн. чел

EMPLDEC_M Заявленная потребность в работниках (на конец месяца) (EMPLDEC_M) тыс. чел.

LESN_SA Индекс производства Лесное хозяйство и предоставление услуг в этой области, месячный, сглаженный, с сезонной и календарной корректировкой (LESN_SA) 1995.1 = 100

LESN Индекс производства Лесное хозяйство и предоставление услуг в этой области, месячный, исходный ряд (LESN) 1995.1 (факт) = 100

FISH_SA Индекс производства Рыболовство, месячный, сглаженный, с сезонной и календарной корректировкой (FISH_SA) 1995.1 = 100

FISH Индекс производства Рыболовство, месячный, исходный ряд (FISH) 1995.1 (факт) = 100

IMQ_C_SA Индекс производства Добыча полезных ископаемых, месячный, сглаженный, с сезонной и календарной корректировкой (IMQ_C_SA) 1995.1 = 100

IMQ_C Индекс производства Добыча полезных ископаемых, месячный, исходный ряд (IMQ_C) 1995.1 (факт) = 100

EPNG_SA Индекс производства Добыча сырой нефти и природного газа, месячный, сглаженный, с сезонной и календарной корректировкой (EPNG_SA) 1995.1 = 100

EPNG Индекс производства Добыча сырой нефти и природного газа, месячный, исходный ряд (EPNG) 1995.1 (факт) = 100

MEEP_SA Индекс производства Добыча полезных ископаемых, кроме топливно-энергетических, месячный, сглаженный, с сезонной и календарной корректировкой (MEEP_SA) 1995.1 = 100

MEEP Индекс производства Добыча полезных ископаемых, кроме топливно-энергетических, месячный, исходный ряд (MEEP) 1995.1 (факт) = 100

IPCDE_SA Индекс Промышленность (C+D+E) , месячный, сглаженный, с сезонной и календарной корректировкой (IPCDE_SA) 1995.1 = 100

IPCDE Индекс Промышленность (C+D+E) ,месячный, исходный ряд (IPCDE) 1995.1 (факт) = 100

RTRD_M_DIRI Индекс реального оборота розничной торговли (RTRD_M_DIRI) 1994.1 = 100

RTRD_M_DIRI_SA Индекс реального оборота розничной торговли, с поправкой на сезонность (RTRD_M_DIRI_SA) 1994.1 (факт) = 100

RTRD_M Оборот розничной торговли в текущих ценах (RTRD_M) млрд. руб.

WAG_R_M Реальная зарплата (WAG_R_M) янв. 93 = 100

WAG_R_M_SA Реальная зарплата с поправкой на сезонность (WAG_R_M_SA) янв. 93 (факт) = 100

WAG_C_M Средняя номинальная заработная плата (WAG_C_M) рублей в месяц

INVFC_M Инвестиции в основной капитал (INVFC_M) млрд. рублей

RDEXRO_M Официальный курс доллара (RDEXRO_M) руб/долл.

RDEXRM_M Курс доллара на ММВБ (RDEXRM_M) руб/долл.

RTS_M Средний индекс РТС (RTS_M) пункты

IB_M Межбанковская ставка (IB_M) % годовых

GKO_M Доходность ГКО (GKO_M) % годовых

DEP_M Депозитная ставка (DEP_M) % годовых

CR_M Ставка по кредитам (CR_M) % годовых

RTS_CLASS Рост или падение среднего индекса РТС 1 - рост 0 - падение

Рис.1. Результаты расчёта по квадратичной модели

4.2.1. Поиск законов 0,2 минуты (ТЬ 1)

Лучшее по значимости правило:

ЯТ8_М= -0.03275* WAG_C_M+0.000231926 *ЯТЯО_МИШ*ЯТ1Ю М_ОШ_&4 *ЯТ1№_М_От_ЗА

Лучшее по точности правило:

IVА С С М* 1¥А О С Ы-19035.2 *1УА 0_С_М-14411.8 *ЛТ1Ю_М_От_5А *!( Т1Ю_М_ОПи_БА + 1.4 7402е +

Результирующие показатели модели:

Критерий Стандартная ошибка Стд. отклонение Значимость R-sq.

Наибольшая значимость 0.2868 108.4 9.478 0.9178

Наибольшая точность 0.2668 100.9 1.35 0.9288

4.2.2. Поиск законов 0.8 минут (ТЬ 2)

Лучшее по значимости правило:

ЯТ8_М = (0.097235 *1ЮЕХШ_М*1ЮЕХШ_М*ВЕР_М *РТЯОМГ)1Я18А *Я ТКОМЭШБА -689.648 *ЯЕ)ЕХЯ М_М*ЯГ9ЕХЯ М_М*ОЕ РМ-З690.4 *ЯОЕХЯМ_М*ОЕР_М-44Ш.4 *1ЮЕХЯ ММ+2.27516е+006)/(1ЮЕХКМ_М *1ЮЕХ1Ш_МЮЕР_М+6.78154 *ЯГ)ЕХЯ М_М*ЯГ)ЕХЯ М_М+190.493 ЮКО_М)

Лучшее по точности правило:

*1В~М*ЯЕ)ЕХЯ М_М*ЯЕ) ЕХЯ М_М*ОЕР_ М *ЯТЯЕ)_М_Е)1Я 1_8А *К ТЯ0_М_01Я1_$А -655.071 *1В_М*ЯЕ>ЕХЯ М_М*ЯОЕХЯ М_М*ОЕР_М-4138.8 7

*1В_М*ЯВЕХЯМ_М+2.43484е+006 ЧВМ+2.52 765е+006;/(1В_М*ЯЕ)ЕХЯМ_М

*1ВМ*Я ОЕХЯ М_ М* ЯГ) ЕХЯ М_М+190.493

Результирующие показатели модели:

Критерий Стандартная ошибка Стд. отклонение Значимость R-sq.

Наибольшая значимость 0.146 55.19 2.595 0.9787

Наибольшая точность 0.1375 51.99 not signif. 0.9811

4.3. Нейронная сеть (PolyNet Predictor) пакета PolyAnalyst

Получены следующие результаты:

Индекс значимости: 27.14

Стандартная ошибка 0.225

R-squared: 0.9494

Стандартное отклонение 85.39 Обработано точек: 134

Количество слоев сети 1

Количество узлов сети 3

Найдено правило:

*(2.65394е-005+-2.30264е-009 * РУА С_С_М))

*(-2.08283+0.0158524 ЮЕРМ+0.000962676

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

*\¥АС_С_М) + 1УАС_С_М*(-0.050212+4.85822е

4.4. Линейная регрессия ^И) пакета Ро1уЛпа1у81

Реализация этого модуля в системе Ро1уАпа^1 имеет свои особенности — автоматический выбор наиболее значимых независимых переменных и тщательная оценка статистической значимости результатов.

На исследуемом наборе данных методом линейной регрессии найдено следующее правило:

ЯТБ М = -461.338 -6.82264*МЕЕР_БА +13.5900 *ЯТ1Ю_М_Ш1и_5А -1.24002НВ М-1.40264ЮКО М

Стандарная ошибка 0.3142

R-squared 0.9013

Станд.откл 119.3

Обработано точек 134

Индекс значимости 60.19

4.5. Модель Data Mining (MS Time Series) пакета Microsoft SQL Server 2005

В результате работы алгоритма получено следующее правило:

RTSM—139.68-0.26*RTS_M(-2) +1.53

4.6. Линейная регрессия (Microsoft Linear Regression) пакета Microsoft SQL Server 2005

Алгоритм линейной регрессии на тех же данных дал следующий результат:

-4.45*(IPCDE-97.76)+0.153*(Date-36845.27)--2.39*(INVF CM-129.17)-10.94 *(EPNG-112.98)

4.7. Построение обобщенной модели

Всего было просчитано 20 моделей, включая определение логических правил, искусственная нейросеть пакета «Статистика» и т.д.

Заложенные в каждом методе ИАД различные идеи приведут к большому разнообразию и разбросу результатов. Отбросить «плохие» результаты считаем рискованным, т.к. конкретный метод, рассматривая выборку под своим углом зрения, может увидеть особенности, не улавливаемые другими методами.

Для решения этой проблемы реализуем идею, высказанную Э.Б. Ершовым — можно попытаться найти то общее, что выражается в результатах всех методов (регрессия на главных факторах).

Этот способ объединения частных результатов (прогнозов) состоит в том, чтобы представить комбинированную модель в виде взвешенной суммы частных результатов. Сумма всех весов равна 1, и сами веса находятся в интервале [0,1]. Основная проблема, которая здесь возникает, — это определение весов, поскольку именно они будут характеризовать качество объединённой модели.

Один из возможных методов этого направления объединения прогнозов — использование факторного анализа. В факторном анализе пытаются определить новые переменные, так называемые факторы Fj в значительно меньшем количестве, но наиболее полно воспроизводящие и отражающие исходные переменные X. Эти факторы представляют собой линейную комбинацию исходных признаков и находятся из различных условий (чаще всего максимизации суммы квадратов коэффициентов корреляции факторов Fj и признаков X). Поэтому новые факторы содержат максимум информации, заключённой в исходных признаках. Идея применения факторного анализа для построения обобщённой модели основана на том, что частные результаты

расчёта, полученные по г-му методу прогнозирования Ху (г = 1, 2, ..., и), являются внешним выражением некоторой реально существующей, но непосредственно неизмеримой прогнозной величины. Она и принимается в качестве обобщённого прогноза.

Математически это можно записать так:

где — частные прогнозы;

/ — обобщённый прогноз, обусловливающий корреляционную связь между частными прогнозами;

1{ — нагрузка (вес) обобщенного прогноза на частный прогноз хЦ;

ец — остаток (характерный показатель), определяющий ту часть прогноза х,, изменение которой вызвано действием случайных причин.

Выражение, приведённое выше, является моделью факторного анализа с одним генеральным фактором. При этом можно выразить обобщённый прогноз через линейную комбинацию частных прогнозов с весами а{ как регрессию на генеральном факторе.

В случае получения нескольких факторов обобщённый прогноз можно получить через взвешенную сумму регрессий на каждом факторе.

Результаты получения долей каждого метода в обобщённой модели показали примерное равенство рассмотренных методов, как в количественном, так и в качественном анализе.

4.8. Оценка качества модели как вычисление близости к обобщенной модели

Для оценки качества модели был применён метод «ближайший сосед» пакета Ро1уАпа^1, позволяющий определить степень близости частных прогнозов к обобщённому. Были получены следующие результаты:

Стандартное отклонение: 17.9174

Стандарная ошибка ^ sq.): 0.048410 (0.997657) Индекс значимости: 51.880119

Упорядоченные близости частных рассчитанных моделей к обобщенной приведены в табл. 2.

Выводы по сравнению моделей

1. Первый компонент факторного анализа объясняет 96,363 % всей вариации частных моделей, что говорит о тесной корреляции между

Таблица 2

Метод Фактор расстояния

Название Пояснения

Lag_2 Квадратичная модель с корректировкой обратной матрицы 0.00180431

FL2_CLASS Эволюционный алгоритм со временем расчета 0,8 мин пакета PolyAnalyst 0.00183658

NearNeigh Ближайший сосед пакета PolyAnalyst 0.00183888

MS_TimeSer_2 MS Time Series пакета Microsoft SQL Server 2005 0.00184421

Neuro_CLASS Нейросеть пакета Статистика 0.00184485

Lag_1 Линейная модель с корректировкой обратной матрицы 0.00184665

LR_CLASS Линейная регрессия пакета PolyAnalyst 0.00184958

FL1_CLASS Эволюционный алгоритм со временем расчета 0,2 мин пакета PolyAnalyst 0.00185628

Neuro Нейросеть пакета PolyAnalyst 0.00186457

FL2 Эволюционный алгоритм пакета PolyAnalyst 0.00186558

FL1 Эволюционный алгоритм пакета PolyAnalyst 0.00187148

DR1 Дерево решений пакета PolyAnalyst 0.00187591

WizWhy Построение логических правил пакета WizWhy 0.00188255

DR-Chaid Дерево решений пакета Clementine 0.00188766

S5 Построение логических правил пакета Clementine 0.00192955

CRT Построение логических правил пакета Clementine 0.0019315

FD Нахождение зависимостей Find Dependencies 0.00193986

See 5 Построение логических правил пакета See 5 0.0019784

MS_LR Линейная регрессия пакета Microsoft SQL Server 2005 0.00201159

MS_TimeSer_1 MS Time Series пакета Microsoft SQL Server 2005 0.00229252

расчётными данными по всем представленным моделям Data Mining.

2. Вклад частных моделей в обобщённую модель практически одинаков и составляет 0,042—0,045.

3. В частные модели вошли разные показатели (всего вошло 26 показателей). Поэтому уточнённый

расчёт статистическими методами в уменьшенном поле переменных нежелателен.

4. Наиболее близкими к обобщённому прогнозу оказались: квадратичная многомерная модель с лагами и корректировкой обратной матрицы (Lag_2), эволюционные методы пакета PolyAnalyst с поиском структуры модели и «ближайший сосед» (NearNeigh), модель Data Mining MS Time Series пакета MS SQL Server 2005, искусственная нейронная сеть пакета «Статистика» и линейная многомерная модель с лагами и корректировкой обратной матрицы (Lag_1).

5. Время расчёта исходной матрицы размером 30X135 по линейной и квадратичной моделям с лагами и корректировкой обратной матрицы составляет до 1 минуты. Кубическая модель рассчитывается уже десять — двадцать мин., а модель четвёртого порядка —около часа.

6. Предлагаемый алгоритм и его программная реализация делают возможным получать результаты с достаточной точностью с автоматическим нахождением структуры и параметров модели в приемлемое время.

7. Применение в программной реализации критериев прекращения расчётов Акайке и ВИС, упрощающих модель, привело к получению выражения с малым количеством членов, но с достаточно высокой точностью результатов. Так, ниже приведены некоторые модели:

Линейная модель ВВП:

ВВП=39.118749+1.33908416*0бъём промышленного производства^ +0.11246734*Цена на нефть(_2.

Квадратичная модель ВВП:

ВВП(=67.3921875+0.00858213*Индекс цен на строительно-монтажные работы(_0* Валовой внутренний продукт(-1+ 0,01677165* Официальный курс доллара (на конец периода)(_8* Цена нефти(-1.

Линейная модель среднедушевых денежных доходов:

Среднедушевые денежные доходы = 205,7412 + 1,0093*Валовый внутренний продукт (с лагом 0) — 16,3865* Официальный курс доллара на конец периода (с лагом в 9 кварталов). ■

Литература

1. Akaike H. A new look at the atatistical identification model //IEEE: 1074. —V.19—716—723 p

2. Andrew C. Harvey. Forecasting, Structural Time Series Models and the Kalman Filter. Econometric Theory. 1991,

3. Bollerslev T. Generalized autoregressive conditional heteroscedasticity//Journal of econometrics. -1986, V.31. 307-327 h.

4. Christian Gourieroux and Alain Monfort. Time Series and Dynamic Models// Themes in Modern Econometrics 1996, 425 с.

5. Аболенцев Ю. И., Кильдшиев Г. С. Статистическая адекватность регрессионных моделей и проблема мультиколлинеарности //Экономика и математические методы 1984. Т. XX. Вып. 6.

6. Айвазян С.А. Интеллектуализированные инструментальные системы в статистике и их роль в построении проблемноориентированных систем поддержки принятия решений. «Обозрение прикладной и промышленной математики», том 4 (1997), № 2. М.: Научное изд-во ТВП.

7. Гарбер Е. В., Горелик Н.А., Френкель А. А. Развитие адаптивных методов прогнозирования временных рядов// Статистические методы анализа экономической динамики: Ученые записки по статистике. Т. XLVI. М.: Наука, 1983.

8. Ивахненко А.Г., Мюллер Й.А. Самоорганизация прогнозирующих моделей. Киев: Наук. думка, 1985.

9. Канторович Г.Г. Анализ временных рядов. Экономический журнал Высшей школы экономики. Том.6. № 1. № 2. № 3. 2002.

10. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. М.: Финансы и статистика, 2003.

11. Савараги Е., Соэда Т., Накамизо Т. Классические методы и оценивание временных рядов. Гл. 2. Современные методы идентификации систем. М.: Мир, 1983.

i Надоели баннеры? Вы всегда можете отключить рекламу.