Научная статья на тему 'Автоматизированная проверка гипотезы о структурной стабильности тренда посредством модификации теста Чоу'

Автоматизированная проверка гипотезы о структурной стабильности тренда посредством модификации теста Чоу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
354
110
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматизированная проверка гипотезы о структурной стабильности тренда посредством модификации теста Чоу»

Савочкин А.Е.

ФГБОУ Пензенский государственный технологический университет, Пенза, Россия

АВТОМАТИЗИРОВАННАЯ ПРОВЕРКА ГИПОТЕЗЫ О СТРУКТУРНОЙ СТАБИЛЬНОСТИ ТРЕНДА ПОСРЕДСТВОМ МОДИФИКАЦИИ ТЕСТА ЧОУ

Динамика временного ряда, описывающего характеристику сложного технического объекта, зачастую позволяет обнаруживать структурную нестабильность тренда. Причиной может послужить корректировка курса движения, изменение режима работы, смена условия эксплуатации. Проверка основной гипотезы о структурной стабильности тренда проводится на основе критериев Чоу, Гуйарати [2].

"Классические" методы Чоу и Гуйарати построены на визуальном определении точки излома или на введении в модель фиктивной переменной с известными значениями, во многом объясняющими поведение зависимой переменной. Была сформулирована цель построения модифицированного теста Чоу для поиска возможного излома тренда временного ряда без участия эксперта. Поэтому задачами исследования являются формулировка постановки задачи, разработка модифицированного алгоритма, создание современной программно-аппаратной реализации, в том числе проектирование тестового набора данных.

Для достижения цели исследования предварительно следует уточнить термины "излом тренда", "структурная нестабильность тенденции" и т.п. применительно к случаю моделирования СТО. Возникающие ситуации излома для простейшего случая единственной точки приведены на рисунке 1, где знаками "+" или "-" отмечены соответствующие знаки производных линейных трендов процессе кусочно-линейной аппроксимации.

Рис. 1. Изломы тренда временного ряда

В силу того, что под фактором X здесь подразумевается время, исключаются изломы с несколькими значениями Y при одном значении фактора, пример которых изображён на рисунке 2.

Рис. 2. Пример исключаемого варианта структурной нестабильности

Согласно теореме Шаля, часть изображённых на рисунке 1 вариантов излома тренда являются изометрическими преобразованиями соседних рисунков. Таким образом, число вариантов можно сократить до случаев, например, только с возрастанием конечной точки наблюдений относительно начальной, включив крайний случай горизонтального (бокового) расположения этих точек.

Сформулируем модифицированный тест Чоу в общем виде. Для автоматизированного поиска предполагаемого изменения линии тренда следует решить оптимизационную задачу: найти максимальное значение F-критерия Фишера

F =

st-sl-sl

sh+sh

п-4

2

^ max

при соблюдении функциональных ограничений

п1 + п2 =п

п1>7 п2>7 ,

0 < хА <хВ

где - п1 и п2 - объёмы подвыборок наблюдений временного ряда, составляющих общую выборку объёмом п и не принимающих значений меньше рекомендуемых;

- XA, XB - координаты соответственно, точки излома тренда и крайней (последней) точки предсказанного значения временного ряда;

- Se2, Sei2, Se22 - суммы квадратов остатков регрессионных моделей, соответственно, для модели, построенной по всем наблюдениям, для модели по первой подвыборке наблюдений и второй подвыборке.

Найденное значение F сравнивается с критическим значением FKp, взятым при заданном уровне значимости с числами степеней свободы 2 и (п - 4). Если расчётное значение больше критического, то результат значим, граница между подвыборками соответствует времени излома тренда. Гипотеза о структурной стабильности тренда отвергается.

Схема предлагаемого алгоритма представлена на рисунке 3.

Начало

Следующим этапом является разработка исходного кода программы ритм. Код с комментариями представлен в листинге 1.

Листинг 1 . Реализация предложенного алгоритма

реализующей изложенный алго-

clear

clc

N=7;

t=[1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20];

U= [150 170 190 210 230 250 270 300 320 370 350 321 315 310 315 312 340 321 382 399]; n=length(U); n1=N; n2=n-n1;

ncount=n-2*n1+1;

NN=n1;

if ncount>=1

for i=1:ncount;

[Fr(i),Ft(i),Razb(i)] = Chou(NN,(t),(U)); count(i)=N+i;

NN=NN+1;

end

end

Fr

Ft

Razb

[Frmax,imax]=max(Fr);

Frmax

imax=imax+N

figure

plot(t,U,'*r') title('Исходная выборка') xlabel('t') ylabel('U')

function [Frasch,Ftabl,Razbienie] = Chou(NN,t,U) Razbienie=0;

m=1; %число объясняющих переменных -> t n=length(U);

n1=NN; n2=n-n1; for i=1:n1

U1(i)=U(i); t1(i)=t(i);

end

i2=1;

for i =(n1 + 1) :n

U2(i2)=U(i);

t2(i2)=t(i);

i2=i2+1;

end

k=polyfit(t,U, 1); % коэффициенты линейной регрессии Upred=t*k(1)+k(2); % предсказанные значения for i=1:n

eps=abs(Upred-U); end

epsqwad=eps.A2;

S=0;

for i=1:n

S=S+epsqwad(i); end

S; %сумма квадратов остатков

k1=polyfit(t1,U1, 1); % коэффициенты линейной регрессии U1pred=t1*k1(1)+k1(2); % предсказанные значения for i=1:n1

eps1=abs(U1pred-U1); end

eps1qwad=eps1.A2;

S1=0;

for i=1:n1

S1=S1+eps1qwad(i) ; end

S1; %сумма квадратов остатков

k2=polyfit(t2,U2, 1); % коэффициенты линейной регрессии U2pred=t2*k2(1)+k2(2); % предсказанные значения for i=1:n2

eps2=abs(U2pred-U2); end

eps2qwad=eps2.A2;

S2 = 0;

for i=1:(length(U2))

S2=S2+eps2qwad(i); end

S2; %сумма квадратов остатков

Frasch=((S-S1-S2)*(n-2*m-2))/((S1+S2)*(m+1)); %Рассчитанное значение F-статистики Ftabl=finv(1-0.05,n-2*m-2,m+1); %Табличное значение критерия Фишера

if Frasch>Ftabl

Razbienie=1; %присутствует ли перегиб в данной точке? tt=polyval(k,t);

tt1=polyval(k1,t1); tt2=polyval(k2,t2); figure

plot(t,U,'*r',t,tt,'-m',t1,tt1,'-b',t2,tt2,'-c')

axis([0.9*min(t), 1.1*max(t), 0.9*min(U), 1.1*max(U)])

grid on

title('Поиск излома тренда') xlabel('t') ylabel('U')

legend('Временной ряд','Тренд все выборки','Тренд 1ой подвыборки','Тренд 2ой подвыборки',0) end

Razbienie; end

Протестируем алгоритм. Возьмём случайный временной ряд U.

150 170 190 210 230 250 270 300 320 370 350 321 315 310 315 312 340 321 382 399

Эксперту достаточно проблематично определить по графику в какой точке может быть излом (рисунок 4).

В результате работы программы были получены следующие данны: Количество потенциальных точек излома - 7____________________

Позиция предполагаемой точки излома в выборке U 8 9 10 11 12 13 14

Значение F-критерия Фишера 11,2712 11,6640 11,6352 18,4901 31,1405 18,3756 10,0752

Табличное значение 19.4333 19.4333 19.4333 19.4333 19.4333 19.4333 19.4333

Наличие излома 0 0 0 0 1 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Определено, что максимальное значение F-критерия Фишера (31.1405) больше табличного значения (19.4333), а значит, предложенная выборка действительно нестабильна. Излом наблюдается в точке с

индексом t= 12.

Рис 5. Результат исследования выборки

Таким образом, была предложена модификация теста Чоу. Отличительной чертой предложенного алгоритма является то, что для выявления подвыборок (точки излома) не требуется участия эксперта. Дополнительным преимуществом такого подхода является возможность работы с малыми выборками данных, с неравномерным шагом наблюдений. Разработка исходных кодов программного обеспечения для

автоматизированной проверки гипотезы о структурной стабильности возможна на базе инструментальных средств продуктов класса Data Mining [1, 3] и доступна для аппаратной реализации.

ЛИТЕРАТУРА

1. О.В. Прокофьев. Концепция и способы построения систем поддержки принятия решений на основе

интеллектуального анализа данных. Глава в монографии "Системы интеллектуального анализа данных: методология, реализация, приложения": Под ред. А.Г.Дмитриенко. - Пенза: Изд-во Приволжский Дом

знаний, 2013, с.26-49.

2. Эконометрика: Учебник/ Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2005, с. 327-

334 .

3. О.В. Прокофьев, И.Ю. Сёмочкина. Технологии и программные средства реализации интеллектуального анализа данных. Труды МНПК "Современные информационные технологии". - Пенза: Пензенский го-

сударственный технологический университет, 2013, № 17, с.31-35.

i Надоели баннеры? Вы всегда можете отключить рекламу.