Анализ и устранение шумовой компоненты во временных рядах с переменным шагом
Скляр Александр Яковлевич
кандидат технических наук
доцент, кафедра прикладной математики, Российский технологический университет (МИРЭА)
119602, Россия, г. Мзсква, пр-т Вернадского, 78
Статья из рубрики "Математическое моделирование и вычислительный эксперимент"
Аннотация.
В статье рассматривается методика оценки шумовой компоненты во временных рядах с переменным шагом, ее обоснование и предлагается алгоритм удаления шума из данных. Анализ строится на основе требования гладкости функции, представляющей исходные данные и имеющей непрерывные производные до третьего порядка. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных уровень шума в данных, удалить из данных шумовую компоненту. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютный, так и относительный шум в данных вне зависимости от равномерности шага измерений в исходных данных и их зашумленности, удалить из данных шумовую компоненту. Учитывая гладкость данных, получаемых в результате устранения шума, данные полученные удалением шума пригодны для выявления в них как аналитических, так и дифференциальных зависимостей
Ключевые слова: абсолютный шум, относительный шум, цифровая фильтрация шума, временной ряд, тренд, декомпозиция данных, численное моделирование, анализ временного ряда, математическая модель, обработка статистики
DOI:
10.25136/2306-4196.2019.1.27031
Дата направления в редакцию:
02-08-2018
Дата рецензирования:
03-08-2018
1. Введение
Большое количество процессов происходящих в экономике, результатов экспериментальных исследований в различных областях можно описать в виде временных рядов или последовательностей данных. Элементами такого ряда являются пары, задающие момент наступления события (значение аргумента) и соответствующий ему результат (значение функции). Последовательность событий может измеряться как с постоянным, так и с переменным шагом. Значения, сопоставляемые элементам получающегося ряда, содержат и ошибки измерения и, в общем случае, подвержены случайным внешним воздействиям. В дальнейшем такого рода ошибки измерений и результаты внешних воздействий будем трактовать, как шум.
При анализе данных временного ряда и прогнозировании на его основе возникает множество задач, связанных с выделением трендовой, колебательной и составляющих Г1,2.з,41- Для выявления таких рядов используются различные методы в зависимости от
характера данных [5,6,7,81. в то же время анализ и обработка зашумленных данных вызывает значительные трудности. Возникает задача устранения, по возможности, такого шума. Для устранения такого шума используются различные методы сглаживания,
такие как, методы скользящей средней, экспоненциального сглаживания и др. в частности методы, связанные с добавлением белого шума и последующим устранением шумовой компоненты за счет его усреднения ЦШ.
2. Оценка шумовой компоненты в исходных данных
Обозначим значения аргумента (временные отрезки) через х/ , соответствующие им наблюдаемые значения через у/ , предполагаемую функцию «истинной» зависимости - ^ х) . И исследуемый ряд представим в виде пар ( х/ , ^ х/)) . Будем рассматривать общий случай, когда исходные данные задаются с переменным шагом х/+1 = х/+ h¡ , где величины h¡ , вообще говоря, различны.
Наблюдаемые данные будем представлять в виде Я где э,-- шум.
Пусть функцию ^ х) имеет производные до 4 порядка включительно, тогда ее значение в точке х+ t может быть представлено как
Рассмотрим значения функции в окрестности точки хд . Выберем точки х^ =хд+ tk , где к = 0,1,2,3,4; tQ =0 и все tk различны.
(1)
£
В матричном виде она примет вид.
АВ = С
Где
с=и\хх0 т ». к.>;*
с
Индекс к принимает значения 1, 2, 3, 4.
Ранг матрицы/4 равен 3, следовательно, существует вектор ^ (4,,Л-Л-Л), где не все Д ^ равны 0 такой, что Л<4МО,0,0,0)( тогда ЛС-ААВ-0.
Значения А к определяются с точностью до постоянного множителя, в частности, положив Л4- 1, получим допустимый набор Л.=-(АДЛ=А) из решения системы линейных уравнений
Определитель матрицы А
д=
1 ¡1 и 111
шт *д 4 4 =
Аналогично
1 1
I О О 4 4 % 4 и
¡шь-ш-т-ь)
Поскольку вектор ^ ^ определен с точностью до произвольного множителя, то
их удобнее представить в симметричном виде
В частности, решение этой системы для равноотстоящих узлов tg=0, = t2=1, tз=-2, £4=2 дает значения • = -4=^ = 1
Учитывая (2) получаем
Отметим, что выражение слева дает с точностью до множителя ^ численное представление четвертой производной и при функциях ^ х) , представимых в виде полиномов не выше третьей степени, тождественно обращается в 0.
Далее учтем, что f ( хт + t¡< ) = ут + < - sm + < и, следовательно
При отсутствии быстрых, то есть с периодами соизмеримыми с шагом ряда, осцилляций f ( х ) величину § 24 можно считать малой, и тогда получаем
Величина систематических отклонений ^ от 0 будет тем меньше, чем
меньше будет , то есть при выборе набора из пяти точек х' <тэ <х: в
качестве базовой точки х целесообразно выбирать точку х^ . Перенумеруем точки и
введем ^ ТОгда (5) примет вид
(6)
Правая часть равенства (6) представляет собой случайную величину. Пусть величины sm+ к - независимые случайные величины с 0 математическим ожиданием и дисперсией
.2
а , тогда математическое ожидание --Среднеквадратичное значение шума о2 , таким образом, можно оценить исходя из
3. Выделение в данных функциональной и шумовой компонент
В этих условиях можно определить значения шумовой компоненты s и, следовательно, f( х) исходя из
Перепишем (7) в матричных обозначениях. Для этого введем матрицу ¿ = ( Iу) , где
, тогда
И условие минимума принимает вид или
' - - ■ " (10)
В отличие от случая с равноотстоящими узлами здесь возникает необходимость
вычисления элементов матрицы L для каждой строки (при равноотстоящих узлах ненулевые элементы матрицы L одинаковы для всех строк). Система (9) из-за ограничения является нелинейной и нахождение ее решений даже при небольшой размерности встречает значительные вычислительные трудности. В то же время решение системы линейных алгебраических уравнений (СЛАУ) из (10) при заданном значенииt не создает особых проблем. В самом деле, матрица является 9 диагональной ленточной матрицей и можно показать, что время решения СЛАУ с такой матрицей линейно по числу уравнений.
Отметим, что матрица является неотрицательно определенной и все ее собственные числа у ¡>0 .
Пусть E¡ - собственные вектора матрицы, соответствующие собственным числам у ¡>0, Тогда первое из равенств (9) примет вид
В этих условиях -1 1 ^+/ представляет собой при t>0 монотонно
убывающую функцию от t .
Заметим, что при t^■0 минимум функции s) в (8) будет достигаться, как следует из (5),
при . Последнее условие означает стремление 4-ой производной к 0, то
есть исходная функция будет близка к полиному не выше 3 степени.
При минимум s) будет достигаться, при $¡^0 и, следовательно, функция ^ х)^ y¡
4. Алгоритм удаления шума и выделения функциональной компоненты в данных
Учитывая сделанные замечания о характере функции $) можно предложить следующий итеративный алгоритм.
1. Вычисляем оценку шума а2 на основе (6). Задаем начальное значение t д .
2. Решаем СЛАУ в соответствии с (9) и вычисляем значение <
3. Если < $> > а2 , переходим к пункту 4, иначе к пункту 5.
4. Решаем СЛАУ в соответствии с (9) с t=2 tg и вычисляем значение < Если <
$> > п а2 , устанавливаем tg= t и повторяем пункт 4. В противном случае устанавливаем t^ = t и переходим к пункту 6.
5. Решаем СЛАУ в соответствии с (9) с t= tg /2 и вычисляем значение < Если < $> < п а2 , устанавливаем tg= t и повторяем пункт 5. В противном случае устанавливаем tg = t, t^= tg и переходим к пункту 6.
6. Искомое значение t лежит между tg и ^ . Решаем СЛАУ в соответствии с (9) сt= ( tg
+ tl)/2 и вычисляем значение < s/ s>. Если |< s/ s> - п а2 |<£, то останавливаем процесс и на основе вычисленных значений s/■ рассчитываем значения искомой функции f( х/) = Уг s/ . Если нет, то строим новый интервал, устанавливая в зависимости от выполнения неравенства < s, s> > п а2 либо tQ= t/ либо^ = t и переходим к пункту 6.
Отметим, что говоря о шуме и его дисперсии в (6) и (7) предполагается, что он представляет собой одинаково распределенную случайную величину на всем временном ряде. Если это не так, то вместо абсолютной величины шума s/■ в (5) шум удобнее
представлять в виде 5/=ф( х, у) и/ так, чтобы случайная величина и/ была бы одинаково
распределенной на всем временном ряде. Наиболее естественно предполагать при большом разбросе исходных данных, что шум является результатом измерений, которые имеют постоянной относительную погрешность. В этом случае естественно принять $/= У/и/ , тогда (6) и (7) примут соответственно вид
(10)
(ii)
Тогда дисперсия относительного шума u определяется из (11)
И задача (7) приобретает вид
Или в матричном виде
Ü-1 - yiif LTЦу - уы) -» miti
Тогда условие минимума принимает вид или
Отдельно следует отметить, что предлагаемая схема исключает из выделения шума компоненты зависимостей до полиномов 3 степени включительно. Последнее может оказаться обременительным для сильно зашумленных данных. В этом случае для исключения шума удобнее использовать более грубую схему, исключающую из выделения шума компоненты зависимостей до полиномов только 2 степени.
(13)
В частности, решение этой системы для равноотстоящих узлов tg=0, tl = - Л, t2= Л,
t3=-2 ¡1, 14=2 Л дает значения 4И&4=2,Л = -2,Л = ЬСЛ =°)
5. Результаты численного моделирования
На рисунке 1 представлены результаты обработки зашумленных данных.
кя, . ,jt Азт
=-cos(— -+
Значения по осям х и у случайную величину, равномерно распределенную на интервале (-0,1;0,1)
Л tof, . ,1 Я,
= - cos(— + —.—); ук = sm(----mdk
- 1 ^ - , где rnd представляет собой
Рисунок 1
На рисунке 2 представлены результаты обработки данных, представляющих значения функции у=ех на интервале (0;10) с шагом 0,1 округленные до двух значащих цифр.
Среднеквадратичная абсолютная погрешность исходных данных от теоретической кривой в рассматриваемом примере составляет 56, при удалении абсолютного шума - 30, при удалении относительного шума - 19. Таким образом, в случаях, когда данные меняются в широких пределах, а в данном случае отношение максимального значения к минимальному составляет 22000, удаление относительного шума приводит и к лучшему удалению абсолютного шума по сравнению с методом прямого удаления абсолютного шума.
Относительные отклонения при удалении ошибок округления при удалении абсолютного (А) и относительного (I!) шума
11.2
■0,15
Ol" Н .1УГ KJil Н ЕН И Б Г и СКБМЕ А--Отн. ETKrDHthHE- П Э СХЕк1 Е R
Рисунок 2
6. Выводы
Таким образом, предлагаемая методика и алгоритмы выявления и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют:
■ обоснованно определить уровень как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных;
■ удалить из данных шумовую компоненту;
■ учитывая гладкость данных, получаемых в результате устранения шума, проводить анализ выделенных данных для выявления в них аналитических и дифференциальных зависимостей.
Библиография
1. Грешилов А.А., Стакун В.А., Стакун А.А. Математические методы построения прогнозов. М.: Радио и связь, 1997. 112 с.
2. Канторович Г.Г. Анализ временных рядов. Экономический журнал ВШЭ. №1 2002, №2 2002, №3 2002, №4 2002, №1 2003
3. Андерсон Т. Статистический анализ временных рядов. М: Мир, 1976. 523 с.
4. Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов и прогнозирование. М.; Финансы и статистика,2001. — 228 с.
5. Губанов В.А. Выделение тренда из временных рядов макроэкономических показателей. В сб.: Научные труды: Институт народнохозяйственного прогнозирования РАН, 2005. — Т.3
6. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. М.: Горячая линия-Телеком, 2007. — 522 с.
7. Ф.Александров, Н.Голяндина. Выбор параметров при автоматическом выделении трендовых и периодических составляющих временного ряда в рамках подхода «Гусеница»-SSA. Труды IV Международной конференции «Идентификация систем и задачи управления» SICPR0'05.
8. Дубовиков М. М., Старченко Н. В. О фрактальном анализе хаотических временных
рядов. 2014 International Conference on Adaptive and Intelligent Systems - ICAIS'14.
9. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974. 406 с.
10. Zhaohua wu and Norden E. Huang. ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data AnalysisVol. 01, No. 01, pp. 1-41 (2009)
11. Скляр А.Я. Анализ и устранение шумовой компоненты во временных рядах. Успехи современной науки, №11, 2017 г. - 11с.