Научная статья на тему 'Анализ и устранение шумовой компоненты во временных рядах с переменным шагом'

Анализ и устранение шумовой компоненты во временных рядах с переменным шагом Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC
486
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АБСОЛЮТНЫЙ ШУМ / ОТНОСИТЕЛЬНЫЙ ШУМ / ЦИФРОВАЯ ФИЛЬТРАЦИЯ ШУМА / ВРЕМЕННОЙ РЯД / ТРЕНД / ДЕКОМПОЗИЦИЯ ДАННЫХ / ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ / АНАЛИЗ ВРЕМЕННОГО РЯДА / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / ОБРАБОТКА СТАТИСТИКИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Скляр Александр Яковлевич

В статье рассматривается методика оценки шумовой компоненты во временных рядах с переменным шагом, ее обоснование и предлагается алгоритм удаления шума из данных. Анализ строится на основе требования гладкости функции, представляющей исходные данные и имеющей непрерывные производные до третьего порядка. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных уровень шума в данных, удалить из данных шумовую компоненту. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютный, так и относительный шум в данных вне зависимости от равномерности шага измерений в исходных данных и их зашумленности, удалить из данных шумовую компоненту. Учитывая гладкость данных, получаемых в результате устранения шума, данные полученные удалением шума пригодны для выявления в них как аналитических, так и дифференциальных зависимостей

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ и устранение шумовой компоненты во временных рядах с переменным шагом»

Анализ и устранение шумовой компоненты во временных рядах с переменным шагом

Скляр Александр Яковлевич

кандидат технических наук

доцент, кафедра прикладной математики, Российский технологический университет (МИРЭА)

119602, Россия, г. Мзсква, пр-т Вернадского, 78

И [email protected]

Статья из рубрики "Математическое моделирование и вычислительный эксперимент"

Аннотация.

В статье рассматривается методика оценки шумовой компоненты во временных рядах с переменным шагом, ее обоснование и предлагается алгоритм удаления шума из данных. Анализ строится на основе требования гладкости функции, представляющей исходные данные и имеющей непрерывные производные до третьего порядка. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных уровень шума в данных, удалить из данных шумовую компоненту. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютный, так и относительный шум в данных вне зависимости от равномерности шага измерений в исходных данных и их зашумленности, удалить из данных шумовую компоненту. Учитывая гладкость данных, получаемых в результате устранения шума, данные полученные удалением шума пригодны для выявления в них как аналитических, так и дифференциальных зависимостей

Ключевые слова: абсолютный шум, относительный шум, цифровая фильтрация шума, временной ряд, тренд, декомпозиция данных, численное моделирование, анализ временного ряда, математическая модель, обработка статистики

DOI:

10.25136/2306-4196.2019.1.27031

Дата направления в редакцию:

02-08-2018

Дата рецензирования:

03-08-2018

1. Введение

Большое количество процессов происходящих в экономике, результатов экспериментальных исследований в различных областях можно описать в виде временных рядов или последовательностей данных. Элементами такого ряда являются пары, задающие момент наступления события (значение аргумента) и соответствующий ему результат (значение функции). Последовательность событий может измеряться как с постоянным, так и с переменным шагом. Значения, сопоставляемые элементам получающегося ряда, содержат и ошибки измерения и, в общем случае, подвержены случайным внешним воздействиям. В дальнейшем такого рода ошибки измерений и результаты внешних воздействий будем трактовать, как шум.

При анализе данных временного ряда и прогнозировании на его основе возникает множество задач, связанных с выделением трендовой, колебательной и составляющих Г1,2.з,41- Для выявления таких рядов используются различные методы в зависимости от

характера данных [5,6,7,81. в то же время анализ и обработка зашумленных данных вызывает значительные трудности. Возникает задача устранения, по возможности, такого шума. Для устранения такого шума используются различные методы сглаживания,

такие как, методы скользящей средней, экспоненциального сглаживания и др. в частности методы, связанные с добавлением белого шума и последующим устранением шумовой компоненты за счет его усреднения ЦШ.

2. Оценка шумовой компоненты в исходных данных

Обозначим значения аргумента (временные отрезки) через х/ , соответствующие им наблюдаемые значения через у/ , предполагаемую функцию «истинной» зависимости - ^ х) . И исследуемый ряд представим в виде пар ( х/ , ^ х/)) . Будем рассматривать общий случай, когда исходные данные задаются с переменным шагом х/+1 = х/+ h¡ , где величины h¡ , вообще говоря, различны.

Наблюдаемые данные будем представлять в виде Я где э,-- шум.

Пусть функцию ^ х) имеет производные до 4 порядка включительно, тогда ее значение в точке х+ t может быть представлено как

Рассмотрим значения функции в окрестности точки хд . Выберем точки х^ =хд+ tk , где к = 0,1,2,3,4; tQ =0 и все tk различны.

(1)

£

В матричном виде она примет вид.

АВ = С

Где

с=и\хх0 т ». к.>;*

с

Индекс к принимает значения 1, 2, 3, 4.

Ранг матрицы/4 равен 3, следовательно, существует вектор ^ (4,,Л-Л-Л), где не все Д ^ равны 0 такой, что Л<4МО,0,0,0)( тогда ЛС-ААВ-0.

Значения А к определяются с точностью до постоянного множителя, в частности, положив Л4- 1, получим допустимый набор Л.=-(АДЛ=А) из решения системы линейных уравнений

Определитель матрицы А

д=

1 ¡1 и 111

шт *д 4 4 =

Аналогично

1 1

I О О 4 4 % 4 и

¡шь-ш-т-ь)

Поскольку вектор ^ ^ определен с точностью до произвольного множителя, то

их удобнее представить в симметричном виде

В частности, решение этой системы для равноотстоящих узлов tg=0, = t2=1, tз=-2, £4=2 дает значения • = -4=^ = 1

Учитывая (2) получаем

Отметим, что выражение слева дает с точностью до множителя ^ численное представление четвертой производной и при функциях ^ х) , представимых в виде полиномов не выше третьей степени, тождественно обращается в 0.

Далее учтем, что f ( хт + t¡< ) = ут + < - sm + < и, следовательно

При отсутствии быстрых, то есть с периодами соизмеримыми с шагом ряда, осцилляций f ( х ) величину § 24 можно считать малой, и тогда получаем

Величина систематических отклонений ^ от 0 будет тем меньше, чем

меньше будет , то есть при выборе набора из пяти точек х' <тэ <х: в

качестве базовой точки х целесообразно выбирать точку х^ . Перенумеруем точки и

введем ^ ТОгда (5) примет вид

(6)

Правая часть равенства (6) представляет собой случайную величину. Пусть величины sm+ к - независимые случайные величины с 0 математическим ожиданием и дисперсией

.2

а , тогда математическое ожидание --Среднеквадратичное значение шума о2 , таким образом, можно оценить исходя из

3. Выделение в данных функциональной и шумовой компонент

В этих условиях можно определить значения шумовой компоненты s и, следовательно, f( х) исходя из

Перепишем (7) в матричных обозначениях. Для этого введем матрицу ¿ = ( Iу) , где

, тогда

И условие минимума принимает вид или

' - - ■ " (10)

В отличие от случая с равноотстоящими узлами здесь возникает необходимость

вычисления элементов матрицы L для каждой строки (при равноотстоящих узлах ненулевые элементы матрицы L одинаковы для всех строк). Система (9) из-за ограничения является нелинейной и нахождение ее решений даже при небольшой размерности встречает значительные вычислительные трудности. В то же время решение системы линейных алгебраических уравнений (СЛАУ) из (10) при заданном значенииt не создает особых проблем. В самом деле, матрица является 9 диагональной ленточной матрицей и можно показать, что время решения СЛАУ с такой матрицей линейно по числу уравнений.

Отметим, что матрица является неотрицательно определенной и все ее собственные числа у ¡>0 .

Пусть E¡ - собственные вектора матрицы, соответствующие собственным числам у ¡>0, Тогда первое из равенств (9) примет вид

В этих условиях -1 1 ^+/ представляет собой при t>0 монотонно

убывающую функцию от t .

Заметим, что при t^■0 минимум функции s) в (8) будет достигаться, как следует из (5),

при . Последнее условие означает стремление 4-ой производной к 0, то

есть исходная функция будет близка к полиному не выше 3 степени.

При минимум s) будет достигаться, при $¡^0 и, следовательно, функция ^ х)^ y¡

4. Алгоритм удаления шума и выделения функциональной компоненты в данных

Учитывая сделанные замечания о характере функции $) можно предложить следующий итеративный алгоритм.

1. Вычисляем оценку шума а2 на основе (6). Задаем начальное значение t д .

2. Решаем СЛАУ в соответствии с (9) и вычисляем значение <

3. Если < $> > а2 , переходим к пункту 4, иначе к пункту 5.

4. Решаем СЛАУ в соответствии с (9) с t=2 tg и вычисляем значение < Если <

$> > п а2 , устанавливаем tg= t и повторяем пункт 4. В противном случае устанавливаем t^ = t и переходим к пункту 6.

5. Решаем СЛАУ в соответствии с (9) с t= tg /2 и вычисляем значение < Если < $> < п а2 , устанавливаем tg= t и повторяем пункт 5. В противном случае устанавливаем tg = t, t^= tg и переходим к пункту 6.

6. Искомое значение t лежит между tg и ^ . Решаем СЛАУ в соответствии с (9) сt= ( tg

+ tl)/2 и вычисляем значение < s/ s>. Если |< s/ s> - п а2 |<£, то останавливаем процесс и на основе вычисленных значений s/■ рассчитываем значения искомой функции f( х/) = Уг s/ . Если нет, то строим новый интервал, устанавливая в зависимости от выполнения неравенства < s, s> > п а2 либо tQ= t/ либо^ = t и переходим к пункту 6.

Отметим, что говоря о шуме и его дисперсии в (6) и (7) предполагается, что он представляет собой одинаково распределенную случайную величину на всем временном ряде. Если это не так, то вместо абсолютной величины шума s/■ в (5) шум удобнее

представлять в виде 5/=ф( х, у) и/ так, чтобы случайная величина и/ была бы одинаково

распределенной на всем временном ряде. Наиболее естественно предполагать при большом разбросе исходных данных, что шум является результатом измерений, которые имеют постоянной относительную погрешность. В этом случае естественно принять $/= У/и/ , тогда (6) и (7) примут соответственно вид

(10)

(ii)

Тогда дисперсия относительного шума u определяется из (11)

И задача (7) приобретает вид

Или в матричном виде

Ü-1 - yiif LTЦу - уы) -» miti

Тогда условие минимума принимает вид или

Отдельно следует отметить, что предлагаемая схема исключает из выделения шума компоненты зависимостей до полиномов 3 степени включительно. Последнее может оказаться обременительным для сильно зашумленных данных. В этом случае для исключения шума удобнее использовать более грубую схему, исключающую из выделения шума компоненты зависимостей до полиномов только 2 степени.

(13)

В частности, решение этой системы для равноотстоящих узлов tg=0, tl = - Л, t2= Л,

t3=-2 ¡1, 14=2 Л дает значения 4И&4=2,Л = -2,Л = ЬСЛ =°)

5. Результаты численного моделирования

На рисунке 1 представлены результаты обработки зашумленных данных.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

кя, . ,jt Азт

=-cos(— -+

Значения по осям х и у случайную величину, равномерно распределенную на интервале (-0,1;0,1)

Л tof, . ,1 Я,

= - cos(— + —.—); ук = sm(----mdk

- 1 ^ - , где rnd представляет собой

Рисунок 1

На рисунке 2 представлены результаты обработки данных, представляющих значения функции у=ех на интервале (0;10) с шагом 0,1 округленные до двух значащих цифр.

Среднеквадратичная абсолютная погрешность исходных данных от теоретической кривой в рассматриваемом примере составляет 56, при удалении абсолютного шума - 30, при удалении относительного шума - 19. Таким образом, в случаях, когда данные меняются в широких пределах, а в данном случае отношение максимального значения к минимальному составляет 22000, удаление относительного шума приводит и к лучшему удалению абсолютного шума по сравнению с методом прямого удаления абсолютного шума.

Относительные отклонения при удалении ошибок округления при удалении абсолютного (А) и относительного (I!) шума

11.2

■0,15

Ol" Н .1УГ KJil Н ЕН И Б Г и СКБМЕ А--Отн. ETKrDHthHE- П Э СХЕк1 Е R

Рисунок 2

6. Выводы

Таким образом, предлагаемая методика и алгоритмы выявления и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют:

■ обоснованно определить уровень как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных;

■ удалить из данных шумовую компоненту;

■ учитывая гладкость данных, получаемых в результате устранения шума, проводить анализ выделенных данных для выявления в них аналитических и дифференциальных зависимостей.

Библиография

1. Грешилов А.А., Стакун В.А., Стакун А.А. Математические методы построения прогнозов. М.: Радио и связь, 1997. 112 с.

2. Канторович Г.Г. Анализ временных рядов. Экономический журнал ВШЭ. №1 2002, №2 2002, №3 2002, №4 2002, №1 2003

3. Андерсон Т. Статистический анализ временных рядов. М: Мир, 1976. 523 с.

4. Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов и прогнозирование. М.; Финансы и статистика,2001. — 228 с.

5. Губанов В.А. Выделение тренда из временных рядов макроэкономических показателей. В сб.: Научные труды: Институт народнохозяйственного прогнозирования РАН, 2005. — Т.3

6. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. М.: Горячая линия-Телеком, 2007. — 522 с.

7. Ф.Александров, Н.Голяндина. Выбор параметров при автоматическом выделении трендовых и периодических составляющих временного ряда в рамках подхода «Гусеница»-SSA. Труды IV Международной конференции «Идентификация систем и задачи управления» SICPR0'05.

8. Дубовиков М. М., Старченко Н. В. О фрактальном анализе хаотических временных

рядов. 2014 International Conference on Adaptive and Intelligent Systems - ICAIS'14.

9. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974. 406 с.

10. Zhaohua wu and Norden E. Huang. ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data AnalysisVol. 01, No. 01, pp. 1-41 (2009)

11. Скляр А.Я. Анализ и устранение шумовой компоненты во временных рядах. Успехи современной науки, №11, 2017 г. - 11с.

i Надоели баннеры? Вы всегда можете отключить рекламу.