Анализ временных рядов и выявление процессов с размытой периодичностью
Скляр Александр Яковлевич
кандидат технических наук
доцент, кафедра прикладной математики, Российский технологический университет (МИРЭА)
119602, Россия, г. Мзсква, пр-т Вернадского, 78
Статья из рубрики "Математическое моделирование и вычислительный эксперимент"
Аннотация.
Предметом исследования является методика оценки шумовой компоненты во временных рядах и ее удаление, выделение тренда и колебаний с различными периодами, вводится понятие Т-е и Т-1"1-е почти периодов для конечных рядов. В основу анализа положено требование гладкости функции, представляющей исходные данные и имеющей производные до четвертого порядка включительно и выделение почти периодов на основе функций типа Альтера - Джонсона. Отдельно выделяется тренд длины периодов, выявленных в данных ряда колебаний. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Для выявления колебательной составляющей и тренда почти периодов используется модифицированная функция Альтера - Джонсона. Предлагаемая методика и алгоритмы оценки и устранения шума в данных позволяют обоснованно определить уровень шума в данных, удалить из данных шумовую компоненту, выявить почти периоды в данных в смысле введенных в статье определений, выделить в данных трендовую и колебательную составляющие, выявить, при необходимости, тренд изменения почти периодов.
Ключевые слова: шум, фильтрация шума, временной ряд, тренд, почти период, периодические функции, спектр сигнала, декомпозиция данных, численное моделирование, анализ временного ряда
DOI:
10.25136/2306-4196.2018.6.27069
Дата направления в редакцию:
06-08-2018
Дата рецензирования:
08-08-2018
1. Введение
Статистическая информация, данные, отражающие результаты экспериментальных исследований в различных областях можно описать в виде временных рядов или последовательностей данных. Во многих случаях подобные ряды в той или иной мере содержат повторяющиеся последовательности данных. Наличие таких повторов говорит о присутствии циклических участков в этих процессах. В то же время нельзя говорить о наличии в них строгой периодической составляющей.
Обычно почти периодические функции понимают в смысле определения X. Бора [1, 2 3].
Функция ^ х) , непрерывная в интервале (-а>,а>), называется почти периодической функцией, если для любого £>0 существует относительно плотное множество и £ - почти периодов этой функции. То есть, почти периодическая функция, если для каждого
£>0 существует такое L= L(£) , что в каждом интервале длины L найдется хотя бы одно число г, для которого
2. Почти периодические функции, их определение и выделение почти периодов
В нашем случае рассматривается почти периодичность на конечном интервале, поэтому далее будем рассматривать ее в несколько ином смысле.
Для этого ведем предварительно несколько определений.
Функцию ^ х) будем называть периодической на интервале [а, Ь ] с периодом Т>0, если для любого х, х+ Т [а, Ь ] ^ х)= х+ Т).
В определенном отношении понятие периодичности можно обобщить, введя почти периодические функции. Здесь будем придерживаться следующего определения.
Функцию ^ х) будем называть Т-е почти периодической на интервале [а, Ь ] с периодом Т >0 и константой £>0 , если для любого х, г + ; Щ х)- х+ Т)\< £.
Введем теперь еще одно понятие, описывающее наличие цикличности в поведении функций.
Функцию f( х ) будем называть Т- h-E почти периодической с периодом Т>0 и константами Т> Л> 0, £> 0, если для любого х, существует такое, что
|f( х)- f( х+ Т+ т) |< £.
Рассмотрим некоторые методы, позволяющие выделить подобные периодические составляющие в эмпирических данных.
Наиболее популярны методы, основанные на преобразовании Фурье, для которого разработано большое количество программных средств В нашем случае речь может идти только о дискретном преобразовании на ограниченном интервале. В первую очередь речь идет о быстром преобразовании. Недостатком такого преобразования (шаг идет по частотам) является его неточность для длиннопериодических колебаний, то есть таких, что период колебаний имеет порядок интервала, на котором задаются данные. Альтернативой является дискретное преобразование Фурье с шагом по выбранному диапазону периодов, однако последнее значительно медленнее и, кроме того, неточно для короткопериодических (высокочастотных) колебаний. В этих спектрах точкам максимумов соответствуют периоды колебаний анализируемых процессов.
Другую группу методов представляют методы прямого анализа периодичности, не предполагающего синусоидальности самих колебаний.
В частности для введенной выше Т-е почти периодической функции можно задать
функцию Альтера - Джонсона [5,6], преобразующую исходный временной ряд в спектр периодов ф( Т)
В ряде случаев удобнее использовать нормированный спектр в виде
1-77712^-/^11
(2)
<?(Л =
--Ж77 7? X/(".)-№. +71
В последнем случае ^(ОеИЧ.
Под нормой М удобнее всего использовать просто И.
Для Т- h-е почти периодической функции можно в качестве аналога функции Альтера -Джонсона использовать ее модификацию, преобразующую исходный временной ряд в спектр периодов ф ^ Т)
Шш-
1
п-т-п
или
л <?>■ —--ш \ гХ. ">»:ШЫь+тн:
п-т пж(/(х-) -/СО
(3)
В подобных спектрах минимумам соответствуют периоды колебаний анализируемых процессов.
На рисунках 1 и 2 представлены результаты выявления колебательных характеристик функции -1' = г'пСС0:35п(3,2х)~х)' 10) фуНКЦИЯ задана таблицей с шагом 0,1.
График на рисунке 1 иллюстрирует результаты анализа спектра функции при постоянном шаге по частотам (быстрое дискретное преобразование Фурье) и при постоянном шаге по периодам. Первое, очевидно, точнее выявляет высокочастотные (короткопериодические) колебания, второе - низкочастотные (длиннопериодические) колебания. Кроме того, преобразование Фурье дает, вообще говоря, посторонние максимумы для несинусоидальных колебаний, а дискретное быстрое преобразования Фурье небезразлично к некратности исследуемого интервала значений функции ее периоду (или почти периоду).
Рисунок 1
На рисунке представлены значения функции Альтера значение h , для которой задается величиной h= Т/20 .
Джонсона и ее модификации,
Рисунок 2
Для функции Джонсона (Т-£ ) характерно выделение кратных периодов с постепенным ростом величины £ , для ее модификации (Т- h-£, h= кТ ) характерно выделение кратных периодов менее выражено и наблюдается уменьшение величины £ . В общем случае модификация Т- h-£ плохо выделяет длинные периоды при наличии более коротких. Последнее показывает границы применимости различных схем выделения периодической составляющей во временных рядах.
При использовании схемы Т- h-£ в процессе расчета для / точки вычисляются величины I/ , определяющие значения, «подозреваемые в качестве периода». Последовательность значений I/ , точнее ее тренд, показывают зависимость (или отсутствие зависимости) величины периода от времени.
График колебаний периода рассматриваемой выше последовательности приведен на рисунки 3.
Рисунок 3
3. Анализ временных рядов и выявление процессов с размытой периодичностью
Рассмотрим некоторые проблемы анализа временных рядов. Элементами таких рядов являются пары, задающие момент наступления события (значение аргумента) и соответствующий ему результат (значение функции). Последовательность событий может измеряться как с постоянным, так и с переменным шагом. Значения, сопоставляемые элементам получающегося ряда, содержат и ошибки измерения и, в общем случае, подвержены случайным внешним воздействиям. В дальнейшем такого рода ошибки измерений и результаты внешних воздействий будем трактовать, как шум.
Анализ и обработка зашумленных данных вызывает значительные трудности. Возникает задача устранения, по возможности, такого шума. Для его устранения используются различные методы сглаживания, такие как, методы скользящей средней,
экспоненциального сглаживания и др. [7,8,9,10]. Другой подход может быть реализован на основе представления исходных данных, как суммы гладкой функции, представляющей анализируемый процесс и шума. Требование гладкости при этом оказывается достаточно сильным, что позволяет не только оценить уровень шума, но и выделить такую гладкую функцию
4. Алгоритм выявления шума, почти периодических процессов и долговременного тренда
При анализе данных, представленных временным рядом важно выделить такие характеристики описываемого им процесса, как апериодический тренд и набор сопровождающих процесс колебательных подпроцессов.
При таком подходе можно использовать следующую схему:
■ Удаление шума.
■ Выделение короткопериодических колебаний.
■ Удаление короткопериодических колебаний на основе их рассмотрения как шума.
■ Выделение колебаний с более длинным периодом с последовательным их удалением до получения апериодической составляющей.
Удаление шума осуществляется согласно исходя из соотношения
которое справедливо для любой четырежды дифференцируемой функции.
Для слабо осциллирующих функций, то есть таких, для которых период осцилляции значительно больше шага исследуемого временного, выражение в правой части равенства (4) пренебрежимо мало. В этих условиях
среднеквадратичное значение шума а находится в соответствии с (4, 5) и составит Значения функции при этом определяются из
Величину минимального почти периода в смысле введенных выше определений будем определять исходя из соотношений (2,3). Для повышения точности определения почти периодов целесообразно удалить из данных заведомо апериодическую часть. В качестве такой части (тренда) наиболее естественно принять либо функцию либо
функцию ЕЛх)=а+Ье . в первом случае коэффициенты а, Ь находятся методом наименьших квадратов. Во втором для нахождения коэффициентов можно использовать производную выделенной после удаления шума функции ^ х). Поскольку при устранении шума функцию ^ х) можно считать дифференцируемой, возможно численное нахождение ее производной с приемлемой точностью. Если Г( х) на всем интервале значений сохраняет знак, то гипотеза о наличии экспоненциального тренда допустима. Исходя из того, что /'С)( получаем, что в полулогарифмических координатах +Ш; где а- 1,
ифмич
если Г( х)>0, либо а = -1 в противном случае. Последняя задача о нахождении коэффициентов Ь, к сводится к нахождению линейной зависимости методом наименьших квадратов, после чего аналогично находится коэффициентов а, что позволяет легко выделить экспоненциальный тренд.
Удаление короткопериодических колебаний с периодом Т можно проводить на основе трактовки короткопериодических колебаний, как шума. Величина шума в точке / определяется из
При целых ( Т-1)/2 последний член в скобках исчезает.
Таким образом, задача об устранении коротких колебаний полностью сводится к задаче (7).
Последние шаги алгоритма повторяются до устранения периодических составляющих. В результате применения алгоритма исходный временной ряд приводится к сумме вида
Здесь у„ х,> Э/ - значения исходного ряда, аргумента и шума соответственно; ЛФДЛС*.-) -значения апериодической части тренда и его очередных колебательных составляющих.
Такое представление позволяет провести содержательный анализ процесса и выявить составляющие его подпроцессы.
5. Результаты численного моделирования
В качестве примера использования предлагаемой методики рассмотрим просчеты на данных о количестве солнечных пятен по годам (числа Вольфа) с 1700 по 2016 год [12]. Соответствующие данные представлены на рисунках ниже.
Рисунок 4
На рисунке 4 представлены соответственно исходные данные, данные с удалением шума, трендовые данные с удалением 11-летних циклов, долговременный тренд с удалением длинных циклов (94-106 лет).
Рисунок 5
На рисунке 5 представлены соответственно шум, 11-летних почти периодические колебания, длинные (94-106 лет) почти периодические колебания и долговременный тренд.
Полученные данные являются, вообще говоря, предметом для дальнейшего анализа. В частности выделенная шумовая компонента не является белым шумом: прослеживаются короткопериодические колебания и меняется амплитуда колебаний. 11-летние почти периодические колебания существенно изменяются по амплитуде. Периоды длинных колебаний значительно меняются во времени. Долговременный тренд, скорее всего, является фрагментов низкочастотных колебаний, период которых не определяется из-за малости самого временного интервала, на котором проводились наблюдения.
6. Выводы
Таким образом, предлагаемая методика и алгоритмы оценки и устранения шума в данных, выявления T -г и Т- h -г почти периодов, позволяют:
■ обоснованно определить уровень шума в данных;
■ удалить из данных шумовую компоненту;
■ найти T -г и Т- h -г почти периоды;
■ выявить, при необходимости, тренд изменения почти периодов;
■ выделить в данных трендовую и колебательную составляющие;
■ проводить независимый анализ выделенных трендовых данных и зависимостей, носящих колебательный характер, и выявлять в них аналитические и дифференциальные зависимости.
Библиография
1. Во1"1г Н., "Acta math.", 1925, t. 45, p. 29-127
2. Левитан Б. М. Почти-периодические функции. М., 1953.
3. Бор Г. Почти периодические функции. М., 2009.
4. Дьяконов В. П. MATLAB 6.5 SP1/7.0 + Simulink 5/6. Обработка сигналов и проектирование фильтров. — М.: СОЛОН-Пресс, 2005.
5. Кузьмин В.И., Самохин А.Б., Гадзаов А.Ф., Чердынцев В.В. Модели и методы определения параметров нелинейных процессов. - М.: Московский технологический университет (МИРЭА), 2016. - 148 с.
6. Johnson M. Corrélations of cycles in weather, solar activity, geomagnetic values and planetary configurations. - San Fransisco, Phillips and Van Orden, 1944
7. Грешилов А.А., Стакун В.А., Стакун А.А. Математические методы построения прогнозов. М.: Радио и связь, 1997. 112 с.
8. Булашев С.В. Статистика для трейдеров. М.: Компания Спутник+, 2003. 245 с.
9. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974. 406 с.
10. Андерсон Т. Статистический анализ временных рядов. М: Мир, 1976. 523 с.
11. Скляр А.Я. Анализ и устранение шумовой компоненты во временных рядах. Успехи современной науки 2017 г. № 11, 11 с.
12. Royal Observatory of Belgium Av. Circulaire, 3 B-1180 Brussels, Belgium
http://www.sidc.be/silso/datafiles