Научная статья на тему 'Программный комплекс для обработки временных рядов'

Программный комплекс для обработки временных рядов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
365
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Валеев Султан Галимзянович, Куркина Светлана Владимировна

Описывается разработанная автоматизированная система АС ДРМ новой версии, позволяющая моделировать поведение временных рядов. оценивать качество построенных моделей по внутренним и внешним критериям, а также анализировать степень выполнения условий применения метода наименьших квадратов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программный комплекс для обработки временных рядов»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 528.06

С. Г. ВАЛЕЕВ, С. В. КУРКИНА

*

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ОБРАБОТКИ ВРЕМЕННЫХ РЯДОВ

Описывается разработанная автоматизированная система АС ДРМ новой версии, позволяющая моделировать поведение временных рядов, оценивать качество построенных моделей по внутренним и внешним критериям, а также анализировать степень выполнения условий применения метода наименьших квадратов.

Введение

Моделирование динамики временных рядов с применением классических схем регрессионного анализа (РА) - метода наименьших квадратов (МНК) не всегда осуществимо с достаточной точностью, так как исследователь часто сталкивается с нарушениями схем РА. В связи с этим возникает задача комплексной обработки временного ряда с обязательной проверкой соблюдения предположений нормальной схемы Гаусса-Маркова и последующей адаптацией к их нарушениям.

Для прецизионной обработки и анализа временных рядов предложен подход адаптивного динамического регрессионного моделирования (ДРМ) [1], реализованный в виде пакета программ - автоматизированной системы АС ДРМ версии 1.0 [1-3]. Этот подход позволяет повысить степень адекватности моделей временных рядов при оценивании качества не только по внутренним, но и по внешним критериям на основе анализа степени выполнения условий РА-МНК и соответствующей адаптации при их нарушении.

Структура ПО

Обычно при практическом анализе временных рядов последовательно проходят следующие этапы: графическое представление и описание поведения временного ряда; выделение и удаление трендовой неслучайной составляющей, зависящей от времени; выделение и удаление низко-или высокочастотных составляющих процесса (фильтрация); исследование случайной составляющей временного ряда, оставшейся после удаления перечисленных выше слагаемых; построение (подбор) математической модели для описания случайной составляющей и проверка её адекватности; прогнозирование развития процесса, представленного временным рядом [2].

© С. Г. Валеев, С. В. Куркина, 2005

При воплощении алгоритмического кода использовались методы объектно-ориентированного программирования, что позволило упростить структуру пакета. Его модульная структура позволяет добавлять новые методы расчёта без изменения основной части программного обеспечения.

Для формирования кода программы была использована среда Borland Delphi 7.0. Пакет АС ДРМ состоит из интерфейсной, управляющей части и модулей, реализующих схемы вычислений.

Программа АС ДРМ 2.0 по отношению к АС ДРМ 1.0, описанной в работе [2], претерпела существенную модификацию.

Разработан новый интерфейс программы; сформирована панель инструментов, на которой расположены кнопки быстрого доступа к процедурам обработки временного ряда.

Главное меню АС ДРМ включает восемь пунктов: Файл, Правка, Описание, Моделирование, Критерии, Сервис, Окна, Помощь.

Пункт меню «Файл» включает набор стандартных действий.

«Правка» позволяет осуществить работу с данными.

«Сервис» предоставляет быстрый доступ к блокноту и калькулятору.

Разделы меню «Окна» и «Справка» носят в основном интерфейсную нагрузку и позволяют соответственно управлять расположением окон на экране и выводить справочную информацию и программе.

Процедуры АС ДРМ новой версии, связанные с непосредственным анализом и обработкой временного ряда, рассматриваются ниже.

Анализ свойств временного ряда

Реализован ы следующI \с возм ожносп 1 дл я анализа ряда.

Статист ика. Новый модул ь предназ нач ем для элементарного статистического исследования выбранного столбца. Включает нахождение максимального и минимального элемента, среднего значения по столбцу, сумму и абсолютную сумму, смещённую и несмещённую дисперсии; сохранена прежняя версия функции нахождения коэффициента Дарбина-Уотсона.

Тест на стационарность. При исследовании ряда на стационарность проверяется выполнение следующих условий: постоянство среднего значения, определяемое непараметрическим критерием сдвига и критерием инверсий; постоянство дисперсии, определяемое критерием Кокрена и критерием рассеяния, и проверка на стационарность по критерию согласия Пирсона.

Графики. Модифицированный модуль. Строятся графики выбранных пользователем факторов в зависимости от времени, а также совместные графики двух и более рядов, необходимые для визуального анализа рядов, выявления общих тенденций поведения рядов, зависимостей между определёнными рядами на разных промежутках времени.

Графики можно сохранить для дальнейшей работы с ними.

Корреляция. Новый модуль построения корреляционной матрицы выбранных факторов.

Автокорреляция. Модуль взят из предыдущей версии. Вычисляется автокорреляционная функция для выбранного ряда.

Спектральный анализ. Модифицированный модуль.

Для проведения Фурье-анализа используется стандартная оценка спектральной плотности

1 •.....а)

N

(2)

с коэффициентами Фурье:

дм 1ПгЛ

/=о

Добавлена возможность отображения спектральной плотности в зависимости не только от частоты, но и от периода с нормировкой значения.

Добавлена процедура многомерного спектрального анализа. Алгоритм заключается в разбиении данных на интервалы, по каждому из которых проводится спектральный анализ. Все

графики спектрограмм формируются в один, которы 1 г отображается трёхмерно.

Ветлет-стализ. Новый модуль проведения вепвлет-анализа.

Как известно, преобразование Фурье не локализовано во времени, но предельно локализовано в частотной области. В противоположность этому в вейвлет-анализе используются ядра преобразований,, размеры которых согласованы с масштабом изучаемых характеристик процесса. Основная идея анализа отвечает специфике рядов динамики с эволюционно неустойчивыми основными характеристиками, такими как среднее значение, дисперсия, периоды несущих гармоник, их амплитуды и фазы.

Для проведения вейвлет-анализа, позволяющего не только отслеживать наличие периодических компонент, но и оценивать стационарность колебания, использовался вейвлет Морде

плоская волна, моделированная гауссианои,

•7

г

? _ Ип /

\|/ (г) = е 2 • е

(3)

дающий результаты, наиболее согласованные с терминами Фурье-анализа.

Для расчёта выбирается ряд, масштаб вейв-лета, временная локализация, ширина гауссиа-ны, а также режим отображения двумерно в цвете или трёхмерно.

Сдвиг ряда. Взаимная корреляционная функция определяется для двух стационарных временных рядов как коэффициент корреляции между х( и у{+к в зависимости от к:

п-к

п-к п-к

X

гк =

- н £ ^

/=1 /=1 г=1 п~К

(4)

п-к п-к у-^-1 ■\

п

п

У2

/=А'+1 (=к-И п~К

Ряд гк = г(к) представляет собой таблично заданную корреляционную функцию, которая затухает достаточно быстро.

Моделирование Реализованные в АС ДРМ процедуры позволяют описать динамику временного ряда в виде комплексной модели. Наилучшая модель выбирается по критершо минимума среднеквадрати-ческого отклонения (СКО), а также минимума внешней ошибки.

Простая регрессия. Модуль выделения тренда взят из предыдущей версии.

Добавлена к существующим семнадцатая за-висимость вида: Т—а+Ъх+суГ. Результат отражается в виде графика и отчёта анализа регрессионной модели с рассчитанными коэффициентами, коэффициентом корреляции, значением СКО. Остатки записываются в отдельный столбец. В историю столбца добавляется модель преобразования.

Множественная регрессия. Новый модуль реализации метода Хаусхольдера нахождения зависимости между несколькими независимыми переменными и зависимой переменной. В дополнении к независимым переменным можно добавить переменную времени и/или переменную квадрата времени. Результат отображается в виде отчёта и графика. Остатки записываются в отдельный столбец.

Гармоническая модель. Переработанный модуль выделения полигармонической компоненты выбранного ряда:

(5)

к

2л1

1=7

Амплитуда А,- и фаза ср,- определяются методом наименьших квадратов (вариант, основанный на преобразовании Хаусхольдера) в рамках процедуры «Пошаговая регрессия». Значимость вклада гармонической компоненты определяется по ¿-статистике для амплитудной составляющей.

Предполагаемые для включения в модель гармоники можно выбрать с помощью набора процедур: спектральный анализ, вейвлет-анализ, пошаговая регрессия - метод включения с исключением; интерактивное задание нужных периодов/частот гармоник. В модуль встроены процедуры нахождения корреляционных матриц гармоник как окончательных, так и на момент разложения на составляющие.

Авторегрессионная модель. Модуль взят из первой версии. Порядок авторегрессионной модели выбирается на основании информационного критерия Акайка.

Мартингальная аппроксимация. Остаточные колебания сглаживаются методом мартингаль-ной аппроксимации.

Для анализа временных рядов наиболее подходящей можно считать функцию следующего

вида:

У = ах- (1-6 хс),

(6)

где а,Ь,с- некоторые коэффициенты,

Модуль взят из первой версии. Добавлена процедура сохранения результатов в историю.

Комплексная модель. Новый модуль предназначен для анализа и прогноза комплексной модели. В модуле выбирается фактор для исследования, строятся к нему модели или выбираются построенные. Для прогноза необходимо выбрать интервал, на котором он будет рассчитан.

Анализ качества регрессионных моделей

Библиотека критериев качества позволяет выявить степень адекватности модели наблюдениям и её пригодности для аппроксимации в данном выборочном пространстве по известным внутренним, а также смешанным и внешним статистические мерам соответствия [1].

Из смешанных мер наиболее удобной представляется мера Ср. С её помощью можно оценить. какая из конкурирующих моделей обеспечивает более точный прогноз с учётом в целом случайных и систематических ошибок.

Внешние меры основаны либо на анализе устойчивости коэффициентов модели в выборочном пространстве, либо на анализе расхождений между прогнозом и известным наблюдаемым значением для объектов, не участвовавших в получении модели.

Выборка наблюдений делится на две части -обучающую и проверочную. Обучающая выборка наблюдений используется для построения модели, тогда как проверочная последовательность (помимо возможности проверки устойчивости коэффициентов модели) даёт возможность оценить несмещённость модели, т. е. качество прогноза по мерам, основанным на разностях между наблюденным значением отклика и его прогнозом или на их функциях.

Для временных рядов проверочной выборкой является часть наблюдений в конце ряда, не использованная при построении комплексной модели.

Анализ соблюдения условий применения

МНК

После выполнения расчётов с применением МНК уточняется степень соблюдения основных предположений РА-МНК.

Библиотека процедур анализа соблюдения предположений РА-МНК предназначена для получения оптимальной модели. При этом диагностируются следующие предположения: определённость модели, независимость регрессо-ров, нормальность распределения ошибок, ну-

левое значение мач ематического ожидания ошибок, постоянство дисперсии, независимость ошибок. Библиотека содержит набор процедур, реализующих такие методы диагностики регрессионной модели, как ^критерий,

л

//-критерий, ^-критерий, критерий Айвазяна, критерий Бартлетта, критерий Дарбина-Уотсона

и др.

Модель, признанная пригодной к использованию, может быть либо недоопределённой, либо избыточной (переопределённой). Признаком избыточности является наличие регрессоров, для которых значения частных ¿-статистик оказываются меньше критического г7{а/2; п -р).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Недоопределённость модели исследуется лишь визуально по соответствующим графикам остатков. Автоматически подсчитывается заполнение тренда. Результат выдаётся в процентном соотношении.

Степень независимости регрессоров (отсутствие мультиколлинеарности - МК) проверяется методом испытания гипотезы о независимости переменных Я0: Бе1:| Щ = 1, где Ое1| - определитель матрицы парных коэффициентов корреляции между факторами. Величина [т-1-\16-(2-т+5)-1§(ВеЩ\)] имеет приближённое распределение %2 с (1/2 • 77 - (/г - 1)) степенями свободы.

Проверка нормальности распределения может быть осуществлена как графическими методами, так и с помощью статистических критериев.

Для графической проверки может быть использована нормальная вероятностная бумага.

Для оценки соблюдения предположения о нормальности можно воспользоваться также графиком (4 ?): равномерно заполненный на 95% тренд шириной ±2а помимо адекватности модели свидетельствует о нормальности ошибок £.

Из статистических критериев используется критерий X, при котором проверяется гипотеза

Н0:с1~Щ 0, 1).

Приблизительная нормальность для выборки небольшой по объёму оценивается по методу Айвазяна.

Для анализа предположения о равенстве нулю математического ожидания применяется критерий проверки значения среднего. Наруше-

ние этого предположения сигнализирует оо ошибках в расчётах.

Н а рушен 11 е уел о в 11 я о л но род н ост 11 наб л юде -нии или постоянства дисперсии обычно проверяется по графикам остатков, а также статистическими критериями: критерий равенства (неравенства) двух дисперсий позволяет проверить гипотезу об однородности дисперсий в двух нормальных совокупностях с параметрами (|_i¡,

О 1

оу) и (ц2) о"/) объёмом «i, /72; критерий Бартлетта позволяет проверить гипотезу об однородности дисперсий в нескольких (более двух) нормальных совокупностях.

Для проверки нарушения условия независимости ошибок привлекаются графики остатков (с/. Г), где Т- время наблюдения.

Наряду с графическим представлением используется и аналитический критерий Дарбина-Уотсона.

Заключение

С учётом новых возможностей можно отметить, что разработанное ПО позволяет обрабатывать временные ряды практически любого происхождения.

ПО АС ДРМ 2.0 тестировалось на временных рядах некоторых reo- и гелиофизических характеристик, результаты описаны, в частности, в [4,5,6].

Подход адаптивного регрессионного моделирования, реализованный в виде программного комплекса АС ДРМ, позволяет строить и анализировать статистические модели, описывающие динамику временного ряда. Исследованы динамические ряды геофизических характеристик за одинаковый промежуток времени 1995-2004гг.: координаты Северного полюса Земли X, Y; изменение средней скорости Земли; изменение продолжительности суток; показатель солнечной активности - ряд чисел Вольфа, данные по сейсмической активности. Разработаны и проанализированы комплексные статистические модели по каждому ряд}', описывающие динамику поведения этих характеристик. Получены предварительные количественные оценки динамических процессов, качество которых проверено по внутренним, смешанным и внешним критериям, и проведено сравнение с результатами, полученными стандартным подходом. Выявлен ряд корреляционных зависимостей между исследуемыми характеристиками.

Высказаны предположен 11я относится ьно возможных причин их взаимосвязи.

Приведены в сравнении результаты, обработки каждого из рассмотренных рядов другими исследователями. По ряду динамики земных суток построена модель стандартным подходом в пакете Statistica; сделан вывод о более высокой точности модели, построенной с применением пакета АС ДРМ.

Планируется дальнейшая модификация пакета АС ДРМ с целями повышения удобства пользователей при работе с ним, а также расширения его возможностей путём:

- реализации модуля взаимного анализа двух временных рядов;

- спектрального анализа временных рядов с произвольным распределением моментов наблюдений;

- включения в АС ДРМ новых процедур оценивания и структурной идентификации для адаптации к нарушениям предположений РА-МНК.

Исследования проводились при финансовой поддержке Российского фонда фундаментальных исследований (грант РФФИ № 04 — 02 — 16633).

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Валеев, С. Г. Регрессионное моделирование при обработке наблюдений / С. Г. Валеев. -М.: Наука, 1991. - 272 с. (второе издание, дополненное и переработанное: Валеев С. Г. Регрессионное моделирование при обработке данных / С. Г. Валеев. - Казань: ФЭН, 2001. - 296 е.).

2. Валеев, С. Г., Сергеев Е. С. Алгоритмическая реализация подхода динамического регрессионного моделирования // Труды междунар. конф. «Методы и средства преобразования и обработки аналоговой информации». - Ульяновск: УлГТУ, 1999. Т. 3. - С. 58-62.

3. Валеев, С. Г., Сергеев Е. С. Методика, алгоритмы и программное обеспечение динамическою регрессионного моделирования /У Изв. вузов. Геодезия и аэрофотосъёмка. - 2003. -№5.

4. Валеев, С. Г., Куркина С. В. Регрессионное моделирование динамики земных суток Н Вестник УлГТУ. - № 2. - 2005. - С. 23-27.

5. Valeev, S. G., Kurkma S. V. The statistical analysis of seismic activity of the Earth on the basis of the DRM-approach// Изд. ГЕОХИ PAH (M). Abstracts of papers submitted in the 42 russian-american microsimposium of planetology. 2005.

6. Kurkina, S. V. Application of adaptive dynamic- regression modeling for processing and the analysis of some changes of duration of terrestrial average day // Изд. ГЕОХИ PAH (M). Abstracts of papers submitted in the 42 russian-americ-an microsimposium of planetology, 2005.

Валеев Султан Галимзянович, доктор физико-математических наук, профессор, заведующий кафедрой «Прикладная математика и информатика» УлГТУ. Имеет монографии и статьи в области астрометрии и небесной механики, математической статистики и разработки информационных технологий.

Куркина Светлана Владимировна, аспирантка кафедры «Прикладная, математика и информатика» УлГТУ. Имеет публикации в области астрометрии и небесной механики, разработки информационных технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.