Научная статья на тему 'Математический метод и алгоритм сжатия многомерных временных рядов'

Математический метод и алгоритм сжатия многомерных временных рядов Текст научной статьи по специальности «Математика»

CC BY
315
84
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМЕРНЫЕ ДАННЫЕ / КЛАСТЕРИЗАЦИЯ / СТРУКТУРА / ГРАФЫ / КОМПОНЕНТА СВЯЗНОСТИ / MULTIDIMENSIONAL DATA / CLUSTER ANALYSIS / STRUCTURES / GRAPHS / CONNECTED COMPONENT OF A GRAPH

Аннотация научной статьи по математике, автор научной работы — Катаев Сергей Григорьевич, Катаев Михаил Юрьевич

Рассматриваются математический метод и алгоритм сжатия многомерных временных рядов, основанные на методе выделения структур. Метод принадлежит кластерным подходам, использующим представления теории графов. Математический подход апробирован на анализе многомерных временных рядов поведения профилей концентрации углекислого газа для некоторых районов земного шара. Представлены результаты и оценки точностных характеристик работы алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Катаев Сергей Григорьевич, Катаев Михаил Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Mathematical method and compression algorithm of multidimensional time series

In article the mathematical method and the compression algorithm of multidimensional time series, based on method of revealing structure is being considered. The method is related to cluster approaches based on graphs. Mathematical approach is approbated on analysis of multivariate time series of behavior of carbon dioxide concentration profiles for some districts of globe. The algorithm outputs and evaluation of precision operating performances of algorithm are presented.

Текст научной работы на тему «Математический метод и алгоритм сжатия многомерных временных рядов»

УДК 504.064.37

С.Г. Катаев, М.Ю. Катаев

Математический метод и алгоритм сжатия многомерных временных рядов

Рассматриваются математический метод и алгоритм сжатия многомерных временных рядов, основанные на методе выделения структур. Метод принадлежит кластерным подходам, использующим представления теории графов. Математический подход апробирован на анализе многомерных временных рядов поведения профилей концентрации углекислого газа для некоторых районов земного шара. Представлены результаты и оценки точностных характеристик работы алгоритма.

Ключевые слова: многомерные данные, кластеризация, структура, графы, компонента связности.

Современные технические решения извлечения информации в любых направлениях деятельности человека позволяют добывать столько много информации, что сохранять ее становится сложно. Тем более, что впоследствии эту информацию необходимо обработать и провести анализ полученных результатов. Поэтому разработка методов сжатия информации является актуальной практической задачей, решение которой позволит ослабить остроту проблемы. Одним из направлений, где наблюдается избыточность добываемой и хранимой информации, является изучение атмосферы и поверхности Земли, а также климата. Для этих целей создаются банки данных о пространственновременном распределении газовых составляющих, аэрозолей, термодинамических параметров атмосферы. К таким центрам хранения данных метеорологической информации можно отнести NCEP (National Center for Environmental Prediction) и ECMWF (European Center Meteorological for Weather Forecast). Помимо таких глобальных центров, в отдельных научных организациях создаются программы расчета, хранения получаемой информации о разнообразных, изменяющихся во времени физических параметрах. К подобным расчетам можно отнести решение транспортной задачи переноса газов в атмосфере [1]. Данного вида расчеты возможно использовать при решении разнообразных задач оптики и физики атмосферы, экологии. Подобные варианты сочетания - расчет, избыточный по данным, и применение в практике - встречаются достаточно часто, что и побудило авторов к разработке математического подхода, представленного в данной статье.

Одним из наиболее развитых подходов изучения таких наборов данных является разработка многопараметрических моделей [2]. Однако, на наш взгляд, такие модели несут в себе методические погрешности, связанные с выбором типа модели, количеством параметров, нелинейностью и множеством других факторов, определяющих точность. Нами предлагается использовать потенциал анализа многомерных полей данных непараметрическим подходом (метод выявления структур) с выделением составляющих, естественно представляющих изучаемое поле.

В данной статье приводится пример приложения математического подхода к анализу временных многомерных рядов углекислого газа с целью изучения однородности поведения в пространстве и времени и получения, в итоге некоторой модели, которая позволяет сжать первичную информацию без существенной потери точности представления информации.

Описание метода

При решении модельных задач геофизики (расчет и обработка спутниковых сигналов, транспортные задачи переноса газов и аэрозолей, перенос излучения в атмосфере и различных средах и др.) на определенной территории часто возникает ситуация, когда время вычислений становится значительным, что является следствием большого числа данных, необходимых для расчета. Результатом расчетов является некоторая функция F(t, x, y, z), где t — время и {x, y, z} - пространственные переменные. Одним из вариантов сокращения времени расчета с таким набором данных является применение мощной вычислительной техники (суперкомпьютер или вычислительный кластер). Однако такая техника дорога в использовании и еще не широко распространена. Нами предлагается подход, основанный на решении задачи структуризации пространственно-временных наборов дан-

ных или поиска пространственно-временных структур, обладающих определенными свойствами. Применение этого подхода позволяет существенно сократить объем данных без потери точности при воспроизведении исходных массивов информации.

Для структуризации исходного набора данных в работе используется метод выявления структур (МВС), который хорошо зарекомендовал себя в задачах нахождения скрытых закономерностей в различных данных. Идеологически МВС близок к графовым методам кластерного анализа [З, 4], и поэтому алгоритм выделения структур, применяемый нами для решения этой задачи, наиболее просто может быть описан на языке теории графов.

Соотнесем с каждым объектом аг, i=1,...N вершину хг некоторого графа G = (X, E), а каждому ребру eij = (x;, Xj)cE, i, j = 1, ., N, связывающему вершины xi и Xj в качестве стоимости eij, припишем величину, равную расстоянию dj между соответствующими объектами в пространстве признаков: Cy=dy. Будем последовательно удалять из графа ребра eij со значениями, большими некоторого

порога dp, получая на каждом шаге Gt = (Xt, E*) - граф на уровне t, множество ребер которого

t t t t*

E = {ej є E: Cj < dp } . Будем уменьшать величину dp , и тогда, начиная с некоторого значения dp ,

исходный граф станет несвязным, появится kt подграфов (компонент связности) G1 ,G2>,...,Gk с различным числом вершин, среди которых могут быть подграфы, состоящие из одной вершины. Повторение процедуры дальнейшего уменьшения порогового значения dtp приводит к выделению все

более связных подграфов.

Будем понимать под структурой множество вершин графа, образующее на некотором шаге t компоненту связности и удовлетворяющее при этом некоторым наперед заданным аксиомам. В отличие от обычных методов кластерного анализа, МВС фиксирует компоненту связности графа как структуру, только, если определенные характеристики выделенного множества удовлетворяют сформулированным ограничениям - аксиомам структуры. Таким образом, МВС гарантирует, что каждая структура из результирующего набора будет обладать свойствами, заданными в аксиомах. Примером полезной структуры при исследовании полей какого-либо метеорологического параметра является

s=^а: g а=(К да );r (ха) < r q}.

То есть, связность поля каждой выявляемой компоненты связности должна быть больше определенного значения Rq.

Описание задачи

В этой работе МВС был применен для исследования профилей концентрации СО2 в различных регионах земного шара, в частности, и с целью оценивания возможности этого метода нахождения областей с близким характером поведения СО2. В качестве исходных данных для моделирования были взяты результаты работы [1], представляющие собой З-часовые значения профилей концентрации СО2 на пространственной сетке [0,5°х0,5°]. Профили даны на следующих 15 стандартных высотах (MPa): 99б, 9BB, 9бВ, 94Q, 9QQ, B5Q, BQQ, 7QQ, б00, 5QQ, 4QQ, З00, 2QQ, 1QQ, З0.

Были отобраны четыре примерно однородных по свойствам подстилающей поверхности и равных по географическим размерам ареала, находящиеся на разных континентах: Западная Сибирь, австралийская пустыня (Австралия), штат Невада (Северная Америка) и дельта реки Амазонки (Южная Америка), а также две неоднородные области: районы Северной Европы и центральной Японии. Географические координаты рассматриваемых ареалов указаны в табл. 1.

Таблица 1

Изучаемые в работе районы Земли и их географические координаты

Номер Область Географические координаты

1 Западная Сибирь (70-84)Е; (5б-б2) N

2 Австралия (пустыня Гибсона и Большая пустыня Виктория) (122 -1Зб) Е, (24-З0) S

З Амазонка (50-б4) W, (Q-б) S

4 Штат Невада (108-122) W, (42-Зб) N.

5 Северо-Западная Европа (0-14) E; (50- 5б) N

б Япония (1З0-144) Е, (40-З4) N

Выбор районов с однородным типом ландшафта связан с возможностью спутникового мониторинга этих территорий и минимальным влиянием смеси типов поверхности на измеренный сигнал. Неоднородные территории по ландшафту позволяют оценить влияние значительных градиентов концентрации на результат работы метода.

В каждой области расположено по 377 точек сетки, покрывающих определенный регион согласно табл. 1. То есть для каждого изучаемого района Земли (в терминах методов классификации) количество объектов ^оь=377. Каждому объекту был поставлен в соответствие результирующий временной ряд, составленный из суточных временных рядов (8 значений) на каждой высоте. Таким образом, общее количество признаков N=8-15=120.

Как уже отмечалось выше, МВС позволяет отыскивать в данных структуры с заранее определенными свойствами. Заявленным целям данного исследования - нахождение областей с похожим поведением профилей и проверка аппроксимационных возможностей метода, на взгляд авторов, отвечает требование к сильной связности поля в каждой выделяемой структуре (классе), т.е. высокому значению среднего по структуре коэффициента детерминации Я2. Конкретное граничное значение Я2, при котором выявленное в результате работы алгоритма подмножество точек фиксировалось в качестве структуры, для каждого ареала подбиралось опытным путем таким образом, чтобы количество возникающих классов было не слишком большим и не слишком маленьким. Так, для Западной Сибири и австралийской пустыни граничное значение коэффициента детерминации Я2 оказалось равным 0,99, для ареала Амазонки, штата Невада и Европы - Я2=0,93, для Японии Я2=0,90. Изолированные точки, т.е., точки, не попавшие ни в одну из структур, затем присоединялись к ближайшим сформированным классам. Количество таких точек колебалось в пределах от 5% (пустыни Австралии) до 15% (Западная Европа).

В итоге работы алгоритма анализа многомерных временных рядов выделяются такие пространственно-временные структуры, в каждой из которых средний профиль с минимальной дисперсией отличается от профилей в точках, принадлежащих этой структуре и заданных в исходной базе данных. Таких областей (структур) получается примерно на порядок меньше, чем исходных точек.

Результаты работы алгоритма

Некоторые полученные результаты пространственно-временного анализа приведены ниже. На рис. 1 изображены реальные профили (взятие из базы данных) для двух точек района Амазонки в сравнении с соответствующими, полученными при восстановлении типовыми профилями. Типовой

профиль - это усредненный по структуре временной ряд. Видно, что поведение профилей в различных точках одного и того же региона существенно отличается друг от друга. Несмотря на это качество восстановленных профилей в каждой точке ареала по небольшому количеству типовых рядов оказывается неплохим (минимальное отличие от реального).

Рис. 1. Сравнение типовых и реальных профилей для з8- 384 386 388 390 392 1 и 51 точек. Район Амазонки

Концентрация СО2, млн 1

На рис. 2 приведены значения средней квадратичной ошибки (СКО) во всех точках для района Амазонки. Видно, что эта величина не превышает 0,05% от среднего значения концентрации СО2.

Рис. 2. СКО для всех точек области. Район Амазонки

------Типовой, точка №1 -----Реальный, точка №1

---Типовой.точка №51 * Реальный,точка№51

В табл. 2 помещены некоторые характеристики выявленных структур для рассмотренных в статье ареалов.

Таблица 2

Некоторые характеристики выявленных структур для рассмотренных областей__________

№ Область Количество структур (классов) Среднее значение концентрации исходного поля Дисперсия исходного поля Связность исходного поля (R2) Среднее значение СКО

1 Западная Сибирь 19 390,639 12,533 0,970 0,0217

2 Австралийская пустыня 37 384,658 0,238 0,969 0,0027

3 Амазонка 42 387,643 2,035 0,814 0,0180

4 штат Невада 37 389,611 7,294 0,881 0,0318

5 Западная Европа 44 391,000 29,337 0,704 0,0850

6 Япония 32 391,060 22,750 0,818 0,0839

Обсуждение результатов

Ошибка восстановленных профилей концентрации СО2 зависит от дисперсии и связности всего изучаемого поля конкретной области, а также от числа используемых классов. Так, из табл. 2 следует, что наиболее однородные условия наблюдаются в Западной Сибири и австралийской пустыни, связность поля концентрации СО2 для которых практически одинакова (0,970 и 0,969). Неудивительно, что для территории Западной Сибири хорошую точность удалось достичь с использованием всего 19 классов. Минимальное среднее значение СКО практически на порядок меньше, чем для Западной Сибири, получилось для Австралии, ареала с минимальной дисперсией.

Выбранные для исследования регионы Северо-Западной Европы и Японии включают в себя не только различные типы поверхности, но и крупные промышленные центры (Франкфурт, Берлин, Иокогама, Токио, Осака), т.е. характеризуются в этом плане существенной неоднородностью. Поэтому для этих районов качество аппроксимации профилей СО2 хуже, чем для однородных областей; величина СКО здесь примерно в четыре раза выше.

Для локализации областей с большим значением СКО была проделана следующая процедура. Каждой пространственной точке i, принадлежащей классу j, присваивалось среднее значение по классу Aj концентрации СО2. Затем были построены карты пространственного распределения Aj. В качестве примера на рис. 3 приводится такая карта для территории Западной Европы.

Из рис. 3 видно, что расположение классов хорошо коррелирует с типом подстилающей поверхности (земля-вода), и, как следовало ожидать, локализация областей с большой СКО, приходится на промышленно развитые районы вблизи Франкфурта и Берлина, а для территории Японии для Иокогамы, Токио и Осаки.

Причина выбросов СКО в этих районах очевидна - большой градиент концентрации углекислого газа. Процедура полной классификации присоединила подобные точки к существующим классам, в результате чего им были присвоены все типовые характеристики соответствующего класса, которые, естественно сильно отличаются от индивидуальных показателей этих точек.

Рис. 3. Пространственное распределение СКО района Центральной Европы

Отсюда следует, что в подобных ситуациях необходимо такого типа точки рассматривать либо в качестве отдельных классов, либо проводить в этих районах интерполяцию, увеличивая тем самым плотность точек.

Заключение

Таким образом, предлагаемый в работе подход анализа многомерных временных рядов позволяет обеспечивать необходимую (наперед заданную) точность при аппроксимации временных рядов концентрации СО2. Разбив всю поверхность Земли на несколько сотен регионов, мы тем самым сокращаем необходимый объем вычислений в случае сетки 2,5°х2,5°, по крайней мере на 2 порядка.

Разбиение на районы выделяет области с близким поведением исследуемых функций, что дает возможность корректно проводить процедуру интерполяции в любой точке поверхности Земли. Метод дает наглядное представление о поведении концентрации. Он универсален, для его применения не нужны априорные знания о природе исследуемого поля, характере его поведения.

Литература

1. Atmospheric CO2 simulations with a high resolution model and synoptic scale variability of CO2 column / S. Maksyutov, R. Onishi, M. Naja et al. // CGER-I058-2007. - 2007. - V. 14. - P. 49-54.

2. Состояние и комплексный мониторинг природной среды и климата. Пределы изменений -М.: Наука, 2001. - 242 c.

3. Прикладная статистика: Классификация и снижение размерности / С.А. Айва-зян, В.М. Бухштабер, И.С. Енюков, Л. Д. Мешалкин. - М.: Финансы и статистика, 1989. - 607 с.

4. Мандель И. Д. Кластерный анализ. - М.: Финансы и статистика, 1988. - 432 c.

Катаев Сергей Григорьевич

Канд. физ.-мат. наук, доцент, докторант каф. АСУ ТУСУРа Тел.: 8 (382-2) 70-15-36

Катаев Михаил Юрьевич

Д-р техн. наук, профессор каф. автоматизированных систем управления (АСУ) ТУСУРа

Тел.: 8 (382-2) 70-15-36

Эл. почта: kataev.m@sibmail.com

Kataev S.G., Kataev M.Yu.

Mathematical method and compression algorithm of multidimensional time series

In article the mathematical method and the compression algorithm of multidimensional time series, based on method of revealing structure is being considered. The method is related to cluster approaches based on graphs. Mathematical approach is approbated on analysis of multivariate time series of behavior of carbon dioxide concentration profiles for some districts of globe. The algorithm outputs and evaluation of precision operating performances of algorithm are presented.

Keywords: multidimensional data, cluster analysis, structures, graphs, connected component of a graph.

i Надоели баннеры? Вы всегда можете отключить рекламу.