Научная статья на тему 'Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний'

Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний Текст научной статьи по специальности «Математика»

CC BY-NC-ND
337
86
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Бизнес-информатика
ВАК
RSCI
Область наук
Ключевые слова
ВРЕМЕННЫЕ РЯДЫ / СИМВОЛИЧЕСКИЕ ОПИСАНИЯ / СЛОЖНОСТЬ ПО КОЛМОГОРОВУ / БИКРИТЕРИАЛЬНЫЙ МЕТОД / ГИСТОГРАММЫ / СЖАТИЕ ДАННЫХ / КЛАСТЕРИЗАЦИЯ / TIME SERIES / SYMBOLIC DESCRIPTIONS / KOLMOGOROV COMPLEXITY / BICRITERION METHOD / HISTOGRAMS / DATA COMPRESSION / CLUSTERIZATION

Аннотация научной статьи по математике, автор научной работы — Сметанин Ю. Г., Ульянов М. В.

В статье предложен подход к исследованию временных, рядов, основанный на определении сложности по Колмогорову строк символов, являющихся представлением временных рядов в пространстве слов некоторого выбранного алфавита. В рамках данного подхода описаны методики символьного описания временных рядов по уровням и по тенденциям. В основу описания по уровням положен разработанный при участии одного из авторов бикритериальный метод построения гистограмм. На основе оценок колмогоровской сложности строк, полученных с помощью общеизвестных алгоритмов сжатия, построены характеристики сложности временных рядов, которые могут быть использованы для выявления их характерных особенностей на основе последующей кластеризации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETERMINING THE CHARACTERISTICS OF KOLMOGOROV COMPLEXITY OF TIME SERIES: AN APPROACH BASED ON SYMBOLIC DESCRIPTIONS

The proposed approach to the analysis of time series is based on determining the Kolmogorov complexity of symbolic lines that are the representations of time series in the space of words over a selected alphabet. Within this approach, methods of symbolic description of levels and trends of time series are proposed. The description is based on a bicriterion method, which was proposed by one of the authors. The characteristics of the complexity for time series are constructed using the estimation of Kolmogorov complexity of lines that are obtained by well known compression algorithms. The characteristics can be applied for clusterization and determination of characteristics of time series.

Текст научной работы на тему «Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний»

ПОДХОД К ОПРЕДЕЛЕНИЮ ХАРАКТЕРИСТИК КОЛМОГОРОВСКОЙ СЛОЖНОСТИ ВРЕМЕННЫХ РЯДОВ НА ОСНОВЕ СИМВОЛЬНЫХ ОПИСАНИЙ1

Ю.Г. Сметанин,

доктор физико-математических наук, главный научный сотрудник Вычислительного центра им. А.А. Дородницына Российской академии наук

М.В. Ульянов,

доктор технических наук, профессор кафедры управления разработкой программного обеспечения Национального исследовательского университета «Высшая школа экономики», профессор кафедры прикладной математики и моделирования систем Московского государственного университета печати имени Ивана Федорова E-mail: [email protected], [email protected] Адрес: г. Москва, ул. Кирпичная, д. 33/5

С В статье предложен подход к исследованию временных, рядов, основанный на определении слож-\ ности по Колмогорову строк символов, являющихся представлением временных рядов в пространстве слов некоторого выбранного алфавита. В рамках данного подхода описаны методики символьного описания временных рядов по уровням и по тенденциям. В основу описания по уровням положен разработанный при участии одного из авторов бикритериальный метод построения гистограмм. На основе оценок колмогоровской сложности строк, полученных с помощью общеизвестных алгоритмов сжатия, построены характеристики сложности временных рядов, которые могут быть ^ использованы для выявления их характерных особенностей на основе последующей кластеризации. ^

Ключевые слова: временные ряды, символические описания, сложность по Колмогорову, бикритериальный метод, гистограммы, сжатие данных, кластеризация.

1. Введение

Основные задачи исследования как одномерных, так и многомерных временных рядов преследуют, прежде всего, цель повышения точности прогнозирования их поведения

1 Работа выполнена при поддержке гранта РФФИ 13-07-00516

и адекватности соответствующих прогностических математических моделей. В этом аспекте исследуются структуры временных рядов, вводятся различные классификации, отражающие особенности порождающих эти ряды процессов, предлагаются разнообразные методы прогнозирования и математические аппараты [1]. Тем не менее, предлагаемые

классификации временных рядов, как правило, являются классификациями по одному признаку, причем, в основном, с качественным, а не количественным классификатором.

Одной из альтернатив является построение специального метрического пространства, координатами которого являются обобщенные универсальные характеристики временных рядов. Кластерный анализ в таком пространстве приводит к выделению кластеров, элементами которых являются временные ряды, близкие по особенностям в метрике данного пространства. Дальнейшее исследование особенностей полученных кластеров в аспекте выбора рациональных методов прогнозирования может способствовать повышению точности прогнозов за счет выбора метода, учитывающего специфику временных рядов в данном кластере.

В рамках данной статьи авторы вводят координаты такого пространства, основанные на сложности временного ряда по Колмогорову. Содержатель -но колмогоровская сложность есть характеристика строки символов, отражающая сложность (в смысле длины записи) алгоритма и его входа, генерирующих данную строку, иными словами длину формального описания строки. В теории колмогоровской сложности такой алгоритм носит название декомпрессора, а сама сложность определяется как минимальная длина оптимального способа описания строки, где минимум берется по всем описаниям [2]. Отметим, что колмогоровская сложность определена с точностью до константы [2].

При фиксированном алгоритме сжатия строк и при фиксированной длине исходных строк, оценка верхней границы колмогоровской сложности может быть получена через измерение длин сжатых строк. В теории сложности строк по Колмогорову известно, что существуют строки «не сжимаемые на 1» [2] — в аспекте временных рядов это означает существенную случайность значений и значительные трудности при их прогнозировании. Если длины полученных сжатых строк существенно меньше исходной длины, то можно говорить о возможности хорошего прогноза, например, такая ситуация характерна для чисто периодических временных рядов, наблюдаемых на протяжении многих периодов.

2. Постановка задачи

Рассмотрим временной ряд

Т = {{/Ігф = і,...,п}, (1)

где / — наблюденное значение процесса в момент t. , п — число наблюдений (отсчетов).

Для указанного ряда мы формулируем следующие задачи:

♦ задачу символьного кодирования значений временного ряда по уровням, включая подзадачу разбиения размаха варьирования значений на полусегменты;

♦ задачу символьного кодирования значений временного ряда по тенденциям;

♦ задачу оценки колмогоровской сложности полученных строк символов;

♦ задачу определения характеристик колмогоровской сложности временного ряда.

Изложению предлагаемых авторами решений сформулированных задач и посвящена настоящая статья.

3. Символьное кодирование временного ряда по уровням

Поскольку сложность по Колмогорову определена для строк над некоторым алфавитом X, возникает задача представления временного ряда Т строкой символов над данным алфавитом. Возникающие на этом пути проблемы связаны с тем, что различные временные ряды имеют различную точность измерений (число значащих цифр в значениях элементов ряда) и различный масштаб по значениям, что не позволяет использовать непосредственное сжатие исходного ряда для оценки его колмогоровской сложности. В качестве решения авторы предлагают ввести единое (по методике) масштабирование значений наблюдаемой функции процесса и построение на этой основе строки символов (для которой и определено понятие сложности по Колмогорову), отражающей числовые значения исследуемого ряда.

В целях такого масштабирования на диапазоне размаха варьирования значений функции процесса (значений ряда) мы вводим разбиение на полусегменты (что равноположено первому шагу интегрирования по Лебегу), определение числа которых также представляет отдельную задачу, примитивное решение которой доставляется разбиением размаха варьирования на фиксированное число полусегментов равной длины. Число полусегментов определяет мощность алфавита, каждый полусегмент кодируется символом этого алфавита, и проходом по временному ряду мы получаем его кодирование (представление) строкой символов.

При этом числовое значение / кодируется именем (символом) полусегмента, в котором оно находится. Отметим, что кодирование значений по именам полусегментов отражает и подход интервального анализа, поскольку истинные значения временного ряда, за исключением некоторых финансовых рядов (типа рядов курсов валют), очевидно, находятся в некотором доверительном интервале. Для решения обозначенной выше задачи масштабирования диапазона значений временных рядов могут быть предложены разнообразные подходы — от равномерного разбиения до подхода к решению задачи определения числа и длины полусегментов на основе аппарата математической статистики.

Еще один вопрос связан с масштабированием исследуемого множества временных рядов по числу наблюдений. Очевидно, что различные исследуемые временные ряды содержат не равное число наблюденных значений. В рамках принятого подхода символьного кодирования это приводит к появлению строк различной длины в фиксированном алфавите. Поэтому очевидным является решение о переходе от оценки абсолютной сложности строки по Колмогорову в виде длины сжатой строки к относительной оценке — коэффициенту сжатия. В связи с этим именно значение коэффициента сжатия авторы и предлагают использовать как основу для одной из обобщенных универсальных характеристик временного ряда.

Дополнительное исследование полученной строки символов может быть проведено и аппаратом символической динамики с целью выявления запрещенных подслов и описания пространства сдвигов, к которому принадлежит данная строка [3]. Пусть, например, кодирование значений временного ряда осуществляется в алфавите Ъ = {А,В,СЛЕ,Р) , символами которого обозначаются полусегменты значений наблюдаемой величины в порядке их возрастания: А — имя полусегмента наименьших значений, ¥ — наибольших. Если наблюдения ведутся в дискретном времени, то описание значений временного ряда по именам полусегментов есть слово над алфавитом имен полусегментов. В случае, если наблюдаемый процесс характеризуется резкими выбросами значений наблюдаемой величины (до уровня) относительно базального уровня (А, В) за один дискрет времени, равно как и резкими спадами (от ¥ до В), то получаемые кодовые слова временного ряда не будут содержать подслов СБЕ и ЕБС. Тем самым язык символьного кодирования такого временного ряда есть язык над указанным выше алфавитом, с запретами подслов СБЕ и ЕБС,

определяющими пространство сдвигов, при рассмотрении порожденных слов со все более возрастающей длиной. Обратно, гладким периодическим временным рядам с плавно изменяющимися значениями соответствует язык символического кодирования, содержащий запреты подслов А¥, В¥, ¥В, ¥А.

4. Разбиение множества значений временного ряда на полусегменты

Рациональное разбиение размаха варьирования временного ряда на полусегменты в целях последующего символического кодирования является самостоятельной и достаточно сложной задачей. Для ее решения авторы предлагают применить бикритериальный метод построения гистограмм, предложенный одним из авторов и В.Н. Петрушиным в [4] и считают необходимым привести здесь его краткое изложение.

В дальнейшем изложении этой части статьи в согласии с обозначениями математической статистики мы понимаем под выборкой значения временного ряда обозначая вариационный (сортированный по возрастанию) ряд этих значений через х. Метод в целом основан на построении системы из двух критериев, приводящих к обоснованному выбору как числа полусегментов гистограммы, так и их длин.

Первый из них основан на применении критериев согласия. Полученная некотором методом гистограмма может рассматриваться как аппроксимация неизвестного закона распределения кусочно-равномерными функциями плотностей (по полусегментам). Обозначим полученную интегрированием гистограммы на полном размахе варьирования кусочно-линейную аппроксимацию эмпирической функции распределения вероятностей через Ре (х),х е [хрхп]. Таким образом, возникает частная задача проверки гипотезы о соответствии эмпирической функции распределения Рг (х,), построенной по значениям временного ряда, рассматриваемой как эталонная, и гистограммной функции Рв(х), вычисленной в точках вариационного ряда Рв (л:(.). Для решения этой задачи метод использует критерий Колмогорова. В рассматриваемой ситуации статистикой критерия является величина

Оп=т<ж\Рг(х1)-Ра{х,)\,

1=1» П

которая подчиняется следующему интегральному закону распределения вероятностей

Пт Р[4пБп <х} = К (х) = 1 + 2^(-1)* е-2*2*2.

В [4] предложено в качестве первого критерия использовать значение вероятности ошибки первого рода а в точке наблюдаемого значения статистики критерия Колмогорова, т.е. в точке х = 4nDn. Эта вероятность в [4] обозначена через a(V, G), поскольку аппроксимация фиксированной выборки V различными гистограммами G приведет к изменению наблюдаемого значения критерия Dn, а следовательно и вероятности a(V, G). Аналитическая формула для вычисления а( V, G) имеет вид

a(V,G)= J K'(x)dx = l-K[4nDn).

■JnD„

Увеличение числа полусегментов гистограммы приведет, очевидно, к лучшей аппроксимации эмпирической функции распределения, тем самым наблюдаемое значение критерия Колмогорова Dn (при фиксированной выборке n = const) будет уменьшаться, нижний предел интеграла будет смещаться влево, что приведет к увеличению значения а( V, G).

Второй компонент критерия представляет собой показатель надежности оценки среднегруппового значения в полусегменте [4]. Из математической статистики известно, что интервальная оценка средней групповой формируется на основе распределения Стьюдента. Пусть Xj — выборочная групповая средняя в j-ом полусегменте, а Xj — математическое ожидание групповой средней. Тогда при заданной надежности (доверительной вероятности) yj доверительный интервал для Xj определяется в виде:

— /- - \ t{y„ пХ S,

Xj е (xj -8ьХ] + 5,), Sj = Xj sl 1 ,

SnJ

где иу) — значение критерия Стьюдента при выбранной доверительной вероятности Yj и объеме группы, а Sj - ^Sj2, где S* — несмещенная оценка внутригрупповой дисперсии в j-ом полусегменте. Обращением данной формулы в случае уже имеющейся гистограммы можно вычислить оценку доверительной вероятности (надежности) у/.

У,=г'

Sr-F,

’ j

Sj

Очевидно, что принимая гипотезу о независимости групповых средних, надежность гистограммы в целом у (С) будет представлять собой произведение надежности всех групповых средних у, таким образом второй компонент критерия оценки качества гистограммы представим в виде

« к с

у(е) = Пуу =Пг‘

1=1 ]=\

Описываемый метод использует следующую би-критериальную оценку качества гистограммы

0{У,С) = 0{а{У,С),у{С))=а{У,С)-у{С),

которая позволяет строить гистограммы, определяя как число полусегментов, так и их длину. Именно этот метод авторы и предлагают применить для получения рационального решения задачи разбиения размаха варьирования временного ряда в целях его символьного кодирования.

Со ссылкой на [4] приведем пример применения этого метода к тестовой выборке, на которой получено улучшение значение критерия по сравнению с равномерным разбиением с 0{у,в) = 0,392 до (2(^,(7*) = 0,491. Значения компонент критерия приведены в табл. 1. При этом рациональное значение числа полусегментов осталось равным 11.

Таблица 1.

Значения Q( V G) для равномерного разбиения и бикритериального метода

k y{G) a(V,G) Q(V,G)

11 (равномерно) 0,963 0,407 0,392

11 (бикритериальный метод) 0,989 0,496 0,491

Полученная бикритериальным методом гистограмма приведена на рис. 1а.

На рис. 1б для сравнения показана гистограмма с полусегментами равной длины. Отметим качественные отличия гистограмм: бикритериальный метод позволил выявить бимодальный характер выборки, в то время, как гистограмма с равномерным разбиением в окрестности моды имеет унимодальный характер.

5. Символьное описание временного ряда по тенденциям

В ряде случаев интерес представляет не реальное изменение значения исследуемого процесса в следующий момент дискретного времени, а изменение его тенденции. Отметим, что целый ряд методов прогнозирования временных рядов, особенно экономического характера, ориентирован специально на прогноз тенденций. Возникающая при этом задача определения рациональных порогов идентификации смены тенденции является достаточно сложной. Действительно: увеличение значения на 1% — это уже положительная тенденция или еще отсутствие таковой?

0.25

0.20

0.15

0.10

0.05

1 3 5 7 9 11 13 15 17 19

0.15

0.10

0.05

5 7

11 13 15 17 19

Рис. 1. Гистограмма по предложенному методу (а), и по полусегментам равной длины (б).

Возможные решения этой задачи, как правило, опираются на специальную предварительную обработку исходных значений или на применение метода экспертных оценок. В последнем случае решение не является математически обоснованным и отражает специфику проблемной области временного ряда с точки зрения данной группы экспертов.

Для решения этой задачи авторы предлагают использовать уже полученную информацию о символьном кодировании по значениям, которую в данном случае мы интерпретируем как данные предварительной обработки. Поскольку бикритериальный метод построения полусегментов гарантирует, что доверительный интервал для выборочного среднего в полусегменте не шире самого полусегмента, то локализация значений, кодируемых одним символом алфавита является статистически достоверной. С другой стороны адекватность (в смысле критерия согласия Колмогорова) эмпирической функции распределения и гистограммы, построенной на полусегментах гарантирует адекватность мощности алфавита символьного описания. Таким образом, мы

а)

0

б)

0

3

9

предлагаем считать, что в рамках символьного кодирования изменение символа в следующий дискрет времени есть квалификация тенденции, а изменение, не выводящее значение за данный полусегмент — отсутствие такового.

Пусть кодирование по тенденциям осуществляется в алфавите Хг = { -, 0, + }, где символом 0 обозначается отсутствие тенденции в значении для следующего дискрета времени. Если мы кодируем значения временного ряда в алфавите = (А,В,С,В,Е,Р), то,

например, слово кода значений

ВВАСВЕСССАВВВВЕ

будет кодировано с использованием предложенного метода в алфавите тенденций следующим словом: 00- + + + -00- + + 00+, где мы по умолчанию предполагаем, что первый символ кода тенденций — всегда «0».

6. Оценка колмогоровской сложности строки символов

Описание временного ряда, полученное на основе символического кодирования полусегментов, или кодирования тенденций и представляет собой то слово, для которого путем вычисления коэффициента сжатия и будет определяться оценка верхней границы колмогоровской сложности временного ряда. Отметим. что речь идет именно об оценке колмогоровской сложности, поскольку мы предполагаем использование любого широко распространенного алгоритма сжатия, а точнее — некоторой его программной реализации.

Таким образом, пусть 8(Т,И) есть функция кодирования временного ряда Т символами алфавита £, значением которой является строка 5:

* = Я(Т,Ъ1 (2)

пусть также С ( ■ ) есть оператор сжатия строки, которая является его аргументом, реализуемый любым, но фиксированным, алгоритмом сжатия. Результатом применения оператора С ( ■ ) к строке 5 является строка м>:

= ОД. (3)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Именно длина этой строки и является классически [3] оценкой колмогоровской сложности. Отметим, что в теории колмогоровской сложности обратный оператор 5 = С _1(^) называется декомпрессором [3]. Переход к относительным единицам очевиден: в этих обозначениях коэффициент сжатия строки 5 определяется как:

/И 0,С):

(4)

/(*) /(с(5(Г,2)))'

где I ( ■ )— длина строки.

Именно значение ¿м(л,С) авторы и будут использовать в дальнейшем для построения характеристик колмогороввской сложности временного ряда. Напомним, что мы можем получить два, быть может отличающихся по значениям, коэффициента сжатия — один для строки символов, содержащей символьное кодирование значений временного ряда ^„(я,С), а второй — для строки символьного кодирования тенденций — цг^,С).

7. Построение характеристик колмогоровской сложности временных рядов

Могут быть предложены различные варианты преобразования значений коэффициентов сжатия ¿иД^С) и цг(й,С) в значения, соответствующее данному временному ряду по координатам колмогоровской сложности значений и тенденций в пространстве кластеризации.

Например, возможен следующий вариант. Коэффициент сжатия есть отношение длины исходной строки к длине сжатой строки, и, по определению, не может быть меньше единицы. Тогда нормировка в значение координаты выполняется вычитанием единицы из значения коэффициента сжатия, и в целях обеспечения наглядности, мы используем значение, обратное к полученному. Обозначим такие характеристики через Бу(Т) и Бг(Т), тогда

1 „ ™ 1

ЩТ) =

иМС)-У г Мг(з,С)-1 где соответствующие значения //„(5,С) вычисляются по (4) а ^ и определяются по временному ряду Т на основе (2) и (3).

Полученные значения Бу(Т), Бг(Т), и есть характеристики временного ряда по координатам колмогоровской сложности значений и тенденций в пространстве кластеризации. При такой нормировке малые положительные значения соответствуют

большим коэффициентам сжатия, и, следовательно, временным рядам с простой регулярной структурой. Большие значения характеризуют временные ряды с коэффициентом сжатия близким к единице, т.е. ряды, обладающие выраженной случайностью (в мере кол-могоровской сложности, но не в мере случайности по Колмогорову [3]). Временные ряды, обладающие большими значениями характеристики колмогоров-ской сложности, по мнению авторов, должны обладать плохой предсказуемостью или коротким (по времени) приемлемым результатом прогноза.

8. Заключение

В статье предложен подход к исследованию особенностей временных рядов, основанный на оценке их колмогоровской сложности на основе коэффициента сжатия символьного кода временного ряда. Предлагаемое разбиение размах варьирования значений на полусегменты для символьного кодирования основано на предложенном одним из авторов (совместно с В.Н. Петрушиным) бикритериальном методе построения гистограмм. Полученные оценки относительной сложности временного ряда по Колмогорову служат базой для вычисления меры сложности временного ряда, являющейся одной из осей кластерного пространства временных рядов, при символическом кодировании значений. В статье описан так же переход от символьного кодирования по значениям к символьному кодированию по тенденциям, позволяющему ввести еще одну координату пространства кластеризации временных рядов.

Предполагаемое авторами в дальнейшем исследование особенностей методов прогнозирования по отношению к кластерам временных рядов позволит указать наиболее рациональные методы для выделенных кластерных групп. Очевидно, что наиболее интересной и научно значимой задачей является построение разнообразия координатных осей самого пространства кластеризации, равно как и введение функции расстояния для определения в этом координатном пространстве структуры метрического пространства. ■

Литература

1. Любушин А.А. Анализ данных систем геофизического и экологического мониторинга. — М.: Наука, 2007.

2. Верещагин Н.К., Успенский В.А., Шень А. Колмогоровская сложность и алгоритмическая случайность. - М.: МЦНМО, 2013.

3. Lothaire M. Algebraic Combinatorics on Words. — 2005.

4. Петрушин В.Н., Ульянов М.В. Бикритериальный метод построения гистограмм // Информационные технологии и вычислительные системы. — 2012. — № 4. — С. 22-31.

i Надоели баннеры? Вы всегда можете отключить рекламу.