Научная статья на тему 'Испытание алгоритма метода «Гусеница-SSA» для восстановления временного ряда'

Испытание алгоритма метода «Гусеница-SSA» для восстановления временного ряда Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1601
290
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫДЕЛЕНИЕ ТРЕНДА / НАХОЖДЕНИЕ ПЕРИОДИК / УСТРАНЕНИЕ ШУМА / РАЗЛОЖЕНИЕ ВРЕМЕННОГО РЯДА НА КОМПОНЕНТЫ / TREND ALLOCATION / FINDING OF THE PERIODICALS / NOISE ELIMINATION / DECOMPOSITION OF TIME SERIES TO COMPONENTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вохмянин Сергей Владимирович

Рассмотрен базовый алгоритм метода «Гусеница-SSA» и проведены его испытания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TESTING THE ALGORYTHM OF THE METHOD «CATERPILLAR-SSA» FOR REESTABLISHING OF TIME SERIES

The base algorithm of the «Caterpillar-SSA» method is considered and tested.

Текст научной работы на тему «Испытание алгоритма метода «Гусеница-SSA» для восстановления временного ряда»

I. V Toupitsyn

FAST ALGORITHM FOR RECONSTRUCTION OF INTERMEDIATE VIEWS FROM STEREOPAIR

An effective algorithm for stereoreconstruction of A. A. Lukianitsa is considered in this article. An algorithm modification, allowing to increase the speed of the algorithm is suggested. The results of carried out experiments are presented as well.

Keywords: stereo image, epipolar geometry, corresponding points, disparity.

© Tym^m H. B., 2010

УДК 330.43

С. В. Вохмянин

ИСПЫТАНИЕ АЛГОРИТМА МЕТОДА «ГУСЕНИЦА^А» ДЛЯ ВОССТАНОВЛЕНИЯ ВРЕМЕННОГО РЯДА

Рассмотрен базовый алгоритм метода «Гусеница-ББА» и проведены его испытания.

Ключевые слова: выделение тренда, нахождение периодик, устранение шума, разложение временного ряда на компоненты.

Одной из важнейших задач в анализе временных рядов является отделение тренда и периода от шума. Данная статья посвящена исследованию мощного и быстро-развивающегося метода анализа временных рядов «Гу-сеница-88А> [1].

Рассмотрим временной ряд Е:

/0, /1, ..., /ы-1, (1)

где N - его длина. В дальнейшем будем предполагать, что ряд Е - ненулевой.

Алгоритм метода «Гусеница-88А> состоит из четырех последовательно выполняемых шагов: вложения, сингулярного разложения, группировки и диагонального усреднения.

На первом шаге процедура вложения переводит исходный временной ряд Е в последовательность многомерных векторов, которая называется траекторной матрицей.

Для анализа временного ряда выбирается целочисленный параметр Ь, именуемый длиной окна, такой что 1 < Ь < N. При этом образуется К = N - Ь - 1 векторов вложения:

X, = (/■-„/, ..., /,ь-2)7, 1 < г < К .

Эти векторы образуют траекторную матрицу ряда Е, столбцами которой являются скользящие отрезки ряда длины Ь: с первой точки по Ь-ю, со второй по (Ь + 1)-ю и т. д.:

/о /1 ... /К-1

X = [XX 2 :...: ] =

f />

fL-1 fL

/n

(2)

Существует взаимно однозначное соответствие между матрицами размерности ЬхК вида (2) и рядами (1) длины N = Ь + К - 1 [1].

Результатом второго шага является сингулярное разложение траекторной матрицы (2) в сумму элементарных матриц.

Пусть Б = X • Xе. Обозначим через 1 1 ..., 1 собственные числа матрицы Б, взятые в неубывающем порядке, а через П1, П2, ., Ц. ортонормированную систему собственных векторов матрицы Б, соответствующих упорядоченным собственным числам. Тогда сингулярное разложение траекторной матрицы X может быть записано следующим образом:

(3)

X = Xl'

где V, = и, ■ иТ ■ X , I = 1, ... , Ь. Учитывая, что каждая из матриц V. имеет ранг 1, назовем их элементарными матрицами [1].

Предположим, что исходный временной ряд является суммой нескольких рядов, что позволяет при некоторых условиях определить по виду собственных чисел и собственных векторов, какие это слагаемые и какой набор элементарных матриц соответствует каждому из них.

На третьем шаге на основе разложения (3) множество индексов {1, 2, ., Ь } делится на т непересекающих-ся подмножеств I 12, ., I Тем самым разложение (3) может быть записано в виде

X = 1 Г.

(4)

где

Yi =TVk -

результирующие матрицы для каждого

подмножества I., I = 1, ., т.

Фактически именно на этом шаге происходит разделение исходного ряда (1) на шумы, тренд и периодики. Основным критерием группировки является значимость

.=1

keI

каждой элементарной матрицы V прямо соответствующая ее собственному числу 1к.

На четвертом шаге алгоритма каждая матрица сгруппированного разложения (4) переводится в ряд длины N.

Положим Ь* = шт(Ь, К), К* = тах(Ь, К). Пусть также у*..= У., если Ь < К, и у*. = У., если Ь > К. Диагональное

У У У А ' '

усреднение переводит каждую результирующую матри-

цу У®, 5 = 1, 2,

/к =

т, в ряд /

к+1

(5)

по следующей формуле:

к1

+ГI у

П-\

1 V

7* IУ

,к-п+ 2

о < к < ь -1,

Ь п=1

1

N - к

п,к-п+2

N-К +1 у*п

К < к < N.

(5)

^п,к-п+2 >

=к-К +2

Эта формула соответствует усреднению элементов вдоль диагоналей I + у = к + 2.

Итак, применяя диагональное усреднение (5) к результирующим матрицам У(5), получаем ряды Е(5) = (/0(5),/1м,..., /N-1). Исходный же ряд Е раскладывается в сумму т рядов:

?(0 /

п=1

, N - 1, 5 = 1, 2,

(5)

I (А - х) I (Я )2

•100 %,

где А. - восстановленный (очищенный от помех) ряд, полученный с помощью алгоритма. В (7) числитель является суммой квадратов отклонений восстановленного ряда от чистого, в то время как знаменатель есть сумма квадратов помех. Таким образом, (7) показывает долю помех, не отделенную после применения алгоритма, поэтому будем называть его гашением шума.

Пример 1. Простой временной ряд, слабые помехи; х. = I + 10, I = 0, 1, ..., 49, N = 50, Ь = 25; Я. - равномерно распределенная случайная величина из промежутка [-2; 2]. Матрица £ имеет размеры 25 х 25 и 25 собственных чисел 1. (табл. 1).

В качестве индексов группировки выбираются числа 24 и 25 как соответствующие наиболее значимым составляющим. С ними соотносятся элементарные матрицы ^24 и ¥25. Производя усреднение для результирующей матрицы У0 = У2А + ¥25, получаем восстановленный ряд (рис. 1).

п = 0, 1, ..., N - 1, 5 = 1, 2, ..., т. (6)

Таким образом, результатом работы алгоритма является разложение временного ряда на интерпретируемые аддитивные составляющие. При этом он не требует стационарности ряда, знания модели тренда, а также сведений о наличии в ряде периодических составляющих и их периодах. При таких слабых предположениях метод «Гу-сеница-88А> может решать различные задачи, такие как выделение тренда, обнаружение периодик, сглаживание ряда, построение полного разложения ряда в сумму тренда, периодик и шума [2].

Разумеется, данный метод имеет и свои недостатки. Во-первых, для получения составляющих исходного ряда используется неавтоматическая группировка компонент сингулярного разложения траекторной матрицы ряда (хотя залог успешного разложения заключается как раз в правильной группировке). Во-вторых, отсутствие модели не позволяет проверять гипотезы о наличии в ряде той или иной составляющей (этот недостаток объективно присущ всем непараметрическим методам). Отметим также, что рассматриваемый нами непараметрический метод в некоторых случаях позволяет получить результаты, часто незначительно менее точные, чем многие параметрические методы при анализе ряда с известной моделью [3].

Для исследования преимуществ и недостатков алгоритма метода «Гусеница-88А» рассмотрим его работу на трех различных примерах. В каждом из примеров дан временной ряд, который состоит из суммы сгенерированных помех Я. и заданной искомой функции х.:

/ = X + Я1.

Введем также критерий эффективности, задаваемый отношением

Рис. 1. Графики рядов (для примера 1): чистого, с шумом и восстановленного

Гашение шума составило W = 11,4 % от исходного шума.

Пример 2. Ряд с сезонными составляющими, средние 1(1 - 60)

помехи; х. =

100

- + 58Ш(/), I = 0, 1, ..., 59, N = 60,

(7)

Ь = 30; Я. - равномерно распределенная случайная величина из промежутка [-3; 3]. Матрица £ имеет размеры 30 х 30 и 30 собственных чисел 1. (табл. 2).

В качестве индексов группировки выбираются числа с 27 по 30 как соответствующие наиболее значимым составляющим (стоит отметить, что они не обязаны быть последними, хотя такое довольно часто происходит). Им соответствуют элементарные матрицы У27, У28, У29 и ¥30. Производя усреднение для результирующей матрицы У0 = У21 + ¥28 + У29 + ¥30, получаем восстановленный ряд (рис. 2).

Гашение шума составило W = 25,6 % от исходного шума.

Пример 3. Ряд с несколькими сезонными составляющими, сильные помехи;

х. = 0,03/ +1,6 8ш(0,3/ + 0,17) +1,3 8Ш(2/ + 0,57), I = 0, 1, ..., 49, N = 50, Ь = 15; Я. - нормально распределенная случайная величина, ст = 3. Матрица £ имеет размеры 15 х 15 и 15 собственных чисел 1. (табл. 3).

В данном случае из-за сильного шума выбор компонент для группировки довольно затруднителен и распознать тренд и периодики сложно. Анализ показал, что уве-

п =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

личение количества индексов в подобной ситуации приводит к тому, что восстанавливаются не только аддитивные компоненты, но и неотделяемый шум.

Ï

А h t

- ï, J V / \ 1 .А А 1 « ï » у s 1 4 !к \ , % А ; \ а* * /1 > i J Y f u Y rti J ^ U

Рис. 2. Графики рядов (для примера 2): чистого, с шумом и восстановленного

Г ашение шума при взятии трех наиболее значимых компонент составляет W = 21,8 %, для четырех -V = 29,2 % и для пяти - W = 34,6 % .

Результаты для трех выделенных компонент приведены ниже (рис. 3).

. î n

'i '* î 'l7i i\ 11 - ■ Л № ■' . , '! 'v '■ 11 4 A.Æ/i i, i 1? ;\/^s,

v/ W * k ?, ; yi» ÿ W'Htii i) л r, ,fV'

1 * « \ I n\i b t , \ \ ff\ °! ;nV s ■’ \ iw/ '*'■ У ; ! / V 11 b N 4 i I Ы II

A

По результатам проведенных испытаний можно сделать вывод, что базовый алгоритм метода «Гусеница-SSA» справляется с поставленной для него задачей: для временного ряда отделяет тренд и периодики от помех, снижая уровень шумов в 2-3 раза; при этом изначально неизвестно, какой тип будут иметь значимые компоненты: линейный, периодический, логарифмический или иной. Это является достоинством данного метода, что в перспективе позволит создать мощный механизм непараметрического анализа временных рядов, в том числе и в виде программ для ЭВМ.

Недостатками же базового алгоритма метода «Гусе-ница-SSA» являются необходимость вмешательства человека для анализа разделенных компонент и проблема выбора длины окна, от которой зависит качество разделения аддитивных составляющих. Дальнейшие исследования будут направлены на автоматизацию процесса анализа и использование других методов, улучшающих качество результатов работы алгоритма и уменьшающих вмешательство человека в этот процесс.

Библиографические ссылки

1. Голяндина Н. Э. Метод «Гусеница-SSA»: анализ временных рядов : учеб. пособие. СПб., 2004.

2. Главные компоненты временных рядов: метод «Гусеница» / под ред. Д. Л. Данилова, А. А. Жиглявского. СПб. : Пресском, 1997.

3. Golyandina N., Nekrutkin V, Zhigljavsky A. Analysis of Time Series Structure: SSA and Related Techniques. London : Chapman& Hall/CRC, 2001.

Рис. 3. Графики рядов (для примера 3): чистого, с шумом и восстановленного

Таблица 1

Вклад собственных чисел 1 матрицы Б, в процентах от их суммы, для примера 1

i 1 2 3 4 5 6 7 8 9 10 11 12 13

X, % 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,01 0,01 0,00 0,01 0,01 0,01

i 14 15 16 17 18 19 20 21 22 23 24 25 -

Xi, % 0,02 0,02 0,02 0,02 0,03 0,03 0,03 0,04 0,08 0,08 2,76 96,8 -

Таблица 2

Вклад собственных чисел 1. матрицы Б, в процентах от их суммы, для примера 2

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Xb % 0,03 0,03 0,03 0,03 0,04 0,05 0,02 0,07 0,07 0,07 0,08 0,01 0,00 0,00 0,12

i 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Xb % 0,11 0,12 0,12 0,17 0,20 0,21 0,21 0,22 0,26 0,29 0,33 4,14 5,97 7,58 79,44

Таблица 3

Вклад собственных чисел 1 матрицы Б, в процентах от их суммы, для примера 3

i 1 2 3 4 5 6 7 8

Xi, % 2,50 2,49 2,85 2,14 1,94 3,29 4,00 4,73

i 9 10 11 12 13 14 15 -

Xb % 5,26 6,83 7,78 9,99 11,31 13,83 21,07 -

S. V Vohmyanin

TESTING THE ALGORYTHM OF THE METHOD «CATERPILLAR-SSA» FOR REESTABLISHING OF TIME SERIES

The base algorithm of the «Caterpillar-SSA» method is considered and tested.

Keywords: trend allocation, finding of the periodicals, noise elimination, decomposition of time series to components.

© Boxmhhuh C. B., 2010

УДК 681.3

Е. А. Энгель

ИСПОЛЬЗОВАНИЕ ИНТЕЛЛЕКТУАЛЬНЫХ АЛГОРИТМОВ ДЛЯ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ*

С целью создания программной системы для адаптивного текстового реферирования разработаны и реализованы в виде отдельного модуля интеллектуальные алгоритмы автоматического определения жанра текста. Модуль позволяет нормализовать 45 статистических параметров: лексических, синтаксических, позиционных и дискурсивных; группировать гетерогенные параметры с помощью алгоритма ^средних; выполнять факторный анализ; ранжировать параметры, существенные для идентификации научного жанра, публицистики и беллетристики, посредством двух алгоритмов.

Ключевые слова: обработка текстовой информации, интеллектуальные алгоритмы, алгоритм K-средних.

В течение прошлого десятилетия автоматическое определение жанра текста стало важной проблемой, исследованной в пределах такой научной области, как обработка естественного языка. Будучи интересной с теоретической точки зрения, задача определения жанра тесно связана с развитием информационного поиска цифровых библиотек и реферирования. Автоматическую идентификацию интернет-жанров можно считать отдельной предметной областью, которая обращается к реальной проблеме информационной перегрузки и играет существенную роль в улучшении часто неадекватных результатов работы поисковых машин.

Включение модуля автоматического определения жанра текста позволяет оптимизировать и повысить эффективность системы текстового реферирования. Стимулом для создания такого модуля стали результаты оценки эффективности следующих систем автоматического реферирования: Event Tracking Summarizer, Subject Search Summarizer, Copernic Summarizer и Open Text Summarizer. Программный продукт Event Tracking Summarizer, специально разработанный для обработки беллетристики, оказался эффективнее других систем автоматического реферирования в среднем на 15 % для беллетристики и менее эффективным для других жанров. Следовательно, возникает необходимость в создании адаптивной системы текстового реферирования на основе алгоритмов, оптимизированных для конкретного текстового жанра.

У любой ЖР-системы есть модуль предварительной обработки, который в зависимости от текстовых задач обработки выполняет лексическое и синтаксическое разложение, стемминг, аннотацию и синтаксический парсинг. Результатом предварительной обработки является модель объекта, которая отражает лингвистические характеристики входного текста, например слов, фраз, предложений, параграфов. Далее лингвистические характеристики ранжируются, в результате чего получается список текстовых параметров. Параметры с самыми высокими весами затем сравниваются с эталонными моделями, хранящимися в лингвистической базе данных. Входной текстовый жанр идентифицируется в зависимости от степени соответствия между распределением параметров в этом тексте и в одной из эталонных моделей. На следующей стадии система применяет алгоритмы реферирования, оптимизированные для данного жанра (рис. 1).

Предметом данной статьи является задача определения жанра текста; алгоритмы реферирования выходят за рамки данной публикации.

Параметры, идентифицирующие жанр. Идентификация жанра текста основана на анализе набора параметров, являющихся лингвистическими признаками с назначенными весами, т. е. некоторыми числовыми значениями, отражающими его важность для данного текста. Следовательно, процесс идентификации жанра включает две

* Работа выполнена в рамках Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.», Госконтракт 02.740.11.0663.

i Надоели баннеры? Вы всегда можете отключить рекламу.