Научная статья на тему 'Применение факторного анализа для исследования временных рядов'

Применение факторного анализа для исследования временных рядов Текст научной статьи по специальности «Математика»

CC BY
688
122
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛУЧАЙНЫЕ ПРОЦЕССЫ / ФАКТОРНЫЙ АНАЛИЗ / КЛАСТЕРНЫЙ АНАЛИЗ / МЕТОД НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ / STOCHASTIC PROCESSES / FACTOR ANALYSIS / CLUSTER ANALYSIS / MAXIMUM LIKELIHOOD METHOD

Аннотация научной статьи по математике, автор научной работы — Гарбарук В. В., Фоменко В. Н., Куприянов А. С.

Факторный анализ применяется к случайным процессам, причем в качестве переменных рассматриваются временные сечения. Корреляция временных сечений проявляется через наличие в них общих для всего процесса факторов. Общие и индивидуальные факторы определяются по методу наибольшего правдоподобия. В рамках предложенной статистической модели предлагается метод дискриминантного анализа временных рядов. Кластеризация экспериментальных данных осуществляется с использованием критерия значимости, причем вводятся два критерия: один содержит общие, другой индивидуальные факторы. Метод иллюстрируется на примере пупиллограммам здоровых и наркозависимых людей. В результате анализа четко выделяется класс пупиллограмм, полученных для обследуемых с патологиями.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Applying factor analysis to investigation of time series

Factor analysis is applied to stochastic processes, data points being considered as input variables. Correlation between data points appears as the presence in each of them of factors common for the whole process. The common and individual factors are determined by means of maximum likelihood method. A version of discriminant analysis of time series is outlined in the framework of the statistical model suggested. Clustering experimental data is done using test of statistical significance. Two criterion variables are introduced: one of them depends on common factors whereas the other is related to individual factors. The method is illustrated by analyzing pupillograms of healthy and drug addicted people. As a result, the class of pupillograms of persons with pathologies is clearly distinguished.

Текст научной работы на тему «Применение факторного анализа для исследования временных рядов»

Общетехнические задачи и пути их решения

143

3. Колебательно-вращательная спектроскопия водяного пара / А. Д. Быков, Ю. С. Макушкин, О. Н. Улеников. - Новосибирск : Наука, 1989. - 295 с.

4. Возбуждение атомов и уширение спектральных линий / Л. А. Вайнштейн, И. И. Собельман, Е. А. Юков. - М. : Наука, 1979. - 319 с.

5. Молекулярная спектроскопия / М. А. Ельяшевич. - М. : Ком. книга, 2007. -525 с. - ISBN 5-8354-7/978-5-8354-0391-2.

УДК 05.13.18

В. В. Гарбарук, В. Н. Фоменко, А. С. Куприянов

ПРИМЕНЕНИЕ ФАКТОРНОГО АНАЛИЗА ДЛЯ ИССЛЕДОВАНИЯ ВРЕМЕННЫХ РЯДОВ

Факторный анализ применяется к случайным процессам, причем в качестве переменных рассматриваются временные сечения. Корреляция временных сечений проявляется через наличие в них общих для всего процесса факторов. Общие и индивидуальные факторы определяются по методу наибольшего правдоподобия. В рамках предложенной статистической модели предлагается метод дискриминантного анализа временных рядов. Кластеризация экспериментальных данных осуществляется с использованием критерия значимости, причем вводятся два критерия: один содержит общие, другой - индивидуальные факторы. Метод иллюстрируется на примере пупиллограммам здоровых и наркозависимых людей. В результате анализа четко выделяется класс пупиллограмм, полученных для обследуемых с патологиями.

случайные процессы, факторный анализ, кластерный анализ, метод наибольшего правдоподобия.

Введение

Важной задачей, связанной с практикой применения временных рядов, является их классификация по тому или иному критерию. Решение этой задачи становится сложным, когда случайная компонента членов временного ряда достаточно велика и сильно маскирует признак, по которому проводится классификация. Целью данной работы является предложить методику, позволяющую в ряде случаев нивелировать влияние случайного разброса и более четко выделить интересующий исследователя признак.

Предлагаемый метод основан на использовании факторного анализа [1], [2], с помощью которого для данного класса случайных процессов выявляются общие составляющие, так называемые общие факторы временных сечений. Через общие факторы выражаются все временные сечения.

ISSN 1815-588Х. Известия ПГУПС

2011/3

144

Общетехнические задачи и пути их решения

Система n случайных величин при этом заполняет некую область в n -мерном пространстве, являющуюся частью линейного многообразия, размерность которого равна количеству общих факторов. При достаточно сильной корреляции между членами временного ряда число общих факторов невелико. В этом случае возможно с хорошей точностью устранить случайную составляющую в изучаемом процессе и подтвердить или опровергнуть его принадлежность к тому или иному классу.

Предлагаемый метод учета корреляции временных сечений является альтернативой метода автокорреляционной функции [3]. Его преимущество состоит в том, что он не предполагает перехода в частотную область и связанной с этим потери наглядности. Кроме того, исследуемый процесс может быть нестационарным. В этом случае в традиционном подходе, основанном на автокорреляционной функции, требуется зависящее от времени частотное преобразование, привносящее дополнительные проблемы.

1 Факторный анализ случайных процессов

Пусть X (t) - изучаемый случайный процесс, наблюдаемый в моменты времени tt, i = 1,...,n . Обозначим через xt = X(tt) соответствующие

временные сечения процесса, = Mxt и Gt = у]Dxt - их математическое

ожидание и среднеквадратичное отклонение. Пусть R - матрица корреляций для случайных величин xi .

В методе факторного анализа матрица R представляется в виде разложения по ее собственным векторам в следующем виде:

R = V

u, 0 . 0

0 ^2 • 0

0

V" - ^n

где V - матрица, столбцы которой заполнены собственными векторами; Xi - собственные числа (Л,1 > Х2 >... >Хn ). Из полного набора собственных векторов выберем первые p векторов так, чтобы они давали превалирующий вклад в сумму

*

к=1

= П .

Исходя из этого набора собственных векторов вычисляется матрица

2011/3

Proceedings of Petersburg Transport University

Общетехнические задачи и пути их решения

145

R = V

% 0 ... 0 ^ 0 х 2 ... 0 ............ 0

(1)

где V имеет размер n х p и содержит отобранные собственные векторы. Далее снова находятся собственные векторы R , из них отбираются p векторов с наибольшими собственными значениями, по ним по формуле (1) вычисляется новая матрица R и т. д. Процесс итераций повторяется до достижения сходимости с заданной точностью. В результате исходная корреляционная матрица принимает вид

R = R + AR. (2)

Диагональные элементы ht = Rii, т. е. доли от полной дисперсии <jf величин x., воспроизводимые p главными собственными векторами R , носят название общностей и могут существенно отличаться от 1. Матрица AR представляет остаточные корреляции и дисперсии.

Разбиение матрицы корреляций на две компоненты (2) отвечает представлению величин xi в виде

x. = m + а

Z aikfk

+ и

i = 1, n,

(3)

k=1

где f - некоррелированные нормированные случайные величины (общие факторы). Коэффициенты ak (факторные нагрузки) коллинеарны собственным векторам матрицы R с коэффициентами sjxk. Величины и. (индивидуальные факторы) независимы по отношению к общим факторам.

Du

Диагональные элементы AR имеют вид 1 - h =--. Они могут быть

и не малы по сравнению с 1. Однако коэффициенты корреляции, стоящие вне диагонали AR , по идеологии факторного анализа должны быть малы, так как общие факторы должны учитывать главную часть корреляции x :

Cov( xt, x.)

а а

= &Xj Z

k=1

aikajk +

Cov(u., и.)

а а

Если общности ht близки к 1 (т. е. индивидуальные флюктуации достаточно малы), то мы можем в хорошем приближении отбросить в формуле (3) индивидуальные поправки и получим для временных сечений процесса приближенное представление:

ISSN 1815-588Х. Известия ПГУПС

2011/3

146

Общетехнические задачи и пути их решения

p

х * m +а.Saikfk . (4)

к=1

Соотношение (4) означает, что векторы (x1, x2,..., xn) содержатся в некоторой p -мерной области (линейном многообразии) в n -мерном линейном векторном пространстве. Сокращение размерности области пространства, заполняемого случайным процессом, связано, очевидно, с наличием корреляции между его временными сечениями, которые в аппарате факторного анализа учитываются введением общих для всех сечений составляющих - общих факторов.

2 Точечные оценки факторов

Для определения значений общих и индивидуальных факторов построим для них точечные оценки, используя метод наибольшего правдоподобия. Примем для определенности, что факторы имеют нормальное распределение и, как следствие, по этому же закону распределены временные сечения процесса. Тогда, учитывая некоррелированность общих факторов между собой и с индивидуальными факторами, функцию правдоподобия можно представить в виде

f

V(fi,‘--, fp, , un) = N exP

1 Р 1 n

2S fk2 - 2 S C

z k=1 z i, j=1

Uuj

(5)

где N - постоянный нормировочный коэффициент.

В формуле (5) мы учли взаимную корреляцию между индивидуальными факторами. Это необходимо сделать несмотря на то, что общие факторы учитывают существенную долю ковариации между величинами xi . Действительно, остаточные корреляции между индивидуальными факторами могут приводить к существенному отличию коэффициентов корреляции от нуля, так как дисперсии индивидуальных факторов тоже малы в случае, когда общности близки к 1. Остаточная ковариация определяется как разность между полной ковариацией и ее частью, учитываемой общими факторами:

Cov(u., uj) = Cov( х, xj) - Cov(f) =

p

Cov( x, x) - aa j S akajk .

k=1

В выражении (5) матрица коэффициентов

C =

Cov(u., uj

-1

2011/3

Proceedings of Petersburg Transport University

Общетехнические задачи и пути их решения

147

Оценки для факторов fk и й . получаются как решение задачи на максимальное значение функции правдоподобия (5) при дополнительных условиях

^ л. л.

max у( , fp, щ,..., йп);

< р

-г /V

x = m+°i Z aikfk + й, . = 1,^^^, n

k=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где xt - экспериментальные значения сечения процесса.

Используя метод множителей Лагранжа, можно получить систему уравнений, определяющую й.:

n f p n Л

Z ъи+c-'ZZaiA°iCij

j=1 V k=1 l=1

й. = x. - m.

j . .

(6)

Оценки для общих факторов определяются соотношениями

A = Z C

й. G .a.,

tj J t tk

i,j=1

(7)

Непосредственное использование формул (6) и (7) может оказаться затруднительным, так как оно требует для вычисления C., а затем й t двукратного обращения (возможно, плохо обусловленных) матриц большого размера. Проблема решается введением вместо й. новых переменных wt

согласно соотношению

й t =Z COVOi , й. ) ■ Wj . (8)

j=1

Переменные wt вычисляются из системы уравнений

Z Cov(x i, xj)wj = x.- m. (9)

j=1

Общие факторы выражаются через новые переменные следующим образом:

h = Z W Gi aik. (10)

t=1

Необходимо подчеркнуть, что матрица ковариации Cov(u. , й. ) может

быть не только плохо определенной, но и вырожденной. Это возможно, когда в качестве факторных нагрузок выбираются в точности собственные векторы корреляционной матрицы R (так поступают, например, используя метод разложения по главным компонентам). В таком случае матрица C

ISSN 1815-588Х. Известия ПГУПС

2011/3

148

Общетехнические задачи и пути их решения

в функции правдоподобия (5) не существует. Однако формулы (8), (9) и (10), на основе которых вычисляются оценки факторов, остаются справедливыми. Их можно получить, проведя процедуру регуляризации, состоящую в перераспределении доли ковариации между общими и индивидуальными факторами согласно соотношениям

Cov(/)! = Cov( f) + sE; ||Cov( ut, Uj )|' = ||Cov(u. , Uj)

sE.

где E - единичная матрица; Z - малый параметр.

Вновь полученные матрицы не вырождены, и для них можно получить формулы (8), (9) и (10), переход в которых к пределу z ^ 0 тривиален в силу непрерывности относительно Z ковариации Cov(u, Uj ).

3 Кластеризация случайных процессов

С практической точки зрения важным является вопрос, относится ли случайный процесс, реализация которого получена при эксперименте, к данному классу. Будем предполагать, что известна следующая информация о классе процессов: математическое ожидание и дисперсия временных сечений процесса (на практике - статистические оценки этих величин) и факторные нагрузки для сечений. Вопрос о принадлежности процесса к данному классу будем решать, применяя критерий значимости.

Критерии введем на основе двух аргументов. Во-первых, если процесс принадлежит данному классу, то среднеквадратичное отклонение реализации от ее аппроксимации общими факторами не должно быть слишком большим, если предварительно проведенный факторный анализ свидетельствует о значительном вкладе общих факторов в корреляцию между сечениями процесса. Во-вторых, численные значения самих общих факторов, полученные при минимизации среднеквадратичного отклонения, не должны сильно превосходить единицу по абсолютной величине, так как общие факторы - это нормированные случайные величины.

Функция правдоподобия (5) определяет законы распределения двух статистик:

tl =Z C<ju<uj; (11)

i,j

X/ =Z fk . (12)

k=1

Остановимся подробнее на первой статистике. Обозначим через D матрицу, столбцы которой заполнены компонентами ортонормированных собственных векторов матрицы C. Так как справедливо равенство

C = Cov_1, то квадратичная форма (11) положительно определена, по-

2011/3

Proceedings of Petersburg Transport University

Общетехнические задачи и пути их решения

149

скольку матрица ковариации имеет положительный спектр собственных значений. Обозначим через ui' переменные, в которых форма (11) принимает диагональный вид:

X 2 = £«л'2. (13)

i = 1

Здесь - собственные значения матрицы С . Для величин ui' имеем:

u.

S D

j=1

jMj

2 2

Выражение (13) показывает, что статистика X имеет X -распределение с n степенями свободы. Величину (13) можно переписать в виде

х2 = £к,

i=1

S Dj( *j - mj -a j S ajtft)

j=1 k=1

2

Это соотношение позволяет трактовать Xu как взвешенное среднеквадратичное отклонение ортогональных линейных комбинаций времен-

n

ных сечений S D^Xy от их прогностических значений, полученных через

j=1

n p

общие факторы S Djt (mj + a j S aJtft).

j=1 k=1

Как говорилось выше, вычисление коэффициентов Су может быть затруднено. Этого можно избежать, выразив статистику (11) через переменные wt (см. формулу (8)):

X2 = S wi Cov(ui, uj )wj.

i ,j=1

(14)

В случае вырожденности матрицы ||Cov(ui, uj)

формула (14) сохраня-

ет силу и выводится с помощью процедуры регуляризации, описанной в разделе 2.

2

Статистика (12) имеет X -распределение с p степенями свободы в силу независимости общих факторов.

Пусть Pu и Pf - доверительные вероятности для обоих критериев, а

F(2r)(х) функция X2-распределения с числом степеней свободы r. Тогда

X

допустимая область критерия значимости определяется системой неравенств

ISSN 1815-588Х. Известия ПГУПС

2011/3

150

Общетехнические задачи и пути их решения

х2 < К;

'.х2/ < К/,

где квантили Ku и К, удовлетворяют уравнениям

F” >( К) = P,,; Fх >( К,) = P/.

(15)

4 Пример применения изложенного метода

Предложенный метод был применен для исследования и кластеризации набора пупиллограмм, т. е. зависимости размера зрачка глаза от времени после воздействия на глаз светового стимула. Вначале был исследован класс пупиллограмм здоровых людей. Всего данные содержали 544 пупиллограммы. Каждая из них состоит из 155 временных отсчетов. Пример типичной пупиллограммы приведен на рисунке 1. Подробнее с пупил-лографическим методом можно познакомиться в работах [4], [5].

В результате факторного анализа были выделены три общих фактора при индивидуальных общностях не менее 0,99. Анализ по критериям (15) проводился при доверительных вероятностях Pu = P, = 0,95.

2011/3

Proceedings of Petersburg Transport University

Общетехнические задачи и пути их решения

151

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рисунке 2 символами “ о ” изображены точки, абсциссы и ординаты которых равны значениям критериев X их f соответственно. Пунктирными линиями отмечены критические значения Ku и Kf. Эти прямые

ограничивают допустимую прямоугольную область. Из 544 пупиллограмм 22 выходят за пределы допустимой области, но находятся вблизи ее границы. Это обстоятельство вполне соответствует принятым уровням значимости. Чтобы не загромождать рисунок, на нем показаны только 109 из 544 пупиллограмм здоровых людей.

2

Рис. 2. Критерии Xu и Xf для пупиллограмм здоровых (о) и наркозависимых

обследуемых в состоянии интоксикации (х) и абстиненции (+)

Построенная описанным образом статистическая модель нормальных пупиллограмм применяется для выявления патологий у наркозависимых пациентов с интоксикацией и абстинентным синдромом. На рисунке значками “ + ” отмечены точки для пупиллограмм, полученных у людей с абстинентным синдромом (30 обследуемых). Точки, отмеченные значками

ISSN 1815-588Х. Известия ПГУПС

2011/3

152

Общетехнические задачи и пути их решения

“ х”, относятся к людям в состоянии интоксикации (20 обследуемых). Видно, что из 20 пупиллограмм, снятых в состоянии интоксикации, 19 не попали в допустимую область, все 30 пупиллограмм людей в состоянии абстиненции также находятся далеко за пределами допустимой области.

Таким образом, можно с уверенностью сделать вывод об эффективности предложенного в данной работе метода выявления указанных патологий. Отметим, что две рассмотренные патологии хорошо отделяются и друг от друга. Но для полного решения этого вопроса требуется построение статистических моделей для класса пупиллограмм с теми или иными патологиями. К сожалению, в настоящий момент для этого не хватает опытных данных.

Заключение

Предложенный в работе подход к исследованию случайных процессов, основанный на факторном анализе временных сечений, имеет то преимущество, что он приложим как к стационарным, так и к нестационарным процессам, избавляя от необходимости проведения так называемых частотно-временных преобразований.

В противовес методу Фурье-преобразования в данном подходе информация о классе процессов в целом содержится в факторных нагрузках, а индивидуальная информация о реализациях процесса сосредоточена в общих факторах - независимых нормированных случайных величинах. Это позволяет отобразить индивидуальные характеристики реализаций процесса в линейное многообразие, размерность которого равна числу общих факторов и, следовательно, может быть значительно меньше размерности пространства временных сечений.

Предложенный метод позволяет провести дискриминантный анализ случайных процессов. Приведенный в работе пример показывает его эффективность.

Другим применением предложенного метода могло бы стать статистическое моделирование случайных процессов с заданными статистическими характеристиками.

Библиографический список

1. Факторный анализ / К. Иберла. - М. : Статистика, 1980. - 398 с.

2. Факторный анализ /Я. Окунь. - М. : Статистика, 1974. - 200 с.

3. Теория случайных процессов и ее инженерные приложения / Е. С. Вентцель, Л. А. Овчаров. - М. : Наука, 1991. - 383 с. - ISBN 5-02-014125-9.

4. Методы обработки и анализа пупиллограмм / А. С. Куприянов // Приборостроение. - 2009. - № 8. - С. 58-63.

5. Математические модели зрачковых реакций глаза человека (пупиллограмм) / В. Н. Фоменко, А. С. Куприянов // Известия ПГУПС. - 2010. - № 4. - С. 220-230.

2011/3

Proceedings of Petersburg Transport University

i Надоели баннеры? Вы всегда можете отключить рекламу.