Научная статья на тему 'Методы структурного анализа в прикладных задачах исследования временных рядов'

Методы структурного анализа в прикладных задачах исследования временных рядов Текст научной статьи по специальности «Математика»

CC BY
629
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
СТРУКТУРНЫЙ АНАЛИЗ ДАННЫХ / АЛГОРИТМЫ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ / ОДНОМЕРНЫЙ ВРЕМЕННОЙ РЯД / STRUCTURAL DATA ANALYSIS / TIME SERIES ANALYSIS ALGORITHMS / UNIVARIATE TIME SERIES

Аннотация научной статьи по математике, автор научной работы — Гольдовская Марина Дмитриевна, Дорофеюк Юлия Александровна, Киселева Нелли Евсеевна

Описаны методы и алгоритмы структурного анализа временных рядов, базирующиеся на методологии классификационного анализа данных. Рассмотрен специальный случай одномерных временных рядов, наиболее часто встречающийся при решении практических задач. Для этого случая разработаны алгоритмы глобальной оптимизации соответствующих критериев качества структуризации. Предложенные методы реализованы при решении ряда прикладных задач исследования временных рядов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гольдовская Марина Дмитриевна, Дорофеюк Юлия Александровна, Киселева Нелли Евсеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper describes the developed time series structural analysis algorithms and methods, based on ranging analysis methodology. The special case of univariate time series, which are frequent in practice, is considered. The global optimization algorithms are developed for the case. The described methods were applied to solve practical problems of time series analysis.

Текст научной работы на тему «Методы структурного анализа в прикладных задачах исследования временных рядов»

УДК 62-50

МЕТОДЫ СТРУКТУРНОГО АНАЛИЗА О ПРИКЛАДНЫХ ЗАДАЧАХ ИССЛЕДОВАНИЯ ВРЕМЕННЫХ РЯДОВ1

М.Д. Голдовская, Ю.А. Дорофеюк, Н.Е. Киселева

Описаны методы и алгоритмы структурного анализа временных рядов, базирующиеся на методологии классификационного анализа данных. Рассмотрен специальный случай одномерных временных рядов, наиболее часто встречающийся при решении практических задач. Для этого случая разработаны алгоритмы глобальной оптимизации соответствующих критериев качества структуризации. Предложенные методы реализованы при решении ряда прикладных задач исследования временных рядов.

Ключевые слова: структурный анализ данных, алгоритмы анализа временных рядов, одномерный временной ряд.

ВВЕДЕНИЕ

Для многих технических, социально-экономических и медико-биологических объектов управления исходные для анализа данные задаются в виде значений параметров, изменяющихся во времени, т. е. временных рядов. Именно поэтому создание эффективных методов анализа временных рядов является важной и актуальной задачей. Довольно часто при решении этой задачи необходимо не исследование точных значений рассматриваемых характеристик, а выделение некоторой структуры из имеющегося массива данных. В некоторых задачах временные ряды не поддаются классическому статистическому анализу ввиду своей сложности, пропусках в данных и др. В таких случаях для их исследования предлагается применять методы классификационного анализа данных.

В настоящей работе на базе методологии классификационного анализа данных [1, 2] разработаны методы и алгоритмы структурного анализа временных рядов, которые носят универсальный характер и могут использоваться при исследовании, идентификации, диагностике и совершенствовании методов принятия решений для широкого

1 Работа выполнена при частичной финансовой поддержке РФФИ, проекты 13-07-00992-а, 11-07-00178-а, 11-07-13137-офи-м-РЖД.

класса социально-экономических, организационно-административных, инженерно-технических и медико-биологических объектов. Разработанные алгоритмы были реализованы при решении ряда прикладных задач.

1. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ

В настоящей работе рассматриваются два типа временных рядов. Первый тип — временные ряды, являющиеся естественным обобщением объектов классификационного анализа на случай классификации траекторий. Второй тип — одномерный временной ряд значений некоторого параметра исследуемого объекта в дискретные моменты времени. Для этого типа объектов задача структуризации сводится к классификационному анализу самих значений временного ряда.

1.1. Анализ временных рядов первого типа

Рассмотрим общий случай многомерных рядов первого типа. Формальная постановка задачи классификационного анализа подразумевает определение: множества объектов, подлежащих структуризации (классификации); множества решающих правил и критерия качества структуризации [1].

Постановка задачи. Пусть в момент времени ? каждый объект хр) из исследуемого набора п объ-

ектов описывается набором значений k параметров {(t), l = 1, ..., k}, т. е. является точкой в k-мерном пространстве X. Многомерный временной ряд Xj = (x,.(1), ..., Xj(m)) характеризует динамику (траекторию в X) состояния j-го объекта для m моментов времени. Тогда множеством объектов, подлежащих структуризации, является множество n таких временных рядов (динамических объектов)

длины m, т. е. множество Xn = {XX1, ..., Xn}.

Для структуризации множества Xn в работе применяются методы размытой автоматической классификации (кластерного анализа) на r классов с фоновым классом [1], в котором множество решающих правил H(Xn) — это n вектор-функций размерности (r + 1):

H(Xn) = {H( ~Xj), j = 1, ..., n}, H( Xj) = (h0( Xj), Äj( ~Xj), ..., hr( Xj)), (1)

где h((х. ) — функция принадлежности X. к i-му классу, а h0(х.) — функция принадлежности X. к фоновому классу [1]. Для любого X. вектор-функция

H( Xj) должна принадлежать некоторому ограниченному замкнутому множеству V в (r + 1)-мерном евклидовом пространстве, т. е. H(X.) е Vс Rr + Множество V определяет тип размытости для так поставленной задачи автоматической классификации.

В рамках общего вариационного подхода критерий качества классификации выбирается в соответствии с методом обобщенного среднего [2], а именно так, чтобы траектории объектов из одного класса хорошо описывались моделью (эталоном) этого класса. Обобщенным средним или эталоном множества, заданного функцией принадлежности h( XX), называется модель а h = argmax K(h( XX), а). Введем

а е Л

в рассмотрение множество Л возможных эталонов классов. Между элементами множества Xn и элементами а { е Л вводится мера близости K( X., а {).

n

Величина K(Xn, H( Xx.), а t) = ^ K( Xx., a t )h( XX..)

j = 1

отражает меру того, насколько хорошо эталон

ство точек /-го класса, заданное функциями принадлежности Н.( X]). В работе используется следующий критерий качества классификации траекторий:

г п п

*(н) = X I К(%, а, Щ%) + В £ й0(%), (2)

I = 1 ] = 1 ] = 1

где а { — эталон /-го класса, а В — «вес» фонового класса. Тогда задача структурного анализа множества многомерных временных рядов Хп состоит в максимизации функционала (2) по классификациям Н(Хп) с учетом вида эталонов классов а {. Для выявления конкретного вида классификации, максимизирующей функционал (2), исследован вид его субдифференциала в данной точке (классификации) Н(Хп) [3].

Центральным для вариационного подхода в рамках поставленной задачи является понятие эталонной классификации [1]. Рассмотрим некоторый

вектор моделей А = (а 1, ..., а г) е Л. Назовем классификацию НА( XX) = (Н0( XX), Н1( XX), ..., Ну( XX)) эталонной с вектором А, если она удовлетворяет соотно-

£ K( X, ä , )h, + Bh0

a, —

argmax £K(Xj, al)h(Xj) описывает множе-

aел j=j

шению HA( XX) = arg max

(h0, hb ..., hr)e V _

Была доказана следующая теорема о виде оптимальной классификации временных рядов [3].

Теорема 1. Если классификация H* доставляет максимум функционалу (2), то тот же максимум достигается на некоторой эталонной классификации HA(XX) с вектором эталонов A = (а..., аr) е Л, компоненты которого а{ являются обобщенными средними классов для классификации HA(XX). ♦

Алгоритм структурного анализа многомерных рядов описывается следующей итерационной процедурой. Задается начальная классификация H0(Xn) (для выбора начальной классификации разработаны специальные алгоритмы [4]). На 1-м шаге для классификации Hl(Xn) в каждом нефоновом

классе находится его эталон а;, по вектору эталонов Al = (а 1, ..., а Г) строится (I + 1)-е приближение оптимальной классификации Hl + l = H' i,

где Hj — эталонная классификация с вектором

эталонов Al, и т. д. Доказана сходимость алгоритма к локальному экстремуму J(H) [1]. Алгоритм конкретизируется как по виду критерия (2), так и по типам размытости.

r

n

Рассмотрим случай, когда множество эталонов классов является множеством возможных траекторий исследуемого объекта. Так же, как и при обычной классификации, наиболее простым способом введения множества эталонов классов служит множество всех возможных траекторий объ-

п X к

ектов, т. е. Л1 = Я

Другими словами, эталоны классов представляют собой в пространстве параметров траектории такой же длины, что и траектории объектов. Для множества эталонов Л1 рассматриваются следующие типы меры близости.

Мера близости типа /1. Эта мера близости совпадает с евклидовым расстоянием в пространстве

а(/) )2. Знак «ми-

яп х кК(х, а) = - ^ I (х/

1 = 1 /=1

нус» поставлен для удобства интерпретации, так как максимизация меры близости эквивалентна минимизации соответствующего расстояния. Использование такой меры приводит к тому, что траектории объектов классифицируются как точки

евклидова пространства Яп х к с критерием средневзвешенного квадратичного отклонения. В результате обобщенные средние классов будут совпадать с центрами классов в этом пространстве. Следовательно, в окончательной классификации эталон каждого класса является средним траекторий объектов в соответствующем классе.

Мера близости типа /1. Эта мера близости совпадает с расстоянием суммы модулей в про-

странстве Яп х к: К2(х, а) = - I 11

М)

а/1. Ис-

/ = 1/= 1

пользование данной меры приводит к тому, что обобщенные средние будут совпадать с медианами классов в пространстве Яп х к.

Мера близости с учетом приращения параметров. При анализе динамики часто нужно разбить объекты на группы схожих не по абсолютным значениям параметров, а по их приращениям. Для этого в меру близости добавляется расстояние между приращениями параметров:

пк

Кз(х, а) = -л01 I (хр - а(/) )2

1= 1/= 1

пк

- Б I I [(Хр - х/ 1) - (ар - а/1 ]2,

I = 2/= 1

где Б0 и Б1 — некоторые весовые коэффициенты, выбираемые экспертным путем.

Эталоны классов — представители классов.

Другая возможность ввода множества эталонов

заключается в использовании самого исходного множества объектов, т. е. Л = X , а в качестве ме-

2п

ры близости — одной из мер К1( х, а), К2( х, а)

или К3( х, а). В данном случае эталонная траектория каждого из классов будет совпадать с траекторией одного из объектов.

Качественное описание эталонов классов. Во многих случаях классы необходимо описывать не количественно, а качественно. Например, можно описать один из классов в следующих терминах: по первому параметру траектории объектов класса вначале принимают в основном низкие значения, затем увеличиваются, а в конце опять уменьшаются; по второму параметру траектории объектов класса все время принимают высокие значения. Таких качественных описаний может быть достаточно много.

Качественное описание эталонов классов с учетом приращений. Более сложный вариант качественного описания моделей траекторий классов дается в терминах приращений. В подобных случаях диапазон значений приращения каждого параметра хр разбивается на q градаций. Иначе говоря, на q градаций разбивается диапазон значений параметра у(/), который в 1-й момент времени принимает значение у(/) = х(/) - хр 1. Для этого случая мера близости К3( х, а) имеет вид:

пк

к4( х, а) = -Бо I I (хр - аТ)

/ 2

1 = 1/= 1

пк

Б111 [(

1 = 2/= 1

х1

.(/) _ Л)

хГ 1 ) - в/ ]2.

Отметим также схемы порождения данных в задачах структурного анализа временных рядов. Исходная информация о функционировании системы динамических объектов представляет собой трехмерную таблицу (куб данных) «объект — параметр — время» [5]. Если число моментов времени в кубе данных достаточно велико, то можно предположить, что временной ряд каждого объекта состоит из коротких отрезков стандартного вида, например, соответствующих становлению, росту, реорганизации объекта или сезонным колебаниям в его работе и т. д. Задача состоит в нахождении полного набора таких стандартных отрезков временного ряда, достаточных для построения содержательно адекватного описания функционирования объекта в этих терминах. Для этого строится таблица значений «параметр — момент времени»,

к

п

в качестве объектов классификации рассматриваются все возможные отрезки временного ряда длины т, получаемые из него с помощью «окошка» ширины т, которое сдвигается вдоль этого временного ряда. Для полученной в результате классификации строится содержательное описание классов (в основном путем анализа эталонов классов). Тогда для каждого объекта формируется последовательность номеров классов, к которым он принадлежит в разные моменты времени. Последовательность номеров преобразуется в последовательность содержательных описаний классов, что и позволяет описать динамику «жизненного цикла объекта» за весь наблюдаемый период времени в качественных терминах.

1.2. Анализ временных рядов второго типа

Одномерный случай классификационного анализа обладает уникальным свойством, существенно упрощающим процедуру целенаправленного перебора, используемую при автоматической классификации. А именно, ввиду одномерной упорядоченности классов границей между двумя классами (в детерминированном случае) служит только одна точка, и таких границ может быть не более двух (для крайних правого и левого классов — только одна). Для анализа временных рядов такого типа в настоящей статье используется одномерный вариант алгоритма т-локальной оптимизации [6]. Поскольку работа этого алгоритма является определяющей для получения эффективной классификации временных рядов, дадим краткое описание работы его детерминированного варианта.

Пусть задано начальное разбиение Я0 всех точек классифицируемой выборки х1, ..., хп на г классов. Ввиду упорядоченности классов на оси единственного параметра, на каждом конкретном шаге алгоритма достаточно рассматривать только пару соседних классов. Для определенности будем обозначать через А1 левый из этой пары классов, а через А2 — правый. Алгоритм содержит т циклов, на 5-м цикле (я = 1, ..., т) производится локальная оптимизация классификации, полученной на предыдущем цикле, с использованием процедуры «переброски» я точек из одного класса в другой для каждой пары соседних классов.

На первом цикле осуществляется «переброска» по одной точке. Здесь классификация, полученная на предыдущем цикле, — это начальная классификация Я0. Поясним эту процедуру для первого этапа этого цикла, когда рассматривается пара классов, расположенная в самой левой части диа-

пазона значений х.. Обозначим через А1 и А2 первый и второй классы начального разбиения ^ соответственно (классы нумеруются слева направо). В классе А1 находится точка х1'1'1 (индексы сверху — номера цикла, этапа и класса соответственно), ближайшая к границе рассматриваемой пары классов. Обозначим через р0( х1'1'1) индекс этой точки (для аналогичной точки на 5-м цикле это обозначение будет иметь вид р^ _ 1( х] '1'1)). По построению

р0( х1'1'1) = 1. Затем «перебросим» эту точку в класс А2 и подсчитаем ее индекс на первом цикле:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р1(х]'1Д) = х]'1Д е А1) - /(р0(х1'1'1) е А)],

1'1'1

— где -(х! е А1) — значение критерия качества классификации /, подсчитанное только для тоЛ Л 1'1'1

чек классов А1 и А2 при условии, что точка х. принадлежит классу А1, аналогично определяется

/(х1'1'1 е А2). Точка х1'1'1 остается в первом классе

(т. е. р1( х]'1'1) = р0( х1'1'1) = 1), если /(х]'1'1 е А1) 1

1 /(х1'1'1 е А2), и переходит во второй класс

(р1( х1'1'1) = -1) в противном случае. Если точка 1'1'1

ху перешла во второй класс, то аналогичная

„ 1'1'1

процедура проделывается с точкой ху1 , которая является ближайшей к новой границе между классами А1 и А2 среди всех точек первого класса (в данном случае — это предыдущая точка классифицируемой последовательности). И так про-

1'1'1

должается до тех пор, пока точка х.1 не останется в первом классе. Это означает, что на первом этапе первого цикла из первого класса во второй будут «переброшены» I ближайших к границе точек. Если точка х. осталась в первом классе, то аналогичная процедура проводится с точками второго класса, начиная с точки х1'1'2, которая является ближайшей к границе рассматриваемой пары классов. После того, как закончится «перебрасывание» точек из второго класса в первый (если это будет иметь место) либо не произойдет «перебра-1'1'2

сывания» точки х. , выполняется переход на второй этап первого цикла.

На втором этапе вся последовательность процедур первого этапа повторяется, только через А1

обозначаются точки, входящие во второй класс после завершения первого этапа первого цикла, а через А2 — третий класс начального разбиения Я0. И так далее до тех пор, пока не будут пройдены все (г - 1) этапов первого цикла.

На всех этапах 5-го цикла описанные процедуры повторяются с точностью до числа «перебрасываемых» точек — «перебрасывается» не по одной, а по 5 точек, ближайших к границе текущей пары классов. Очевидно, что процедура не может применяться для классов А1, число точек п1 в которых меньше, чем (5 + с). В настоящем алгоритме с = 2.

Это правило используется в алгоритме для автоматического выбора максимально возможной глубины перебора ттах. А именно, значение т (глубина перебора) выбирается из условия: в классификации, полученной после (т — 1)-го цикла, должен быть хотя бы один класс, число точек в котором не меньше (т + 2).

Завершение т-го цикла является окончанием первой итерации. На второй итерации повторяются все процедуры первой, только на первом цикле вместо начального разбиения Я0 используется результирующая классификация первой итерации.

Алгоритм прекращает работу, если в пределах одной итерации не произойдет ни одного «перебрасывания» точек из класса в класс. Была доказана следующая теорема [6].

Теорема 2. Алгоритм одномерной т-локальной оптимизации для т = ттах сходится за конечное число шагов к глобальному максимуму критерия качества классификации. ♦

В случае необходимости применяется эксперт-но-классификационный алгоритм выбора «оптимального» числа классов, входящий в комплексный алгоритм автоматической классификации [4].

2. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ В ПРИКЛАДНЫХ ЗАДАЧАХ

Разработанные алгоритмы были применены для:

— исследования социально-экономического развития субъектов РФ;

— корректировки оценок показателей экономической активности по субъектам РФ в условиях малых выборок;

— структурно-классификационного анализа пульсового сигнала лучевой артерии в задачах медицинской диагностики.

Первые две из этих задач относятся к задачам анализа временных рядов первого типа, а последняя — к задачам анализа временных рядов второго типа.

2.1. Задача исследования социально-экономического развития субъектов РФ

Отбор и предобработка исходных данных. В качестве объектов исследования рассматривались короткие временные ряды значений 47 показателей социального развития для 79 регионов РФ за 3 года. Множество исходных показателей разбивалось на шесть тематических групп: доходы населения (13 показателей); расходы и сбережения (14 показателей); потребление продуктов питания (8 показателей); демографические характеристики (4 показателя); характеристики социальной напряженности (6 показателей); объем финансовой помощи из межрегиональных фондов (2 показателя). Для обеспечения сопоставимости данных за разные годы все стоимостные показатели были пересчитаны в сопоставимых ценах (проведено дисконтирование). Предобработка исходного материала включала в себя статистическую фильтрацию исходных параметров и заполнение пропущенных наблюдений [4].

Отбор основных показателей, характеризующих регионы. При помощи методики формирования информативных показателей (факторов) [4] из 47 исходных показателей социально-экономической ситуации в регионах для последующей классификации и формирования рейтинга регионов были отобраны шесть основных показателей [7]: среднедушевой доход, доля оплаты труда в среднедушевом доходе, превышение доходов над расходами, число пенсионеров на 1000 чел. населения, уровень безработицы, общий объем финансовой помощи на душу населения.

Классификация регионов. Для классификации траекторий регионов применялся комплексный алгоритм автоматической классификации [4]. Оказалось, что для отобранных информативных параметров траектории 79 объектов (за три года) были разбиты на семь классов. Для этой цели применялся экспертно-классификационный алгоритм выбора «оптимального» числа классов [4].

Построение линейно-упорядоченного рейтинга регионов. Исходными данными для составления рейтингов служат результаты одномерных автоматических классификаций регионов по каждому из шести информативных показателей. Классы занумерованы так, что «лучшие» по данному показателю регионы находятся в первом классе, «худшие» — в последнем. Таким образом, номер класса служит рейтингом объекта. Пользуясь результатами классификации, можно дать качественную характеристику изменений социально-экономической ситуации в регионах за рассматриваемый период.

При построении рейтингов по двум и более показателям одновременно возникает проблема мно-гокритериальности: как упорядочить два объекта, один из которых имеет более высокий рейтинг по одному показателю, а второй — по другому показателю. В данном случае применялось следующее простое правило: при низких значениях первого параметра упорядочение производится по второму параметру; при низких значениях второго параметра упорядочение ведется по первому. Полученные результаты свидетельствуют о том, что примененная методология структурно-классификационного анализа позволила свести плохо обозримую совокупность большого числа исходных показателей к небольшому числу наиболее информативных, а затем, используя эти показатели, удалось разбить множество траекторий регионов на классы регионов, близких между собой по уровню социального развития. Исходная информация структурировалась как по множеству показателей, так и по множеству траекторий регионов и представляется в сжатом, обозримом виде, удобном для принятия управленческих решений.

Полученные результаты сыграли серьезную роль при анализе и оценке эффективности работы государственных органов власти (не только регионального, но и федерального уровня) по управлению социальным развитием регионов РФ.

2.2. Задача корректировки (сглаживания) оценок показателей экономической активности по субъектам РФ в условиях малых выборок

В настоящее время по вопросам экономической активности, занятости и безработицы в рамках специальной программы обследования населения, утвержденной Правительством РФ, ежемесячно опрашивается около 69 тыс. чел. (представляющих около 33 тыс. домашних хозяйств) в возрасте 15—72 года, или около 0,06 % населения данного возраста. Однако из-за недостаточного финансирования этой программы не было возможности обеспечить необходимую достоверность помесячных данных по этим показателям в разрезе большинства субъектов РФ. Объем месячной выборки обеспечивает представительные данные только в целом по РФ и некоторым крупным (по численности населения) регионам. Отметим, что рассматриваемые показатели в рамках этой программы определяются по данным только этого обследования. Так, например, для оценки уровня безработицы не привлекаются данные службы занятости или другие данные подразделений Рос-стата. А именно, уровень безработицы — это от-

ношение численности безработных к численности экономически активного населения, полученные в результате выборочного обследования.

Простейшим методом сглаживания служит метод скользящего среднего. Экспериментальные расчеты показали, что выборка, построенная путем объединения выборок для трех последовательных месяцев, достаточно представительна, и построенная этим методом кривая уровня исследуемого показателя оказывается достаточно гладкой. Однако метод скользящего среднего имеет один существенный недостаток: чтобы рассчитать значение скользящего среднего за текущий месяц, необходимы данные выборочного обследования за следующий месяц. Задача состоит в разработке такого метода сглаживания, который был бы свободен от указанного недостатка.

Идея предлагаемого метода структурной группировки регионов состоит в том, что для повышения надежности оценки показателя (сглаживания) в одну выборку объединяются не выборки за разные месяцы, полученные в одном и том же регионе, а выборки, полученные в одном и том же месяце, но в нескольких регионах, близких по динамике исследуемого показателя [8]. Далее метод группировки регионов описан как метод оценки показателя я в /-м регионе в к-м месяце текущего года. Этот регион и этот месяц называются расчетными. Метод включает в себя четыре этапа.

Этап 1. Производится сглаживание помесячных данных обследования, для чего применяется процедура скользящего среднего.

Этап 2. При помощи методов автоматической классификации производится структуризация множества траекторий показателя я регионов РФ на два класса — эталонный и фоновый, далее для расчетов используется только эталонный класс. Для классификации применяется специально разработанный алгоритм формирования виртуального региона [8], в качестве меры близости в котором используется коэффициент корреляции между траекториями показателя я различных регионов. Таким образом, формируется группа регионов (эталонный класс), близких в заданном виде к расчетному региону по динамике показателя я; выборки вошедших в эту группу регионов объединяются. Полученная группа регионов рассматривается как один виртуальный регион, ассоциируемый с расчетным регионом.

Этап 3. На базе объединенной выборки виртуального региона с помощью процедуры масштабирования находится искомая оценка показателя я для расчетного региона по состоянию на расчетный месяц. Хотя получаемые в процессе работы

алгоритма временные ряды по форме могут почти не отличаться друг от друга, их средние значения и масштаб могут отличаться значительно. Это объясняется тем, что в качестве меры близости временных рядов при формировании виртуального объекта используется значение коэффициента корреляции. Для того чтобы устранить полученное в результате этого смещение и изменение масштаба и применяется процедура масштабирования, т. е. при помощи линейной регрессии производится линейное преобразование полученного временного ряда оценок.

Этап 4. Производится сезонное сглаживание (выделение линейного тренда и сезонной составляющей) временного ряда оценок показателя 5, полученного на третьем этапе. В результате определяются «трендовое» значение и сезонная составляющая показателя 5 в расчетном регионе по состоянию на расчетный месяц.

Для проверки эффективности метода структурной группировки траекторий были рассчитаны оценки показателей безработицы, экономической активности и занятости в период с сентября 2010 г. по октябрь 2011 г. по всем регионам РФ и проведено сравнение этих оценок с оценками, полученными методом скользящего среднего. Результаты расчетов позволяют сделать следующие выводы [8].

• Оценки соответствующих показателей, полученные методом скользящего среднего и методом группировки регионов, очень близки (например, даже по регионам «проблемного» СевероКавказского федерального округа разница между полученными оценками составляет в среднем всего около 2 % от уровня оцениваемого параметра).

• Ошибки метода скользящего среднего — это ошибки интерполяции (среднее значение оцениваемого показателя за три последовательных месяца приписывается среднему месяцу). Ошибки метода структурной группировки объектов связаны с неоднородностью выборки (группируемые регионы хотя и близки по динамике оцениваемого показателя, но не идентичны). Тот факт, что при разных источниках ошибок результаты получаются достаточно близкими, говорит о том, что метод структурной группировки объектов может эффективно применяться для достоверной оценки уровня соответствующего параметра.

• Метод структурной группировки объектов обладает решающим преимуществом: он позволяет формировать оценки уровня анализируемого параметра сразу же после получения данных выборочного обследования.

2.3. Задача структурно-классификационного анализа пульсового сигнала лучевой артерии в задачах медицинской диагностики

Специфика задачи анализа пульсового сигнала в задачах медицинской диагностики состоит в том, что многие его характеристики одномерны. Именно поэтому в работе [9] использовалась одномерная модификация алгоритма т-локальной оптимизации для выделения как амплитудных, так и временных параметров основного квазипериода пульсового сигнала лучевой артерии.

Основные трудности выбора информативных параметров для описания квазипериодического пульсового сигнала связаны с надежным выделением основного (базового) квазипериода, поскольку его вариабельность даже для одного и того же сеанса записи весьма значительна из-за наличия большого числа влияющих на сигнал факторов [9]. Рассмотрим подробнее процедуру выделения основного квазипериода пульсового сигнала. На анализируемой записи сигнала выделяются все локальные максимумы, последовательность которых и является временным рядом второго типа. Затем с помощью одномерного варианта алгоритма т-локальной оптимизации строится автоматическая классификация этого ряда на г0{ классов. Для этого применялся экспертно-классификационный алгоритм выбора «оптимального» числа классов, входящий в комплексный алгоритм автоматической классификации [4]. Обычно при обработке реальных пульсограмм значение го1 находилось в диапазоне 3—5. Самый правый на оси значений класс (большие значения амплитуды) в большинстве случаев соответствует максимумам основного квазипериода анализируемого сигнала. Далее на реализации сигнала выделяются максимумы, попавшие в крайний правый класс, тогда отрезки сигнала между смежными выделенными максимумами и служат претендентами на искомые квазипериоды. К сожалению, на реальных пульсограм-мах часто наблюдаются существенные колебания значений амплитуд. В связи с этим далее анализируется распределение выделенных максимумов на временной шкале, т. е. фактически проводится анализ динамического ряда этих максимумов. Если расстояние между соседними максимумами этого динамического ряда больше ТсКа, где Тс — средняя длительность квазипериода, а Ка — коэффициент аритмии (выбирается экспертным путем в диапазоне 1,5—2,5), то для этой непериодизи-рованной области выполняется коррекция. Процедура коррекции организована итеративным путем. А именно: в непериодизированной области

ищется абсолютный максимум амплитуды и его включают в исследуемый динамический ряд. Затем вновь анализируется распределение максимумов на временной шкале и т. д. Остается проблема, связанная с неопределенностью коэффициента аритмии Ка. Как показали тесты, влияние выбора его значения сказывается на качестве периодизации лишь в экзотических случаях. Предложенная процедура периодизации выделила практически все периоды на всей экспериментальной выборке пульсограмм. Исключения составили отдельные квазипериоды на нескольких пульсограммах, производящие весьма неоднозначное впечатление даже на специалиста-прикладника.

По аналогичной схеме находились и другие квазипериодические составляющие сигнала в рамках основного квазипериода.

Работа проводилась на базе обширного экспериментального материала, полученного в ходе исследования детей и подростков в клинике функциональной патологии НЦ здоровья детей РАМН. В исследовании принимали участие 417 чел. в возрасте от 9 до 16 лет. Все пациенты по основному диагнозу были разделены на два класса: первичная артериальная гипертензия и различные виды психосоматической функциональной патологии при нормальном артериальном давлении. Подчеркнем, что во второй класс входили не здоровые люди, а пациенты с другими, нередко достаточно серьезными заболеваниями, что существенно осложняло задачу диагностики артериальной гипертензии. Разработанное программно-алгоритмическое обеспечение позволило получить существенно более эффективные диагностические правила определения ранней гипертензии у детей, чем применяемые в настоящее время в медицинской практике.

ЗАКЛЮЧЕНИЕ

Предложена общая постановка задачи динамического структурного анализа временных рядов, когда каждый объект по каждому параметру характеризуется набором значений для некоторой последовательности моментов времени (траекторией). В рамках вариационного подхода разработаны соответствующие алгоритмы структурного анализа временных рядов. Проведен теоретический анализ этих алгоритмов, а также результаты их применения при решении ряда прикладных задач. Предложенные алгоритмы реализованы в составе компьютерного программно-алгоритмического комплек-

са, предназначенного для классификационного анализа сложно организованных данных при решении широкого класса прикладных задач [5].

ЛИТЕРАТУРА

1. Бауман Е.В., Дорофеюк A.A. Классификационный анализ данных // Тр. Междунар. конф. по проблемам управления / ИПУ РАН. - М., 1999. - Т. 1. - С. 62-67.

2. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. — N.-Y.: Plenum press, 1981. — 260 p.

3. Дорофеюк A.A., Бауман Е.В., Покровская И.В. Методы структуризации многомерных динамических объектов / Интеллектуализация обработки информации (ИОИ-2010): 8-я Междунар. конф., Пафос, Республика Кипр: Сб. докл. — М.: МАКС Пресс, 2010. - С. 125-128.

4. Дорофеюк Ю.А. Комплекс алгоритмов экспертно-класси-фикационного анализа для решения прикладных задач / Четвертая междунар. конф. по проблемам управления (МКПУ-IV): Сб. тр. / ИПУ РАН. - М., 2009. -С. 373-379.

5. Бауман Е.В., Дорофеюк A.A., Дорофеюк Ю.А., Киселева Н.Е. Программно-алгоритмический комплекс структурно-классификационного анализа сложно организованных данных // Таврический вестник информатики и математики. -2008. - № 1. - С. 66-72.

6. Дорофеюк Ю.А. Алгоритм m-локальной оптимизации в задачах структуризации // Управление развитием крупномасштабных систем (MLSD'2010): Тр. четвертой Междунар. конф. / ИПУ РАН. - М., 2010. - С. 248-256.

7. Дорофеюк Ю.А., Гольдовская М.Д., Покровская И.В. Методы структурно-экспертного анализа данных в задаче оценки эффективности функционирования региональных систем управления // Теория активных систем: Тр. Междунар. на-уч.-практ. конф. / ИПУ РАН. - М., 2010. - С. 139-142.

8. Лайкам К.Э., Дорофеюк A.A., Дорофеюк ЮА, Чернявский А.Л. Классификационные методы коррекции результатов мониторинга социально-экономических показателей в условиях нерепрезентативных выборок // Вопросы статистики. - 2011. - № 5. - С. 13-18.

9. Процедуры классификационного анализа в задаче формирования информативных признаков при исследовании ритмической структуры биосигнала / А.А. Десова, А.А. Дорофеюк, В.В. Гучук и др. // Автоматика и телемеханика. -2008. - № 6. - С. 143-152.

Статья представлена к публикации членом редколлегии А.С. Манделем.

Марина Дмитриевна Гольдовская — науч. сотрудник, ®(495) 334-90-70, И [email protected],

Юлия Александровна Дорофеюк — канд. техн. наук,

науч. сотрудник, S (495) 334-75-40, И [email protected],

Нелли Евсеевна Киселева — науч. сотрудник, ®(495) 334-90-70, И [email protected],

Институт проблем управления им. В.А. Трапезникова РАН, г. Москва.

i Надоели баннеры? Вы всегда можете отключить рекламу.