истемный анализ и обработка данных
УДК 62-50
СТРУКТУРНО-КЛАССИФИКАЦИОННЫЕ МЕТОДЫ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ В КРУПНОМАСШТАБНЫХ СИСТЕМАХ УПРАВЛЕНИЯ1
Ю.А. Дорофеюк
Институт проблем управления им. В.А. Трапезникова РАН, г. Москва
Предложен метод решения задач анализа и прогнозирования в крупномасштабных системах управления. В качестве прогнозной модели для каждого объекта принята марковская цепь с г состояниями, где г — число структурных единиц (классов). Для эффективной реализации предложенного метода разработан комплексный алгоритм структуризации (классификации) объектов исследуемой системы.
ВВЕДЕНИЕ
Многие крупномасштабные системы управления, прежде всего, организационно-административные, функционируют в условиях большой информационной размытости и неопределенности. Именно поэтому в последнее время для исследования таких систем стали широко применяться методы структурного анализа данных, базирующиеся на алгоритмах классификационного анализа данных [1].
В настоящей статье рассматривается задача анализа и прогнозирования в крупномасштабных системах управления, причем считается, что такая система состоит из достаточно большого числа объектов, каждый из которых характеризуется многочисленным набором разнородных параметров. Основная идея предлагаемого метода решения такой задачи состоит в том, что исследуются не точные значения параметров, описывающих состояние каждого объекта (например, траектории состояний), а лишь класс, к которому принадлежит каждый объект в рамках некоторой структуры (классификации) множества объектов, входящих в исследуемую крупномасштабную систему [2]. Такое интегральное описание объектов, входящих в
1 Работа выполнена при частичной финансовой поддержке
РФФИ, проект 08-07-00349-а.
крупномасштабную систему, позволяет существенно повысить эффективность анализа поведения системы, а также устойчивость и робастность процедур принятия управленческих решений и прогнозов. Для формализации задачи используется методология классификационного анализа данных [1].
1. СТРУКТУРНО-КЛАССИФИКАЦИОННЫЙ АНАЛИЗ В КРУПНОМАСШТАБНЫХ СИСТЕМАХ УПРАВЛЕНИЯ
1.1. Постановка задачи
Пусть исследуемая система состоит из п объектов, каждый из которых характеризуется набором из к параметров. Изучается поведение этого множества объектов в дискретные моменты времени. Вводится в рассмотрение к-мерное пространство параметров X, в котором у-й объект в момент времени ? представляется точкой х^) = (х1 (¿), х2 (?),
..., х'к(?)). Упорядоченная совокупность точек х^^, ..., хрт) представляет собой известную часть траектории, характеризующей динамику у-го объекта.
В большинстве приложений для принятия управленческого решения в момент времени tm используется совокупная информация об известных траекториях каждого объекта и прогноз значений
+ 1), j = 1, ..., «. Как правило, информация по
} т
каждому объекту рассматривается независимо от остальных [3]. Однако для многих прикладных задач требуется знать не точные значения параметров-характеристик в моменты времени t2, ..., tm и прогнозировать значения в момент tm + р а знать (и прогнозировать) лишь класс, к которому принадлежит (будет принадлежать) этот объект в соответствующие моменты времени в рамках некоторой структуры (классификации) множества объектов изучаемой системы. Так, например, в процессе исследования социально-экономического развития субъектов РФ (в данном случае крупномасштабная система — народное хозяйство РФ) вовсе необязательно знать (и прогнозировать) значения социально-экономических параметров для каждого региона, достаточно лишь знать, в какой класс этот регион попадает в данный и прогнозируемый моменты времени (условно, в классы «хорошо», «средне» и «плохо» развивающихся объектов).
Основу предлагаемого подхода составляет процедура выявления структуры объектов, входящих в исследуемую систему. Предполагается, что вектор значений параметров х}.(^ достаточно полно характеризует состояние у-го объекта в момент времени ^ А это, в свою очередь, означает, что взаиморасположение точек х^), ..., хп(^ в пространстве X отражает реальную структуру (типологию) исследуемого множества объектов. Для выявления такой структуры в работе применяется комплексный алгоритм автоматической классификации, специально разработанный для решения таких задач. Он включает в себя алгоритмы: т-локальной оптимизации заданного критерия J, выбора информативных параметров, выбора начального разбиения, выбора числа классов, заполнения пропущенных наблюдений. Рассмотрим каждый из этих алгоритмов в отдельности.
1.2. Алгоритм т-локальной оптимизации
Вначале опишем работу алгоритма 1-локальной оптимизации. Для простоты изложения рассматривается случай двух классов г = 2. Пусть задано начальное разбиение Я всех точек классифицируемой выборки хр ..., хп. Обозначим через х}. е А1 точки, относящиеся к первому классу, а через х. е А2 —
}2
ко второму. Алгоритм итерационный — на каждом шаге рассматривается одна точка из последовательности хр ..., хп, хр ..., хп, Хр ... («зацикленная» исходная последовательность). Отнесение точки к одному из двух классов обозначается с помощью индекса
, 1, если х.. е А
Р(х,) = ' }
Тогда алгоритм 1-локальной оптимизации определяется следующим образом: р(х}) = sign[ J(x}. е Ах) — - J(x}. е А2)].
В итоге точка х}} относится к тому классу, при отнесении к которому значение критерия J будет больше (если эти значения равны, то для определенности точка относится к классу с меньшим номером). Алгоритм заканчивается, если на некотором цикле среди точек хр ..., хп не будет сделано ни одной «переброски» точки из класса в класс.
Алгоритм т-локальной оптимизации — это поэтапное применение к выборке алгоритмов 5-ло-кальной оптимизации, s = 1...т. На 5-м этапе алгоритм работает по той же схеме, только на каждом его шаге происходит пробная «переброска» из класса в класс не одной, а 5 точек. Подсчитывается значение критерия J до и после «переброски», Принадлежность каждой из 5 точек к классу либо остается неизменной (значение J до «переброски» больше, чем после), либо меняется на другой класс — в противном случае. В данном случае цикл — это число шагов, равное числу различных 5 точек в выборке. Доказана сходимость алгоритма за конечное число шагов к локальному максимуму критерия J. Разработан эвристический алгоритм сокращенного перебора, в котором на каждом шаге для пробной «переброски» используются 5 точек, в определенном смысле ближайших к границе между классами.
При моделировании и в приложениях в качестве критерия J принимался функционал J1 средней близости точек в классах, определяемый через потенциальную функцию близости точек х и у:
К(х, у) = 1/{1 + аЯр(х, у)},
(1)
где Я(х, у) — расстояние между точками х и у, а и р — настраиваемые параметры алгоритма. Средняя близость точек в классе определяется как
КА, А) =
«Кп-1)¡=1
} > г
где К(х., х;) определяется формулой (1), «. — число
I } I
точек в классе Аг. Тогда критерий J1 определяется как
г
J, =
'1 = I « КА А).
г = 1
(2)
-1, если х} е А2.
Специально отметим частный случай алгоритма т-локальной оптимизации для к = 1 (одномерный случай). Дело в том, что одномерный случай имеет уникальное свойство, существенно упрощающее процедуры целенаправленного перебора, применяемые для автоматической классифика-
п
ции, а именно: ввиду одномерной упорядоченности классов границей между двумя классами (в детерминированном случае) служит только одна точка, и таких границ может быть не более двух (для крайне правого и крайне левого классов — только одна). Работа детерминированного (в отличие от общего — размытого) варианта модификации этого алгоритма для одномерного случая описана в работе [4].
1.3. Алгоритм выбора информативных параметров
Этот алгоритм базируется на одном из алгоритмов экстремальной группировки параметров, а именно, на алгоритме «квадрат» [5]. В результате его применения получают разбиение исходных к параметров на небольшое (заданное) число групп, а также значения факторов для этих групп. В приложениях используются либо новые интегральные параметры — факторы групп, либо набор параметров, каждый из которых является ближайшим к фактору в соответствующей группе.
В большинстве приложений исходные или выделенные информативные параметры имеют неравнозначную важность для определения структуры объектов. Для выявления таких показателей важности в работе предлагается применять процедуры экспертного оценивания. Наиболее хорошие результаты дает процедура многовариантной экспертизы [6], когда к получению параметра важности для каждого оцениваемого параметра привлекаются несколько групп экспертов — специалистов в различных аспектах исследуемой проблемы. В результате процедуры экспертизы каждый параметр получает определенный вес (показатель его «важности») для формирования структуры объектов.
1.4. Алгоритм построения начального разбиения
На первом шаге из всех точек выборки хр ..., хп находится пара наиболее удаленных друг от друга точек, х1 и хр, одна из которых х1 относится к первому классу, а другая хр — ко второму. Если п достаточно велико, то используется усеченный вариант первого шага, а именно: х1 выбирается случайно, а хр ищется как точка, наиболее от нее удаленная.
На втором шаге ищутся точки х1 + 1 и хр + 1 —
ближайшие, соответственно, к точкам х, и х • точка
1 р
х, + 1 относится к первому классу, а хр + 1 — ко второму.
На (^ + 1)-ом шаге ищутся точки х, + Л и хр + ближайшие в среднем к уже найденным точкам,
соответственно, первого и второго классов. Точка
х, + Л определяется следующим образом:
+ я
= х./тш - V К(х.,
г X. с ^ ]
Ч + т
).
(3)
т = 0
Точка хр + я определяется аналогично. Если возникает «конфликт», т. е. одна и та же точка является ближайшей к первому и ко второму классам одновременно, то она относится к первому классу. Процедура (3) повторяется до тех пор, пока не будут исчерпаны все точки выборки. Полученное разбиение принимается в качестве начального разбиения Л0.
1.5. Алгоритм выбора числа классов
Для выбора числа классов применяется специальная экспертно-компьютерная процедура, которая заключается в следующем. Сначала эксперт-пользователь оценивает диапазон (гтПа, гшах), в пределах которого заведомо находится искомое число классов. Далее, с помощью любого алгоритма автоматической классификации (в настоящей работе применялся алгоритм т-локальной оптимизации), анализируемое множество объектов разбивается на гш1п, гтП + 1, ..., гшах классов. Качество каждой из полученных классификаций оценивалось с помощью критерия /3 = — q/2, где критерий вычисляется по формуле (2), величина /2, а также некоторые вспомогательные величины вычисляются по формулам:
^2 =
Л V V ^ (А, 4);
г - 1 Ы1 & п ' '
К(Ар А) = —^ V V К(х,, хр) — мера близости
П1П/ X, е Л, х„ е Л
классов А. и А., где потенциальная функция К(х., х.)
* У * }
определяется формулой (1); q, а и р из формулы (1) — настраиваемые параметры алгоритма. Фактически, параметр q является масштабирующим параметром, приводящим к соизмеримым средним значениям функционалов и /2; на практике значение q примерно 2...7 (обычно во столько раз отличается средняя близость внутри классов от средней близости между самими классами).
Формально, в качестве «оптимального» можно выбрать такое число классов г ^ которое соответ-
ствует максимальному значению Jъ(r/), т. е. гор1 = г, для которого тах/3(гу), г. = гт1п, ..., гтах. Однако наличие существенной, но неиспользованной при классификации информации, например, ввиду отсутствия данных, может привести к тому, что по-
Л
лученное таким способом гор1 не будет «истинно оптимальным».
Для компенсации этого недостатка предлагается следующая экспертная процедура. Экспертам-специалистам в соответствующей предметной области представляются значения /3(г.), г. = г., ...,
3 у у П1111
гтах, представленные для удобства в виде графика, на котором отмечается значение гор1 (оно соответствует максимальной точке на графике /3(г.)). Ис-
3 }
пользуя эту информацию, эксперты могут корректировать выбираемое число классов. В подавляющем большинстве случаев экспертное число классов либо совпадает со значением гор1, либо незначительно (±1) отличается от него.
При классификации многомерных объектов во время такой экспертизы анализируется также классификация каждого объекта. Для этой цели экспертам сообщается информация о мере близости К(х., с.) каждой точки х. до центров классов с. j = 1, ..., гор1 в оптимальной классификации, т. е. матрица близости ||К(хг, су.)||, i = 1, ..., и, j = 1, ..., г г Перенесение точки (объекта) хг из у-го класса в /-й считается допустимым, если величины К(хг, су.) и К(хг, с) отличаются незначительно. Другими словами, содержательно обоснованное перенесение допустимо для точек, расположенных вблизи границы между соответствующими классами.
1.6. Алгоритм заполнения пропущенных наблюдений
Во многих приложениях имеются пропуски в данных. В этой ситуации нужно либо применять специальные процедуры подсчета расстояний между объектами, в параметрах которых имеются пропуски, либо разрабатывать специальные процедуры заполнения таких пропусков. В подавляющем большинстве случаев пропуски по каждому параметру заполняются средним известных значений соответствующего параметра (для исходной выборки). В настоящей работе была разработана специальная процедура заполнения пропусков в исходных данных с помощью алгоритмов автоматической классификации. Ее основная идея состоит в следующем. Если множество изучаемых объектов структурировано (т. е. их можно разделить на классы, достаточно компактно расположенные в пространстве параметров X), то дисперсия (диапазон) изменения каждого параметра в пределах каждой группы, как правило, будет существенно меньше, чем этот показатель для значения этого параметра по всей выборке. Таким образом, если по данным с пропусками удастся определить реальную структуру взаиморасположения точек (т. е. провести классификацию, адекватную этой струк-
туре), то заполнять пропущенное значение /-го параметра для объекта из /-го класса можно средним этого параметра по его известным значениям для всех объектов, попавших в /-й класс. Исходя из сделанного предположения, отклонение полученного значения от «истинного» должно быть существенно меньше (в среднем), чем обычная схема заполнения по общему среднему.
2. МЕТОДИКА СТРУКТУРНО-КЛАССИФИКАЦИОННОГО ПРОГНОЗИРОВАНИЯ В КРУПНОМАСШТАБНЫХ СИСТЕМАХ УПРАВЛЕНИЯ
2.1. Динамическая структуризация исследуемых объектов
Вначале (в момент времени /х) с помощью комплексного алгоритма автоматической классификации, описанного в § 1, производится структуризация n точек в пространстве X на r классов, каждый из которых и характеризует определенный тип объекта. Число классов r выбирается с помощью человеко-машинной процедуры, входящей в комплексный алгоритм автоматической классификации. Вводится понятие модели (эталона) класса яг(/), / = 1, ..., r (чаще всего — это центр класса) [1]. Для каждого объекта, кроме принадлежности к классу, вычисляются расстояния до эталонов всех
классов R,.,.(/), / = 1, ..., r; j = 1, ..., n.
1
Заметим, что на практике структуризация объектов чрезвычайно редко проводится в пространстве исходных признаков, обычно сначала выделяется набор информативных параметров. В настоящей работе для этой цели применялась специальная процедура, также входящая в комплексный алгоритм, она описана в п. 1.3.
В момент времени /2 каждая точка x..(/2) с помощью одного из алгоритмов распознавания образов с учителем относится к тому или иному классу в рамках классификации, полученной на первом шаге. Для этого применяется алгоритм метода потенциальных функций, который в спрямляющем пространстве эквивалентен алгоритму ближайшего среднего [7]. А именно, каждая точка x.(/2) от-
.2
носится к классу А,, для которого заданная мера близости K(x..(/2), А,) точки -Xu(/2) к этому классу максимальна, т. е. K(x.(/2), А,) = max K(x.(/2), Аг),
J j J
/ = 1, ..., r, / = 1, ..., n. В качестве такой меры близости служит величина K(x, А,) = — У K(x, x.),
1 nixt е л1 1 г
где n, — число точек в классе А,, K(x, y) — потенциальная функция (1).
После определения принадлежности всех точек к тому или иному классу, производится пересчет эталонов a(/2), / = 1, ..., r. Для каждой точки с
предыдущего шага пересчитываются, а для каждой новой точки вычисляются расстояния до новых эталонов Л(ху.(?2), яг(?2)), i = 1, ..., г, j = 1, ..., п. Такая процедура выполняется для всех т моментов времени. В итоге для каждого объекта получается последовательность (траектория) из т позиций. В каждой позиции находится г + 1 число, первое из которых — это номер класса, к которому относился этот объект в соответствующий момент времени, а последующие числа — это значения расстояний до центров классов в тот же момент времени. Требуется спрогнозировать номер класса (тип объекта), к которому будет относиться каждый объект в момент времени ?т + г
2.2. Алгоритм прогнозирования
В качестве прогнозной модели для каждого объекта используется марковская цепь с г состояниями, т. е. на каждом шаге рассчитываются элементы матрицы переходных вероятностей Р = ||р..||, j = 1, ..., п; i = 1, ..., г. Разработан специальный алгоритм пересчета на каждом шаге соответствующих переходных вероятностей р.. с использованием информации о значениях расстояний до цент-
совпадает с эталоном /0-го класса = aio (ts)),
го s
т. е. R/f = 0, то
j'o
(s) I 1, если i = io, / =
0, i = 1,
Г, i ^ in .
Другими словами, если точка совпадает с эталоном некоторого класса, то вероятность для этой точки остается в этом классе равна 1, а вероятность перехода в другой класс равна 0.
( Л)
Для случая, когда ЦО ф 0, все переходные вероятности модифицируются по следующей схеме:
( s)
P/V = Y
(s -1) ,
P/s +
,(s - 1)
1 + sign (AR/s))
Ш. -
ji
sign(A /) )A /
(5)
_ • / ч I 1, если г> 0,
где, как обычно, sign(г) = <> а у — нор-
[-1, если г< 0, мирующий множитель, определяемый условием
г
( л)
нормировки переходных вероятностей V Р}/ = 1:
г = 1
ров классов и условий нормировки V Р. = 1 для
г = 1
всех j = 1, ..., п.
Алгоритм работает следующим образом. Пусть после первого шага, для точек х,.^) подсчитаны
расстояния до эталонов = Дх^), аг(?1)),
i = 1, ..., г, j = 1, ..., п. Тогда элементы матрицы переходных вероятностей р.Р = р./^) рассчитываются следующим образом:
„(1) _
= а,-
> / Rl-
(4)
П R1
(1) ji
(1) i = 1 где а/ = -—-
J r r
— нормирующий множи-
£ rd п R/1
l = 1 R/i / = 1
.(1)
тель.
На 5-м шаге элементы матрицы переходных вероятностей (4) модифицируются с помощью сле-
( Л)
дующей процедуры. Введем обозначения А Л./ =
п(Л - 1) п( Л)
= Л(Л-1) - Л(Л), А л(? = . . Если 7-я точка
ji
ji
ji
RS-1) + /
1 + ((1 + sign (A RJ*)))/2 - pJ*- X)sign (A RJ*) ))
( s)
Введение в формулу (5) величины sign(A j)
вызвано необходимостью модификации различными способами переходных вероятностей для случаев увеличения и уменьшения расстояния от точки x.(0 до эталонов классов я.(0 на s-м шаге. А имен-
J S IS
( s)
но, в случае уменьшения величины Rj- по отно-
( S — 1) ( s)
шению к Rj (т. е. А R]/ < 0), соответствующая переходная вероятность изменяется путем ее увеличения на некоторую долю от (1 — pj--1)); а в случае увеличения величины RjS) по отношению к
RjS-1) (т. е. А RjS) > 0), соответствующая переходная вероятность изменяются путем ее уменьшения на некоторую долю от pjs -1). Это необходимо для выполнения условий нормировки для переходных
( s)
вероятностей 0 < pj/ < 1, i = 1, .., r.
Построенная с помощью описанного алгоритма матрица переходных вероятностей P используется для прогнозирования принадлежности объекта к тому или иному классу. На практике обычно применяется не рандомизированная, а байесовс-
2
r
r
кая схема, когда объект относится к тому классу /0, для которого p. = max p... В случае равенства
■> О
i = 1,..., r
переходных вероятностей р.. для прогнозируемого объекта для двух или нескольких классов, он относится к классу с наименьшим номером.
2.3. Модификации
Разработана модификация процедуры прогнозирования, когда классификация объектов задается заранее (например, экспертным путем) и в последующем остается неизменной.
Разработан также вариант алгоритма «с памятью», когда используются данные только об 5 прошлых состояниях множества объектов (5 — глубина памяти алгоритма).
Оказалось, что для некоторых приложений (с достаточно высоким уровнем помех при измерении параметров) существенно более эффективными оказываются алгоритмы размытой классификации, в том числе с фоновым классом [1].
ЗАКЛЮЧЕНИЕ
Разработанная методика применялась для анализа и совершенствования процедур принятия решений для нескольких больших систем управления, в основном регионального уровня, в том числе — региональная система управления здравоохранением, пассажирскими автоперевозками, система анализа, управления и прогнозирования социально-экономического развития субъектов
РФ и др. Во всех приложениях, а также при машинном моделировании была подтверждена высокая эффективность разработанного комплекса алгоритмов структурно-классификационного анализа и прогнозирования.
ЛИТЕРАТУРА
1. Бауман Е.В., Дорофеюк A.A. Классификационный анализ данных / Тр. Междунар. конф. по проблемам управления. — М.: СИНТЕГ, 1999. — Т. 1. — С. 62—67.
2. Дорофеюк A.A., Дорофеюк Ю.А. Методы структурно-классификационного прогнозирования многомерных динамических объектов // Искусственный интеллект. — 2006. — № 2. — С. 138—141.
3. Статистическое моделирование и прогнозирование / Под ред. А.Г. Гранберга. — М.: Финансы и статистика, 1990. — 382 с.
4. Процедуры классификационного анализа в задаче формирования информативных признаков при исследовании ритмической структуры биосигнала / А.А. Десова, А.А. Дорофеюк, В.В. Гучук и др. // Автоматика и телемеханика. — 2008. — № 6.
5. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. — М.: Наука, 1983.
6. Дорофеюк A.A., Покровская И.В., Чернявский А.Л. Экспертные методы анализа и совершенствования систем управления // Автоматика и телемеханика. — 2004. — № 10. — С. 172—188.
7. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. — М.: Наука, 1970.
в (495) 334-90-70, e-mail: tigress86@bk.ru
Статья представлена к публикации членом редколлегии
А.С. Манделем. □
INCO
и
OSCOW Мул ьти конференция
' по информационным технологиям и управлению в промышленности
Институт проблем управления им. В.А. Трапезникова РАН, 3—7 июня 2009 г., г. Москва
В рамках мультиконференции пройдут следующие мероприятия:
• 13-й симпозиум «Information Control Problems in Manufacturing» (INCOM'09) — информационные технологии и управление в промышленности под эгидой Международной федерации по автоматическому управлению (International Federation of Automatic Control — IFAC)
• Международная научно-практическая конференция-выставка «Автоматизация в промышленности»
• Семинар «Информационные технологии в промышленности» для руководящего звена промышленности и бизнеса
Дополнительную информацию можно получить по тел./факсу (495) 334-89-90, на сайтах http://incom09.org, http://multi.sicpro.org. E-mail: incom09@ipu.ru, income@ipu.ru.