Научная статья на тему 'Экспертно-классификационный анализ данных в задаче оценки эффективности функционирования крупномасштабных систем управления'

Экспертно-классификационный анализ данных в задаче оценки эффективности функционирования крупномасштабных систем управления Текст научной статьи по специальности «Математика»

CC BY
37
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Покровская И.В., Гольдовская М.Д., Дорофеюк Ю.А.

В работе рассмотрены методы структурного анализа сложноорганизованных данных и процедур экспертной коррекции результатов такого анализа применительно к задачам оценки эффективности крупномасштабных систем управления. Алгоритмы такой структуризации разрабатывались на базе методов классификационного анализа данных.I

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Покровская И.В., Гольдовская М.Д., Дорофеюк Ю.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

n the paper the complex-organized data structural analysis methods and the results expert correction procedures in connection with of large-scale control systems efficiency problems are described. Algorithms of such structuring were developed on the base of range data analysis methods.

Текст научной работы на тему «Экспертно-классификационный анализ данных в задаче оценки эффективности функционирования крупномасштабных систем управления»

УДК 62-50

ЭКСПЕРТНО-КЛАССИФИКАЦИОННЫЙ АНАЛИЗ ДАННЫХ В ЗАДАЧЕ ОЦЕНКИ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ КРУПНОМАСШТАБНЫХ СИСТЕМ УПРАВЛЕНИЯ8 © Покровская И.В., Гольдовская М.Д., Дорофеюк Ю.А.

Институт проблем управления РАН

Abstract. In the paper the complex-organized data structural analysis methods and the results expert correction procedures in connection with of large-scale control systems efficiency problems are described. Algorithms of such structuring were developed on the base of range data analysis methods.

Введение

В работе рассмотрены методы классификационного анализа сложноорганизован-ных данных и процедур экспертной коррекции результатов такого анализа применительно к задачам оценки эффективности крупномасштабных систем управления. Главная проблема, с которой сталкиваются разработчики алгоритмов и процедур анализа подобных данных - это проблема структуризации и сжатия такой информации, Необходимо учитывать также большую размерность и многопрофильность исходной информации, - число объектов в подобных задачах может достигать десятков тысяч, а число показателей - нескольких сотен, при этом используются не только числовые, но и ранговые, номинальные, экспертные показатели. Кроме того, часто требуется провести динамический анализ функционирования исследуемых объектов за несколько лет Это приводит к тому, что оказывается малоэффективным использование классических методов статистической обработки и анализа подобных данных. По этим причинам главным становится построение сжатого, структурированного описания исходных данных, содержательно хорошо интерпретируемого и пригодного для подготовки и обоснования принимаемых управленческих решений. Такую структуризацию исследуемой системы предлагается получать методами классификационного анализа данных [1], дополненных экспертными процедурами коррекции. В работе описаны подобные методы для структуризации исходных параметров; множества объектов, входящих в исследуемую систему; траекторий объектов (изменение значений характеристик объектов во времени).

1. Методы структуризации параметров

Практика использования алгоритмов структуризации показывает, что структуризация объектов с учётом всех исходных параметров редко приводит к хорошим результатам. Именно поэтому для структуризации объектов используются не исходные, а информативные параметры, которых обычно существенно меньше. Практика показывает, что решить эту задачу чисто экспертным путём не удаётся. Мнения экспертов по поводу того, какие показатели являются более, а какие менее информативными, часто расходятся.

8Работа выполнена при частичной финансовой поддержке РФФИ, проекты 08-07-00349-а, 08-07-00427-а.

Наиболее плодотворным оказалось использование идеи экстремальной группировки параметров [2]. Она заключается в разбиении всего множества показателей на группы таким образом, чтобы показатели внутри групп как можно больше коррелировали друг с другом, а показатели из разных групп - как можно меньше. Математически задача формулируется как задача поиска разбиения, доставляющего максимум соответствующему критерию качества разбиения (отсюда - название «экстремальная группировка») [2]. Результатом экстремальной группировки являются группы параметров и факторы - синтезированные параметры-характеристики групп, каждый из которых является линейной комбинацией исходных параметров соответствующей группы и, в определённом смысле, её «центром». Когда такое разбиение найдено, множество показателей каждой группы можно заменить расчётным, синтетическим «средним» показателем, или фактором, и характеризовать каждый объект уже не исходным набором показателей, а гораздо меньшим набором факторов (близкая идея, но в несколько иной интерпретации, реализуется в факторном анализе). Если какой-либо из исходных показателей имеет достаточно высокую корреляцию с фактором, это можно интерпретировать как высокую значимость или «важность» показателя и использовать его для дальнейшего анализа вместо соответствующего фактора. Таким образом, за счет структуризации множества показателей удается значительно (как правило, на порядок) уменьшить их количество и, соответственно, упростить задачу анализа данных. При этом используются специальные экспертно-корректирующие процедуры для выбора конкретного типа алгоритма и основных его характеристик, таких как: выбор типа группировки, алгоритма фильтрации (в зависимости от уровня «зашумлённости» параметров), вида меры связи между параметрами и др.

При решении прикладных задач структурного анализа сложноорганизован-ных данных в основном используется алгоритм экстремальной группировки «квадрат» [2]. Опишем вкратце схему его работы.

Будем в дальнейшем коэффициент корреляции (или ковариации) двух случайных величин х и у обозначать как: = (.г. //). подчеркивая этим обозначением тот факт, что коэффициент корреляции может пониматься как скалярное произведение случайных величин х ш у. Для дисперсии рх>х случайной величины х будем применять обозначение = (х,х) = х2.

Пусть множество параметров (случайных величин) х\, .г2......г/, разбито на непересекающиеся группы А'1,..., Ав и заданы случайные величины . /2....../', такие,

что Л2 = /I = ... = Л2 = 1, которые будем называть факторами. Введем в рассмотрение функционал

г= Е (^>л)2+ Е + Е (.'•,./;)2. (1.1)

х I (Е./4.]_ (Е./4.2 С^з

Алгоритм «квадрат» решает задачу максимизации этого функционала как по разбиению параметров на множества А\, А^,..., Ав, так и по выбору случайных величин

Л,/а,...,/., 11 = 1 (1 = 1,-, 8).

Максимизация функционала (1.1) соответствует интуитивному требованию такого разбиения параметров, когда в одну группу попадают наиболее «близкие» между собой параметры. Действительно, при максимизации функционала (1.1) для каждого

фиксированного набора случайных величин . /2....../'., в 1-ую группу будут попадать

такие параметры, которые наиболее «близки» к величине ./}: в то же время среди всех возможных наборов случайных величин . /2....../', будет отбираться такой набор, что каждая из величин /г в среднем наиболее «близка» ко всем параметрам из своей группы.

Если заданы группы параметров Ах, А2,..., Ав, то максимум функционала ,Р

может быть получен, если в качестве факторов . /2....../', выбрать такие случайные

величины, что каждая случайная величина /г (I = 1.....) удовлетворяет условию

шах (хг, /г)2, /г2 = 1. (1.2)

Л ^—'

XI

Фактор /г, удовлетворяющий условию (1.2) при фиксированном множестве параметров А1, находится по формуле

/|

\

ОгХг ) У^еЛь^еЛг

(1.3)

> хI £

где п,; - компоненты собственного вектора матрицы Щ = { (.г;. г/) } , е соответствующего её наибольшему собственному значению. С другой стороны, если величины ¡1. /2....../'., заданы, то разбиение параметров на группы А\, А2,..., обеспечивающее максимум функционала «/*, должно удовлетворять условию: для каждого

Хг е Аь

(^,/|)2 > (ж^Д)2 (д = 1, 2,..., в), (1.4)

так как в противном случае функционал -Г можно было бы увеличить, перебросив параметр Хг из группы Д в ту группу . 1,; для которой соотношение (1.4) не выполнено. Соотношения (1.2) и (1.4) в совокупности являются необходимыми условиями максимума функционала .Г.

Можно предложить следующий итерационный алгоритм, определяющий одновременно группы А'1,..., Ав и факторы . /2....../',. удовлетворяющие этим условиям.

Пусть на р-м шаге итерации построено разбиение параметров на группы Для каждой такой группы параметров строят факторы /¿^ по формуле (1.3) и новое, (р + 1 )-(• разбиение параметров ..., А[р+1^ в соответствии с

4 (Р+1)

правилом: параметр Хг относится к группе А\ , если

(хг, ¡¡р))2 > (хг, (>/=1.2.....>•). (1.5)

В том случае, когда существуют два или более факторов и такой параметр Хг, что для этих факторов и этого параметра в (1.5) имеет место равенство, параметр Хг,

относится к одной из соответствующих групп произвольно. Предложенный выше алгоритм сходится к максимуму (возможно, локальному) функционала J*, поскольку, каковы бы ни были факторы j'f ..., j'f на каждом шаге итерации функционал J* не убывает.

2. Методы структуризации объектов

Классификация объектов производится в пространства X интегральных показателей, полученных на предыдущем этапе. Как и в предыдущем разделе, используются специальные экспертно-корректирующие процедуры для: выбора конкретного алгоритма классификации объектов; определения вида критерия качества классификации; выбора типа фильтрации (например, классификация строится с фоновым классом или без такового); выбора типа размытости - четкая, размытая, с размытыми границами, четкая с размытым фоном, размытая с четким фоном и т.д. Результатом классификации является вектор функций принадлежности объектов к классам (hi(x), ..., hr(x)), г - число классов, а также описание самих классов (например, эталонов) [1]. Для того чтобы результаты структуризации можно было использовать в практических задачах, важно не только насколько экономно она представляет исходную информацию, но и насколько эта структуризация удобна для интерпретации в содержательных терминах. В этой связи в приложениях в последнее время широко используются экспертно-классификационные алгоритмы построения так называемых «хорошо интерпретируемых классификаций» [3]. В прикладных задачах мы в основном использовали комплексный алгоритм автоматической классификации [4], основу которого составляет алгоритм т-локальной оптимизации. Схема работы этого алгоритма состоит в следующем.

Вначале опишем работу алгоритма 1-локальной оптимизации. Для простоты изложения рассматривается случай двух классов г = 2. Пусть задано начальное разбиение i?o всех объектов классифицируемой выборки х\,. . хп. Здесь каждый объект представляется точкой Xj = (х^Л\ xf'2\ ■■■ > ./ I• • • • • " в А-—мерном пространстве параметров X. Обозначим через Xj е А\ точки, относящиеся к первому классу, а через Xj е А2 - ко второму. Алгоритм итерационный, - на каждом шаге рассматривается одна точка из последовательности xi,. . ., хп, х\,. . ., хп, х\,. . . («зацикленная» исходная последовательность) . Отнесение точки к одному из двух классов обозначается с помощью индекса

, ч Г 1, если Xj е А\ _ p{Xj) = < . с 4 • +огда алгоритм 1-локальнои оптимизации определя-

i x • всли Xj ci 1т.2

ется следующим образом: р (xj) = sign [J (xj e A\) — J (xj e A-2)}.

В итоге точка Xj относится к тому классу, при отнесении к которому, значение критерия J будет больше (если эти значения равны, то для определённости точка относится к классу с меньшим номером). Алгоритм заканчивает работу, если на некотором цикле среди точек х\......г„ не будет сделано ни одной «переброски» точки

из класса в класс.

Алгоритм т - локальной оптимизации - это поэтапное применение к выборке алгоритмов s - локальной оптимизации, s = 1 -j- т. На s - ом этапе алгоритм работает

по той же схеме, только на каждом его шаге происходит пробная «переброска» из класса в класс не одной, а в точек. Подсчитывается значение критерия ./ до п после «переброски», Принадлежность каждой из .- точек к классу либо остаётся неименной (•/ до «переброски» больше, чем после), либо меняется на другой класс - в противном случае. В данном случае цикл - это число шагов, равное числу всевозможных различных наборов, в каждый из которых входит в точек, выбранных из п точек исходной выборки. Доказана сходимость алгоритма за конечное число шагов к локальному максимуму критерия ./.

Разработан эвристический алгоритм сокращённого перебора, который на каждом шаге для пробной «переброски» использует 5 точек в определённом смысле ближайших к границе между классами.

В приложениях в качестве критерия ./ использовался функционал .¡\ средней близости точек в классах, определяемый через потенциальную функцию близости точек х ш у:

К(х,у) = 1/{1 + аЩх,у)}, (2.1)

где аир- настраиваемые параметры алгоритма. Средняя близость точек в классе определяется как:

2 щ

К(Аг,А0 = ^ ^ К(хг, .г/). (2.2)

" 1 ' г=1 ¿>г

где /\ (./•,;. гI) определяется формулой (2.1), щ - число точек в классе А^. Тогда крите-

г

рий .1{ определяется как: «Л = ^ (. . 1,;). где /\ (. I,;.. I,;) определяется с помощью

¿=1

формулы (2.2).

3. Методы структуризации динамических объектов

При исследовании многопараметрической информации, изменяющейся во времени, непосредственное использование обычных алгоритмов автоматической классификации невозможно. Были разработаны специальные алгоритмы динамического классификационного анализа (ДКА), когда каждый объект по каждому параметру характеризуется набором значений для некоторой последовательности моментов времени (траекторией) [4]. В рамках вариационного подхода разработан соответствующий алгоритм ДКА. Проведен теоретический анализ этого алгоритма. Показано, что оптимальную классификацию можно искать в узком классе так называемых эталонных классификаций, и она определяется градиентом исходного функционала (критерия качества).

Постановка задачи ДКА формулируется с использованием трех основных понятий: классифицируемое множество объектов, класс допустимых классификаций и функционал качества разбиения [1].

1) Классифицируемое множество объектов

В ДКА предлагается классифицировать конечное множество объектов, изменяющихся во времени. Пусть в каждый момент времени объекты описываются некоторым конкретным набором параметров ..., х^к'К Считается, что для каждого объекта последовательно фиксируются т значений каждого из параметров в соответствующие моменты времени. Таким образом, каждый объект характеризуется серией из т векторов х\,...,хт в /г-мерном пространстве параметров, представляющих собой траекторию изменения данного объекта в пространстве параметров. Такую траекторию будем обозначать через х = (./'1......г,„). Итак, в качестве классифицируемого множества будет рассматриваться конечное множество объектов, задаваемых своими траекториями фиксированной длины, т.е. необходимо классифицировать множество Л = {х\,.....~г„ } (.V С Н^'").

Заметим, что важной особенностью такого подхода является то, что моменты времени, в которые зафиксированы значения параметров, у разных объектов могут быть разные.

2) Класс допустимых классификаций

Размытой классификацией множества .V = {.¡^......г,,} на г классов с фоновым классом называется (г+1)-мерная вектор-функция Н (х) = (Но (х), Н>1 (х), ... , Нг(х)) [1]. Здесь Но (х) - функция принадлежности х к фоновому классу, а //,; (х) - функция принадлежности его к г-му классу. Для любого х значение II (.?) должна принадлежать некоторому ограниченному замкнутому множеству V пространства значений вектор-функции //. т.е. Н (х) Е V С Нг'1. Множество V определяет тип размытости для данной задачи. Итак, рассматривается следующий класс размытых классификаций: 5 (V") = •{ II : Ух Е X Н (х) Е V"}.

3) Критерий качества классификации

В рамках общего вариационного подхода всё рассмотрение проводится для произвольного выпуклого функционала Ф от вектор-функции //. Для ДКА предлагается строить критерий качества классификации в соответствии с методом обобщенного среднего [1].

Считается, что объекты одного и того же класса искомой классификации должны хорошо описываться некоторой моделью траектории этого класса, а объекты, чьи траектории плохо описываются всеми моделями классов, должны попасть в фоновый класс. Поэтому критерий качества должен отражать, во-первых, близость траекторий объектов внутри нефоновых классов и, во-вторых, отнесение к фоновому классу объектов, чьи траектории достаточно удалены от моделей нефоновых классов. Далее, вводится в рассмотрение множество Л возможных моделей траекторий классов. Между элементами множества объектов X и элементами множества моделей Л вводится мера близости К(х, а) (х Е X; а Е Л).

п

В таком случае величина К (И (х), а) = ^ К(х^, а)Н (х^) отражает меру того, на-

3=1

сколько хорошо модель а описывает точки множества, заданного через свою функцию принадлежности Н(х).

Обобщенным средним или эталоном множества, заданного функцией принадлежности Н (ж), называется модель [1]:

&h = a,Tgma,xK(h (х), а) (3.1)

&еА

В соответствии с этим вводится следующий критерий качества классификации

г п

•/(//) = ]Г K(hi (х) ,ähi) + Bj^h0 (Xj), (3.2)

¿=1 j=i

где othi - эталон ¿-го класса (3.1), а В некоторая константа, регулирующая отнесение объектов к фоновому классу.

Задача классификации состоит в максимизации функционала (3.2) по вектор-функциям принадлежностей объектов к классам //. Одновременно, в каждом классе выстраивается эталонная траектория, отражающая общую тенденцию изменения значений показателей для объектов данного класса.

Заключение

Описанная методика экспертно-классификационного анализа сложно-организованных данных использовалась при решении широкого круга задач анализа и оценки эффективности функционирования крупномасштабных систем управления, в том числе при оценке эффективности управления социально-экономическим развитием субъектов РФ, при анализе и совершенствовании управления: региональным здравоохранением (на примере Новгородской области), региональными пассажирскими автоперевозками (на примере Московской области), жилищно-коммунальным хозяйством крупного города (на примере Москвы) и ряда других. Полученные результаты свидетельствуют о высокой эффективности разработанных методов, алгоритмов и процедур.

список литературы

1. Бауман Е.В., Дорофеюк A.A. Классификационный анализ данных. / / Труды Международной конференции по проблемам управления. Том 1. - М.: СИНТЕГ, 1999. - С. 62-77.

2. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. - М.: Наука, 1983. - 464 с.

3. Дорофеюк A.A., Чернявский А.Л. Алгоритмы построения хорошо интерпретируемых классификаций. / Проблемы управления. №2, 2007. - С. 83-84.

4. Дорофеюк Ю.А. Комплексный алгоритм автоматической классификации и его применение для анализа и принятия решений в больших системах управления. / Теория активных систем. Труды международной научно-практической конференции. / - М.: ИПУ РАН. 2007. - С. 39 -42.

5. Чернявский А.Л., Бауман Е.Б., Дорофеюк A.A. Методы динамического классификационного анализа данных. Искусственный интеллект, № 2, 2002, с. 290-298.

Статья поступила в редакцию 27.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.