Научная статья на тему 'Комплексный алгоритм автоматической классификации и его использование в задачах анализа и принятия решений'

Комплексный алгоритм автоматической классификации и его использование в задачах анализа и принятия решений Текст научной статьи по специальности «Математика»

CC BY
218
18
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Дорофеюк Ю.А.

Описан комплексный алгоритм автоматической классификации (кластер-анализа), который был специально разработан для задач интеллектуальной обработки сложноорганизованных данных и поддержки принятия решений. Он включает алгоритмы: m-локальной оптимизации заданного критерия качества классификации, выбора информативных параметров, выбора начального разбиения, выбора числа классов, заполнения пропущенных наблюдений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Дорофеюк Ю.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The automatic classification (cluster analysis) complex algorithm, that was especially developed for intellectual complex-organized data handling and decision support problems, is described. It includes: the m-local optimization algorithm with the predetermined classification performance criterion, the informative parameters selection algorithm, the initial fragmentation algorithm, the missing observation filling algorithm.

Текст научной работы на тему «Комплексный алгоритм автоматической классификации и его использование в задачах анализа и принятия решений»

УДК 62-50

КОМПЛЕКСНЫЙ АЛГОРИТМ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ И ЕГО ИСПОЛЬЗОВАНИЕ В ЗАДАЧАХ АНАЛИЗА И ПРИНЯТИЯ РЕШЕНИЙ1 © Дорофеюк Ю.А.

ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ РАН

Abstract. The automatic classification (cluster analysis) complex algorithm, that was especially developed for intellectual complex-organized data handling and decision support problems, is described.

It includes: the m-local optimization algorithm with the predetermined classification performance criterion, the informative parameters selection algorithm, the initial fragmentation algorithm, the missing observation filling algorithm.

Введение

Многие крупномасштабные системы управления, в первую очередь организационно-административные, функционируют в условиях большой информационной размытости и неопределённости. Именно поэтому в последнее время для исследования таких систем стали широко использоваться структурно-классификационные методы, базирующиеся на алгоритмах классификационного ЭЛ ЭЛИЗ el данных [l]-

В настоящей работе рассматриваются задачи анализа функционирования крупномасштабных систем управления, при этом считается, что такая система состоит из достаточно большого числа объектов, каждый из которых характеризуется многочисленным набором разнородных параметров. Основная идея предлагаемого метода решения этой задачи состоит в том, что исследуются не точные значения параметров, описывающих состояние каждого объекта, а лишь структура взаиморасположения этих объектов в пространстве параметров [2]. Такое интегральное описание объектов, входящих в крупномасштабную систему, позволяет существенно повысить эффективность анализа поведения системы, а также устойчивость и робастность процедур принятия управленческих решений. Для формализации такой задачи используется методология классификационного анализа данных [1].

1. Комплексный алгоритм автоматической классификации

Пусть исследуемая система состоит из п объектов, каждый из которых характеризуется набором из к параметров. Вводится в рассмотрение fc-мерное пространство параметров X, в котором каждый объект представляется точкой Xj = (х^р, х^р,... jX^p), j = 1,.. ,,п. Предполагается, что вектор значений параметров Xj достаточно полно характеризует состояние j-го объекта, а это, в свою

1Работа выполнена при частичной финансовой поддержке РФФИ, проект 08-07-00349-а.

очередь, означает, что взаиморасположение множества точек ... ,хп в пространстве X отражает реальную структуру (типологию) исследуемого множества объектов. Для выявления такой структуры в работе используется комплексный алгоритм автоматической классификации, специально разработанный для решения таких задач. Комплексный алгоритм включает алгоритмы: т-локальной оптимизации заданного критерия ,1, выбора информативных параметров, выбора начального разбиения, выбора числа классов, заполнения пропущенных наблюдений. Рассмотрим каждый из этих алгоритмов в отдельности.

1.1. Алгоритм m — локальной оптимизации. Вначале опишем работу алгоритма I-локальной оптимизации. Для простоты изложения рассматривается случай двух классов г = 2. Пусть задано начальное разбиение R0 всех точек классифицируемой выборки xi,..., хп. Обозначим через Xj Е Ai точки, относящиеся к первому классу, а через Xj G Ai - ко второму. Алгоритм итерационный, - на каждом шаге рассматрива-бтся одна точка из последовательности х\..... х п . Х\7.... х^. х \.. («зацикленная» не-ходная последовательность). Отнесение точки к одному из двух классов обозначается

, , Г 1, если Xj G Ai „ .

с помощью индекса pyXj) = < 1 . Хогда алгоритм 1-локальнои оити-

I х. если хj -'Т-З

мизации определяется следующим образом: p(xj) = sign [J (xj G Ai) — J (xj E ^2)]-

В итоге точка Xj относится к тому классу, при отнесении к которому, значение критерия J будет больше (если эти значения равны, то для определённости точка относится к классу с меньшим номером). Алгоритм заканчивает работу, если на некотором цикле среди точек .Г|......г„ по будет сделано ни одной «переброски» точки

из класса в класс.

Алгоритм т-локальной оптимизации - это поэтапное применение к выборке алгоритмов s-локальной оптимизации, s = 1 тт. На s-ом этапе алгоритм работает по той же схеме, только на каждом его шаге происходит пробная «переброска» из класса в класс не однои^ a s точек. Подсчитывается значение критерия J до и после «переброски», Принадлежность каждой из зточек к классу либо остаётся неименной (J до «переброски» больше, чем после), либо меняется на другой класс - в противном случае. В данном случае цикл - это число шагов, равное числу всевозможных различных наборов, в каждый из которых входит s точек, выбранных из ть точек исходной выборки. Доказана сходимость алгоритма за конечное число шагов к локальному максимуму критерия J.

Разработан эвристический алгоритм сокращённого перебора, который на каждом шаге для пробной «переброски» использует s точек в определённом смысле ближайших к границе между классами.

При моделировании и в приложениях в качестве критерия J использовался функционал Ji средней близости точек в классах, определяемый через потенциальную функцию [3] близости точек х и у:

K(x1y) = l/{l + aRp(x1y)}1 (1)

где аир- настраиваемые параметры алгоритма. Средняя близость точек в классе определяется как:

2 щ

K(A^Ai) (2)

1) ,=i

где (./•,. Xj) определяется формулой (1), щ- число точек в классе А^. Тогда критерий Ji определяется как:

г

./, ^^лгь.-ь). (з)

г=1

1.1.1. Алгоритм, т-локальной оптимизации, одномерный случай. Необходимо специально отметить частный случай алгоритма га-локальной оптимизации для k=1 (одномерный случай). Дело в том, что одномерный случай имеет уникальное свойство, существенно упрощающее процедуру целенаправленного перебора, используемые при автоматической классификации, а именно: ввиду одномерной упорядоченности классов границей между двумя классами (в детерминированном случае) служит только одна точка, и таких границ может быть не более двух (для крайне правого и крайне левого классов - только одна). Далее описана работа детерминированного (в отличие от общего - размытого) варианта этого алгоритма [4].

Пусть задано начальное разбиение R0 всех точек классифицируемой выборки хi.. . .. хji на т классов. Очевидно, что ввиду упорядоченности классов на оси единственного параметра, на каждом конкретном шаге алгоритма достаточно рассматривать только пару соседних классов, для определённости будем обозначать через Ai левый из этой пары классов, а через Ai - правый. Алгоритм содержит гациклов, на s-м цикле (s= 1, ..., га) производится локальная оптимизация классификации, полученной на предыдущем цикле, за счёт процедуры «переброски» s точек из одного класса в другой для каждой пары соседних классов.

На первом цикле производится «переброска» по одной точке. Здесь классификация, полученная на предыдущем цикле, - это начальная классификация Rq. Поясним эту процедуру для первого этапа этого цикла, когда рассматривается пара классов, расположенная в самой левой части диапазона значений Xj. Обозначим через Ai и ai соответственно первый и второй классы начального разбиения Rq. В классе Ai находится точка ж*'1,1 (индексы сверху - номера цикла, этапа и номера класса соответственно ), ближайшая к границе рассматриваемой пары классов. Обозначим через ро О*^'1'1) индекс этой точки (для аналогичной точки на s-м цикле это обозначение будет иметь вид ps_i (ж®'1,1)). По построению ро Затем «перебросим» эту точку в класс Ai и подсчитаем её индекс на первом цикле:

Pi (ж)'1,1) = sign [J (ж)'1,1 £ Ах) - J £ А2)] , (4)

где J (xj'1,1 £ Ai) - значение критерия качества классификации J, подсчитанное

111

только для точек классов А\ и А2 при условии, что точка ж •' ' принадлежит классу Ai, аналогично определяется J (ж]'1,1 £ Ai). Из (4) следует, что точка ж]'1,1 остаётся в первом классе (pi (ж]'1,1) = ро (ж]'1,1) = 1), если J (ж]'1,1 £ Ai) > J (ж]'1,1 £ . 1_<).

и переходит во второй класс (р\ (ж*'1,1) = —1) в противном случае. Если точка ж]'1,1

1,1,1

перешла во второй класс, то аналогичная процедура проделывается с точкой ж -Ц ,

которая является ближайшей к новой границе между классами и А2 среди всех

точек первого класса (в данном случае - это предыдущая точка классифицируемой

последовательности). И так продолжается до тех пор, пока точка х1^ не останется в

первом классе, т.е. на первом этапе первого цикла из первого класса во второй будут

111

«переброшены» I ближайших к границе точек. Если точка ж •' ' осталась в первом

классе, то аналогичная процедура проводится с точками второго класса начиная с 112

точки ж •' ' , которая является ближайшей к границе рассматриваемой пары классов. После того как закончится «переброска» точек из второго класса в первый (если это будет иметь место) либо не произойдёт «переброски» точки я^'1'2, происходит переход на второй этап первого цикла.

На втором этапе вся последовательность процедур первого этапа повторяется, только через А\ обозначаются точки, входящие во второй класс после завершения первого этапа первого цикла, а через А2 - третий класс начального разбиения До. И так далее, до тех пор, пока не будут пройдены все (г -1) этапов первого цикла.

На всех этапах 5-го цикла описанные процедуры повторяются с точностью до числа «перебрасываемых» точек - «перебрасывается» не по одной, а по 5 точек, ближайших к границе текущей пары классов. Процедура не применяется для классов А^, число точек щ в которых меньше, чем (з + 2).

Значение т (глубина перебора) должно выбираться из условия: в классификации, полученной после (га—1)-го цикла, должен быть хотя бы один класс, число точек в котором не меньше (га+2). Этим правилом можно воспользоваться для автоматического выбора максимально возможной глубины перебора.

Завершение га-го цикла является окончанием первой итерации. На второй итерации повторяются все процедуры первой, только на первом цикле вместо начального разбиения До используется результирующая классификация первой итерации.

Алгоритм прекращает работу, если в пределах одной итерации не произойдёт ни одной «переброски» точек из класса в класс.

1.2. Алгоритм выбора информативных параметров. Этот алгоритм базируется на одном из алгоритмов экстремальной группировки параметров, а именно на алгоритме «квадрат» [3]. В результате его применения получают разбиение исходных к параметров на небольшое ^заданное^ число групп, а также значения факторов для этих групп. В приложениях используются либо новые интегральные параметры -факторы групп, либо набор параметров, каждый из которых является ближайшим к фактору в соответствующей группе.

В большинстве приложений исходные или выделенные информативные параметры имеют неравнозначную важность для определения структуры объектов. Для выявления таких показателей важности в работе предлагается использовать процедуры экспертного оценивания. Наиболее хорошие результаты дает процедура многовариантной экспертизы [5], когда для получения параметра важности для каждого оцениваемого параметра используется несколько групп экспертов - специалистов в

различных аспектах исследуемой проблемы. В результате экспертизы каждый параметр получает определённый вес (показатель «важности» этого параметра) для формирования структуры объектов.

1.3. Алгоритм построения начального разбиения. На первом шаге из всех точек выборки XI,. . ., хп находится пара наиболее удаленных друг от друга точек, и хр, одна из которых - относится к первому классу, а другая хр - ко второму. Если п достаточно велико, то используется усеченный вариант первого шага, а именно: XI выбирается случайно, а хр ищется как точка, наиболее от нее удаленная.

На втором шаге ищутся точки 1 и хр+\ - ближайшие, соответственно, к точ~ кам %{ и хр; точка Х{+\ относится к первому классу, а хр+\ - ко второму.

ом шаге ищутся точки и хр+3, ближайшие в среднем к уже найденным точкам, соответственно, первого и второго классов. Точка определяется следующим образом:

Точка хр+3 определяется аналогично. Если возникает «конфликт», т.е. одна и та же точка является ближайшей к первому и ко второму классам одновременно, то эта точка относится к первому классу. Процедура (5) повторяется до тех пор, пока не будут исчерпаны все точки выборки. Полученное разбиение принимается в качестве начального разбиения До.

1.4. Алгоритм выбора числа классов. Для выбора числа классов используется специальная экспертно-компьютерная процедура, которая работает следующим образом. Сначала эксперт-пользователь оценивает диапазон (гт;п,

^*тах) ? ® пределах

которого заведомо находится искомое число классов. Далее, используя любой алгоритм автоматической классификации (в настоящей работе применялся алгоритм га-локальной оптимизации), проводится разбиение анализируемого множества объектов на ^щщ^ гтш I . . ., ^"шйх классов. Качество каждой из полученных классификаций оценивалось с помощью критерия ^ = Л — цЗъ, где «Л вычисляется по формуле (3), а также некоторые вспомогательные величины вычисляются по формулам:

'Ь = К(Аг,А:,.) = Е Е К(х1.,хр) - мера

„'—1 ' ■> „.г- Л . „ г- Л .

близости классов Аг, А угде потенциальная функция К(х{,х^ определяется формулой (1);д,аи р из (1) - настраиваемые параметры алгоритма. Фактически, параметр д является масштабирующим параметром, приводящим к соизмеримым средним значениям функционалов «Л и на практике величина д имеет значение порядка 2-7 (обычно во столько раз отличается средняя близость внутри классов от средней близости между самими классами).

(5)

г

г=1]>1

хреАу

Формально, в качестве «оптимального» можно выбрать такое число классов гор4, которое соответствует максимальному значению (г^), т.е. гор4 = г^, для которого тах 1/3(^7),

г^ — ^тт? ■ ■ ■ 7 ^"тах- Однако наличие существенной, но неиспользованной при классификации информации, например, ввиду отсутствия данных, может привести к тому, что полученное таким способом гор4 не будет «истинно оптимальным».

Для компенсации этого недостатка предлагается использовать следующую экспертную процедуру. Экспертам - специалистам в соответствующей предметной области представляются значения т^ ^"тт? * ? ^"т&х; представленные для удобства в виде графика, на котором отмечается значение гор4 (оно соответствует максимальной точке на графике (г?)). Используя эту информацию, эксперты могут корректировать выбираемое число классов. В подавляющем числе случаев экспертное число классов либо совпадает с гор4, либо незначительно (±1) отличается от него.

При классификации многомерных объектов во время такой экспертизы анализируется также классификация каждого объекта. Для этой цели экспертам сообщается информация о мере близости К(х{,с^ каждой точки х{ до центров классов с^ j = 1,..., гор1 в оптимальной классификации, т.е. матрица близости \\K(xi, % = 1,..., п, у = 1,..., гор£. Перенесение точки (объекта) х^ из j-го класса в 1-й считается допустимым, если величины К(х{,с^ и К(х{,С1) отличаются незначительно. Другими словами, содержательно обоснованное перенесение допустимо для точек, расположенных вблизи границы между соответствующими классами.

1.5. Алгоритм заполнения пропущенных наблюдений. Во многих приложениях имеются пропуски в данных. В этой ситуации нужно либо использовать специальные процедуры подсчета расстояний между объектами, в параметрах которых имеются пропуски, либо разрабатывать специальные процедуры заполнения таких пропусков. В подавляющем большинстве случаев, пропуски по каждому параметру заполняются средним известных значений соответствующего параметра (для исходной выборки). В настоящей работе была разработана специальная процедура заполнения пропусков в исходных данных с использованием алгоритмов автоматической классификации. Основная идея процедуры состоит в следующем. Если множество изучаемых объектов структурировано (т.е. их можно разделить на классы, достаточно компактно расположенные в пространстве параметров X), то дисперсия (диапазон) изменения каждого параметра в пределах каждой группы, как правило, будет существенно меньше, чем этот показатель для значения этого параметра по всей выборке. Таким образом, если по данным с пропусками удастся определить реальную структуру взаиморасположения точек (т.е. провести классификацию, адекватную этой структуре), то заполнять пропущенное значение 1-го параметра для объекта из г-го класса можно средним этого параметра по его известным значениям дл я в с е х^ объектов, попавших в 2-ыи класс. Исходя из сделанного предположения, отклонение полученного значения от «истинного» должно быть существенно меньше (в среднем), чем обычная схема заполнения по общему среднему.

Заключение

Разработанный комплексный алгоритм использовался для интеллектуализации анализа сло^киооргаиизованных данных, а так^ке при совершенствовании процедур принятия решений для нескольких крупных систем управления, в основном регионального характера. Во всех приложениях, а также при машинном моделировании, была подтверждена высокая эффективность разработанного комплексного алгоритма.

Список литературы

1. Бауман Е.В., Дорофеюк A.A. Классификационный сШШШЗ данных / Труды Международной конференции по проблемам управления. Том 1. - М.: СИНТЕГ, 1999. - С. 62-67.

2. Дорофеюк A.A., Дорофеюк Ю.А Методы структурно-классификационного прогнозирования многомерных динамических объектов / Искусственный интеллект, № 2, 2006. - С.138-141.

3. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных -AI.: Наука, 1983.

4. Десова A.A., Дорофеюк A.A., Гучук В.В., Дорофеюк Ю.А., Покровская И.В. Процедуры классификационного анализа в задаче формирования информативных признаков при исследовании ритмической структуры биосигнала / Автоматика и телемеханика. 2008, №6. - С. 143-152.

5. Дорофеюк A.A., Покровская И.В., Чернявский А.Л. Экспертные методы анализа и совершенствования систем управления / Автоматика и телемеханика. 2004, №10. - С. 172-188.

Статья поступила в редакцию 27.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.