Научная статья на тему 'Одна кластерная метрика и устойчивость кластерных алгоритмов'

Одна кластерная метрика и устойчивость кластерных алгоритмов Текст научной статьи по специальности «Математика»

CC BY
162
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНОЕ РАЗБИЕНИЕ / УСТОЙЧИВОСТЬ / МЕТРИКА НА КОНЕЧНОМ МНОЖЕСТВЕ / CLUSTER PARTITION / STABILITY / METRIC ON FINITE SET

Аннотация научной статьи по математике, автор научной работы — Дронов Сергей Вадимович

Одной из проблем, которые возникают при решении задачи кластерного анализа, является сравнение нескольких решений этой задачи, получающихся при использовании различных методов или меняющихся стартовых конфигураций. Предложен подход к сравнению двух кластерных разбиений одного и того же конечного множества. На основе вводимой для этого метрики на классе всех возможных разбиений множества на кластеры определяется и обсуждается понятие устойчивости кластерных алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Cluster Metric and Stability of Cluster Algorithms

One of the problems arising in cluster analysis is a problem of comparing several different cluster partitions. The cause of such problems may-lie in using more than one method of clusters building or trying the same method with different starting configurations. In the paper we suggest an approach to comparing two cluster partitions of the same finite set. It is based on some metric on the class of all cluster partitions. A notion of stability for cluster algorithms is also defined and discussed.

Текст научной работы на тему «Одна кластерная метрика и устойчивость кластерных алгоритмов»

УДК 519.25

С. В. Дронов

Одна кластерная метрика и устойчивость кластерных алгоритмов

S. V. Dronov

A Cluster Metric and Stability of Cluster Algorithms

Одной из проблем, которые возникают при решении задачи кластерного анализа, является сравнение нескольких решений этой задачи, получающихся при использовании различных методов или меняющихся стартовых конфигураций. Предложен подход к сравнению двух кластерных разбиений одного и того же конечного множества. На основе

вводимой для этого метрики на классе всех возможных разбиений множества на кластеры определяется и обсуждается понятие устойчивости кластерных алгоритмов.

Ключевые слова, кластерное разбиение, устойчивость, метрика на конечном множестве.

1. Кластерная метрика. Пусть X -конечное множество. Для произвольного А С X через |А| будем обозначать количество его элементов. Класс Л подмножеств X назовем кластерным разбиением, если каждое х € X является элементом некоторого множества Ах € ЛЛ попарно дизъюнктны, т.е.

(УА, В € Л (АфИ) ^ (А п В = 0).

Для двух кластерных разбиений Л, В одного и того же множества X из п элементов определим

4Л, В= ^ |АхДВх1,

хЕХ

где А ДБ = (А и В) \ (А П В) - симметрическая разность множеств. Нетрудно доказать, что введенная величина представляет собой метрику на наборе всевозможных кластерных разбиений X.

Пусть Л = [А,...Ан}, В = {И,...,Вт}. Введем обозначения

п^ = А п Ву |, и^ = А и Ву \,

г = 1, ..., к, = 1, ..., т.

One of the problems arising in cluster analysis is a problem of comparing several different cluster partitions. The cause of such problems may lie in using more than one method of clusters building or trying the same method with different starting configurations. In the paper we suggest an approach to comparing two cluster partitions of the same finite set. It is based on some metric on the class of all cluster partitions. A notion of stability for cluster algorithms is also defined and discussed.

Key words: cluster partition, stability, metric on finite set.

Теорема 1.

к т

4Л, В = Т, Т. ПЧ,3 (игу - пу . (1)

*=1 3=1

Доказательство. Для каждого х € Аг П В у справедливо \АхАВх\ = игу — Пгу, поэтому-достаточно в определении метрики объединить одинаковые по величине слагаемые.

Полезным для контроля вычислений по формуле (1) может оказаться тот факт, что множества Аг П Ву, г = 1,...к, ] = 1,...,т также образуют кластерное разбиение, откуда получаем

кт

5353п*з' = п,

г=1 3=1 тк

(Уг,з) пгз = \Аг\, пгз = \В3\.

3=1 г=1

Обозначим элементы множества X через хх,...,хп, а два наиболее различных (точное содержание этого термина будет ясно чуть ниже) его кластерных разбвиения следующим образом:

X = {{щ},..., {хп}}, X = {{хх, ...,Хп}} = {X}. Л, В

ми (равными), если (УА € Л)(ЗВ €В) А = В.

Теорема 2. Для любых двух кластерных разбиений множества X неравенство

(2)

причем равенство достигается тогда и только тогда, когда одно из разбиений совпадает с X , а другое с X.

Доказательство. Если пг,у ф 0, то, очевидно, иг,з — пг,з < п — 1. При этом равенство здесь достигается тогда и только тогда, когда

^і,3 — пі ^і,3 —

(3)

Отметим, что если (3) для каких-то г,] выполнено, то

(Зх € X) Аг п Ву = {х}, Аг и Ву = X.

Теперь нз (1) получаем

кт

1(Л В< (п — 1) ЕЕ пг,у = (п — 1)п.

г=1 э=1

Неравенство (2) доказано. Заметим, что если хотя бы для одной пары индексов г, ] такой, что пг}у ф 0, условие (3) нарушается, то неравенство (2) становится строгим.

Проверка того, что в (2) достигается равенство, если Л = X , В = X или наоборот, тривиальна. Обратно, пусть равенство

достигнуто, т.е. (3) выполнено для всех г, ] таких, что пг}у ф 0. Предположим, что Л, В

множества (А ,А и В1,В соответственно — это означает, что ни одно из разбиений не равно X), причем множества А,В содержат более чем по одному элементу. Последнее условие эквивалентно тому, что ни одно из разбиений не совпадает с X.

Случай 1. Пусть А п В Ф 0- Тогда это пересечение состоит из единственного элемента х и А и Вг = X, откуда В2 С А \ {х}-Поскольку А1 не одноэлементно, значит А\ п В Ф 0 т.е. А\ и В2 = X согласно (3). Но В п В 0 В {х}

Противоречие.

Случай 2. А п Вх = 0. Без ограничения

В

А

есть), одноэлементны. Пусть В = {?} такое множество. Тогда В С А] и с учетом (3) получаем

А1 и В2 = Ах= X Л = X,

или состоит лишь из одного элемента. Вновь противоречие.

Если Л = X и равенство в (2) достигнуто, то в предположении, что Аг п Ву ф 0, немедленно получается Аг и В у = Ву, то есть из (3) В у = X, откуда В = X. Ести же Л = X, то при произвольных г, ] справедливо Аг п В у = В у. Вновь используя (3), приходим к выводу, что все Ву одноэлементны, т.е. В = X. Теорема доказана.

Основываясь на доказанной теореме, можно ввести коэффициент кластерных различий:

К( Л, В) =

гі(Л, В

п(п — 1)

Он принимает значения между 0 и 1, и, чем меньше он по величине, тем более похожими друг на друга являются кластерные разбиения.

2. Другой способ расчета введенной метрики. При попытке вычислять значения введенной метрики по формуле (1) на практике сразу возникают значительные трудности. Предложим другой способ вычисления 1.

Лемма 1. Пусть для произвольных г,]

Пі

Е

п..

гф] афг

Тогда имеет место формула

кт

1( Л, В = Т,Т,пг,э Ч,.

гу

(4)

Доказательство. Формула (4) немедленно следует из (1), если заметить, что

для г = 1, ..., к, ] = 1,..., т.

Из этой леммы вытекает следующий способ вычисления рассматриваемой метрики. Поместим все числа п,- в матрицу Р размерности к х т. Тогда Тг,у - сумма элементов этой матрицы, образующих крестообразную фигуру с центром (г,]) без центрального элемента. Вычисляя все такие суммы и

Т

завершить вычисления по формуле (4). Этот способ вычисления представляется более алгоритмичным, чем использование формулы (1) и, тем более, определения Л, В).

В

Л

к

т

г

,

из множества АТ, \АТ | = пТ в множество Ая, А \= пя, г ф в. Тогда

й(А, В) = 2(пТ + пя — 1).

Доказательство. Понятно, что

Пт,т = пг — 1, = 1, П5,т = О, П3,5 = п8,

Тт,т = 1, Тт,я = Тя,т = Пт + П3 — 1, Тя,я = 1,

а если хотя бы одно из г,] не попадает в множество {г, в}, то Пг^Тг^ = 0. Утверждение леммы немедленно следует из формулы (4).

3. О расстояниях между к-разбие-ниями. В некоторых алгоритмах кластерного анализа (например, в методе к-средних) могут изменяться лишь составы кластеров, а число первоначально заданных кластеров не может меняться. Рассмотрим этот случай подробнее. Зафиксируем натуральное число к, меньшее п.

А

к-разбиением, если оно состоит из к множеств.

Пусть А, В - два к-разбиения. Для фиксированного ц € {{, ...,п} через В+ обозначим набор тех В2 € В Для которых Пд^ ф 0.

Лемма 3. Для произвольного ц справедливо В^ Ф 0. Если при ка ждом ц набор

В^ одноэлементен, то к-разбиения А, В совпадают.

Доказательство. Первое утверждение -тривиальное следствие определений. Пусть

(Щ (Эр(д)) В+ = {Вр(ч)}.

Это означает, что

(Уц = 1,.., к Ач С Вр{я). (5)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если бы двум разным ц соответствовало р

количеств множеств в разбиениях какому-то множеству Вя не соответствовало бы ни одного ц, т.е. ни одно из Ад € А не имело бы с Вя общих элементов, что противоречит определению кластерного разбиения.

Если бы хотя бы при одном ц нашелся какой-то элемент х € Врд \ Ад, то, поскольку при Р Ф р(ч) справедливо Вр П Врд^ = 0, то из (5) получалось бы, что

ик=1 Аг С Вр({) и Ад С X \ {х},

что вновь невозможно. Итак, доказано, что (Уд)(Эр) Ад = Вр, а это означает, что А = В. Лемма доказана.

Теорема 3. Пусть А - к-разбиение X. Тогда ближайшее к нему в смысле 3 к-разбиение, не совпадающее с ним, получается

перенесением одного х € X из некоторого А€А

В

к-разбиение X, отличное от А. Выберем такое Ад € А, чт0 набор В+ хотя бы двухэлементен.

Вр

такое ВТ, что Пд,Т наибольшее. Пусть Вр -другой элемент этого набора их € Ад П Вр. В силу сделанного выбора

0 < Пд,р — Пд,т^ ^ ^ Пг,т — ^ ^ Пг,р. (6)

гФд гФч.

Перенесем х из Вр в ВТ. Новое кластерное разбиение обозначим через Вг. Пусть 3г =

3(А, Вг), г = ОД. Все величины, участвующие в формуле (1) при вычислении 3г, будем помечать г

Заметим, что при переходе от вычисления 3д к поменяются указанным ниже образом лишь следующие величины:

и\,т = и\,т+ ^ и\р = и°г,р — ^ гФ ц

Пя,р = пЯ,р — ^ п?,т + 1.

Отсюда немедленно вытекает, что

4 = 30 — ^гфд П%р + пХт — ид,р + П?,р+

+ ид,т —2 = 3о + 2 (^гфд п%т — ^гфд Пг,р) +

+ Пд,р — П°д,т —2.

Из условий (6) получаем

3^ — 3$ — 2 3>$,

т.е. разбиение В ближе к А, чем В0. Будем повторять проведенное рассуждение, заменяя в нем разбиение ^^аВ, В,... В силу конечности всех рассматриваемых объектов процесс рано или поздно остановится, причем произойдет это тогда, когда ни для одного ц мы не

Вд

что, согласно лемме 3, может произойти лишь в случае В2 = А. Тогда разбиение В2-_1

АВ А

хк

В

Из теоремы 3 и леммы 2 следует Теорема 4. Упорядочим множества, кА количеств их элементов и перенумеруем их в этом порядке. Пусть ] - наименьший номер множества с числом элементов щ > 2. Если

І = 1, то ближайшее в смысле метрики 3 к А к-разбиение, не совпадающее с ним, удалено от него на расстояние

3 = 2(пnj — 1) > — 2.

Если же і >2, то на 3 = 2nj. В частности,

к

могут быть удалены друг от друга менее чем мо 3 = 4.

Единственное разбиение, для которого заключение теоремы не работает, - X. Но этот случай для нас не представляет интереса, поскольку такое разбиение мы не можем трансформировать без изменения количества множеств, его составляющих.

4. Об устойчивости кластерных

алгоритмов. В кластерном анализе

иногда рассматриваются итерационные процедуры, которые, стартуя с некоторого

А

то трансформируя его, в итоге приходят к окончательному разбиению. Это разбиение, следовательно, может рассматриваться как функция от начального, что можно записать как В = Г (А). Если независимо от начального разбиения результат процедуры всегда получается один и тот же, то естественно назвать такую процедуру абсолютно устойчивой (по отношению к начальному разбиению).

Если же возможны различные результаты в зависимости от начального разбиения, то может оказаться полезным следующее определение. Кластерный алгоритм Г описанного типа будем называть е-устойчивым в точке А, если найдется

такое 6 > 0, что для любого кластерного

разбиения А го условия 3( А, Аг) — 6 следует 3(В(А,^(А1)) — е. Можно ввести также

определение равномерной е-устойчнвостп:

(Э6 > 0) (УА, А^ (3(А, А) — 6) ^

^ (3(Г(А),ПАг))< е),

а также другие подобные определения.

Нетрудно заметить, что из полученных выше результатов следует, что если при е = 1 6 = п(п — 1), то е-равномерно устойчивый алгоритм оказывается абсолютно устойчивым.

Выписанные здесь характеристики абсолютной устойчивости можно уточнить в ряде важных специальных случаев. В частности, в некоторых кластерных алгоритмах

к

дивизимном алгоритме, подробно описанных в монографии Айвазяна С.А., Бухштабера В.М., Енюкова И.С., Мешалкина Л.Д. Прикладная статистика: Классификация и снижение

размерности. - М., 1989), число множеств, составляющих начальное разбиение, не меняется в процессе работы. Для такого рода

е

устойчивость превращается в абсолютную

е

Можно также ставить и решать задачи устойчивости кластерных алгоритмов в зависимости от степени плотности расположения тех объектов, которые мы разбиваем на кластеры. С точки зрения автора, вводимое здесь понятие устойчивости весьма содержательно и требует глубокого изучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.