Научная статья на тему 'Сравнение алгоритмов кластерного анализа на случайном наборе данных'

Сравнение алгоритмов кластерного анализа на случайном наборе данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1723
557
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / ОЦЕНКА КАЧЕСТВА КЛАСТЕРИЗАЦИИ / KMEANS АЛГОРИТМ / DBSCAN АЛГОРИТМ / CLUSTER ANALYSIS / EVALUATION OF THE QUALITY OF CLUSTERING / KMEANS ALGORITHM / DBSCAN ALGORITHM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Подвальный С. Л., Плотников А. В., Белянин А. М.

Рассмотрены особенности применения методов кластерного анализа в системе диагностики. Описано подробно алгоритмы кластерного анализа Kmeans и DBSCAN. Изложению результаты исследования алгоритмов кластерного анализа на случайном наборе данных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF CLUSTER ANALYSIS OF ALGORITHMS RANDOM SET OF DATA

The features of application of cluster analysis in the diagnosis. We describe in detail the algorithm of cluster analysis Kmeans and DBSCAN. Presentation of research results of cluster analysis algorithms on random data set

Текст научной работы на тему «Сравнение алгоритмов кластерного анализа на случайном наборе данных»

УДК 004.9

Информационные технологии

СРАВНЕНИЕ АЛГОРИТМОВ КЛАСТЕРНОГО АНАЛИЗА НА СЛУЧАЙНОМ

НАБОРЕ ДАННЫХ

Е.С. Подвальный, А.В. Плотников, А.М. Белянин

Рассмотрены особенности применения методов кластерного анализа в системе диагностики. Описано подробно алгоритмы кластерного анализа Кшеаш и БВ8САЫ. Изложению результаты исследования алгоритмов кластерного анализа на случайном наборе данных

Ключевые слова: кластерный анализ, оценка качества кластеризации, Кшеаш алгоритм, БВ8САЫ алгоритм

Введение. Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры», т.е. группы очень похожих объектов. Более точно, кластерный метод - это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы[1].

Различные приложения кластерного анализа можно свести к основным задачам:

1) Разработка типологии или классификации;

2) Исследование полезных концептуальных схем группирования объектов;

3) Порождение гипотез на основе исследования данных;

4) Проверка гипотез или исследование для определения, действительно ли типы(группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, кластерный анализ используется для создания классификаций, но в большинстве случаев прикладного анализа данных в основе исследования лежит комбинация этих задач.

Недостатки кластерного анализа:

1) Многие методы кластерного анализа -довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования. Т.е. большинство методов кластерного анализа являются эвристическими.

2) Методы кластерного анализа разрабатываются для многих научных дисциплин, а

Подвальный Евгений Семенович - ВГТУ, д-р техн. наук, профессор, тел. (473) 247-74-04

Плотников Александр Владимирович - ВГТУ, аспирант, тел. 8 (908) 138-57-31

Белянин Алексей Михайлович - ВГТУ, аспирант, тел. 8 (960) 122-91-06

потому несут на себе отпечатки специфики этих дисциплин.

3) Разные кластерные методы могут порождать и порождают различные решения для одного и тех же данных.

Общепринятой классификации методов кластеризации не существует. Однако, Если обобщить различные классификации методов кластеризации, то можно выделить ряд групп.

1) Вероятностный подход

2) Подходы на основе систем искусственного интеллекта.

3) Логический подход.

4) Теоретико-графовый подход.

5) Иерархический подход.

6) Другие алгоритмы

Оценки качества кластеризации. Оценить качество кластеризации можно с помощью внутренних и внешних оценок. Если результат кластеризации оценивается на основе данных, которые разбивались на кластеры, то такая оценка называется внутренней. Эти методы обычно назначают лучший результат для алгоритма, который производит кластеров с высоким сходством внутри кластера и низкий сходство между кластерами. Один из недостатков использования внутренних критериев оценки кластера является то, что высокие баллы внутренней оценки не обязательно приведут к эффективному разбиению информации.

Во внешней оценки результатов кластеризации, оцениваются на основе данных, который не был использован для кластеризации. Такие критерии состоят из множества предварительных секретных пунктов, и эти наборы часто создаются человеком (экспертом).

Одной из внутренних ошибок является индекс Дэвис-Боулдин (Davies-Bouldin index). Его можно вычислить по следующей формуле:

DB * ^ ^

где ті - число кластеров; сх - центр тяжести кластерам; <5Х - среднее расстояние всех элементов кластера х от центра тяжести сх ; л Î' - расстояние между центрами тяжести

Cç И Cj.

Алгоритм, который будет иметь наименьший индекс Дэвис-Боулдина, будет считаться лучим.

K-means алгоритм. Рассмотрим, некоторые алгоритмы кластерного анализа.

K-means алгоритм относится к не - иерархическим алгоритмам. Кластеры представлены в виде центройдов, являющихся ’центром массы’ всех документов, входящих в кластер.

В основном, алгоритмы k - кластеризации берут на вход множество S и число k. И на выход отдают разделение множества S на подмножества S1, S2, ..., Sk. Наиболее общий k -алгоритм это алгоритм оптимизации (оптимизационный алгоритм).

Алгоритм K-means имеет ряд проблем: результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен; число кластеров надо знать заранее.

DBSCAN алгоритм. Алгоритм DBSCAN (Density Based Spatial Clustering of Applications with Noise), плотностный алгоритм для кластеризации пространственных данных с присутствием шума, был предложен Мартином Эстер, Гансом-Питером Кригель и коллегами в 1996 году как решение проблемы разбиения (изначально пространственных) данных на кластеры произвольной формы. Большинство алгоритмов, производящих плоское разбиение, создают кластеры по форме близкие к сферическим, так как минимизируют расстояние документов до центра кластера[3].

Авторы DBSCAN экспериментально показали, что их алгоритм способен распознать кластеры различной формы.

Идея, положенная в основу алгоритма, заключается в том, что внутри каждого кластера наблюдается типичная плотность точек (объектов), которая заметно выше, чем плотность снаружи кластера, а так же плотность в областях с шумом ниже плотности любого из кластеров. Ещё точнее, что для каждой точки кластера её соседство заданного радиуса должно содержать не менее некоторого числа точек,

Поиска точек, чьё NEpE(p) содержит хотя бы минимальное число точек (MinPt) недостаточно, так как точки бывают двух видов: ядровые и граничные.

Точка р непосредственно плотнодостижима из точки q (при заданных Eps и MinPt), если р Е N"EpE и |NEpE(p)| > MinPt.

Точка р плотно-достижима из точки q (при заданных Eps и MinPt), если существует последовательность точек

■: = р: р: = р р._: непосредственно

ПЛОТНО-ДОСТИЖИМЫ ИЗ Р[. Это отношение транзитивно, но несимметрично в общем случае, однако симметрично для двух ядровых точек.

Точка р плотно-связана сточкой q (при заданных Eps и MinPt), если существует точка о: р и q плотно-достижимы из о (при заданных Eps и MinPt).

Кластер Cj (при заданных Eps и MinPt) -это не пустое подмножество документов, удовлетворяющее следующих условиям:

1) Vp, q : если р G Cj и q плотно-

достижима из р (при заданных Eps и MinPt), то q G CL;

2) Vp, q 6= CL: p плотно-связана с q (при заданных Eps и MinPt).

И так, кластер - это множество плотносвязанных точек. В каждом кластере содержится хотя бы MinPt документов.

Эвристический подход к заданию начальных параметров. Для некоторого значения k, построить график, на котором каждому документу коллекции поставить в соответствие значение k-dist - расстояние до его k-ого соседа, при этом документы должны быть отсортированы по убыванию значения k-dist. Тогда полученный график может породить догадки о распределении плотности в массиве документов. Ищем пороговую очку p на графике с наибольшим значением k-dist для «самого разреженного» кластера: предполагаем, то это первая точка первой «равнины». Точки, расположенные левее, предположительно считаются шумовыми, а правее-

принадлежащими одному из кластеров. Тогда значения параметров Eps = k-dist(p^ MinPt=k.

Результаты эксперимента. Задачей эксперимента было сравнить алгоритмы кластеризации Kmeans и DBSAN по индексу Дэвис-Боулдина на случайном наборе данных. Число данных в используемом тестовом наборе равно

это число точек задаётся пороговым значением. Eps-соседство точки р, обозначаемое как р;, определяется как множество документов, находящихся от точки р на расстояния не более Eps:

669 (Рис. 1). Число кластеров, на которые нужно разбить данные равно 3.

Рис. 1. Исходные данные на плоскости

Результаты работы алгоритмов представлены на рисунке 2 и рисунке 3.

Рис. 2. Результат работы алгоритма Kmeans

О 50 100 150 200 250

Рис. 3. Результат работы алгоритма DBSCAN

Индекс Дэвис-Боулдина для алгоритма Kmeans равен 0,075. Индекс Дэвис-Боулдина для алгоритма DBSCAN равен 0,05.

Вывод. Оценить результаты эксперимента можно двояко: с одной стороны алгоритм DBSCAN дал лучший результат по индексу Дэ-вис-Боулдина. Однако, анализируя Рисунков 2 и 3, можно придти к выводу, что алгоритм Kmeans разбил данные геометрически более верно.

Можно сделать вывод, что для выбора метода кластеризации нужно руководствоваться эвристическим подходом. Для разного набора данных оптимальный алгоритм может быть разным.

Кластерный анализ предполагается включить в общую программу комбинированной диагностики [2] для анализа кровотока мозгового кровообращения

Литература

1. Ким Дж.-О., Мьюллер Ч.У. и др. Факторный, дискриминантный и кластерный анализы. Москва: Финансы и статистика, 1989.

2. СВИДЕТЕЛЬСТВО о государственной регистрации программы № 2010611265 с приоритетом от 18 декабря 2009 г.

3. Henrik Backlund, Anders Hedblom, Niklas Neijman A Density-Based Spatial Clustering of Application with Noise. - Linkopings Universitet. - 2011

Воронежский государственный технический университет

COMPARISON OF CLUSTER ANALYSIS OF ALGORITHMS RANDOM SET OF DATA

E.S. Podvalny, A.V. Plotnikov, A.M. Belyanin

The features of application of cluster analysis in the diagnosis. We describe in detail the algorithm of cluster analysis Kmeans and DBSCAN. Presentation of research results of cluster analysis algorithms on random data set

Key words: cluster analysis, evaluation of the quality of clustering, Kmeans algorithm, DBSCAN algorithm

i Надоели баннеры? Вы всегда можете отключить рекламу.