Научная статья на тему 'Особенности методов кластеризации данных'

Особенности методов кластеризации данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3030
437
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ / ГОРНЫЙ АЛГОРИТМ КЛАСТЕРИЗАЦИИ / CLUSTERING / FUZZY CLUSTERIN / MOUNTAIN CLUSTERING ALGORITHM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Егоров Александр Вадимович, Куприянова Наталия Игоревна

Рассмотрены основные понятия кластеризации и нечеткой кластеризации данных. Описаны возможные типы данных, пригодных для кластеризации. Заданы исходные данные для алгоритмов кластеризации. Кратко проанализированы существующие алгоритмы кластеризации данных, отмечены их достоинства и недостатки. Описан наиболее перспективный нечеткий горный алгоритм кластеризации. Выявлены перспективы развития алгоритмов кластеризации как составной части математического аппарата поддержки интеллектуальных информационных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CHARACTERISTICS OF METHODS OF FUZZY CLUSTERING DATA

The basic concepts of clustering and fuzzy clustering. The possible types of data suitable for clustering. Given input for clustering algorithms. Briefly analyzed the existing data clustering algorithms, their advantages and disadvantages. Described the most promising mining fuzzy clustering algorithm. Identified prospects of algorithms for clustering, as part of the mathematical tools to support intelligent information systems.

Текст научной работы на тему «Особенности методов кластеризации данных»

Gorelova Galina Victorovna

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: g.v.gorelova@gmail.com.

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78634311426.

The Department of State and Municipal Legislation and Administration; Dr. of Eng. Sc.; Professor.

Drokina Christina Vladimirovna

E-mail: krdrokina@mail.ru.

Phones: +78634371704; +79185057127.

The Department of Management; Postgraduate Student; Assistant Lecturer.

УДК 519.23

A.B. Егоров, Н.И. Куприянова ОСОБЕННОСТИ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДАННЫХ

Рассмотрены основные понятия кластеризации и нечеткой кластеризации данных. Описаны возможные типы данных, пригодных для кластеризации. Заданы исходные данные для алгоритмов кластеризации. Кратко проанализированы существующие алгоритмы , . -спективный нечеткий горный алгоритм кластеризации. Выявлены перспективы развития алгоритмов кластеризации как составной части математического аппарата поддержки интеллектуальных информационных систем.

Кластеризация; нечеткая кластеризация; горный алгоритм кластеризации.

A.V. Egorov, N.I. Kuprianova CHARACTERISTICS OF METHODS OF FUZZY CLUSTERING DATA

The basic concepts of clustering and fuzzy clustering. The possible types of data suitable for clustering. Given input for clustering algorithms. Briefly analyzed the existing data clustering algorithms, their advantages and disadvantages. Described the most promising mining fuzzy clustering algorithm. Identified prospects of algorithms for clustering, as part of the mathematical tools to support intelligent information systems.

Clustering; fuzzy clusterin; mountain clustering algorithm.

Одним из направлений обработки данных различной структуры и свойств является кластеризация. Кластеризация - это объединение объектов в группы (кластеры) на основе схожести признаков для объектов одной группы и отличий меж. -

онные для статистических методов допущения; они могут использоваться в условиях почти полного отсутствия информации о законах распределения данных [5]. Кластеризацию проводят для объектов с количественными (числовыми), качественными или смешанными признаками. Рассмотрим кластеризацию только для

объектов с количественными признаками (отметив потенциал методов для качест-

). -

ляется матрица наблюдений:

Раздел III. Информационные технологии в управлении

*11 Х12 .. X1n

X = x21 2 2 x n 2 x , (1)

_Xrn1 Xm 2 .. Xmn _

каждая строчка которой представляет собой значения n признаков одного из M .

на несколько подмножеств (кластеров), в которых объекты более схожи между собой, чем с объектами из других кластеров. В метрическом пространстве "схожесть" обычно определяют через расстояние. Расстояние может рассчитываться как между исходными объектами (строчками матрицы X), так и от этих объектов к прототипу кластеров. Обычно координаты прототипов заранее неизвестны - они находятся одновременно с разбиением данных на кластеры. Существует множество методов кластеризации, которые можно классифицировать на четкие и нечеткие [1]. Четкие методы кластеризации разбивают исходное множество объектов X на несколько непересекающихся подмножеств. При этом любой объект из X принадлежит только одному кластеру. Нечеткие методы кластеризации позволяют одному и тому же объекту принадлежать одновременно нескольким (или даже всем) , . -руются по тому, определено ли количество кластеров заранее или нет. В последнем случае количество кластеров определяется в ходе выполнения алгоритма на основе распределения исходных данных. Четкие методы являются наиболее изу-, .

Методы кластерного анализа можно разделить на две группы:

1. (

).

1.1. Иерархические агломеративные методы (Agglomerative Nesting, AGNES). Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер. Минусом данного алгоритма является однофакторность процесса объединения кластеров с невозможностью учета группы схожих харак-.

1.2. Иерархические дивизимные (делимые) методы (Divisive ANAlysis, DIANA). Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Недостатком иерархических алгоритмов является однофакторность процесса объединения кластеров с значительной сложностью учета группы схожих характе-,

.

2. ( -

до тех пор, пока не будет выполнено правило остановки) [5].

2.1. Алгоритм k-средних. Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (дая всех переменных) максимально возможно отличаются друг от друга. Основными недостатками его являются возможное искажение среднего за счет выбросов и неэффективность работы при больших объемах данных. Несмотря на

, , -тод кластеризации количественный данных [3].

2.2. Алгоритм PAM (Partitioning Around Medoids). PAM является модификацией алгоритма k-средних, алгоритмом k-медианы (k-medoids). Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов, эффективен для небольших .

По итогам рассмотрения методов четкой кластеризации можно отметить:

1. .

2. , , продуктивно распределить элементы, находящиеся на границах кластеров.

3. , -

щихся фиксированной величиной [2].

, , работы с большим объемом данных качественного и количественного типа с использованием нечеткости и без предварительного задания кластеров. Наиболее подходящим при заданных условиях является модифицированный метод горной кластеризации. Метод предложен Р. Ягером и Д. Филевым в 1993 г. Кластеризация по горному методу не является нечеткой, однако ее часто используют при синтезе нечетких правил из данных. На первом шаге горной кластеризации определяют

, . точки рассчитывается значение потенциала, показывающего возможность формирования кластера в ее окрестности. Чем плотнее расположены объекты в окрестности потенциального центра кластера, тем выше значение его потенциала. После этого итерационно выбираются центры кластеров среди точек с максимальными потенциалами [5].

На первом шаге необходимо сформировать потенциальные центры кластеров. Для алгоритма горной кластеризации число потенциальных центров кластеров (Q) должно быть конечным. Ими могут быть объекты кластеризации (строчки

X), Q=M. Второй способ выбора потенциальных центров кла-

стеров состоит в дискретизации пространства входных признаков. Для этого диапазоны изменения входных признаков разбивают на несколько интервалов. Проводя через точки разбиения прямые, параллельные координатным осям, получаем "решеточный" гиперкуб. Узлы этой решетки и будут соответствовать центрам потенциальных кластеров. Обозначим через qr - количество значений, которые могут принимать центры кластеров по r-й координате (г = 1,n). Тогда количество возможных кластеров будет равно Q = ^ tr .

r =1,n

На втором шаге алгоритма рассчитывается потенциал центров кластеров по m ^ i

следующей формуле: P(Zh )= ^ exp( -а ■ D(Zh,Xk )), h =

k= 1

где Zh =(z1,h,z2,h>...> zn,h ) - потенциальный центр h-го кластера;

a - положительная константа;

D(Zh,Xk ) - расстояние между потенциальным центром кластера (Zh ) и объектом кластеризации (Xk ). В евклидовом пространстве это расстояние рассчитывается по формуле D(Zh,Xk ) = Vl|Zh - XklI2.

В случае, когда объекты кластеризации заданы двумя признаками (n=2), графическое изображение распределения потенциала будет представлять собой поверхность, напоминающую горный рельеф. Отсюда и название - горный метод [1].

На третьем шаге алгоритма в качестве центров кластеров выбирают координаты "горных" вершин [5]. Для этого центром первого кластера назначают точку с

.

достаточно высокими пиками. Поэтому назначение центром следующего кластера точки с максимальным потенциалом среди оставшихся вершин привело бы к выделению большого числа близко расположенных центров кластеров. Чтобы выбрать следующий центр кластера, необходимо вначале исключить влияние только что найденного кластера. Для этого значения потенциала для оставшихся возможных центров кластеров пересчитываются следующим образом: от текущих значений потенциала вычитают вклад центра только что найденного кластера (поэтому кластеризацию по этому методу иногда называют субтрактивной) [4]. Перерасчет потенциала происходит по формуле

P2(Zh)= Pj(Zh) - P^ ) ■ exp(-fh D(Zh,V1)),

где P[(.) - потенциал на 1-й итерации, P2C) - потенциал на 2-й итерации, V -центр первого найденного кластера:

V = max(P1(Z1 ),PX(Z2 ),...,P!(Zq ));

Z1,Z2,...,ZQ Q

p - положительная константа.

Центр второго кластера определяется по максимальному значению обнов:

V2 = arg max(P1(Z1 ),PX(Z 2 ),...,Px(Zq)) .

Z1,Z2,...,ZQ Q

Затем снова пересчитывается значение потенциалов:

P3 (Zh )=P2 (Zh) - P2 (V2 ) ■ exp( -p ■ D(Zh,V2 )).

Итерационная процедура пересчета потенциалов и выделения центров кластеров продолжается до тех пор, пока максимальное значение потенциала превышает некоторый порог.

На основе проведенного анализа можно сказать, что на сегодняшний день различные алгоритмы кластеризации в зависимости от типа исходных данных и точности распределения нашли широкое распространение. Наиболее перспективными являются нечеткие алгоритмы, так как они обрабатывают значительные объемы данных и позволяют распределить элементы, находящиеся на границе кластеров. В основном все рассмотренные методы оперируют с количественными данными, что позволяет расширить их алгоритмы также для смешанных и качествен. -, -.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Babuska R. Fuzzy Modeling for Control.-Boston: Kluwer Academic Publishers, 1998.

2. Gustafson D.E., Kessel W. C. Fuzzy Clustering with a Fuzzy Covariance Matrix. San-Diego, USA, 1979. - P. 761-766.

3. Xei X.L., Beni G.A. Validity Measure for Fuzzy Clustering // IEEE Transaction on Pattern Analysis and Machine Intelligent. - 1991. - 3 (8). - P. 841-846.

4. Yager R., Filev D. Essentials of Fuzzy Modeling and Control. USA: John Wiley & Sons, 1984. - P. 387.

5. . . Data Mining. - .: - ;

БИНОМ. Лаборатория знаний, 2006.

Статью рекомендовал к опубликованию д.т.н., профессор В.П. Карелин. Егоров Александр Вадимович

Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: egor@tsure.ru.

347928, г. Таганрог, пер. Некрасовский, 44.

Тел.: 88б34383б52.

; . . .; .

Куприянова Наталия Игоревна E-mail: ultra-n@list.ru.

Кафедра прикладной информатики; аспирант.

Yegorov Alexander Vadimovich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: egor@tsure.ru.

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78б34383б52.

The Department of Applied Information Science; Cand. of Eng. Sc.; Associate Professor.

Kupriyanova Natalia Igorevna

E-mail: ultra-n@list.ru.

The Department of Applied Information Science; Postgraduate Student.

УДК 338.48

H.A. Карастелкина КОГНИТИВНЫЙ ПОДХОД К ПОСТРОЕНИЮ

-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Уровень развития туризма на современном этапе требует применения новых современных технологий изучения и развития туристской сферы. Наиболее действенным инструментом, который может позволить системно изучить туристскую отрасль, является . , -стский кластер позволяет повысить эффективность результатов туристской деятель, -темы может принести эффективную отдачу от вложенных усилий.

Когнитивный подход; рекреационная система; кластер.

N.A. Karastelkina

COGNITIVE APPROACH TO CONSTRUCTION OF TURIST-RECREATIONAL CLUSTER IN REGION

At the present stage the level of development of tourism demands application of new modern technologies of studying and development of tourist sphere. The most effective tool which can presumes to study tourist branch as a system is a cognitive approach. Reduction of tourist sphere to such system as tourist cluster allows to raise efficiency of results of tourist activity because of the competent organization of accurately structured components of system can bring effective return from the enclosed efforts.

The cognitive approach; recreational system; cluster.

i Надоели баннеры? Вы всегда можете отключить рекламу.