Научная статья на тему 'КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ'

КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
577
101
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / КЛАСТЕРЫ / ИЕРАРХИЧЕСКИЕ МЕТОДЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Клименко А.В., Слащев И.С.

В данной статье проанализированы основные аспекты кластерного анализа больших объемов данных при помощи различных методов, их сравнения и выделения наиболее эффективного

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Клименко А.В., Слащев И.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ»

УДК 004.4

Клименко А.В.

студент бакалавриата кафедры «Информационные технологии» Донской государственный технический университет (Россия)

Слащев И.С.

студент магистратуры кафедры «Автоматизация производственных процессов» Донской государственный технический университет (Россия)

КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ

Аннотация: в данной статье проанализированы основные аспекты кластерного анализа больших объемов данных при помощи различных методов, их сравнения и выделения наиболее эффективного.

Ключевые слова: кластерный анализ, кластеры, иерархические методы

В последнее время, производя анализ и прогнозирование социально-экономических явлений, специалисты сталкиваются с многомерностью их описания. Это свойство данных проявляется при сегментировании рынка, прогнозировании конъюнктуры рынка различных товаров, при выстраивании типология стран по довольно большому числу критериев или при детальном изучении экономической депрессии.

Говоря о кластерном анализе, принято определять его как один из методов многомерной статистики, который отражает черты многомерности процедуры классификации каких-либо объектов. Кластерный анализ используется для разбиения множества исследуемых объектов на группы, которые безукоризненно характеризуются определенной совокупностью признаков. Выделив такие компактные, удаленные друг от друга группы объектов или совокупность области их скопления, происходит разбиение объектов на однородные кластеры.

Такой анализ непосредственно связан со статистическими исследованиями социально-экономических процессов, которые в свою очередь определяют ход изучения массовых явлений. Кластерный анализ отличается от многих других математико-статистических способов разбиения. Он не накладывает ограничения на изучаемые объекты, а позволяется рассматривать большое количество исходных данных различного природного происхождения. Например, данный метод широко используется при прогнозировании конъюнктуры рынка, где традиционные экономические подходы являются неэффективными из-за разнообразных показателей прогнозирования.

Немаловажную роль кластерный анализ играет при исследовании временных рядов, которые характеризуют экономическое развитие в целом. При этом выделяются периоды, когда значения показателей достаточно близки друг к другу или определяются группы показателей со схожей динамикой во времени.

Недостатком кластерного анализа является то, что состав и количество кластеров определенно зависит от выбранного критерия разбиения. Когда происходит сведение исходного массива данных к более компактному виду, то возникают некие искажения данных, происходит потеря индивидуальных черт отдельных объектов из-за замены их характеристик на обобщенные значения параметров кластера.

Кластеры обладают следующими свойствами:

1) плотность распределения наблюдений внутри кластера. Оно позволяет определить «наполнённость» кластера. Одним из удачных показателей плотности и компактности многомерных наблюдений является дисперсия расстояния от центра кластера до отдельных точек. Чем меньше дисперсия расстояния, тем больше плотность кластера и его расстояние наблюдения становится ближе к центру самого кластера.

2) размер кластера, где «радиус» является основным показателем этого размера. Если кластер обладает шарообразной формой или является гиперсферой в многомерном пространстве, то это говорит о полном отражении фактического размера кластера.

3) локальность или отделимость кластеров, характеризующая степень перекрытия и взаимной удаленности кластеров друг от друга в многомерном пространстве, то есть здесь целесообразно объединять наиболее близкие кластеры друг к другу или их перекрывающие части.

Рассматривая методы кластерного анализа, можно заметить, что особо распространенными являются иерархические методы, сущность которых заключается в последовательном объединении наиболее близких объектов в один кластер. Объединения могут быть обособлены геометрически и представлены в виде дендограммы, где на вертикальной оси отмечается расстояние, объединяющая объекты. Приостановление процесса объединения происходит, когда объединяются кластеры, находящиеся друг от друга на довольно большом расстоянии.

Иерархические методы кластерного анализа имеют различия и в алгоритмах классификации. Более известными и распространенными методами являются: метод одиночной связи, метод полных связей, метод средних связей и метод Уорда.

Метод одиночной связи заключается в том, что объект присоединяется к существующему кластеру при условии наличия того же уровня сходства хотя бы одного из элементов кластера.

Метод полных связей обусловлен тем, что присоединение объекта к кластеру возможно в том случае, когда между кандидатом на включение и каким-либо элементов кластера имеет сходство не меньше некоторого порога.

В методе средних связей имеются несколько связующих элементов между методами одиночной и полной связей. Эти элементы характеризуются вычислением среднего значения сходства кандидата на включение со всеми объектами существующего кластера. Если же найденное среднее значение сходства достигает некоторого порога, то соответственно происходит соединение объектов кластера и кандидата на включение в кластер.

Метод Уорда считается одним из более эффективных методов, который способен произвести оптимизацию минимальной дисперсии внутри кластерных расстояний. Каждый кластер состоит из одного объекта, из-за чего собственно кластерная дисперсия расстояний равна нулю. Объединение объектов происходит при наличии минимальной приращаемости дисперсии, вследствие чего метод Уорда имеет тенденцию к порождению гиперсферических кластеров.

Проведем сравнительный анализ иерархических методов кластерного анализа (таблица 1). Из представленных данных можно сделать вывод, что кластерный анализ

действительно является мощным средством разведочного анализа данных и статистических исследований в любой предметной области.

Таблица 1. Характеристики иерархической класте

Свойства Одиночная связь Полная связь Средняя связь Связь Уорда

Входные данные Число кластеров Число кластеров Число кластеров Число кластеров, расстояния для усечения иерархии

Расстояние между двумя элементами Минимальное Максимальное Среднее Высчитывается методом дисперсионного анализа

зизации

Произведем статистику по эффективности использования методов кластеризации (рисунок 1).

Статистика по эффективности использования 12%

15%

Одиночная связь Средняя связь Связь Уорда Полная связь

Рис 1. Статистический показатель эффективности использования методов кластеризации

Исходя из сравнений методов кластерного анализа, особо эффективным выражен метод Связи Уорда, который упрощает работу с информацией, сегментацией изображений и визуализацией данных. Метод Уорда предоставляет высокую эффективность и точность, не смотря на сложность данных.

Таким образом, в настоящее время кластерный анализ является наиболее эффективным инструментом обработки информации больших объемов данных, а так же немаловажно, что в кластерном анализе необходимо применять несколько алгоритмов

для его реализации и делать выводы на основании общей оценки результатов работы алгоритмов для получения точных результатов.

Список литературы:

1. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. М.: Высшая школа, 2004.

2. Дуброва Т.А. Статистические методы прогнозирования. Москва. 2003. С. 178184.

3. Чубукова И.А. Интеллектуальный анализ данных (data mining). Лекция 13, 2006.

4. Электронный учебник по статистике. Москва, StatSoft. 2012.

i Надоели баннеры? Вы всегда можете отключить рекламу.