Научная статья на тему 'ИСПОЛЬЗОВАНИЕ МЕТОДА ВИЗУАЛЬНОЙ ОЦЕНКИ КЛАСТЕРНОЙ ТЕНДЕНЦИИ ДАННЫХ'

ИСПОЛЬЗОВАНИЕ МЕТОДА ВИЗУАЛЬНОЙ ОЦЕНКИ КЛАСТЕРНОЙ ТЕНДЕНЦИИ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
8
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластеризация / кластерная тенденция / VAT / clustering / cluster tendency / VAT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — К.С. Соколова, И.С. Масич

Рассматривается применение метода визуальной оценки тенденции к кластеризации (VAT) для отображения информации о внутренней структуре набора данных до начала процесса кластеризации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — К.С. Соколова, И.С. Масич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING THE METHOD OF VISUAL ASSESSMENT OF CLUSTER TENDENCY

In this article, we review the application of the visual assessment of clustering tendency (VAT) method to display information about the internal structure of a data set before the start of the clustering process.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ МЕТОДА ВИЗУАЛЬНОЙ ОЦЕНКИ КЛАСТЕРНОЙ ТЕНДЕНЦИИ ДАННЫХ»

УДК 519.6

ИСПОЛЬЗОВАНИЕ МЕТОДА ВИЗУАЛЬНОЙ ОЦЕНКИ КЛАСТЕРНОЙ

ТЕНДЕНЦИИ ДАННЫХ

К. С. Соколова Научный руководитель - И. С. Масич

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: kristall.98@mail.ru

Рассматривается применение метода визуальной оценки тенденции к кластеризации (VAT) для отображения информации о внутренней структуре набора данных до начала процесса кластеризации.

Ключевые слова: кластеризация, кластерная тенденция, VAT.

USING THE METHOD OF VISUAL ASSESSMENT OF CLUSTER TENDENCY

K. S. Sokolova Scientific supervisor - I. S. Masich

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation

Е-mail: kristall.98@mail.ru

In this article, we review the application of the visual assessment of clustering tendency (VAT) method to display information about the internal structure of a data set before the start of the clustering process.

Keywords: clustering, cluster tendency, VAT.

В современном мире активно используется анализ больших объемов информации и данных, который способствует прогнозировать тенденции, искать решения и снижать риски в деятельности организаций.

Одним из интеллектуальных методов анализа данных является кластеризация, задача которой состоит в разбиении выборки данных на группы схожих объектов путем оценки структуры по выбранным характеристикам для дальнейшей обработки и принятия решений [1]. В сфере производства, в том числе комплектующих в ракетно-космической отрасли, кластерный анализ способен выявить основные виды и причины возникновения брака в выпускаемой продукции.

Для разделения набора данных на кластеры похожих объектов используются различные алгоритмы кластеризации, однако перед их применением к набору данных возникает вопрос: содержит ли набор данных какие-либо присущие кластеры и, если ответ положителен, то сколько таковых кластеров? В связи с этим, оценка тенденции данных к кластеризации является важной задачей предварительной кластеризации.

Одним из инструментов оценки кластерной тенденции является алгоритм визуальной оценки тенденции (VAT) [2]. Данный алгоритм отображает изображение переупорядоченных и масштабированных данных о различиях, которое можно использовать для визуальной оценки кластерной структуры (включая потенциальное количество кластеров) в данных [3].

Секция «Математические методы моделирования, управления и анализа данных»

Алгоритм работает путем вычисления матрицы различий между объектами в наборе данных, используя евклидову меру расстояния. Затем матрица различий переупорядочивается на основе нахождения минимального остовного дерева наблюдений (модифицированный алгоритм Прима) так, чтобы похожие объекты были близко друг к другу. Попарное расстояние между этими наблюдениями отображается в виде пикселя изображения VAT на переупорядоченном изображении различия или тепловой карте кластера. Каждый пиксель изображения VAT в градациях серого отображает масштабированное значение различия между двумя объектами. Высокое различие отображают белые пиксели, а низкое различие - чёрные. Подобие каждого объекта к самому себе приводит к нулевым (черным) диагональным элементам в изображении. Темный блок по диагонали тепловой карты — это подматрица «одинаково малых» значений несходства, поэтому темные блоки по диагонали изображения потенциально представляют разные кластеры объектов, которые относительно похожи друг на друга [3].

Алгоритм улучшенной визуальной оценки кластерной тенденции (iVAT) отличен от метода VAT тем, что в нём используется мера расстояния между объектами на основе пути. Тепловые карты, полученные в результате работы данного алгоритма, показывают более чёткие результаты, показывая кластерную тенденцию для сложных случаев, когда VAT этого сделать не может [4].

На рисунке 1 показаны результаты применения алгоритмов VAT и iVAT для набора данных диагностического контроля микросхем.

I! -10 < ^ -2 ( г 1 6 S » н к м •

РС1

а) Ь) С)

Рис. 1. (а) диаграмма рассеяния выборки на главных компонентах; (b) тепловая карта алгоритма VAT;

(с) тепловая карта алгоритма iVAT

Тепловые карты алгоритмов VAT и iVAT показывают три затемненных блока по диагонали, соответствующие трём кластерам в наборе данных, при этом данные блоки на изображении iVAT четче, чем на изображении VAT. Так, качество переупорядоченных изображений различий VAT значительно ухудшается из-за наличия шума (особенно точек, образующих «мост» между кластерами).

Существуют и другие модификации алгоритма визуальной оценки кластерной тенденции (ConiVAT, LS-VAT и др.) со своими особенностями, работу которых можно сравнить с рассмотренными выше алгоритмами в дальнейшем исследовании.

Таким образом, алгоритмы VAT, iVAT являются методами визуального извлечения некоторой информации о структуре кластера из входного пространства перед применением любого алгоритма кластеризации. Они переставляют объекты таким образом, чтобы подчеркнуть возможную структуру кластера. При этом роль визуализации в получении

знаний о структуре данных имеет решающее значение, так как она выявляет тенденции, закономерности и взаимосвязи, которые нелегко различить в числовых данных или традиционных формах представления.

Библиографические ссылки

1. Xu D., Tian Y. A Comprehensive Survey of Clustering Algorithms // Annals of Data Science. Vol. 2. 2015. P. 165-193.

2. Bezdek J. C., Hathaway R. VAT: A tool for visual assessment of (cluster) tendency // Proceedings of the International Joint Conference on Neural Networks. №3. 2002. P. 2225 - 2230.

3. Komarasamy G., Wahi A. Finding the number of clusters using visual validation VAT algorithm // International Journal of Engineering and Technology. №5. 2013. P. 3951-3957.

4. Havens T. C., Bezdek J. C. An Efficient Formulation of the Improved Visual Assessment of Cluster Tendency (iVAT) Algorithm // IEEE Transactions on Knowledge and Data Engineering. Vol. 24. №5. 2012. P. 813-822.

© Соколова К. С., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.