Научная статья на тему 'Использование в системах мониторинга робастных алгоритмов кластеризации'

Использование в системах мониторинга робастных алгоритмов кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
127
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД КЛАСТЕРИЗАЦИИ НЕЧЕТКИХ С-СРЕДНИХ / НЕЧЕТКО-ВЕРОЯТНОСТНОЕ РАЗДЕЛЕНИЕ / СФЕРИЧЕСКАЯ ФОРМА КЛАСТЕРА / РОБАСТНЫЕ ПРОЦЕДУРЫ КЛАСТЕРИЗАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вишняков Александр Сергеевич, Макаров Анатолий Евгеньевич, Уткин Александр Владимирович, Зажогин Станислав Дмитриевич, Бобров Андрей Владимирович

Рассмотрены методы построения эффективных алгоритмов кластеризации набора данных в системах мониторинга. С целью создания кластеров с точными границами в условиях наличия выбросов был проведен анализ алгоритмов кластеризации нечетко вероятностного разделения методом нечетких c-средних. Указаны ключевые особенности современного подхода, в рамках которого алгоритмы нечетко-вероятностное разделения набора данных специализируются на обнаружении кластеров имеющих сферическую форму. Показаны преимущества применения нечетко-вероятностного разделения по сравнению с другими моделями кластеризации по методу нечетких c-средних, в том числе, что касается уменьшения требований к вычислительной мощности, необходимой для обработки данных алгоритмов за счет уменьшения количества параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишняков Александр Сергеевич, Макаров Анатолий Евгеньевич, Уткин Александр Владимирович, Зажогин Станислав Дмитриевич, Бобров Андрей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование в системах мониторинга робастных алгоритмов кластеризации»

ИСПОЛЬЗОВАНИЕ В СИСТЕМАХ МОНИТОРИНГА РОБАСТНЫХ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ Вишняков А.С.1, Макаров А.Е.2, Уткин А.В.3, Зажогин С.Д.4,

Бобров А.В.5

1Вишняков Александр Сергеевич - ведущий инженер, системный интегратор «Крастком»;

2Макаров Анатолий Евгеньевич - архитектор решений, Российская телекоммуникационная компания «Ростелеком», г. Москва;

3Уткин Александр Владимирович - старший инженер, Международный системный интегратор «EPAMSystems», г. Минск, Республика Беларусь;

4Зажогин Станислав Дмитриевич - старший разработчик, Международный IT интегратор «Hospitality & Retail Systems»;

5Бобров Андрей Владимирович - руководитель группы, группа технической поддержки, Компания SharxDC LLC, г. Москва

Аннотация: рассмотрены методы построения эффективных алгоритмов кластеризации набора данных в системах мониторинга. С целью создания кластеров с точными границами в условиях наличия выбросов был проведен анализ алгоритмов кластеризации нечетко вероятностного разделения методом нечетких с-средних. Указаны ключевые особенности современного подхода, в рамках которого алгоритмы нечетко-вероятностное разделения набора данных специализируются на обнаружении кластеров имеющих сферическую форму. Показаны преимущества применения нечетко-вероятностного разделения по сравнению с другими моделями кластеризации по методу нечетких с-средних, в том числе, что касается уменьшения требований к вычислительной мощности, необходимой для обработки данных алгоритмов за счет уменьшения количества параметров. Ключевые слова: метод кластеризации нечетких с-средних, нечетко-вероятностное разделение, сферическая форма кластера, робастные процедуры кластеризации.

УДК 331.225.3

Введение: Разработка надежных и точных алгоритмов кластерного анализа наборов данных имеет широкое применение в современных информационных системах, в частности в системах мониторинга облачных сервисов [1 -5]. При этом стабильность или воспроизводимость результатов разделения набора данных в условиях наличия выбросов (outlier data), которые особенно характерны при анализе системами мониторинга потенциально опасных каналов передачи данных, определяется через робастность (выбросоустойчивость) методов кластеризации. На сегодняшний день эффективным подходом автоматической кластеризации считается метод нечетких c-средних Бездека [6-7], однако из-за вероятностных ограничений он является очень чувствительным к выбросам. Поэтому дальнейшие исследования должны быть направлены на нахождение способа нивелирования вероятностных ограничений, что обуславливает актуальность исследования проведенного в рамках данной работы.

Анализ последних исследований и публикаций в данной области показал приоритет подхода, при котором используются векторы признаков и для потенциальных выбросов создается отдельный класс [8, 9]. Представленный подход получил свое развитие в работах [10-12], где были показаны варианты устойчивых к шуму алгоритмов на базе FCM. С другой стороны, в работах [13, 14] предложен алгоритм вероятностных с-средних, который подразумевает разбиение на основе статистических правил. Такой подход является эффективным решением для решения

проблемы чувствительности алгоритмов к выбросам, но при этом в результате он часто выявляет совпадающие кластеры [14]. Решение этой проблемы возможно через введение параметра силы отталкивания (repulsive force) между парами кластеров, который прямо пропорционален расстоянию между элементами кластеров [15]. Как было показано данный подход эффективно решает проблему совпадения кластеров, но малоэффективен при работе с наборами данных, для которых кластеры находятся на малом расстоянии друг от друга. Также были предложены алгоритмы нечетко-вероятностных смесей [16, 17], которые показали высокую надежность механизмов кластеризации, но при этом выдавали определенный процент ошибок при наличии экстремальных выбросов [17]. Следует также отметить, что рассмотренные алгоритмы работают с точечными центроидами, которые рассчитываются через усреднение входных данных. Однако при разработке комплексной методологии построения алгоритмов кластеризации необходимо рассмотреть варианты нестандартной формы центроидов кластеров. Так, например, для работы с линейными многообразиями предлагается использовать алгоритм адаптивных нечетких с-многообразий [18], аналогично для сферических многообразий можно применять алгоритмы нечеткой с-сферической формы (FCSS: fuzzy c-spherical shell) [19].

Целью работы, таким образом, стала разработка методологии построения робастных алгоритмов кластеризации, которые эффективно работают с точечными центроидами и центроидами нестандартной формы в условиях экстремальных выбросов.

1. Примеры построения гибридных схем кластеризации на основе метода с-средних

Базовым подходом, который используется в алгоритмах кластеризации на основе метода с-средних является разделение набора объектов {xn}, где п 6 [1; N] на С кластеров (каждый -кластер принадлежит к множеству [1, С]) в соответствии с принципом минимизации квадратичной целевой функции. В зависимости от типа разделения, который используется при формировании кластеров, можно выделить следующие три группы алгоритмов кластеризации на основе метода с-средних:

• методы четкой кластеризации с-средних (HCM: hard c-means algorithm), в рамках которой используется вероятностное четкое разделение (probabilistic crisp partition);

• методы нечеткой кластеризации с-средних (FCM: fuzzy c-means algorithm), в рамках которой используется вероятностное нечеткое разделение (probabilistic fuzzy partition);

• метод кластеризации с регуляризацией (PCM: possibilistic c-means algorithm), в рамках которой используется вероятностное нечеткое разделение с меньшим количеством ограничений, чем FCM.

Для улучшения отдельных характеристик алгоритмах кластеризации на основе метода с-средних при работе с конкретными задачами обычно используют смешанные схемы разделения. В рамках данного исследования предлагается рассмотреть следующие варианты комбинирования подходов FCM и PCM:

• метод кластеризации нечетко -регуляризационных с-средних (FPCM: fuzzy-possibilistic c-means);

• метод кластеризации регуляризационно-нечетких с-средних (PFCM: possibilistic-fuzzy c-means).

Целевая функция J для FPCM может быть определена через функцию центроида vc и функцию вероятностной нечеткой принадлежности (probabilistic fuzzy membership function) ucn:

JFP = £c=l£n=l ( (ucJn + tc,n) ' c^cJnj, т (1)

где dcn, u cn, dc n, p и q могут быть определены как

\\%п Vc\\ uCjn e [0; 1]

dc,n e [0; 1 ] . (2)

q > 1 , p > 1

Функция вероятностной нечеткой принадлежности указывает на уровень

принадлежности вектора {xn} кластеру с, где параметры р и q определяют регуляризационную и вероятностную компоненту, соответственно.

Минимизация целевой функции JFP производится через введение следующих ограничений:

£ Сс= i иС}П = 1 для Vn; (3)

l»= i t^ = 1 для Ve. (4)

Соответственно, набор функций исп, ¡сп и ус может быть определен как:

1

1lr YI

q-1

м

d2

q-1

м

для Vn и V с

dln

р-1 1

t - > d2

yN р -1 1

Л d2

для Vn и Vс

vr

у (гуч , tP Л . х \ ¿-т=1 I V e,n ' Lc,nJ Лп J

YN (и4 +tp }

для V с

(5)

Основное преимущество FPCM состоит в том, что данном методе не используются штрафные члены, что упрощает процедуру настройки ключевых параметров. Однако, в случае роста входных параметров эффективность регуляризации падает, так при N» С FPCM к FCM для любого значения регуляризационной компоненты р .

Аналогичным образом целевая функция PFCM может быть определена через компромиссные параметры (trade-off parameters) а и b.которые используются как коэффициенты регуляризационной и вероятностной компоненты, соответственно, а также штрафного коэффициента r с:

С N С N

JP f = ^^ ^^ ^ (а- и ln + b ■ tln) ■ d 2nJ с ^ (1- tc,n)P ( 6 )

c=ln=l c=1 n= 1

Минимизация целевой функции JPF производится через введение следующих ограничений:

О <иГГ! <1 для \/п и Vс

; (7)

£ С= х и с п = 1 для V п '

О <ЬГГ. <1 для Vп и Vс

с (8) О < £ С= 1*с,п<1 для V п

Соответственно уравнения, определяющие минимизацию целевой функции кластеризации и центроиды, могут быть сформулированы как:

q-1

Л

d2

q-1

'/=1

для Vn и V с

df,n

р-1

1 +

для Vn и Vс

Ъ ■ dln

vr =

rn=1(b-uln + b-tln)

для V с

(9)

с

Гибридный алгоритм PFCM можно отнести к робастным и высокоточным, но он остается достаточно чувствительным к экстремальным выбросам.

2. Кластеризация на основе нечетко-вероятностного произведения по методу с-средних

Основной проблемой вероятностных алгоритмов кластеризации на основе метода с-средних, является то, что появление выброса входного вектора {хп} приводит к высоким значениям функции принадлежности для всех кластеров множества [ 1 ,С] , что вносит погрешность в расчет центроидов. С другой стороны, для алгоритмов кластеризации с регуляризацией выбросы, напротив, приводят к минимальным значениям функции принадлежности. Обобщенная математическая модель, представленная в предыдущем разделе, позволяет вывести формулу для расчета центроида, которая может быть использована в робастном алгоритме кластеризации [20]:

Ум и4 ■ тр -г ус = ~уй--Ц—^- для V с • (1 0 )

где параметр описывает вероятностное нечеткое разделение, в то время как параметр р с „ описывает матрицу регуляризованного разделения, которая отвечает за подавление выбросов.

Таким образом, целевая функция кластеризации на основе нечетко-вероятностного произведения по методу с-средних (FPPP-FCM: fuzzy-probabilistic product partition fuzzy c-means) может быть определена следующим образом:

с N

Jfp 3 = ^ ^ (и с,п ■ (tn, с ■ die с + (1~ tn, с)Р ■ Л с) ), ( 1 1 )

С = Л 12 = 1

при этом используются ограничения приведенные в системах уравнений (7) и (8). Параметры, которые определяют алгоритм FPPP-FCM, включают в себя нечеткую

экспоненту я > 1 , вероятностную экспоненту р > 1 и набор условных штрафных коэффициентов {лс}.

Алгоритм минимизации может быть получен путем использования условий нулевого градиента с помощью функции Лагранжа:

£ = /ррз + ^ К ' ( 1 - ^ 1

(12)

где {Лп} — набор множителей Лагранжа. Пересечение функцией Лагранжа нулевого уровня, может быть определено через производной функции Лагранжа по £ с п п к нулю:

ис,п (Р ■ £1п ■ ¿с,п - Лс ■ Р(1 - £с,пУ ^ = 0.

(13)

Как можно видеть при ис п = 0 значение £с,п может быть любым. Соответственно при и с п Ф 0:

1 р-1 --1 =

й2

£с,п '

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

р-1

1 +

N

для \/п и V с .

(14)

сР Лс

Аналогично, приравнивание производной функции Лагранжа по ис п к нулю дает следующее уравнение:

Я ■ ис,п ( £с,п ■ ^с,п Лс ' ( 1 £с,п) ) ^п

Я -

р-1

Я ■ ( £Рс,п ■ <%,п -Лс'(1- £с,п) )

(15)

с

Рис. 1. Алгоритм кластеризации на основе нечетко-вероятностного произведения по методу

с-средних

Соответственно:

1-4

N

^с,п ' ^с,п Лс ' С1 £с,п)

1 ■ а1п - Па ■ (1 - £с,„)'

для Vп и V с .

(16)

И, наконец, приравнивание производной функции Лагранжа по функции центроида к нулю дает следующее уравнение:

N

. уп уч .¡.р -х ■ (хп -рс) ) = 0 - -- для Vс . (17)

п= 1

Финальный процесс дефаззификации состоит в присвоении каждого хп кластеру с с индексом ау:

В случае равных элементов множества {г]с} данное уравнение может быть существенно упрощено:

3. Формирование сферических центроидов при кластеризация на основе нечетко-вероятностного произведения по методу с-средних

При формировании сферических центроидов (сфероидов) при кластеризация на основе нечетко-вероятностного произведения по методу с-средних используется прежнее определение функции кластеризации ]РР3 с дополнительным уточнением значения сС ^к [21]:

ог = агд (тахг (и^ ■ ^ I /) ) >

(18)

шг = агд (тахг (сСг п I ) ,

(19)

где Г Е [ 1 ;С] .

С N

(20)

где в с — центр сфероида, а гс — радиус сфероида.

Рис. 2. Алгоритм формирования сфероидов при кластеризации на основе нечетко-вероятностного произведения по методу c-средних

На рис. 2 показан алгоритм формирования сфероидов при кластеризации на основе нечетко вероятностного произведения по методу с-средних. Для получения алгоритма минимизации целевой функции в данном случае также могут быть использованы уравнения для нулевого градиента множителя Лагранжа. Таким образом, для описания сфероидов применяется математический аппарат, описывающий кластеризацию, приведенный в формулах (13) и (16) с уточнением значения сСп ,, с.

Однако для оптимизации алгоритма поиска сфероидов необходимо оптимизировать и определение сСПсс через функцию сфероида % с:

dnг

гт \хп] Fnl7

' Li J' Li J

Kc =

fс "I" 2x£ ■ -2вс Oj ' 0r —

[íf 4c + (4-Xfc)

(21)

Приравнивание производной функции Лагранжа по функции сфероида к нулю дает следующее уравнение:

2 ZП=1 <п ■ t$n ■ ( ■ Т ■ Ъ + (xl ■ хп) ■ ["»]) = 0. (22)

Что позволяет определить функцию сфероида % с:

fc = -

_m=l ^п.с п.с

YN и4 ■tp

t-m=1 "п.с ''п.с

(хп ■ Хп) ' [ ^ j

Н ■ ГгГ

(23)

Факт наличия выбросов при этом отслеживается через соотнесение исп и Ьсп1 коэффициентом:

и

I

ч+р

<к,

(24)

где к выбирается арбитрарно.

Таким образом, разработанная комплексная методология дает эффективный инструментарий для построения робастных алгоритмов кластеризации, которые работают как с точечными центроидами, так и с центроидами нестандартной формы (в том числе в условиях экстремальных выбросов).

Выводы

В результате проведенного анализа были предложены гибридные алгоритмы кластеризации на основе нечетко вероятностного произведения по методу с-средних в частности:

1. алгоритм кластеризации на основе нечетко вероятностного произведения по методу с-средних;

2. алгоритм формирования сфероидов при кластеризации на основе нечетко вероятностного произведения по методу с-средних.

Предложенная методология включает в себя математический аппарат для построения высокоточных, робастных алгоритмов кластеризации наборов данных, которые могут быть использованы при мониторинге информационных систем.

Список литературы

1. Lee S., Kim J. & Jeong Y., 2017. Various Validity Indices for Fuzzy K-means Clustering. Korean Management Review, 46(4), 1201-1226.

2. Chen S., 2017. An improved fuzzy decision analysis framework with fuzzy Mahalanobis distances for individual investment effect appraisal. Management Decision, 55 (5), 935-956.

3. Lewis R.H., Paläncz B. & Awange J., 2015. Application of Dixon resultant to maximization of the likelihood function of Gaussian mixture distribution. ACM Communications in Computer Algebra, 49(2), 57-57.

4. Kumar P. & Chaturvedi A., 2016. Probabilistic query generation and fuzzy c-means clustering for energy-efficient operation in wireless sensor networks. International Journal of Communication Systems. 29 (8), 1439-1450.

5. Raveendran R. & Huang B., 2016. Mixture Probabilistic PCA for Process Monitoring -Collapsed Variational Bayesian Approach. IFAC-PapersOnLine, 49 (7). 1032-1037.

6. Hathaway R.J., Overstreet D.D., Murphy T.E. & Bezdek J.C., 2001. Relational data clustering with incomplete data. Applications and Science of Computational Intelligence IV.

7. Hathaway R., Huband J. & Bezdek J. (n.d.). Kernelized Non-Euclidean Relational Fuzzy c-Means Algorithm. The 14th IEEE International Conference on Fuzzy Systems, 2005. FUZZ 05.

8. Dave R.N. Characterization and detection of noise in clustering. Patt. Recogn. Lett. 12, 657-664 (1991).

9. Klawonn F., 2004. Noise Clustering with a Fixed Fraction of Noise. Applications and Science in Soft Computing. 133-138.

10.MenardM., Damko C., Loonis P. The fuzzyc+2 means: solving the ambiguity rejection in clustering. Patt. Recogn. 33, 1219-1237, 2000.

11.Xu H. & Yue X., 2009. An Adaptive Fuzzy Switching Filter for Images Corrupted by Impulse Noise, 2009. Sixth International Conference on Fuzzy Systems and Knowledge Discovery.

12. Alanzado A. C., Miyamoto S. Fuzzyc-means clustering in the presence of noise cluster for time series analysis. Proc. Modeling Decisions in Artificial Intelligence (MDAI), Lect. Notes Comp. Sci. 3558, 156-163 (2005)

13. Nasraoui O. & Krishnapuram R. (n.d.). A novel approach to unsupervised robust clustering using genetic niching. Ninth IEEE International Conference on Fuzzy Systems. FUZZ- IEEE 2000 (Cat. No.00CH37063).

14. Hamasuna Y., Endo Y. & Miyamoto S., 2009. On tolerant fuzzy c-means clustering and tolerant possibilistic clustering. Soft Computing, 14 (5), 487-494.

15. Timm H., Borgelt C., Döring C., Kruse R. An extension to possibilistic fuzzy cluster analysis. Fuzzy Sets and Systems 147, 3-16, 2004.

16. Pal N.R., Pal K., Keller J.M., Bezdek J.C. A possibilistic fuzzy c-means clustering algorithm. IEEE Trans. Fuzzy Syst. 13, 517-530, 2005.

17. Szilägyi L. Fuzzy-Possibilistic Product Partition: a novel robust approach to c-means clustering. Proc. Modeling Decisions in Artificial Intelligence (MDAI), Lect. Notes Comp. Sci. 6820, 150-161, 2011.

18. Suhaili S.M., Jambli M.N. & Huspi S.H., 2011. Evaluation of FCV and FCM clustering algorithms in cluster-based compound selection, 2011. 7th International Conference on Information Technology in Asia.

19. Wang T. & Shen Q., 2002. Fuzzy C spherical shells cluster algorithm and an application to blood cell image. Second International Conference on Image and Graphics.

20. Szilagyi L., Szilägyi S.M., Benyo B., Benyo Z. Intensity inhomogeneity compensation and segmentation of MR brain images using hybridc-means clustering models. Biomed. Sign. Proc. Contr. 6, 3-12. 2011.

21. Szilägyi L. Robust spherical shell clustering using fuzzy-possibilistic product partition. Int. J. Intell. Syst. 28, 524-539, 2013.

i Надоели баннеры? Вы всегда можете отключить рекламу.