Научная статья на тему 'Построение распределения по нечетким кластерам в случае квазиустойчивой кластерной структуры множества объектов'

Построение распределения по нечетким кластерам в случае квазиустойчивой кластерной структуры множества объектов Текст научной статьи по специальности «Математика»

CC BY
72
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
динамические признаки / интервально-значное нечеткое множество / возможностная кластеризация / распределение по нечетким кластерам / типичная точка

Аннотация научной статьи по математике, автор научной работы — Д. А. Вятченин, А. В. Доморацкий

Предложен метод кластеризации объектов с варьирующимися в интервале значениями признаков в случаях устойчивой или квазиустойчивой кластерной структуры множества объектов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONSTRUCTING OF ALLOTMENT AMONG FUZZY CLUSTERS IN CASE OF QUASI-ROBUST CLUSTER STRUCTURE OF SET OF OBJECTS

A method of clustering of objects for varying in an interval attributes values in cases of the robust or quasi-robust cluster structure of the set of objects is proposed

Текст научной работы на тему «Построение распределения по нечетким кластерам в случае квазиустойчивой кластерной структуры множества объектов»

Доклады БГУИР

2010 № 1 (47)

УДК 510.22+519.237.8

ПОСТРОЕНИЕ РАСПРЕДЕЛЕНИЯ ПО НЕЧЕТКИМ КЛАСТЕРАМ В СЛУЧАЕ КВАЗИУСТОЙЧИВОЙ КЛАСТЕРНОЙ СТРУКТУРЫ МНОЖЕСТВА ОБЪЕКТОВ

ДА. ВЯТЧЕНИН, А.В. ДОМОРАЦКИЙ

Объединенный институт проблем информатики НАН Беларуси Сурганова 6, 220012, Минск, Беларусь

НИРУП "Геоинформационные системы" НАН Беларуси Сурганова 6, 220012, Минск, Беларусь

Поступила в редакцию 19 октября 2009

Предложен метод кластеризации объектов с варьирующимися в интервале значениями признаков в случаях устойчивой или квазиустойчивой кластерной структуры множества объектов.

Ключевые слова: динамические признаки, интервально-значное нечеткое множество, воз-можностная кластеризация, распределение по нечетким кластерам, типичная точка.

Введение

При решении задач автоматической классификации динамических объектов, т.е. объектов, признаки которых могут изменять свои значения с течением времени или при наличии внешних воздействий [1], традиционно используются различные подходы, основанные на методах нечеткой и возможиостиой кластеризации [2], в которых результатом классификации является не только отнесение г -го объекта исследуемой совокупности X — {л^,..., хп } к / -му

классу А1, 1 = 1,...,с, но и указание функции принадлежности е[0,1], 1 = 1,...,с, i = \,...,п с которой объект х,. е! V/ = 1,...,п , принадлежит тому или иному нечеткому кластеру А1,1 = 1,..., с.

В задачах динамической кластеризации признаки х'1, =\,...,т1 объектов xi ё J могут принимать значения в непрерывном интервале безотносительно к моменту измерения соответствующей характеристики объекта, так что каждый признак х1, tl=\,...,ml, для объекта х{, i = \,...,n представляет собой интервал значений [.б'""",]. Кластерная структура исследуемой совокупности, состоящей из подобных объектов, также является динамической, и зависит от значений признаков в момент классификации. На содержательном уровне задача построения устойчивой кластерной структуры в [1] формулируется следующим образом: найти

такое априори неизвестное число с областей признакового пространства 5?™, в которых отображаются кластеры, при различных значениях принимаемых объектами исследуемой совокупности X признаков xtl, tl=\,...,ml, варьирующихся в интервале [i?lmin, i?lm" ]. В свою очередь, перед решением указанной задачи сначала необходимо установить тип динамических изменений кластерной структуры, для чего в [1] определены понятия устойчивой, квазиустойчивой и неустойчивой кластерной структуры. Если при изменении в соответствующем интервале

[i?lmin, i?lm" ] значений признаков х'1, tl=\,...,mx объектов хгеХ исследуемой совокупности

число с кластеров {Л1,...,Ас} не изменяется, и не изменяются координаты их прототипов {т1,...,тс}, то структура, образуемая кластерами {А\...,А°}, называется устойчивой; если с изменением значений признаков объектов число с кластеров {Л1,...,Л} не изменяется, но изменяются координаты их прототипов {т1,...,тс}, то соответствующая кластерная структура именуется квазиустойчивой, а если при изменении значений признаков наблюдаемых объектов хг е 1 изменяется число с кластеров, то кластерная структура является неустойчивой. В [1] представлен метод определения типа кластерной структуры совокупности объектов с варьирующимися в интервале значениями признаков, в основе которого лежит Б-АРС-ТС-алгоритм [3] построения распределения объектов по априори неизвестному числу нечетких а -кластеров.

В случае, когда кластерная структура, образуемая объектами исследуемой совокупности, является неустойчивой, ей соответствуют такие типы динамических изменений, как образование новых кластеров, слияние кластеров, их расщепление и элиминация, а в случае квазиустойчивости кластерной структуры число кластеров не изменяется, однако имеет место дрейф прототипов кластеров, и, как продемонстрировано в [1], изменяются типичные точки кластеров. В отличие от ситуации неустойчивой кластерной структуры, где ее изменения носят скачкообразный характер, в ситуации квазиустойчивой кластерной структуры изменения носят непрерывный, и, как следствие, латентный характер. Указанное обстоятельство позволяет выделить задачу построения распределения объектов по классам в случае квазиустойчивости кластерной структуры в качестве первоочередной.

В настоящем исследовании изложен метод построения распределения объектов, описываемых динамическими признаками, по нечетким а-кластерам в случае, когда кластерная структура является устойчивой или квазиустойчивой. Основой предлагаемого метода является представление объектов исследуемой совокупности как интервально-значных нечетких множеств с последующим построением матрицы нечеткой толерантности на соответствующем универсуме, и обработкой полученных таким образом данных с помощью D-AFC(c)-алгоритма возможностной кластеризации [3].

Метод предварительной обработки интервально-значных данных

Эвристический метод возможностной кластеризации, предложенный в [4], основные понятия которого рассмотрены также в [1], заключается в построении так называемого распределения IV(X) по априори задаваемому числу с нечетких кластеров. Базовая версия кластер-процедуры, получившая в специальной литературе обозначение О - А Р С (с) -ал го р ит ма. требует, чтобы исходные данные об исследуемой совокупности объектов X = {л-1,...,л-и} были представлены в виде матрицы Тпхп = [ц7 (х , х,)] нечеткого отношения толерантности, то есть нечеткого отношения, удовлетворяющего свойствам симметричности и рефлексивности, определенного на соответствующем универсуме. Иными словами, матрица Тпхп = [ц7 (.г, х,)] представляет собой матрицу попарной близости объектов, соответствующие элементы которой принимают значения в интервале [0,1]. В случае, когда кластерная структура исследуемой совокупности, признаки объектов которой принимают значения в интервале, является устойчивой или квазиустойчивой, число классов с в искомом распределении IV(X) может быть установлено с помощью предложенного в [1] метода. Задача, таким образом, заключается в построении на множестве X = {х1,...,хп} динамических объектов нечеткого отношения толерантности Т

для последующей обработки полученной матрицы D-AFC(c)-алгоритмом с числом классов с, установленным на этапе анализа устойчивости кластерной структуры [1]. С этой целью представляется целесообразным прибегнуть к аппарату так называемых интервально-значных нечетких множеств [5].

Если X — некоторый универсум, то нечеткое множество А определенное на X , чьи значения функции принадлежности представляют собой фиксированные интервалы из отрезка

[0,1], так что функция принадлежности А, задается отображением \jla : X —» 2'"'1 , то А именуется нечетким множеством с функцией принадлежности, принимающей значения в интервале, и для обозначения нечетких множеств подобного типа в зарубежной литературе используется термин interval-valued fuzzy sets [5]. Определенное на универсуме X нечеткое множество А с функцией принадлежности, принимающей значения в интервале, задается двумя функциями принадлежности: ц (хг), определяющей нижнее значение интервала значений принадлежности хг g X , и Д, (хг), задающей верхнее значение, так что О < ц (хг) < \iA (х!.) < 1, и интер-

вально-значное нечеткое множество А определяется как

А = {х!., цА (хг) = (хг), \iA (хг)] I хг е X, (хг), \iA (хг) е [0,1]} . Очевидно, что каждое обычное

нечеткое множество А может быть представлено в виде интервально-значного нечеткого множества с совпадающими для каждого элемента xi е X нижним и верхним значениями интервала значений принадлежности, т.е. ц ( (хг) = р. , (хг) Yx( е X .

Обозначая объекты исследуемой совокупности символами хг, i = 1,.. ,,п, а признаки — соответственно, символами х1, ^ = 1.....И7,. матрица "объект-признак" Xпхщ = [х'11Ш1 (ilmx)]5 Где i,'1"""''' m"x' = """ , х'1 m"x ], может быть обработана с помощью обобщенной нормализации

X

tl min (Amax ) _

max )

max

i^l min (^lmax )

(1)

или обобщенной унитаризации

х

j^lmin (^lmax ) _ 1Х11Г1 ^max ^

AminC^lmax) _ _гЛгпах_

max 0mn (Amax - min 0mn (Amax '

i, maY i тяу

(2)

где / =1,/| =1,...,от,. предложенных в [6], вследствие чего каждый объект хг может интерпретироваться как интервально-значное нечеткое множество на универсуме признаков с функцией принадлежности ц,. (У1) = [ц (У1),\1х (У1)]. / = 1,...,/7. где ц (У1) = ц,. (У111111) и

Для интервально-значных нечетких множеств Х. Юу и Х. Юаном в [7] был определен ряд мер близости. В рассматриваемом случае при представлении объектов исследуемой совокупности х ,X, е X как интервально-значных нечетких множеств хг и х}-, /, / = 1,../7. определенных на универсуме признаков, меры сходства, введенные в [7], примут вид

5

jy ( ivfs )(1)V "i^j

(хг г ) = 1-

1

t

ц (х'О + М^) М^ + М* )

(3)

5

jy (ivfs)(2) i^j

(У г ) = 1"

~1=Х Цщ \

щ

I

î,=I

u (У1) "К (У)

+

(4)

где /, / = 1,../7. = 1,...,щ и X — параметр, такой, что 1 < /, < со. Таким образом, значения коэффициентов близости ^7(/№.5)(1:1(Х, Х-) или ^(/^^(Х,Х') , полученные с помощью вы-48

г, =1

и

ражений (3) или (4) соответственно, будут представлять собой элементы матрицы нечеткой толерантности Тп/п = [цг ^, х ■)], являющейся, как указывалось выше, матрицей исходных данных для В-ЛРС(с)-алгоритма.

В свою очередь, учитывая, что интервально-значные нечеткие множества представляют собой частный случай нечетких множеств типа 2 [8], для построения матрицы исходных данных оказывается возможным применение к нормализованным интервально-значным данным обобщений расстояний для нечетких множеств типа 2, предложенным в [6]. В частности, обобщение нормализованного евклидова расстояния между нечеткими множествами типа 2 х и х , предложенного в [6], в рассматриваемом случае примет вид

менение которого к интервально-значным нечетким множествам хг, / = 1,..., /7. позволяет построить матрицу нечеткого отношения несходства /пхп = [р., {xi, х,)]. В свою очередь, операция дополнения

примененная к /ЙХЙ = (х1, х^)], дает в результате матрицу слабой нечеткой толерантности Тпхп = | //7 (х,. х.) |, также являющуюся матрицей исходных данных для Б-АРС(с)-алгоритма.

Для иллюстрации предложенного подхода к построению распределения IV(X) по заданному числу с нечетких кластеров, целесообразно прибегнуть к тестовым данным М. Сато-Илик и Л. Джейна [9], приведенным в работе [1], где также было определено, что исследуемая совокупность 8 объектов образует квазиустойчивую кластерную структуру с числом классов, равным двум.

Так как различные виды нормировок приводят к различным результатам, вычислительный эксперимент проводился с использованием обоих видов нормировки. К примеру, функции

принадлежности (V1) = [ц (V1), (V1)], =1,..., 3. интервально-значных нечетких множеств, соответствующих восьмому объекту исследуемой совокупности, построенные при использовании нормировок (1) и (2), изображены на рис. 1.

Для построения матрицы нечеткой толерантности = [|а7 {xi, х,)] была выбрана мера

сходства (3) при А, = 2. Значения принадлежностей объектов нечетким кластерам распределений К (X), полученных в результате обработки матриц Тш = [ц7 (хг, х,)], построенных с помощью нормировок (1) и (2), представлены на рис. 2.

Приведенные на рис. 2 результаты демонстрируют, что при использовании различных видов нормировки изменяются не только значения принадлежности элементов, но и типичная

точка т2 второго нечеткого кластера, тогда как принадлежности элементов первого класса, значения признаков которых задаются не интервалами, а единичными значениями [9], [1], не претерпевают существенных изменений.

|аг(хг,х.) = 1-Ц/(хг,х.), Ухг,х /,7=1,...,п,

(6)

Экспериментальная часть

б

Рис. 1. Функции принадлежности интервально-значных нечетких множеств, соответствующих данным о восьмом объекте исследуемой совокупности: а — полученные с использованием обобщенной нормализации; б — обобщенной унитаризации

а б

Рис. 2. Значения принадлежностей объектов двум классам при кластеризации с использованием меры близости (3) с помощью обобщенной нормализации (а) и обобщенной унитаризации (б)

Так как результатом работы О - А Р С (с) -а л го р ит м а является не только распределение Я (X) объектов исследуемой совокупности X по заданному числу с нечетких а-кластеров, но и соответствующее значение порога сходства а, необходимо указать, что при использовании для нормировки исходных данных обобщенной нормализации (1) распределение Я (X) было получено при а=0,5751, а при использовании обобщенной унитаризации (2) значение порога сходства составило а=0,5199. В дополнение к представленным выше результатам для меры сходства (3) следует указать, что при использовании нормировки (1) и меры сходства (4) результаты кластеризации оказались сходными с результатами, полученными при использовании нормировки (2) и меры сходства (3), — так, типичными точками т1 и т2 нечетких кластеров оказались объекты X] и х7 соответственно, а распределение Я (X) по двум нечетким кластерам было получено при сс=0,5742.

В свою очередь необходимо отметить, что при использовании функции расстояния (5) в сочетании с дополнением (6) для построения матрицы нечеткой толерантности Тш = [|а7 (х/, х ,)]. при использовании как нормировки (1), так и нормировки (2), типичными

точками т1 и т2 нечетких кластеров полученных распределений 1({Х) в обоих случаях оказались объекты Х\ и х5 — так, при использовании нормировки (1) распределение Я (X) по двум нечетким кластерам было получено при а=0,5265, а применение нормировки (2) дает в результате распределение Я (X) по двум нечетким кластерам при значении порога сходства а=0,4933. Следует также указать, что при использовании функции расстояния (5) к матрице нормированных исходных данных вместе с операцией дополнения (6) матрица исходных данных Тш = [ц7 (хг, х .)] для Б-АРС(с)-алгоритма оказалась матрицей нормальной строгой слабой нечеткой толерантности Т0п [10], в силу чего в обоих случаях второй нечеткий кластер оказался

а

слабым нечетким кластером с центром [10], а значения принадлежностей т2 составили ц25 = 0,6404 и ц25 = 0,6047 соответственно. Значения принадлежностей объектов нечетким

кластерам распределений 1({Х). полученных в результате обработки матриц Тш = [ц7 {xi, х,)],

построенных с помощью нормировок (1) и (2), а также функции расстояния (5) и операции дополнения (6), представлены на рис. 3.

б

Рис. 3. Значения принадлежностей объектов двум классам при кластеризации с использованием формулы (5) при помощи обобщенной нормализации (а) и обобщенной унитаризации (б)

Следует отметить полное совпадение значений принадлежности объектов первому классу, как в случае эксперимента, результаты которого представлены на рис. 2, так и в случае эксперимента, представленного рис. 3, соответственно.

Для демонстрации преимущества предложенного метода целесообразно привести результаты, полученные М. Сато-Илик и Л. Джейном [8], где исходные данные были представлены в виде матриц предельных значений их признаков, X™" = [i?lmin ] и = [i?lm" ], где

il = 8 и ml = 3, после чего была построена матрица X размерности 2/7 х тл в соответствии с выражением

Х =

X, X,

mm их m,

max у ~ ~ ихш1 у

впоследствии обработанная РАМИУ-алгоритмом нечеткой кластеризации для числа классов с=2. Значения принадлежностей объектов классам для наименьших и для наибольших значений признаков приведены в таблице.

Результаты обработки тестовых данных FANNY-алгоритмом

а

Номер объекта Значения принадлежностей объектов классам

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

для наименьших значений признаков для наибольших значений признаков

1 2 1 2

1 0,80 0,20 0,80 0,20

2 0,76 0,24 0,76 0,24

3 0,83 0,17 0,83 0,17

4 0,77 0,23 0,77 0,23

5 0,23 0,77 0,33 0,67

6 0,29 0,71 0,34 0,66

7 0,27 0,73 0,37 0,63

8 0,27 0,73 0,35 0,65

Анализ результатов, представленных в таблице, показывает, что в методе обработки ин-тервально-значных данных, предложенном в [8], принадлежности динамических объектов

г " гшп тах 1л -л

классам представляют собой пары значении, ии и ии , / = 1,...,с, / = !,...,//, так что результат классификации представляет собой матрицу размерности 2схп, строящуюся в виде

р =

Р"

рта; V схп J

что затрудняет содержательный анализ результатов классификации. Следует вместе с тем отметить, что для объектов хг, г — 1,.. .,4 , имеет место и""" = и"1'14, I —1,2.

Заключение

Анализ приведенных результатов наглядно демонстрирует, что значения типичности |_1/; в матрице распределения динамических объектов по с классам IV (X) = [|л/( ] размерности

схп представляют собой единственное значение, что, по сравнению с методом, предложенным М. Сато-Илик и Л. Джейном [8], является более удобным при интерпретации результатов классификации. Если в результате анализа устойчивости кластерной структуры, проведенного с помощью предложенного в [1] подхода, окажется, что кластерная структура исследуемой совокупности является неустойчивой, то для построения распределения 1('(Х) по неизвестному числу с нечетких кластеров с помощью предложенного метода вначале необходимо построить множество значений возможного числа классов с е {с„,..., с }, где е.. — наименее возможное,

а с* — наиболее возможное число классов в искомом распределении IV(X ). после чего матрица нечеткой толерантности должна быть обработана О - А Р С (с) -ал го р ит мо м для всех с е {с*,..., с } с определением оптимального числа с на основе вычисления показателя валид-ности числа нечетких кластеров.

В работе [11] рассмотрено применение изложенного подхода к решению задачи декомпозиции элементов сложной системы в процессе имитационного моделирования.

CONSTRUCTING OF ALLOTMENT AMONG FUZZY CLUSTERS IN CASE OF QUASI-ROBUST CLUSTER STRUCTURE OF SET OF OBJECTS

D A. VIATTCHENIN, A.V. DAMARATSKI

Abstract

A method of clustering of objects for varying in an interval attributes values in cases of the robust or quasi-robust cluster structure of the set of objects is proposed.

Литература

1. Вятченин Д.А. // Докл. БГУИР. 2009. № 6. С. 91-98.

2. Bezdek J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York, 1981.

3. Вятченин Д.А. // Искусственный интеллект. 2007. № 3. С. 205-216.

4. Viattchenin D.A. // Control & Cybernetics. 2004. Vol. 33. P.323-340.

5. Turksen B. // Fuzzy Sets and Systems. 1986. Vol. 20. P. 191-210.

6. Viattchenin D.A. // Journal of Uncertain Systems. 2009. Vol. 3. P. 64-80.

7. Ju H., Yan X. // Fuzzy Information and Engineering. Berlin: Springer-Verlag, 2007. P. 875-883.

8.АверкинА.Н., БатыршинИ.З., БлишунА.Ф. etal. Нечеткие множества в моделях управления и искусственного интеллекта. М., 1986.

9. Sato-Ilic M., Jain L.C. Innovations in Fuzzy Clustering. Heidelberg, 2006.

10. Вятченин Д.А. // Вести Института современных знаний. 2008. № 4. С. 95-101.

11. Вятченин Д.А., Доморацкий А.В., Новиков Д.И., Юодялис А.В. // Материалы конференции ИММ0Д-2009. СПб., 2009. С. 109-113.

i Надоели баннеры? Вы всегда можете отключить рекламу.