Метод частичного обучения для эвристического алгоритма возможностной кластеризации при неизвестном числе классов

Вятченин Д. А.

ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ

УДК 510.22+519.237.8

МЕТОД ЧАСТИЧНОГО ОБУЧЕНИЯ ДЛЯ ЭВРИСТИЧЕСКОГО АЛГОРИТМА ВОЗМОЖНОСТНОЙ КЛАСТЕРИЗАЦИИ ПРИ НЕИЗВЕСТНОМ ЧИСЛЕ КЛАССОВ

Канд. филос. наук ВЯТЧЕНИН Д. А.

Объединенный институт проблем информатики НАН Беларуси

В задачах сегментации изображений, обработки результатов научных исследований, при проектировании разнообразных систем поддержки принятия решений особая роль отводится нечетким методам автоматической классификации, в специальной литературе [1] именуемым также методами нечеткой кластеризации или нечеткими методами численной таксономии. В задачах кластеризации данные об исследуемой совокупности традиционно представляются либо матрицей X пУт — \ х' ], 1 = 1, ..., п, 1 = 1,...,т, именуемой матрицей «объект-признак», где хг, / = 1, ..., п -

объекты исследуемой совокупности X, а х', 1 = 1,..., т - значения признаков объектов хг е X, каждый из которых, таким образом, представляет собой точку в т -мерном признаковом пространстве, либо матрицей Р„у„ = |р,; |. /, / = 1, ..., п попарных коэффициентов близости или различия объектов, носящей название «объект-объект». При обработке данных методами нечеткой кластеризации результатом классификации является не только отнесение 7-го объекта исследуемой совокупности X = {хх, ..., х„} к 1-му классу А1. 1 = 1, ..., с, но и указание функции принадлежности ии е [ОД], 1 = 1, ..., с, г=1, ..., п, с которой объект х; е X . V/ = 1, ..., п принадлежит нечеткому кластеру А1, 1 = 1, ..., с, так что главной особенностью нечетких методов кластеризации является сочетание высокой точности с содержательной осмысленностью результатов классификации.

Наиболее распространенным подходом к решению нечеткой модификации задачи автоматической классификации является оптимизационный подход, методы которого отыскивают экстремум некоторого критерия качества классификации, примером которого может послужить критерий Дж. Беждека:

сп 2

ев(лт)=££мй%-т'||, (1)

1=1 1=1

где с - число нечетких кластеров в искомом нечетком с-разбиении Р; 1 < у < со - показатель, определяющий степень нечеткости классификации; Т = {т1, ..., тс} - множество прототипов нечетких кластеров А1, 1 = 1, ..., с. Локальный минимум критерия (1) отыскивается при ограничении:

с

IX =!, 1 = \ *' = 1, п, (2)

г=1

именуемом в специальной литературе условием нечеткого с-разбиения и являющемся общим для всех оптимизационных методов нечеткой кластеризации. Численная процедура, минимизирующая (1), широко известна в специальной литературе под обозначением FCM-алгоритма и является основой семейства других нечетких кластер-процедур.

Разновидностью оптимизационных методов нечеткой кластеризации являются методы воз-можностной кластеризации [2], специфика которых заключается в том, что структура, образуемая нечеткими кластерами, удовлетворяет условию возможностного разбиения:

с

^|1Й>1, 1 = 1,..., с; 1=1 ,...,п, (3)

1=1

являющегося менее жестким, чем условие нечеткого с-разбиения (2), и значения принадлежности |1й, 1 = 1,..., с, г=1, ..., п интерпретируются как степени типичности объекта х^ для нечеткого кластера, а функция принадлежности интерпретируется как функция распределения возможностей. Методы возмож-ностной кластеризации получают все большее распространение как в теоретических исследованиях, так и на практике в силу их устойчивости к наличию в исследуемой совокупности аномальных наблюдений и простоты интерпретации результатов классификации.

В [3] предложен подход к решению нечеткой модификации задачи автоматической классификации, использующей так называемый механизм частичного обучения, сущность которого заключается в том, что относительно некоторого подмножества Хь={хьт, ..., Хцс)} объектов исследуемой совокупности X = = {хъ ..., х„} имеется априорная информация об

их принадлежности классам А1, 1 = 1, ..., с нечеткого с-разбиения Р, которая может быть использована при построении оптимальной классификации. Иными словами, если Хь - множество помеченных объектов, Хь с Л . элементы которого представлены булевыми векторами 5 = (5Ь 52,..., я„)Т, где Т - символ транспонирования и = 1, если х; е Хь и объект х( является меткой для нечеткого кластера А1, /е{ 1, ..., с], т. е. хг =х£(/); в противном случае, если X! £ Хь, то имеет место = 0. В свою очередь 7СХй = [ун ], 1 = 1,..., с; г = 1,...,п-матрица нечеткого с-разбиения, составляемая исследователем в соответствии со следующим правилом: если х; е X1. то уи задается иссле-

с

дователем с соблюдением условия ^ ун -1,

1=1

где уи - степень принадлежности помеченного объекта хг, х; е I, классу А1, 1 = 1, ..., с; иначе, при хг <£ Хь соответствующий столбец в матрице Усхп оказывается не нужным и пропускается при обработке матрицы Ус/п. В таком

случае задача классификации состоит в минимизации критерия вида

2

еР(ЛТ)=££ый2|х1.-т'|| +

и ,-=1 (4)

сп 2

+Цц, - ^л)2 Ы

1=1 1=1

при ограничении (2).

В [3] предложены различные модификации критерия (4), одна из которых базируется на взвешивании в (4) обоих слагаемых, а другая -с заменой в качестве функции расстояния квадрата евклидовой нормы на квадрат расстояния Махаланобиса. С содержательной точки зрения, минимизация первого слагаемого в (4), полностью совпадающего с критерием (1) при у = 2, минимизирует нечеткие суммы квадратов расстояний от объектов до прототипов нечетких кластеров, а второе слагаемое в (4) является взвешенной по квадратам расстояний суммой отклонений расчетных значений функции принадлежности объектов нечетким кластерам от заданных априорно. Очевидно, что помеченные объекты частично определяют структуру строящейся классификации исследуемой совокупности X, и множество Хь может интерпретироваться как частично обучающая выборка, элементы которого являются эталонами для классификации. Однако следует указать, что выбор экспертом помеченных объектов и априорных значений принадлежности существенно влияет на результат классификации.

Априорная информация о принадлежности некоторых объектов исследуемой совокупности классам искомого нечеткого с-разбиения позволяет значительно повысить как точность классификации, так и скорость сходимости кластер-процедуры, что также демонстрируется в [3], в силу чего подход к нечеткой кластеризации, использующей аппарат частичного обучения, получил дальнейшее развитие, а соответствующие методы широко внедряются при решении разнообразных задач [4, 5].

Как отмечалось выше, наибольшее распространение получили оптимизационные методы нечеткой кластеризации, вводящие задачу классификации в сугубо математическое русло, однако эвристические методы нечеткой кластеризации, несмотря на меньшее распространение, являются также удобным инструментом

анализа данных в силу их простоты и наглядности. В [6] предложен эвристический метод нечеткой кластеризации, заключающийся в построении так называемого распределения по априори задаваемому числу с нечетких а-кла-стеров, удовлетворяющих введенному определению. В свою очередь в [7] было продемонстрировано, что распределение по нечетким -кластерам является частным случаем воз-можностного разбиения (3), и соответствующая процедура, как и ее последующие модификации, представляет собой эвристический алгоритм возможностной кластеризации, в силу чего предложенная в [6] версия алгоритма, от аббревиатуры английских терминов direct -прямой и allotment among fuzzy clusters - распределение по нечетким кластерам, получила обозначение D-AFC(c)-anropnTMa. Если X = {л"|, ..., х„} - совокупность объектов, на которой определена нечеткая толерантность Т с функцией принадлежности \xr(xi.xi).

г,7=1, ..., п, т. е. бинарное нечеткое отношение на Х, удовлетворяющее условиям симметричности и рефлексивности, и информация о совокупности X представлена в виде матрицы коэффициентов близости рйХй =[|аГ(хг,х^)], так

что строки или столбцы этой матрицы являются нечеткими множествами {A..., A"}, то для некоторого а, ае (0,1], нечеткое множество уровня а, определяемое условием = = {(.x1,\iA,(x1))\\iAl(x1)>a), /е[1,и], такое, что А^а) с А1, А1 е {А1,...,А"}, будет называться

нечетким а-кластером с функцией принадлежности \хи объекта xi е X нечеткому а-кла-

стеру A\U). определяемой выражением

М-й

(I; противном случае,

(5)

где IIхА1 (хг)-а) ~ а-уровень А1,

/е{1, ..., п}. Объект хг е X, обладающий наибольшим значением функции принадлежности цй некоторому нечеткому а-кластеру Д.',,,. именуется его типичной точкой и обозначает-

ся х\ а функция принадлежности, определяемая выражением (5), показывает степень сходства 7-го объекта множества X с типичной точкой т' соответствующего нечеткого а-кластера. Если условие (3) выполняется для всех А[а)^Щ{Х\ где ад = Ц'а)|/ = й 2<с<п}~

семейство с нечетких а-кластеров для некоторого значения а, порожденных заданной на X нечеткой толерантностью Т, то это семейство является распределением множества классифицируемых объектов X по с нечетким а-кластерам. Условие (3) в рассматриваемом случае требует, чтобы все объекты совокупности X были распределены по с нечетким

а-кластерам {А](а), ..., А'((/)} с положительными значениями |1Й, 1 = 1, ..., с, 1 = 1, ..., п.

Сущность D-AFC(c)-алгоритма заключается в построении множества допустимых решений

В(с) = {Щ (X)} для с классов с последующим выбором в качестве решения задачи классификации некоторого единственного распределения Я*(Х)еВ(с). Выбор IV (X) основывается на вычислении для всех Я" (X) е В (с) критерия

1

¡■(П'НХШ^-^-ас.

(6)

1=1 'Н i=l

определяющего качество каждого 1(2 (X) е В (с). где щ = сагс1(Ага) - мощность носителя нечеткого множества А'(и) е И''(X). 1е{1, ..., с}, осе (0, 1], так что (6) определяет среднюю суммарную принадлежность объектов множества X нечетким а-кластерам >А('а). ..., Ас{и)}

распределения Н" (X) за вычетом величины

ас, регуляризующей число классов в Щ (X), и

оптимальному распределению Я*(Х) соответствует максимальное значение (6), так что решение состоит в построении распределения, удовлетворяющего условию

И (.V) агц тах ¡■(/<''(Х). а). (7)

Н?(Х)еВ(с)

П

С

Результатом работы D-AFC(c)-arroprnMa является не только распределение R' (X) объектов совокупности X по заданному числу с нечетких а-кластеров, но и соответствующее значение порога сходства а.

Как указывалось выше, D-AFC(c)-aлгоритм представляет собой базовую версию кластер-процедуры. В работе [7] предлагается его модификация, использующая аппарат частичного обучения, в силу чего (partial supervision - частичное обучение) получившая обозначение D-AFC-PS(c)-aлгоритмa. Механизм частичного обучения, используемый в D-AFC-PS(c)-anro-ритме, достаточно прост: если Х£={х£(1), ...,

хИс)} ~ множество помеченных объектов, и объект хг е XL является меткой для нечеткого а-кластера А'1/г /е {1, ..., с}, т. е. xi = х/(/). то априорное значение принадлежности yu помеченного объекта хг соответствующему Д',,,. /е{1, ..., с} задается исследователем, при этом card(XL) = с, т. е. общее количество помеченных объектов равно числу с нечетких а-кластеров в искомом распределении R*(X), и каждый помеченный объект должен быть распределен в единственный нечеткий а-кластер,

a результирующее значение принадлежности \iu помеченного объекта хг нечеткому а-кла-

стеру А1^а:р /е{ 1, ..., с} должно быть не меньшим, чем заданное априорно yH. По сравнению с методом, используемым в алгоритме В. Пе-дрича, метод частичного обучения, используемый в D-AFC-PS(c)-aлгоритме, очевидно, является менее громоздким, простым в реализации и ясным с содержательной точки зрения.

Вместе с тем при решении задач, требующих высокой точности классификации в условиях ограниченного лимита времени, что имеет большое значение в системах поддержки принятия решений специального назначения, помимо экспертного знания о принадлежности объектов классам, используемого при построении множества XL ={х£(1), ..., х£(с)} и задании

априорных значений принадлежности y для

элементов XL, оказывается необходимым проведение предварительного анализа исследуемой совокупности с целью получения обучающей информации для последующего применения методов нечеткой кластеризации с частичным обучением. Указанный подход, основанный на предварительной обработке исследуемой совокупности с помощью D-AFC(c)-aл-горитма и выбором в качестве помеченных

объектов типичных точек {х1, ..., Xе} нечетких а-кластеров Д'(/). 1 = 1, ..., с, полученного распределения R*(X) с последующей обработкой данных алгоритмом В. Педрича, был предложен в [8] и продемонстрировал высокую эффективность. В [9] предложен подход к построению множества XL и соответствующих значений уг для использования в D-AFC-PS^)^-горитме, основанный на предварительной обработке данных об X некоторой оптимизационной нечеткой кластер-процедурой с последующим вычислением расстояния d(xt, х') от всех объектов xi € X до прототипов {х1, ..., Xе} кластеров А1, 1 = 1, ..., с нечеткого с-разбиения

Р, нормировкой d(x ,х1 ) = d(xt ,х1 )j max d(xt ,x1)

и вычислением коэффициентов близости s(xn т' ) = 1 ~c/(xn x1), так что объекты, находящиеся наиболее близко к прототипам, могут быть выбраны в качестве помеченных, а соответствующие значения \(х;. х') - в качестве априорных значений принадлежности yu .

Подходы, предложенные в [8, 9], требуют априорного знания о числе c классов в искомом нечетком с-разбиении Р или распределении по нечетким а-кластерам R(X). В ряде ситуаций оказывается необходимым построить максимально точную классификацию в условиях полного отсутствия информации об исследуемой совокупности Х. В таком случае вначале представляется целесообразной обработка X кластер-процедурой, автоматически определяющей число классов с, с последующим выделением множества X с соответствующими значениями уи, /е {1, ..., с}, для чего можно воспользоваться предложенной в [10] моди-

фикацией D-AFC(c)-arroprnMa, использующей транзитивное замыкание нечеткой толерантности, в силу чего - от аббревиатуры выражения transitive closure - получившей условное обозначение D-AFC-TC-алгоритма. Так как транзитивное замыкание нечеткой толерантности представляет собой нечеткую эквивалентность, разбивающую предметную область на непересекающиеся классы, для распределений R" (X) различных уровней а число нечетких кластеров c будет различным, и задачей классификации является выделение априори неизвестного числа нечетких а-кластеров, для чего в последовательности 0 < а0 <... < а1 <... < az = 1 на основе вычисления скачка значений порога а определяется такое значение а,. которому соответствует некоторое неизвестное число нечетких а-кластеров с. Помимо того, что D-AFC-TC-алгоритм отыскивает априори неизвестное число с нечетких а-кластеров, отличающих его от D-AFC(c)-aлгоритмa, особенностями является, во-первых, то, что для D-AFC-TC-алгоритма матрицей исходных данных является матрица «объект-признак», и для решения задачи классификации используются как критерий (6), так и некоторая метрика d(x, Xj), а, во-вторых, то обстоятельство, что результатом работы D-AFC-TC-алгоритма будут также координаты прототипов {т1, ..., т6} нечетких а-кластеров {А'(а), ..., A'U/j} распределения IV (X). В силу того что транзитивное замыкание нечеткой толерантности искажает геометрическую структуру исследуемой совокупности X, D-AFC-TC-алгоритм оказывается полезным только на этапе разведочного анализа данных. Таким образом, сущность предлагаемого метода частичного обучения для использования в D-AFC-PS(c)-aлгоритме в условиях отсутствия информации о числе классов с, на которые «расслаивается» множество объектов X, заключается в построении с помощью D-AFC-TC-алгоритма распределения R '(X) по неизвестному числу с нечетких а-кластеров с последующим выбором в качестве элементов множества XL типичных точек {т1, ..., тс} не-

четких а-кластеров. В качестве значения уи, /е{1, ..., с}, общего для всех помеченных объектов, целесообразно выбрать полученное в результате работы Б-АБС-ТС-алгоритма значение порога сходства а, так как при обработке данных D-AFC-PS(c)-алгоритмом геометрическая структура X не претерпевает изменений, и типичными точками классов распределения

Я* (X), полученного с помощью Б-АРС-Р8(с)-ал-горитма, могут оказаться другие объекты.

Эффективность предложенного подхода к построению подмножества помеченных объектов и определению априори задаваемой функции принадлежности для использования в D-AFC-PS(c)-алгоритме целесообразно проиллюстрировать на простом примере. Для проведения вычислительного эксперимента были выбраны представленные на рис. 1 двумерные данные о 15 объектах, предложенные в [11].

■

;15

"12 3 : 14

■""1Ö1 "1 'б.....I-...... '4 ; "э "2 11" ...... 13"

D 2 А 6 8

Рис. 1. Двумерные данные для проведения вычислительного эксперимента

На рис. 1 визуально выделяются три группы объектов {х, х^, х^, х^}, {х^, х^, Х2, Х4, Х5} и {х2, х5, х, х9, хп, х13}, которые в дальнейшем будут использованы для верификации результатов вычислительных экспериментов. Обозначая объекты символами хг, / = 1, ..., 15 ,

а признаки - символами х', / = 1, 2, была получена матрица «объект-признак» Х15х2 = \ х' ], которая обработана с помощью нормализации [12]:

х- = -

у

1=1

п: г = \.

т,

(8)

тах X:

вследствие чего каждый объект может интерпретироваться как нечеткое множество на универсуме признаков с функцией принадлежности Xх'), 1 = \ п, с последующим применением квадрата относительного евклидова расстояния между нечеткими множествами [10]

1

е2 (хг, х ) = - £ (X (х*) - (X (х0

/',7=1, ..., и; ¿ = 1,

/и.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(9)

и операции дополнения и7 (хг, х;) = 1 - е2(хг, х,), /', / = 1, ..., 15, была построена матрица нечеткой толерантности 7{5х15 =[цГ(хг, х-)], результатом обработки которой с помощью 0-АРС(с)-ал-горитма при числе классов с = 3 является распределение Я (X) по полностью разделенным нечетким а-кластерам, полученное при значении порога сходства а = 0,7912. Значения принадлежности объектов исследуемой совокупности нечетким а-кластерам представлены на рис. 2.

Значения 1,0 принадлежностей \Хц 0.

□

0

5 10

Номер объекта 7

15

Рис. 2. Результат обработки множества объектов Б-АЕС(с)- алгоритмом

На рис. 2 и последующих рисунках значения принадлежностей объектов 1-му классу обозначены символом «•», 2-му - символом «▲», и 3-му - символом «□». Анализ представленного на рис. 2 результата классификации позволяет выделить в качестве типичной точки

т1 первого класса объект х10, типичной точки X2 второго - объект х15, а для третьего класса

з

имеет место I =х7; в свою очередь носители нечетких а-кластеров полученного распределения IV (X) образуют группы ¡х,. х4, х6, х10, х,: |.

{х^, х^, , } "Л {Х^, Х^, Х^, Х^, Х^ , Х^з }, что ввиду отнесения объекта х12 к 1-му классу не совпадает с визуальным выделением классов на рис. 1.

В результате обработки исходных данных D-AFC-TC-алгоритмом с помощью нормировки (8) и расстояния (9) было получено распределение Я* (X) также по трем нечетким а-кластерам при значении порога сходства а = = 0,9609, значения принадлежности объектов которым изображены на рис. 3.

Значения 1,0 принадлежностей \Хц 0,8

¿-о * о * □

А +

0 5 10 15

Номер объекта 7

Рис. 3. Результат обработки множества объектов Б-АЕС-ТС-алгоритмом

Носители нечетких а -кластеров представляют собой подмножества {х , х4, Х, Хо},

{Х, , , Ха, } , Х, Ху, Х^, |, Х|з},

соответствующие визуально выделенным на рис. 1 классам, а типичными точками нечетких а-кластеров являются объекты т

и т3 = х7 соответственно. Таким образом, соответствующие объекты были выбраны в качестве помеченных с общим для всех значением априорной функции принадлежности уи = = 0,9609, 1 = 1, ..., 3, /'= 1, ..., 3, для обработки тестовых данных с помощью Б-АЕС-Р8(с)-ал-горитма. Значения принадлежностей объектов

нечетким а-кластерам распределения Я\Х), построенного с помощью Б-АЕС-Р8(с)-алгоритма, изображены на рис. 4.

Значения 1,0 принадлежностей \Хц 0,8

АА

0 5 10

Номер объекта 7

15

Рис. 4. Результат обработки множества объектов Б-АЕС-РВ(с)-алгоритмом

Значение порога сходства при обработке данных с помощью 0-АРС-Р8(с)-алгоритма составило а = 0,8220, а выделение носителей нечетких а-кластеров дает классы {х,, х4,

хб, х10 }, {хз, х8, х12, х14, х15} и {х2, х5, х7, х9,

х , х }, соответствующие визуально выделенным классам. Кроме того, в этом эксперименте, как и при обработке данных Б-АРС-ТС-алгоритмом, типичными точками нечетких а-кластеров являются объекты т1 = хг, т2 =х3 и т3 = х7, которые наименее удалены от геометрических центров соответствующих групп. Таким образом, вычислительный эксперимент наглядно демонстрирует не только преимущество использования механизма частичного обучения при обращении к эвристическому методу нечеткой кластеризации для решения задач классификации, но и эффективность предложенного метода частичного обучения.

Анализ результатов, полученных с помощью D-AFC(c)-алгоритма и D-AFC-PS(c)-ал-горитма, проводился в сравнении с оптимизационными алгоритмами нечеткой кластеризации - FCM-алгоритмом и алгоритмом В. Пе-дрича [3], минимизирующим критерий (4), при этом в обоих экспериментах полагалось с = 3, а в эксперименте с РСМ-алгоритмом значение показателя нечеткости у полагалось равным двум. Значения принадлежностей объектов нечетким кластерам, полученным с помощью FCM-алгоритма, изображены на рис. 5.

Интерпретация результатов классификации с помощью правила наибольшей принадлежности приводит к выделению групп {х , х , х

хб, х10

х8, х12, х14, ^5} и {х2, х5, х9,

, хз}, что совпадает с визуально выделенными на рис. 1 классами и результатами обработки данных D-AFC-PS(c)-алгоритмом. Однако следует отметить сравнительно невысокое значение принадлежности объекта х второму нечеткому кластеру.

5 10

Номер объекта I

15

Рис. 5. Результат обработки множества объектов

ЕСМ-алгоритмом Обработка данных алгоритмом В. Педрича проводилась с помощью обучающей информации, использовавшейся при их обработке D-AFC-PS(c)-алгоритмом. Но так как обращение к алгоритму В. Педрича подразумевает использование в качестве обучающей информации матрицы нечеткого с-разбиения Усуп = \уИ |, для ее построения значения уи

принадлежностей помеченного объекта классам, для которых он не является меткой, вычислялись по формуле уи= (1-а)/(с-1), что обеспечивает выполнение условия нечеткого с-разбиения для Усул . Значения принадлежностей объектов классам нечеткого с-разбиения Рсхп = \ии ], полученного при обработке тестовых данных алгоритмом В. Педрича, изображены на рис. 6.

5 10

Номер объекта I

15

Рис. 6. Результат обработки множества объектов алгоритмом В. Педрича

Как и в случае эксперимента с FCM-алго-ритмом, результат классификации интерпретировался на основе правила наибольшей принадлежности, что позволило выделить группы

{х1, хб, х8, х14}, {хз, ^О, х12, х15} и {x2, X4, X5,

0

}. Подобное искажение результатов классификации в сравнении с FCM-ал-горитмом объясняется выбором нормализации (8), достаточно сильно искажающей геометрию исходных данных, для нормировки исходных данных при их обработке алгоритмом В. Пе-дрича - на это обстоятельство указывают и одинаковые значения принадлежностей объектов Х и Х всем трем классам полученного нечеткого с-разбиения. В свою очередь, использование унитаризации [12] для нормировки данных при сохранении прежней обучающей информации приводит к результатам, сходным с резуль-

татами обработки исходных данных FCM-ал-горитмом, что свидетельствует о высокой чувствительности алгоритма В. Педрича к выбору способа нормировки. Кроме того, очевидно, что использованный способ задания априорных значений принадлежности для помеченных объектов в алгоритме В. Педрича недостаточно адекватен в силу различия условий нечеткого с-разбиения (2) и возможностного разбиения (3).

В Ы В О Д

В работе предложен метод построения подмножества помеченных объектов и соответствующих априорных значений принадлежности для использования в эвристическом алгоритме возможностной кластеризации с частичным обучением, основой которого является предварительная обработка данных с помощью модификации эвристического алгоритма возможностной кластеризации, не требующей задания параметров, что делает предложенный метод пригодным в условиях полного отсутствия априорной информации о структуре исследуемой совокупности. Анализ результатов вычислительных экспериментов наглядно демонстрирует высокую эффективность метода, использующего аппарат частичного обучения, в сравнении с базовой версией метода, а также нечеткими кластер-процедурами. Следует также отметить, что предложенная схема двухэтапной возможност-

ной кластеризации позволяет производить классификацию данных

в полностью автоматическом режиме.

Л И Т Е Р А Т У Р А

1. Bezdek, J. C. Pattern recognition with fuzzy objective function algorithms / J. C. Bezdek. - New York: Plenum Press, 1981. - 230 p.

2. Krishnapuram, R. A possibilistic approach to clustering / R. Krishnapuram, J. M. Keller // IEEE Transactions on Fuzzy Systems. - 1993. - Vol. 1. - P. 98-110.

3. Pedrycz, W. Algorithms of fuzzy clustering with partial supervision / W. Pedrycz // Pattern Recognition Letters. -1985. - Vol. 3. - P. 13-20.

4. Abonyi, J. Supervised fuzzy clustering for the identification of fuzzy classifiers / J. Abonyi, F. Szeifert // Pattern Recognition Letters. - 2003. - Vol. 24. - P. 2195-2207.

5. Liu, H. Evolutionary semi-supervised fuzzy clustering / H. Liu, S.T. Huang // Pattern Recognition Letters. -

2003. - Vol. 24. - P. 3105-3113.

6. Viattchenin, D. A. A new heuristic algorithm of fuzzy clustering / D. A. Viattchenin // Control & Cybernetics. -

2004. - Vol. 33. - P. 323-340.

7. Viattchenin, D. A. A direct algorithm of possibilistic clustering with partial supervision / D. A. Viattchenin // Journal of Automation, Mobile Robotics and Intelligent Systems. -2007. - Vol. 1. - P. 29-38.

8. Viattchenin, D. A. A methodology of fuzzy clustering with partial supervision / D. A. Viattchenin // Systems Science. - 2007. - Vol. 33. - P. 61-71.

9. Viattchenin, D. A. Fuzzy objective function-based technique of partial supervision for a heuristic method of pos-sibilistic clustering / D. A. Viattchenin // Neural Networks and Artificial Intelligence: Proceedings of the Fifth International Conference ICNNAI'2008. - Minsk, 2008. - P. 51-55.

10. Вятченин, Д. А. Прямые алгоритмы нечеткой кластеризации, основанные на операции транзитивного замыкания и их применение к обнаружению аномальных наблюдений / Д. А. Вятченин // Искусственный интеллект. -2007. - № 3. - С. 205-216.

11. Looney, C. G. Interactive clustering and merging with a new fuzzy expected value / C. G. Looney // Pattern Recognition. - 2002. - Vol. 35. - P. 2413-2423.

12. Walesiak, M. Ugolniona miara odleglosci w statys-tycznej analizie wielowymiarowej / M. Walesiak. - Wroclaw: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, 2002. - 107 s.

Поступила 23.03.2009

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вятченин Д. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вятченин Д. А.

Текст научной работы на тему «Метод частичного обучения для эвристического алгоритма возможностной кластеризации при неизвестном числе классов»