Научная статья на тему 'Модификация алгоритма концептуальной кластеризации Cobweb для количественных данных с использованием нечеткой функции принадлежности'

Модификация алгоритма концептуальной кластеризации Cobweb для количественных данных с использованием нечеткой функции принадлежности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
307
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / CLUSTERIZATION / АЛГОРИТМ COBWEB / ALGORITHM COBWEB / КОЛИЧЕСТВЕННЫЕ ДАННЫЕ / NUMERICAL DATA / НЕЧЕТКАЯ ФУНКЦИЯ ПРИНАДЛЕЖНОСТИ / FUZZY MEMBERSHIP FUNCTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коробейников А.В., Исламгалиев И.И.

Предлагается модификация известного алгоритма концептуальной кластеризации Cobweb с целью применения его для количественных данных. Рассматривается два варианта модификации. В результате предлагается использовать передискретизацию значений числовых параметров образцов с нечеткой функцией принадлежности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODIFICATION OF CONCEPTUAL CLUSTERING ALGORITHM COBWEB FOR NUMERICAL DATA USING FUZZY MEMBERSHIP FUNCTION

Modification of known conceptual clustering algorithm Cobweb for the purpose of its application for numerical data is offered. Two variants of modification are considered. Resampling of numerical parameters values of pattern with fuzzy membership function is offered to use.

Текст научной работы на тему «Модификация алгоритма концептуальной кластеризации Cobweb для количественных данных с использованием нечеткой функции принадлежности»

УДК 004.93

А.В. Коробейников

канд. техн. наук, директор, ООО «ИжТелеМед»

И. И. Исламгалиев

инженер-программист, ОАО «Сарапульский электрогенераторный завод»

МОДИФИКАЦИЯ АЛГОРИТМА КОНЦЕПТУАЛЬНОЙ КЛАСТЕРИЗАЦИИ COBWEB ДЛЯ КОЛИЧЕСТВЕННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ НЕЧЕТКОЙ ФУНКЦИИ ПРИНАДЛЕЖНОСТИ

Аннотация. Предлагается модификация известного алгоритма концептуальной кластеризации Cobweb с целью применения его для количественных данных. Рассматривается два варианта модификации. В результате предлагается использовать передискретизацию значений числовых параметров образцов с нечеткой функцией принадлежности.

Ключевые слова: кластеризация, алгоритм Cobweb, количественные данные, нечеткая функция принадлежности.

A.V. Korobeynikov, cand.tech.sci., director, Ltd «IzhTeleMed»;

I.I. Islamgaliev, software engineer, JSC «Sarapul Electric Generators»

MODIFICATION OF CONCEPTUAL CLUSTERING ALGORITHM COBWEB FOR NUMERICAL

DATA USING FUZZY MEMBERSHIP FUNCTION

Abstract. Modification of known conceptual clustering algorithm Cobweb for the purpose of its application for numerical data is offered. Two variants of modification are considered. Resampling of numerical parameters values of pattern with fuzzy membership function is offered to use.

Keywords: clusterization, algorithm Cobweb, numerical data, fuzzy membership function.

Алгоритм концептуальной кластеризации Cobweb. В задачах кластеризации одной из проблем является обоснование количества необходимых категорий (кластеров). В алгоритме Cobweb для корректного определения количества кластеров, глубины иерархии и принадлежности категории новых экземпляров используются эвристика - глобальная метрика качества. В алгоритме Cobweb реализован инкрементальный алгоритм обучения, не требующий представления всех обучающих примеров до начала обучения.

Алгоритм осуществляет разделение на кластеры, основываясь на понятии полезности разбиения (category utility) [1]:

CU = t TLp(A = vj)p(Ck I A = v,j)P(Aj = Vj I Ck), (1)

k=1 J i

где Ck - k-ый кластер, n - количество кластеров, Aj - j-ый параметр образца, Vj - i-ое значение j-го параметра. Значение P(Aj = Uj | Ck) называется предсказуемостью (predictability). Это вероятность того, что у образца свойство A, принимает значение Uj, при условии, что он относится к категории Ck. Величина P(Ck | Aj = uj) называется предиктивностью (predictiveness). Это вероятность того, что образец относится к категории Ck, при условии, что свойство Aj принимает значение Uj. Значение P(Aj = uj) - это весовой коэффициент, усиливающий влияние наиболее распространенных свойств. Благодаря совместному уче-

ту этих значений высокая полезность разбиения на категории (Си) означает высокую вероятность того, что объекты из одной категории обладают одинаковыми свойствами, и низкую вероятность наличия этих свойств у объектов из других категорий.

2,5

-2,5 -2 -1,5 -1 -$05 -1 -1,5

♦ ♦ -2 -2,5

A1

а) Bi

0,5 1 1,5 2 2 5

-2,5 -2 -1,5 -1 -0з5з -1 -1,5

■ -2 -2,5 A1

б) В2

0,5 1 1,5 2 2 5

Рисунок 1 - Варианты разбиения образцов с равными параметрами

Критерий полезности категории был определен при исследовании человеческой категоризации. Он учитывает влияние категорий базового уровня и другие аспекты структуры человеческих категорий [1].

Таблица 1 - Пример работы алго ритма для об эазцов на рис. 1

k j Vj P(A = Vij) P(Ar Va\Ck) P(Ck ArVo) CU

В1 В2 В1 В2 В1 В2 В1 В2

-2 1/4 1/4 0 1/2 0 1 0 1/8

A1 -1 1/4 1/4 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0

2 1/2 1/2 1 1/2 1 1/2 1/2 1/8

C1 -2 1/2 1/2 0 1/2 0 1/2 0 1/8

A2 -1 0 0 0 0 0 0 0 0

1 1/4 1/4 1/2 0 1 0 1/8 0

2 1/4 1/4 1/2 1/2 1 1 1/8 1/8

-2 1/4 1/4 1/2 0 1 1 1/8 0

A1 -1 1/4 1/4 1/2 1/2 1 0 1/8 0

1 0 0 0 0 0 0 0 0

C2 2 1/2 1/2 0 1/2 0 1/2 0 1/8

-2 1/2 1/2 1 1/2 1 1/2 1/2 1/8

A2 -1 0 0 0 0 0 0 0 0

1 1/4 1/4 0 1/2 0 1 0 1/8

2 1/4 1/4 0 0 0 0 0 0

1,500 0,875

При предъявлении нового образца алгоритм Cobweb оценивает полезность

разбиений при отнесении образца к одной из существующих категории, а также полезность возможных модификаций иерархии категорий.

Рисунок 2 - Функции принадлежности отсчетов

В начале работы алгоритма вводится единственная категория, свойства которой совпадают со свойствами первого образца. Для каждого очередного образца алгоритм начинает свою работу с корневой категории и движется далее по дереву. На каждом уровне выполняется оценка эффективности категоризации на основе полезности разбиения. При этом оцениваются результаты следующих модификаций дерева категорий [1]:

1) отнесение образца к наилучшей из существующих категорий;

2) добавление новой категории, содержащей единственный образец;

3) слияние двух категорий в одну с добавлением текущего образца;

4) разбиение существующей категории на две и отнесение текущего образца к лучшей из вновь созданных категорий.

Алгоритм эффективен и выполняет кластеризацию на разумное число классов. В нем используется вероятностное представление принадлежности, и получаемые ка-

тегории являются гибкими и робастными [1].

Рассмотрим работу алгоритма на примере. На рис. 1 представлены варианты разбиения. Результаты работы алгоритма, приведенные в табл. 1, показывают предпочтительность разбиения В1 перед В2.

Недостатком данного варианта алгоритма является возможность работы только с качественными данными (перечислимыми значениями), например, перечень цветов: желтый, красный, синий. Если нет совпадений значений параметров образцов, то близость или удаленность образцов на координатной плоскости параметров никак не влияет на результат.

Алгоритм кластеризации Cobweb для количественных данных. Для работы с количественными данными (диапазон значений) возможна модификация алгоритма: передискретизация значений на числовых осях параметров (рис. 2а, прямоугольная функция принадлежности), то есть сведение количественных данных к качественным. Однако при таком подходе значения параметров, находящиеся на числовой оси параметров рядом, но на границе функций принадлежности, могут попасть в разные отсчеты (v)

-2

2,5 2 1,5 1

0,5

5 -2 -1,5 -1 -00,53 0 0,5 1 1,5 2 2 ♦ -1

5

-2

2 1,5 1

0,5

0

5 -2 -1,5 -1 -.0555 0 0,5 1 1,5 2 2 ♦ -1 -1,5

■ -2

-1,5

♦ -2 -2,5

A1

а) В1

Рисунок 3 - Варианты разбиения образцов с неравными параметрами

-2,5 A1

б) В2

5

В данной работе для устранения недостатков описанных вариантов алгоритма Cobweb предлагается использовать нечеткую функцию принадлежности на основе формулы нормального распределения [2] (рис. 2б):

it \2 Л

f (m, i, j) = exp

(amj Vij) 20:

(2)

где Эщ - т-ное значение параметра А (случайной величины); V. - /-е значение центра отсчета параметра А (мат. ожидание); ст/ - дисперсия А.

Для замены вероятностей предлагается использовать формулы:

- 1 ^

Р(А] \Ск) = -~£(3)

>к т=1

_ £ /■ (т, /, ,)

Р(Ск1А1^,) = т1-

£ ^ (т, I, У)

т=1

— 1 1 P(Aj=Vj) = - £ ^ (т,/, У),

1 т=1

(4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(5)

где 1к - количество элементов в кластере Ск; I - общее количество элементов. Эвристика полезности разбиения с учетом изменений:

си = £ £ £ Р(Ау = Vj)P(Ck I А] = vIJ)P(AJ = V,, I Ск) ,

к=1 ,=1 1=1

(6)

где п-количество элементов в кластере, д - количество свойств, д - количество отсчетов параметра А,.

Таблица 2 - Пример работы алгоритма для образцов на рис. 3

к У Р(А]=у.]) Р(А.=у.\ск) Р(Ск\А.=У.) си

В1 В2 В1 В2 В1 В2 В1 В2

с- А- -2 0,006 0,500 0,007 0,618 0,404 0,404 0,000 0,125

-1 0,006 0,500 0,007 0,618 0,404 0,404 0,000 0,125

1 0,073 0,309 0,084 0,352 0,438 0,438 0,003 0,048

2 0,073 0,309 0,084 0,352 0,438 0,438 0,003 0,048

А2 -2 0,803 0,309 0,916 0,352 0,438 0,438 0,323 0,048

-1 0,803 0,309 0,916 0,352 0,438 0,438 0,323 0,048

1 0,803 0,500 0,993 0,618 0,404 0,404 0,323 0,125

2 0,803 0,500 0,993 0,618 0,404 0,404 0,323 0,125

С2 А-- -2 0,803 0,309 0,993 0,382 0,404 0,404 0,323 0,048

-1 0,803 0,309 0,993 0,382 0,404 0,404 0,323 0,048

1 0,803 0,568 0,916 0,648 0,438 0,438 0,323 0,161

2 0,803 0,568 0,916 0,648 0,438 0,438 0,323 0,161

А2 -2 0,073 0,568 0,084 0,648 0,438 0,438 0,003 0,161

-1 0,073 0,568 0,084 0,648 0,438 0,438 0,003 0,161

1 0,006 0,309 0,007 0,382 0,404 0,404 0,000 0,048

2 0,006 0,309 0,007 0,382 0,404 0,404 0,000 0,048

2,592 1,526

Значения V, представляют собой узлы некоторой сетки размером д

г .. тах(А.) - т!п(А}) , у.. = (г - 0.5)---—;г = 1..а .

у а

(7)

Рассмотрим пример работы модифицированного алгоритма (рис. 3). Результаты работы алгоритма, при размере сетки (количестве отсчетов) д = 4 и о1 = 1 для данного примера приведены в табл. 2.

На рис. 4 представлена экранная форма программного обеспечения, которое было разработано для проверки предложенного метода.

Рисунок 4 - Экранная форма программы

Выводы. Предложенная модификация алгоритма кластеризации Cobweb позволяет использовать его для образцов представленных в многомерном пространстве числовых параметров. Работоспособность алгоритма была проверена программно на ряде примеров.

Список литературы:

1. Люгер Д. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. - М. Изд-во «Вильямс», 2013. - 480 с.

2. Гурман В. Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 9-е изд. - М.: Высш. шк., 2003. - 479с.

List of references:

1. Luger G. F. Artificial Intelligence: Structures and Strategies for Complex Problem-Solving. - Addison Wesley, 2003. - 880 p.

2. Gurman V. E. Probability theory and mathematical statistics. - Moscow: Williams Publishing, 2013. - 480 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.