Научная статья на тему 'Оценка эффективности метода кластеризации, использующего субъективные оценки'

Оценка эффективности метода кластеризации, использующего субъективные оценки Текст научной статьи по специальности «Математика»

CC BY
306
152
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка эффективности метода кластеризации, использующего субъективные оценки»

ры К1. Поэтому после декомпозиции объекты и будут опять обладать семантикой в терминах предметной области.

Если же для реализации операции 01 используется общая часть часто задаваемых запросов, то объекту К-1 присваивается некоторое стандартное (внутрисистемное) имя и он будет обладать только конструктивной семантикой, которая отражает целостность и способ получения объектов

. Интерпретации в предметной области объекты 8-1 в этом случае иметь не будут. Однако если при дальнейшем функционировании СИС встретится поименованный запрос, выбирающий все объекты , объекту К-1 будет присвоено имя

этого запроса и объекты приобретут семантику в терминах предметной области.

Если операция 01 осуществляет разбиение объекта 81 на 8-1 и 8-1, то после формирования объектов К-1 и К-1 путем применения 01 ко всем 81е К1 операция 01 становится тривиальной, а операция 0-1 - эквивалентной обычной операции композиции объектов 81 и 81 , что позволяет удалить специализированные операции 0 и 0- . Наиболее часто разбиением является деление строки на две подстроки. Например, после выделения из всех адресов почтового индекса могут считаться самостоятельными структурами К1 - «почтовый индекс» и К-1 - «адрес», операции выделения почтового индекса и восстановления полного почтового адреса могут быть удалены.

Проблема формирования обобщенных показателей существенно более сложная, поэтому в данной работе рассмотривается только простейший вариант обобщения объектов.

Простое обобщение можно сформировать на основе принципа совместного использования данных. Например, если имеются отдельные парамет-

ры «число», «месяц» и «год», «часы», «минуты» и «секунды» или «фамилия», «имя» и «отчество», а их данные в подавляющем большинстве случаев используются совместно, то целесообразно ком-позировать их в укрупненные параметры «дата», «время» и «ФИО» с указанием местоположения каждого отдельного параметра в укрупненном параметре. При этом отдельные параметры будут соответствовать структурам 8-1, 8-1 и 8-1, а укрупненный параметр - структуре 81. Осуществление композиции укрупненного параметра из отдельных параметров будет соответствовать операции 0- , а выделение отдельных параметров из укрупненного параметра - операции 01.

Укрупнение параметров позволяет стандартно уменьшать количество компонентов в СИС без организации дополнительных слоев, что повышает эффективность обработки данных. Взаимообратные операции 0- и 0 , введенные для осуществления композиции и декомпозиции структур, являются операциями-шаблонами, для которых известны назначение, принцип действия и требования к исходным данным и результату. Особенности выполнения операций зависят от типов обрабатываемых данных и методов преобразования структур, поэтому их реализация на основе запросов пользователей будет определять возможности конкретных СИС в эволюции внутренней организации данных и достижении определенного максимума эффективности обработки данных.

Таким образом, открытость структур данных вверх и вниз в ЭМД позволяет создавать информационные модели предметной области с произвольной степенью детализации и последующим уточнением или огрублением этой модели с помощью средств, имеющихся в ЭМД.

Литература

1. Дрождин В.В. Системный подход к построению модели данных эволюционных баз данных // Программные продукты и системы. 2007. № 3. С. 52-55.

2. Система, симметрия, гармония. М.: Мысль, 1988. 315 с.

ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДА КЛАСТЕРИЗАЦИИ, ИСПОЛЬЗУЮЩЕГО СУБЪЕКТИВНЫЕ ОЦЕНКИ

Г.П. Виноградов, к.т.н.; А.А. Мальков

(Тверской государственный технический университет, wgp272ng@mail.ru)

В статье приведены результаты исследования эффективности метода кластеризации, представляющего собой нейронную сеть, реализующую принципы самоорганизации. Метод предполагает использование субъективных оценок качества кластеризации, формируемых на основе визуализации результатов кластеризации. Сравнение работы предложенного алгоритма с известными аналогами на примере задачи Фишера показало, что количество ошибок колебалось на уровне от 1 до 3 процентов, но при этом пользователь за счет участия в процессе расчетов мог быстро интерпретировать полученные результаты.

Ключевые слова: кластеризация, нечеткие оценки, визуализация, нейронные сети, самоорганизация.

В последнее время возрос интерес к разработке гибридных кластерных процедур, сочетающих

кластерный анализ с другими методами анализа данных [1-3]. В работе [4] предложена схема гиб-

ридной кластеризации, использующая процедуры конкуренции и кооперации, что позволяет с высокой степенью точности определять количество кластеров в условиях слабой выполнимости условий линейной разделимости. Уточнение результатов, полученных с помощью этого метода, достигается путем применения процедур кластеризации на базе нечетких отношений и технологии Visual Mining для получения субъективных оценок качества от исследователя [5].

Для проверки качества описанных в [4, 5] алгоритмов кластеризации и сравнения их с аналогами использовался стандартный тест, известный как задача об ирисах Фишера. Для каждого экземпляра ириса известны 4 параметра: длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка. Пятая переменная, целевая, обозначает класс (вид) и принимает значения: 1 - setosa, 2 - versicolor, 3 - virginica.

Сравнение разработанного метода (алгоритма) проводилось с базовым алгоритмом нечеткой кластеризации FCM, идея которого положена в основу известных пакетов интеллектуального анализа данных: Neural Planner, BrainMaker, MPIL в сочетании с алгоритмом разностного группирования. Последний необходим для определения количества кластеров. Прогонка алгоритма разностного группирования позволила получить два варианта количества и первоначального распределения кластеров: первый вариант - 2 кластера, второй вариант - 5 кластеров. Результаты работы этого алгоритма показаны в таблице 1.

Таблица 1

Анализ графиков функций принадлежности ирисов найденным кластерам, рассчитанных после уточнения координат центров алгоритмом FCM, показал высокое качество полученных вариантов кластеризации, хотя истинное количество классов равно трем. По результатам работы алгоритма FCM для первого варианта были рассчитаны значения критериев оценки качества: коэффициент четкости - 0,9973, индекс четкости - 0,0095, энтропия - 0,0096, нормализованная энтропия -0,0137, модифицированная энтропия - 0,0650, компактность - 0,9945, эффективность - 68004,03.

Значения показателя четкости и индекса четкости близки к единице и к нулю соответственно. Это указывает на четкое разбиение на кластеры. Значения энтропийных показателей близки к нулю, а показателя компактности и изолированности к единице. Это говорит о том, что найденные кластеры компактны и хорошо отделимы. Если зна-

чение индекса эффективности велико, найдено оптимальное количество кластеров. То есть по значениям формальных критериев можно сказать, что качество варианта кластеризации хорошее и, следовательно, нет объективных причин по формальным критериям отказываться от полученного варианта кластеризации. Полученные результаты показали: формальные методы, использующие только метрические меры сходства объектов, не позволяют выявить истинное разбиение множества объектов на кластеры. Для этого нужна дополнительная информация. Источником такой информации является эксперт, который знает, что данные содержат сведения о трех типах ирисов и что versicolor - это гибрид setosa и virgnica.

Для получения этой информации была выполнена визуализация результатов кластеризации по результатам применения метода главных компонент. Это позволило отобразить результаты кластеризации в трехмерном пространстве и создало основу для получения субъективных оценок о качестве кластеризации (рис. 1).

Кластер первой группы Кластеры второй и третьей групп

Рис. 1. Визуализация результатов кластеризации

Визуализация варианта кластеризации показала, что ирисы первого кластера представляют компактную группу и хорошо отделимы от ирисов второй и третьей групп. Ирисы, принадлежащие 2-му и 3-му классам, плохо отделимы друг от друга. Исходя из анализа критериальных оценок и визуальной субъективной оценки, экспертом была дана оценка качества «плохо», так как данное решение не соответствует его представлениям о виде структуры исходных данных.

Результат работы алгоритма FCM в случае 5 кластеров представлен в таблице 2.

Таблица 2

Координаты найденных центров Номер кластера

Длина (мм) Ширина (мм)

чашелистика лепестка чашелистика лепестка

50,8964 14,6216 36,6603 3,0028 1

61,3667 48,6041 29,9996 15,9903 2

65,7067 56,1599 29,0595 20,7389 3

49,4813 14,6372 32,4378 2,0623 4

59,9988 41,0369 26,9052 12,5858 5

По значениям критериев оценки качества кластеризации: коэффициент четкости - 0,6639, ин-

Координаты найденных центров Номер кластера

Длина (мм) Ширина (мм)

чашелистика лепестка чашелистика лепестка

50,0617 14,6199 34,2832 2,4595 1

62,6306 49,0793 28,7235 16,7671 2

декс четкости - 0,5674, энтропия - 0,5870, нормализованная энтропия - 0,3526, модифицированная энтропия - 0,9986, компактность - 0,5799, эффективность - 44974,94 можно сказать, что произведенное разбиение хуже, чем в предыдущем варианте.

Анализ значений координат центров кластеров показал, что 3-й и 4-й центры находятся достаточно близко друг к другу. То же можно сказать о 2-м и 5-м найденных центрах. Это позволило эксперту сделать вывод о том, что существуют 3 центра, то есть 3 кластера, соответствующих 3 классам ирисов.

Для получения оценок об истинном количестве кластеров алгоритм разностного группирования был заменен алгоритмом на основе конкуренции и кооперации нейронов [4]. Параметрами для его запуска служит количество нейронов. Для данной задачи первоначальное количество нейронов равнялось 9. Полученное решение приведено в таблице 3.

Таблица 3

Как видно из таблицы, алгоритм нашел верное количество кластеров - 3. Если сравнить координаты центров, найденные указанным алгоритмом, с координатами центров первого варианта кластеризации, можно сделать вывод о том, что центры всех вариантов кластеризации для данных, относящихся к первому классу, очень близки. Это говорит о том, что данный алгоритм легко распознает хорошо сгруппированные данные. Что касается данных 2-го кластера, то алгоритм предложил разбиение его на два класса; это верно с точки зрения семантики задачи.

Алгоритм ГСМ позволил уточнить полученное решение и найти степени принадлежности данных различным классам. Графики функций принадлежности приведены на рисунке 2.

Анализ графиков показал, что данные, относящиеся к первому классу, хорошо распознаны. Функции принадлежности для второго и третьего кластеров ведут себя скачкообразно. Это указывает на некоторый процент пересечения данных, относящихся ко 2-му и 3-му классам ирисов. На втором и третьем графиках также видно, что первые девять ирисов третьего класса отнесены алгоритмом ГСМ ко второму классу, что является ошибкой.

Для дальнейшего анализа варианта кластеризации были вычислены значения формальных критериев: коэффициент четкости - 0,7270, индекс четкости - 0,4673, энтропия - 0,4769, норма-

лизованная энтропия - 0,4254, модифицированная энтропия - 0,4039, компактность - 0,5905, эффективность - 54812,61.

Значение показателя четкости указывает на процент пересечения кластеров. Значение индекса четкости, равного 0,4039, указывает на нечеткое разбиение на кластеры. По значениям энтропийных показателей, показателя компактности и изолированности можно сделать вывод о том, что не все кластеры компактны и не все данные хорошо разделимы. Значение индекса эффективности выше, чем при варианте с пятью кластерами, и ниже, чем при варианте с двумя кластерами. Это означает, что найденный вариант кластеризации может быть достаточно близким к оптимальному.

В отличие от предыдущих вариантов кластеризации на данном этапе визуализация решения необходима для оценки качества кластеризации и определения возможности улучшения решения.

Координаты найденных центров Номер кластера

Длина (мм) Ширина (мм)

чашелистика лепестка чашелистика лепестка

50,1476 14,6602 34,3829 2,4429 1

60,3171 45,1356 28,1159 14,9215 2

65,7660 54,6229 29,6657 19,3108 3

Функция принадлежности для первого кластера

1,2000

1,0000 0,8000

0,6000

0,4000

0,2000

0,0000 -0,2000

1 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160

Рис. 2. Виды функций принадлежности

По проекциям данных на плоскость первых двух главных компонент установлено, что с 9 ошибками найдено распределение ирисов по трем классам. Уменьшение ошибки связано с корректировкой координат центров кластеров. Направление корректировки определялось по оценкам эксперта путем сравнения оценок результатов кластеризации. Новые координаты центров представлены в таблице 4.

Таблица 4

Графики функций принадлежности приведены на рисунке 3.

По поведению функции принадлежности, представленной на первом графике, можно сказать, что первый кластер хорошо отделим от двух других - значения степеней принадлежности практически всех данных первого класса равны единице. На втором и третьем графиках значения степеней принадлежности практически всех данных первого класса равны нулю. По поведению функций принадлежности второго и третьего кластеров можно сделать вывод о том, что они имеют общие объекты и данные, принадлежащие им, все еще полностью не разделены.

Значения формальных параметров, соответствующие варианту кластеризации, говорят об улучшении результатов кластеризации: коэффициент четкости - 0,8747, индекс четкости - 0,2152, энтропия - 0,2195, нормализованная энтропия -0,1958, модифицированная энтропия - 0,2223, компактность - 0,8121, эффективность - 61571,11.

По сравнению с предыдущим вариантом значение показателя четкости приблизилось к единице, значения энтропийных показателей уменьшились. Также улучшились значения других критериев. Однако значение индекса четкости уменьшилось; это говорит о том, что разбиение стало менее четким.

Визуальное представление результатов кластеризации показало наличие четырех ошибок для полученных оценок координат центров кластеров и значений функций принадлежности объектов каждому кластеру. Качество данного варианта кластеризации оказалось достаточно неплохим (ошибка составила 2,7 %). Сравнивая графики функций принадлежности предыдущего и текущего вариантов кластеризации, можно сказать, что система позволила найти более качественное решение.

В результате продолжения вычислительного эксперимента было найдено 15 (вместе с уже рассмотренными) альтернатив разбиения исходных данных на 3 кластера. По результатам расчетов построены графики процента ошибок и количества кластеров для всех вариантов кластеризации (рис. 4). Их анализ показал, что количество кластеров стабилизировалось и наблюдается сходимость числовой последовательности, содержащей значения процента ошибки.

Функция принадлежности для первого кластера

1,2000 1,0000 0,8000 0,6000 0,4000 0,2000 0,0000 -0,2000

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160

Функция принадлежности для второго кластера

1,2000 1,0000 -0,8000 -0,6000 -0,4000 -0,2000 -0,0000 --0,2000 -

М

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 16

Функция принадлежности для третьего кластера

1,2000 1,0000 0,8000 0,6000 0,4000 0,2000 0,0000 -0,2000

10 20 30 40 50 60 70 80 90 100 110 120 130 14

Рис. 3. Графики функций принадлежности по результатам корректировки

Рис. 4. Изменение качества кластеризации

Координаты найденных центров Номер кластера

Длина (мм) Ширина (мм)

чашелистика лепестка чашелистика лепестка

50,0629 14,6190 34,2860 2,4587 1

59,7415 42,4537 27,8867 13,1920 2

65,2592 55,1905 29,4609 20,2406 3

Лингвистический критерий "Качество альтернативы"

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Плохое — — Среднее

Хорошее — - -Отличное

— - - Более-менее хорошее

Рис. 5. Лингвистический критерий «качество кластеризации»

Для выбора лучшей альтернативы по каждому варианту кластеризации рассчитаны оценки по формальным критериям, нечеткие оценки обобщенного критерия по методике и субъективные оценки результатов кластеризации, приведенной в работе [5]. Из множества найденных решений отбирались те альтернативы, качество которых превышало заданный экспертом уровень. Для определения числового эквивалента качества результатов кластеризации введен лингвистический критерий «качество кластеризации» как универсальное множество, для которого использован интервал изменения значений обобщенного критерия. Терм-множества - лингвистические оценки эксперта качества вариантов кластеризации. Функции принадлежности термов показаны на рисунке 5.

Для выбора альтернативы (альтернатив) приемлемого качества были найдены нечеткие оценки по функциям принадлежности лингвистического критерия «качество альтернативы» для каждой альтернативы. Для определения недоминируемых альтернатив экспертом был выбран уровень значимости, равный 0,5. Альтернативы с нечеткими оценками, превышающими этот уровень, считались недоминируемыми. Таким образом, для дальнейшей оценки отобраны 6 альтернатив (табл. 5).

Для выбора среди них оптимального варианта было построено нечеткое множество взаимно недоминируемых альтернатив. Соответствие значений функции принадлежности нечеткому множеству взаимно недоминируемых альтернатив следующее: 0,5 - 4; 0,55 - 6; 0,55 - 9; 0,55 - 10; 0,5 - 12; 0,6 - 17.

По этим данным построен график степени убежденности эксперта в том, что рассматриваемая альтернатива является наилучшей (рис. 6).

Таким образом, оптимальной оказалась альтернатива с номером 17. Данный вариант кластеризации предлагает разбиение исходной совокупности данных на 3 кластера. Ошибка данного варианта составила 2 %, а обобщенная оценка максимальна среди оценок вариантов с минимальным количеством ошибок.

Координаты центров данного варианта представлены в таблице 6.

Таблица 6

Координаты центров Номер кластера

Длина (мм) Ширина (мм)

чашелистика лепестка чашелистика лепестка

49,6744 14,6315 33,1311 2,1814 1

59,8047 44,0561 28,4538 14,0716 2

65,2044 54,5166 29,7299 19,6816 3

Сравнение работы предложенного алгоритма кластеризации с результатами работы аналогов показало, что количество ошибок является сопоставимой величиной и колебалось на уровне от 1 до 3 %, но при этом эксперт получал возможность легко интерпретировать полученные результаты. Существенным отличием явилось то, что количество признаков, по которым производилась кластеризация, не увеличивалось, то есть их было 4. В других продуктах добавлялись дополнительные признаки (по крайней мере один - указывался класс ириса), что естественно увеличивало время работы системы и стоимость анализа. Кроме того, в большинстве практических задач на начальном этапе трудно обосновать введение дополнительных атрибутов, что делает проблематичным интерпретацию полученного разбиения.

Литература

1. Батыршин И.З., Климова А.С. Гибридная реляционная кластеризация и визуализация данных // НСМВ-2006: тр. Все-рос. научн. конф. «...». М.: Физматлит, 2006. С. 193-209.

2. Виноградов Г.П., Мальков А.А. Кластеризация на основе нечетких отношений и технологии Visual Mining // Системы управления и информационные технологии. 2008. № 1.1 (31). С. 137-141.

3. Pedrycz W. Knowledge-Based Clustering. From Data to Information Granules. Wiley-Interscience, 2005, p. 336.

4. Виноградов Г.П., Мальков А.А. Модели поиска структур данных на основе конкуренции и кооперации. Управление большими системами: сб. тр. Вып. 22. М.: ИПУ РАН, 2008.

5. Виноградов Г.П., Мальков А.А. Эволюционные методы кластеризации, использующие нечеткие отношения и субъективные оценки // Интеллект. системы. Интеллект. САПР: сб. тр. Междунар. науч.-технич. конф. М.: Физматлит, 2008. Т. 1.

Таблица 5

Номер Лингвистическая оценка Числовой

альтернативы эксперта эквивалент

4 хорошо 0,9533

6 хорошо 0,5272

9 более-менее хорошо 0,8504

10 более-менее хорошо 0,5277

12 хорошо 0,5474

17 более-менее хорошо 0,5823

i Надоели баннеры? Вы всегда можете отключить рекламу.