Научная статья на тему 'Построение ансамбля деревьев решений в кластерном анализе'

Построение ансамбля деревьев решений в кластерном анализе Текст научной статьи по специальности «Математика»

CC BY
874
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / КОЛЛЕКТИВ АЛГОРИТМОВ / ЛОГИЧЕСКАЯ МОДЕЛЬ / ДЕРЕВО РЕШЕНИЙ / CLUSTER ANALYSIS / COLLECTIVE OF ALGORITHMS / LOGICAL MODEL / DECISION TREE

Аннотация научной статьи по математике, автор научной работы — Бериков Владимир Борисович

Разработан и исследован коллективный алгоритм кластерного анализа. Проведено теоретическое обоснование ансамблевых алгоритмов, основанных на попарной классификации объектов. Предложен алгоритм кластерного анализа, использующий ансамбль деревьев решений. Алгоритм позволяет проводить классификацию в разнотипном пространстве переменных. Проведено исследование алгоритма с помощью статистического моделирования и решения тестовых задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бериков Владимир Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of an ensemble of decision trees in the cluster analysis

This paper addresses a development and studying of collective algorithms in the cluster analysis. We give a theoretical foundation for the ensemble algorithms based on a pair-wise classification. An algorithm of cluster analysis using an ensemble of decision trees is suggested.

Текст научной работы на тему «Построение ансамбля деревьев решений в кластерном анализе»

Вычислительные технологии

Том 15, № 1, 2010

Построение ансамбля деревьев решений в кластерном анализе*

в.б. бериков

Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия

e-mail: berikov@math.nsc.ru

Разработан и исследован коллективный алгоритм кластерного анализа. Проведено теоретическое обоснование ансамблевых алгоритмов, основанных на попарной классификации объектов. Предложен алгоритм кластерного анализа, использующий ансамбль деревьев решений. Алгоритм позволяет проводить классификацию в разнотипном пространстве переменных. Проведено исследование алгоритма с помощью статистического моделирования и решения тестовых задач.

Ключевые слова: кластерный анализ, коллектив алгоритмов, логическая модель, дерево решений.

Введение

В задаче кластерного анализа (см., например, [1, 2]) требуется сформировать сравнительно небольшое число групп объектов, которые были бы как можно более схожими между собой внутри каждой группы и как можно более различающимися в разных группах. Известные подходы к решению этой задачи зависят от способа понимания "похожести" и "различия" объектов, разного рода дополнительных предположений и т. д. Так, в вероятностном подходе считается, что наблюдаемые в многомерном пространстве объекты принадлежат различным классам, причем каждый класс характеризуется вероятностным распределением с неизвестными параметрами. Геометрический подход использует аналогии с классификацией, которую проводит исследователь при анализе изображений на плоскости или в трехмерном пространстве. При использовании логического подхода предполагается, что каждый кластер описывается некоторой достаточно простой логической закономерностью.

Одной из актуальных задач кластерного анализа является группировка объектов, описываемых разнотипными (количественными или качественными) факторами. В случае разнотипного пространства возникает методологическая проблема определения в нем метрики.

Другая актуальная проблема — повышение устойчивости группировочных решений. В большинстве алгоритмов кластерного анализа результаты могут сильно меняться в зависимости от выбора начальных условий, порядка объектов, параметров работы алгоритма и т. п.

Наконец, определенную трудность вызывает неоднозначность нумерации кластеров, особенно в случае большого числа классов. Поскольку номера кластеров не играют

*Работа выполнена при финансовой поддержке РФФИ (гранты № 08-07-00136аи 09-07-12087-ой_т).

© ИВТ СО РАН, 2010.

роли, удобнее использовать попарную классификацию, т, е, определять, относится ли каждая пара объектов к одному и тому же классу либо к разным классам.

Одним из перспективных подходов к решению задач кластерного анализа в разнотипном пространстве является подход, основанный на логических решающих функциях (логических моделях). Логические модели широко используются для решения задач распознавания и прогнозирования [3-5], Это объясняется хорошей интерпретируемостью результатов, имеющих вид логических закономерностей, высокой прогнозирующей способностью, возможностью обрабатывать разнотипные переменные, выделять наиболее важные факторы. Разработке алгоритмов построения логических моделей кластерного анализа была посвящена, например, работа [6]. Впервые алгоритм кластерного анализа с использованием логических решающих функций был предложен в [7]. В работе [8] был описан метод построения логической функции в задаче кластерного анализа, основанный на рекурсивном алгоритме построения дерева решений. Этот алгоритм позволяет путем увеличения глубины перебора находить более сложные логические закономерности, описывающие структуру кластеров.

Известно, что устойчивость решений в кластерном анализе может быть повышена путем применения ансамблей алгоритмов (см, например, [9, 10]), При этом используются результаты, полученные различными алгоритмами или одним алгоритмом, но с разными параметрами настройки, по различным подсистемам переменных и т, д. После построения ансамбля находится итоговое коллективное решение. Идея построения коллективных решений, основанных на комбинации простых алгоритмов, активно используется в современной теории и практике интеллектуального анализа данных, распознавания образов и прогнозирования (см., например, алгоритмы оценок [11], алгоритмы бэггинга [12], буетинга [13] и др.). Теоретический анализ алгоритмов коллективной классификации (см., например, [12, 14, 15]) показывает, что качество решений, как правило, улучшается при увеличении числа алгоритмов, входящих в ансамбль. Целью настоящей работы является:

1 — теоретическое обоснование алгоритмов ансамблевого кластерного анализа, основанных на попарной классификации объектов;

2 — описание методики, использующей сочетание логических моделей классификации и ансамблевых алгоритмов;

3 — практическое подтверждение эффективности предложенной методики. Материал статьи изложен в следующем порядке, В первом разделе даются основные

определения и понятия, используемые в работе, проводится теоретическое обоснование эффективности ансамблевых алгоритмов. Во втором разделе описывается алгоритм построения логических решающих функций (деревьев группировочных решений) в кластерном анализе, предлагается методика построения коллективного группировочного решения, В третьем разделе рассматриваются примеры решения модельных и тестовых задач, В заключении приводятся основные выводы работы,

1. Ансамблевый кластерный анализ с использованием попарной классификации

Пусть имеется выборка объектов исследования в = {о(1),..., о(м)}, которая сформирована в результате отбора некоторых представителей генеральной совокупности. Требуется сформировать К > 2 классов (групп объектов); число классов может быть как

задано, так и не задано (в последнем случае оптимальное количество кластеров должно быть определено автоматически).

Каждый объект генеральной совокупности описывается с помощью набора переменных X = Х\,... ,Хп. Набор X может включать переменные разных типов (количественные и качественные, под которыми будем понимать номинальные и булевы, а также порядковые). Пусть Dj — множество значений переменной Х^. Обозначим через х = X(о) набор наблюдений переменных для объекта о, гДе X(о) = (х1,... ,хп), х^ = Xj(о) — значение переменной Xj для данного объекта, ] = 1,...,п. Соответствующий выборке набор наблюдений переменных будем представлять в виде таблицы данных с N строками и п столбцами.

Предположим, что имеется некоторая скрытая (непосредственно не наблюдаемая) переменная У, которая задает принадлежность каждого объекта к некоторому из К > 2 классов. Каждый класс характеризуется определенным законом условного распределения р(х\У = к) = рк(х), к = 1,... ,К. Рассмотрим следующую вероятностную модель генерации данных. Пусть для каждого объекта определяется класс, к которому он относится, в соответствии с априорными вероятностями Рк = Р(У = к), к = 1,...,К, к

где Е Рк = 1. Затем в соответствии с раепределением рк (х) определяется значение х. к=1

Указанная процедура проводится независимо для каждого объекта.

Пусть с помощью некоторого алгоритма кластерного анализа ^ по таблице данных строится разбиение множества объектов в на К подмножеств. Под группировочным решением будем понимать набор С = {С(1),..., С(к),..., С(к)}, где С= {о(ч),..., о(%мк)}, ^ — число объектов, входящих в к-й кластер, к = 1,... ,К. Группировочной решающей функцией назовем отображение f : в — {1,... ,К}.

Поскольку нумерация кластеров не играет роли, удобнее рассматривать отношение эквивалентности, т. е, указывать, относит ли алгоритм ^ каждую пару объектов в один и тот же класс либо в разные классы. Определим для каждой пары о(г) и величину

( 0, если объекты отнесены в один класс, , ,

= | 1, шаче; (1)

где г,] = 1,...,^г = 3-

Рассмотрим произвольную пару а, Ь различных объектов выборки. Обозначим соответствующие наблюдения через ха и хь.

Пусть Ру = Р(У(а) = У(Ь)) — вероятность отнесения объектов к различным клае-К=2

Ру = 1 - Р(У(а) = 11ха)Р(У(Ь) = Цхь)--Р(У(а) = 2\ха)Щ¥(Ь) = 2\хь) = 1 -

2

где р(хо) = Рк(хо)Рк, о = а, Ь. к=1

Обозначим вероятность ошибки, которую может совершить алгоритм ^ при классификации а и Ь, через Рег>^,

Р =\ Ру, если к^а,ь = 0, Рег'^ 11 - Ру, если Н,,а,ь = 1.

Легко заметить, что

(1 - К,а,Ъ)Ру + ^>0>ь(1 - Ру) = Ру + (1 - 2Ру)Н^а,Ъ.

(2)

Предположим, что алгоритм ^ зависит от случайного вектора параметров в £ ©, где © — некоторое допустимое множество параметров: ц = ^(в), Например, в алгоритме к-средпих результаты работы зависят от случайного исходного разбиения выборки на К подмножеств. Чтобы подчеркнуть зависимость результатов работы от параметра в, введем обозначения Н^(©),а,Ъ = Л-(в), Рег,^(©) = Рег(в).

Пусть в результате ¿-кратного применения алгоритма ^ со случайно и независимо отобранными параметрами 9\,..., 9ь получен набор решений к(9\),..., к(9ь). Для определенности будем считать, что Ь — нечетно. Коллективным (ансамблевым) решением по большинству голосов будем называть функцию

Интересно исследовать поведение коллективного решения в зависимости от мощности ансамбля Ь, Заметим, что одиночный алгоритм ^(в) также можно рассматривать

Ь=1

Утверждение 1. Математическое ожидание и дисперсия величины вероятности ошибки для алгоритма ^(в) равны соответственно

где Рн = Р(й(в) = 1).

Доказательство. Справедливость выражения для математического ожидания следует из (2) и из того, что Е©Л,(в) = Рн. Рассмотрим выражение для дисперсии. По определению, Уаг©Рег(в) = Е©Ре2(в) — (Е©Рег(в))2. Далее,

Е©Рег(в) = Ру + (1 - 2Ру)РН, Уаг©Рег(в) = (1 - 2Ру)2РН(1 - Рн)

Е©Р2Г(в) = Е©(Ру + (1 - 2Ру)^(в))2 = = Е©(Р2 + 2Ру(1 - 2Ру)Н(в) + (1 - 2Ру)2^(в)2).

2

Так как Е©Л,2(в) = Е©Л,(в) = Рн, то получим

Е©Ре2г(в) = Р2 + 2(1 - 2Ру)РуРн + Рн(1 - 2Ру)2 = = Р2 + (1 - 2Ру)Рн(2Ру + 1 - 2Ру) = Р2 + (1 - 2Ру)РН.

2

Отсюда

Обозначим через Per(Oi,..., ©L) случайную функцию, значение которой при фиксированных аргументах равно вероятности ошибки, которую может совершать ансамблевый алгоритм при классификации a и b, Здееь O1,..., ©L — статистические копии случайного вектора ©, Рассмотрим поведение вероятности ошибки для коллективного решения.

Утверждение 2. Математическое ожидание и дисперсия величины вероятности ошибки для коллективного решения равны соответственно

E©1)...)©lPer(©i,..., ©l) = Py + (1 - 2Py)Ph,l, Vareb...,©LPer(©i,..., ©l) = (1 - 2Py)2Ph,l(1 - Ph,l),

(\ ь А ь

где Рн ь = Р — / Ь,{6{) > - = ^ ~~ Рн)ь~1, Г"1 означает целую часть

1=1 2/ ¡=Г* 1+1

числа.

Доказательство данного утверждения аналогично доказательству утверждения 1 (вероятность ошибки коллективного решения определяется по формуле, аналогичной формуле (2)), Кроме того, ясно, что распределение числа голосов, отданных за решение к = 1, является биномиальным Вт(Ь, Рн).

Воспользуемся следующей априорной информацией об алгоритме кластерного анализа, Будем считать, что ожидаемая вероятность ошибочной классификации Е©Рег (в) <

-, т.е. ожидается, что алгоритм ¡1 проводит классификацию с лучшим качеством, чем алгоритм случайного равновероятного выбора. Из утверждения 1 следует, что выполняется один из двух вариантов: а) Р^ > — и Ру > -; б) Р^ < - и Ру < -, Рассмотрим, для определенности, первый случай.

Утверждение 3. Если Е©Рег(в) < — и при этом Р^ > - и Ру > —, то с увеличением

мощности ансамбля ожидаемая вероятность ошибочной классификации уменьшается,

1 - Ру

стремится к нулю.

Доказательство. Из интегральной теоремы Муавра—Лапласа следует, что при увели-Ь

стремится к

1 - Ф

1/2 - Ph

y/Ph(l-Ph)/L/

где Ф(-) — функция распределения стандартного нормального закона. Значит, при L то PH,L монотонно увеличивается, стремясь в пределе к 1, Из того что

E©i;...;©l Per(©1, ..., ©l) = Py + (1 - 2Py)Ph,l,

где (1 - 2Py) < 0, и из утверждения 2 следует справедливость утверждения 3,

Очевидно, что в случае б) ожидаемая вероятность ошибки при увеличении мощности ансамбля также уменьшается, стремясь в пределе к величине PY; при этом дисперсия ошибки стремится к нулю.

Доказанное утверждение позволяет сделать вывод о том, что при выполнении определенных вполне естественных условий применение ансамбля позволяет улучшить качество кластеризации.

2. Логические модели в кластерном анализе

Рассмотрим более подробно логический подход к задаче кластерного анализа. Под логической моделью группировки данных будем понимать дерево, в котором внутренней вершине (узлу) соответствует некоторая переменная Xj, а ветвям, выходящим из данной вершины, соответствует истинность определенного высказывания вида Xj (о) £ Е(г\ где о — некоторый объект, г = 1,... V > 2 — число ветвей, выходящих из вершины, причем набор Е^1,..., есть разбиение множества значений Б у Каждому ш-му листу (концевой вершине) дерева соответствует группа объектов выборки, удовлетворяющих цепочке высказываний, проверяемых по пути из корневой вершины в этот лист. Данной цепочке можно сопоставить логическое утверждение вида

3(ш) = если ^ (о) £ Е^и Xj2 (о) £ Е^ и ... и Xjqm (о) £ Е^1,

ош

где — длина данной цепочки. Описанное дерево будем называть группировочным деревом решений.

После группировки объектов некоторым алгоритмом можно строить логическую модель, т, е, решать задачу распознавания образов в классе логических решающих функций, где под образами понимаются номера кластеров, приписанные объектам. Однако алгоритм, в котором группировка осуществляется непосредственно при построении логической модели, позволяет в наилучшей степени отразить логическую структуру данных,

2.1. Построение группировочного дерева решений

Рассмотрим дерево решений с М листьями. Этому дереву соответствует такое разбиение пространства переменных на М попарно непересекающихся подобластей Е(1),..., Е( м\ при котором каждому ш-му листу сопоставляется подобласть Е( т\ ш = 1,..., М. Разбиению пространства переменных, в свою очередь, соответствует разбиение выборки на подмножества С(1),..., С(м 1. Рассмотрим произвольную групп у объектов С(т). Описанием этой группы назовем следующую конъюнкцию высказываний:

Н(С(т1) = XI £ Т(т) и ... иXj £ т(т1 и ... иXn £ ТПт\

(т1

где ' — отрезок

в случае количественной или порядковой

, Xj(о); Xj(о)

переменной Xj• либо множество принимаемых значений {Xj (о)| о £ С(т)} в случае качественной переменной. Подобласть пространства переменных Т(т) = Т(т) х • • •хТПт1,

ш

л

где через | обозначена длина интервала (в случае количественной или порядковой переменной X)) либо мощность (число значений) соответствующего подмножества в случае качественной переменной X*, ] = 1,..., п. Под объемом таксона будем понимать величину

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п

Ут = П б*.

3=1

Под критерием качества группировки при заданном числе кластеров будем понимать суммарный объем таксонов

м

А ^ ^ Ут(т) .

Ш=1

Оптимальной группировкой будем считать группировку, для которой значение данного критерия минимально. Заметим, что в случае, когда все переменные количественные, минимизация критерия означает минимизацию суммарного объема многомерных параллелепипедов, "охватывающих" группы. Если же число кластеров заранее не задано, под критерием качества будем понимать величину [5]

М

Р = Д + 7-,

где ^ > 0 _ некоторый заданный параметр, подбираемый экспериментально. При минимизации этого критерия, с одной стороны, получаем таксоны минимального объема, с другой — стремимся уменьшить число этих таксонов,

В узлах дерева использован самый простой вид предиката. При увеличении сложности предиката (например, при проверке условия относительно линейной комбинации переменных) увеличивается сложность класса разбиений пространства переменных. Однако в данной работе такая возможность не используется, так как лишь в случае, когда решающая функция задана в виде набора конъюнкций простых предикатов, результаты анализа представляются на языке, близком к естественному языку логических суждений.

Для построения дерева могут использоваться описанный в работе |3| метод последо-нательного ветвления ЬЕР или рекурсивный Е-метод [16]. На каждом шаге алгоритма ЬКР некоторая группа объектов, соответствующая висячей вершине дерева, разделяется на две новых подгруппы. Разделение происходит с учетом критерия качества группировки, т, е, минимизируется суммарный объем полученных таксонов. Перспективной для дальнейшего ветвления считается вершина, для которой относительный объем соответствующего таксона больше, чем заданный параметр. Разделение продолжается до тех пор, пока не останется более перспективных вершин либо не будет получено заданное число групп, В случае сложной зависимости между переменными метод последовательного ветвления, как правило, не позволяет достичь удовлетворительного решения задачи. Можно привести примеры, из которых видно, что для выявления структуры разбиения при построении дерева решений необходимо учитывать одновременно несколько переменных, что невозможно при последовательном ветвлении, В этом случае целесообразно применять рекурсивный метод. Для данного метода используется второй вариант критерия качества группировки Р, для которого число групп заранее не задано. Суть предлагаемого метода состоит в следующем:

— строится "начальное" дерево с корневой вершиной В и максимально возможным числом дочерних вершин, для которого затем рекурсивным образом строятся (локально) оптимальные по заданному критерию поддеревья;

В

при объединении и рекурсивном построении соответствующего (локально) оптимального поддерева дают наилучшее значение критерия.

Максимальная глубина рекурсивной вложенности задается параметром К. Путем увеличения К можно увеличивать глубину перебора вариантов, что позволяет учитывать более сложные зависимости между переменными (при этом возрастают время работы и требуемый объем памяти). Показано, что алгоритм обладает полиномиальной трудоемкостью. Отличительная черта алгоритма состоит в том, что заранее число ветвей, выходящих из каждой вершины, не фиксируется, а ищется их оптимальное число. Кроме того, для алгоритма характерно, что при построении "начального" дерева образуются таксоны небольшого объема, которые затем "сливаются" в один или в несколько более объемных таксонов так, чтобы улучшить критерий качества группировки,

2.2. Построение коллективного группировочного решения

Пусть получен набор группировочных решений С = {0(1),..., 0(1\ ..., 0(ь^}, где 0(4-1-й вариант группировки, содержащий К (О кластеров. Каждый 1-й вариант формируется в результате применения рекурсивного алгоритма построения группировочного дерева решений в случайном подпространстве переменных (обозначим соответствующий алгоритм через щ).

Полученный набор группировочных решающих функций обозначим через ¥ = {f(1),..., f(ь)}, Согласующей функцией назовем отображение ¥ — д, где д — некоторая группировочная решающая функция.

Для выбора наилучшей согласующей функции могут быть использованы различные принципы. Так, в работе [9] предлагается принцип максимизации количества взаимной информации, которая относится к итоговой группировке с учетом исходных группировочных решений. Используем известный принцип, основанный на нахождении согласованной матрицы подобия (или различия) объектов.

Обозначим через Н11 бинарную матрицу Н11 = {Н(1\г,])} размерности N х N которая вводится для 1-й группировки, следующим образом:

н()(г,3) = Н^оО) ,ош,

где величина ,ош введена в разделе 1 (см, фор мулу (1)), г,] = 1,...,Ж (г =

]), I = 1,..., Ь. После построения Ь группировочных решений можно сформировать согласованную матрицу различий Н = {Н(г,])},

1=1

Величина Н(г, ]) равна частоте классификации объектов о(г) и о^1 в разные группы в наборе группировок С, Близкое к пулю значение этой величины означает, что данные объекты имеют большой шанс попадания в одну и ту же группу, близкое к единице — указывает на то, что шанс оказаться в одной группе у объектов незначителен.

После вычисления согласованной матрицы различий для нахождения итогового варианта группировки будем применять стандартный агломеративный метод построения дендрограммы, который в качестве входной информации использует попарные расстояния между объектами [2]. При этом расстояния между группами будем определять по принципу "средней связи", т, е, как среднее арифметическое попарных расстояний между объектами, входящими в группы,

3. Экспериментальное исследование ансамблевого алгоритма

Для определения качества алгоритма была разработана процедура статистического моделирования, Процедура состоит в следующем:

— многократное генерирование случайных выборок в соответствии с заданным распределением для каждого класса;

— построение с помощью алгоритма согласованного группировочного решения для каждой выборки;

— определение качества группировки;

— нахождение усредненного по всем выборкам показателя качества.

Для построения деревьев использовался рекурсивный алгоритм с параметрами R = 1, y = 1. Усреднение проводилось по 100 случайным выборкам, являющимися реализациями смеси указанных распределений. Качество группировки Pcor определяется как частота правильной классификации. Оценивался 95%-й доверительный интервал для вероятности правильной классификации. Ниже даны результаты моделирования для трех тестовых примеров.

Пример 1. Распределение для каждого из K = 2 классов является многомерным нормальным с одной и той же ковариационной матрицей Е, Вектор математических ожиданий для каждого класса выбирается случайно из множества вершин единичного гиперкуба; ковариационная матрица является диагональной: Е = al, где а принимает значения из множества {0.1; 0.2; 0.3; 0.4}. Из общего числа переменных 50 являются количественными (их номера выбираются случайно), а 50 — булевыми. Для булевых переменных исходные значения, полученные с помощью датчика случайных чисел,

{0; 1}

и второго классов равен 25. Число деревьев в анеамбле задано L =10; каждое дерево

2

показателей качества. Для сравнения указаны аналогичные усредненные показатели для одиночных деревьев. На графиках также отмечены соответствующие доверительные интервалы. Как видно из рисунка, применение ансамбля позволяет существенно улучшить качество группировки при условии, что классы не очень сильно пересекаются (при а < 0.3).

Пример 2. В отличие от предыдущего примера, число классов K = 3; для количественных переменных векторы математических ожиданий для каждого класса выбираются случайно из множества {1, 2,..., 10}. Некоторые переменные (их номера определяются случайно) являются шумовыми; для остальных переменных дисперсия а = 3. Каждое дерево строится в случайно выбранном подпространстве переменных размерно-

3

классифнкацин в зависимости от числа деревьев, входящих в ансамбль; при различном числе шумовых переменных.

0.85 0.8 0.75 8 0.7 0.65 0.6 0.55 0.5

Рис. 1. Частота правильных решений Pcor ансамблевого алгоритма (i) и алгоритма построения одиночного дерева (2) в зависимости от дисперсии a

К

ч 1

ч

0.1 0.15

"Ч--

0.2

'Ч-+-

0.25 „ 0.3 О

i

0.35 0.4

Рис. 2. Частота правильных решений ансамблевого алгоритма в зависимости от мощности ансамбля при различном числе шумовых переменных: 1 — 20, 2 — 40, 3 — 80; Ь — число деревьев в ансамбле

Отметим, что при достаточно большой мощности ансамбля частота правильных ре-

1

Пример 3. С помощью статистического моделирования проводилось сравнение разработанного алгоритма с алгоритмом к-средних и алгоритмом построения дерева решений (последние два работали в пространстве всех переменных). При этом из 100 количественных переменных 90 являлись шумовыми (их номера выбирались случайно); для остальных переменных величина а = 0.25, число классов К = 2, объем выборки для каждого класса равен 25. Полученный график зависимости частоты правильной классификации от мощности ансамбля представлен па рис. 3. Видно, что при увеличении мощности ансамбля качество коллективного алгоритма становится лучше, чем двух других рассматриваемых алгоритмов.

0.88 0.86 0.84 0.82

0.8

0.78 0.76 0.74

Рис. 3. Результаты сравнения коллективного алгоритма (1) с алгоритмами к-средних (2) и построения одиночного дерева (3)

Пример 4. Разработанный алгоритм тестировался па трех таблицах реальных данных, полученных непосредственно от специалистов прикладных областей либо из сети Интернет (репозитарий иС1 |17|). Во всех анализируемых таблицах известна принадлежность объектов к характерным классам, что позволяет определить ошибку классификации, возникающую при использовании предлагаемого алгоритма кластерного анализа (естественно, переменная, задающая номера классов, при построении деревьев не используется). Заметим, что такое априорное разделение объектов па группы не всегда полностью совпадает с "объективной" классификацией, однако может служить дня получения приближенной оценки качества тестируемого алгоритма.

1. Таблица данных "антропология" включает описания антропологических находок эпохи неолита па территории Сибири |18|. Объекты исследования описываются множеством из 23 переменных, представляющих собой измерения линейных и угловых размеров костей скелета. Была проанализирована информация о 252 антропологических объектах, которые принадлежали к двум антропологическим типам монголоидной и европеоидной расовых ветвей.

2. В таблице "наконечники" собраны археологические данные о 102 наконечниках стрел, обнаруженных в древних памятниках культуры па территории Новосибирской области |19|, Каждый наконечник описывается восемью числовыми и четырьмя поминальными переменными (число имен варьируется от 2 до 10). Указанные памятники относятся к двум основным типам культур.

3. Анализировалась таблица "яоо" из репозитария иС1. В таблице, содержащей 101 наблюдение, указаны значения двух числовых и 15 булевых переменных, описывающих признаки различных животных. Каждое животное относится к одному из семи классов. Для определения качества алгоритма классификации в данном случае удобнее использовать индекс Ранда 1Я, представляющий собой отношение числа пар объек-

Результаты работы алгоритмов кластерного анализа: Рап8 (/Яапв) — частота правильных классификаций (индекс Ранда) для ансамбля, Р^ее (!Дме) — средняя частота правильных классификаций (индекс Ранда) для одиночного дерева. Мощность ансамбля Ь = 100

Название таблицы Качество ансамбля Качество одиночного дерева

Антропология -Pans = 1 -Ptree = 0.85

Наконечники -Pans = 0.83 -Ptree = 0.61

zoo /fíans = 0.89 ^tree =0.76

тов, у которых либо одинаковые, либо разные номера классов в полученной и истинной группировках, к общему числу пар различных объектов (значение индекса, близкое к 1, говорит о хорошей согласованности группировок).

Результаты тестирования приведены в таблице. Во всех случаях размерность подпространства переменных выбиралась случайно. Данные таблицы позволяют сделать вывод о том, что во всех проведенных экспериментах использование ансамбля деревьев решений позволяет заметно улучшить качество кластеризации.

Таким образом, в работе проведено теоретическое обоснование ансамблевых алгоритмов кластерного анализа, основанных на попарной классификации. Предложен алгоритм кластерного анализа, использующий ансамбль деревьев решений. При построении коллективного решения используется согласованная матрица различий между объектами. Исследование с помощью статистического моделирования показало, что применение предложенного метода построения ансамбля деревьев решений позволяет значительно улучшить качество классификации по сравнению с качеством алгоритмов несогласованных деревьев решений и fc-средних, в том числе в задачах, характеризующихся наличием шумовых переменных и их разнотипностью.

Список литературы

[1] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 450 с.

[2] дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. 559 с.

[3] Лвов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981.

[4] Лвов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд. Ин-та математики СО РАН, 1999. 212 с.

[5] Лвов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск: Изд. Ин-та математики СО РАН, 2005. 218 с.

[6] MiCHALSKi R., Stepp R., Diday E. Automated construction of classifications: conceptual clustering versus numerical taxonomy // IEEE Trans. Pattern Anal. Machine Intell. 1983. Vol. 5. P. 396-409.

[71 Лвов Г.С., Пе стунова T.M. Группировка объектов в пространстве разнотипных переменных // Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. С. lili 19.

[8] Бериков В.Б., Лвов Г.С., Вишневская Е.А. Статистическое моделирование для исследования одного метода автоматической группировки // Сб. науч. статей V Междунар. конф. "Компьютерный анализ данных и моделирование". Минск, Белорусский гос. ун-т, 1998. Часть 3:А-К. С. 54-59.

[9] Strehl A., Ghosh J. Clustering ensembles — a knowledge reuse framework for combining multiple partitions //J. Machine Learning Res. 2002. Vol. 3. P. 583-617.

[10] Бирюков А.С., Рязанов В.В., Шмаков А.С. Решение задач кластерного анализа коллективами алгоритмов // Журн. вычисл. математики и мат. физики. 2008. Т. 48, № 1. С. 176-192.

[11] Журавлёв Ю.И., Рязанов В.В., Сенвко О.В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006.

[12] Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24. P. 123-140.

[13] Schapire R. The boosting approach to machine learning: An overview // Nonlinear Estimation and Classification. Lecture Notes in Statistics / Eds. D.D. Denison, M.H. Hansen, C.C. Holmes, В. Mallick, В. Yu. 2003. Vol. 171. P. 149-172.

[14] Topchy A., Law XL. Jain A., Fred A. Analysis of consensus partition in cluster ensemble // Fourth IEEE Intern. Conf. on Data Mining (ICDM'04). 2004. P. 225-232.

[15] Kuncheva L. Combining Pattern Classifiers. Methods and Algorithms. Hoboken, N.J.: John Wiley & Sons, 2004.

[16] Lbov G.S., Berikov V.B. Recursive method of formation of the recognition decision rule in the class of logical functions // Pattern Recognit. and Image Analysis. 1993. Vol. 3, No. 4. P. 428-431.

[17] http://archive.ics.uci.edu/ml/

[18] Деревянно Е.И., Лвов Г.С., Бериков В.Б. и др. Компьютерная система анализа погребальных памятников эпохи неолита и ранней бронзы // Интеграционные программы фундаментальных исследований СО РАН. Новосибирск: Изд-во СО РАН, 1998.

[19] Салвникова И.В. Костяные наконечники стрел из комплексов Западной Сибири. Проблемы классификации и моделирования: Автореф. дис. ... канд. ист. наук. Новосибирский гос. ун-т, 2002.

Поступила в редакцию 20 июля 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.