Научная статья на тему 'Алгоритм адаптивного планирования ансамбля таксономических деревьев решений'

Алгоритм адаптивного планирования ансамбля таксономических деревьев решений Текст научной статьи по специальности «Математика»

CC BY
217
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / АНСАМБЛЬ / ДЕРЕВО РЕШЕНИЙ / CLUSTER ANALYSIS / ENSEMBLE / DECISIONS TREE

Аннотация научной статьи по математике, автор научной работы — Бериков Владимир Борисович

Рассматривается подход к решению задач кластерного анализа, основанный на применении ансамбля таксономических деревьев решений. Предлагается алгоритм адаптивного планирования ансамбля, использующий расстояния между логическими высказываниями, описывающими кластеры. Приводятся результаты статистического моделирования, подтверждающие эффективность алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR ADAPTIVE PLANNING OF AN ENSEMBLE OF TAXONOMIC DECISIONS TREES

We suggest an approach to cluster analysis based on the ensemble of taxonomic decisions trees. The adaptive algorithm for the ensemble planning that uses distances between logic statements describing clusters is offered. The results of statistical modeling confirm the efficiency of the algorithm.

Текст научной работы на тему «Алгоритм адаптивного планирования ансамбля таксономических деревьев решений»

Библиографические ссылки

1. Медведев А. В. Теория непараметрических систем. Моделирование // Вестник СибГАУ. 2010. Вып. 4. С. 4—9.

2. Ермаков С. М., Михайлов Г. А. Курс статистического моделирования. М. : Наука, 1976.

3. Фадеева Л. Н. Математика для экономистов: Теория вероятностей и математическая статистика. М. : Эксмо, 2006.

4. Вероятность и математическая статистика : энциклопедия / под ред. Ю. В. Прохорова М. : Большая Рос. энцикл., 2003.

5. Первушин В. Ф., Сергеева Н. А. Генератор случайных чисел, распределенных по логнормальному закону // Решетневские чтения : материалы XIII Меж-дунар. науч. конф. : в 2 ч. Ч. 2 / Сиб. гос. аэрокосмич. ун-т. Красноярск, 2009. С. 448-449.

6. Сергеева Н. А., Стрельников А. В. Генератор случайных чисел, распределенных по закону Вейбул-ла // Решетневские чтения : материалы XIII Между-нар. науч. конф. : в 2 ч. Ч. 2 / Сиб. гос. аэрокосмич. ун-т. Красноярск, 2009. С. 451-453.

V. F. Pervushin, N. A. Sergeeva, A. V. Strelnikov

THE RANDOM SELECTION PRECISION GENERATOR

The algorithm of random value selection with adjusted distributions generation and numerical characteristics is considered (mathematical estimation, dispersion etc.). The algorithm proceedings of high precisions is showed on calculated examples of selection modeling. The selection generation common concept allows to extract this approach to the special category of random value generation algorithms. It was joined to the term "The Random selection precision generator".

Keywords: random value, retribution law, numeric characteristics, event probability, event frequency, selection size, bar chart.

© Первушин В. Ф., Сергеева Н. А., Стрельников А. В., 2010

УДК 519.6

В. Б. Бериков

АЛГОРИТМ АДАПТИВНОГО ПЛАНИРОВАНИЯ АНСАМБЛЯ ТАКСОНОМИЧЕСКИХ ДЕРЕВЬЕВ РЕШЕНИЙ*

Рассматривается подход к решению задач кластерного анализа, основанный на применении ансамбля таксономических деревьев решений. Предлагается алгоритм адаптивного планирования ансамбля, использующий расстояния между логическими высказываниями, описывающими кластеры. Приводятся результаты статистического моделирования, подтверждающие эффективность алгоритма.

Ключевые слова: кластерный анализ, ансамбль, дерево решений.

Одной из актуальных проблем кластерного анализа (таксономии, автоматической классификации «без учителя») является группировка объектов, описываемых разнотипными (количественными или качественными) переменными. Другая актуальная проблема связана с повышением устойчивости группировочных решений, так как в большинстве алгоритмов кластерного анализа результаты могут сильно меняться в зависимости от выбора начальных условий, порядка объектов, параметров работы алгоритма и т. п.

Наиболее перспективный подход к кластерному анализу при наличии разнотипных переменных основан на применении деревьев решений, которые позволяют получать легко интерпретируемую логическую модель группировки, выделять наиболее информа-

тивные факторы и не требуют задания метрики в разнотипном пространстве. Особенностью логиковероятностного подхода, основанного на деревьях решений, является возможность не только разбивать заданное множество объектов на кластеры, но и строить иерархическое дерево, описывающее структуру разбиения.

Повысить устойчивость кластеризации можно с помощью ансамблей алгоритмов. При этом используются результаты группировки, полученные различными алгоритмами или одним алгоритмом, но с различными параметрами настройки, по различным подсистемам переменных и т. д. После построения ансамбля проводится нахождение итогового коллективного решения. Такой способ описан, например, в работе [1].

*Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проекты 08-07-00136а, 10-01 -00113а, 09-07-12087-ой_т) и Междисциплинарного интеграционного проекта Сибирского отделения Российской академии наук № 83.

9l

В работе [2] предложен алгоритм построения коллектива таксономических деревьев решений. При построении ансамбля использовалось введенное в [3] понятие расстояния между логическими высказываниями, описывающими кластеры. В данной статье описано усовершенствование этого алгоритма путем применения методики адаптивного планирования, при которой ведется целенаправленная селекция наиболее перспективных элементов ансамбля.

Основные понятия. Пусть имеется множество 5 = {о(1),о(Л°} некоторых объектов, выбранных из генеральной совокупности. Каждый объект описывается с помощью набора переменных Х1,..., Хп. Этот набор может включать в себя переменные разных типов (количественные и качественные, под которыми будем понимать номинальные и булевы, а также порядковые переменные). Пусть Dj обозначает множество значений переменной X, - некоторый интервал

числовой оси в случае количественной переменной или конечный набор значений (имен) в случае качественной переменной. Пусть D = D1 х...хDn. Обозначим через х = х(о) = (х1 (о),, хп(о)) набор наблюдений переменных для объекта о, где х, (о) - значение переменной X, для данного объекта.

В задаче кластерного анализа требуется разбить объекты на некоторое число кластеров К (К << N) так, чтобы заданный критерий качества группировки принял бы оптимальное значение. Под критерием качества обычно понимается некоторый функционал, зависящий от разброса объектов внутри группы и расстояний между группами. Число классов может быть выбрано заранее или не задано (в последнем случае оптимальное количество кластеров должно быть определено автоматически).

Введем понятие таксономического дерева решений. Рассмотрим дерево, в котором каждой внутренней вершине (узлу) соответствует некоторая переменная X,, а ветвям, выходящим из данной вершины, -

определенное высказывание вида Xj (о) е Е(\ где

о - некоторый объект; / = 1,..., V, V > 2 - число вет-

X,. (о) е Е^ И X,. (о) е , И... И X,. (о) е Е(‘дк), то

.л ,2 ,2 ]дк 3 дк

объект о относится к к-му классу», где дк - длина данной цепочки, о е С(к\ Под таксоном Т(к-1, соот-

ветствующим k-му листу дерева, будем понимать прямоугольную подобласть, заключающую объекты из C(k -1 в многомерном пространстве:

T(k) = T(C(k)) = T1(k) Х...Хj x...xT(k\

где T(k) = {Xj (o) | o e C(k)} для качественной переменной X.; T<k) = [min X. (o); max X. (o)] для количест-

1 1 oeC(k) 1 oeC<k) 1

венной переменной Xj.

В работе [2] описан регуляризующий критерий качества группировки, основанный на минимизации функционала, зависящего от суммарного относительного объема таксонов и от их числа:

Q=ЕП

| T(k) | K

- + а—,

вей, выходящих из данной вершины; Е,..., Еу -

попарно непересекающиеся подмножества множества Dj (интервалы значений в случае количественной переменной). Каждому к-му листу (концевой вершине) дерева соответствует группа объектов выборки

С(к) = {о(4),...,о('(к))}, где п(к^ - число объектов, входящих в группу, к = 1,..., К. Объекты данной группы удовлетворяют цепочке высказываний, проверяемых по пути из корневой вершины в этот лист, т. е. логическому утверждению вида «Если

£,^| N

где а > 0 - регуляризующий параметр, а также предложен алгоритм направленного поиска оптимального дерева, в котором применяется рекурсивная схема перебора различных вариантов.

Построение ансамбля деревьев решений. Пусть с помощью алгоритма построения таксономического дерева решений строится разбиение множества объектов 5 на К подмножеств. Для построения каждого варианта случайным образом формируется своя подсистема переменных (либо случайным образом выбираются параметры алгоритма). Под группиро-вочным решением будем понимать набор

G = {С(1),...,С(к),...,С(К)}, где С(к)={о(4),...,о(‘щ>}; Nk -число объектов, входящих в к-й кластер, к = 1,...,К. Пусть построен набор группировочных решений G = {0(1), 0(2),..., 0(1)}, где G<Л - /-й вариант группировки. Обозначим через £{,) бинарную матрицу размерности N х N, которая водится для 1-й группировки следующим образом: £(,) (д, т) = 0, если объекты о(я) и о(т) принадлежат одному кластеру, £(,) (д, т) = 1,

если иначе, где д, т = 1, 2, ..., N I = 1, 2, ..., 1. После построения 1 группировочных решений формируется согласованная матрица различий

1 1

£ (д, т) = — X £ )(д, т),

11=1

где д, т = 1, 2, ..., N. Величина £(д, т) равна частоте классификации объектов о(д) и о(т) на разные группы в наборе группировок G. Близкое к единице значение этой величины означает, что данные объекты имеют большой шанс попадания в одну и ту же группу, а близкое к нулю говорит о том, что шанс оказаться в одной группе у этих объектов незначителен.

После вычисления согласованной матрицы подобия для нахождения итогового варианта группировки можно применять алгоритм построения дендрограммы, который в качестве входной информации использует расстояния между объектами. В предлагаемом нами алгоритме используется аналогичный принцип,

однако вместо бинарной матрицы £{1 \ в которой отражаются события типа вхождения (либо невхожде-ния) пары объектов в одну и ту же группу, берется более информативная матрица расстояний между кластерами, к которым отнесены объекты. Для вычисления расстояний между кластерами в разнотипном пространстве переменных будем использовать введенное в работе [3] расстояние между логическими высказываниями экспертов.

Пусть в одном и том же варианте группировки имеются два таксона Т(5) и Т(г-1, 5, г = 1, ..., К, описываемые некоторыми логическими высказываниями. Введем расстояние между данными таксонами как р(Т(5), Т (г))= f (рДТ^, Тг)),..., р. (Т,5, Т.г)),...,

Рп (Тп(5), Тп(г))), гдеf- некоторая функция; р. (Т.5), Т.г)) -

расстояние между ,-ми компонентами множеств Т(5)

и Т(г \

Зададим способ вычисления величины р. в зависимости от типа переменной. Если X, - номинальная

переменная, то расстояние определяется как взвешенная мера симметрической разности:

| Т(5) Д Т(г) | р (Т (5) Т (г)) = 1 , , 1

. , . | Dj | '

Если X, - количественная переменная, а интервалы

Т.5) = [а(5), Ъ(5)], Т;(г) =[а(г}, Ъ(г}]

то

| а(5) - а(г) | +1 Ъ{5) - Ъ(г) |

2|я~1 •

В работе [3] было доказано, что для введенного расстояния выполняются все свойства меры, в том числе неравенство треугольника.

В качестве функции f предлагается рассматривать

( п У/2

, где 0 < < 1 - некоторые

функцию У1 = X ^.р

V. =

п

веса (X ^ = 1), либо функцию ^ =тах р , удобную .=1 .

тем, что она не требует задания весов. Для данных функций также выполняются свойства меры.

Таким образом, согласованная матрица различий с учетом расстояний между кластерами определяется как

1 1 _

£ (д, т) = — X £(1 )(д, т),

1 1=1

где £(‘)(/',т) = р(Т(5),Т(г}), Т(5),Т(г}- таксоны, к которым принадлежат объекты о(я -1 и о(т) соответственно.

В алгоритме построения ансамбля [2] выбор подсистемы переменных осуществляется случайно. Однако этот выбор (испытание) можно организовать так, чтобы лучшие по критерию качества группировки варианты имели бы большую вероятность отбора.

В основе предлагаемой модификации лежит идея адаптивного случайного поиска наиболее информативной подсистемы переменных, предложенная Г. С. Лбовым.

Первоначально все переменные имеют одинаковый вес, т. е. вероятность отбора в подсистему, используемую при построении дерева. Предполагается, что число переменных достаточно велико. После проведения очередного испытания вес отобранной в корне дерева переменной уменьшается, за счет чего достигается более высокая степень разнообразия ансамбля. Если при этом критерий качества ухудшается, то эта переменная наказывается, т. е. вероятность ее отбора еще более уменьшается пропорционально критерию. В случае когда критерий качества улучшается, соответствующая переменная поощряется, т. е. ее вес уменьшается не столь сильно. То, что выбирается переменная, соответствующая именно корню дерева, объясняется тем, что она является наиболее информативной и оказывает определяющее влияние на дальнейшее ветвление.

Алгоритм планирования состоит из следующих основных шагов.

Шаг 1. Присвоить всем переменным одинаковые веса Рх =1/п, . =1,..., п.

Шаг 2. Выбрать случайным образом d переменных в соответствии с назначенными весами, где d - заданный параметр.

Шаг 3. Построить дерево решений в случайном подпространстве размерности d, в котором X* - переменная, соответствующая корню дерева. Определить для построенного дерева критерий качества группировки Q.

Шаг 4. Присвоить переменной X * новый вес:

Рх, = шах^^ -х0,0},

где х - параметр адаптации.

5. Повторить шаги 2.4 до тех пор, пока не будет построено заданное число элементов ансамбля.

Экспериментальное исследование алгоритма. Для определения качества алгоритма была разработана процедура статистического моделирования. Эта процедура состоит в многократном генерировании случайных выборок в соответствии с заданным распределением для каждого класса; построении с помощью исследуемого алгоритма согласованного группировочного решения для каждой выборки; нахождении усредненного по всем выборкам показателя качества. Распределение для каждого из К = 2 классов является многомерным нормальным с одной и той же ковариационной матрицей Е. Число переменных п = 100, объем выборки для каждого класса - 25. Вектор математических ожиданий для каждого класса выбирается случайно из множества, соответствующего вершинам единичного гиперкуба. Ковариационная матрица является диагональной: Е = ст I, где ст = 1. Из общего числа переменных 20 являются шумовыми (для них ст = 10). Номера шумовых переменных выбираются случайно. Каждое дерево строится в слу-

чайно выбранном подпространстве переменных размерности 3. Параметры а = 2, х = 0,05, в качестве функции f, задающей вид расстояния между высказываниями, выбрана /1.

Алгоритм построения коллектива таксономических деревьев решений с адаптацией и без адаптации (указаны 95%-е доверительные интервалы для вероятности правильной классификации)

Качество группировки определяется как частота правильной классификации Рсог. Усреднение проводится по 100 случайным выборкам, являющихся реализациями смеси указанных распределений. Оценивается 95%-й доверительный интервал для вероятности правильной классификации. Полученные результаты моделирования позволяют сделать вывод о том, что

при достаточно большом числе элементов ансамбля адаптивный алгоритм дает значимо более высокое качество классификации по сравнению с разработанным ранее вариантом, в котором адаптация не используется (см. рисунок).

Таким образом, предложен алгоритм адаптивного планирования ансамбля таксономических деревьев решений, использующий расстояния между логическими высказываниями, описывающими кластеры. Результаты статистического моделирования подтвердили эффективность разработанной процедуры. В дальнейшем планируется применить данный алгоритм в задаче анализа биомедицинской информации, относящейся к устойчивости паразитарной системы клещевого энцефалита, а также для обработки спутниковых и натурных данных.

Библиографические ссылки

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Strehl A., Ghosh J. Clustering ensembles - a knowledge reuse framework for combining multiple partitions // J. of Machine Learning Research. 2002. Vol. 3. P. 583-617.

2. Бериков В. Б. Кластерный анализ с использованием коллектива деревьев решений // Науч. вестн. Новосиб. гос. техн. ун-та. 2009. № 3 (36). С. 67-76.

3. Лбов Г. С., Бериков В. Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск : Изд-во Ин-та математики, 2005.

V. B. Berikov

ALGORITHM FOR ADAPTIVE PLANNING OF AN ENSEMBLE OF TAXONOMIC DECISIONS TREES

We suggest an approach to cluster analysis based on the ensemble of taxonomic decisions trees. The adaptive algorithm for the ensemble planning that uses distances between logic statements describing clusters is offered. The results of statistical modeling confirm the efficiency of the algorithm.

Keywords: cluster analysis, ensemble, decisions tree.

© Бериков В. Б., 2010

УДК 681.3

А. В. Бобров, Е. А. Перепелкин

ВОССТАНОВЛЕНИЕ ИЗОБРАЖЕНИЙ НА ОСНОВЕ СПЕКТРАЛЬНОЙ МАТРИЧНОЙ НОРМЫ

Рассматривается проблема восстановления изображения. Описывается нелинейный гауссовский фильтр, построенный на основе спектральной матричной нормы. Приводятся результаты численных экспериментов, подтверждающие преимущество данного фильтра по сравнению с линейным гауссовским фильтром.

Ключевые слова: восстановление изображения, гауссовский фильтр, спектральная норма матрицы.

Пусть изображение задано в виде неотрицательной женных пикселей известны, соответствующие эле-

вещественной матрицы А размером п х т с элемента- менты матрицы изображения равны нулю. Необходи-

ми а. е [0 ашах ]. Будем считать, что изображение мо восстановить искаженные пиксели.

Для восстановления изображения применяют про-

содержит искаженные пиксели. Координаты иска-

^ ^ странственные и частотные фильтры [1; 2].

i Надоели баннеры? Вы всегда можете отключить рекламу.