Научная статья на тему 'О модификации алгоритма обучения дерева решений'

О модификации алгоритма обучения дерева решений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
469
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕРЕВО РЕШЕНИЙ / КЛАССИФИКАЦИЯ / ОПТИМИЗАЦИЯ / DECISION TREE / CLASSIFICATION / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Митрофанов С. А.

Деревья решений являются одним из эффективных методов классификации. Существуют различные способы обучения дерева решений. Но их обучение на данных большой размерности является времязатратным процессом. Предложена модификация алгоритма с целью уменьшения временных затрат. Проведено сравнение алгоритмов на различных задачах классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON MODIFICATION OF THE ALGORITHM OF LEARN THE DECISION TREE

Trees of solutions are one of the effective methods of classification. There are various ways of learning the decision tree. But their training on large-scale data is a time-consuming process. A modification of the algorithm is proposed, with the aim of reducing time costs. The algorithms are compared on different classification problems.

Текст научной работы на тему «О модификации алгоритма обучения дерева решений»

Решетневские чтения. 2018

УДК 004.94

О МОДИФИКАЦИИ АЛГОРИТМА ОБУЧЕНИЯ ДЕРЕВА РЕШЕНИЙ

С. А. Митрофанов

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Деревья решений являются одним из эффективных методов классификации. Существуют различные способы обучения дерева решений. Но их обучение на данных большой размерности является времязатратным процессом. Предложена модификация алгоритма с целью уменьшения временных затрат. Проведено сравнение алгоритмов на различных задачах классификации.

Ключевые слова: дерево решений, классификация, оптимизация.

ON MODIFICATION OF THE ALGORITHM OF LEARN THE DECISION TREE

S. A. Mitrofanov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Trees of solutions are one of the effective methods of classification. There are various ways of learning the decision tree. But their training on large-scale data is a time-consuming process. A modification of the algorithm is proposed, with the aim of reducing time costs. The algorithms are compared on different classification problems.

Keywords: decision tree, classification, optimization.

На сегодняшний день большое внимание уделяется анализу данных. Одним из важнейших направлений анализа данных является задача классификации. Для решения данной задачи существуем множество различных методов поддержки принятия решений. Хорошо зарекомендовали себя в этой области деревья решений. Дерево решений - способ принятия решения, основанный на применении различных функций разделения исходного набора данных, в частности простых пороговых правил [1]. Деревом решений называется бинарное дерево, в котором: каждой внутренней вершине приписана функция, а каждой листовой вершине приписан прогноз.

Деревья решений, как и любой другой алгоритм машинного обучения, имеют определяющие их параметры. Так, например, для выбора разбиения набора данных в некотором узле необходимо оптимизировать некоторую функцию. Эта функция в деревьях называется критерием информативности. Критерии информативности могут быть различными [2]: функция потерь, критерий Джини, энтропийный критерий и т. д. Также существуют различные критерии останова. Вариация указанных и других параметров обеспечивает разнообразие алгоритмов обучения решающего дерева.

В данной работе были реализованы и сравнены между собой два основных алгоритма обучения решающего дерева [3]: ID3 и CART. Данные алгоритмы завершают работу, если в листе остались наблюдения

одного класса или если установлено ограничение на глубину дерева, для решаемых в данной работе задач ограничение на глубину не накладывалось.

Главное отличие указанных алгоритмов заключается в различных критериях информативности. В алгоритме ID3 используется энтропийный критерий:

н(R) = log pk,

k=1

где pk - доля объектов класса k, попавших в вершину R .

В алгоритме CART используется критерий Джини:

н (R) = ipk (1 - pk).

k=1

Оптимизация представленных критериев информативности в алгоритме обучения решающего дерева производится полным перебором по исходному набору данных, но это весьма времязатратный процесс, так как необходимо вычислить значения критерия информативности для всех значений атрибутов по всем наблюдениям обучающей выборки. Для уменьшения времени работы алгоритма в данной работе предложена оптимизация критерия информативности по атрибуту, выбранному при помощи алгоритма Separation Measure, который считает тот признак важнее, у которого выборочные средние значения по классам наиболее отдалены. Оптимизация выполнялась методом дифференциальной эволюции.

Математические методы моделирования, управления и анализа данных

Результаты экспериментов

Номер задачи ID3 CART ID3 (DE) CART (DE)

1 0.85; 4422; 18 0.85; 4741; 22 0.85 (0.86); 55; 16 0.85 (0.86); 60; 17

2 0.71; 8; 15 0.65; 8; 16 0.7 (0.75); 2; 12 0.68 (0.73); 2; 13

3 0.88; 259; 13 0.89; 390; 16 0.91 (0.94); 10; 13 0.9 (0.92); 11; 15

4 0.79; 196; 10 0.77; 218; 12 0.77 (0.79); 21; 12 0.76 (0.8); 21; 12

В алгоритмическом комплексе использован алгоритм дифференциальной эволюции с самонастройкой стратегии мутации и с адаптацией параметров по алгоритму Success History Adaptation. Дифференциальной эволюцией выполнялось 300 вычислений целевой функции, т. е. критерия информативности.

В качестве задач классификации были взяты базы данных с репозитория. В соответствии с содержанием баз данных определились следующие задачи [4]:

1) определение типа почвы по снимку со спутника;

2) определение типа автомобиля;

3) распознавание типа объекта по его сегменту;

4) распознавание городского ландшафта.

Результаты сравнения алгоритмов представлены в

таблице. В каждой ячейке таблицы указаны точность классификации на тестовом наборе данных, время обучения дерева решений (в секундах) и глубина полученного дерева. Для алгоритмов с оптимизацией критерия информативности методом дифференциальной эволюции представлены усредненные по 100 запускам результаты из-за стохастичности алгоритма. Также для деревьев оптимизируемых алгоритмом дифференциальной эволюцией в скобках указана лучшая найденная точность классификации на тестовых данных. Жирным шрифтом выделены лучшие результаты точности и времени для каждой из задач.

В представленной работе проведено сравнение некоторых из основных алгоритмов обучения решающего дерева. Представлен возможной способ оптимизации процесса обучения. Как можно заметить, предложенная модификация не только ускоряет процесс обучения дерева решений, но и позволила на тестируемых задачах найти решение лучше, чем стандартным способом. Также следует заметить, что глубина деревьев при использовании модификации изменилась не значительно.

Деревья решений являются мощным инструментом решения задач, в том числе и ракетно-космической отрасли. В дальнейшем для повышения эффективности данного метода предполагается автоматизировать процесс формирования деревьев решений эволюционными алгоритмами [5].

Библиографические ссылки

1. Classification and Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen, C.T. Stone // Wadsworth. Belmont. California. 1984.

2. Ross Quinlan J. C4. 5: Programs for Machine learning. Morgan Kaufmann Publishers, 1993.

3. Quinlan J. R. Induction of decision trees. Machine learning, 1986. № 1 (1). P. 81-106.

4. Митрофанов С. А. Применение нейроэволюци-онного подхода при решении задач классификации // Решетневские чтения : материалы XXI Междунар. науч. конф. (11-14 ноября 2014, г. Красноярск) : в 3 ч. / под общ. ред. Ю. Ю. Логинова ; СибГУ им. М. Ф. Ре-шетнева. Красноярск, 2017. № 2 (21). С. 226-227.

5. Кушнарева Т. В., Липинский Л. В. Алгоритм генетического программирования для автоматизированного формирования деревьев принятия решения // Решетневские чтения : материалы XVIII Междунар. науч. конф. (11-14 ноября 2014, г. Красноярск) : в 3 ч. / под общ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2014. № 1 (18). С. 84-86.

References

1. Classification and Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen, C.T. Stone // Wadsworth. Belmont. California. 1984.

2. Ross Quinlan J. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers, 1993.

3. Quinlan J. R. Induction of decision trees. Machine learning, 1986. № 1 (1). P. 81-106.

4. Mitrofanov S. A. [Applying the neuro-evolutional approach classification problems solving]. Materialy XXI Mezhdunar. nauch. konf. "Reshetnevskie chteniya" [Materials XXI Intern. Scientific. Conf "Reshetnev reading"]. Krasnoyarsk, 2017. P. 226-227. (In Russ.)

5. Kushnareva T. V., Lipinskiy L. V. [Algoritm of the genetic programming for the automated forming decision trees]. MaterialyXVIIIMezhdunar. nauch. konf. "Reshetnevskie chteniya" [Materials XVIII Intern. Scientific. Conf "Reshetnev reading"]. Красноярск, 2014. P. 84-86. (In Russ.)

© Митрофанов С. А., 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.