Научная статья на тему 'ПРОЕКТИРОВАНИЕ КОМПОЗИЦИИ ПРИ ПОМОЩИ ДЕРЕВА РЕШЕНИЙ'

ПРОЕКТИРОВАНИЕ КОМПОЗИЦИИ ПРИ ПОМОЩИ ДЕРЕВА РЕШЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
деревья принятия решений / алгоритм генетического программирования / композиция алгоритмов / дифференциальная эволюция / decision trees / genetic programming algorithm / composition of algorithms / differential evolution

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — С.А. Митрофанов

В данной статье предложен новый подход к проектированию композиции деревьев решений. Подход основан на идее использования дерева решений, построенного алгоритмом генетического программирования, как способа выбора метода машинного обучения для классификации объекта. В данной статье, в качестве методов машинного обучения, принимающими решения о классификации объектов выборки, используются деревья решений, построенные модифицированным алгоритмом с дифференциальной эволюцией. Представлены результаты решения тестовых задач классификации в сравнении с методами построения композиций, рассмотренных в предыдущих статьях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DESIGNING COMPOSITION USING DECISION TREE

This article proposes a new approach to the design of the composition of decision trees. The approach is based on the idea of using a decision tree built by a genetic programming algorithm as a way to select a machine learning method for classifying an object. In this article, decision trees constructed by a modified algorithm with differential evolution are used as machine learning methods that make decisions on the classification of sample objects. The results of solving test classification problems are presented in comparison with the methods of constructing compositions considered in previous articles.

Текст научной работы на тему «ПРОЕКТИРОВАНИЕ КОМПОЗИЦИИ ПРИ ПОМОЩИ ДЕРЕВА РЕШЕНИЙ»

Секция «Математические методы моделирования, управления и анализа данных»

УДК 004.85

ПРОЕКТИРОВАНИЕ КОМПОЗИЦИИ ПРИ ПОМОЩИ ДЕРЕВА РЕШЕНИЙ

С. А. Митрофанов*

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

* Е-mail sergeimitrofanov95@gmail.com

В данной статье предложен новый подход к проектированию композиции деревьев решений. Подход основан на идее использования дерева решений, построенного алгоритмом генетического программирования, как способа выбора метода машинного обучения для классификации объекта. В данной статье, в качестве методов машинного обучения, принимающими решения о классификации объектов выборки, используются деревья решений, построенные модифицированным алгоритмом с дифференциальной эволюцией. Представлены результаты решения тестовых задач классификации в сравнении с методами построения композиций, рассмотренных в предыдущих статьях.

Ключевые слова: деревья принятия решений, алгоритм генетического программирования, композиция алгоритмов, дифференциальная эволюция.

DESIGNING COMPOSITION USING DECISION TREE

S.A. Mitrofanov*

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *Е-mail sergeimitrofanov95@gmail.com

This article proposes a new approach to the design of the composition of decision trees. The approach is based on the idea of using a decision tree built by a genetic programming algorithm as a way to select a machine learning method for classifying an object. In this article, decision trees constructed by a modified algorithm with differential evolution are used as machine learning methods that make decisions on the classification of sample objects. The results of solving test classification problems are presented in comparison with the methods of constructing compositions considered in previous articles.

Keywords: decision trees, genetic programming algorithm, composition of algorithms, differential evolution.

Не секрет, что объединение достаточно простых интеллектуальных информационных технологий в композиции зачастую приводило к повышению качества решения задачи. В качестве примера можно вспомнить такие методы построения композиций как случайный лес и градиентный бустинг [1, 2]. Они, бесспорно, являются весьма эффективными, однако постоянное стремление к улучшению результатов является вполне нормальным. Поэтому в данной статье предложен подход к построению ансамбля деревьев решений при помощи дерева решений построенного алгоритмом генетического программирования [3, 4]. Данный подход заключается в выборе дерева решений для каждого отдельного объекта классификации.

С помощью генетического программирования (GP) проектируется не глубокое дерево решений. Однако в листовых вершинах, то есть в качестве терминального множества,

Актуальные проблемы авиации и космонавтики - 2021. Том 2

используются не метки классов, а деревья решений, построенные модифицированным методом обучения дерева решений с дифференциальной эволюцией (СЛЯТ+ББ) [5], как для случайного леса, то есть с бутсрапом. Таким образом, обучающая выборка делится на две подвыборки: по одной строятся деревья решений по методу случайного леса, но не объединяются в ансамбль; полученный набор деревьев передается в алгоритм генетического программирования в качестве терминального множества, далее алгоритм обучается на второй подвыборке. В результате получается дерево, которое, используя простые пороговые правила, направляет объекты классификации в различные деревья решений. Этапы проектирования описанной композиции представлены на рис. 1.

1 г

Бутстрап

1 Г

1 г

САЛТ+БЕ

1 Г

N деревьев решений

1

йР

1

Дерево, принимающее решение,

какому дерев}1 передать п-ып _о&ьект_

Терминальное

множество

Рис. 1. Этапы проектирования композиции деревьев решений алгоритмом.

В предложенном подходе для каждой задачи строилось 50 деревьев модифицированным методом обучения дерева решений с дифференциальной эволюцией, которые передавались в генетическое программирование в качестве терминального множества. В алгоритме генетического программирования выполнялось 300 эволюционных циклов, в каждом из которых присутствовало 50 индивидов в популяции.

Для тестирования предложенного подхода к построению ансамбля деревьев решений при помощи дерева решений построенного алгоритмом генетического программирования были использованы 8 задач классификации [6]:

1) Определение типа автомобиля по техническим характеристикам.

2) Распознавание городского ландшафта.

3) Определение сорта риса.

4) Диагностика болезни Паркинсона.

5) Распознавание типа объекта по его сегменту.

6) Диагностика заболевания сердца.

7) Определение типа почвы по снимкам со спутника.

8) Определение биоразлагаемых химических веществ.

Секция ееМатематические методы моделирования, управления и анализе да н н ы х »>

В табл. 1 приведено сравнение лучших результатов стандартных композиций, рассмотренных в статье [4], с предложенным подходом (БОР). Обозначения в таблице: ЯБ+ВБ - случайный лес, модифицированный дифференциальной эволюцией; ЯБ+ОР -случайный лес, модифицированный алгоритмом генетического программирования; ОБоо81 Яар1ёМ1пег - градиентный бустинг в программе Яар1ёМ1пег [7].

Таблица 1

'езультаты решения задач классификации

Номер задачи Метод, показавший лучшую точность классификации Точность классификации

Стандартная композиция EGP

Задача 1 RF+DE 0,768 0,788

Задача 2 RF+DE 0,863 0,893

Задача 3 - 1 1

Задача 4 RF+GP 0,811 0,771

Задача 5 GBoost RapidMiner 0,978 0,884

Задача 6 RF+GP 0,877 0,852

Задача 7 RF+DE 0,902 0,922

Задача 8 RF+DE 0,845 0,875

Можно заметить, что предложенный подход к проектированию композиции работает лучше остальных методов, если модифицированный случайный лес (RF+DE) тоже показал высокий результат, скорее всего это связанно с тем, что в основе используются деревья решений, построенные по одному алгоритму.

На сегодняшний день автоматизация и настройка методов машинного обучения является очень актуальным направлением исследований, а предложенный подход в данной статье лишь первый шаг в это прогрессивное направление.

Библиографические ссылки

1. Random Forests / T. Hastie, R. Tibshirani, J. Friedman // The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag. 2009. 746 p.

2. Boosting Algorithms as Gradient Descent / L. Mason, J. Baxter, P. Bartlett and other // Advances in Neural Information Processing Systems, MIT Press. 2000. Т. 12.

3. Карасева Т. С. Решение задач классификации самонастраивающимся алгоритмом генетического программирования. Информатика, управление и системный анализ, 2018. С. 217-226.

4. Mitrofanov S. A. Application of genetic programming algorithm for designing decision trees and their ensembles // IOP Conference Series: Materials Science and Engineering, 2020. Vol. 734. P. 012098.

5. Митрофанов С. А., Семенкин Е. С. Дифференциальная эволюция в алгоритме обучения деревьев принятия решений. Сибирский журнал науки и технологий, Т. 3, 2019. С. 312-319.

6. Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/index.php (дата обращения: 17.03.2021).

7. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения 07.03.2021).

© Митрофанов С. А., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.