Научная статья на тему 'ПОСТРОЕНИЕ СЛУЧАЙНОГО ЛЕСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ'

ПОСТРОЕНИЕ СЛУЧАЙНОГО ЛЕСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Текст научной статьи по специальности «Математика»

CC BY
148
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕРЕВЬЯ ПРИНЯТИЯ РЕШЕНИЙ / АЛГОРИТМ ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ / СЛУЧАЙНЫЙ ЛЕС

Аннотация научной статьи по математике, автор научной работы — Митрофанов С. А.

Исследуется эффективность классификации случайным лесом. Данный метод имеет широкое применение в различных областях, в том числе и ракетно-космической. Особенностью случайного леса в данной работе является проектирование деревьев самонастраивающимся алгоритмом генетического программирования. Представлены результаты решения тестовых задач классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BUILDING A RANDOM FOREST BY A GENETIC PROGRAMMING ALGORITHM

This article explores the efficiency of classification by a random forest. This method is widely used in various fields, including rocket and space. A special feature of the random forest in this paper is the design of trees by a self-tuning algorithm of genetic programming. The results of solving the classification test problems are presented.

Текст научной работы на тему «ПОСТРОЕНИЕ СЛУЧАЙНОГО ЛЕСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ»

УДК 004.85

ПОСТРОЕНИЕ СЛУЧАЙНОГО ЛЕСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-шай: sergeimitrofanov95@gmail.com

Исследуется эффективность классификации случайным лесом. Данный метод имеет широкое применение в различных областях, в том числе и ракетно-космической. Особенностью случайного леса в данной работе является проектирование деревьев самонастраивающимся алгоритмом генетического программирования. Представлены результаты решения тестовых задач классификации.

Ключевые слова: деревья принятия решений, алгоритм генетического программирования, случайный лес.

This article explores the efficiency of classification by a random forest. This method is widely used in various fields, including rocket and space. A special feature of the random forest in this paper is the design of trees by a self-tuning algorithm of genetic programming. The results of solving the classification test problems are presented.

Keywords: decision trees, genetic programming algorithm, random forest.

Деревья принятия решений, применяемые во многих областях, в том числе и в ракетно-космической отрасли, являются одним из наиболее эффективных методов классификации [1].

Но стандартные алгоритмы обучения деревьев (ID3, CART и т. д.) далеко не всегда позволяют получить лучшее для некоторой задачи решение. Поэтому в данной работе предлагается проектировать деревья принятия решений самонастраивающимся алгоритмом генетического программирования [2; 3].

Для модификации исходного алгоритма ГП необходимо переопределить функциональное и терминальное множества. Для проектирования деревьев решений функциональное множество включает пороговые функции, а терминальное - метки класса.

Далее уточним этапы алгоритма генетического программирования с модификациями, необходимыми для проектирования деревьев решений [4].

На этапе инициализации узлы дерева заполняются случайным образом пороговыми функциями и метками класса. Далее пороговые функции оптимизируются методом дифференциальной эволюции [5].

Вычисление пригодности осуществляется по следующей формуле:

С. А. Митрофанов

BUILDING A RANDOM FOREST BY A GENETIC PROGRAMMING ALGORITHM

S. A. Mitrofanov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: sergeimitrofanov95@gmail.com

fitness = 1 - error,

Актуальные проблемы авиации и космонавтики - 2019. Том 2

где n количество точек обучающей выборки. Лучшим считается индивид с наибольшей пригодностью.

Проверка критерия останова, селекция и скрещивание выполняются по схеме классического алгоритма генетического программирования.

Мутация заключается в изменении узел дерева на другой из того же типа множества. Если узел относится к функциональному множеству, то при мутации изменяется атрибут пороговой функции, если к терминальному, то изменяется метка класса.

Для тестирования предложенного алгоритма проектирования деревьев были использованы 4 задачи классификации [6]:

1. Определение типа автомобиля по техническим характеристикам.

2. Распознавание типа объекта по его сегменту.

3. Распознавание городского ландшафта.

4. Диагностика заболевания сердца.

В табл. 1 представлено сравнение результатов решения описанных выше задач классификации деревьями решения, обученных по алгоритмам ID3 и CART с деревьями решений, полученными в результате работы самонастраивающегося алгоритма генетического программирования (TreeGP).

Таблица 1

Результаты решения задач классификации

Номер задачи ID3 CART TreeGP

1 0,71 0,65 0,73

2 0,88 0,89 0,9

3 0,79 0,77 0,81

4 0,81 0,79 0,83

Однако деревья решений независимо от алгоритма их построения склонны к переобучению. Данный недостаток возможно преодолеть, объединяя деревья в ансамбли. Построение ансамблей является одним из самых мощных методов машинного обучения, нередко превосходящим по качеству предсказаний другие методы.

В данной работе объединение деревьев, построенных алгоритмом генетического программирования, осуществлялось композицией случайный лес [7]. Случайный лес сочетает идеи бэггинга и метода случайных подпространств [8; 9].

При построении композиции происходит объединение N алгоритмов Ь1 (х),...,ЬN (х), называемых базовыми, в один. Идея заключается в том, чтобы обучить данные алгоритмы, а затем усреднить полученные результаты:

1 N

а (х) = 5щп~^]Ь„ (х)

п=1

Данное выражение позволяет получить ответ в задачах классификации. Композиция алгоритмов а (х) возвращает знак среднего по результатам, входящих в композицию N алгоритмов

Ь1 (х) (х).

Далее представлены результаты классификации описанных выше задач случайным лесом из деревьев, спроектированным алгоритмом генетического программирования.

Таблица 2

Результаты решения задач классификации алгоритмом случайного леса

Номер задачи RapidMiner GP

1 0,61 0,77

2 0,72 0,89

3 0,62 0,81

4 0,85 0,9

Предложен подход к формированию случайного леса из деревьев решений проектируемых при помощи алгоритма генетического программирования. Деревья решения, построенные генетическим программированием, имеют точность классификации выше, чем у стандартных алгоритмов. Случайный лес не всегда дает результат лучше чем отдельное дерево, однако случайный лес из деревьев решений, построенных алгоритмом генетического программирования, имеет эффективность либо сравнимую, либо выше, чем у лучшего дерева решений.

Библиографические ссылки

1. Classification and Regression Trees / L. Breiman, J.H. Friedman, R.A. Olshen and C.T. Stone // Wadsworth. Belmont. California. 1984. P. 246-280.

2. Карасева Т.С., Митрофанов С.А. Решение задач символьной регрессии алгоритмом генетического программирования с оператором равномерного скрещивания // Актуальные проблемы авиации и космонавтики : сб. материалов XIII Междунар. науч.-практ. конф. (10-14 апреля 2017 г., Красноярск) : в 3 т. Т. 2. / подобщ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2017. С. 24-26.

3. Митрофанов С.А., Карасева Т.С. Решение задач символьной регрессии самонастраивающимся алгоритмом генетического программирования // Актуальные проблемы авиации и космонавтики : сб. материалов XIII Междунар. науч.-практ. конф. (10-14 апреля 2017 г., Красноярск) : в 3 т. Т. 2. / подобщ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2017. С. 4951.

4. Koza J.R. Genetic Programming: On the Programming of Computers by Means of Natural Selection. // MIT Press, Cambridge, MA, 1992. 815 p.

5. Митрофанов С.А. О модификации алгоритма обучения дерева решений // Решетневские чтения : материалы XXII Междунар. науч.-практ. конф. (12-16 нояб. 2018, г. Красноярск) : в 2 ч. / под общ. ред. Ю. Ю. Логинова, 2011. C. 138-139.

6. Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu /ml/index.php (дата обращения: 25.03.2019).

7. Random Forests / Hastie, T., Tibshirani R., Friedman J. Chapter 15. // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer-Verlag, 2009. 746 p.

8. Breiman L. Bagging predictors // Machine Learning. 1996. № 24(2). С. 123-140.

9. Ho T. K. The Random Subspace Method for Constructing Decision Forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. № 20(8). P. 832-844.

© Митрофанов С. А., 2019

i Надоели баннеры? Вы всегда можете отключить рекламу.