Научная статья на тему 'ПРОЕКТИРОВАНИЕ АНСАМБЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ СЕЛЕКЦИИ ПО ИНФОРМАТИВНОСТИ '

ПРОЕКТИРОВАНИЕ АНСАМБЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ СЕЛЕКЦИИ ПО ИНФОРМАТИВНОСТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
деревья решений / алгоритмы классификации / ансамбль / decision trees / classification algorithms / ensemble

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — О.В. Антоненко, В.В. Становов

Статья описывает способ повышения точности алгоритма классификации объектов с применением ансамбля деревьев решений и селекции по информативности. Метод может использоваться для классификации состояния членов экипажа космического корабля.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DESIGNING ENSEMBLES OF DECISIONS TREES USING THE INFORMATION-BASED SELECTION

The paper describes how to improve the accuracy of the classification algorithm for objects using an ensemble of decision trees and information-based selection. The method can be used to classify the status of crew members of a spacecraft.

Текст научной работы на тему «ПРОЕКТИРОВАНИЕ АНСАМБЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ СЕЛЕКЦИИ ПО ИНФОРМАТИВНОСТИ »

УДК 519.87

ПРОЕКТИРОВАНИЕ АНСАМБЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ СЕЛЕКЦИИ ПО ИНФОРМАТИВНОСТИ

О. В. Антоненко1 Научный руководитель - В. В. Становов

1 Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 2Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

E-mail: oleg.antonenko.98@inbox.ru

Статья описывает способ повышения точности алгоритма классификации объектов с применением ансамбля деревьев решений и селекции по информативности. Метод может использоваться для классификации состояния членов экипажа космического корабля.

Ключевые слова: деревья решений, алгоритмы классификации, ансамбль.

DESIGNING ENSEMBLES OF DECISIONS TREES USING THE INFORMATION-BASED SELECTION

O. V. Antonenko1 Scientific supervisor - V. V. Stanovov2

1Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation 2Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: oleg.antonenko.98@inbox.ru

The paper describes how to improve the accuracy of the classification algorithm for objects using an ensemble of decision trees and information-based selection. The method can be used to classify the status of crew members of a spacecraft.

Keywords: decision trees, classification algorithms, ensemble.

Деревья решений - алгоритм классификации, который принимает решения на основе разбиения признаков по информативности, как правило, для разбиения используется признак с максимальной информативностью. Преимуществом деревьев решений относительно других алгоритмов машинного обучения является то, что их результаты легко интерпретировать [1]. Данный алгоритм может использоваться для задач классификации эмоционального состояния членов экипажа космического корабля.

В основе данного алгоритма лежит критерий информативности, с его помощью производится разбиение выборки на каждом шаге:

Q(Rm,j,s) =H(Rm) - ^H(Rr),

где Q(Rm,j,s) - функционал качества; Я(й) - критерий информативности; Rm - множество объектов, попавших в вершину, разбиваемую на данном шаге; Ri и Rr - объекты, попадающие в левое и правое поддерево соответственно при заданном предикате [2].

Актуальные проблемы авиации и космонавтики - 2020. Том 2

Для работы классификатора используется энтропийный критерий:

Я(Я) = -1{=1р41о8р4,

где Р1 - доля объектов класса /; Я(й) - критерий информативности [2].

Для улучшения качества работы классификатора используются ансамбли деревьев решений. С их помощью качество классификации возрастает. Ансамбль состоит из группы деревьев, и он принимает решение о классе объекта методом невзвешенного голосования по принципу большинства.

Разбиение происходит до тех пор, пока не выполниться один из критериев останова: если в ветке были использованы все признаки; если все элементы, оставшиеся в узле, принадлежат одному классу; если дерево ограничено максимальной глубиной. Готовое дерево решений представлено на рис. 1.

Х[2] <= 2.209 entropy = 1 584 samples = 135 value = [47, 44, 44]

entropy = 0.0 samples = 47 value = [47, 0, 0]

X[3] <■= 1.719 entropy = 0 657

samples = value = [0, 44, 9]

X[2] <= 5.029 entropy = 10 samples = 88 value = [0, 44. 44]

entropy = 0.0 samples = 35 value - [0, 0, 35]

№]<= 3.821 entropy = 0.262

samples = 45 value = [0,43, 2]

_

entropy = 0.0 samples = 7 value - [0, 7. 0]

XI2] <= 4.848 entropy = 0.544

samples = 3 value = [0,1, 7]

entropy = 0.297 samples = 38 value - [0, 36, 2]

entropy = 0.918

samples = 3 value - [0, 1, 2]

_

entropy = 0.0 samples = 5 value - [0, 0, 5]

Рис. 1. Дерево решений

Для повышения обобщающей способности деревьев решений разбиение происходит по случайно выбранному признаку, а не признаку с максимальной информативностью. Вероятность быть выбранным прямо пропорциональна значению информативности.

Для подсчета точности используется десятичастная кросс-валидация. Кросс-валидация -процедура эмпирического оценивания обобщающей способности алгоритмов [3]. Сравнение точности классификации стандартных деревьев решений с ансамблем деревьев решений на основе детерминированного и стохастического разбиения признаков представлено в таблице.

Сравнение точности алгоритмов

Название набора данных Дерево решений Ансамбль деревьев решений

iris 0.93 0.96

car 0.80 0.835

banana 0.66 0.671

Как видно из таблицы точность алгоритма возрастает при использовании ансамблей деревьев решений с селекцией по информативности.

Библиографические ссылки

1. Радченко В. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес. [Электронный ресурс]. URL: https://habr.com/ru/company/ods/blog/324402/ (дата обращения: 2.4.2020).

2. Соколов Е. Лекция 3. Решающие деревья. : ФКНВШЭ, 2018. 3 с.

3. Скользящий контроль. [Электронный ресурс]. URL: http://www.machineleaming.ru/wiki/ index.php?title=Kpocc-вaлидaция (дата обращения: 2.4.2020).

© Антоненко О. В., 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.