Научная статья на тему 'МЕТОД КОЛЛЕКТИВНОГО ВЫБОРА АТРИБУТА В АЛГОРИТМЕ ОБУЧЕНИЯ ДЕРЕВЬЕВ РЕШЕНИЙ'

МЕТОД КОЛЛЕКТИВНОГО ВЫБОРА АТРИБУТА В АЛГОРИТМЕ ОБУЧЕНИЯ ДЕРЕВЬЕВ РЕШЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
деревья принятия решений / методы выбора атрибутов / decision trees / attribute selection methods

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Т.С. Карасева, С.А. Митрофанов

В данной статье исследуется эффективность классификации деревьев принятия решений с различными методами выбора атрибута деления выборки. Деревья принятия решений имеют широкое применение в различных областях, в том числе и ракетно-космической. Представлены результаты решения тестовых задач классификации для сравнения методов. Предложен новый способ коллективного выбора атрибута.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Т.С. Карасева, С.А. Митрофанов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COLLECTIVE ATTRIBUTE SELECTION METHOD IN DECISION TREE LEARNING ALGORITHM

This article explores the efficiency of decision tree classification with different methods for selecting the sampling division attribute. Decision trees are widely used in various fields, including rocket and space. The results of solving test problems of classification for comparison of methods are presented. A new method for the collective selection of an attribute is proposed.

Текст научной работы на тему «МЕТОД КОЛЛЕКТИВНОГО ВЫБОРА АТРИБУТА В АЛГОРИТМЕ ОБУЧЕНИЯ ДЕРЕВЬЕВ РЕШЕНИЙ»

Секция «Математические методы моделирования, управления и анализа данных»

УДК 004.85

МЕТОД КОЛЛЕКТИВНОГО ВЫБОРА АТРИБУТА В АЛГОРИТМЕ ОБУЧЕНИЯ

ДЕРЕВЬЕВ РЕШЕНИЙ

Т.С. Карасева1,2, С. А. Митрофанов1

'Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

2Сибирский федеральный университет Российская Федерация, 660074, г. Красноярск, ул. Академика Киренского, 26а E-mail: tatyanakarasewa@yandex.ru

В данной статье исследуется эффективность классификации деревьев принятия решений с различными методами выбора атрибута деления выборки. Деревья принятия решений имеют широкое применение в различных областях, в том числе и ракетно-космической. Представлены результаты решения тестовых задач классификации для сравнения методов. Предложен новый способ коллективного выбора атрибута.

Ключевые слова: деревья принятия решений, методы выбора атрибутов.

COLLECTIVE ATTRIBUTE SELECTION METHOD IN DECISION TREE LEARNING

ALGORITHM

T.S. Karaseva1,2, S.A. Mitrofanov1

'Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation

2Siberian Federal University 26a, Akademik Kirenskii str., Krasnoyarsk, 660074, Russian Federation E-mail: tatyanakarasewa@yandex.ru

This article explores the efficiency of decision tree classification with different methods for selecting the sampling division attribute. Decision trees are widely used in various fields, including rocket and space. The results of solving test problems of classification for comparison of methods are presented. A new method for the collective selection of an attribute is proposed.

Keywords: decision trees, attribute selection methods.

В настоящее время методы искусственного интеллекта внедряются в различные сферы, такие как IT-технологии и образование. Текущий темп внедрения методов искусственного интеллекта предполагает развитие этих технологий с целью получения наибольшей эффективности при решении прикладных задач. Поэтому исследователи разрабатывают различные дополнительные алгоритмы и процедуры для классических методов искусственного интеллекта [1-2]. Одним из самых популярных методов искусственного интеллекта являются деревья решений [3]. Этот метод получил широкое распространение благодаря возможности интерпретировать полученные результаты в понятной для неспециалиста по машинному обучению форме [4-5]. Существуют различные подходы к обучению деревьев решений. Также были разработаны композиционные методы на основе деревьев решений. Методы дерева решений применяются для решения задач классификации, кластеризации, прогнозирования [5].

Актуальные проблемы авиации и космонавтики - 2022. Том 2

Процесс построения деревьев решений предполагает последовательное рекурсивное разбиение обучающей выборки на подмножества с использованием решающих правил в узлах. Для построения решающего правила необходимо произвести выбор атрибута [6]. По этому атрибуту будет производиться разбиение в заданном узле.

Существуют следующие классы методов выбора атрибутов: оболочки, встроенные и фильтры. Выбор атрибута осуществлялся только при помощи фильтров, так как только они могут выполнять разбиение пространства признаков для необученной модели. Фильтры делятся на обучаемые с учителем и без учителя. Оба типа фильтров были использованы в этой статье. Были использованы следующие фильтры:

1) Выбор атрибута разделения по дисперсии;

2) Выбор атрибута разбиения по средней абсолютной разнице;

3) Выбор атрибута разделения на соотношения дисперсий;

4) ReliefF;

5) Fisher scoring;

6) Chi-squared score;

7) Выбор атрибута на основе корреляции;

8) Быстрый фильтр на основе корреляции;

9) Мера разделения.

Для тестирования были взяты 12 задач классификации из репозитория [7].

В качестве критериев эффективности были выбраны точность классификации (доля правильно классифицированных объектов в тестовой выборке) и время обучения дерева решений. Для каждой задачи было проведено 100 запусков алгоритма. Задачи классификации были разделены на обучающую и тестовую выборки в соотношении 7 к 3. Деревья решений не имели ограничений по глубине и строились до 100% классификации на обучающей выборке. Дифференциальная эволюция началась с 10 особей в 30 поколениях.

В Таблице 1 представлены результаты, усредненные по 12 задачам с разными методами выбора признака разбиения.

Таблица 1

Результаты, усредненные по 12 задачам классификации_

Методы выбора атрибута разделения Среднее значение точности классификации (%) Среднее время обучения (секунды)

Дисперсия 65,808 3,685

Средняя абсолютная разница 65,783 4,083

Соотношение дисперсий 65,392 4,005

ReliefF 68,825 287,658

Fisher scoring 62,244 4,358

Chi-squared score 58,483 5,042

Корреляция 60,525 248,46

Быстрый фильтр на основе корреляции 53,617 5,248

Мера разделения 76,592 4,472

На основании представленных данных можно сделать вывод, что наиболее предпочтительным методом является мера разделения, так как она обладает наибольшей эффективностью. При этом отстает от лучшего метода по времени обучения менее чем на секунду.

Однако далеко не секрет, что отдельные методы могут работать хуже, чем коллектив. Поэтому стоит попробовать использовать коллективный выбор атрибута разделения. Однако классические методы голосования не сработают для выбора атрибута, так как атрибутов могут быть тысячи. Мы предполагаем далее реализовать новый подход коллективного

Секция ееМатематические методы моделирования, управления и анализе данных»е

выбора атрибута при обучении дерева принятия решений, который будет вычислять общую важность атрибута по нескольким методам фильтрации.

Каждый отдельный метод выбора атрибута вычисляет некоторый коэффициент «важности» всех атрибутов и выбирает атрибут с наибольшим коэффициентом. Метод коллективного выбора будет нормировать коэффициенты «важности» от каждого из используемых методов, а затем суммировать их по каждому из атрибутов и также выбирать наибольшую сумму.

Библиографические ссылки

1. Ya. A. Polin, T. V. Zudilova, I. V. Ananchenko and T. E. Voytyuk, Modern high technologies 9, pp. 59-63 (2020).

2. S.A. Mitrofanov, II International Scientific Conference "Advanced Technologies in Aerospace, Mechanical and Automation Engineering" - MIST: Aerospace 2019, Krasnoyarsk,

2019, (IOP Publishing Ltd, 2020), Vol. 734, pp. 12098.

3. L. Breiman, J. H. Friedman, R. A. Olshen and C. J. Stone, Classification and regression trees (Wadsworth & Brooks/Cole Advanced Books & Software, Monterey, 1984).

4. A. N. Vinogradov, A. N. Lebedev and M. V. Tereshonok, T-Comm - Telecommunications and Transport, (S-DSPA, 2009), pp. 28-30.

5. Ya. A. Polin, T. V. Zudilova, I. V. Ananchenko and T. E. Voytyuk, Modern high technologies 9, pp. 59-63 (2020).

6. S. A. Mitrofanov and E. S. Semenkin, III International Conference "Advanced Technologies in Aerospace, Mechanical and Automation Engineering" - MIST Aerospace 2020, Krasnoyarsk,

2020, (IOP Publishing Ltd, 2021), Vol. 1047, pp. 12082.

7. Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/index.php (дата обращения: 13.03.2022).

© Карасева Т. С., Митрофанов С. А., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.