Построение деревьев решений для случая малоинформативных признаков

Субботин С. А.

УДК 004.93

ПОСТРОЕНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ СЛУЧАЯ МАЛОИНФОРМАТИВНЫХ ПРИЗНАКОВ

Субботин С. А. - д-р техн. наук, профессор, заведующий кафедрой программных средств Запорожского национального технического университета, Запорожье, Украина.

АННОТАЦИЯ

Актуальность. Рассмотрена задача автоматизации построения деревьев решений. Объектом исследования являются деревья решений. Предметом исследования являются методы построения деревьев решений.

Цель. Цель работы - создание метода построения моделей на основе деревьев решений для выборок данных, характеризующихся наборами индивидуально малоинформативных признаков.

Метод. Предложен метод построения деревьев решений, который для заданной выборки определяет индивидуальную информативность признаков по отношению к выходному признаку, а также оценивает взаимосвязь входных признаков между собой как их индивидуальную информативность попарно по отношению друг к другу, на этапе формирования очередного узла в качестве признака-кандидата выбирает признак, дающий наилучшее разбиение из всего множества признаков, после чего последовательно ищет среди всех еще неотобранных для данного узла признаков такой признак, который индивидуально наиболее тесно связан с отобранным кандидатом, после чего для совокупности отобранных признаков, перебирая поочередно из заданного набора доступные преобразования, определяет качество разбиения для каждого преобразования, выбирает наилучшее преобразование и добавляет его в узел. Метод стремится при формировании очередного узла выделить группу наиболее тесно взаимосвязанных признаков, преобразование которой в скалярное значение обеспечит наилучшее разбиение подвыборки экземпляров, попавших в данный узел. Это позволяет сократить размер модели и ветвистость дерева, ускорить вычисления при распознавании экземпляров на основе модели, а также повысить обобщающие свойства модели и ее интерпретабельность. Предложенный метод позволяет использовать построенное дерево решений для оценки значимости признаков.

Результаты. Разработанный метод реализован программно и исследован при решении задачи классификации сигналов, представленных набором отсчетов, обладающих индивидуально низкой информативностью.

Выводы. Проведенные эксперименты подтвердили работоспособность предложенного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач диагностирования и автоматической классификации по признакам. Перспективы дальнейших исследований могут заключаться в создании параллельных методов построения деревьев решений на основе предложенного метода, оптимизации его программных реализаций, а также экспериментальном исследовании предложенного метода на более широком комплексе практических задач.

КЛЮЧЕВЫЕ СЛОВА: дерево решений, распознавание образов, классификация, признак, информативность.

АББРЕВИАТУРЫ

ДР - дерево решений.

НОМЕНКЛАТУРА

Н - набор доступных преобразований; Л - множество отобранных признаков для текущего узла;

М - множество неотобранных и нерассмотренных признаков для текущего узла;

Ф - текущее подмножество экземпляров (подвы-борка);

е - граничное приемлемое значение ошибки модели;

ПЬ (х"") - Ь-е преобразование;

V - характеристика памяти ДР;

т - характеристика скорости вычислений ДР;

В - число преобразований в наборе Н;

Ек - ошибка к-го класса классов;

Ег - ошибка модели для обучающих данных;

Еы - ошибка модели для тестовых данных;

Б - критерий качества модели на основе ДР; /- структура ДР;

I/ - информативностьу-го входного признака;

IQ - интегральный показатель качества модели в виде ДР;

I j - взаимосвязь входных /-го и j-го признаков;

Igen - показатель обобщения моделью обучающей выборки данных;

I** - частичная косвенная информативность исходного признака; *

Ij - частичная явная информативность исходного признака;

I j - индивидуальная информативность входного признака x. по отношению к выходному признаку у;

Jnt(Л)(Ф)- качество разбиения для b-го преобразования;

Jj (Ф) - критерий разбиения по признаку Xj для

экземпляров текущего подмножества Ф в узле;

к - номер класса;

K - число классов в выборке;

N - число входных признаков;

N - число используемых в модели признаков;

N / и - доля листовых узлов в общем числе узлов

ДР;

N у / и - доля узлов, содержащих преобразования

двух и более признаков в общем числе узлов;

Nw / ь - среднее число настраиваемых параметров на связь ДР;

N3 /1 - среднее число экземпляров обучающей выборки на листовой узел ДР;

NIW - число настраиваемых параметров связей ДР;

N^1 - число настраиваемых параметров узлов ДР; Nu - число узлов в ДР;

^ - число узлов ДР, содержащих преобразования двух и более признаков;

N1 - число настраиваемых параметров преобразований модели;

Nl - доля числа использованных моделью признаков в исходном числе входных признаков;

Ы^/и - среднее число настраиваемых параметров

на узел ДР;

N1 /и - среднее число связей на узел ДР;

^ - число листовых узлов ДР;

N1 - число связей между узлами;

3 - число экземпляров в выборке;

и - множество узлов ДР;

м> - множество параметров ДР;

х - множество экземпляров обучающей выборки;

х5 - 5-й экземпляр выборки; ху - входнойу-й признак;

х^ - значение у-го входного признака 5-го экземпляра выборки;

ху* - признак, который характеризуется наилучшим значением критерия разбиения текущего подмножества 3 у (Ф) среди всего набора признаков для

данного узла;

у - выходной признак;

у5 - значение выходного признака для 5-го экземпляра выборки;

2 - критерий останова при построении ДР.

ВВЕДЕНИЕ

Задачи автоматизации поддержки принятия решений возникают во многих практических приложениях. Особую актуальность такие задачи приобретают в случае, когда экспертные знания в предметной области отсутствуют или являются недостаточными, но имеются точечные наблюдения за состоянием объекта или процесса, в отношении которого ставится задача автоматизации принятия решений.

Для такого класса задач весьма эффективным инструментом являются ДР [1-14], представляющие собой получаемые индуктивно модели, обучаемые на основе прецедентов - наблюдений за состоянием моделируемого объекта или процесса.

Объектом исследования являются ДР.

ДР как вычислительная парадигма (класс моделей и методов их построения) обладают такими достоинствами, как простота интерпретации результатов модели, наглядность восприятия и визуализируемое^ модели в виде дерева, возможность одновременной работы как с категориальными, так и с количественными признаками, отсутствие требований по подготовке данных (нормализации признаков, удаления пропусков), универсальность в плане решения задач классификации и регрессии, возможность работы с пропусками в данных (пустыми значениями признаков) и заполнения пропусков в данных наиболее вероятными значениями, хорошая производительность в процессе классификации по уже построенному дереву (так как метод поиска в дереве весьма эффективен даже для больших наборов данных), возможность оценить надёжность модели при помощи статистических тестов, высокая скорость обучения и работы модели, малое число параметров метода построения модели, возможность определить худшие, лучшие и ожидаемые значения для разных сценариев, способность извлекать знания из данных, учитывать в модели имеющиеся экспертные знания, возможность комбинироваться с другими методами принятия решений [2, 4, 11, 12].

Однако ДР характеризуются рядом недостатков, к которым можно отнести нестабильность процесса построения и высокую чувствительность моделей к шумам и изменениям во входных данных (небольшие изменения в наборе данных могут приводить к построению совершенно другого ДР, что связано с иерархичностью ДР: изменения в узле на верхнем уровне ведут к изменениям во всем дереве ниже), сложность контроля размера ДР (размер ДР является критическим фактором, определяющим качество решения задачи: при использовании простых критериев остановки деревья часто растут или очень короткими, или очень большими), неадекватность разделения на классы в сложных случаях (разбиение в узлах происходит по значению одного атрибута параллельно осям признаков, формируя в пространстве признаков прямоугольные кластеры, форма которых может не соответствовать форме реальных кластеров), возможность переобучения из-за создания в процессе построения ДР слишком сложной конструкции, которая недостаточно полно представляет данные, большое число ошибок при использовании излишне детализированных деревьев вследствие переобучения, высокую сложность решения задачи построения оптимального (минимального по размеру и способного без ошибок классифицировать выборку) ДР (№-полная задача), неэффективность модели для представления задач

типа XOR, чётности или мультиплексарности, пригодность модели только для интерполяции, но не экстраполяции, относительную неточность расчетов (многие другие методы работают лучше с аналогичными данными), сложность вычислений для связанных между собой входных и / или выходных признаков [1, 3, 6, 10, 14].

Предметом исследования являются методы построения ДР.

Известны различные методы построения ДР [114], общим свойством которых является ориентация на обработку наборов признаков, содержащих индивидуально информативные признаки. Использование известных методов для обработки сигналов, содержащих большое число индивидуально малоинформативных признаков приведет к созданию деревьев огромного размера, требующих больших затрат памяти на хранение модели и существенных затрат вычислительных ресурсов на расчеты по модели. Поэтому необходимо разработать математическое обеспечение для построения ДР на основе индивидуально малоинформативных признаков.

Цель работы - создание метода построения моделей на основе ДР для выборок данных, характеризующихся наборами индивидуально малоинформативных признаков.

1 ПОСТАНОВКА ПРОБЛЕМЫ

Пусть задана обучающая выборка данных <x, y>,

x = {xs}, y = {ys}, ys e{£}, Xs = {xj }, j = 1, 2, ..., N, s

= 1, 2, ..., S, к = 1, 2, ..., K. Тогда задача построения ДР на основе выборки <x, y> будет состоять в том, чтобы сформировать структуру ДР f и настроить значения

его параметров w: yj = f (w,xs), F(f (w,x),y) ^ opt.

2 ЛИТЕРАТУРНЫЙ ОБЗОР

ДР - модель принятия решений, представленная в виде дерева, узлы которого содержат проверки соответствия значений признаков распознаваемого экземпляра, а связи определяют переходы между узлами для получения решения для распознаваемого экземпляра.

Обобщенно процесс построения ДР можно представить в следующей форме [2, 12].

1. Инициализация. Задать обучающую выборку <x, y>. Определить критерий останова: достижение максимально допустимой высоты ДР Z, либо получение в каждом листе ДР не более Z экземпляров. В качестве текущего подмножества экземпляров (подвыборки) Ф для корневого узла задать всю исходную выборку Ф = <x, y>.

2. Для текущего подмножества экземпляров Ф сформировать текущий узел ДР [15-18]:

- сформировать текущий узел как листовой (у которого нет потомков) и занести в него все текущее подмножество экземпляров;

- проверить критерий останова и при его удовлетворении завершить формирование ДР;

DOI 10.15588/1607-3274-2019-1-12

- для каждого признака x* найти значение критерия разбиения по признаку xj для экземпляров текущего подмножества в данном узле J j (Ф), такой, что

чем больше будет его значение, тем лучше будет разбиение [19-26];

- выбрать из набора признаков такой признак x* ,

который характеризуется наилучшим значением критерия разбиения текущего подмножества J j (Ф) среди

всего набора признаков для данного узла:

*

j = argmax{ Jj (Ф)}; j

- определить текущий узел ДР как внутренний (у которого есть потомки), в который занести признак x j* и значение порога разбиения экземпляров по данному признаку;

- выделить подмножества экземпляров, на которые разбивается исходное для данного узла подмножество экземпляров выборки;

- для каждого подмножества рекурсивно выполнить этап формирования текущего узла, сформировав дочерние узлы, после чего установить связи от текущего узла к дочерним узлам.

3. При необходимости для слишком ветвистого ДР выполнить процедуру обрезки ветвей (pruning) [11].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Вернуть полученное ДР как результат.

Известные методы построения ДР [1-14] отличаются в основном используемыми процедурами выделения подвыборок, используемыми критериями оценки ценности признаков для помещения их в узел, а также процедурами обрезки ветвей. Однако, как отмечено выше, они предполагают, что набор признаков содержит индивидуально информативные признаки, позволяющие обеспечить эффективное разделение экземпляров на классы.

В случае, когда признаки индивидуально малоинформативны, известные методы будут производить очень глубокие и ветвистые деревья, которые могут не обеспечить требуемую точность, будут обладать низким уровнем обобщения данных, а также будут требовать больших ресурсов памяти для хранения и вычислительно окажутся затратными.

Во многих задачах доступные для измерения признаки являются индивидуально малоинформативными, однако в совокупности обладают достаточной групповой информативностью для принятия решений, а также разделения классов в узлах ДР.

Одним из традиционно применяемых подходов к построению моделей в таких задачах является создание искусственных (конструктивных) признаков на основе взаимосвязанных первичных. Эта задача решается либо пользователем, являющимся экспертом в предметной области, либо путем анализа и обработки сигналов с последующей заменой фрагмента сигнала на его параметры, обобщенно характеризующие важнейшие для задачи свойства [27]. Такой подход, одна-

ко, не позволяет полностью автоматизировать процесс построения ДР и фактически не связан прямо с процессом построения ДР и может рассматриваться лишь как предобработка данных для синтеза ДР.

Поэтому актуальной является задача разработки метода построения ДР для случая индивидуально малоинформативных признаков с автоматическим формированием конструктивных признаков в узлах ДР.

3 МАТЕРИАЛЫ И МЕТОДЫ

Для решения задачи построения ДР по выборке, характеризующейся индивидуально малоинформативными признаками, предлагается перед построением ДР для заданной обучающей выборки определить показатели, характеризующие индивидуальную информативность признаков по отношению к выходному признаку [28, 29], а также определить взаимосвязь входных признаков между собой как их индивидуальную информативность попарно по отношению друг ко другу.

На этапе формирования очередного узла в качестве признака-кандидата выбирать признак, дающий наилучшее разбиение из всего множества признаков, после чего последовательно искать среди всех еще неотобранных для данного узла признаков такой признак, который индивидуально наиболее тесно связан с отобранным кандидатом, после чего для совокупности отобранных признаков, перебирая поочередно из заданного набора доступные преобразования, определить качество разбиения для каждого преобразования [30]. Если будет найдено такое преобразование, которое имеет лучшее качество разбиения при добавлении дополнительного признака, чем ранее отобранная для соответствующего узла комбинация признаков, то добавить очередной признак и преобразование в комбинацию. Если же очередной признак не будет улучшать разбиение, то прекратить добавление признаков в узел.

Набор преобразований целесообразно задавать с учетом специфики решаемой задачи. Желательно обеспечить такие преобразования, которые являются достаточно простыми с вычислительной точки зрения и содержательно могут быть интерпретированы, что обеспечит сохранение интерпретабельности модели.

В качестве таких преобразований можно рекомендовать использовать:

- сумму значений признаков группы:

N

Пь (х5) =Т{х} I Ху у=1

бЛ};

произведение значений признаков группы:

N

Пь(х5) = П{х'} Iху 6Л}; у=1

- максимум значений признаков группы:

Пь(х5) = тах {х5- | х,- 6Л};

у=1,2,...^ 1 1

- минимум значений признаков группы:

Пь(х5) = тт {х5 | х 6 Л}; у=1,2,..., N -1 -1

- среднее арифметическое значений признаков группы:

1

N

Пь(х5) = ТЛ7 хх I ху 6Л}; 1 Л 1 у=1

- Эвклидово расстояние в пространстве признаков группы от распознаваемого экземпляра до центра масс экземпляров, попавших в разбиваемый узел:

где

Пь(х5) = ^Х|(с" - х* )ху 6Л}

>1

Си = тФ| 5{

х4 6Ф

ху 6 Л,у = 1, 2, ..., N.

- локально чувствительный хэш значений признаков группы [30].

Формально с учетом изложенных идей метод построения ДР можно представить следующим образом.

1. Инициализация. Задать обучающую выборку <х, у>. Определить критерий останова: достижение максимально допустимой высоты ДР 2 либо получение в каждом листе ДР не более 2 экземпляров. В качестве текущего подмножества экземпляров (подвыборки) Ф для корневого узла задать всю исходную выборку Ф = <х, у>. Задать набор доступных преобразований для объединения исходных признаков в конструируемые Н = {пь}, ь = 1, 2, ...., В, где Пь - ь-е преобразование из набора, В - число преобразований в наборе.

2. Определение априорной информации об обучающих данных. Оценить индивидуальную информативность 1у каждого входного признака ху,у =1, 2, ...,

N, по отношению к выходному признаку у. Оценить взаимосвязь входных /-го и у-го признаков как индивидуальную информативность /-го входного признака

по отношению к у-му входному признаку I .

у

3. Для текущего подмножества экземпляров Ф сформировать текущий узел ДР:

- сформировать текущий узел как листовой (у которого нет потомков) и занести в него все текущее подмножество экземпляров;

- проверить критерий останова и при его удовлетворении завершить формирование ДР;

- для каждого признака х у наити значение критерия разбиения по признаку х/ для экземпляров текущего подмножества в данном узле У у (Ф), такой, что

чем больше будет его значение, тем лучше будет разбиение.

- выбрать из набора признаков такой признак х* ,

который характеризуется наилучшим значением критерия разбиения текущего подмножества У * (Ф) среди

всего набора признаков для данного узла:

*

у = а^шахУ/ (Ф)};

/

- если найдено более одного признака, обладающего наилучшим значением критерия разбиения (| / |> 1), то из множества таких признаков / выбрать тот, который индивидуально является наиболее информативным по отношению к выходному признаку:

j = arg max{Ip | p e arg max{Jj (Ф)}}.

p j

принять: Л = {х.„} - множество отобранных признаков для текущего узла, М = {хг- }\ х* - множество неотобранных и нерассмотренных для текущего узла признаков, I = 1, 2, ..., N.

4. Группировка признаков в текущем узле и:

- если отсутствуют еще неотобранные и непросмотренные для текущего узла признаки (|М|=0), то перейти к следующему этапу;

- среди всех еще неотобранных и нерассмотренных для текущего узла признаков определить такой признак, который индивидуально наиболее тесно связан с отобранным признаком кандидатом / :

Л = Л ^ {xp | p = argmax{I. ., | xt g Л,xt e M},

после чего установить: М = М \ хр;

- для совокупности отобранных признаков Л, перебирая поочередно из заданного набора Н доступные преобразования, определить качество разбиения для каждого преобразования: у (Л)(Ф), Ь = 1, 2, ..., В.

- если очередной /*-й признак не будет улучшать разбиение (УЬ = 1,2,...,В : Уль(Л)(Ф) < УЛь(л\х ,)(Ф)), то

прекратить добавление признаков в узел, установив Л = Л \ ху* и перейдя к следующему этапу; в противном случае, если будет найдено такое преобразование, которое имеет лучшее качество разбиения при добавлении дополнительного признака, чем ранее отобранная для соответствующего узла комбинация

признаков (зь = 1,2,...,B: J(Л)(Ф) > J(Л\x ,.)(Ф)),

то

добавить очередной признак и преобразование в комбинацию, повторив выполнение этапа группировки признаков в узле.

5. Этап разбиения текущего узла и формирования ветвей:

- определить текущий узел ДР как внутренний (у

которого есть потомки), в который занести признак

x * и значение порога разбиения экземпляров по дан/

ному признаку;

- выделить подмножества экземпляров, на которые разбивается исходное для данного узла подмножество экземпляров выборки;

- для каждого подмножества рекурсивно выполнить этапы 3-5, сформировав дочерние узлы, после чего установить связи от текущего узла к дочерним узлам.

6. При необходимости для слишком ветвистого ДР выполнить процедуру обрезки ветвей (pruning).

7. Вернуть полученное ДР как результат.

Предложенный метод для класса задач с индивидуально малоинформативными признаками будет стремиться при формировании очередного узла выделить группу наиболее тесно взаимосвязанных признаков, преобразование которой в скалярное значение обеспечит наилучшее разбиение подвыборки экземпляров, попавших в данный узел. Это позволит, во-первых, сократить размер модели и ветвистость ДР, во-вторых, ускорит вычисления при распознавании экземпляров на основе модели, а в-третьих, повысит обобщающие свойства модели и ее интерпретабель-ность. Вместе с этим предложенный метод может оказаться более вычислительно затратным на этапе построения модели из-за необходимости большего числа переборов преобразований и сочетаний признаков для групп в каждом узле.

ДР, построенное с помощью предложенного метода, возможно также использовать для оценки значимости признаков.

1. Задать ДР и исходную выборку.

2. Определить признаки, использованные явно в узлах модели.

3. Определить признаки, использованные неявно для определения хэшей, использованных в узлах модели.

3. Все признаки, которые не в ходят ни в , считать неинформативными, приняв для них I j = 0.

4. Определить частичную явную информативность исходного признака, использованного отдельно (без преобразований) во внутреннем узле, как долю наименьшего числа экземпляров, попавших в дочерний узел | Ф |, в исходной выборке:

I * =

|Ф| S

5. Определить частичную косвенную информативность исходного признака, использованного в преобразовании во внутреннем узле, как долю наименьшего числа экземпляров, попавших в дочерний узел, в исходной выборке, деленную на | Л | - число признаков, входящих в группу преобразования для соответствующего узла:

I« = | Ф |

у = 5|Л|

6. Определить совокупную информативность признака как максимальную из его частичных явной и косвенной информативностей для всего множества узлов ДР и :

I у = тах(тах{1 *}, тах{1 **}).

и

7. Нормировать значения информативностей признаков так, чтобы их сумма равнялась единице:

]

N

XI,

/=1

- ошибки для каждого из классов Ек > 0, к = 1, 2, ..., К.

Определим относительные характеристики ДР на основе его элементарных характеристик:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- среднее число связей на узел ДР:

Nь/и = ^ > 0;

N

и

- среднее число настраиваемых параметров на узел ДР:

Nw/и = ^ > 0;

Nи

- среднее число настраиваемых параметров на связь ДР:

^ / ь

N N

ь

4 ЭКСПЕРИМЕНТЫ

Поскольку для одной и той же обучающей выборки данных с помощью различных методов и при разных значениях их параметров возможно получить различные модели в виде ДР на практике возникает задача сравнения имеющихся моделей и выбора наилучшей модели из них.

Для сравнения моделей и методов построения ДР целесообразно определить показатели, характеризующие их наиболее важные свойства, с последующим определением на их основе интегрального показателя качества - критерия сравнения моделей на основе ДР.

К элементарным характеристикам ДР (с указанием их граничных значений) относятся:

- число узлов в дереве ^ > К+1;

- число связей между узлами ^ > Nи ;

- число настраиваемых параметров узлов ДР

< >0;

- число настраиваемых параметров связей ДР

^ > 0;

- число узлов ДР, содержащих преобразования двух и более признаков, ми > 0;

- число листовых узлов ДР ^ > К;

- число используемых в модели признаков N

N > N > 1;

- ошибка модели для обучающих данных Е1г > 0;

- ошибка модели для тестовых данных Е ш > 0;

- долю числа использованных моделью признаков в исходном числе входных признаков:

N 1= N >0; 1 N

- долю узлов, содержащих преобразования двух и более признаков в общем числе узлов:

N

Г / и

Щ

> 0;

- долю листовых узлов в общем числе узлов ДР:

N

К

I / и

N,

> К;

- среднее число экземпляров обучающей выборки на листовой узел ДР:

N5/1 =-4 >0.

N.

и

Показатель обобщения моделью обучающей выборки данных:

=__

N1 + N4 + тг + 2 Nr

>0,

где N1, - число настраиваемых параметров преобразований модели.

Важнейшими параметрами модели на основе ДР, значения которых необходимо минимизировать, являются ошибки модели для обучающих данных Ег,

для тестовых данных Еы и ошибки для каждого из

классов Ек .

I

Среди параметров ДР при приемлемой ошибке целесообразно уменьшать показатели структурной сложности (число используемых в модели признаков N долю числа использованных моделью признаков в исходном числе входных признаков Nl, число узлов

в дереве Nu и число связей между узлами NL), показатели параметрической сложности (число настраиваемых параметров узлов ДР ^ и число настраиваемых параметров связей ДР NIL , среднее число настраиваемых параметров на узел ДР / и , среднее число настраиваемых параметров на связь ДР Nw / L, среднее число связей на узел: NL / и), характеристики памяти V и скорости вычислений т.

Увеличивать целесообразно долю листовых узлов в общем числе узлов ДР N1 /и и число листовых узлов ДР ^ (это будет сокращать промежуточные уровни принятия решений), число узлов ДР, содержащих преобразования двух и более признаков Nlj и

долю узлов, содержащих преобразования двух и более признаков в общем числе узлов, N/ /и (это будет

обеспечивать повышение обобщения данных и сокращать ветвистость ДР), а также показатель обобщения 1ёеп, среднее число экземпляров обучающей выборки на листовой узел ДР N3 / /.

Интегральный показатель качества модели в виде ДР с учетом изложенных выше соображений, подставив определения вторичных показателей через первичные, приведя подобные, исключив дубляж показателей, конструктивно можно определить как:

Iе =

(^ + ^ )е

Е„

N'^N1(N + К + N1)' 3

< е;

Е

0> е. 3

Предложенный показатель для средней ошибки, большей заданного максимально допустимого уровня, будет равен нулю. В случае, если средняя ошибка является приемлемой, показатель будет принимать значения от нуля до суммы числа листовых узлов и внутренних узлов, содержащих преобразования двух и более признаков. Чем меньше будет значение показателя, тем хуже модель по совокупности свойств. Чем

Таблица 1 - Характеристики

больше будет значение показателя, тем лучше будет модель по совокупности свойств.

Разработанный метод построения ДР и предложенный комплекс показателей качества ДР были программно реализованы при решении задач классификации сигналов: задачи диагностики лопаток газотурбинных авиадвигателей [31] и задачи классификации растительных объектов по результатам дистанционного зондирования [32].

Общим свойством решавшихся задач являлось то, что входные данных представляли собой наборы отсчетов сигнала (или спектров сигнала), которые индивидуально являлись малоинформативными.

Разработанное программное обеспечение использовалось для проведения экспериментов по исследованию работы предложенного метода при решении практических задач классификации по индивидуально малоинформативным признакам.

5 РЕЗУЛЬТАТЫ

Фрагмент результатов проведенных экспериментов представлен в табл. 1.

В обеих задачах построенные модели ДР обладали приемлемым уровнем точности, заданным с учетом требований задачи.

6 ОБСУЖДЕНИЕ

Разработанный комплекс показателей качества моделей на основе ДР позволяет количественно выразить важнейшие свойства деревьев решений и может быть использован в процессе построения моделей как критерий оптимизации, а также для сравнения и выбора итоговой модели из множества моделей, построенных на основе различных методов синтеза ДР. Как видно из табл. 1, предложенный метод построения моделей на основе ДР по сравнению с классическим подходом [1] позволяет синтезировать модели, обладающие приемлемой точностью, но более высоким качеством, что объясняется более высоким уровнем обобщения данных, что, в свою очередь, обеспечивается минимизацией числа узлов-проверок и автоматическим формированием преобразований исходных признаков в узлах.

ВЫВОДЫ

Решена задача автоматизации построения ДР по набору прецедентов.

Научная новизна полученных результатов состоит в том, что впервые предложен метод построения ДР, который для заданной выборки определяет индивидуальную информативность признаков по отношению к выходному признаку, а также оценивает взаимосвязь входных признаков между собой как их индивидуальную информатив-

задач и моделей в виде ДР

Задача Характеристики исходной выборки Iе полученной модели ДР

К N 3 Метод [2] Предложенный метод

Диагностирование лопаток газотурбинных авиадвигателей [31] 2 1000 32 0,000521669 0,000561664

Классификация растительных объектов на культурные и сорные по результатам дистанционного зондирования [32] 2 55 248 0,000044837 0,000055713

ность попарно по отношению друг ко другу, на этапе формирования очередного узла в качестве признака-кандидата выбирает признак, дающий наилучшее разбиение из всего множества признаков, после чего последовательно ищет среди всех еще неотобранных для данного узла признаков такой признак, который индивидуально наиболее тесно связан с отобранным кандидатом, после чего для совокупности отобранных признаков, перебирая поочередно из заданного набора доступные преобразования, определяет качество разбиения для каждого преобразования, выбирает наилучшее преобразование и добавляет его в узел. Метод стремится при формировании очередного узла выделить группу наиболее тесно взаимосвязанных признаков, преобразование которой в скалярное значение обеспечит наилучшее разбиение подвыборки экземпляров, попавших в данный узел. Это позволяет сократить размер модели и ветвистость ДР, ускорить вычисления при распознавании экземпляров на основе модели, а также повысить обобщающие свойства модели и ее интерпрета-бельность. Предложенный метод позволяет использовать построенное ДР для оценки значимости признаков.

Предложен комплекс показателей, позволяющих количественно характеризовать свойств моделей на основе ДР, который может использоваться как для сравнения и выбора наилучшей модели, так и в процессе построения моделей для определения критерия оптимальности моделей.

Практическая ценность полученных результатов состоит в том, что разработанный метод реализован программно и исследован при решении задачи классификации сигналов, представленных набором отсчетов, обладающих индивидуально низкой информативностью.

Проведенные эксперименты подтвердили работоспособность предложенного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач диагностирования и автоматической классификации по признакам.

Перспективы дальнейших исследований могут заключаться в создании параллельных методов построения ДР на основе предложенного метода, оптимизации его программных реализаций, а также экспериментальном исследовании предложенного метода на более широком комплексе практических задач.

БЛАГОДАРНОСТИ

Работа выполнена в рамках госбюджетной научно-исследовательской темы «Интеллектуальные методы и программные средства диагностирования и неразрушаю-щего контроля качества техники военного и гражданского назначения» Запорожского национального технического университета при частичной поддержке международного проекта «Innovative Multidisciplinary Curriculum in Artificial Implants for Bio-Engineering BSc/MSc Degrees» (BIOART, регистрационный номер 586114-EPP-1-2017-1-ES-EPPKA2-CBHE-JP) програм-мы «Эразмус+» Европейского Союза.

ЛИТЕРАТУРА / Л1ТЕРАТУРА

1. Amit Y. Joint induction of shape features and tree classifiers. / Y. Amit, D. Geman, K. Wilder // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - V. 19, № 11. - P. 13001305.

2. Classification and regression trees / [L. L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone]. - Boca Raton : Chapman and Hall/CRC, 1984. - 368 p.

3. Dietterich T. G. Machine learning bias, statistical bias, and statistical variance of decision tree algorithms [Electronic resource] / T. G. Dietterich, E. B. Kong. - Corvallis : Oregon State University, 1995.

- 14 p. - Access mode: http://www.cems.uwe.ac.uk/~irjohnso/coursenotes/uqc832/tr-bias.pdf

4. Geurts P. Supervised learning with decision tree-based methods in computational and systems biology / P. Geurts, A. Irrthum, L. Wehenkel // Molecular Biosystems. - 2009. -V. 5, № 12. - P. 15931605.

5. Heath D. Induction of oblique decision trees [Electronic resource] / D. Heath, S. Kasif, S. Salzberg. - Baltimor : Johns Hopkins University, 1993. - 6 p. - Access mode: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.48.9208& rep=rep1&type=pdf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Hothorn T. Unbiased recursive partitioning: A conditional inference framework / T. Hothorn, K. Hornik, A. Zeileis // Journal of Computational and Graphical Statistics. - 2006. -V. 15, № 3. - P. 651674.

7. Hyafil L. Constructing optimal binary decision trees is np-complete / L. Hyafil, R. L. Rivest // Information Processing Letters. - 1976. -V. 5, № 1. - P. 15-17.

8. Kim H. Classification trees with unbiased multiway splits / H. Kim, W.-Y. Loh // Journal of the American Statistical Association. -2001. - V. 96, № 454. - P. 589-604.

9. Kufrin R. Decision trees on parallel processors / R. Kufrin // Machine Intelligence and Pattern Recognition. - 1997. -V. 20. - P. 279-306.

10. Kwok S. W. Multiple decision trees / S. W. Kwok, C. Carter // Fourth Annual Conference on Uncertainty in Artificial Intelligence (UAI '88), 10-12 July 1988, Minneapolis : proceedings. - Amsterdam North-Holland Publishing Co., 1990. - P. 327-338.

11. Mingers J. An empirical comparison of pruning methods for decision tree induction / J. Mingers // Machine learning. - 1989. - V. 4, № 2. - P. 227-243.

12. Quinlan J. R. Induction of decision trees / J. R. Quinlan // Machine learning. - 1986. - V. 1, № 1. - P. 81-106.

13. Strobl C. Unbiased split selection for classification trees based on the Gini index / C. Strobl, A. Boulesteix, T. Augustin. - Computational Statistics & Data Analysis: - 2007. - V. 52, № 1. - P. 483501.

14. Utgoff P. E. Incremental induction of decision trees / P. E. Utgoff // Machine learning, 1989. - V. 4, № 2. - P. 161-186. D0I:10.1023/A: 1022699900025

15. Breiman L. Bagging predictors / L. Breiman // Machine Learning. -1996. - V. 24, № 2. - P. 123-140.

16. Learning ensembles from bites: A scalable and accurate approach / [N. V. Chawla, L. O. Hall, K. W. Bowyer, W. P. Kegelmeyer] // Journal of Machine Learning Results. - 2004. - V. 5. - P. 421-451.

17. Dietterich T. G. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization / T. G. Dietterich // Machine learning. - 2000. - V. 40, № 2. - P. 139-157.

18. Efron B. Bootstrap methods: another look at the jackknife / B. Efron // The Annals of Statistics. - 1979. - V. 7, № 1. - P. 1-26.

19. Permutation importance: a corrected feature importance measure / [A. Altmann, L. Tolo§i, O. Sander, T. Lengauer] // Bioinformatics.

- 2010. - V. 26, № 10. - P. 1340-1347. D0I:10.1093/bioinformatics/btq134.

20. De Mantaras R. L. A distance-based attribute selection measure for decision tree induction / R. L. De Mantaras // Machine learning. -1991. - V. 6, № 1. - P. 81-92.

21. Deng H. Bias of importance measures for multi-valued attributes and solutions / H. Deng, G. Runger, E. Tuv // 21st International Conference on Artificial Neural Networks (ICANN), Espoo, 14-17 June 2011 : proceedings. - Berlin: Springer-Verlag, 2011. - V. 2. -P. 293-300.

22. Mingers J. An empirical comparison of selection measures for decision-tree induction / J. Mingers // Machine learning. - 1989. - V. 3, № 4. - P. 319-342.

23. Mitchell T. Machine learning / T. Mitchell. - New York : McGraw-Hill, 1997. - 432 p.

24. Painsky A. Cross-validated variable selection in tree-based methods improves predictive performance / A. Painsky, S. Rosset // IEEE

Transactions on Pattern Analysis and Machine Intelligence. - 2017. - V. 39, № 11. - P. 2142-2153. D01:10.1109/tpami.2016.2636831

25. Miyakawa M. Criteria for selecting a variable in the construction of efficient decision trees / M. Miyakawa // IEEE Transactions on Computers. - 1989. - V. 38, № 1. - P. 130-141.

26. Tolosi L. Classification with correlated features: unreliability of feature ranking and solutions / L. Tolosi, T. Lengauer // Bioinfor-matics. - 2011. - V. 27, № 14. - P. 1986-1994. DOI: 10.1093/bioinformatics/btr300

27. Alpaydin E. Introduction to Machine Learning / E. Alpaydin. -London : The MIT Press. 2010. - 400 p.

28. Subbotin S. Entropy based evolutionary search for feature selection / S. Subbotin, An. Oleynik // The experience of designing and application of CAD systems in microelectronics : IX International conference CADSM-2007, Lviv-Polyana, 20-24 February 2007 : proceedings. - Lviv : NU "Lviv Polytechnic", 2007. - P. 442-443.

29. Subbotin S. The dimensionality reduction methods based on computational intelligence in problems of object classification and diagnosis / S. Subbotin, A. Oliinyk // Recent Advances in Systems, Con-

trol and Information Technology. / Eds.: R. Szewczyk, M. Kalic-zynska. - Cham: Springer, 2017. - P. 11-19. - (Advances in Intelligent Systems and Computing, vol. 543).

30. Subbotin S. A. Methods and characteristics of locality-preserving transformations in the problems of computational intelligence / S. A. Subbotin // Radio Electronics, Computer Science, Control. -2014. - № 1. - P. 120-128.

31. Прогрессивные технологии моделирования, оптимизации и интеллектуальной автоматизации этапов жизненного цикла авиационных двигателей : монография / А. В. Богуслаев, Ал. А. Олейник, Ан. А. Олейник, Д. В. Павленко, С. А. Субботин ; под ред. Д. В. Павленко, С. А. Субботина. - Запорожье : ОАО «Мотор Сич», 2009. - 468 с.

32. The plant recognition on remote sensing results by the feed-forward neural networks / [V. Dubrovin, S. Subbotin, S. Morshchavka, D. Piza] // International Journal of Smart Engineering System Design. - 2001. - V. 3, № 4. - P. 251-256.

Received 11.02.2019.

Accepted 18.02.2019.

УДК 004.93

ПОБУДОВА ДЕРЕВ Р1ШЕНЬ ДЛЯ ВИПАДКУ МАЛО1НФОРМАТИВНИХ ОЗНАК

Субботш С. О. - д-р техн. наук, професор, завщувач кафедри програмних засоб1в Запор1зького нацюнального техшчного уш-верситету, Запор1жжя, Украша.

AНОТАЦIЯ

Актуальшсть. Розглянуто задачу автоматизаци побудови дерев ршень. Об'ектом дослщження е дерева ршень. Предметом дослщження е методи побудови дерев ршень.

Мета. Мета роботи - створення методу побудови моделей на основ! дерев ршень для виб1рок даних, що характеризуются наборами шдивщуально малошформативних ознак.

Метод. Запропоновано метод побудови дерев ршень, який для задано! виб1рки визначае шдивщуальну шформатившсть ознак по вщношенню до вихщно! ознаки, а також оцшюе взаемозв'язок вхщних ознак м1ж собою як !х шдивщуальну шформатившсть попарно по вщношенню один до одного, на еташ формування чергового вузла в якосп ознаки-кандидата обирае ознаку, що дае найкраще розбиття з уйе! множини ознак, июля чого послщовно шукае серед ус1х ще неввдбраних для даного вузла ознак таку, що шдивщуально найпсшше пов'язана з ввдбраним кандидатом, шсля чого для сукупносп ввдбраних ознак, перебираючи по черз1 з заданого набору доступш перетворення, визначае яюсть розбиття для кожного перетворення, обирае найкраще перетворення i до-дае його в вузол. Метод прагне при формуванш чергового вузла видшити групу найбшьш тюно взаемопов'язаних ознак, перетворення яко! у скалярне значення забезпечить найкращу розбиття иiдвибiрки зразюв, яю потрапили у даний вузол. Це дозволяе ско-ротити розмiр моделi i гшлястють дерева, прискорити обчислення при розшзнаванш екземплярiв на основi моделг а також пщви-щити узагальнювальш властивосп моделi та ii штерпретабельшсть. Запропонований метод дозволяе використовувати побудоване дерево ршень для оцшки значимосп ознак.

Результата. Розроблений метод реалiзований програмно i дослщжений пщ час розв'язання задачi класифжацп сигналiв, пода-них набором вщлгав, що е шдивщуально малошформативними.

Висновки. Проведет експерименти пщтвердили працездатшсть запропонованого математичного забезпечення i дозволяють рекомендувати його для використання на практищ при виршенш завдань дiагностування та автоматично! клас-класифжацп за ознаками. Перспективи подальших дослщжень можуть полягати у створенш паралельних методiв побудови дерев ршень на осн^ запропонованого методу, оптимiзацii його програмних реалiзацiй, а також експериментальному дослщженш запропонованого методу на бшьш широкому комплека практичних завдань.

КЛЮЧОВ1 СЛОВА: дерево ршень, розшзнавання образiв, класифiкацiя, ознака, шформатившсть.

UDC 004.93

DECISION TREE CONSTRUCTION FOR THE CASE OF LOW-INFORMATIVE FEATURES

Subbotin S. A. - Dr. Sc., Professor, Head of the Department of Software Tools, Zaporizhzhia National Technical University, Zaporizhzhia, Ukraine.

ABSTRACT

Context. The problem of automating the decision tree construction is addressed. The object of study is a decision tree. The subject of study is the methods of decision tree building.

Objective. The purpose of the work is to create a method for constructing models based on decision trees for data samples that are characterized by sets of individually low-informative features.

Method. A method for decision tree constructing is proposed, which for a given sample determines the individual informativeness of features relatively to the output feature, and also evaluates the relationship of input features with each other as their individual informativity pairwise relatively to each other, at the step of forming the next node the method selects as a candidate feature the feature that gives the best partition in the whole set of features, after which it sequentially searches among all the features that are not selected for this node the one that is individually most closely related with the selected candidate, then for the set of selected features, iterating through the available transformations from a given set, determines the quality of the partition for each transformation, selects the best transformation and adds it to the node. When forming the next node, the method tends to single out a group of the most closely interrelated features, the conversion of which into a scalar value will provide the best partitioning of a subsample of instances hit into this node. This makes possible to reduce the size of the model and the branching of the tree, speed up the calculations in recognizing instances based on the model, as well as improve the generalizing properties of the model and its interpretability. The proposed method allows using the constructed decision tree to assess the feature significance.

Results. The developed method is implemented as software and investigated at signal represented by a set of individually low-informative readings classification problem solving.

Conclusions. The experiments have confirmed the efficiency of the proposed software and allow recommending it for use in practice in solving problems of diagnostics and automatic classification by features. The prospects for further research may consist in the creation of parallel methods for constructing decision trees based on the proposed method, optimization of its software implementations, and also in an experimental study of the proposed method on a wider set of practical problems.

KEYWORDS: decision tree, pattern recognition, classification, feature, informatineness.

REFERENCES

1. Amit Y., Geman D., Wilder K. Joint induction of shape features and tree classifiers, IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, V. 19, № 11, pp. 13001305.

2. Breiman L. L., Friedman J. H., Olshen R. A., Stone C. J. Classification and regression trees. Boca Raton, Chapman and Hall/CRC, 1984, 368 p.

3. Dietterich T. G., Kong E. B. Machine learning bias, statistical bias, and statistical variance of decision tree algorithms [Electronic resource]. Corvallis, Oregon State University, 1995, 14 p. Access mode: http://www.cems.uwe.ac.uk/~irjohnso/coursenotes/uqc832/tr-bias.pdf

4. Geurts P., Irrthum A., Wehenkel L. Supervised learning with decision tree-based methods in computational and systems biology, Molecular Biosystems, 2009, V. 5, No. 12, pp. 15931605.

5. Heath D., Kasif S., Salzberg S. Induction of oblique decision trees [Electronic resource]. Baltimor, Johns Hopkins University, 1993, 6 p. Access mode: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.48.9 208&rep=rep1&type=pdf

6. Hothorn T., Hornik K., Zeileis A. Unbiased recursive partitioning: A conditional inference framework, Journal of Computational and Graphical Statistics, 2006, V. 15, No. 3, pp. 651674.

7. Hyafil L., Rivest R. L. Constructing optimal binary decision trees is np-complete, Information Processing Letters, 1976, V. 5, № 1, pp. 15-17.

8. Kim H., Loh W.-Y. Classification trees with unbiased multi-way splits, Journal of the American Statistical Association, 2001, V. 96, No. 454, pp. 589-604.

9. Kufrin R. Decision trees on parallel processors, Machine Intelligence and Pattern Recognition, 1997, V. 20, pp. 279-306.

10. Kwok S. W., Carter C. Multiple decision trees, Fourth Annual Conference on Uncertainty in Artificial Intelligence (UAI '88), 10-12 July 1988, Minneapolis : proceedings. Amsterdam North-Holland Publishing Co., 1990, pp. 327-338.

11. Mingers J. An empirical comparison of pruning methods for decision tree induction, Machine learning, 1989, V. 4, No. 2, pp. 227-243.

12. Quinlan J. R. Induction of decision trees, Machine learning, 1986, V. 1, No. 1, pp. 81- 106.

13. Strobl C., Boulesteix A., Augustin T. Unbiased split selection for classification trees based on the Gini index, Computational Statistics & Data Analysis, 2007, V. 52, No. 1, pp. 483-501.

14. Utgoff P. E. Incremental induction of decision trees, Machine learning, 1989, V. 4, No. 2, pp. 161-186. DOI: 10.1023/A:1022699900025

15. Breiman L. Bagging predictors, Machine Learning, 1996, V. 24, No. 2, pp. 123-140.

16. Chawla N. V. Hall L. O., Bowyer K. W., W. P. Kegelmeyer Learning ensembles from bites: A scalable and accurate approach, Journal of Machine Learning Results, 2004, V. 5, pp. 421-451.

17. Dietterich T. G. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization, Machine learning, 2000, V. 40, № 2, pp. 139-157.

18. Efron B. Bootstrap methods: another look at the jackknife, The Annals of Statistics, 1979, V. 7, № 1, pp. 1-26.

19. Altmann A., Toloçi L., Sander O., Lengauer T. Permutation importance: a corrected feature importance measure, Bioinfor-matics, 2010, V. 26, № 10, pp. 1340-1347. D01:10.1093/bioinformatics/btq134.

20. De Mântaras R. L. A distance-based attribute selection measure for decision tree induction, Machine learning, 1991, V. 6, № 1, pp. 81-92.

21. Deng H., Runger G., Tuv E. Bias of importance measures for multi-valued attributes and solutions, 21st International Conference on Artificial Neural Networks (ICANN), Espoo, 14-17 June 2011 : proceedings. Berlin, Springer-Verlag, 2011, V. 2, pp. 293-300.

22. Mingers J. An empirical comparison of selection measures for decision-tree induction, Machine learning, 1989, V. 3, No. 4, pp. 319-342.

23. Mitchell T. Machine learning. New York, McGraw-Hill, 1997, 432 p.

24. Painsky A., Rosset S. Cross-validated variable selection in tree-based methods improves predictive performance, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, V. 39, No. 11, pp. 2142-2153. D0I:10.1109/tpami.2016.2636831

25. Miyakawa M. Criteria for selecting a variable in the construction of efficient decision trees, IEEE Transactions on Computers, 1989, V. 38, No. 1, pp. 130-141.

26. Tolosi L., Lengauer T. Classification with correlated features: unreliability of feature ranking and solutions, Bioinformatics, 2011, V. 27, No. 14, pp. 1986-1994. D0I:10.1093/bioinformatics/btr300

27. Alpaydin E. Introduction to Machine Learning. London, The MIT Press. 2010, 400 p.

28. Subbotin S., Oleynik An. Entropy based evolutionary search for feature selection, The experience of designing and application of CAD systems in microelectronics : IX International conference CADSM-2007, Lviv-Polyana, 20-24 February 2007 : proceedings. Lviv, NU "Lviv Polytechnic", 2007, pp. 442-443.

29. Subbotin S., Oliinyk A. Eds.: R. Szewczyk, M. Kaliczynska The dimensionality reduction methods based on computational intelligence in problems of object classification and diagnosis, Recent Advances in Systems, Control and Information Technology. Cham, Springer, 2017, pp. 11-19. (Advances in Intelligent Systems and Computing, vol. 543).

30. Subbotin S. A. Methods and characteristics of locality-preserving transformations in the problems of computational intelligence, Radio Electronics, Computer Science, Control, 2014, No. 1, pp. 120-128.

31. Boguslayev A. V., Oleynik Al. A., Oleynik An. A., Pavlenko D. V., Subbotin S. A.; pod red. Pavlenko D. V., Subbotina S. A. Progressivnyye tekhnologii modelirovaniya, optimizatsii i intellektual'noy avtomatizatsii etapov zhiznennogo tsikla aviat-sionnykh dvigateley : monografiya. Zaporozh'ye, OAO "Motor Sich", 2009, 468 p.

32. Dubrovin V., Subbotin S., Morshchavka S., Piza D. The plant recognition on remote sensing results by the feed-forward neural networks, International Journal of Smart Engineering System Design, 2001, V. 3, No. 4, pp. 251-256.

Построение деревьев решений для случая малоинформативных признаков Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Субботин С. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Субботин С. А.

ПОБУДОВА ДЕРЕВ РІШЕНЬ ДЛЯ ВИПАДКУ МАЛОІНФОРМАТИВНИХ ОЗНАК

Текст научной работы на тему «Построение деревьев решений для случая малоинформативных признаков»