Научная статья на тему 'Автоматизация метода «Дерево решений»'

Автоматизация метода «Дерево решений» Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
950
357
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
"ДЕРЕВО РЕШЕНИЙ" / C4.5 / CART / CHAID / ID3

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Некрасов М. В.

В данной статье рассматриваются практическое применение и структура наиболее распространенных алгоритмов реализации одного из самых эффективных методов принятия управленческих решений «Дерево решений», востребованного в организациях различных масштабов и видов экономической деятельности. В статье представлено программное обеспечение, с помощью которого можно использовать эти алгоритмы, показаны особенности алгоритмов, возможные проблемы и пути их решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматизация метода «Дерево решений»»

АВТОМАТИЗАЦИЯ МЕТОДА «ДЕРЕВО РЕШЕНИЙ» © Некрасов М.В.*

Рязанский государственный радиотехнический университет, г. Рязань

В данной статье рассматриваются практическое применение и структура наиболее распространенных алгоритмов реализации одного из самых эффективных методов принятия управленческих решений «Дерево решений», востребованного в организациях различных масштабов и видов экономической деятельности. В статье представлено программное обеспечение, с помощью которого можно использовать эти алгоритмы, показаны особенности алгоритмов, возможные проблемы и пути их решения.

Ключевые слова «дерево решений», CART, CHAID, ID3, C4.5.

В современных условиях быстроизменяющейся внешней среды существует большое количество методов принятия решений. Одним из наиболее эффективных и прогрессивных из них является «дерево решений».

Традиционно, «дерево решений» - это способ представления классификационных правил в иерархической, последовательной структуре, позволяющей наглядно отобразить последовательность принятия решений и их результаты.

В настоящее время наблюдается тенденция мировой интеграции и увеличения размеров фирм, а следовательно и роста объемов информации, необходимой для принятия решений, появляется потребность в ускорении процесса принятия решений по методу «дерево решений». В связи с вышесказанным требуется автоматизация алгоритмов принятия решений. Для этого разработан и активно применяется целый ряд алгоритмов таких как, CART, CHAID, ID3, C4.5, с которыми мы и ознакомимся в этой статье.

На рис. 1 наглядно показано использование метода «дерево решений» с помощью алгоритма CART для принятия решения об инвестировании компанией денежных средств в новый проект.

Алгоритм CART (Classification And Regression Trees) предложен в 1983 четырьмя известными учеными в области анализа данных: Leo Breiman, Jerome Friedman, Richard Olshen, Stone. Этот алгоритм предназначен для построения бинарного дерева решений. Бинарные деревья также называют двоичными, так как каждый узел дерева при разбиении имеет только два потомка. Для алгоритма CART «поведение» объектов выделенной группы означает долю модального значения выходного признака. Выделенные группы - те, для которых эта доля достаточно высока. На каждом шаге построения дере-

* Студент кафедры Экономики, менеджмента и организации производства. Научный руководитель: Евдокимова Е.Н., доцент кафедры Экономики, менеджмента и организации производства РГРТУ, кандидат экономических наук, доцент.

ва правило, формируемое в узле, делит заданное множество примеров на две части - часть, в которой выполняется правило (потомок - right) и часть, в которой правило не выполняется (потомок - left) [1].

Рис. 1. Использование метода «дерево решений» с помощью алгоритма CART

Алгоритм CART структурирован как последовательность вопросов, ответы на которые определяют следующий вопрос, если таковые должны быть. Результатом этих вопросов является дерево - структура, где концы являются терминальными узлами, дерево продолжает свой рост до момента, когда больше нет вопросов.

CART отличается от традиционных методов анализа данных. В ряде исследований CART показал себя более эффективным для принятия решений, чем правила разработанные с использованием более традиционных методов. Кроме того, он часто в состоянии раскрыть сложные взаимодействия между показателями, которые трудно или невозможно анализировать и связать с использованием традиционных методов. Он позволяет выполнить анализ, выходные данные которого просты для понимания на каждом из множества этапов в процедуре. Классификация CART является удобным способом для получения результата из набора наблюдений, описанных в терминах вектора признаков и значения срабатывания. Данный алгоритм может применяться и с непрерывными переменными, может основываться не только на жестких предположениях. Этот метод может с высокой точностью обрабатывать большое число переменных, которые устойчивы к изменениям внешней среды. Цель состоит в том, чтобы определить общие правила предсказания, которые могут использоваться для присвоения значения срабатывания исключительно на основании их пояснительных переменных.

IBM SPSS Modeler - одна из лучших платформ для реализации алгоритмов CART. IBM SPSS Modeler - программный продукт компании IBM,

используемый для интеллектуального анализа данных, помогает строить прогностические модели быстро и интуитивно, без программирования.

Последовательность работы с CART с помощью IBM SPSS Modeler:

1. выбор целевой переменной, определяемой независимыми переменными;

2. выбор максимальной глубины дерева, то есть числа «уровней» в дереве решений;

3. «обрезка» дерева, используется, чтобы избежать перегрузки дерева чрезмерной информацией;

4. выбор правил остановки, которые определяют, когда расщепление узла останавливается или когда дальнейшее расщепление невозможно.

Алгоритм CHAID (CHi-squared Automatic Interaction Detection) основан на скорректированных значениях тестирования. Методика была разработана в Южной Африке и была опубликована в 1980 году. Основой CHAID были исследования английских ученых, проводимые в 1950-е годы. Алгоритм CHAID может быть использован для предсказания результатов на основе данных тестирования, а также для классификации переменных и обнаружения взаимодействия между ними. Для эффективной работы CHAID необходим большой размер выборки, так как в противном случае точность прогноза слишком мала.

На практике алгоритм CHAID метода «дерево решений» часто используется в контексте прямого маркетинга для выбора групп потребителей и предсказания влияния их реакции на одни переменные на их последующие реакции. Изначально данный метод использовался в области медицинских и психиатрических исследований.

Алгоритм ID3 был представлен Дж.Р. Куинланом в 1992 году. Используется для обработки естественного языка доменов. ID3 сложно использовать для обработки непрерывных данных. Если значения какого-либо атрибута является непрерывными, то существует много возможностей делить данные на этот атрибут. Алгоритм ID3 работает рекурсивно, разбивая по выбранному признаку в каждом узле множество данных на подмножества, начиная с корня дерева, в котором содержаться все данные [2].

Алгоритм ID3 начинается с оригинального набора данных в качестве корневого узла. На каждой итерации алгоритма, проходит определение неиспользуемых атрибутов множества и вычисляется энтропия этого атрибута. Затем выбирается атрибут, который имеет наименьшую энтропию (или наибольший прирост информации) значения. Набор затем делится на выбранный атрибут для получения подмножества данных. Когда все элементы в подмножестве принадлежат к одному классу, это подмножество далее не обрабатывается. Этот узел в дереве решений становится терминальным узлом. Работа ID3 алгоритма заканчивается, когда каждое подмножество классифицируется.

Данный алгоритм не гарантирует оптимальное решение, он может застрять на местных оптимумах. Он выбирает лучший атрибут для разделения набора данных на каждой итерации. В качестве усовершенствования алгоритма ID3 может быть использован возврат в процессе поиска оптимального дерева решений. Построение деревьев небольших размеров является более предпочтительным. Этот алгоритм обычно производит небольшие деревья, но это не всегда дает наименьшее возможное дерева.

Алгоритм С4.5 - известный алгоритм машинного обучения, является усовершенствованным вариантом ID3. Отличие появляется в критерии разбиения множества на подмножества [3].

Одним из недостатков алгоритма ID3 является то, что он некорректно работает с атрибутами, имеющими уникальные значения для всех объектов из обучающей выборки. Для таких объектов информационная энтропия равна нулю и никаких новых данных от построенного дерева по данной зависимой переменной получить не удастся. Поскольку получаемые после разбиения подмножества буду содержать по одному объекту. Алгоритм C4.5 решает эту проблему путём введения нормализации.

Среди внесенных улучшений следует отметить следующие.

1. Возможность работать не только с категориальными атрибутами, но также с числовыми. Для этого алгоритм разбивает область значений независимой переменной на несколько интервалов и делит исходное множество на подмножества в соответствии с тем интервалом, в который попадает значение зависимой переменной.

2. После построения дерева происходит усечение его ветвей. В случае излишне большого размера дерева, выполняется группировка нескольких узлов в один лист либо замещение узла дерева нижележащим поддеревом. Перед операцией над деревом вычисляется ошибка правила классификации, содержащегося в рассматриваемом узле. Если после замещения (или группировки) ошибка не возрастает (и не сильно увеличивается энтропия), значит замену можно произвести без ущерба для построенной модели.

Алгоритм C4.5 разработан для решения следующих вопросов:

- определение необходимой глубины дерева решений;

- обработка непрерывных атрибутов;

- выбор соответствующей мерой выбора атрибута;

- избежание переобучения данных;

- обработка данных тренировки с пропущенными значениями атрибутов;

- обработка атрибутов с различными затратами;

- улучшение эффективности вычислений.

C4.5 широко используется, но его производительность во время выполнения страдает из-за ограниченной оперативной памяти. Существует более быстрый C4.5, названный FC4.5 (Fast C4.5). FC4.5 организует новые структуры данных ограничивает двоичный поиск среза в пределах узкого диапа-

зона. Эксперименты показывают, что FC4.5 может построить то же самое дерево решений с приростом производительности до 5.8 раз. FC4.5 отличается хорошей масштабируемостью по различным видам данных.

Таким образом, мы видим, что на сегодняшний день успешно применяется большое количество алгоритмов принятия решений по методу «дерево решений», которые, пройдя сорокалетний путь развития, адаптированы к современным условиям и позволяют существенно сократить временные затраты работников.

Список литературы:

1. Breiman L., Friedman J.H., Olshen R.A., & Stone C.J. Classification and regression trees. - Monterey, CA: Wadsworth & Brooks / Cole Advanced Books & Software, 1984.

2. Митчелл, Том М. Машинное обучение. - McGraw-Hill, 1997.

3. Quinlan JR C4.5: Программы для машинного обучения. - Morgan Kaufmann Publishers, 1993.

ПРИНЦИПЫ СОЗДАНИЯ ЭФФЕКТИВНОГО МОТИВАЦИОННОГО МЕХАНИЗМА

© Трошина Е.П.*

Самарский государственный экономический университет, г. Самара

В статье представлен анализ причин неэффективного действия мо-тивационного механизма, сформулированы основные принципы и рекомендации по повышению его эффективности.

Мотивационный механизм один из основных элементов общей системы управления организацией. Вопрос о неэффективности системы управления предприятием вообще и мотивационного механизма в частности на наш взгляд может быть рассмотрен с нескольких сторон.

1. Прежде всего, типичным проявлением неэффективности являются ролевой конфликт, ролевая неопределенность и ролевая перегрузка.

Ролевой конфликт возникает, когда два или более ожиданий оказываются несовместимыми. Высокий уровень ролевых конфликтов ведет не только к более низкой степени удовлетворенности сотрудников своей работой, но и к снижению производительности и к повышению текучести кадров.

Ролевая неопределенность просто означает, что исполнитель роли не точно знает, что именно от него требуется. При этом исполнитель роли может либо не знать целей, которые должны быть достигнуты, либо может не знать путей для достижения этих целей. Корни ролевой неопределенности

* Доцент кафедры Прикладного менеджмента, кандидат экономических наук.

i Надоели баннеры? Вы всегда можете отключить рекламу.