Научная статья на тему 'Программная реализация метода деревьев решений для решения задач классификации и прогнозирования'

Программная реализация метода деревьев решений для решения задач классификации и прогнозирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2780
309
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕРЕВЬЯ РЕШЕНИЙ / ТЕОРЕМА БАЙЕСА / ПРИНЯТИЕ РЕШЕНИЯ / КЛАССИФИКАЦИЯ / ПРОГНОЗИРОВАНИЕ / ПРАВИЛА-ПРОДУКЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зайцева Т. В., Васина Н. В., Пусная О. П., Смородина Н. Н.

Применение гибридных методов технологии Data Mining позволяет эффективно использовать их при решении задач, которые направлены на автоматический анализ и выявление закономерностей в большом объеме данных. В статье рассматривается метод деревьев решений с учетом вероятностной неопределенности классификации. Дерево решений строится автоматически в зависимости от статистических данных. Приведен пример принятия решения о выдаче кредита потребителю.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зайцева Т. В., Васина Н. В., Пусная О. П., Смородина Н. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программная реализация метода деревьев решений для решения задач классификации и прогнозирования»

СИСТЕМНЫЙ АНАЛИЗ И УПРАВЛЕНИЕ

УДК 004.422.635.3

ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ И ПРОГНОЗИРОВАНИЯ

Т.В. ЗАЙЦЕВА1 Н.В. ВАСИНА2 О.П. ПУСНАЯ1 Н.Н. СМОРОДИНА1

’>Белгородский государственный национальный исследовательский университет

s) Тульский государственный университет

e-mail:

zaitseva@bsu.edu.ru natavasinayl @yandex.ru pusnaya@bsu.edu.ru smorodina@bsu.edu.ru

Применение гибридных методов технологии Data Mining позволяет эффективно использовать их при решении задач, которые направлены на автоматический анализ и выявление закономерностей в большом объеме данных.

В статье рассматривается метод деревьев решений с учетом вероятностной неопределенности классификации. Дерево решений строится автоматически в зависимости от статистических данных.

Приведен пример принятия решения о выдаче кредита потребителю.

Ключевые слова: деревья решений, теорема Байеса, принятие решения, классификация, прогнозирование, правила-продукции.

Развитие компьютерных технологий послужило значительному увеличению объема хранимых данных. Что в свою очередь привело к тому, что человеку стало все труднее проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих «сырых данных» заключены знания, которые могут быть использованы при принятии решений. Поэтому стали развиваться методы, позволяющие проводить автоматический анализ данных.

Data Mining -процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Большинство аналитических методов, используемые в технологии Data Mining -это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств.

Задачи интеллектуального анализа данных можно разделить по типу извлекаемой информации: классификация; кластеризация; выявление ассоциаций; выявление последовательностей; прогнозирование. Наиболее часто в экономической практике встречаются задачи классификации и прогнозирования. Одним из старейших и наибо-

лее популярных методов решения данных задач является метод деревьев решений (decision trees).

Преимущества деревьев решений

1. Интуитивность деревьев решений.

2. Деревья решений дают возможность извлекать правила из базы данных на естественном языке.

3. Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов.

4. Высокая точность создаваемых моделей.

5. Быстрый процесс обучения.

6. Большинство алгоритмов конструирования деревьев решений имеют возможность специальной обработки пропущенных значений.

Рассмотрим задачу определения кредитонадежности заемщика. База данных, на основе которой должно осуществляться прогнозирование, содержит следующие ретроспективные данные о клиентах банка, являющиеся ее атрибутами: возраст, наличие недвижимости, образование, социальное положение, среднемесячный доход, вернул ли клиент вовремя кредит и т.д. В принципе условия выдачи кредита в разных банках являются различными, однако, все вышеперечисленные атрибуты присутствуют в явном или неявном виде. Задача состоит в том, чтобы на основании перечисленных выше данных (кроме последнего атрибута) определить, стоит ли выдавать кредит новому клиенту. Такая задача решается в два этапа: построение классификационной модели и ее использование. На этапе построения модели строится дерево классификации или создается набор неких правил. На этапе использования модели построенное дерево, или путь от его корня к одной из вершин, являющийся набором правил для конкретного клиента, используется для ответа на поставленный вопрос «Выдавать ли кредит?». Правилом является логическая конструкция, представленная в виде «если : то :».

Качество построенного дерева решения весьма зависит от правильного выбора критерия расщепления. Традиционно дерево решений строится, начиная с первого атрибута (то есть в данном примере с возраста), не учитывая характер и силу влияния каждого атрибута. Более эффективным является подход, основанный на учете вероятностной неопределенности классификации. Другими словами, событие, состоящее в установлении соответствия между значениями цепочки атрибутов и определенным классом, является случайным и характеризуется некоторой вероятностью. При использовании нескольких атрибутов в качестве первого атрибута для анализа выбирается тот, который обеспечивает максимальное снижение неопределенности классификации по отношению к исходному множеству (т.е. минимальное значение энтропии).

Согласно предложенной методике построения дерево решений начинает строиться с атрибута, который больше всего уменьшает неопределенность (в рассмотренном примере это факт возврата кредита). Далее по формуле Байеса находятся апостериорные условные вероятности, которые будут использованы для построения правил-продукций.

Далее отдельно рассматриваются те данные, записи которых соответствуют положительному значению рассмотренного атрибута, и данные, записи которых соответствуют отрицательному значению. Аналогично выбирается следующий из критериев расщепления дерева решений и т.д. По полученному дереву решений строится система продукционных правил:

ЕСЛИ (Сю = Да) И (С5 < 5) И (С8 > 200) И (Сз = КД), ТО клиент Ki с вероятно-

ЕСЛИ (Сю = Да) И (С5 ^ 5) И (С8 > 200) И (СЗ = НКД), ТО клиент К1 с вероятностью 86%; клиент К2 с вероятностью 14%. И т.д.

Совокупность полученных правил-продукций после небольшой доработки преобразуется в законченную базу знаний и может быть использована в продукционных или гибридных экспертных системах.

Программная поддержка на примере определения кредитонадежности заемщика реализована в идее программных модулей: получения дерева решений по статистическим данным; создания продукционных правил для экспертной системы.

стью 100%.

Рассмотрим пользовательский интерфейс прототипа системы «Дерево решений». При запуске программной системы «Дерево решений» на экране монитора появляется диалоговая форма, представленная на рисунке 1.

ц} Деревья решений •. «и штЛйй

Файл Действия ? ' - А Открыть отчет 1 Справка Выход

Открыть базу j”~Сохранить ^ ^ Сделать шаг

Первая ветвь Ш Отгпыть гарваи ветвь | Подробно вторая ветвь Отчет 1 Отчета НТМ1.

Объект сО cl с2 сЗ с4 с5 сб с7 с8 с9 с10 Класс! Ксг'~естиа записвй

j

Дерево решвіий

Откройте базу данных.

Рис. 1. Интерфейс программы

После загрузки базы данных, программная система принимает вид, отображенный на рисунке 2.

аД Деревья решений

Файл Действия ? Открыть базу

Слр„«. і

Первяя ветвь Вторая ветви | 1 кэдрой-ю первая ветвь | Подробно вторая ветвь [Отчет | Отчетв НТМ1.

671 Я2 53 0 1 :27.9 0 1 3.3 0.4 0 К2

672 ЯЗ 1 24 1 0 '0.4 1 0 0.1 0.4 0 К2

673 Я4 0 49 0 1 ! 23.9 0 1 1.7 6.3 1 К1

674 Д5 |0 56 1 0 ;28 0 1 3.3 3.5 1 К2

675 R6 |1 48 0 0 7.8 0 0 0.4 5.4 0 К2

Количество загмсей

Дерево решений

База данных загружена.

51

с7

с10 Класс

Рис. 2. Открытая база данных

В поле «Количество записей» выдается общее число записей в базе данных. Есть возможность упорядочить данные по одному из полей (атрибутов). Далее выбирая пункт меню или используя кнопку на панели инструментов «Сделать шаг», вычисляем энтропии для каждого атрибута, находим минимальное значение энтропии и ему соответствующий номер атрибута (рисунок з). Построение дерева решений начнем именного с этого атрибута.______________________________________________

1 Деревья решений ' И 0 1ш£Ы I

<йай л Действия ! ОгфЫТЪ (М!у ^ ^ Со«|Э4тМа | Ош|»в1»Ь мче | & 4м**4 |^| бь-яод

1и> | Отчет | Отчёт в HTML

Объект ^ d с2 5^ с4 с5 qj> с7 с8 сЗ qJO Класс - Количество записей 178 Расчёты Н[1] =0.657795783694995 Н И = 0.675842372510072 * Н[3] =0.687232180256681 Н[4] = 0.685168835578543 Н[5] =0.65150173567531 Н[6] = 0.688674473993379 Н[7] =0.684794353845577 Н[3] = 0.666052836304706 Н [10] =0.688273869026412 Минимальная энтропия: 0.64444769746607 Минимальный элемент: 3

67D Я1 D 27 0 1 0.9 0 1 D.2 1,1 о К2

671 Я2 0 53 0 1 27,9 0 1 3.3 0.4 0 К2

672 ЯЗ 1 24 1 0 0.4 1 0 0.1 0.4 0 К2

674 Я5 0 56 1 0 28 0 1 3.3 3,5 1 К2

675 Я6 1 48 0 0 7,8 0 0 0.4 5,4 0 К2

676 Я7 1 49 1 1 0,6 1 1 0 0,3 0 К2

677 Я8 1 36 0 0 8,6 0 1 0.3 2,8 0 К1

678 Я9 1 21 0 1 3 1 1 1.2 2,2 1 К2

679 Я10 а 21 0 1 1,6 0 1 0.7 2 0 К2

630 Я11 1 44 0 1 9,6 0 0 2.1 2 К1

681 Я12 1 23 0 1,9 1 1 0.7 1,3 К2

682 Я13 0 39 1 5 1 1 0.2 2.1 К2

683 Я14 0 27 1 1 1 1 0.4 1,3 К2

684 Я15 о 20 1 0,7 1 0 0.1 0.2 К1

685 Я16 я 57 1 3,8 1 0 0.4 1,1 К1

686 Я17 55 0 2,4 1 0 0 1,1 К1

688 Ф2 33 0 1,4 0 0 0.2 1,3 К1

683 ФЗ 39 1 G 0 0 0.4 4,3 К1

69Q Ф4 44 0 9,9 1 1 1.7 2,5 К1

691 Ф5 60 0 32,5 1 0 4.9 5,9 К1

692 Ф6 4а 0 13,5 1 1 0.7 3 К1

693 Ф7 40 0 1 2,4 0 0 0.1 1.4 К1

634 ФВ 0 29 0 1 3,2 1 0 0.1 0,1 К2

695 ФЭ 1 27 1 1 0,2 0 0 0.1 0,1 К1

Дерево решений' СЭ.

j1] Удалили строки где С9 > 6

Рис. 3. Первый шаг построения дерева решений

Серия История. Политология. Экономика. Информатика. 2013 №7 (150). Выпуск 26/1

Далее по формуле Байеса находим апостериорные условные вероятности при условии, что атрибут С9 принял одно из двух значений в данной ветке Сд<6. Выбираем минимальную энтропию и находим номер атрибута, которому соответствует минимальная энтропия. Вторая ветвь (С9>=6) приводит к готовому продукционному правилу Построение дерева решений происходит с расчётом всех возможных комбинаций. Во вкладке «Вторая ветвь» выводятся удалённые строки из базы данных, и по ним производится параллельный расчёт. Аналогично первой ветке во второй происходит расчёт энтропии и нахождение минимального элемента. Количественные характеристики, а также энтропии по атрибутам можно просмотреть во вкладке «Первая ветвь подробно» (рисунок 4). Подробные расчёты второй ветки дерева можно посмотреть, открыв вкладку «Вторая ветвь подробно».

•-1 Деревья решений

файл Действия ?

і

— Открыть базу | Сохранить

О

Сделать шаг

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Открыть отчет

Справка

Выход

Первая ветвь | Вторая ветеь]: По^бно первая ветвь I[Подробно вторая ветвь [ Отчёт [ Отчёте НТГиИ

г № столбив Число первых Число первых К1 Число первых К2 Число вторых Число вторых К1 Число вторых К2 К1 К2 |

ЕЯ 1 96 45 51 82 40 42 55 93

2 66 27 39 112 55 54 85 93

3 35 42 43 93 43 50 55 93

4 96 41 55 52 44 35 55 93

5 115 48 67 63 37 26 55 93

6 82 40 42 Э6 45 51 85 аз

7 81 33 43 97 52 45 55 93

8 141 65 76 37 20 17 55 93

9 177 54 93 1 1 0 55 93

__ 10 90 45 45 58 40 48 55 93

НО) = 114/223 * (-60/114 * 1п(60/114) - 54/114 * Ц54/114)) +109/223 * <-62/109 * 1п(62/109) - 47/109 * 1п(47/109)) = 0.637795758694995 Н(2) = 68/223 * (-29/63 * 1п(29/68) - 39/68 * N39/68» +155/223 * (-93/155 * 1п(93/155) - 62/155 * 1п(62/155» = 0.675842372510072

Н(3) = 106/223 *£-61 /106 Н(4) = 120/223 *(-61/120 Н(5) = 117/223 *(-49/117* Н(6) = 105/223 *(-57/105* Н{7) = 104/223 *(-52/104* Н{8) = 149/223 *(-71 /149* Н{9) = 177/223 *(-84/177*

1п(61/1061 - 45/106 * N45/106» +117/223 *«1/117* 1п(61/117) - 56/117 * 1п(56/117)) = 0,687232180256681 М61/120І - 59/120 * 1п(59/120)) +103/223 * (-61/103 * 1п(61/103) - 42/103 * 1п(42/103)) = 0,685168835578543 1п(49/111) - 68/117 * 1п(68/117)) +106/223 * (-73/106 * 1п(73/106) - 33/106 * 1п(33/106)) =0,65150173567531 1п(57/105) - 48/105 * N48/105)) +118/223 * (-65/118 * 1п(65/118) - 53/118 * 1п(53/118)) = 0.688674473Э99379 1п(52/104) - 52/104 * 1п(52/104)) +119/223 * (-70/119 * 1п(70/119) - 49/119 * 1п{49/119)) = 0,654794353545877 1п(71/149) - 78/149 * 1п(78/149)) + 74/223 * (-51/74 * 1п{51/74) - 23/74 * Іп(23/74Ц = 0.668052536304706 Іп(В4Л 77) - 93/177 * 1п(93/177)) + 46/223 * (-38/46 * !п(38/46) - 8/46 * Іп(8/46)) = 0.64444769746607

Н(10) = 114/223 * (-64/114 * 1п(64/114) - 50/114 * 1п(50/114)) * 109/223 * (-58/109 * 1п(58/109) - 51/109 * 1п(51/109)) = 0,658273369026412

Удалили строки где С9 > 6

Рис. 4. Подробные расчёты энтропии первой ветки дерева

Ветвь сС9<6 разбиваем на подмножества по следующему выбранному атрибуту. Критерием выбора атрибута, по которому должно пойти разбиение соответствующего подмножества, является минимальная энтропия. Далее шаги повторяются до тех пор, пока не получим вершину, для которой апостериорная вероятность принадлежности объекта к определенному классу равна единице. На последнем шаге можно увидеть атрибуты, влияющие на построение дерева решений, их порядок и значения энтропии. После выполнения последнего шага можно посмотреть готовое дерево решений либо в приложении на вкладке «Отчёт», либо во внешнем браузере, выбрав пункт меню «Открыть отчёт». Результаты построения дерева показаны на рисунке 5. Для проверки работоспособности и эффективности разработанного алгоритма было проведено сравнение результатов классификации с использованием разных алгоритмов.

I С-пгрып ft**. ш "“і Соїраиитк О Сдечвгъ ам»г Открыт» crvtr <"пр«€»л Ifci

IlcUU. IbJUUUUUC MClUja лсрсиьсії рсшсиий Д.1Н иисірисиин upoj) KUMUUUbU UfJUUU.I с пглью подлгржкн принятия решении при кре.штопании фитнческих лиц.

С9

К| К2

122 101

С5 СО

К1 KJ К.1 К2

85 93 37 Б

С? с»

К1 Х2 К.1 К2

48 68 37 25

И ггро» * '/ЦТ СЛ = О

Рис. 5. Дерево решений

После построения дерева решений можно формировать продукционные правила. Выбирая пункт меню «Сформировать правила» (рисунок 6), формируем продукционные правила вида IF () AND () AND () ... AND () THEN (). Сформированные правила автоматически сохраняются в текстовом формате (рисунок 7).

Деревья решений

I сэ | Q-I

Файл | Действия

Открыть базу Сокранить отчет

Ctrt*0

Ctri+S

Сформировать прасила CtrUR

Печать отчета Закрыть

Выход

872

Ctft+P

Ctrl+W

О Сделатьшаг Открыть отчет Cnpjeta

Вы.» од

ветвь Подробно вторая ветвь Отче- Отчете HTML

с5 сб с7 с8

с5 сЮ Класс)

AH-F4

0 03 о о

дз

Д4

Д16

42

1.6

2.8

4.2

0.3

0.3

0.4

0.1

0.5

0.3

0.7

0.1

К2

К2

Кэличвстэ «писел Рэсчёть

Н[4] - 0.333601615532125 Н[61 - 0.389523741052341 H110J• 0.389523/41052341 Минимальная энияли*

Pilc. 6. Формирование продукционных правил

главка иісрнат вцд игрека

IFC9<6 AND С5<5 AND С7=1 ANDC8<1 ANDC1 = 1 ANDC2>30AND-C3=1 AND C4=1 THEN Выдать кредит FS87

IF C9<6 AND C5<5 ANDC7=1 ANDC8<1 ANDC1 = 1 AND C2>30 AND J C3=1 AND C4=0THEN Выдать кредит FS63

IF C9<6 AND C5<5 AND C7=1 AND C8<1 AND C1 = 1 AND C2>30 AND C3=0 THEN Выдать кредит FS57

IF C9<6 AND C5<5 AND C7=1 AND C8<1 AND C1 = 1 AND C2<30 THEN He выдать кредит FS43

IF C9<6 AND C5<5 AND C7=1 AND C8<1 AND C1=0 THEN He выдать кредит FS63

IF C9<6 AND C5<5 AND C7=1 AND C8>1 THEN He выдать кредит FS73

IF C9<6 AND C5<5 AND C7=0 THEN He выдать кредит FS78 IF C9<6 AND C5>5 THEN He выдать кредит FS84 IF C9>6THEN He выдать кредит FS100

Piic. 7. Текстовый файл со сформированными правилами

Серия История. Политология. Экономика. Информатика. 2013 №7 (150). Выпуск 26/1

Сравнение результатов, полученных различными методами интеллектуального анализа данных, и с применением предлагаемого алгоритма проводилось на примере базы данных одного из региональных банков за 2006-2010 года (бралась выборка в размере 140 записей за каждый год). Все записи в базе данных (отдельно по годам и в целом за 5 лет) были разбиты на две группы:

- обучающая;

- тестовая.

Следует отметить, что анализ данных показал влияние человеческого фактора при принятии решения о выдаче кредита. В базе данных из 700 записей было отмечено 96, когда было принято неправильное решение:

- 83 записи о выданных кредитах, которые в последствии не были возвращены;

- 13 записей о не выданных кредитах заемщикам, которые удовлетворяют всем критериям для выдачи.

То есть работники в среднем ошибаются в 14 случаях из юо при принятии решений.

Сравнивались результаты, полученные следующими методами:

1) предлагаемая модель;

2) нейронная сеть на примере программы Neural Network Wizard;

3) линейная регрессия (Microsoft Linear Regression) пакета Microsoft SQL

Server 2005;

4) решающие деревья (Sipina с алгоритмом C4.5).

Полученные результаты по процентам ошибок по годам, в целом за 5 лет и в среднем за 5 лет приведены в таблице.

Предлагаемая модель в среднем выдает 7-8 неправильных рекомендаций из 140 за год по вопросу выдачи кредитов. При этом, как показал анализ, 4-6 рекомендаций относятся к упущенной выгоде банка (программа рекомендует не выдавать кредит благонадежному заемщику) и только 2-3 рекомендации можно отнести к потери банком собственных денежных средств (программа рекомендует выдавать кредит, при этом он не был возвращен). При рассмотрении дерева решений с количеством ветвей больше двух процент ошибок возрастает незначительно, максимальная ошибка составила 7,2%.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица

Процент ошибок для различных методов

Методы По годам, % За 5 лет Среднее за 5 лет

200б 2007 2008 2009 2010

Предлагаемая модель 5 4,6 5,5 4,9 5,8 5,2 5,2

Нейронные сети 14 13Д 13,3 12,9 14,9 13,7 13,64

Нейронные сети (с предобработкой) 4,7 4,3 4,8 5,1 5,7 5 4,92

Линейная регрессия 18,5 17 23 19,8 22,5 35,2 20,16

Решающие деревья 13,4 16 13,8 15,6 14,2 15,6 14,6

Решения, принятые работниками банка 14,3 12,9 13,6 12,9 15 13,7 13,74

При этом никакой дополнительной предобработки данных не производилось, все результаты были получены полностью в автоматическом режиме. Результаты, полученные с помощью нейронной сети, оказались очень близкими к решениям, которые принимали работники банка (проценты ошибок сопоставимы).

После проведения предобработки данных (были удалены все записи с неправильно принятыми решениями сотрудниками банка) нейронные сети показали очень хороший результат. Процент ошибок в этом случае был сопоставим с процентом ошибок по предлагаемой модели. Однако, для получения такого результата необходимо проводить предварительную обработку базы данных с удалением части записей, что потребует дополнительных временных затрат или создание дополнительного программного модуля отбора данных.

Результаты, полученные с помощью пакета Microsoft SQL Server 2005 (линейная регрессия), являются неоднозначными. Если рассматривать отдельно каждый год, то про-

цент ошибки не превышает 23%, а при рассмотрении данных за 5 лет процент ошибки вырастает до 35%- Это связано с особенностями данного метода - автоматическим выбором наиболее значимых результатов. Если при рассмотрении по годам значимыми критериями являлись 7-8 (при этом в различные годы значимыми оказывались различные критерии), то при рассмотрении данных за 5 лет значимыми критериями остались только 5 из ю рассматриваемых. То есть данный метод можно использовать в течение небольшого временного периода (1-2 года) для предварительной оценки. Кроме того, полученные результаты, представленные в графическом виде, являются сложными для восприятия и понимания без хороших знаний статистических пакетов. Результаты, полученные с помощью алгоритма С4.5, показали среднюю величину ошибки в 15% .

Это достаточно хороший результат в случае предварительного анализа данных. Однако, при построении деревьев с количеством ветвей больше двух, процент ошибок возрастает значительно.

Преимуществами разработанного алгоритма являются:

1) быстрый процесс обучения;

2) генерация правил в областях, где эксперту трудно формализовать свои знания;

3) извлечение правил на естественном языке;

4) понятная на интуитивном уровне классификационная модель;

5) высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети)

В заключение следует отметить, что использование вариационных алгоритмов в задачах классификации является весьма актуальным в связи с постоянным ростом вычислительной мощности компьютеров. Такого рода алгоритмы позволяют добиться хороших (адекватных) результатов. Но в связи с большой долей эвристики исследование их свойств сильно затрудняется. Таким образом, имеет смысл продолжать исследования в данном направлении и создавать новые алгоритмы, использующие вариационный принцип, которые будут более универсальными и адекватными.

Литература

1. Зайцева Т.В., Игрунова С.В., Путивцева Н.П., Пусная О.П., Манзуланич М.Ю. Компьютерная технология генерации правил для гибридных продукционно-фреймовых экспертных систем // Вопросы радиоэлектроники. Серия Электронная вычислительная техника. 2011. Вып. 1. С. 105-115.

2. Зайцева Т.В., Нестерова Е.В, Игрунова С.В., Пусная О.П., Путивцева Н.П., Смородина Н.Н. Байесовская стратегия оценки достоверности выводов // Научные ведомости БелГУ Серия История. Политология. Экономика. Информатика. Белгород: Изд-во БелГУ. 2012. №13(132). Выпуск 23/1. С. 180-183.

3. Зайцева Т.В., Устинов P.M., Пусная О.П. Компьютерная реализация алгоритма обработки статистических данных с учетом вероятностной неопределенности классификации // Вопросы радиоэлектроники. Серия Электронная вычислительная техника. 2012. Вып. 12. С. 119-130.

SOFTWARE IMPLEMENTATION METHOD OF DECISION TREE FOR A PARTICULAR PURPOSE OF CLASSIFICATION AND PREDICTION

T.V. ZAITSEVA1 N.V. VASINA2 O.P. PUSNAYA N.N.SM0R0DINA

11Belgorod National Research State University

s)Tula State University e-mail:

zaitseva@bsu.edu.ru

natavasinayi@yandex.ru

pusnaya@bsu.edu.ru

smorodina@bsu.edu.ru

The use of hybrid methods of Data Mining technology can effectively use them to solve problems that are aimed at carrying out the automatic analysis and identification of patterns in large data.

The article discusses a method of decision trees based probabilistic uncertainty classification. A decision tree is built automatically based on statistical data.

The article is an example of the decision to grant credit to consumers.

Key words: decision trees, Bayes' theorem, decision making, classification, forecasting, rules-products.

i Надоели баннеры? Вы всегда можете отключить рекламу.