Видобування знань на основі дерев розв’язків та стохастичного пошуку

Олійник А. О.

УДК 004.93

Олшник А. О.

Канд. техн. наук, доцент, Запорзький нацональний технчний унверситет, Украна

ВИДОБУВАННЯ ЗНАНЬ НА ОСНОВ1 ДЕРЕВ РОЗВ'ЯЗК1В ТА СТОХАСТИЧНОГО ПОШУКУ

Виршено завдання розробки математичного забезпечення для автоматизацп видобування набору знань у виглядi продукцiйних правил з навчальних вибiрок даних. Об'ектом дослiдження е процес побудови моделей неруйшвного контролю якостi. Предмет дослщження становлять методи видобування продукцiйних правил для синтезу моделей контролю якосп. Мета роботи: тдвищити ефективнiсть процесу виявлення продукцшних правил для побудови моделей контролю якост на основi навчальних вибiрок. Запропоновано стохастичний метод синтезу дерев розв'язюв, який використовуе шформащю про iнформативнiсть ознак, складнють синтезованого дерева, а також точнють його розпiзнавання, що дозволяе на початковому етат формувати множину деревовидних структур, що характеризуются простою iерархiею i невисокою помилкою розпiзнавання, в процес пошуку створювати новi множини ршень з урахуванням шформаци про значущють ознак та iнтерпретабельнiсть створюваних дерев, що, у свою чергу, забезпечуе можливють побудови дерев розв'язюв з невеликою юльюстю елементiв (вузлiв та зв'язкiв мiж ними) i прийнятною точнiстю розпiзнавання, а також видобування на його основi найбшьш цiнних екземплярiв. Розроблено програмне забезпечення, що реалiзуе запропонований метод. Проведено експерименти з дослщження властивостей запропонованого методу. Результати експерименив дозволяють рекомендувати запропонований метод для використання на практищ.

Ключовi слова: вибiрка, дерево розв'язюв, модель контролю якоси, продукцшне правило, стохастичний пошук.

НОМЕНКЛАТУРА

Br (xk) - плляспсть дерева розв'язк1в x k;

Clc - c-й кластер;

dab - b-й вузол a-го рiвня синтезованого дерева розв'язк1в;

E - похибка моделi контролю якосгi;

G(xk) - значення цшьово! функци k-го розв'язку при сгохасгичному пошуку;

Gener(xk) - узагальнення дерева розв'язюв хk;

GenerM (xk) - узагальнення модел1 дерева розв'язюв х k

Idist(x k) - внутрилистова вщстань дерева розв 'язкв х k;

Int(xk) - штерпретовшсть дерева розв'язк1в Xk ;

M - юльюсть атрибулв;

Nbranch(xk) - юльюсть гшокдерева розв'язк1в Xk ;

Ner - юльюсть неправильно розпiзнаних спостере-жень вибiрки S;

Nlevel (xk) - юльюсть рiвнiв дерева розв'язк1в xk;

Nnode(xk) - юльюсть вузлiв дерева розв'язюв xk ;

Nx - юльюсть розв'язк1в на кожнш ггерацп сгохасгич-ного пошуку;

P - набiр характеристик (ознак) спостережень;

pmab - ознака-перевiрка у вузлi dab дерева роз-в'язкiв;

Pqm - значення т-го атрибуту д-го спостереження;

PтRab - граничне значення ознаки-перев1рки вузла

^аЪ;

Q - юльюсть спостережень;

Кстт - значення рангу тознаки рт;

КБ - база правил;

ги1ег - г-те правило бази правил; - навчальна виб1рка;

Т - множина значень вихщного параметру;

(д- значення вих1дного параметру д-го спостереження;

Ут - оц1нка щдивщуально! шформативносп т-' ознаки;

УЕ(рт) - ентротя ознаки Рдт;

ст тс - ширина розкиду значень ознаки рт в с-му кластера

X ^ - ^-й розв'язок стохастичного пошуку

ВСТУП

Побудова автоматизованих систем неруйшвного контролю якосп пов'язана з необхщшстю синтезу моделей прийняття ршень [1]. Як базис для побудови таких моделей ефективно можуть використовуватися нейро-нечггю мереж1 [2-4], як1 е пбридною моделлю обчислювально-го штелекту, що характеризуемся високою штерпретов-шстю та сполучае у соб1 властивосп систем, заснованих на знаннях, 1 однорвдних обчислювальних структур.

Процес синтезу таких моделей пов'язаний з необхвд-нютю видобування правил на основ1 заданих виб1рок да-них. Однак виб1рки даних, що описують результати вим-1рювань характеристик реальних техтчних об' екпв 1 про-цеав можуть м1стити дубляж шформаци, зокрема, надлишков1 для прийняття ршень ознаки й екземпляри [5, 6]. Кр1м того, можлив1 ситуацп, при яких у вихвдтй виб1рщ шльшсть екземпляр1в одного класу штотно вщизняеться в1д шлькосп екземпляр1в 1ншого класу (при використанш традицшного навчання екземпляри одного класу можуть пригшчувати екземпляри шшого класу) [5-7]. Отже, застосування вщомих метод1в видобування продукцшних правил для синтезу моделей контролю якост1 на основ1 нейро-нечггких мереж у деяких випадках е недоцшьним.

Тому у цш робот1 пропонуеться на основ1 заданих виб1рок даних синтезувати дерева розв'язшв 1 видобува-ти на !х основ1 продукщйш правила, що дозволить видь ляти найщнтш1 екземпляри, ранжирувати ознаки за зна-чущ1стю й, отже, усувати деяку надлишков1сть шформаци, а також скоротити проспр пошуку й час синтезу нейро-нечггких моделей контролю якостт

Однак в1дом1 методи синтезу дерев розв'язк1в [8-11] передбачають використання «жад1бного» тдходу, що не дозволяе в процеа побудови таких моделей повторно розглядати ознаки р за якими вже було виконано роз-биття. Це може привести до низьких узагальнюючих вла-стивостей синтезовано! модел1, внаслвдок И складносп, а, отже, до надлишкового числа правил, витягнутих з не!, що зробить систему правил бшьше гром1здкою та менш штерпретовною.

Тому в цш робот1 для побудови дерев розв'язшв пропонуеться використовувати штелектуальний стохастич-ний пошук [11-13], що дозволяе дослщжувати р1зш об-ласп пошукового простору й не використовуе жад1бну стратегтю.

Метою роботи е створення методу видобування знань у вигляд продукщйних правил на основ1 дерев розв'язшв 1 стохастичного пошуку.

1 ПОСТАНОВА ЗАДАЧ1

Нехай задана множина спостережень £ =< Р, Т > , де

Р - наб1р характеристик (ознак) спостережень, Т - множина значень вихщного параметру. Набори значень Р \ Т можуть бути подаш у вигляд1 матриц (1) та вектора (2), ввдповщно:

T =

) v

(2)

P =

(Р11 P12 . . P1m . . P1M л

Р21 P22 . . P2m . . P2M

Pq1 Pq2 . . Pqm . . PqM , (1)

v PQ1 PQ2 . . PQm . . PQM j

Тод1 задача видобування продукцшних правил поля-гае в пошуку такого набору правил

RB = {rule1,rule2,...,ruleNR} при якому забезпечуеться прийнятне значення заданого критерш якосп G, де кож-не r-е правило ruler являе собою 1мпл1кащю антецедента (набору ознак pm та !х граничних значень ptr) та консек-вента (значення tq вихвдного параметру т при виконанш умов, поданих в антецедент!). Як цшьовий критерш G при видобуванш продукщйних правил можуть бути ви-користаш, наприклад:

- похибка розтзнавання (у задачах з дискретним ви-ходом T) [1-3, 14], що обчислюеться за формулою: E = Ner /Q;

- середньоквадратична похибка (у випадку, коли вих-щний параметр T може приймати дшсш значення з дея-

кого дапазону T е [tmin;tmax]) [1-3, 14], що розраховуеть-ся за формулою: E = Q £ (tq - tqmod), де tqmod - зна-

Q q=1

чення вих1дного параметру q-го спостереження, розраховане за набором правил RB.

2 ОГЛЯД Л1ТЕРАТУРИ

Основш тдходи до формування бази правил на основ! виб1рок даних S для синтезу моделей контролю якосп на основ1 нейро-нечитсих систем полягають у наступно-му [14, 15]:

- котювання навчально! виб1рки в базу знань - для кожного екземпляра навчально! виб1рки формуеться окреме правило. Перевагою даного методу е простота та висока швидшсть роботи, недолжом - вщсутшсть узагальнюючих властивостей i гром1здшсть одержувано! мереж1;

- оптим1защя шлькосп продукцшних правил - зна-ходження такого значення шлькосп продукцшних правил NR, при яшй значення помилки E е мшмальним, для чого при р1зних значениях NR навчають мережу i вимь рюють значення помилки, тсля чого оптим1зують фун-кцш E(NR) за параметром S. Недолгом даного методу е дуже висок вимоги до обчислювальних ресурав, обу-мовлет необхщтстю заново навчати мережу на кожному кроцц

- стльна оптишзащя ваг мереж та шлькосп продукцшних правил шляхом виршення багатоекстремально! ошгашзацшно! задач1 або автоматичне визначення числа кластер1в у навчальнш виб1рщ та встановлення центр1в функц1й приналежност1 в !хт центри на основ1 кластер-анал1зу;

- скорочення (редукц1я) правил. При цьому п1дход1 виключаються суперечлив1 правила, яш взаемно компен-суються, а також одне з двох ствпадаючих правил, як таю, що не несуть ново! шформацп. При скороченш ви-даляються т1 продукц1йн1 правила, вплив яких на точн1сть виявляеться м1н1мальним п1сля оц1нки 1ндив1дуального

t

2

q

внеску кожного продукцшного правила у вихiднии сигнал мереж1, одержувано! шляхом використання ортогонального методу наИменших квадрапв. 1стотним недо-лiком методiв скорочення е необхiднiсть спочатку пра-цювати 3i свiдомо надлишковою за розмiром базою знань, що обумовлюе в рядi випадк1в повiльну роботу метода.

- нарощування (конструювання) правил: формуеть-ся початкова база продукцiИних правил (вона може бути i порожньою), що потiм послiдовно поповнюеться не-чiткими правилами. Недолiком даного методу е вщсутшсть явного зв'язку мiж процедурою додавання продукцiИних правил i точнiстю апроксимацп, що повинна визначатися окремо.

Наявшсть зазначених недолiкiв обумовлюе не-обхiднiсть розробки нових методiв побудови бази про-дукцiИних правил. Тому у цш робот пропонуеться видо-бувати продукцiИнi правила на основi дерев розв'язк1в [8-11], побудованих на основi заданих вибiрок даних S.

Проте вiдомi методи вдентифтацл дерев ршень, зок-рема ID3, CART, CHAID, QUEST, C4.5 [8-11], мають певн1 недолiки, пов'язан1 з великою обчислювальною складт-стю, проблемами формування дерева рiшень (рiст дерева, вщакання частини дерева) i т. ш. [8-10]. Крiм того, так1 методи використовують жадiбну стратегiю пошуку: якщо ознака була обрана один раз, i за нею виконано розбиття на пiдмножинн, то метод не може повернутися назад i вибрати iншиИ атрибут, якиИ привiв би до кращо-го розбиття, внаслщок чого в результатi часто синтезу-

ються дерева розв'язк1в, що не забезпечують прийнят-ний р1вень апроксимацп [9]. Тому в данш робот1 запро-поновано для синтезу дерев розв'язшв використовувати 1нтелектуальний стохастичних пошук [11-14], що дозво-ляе дослвджувати р1зш обласп пошукового простору 1 не використовуе жад1бну стратепю.

3 МАТЕР1АЛИ ТА МЕТОДИ

Для синтезу дерев розв'язшв пропонуеться викорис-товуеться шформащю про шформатившсть ознак, складшсть синтезованого дерева, а також точн1сть його розтзнавання. Це дозволить на початковому етат фор-мувати множину деревопод1бних структур, що характе-ризуються простою 1ерарх1ею й невисокою похибкою розтзнавання, у процеа пошуку створювати нов1 множини розв'язшв з урахуванням шформацл про значущють ознак й штерпретовшсть створюваних дерев, що, у свою чергу, забезпечить можливють побудови дерева розв'язшв з невеликою шлькютю елемент1в (вузл1в 1 зв 'язкiв м1ж ними) 1 прийнятною точшстю розтзнавання, а також видобу-вання на його основ1 найщншших екземпляр1в.

На етап 1тщал1зацп при синтез1 дерев розв'язшв пропонуеться генерувати початкову множину розв'язшв

^(0) ={х(0),Х(20),...,Хл°Х}, де - шльшсть розв'язк1в у

множит Л(0).

Кожен к-й розв'язок х к являе собою структуру, що ввдповщае певному дереву розв'язк1в (рис. 1).

d 2

Рисунок 1 - Схематичне подання структури Xk при синтез1 дерев розв'язюв

На рис. 1 позначення T _ ta ввдповвдае значению ta вихвдного параметра T при проход1 ввд кореня дерева до одного з його лисив ( юнцевих вузл1в, що мютять значення вихвдного параметра при виконанш умов, що знахо-дяться у вищестоящих вузлах-батьках).

Як видно з рис. 1, при синтез! кожного дерева розв'язшв xk необхвдно визначити його структуру, що пред-ставляе собою наб1р взаемозалежних вузл1в dab, як1 м1стять шформащю про ознаку Pmab, за якою ввдбуваеть-ся розбиття, ïï граничне значення PTRab, а також поси-

лання на л1вого d(a+1)(2b-1) й правого d(a+1)(2b) нащадк1в:

dab =< pmab, pTRab, d(a+1)(2b-1),d(a+1)(2b) >. Отже, для побудови дерева розв'язшв хк потр1бно сформувати множину взаемозалежних вузл1в-перев1рок dab, визна-чивши для кожного з них ознаку-перев1рку pmab та ïï граничне значення PTRab.

При вибор1 ознаки-перев1рки pmab для вузла dab бу-демо використовувати апрюрну шформащю про зна-чущсть ознак Vm. Оск1льки дерева розв'язк1в ефективно застосовуються, як правило, для виршення задач розшз-навання, як1 характеризуються к1нцевою к1льк1стю клаав вихвдного параметру T, для ощнювання шформативносп Vm ознак доцвдьно використовувати характеристики, що дозволяють ощнювати значущ1сть ознаки pm стосовно вих1дного параметра T, який приймае дискретш значення tq з юнцево! множини. Як таю характеристики можуть бути використаш наступт критерп [6, 8, 14, 15]:

- ентротя ознаки VE(pm ) - критерш, що ввдображае стутнь невизначеносп стану об'екта [8, 14], розрахо-вуеться за формулою:

( ) Nrnt {pmn У ( ))int (T ) ) ( ^

VE(pm) = - E P(pmn) £P(pmn,Tl)log2 P(mn,Tl)

n=1

l=1

де

Pppmn ) =

N ppmn )

M

- ймовфшсть того, що значення

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ознаки pm екземпляр1в виб1рки S потрапить до n-го штер-

валу д1апазону ïï змши; N(pmn ) - юльюсть екземпляр1в виб1рки S, значення m-ï ознаки яких, належать n-му 1нтер-валу даапазону ïï зм1ни; Nn (pmn ) - юльюсть 1нтервал1в, на як1 розбиваеться д1апазон значень m-ï ознаки pm ; Nint (T ) - юльюсть штервалш, на як1 розбиваеться д1апа-зон значень вих1дного параметра T;

- умовна ймов1ршсть того, що

P(_ T )_ N(mn,Tl)

plpmn,Tl) _ —ГТ7-

N (pmn )

значення вихвдного параметра T потрапить в l-й Сервал Ti за умови, що m-а ознака pm потрапить в n-й 1нтервал

pmn ; N(pmn T ) - к1льк1сть екземпляр1в виб1рки S, значення вих1дного параметра T яких належать l-му штерва-лу д1апазону його змши Ti за умови, що значення !х m-ï ознаки належить n-му штервалу pmn;

- теоретико-шформацшний критерш VT (pm ) - пе-редбачае використання юлькосп iнформацiï, що одержуе система в процеа розтзнавання об' екпв у результат ви-користання оцiнюваиоï' ознаки:

, ч Njnt (T ) Njnt ( pm

VT (pm )_ E E l_1 n_1

P(p mn Tl )log2

P(pmn,Tl) ,

P(pmn )P(Tl )

де p(Ti ) - ймов1ртсть того, що значення вихвдного параметра T потрапить в l-й штервал T даапазону зм1ни його значень.

Однак застосування таких критерпв передбачае, що ввдо-мими е ва значення вах екземпляр1в у навчальнш виб1рщ S, що е не завжди можливим при виршенш практичних задач даагностування й управл1ння як1стю продукцп (це обумовлено можливими проблемами при вишрюванш параметр1в деяких реальних техтчних об'екпв або про-цеав). У випадку, якщо деяк1 екземпляри навчально].' виб-1рки S мютять пропущен значення ознак pm або вихвдно-го параметра T, пропонуеться використовувати наступ-ний пвдхвд до оцiнюваиия шдиввдуально! значущосп Vm. Ощнювати шформатившсть ознак будемо виходячи з ï'хньоï' значущосп для визначення гранидь кластер1в - груп компактно розташованих екземплярiв у просторi ознак. Для цього за допомогою метода кластерного анал1зу [7, 14] пропонуеться виявляти групи екземплярiв (кластери) виходячи з !х геометричного розташувания.

Будемо вважати, що ознака pm е тим важлившою для кластера Clc ( c _ 1,2,..., Nci ), чим меншою е ширина роз-киду a mc ïï значень у цьому кластерi, що розраховуеться

за формулою:

N,

nst (Clc ) /

E (p

q _1

mq

pmc) , де pn

середне значення m-i ознаки pm в c-му кластерi; Ninst (Clc ) - юльюсть екземплярiв c-го кластеру Clc.

Пот1м найбiльш значущш ознадi c-го кластера ( ознащ з мiнiмальним значенням величини amc ) будемо ставити у ввдповвдшсть найбiльше значення рангу Ramc _ M, на-сгупнiй за зростанням величини a mc ознащ привласни-мо значення Ramc _ M -1 i т. д. При однакових значеннях величини amc ознакам ставляться у вiдповiднiсть середт значення рангов Ramc. Ознакам, що характеризуються низькими значеннями iидивiдуальноï шформативносп для екземпляр1в c-го кластеру (amc < amcmin), ставиться у ввдповвдшсть нульове значення величини Ramc : Ramc _ 0.

Значення загального рангу Ram m-ï ознаки pm по вс1х Ncl кластерах визначимо як суму значень ранпв Ramc за

Ncl

формулою: Ram _ ERamc. Ощнку iидивiдуальноï 1нфор-

c_1

мативност1 Vm m-ï ознаки визначимо за формулою:

V _

m

Ram

max {Ran} n_1,2,...,M

a__=

mc

Таким чином, ознака з максимальним значенням рангу Яат е найбшьш шформативною 1 характеризуемся одиничним значенням критерш Ут. Використання запропонованого критерш дозволяе ранжирувати озна-ки, виходячи з 1хньо1 значущосп для опису границь ком -пактного розташування екземпляр1в, що, у свою чергу, дозволяе ощнювати 1ндив1дуальну шформативтсть оз-нак у виб1рках, у яких деяш екземпляри м1стять пропу-щен1 значення ознак або вихщного параметра.

Шсля ощнювання шформативносп ¥т кожно! озна-ки рт виб1рки вщбуваеться формування дерев х к у вигляд ввдповвдних структур даних. Ознаки рт з високи-ми оцшками 1ндив1дуально! шформативносп Ут е бшьш значущими (1стотно впливають на вихвдний параметр Т), отже, у запропонованому метод так1 ознаки будуть мати бшьшу ймов1ршсть ввдбору як ознаки-перев1рки ртаЬ для вщповвдного вузла ¿аЪ.

Нехай оцшка 1ндив1дуально1 шформативносп т-1 ознаки рт дор1внюе Ут. Тод1 нормована оцшка вдивщу-ально! шформативносп ознак Ут погт у виб1рщ 5 може

бути розрахована за формулою: Vm

V - V ■

' m ' min

V - V ■

' max ' min

Де Vmin та Vmax - мшмальне та максимальне значення iнформативностi Vm ознак pm у вибiрцi S, вiдповiдно.

Вибiр ознаки pm для використання у вузлi-перевiрцi dab будемо виконувати виходячи зi значення величини Vm _norm. Для цього будемо послiдовно переглядати ознаки pi,p2,...,Pm й порiвнювати значення величини Vm norm з ran d [0;1] - випадково згенерованим числом в iнтервалi [0; 1]. У випадку, якщо виконуеться умова Vm norm ^ rand[0;1], ознака pm вважаеться добре по-дiляючою екземпляри на класи й включаеться в поточ-ний вузол dab дерева розв'язк1в як ознака-перевiрка.

Далi для ознаки-перевiрки pmab у вузлi dab виконуеться визначення граничного значення PTRab. Для цього розраховуються значення похибки розпiзнавання Eab екземплярiв Sab, що попадають у вузол dab, при рiзних

значеннях pTRab е [Pmab min ; pmab max], i вибираеться

таке значення pTRab , при якому значення похибки розп-iзнавання Eab буде найменшим. У випадку, якщо знайде-но значення PTRab, при якому похибка розпiзнавання знаходиться в припустимих межах Eab < Etr , тодi вважаеться, що ознака pmab при граничному значенш PTRab дозволяе здiйснювати прийнятне розбиття множини ек-

земплярiв Sab на класи to й ti, отже, ïï нащадками бу-дуть вузли, що представляють собою листи дерева розв'язк1в Xk - кiнцевi вузли, що мютять значення вихвд-ного параметра T = to й T = ti. Якщо в результата розбиття pmab < PTRab в одну з частин дерева ввiйдуть екземпляри Sab з единим значенням вихвдного параметра (наприклад, T = ti), то нащадок, що ввдповдае данш умовi, стае листом, i розбиття тривае тшьки для другого нащад-ка вузла dab.

Формування дерева розв'язкiв X k тривае доти, поки не буде досягнуто прийнятно! точносп розтзнавання (E < Emin) або шш1 критерп, що характеризують складшсть дерева (досягнення максимально припусти-мо! кшькосп вузл1в, р1вн1в, гшок та ш.). Аналопчним чином на етат шщ1ал1зацп запропонованого методу фор-муеться ^х дерев розв'язкiв X k.

Попм виконуеться ощнювання якосп синтезованих дерев розв 'язюв X k, k = 1,2,..., Nx. Для цього пропонуеть-

ся використовувати щльову функцш G = G(x k), що вра-

ховуе штерпретовшсть дерева Int(xk) i його розтзнаю-

чи властивостi (похибку розтзнавання E(xk)), i може бути визначена за формулою:

G(xk) = YiMxk) + Y 2E(xk), де Yi й у 2 - коефщенти, що

дозволяють урахувати важливiсть критерпв Int(xk) та

E(xk), вiдповiдно.

Для ощнювання iнтерпретовностi Int(k) дерев розв'язюв пропонуеться використовувати так1 критери:

- ширина дерева - може бути визначена як шльюсть

його гшок Nbranch (xk) або кшьысть вузлiв

Nnode (xk ) = Nbranch (xk ) +1;

- глибина дерева - визначаеться як шлькють його

Piвнiв NleVel (xk );

- гiллястiсть дерева Br(xk) - пропонуеться обчислю-

вати як вiдношення юлькосп вузлiв Nnode (xk) дерева x k до максимально можливо! юлькосп вузлiв дерева глиби-

ни Nievel (xk): Br(xk ) =-Nnodf (xk \ , де

maxnode((ieVei (xk V

maxnode(Nievei (xk)) - максимально можлива к1льк1сть

вузлiв дерева x k глибини Nievei (xk) - величина, що може бути визначена за формулою:

/ ЧЧ Nievei (xk) , / \

maxnode((ievei (xk ))= Z 2c-1 = 2N^(xk )-1;

c=1

- узагальнення рiшень Gener (x k) - ввдношення

кiлькостi листiв (вузлiв-рiшень) Nieaf (xk) дерева x k до кiлькостi екземплярiв Q навчально! вибiрки S:

^ ( \ Nieaf (xk)

Gener(xk ) =-Q--

- внутрилистова вiдстань Idist(xk) мiж екземпляра-ми вибiрки, що потрапили в конкретний лист (екземпля-рами, як вiдповiдають конкретним умовам, поданим у виглядi шляхiв вiд кореня дерева до його листiв) - чим менше дана вiдстань, тим вище компактнiсть рiшень у вщповвдних листах, i, отже, тим кращим е розбиття, що

виконуеться деревом x k. Критерiй Idist(xk) пропонуеться обчислювати за формулою:

1 Nleaf (Ik )

Idist(%k )_--,—r EIdistc, де Idistc - середня

Nleaf (Xk ) c_1

в^дстань м1ж екземплярами виб1рки S, що попадають в c-й лист дерева %k, - величина, що розраховуеться за форму-

Ninst (Leafc ) [M

E v E Xpmq - pmc f

лою: Idistc _-J-r-

N,nst (Leafc ) q_1 \m_1

де Ninst (Leafc ) - юльюсть екземпляр1в виб1рки S, що попадають в c-й лист Leafc дерева X к ; pmc - середне значення m-ï ознаки екземпляр1в, що попадають в c-й лист дерева х к. З метою приведення значень показника

Idist(xk ) до одного 1нтервалу при анал1з1 р1зних виб1рок даних, як значення ознак pmq рекомендуеться викорис-товувати нормован1 значення;

- узагальнення модел1 дерева GenerM (хк ) - в1дно-шення к1лькост1 вс1х настроюваних параметр1в

Nparam (хк) модел на основ1 дерева розв'язк1в до розм-

г. о ^ j ti \ N param (хк)

1рност1 виб1рки S : GenerM(хк )_—--, де

Q • M

г 6ck )- юл

Nparam (Ck ) - юльюсть настроюваних параметрlв дерева хк - визначаеться за формулою:

Nparam (хк ) _ 2Nnode (хк ) , осшльки кожен dab вузол ха-

рактеризуеться двома параметрами pmab та pTRab.

Як критер1й 1нтерпретовност1 Int(хk ) можна використовувати один 1з запропонованих вище критерив

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(Nbranch (х к ), Nnode (хк ), Nlevel (хк ), Brkk ), М^к ) )

або !х комб1нац1ю.

П1сля оц1нювания якосп синтезованих дерев розв'-язк1в хк, к _ 1,2,...,Nx виконуеться перев1рка критерив

зупинення стохастичного пошуку. Як так1 критерп можуть бути використаш: досягнення прийнятного значення ц1льовоï функци G^ ), перевищення максимально припустимоï юлькосп 1терац1й NIt, в1дсутн1сть 1стотних покращень значення ц1льовоï функци G (к ) протягом задаиоï к1лькост1 ггерацш.

При невиконанн1 критерИв зупинення виконуеться оператор в1дбору розв'язк1в х к для формування новоï

множини R(i) ^R(i+1) _{х(г+1),х2+1),...,х^}. Для

цього 1з множини R(i) в1дбираються розв'язки х к) з метою створення набору розв'язшв RP(i), допущених до в1дтворення, - розв'язк1в, на основ1 яких буде згенерова-

но новий наб1р R(i+1).

Для в1дбору розв'язк1в хкг) у множину RP(i) кожшй

. (i) . ...

структур1 хк ставиться у ввдповвдшсть 1нтервал

GImax (хк ) обчислюються в такий спос1б:

GImin (хк )= GImax (хк-1X GImax (%k ) _ GImin (%к ) + GO (%к ),

де GImin (хк ) й GI max (х к ) - м1н1мальне та максимальне значення в 1нтервал1 GI (хк ), в1дпов1дно; G/m;n (хО _ 0 -м1н1мальне значення в 1нтервал1 GI (х1 ) першого розв'-язку х1 в популяцп R(l); Go (хк ) - в1дносне значення ц1льовоï функци G(хk ) розв'язку хк в множит R(i) , виз, _ ( ) GM - G(хk ) начаеться за формулою : Go (хк ) _ -^^^

де

E(GM - G(х к ))

K _1

GM _ max {G(lk )} - максимальне значення ц1льо-к _1,2,..., N х

во! функци в множин1 хромосом R(i) _{х(г),хг V-,х^}.

Як видно з наведених вище формул, GIm;n (х0 ) _ 0 1 GImax (х)_ 1. Отже, кожному розв'язку х к ставиться у ввдповвдшсть деякий 1нтервал залежно в1д значення його ц1льовоï функци G(хk ) : чим вище значення 0(%к ), тим

ширше 1нтервал [gimin (хк ); GImax(хк )). У сукупност1 1нтервали GI(хк), к _ 1,2,...,N утворюють 1нтервал

GI (R(î) )е[0;1).

П1сля цього генеруеться випадкове число rnd _ rand[0; 1) з 1нтервалу [0 ;1). У множину допущених до ввдтворення розв'язшв RP(i) заноситься розв'язок х к, в 1нтервал GI(хк ) якого попадае випадково згенеро-ване число rnd : rnd e[GImin (хк); GImax (хк)). Таким чином, чим б1льше ширина д1апазону GI (хк ), що визначаеться значенням ц1льовоï функци G(хk ), тим вище ймов1рн1сть розв'язку хк бути ввдбраним для в1дтворен-ня. Генеращя випадкових чисел rnd 1 в1дб1р розв'язшв х к для в1дтворення тривае доти, поки не буде повтстю сфор-

мовано множину RP

(i)

RP

(i)

_ NI.

GI(хк ) 6 [gImin (хк );GImax (хк )). Величини GImin (хк )

та

Пот1м на основ1 розв'язк1в х к 1з множини RP(i) виконуеться створення нових розв'язк1в х к+1). Для цього 1з

множини RP(i) вибираються випадковим чином два розв'язки х parent1 й х parent 2. П1сля чого в кожному з розв'-

язк1в-батьк1в вибираються вузли dabparent1 й dabparent 2

(при цьому ознака-перев1рка pmabparent 2 вузла dabparent 2 не повинна бути 1дентичною кожшй з ознак, що знахо-дяться у вузлах дерева х parent1 по напрямку в1д його кореня до вузла d abparent 1, включно, аналог1чна умова д1е й

при вибор1 вузла dabparent!), по яких буде в1дбуватися обм1н м1ж в1дпов1дними частинами дерев розв'язк1в

X parentl i X parent2- У результап такого обм1ну СТВОрЮ-ються два HOBi розв'язки Xchiid1 й Xchild 2- При цьому перший розв'язок-нащадок Xchiid1 е вдентичним розв'язку Xparent\ за винятком частини (пiддерева), вихiдним вуз-

лом яко1 e dabparentl- Замють вузла dabparent1 в розв'язку

XchHd\ знаходиться вузол dabparent2, шсля якого розта-шовуеться вщповщна частина дерева X parent 2- Аналоп-чно формуеться дерево-нащадок xchUdX Пiсля цього виконуеться перерахунок граничних значень p^Rab оз-НЖ-перешрот pmab вiд вузла dabparent2 (dabparenl дерева Xchildl (lchiid2) до вiдповiдних шнцевих вузлiв, що мiстять значення вих1дного параметру. У випадку, якщо в результат таких перетворень на нижшх рiвнях дерев Xchildi i Xchiid2 виявляються вузли, перевiрки в який по-в'язанi з ознаками, що вже зуст^ичаються на бiльш висо-ких рiвнях дерева при проходi вiд кореня до вiдповiдних лиспв, то так1 ознаки-перевiрки у вузлах низьких рiвнiв замiняються на ознаки-перевiрки наступного рiвня вщпо-вщного дерева ychildl або Xchad2- Такий щдхзд дозволяе для однакових батьшв створювати множини нащадшв.

Створення нових розв'язшв Xk+1) за допомогою описа-ного вище пiдходу тривае доти, поки не буде сформовано Ncross = PNx розв'язк1в, де в - коефщент, що визна-чае значущiсть формування ново1 множини розв'язшв за допомогою описано1 вище процедури схрещування.

Другим способом формування нових розв'язшв Xki+1) е мутащя, що припускае виконання деяких змш над структурою X k, вщбраною iз множини RP(i). У розроблено-му стохастичному методi синтезу дерев розв'язшв оператор мутацп пропонуеться виконувати в такий споаб. Спочатку з множини RP(i) ввдбираеться розв'язок Xmutated, у якому випадковим чином вибираеться муту-ючий вузол dabmutated, попм у цьому вузлi виконуеться замiна ознаки-перевiрки pmab на iншу, що не знаходиться у вузлах дерева x mutated по напрямку в1д його кореня до вузла dabmutated, включно. Пюля визначення ново1 ознаки-перевiрки, виконуеться перерахунок ïï граничного значення pTRab й подальше переформатування дерева, починаючи вiд вузла dabmutated (аналопчно етапу шщи-лiзацiï вщбуваеться побудова фрагмента дерева вiд вузла dabmutated й доти, поки не будуть досягнут вiдповiднi кри-терiï зупинення процесу формування дерева). Форму-• X (i+1)

вання нових розв язк1в X\ за допомогою мутацп тривае, поки не буде сформовано Nmutation = у^ розв'язшв, де Y - коефщент, що визначае значущють створення новоï множини розв'язшв за допомогою мутацп.

У нову множину розв'язшв R(l+1) заносяться Ncross

й N„

розв язк1в, згенерованих за допомогою схре-

ращими значениями щльово1' функцп G^-* ) в популяцп

r (i), де а - коефщент, що визначае значущють включен-ня елiтних особин у нову множину.

Пот1м виконуеться оцiнювання значень цiльовоï

(i+1),

G = G

(Xk+1) ),

функцп G для розв'языв Xk к = 1,2,..., Nx i формування новоï множини

R(l+2) = {#+2), x2+2),

, xN+2)}. Даний процес тривае до

щування й мутацп, а також Neiite = aN% , елпних розв'язшв хк 1з множини R(i), що характеризуються найк-

виконання критерiïв зупинення.

Результатом виконання стохастичного методу синтезу дерев розв'язшв е дерево Xopt з мiнiмальним значенням щльово1* функцп G(xopt)=^ ^^ {G(xk)}.

П1сля цього на основ! синтезованого дерева розв'язшв Xopt виконуеться видобування правил RB, що пред-ставляють собою найцiннiшi екземпляри. Для цього об-

робляеться кожний шлях в1д кореня дерева Xopt до листа, у результап чого будуеться вщповщне правило, що узагальнюе шформащю, подану в деяшй множин1 ек-земплярiв вихiдноï ви61рки S. Використовуючи такий п1дх1д, видобуваеться Nrdt правил, загальна шльшсть яких дорiвнюе юлькосп лиспв ( юнцевих вузл1в, що мютять значення вих1дного параметра) синтезованого дерева розв'язюв Xopt.

Таким чином, розроблений стохастичний метод синтезу дерев розв'язшв використовуе шформащю про шформатившсть ознак, складшсть синтезованого дерева, а також точнють його розтзнавання, що дозволяе на початковому етат формувати множину деревотдабних структур, яка характеризуються простою iерархiею й невисокою похибкою розпiзнавання, у процеа пошуку створювати нов1 множини розв'язшв з урахуванням iнформацiï про значущють ознак й штерпретовшсть ге-нерованих дерев, що, у свою чергу, забезпечуе мож-ливють побудови дерева розв'язшв 1з невеликою юльюстю елеменпв (вузл1в i зв'язюв м1ж ними) та прийнятною точ-н1стю розпiзнавання, а також видобування на його основ! найщнтших екземплярiв.

4 ЕКСПЕРИМЕНТИ

Виконаемо експериментальне дослщження розроб-леного стохастичного методу синтезу дерев розв'язшв. Для цього порiвняемо його з вщомими аналогами - методом C4.5 [8-10], методом CART [8-10], а також еволю-цшним методом побудови дерев розв'язшв, запропоно-ваним в [16].

З метою експериментального пор1вняння запропонованого й вщомих методiв на мов1 C# розроблено про-грамне забезпечення, що дозволяе на основ1 задано1' ви-61рки даних S = < P, T > виконувати побудову дерев розв'язшв за допомогою р1зних методiв. За допомогою розробленого програмного забезпечення вирiшувалася задача прийняття рiшень при неруйшвному контрол1 якост1 кузов1в автотранспортних засобiв [17].

При виготовлент автотранспортних засоб1в важливим етапом е неруйтвний контроль якоси кузов1в. Виявлення некондицшних вироб1в (кузов1в) на рантх стадах виготов-лення автомобвдя дозволить зменшити витрати на усунен-ня дефекпв, 1, отже, зменшити соб!вартють виробництва.

У процеа виробництва кузов1в автотранспортних за-соб1в на кожному етап !хнього виготовлення вим1ряють-ся деяка група параметр1в - контрольних точок, розта-шованих на кузов! та навюних вузлах:

- перша група - контрольш точки на чорному (неза-барвленому) кузов!;

- друга група - контрольш точки на навюних вузлах (дверях 1 катет);

- третя група - зазори й сполучення м1ж навюними вузлами й кузовом.

До аналзованих на першому й другому етапах иараметр1в (першо! й друго! групи) ввдносяться ввдхилення ввд номшаль-них значень контрольних точок. Як правило, бшьшютъ таких параметр1в знаходиться в областях допуску, 1, отже, не впли-вають на яюсть кузова транспортного засобу.

Вим1рювання параметр1в третьо! групи пов'язано з необхвдтстю установки навюних вузл1в (дверей 1 капота) на пофарбований кузов. Однак при установщ навюних вузл1в на кузов можуть виникнути деяк1 деформаци, обу-мовлеш ввдхиленнями номшальних розм1р1в чорного кузова, дверей 1 капота ввд еталонних розм1р1в (при цьо-му ввдхилення кожного з вим1рюваних параметр1в першо! й друго! групи може знаходиться в межах допуску), а також шшими факторами, що виникають при складант. Таю деформаци приводять до утворення зазор1в 1 сполу-чень м1ж навюними вузлами й кузовом, е досить части-ми й помгтними для покупщв продукци. Усунення таких недолшв пов'язано з необхвднютю розбирання кузова й навюних вузл1в, а також з повторним фарбуванням 1 скла-данням, що ускладнюе й здорожуе процес виготовлення як1сних вироб1в.

Тому актуальною е задача побудови моделей залеж-ностей показник1в третьо! групи ввд параметр1в першо! й друго! груп.

Виявлено, що найбвдьш важливими параметрами перших двох груп е 18 точок, розташованих в обласп порога кузова й в областях кршлення петель для складан-ня кузова й навюних вузл1в [17]. При цьому в шести точках фжсуються ввдхилення по двох координатах (третя координата е базовою, внаслвдок чого ввдхилення по данш координат! е нульовим), в шших дванадцяти вим1рюють-ся ва три координати, отже, виб1рка даних мютила зна-чення 48 вхвдних параметр1в. Також вид1лено 16 ютотних

параметр1в третьо! групи (зазори й сполучення м1ж две-рима й порогом, капотом i крилом, передшми й задн1ми дверима й iH.).

Таким чином, необх1дно синтезувати 16 моделей за-лежностей параметр1в третьо! групи в1д 48 вхвдних ознак (параметр1в першо! й друго! груп). Вихвдна виб1рка мюти-ла шформацш про 172 вироби. Нижче наведено резуль-тати побудови одше! з моделей. Для шших параметр1в отримано аналопчш результати.

Як критерш оцшювання штерпретовносп Int(xk) дерев розв'язюв при використанш стохастичного й ево-люцшного метода використовувалося узагальнення розв'язюв Gener (х k ) = Niea^ (х k ) / Q, осюльки юльюсть лиспв Neef ввдповвдае загальнш юлькосп правил Nrdt , що ви-добуваються з дерева Xk, i, отже, визначае структуру базу правил, синтезовано! на основ! дерева розв'язк1в Xk. Коефщенти, що дозволяють врахувати важливють критерий Int(xk) i E(xk), вибиралися р1вними 0,5 (кожний

критерш Int(xk) i E(xk) в процеа експерименпв мав однакову значущ1сть), отже, щльова функщя G(xk) = Y 1Int (xk) + Y 2 E (x k) при стохастичному i еволю-цшному пошуку визначалася в такий спос1б:

G(Xk ) = 0,5Gener(Xk ) + 0,5E(Xk ).

5 РЕЗУЛЬТАТИ

Результати експерименпв по дослвдженню р1зних ме-тод1в синтезу дерев розв'язюв при побудов! дагностично! модел якосп кузов1в автомобшв наведено в таблиц! 1.

6 ОБГОВОРЕННЯ

Як видно з таблиц! 1, запропонований стохастичний метод i еволюц!йний метод синтезу дерев розв'язшв дозволяють будувати бвдьш прийнятн! д!агностичн! модел! на основ! дерев розв'язк1в (значення критер!ю G нижче в пор!внянш з моделями, синтезованими на основ! метсдав CART [8-10] i C4.5 [8-10]), оск!льки не використовують жад!бну стратегию. Розроблений стохастичний метод за-безпечив побудову дерева розв'язюв, що характеризуемся незначною юльюстю структурних елемент!в (Nieve[ = 7, Nnode = 73, Nieaf = 37), а також високими апроксимац-!йними (помилка навчально! виб!рки склала E = 0,016) i узагальнюючими (помилка на тестових даних Et = 0,028) властивостями, що досягаеться за рахунок використання в процеа синтезу !нформац!! про !нформативн!сть ознак, складнють синтезованого дерева та точнють його розп!знавання. Скорочення часу пошуку (t = 7,31) в по-

Таблиця 1 - Результати експерименпв

Метод Nlevel Nnode Nleaf Gener GenerM Br G Idist t, мс E Et

CART [8-10] 8 95 48 0,279 0,023 0,37 0,166 0,012 15,12 0,052 0,093

C4.5 [8-10] 8 103 52 0,302 0,025 0,4 0,174 0,078 14,82 0,046 0,072

Еволюцшний метод [16] 7 83 42 0,244 0,02 0,65 0,131 0,0041 7,42 0,018 0,031

Стохастичний метод 7 73 37 0,215 0,018 0,57 0,116 0,0032 7,31 0,016 0,028

р1виянн1 з в1домими методами забезпечено за рахунок формування на етап1 1н1ц1ал1зац1ï запропонованого методу множини деревопод1бних структур, що характери-зуються простою 1ерарх1ею та невисокою помилкою розтзнавання, а також створення в процес1 пошуку нових множин розв'язк1в 1з урахуванням 1нформацИ про зна-чущ1сть ознак та 1итерпретовн1сть генерованих дерев.

Низьке значення критерш узагальнення розв'язшв Gener _ 0,215 сввдчить про висок1 узагальнююч1 здашосп дерева: виб1рку з 172 екземпляр1в перетворено в дерево розв'язшв, з якого, у свою чергу вид1лено N^f _ 37 продукцшних правил.

Дерева, синтезоват за допомогою еволюцшного [16] 1 запропонованого стохастичного метод1в е б1льш г1лляс-тими (значення критерИв становлять Br _ 0,65 1 Br _ 0,62, в1дпов1дно) у пор1внянн1 з деревами, побудованими за допомогою метода CART [8-10] 1 C4.5 [8-10] ( Br _ 0,37 1 Br _ 0,4), що св1дчить про б1льш компактне розташу-вання вузл1в.

Таким чином, результати пор1вняльного анал1зу показали, що запропонований стохастичний метод синтезу дерев розв'язшв не уступае по якосп побудови дере-вопод1бних моделей прийняття р1шень в1домим методам, 1 забезпечуе можлив1сть побудови дерев розв'язшв з невеликою шльшстю структурних елеменпв 1 прийнятною точн1стю розтзнавання.

ВИСНОВКИ

У робот1 вир1шено актуальну задачу автоматизацИ видобування знань у вигляд1 набору продукцшних правил з навчальних виб1рок даних.

Наукова новизна роботи полягае в тому, що запропо-новано стохастичний метод синтезу дерев розв'язшв, що використовуе шформащю про 1нформативн1сть ознак, складшсть синтезованого дерева, а також точшсть його розп1знавання, що дозволяе на початковому етап1 фор-мувати множину деревопод1бних структур, яка характе-ризуються простою 1ерарх1ею та невисокою помилкою розтзнавання, у процес1 пошуку створювати нов1 множини розв'язшв з урахуванням 1нформад1ï про значущ1сть ознак 1 1нтерпретовн1сть генерованих дерев, що, у свою чергу, забезпечуе можлив1сть побудови дерева розв'язшв з невеликою шльшстю елемент1в (вузл1в 1 зв'язшв м1ж ними) та прийнятною точн1стю розп1знавання, а також видобування на його основ1 найщншших екземпляр1в.

Запропоновано систему критерИв ощнювання моделей на основ1 дерев розв'язшв, що м1стить у соб1 критерИ оц1нювания апроксимац1йних властивостей (помилка розтзнавання) 1 штерпретовносп (ширина, глибина, гшляспсть, узагальнення р1шень, узагальнення модел1, внутрилистова в1дстань) синтезованого дерева. Розроб-лену систему критерИв можна використовувати для автоматизацИ анал1зу властивостей 1 пор1вняння моделей на основ1 дерев розв'язк1в при вир1шенн1 задач неруйш-вного контролю якост1.

Практична щншсть отриманих результат1в полягае в тому, що: розроблено програмне забезпечення, яке реа-

л1зуе запропонований метод i дозволяе виконувати по-будову моделей контролю якосп на основ1 дерев розв'язшв, а також видобувати продукцшт правила з вибь рок даних; виршено практичне завдання прийняття ршень при неруйшвному контрол1 якосп кузов1в авто-транспортних засоб1в.

Перспективи подальших дослщжень полягають у зас-тосувант запропонованого подходу до видобування знань у вигляд1 набору продукцшних правил з навчальних вибь рок даних при синтез! нейро-нечпких моделей для вирь шення практичних задач неруйтвного контролю якосп.

ПОДЯКИ

Роботу виконано в рамках держбюджетно! науково-дослвдно! теми Запор1зького нащонального техшчного ушверситету «1нтелектуальш шформацшш технологи автоматизацИ проектування, моделювання, керування та д1агностування виробничих процеав i систем» (номер державно! реестраци 0112U005350) за щдтримки м1жна-родного проекту «Centers of Excellence for young RESearchers» (CERES) програми «Tempus» Свропейсь-ко! Ком1сИ (реестрац1йний номер 544137-TEMPUS-1-2013-1-SK-TEMPUS-JPHES).

СПИСОК Л1ТЕРАТУРИ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Ding S. X. Model-based fault diagnosis techniques: design schemes, algorithms, and tools / S. X. Ding. - Berlin: Springer, 2008. - 473 p.

2. Rutkowski L. Flexible neuro-fuzzy systems : structures, learning and performance evaluation / L. Rutkowski. - Boston : Kluwer, 2004. - 276 p.

3. Нейро-фаззи сети Петри в задачах моделирования сложных систем / [Е. В. Бодянский, Е. И. Кучеренко, А. И. Михалев] - Днепропетровск : Системные технологии. - 2005. - 311 с.

4. Jang J. R. ANFIS: Adaptive-network-based fuzzy inference system / J. R. Jang // IEEE transactions on systems and cybernetics. -1993. - Vol. 23. - P. 665-685. DOI: 10.1109/21.256541.

5. Mulaik S. A. Foundations of Factor Analysis / S. A. Mulaik. -Boca Raton, Florida: CRC Press. - 2009. - 548 p.

6. Jensen R. Computational intelligence and feature selection: rough and fuzzy approaches / R. Jensen, Q. Shen. - Hoboken: John Wiley & Sons, 2008. - 339 p.

7. Abonyi J. Cluster analysis for data mining and system identification / J. Abonyi, B. Feil. - Basel : Birkhauser, 2007. - 303 p.

8. Rokach L. Data Mining with Decision Trees. Theory and Applications / L. Rokach, O. Maimon. - London : World Scientific Publishing Co, 2008. - 264 p. DOI: 10.1142/9097.

9. Quinlan J. R. Induction of decision trees / J. R. Quinlan // Machine Learning. - 1986. -No. 1. - P. 81-106. DOI: 10.1007/ BF00116251.

10. Classification and regression trees / L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone. - California : Wadsworth & Brooks, 1984. - 368 p.

11. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов : монография / [С. А. Субботин, Ан. А. Олейник, Е. А. Гофман, С. А. Зайцев, Ал. А. Олейник ; под ред. С. А. Субботина. - Харьков] : ООО «Компания Смит», 2012. - 317 с.

12. Yu X. Introduction to Evolutionary Algorithms (Decision Engineering) / X. Yu, M. Gen. - London: Springer, 2010. -418 p. DOI: 10.1007/978-1-84996-129-5.

13. Gen M. Genetic algorithms and engineering design / M. Gen, R. Cheng. - New Jersey: John Wiley & Sons, 1997. - 352 p. DOI: 10.1002/9780470172254

15

16

Гофман Е. А. Использование деревьев решений для диагностирования автотранспортных средств / Е. А. Гофман, А. А. Олейник, С. А. Субботин // Информационные управляющие системы и компьютерный мониторинг : II Международная научно-техническая конференция ИУС и КМ-2011, Донецк, 11-13 апреля 2011 г. : материалы конференции. - Донецк : ДонНТУ, 2011. - Т. 1. - С. 159-163.

Стаття надшшла до редакцй 01.09.2014.

Шсля доробки 26.09.2014.

14 Computational intelligence in fault diagnosis / eds.: V. Palade, 17. C.D. Bocaniala, L. Jain. - London: Springer, 2006. - 362 p. DOI: 10.1007/978-1-84628-631-5.

Субботш С. О. Подання й обробка знань у системах штучного штелекту та пщтримки прийняття ршень : навч. поабник / С. О. Субботш. - Запортжжя : ЗНТУ 2008. - 341 с. Гофман Е. А. Эволюционный метод синтеза деревьев решений / Е. А. Гофман, А. А. Олейник, С. А. Субботин // Штуч-ний штелект. - 2011. - № 2. - С. 6-14.

Олейник А. А.

Канд. техн. наук, доцент, Запорожский национальный технический университет, Украина

ИЗВЛЕЧЕНИЕ ЗНАНИЙ НА ОСНОВЕ ДЕРЕВЬЕВ РЕШЕНИЙ И СТОХАСТИЧЕСКОГО ПОИСКА

Решена задача разработки математического обеспечения для автоматизации извлечения знаний в виде набора продукционных правил из обучающих выборок данных. Объектом исследования являлся процесс построения моделей неразрушающего контроля качества. Предмет исследования составляют методы извлечения продукционных правил для синтеза моделей контроля качества. Цель работы: повысить эффективность процесса извлечения продукционных правил для построения моделей контроля качества по обучающим выборкам. Предложен стохастический метод синтеза деревьев решений, который использует информацию об информативности признаков, сложности синтезируемого дерева, а также точности его распознавания, что позволяет на начальном этапе формировать множество древовидных структур, характеризующихся простой иерархией и невысокой ошибкой распознавания, в процессе поиска создавать новые множества решений с учетом информации о значимости признаков и интерпретабельности генерируемых деревьев, что, в свою очередь, обеспечивает возможность построения дерева решений с небольшим количеством элементов (узлов и связей между ними) и приемлемой точностью распознавания, а также извлечение на его основе наиболее ценных экземпляров. Разработано программное обеспечение, реализующее предложенный метод. Проведены эксперименты по исследованию свойств предложенного метода. Результаты экспериментов позволяют рекомендовать предложенный метод для использования на практике.

Ключевые слова: выборка, дерево решений, модель контроля качества, продукционное правило, стохастический поиск.

Oliinyk A.

Ph.D., Associate Professor, Zaporizhzhya National Technical University, Ukraine

KNOWLEDGE EXTRACTION BASED ON DECISION TREES AND STOCHASTIC SEARCH

The problem of mathematical support development is solved to automate the extraction knowledge as production rules from the training data samples. The object of study is the process of constructing models of non-destructive quality control. The subject of study are methods of production rules extraction for synthesis of quality control models. The purpose of the work is to improve the efficiency of the process of production rules extraction for constructing models of quality control based on training samples. The stochastic method for the decision trees synthesis is proposed, which uses information about the informativeness of features, the complexity of the synthesized tree, as well as the accuracy of its recognition, which allows to form on the initial stage a set of tree structures, characterized by a simple hierarchy and low error recognition, in the process of search to create a new set of solutions with taking into account information about the significance of the features and interpretability of generated trees, which, in turn, provides the possibility of constructing a decision tree with a small number of elements (nodes and branches between them), and an acceptable recognition accuracy and retrieval based on it the most valuable instances. The software implementing proposed method is developed. The experiments to study the properties of the proposed method are conducted. The experimental results allow to recommend the proposed method for use in practice.

Keywords: sample, decision tree, model of quality control, production rule, stochastic search.

REFERENCES

1. Ding S. X. Model-based fault diagnosis techniques: design schemes, algorithms, and tools. Berlin, Springer, 2008, 473 p.

2. Rutkowski L. Flexible neuro-fUzzy systems : structures, learning and performance evaluation. Boston, Kluwer, 2004, 276 p.

3. Bodjanskij E. V., Kucherenko E. I., Mihalev A. I. Nejro-fazzi seti Petri v zadachah modelirovanija slozhnyh system, Dnepropetrovsk, Sistemnye tehnologii, 2005, 311 p.

4. Jang J. R. ANFIS: Adaptive-network-based fuzzy inference system, IEEE transactions on systems and cybernetics, 1993, Vol. 23, pp. 665-685. DOI: 10.1109/21.256541

5. Mulaik S. A. Foundations of Factor Analysis. Boca Raton, Florida, CRC Press, 2009, 548 p.

6. Jensen R., Shen Q. Computational intelligence and feature selection: rough and fuzzy approaches. Hoboken, John Wiley & Sons, 2008, 339 p.

7. Abonyi J., Feil B. Cluster analysis for data mining and system identification, Basel, Birkhäuser, 2007, 303 p.

8. Rokach L., Maimon O. Data Mining with Decision Trees. Theory and Applications. London, World Scientific Publishing Co, 2008, 264 p. DOI: 10.1142/9097.

9. Quinlan J. R. Induction of decision trees, Machine Learning, 1986, No. 1, pp. 81-106. DOI: 10.1007/BF00116251.

10. Breiman L., Friedman J. H., Olshen R. A., Stone C. J. Classification and regression trees California, Wadsworth & Brooks, 1984, 368 p.

11. Subbotin S. A., Olejnik An. A., Gofman E. A., Zajcev S. A., Olejnik Al. A.; pod red. S. A. Subbotina. Intellektual'nye informacionnye tehnologii proektirovanija avtomatizirovannyh sistem diagnostirovanija i raspoznavanija obrazov : monografija. Har'kov, OOO «Kompanija Smit», 2012, 317 p.

12. Yu X., Gen M. Introduction to Evolutionary Algorithms (Decision Engineering). London, Springer, 2010, 418 p. DOI: 10.1007/978-1-84996-129-5.

13. Gen M., Cheng R. Genetic algorithms and engineering design. New Jersey, John Wiley & Sons, 1997, 352 p. DOI: 10.1002/ 9780470172254.

14 Palade V., Bocaniala C. D., Jain L., eds. Computational intelligence in fault diagnosis. London, Springer, 2006, 362 p. DOI: 10.1007/978-1-84628-631-5.

15. Subbotin S. O. Podannja j obrobka znan' u sistemah shtuchnogo intelektu ta pidtrimki prijnjattja rishen' : navch. posibnik, Zaporizhzhja, ZNTU, 2008, 341 p.

16. Gofman E. A., Olejnik A. A., Subbotin S. A. Jevoljucionnyj metod sinteza derev'ev reshenij, Shtuchnij intelekt, 2011, No. 2, pp. 6-14.

17. Gofman E. A., OlejnikA. A., Subbotin S. A. Ispol'zovanie derev'ev reshenij dlja diagnostirovanija avtotransportnyh sredstv, Informacionnye upravljajushhie sistemy i komp'juternyj monitoring : II Mezhdunarodnaja nauchno-tehnicheskaja konferencija IUS i KM-2011, Doneck, 11-13 aprelja 2011 g. : materialy konferencii. Doneck, DonNTU, 2011, Vol. 1, pp. 159-163.

Видобування знань на основі дерев розв’язків та стохастичного пошуку Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Олійник А. О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Олійник А. О.

Текст научной работы на тему «Видобування знань на основі дерев розв’язків та стохастичного пошуку»