УДК 004.93 А.О. ОЛ1ЙНИК*
ПОБУДОВА АСОЦ1АТИВНИХ ПРАВИЛ НА ОСНОВ1 1НТЕЛЕКТУАЛЬНОГО СТОХАСТИЧНОГО ПОШУКУ
Запорiзький нацiональний технiчний ушверситет, Запорiжжя, yKpaÏHa
Анотаця. ВирШено задачу автоматизацИ' побудови чисельних асощативних правил на основг заданоï множини спостережень. Запропоновано стохастичний метод побудови чисельних асоща-тивних правил, що враховуе апрюрну тформацт про значущ1сть терм1в i ознак та використовуе ймов^ршсний пiдхiд для перебору рiзних сполучень антецедентiв i консеквентiв асощативних правил. Розроблено програмне забезпечення, що реалiзуe запропонований метод, а також проведено експерименти з його до^дження при вирШент практичних завдань.
Ключовi слова: асощативне правило, дiагностування, тформативтсть, модель, ознака, стохастичний пiдхiд, терм, транзакщя.
Аннотация. Решена задача автоматизации построения численных ассоциативных правил на основе заданного множества наблюдений. Предложен стохастический метод построения численных ассоциативных правил, который учитывает априорную информацию о значимости термов и признаков и использует вероятностный подход для перебора различных сочетаний антецедентов и консеквентов ассоциативных правил. Разработано программное обеспечение, реализующее предложенный метод, а также проведены эксперименты по его исследованию при решении практических задач.
Ключевые слова: ассоциативное правило, диагностирование, информативность, модель, признак, стохастический подход, терм, транзакция.
Abstract. The problem of automation of extracting quantitative association rules based on a set of observations is solved. The stochastic method to extracting quantitative association rules is proposed. It takes into account a priori information about the significance of the terms and features and uses a probabilistic approach for analysis of different combinations of antecedents and consequents of association rules. It was developed software implementing proposed method. The experiments with proposed method in practical problem solving were conducted as well.
Keywords: association rule, diagnostics, informativeness, model, feature, stochastic approach, term, transaction.
1. Вступ
Для оброблення набор1в даних, що мютять велику кшькють пропущених значень або пред-ставлених у вид1 баз транзакцш, де кожне спостереження (транзакщя) мютить значення деяких з можливих ознак дослщжуваних об'екпв, доцшьно використовувати методи побудови асощативних правил [1, 2], оскшьки вони дозволяють виявляти сховаш залежносп в даних, скорочувати розм1ршсть даних, тим самим тдвищуючи р1вень узагальнення, а також знижуючи структурну i параметричну складшсть синтезованих на ïx основ1 моделей. У цьому випадку розглядасться варiант вхщних даних, де деяю значення ознак або вихщ-ного параметра можуть бути не визначеш. У результат застосування методiв виявлення асощативних правил створюеться множина A = {A1, A2,..., ANa } правил виду Ar : Pr ® Tr, де
Pr - антецедент - лiва частина r -го правила Ar, що визначае набiр умов виконання правила Ar, Tr - консеквент - права частина r -го правила Ar, що визначае значення вихщно-го параметра при виконанш умов Pr правила Ar, NA = |A| - кiлькiсть витягнутих правил [3-6].
© Олшник А.О., 2015
ISSN 1028-9763. Математичш машини i системи, 2015, № 4
B^omî методи побудови асощативних правил SCF, SETM, Apriori, DHP, Eclat та ш. [1-4] при формуваннi наборiв, що часто зустрiчаються, у процес синтезу правил викорис-товують властивють антимонотонностi пiдтримки (вiдповiдно до якого пщтримка набору елементiв не перевищуе значення пiдтримки кожно'1' з його пщмножин) або iншi процедури [2-6], що обумовлюе такi недолiки цих методiв:
- аналогiчно до жадiбноï стратеги (greedy strategy) пошуку аналiзуються всi можли-вi комбшаци з високими значеннями пiдтримки, що при великш кiлькостi ознак P у вихь днiй множинi S вимагае перевiрки велико'1' кiлькостi комбiнацiй ознак Pr, виконуючи юто-тну кшьюсть проходiв по базi S i витрачаючи на це велию ресурси пам'ятi та часу роботи ЕОМ;
- такий пщхщ не дозволяе у процес пошуку генерувати правила Ar з наборiв ознак, що мютять комбшаци з низькими значеннями пщтримки (комбiнацiй ознак, що зус^ча-ються рiдко);
- при використанш такого пiдходу виявляються тшьки правила, синтезованi на ос-новi наборiв, що часто зустрiчаються, внаслщок чого не витягаються цiкавi правила Ar : Pr ® Tr з високим рiвнем вiрогiдностi conf (Ar ) при низькому рiвнi пiдтримки supp(Ar ). Це ютотно знижуе апроксимацiйнi й узагальнюючi здiбностi синтезовано'1' на основi видь леного набору A = {A1, A2,..., ANa } асоцiативних правил моделi.
Крiм того, бiльшiсть методiв побудови асощативних правил призначена для оброб-лення бшарних даних. У той же час бшьшють реальних задач розтзнавання образiв, контролю якосп, дiагностування пов'язана з необхiднiстю оброблення чисельних даних, де бь льшють ознак приймають значення з деякого дiапазону.
Потреба в усуненнi зазначених недолшв обумовлюе необхiднiсть розробки нового методу побудови асощативних правил.
Метою роботи е створення методу побудови асощативних правил на основi стохас-тичного пщходу.
2. Постановка завдання
Нехай задано множину спостережень S =< P, T >, де P - набiр характеристик (ознак) спо-стережень, T - множина значень вихщного параметра, pqm - значення m -го атрибута q -го спостереження (m = 1, 2, ..., M, q = 1, 2, ..., Q ), tq - значення вихщного параметра q -го спостереження, M - кшьюсть атрибу^в, Q - кшькють спостережень.
Тодi задача побудови чисельних асощативних правил полягае у побудовi бази A = {A1, A2,..., ANa } правил виду Ar : Pr ® Tr, що задовольняють прийнятному рiвню задано-го критерiю якосп. Як такий критерiй може використовуватися вiрогiднiсть правила [1-4], що обчислюеться як вщношення пiдтримки правила supp(Pk U Tk ) до тдтримки його антецедента supp(Pk ) (1):
с( . к supp(Pk U Tk ) conf (Ak 4D) k>, (1)
supp(Pk)
де supp(Pk U Tk ) - тдтримка правила Ak : Pk ® Tk, яка визначаеться як вiдношення кшькос-т екземплярiв N(Pk U Tk ) вибiрки S, що мютять множину умов Pk i характеризуються значенням вихщного параметра Tk до кшькосп екземплярiв N(Pk ) вибiрки S, що задовольняють умовам антецедента Pk правила Ak : Pk ® Tk.
3. Метод побудови асощативних правил на основi стохастичного пщходу
Для побудови асощативних правил Аг: Рг ® Тг iз заданих наборiв чисельних даних 5 про-понусться попередньо розбивати дiапазони значень ознак Р на штервали, на основi яких визначати терми ознак, враховуючи при цьому ширину дiапазону значень i частоту попа-дання ознак у кожний з термiв, тсля чого за допомогою стохастичного тдходу виявляти асоцiативнi правила Аг: Рг ® Тг, що характеризуються високим рiвнем вiрогiдностi еоиГ (Аг).
У розробленому стохастичному методi побудови чисельних асощативних правил на початковому етат вщбуваеться розбиття значень ознак Р на штервали. Для цього пропо-нусться у множинi значень рт кожно'1 ознаки рт провести кластерний аналiз [7-11], ви-дiливши групи компактно розташованих екземплярiв (транзакцiй) в одновимiрному прос-торi кожно'1 ознаки. У результат видiляeться набiр кластерiв С1т = {С/1т,С12т,...С1Ы т}. При використаннi методiв кластерного аналiзу, в яких потрiбно задавати кiлькiсть кластерiв (наприклад, методу неч^ких с-середнiх [5, 6]), як параметр Nmt т можна задати змен-шену в NA разiв кiлькiсть екземплярiв N(рт), для яких визначено значення ознаки рт . Параметр NA роботи методу може бути визначений за формулою (2):
Na = ceil
1
M • N
M >
-Z N (pm )
(2)
int mean m=1
де Nin
- очшуване середне значення iнтервалiв розбиття (KnacTepiB) кожно! з ознак pn
m = 1,2,...,M, ceil(x) - функщя, що повертае цiлу частину числа х . Число Nintmaan повинно бути невеликим (наприклад, можна рекомендувати задавати Nint теап = 10, Nint теап << Q ), що дозволить забезпечити невисою вимоги до ресурсiв пам'ятi ЕОМ при виконанш вщповщ-них обчислень, i в той же час таким, що дозволить забезпечити прийнятне розбиття значень ознак pm на штервали.
ПотШ на °сн°Ш Границь Cln min m та Cln max m ( П = 1,2,..., Nint m , m = 1,2,..., M ) вВД^е-
них кластерiв визначаються штервали значень (терми) [Clnmin m; Clnmaxm ) ознак pm .
Пiсля цього генеруеться N% рiшень для виконання стохастичного пошуку. Рiшення Xk при видобуваннi асоцiативних правил представляеться у виглядi множини параметрiв X k = (g 1k , g2k , . ., gN gk }, де Smk m-й параметр рiшення, що мiстить iнформацiю про номер
терму Apnm m -i ознаки pm (або ii вiдсутностi) у k-му асоцiативному правилi Ak : Pk ® Tk (рис. 1).
p1 p2 p3 pA PS Pm T
X k :
S1 g 2 S3 S 4 Ss gM Sns
J<
Apn1 Dpn2 Dpn3 Dpn4 Ap,
J К J К
ApnM ATn
Рис. 1. Подання структури Xk при побудов1 асощативних правил
Як видно, у ршенш Xk також присутня iнформацiя про терм ATn вихiдного параметра t (у випадку, якщо вiн приймае дшсш значення). Якщо вихiдний параметр t е бшар-ним, то останнш ген gN рiшення Xk вщсутнш.
Знaчeння m -ro пapaмeтpa gm кoжнoгo k-ro piшeння ck визнaчaютьcя в тaкий cno-cí6. Гeнepуeтьcя випaдкoвe чиcлo rnd з дiaпaзoну [0;1] (rnd = rand[0;1], дe rand[0;1] -функцiя, щй пoвepтae випaдкoвo згeнepoвaнe чиcлo з iнтepвaлу [0; 1] ). Якщo згeнepoвaнe чиcлo rnd нe пepeвищуe чacтoту v m пoяви m -ï oзнaки pm у вибipцi S (rnd < vm ), тo знaчeнню пapaмeтpa gm piшeння ck пpивлacнюeтьcя нульoвe знaчeння ( gmk = 0 ), щo xapa-ктepизуe вiдcутнicть m -ï oзнaки в k -му acoцiaтивнoму пpaвилi %k . Вeличинa v m o64TO-люeтьcя зa фopмулoю (3):
Vm = . (3)
У витадку, якщс rnd >vm, викoнуeтьcя гeнepaцiя цiлoгo випaдкoвoгo чиcлa rndc з дiaпaзoну [1; Nintm], щй визнaчae нoмep iнтepвaлу (rep^) oзнaки pm у пpaвилi %k (4):
rndc = randc[1; Nint m ]. (4)
Пpи ви^танш умoви (5)
rnd Î randc[v m ; Vm +Vnm (1 -Vm )] (5)
пapaмeтpу gm пpивлacнюeтьcя знaчeння rndc : gm = rndc .
Умoвa (5) пoкaзуe, щй n -й тepм Apnm m -ï oзнaки pm Mae тим бiльшу ймoвipнicть увiйти дo k -ro пpaвилa %k, чим вищсю e чacтoтa vnm ïï нaявнocтi у тpaнзaкцiях вибipки S, в яких визнaчeнi знaчeння m -ï oзнaки (6):
v = N ( lpnm ) (6) " N (pm ) . (6)
Пpи чиcлoвoму знaчeннi вихiднoгo пapaмeтpa t вeличинa vnm для k-ro piшeння %k oбчиcлюeтьcя як чacтoтa нaявнocтi тepму Apnm у тpaнзaкцiях вибipки S, в яких визнaчeнi знaчeння m -ï oзнaки, a знaчeння вихiднoгo пapaмeтpa t дopiвнюe gM+1 k .
Якщo умoвa (5) нe викoнуeтьcя, тoдi ввaжaeтьcя, щй n -й тepм Apnm oзнaки pm нe мoжe бути включeний у пpaвилo %k. Пicля 4oro вiдбувaютьcя пoвтopнa гeнepaцiя витад^-вoгo чиcлa rnd = rand[0; 1] i пepeвipкa умoви (5), i тaк дoти, пoки нe будe визнaчeнo зта-
чeння гeнa gmk.
Aнaлoгiчним чинoм фopмуютьcя m пapaмeтpiв gm для кoжнoгo з N% piшeнь no-
чaткoвoï пoпуляцiï R(0) =|c(0),x20),. .,cNj)I cтoхacтичнoгo пoшуку, щo пpeдcтaвляe coбoю мнoжину acoцiaтивних пpaвил.
У випaдку чиcлoвoгo (нe бiнapнoгo) вихiднoгo пapaмeтpa t вибipки S знaчeння
гeнa gM+1 k, щй визнaчae нoмep тepму вихiднoгo пapaмeтpa у пpaвилi %k, гeнepуeтьcя ви-
пaдкoвим чинoм у зaлeжнocтi вщ чacтoти пoяви тepмiв у вибipцi S. Для цьoгo зa фopму-лoю (7) визнaчaeтьcя iмoвipнicть тoгo, щo знaчeння вихiднoгo пapaмeтpa t eкзeмпляpiв вибipки S пoтpaпить дo n -ro iнтepвaлу Tn дiaпaзoну йoгo знaчeнь:
p(T,) = N^. (7)
Поля 4oro кoжнoму тepму Tn cтавитьcя у вiдпoвiднicть iнтepвaл
Pi(Tn )e (Tn-1,max; Tn-1,max + p(Tn )] , ПPИ ЦЬ0MУ Pí(T1 )î [0; PÍT1 )] . Дaлi гeнePУeтЬCЯ вИпaДк0вe
лo rnd = rand[0;1]. Знaчeння пapaмeтpa gM+1k вiдпoвiдae нoмepу iнтepвaлу pi(Tn ), в який пoтpaпилo випaдкoвe чиcлo rnd: gM+1 k = n, rnd î piiTn ).
^тсм oбчиcлюeтьcя вipoгiднicть conf (ck ) кoжнoгo piшeння. Для цьoгo piшeння ck пepeтвopюютьcя в acoцiaтивнi пpaвилa: %k ® Ak. ^и цьoму acoцiaтивнe пpaвилo Ak фop-муeтьcя з нeнульoвих пapaмeтpiв gmk piшeння ck, у peзультaтi чoгo cтвopюeтьcя iмплiкa-цiя вигляду (8):
П i p, Î pnm )® T . (8)
Пpи чиcлoвих знaчeннях вихiднoгo пapaмeтpa T кoнceквeнт iмплiкaцiï (8) мoжe бути пpeдcтaвлeний у виглядi Tî AT(gM+1 k ), дe AT(gM+1 k ) - тepм Tn вихiднoгo пapaмeтpa T, щo
визнaчaeтьcя зa нoмepoм, пpeдcтaвлeним в ocтaнньoму гeнi gM+1 k piшeння ck.
Пicля викoнaння пepeтвopeнь вигляду ck ® Ak oбчиcлюютьcя вipoгiднocтi conf (Ak )
пpaвил Ak.
^тсм у мнoжину A ввoдятьcя дocтoвipнi acoцiaтивнi пpaвилa Ak (пpaвилa з piвнeм вipoгiднocтi conf iAk ), нe нижчe зaдaнoгo minconf: conf (Ak )> minconf ). Kpiм кpитepiю вь poгiднocтi (1), для бiльш дeтaльнoгo дocлiджeння acoцiaтивних пpaвил, щo витягaютьcя, пpи cтoхacтичнoму пoшуку тaкoж пpoпoнуeтьcя вpaхoвувaти iншi Rprnepii", якi xapa^ep^ зують чacтoту викoнaння пpaвил, 1хню iнфopмaтивнicть тa iнтepпpeтoвнicть (зpучнicть для cпpийняття людинoю):
• пiдтpимкa пpaвилa supp(Ak ) - дoзвoляe oцiнити чacтoту викoнaння пpaвилa у ви-бipцi S i мoжe бути визнaчeнa зa фopмулaми (9) aбo (10):
supp(Ak ) = suppiPk U Tk ) = N(Pk U Tk ), (9)
pp(Ak ) = supp(Pk U Tk ) = N(pqU Tk ). (10)
Пpи цьoму фopмулa (9) дoзвoляe визнaчити aбcoлютну вeличину пiдтpимки як кiль-кicть eкзeмпляpiв вибipки S, для яких викoнуeтьcя пpaвилo Ak : Pk ® Tk, a фopмулa (10)
пpизнaчeнa для визнaчeння вiднocнoï вeличини пiдтpимки як вiднoшeння N(Pk U Tk ) дo зaгaльнoï кiлькocтi eкзeмпляpiв Q у вибipцi S ;
• зaгaльнa пiдтpимкa пpaвилa suppG(Ak ) - вpaхoвуe нe тшьки чacтoту викoнaння пoзитивних умoв пpaвил вигляду Pk ® Tk, aлe й нeгaтивних умoв Pk ® Tk , визнaчaeтьcя зa фopмулoю (11):
suppG(Ak ) = supp(Pk U Tk )+ supp(p U Tk ). (11)
Чим вищe знaчeння дaнoгo кpитepiю, тим бiльш знaчущим e пpaвилo Ak : Pk ® Tk у вибipцi S, ocкiльки вeликa кiлькicть випaдкiв oднoчacнoгo викoнaння (oднoчacнoгo нeви-кoнaння) умoв aнтeцeдeнтa Pk i кoнceквeнтa Tk cвiдчить npo icтoтний зв'язoк мiж Pk i Tk ;
• загальна вiрогiднiсть правила еопГО(Ак) - аналогично критерiю виррО(Ак) врахо-вуе частоту виконання як позитивних, так i негативних умов правил Ак : Рк ® Тк, визнача-еться за формулою (12):
сопЮ(Ак ) = I (еопГ(Р. ® Т)+ еопГ$ ® % ))= If ^" ?) + ^^'
®иРР (Рк) ®ирр(Р,)
(12)
• складнiсть правила ¥8 (Ак) - визначасться виходячи з вiдношення кшькосп ознак (умов) N(Рк), визначених у лiвiй частиш (антецедентi) правила А, : Рк ® Тк, до загально'1 кiлькостi ознак м у вибiрцi 8 (13):
¥8(Ак) = 1 . (13)
М
Чим вище значення даного критерiю, тим правило Ак : Рк ® Тк е бiльш простим (ш-терпретовним) i охоплюе бiльш широкий спектр випадюв, тим самим забезпечуючи високе узагальнення даних. Чим бiльше умов N (Рк) в антецедент правила (вiдповiдно, чим мен-
ше значення критерiю ¥8 (Ак)), тим воно е бшьш специфiчним;
• показник максимуму вiрогiдностi правила еопГО(Ак) та шдивщуальних оцiнок ш-формативностi ознак ¥С (Ак) (14):
¥С(а, ) = еопГО(Ак) ^¥я , (14)
т: Рт еРк
де ¥т - оцiнка шдивщуально'' значимосп т -1 ознаки рт, що входить в антецедент Рк правила Ак : Рк ® Тк. Вiдзначимо, що о^м оцiнки еопГО(Ак), у формулi (14) можна вико-ристовувати також значення вiрогiдностi еопГ (Ак);
• показник максимуму вiрогiдностi правила еопГО(Ак) - мшмуму кiлькостi ввдбра-них ознак ¥М (Ак) (15):
¥М (Ак ) = ^Р) сопЮ(А, ); (15)
• шформатившсть правила ¥1 (Ак) - критерш, що дозволяе враховувати як в1ропд-нiсть (значущiсть) усього правила Ак : Рк ® Тк, так i iндивiдуальну шформатившсть ¥т кожно'1 ознаки рт, що входить у його антецедент Рк . Критерш ¥1 (Ак) пропонуеться роз-раховувати за формулою (16):
V1 (Ак) = 77^сопЮ&) £¥т . (16)
ЩРк) т: рт еРк
Даний критерiй забезпечуе пошук правил Ак : Рк ® Тк з максимальною вiрогiднiстю еопГО(Ак), максимальними оцiнками iндивiдуальних шформативностей ¥т ознак i мшма-льною кiлькiстю ознак рт, що входять в антецедент Рк правила.
Оцшку шдивщуально'' iнформативностi ¥т т -1' ознаки рт можна визначити як суму шдивщуальних шформативностей ¥пт термiв ще'1 ознаки (17):
v = ту , (17)
m / , nm ' V /
n=1
де Vnm - ощнка iнформативностi n -го терму Apnm m -! ознаки pm може бути розрахована за формулою (18):
Vnm = j (18)
- Т p(APnm T )log P(APnm T )
1 + e '='
де p(Apnm, T )= N(pnmj T ) - умовна ймовiрнiсть того, що значення вихщного параметра T
N (Pnm )
потрапить у l -й штервал T за умови, що m -а ознака pm потрапить у n -й терм Apnm; N(pnm, T) - кiлькiсть екземплярiв вибiрки S, значення вихiдного параметра t яких належать l -му штервалу дiапазону його змши T за умови, що значення !х m -1 ознаки нале-жить n -му iнтерваловi pmn; Nint (T) - кшьюсть iнтервалiв, на якi розбивасться дiапазон
значень вихiдного параметра t.
Запропонована система критерпв (9)-(16), яка дозволяе враховувати рiзнi характеристики асощативних правил, що характеризують 1хню вiрогiднiсть, частоту виконання, шформатившсть та iнтерпретовнiсть, може бути використана для автоматизацп аналiзу властивостей i порiвняння моделей на основi асощативних правил при виршенш задач дь агностування, розпiзнавання образiв i неруйшвного контролю якостi.
Важливо вiдзначити, що при виборi правил Ak : Pk ® Tk для внесення у множину A = {Aj, A2,..., aNa }, що представляе собою базу синтезованих асоцiативних правил, можли-во використовувати як один заданий критерш (наприклад, iнформативнiсть правила VI (Ak)), так i набiр iз декiлькох критерпв iз запропоновано! системи (9)-(16). Крiм того, також можливо обчислювати ощнки даних критерпв i на тестовш вибiрцi, що дозволить враховувати узагальнюючi характеристики правил, що витягаються.
Шсля обчислення оцiнок якостi витягнутих асощативних правил %k (Ak : Pk ® Tk ), k = 1,2,...,N% i внесення кращих з них у множину A = {Aj, A2,..., aNa } вiдбуваеться перевiрка критерпв завершення стохастичного пошуку: досягнення максимально припустимо! кшь-костi правил у множиш A (NA > NAmax ), перевищення максимально припустимо! кшькос-
тi iтерацiй NIt, неможливють протягом задано! кiлькостi iтерацiй побудови правил Ak : Pk ® Tk, що характеризуються прийнятними значеннями критерпв 1хнього оцiнювання.
У випадку невиконання критерпв завершення стохастичного пошуку вщбуваеться формування нових N% рiшень ck. Для цього створюеться множина RP(г) ршень ck, до-
пущених до формування ново! множини R(i+1). У множину RP(г) заносяться найбiльш при-стосоваш структури ck (у залежностi вщ значень критерпв оцiнювання асоцiативних правил Ak ) з множини ршень R(i) ={%(г), С^,.-,%Nx} i -! ^ерацп стохастичного пошуку.
Лсля цього на OCнOвi двох Piшень С parent1 = {gl parents £2 parent^-j gNgparentl)^ ^ i С parent 2 = {£l parent 2j £2 parent 2— £Ngparent 2}e ^ створюеться нове Piшення %chad . Значення ПЕ-
раметрiв gmchild нащадка %child визначаються за формулою (19):
g mchildl
Smparentl' rnd ^
Smparent2 , rnd ^
0;
V
mparentl
Vmparent1 + Vmparent2
V
mparent1
Vmparent 1 + Vmparent 2
Де Vmparent1 Та Vmparent 2 - ШформативШсть gmparenn-^ i gmparent 2 "Г0 TePMiB Ш -1 ознаки ШдповЩ-
но, rnd = rand[0; 1].
Наведена формула (19) дозволяе тдсилювати ймовiрнiсгь включення в нове ршен-ня cchild парамегрiв gmk, що вiдповiдаюгь термам Dpnm ознак з високими ощнками шдивь дуально'' iнформагивносгi Vnm.
Таким чином, вщбуваеться формування Ncross = bNc рiшень вигляду
Ак
{gk ,g2k+ ,...,gj(i+fc)}, де b - параметр, що визначае значущють створення ново'1
множини ршень R(i+1) за допомогою запропоновано'1 вище процедури схрещування.
Потiм створюеться Nmutation = gNc рiшень за допомогою оператора мутацп, де g -
параметр, що визначае значущють формування ново'1 множини рiшень R(i+1) за допомогою процедури мутацп. Для цього з множини RP(i) випадковим чином вибираеться ршення Сparent, в якому значення деяких параметрiв gmparent, що визначають номер терму Dpnm m -1
ознаки pm у вiдповiдному асоцiативному правилi, змiнюються, у результатi чого створюеться нове ршення cchjld . Новi значення змшюваних параметрiв gmchild визначаються сто-хастичним шляхом з урахуванням оцiнок шдивщуальних значущостей Vnm термiв Apnm вь дповщно! ознаки.
Кожному терму Apnm (n = 1,2,...,Nintm ) m-1 ознаки pm ставиться у вiдповiднiсть ш-
тервал gl(Apnm )e [g/min (Apnm ); g/max ^m )) , де g^m ^nm )= g1 max (^-1,» ) - мiнiмальне зна-чення iнтервалу g1 (Apnm ), g/ max ^nm ) = g/min ^nm )+ VN nm - максимальне значення Штер-
валу g/(Apnm), VNnm - нормоване значення ощнки шдивщуально! значущостi Vnm терму Apnm, розраховане за формулою (20):
VNm =■
m«« Vnm - Vn,
n = 1,2,...,N i„t „
max Vn,
n = 1,2,...,Nint m
min Vm
(20)
n=1,2,...,Nin
g/min (Ap1m ) = 0 - мЫмальне значення в iнтервалi g/(Ap1m) першого терму Ap1m ознаки pm . Таким чином, чим вище буде значення величини Vnm (VNnm ), тим ширше буде дiапазон
значень g1 (Apnm ) терму Apnm .
Шсля обчислення границь iнтервалiв g/(Apnm) (n = 1,2,...,Nintm, m = 1,2,...,M)
генеруеться випадкове число rnd = rand[0;1). Новi значення параметрiв gmchild рiшення
Сparent, обраного для мутацп, вщповщають номеру n iнтервалу g/(Apnm), в який попадае
число rnd (21):
gmchld = n rnd £ g/ (Apnm ) . (21)
1
Отже, чим ширше дiапазон gI(Apnm), тим бiльшою е ймовiрнiсть терму Apnm бути включеним у ршення %child .
У нову множину R(i+1), крiм Ncross = bNc i Nmutatlon = gNc рiшень, отриманих за допо-могою процедур схрещування та мутацп, заноситься також Nelite = aNc найбiльш присто-сованих рiшень ck^ е R( ), що характеризуются найкращими значеннями критерпв ощню-вання асощативних правил Ak у популяцп R(i), де a - параметр, що визначае значущють
включення найкращих рiшень у нову множину R(i+1).
Потiм виконуеться обчислення вiрогiдностi conf (ck) й шших критерпв оцiнювання
рiшень ck з ново! популяцп R(i+1) з наступним внесениям кращих з ршень ck у множину A = {A1, A2,..., An^ }, i при невиконанш критерпв зупинення стохастичного пошуку вщбува-
еться створення ново! множини ршень R(i+2).
У результатi стохастичного пошуку витягаеться набiр A = {A1, A2,..., An } асощатив-
них правил вигляду Ak : Pk ® Tk, що характеризуються прийнятними значеннями заданих критерпв оцiнювання якост правил.
Запропонований стохастичний метод побудови чисельних асоцiативних правил пе-редбачае попередне розбиття значень ознак на штервали (терми), враховуючи при цьому ширину дiапазону значень i частоту попадання ознак у кожний з термiв, використовуе ймовiрнiсний пiдхiд для перебору рiзних сполучень антецедентiв i консеквентiв асощатив-них правил, апрюрну iнформацiю про значущiсть термiв i ознак, що дозволяе обробляти чисельну шформащю при видобуваннi асоцiативних правил, не здшснювати iстотну кшь-кють проходiв по заданiй базi транзакцш, виявляти правила з високим рiвнем вiрогiдностi й iнших критерiiв ощнювання ххньо! якостi.
4. Експерименти та результати
Виконаемо експериментальне дослщження запропонованого стохастичного методу побудови чисельних асощативних правил. Для цього порiвняемо його з вщомими методами ви-явлення чисельних асощативних правил - FARM [12], FWARM [13], методом синтезу асощативних правил з урахуванням значущосп ознак, запропонованих у [4]. Важливо вщзна-чити, що виршувалися задачi побудови правил з чисельних баз транзакцш, тому застосу-вання вщомих методiв (Apriori, SETM та ш.) було ускладнено, оскшьки такi методи дозво-ляють витягати асощативш правила з бiнарних даних. На мовi C# було розроблено программ модулi, що дозволяють витягати асощативш правила з заданих баз транзакцш S =< P, T > за допомогою запропонованого i вщомого методiв. За допомогою розроблених програмних модулiв вирiшувалися задачi прийняття рiшень у технiчному дiагностуваннi авiадвигунiв.
У процесi випробувань авiадвигунiв контролюються параметри, що характеризують якють ххньо! роботи при рiзних режимах [14]. Однак процес випробувань е досить трива-лим за часом, вимагае значно! кшькосп випробувань (ци^в) кожного виробу при рiзних режимах, а також ютотних матерiальних витрат (палива) на юпити в кожному цикль При цьому устаткування для проведення випробувань мае обмежену пропускну здатшсть. Тому актуальним е скорочення часу, а також кшькосп режимiв випробувань авiадвигунiв, що дозволить скоротити матерiальнi витрати на ххне виготовлення. Для цього необхщно ви-явити залежносп мiж характеристиками двигунiв, що вимiрюються або встановлюються у процеа випробувань. Виявлення таких залежностей дозволить скоротити кшькють режи-мiв випробувань.
Вибiрка даних мютить значення характеристик, вимiрюваних у процесi випробу-вань для чотирьох режимiв (злiт, номiнальний, перший крейсерський, другий крейсерсь-кий) [14]: р1 - кiлькiсть обертiв турбши компресора, об/хв; р2 - температура газу перед турбшою, С; р3 - витрати газу через турбшу; р4 - температура на входi у двигун, С; р5 -кшькють ступенiв; р6 - кут установки лопаток вхщного направляючого апарата; р7 -приведена потужнiсть; р8 - витрати повiтря; р9 - ступшь стиснення повiтря; р10 - адiаба-тичний тиск, мм; р11 - р14 - прохiднi перерiзи соплового апарата першого, другого, тре-тього та четвертого ступенiв вщповщно.
Однак деякi данi внаслiдок людського фактора, збо'1'в i вiдмовлень вимiрювального устаткування й iнших причин у вибiрцi не зафiксованi. Крiм того, для ряду авiадвигунiв iснуe шформащя про випробування лише при деяких режимах. Наявнiсть пропущених значень у вихщнш вибiрцi 8 обумовлюе дощльшсть застосування апарата асоцiативних правил для виявлення схованих залежностей у даних.
Результати експериментв по дослiдженню рiзних методiв побудови асоцiативних правил при виршенш задачi виявлення схованих залежностей мiж параметрами авiадвигу-нiв при рiзних режимах випробувань наведено в табл. 1 (вихщна вибiрка мютила шформа-цiю про 484 вироби). Як критерш оцiнювання якостi асощативних правил при дослiдженнi стохастичного методу побудови чисельних асощативних правил використовувалася шфо-рматившсть правила VI (Лк), оскiльки цей критерш дозволяе враховувати вiрогiднiсть правила й шдивщуальну iнформативнiсть Vm кожно'1 ознаки рт, що входить у його антецедент Рк.
Таблиця 1. Результати експериментв по побудовi асощативних правил
Метод Supp, % Conf, % ConfG, % na N (Pk) VS VC VM V/
FARM [12] 6,2 82,3 73,7 121 6,78 0,52 3,05 10,87 6,63
FWARM [13] 5,4 87,7 77,5 87 6,32 0,55 3,09 12,26 7,73
Метод синтезу
асощативних правил з урахуванням значимосп ознак (МУЗП) [4] 4,7 91,2 82,1 82 6,46 0,54 3,92 12,71 9,40
Стохастичний метод
побудови чисельних 4,2 90,1 89,2 133 5,06 0,64 3,61 17,63 14,10
асощативних правил
У табл. 1 наведено середш значення параметрiв supp, conf, conf, N(Pk), VS, VC, VM, V/, що характеризують якiсть витягнутих асоцiативних правил. У результат дослщжень виявлено залежностi Ak : Pk ® Tk мiж рiзними параметрами виробiв, якi описують якють
1'хньо1 роботи при рiзних режимах, що дозволило дати рекомендаци щодо скорочення кшь-костi випробувань виробiв i, отже, зниження матерiальних витрат на 1хне виготовлення.
Як видно з табл. 1, значення середньо'1 тдтримки supp, виявлених за допомогою за-пропонованого методу асощативних правил, трохи нижче supp = 4,2, шж у наборiв асощативних правил, витягнутих вщомими методами FARM [12] (supp = 6,2), FWARM [13] (supp = 5,4), МУЗП [4] (supp = 4,7 ), оскшьки запропонований метод дозволив, ^м досто-вiрних правил, що часто зус^чаються, також виявити закономiрностi на основi наборiв, що рщко зустрiчаються. Про це також свщчить бiльша кiлькiсть витягнутих правил NA (у
запропонованого методу NA = 133, в шших методах кшькють витягнутих правил е мен-шою: NA = 121 для FARM, NA = 87 для FWARM, NA = 82 для МУЗП).
Значення середньо! вiрогiдностi conf виявлених правил на основi розробленого сто-хастичного методу побудови чисельних асоцiативних правил (conf = 90,1) вище, шж у ме-тодiв FARM [12] (conf = 82,3) i FWARM [13] (conf = 87,7), це свщчить про те, що за-пропонований метод дозволяе виявляти бшьш достовiрнi правила (це досягаеться за раху-нок використання стохастичного перебору рiзних сполучень антецедентiв i консеквентiв асощативних правил, а також врахування апрюрно! шформацп про значущiсть термiв i ознак). У порiвняннi з методом МУЗП значення критер^ conf трохи нижче (conf = 90,1 i conf = 91,2 вщповщно), оскшьки при проведеннi експериментiв як критерш оцiнювання асоцiативних правил у запропонованому стохастичному методi побудови чисельних асощативних правил використовувався критерш шформативносп правил VI (Ak), що враховуе не тшьки вiрогiднiсть conf, але й iншi характеристики.
Запропонований стохастичний метод дозволив синтезувати базу A = {A1, A2,..., ANa }
асоцiативних правил Ak : Pk ® Tk, яка характеризуемся бiльш високою середньою загаль-ною вiрогiднiстю правил (confG = 89,2 у порiвняннi з confG = 73,7, confG = 77,5 i confG = 82,1 для FARM, FWARM i МУЗП вщповщно), що враховуе частоту виконання не тшьки позитивних умов Pk ® Tk, але й негативних умов Pk ® Tk виконання правил.
Бшьш прийнятш значення критерпв N(Pk), VS, VC, VM, VI (наприклад, середня складшсть VS (Ak) витягнутих за допомогою розробленого методу правил склала VS = 0,64 в порiвняннi з VS = 0,52, VS = 0,55 i VS = 0,54 для FARM, FWARM i МУЗП, вщповщно) у запропонованого методу обумовлеш також застосуванням шформативносп VI (Ak) (крите-рп N(Pk), VS, VC, VM i VI е взаемозалежними) як критер^ ощнювання асоцiативних правил, що витягаються. Це дозволило забезпечити побудову бшьшо! кшькосп NA асощатив-них правил Ak : Pk ® Tk, що е бшьш простими та штерпретовними (такими, що характеризуются меншою кшьюстю умов N(Pk) в антецедентi Pk ), а також бiльш достовiрними та
iнформативними (володiють бiльш прийнятними значеннями критерiiв conf, VC, VM, VI) у порiвняннi з правилами, виявленими за допомогою вщомих методiв.
5. Висновки
У роботi виршено актуальну задачу автоматизацii побудови чисельних асощативних правил.
Наукова новизна роботи полягае у тому, що запропоновано стохастичний метод побудови чисельних асощативних правил, який передбачае попередне розбиття значень ознак на штервали (терми), враховуе при цьому ширину дiапазону значень i частоту попа-дання ознак у кожний з термiв, використовуе ймовiрнiсний пiдхiд для перебору рiзних сполучень антецедентiв i консеквентiв асоцiативних правил, використовуе апрюрну iнфо-рмацiю про значущiсть термiв i ознак, що дозволяе обробляти чисельну шформащю при побудовi асощативних правил, не здшснювати iстотну кшькють проходiв по заданiй базi транзакцш, виявляти правила з високим рiвнем вiрогiдностi й iнших критерiiв ощнювання ххньо! якостi.
Запропоновано систему критерпв, яка дозволяе враховувати рiзнi характеристики асощативних правил, що характеризують ххню вiрогiднiсть, частоту виконання, iнформа-тившсть та iнтерпретовнiсть. Розроблена система критерпв може бути використана для ав-
томатизацп аналiзу властивостей i порiвняння моделей на ochobï асоцiативних правил при виршенш задач дiагностування, розпiзнавання o6pa3ÏB i неруйнiвного контролю якостi.
Практична щншсть отриманих результатiв полягае в тому, що мовою C# розробле-но програмнi модулi, якi дозволяють будувати асоцiативнi правила з заданих баз транзак-цiй за допомогою запропонованого i вiдомого методiв. За допомогою розроблених програ-мних модулiв вирiшено практичну задачi прийняття ршень у технiчному дiагностуваннi авiадвигунiв.
Роботу виконано в рамках держбюджетно'' науково-дослщно'' теми Запорiзького на-цiонального техшчного унiверситету «1нтелектуальш iнформацiйнi технологи автоматиза-ц^' проектування, моделювання, керування та дiагностування виробничих процесiв i систем» (номер державно'' реестрацп 0112U005350) за пiдтримки мiжнародного проекту "Centers of Excellence for young RESearchers" (CERES) програми "Tempus" Свропейсько'' Комiсiï (реестрацiйний номер 544137-TEMPUS-1-2013-1-SK-TEMPUS-JPHES).
СПИСОК Л1ТЕРАТУРИ
1. Zhang C. Association rule mining: models and algorithms / C. Zhang, S. Zhang. - Berlin: SpringerVerlag, 2002. - 238 p.
2. Zhao Y. Post-mining of association rules: techniques for effective knowledge extraction / Y. Zhao, C. Zhang, L. Cao. - New York: Information Science Reference, 2009. - 372 p.
3. Gkoulalas-Divanis A. Association Rule Hiding for Data Mining / A. Gkoulalas-Divanis, V.S. Verykios. - New York: Springer-Verlag, 2010. - 150 p.
4. Олейник А.А. Синтез диагностических и распознающих моделей на основе гибридных нейро-нечётких технологий вычислительного интеллекта / Олейник А.А., Зайко Т.А., Субботин С.А.; под ред. С.А. Субботина. - Харьков: ООО "Компания Смит", 2014. - 284 с.
5. Adamo J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms / Adamo J.-M. - New York: Springer-Verlag, 2001. - 259 p.
6. Koh Y.S. Rare Association Rule Mining and Knowledge Discovery / Y.S. Koh, N. Rountree. - New York: Information Science Reference, 2009. - 320 p.
7. Encyclopedia of artificial intelligence / Eds. J.R. Dopico, J.D. de la Calle, A.P. Sierra. - New York: Information Science Reference, 2009. - Vol. 1-3. - 1677 p.
8. Encyclopedia of machine learning / Eds. C. Sammut, G.I. Webb. - New York: Springer, 2011. -1031 p.
9. Intelligent fault diagnosis and prognosis for engineering systems / G. Vachtsevanos, F. Lewis, M. Roe-mer [et al.]. - New Jersey: John Wiley & Sons, 2006. - 434 р.
10. Bishop C.M. Pattern recognition and machine learning / Bishop C.M. - New York: Springer, 2006. -738 p.
11. Abonyi J. Cluster analysis for data mining and system identification / J. Abonyi, B. Feil. - Basel: Birkhäuser, 2007. - 303 p.
12. Dubois D.A Systematic Approach to the Assessment of Fuzzy Association Rules / D. Dubois,
E. Hullermeier, H. Prade // Data Mining and Knowledge Discovery. - 2006. - Vol. 13. - P. 167 - 192.
13. Khan M.S. Weighted Association Rule Mining from Binary and Fuzzy Data / M.S. Khan, M. Muyeba,
F. Coenen // Lecture Notes in Computer Science. - 2008. - Vol. 5077. - P. 200 - 212.
14. Прогрессивные технологии моделирования, оптимизации и интеллектуальной автоматизации этапов жизненного цикла авиационных двигателей / [А.В. Богуслаев, Ал.А. Олейник, Ан.А. Олейник и др.]; под ред. Д.В. Павленко, С.А. Субботина. - Запорожье: ОАО "Мотор Сич", 2009. - 468 с.
Стаття над1йшла до редакцИ' 24.11.2014