НЕЙРО1НФОРМАТИКА ТА ШТЕЛЕКТУАЛЬШ СИСТЕМИ
НЕЙРОИНФОРМАТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
NEUROINFORMATICS AND INTELLIGENT SYSTEMS
УДК 004.93
Зайко Т. А.1, Олшник А. О.2, Cy66oTiH С. О.3
Астрантка, Запор1зький нацюнальний техн1чний ушверситет, Украна 2Канд. техн. наук, доцент, Запор1зький нац1ональний техн1чний ушверситет, Украна, E-mail: [email protected]
3Д-р техн. наук, професор, Запор1зький нац/ональний техн1чний ун1верситет, Украна
СКОРОЧЕННЯ РОЗМ1РНОСТ1 НАВЧАЛЬНОТ ВИБ1РКИ НА ОСНОВ1
АСОЦ1АТИВНИХ ПРАВИЛ
Розглянуто задачу скорочення навчально! вибiрки. Розроблено метод редукци даних на основi асоцiативних правил. Створено програмне забезпечення на основi запропонованого методу. Проведено експерименти з виршення практичних задач, що дозволило дослiдити ефективнiсть запропонованого методу.
Ключовi слова: асоцiативне правило, вiрогiднiсть, модель, пiдтримка, скорочення, навчальна вибiрка, терм.
ВСТУП
Виб1рки даних, що використовуються для побудови д1агностичних моделей складних об'екпв 1 процеав, м1стягь, як правило, надлишкову шформащю [1, 2], пред-ставлену ознаками, що не впливають на вихщний параметр, 1 множиною подабних екземпляр1в. Використання надлишкових даних при синтез! д1агностичних моделей може привести до побудови моделей, яш характеризуются низькими узагальнювальними властивостями, а також високою структурною та параметричною склад-тстю, що призводить до зб1льшення витрат пам'ягi ЕОМ на збертання моделей 1 збшьшення часу обчислень при обробщ великих масив1в даних. Кр1м того, так1 модел1, як правило, характеризуються низьким р1внем !нтерпрета-бельносп, а також не завжди забезпечують прийнятну точшсть розтзнавання, що ускладнюе або унеможлив-люе !хне застосування на практищ. Отже, перед здшснен-ням синтезу д1агностичних моделей доцшьним е скорочення навчально! виб1рки шляхом виключення з не! над-лишково! шформацп.
В1дом1 методи редукци даних [1-5], як правило, при-значеш або для вщбору ознак, або для вщбору екземп-ляр1в 1 часто не враховують взаемозв'язки комбшацш
© Зайко Т. А., Олшник А. О., Субботш С. О., 2014
деяких значень ознак, як1 також можуть бути виключеш з вихщно! виб1рки. Тому актуальною е розробка нового методу скорочення навчально! виб1рки, який дозволяе виконувати редукцш ознак, екземпляр1в, терм1в ознак 1 формувати множину даних з меншою шльшстю еле-менпв у пор!внянш з вихщною виб1ркою, а також буду-вати на !! основ! даагностичш модел1 з високими значениями показник1в узагальнення й !нтерпретабельност1
Для редукци навчально! виб!рки в ц!й робот! пропо-нуеться використовувати асоц!ативн! правила [6-10], ос-к!льки видобування таких правил з виб!рок даних дозволяе суттево скорочувати обсяги !нформац!!' та виконува-ти узагальнення даних, перетворювати значення ознак у деяк! д!апазони значень, оцшювати ступ!нь впливу ознак на вихщний параметр, а також р!вень !х взаемозв'язку м!ж собою, у т.ч. взаемозв'язки деяких значень ознак.
Метою роботи е створення методу скорочення розм!р-ност! навчально! виб!рки на основ! асощативних правил.
1 ПОСТАНОВКА ЗАДАЧ1 СКОРОЧЕННЯ РОЗМ1РНОСП НАВЧАЛЬНО! ВИБ1РКИ
Нехай задана навчальна виб!рка Б (1):
Б = {ТЪТ2,...,ТЫв (1)
106 DOI 10.15588/1607-3274-2014-1-15
у якш кожний елемент Tj, j = 1,2,..., Nd мгстить шфор-мащю про деяк1 об'екти або процеси, де ND = |d| -кшьшсть екземпляр1в (елеменпв) у набор1 даних D.
Елементи Tj являють собою множину значень вигля-ДУ (2):
Tj = (t1j,т 2 j,...,т NtJ, yj j, (2)
де Taj = Vaj min; Taj max J - значення a-! ознаки та для еле-менту Tj; та - а-та ознака множини I = {т1,Т2,...,тNj}, a = 1,2,..., Nj; j - множина ознак, якими описуються елементи Tj , j = 1,2,..., Nd набору даних D; Nj = |l| - кiлькiсгъ ознак у вибiрцi D; Taj min та Taj max - мЫмальне та макси-мальне значення з дапазону можливих значень ознаки т a; yj - значення вихвдного параметра для елементу Tj.
Тодi задача скорочення розмiрностi навчально! вибь рки D ^ D полягае в зменшент кiлькостi ii екземплярiв N'd < Nd та ознак Nj < Nj, що !х описують, зi збережен-ням можливосп побудови дiагностичних моделей з прий-нятними здатностями до апроксимацй' дослвджуваних за-лежностей.
2 МЕТОД СКОРОЧЕННЯ РОЗМРНОСТ1 НАВЧАЛЬНО! ВИБ1РКИ НА ОСНОВ1 АСОЩАГИВНИХ ПРАВИЛ
Для виявлення й усунення надлишково! iнформацü' у вибiрцi пропонуеться метод скорочення розмiрностi навчально! вибiрки, що реалiзуе послiдовно етапи редукцй екземплярiв, редукцй' ознак i скорочення надлиш-кових термiв.
У розробленому методi скорочення розмiрностi навчально' вибiрки для редукцй даних пропонуеться вияв-ляти асоцiативнi правила. 1нформащя про цiкавiсть ви-явлених правил використовуеться для ощнювання сту-пеню впливу ознак на вихвдний параметр, а також взаемозв'язк1в деяких значень ознак м1ж собою.
На початковому етапi для задано'' вибiрки D виконуеть-ся редукцiя и екземплярiв. Для цього дискретизуються значення числових ознак (дiапазон значень
Aa = [min; Tamax J кожно! ознаки Ta розбиваеться на
Nint. a iнтервалiв). Величина Nint a може задаватися ко-ристувачем як параметр методу та бути единою для вах ознак вибiрки D. Крiм того, кшьшсть Nint. a iнтервалiв дискретизацп a-' ознаки Ta може бути визначена шляхом кластеризацл вибiрки D i проектування границь кла-стерiв на координатнi осi в просторi ознак.
Пiсля дискретизацп виконуеться перетворення D ^ D1, у результат якого значення вихiдних ознак Ta замiняються номерами iнгервалiв значень ознак, видше-них у процеа дискретизацй' (3):
Taj п(тaj ),
(3)
де т aj та т 'aj - значення a-' ознаки для j-го екземпляру у вибiрках D та D1, вщповщно; n(zaj) - номер штервалу
значень ознаки Ta, у який попадае И значення Taj дляj-го екземпляру.
Отримаш в результат перетворення D ^ D1 екземп-ляри Tj та Tk з однаковими значеннями ознак T'aj та т ' ak, a = 1,2,..., Nj вважаються е^валентними й надлишкови-ми. Тому у вибiрцi D1 послiдовно для кожних двох еквь валентних екземплярiв Tj й Tk слiд залишити один ек-земпляр Tj, а iнший - виключити (4):
D1 = D1\Tk.
(4)
Пiсля виконання етапу редукцй екземплярiв вщбу-ваеться виявлення нешформативних ознак з наступним !х виключенням з вибiрки. Для редукцй' ознак Ta з вибiр-ки D1 будемо витягати асоцiативнi правила АП/ е БП (БП - база правил), ощнювати !х цiкавiсть та щкашсть кожного терму ознак, на основi чого будемо робити вис-новок про iнформативнiсть кожно! ознаки. Для цього спочатку видобуваються чисельш асоцiативнi правила АП/ : X/ ^ Y/ [8, 11], поим виконуеться ощнювання щка-востi jап кожного з виявлених правил. У якосп оцiнок цiкавостi правил можна використовувати критерй' (5)-(9) [6-10]:
jап/ = supp(X/ ^ Y/)+ supp(X^ ^ Y/)
' АП/
1 АП/
supp(X/ ^ Y/) , supp(X/ )supp(Y/)'
conf (X/ ^ Y/
conf
^ Yi
sui
' АП/
ipp(X/ ^ Y/ >uppX ^ Y/
supp(X/ ^ Y/ )supp(X/ ^ Y/ j
(5)
(6)
(7)
(8)
jап/ = supp(X/ ^ Y/)- supp(X/)supp((/), (9)
де supp(A) - шдтримка множини A, обчислена як вщно-шення кiлькостi елеменпв Tj , що мютять A, до загально!
кiлькостi екземплярiв Nd у наборi даних D; conf (a) -вiрогiд нiсть множини A, що розраховуеться як ввдношен-ня пiдтримки iмплiкацii A (X ^ Y) до тдтримки И лiвоi частини X.
Використовуючи iнформацiю про цiкавостi j ап ви-тягнутих асоцiативних правил, виконуеться ощнювання щкавосп термiв At ak, k = 1,2,..., Nint a кожно! ознаки Ta, a = 1,2,..., Nj. Щкашсть термiв Atak пропонуеться виз-начати за однiею з наступних формул (10)-(12):
1
j AT ak = N £ jAn/ N At ak /:АП/ еБП,
AT ak еАП/
(10)
1Атак = min САП,
ак 1:АП, еБП, ''
Ат ак еАП,
(11)
(12)
iAxak = max Iiап, j'
ак ,:АП, еБП, 1
AT ак еАП,
де NАТак - к1льк1сть асощативних правил АП, е БП, що м1стять терм Атак: Ат ак е АП,.
1нформатившсть 1а ознак та будемо ощнювати, вихо-дячи з ощнок щкавостей терм1в, що входять у ввдповвдну ознаку (13)-(15):
1 Nint. а
1а = N 11 АТак
int. а к=1
1а = max 11 Ат j' к=1,2'...' Nint./ ак
1 а = min 11 Атак j.
к=1,2'...' Nint. а ак
(13)
(14)
(15)
З метою приведення значень ощнок шформативносп ознак до одного штервалу [0;1] виюнаемо ïx нормування (16):
1а -
1а =-
min
a=1'2'...'NI '
{1а j
max
а=1'2'...^
{1а j-
min
а=1'2,...^1 '
{1а j
(16)
Ознаки та з низькими значеннями шформативносп 1а < Ip ( Ip - мшмально прийнятне значення шформативносп) виключаються з виб1рки Д. У результап вик-лючення з виб1рки D[ нешформативних ознак можли-вою е поява надлишкових екземпляр1в, що м1стять одна-ков1 значення ознак i вих1дного параметру. Так1 екземпляри також виключаються. У результат! видален-ня нешформативних ознак i надлишкових екземпляр1в виконуеться перетворення D1 ^ D\ й скорочення роз-м1рносп навчально1 виб1рки.
З метою виконання етапу скорочення надлишкових терм1в з виб1рки D2 витягаються асощативш правила та виявляються взаемозв'язки м1ж р1зними штервалами Ат ак й АтЪш ознак.
У результат! видобування асощативних правил з ви-
б1рки D2 синтезуеться база правил БП2 виду АП, : X , ^ Y, з р1внем в1ропдносп conf ((, ^ Y, ), не нижче мшмально прийнятного minconfidence.
Тому з транзакцш (екземпляр1в) T2 j виб1рки D2 мож-на виключити терми Ат ак е X, при наявносп в цих ж транзакщях терм1в Атът е Y,, що входять у консеквенти Y i правил АП, бази БП 2(17):
T3 j = T2 j \ U (та е Атак )
Ат ак еХ1 ' \
з(Атът cT2 j ) ' (Х , ^Y, )еБП2
Шляхом виключення надлишкових терм1в з виб1рки D2 виконуеться перетворення D2 ^ D3 та формування виб1рки D3 скорочено1 розм1рност! У такий споаб отри -мане розбиття простору ознак D3 м1стить суттево мен-шу юльшсть елеменпв Ат ак у пор1внянш з вихвдною ви-б1ркою D' характеризуеться бшьш високими узагальню-ючими властивостями й дозволяе понизити структурну та параметричну складшсть синтезованих д1агностичних моделей.
Запропонований метод скорочення розм1рносп на-вчальноï виб1рки на основ1 асощативних правил перед-бачае виконання етатв редукци екземпляр1в, ознак i надлишкових терм1в, для ощнювання шформативносп ознак використовуе шформащю про витягнуп асощативш правила й дозволяе формувати розбиття простору ознак з меншою к1льк1стю екземпляр1в у пор1внянш з вихвдною виб1ркою, що у свою чергу дозволяе синтезувати бшьш просп та зручш для сприйняття д1агностичт модел1. 3 АНАЛЗ ОБЧИСЛЮВАЛЬНОÏ СКЛАДНОСТ1
Обчислювальну складшсть методу скорочення роз-м1рност1 навчальноï виб1рки визначимо як
ОЕ = О
( з ^
I ог
V /=1
, де кожний доданок Ot характеризуе об-
числювальну складн1сть в1дпов1дного /-го етапу методу, а O() - оператор нотацп Ландау «о велике».
На етат редукци екземпляр1в виконуеться дискрети-
защя Ni = |l| ознак з наступним пошуком для кожного елемента Tj (j = 1,2,...,Nd) екв1валентних екземпляр1в (таких, у яких значення вщповщних ознак належить одна-ковим 1нтервалам тау, а = 1,2'..., 11 ). Отже, складнюгь пер-шого етапу може бути визначена в такий споаб (18):
о = o(Nd
(18)
Етап редукци ознак передбачае видобування чисель-них асощативних правил з наступним використанням вiдповiдноï iнформацiï для виключення нешформативних ознак. На обчислення ощнок шформативносп кож-
но1' з |l| ознак буде потр1бно Ои ( l| ) елементарних опе-
рацш. Оск1льки обчислювальна складн1сть виявлення чисельних асощативних правил може бути оцшена як
Оап I • Nd log2 (Nd )+|l|2 ^ ' величину О 2 визначимо за формулою (19):
О2 = Ои (I)+оап i|I • Nd log2 (nd )
= о(| I| • Nd log2 (Nd )+|l|:
(19)
Для виключення надлишкових терм1в необх1дно про-анал1зувати кожний з Nd екземпляр1в на наявн1сть у ньо-му терм1в Атак'а = 1,2'..., I, яш можуть бути виключен1.
2
Враховуючи також необхвдшсть видобування асоц1атив- рочення навчально! виб1рки (зменшення шлькосп ознак, них правил на цьому етат, одержуемо наступну оцшку екземпляр1в), а також характеристики модели побудова-
обчислювально! складносп (20):
О3 = От (оИ)+0Ап У/| • 1см2 (о )+| I21_
но! на основ1 скорочено! виб1рки:
- к1льк1сть екземпляр1в у виб1рщ тсля скорочення N0;
- коефщент скорочення шлькосп екземпляр1в (22):
= О(| I • 1СЕ2 (Ыо ) + | 12 1.
(20)
Отже, загальна оцшка обчислювально! складносп методу скорочення розм1рносп навчально! виб1рки може бути визначена за формулою (21):
а ыо _
N0
(2)
- кшьшсть ознак у виб1рщ тсля скорочення |
- коефщенг скорочення шлькосп ознак (23):
ОЕ = О (ои)+ О2 Г |/| • Ыо 10В2 (Ыо) +11\
121+
(23)
+ Оз уИ| • Ы0 1ов2 (Ыо )+ И ) _ О[И1 • ЫО 1082 (ЫО ) + И ) .(21) Як видно, оцшка Ое запропонованого методу е про-
- коефщент скорочення розм1рносп виб1рки (24):
порцшною до величини Ыр 1082 (о ) та квадратично залежить в1д шлькосп ознак у виб1рщ О. Це дозволяе зро-бити висновок про те, що розроблений метод скорочення розм1рносп навчально! виб1рки на основ1 асощатив-них правил е обчислювально ефективним. 4 ЕКСПЕРИМЕНТИ Й РЕЗУЛЬТАТИ Для виконання експериментального дослщження запропонованого методу скорочення розм1рносп навчально! виб1рки на основ1 асощативних правил вш був про-грамно реал1зований мовою С#. Навчальна виб1рка для проведения експерименпв м1стила шформацш про характеристики сировини й параметри технолопчного про-цесу виготовлення кондитерсько!' продукци для 3284 парий вироб1в (спостережень), що описуються за допомогою 43 ознак. Дал1 ця виб1рка скорочувалася шляхом засто-сування запропонованого методу, а також р1зних метода скорочення навчальних множин (методи вщбору ознак [2, 4, 5, 12] 1 методи ввдбору екземпляр1в [1-3, 13, 14]).
Для пор1вняння розробленого методу з аналогами використовувалися критерп, що враховують стушнь ско-
Таблиця 1. Результата скорочення навчально! вибiрки
_ Ы'о\!'| _
0 _ ЫОЙ=а ыос
(24)
- помилка модел1, побудовано! на основ1 навчально! виб1рки е0;
- помилка модел1, побудовано! на основ1 тестово! виб1рки
- структурна складшсть синтезовано! модел1 в я;
- параметрична складшсть синтезовано! модел в р.
У якосп модел1, синтезовано! на основ1 вихщно! та
скорочених виб1рок, була обрана нейро-нечика мережа Мамдаш [5, 15], яка будувалася шляхом вщображення множини екземпляр1в у правила, використовувалася П-под1бна функщя належносп [5, 10, 15]. Структурна складшсть в я тако! модел визначалася як шльшсть вико-ристовуваних нейроелеменпв, параметрична в р - як загальна кшьшсть параметр1в модел (вагових коефщенпв, параметр1в функцл належносп).
Результати експерименпв з1 скорочення навчально! виб1рки для синтезу д1агностично! модел1 якосп кондитерсько!' продукци наведено в табл. 1.
аы _
Метод N0 а ЫО I' а и а О вя в р
1. Вих1дна виб1рка (скорочення виб1рки не виконувалося) 3284 1 43 1 1 0 0,13 3510 4369
2. Методи вщбору ознак 2.1. В1дб1р з додаванням ознак [4, 5, 12] 3284 1 34 0,79 0,79 0,037 0,054 3465 4144
2.2. В1дб1р з видаленням ознак [4, 5, 12] 3284 1 31 0,72 0,72 0,042 0,061 3450 4069
2.3. Еволюцшний метод вщбору ознак [12] 3284 1 25 0,58 0,58 0,036 0,045 3420 3919
3. Методи вщбору екземпляргв 3.1. Випадковий ввдб1р [1, 2] 1642 0,50 43 1 0,50 0,041 0,059 1868 2727
3.2. Метод на основ! переборного пошуку [13] 1193 0,36 43 1 0,36 0,036 0,056 1419 2278
3.3. Метод на основ! еволюцшного пошуку [14] 981 0,30 43 1 0,30 0,031 0,046 1207 2066
4. Метод скорочення навчально! виб1рки на основ! асощативних правил 956 0,29 27 0,63 0,18 0,035 0,044 1102 1641
Як видно з табл. 1, нейро-нечгтка мережа, побудована на основi вих1дно1 (не скорочежя) вибiрки, характеризуеть-ся високими значеннями показник1в струкгурно1 та пара-метрично1 складност (ßs = 3510, ß p = 4369), оскшьки в мереж1 мiститься велика кшьшсть правил i термiв. Це, з одного боку, дозволяе досягнути нульово1 помилки мо-делi, визначено1 на основ! навчально1 вибiрки, а з iншого боку, не дозволяе забезпечити прийнятне значення помилки, розраховано1 на основi тестово1 вибiрки (st = 0,13). Крiм того, висок значення критерiïв ß s, ß p та st характе-ризують таку нейро-нечiтку мережу як модель з низьки-ми показниками iнтерпретабельносгi й узагальнення.
Використання методiв ввдбору ознак [4, 5, 12] дозволило незначно скоротити структурну та параметричну складнiсть моделi, пiдвищивши ïï iнтерпретабельнiсть, i збiльшити ïï узагальнюючi здатносп ( значення критерiю st для рiзних методiв становило 0,054, 0,061, i 0,045, що е прийнятним для даноï' предметжл областi).
Методи ввдбору екземплярiв [1, 2, 13, 14] дозволили зменшити навчальну вибiрку на 50-70 % (значення кое-фiцiенту a d для рiзних методiв склало 0,3-0,5). Скорочення екземплярiв забезпечило зменшення кiлькостi правил у синтезованоï нейро-нечiткоï мереж!, що у свою чергу дозволило скоротити структурну й параметричну складнiсть (для еволющйного методу скорочення екзем-пляр!в ßs = 1207, ß p = 2066), забезпечивши при цьому прийнятш значення показника (ввд 0,046 до 0,059).
Запропонований метод скорочення навчальноï виб!р-ки на основ! асощативних правил дозволив суттево зменшити розм!ршсть навчальноï виб!рки (a D = 0,018), що забезпечуеться за рахунок виконання еташв редукци ек-земпляр!в, редукцiï ознак i скорочення надлишкових термш. Синтезована на основ! виб!рки, скороченоï' за допомогою розробленого методу, нейро-нечгтка модель характеризуемся прийнятними значеннями показнишв so та st ( s o = 0,035, st = 0,044), а отже, i прийнятними апрокси-мащйними й узагальнюючими властивостями. Низью значення показниюв ßs та ß (ßs = 1102, ßp = 1641) дося-
гаються за рахунок суттевого скорочення шлькосп правил i ознак у синтезованш нейро-нечитай мереж!. Так! значення критерив ß s i ß p показують, що модел!, побудо-
ваш на основ! виб!рок, скорочених за допомогою запропонованого методу, е бшьш простими та зручними для сприйняття ( тобто е б!льш !нтерпретабельними).
Таким чином, результати експерименпв показали, що запропонований метод скорочення розм!рност навчаль-ноï' виб!рки на основ! асощативних правил дозволяе фор-мувати множину даних з меншою кшьюстю елеменпв у пор!внянш з вихвдною виб!ркою, а також будувати на ïï основ! д!агностичш модел! з високими значеннями по-казниюв узагальнення й !нтерпретабельност1
ВИСНОВКИ
У робот! виршено актуальну задачу редукци навчаль-них виб!рок для побудови д!агностичних моделей.
Наукова новизна роботи полягае в тому, що запро-поновано метод скорочення розм!рносп навчальноï' ви-б!рки на основ! асощативних правил, який передбачае виконання еташв редукци екземпляр!в, ознак i надлишкових терм!в, для ощнювання шформативносп ознак ви-користовуе шформащю про витягнуп асощативш правила та дозволяе формувати розбиття простору ознак з меншою шльшстю екземпляр!в у пор!внянш з вихвдною виб!ркою, що, у свою чергу, дозволяе синтезувати бшьш прост! та зручш для сприйняття д!агностичш моделт
Практична цттсть отриманих результапв полягае в тому, що на основ! запропонованого методу виршено практичну задачу скорочення навчальжл виб!рки для синтезу даагностичжй модел якосп кондитерськоï' продукци.
Роботу виконано в рамках держбюджетноï науково-дослiдноï теми Запор!зького нащонального техшчного ушверситету «1нтелектуальш шформацшш технологiï автоматизаци проектування, моделювання, керування й д!агностування виробничих процеав i систем» (номер державноï реестрацiï 0112U005350) за щдтримки проекту «Centers of Excellence for young Researchers (CERES)» (N544137-TEMPUS-1-2013-1-SK-TEMPUS-JPHES) програ-ми «Темпус» Cвропейськоï Комши.
СПИСОК ЛГГЕРАТУРИ
1. Chaudhuri, A. Survey sampling theory and methods / A. Chaudhuri, H. Stenger. - New York : Chapman & Hall, 2005. - 416 p.
2. Encyclopedia of survey research methods / ed. P. J. Lavrakas. -Thousand Oaks : Sage Publications, 2008. - Vol. 1-2. - 968 p.
3. Кокрен, У. Методы выборочного исследования / У. Кок-рен ; пер. с англ. И. М. Сонина ; под ред. А. Г. Волкова, Н. К. Дружинина. - М. : Статистика, 1976. - 440 с.
4. Jensen R. Computational intelligence and feature selection: rough and fuzzy approaches / R. Jensen, Q. Shen. - Hoboken: John Wiley & Sons, 2008. - 339 p.
5. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов : монография / [С. А. Субботин, Ан. А. Олейник, Е. А. Гофман, С. А. Зайцев, Ал. А. Олей-ник ; под ред. С. А. Субботина]. - Харьков : ООО «Компания Смит», 2012. - 317 с.
6. Gkoulalas-Divanis, A. Association Rule Hiding for Data Mining / A. Gkoulalas-Divanis,V. S. Verykios. - New York : Springer-Verlag, 2010. - 150 p.
7. Koh, Y. S. Rare Association Rule Mining and Knowledge Discovery / Y. S. Koh, N. Rountree. - New York : Information Science Reference, 2009. - 320 p.
8. Zhang, C. Association rule mining: models and algorithms / C. Zhang, S. Zhang. - Berlin : Springer-Verlag. - 2002. - 238 p.
9. Zhao, Y. Post-mining of association rules: techniques for effective knowledge extraction / Y. Zhao, C. Zhang, L. Cao. -New York : Information Science Reference, 2009. - 372 p.
10. Encyclopedia of artificial intelligence / Eds.: J. R. Dopico, J. D. de la Calle, A. P. Sierra. - New York : Information Science Reference, 2009. - Vol. 1-3. - 1677 p.
11. Зайко, Т. А. Извлечение численных ассоциативных правил с учетом значимости признаков / Т. А. Зайко, А. А. Олейник, С. А. Субботин // Схщно-Свропейський журнал передових технологш. - 2013. - N° 5/4 (65). -С. 28-34.
12. Олшник, А. О. 1нтелектуальний анаиз даних / А. О. Олшник, С. О. Субботш, О. О. Олiйник : навчальний посiбник. - За-портжжя : ЗНТУ, 2012. - 271 с.
13. Субботин, С. А. Критерии индивидуальной информативности и методы отбора экземпляров для построения диагностических и распознающих моделей / С. А. Субботин // Бюнжа штелекту. - 2010. - № 1. - С. 38-42.
14. Субботин, С. А. Методы формирования выборок для построения диагностических моделей по прецедентам / С. А. Субботин // Вюник Национального техшчного уш-
верситету «Харювський полтехшчний шститут» : зб. наук. праць. - Харюв : НТУ «ХП1», 2011. - № 17. -C. 149-156.
15. Гибридные нейро-фаззи модели и мультиагентные технологии в сложных системах : монография / [В. А. Филатов, Е. В. Бодянский, В. Е. Кучеренко и др. ; под общ. ред. Е. В. Бодянского]. - Дншропетровськ : Системш технологи, 2008. - 403 с.
Стаття надшшла до редакци 10.12.2013.
Шсля доробки 11.03.2014.
Зайко Т. А.1, Олейник А. А.2, Субботин С. А.3
'Аспирантка, Запорожский национальный технический университет, Украина
2Канд. техн. наук, доцент, Запорожский национальный технический университет, Украина
3Д-р техн. наук, профессор, Запорожский национальный технический университет, Украина
СОКРАЩЕНИЕ РАЗМЕРНОСТИ ОБУЧАЮЩЕЙ ВЫБОРКИ НА ОСНОВЕ АССОЦИАТИВНЫХ ПРАВИЛ
Рассмотрена задача сокращения обучающей выборки. Разработан метод редукции данных на основе ассоциативных правил. Создано программное обеспечение на основе предложенного метода. Проведены эксперименты по решению практических задач, что позволило исследовать эффективность предложенного метода.
Ключевые слова: ассоциативное правило, достоверность, модель, поддержка, сокращение, обучающая выборка, терм.
Zayko T.1, Oliinyk A.2, Subbotin S.3
'Postgraduate student, Zaporizhzhya National Technical University, Ukraine 2Ph.D., Associate Professor, Zaporizhzhya National Technical University, Ukraine 3Doctor of Science, Professor, Zaporizhzhya National Technical University, Ukraine TRAINING SAMPLE DIMENSION REDUCTION BASED ON ASSOCIATION RULES
The problem of training sample reduction is considered. A method for data reduction based on association rules is developed. The proposed method of training sample dimensionality reduction includes stages of reduction of instances, features and redundant terms, to evaluate the informativety of features uses the information about the extracted association rules. The developed method allows to create a partition of the feature space with less examples than in the original sample, which in turn allows the synthesis of simpler and more convenient for the perception of the diagnostic model. The practical value of these results is that on the basis of the proposed method the practical problem of reducing the training sample for the synthesis of the diagnostic model of quality confectionery products is solved. Keywords: association rule, confidence, model, support, reduction, training sample, term.
REFERENCES
1. Chaudhuri A., Stenger H. Survey sampling theory and methods. New York, Chapman & Hall, 2005, 416 p.
2. Encyclopedia of survey research methods / ed. P. J. Lavrakas. Thousand Oaks, Sage Publications, 2008, Vol. 1-2, 968 p.
3. Kokren U. per. s angl. I. M. Sonina ; pod red. A. G. Volkova, N. K. Druzhinina. Metody vyborochnogo issledovanija. Moscow, Statistika, 1976, 440 p.
4. Jensen R., Shen Q. Computational intelligence and feature selection: rough and fuzzy approaches. Hoboken, John Wiley & Sons, 2008, 339 p.
5. Subbotin S. A., Olejnik An. A., Gofman E. A., Zajcev S. A., Olejnik Al. A.; pod red. Subbotina S. A. Intellektual'nye informacionnye tehnologii proektirovanija avtomatizirovannyh sistem diagnostirovanija i raspoznavanija obrazov : monografija. Har'kov, OOO «Kompanija Smit», 2012, 317 p.
6. Gkoulalas-Divanis A., Verykios V. S. Association Rule Hiding for Data Mining. New York, Springer-Verlag, 2010, 150 p.
7. Koh Y. S., Rountree N. Rare Association Rule Mining and Knowledge Discovery. New York, Information Science Reference, 2009, 320 p.
8. Zhang C., Zhang S. Association rule mining: models and algorithms. Berlin, Springer-Verlag, 2002, 238 p.
9. Zhao Y., Zhang C., Cao L. Post-mining of association rules: techniques for effective knowledge extraction. New York, Information Science Reference, 2009, 372 p.
10. Encyclopedia of artificial intelligence, Eds.: J. R. Dopico, J. D. de la Calle, A. P. Sierra. New York : Information Science Reference, 2009, Vol. 1-3, 1677 p.
11. Zajko T. A., Olejnik A. A., Subbotin S. A. Izvlechenie chislennyh associativnyh pravil s uchetom znachimosti priznakov, Shidno-Cvropejs 'kij zhurnalperedovih tehnologij, 2013, No. 5/4 (65), pp. 28-34.
12. Olijnik A. O., Subbotin S. O., Olijnik O. O. Intelektual'nij analiz danih: navchal'nij posibnik. Zaporizhzhja, ZNTU, 2012, 271 p.
13. Subbotin S. A. Kriterii individual'noj informativnosti i metody otbora jekzempljarov dlja postroenija diagnosticheskih i raspoznajushhih modelej, Bionika intelektu, 2010, No. 1, pp. 38-42.
14. Subbotin S. A. Metody formirovanija vyborok dlja postroenija diagnosticheskih modelej po precedentam, Visnik Nacional'nogo tehnichnogo universitetu «Harkivs'kij politehnichnij institut» : zb. nauk. prac'. Harkiv, NTU «HPI», 2011, No. 17, pp. 149-156.
15. Filatov V. A., Bodjanskij E. V., Kucherenko V. E. i dr. ; pod obshh. red. E. V. Bodjanskogo Gibridnye nejro-fazzi modeli i mul'tiagentnye tehnologii v slozhnyh sistemah : monografija. Dnipropetrovs'k, Sistemni tehnologiï, 2008, 403 p.