Научная статья на тему 'Властивості асоціативних залежностей у аналізі даних'

Властивості асоціативних залежностей у аналізі даних Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АСОЦіАТИВНА ЗАЛЕЖНіСТЬ / ФУНКЦіОНАЛЬНА ЗАЛЕЖНіСТЬ / ЗАЛЕЖНОСТі ДАНИХ / АНАЛіЗ ДАНИХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пшеничний О. Ю.

У статті наведено результати дослідження властивостей асоціативних залежностей та можливостей їх ефективного агрегування. Розрозбено метод виявлення асоціативних залежностей широкого класу у великих наборах даних.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Властивості асоціативних залежностей у аналізі даних»

9. Lisitskaya I. V., Oleshko O. I., Rudenko S. N., Drobat’ko E.V., Grigor’ev A.V Kriptograficheskyie svoistva umenshenoi versii shifra «Myhomor», Spetsialni telekomunicatsiini systemy 'ta zahist informatsii. Zbirnuk naykovy 'h prats', Kiiv,

2010, Issue 2(18), pp. 33-42.

10. Dolgov V. I., Oleinikov R. V., Bol’shakov А. K., Grigor’ev A.V., Drobat’ko E.V. Kriptograficheskie svoistva umenshenoi versii shifra «Kalina», Prikladnaya radioelektronika, 2010, vol. 9, No. 3, pp. 349-354.

11. Dolgov V. I., Makarchuk IA. A., Grigoriev A. V., Drobat’ko E. V. Issledovanie kriptograficheskih pokazateley umensheny’h modeley shifrov GOST i DES, Prikladnaya radioelektronika,

2011, Vol. 10, No. 2, pp. 127-134.

12. Dolgov V. I., Lisitskaya I. V., Grigoriev A. V., Shirokov A. V. Issledovanie tsiklicheskih i differentsialny’h svoistv

umenshenoi modeli shifra Labirint, Prikladnaya radioelektronika, 2009, Vol. 8, No. 3, pp. 283-289.

13. Oleinikov R. V., Oleshko O. I., Lisitskay K. E., Tiviashev K. E.

Differentsialny’e svoistva podstanovok, Prikladnaya radioelektronika. - 2010, Vol. 9, No. 3, pp. 326-333.

14 O’Connor L. J. On the Distribution of Characteristics in

Bijective Mappings. Advances in Cryptology. EUROCRIPT 93, Lecture Notes in Computer Science, vol. 795, T. Hellesethed., Springer-Verlag, 1994, pp. 360-370.

15. Lisitskaya I.V. Svoistva zakonov raspredelenia XOR tablits i tablits lineiny’h approksimatsy sluchainy’h podstanovok. [Text], Visnyk Charkivs'kogo natsionalnogo universitety imeni V. N. Karazina, 2011, No. 960, Issue. 16, pp. 196-206.

16. Shnaer B. Prikladnaya kriptografiya. Protokoly’, algoritmy’, ishodny’e teksty’ na iazuke Si. [Text]. Moscow, TRIUMF, 2002, 816 p.

УДК 004.9 Пшеничний О. Ю.

Аспірант Національного університету «Львівська політехніка»

ВЛАСТИВОСТІ АСОЦІАТИВНИХ ЗАЛЕЖНОСТЕЙ У АНАЛІЗІ ДАНИХ

У статті наведено результати дослідження властивостей асоціативних залежностей та можливостей їх ефективного агрегування. Розрозбено метод виявлення асоціативних залежностей широкого класу у великих наборах даних.

Ключові слова: асоціативна залежність, функціональна залежність, залежності даних, аналіз даних.

ВСТУП

Аналіз даних та отримання з них додаткової інформації про предметну галузь (Data Mining) є на сьогодні великою галуззю комп’ютерних наук, яка активно розвивається і збагачується новими методами, алгоритмами та програмними засобами, що їх реалізовують. Охопити всю структуру та різноманітність підходів даної галузі неможливо.

У даній роботі розглядається задача виявлення асоціативних залежностей у великих обсягах даних та її проблематика, вивчаються можливості оптимізації пошуку асоціативних залежностей та їх властивості.

Аналіз даних на предмет виявлення залежностей та кореляцій широко застосовується у соціології, психології, політології, фізиці, енергетиці, астрономії, комп’ютерних науках та безлічі інших прикладних дисциплін. Задача виявлення асоціативних залежностей в даних соціологічних опитувань розглядається в [1]. Даний напрям аналізу даних відносно не новий, проте в цій галузі до цих пір проводяться активні дослідження. Наприклад, у роботі [2] описується метод побудови агрегованих асоціативних правил на основі простіших залежностей. Пояснити такий інтерес до виявлення залежностей в даних можна

стрімким злетом обчислювальної потужності комп’ютерної техніки, а також зростанням обсягів накопичених даних у багатьох галузях життя суспільства до таких обсягів, що аналіз їх експертним шляхом або неможливий, або неповний. Сучасні обчислювальні засоби дозволяють реалізовувати все складніші алгоритми та застосовувати їх до даних великих обсягів. Це стимулює науковців до розробки таких алгоритмів, а власників великих баз та сховищ даних - до розробки програмних засобів аналізу накопиченої інформації.

На даний час деякі науково-технічні галузі вже мають потужні методи аналізу даних, спеціалізовані до своїх потреб та структури даних. Серед них можна виділити програмні засоби CLASSIFI (Department of Pathology, UT Southwestern Medical Center) [3], BiNGO (Department of Plant Systems Biology, VIB/Ghent University) [4] та EASE (National Institute of Allergy and Infectious Diseases) [5]. Проте більшість науково-дослідних установ не можуть дозволити собі розробку подібних систем і потребують загальнодоступного методу широкого застосування.

Отже, ефективний пошук асоціативних залежностей в багатоатрибутних даних є актуальною задачею сучасного аналізу даних.

© Пшеничний О. Ю., 2012

Варто зазначити, що data mining - дуже широка галузь аналізу даних і пошук асоціативних залежностей -лише її частина.

Метою даної роботи є вивчення властивостей асоціативних залежностей, що дозволять реалізувати ефективні алгоритми пошуку таких залежностей в реляційних базах даних.

ЗВ’ЯЗОК ТА МІСЦЕ РОБОТИ В ІСНУЮЧИХ МЕТОДАХ АНАЛІЗУ ДАНИХ

Технології data mining передбачають виявлення залежностей в даних виду «якщо ... то ...» або «для ... справджується ...». Такі залежності представляються імплікаціями, тобто продукційними правилами чи асоціативними правилами.

Data Mining включає широкий набір математичних та алгоритмічних засобів, що включають нейронні мережі, еволюційні алгоритми, дерева рішень та ін. Проте сучасні дослідження все більше роблять акцент на напрямку пошуку логічних залежностей в даних. За їх допомогою вирішуються задачі класифікації, прогнозування, формування образів на підставі формальних логік та ін. [2].

Очевидно, що в базах даних, що містять мільйони об’єктів, можна побудувати неймовірно велику кількість асоціативних залежностей і усі ці залежності не те що вивчати, а навіть зберігати неможливо. Але на щастя такого завдання ніхто не ставить. Натомість дійсно важливим є пошук таких асоціативних залежностей, що мають достатній рівень статистичної обґрунтованості.

Основні недоліки сучасних методів пошуку асоціацій в даних:

- працюють тільки з бінарними ознаками об’єктів;

- «не знаходять» асоціативних залежностей з малою підтримкою;

- не дозволяють ефективно реалізувати додавання нових записів у джерело даних та консолідувати дані, от -римані з різних джерел;

- неефективно працюють з багатоатрибутними залежностями;

- недостатньо гнучкі в плані критеріїв відбору шуканих залежностей.

Одним з шляхів усунення цих недоліків є побудова агрегованих асоціативних правил. У роботі [2] пропонується система 4-х параметрів асоціативного правила, що описують його властивості. Безумовно така система характеристик є гнучкішою за єдиний параметр інтенсивності асоціації, що використовується в [1], проте факт достатності наведеної системи залишається під питанням.

З урахуванням вищезазначеного, у даній роботі розглядається актуальна науково-технічна задача вдосконалення методів побудови та оцінки агрегованих асоціативних правил в базах даних великого розміру.

СПЕЦИФІКА ДОСЛІДЖУВАНОЇ ЗАДАЧІ

Пошук довільних асоціативних правил P (x) ^ Q (x), x є r (R) у відношенні r (R) є дуже широкою задачею, вирішення якої поки в майбутньому і ця

задача не є об’єктом даного дослідження. У даній роботі пропонується вивчення властивостей асоціативних залежностей, у яких умовний та результуючий предикат мають вигляд:

p=p; v p2e v... v p: = v p:, k=1

pk = Л ek)U)Ь4-2 є {«(,2и)}л4к єКп)},

V/ = 1..k : A є R,Vm = 1..{а,,), j )}|: а,.), j ) є dom(Ai ) ,

Vi, j є {1. .h} : arg (ре) = arg (pj). (1)

FI : v Pke ^ v Qe. (2)

1 k=1 k /=1 ‘ v '

Позначення arg (P) використано, як оператор отримання множини атрибутів-аргументів предиката P.

Назвимо такі асоціативні залежності окремим терміном - імовірнісні продукційні залежності (ІПЗ). Введення окремого терміну необхідне для уникнення помилкового трактування викладень та розширення їх на довільні асоціативні залежності. Термін містить слово «ймовірнісна» тому, що основною характеристикою таких залежностей, як буде показано далі, є ймовірність її виконання для нового об’єкта заданої схеми, отриманого з випадкового процесу збору даних в предметній галузі (за умови відсутності довготермінових тенденцій зміни параметрів середовища). В літературі використовують різні позначення, інтерпретації та трактування даного поняття. Наприклад, у [2] використовується термін «інтенсивність асоціації», в [1] - «рівень довіри». Проте дані позначення стосуються більше факту, що має місце у наявних даних, а не в даних, з якими потрібно працювати в поточний момент часу. До того ж, якщо розглядати систему, як статичну, що не поповняється новими знаннями, втрачається зміст застосування таких технік, як наприклад, згладженя Лапласа [6] та інших методів захисту від шуму та невизначеності даних. Саме для наголошення на дослідженні випадкових процесів, їх динамічності та проблемах і введено термін «імовірність» у термін форми залежностей, що досліджуються. Друга частина терміну -«продукційні» особливого пояснення не потребує, оскільки в основі залежності лежить продукційне правило.

Отже, ймовірнісна продукційна залежність - це про-дукційне правило виду в селекції основного відношення, яке справджується для значущої кількості об ’ єктів цієї селекції. Поріг значущості повинен визначатись експертним шляхом, або виходячи з розрахунків імовірності помилкового виділення цієї залежності.

Запишемо позначення формул (1), (2) у термінах ре-ляційної алгебри:

P (x)=nA,A1...A/ (х)є{а(„)и)}х{а(і2)(л)}х-Х{а(і)(л)} x є r(R), V/ = 1..k: A є R, Vm = 1..), j )} : а, ,), j ) є dom(A,). (3)

P (*) = П4,42...4, (Х) Є {%)(,.,)} Х {a(,2)(,.2)} Х - Х {а(4Ци)} ^ ^{а(ф2,, )}ХК('2 )(Л,2 )}Х ."Х{ )(ЛЛ}... ^

...Х{а(,к)(Ал)}- (4)

Тобто, предикати ІПЗ можна представляти як предикати, визначені на кортежах відношення г (Я), а не лише на множині атрибутів.

Поріг значущості ІПЗ може визначатись на основі довільної функції оцінки важливості знайденої залежності. Проте найчастіше використовуваними є показники рівня підтримки та рівня довіри. У роботі [2] показано, що цих параметрів недостатньо для адекватного опису залежностей предметної галузі і пропонується використовувати додаткові характеристики: рівень покращення та повну взаємну інформацію.

Розглянемо ці показники детальніше.

Рівень підтримки - характеристика предиката селекції на відношенні, що обчислюється як відношення кількості об’єктів, які задовольняють предикат Р до загальної кількості об’єктів у відношенні:

Sup (P ) =

CT

(r )|

(5)

У випадку обчислення рівня підтримки для ІПЗ умовний та результуючий предикат залежності об’єднуються знаком кон’юнкції:

Sup (S ^ T) = Sup (S л T) = J

(r )|

(6)

Рівень довіри - відношення кількості об ’ єктів, для яких має місце така ІПЗ до кількості об’єктів в селекції:

(r )l

(7)

З використанням поняття рівня підтримки, рівень довіри можна обчислити, як

Conf (S ^ T) =

(8)

Рівень покращення обчислюється, як відношення рівнів довіри та підтримки ІПЗ:

,тр ( г )=£0^=^»3-

Sup(T) Sup(S)•Sup(Г) w

Повна взаємна інформація в загальному випадку обчислюється, як

IX «Y =ÊZ pj l0g2

Jj &2 i=1 j=1 pr,

(10)

де ру = Р (X = хі л У = у у) - ймовірність того, що X знаходиться в стані х , а У - в стані у; рі = Р (X = хі) -ймовірність того, що X знаходиться в стані х^

гу = Р (У = у у) - ймовірність того, що У знаходиться в стані у у.

Для асоціативних правил взаємна інформація буде визначатися як

П т

IX «У =и 8ир( х ^ у у )1ов2 Мр( х ^ у у). (11)

і=1 у=1

АНАЛОГИ ПРАВИЛ ВИВЕДЕННЯ ФУНКЦІОНАЛЬНИХ ЗАЛЕЖНОСТЕЙ ДЛЯ ІПЗ

Як і у випадку з ^-залежностями, множину ІПЗ, що мають місце в заданому відношенні, можна представити деякою їх підмножиною, з якої за допомогою правил виведення можна отримати усі ІПЗ даного відношення. Оскільки ІПЗ є розширенням ^-залежностей, то варто розглянути трансформації аксіом виведення функціональних залежностей Е1-Е6 для ІПЗ.

ІПЗ характеризуються багатьма параметрами, найважливіші з яких наведені у формулах (5)-(11). Проте найчастіше використовуваним і найпростішим для розуміння є параметр рівня довіри. На ньому ґрунтуються більш складні характеристики залежностей. В ході досліджень було встановлено:

- фільтрація по рівню підтримки не дозволить здійснювати виведення ІПЗ з малих часткових залежностей -рівень підтримки неодмінно зростає при об’єднанні ІПЗ

і тому неможливо здійснити відсікання деяких груп залежностей на основі даного параметра;

- рівень покращення є нелінійною характеристикою ні за потужністю множини кортежів, що задовольняють умовну частину, ні за потужністю множини кортежів, що задовольняють результуючу частину ІПЗ і теж не дає можливості здійснювати відсікання генерації ІПЗ на основі множини наявних залежностей;

- повна взаємна інформація аналогічно є нелінійною за потужністю селекції обома предикатами ІПЗ.

Отже, будувати правила виведення для параметрів рівня покращення та повної взаємної інформації немає змісту, оскільки вони обчислюються через рівень підтримки та рівень довіри, а також дані характеристики нелінійно залежать від кількості кортежів, які відповідають залежностям.

Строге доведення даного факту не наводиться, оскільки він інтуїтивно зрозумілий з вищенаведених міркувань, а формальне доведення дуже громіздке.

r

r

Вказані характеристики ІПЗ мають зміст лише в розгляді окремих залежностей, як додатковий параметр опису типу та сили залежності. Але при виведенні нових ІПЗ достатньо оперувати поняттями рівня підтримки та рівня довіри. Вони дозволяють достатньо обмежити набір знайдених залежностей, щоб потім можна було проводити другий етап відбору ІПЗ по довільних критеріях, які необхідні в тій чи іншій предметній галузі (в числі цих критеріїв можуть бути і параметри рівня покращення, повної взаємної інформації та ін.). Таким чином долається проблема гнучкості фільтрації шуканих асоціативних залежностей - використання двоетапної фільтрації дозволяє використовувати довільні критерії якості ІПЗ на другому етапі.

Отож, розглянемо трансформацію правил виводу функціональних залежностей для ІПЗ.

Рефлексивність рівня довіри.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Соп/ (5 Є 5 — 5 є 5 ) = 1 для будь-якого відношення г(Я).

Доведення:

Соп/ (5 є 5 — 5 є 5) = -

= 1

Поповнення рівня довіри.

Якщо Соп/ (5 є 5 — і є Т) = р , то

Соп/ (5 є 5 л w є Б ( V ) — і є Т ) = р, де Б ( V ) - домен атрибута W відношення г (Я).

Доведення:

Соп/(і є 5 лw є Б(V) — і є Т) =

5є5 лwєБ(W )лієТ

* іє5 лwєБ(W) (Я )|

= |Ух є г: д = п^ (х) є Б (V)^ w є Б (V)| =

стє

(Я)|

= Соп/ (5 є 5 — і є Т) = р

Приклад 1.

А В С Б

а1 Ьі С1 й1

а1 Ь1 С2 й1

а1 Ь2 С2 й1

а2 Ь2 С2 й1

а2 Ь2 С2 ^2

а2 Ь2 С2 ^2

а2 Ьз Сз й2

а2 Ь2 С2 й2

а3 Ьз Сз й\

Соп/ (а є {а15 а2} — й є {}) = — = 0,5

Соп/(а є {а1, а2}лЬ є {Ь2,Ь3,Ь—} — й є {й1}) =

(Я)

ає{а1,а2}лЬє|Ь1 ,Ь2 ,Ь3 ,Ь— }лйє{о!}

ст

ає^, а^лЬє^Ь ,Ь3 ,Ь—

= — = 0,5

Адитивність рівня довіри.

Якщо Соп/ (5 є 5 — і є Т) = р і Соп/ (5 є 5 — w є V ) = 1,

то Соп/ (5 є 5 — і є Т л w єW ) = р.

Доведення:

Соп/ (5 є 5 — і є Т л w є V) =

ст.

іє5 лієТ л wєW

■ = Соп/ (і є 5 — і є Т) = р

= |і є 5 — w є V =■

Приклад 2:

Розглянемо ІПЗ з прикладу 1:

Соп/( є(а1І^ В є{Ь1І)= )

Соп/(А є {а1} — Б є {й1}) = 1

По них можна зробити висновок, що

2

Соп/ (А є {а1} — В є {Ь1}л Б є {й1}) = —. Це підтверджують обрахунки по формулі (7):

Соп/(А є {а1} —— В є {Ь1} лБ є {й1}) =

ст

Ає{а1}л Вє{Ь1}лБє{й1}

ст

Ає{а}\

2.

т

Проективність рівня довіри.

Якщо Соп/(5 є 5 — і єТлwєW) = р

і Соп/ (5 є 5 — w єW) = 1, то Соп/ (5 є 5 — і є Т ) = р. Доведення:

Соп/ (5 є 5 — і є Т) =

ст

ст

іє5 лієТ лwєW

5 є 5 — wєW

= Соп/ (і є 5 — і є Т л w еє ) = р

Приклад 3:

Розглянемо приклад, поданий в попередньому пункті, в зворотному варіанті.

З ІПЗ Соп/(А є {а^ — В є{Ь^лБ єЦ}) =)

та Соп/(А є {а1} — Б є {й1}) = 1 можна зробити висно-

2

вок, що Conf (A є {a1 } —— В є {b1}) = —. Перевірка формулою (7):

за

Conf (A є {ai} — B є {bi}) =

Ає{аі}л Вє{Ьі}

АФи

2

3

Транзитивність рівня довіри.

Якщо Conf (seS — t є T) = p і

Conf (t aT — w є W ) = 1, то Conf (s є S — w є W ) > p. Доведення:

Conf (seS — w є W) = J

Conf (seS — t є T) = -

= P.

Таким чином, оскільки pÆS| > 0, |<tæSЛм,єЖ| > 0 і

> 0 (випливає з означення реляційної операції

Р*Е,

селекції), то для доведення нерівності Conf (seS ^ w gW ) > Conf ( s є S ^ t є T ) необхідно

ДовеСЩ Щ° I^sgs„wgW I > KeSAtGT I-

Розглянемо змінну-кортеж x відношення r(R), таку, що

ns (x) є S і nt (x)є T . Згідно умови

Conf (teT ^ w є W ) = 1, якщо nT ( x )є T, то П ( x ) є W. Отже

Conf (seS ^ t є T ) = p л Conf (t є T ^ w gW ) = 1:

: Vx є r (R): ns (x)є S лі( (x)є T ^nw (x)є W. Звідси отримуємо ряд наслідків:

|СТхє5лwєW | > |СТхє5лієТ | ;

Соп/ (і є 5 — w єW ) > Соп/ (і є 5 — і є Т ) = р; Соп/ (і є 5 — w єW ) > р.

Таким чином, транзитивність рівня довіри ІПЗ доведено.

Приклад —:

З даних прикладу 2 можна побудувати такі ІПЗ: Соп/ ( {С2} — В Є{Ь1І)= );

Соп/(В є {Ь1} — Б є{й1}) = 1.

З правила транзитивності рівня довіри ІПЗ отримуємо, що Соп/(С є {с2 } — Б є {й1}) > 6. Перевіримо це,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

обчисливши Соп/(С є {с2} — Б є {й1}) за формулою :

Conf (Ce {c2} — D є {d1}) =

Ce{c2^ De{di}

О.

Ce[c,

3 = 1

6 = 2'

Conf (X {C2} — D £{di}) = ) > 6 = = Conf (Ce {c2} — В є {bi}).

Таким чином, підтверджується транзитивність рівня довіри ІПЗ.

Транзитивність рівня довіри ІПЗ є потужним правилом для висування різноманітних припущень та виконання доведень.

Псевдотранзитившсть рівня довіри.

Дана аксіома виводу ^-залежностей не має прямої альтернативи для ІПЗ, за умови накладення лише одного обмеження на вихідні залежності. Доведемо дане твердження.

Розглянемо залежності Соп/ (еБ ^ ї є Т ) = р і Соп/ (ї є Т л q є Q ^ '№ є Ш ) = 1, наклавши обмеження істинності на Соп/ (ї є Т л q є Q ^ w є Ж).

Позначимо X = (Я), Г = о^т (Я), ^ ^ (Я)

V = (Я). Тоді

ч \у п г п VI

Соп/ (Т л q є Q ^ w є Ш)= ^ п = 1;

X п Щ пК| = | X п 7|;

Соп/ (5 є Б ^ ї є Т) = XX^ = р ;

Conf (seSлq єQ — wєЖ) =

X n Z n V|

X n Z|

X n Y )u( X \ Y ))n Z n v|

" (X n Y)u(X \ Y ))n Z| "

|(X n Y n Z n V)u((X \ Y)n Z n V)| |(X n Y n Z)((X \ Y) n Z)|

|(X n Y n Z)u((X \ Y)n Z n V)| |(X n Y n Z)((X \ Y)n Z )

\X nY nZ| + ( \ Y)nZ nV| -|X n Y nZ n(X \ Y)n Z nV| ’ |X n Y n Z| + |(x \ Y )n z|

= (1)

\X n 7 n z| + |(X \ 7 )n Z n V|

_ |X n 7 n Z| + |(X \ 7 )n Z|

X n 7 n Z с X n Z ;

(X\7)nZnV сXnZ;

(X\7)nZ сXnZ .

Таким чином, X n Z є універсальною множиною U даних виразів і результат обчислення (1) не зміниться, якщо розглядати лише кортежі з X n Z . Позначимо

7' = 7 n( X n Z), V = V n(X n Z). Тоді

(1) =

Y + —Y nV Y + —Y nV

M

Y n V є

[o;|—r|]:

Y' +1—Y'n V'l Y 1

м є м ;1

Повернемось до введених позначень:

7 = 7 п ( п Z). Початкові умови не накладають обмежень на значення даного виразу, тому I7' є[°;|Щ] і відповідно

+ — Y n V

м

ЗД;

Соп/ (5 є 5 л д є Q — w єW )є[0;1].

Тобто, залежності Соп/(5 є 5 — і є Т) = р і Соп/ (і є Т л д є Q — w є V) = 1 не роблять ніякого

впливу на залежність Соп/ (5 є 5 л д є Q — w єW).

Розглянемо тепер обмеження іншої залежності, комбінуючи Соп/(5 є 5 — і є Т) = 1 і Соп/(і є Т л д є є Q — w єW) = р. Використовуючи вищенаведені позначення, отримаємо:

ч І7 п Z п У\

Соп/ (і є Т л д є Q — w є V) = -—7—щ—- = р .

Conf (5 є s ^ t є т)='Хх—"=і;

X n—І=1X.

В даному випадку початкові залежності ніяк не обмежують отриманий вираз і це очевидно вже на першому кроці: множина V може не мати спільних кортежів з X, одразу перетворивши Conf (s єSлq є Q ^ wє^) в нуль. З іншої сторони, можливий варіант і V с X n Z -тоді Conf (s є S л q є Q ^ w є^ )= 1. Функція Conf (s є S л q є Q ^ w є^) лінійно залежить від |X n Z nV|, маючи змінною множину V, таким чином маючи область значень [0;1]. Отже, залежності Conf (s є S ^ t є T) = 1 і Conf (t є T л q є Q ^ w є є^ ) = p не обмежують область значень Conf (t є T л q є Q ^ w є W).

Таким чином, доведено, що псевдотранзитивність функціональних залежностей не має прямого аналогу серед ІПЗ.

Як бачимо з вищеописаних викладень, більшість аксіом виведення ^-залежностей можуть бути трансформовані для ІПЗ лише зі значними обмеженнями умовної частини однієї з залежностей. До того ж деякі аналоги не дають чіткої формули обчислення рівня довіри нової залежності, а тільки накладають на нього обмеження. Таким чином, наведена множина правил виведення ІПЗ є не повною. Для забезпечення повноти правил виводу необхідно ввести додаткові правила виведення, специфічні для ІПЗ.

ОПЕРАЦІЇ НАД ІПЗ

Факторизація.

Назвемо розклад залежності Ft: nAlA2-Ak (s) є є {s1, s2,...sm } ^ ПЛлЛн ...лл (s) є {t1, t2,...tn} на множину

залежностей {ПЛ1^Л,2-..Лк (s) = si ^Плл42..Л (s) = tj}, i = 1..m, j = 1..n факторизацією і позначатимемо F, [Fact].

m n ¡

ZZ(n4ь~\ (s) ,_1 ->■—1 4

i=1 j=1 Об’єднання.

(s) = 0).

(12)

Об’єднанням ІПЗ 5 є 51 — і є Т1 і і є 52 — і є Т2 назвемо нову ІПЗ 5 є 51 и 52 — і є Т и Т2 (використовуються позначення ІПЗ в термінах реляційної алгебри (4) ).

(5 є 51 — і є 71) + (5 є 52 — і є Т2) = 5 є 51 и 52 — і є Ті и Т2 .(13)

Розглянемо властивості операції об’єднання ІПЗ.

Комутативність.

Операція об’єднання ІПЗ володіє властивістю кому-тативності.

(5 є 51 — і є Т) + (5 є 52 — і є Т2) = (5 є 52 — і є Т2) + + (5 є 51 — і є Т). (14)

Доведення:

(5 є 51 — і є Т) + (5 є 52 — і є Т2) = (5 є 51 и 52 — і є Т и Т2 ) = (5 є 52 и51 — і є Т2 иТ1) = (5 є 52 — і є Т2) + (5 є 51 — і є Т1).

Асоціативність.

Операція об’єднання ІПЗ володіє властивістю асоціативності.

(і є 51 — і є Т1 ) + (( є 52 — і є Т2 ) + (і є 53 — і є Т3 )) =

(і є 51 — і є Т1 ) + (і є 52 — і є Т2)) + ( є 53 — і є Т3). (15)

Доведення:

(5 Є 51 — і Є Т ) + ((5 є 52 — і є Т2) + (і є 53 — і є Т3)) =

( і є 51 — і є Т1) + ( і є 52 и 53 — і є Т2 и Т3 ) =

= і є 51 и 52 и 53 — і є Т1и Т2 и Т3.

Розкладемо праву частину виразу асоціативності:

(5 є 51 — і є Т ) + (5 є 52 — і є Т2)) + (5 є 53 — і є Т3) = ( і є 51 и 52 — і є Т и Т2) + ( і є 53 — і є Т3) =

= і є 51 и 52 и 53 — і є Т и Т2 и Т3 =

(5 є 51 — і є Т ) + (( є 52 — і є Т2) + (5 є 53 — і є Т3)

ПРАВИЛА ВИВЕДЕННЯ ІПЗ

Як було показано, застосування трансформованих правил виведення функціональних залежностей недостатньо для забезпечення повноти множини правил виведення ІПЗ. Розглянемо правила виведення, специфічні для ІПЗ, що дозволять побудувати ефективні алгоритми пошуку цих залежностей в наборах даних.

Агрегування області визначення. Якщо наявні ІПЗ

5 є 51 — і є Т і 5 є 52 — і є Т2 та значення (г (Я)),

'<=<_,(г (Я)), ст5=5,лі=іі ( (Я)) такі, що и5, = 51 и 52,

ст,

и5і = Т1 и Т2 то для ІПЗ

}

a) И > 1 5 є 51 и 52 — і є Т1 и Т2;

b) і є 51 и52 — і є Т пТ2;

c) і є 51 п52 — і є Т1 иТ2;

й) 5 є 51 п 52 — і є Т п Т2;

е) 5 є 51 — і є Т и Т2;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/) 5 є 51 — і є Т п Т2;

g) 5 є 52 — і є Т и Т2;

И) 5 є 52 — і є Т п Т2;

і) 5 є 51 и 52 — і є Т;

}) 5 є 51 п 52 — і є Т1;

к) і є 51 и 52 — і є Т2;

/) і є 51 п 52 — і є Т2. можна обчислити усі параметри з формул (5)-(11).

Доведення:

(16)

Розглянемо доведення найскладнішого (першого) з наведених наслідків. Інші обчислюються аналогічно і не подаються тут для лаконічності.

5ир ( і є 51 и 52 — і є Т и Т2) =

= 5ир (5 є 51 и 52 л і є Т1 и Т2) =

|СТієХ1 лієТ1 иТ2 (г )| + |стєХ2лієТ1 иТ2 (г)|

5 є 51 и5? лієТ

1 иТ2 ( г)|

5є5і п5л лієТ

г| (ст5є51 лíєГI (г) + ст5є51 лíєГ2 (г)| |СТ5ЄХ1 лієТ1 пГ2 (г)|

+ |СТ5Є52(г )+ст5є52лієТ2 (г )-

іпТ2 (г)—|СТ5ЄХ1 п52лієТ1 (г)| — |ст5єХ1пХ2лієТ2 (г)| ]пГ2 (г )).

5Є^1 п5, лієТ п

(17)

Соп/(5 є 51 и 52 — і є Т и Т2) = -і

5Є^1 и^2 лієТ1

1 иТ2 ( г )|

Гієх1 и52 (г)|

|г| • 5ир(і є 51 и 52 — і є Т и Т2)

5 (г)| + Кє*2 (г)— п52 (г)|

(18)

, ч Соп/ (5 є 5, и 52 — і єТ.и Т2)

Ітр (5 є 5. и52 — і є Т иТ2) =-----------^^------------2------^ =

^ 1 2 1 ^ 5ир (і є Т и Т2)

|г| • Соп/ (5 є 51 и 52 — і є Т1 и Т2)

кієТЇ (г )| + кієТ2 (г )| — кєТ1пТ2 (г)| (19)

IseSl wS2 «teT^T2 = Z Z SUP ( = Х ^ t = У) 1

xeS-1 yeT1'uT2

х log2 Imp (s = x ^ t = y).

(20)

Складність обчислення формул (16)-(20) прямо лінійно залежить лише від потужності множин S1 та S2. До того ж існують структури даних (Fibonacci heap, binomial heap [7]), що дозволяють обчислювати об’єднання та перетин множин за сублінійний час. x

Позначатимемо операцію агрегування ІПЗ ©, де x -тип агрегування. Оскільки найчастіше використовуваним агрегуванням буде форма, то для її позначення використовуватимемо спрощене позначення © (без вказування форми агрегації).

Реалізація алгоритмів виведення ІПЗ для правила агрегування може використовувати підтипи та часткові випадки правила агрегування. Наприклад, якщо S1 n S2 = 0, формули (16)-(20) стають зовсім простими і обчислюються з асимптотичною складністю O (1).

Дані правила (наведене правило агрегування ІПЗ включає 12 підправил, поданих пунктами наслідків) виведення особливо ефективне для даних з невеликими множинами значень, наприклад даних соціологічних та психологічних опитувань, спостережень погоди, досліджень транспортних потоків та ін.

ПОВНОТА ПРАВИЛ ВИВЕДЕННЯ ІПЗ

h g

Розглянемо довільну ІПЗ Fj: v РЦ ^ v Q/. Її можна

h-1 g-1

отримати агрегуванням ІПЗ Phe ^ Qg з v Pke ^ v Qet

g-1

якщо h > 1 і g > 1, з РЦ ^ v Ql, якщо h = 1 і g > 1, з

h-1

,v Pk ^ Ql, якщо h > 1 і g = 1.

> 11 g:

Таким чином, отримано розклад

hg /

V pe ^ V Qe = ® (PL(h-,1) ^ Qm

k=1 l=1 і=0..max(h-1, g-1)

x(g-i.1)

).(21)

З формули (1)

A Є{а(і )U )}л A ЄК )(Л ))Л A )(Л)} •

Отже, параметри довільної ІПЗ можна обчислити, маючи статистику ax= x (r(R)),стх=хлу=yj (r(R)),

<rx=x Л y=y л z=Zt (r (R )) і т. д. Тобто для представлення усіх ІПЗ відношення, в яких є не більше k частин умов предикатів, необхідно

O ^ ( max ^ ( class (A) • class (Ah ) •... • class (A^ )) пам’яті, де Z c R - множина атрибутів, між якими шука-

фікації за атрибутом Aij. Найпростіший варіант:

class (Aij) = dom (A^), проте для числових чи вимірювальних даних часто зручно розбивати їх на під області. Це збільшує інформативність знайдених залежностей та спрощує їх пошук.

Ведення повної статистики довільної глибини вкладення звичайно є неможливим через обмеження наявної пам’яті обчислювальної системи, але в реальності практично не використовуються залежності з більш, ніж 3-4 частинами умовного предикату. Відповідно, представлення усіх необхідних даних цілком можливе навіть для дуже великих масивів даних.

ВИСНОВКИ

Дана стаття описує результати досліджень властивостей та правил виведення ймовірнісних продукційних залежностей - класу асоціативних залежностей, що широко застосовується у аналізі даних комп’ютерних наук, енергетики, фізики, соціології та ін.

Основним результатом досліджень є правила виведення нових ІПЗ з деякої їх множини. Це дозволяє зберігати лише мінімальне покриття набору даних обраним класом залежностей, а не усі наявні залежності у відношенні. Така форма представлення даних таких дозволяє їх легко модифікувати (видаляти чи додавати кортежі, а також змінювати значення атрибутів існуючих кортежів). Виявлення цієї властивості ІПЗ дає важливу перевагу над багатьма методами аналізу статичних даних - при зміні даних не потрібно повністю перераховувати всю статистику даних, а лише оновити необхідні параметри.

У статті доводиться можливість ефективного обчислення таких характеристик, як рівень підтримки, рівень довіри, рівень покращення та повна взаємна інформація ІПЗ. Проте це далеко не всі параметри, що можуть бути ефективно обчислені з використанням вивчених властивостей та знайдених правил виведення ІПЗ. У наступних роботах планується глибше розглянути необхідні умови, яким повинен відповідати критерій якості, щоб його можна було ефективно обчислювати, застосовуючи правила виведення ІПЗ.

Застосування правил виведення ІПЗ, описаних у даній статті дозволяє зменшити необхідний обсяг дискового простору обчислювальної системи до

O

max

(А.-А )Zk

(Iclass (A )| • \class (A )| •... • \class (A ))

ються залежності,

class

(Aj )| - кількість областей класи-

де к - максимальна кількість атрибутів, що фігурує в умовній та результуючій частині шуканих ІПЗ. Зазвичай немає потреби в значеннях к>3, а якщо й виникає, то лише для деяких специфічних значень фіксованих атрибутів і тоді стає можливим зберігати окрему статистику для таких атрибутів.

Отже, правила виведення, описані у даній статті, дозволяють ефективно зберігати та знаходити ІПЗ у великих наборах даних, ґрунтуючись на мінімальному покритті ІПЗ.

СПИСОК ЛІТЕРАТУРИ

1. Чесноков, С. В. Детерминационный анализ социально-экономических даннях / С. В. Чесноков. - М. : Наука, 1982. - 168 с.

2. Тітова, О. В. Методи побудови та оцінки агрегованих асоціативних правил в інтелектуальних базах даних. Харків -2006.

3. Головний сайт департаменту патології, UT Southwestern Medical Center [Електронний ресурс] - режим доступу http://pathcuric1.swmed.edu/pathdb/classifi.html

4. Опис утиліти BiNGO, сайт університету Гент, [Електронний ресурс] - режим http://www.psb.ugent.be/cbd/papers/ BiNGO/Home.html.

5. Офіційний сайт National Institute of Allergy and Infectious Diseases (NIAID), NIH [Електронний ресурс] - режим доступу http://david.abcc. ncifcrf. gov/content.jsp?file=/ease/ ease1.htm&type= 1

6. Thun S. Laplacian smoothing / Norwig P., Thun S. Online lecture «Machine Learning», USA, Stanford University - 2011. https://www.ai-class.com/course/video/quizquestion/97.

7. Heaps: Heapsort, Binary Heap, Smoothsort, Soft Heap, Fibonacci Heap, Treap, Binomial Heap, Pairing Heap, Leftist Tree, Skew Heap. Memphis, Tennessee, Llc Books , General Books LLC - 2010, 74 p.

Стаття надійшла до редакції 12.03.2012.

Пшеничный А. Ю.

СВОЙСТВА АССОЦИАТИВНЫХ ЗАВИСИМОСТЕЙ В АНАЛИЗЕ ДАННЫХ

В данной работе поданы результаты исследований свойств ассоциативных зависимостей и возможностей их эффективного агрегирования. Разработан метод поиска ассоциативных зависимостей широкого класса в больших наборах данных.

Ключевые слова: ассоциативная зависимость, функциональная зависимость, зависимости данных, анализ данных.

Pshenychnyi O. Y.

ASSOCIATIVE DEPENDENCIES PROPERTIES IN DATA ANALYSIS

This paper describes the results of research in the field of associative dependencies properties and effective aggregation

possibilities. Also it briefly describes the developed method of special class of associative dependencies detection in large data volumes. The main idea of this research is aggregation of elementary associative dependencies into more complicated once. This approach gives good performance results and allows processing data volumes with millions records. Current paper shows how it is possible to define algebra of associative dependencies with few main operations and rules of inference, taking place in such algebra. The rule set completeness is also proven here to be sure that no rules are lost during inference. The outcome of described theory is highly effective data analysis method, capable to detect wide range of associative dependencies in relational data.

Key words: associative dependency, functional dependency, data dependency, data analysis.

REFERENCES

1. Chesnokov S.V. Determinatsyonnyi analiz sotsyalno-ekonomicheskikh dannyh. Moskva, Nauka, 1982, 168 p.

2. Titova O.V Metody pobudovy ta otsinky ahrehovanyh asotsiatyvnykh pravyl v intelektualnykh bazah danykh. Kharkiv, 2006.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. The main site of the Department of Pathology, UT Southwestern Medical Center. http://pathcuric1.swmed.edu/ pathdb/classifi.html

4. BiNGO utility description, Ghent university site, http:// www.psb.ugent.be/cbd/papers/BiNGO/Home.html.

5. Site of National Institute of Allergy and Infectious Diseases

(NIAID), NIH, http://david.abcc.ncifcrf.gov/

content.jsp?file=/ease/ease1 .htm&type=1.

6. Thun S. Laplacian smoothing / Norwig P., Thun S. Online lecture «Machine Learning», USA, Stanford University -

2011. https://www.ai-class.com/course/video/quizquestion/97.

7. Heaps: Heapsort, Binary Heap, Smoothsort, Soft Heap, Fibonacci Heap, Treap, Binomial Heap, Pairing Heap, Leftist Tree, Skew Heap. Memphis, Tennessee, Llc Books , General Books LLC, 2010, 74 p.

УДК 519.6 Чопоров С. В.1, Гоменюк С. И.2, Лисняк А. А.3, Панасенко Е. В.4

1Канд. техн. наук, старший преподаватель Запорожского национального университета 2Д-р техн. наук, старший преподаватель профессор Запорожского национального университета 3 4 Канд. физ.-мат. наук, старший преподаватель Запорожского национального университета

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ НЕКОТОРЫХ КРЕПЕЖНЫХ СОЕДИНЕНИЙ НА БАЗЕ ТЕОРИИ Р-ФУНКЦИЙ

В статье рассмотрена проблема математического моделирования сложных геометрических объектов на базе теории R-функций. Предложены новые математические модели наиболее распространенных гаечных и болтовых соединений.

Ключевые слова: математическая модель, R-функция, гайка, болт.

ПОСТАНОВКА ПРОБЛЕМЫ

Одним из наиболее динамично развивающихся направлений современной науки и техники является ком -пьютерное моделирование сложных технических объек-

тов и процессов, позволяющее заменить дорогостоящее и продолжительное исследование испытательного образца вычислительным экспериментом. При этом для практического применения многих вычислительных методов, как правило, необходимо построение математических

© Чопоров С. В., Гоменюк С. И., Лисняк А. А., Панасенко Е. В., 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.