Научная статья на тему 'Правила побудови асоціативних правил на прикладі фізичних показників пацієнта'

Правила побудови асоціативних правил на прикладі фізичних показників пацієнта Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
512
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
секвенційний аналіз / data mining / медицина / біоінформатика / виявлення закономірностей / sequential analysis / data mining / medicine / bioinformatics / detection of regularities

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Желізняк Ірина Йосифівна

Охарактеризовано правила побудови асоціативних правил. Позначено об'єкти, що складають досліджуваний набір. Побудовано асоціативні правила для призначення аналізів пацієнту. Наведено найпоширеніші терміни інтелектуального аналізу даних. Розглянуто множину транзакцій, які доступні для медичного аналізу пацієнта. Описано послідовність об'єктів та задане відношення порядку. Зазначено мінімальне значення підтримки множини та відсіяно асоціативні правила на основі цього значення. Охарактеризовано величини корисності асоціативних правил, за допомогою яких встановлюється важливість того чи іншого асоціативного правила. Виявлено, що правильна оцінка корисності асоціативного правила впливає на об'єм та швидкодію доступу до інформації. Введено унікальний ідентифікатор для досліджуваного набору аналізів пацієнта. Означено додаткові чисельні атрибути досліджуваних об'єктів. Охарактеризовано транзакції, що містять додаткові атрибути та операції не лише наявності, а також порівняння. Встановлено відмінність між асоціативними правилами та секвенційним аналізом. Оцінено вплив побудови асоціативних правил під час дослідження предметної області та інтелектуального аналізу даних. Отримані результати буде використано у подальших дослідженнях у цій предметній області.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOME REGULATIONS FOR CONSTRUCTING ASSOCIATIVE RULES ON THE EXAMPLE OF PATIENT'S PHYSICAL CHARACTERISTICS

The authors have investigated one of the important sections of the data mining process. The concept of bioinformatics is considered. The objects included in the study set are defined. The object of the study is the patient's physical parameter and the value of this indicator. The set of transactions, the information about which is available for analysis, is defined. It describes the value of the support for the studied sets, as well as the minimum support is set. We have described and characterized sequences of investigated objects. Various types of sequences are described, including cycles and without cycles. The support for the sequence of investigated objects as the ratio of the number of transactions, which includes the studied sequences, to the total number of transactions is characterized. Examples of sequence analysis and ordering in this subject area are given. A unique identifier has been entered for each patient. The hierarchical structure is described on the example of the patient's physical characteristics. The advantages and disadvantages of using the hierarchical structure are presented. We have proved that the use of this method allows more flexible analysis and additional knowledge. Additional numerical attributes of the investigated objects are described. The main stages of the formation and presentation of associative rules are described. We have defined such types of associative rules as useful, trivial and obscure ones. The associative rules for the studied set of patient's physical indicators are derived. The values of the utility of associative rules, such as support, reliability, improvement, etc. are indicated. We have also characterized the rules for selection and filtering associative rules. Moreover, the authors have introduced more complex comparisons in the conditional part of the associative rule. We used regulations for constructing associative rules and sequencing analysis when conducting the study. These results will be used in further research to identify the patterns of symptoms and diagnoses of the patient.

Текст научной работы на тему «Правила побудови асоціативних правил на прикладі фізичних показників пацієнта»

НЛТУ

УКРЛ1НИ

Hl/IUB

Науковий BicHMK НЛТУУкраТни Scientific Bulletin of UNFU

http://nv.nltu.edu.ua https://doi.org/10.15421/40270923 Article received 13.11.2017 р. Article accepted 28.11.2017 р.

УДК 004.62

ISSN 1994-7836 (print) ISSN 2519-2477 (online)

! EE3 Correspondence author I. J. Zheliznyak iryna.zhelizniak@gmail.com

I. Й. Желiзняк

Нацюнальний утверситет "Львiвська полтехтка", м. Львiв, Украта

ПРАВИЛА ПОБУДОВИ АСОЦ1АТИВНИХ ПРАВИЛ НА ПРИКЛАД1

Ф1ЗИЧНИХ ПОКАЗНИК1В ПАЦ1еНТА

Охарактеризовано правила побудови асощативних правил. Позначено об'екти, що складають дослiджуваний Ha6ip. По-будовано асоцiативнi правила для призначення аналiзiв пащенту. Наведено найпоширенiшi термши iнтелектуального аналь зу даних. Розглянуто множину транзакцш, якi доступнi для медичного аналiзу пащента. Описано послщовшсть об'ектв та задане вiдношення порядку. Зазначено мшмальне значення пiдтримки множини та вiдсiяно асоцiативнi правила на основi цього значення. Охарактеризовано величини корисностi асоцiативних правил, за допомогою яких встановлюеться важли-вiсть того чи iншого асоцiативного правила. Виявлено, що правильна оцiнка корисностi асощативного правила впливае на об'ем та швидкодш доступу до шформацп. Введено ушкальний iденгифiкатор для дослiджуваного набору аналiзiв пацiента. Означено додатковi чисельш атрибути дослiджуваних об'ектiв. Охарактеризовано транзакцп, що мiстять додатковi атрибути та операцп не лише наявносп, а також порiвняння. Встановлено вiдмiннiсть мiж асоцiативними правилами та секвенцiйним аналiзом. Ощнено вплив побудови асоцiативних правил тд час дослiдження предметно1 обласл та iнтелектуального аналiзу даних. Отримаш результати буде використано у подальших дослiдженнях у цiй предметнiй области

Krnuoei слова: секвенцiйний аналiз; data mining; медицина; бюшформатика; виявлення закономiрностей.

Вступ. У медичних i бюлопчних дослщженнях, так само як i в пракгичнiй медицинi, спектр виршуваних завдань насгiльки широкий, що можливе використання будь-яких мегодологiй Data Mining. Прикладом може слугувати побудова щагностично! системи або досль дження ефективносп хiрургiчного втручання (Brin, & Page,_2012; Negnivitsky, 2002).

Одним з найпередовiших напрямк1в медицини е бiоiнформагика. Об'ектом дослщження бiоiнформагики е величезнi обсяги шформацп про послiдовносгi ДНК i первинну структуру бiлкiв, що з'явилися внаслщок вив-чення структури геномiв мiкроорганiзмiв, ссавцiв i лю-дини. Абстрагуючись вiд конкретного змiсгу ще! ш-формацп, 11 можна розглядати як набiр генетичних тек-спв, що складаються iз протяжних символьних посль довностей. Виявлення структурних закономiрностей у таких послщовностях входить до перелшу завдань, що ефективно вирiшуються засобами Data Mining, наприк-лад, за допомогою сiквенцiального та асощативного аналiзу (ohannes, Setnes & Abonyic, 2001; Sutton & Bar-to, 2008).

Мета дослщження - виявити найважливiшi правила побудови асоцiативних правил; визначити закономiр-ностi побудови асощативних правил та подш фiзичних показнишв на рiзнi рiвнi iерархil.

Об'екти та методика дослщження. Одшею з найпоширешших задач аналiзу даних е визначення на-борiв об'ектiв, що часто трапляються у великому наборi об'ектiв. Опишемо цю задачу в узагальненому виглядг Для цього позначимо об'екти, що складають дослщжу-

ваш набори (itemsets), так: I = i2, ..., /},..., in}, де: j -об'екти, що входять у дослiджуванi набори; n - загальна к1льк1сть об'ектiв (Negnivitsky, 2002; Zhang, 2001). У сферi медицини такими об'ектами, наприклад, е показ-ники та аналiзи пащента (табл. 1)

Табл. 1. Об'екти, що входять у дослвджуваний наб1р

1дентифжатор Показник Значення

0 Артерiальний тиск 120/80 мм рт. ст.

1 Венозний тиск 70 мм вод. ст.

2 Кашлярний тиск 70 мм рт. ст.

3 Пульс 85 ударiв/хв

4 Температура 36,6 С

5 Ршень гемоглобшу в кровi 145 г/л

6 рН 7,35

Отже, вони вщповщають так1й множит об'екпв: I = {артерiальний тиск, венозний тиск, кашлярний тиск, пульс, температура, рiвень гемоглобiну в кров^ рН}.

Набори об'ектiв i3 множини I, що збер^аються в БД i пiддаються аналiзу, називають транзакщями. Опишемо транзакцiю як тдмножину множини I, а саме:

T = j £ I}.

Так1 транзакцп в лiкарнi вщповщають здачi медичних аналiзiв пацiента i зберйаються в базi даних у виглядi медично! картки. У них перераховуються аналiзи, що пацiент здав для анамнезу та поставлення дiагнозу (Johannes, Setnes, & Abonyic, 2001; Zhang, 2001).

Набiр транзакцш, шформащя про як1 доступна для аналiзу, опишемо такою множиною:

D = {T1, T2,..., Tr,..., Tm}, де m - к1льк1сть доступних для аналiзу транзакцiй.

1нформащя про aBTopiB:

Желiзняк 1рина Йосифiвнa, acnipaHT кафедри iнформацiйних систем та мереж. Email: iryna.zhelizniak@gmail.com Цитування за ДСТУ: Желiзняк I. Й. Правила побудови асощативних правил на пpикладi фiзичних показнишв патента. Науковий

вiсник НЛТУ УкраТни. 2017. Вип. 27(9). С. 107-110. Citation APA: Zheliznyak, I. J. (2017). Some Regulations for Constructing Associative Rules on the Example of Patient's Physical Characteristics. Scientific Bulletin of UNFU, 27(9), 107-110. https://doi.org/10.15421/40270923

Результата дослщження та ix обговорення. Для

використання методiв Data Mining множина D може бути представлена у виглад таблицi (табл. 2):

Табл. 2. Множина досл1джуваних об'екпв

Номер транзакцй Номер показника Показник Значення

0 0 Аpтеpiальний тиск 110/75 мм рт. ст.

0 3 Пульс 110 удаpiв/хв

0 1 Венозний тиск 58 мм рт. ст.

1 4 Температура 37,4 С

1 5 pH 7,46

2 1 Венозний тиск 72 мм рт. ст.

2 6 рН 7,81

2 4 Температура 37,2 С

Множину транзакцiй, у яку входять об'екти ji, поз-начають так: D = {Tr|ij е= Tr; j = 1..n; r = 1..m} £ D.

У цьому прикладi множиною транзакцш, що мiстять об'ект Температура, е така множина:

Dтемпеpатуpа = {{Температура, Рiвень гемоглоб^}, {Ве-нозний тиск, pH, Температура}}.

Деякий довiльний набip об'ектiв (itemset) позначимо в такий спосiб: F = {/j|/je I; j = 1..n}.

Множини транзакцш, у яш входить набip F, позначимо в такий споаб:

DF = {Tr|F £ Tr; r = 1..m} £ D.

Вiдношення кiлькостi тpанзакцiй, в яке входить на-бip F, до загально! кiлькостi тpанзакцiй називають тд-тримкою (support) набору F i позначають Supp(F) Supp(F) = |Df|/D.

Наприклад, для набору {pH, температура} тдтрим-ка буде доpiвнювати 2/3, тому що цей набip входить у двi транзакци (номери 1 та 2) iз трьох можливих (Negni-vitsky, 2002; Sutton & Barto, 2008).

Пiд час пошуку аналiтик може вказати мiнiмальне значения тдтримки цiкавих йому набоpiв Suppmin. На-бip називають великим (large itemset), якщо значення його тдтримки бшьше вiд мiнiмального значення тдтримки, заданого користувачем: Supp(F) > Suppmin.

Отже, пiд час пошуку асоцiативних правил потpiбно знайти множину всiх частих набоpiв

L = {F|Supp(F > Suppmin}.

У цьому випадку наборами при Suppmin = 2/3, е таю:

• {рН} Suppmin = 2/3;

• {венозний тиск} Suppmin = 2/3;

• {температура} Suppmin = 2/3;

• {рН, температура} Suppmin = 2/3.

Шд час аналiзу часто викликае штерес послвдов-нiсть подш, що вiдбуваються. За виявлення закономip-ностей у таких послвдовностях можна з деякою часткою ймовipностi прогнозувати появу подiй у майбутньому, що дае змогу приймати пpавильнiшi ршення (Negni-vitsky, 2002). Послiдовнiстю називають впорядковану множину об'ектiв. Для цього на множину мае бути задано вщношення порядку.

Тодi послвдовшсть об'ектiв можна описати в такому виглядг S = {..., ip,..., iq}, деp < q. Наприклад, у випадку з аналiзами такою послiдовнiстю об'ектiв може бути дата здачi аналiзiв. Така послвдовшсть:

S = {(piвень гемоглобшу, 01.10.2017), (венозний тиск, 25.09.2017), (рН, 28.09.2017)}

Можна iитеpпpетувати як послвдовшсть здачi аналь зiв однiею людиною в piзний час (спочатку помipяли венозний тиск, потiм вимipяли piвень рН, i вкiицi pi-вень гемоглобiиу).

Розpiзияють два види послвдовностей: з циклами i без цимв. У першому випадку допускаеться входжен-ня у послiдовнiсть одного i того самого об'екта на piз-них позицiях:

S = {., ip,., iq,...}, деp < q, iq = ip.

Кажуть, що тpанзакцiя T мютить послiдовнiсть S, як-що S £ T i об'екти, що входять у S, входять i в множину Т зi збереженням ввдношення порядку. При цьому допускаеться, що в множит Т мiж об'ектами з послвдов-ностi S можуть перебувати iншi об'екти.

Пiдтpимкою послiдовностi S називають вщношення кiлькостi тpанзакцiй, в яку входить послщовшсть S, до загально! шлькосп тpанзакцiй. Послiдовнiсть е частою, якщо !! пiдтpимка перевищуе мшмальну пiдтpимку, зада^ користувачем: Supp(S) > Suppmin.

Завданням секвенцiйного аналiзу е пошук всiх час-тих послщовностей: L = {S|Supp(S) > Suppmin}.

Основною вiдмiииiстю завдання секвенцшного ана-лiзу вiд пошуку асотативних правил е встановлення ввдношення порядку мiж об'ектами множини I. Це вщ-ношення може бути визначено piзними способами. Пiд час аналiзу послiдовностi подiй, що вiдбуваються в ча-сi, об'ектами множини I е поди, а ввдношення порядку ввдповвдае хронологи !х появи (Zhang, 2001).

Наприклад, тд час аналiзу послвдовностей здачi аналiзiв у лшарш наборами е пакети аналiзiв, яш здае пацiент в piзний час, а вщношення порядку - це час здшснення цих аналiзiв:

D = {{(температура, аpтеpiальний тиск, катлярний тиск), (рН, температура, пульс)}, {^вень гемоглобiну в кpовi, температура), (аpтеpiальний тиск, температура), (температура, венозний тиск)}, {^вень гемоглобiну в кpовi)}}.

Звичайно, так виникае проблема щентифшаци па-цiентiв. На пpактицi це виршують введенням медичних карток, що мають унiкальний iдентифiкатоp (табл. 3).

Табл. 3. Введення унжального 1дентиф1катора для множини анал1з1в

ID патента Послвдовшсть здачi аналiзiв

0 (температура, аpтеpiальний тиск, катлярний тиск), (рН, температура, пульс)

1 (ршень гемоглобшу в кров^ температура), (арте-piальний тиск, температура), (температура, венозний тиск)

2 (ршень гемоглобшу в кров^

1нтерпретувати таку послвдовшсть можна так: патент з щентифшатором 0 спершу здав температуру, ар-тер1альний та катлярний тиски, а з наступним сво!м вь зитом здав р1вень рН, показники температури та пульсу. Шдтримка, наприклад, посл1довност1 {(артер1альний тиск, температура)} становить 2/3, оск1льки вона трап-ляеться у пащенпв з дешифраторами 0 та 1.

У багатьох прикладних областях об'екти множини I природним чином поеднуються в групи, як1 своею чер-гою також можуть об'еднуватися у бшьш загальш групи, 1 т. ш Отже, виходить 1ерарх1чна структура об'екпв.

Для прикладу тако! 1ерархи може бути така катего-ризащя анал1з1в:

• тиск: артер1альний; венозний; катлярний.

• ф1зичш показники: температура; анал1з кровг р1вень гемоглобшу; рН.

Наявшсть 1ерархи змшюе уявлення про те, коли об'ект i присутнш у транзакци Т. Очевидно, що шдтримка не окремого об'екта, а групи, в яку вш входить, бшьша

Supp(Iq) > Supp (г}), де ^ е 1д.

Це пов'язано з тим, що тд час аналiзу груп пщрахо-вують не тшьки транзакцп, в як входить окремий об'ект, але i транзакцп, що мiстять Bei об'екти аналiзова-hoï групи. Наприклад, якщо пiдтримка Supp {артерiаль-ний тиск, температура} = 2/3, то тдтримка Supp {тиск, фiзичнi показники} = 2/3, осшльки об'екти груп тиск i фiзичнi показники входять у транзакцп з щентифшато-рами 0 i 1.

Використання iерархiï дае змогу визначити зв'язок, що входить у вищi рiвнi iерархiï, осшльки тдтримка набору може збшьшуватися, якщо пщраховуеться вхо-дження групи, а не ïï об'екта. Крiм пошуку наборiв, що часто трапляються у транзакщях, як1 своею чергою складаються з об'екпв F = {i\iei} або груп одного рiвня iерархiï

F = {IgIIg Œ F+1}. Можна розглядати також змiшанi набори об'ектiв i груп

F = {i, 1g\i Π1s Π/+1}.

Це дае змогу розширити аналiз та отримати додатковi знання.

За iерархiчноï структури об'ектiв можна змшювати характер пошуку, змiнюючи аналiзований рiвень. Очевидно, що чим бшьше об'ектiв у множинi 1, тим бшьше об'ектiв у транзакщях Т i частих наборах. Це, своею чергою, збшьшуе час пошуку й ускладнюе аналiз ре-зультапв. Зменшити або збiльшити к1льк1сть даних можна за допомогою iерархiчного уявлення аналiзова-них об'ектiв. Перемiщаючись вгору по iерархiï, узагаль-нюемо дан i зменшуемо 1'х к1льк1сть, i навпаки.

Недолiком узагальнення об'ектiв е менша кориснiсть отриманих знань, осшльки в цьому разi вони належать до груп, що не завжди несуть корисну iнформацiю. Для досягнення компромiсу мiж аналiзом груп i аналiзом ок-ремих об'екпв часто роблять так: спочатку аналiзують групи, а попм, залежно вiд отриманих результапв, дос-лщжують об'екти, що защкавили аналiтика груп (Brin & Page, 2012). У будь-якому разi можна стверджувати, що наявнiсть iерархiï в об'ектах i ïï використання в задачi пошуку асоцiативних правил дае змогу виконувати бiльш гнучкий аналiз i отримувати додатковi знання.

У розглянутiй задачi пошуку асощативних правил наявшсть об'екта в транзакцп визначалося тiльки його присутнiстю в нш (ij Œ T) або вщсутшстю (ij Î T). Часто об'екти мають додатковi атрибути, як правило, чисель-Hi. Наприклад, аналiзи у транзакцiï мають атрибути: значення i тривалють. При цьому наявшсть об'екта в на-борi може визначатися не просто фактом його присут-носп, а i виконанням умови стосовно певного атрибуту. Наприклад, тд час аналiзу транзакцiй, здшснених па-цiентами, цiкавить не лише значення аналiзу, а й нас-к1льки цей показник е стабшьним (довготривалим).

Для розширення можливостей аналiзу за допомогою пошуку асоцiативних правил у дослщжуваш набори можна додавати додатковi об'екти. Загалом вони мо-жуть мати природу, вiдмiнну вщ основних об'ектiв. Наприклад, у разi здачi аналiзiв можна ввести поле частота здачi або симптоми, яш передують для здачi саме цих аналiзiв.

Рiшення завдання пошуку асощативних правил, як i будь-якого завдання, зводиться до оброблення вихщних даних та отримання результатiв. Оброблення вихщних даних виконують за певним алгоритмом Data Mining.

Результати, отримаш при виршенш цього завдання, прийнято представляти у виглядi асоцiативних правил. У зв'язку з цим при !х пошуку видiляють два основних етапи: знаходження всiх великих наборiв об'ектiв; гене-рацiя асоцiативних правил iз знайдених великих набо-рiв об'ектiв.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Асоцiативнi правила мають такий вигляд:

Якщо (умова) то (результат), де умова - зазвичай не лопчний вираз (як у класифша-цiйних правилах), а набiр об'екпв з множинi I, з якими пов'язанi (асоцiйованi) об'екти, що входять у результат цього правила.

Наприклад, асощативне правило: Якщо (артерiальний тиск, рН), то ^вень гемоглобiну) означае, що якщо патент здае артерiальний тиск та рь вень рН, то вш здае i рiвень гемоглобiну.

Як уже зазначено, в асощативних правилах умова i результат е об'ектами множини I: Якщо X то Y, де IE I, Ye I, XU Y = ф.

Основною перевагою асощативних правил е !х легке сприйняття людиною i проста iнтерпретацiя мовами програмування. Однак вони не завжди корисш (Sutton & Barto, 2008). Видiляють три види правил:

• корист правила - мютять дiйсну iнформацiю, яка раш-ше була невiдома, але мае лопчне пояснення. Такi правила можуть бути використаш для прийняття рiшень, що приносять вигоду;

• тривiалънi правила - мютять дiйсну та легко зрозумiлу шформащю, яка вже вiдома. Такi правила, хоча i можна пояснити, але не можуть принести будь-яко! корисп, ос-кiльки вiдображають або вiдомi закони в дослiджуванiй областi, або результати минуло! д1яльносп. Iнодi таю правила можуть використовуватися для перевiрки виконан-ня ргшень, прийнятих на тди^ попереднього аналiзу;

• незрозумт правила - мютять iнформацiю, яка не може бути пояснена. Таю правила можуть бути отримаш або на основi аномальних значень, або глибоко прихованих знань. Безпосередньо, таю правила не можна використо-вувати для прийняття ршень, позаяк !х нез'ясовшсть може призвести до непередбачуваних результатiв. Для кра-щого розумiння потрiбен додатковий аналiз. Асощативш правила будуються на основi великих

наборiв. Так, правила, побудованi на mдставi набору F, е уйма можливими комбiнацiями об'ектiв, що входять у нього. Наприклад, для набору {артерiальний тиск, температура, пульс} можуть бути побудоваш так! асощативш правила:

• якщо (артерiальний тиск) то (температура);

• якщо (артерiальний тиск) то (пульс);

• якщо (артерiальний тиск) то (температура);

• якщо (артерiальний тиск) то (температура, пульс);

• якщо (температура, пульс) то (артерiальний тиск);

• i так дал1

Отже, шльшсть асощативних правил може бути ду-же великою i поганою для сприйняття людиною. До того ж, не вй з побудованих правил несуть в со6! корисну шформащю. Для оцшки !х корисносп вводять так1 ве-личини:

• тдтримка (support) - показуе, який вщсоток транзакцш шдгримуе це правило;

• достовiрнiстъ (confidence) - показуе ймов!ршсть того, що з наявносп в транзакцп набору I випливае наявшсть у нш набору Y;

• покращення (improvement) - показуе, чи корисне це правило для до^дження.

Даш оцшки використовуються при генерацп правил. Аналггик шд час пошуку асошативних правил задае мь шмальш значения перерахованих величин (Roubus et а1., 2001). Унаслщок цього п правила, як1 не задоволь-няють ш умови, ввдкидаються 1 не включаються до рь шення задача

Якщо об'екти мають додатков1 атрибути, яш вплива-ють на склад об'екпв у транзакщях, а отже, 1 в наборах, то вони повинш враховуватися в правилах, що генеру-ються. У цьому раз1 умовна частина правил буде м1сти-ти не тшьки перев1рку наявносп об'екта у транзакцп, але 1 складшш1 операцп порiвияния: бшьше, менше, включае та iн. Результатна частина правил також може мiстити твердження щодо значень атрибупв. Наприк-лад, якщо у показника розглядаеться актуальнiсть, то правила можуть мати такий вигляд:

Якщо pH.актуальнiсть > 10 дшв то рiвень гемоглобiну в кровгактуальшсть < 3днiв. Це правило сввдчить про те, що пацiент робив аналiз рН бiльше нiж 10 дшв тому, то, ймовiрно, його аналiз ге-моглобiну в кровi дiйсний не бiльше нiж 3 дш

Висновки. Завданням пошуку асошативних правил е визначення наборiв об'екпв, що часто трапляються, у

великш множинi об'ектiв. Завданням секвенцiйного аналiзу у пошук частих послiдовностей. Основною вщ-мiииiстю завдання секвенцiйного аналiзу вiд пошуку асоцiативних правил е встановлення ввдносини порядку мiж об'ектами. Наявшсть iеpаpхil в об'ектах i ii викорис-тання в задачi пошуку асоцiативних правил дае змогу виконувати бiльш гнучкий аналiз й отримувати додат-ковi знання. Результати ршення задачi представляють-ся у виглядi асоцiативних правил, умовна i заключна частина яких мiстить набори об'екпв.

Перелш використаних джерел

Brin, S., & Page, L. (2012). The anatomy of a large-scale hypertextual Web search engine: In Seventh International World Wide Web Conference, (pp. 23-29). Brisbane, Australia. Johannes, R., Setnes, M., & Abonyic, J. (2001). Learning Fuzzy Classification Rules from Labeled Data. Delft: Information science. 320 p. Negnivitsky, M. (2002). Artificial Intelligence - A Guide to Intelligent

Systems. Addison-Wesley: Pearson Education Limited. 230 p. Sutton, R. S., & Barto, A. G. (2008). Reinforcement Learning. An

Introduction. London: MIT Press, Cambridge. 268 p. Zhang, L. (2001). Comparation of Fuzzy c-means Algorithm and New Fuzzy Clustreing and Fuzzy Merging Algorithm. Nevada: Computer Science Departament, University of Nevada. 328 p.

И. И. Желизняк

Национальный университет "Львовская политехника", г. Львов, Украина

ПРАВИЛА ПОСТРОЕНИЯ АССОЦИАТИВНЫХ ПРАВИЛ НА ПРИМЕРЕ

ФИЗИЧЕСКИХ ПОКАЗАТЕЛЕЙ ПАЦИЕНТА

Охарактеризованы правила построения ассоциативных правил. Обозначены объекты, составляющие исследуемый набор. Построены ассоциативные правила для назначения анализов пациенту. Приведены наиболее распространенные термины интеллектуального анализа данных. Рассмотрено множество транзакций, которые доступны для медицинского анализа пациента. Описана последовательность объектов и заданное отношение порядка. Указано минимальное значение поддержки множества и отсеяны ассоциативные правила на основе этого значения. Охарактеризованы величины полезности ассоциативных правил, с помощью которых устанавливается важность того или иного ассоциативного правила. Выявлено, что правильная оценка полезности ассоциативного правила влияет на объем и быстродействие доступа к информации. Введен уникальный идентификатор для исследуемого набора анализов пациента. Отмечены дополнительные многочисленные атрибуты исследуемых объектов. Охарактеризованы транзакции, которые содержат дополнительные атрибуты и операции не только наличия, а также сравнения. Установлено различие между ассоциативными правилами и секвенциальным анализом. Оценено влияние построения ассоциативных правил при исследовании предметной области и интеллектуальном анализе данных. Полученные результаты будут использованы в дальнейших исследованиях в данной предметной области.

Ключевые слова: секвенциальный анализ; data mining; медицина; биоинформатика; выявление закономерностей.

I. J. Zheliznyak

Lviv Polytechnic National University, Lviv, Ukraine

SOME REGULATIONS FOR CONSTRUCTING ASSOCIATIVE RULES ON THE EXAMPLE

OF PATIENT'S PHYSICAL CHARACTERISTICS

The authors have investigated one of the important sections of the data mining process. The concept of bioinformatics is considered. The objects included in the study set are defined. The object of the study is the patient's physical parameter and the value of this indicator. The set of transactions, the information about which is available for analysis, is defined. It describes the value of the support for the studied sets, as well as the minimum support is set. We have described and characterized sequences of investigated objects. Various types of sequences are described, including cycles and without cycles. The support for the sequence of investigated objects as the ratio of the number of transactions, which includes the studied sequences, to the total number of transactions is characterized. Examples of sequence analysis and ordering in this subject area are given. A unique identifier has been entered for each patient. The hierarchical structure is described on the example of the patient's physical characteristics. The advantages and disadvantages of using the hierarchical structure are presented. We have proved that the use of this method allows more flexible analysis and additional knowledge. Additional numerical attributes of the investigated objects are described. The main stages of the formation and presentation of associative rules are described. We have defined such types of associative rules as useful, trivial and obscure ones. The associative rules for the studied set of patient's physical indicators are derived. The values of the utility of associative rules, such as support, reliability, improvement, etc. are indicated. We have also characterized the rules for selection and filtering associative rules. Moreover, the authors have introduced more complex comparisons in the conditional part of the associative rule. We used regulations for constructing associative rules and sequencing analysis when conducting the study. These results will be used in further research to identify the patterns of symptoms and diagnoses of the patient.

Keywords: sequential analysis; data mining; medicine; bioinformatics; detection of regularities.

i Надоели баннеры? Вы всегда можете отключить рекламу.