Научная статья на тему 'Ассоциативные правила в интеллектуальном анализе данных'

Ассоциативные правила в интеллектуальном анализе данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3085
385
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АССОЦИАТИВНОЕ ПРАВИЛО / РАЗЛИЧНЫЕ ВИДЫ АССОЦИАТИВНЫХ ПРАВИЛ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / НЕЧЕТКИЕ АССОЦИАТИВНЫЕ ПРАВИЛА / АСОЦіАТИВНЕ ПРАВИЛО / РіЗНі ВИДИ АСОЦіАТИВНИХ ПРАВИЛ / іНТЕЛЕКТУАЛЬНИЙ АНАЛіЗ ДАНИХ / НЕЧіТКі АСОЦіАТИВНі ПРАВИЛА / ASSOCIATION RULE / VARIOUS TYPES OF ASSOCIATION RULES / DATA MINING / FUZZY ASSOCIATION RULES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зайко Т. А., Олейник А. А., Субботин С. А.

Рассмотрена задача построения моделей на основе ассоциативных правил. Проанализирован процесс поиска ассоциативных правил. Исследованы различные виды ассоциативных правил (негативные, численные, обобщенные, временные и нечеткие ассоциативные правила) при использовании их для решения задач интеллектуального анализа данных. Библиогр.: 15 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Association rules in data mining

The problem of synthesis of models based on association rules is concidered. The process of mining association rules is analyzed. Various types of association rules (negative, quantitative, generalized, temporal and fuzzy association rules) for solving data mining problems are investigated. Refs.: 15 titles.

Текст научной работы на тему «Ассоциативные правила в интеллектуальном анализе данных»

УДК 004.93

Т.А. ЗАЙКО, аспирантка, ЗНТУ, Запорожье,

А.А. ОЛЕЙНИК, канд. техн. наук, доц., ЗНТУ, Запорожье,

С.А. СУББОТИН, канд. техн. наук, проф., ЗНТУ, Запорожье

АССОЦИАТИВНЫЕ ПРАВИЛА В ИНТЕЛЛЕКТУАЛЬНОМ

АНАЛИЗЕ ДАННЫХ

Рассмотрена задача построения моделей на основе ассоциативных правил. Проанализирован процесс поиска ассоциативных правил. Исследованы различные виды ассоциативных правил (негативные, численные, обобщенные, временные и нечеткие ассоциативные правила) при использовании их для решения задач интеллектуального анализа данных. Библиогр.: 15 назв.

Ключевые слова: ассоциативное правило, различные виды ассоциативных правил, интеллектуальный анализ данных, нечеткие ассоциативные правила.

Постановка проблемы и анализ литературы. В настоящее время в связи со снижением удельной стоимости хранения данных возрастает объем хранимой информации на предприятиях [1, 2], в результате чего возникают задачи, связанные с необходимостью обработки больших массивов данных с целью поиска новых закономерностей, установления и выявления новых знаний.

Задачи прикладного характера, связанные с необходимостью обработки больших массивов данных, возникают на промышленных предприятиях, а также в организациях, занимающихся розничной торговлей, финансовым анализом, логистикой и коммуникациями [2 - 4].

Для анализа данных в настоящее время широко применяют методы и средства искусственного интеллекта [1, 4, 5], в частности нейронные сети, нечеткие модели, деревья решений, байесовские сети, методы регрессионного анализа и др. [1, 4 - 7].

Однако такие методы, как правило, используются для обработки структурированных данных, представленных в виде массивов, содержащих значения признаков и выходных параметров экземпляров выборки [1, 4 - 6].

В настоящее время наблюдается переизбыток так называемых неструктурированных данных [1, 2], в которых каждая единица хранения не может быть представлена конечным числом признаков (атрибутов). Такие данные могут содержать, например, информацию о товарах, купленных одним покупателем у предприятия розничной торговли; результаты ответов респондента при проведении анкетирования; набор

© Т.А. Зайко, А.А. Олейник, С.А. Субботин, 2013

установленных диагнозов и результатов лабораторных исследований у пациентов лечебных учреждений; набор различного рода данных о клиентах предприятий и др.

Такие данные представляются, как правило, в виде последовательностей связанных событий [1 - 4]. При этом нет чёткого понимания, что является входными данными, а что выходными. Кроме того, размер каждой транзакции (множества событий, произошедших одновременно) не является фиксированным.

В связи с этим возникают задачи:

- сокращения объемов неструктурированных данных путем удаления избыточных транзакций, исключение которых из дальнейшего рассмотрения не повлияет на качество синтезируемых правил и моделей;

- выявления интересных правил, позволяющих извлекать новые знания на основе имеющихся неструктурированных данных;

- построения моделей на основе больших массивов неструктурированных данных для решения практических задач прогнозирования, классификации и кластеризации данных.

Для обработки больших массивов неструктурированных данных и решения указанных задач целесообразно использовать методы поиска ассоциативных правил [2, 4, 5, 8 - 10], позволяющие выявлять новые закономерности вида "если условие, то действие" в имеющихся данных и синтезировать на их основе интерпретабельные базы правил, понятные экспертам в прикладных областях.

В настоящее время предложено достаточно большое количество видов ассоциативных правил, каждый из которых целесообразно применять для решения определенного класса задач. Поэтому актуальным является обзор и классификация ассоциативных правил для дальнейшего их применения с целью решения практических задач интеллектуального анализа данных.

Цель статьи - анализ ассоциативных правил и методов их построения для решения задач интеллектуального анализа данных.

Синтез ассоциативных правил. Пусть задан набор данных Б:

О = {Т1,Т2,...^в }, (1)

представляющий собой транзакционную базу данных [2], в которой каждый элемент Т^, ]' = 1, 2, ..., ИО содержит информацию о некоторых

взаимосвязанных событиях, где = |о| - количество элементов

(транзакций) в наборе данных Б.

Элементы Т] могут представляться в виде (2):

Т = \tidj, itemj ), (2)

где tid]■ - идентификатор ]-й транзакции Т];

itemJ = У у, ^} с I - список элементов транзакции Т]; tij - /-й

элемент списка Яет^ , і = 1,2,..., їїііет,; ^Нет. = Іет] - количество элементов множества /їет^ ; I = ,х2,...,т^ } - множество возможных

значений, которые могут входить в список элементов ЫаП] каждой транзакции Т], ] = 1,2,....ДТ набора данных Б; га - а-й элемент множества I, а = 1, 2, ..., N ; N = И - количество элементов в I.

Таким образом, каждая транзакция Т] набора данных Б представляет собой список элементов itemJ, являющийся

подмножеством множества I.

Ассоциативным правилом (АП) называется импликация X ^ У, в которой наборы X и У не пересекаются (3) [2, 8 - 10]:

X ^У: X с I, У с I, XПУ = 0. (3)

Т.е. ассоциативное правило описывает закономерности вида: "Из события X следует событие У " или "если условие, то действие" [2, 9].

Задача поиска ассоциативных правил ЛЯ заключается в том, чтобы на основе имеющегося набор данных Б (транзакционной базы данных) найти закономерности между событиями %а єI, а = 1, 2, ..., N .

Задача построения АП связана с необходимостью вычисления поддержки достоверности правил а. Набор X с I из базы Б имеет поддержку supp(X), определяемую как отношение количества транзакций Т в наборе данных Б, содержащих множество элементов X, к общему количеству транзакций в базе данных Б.

Поддержкой supp(X ^ У) правила X ^ У является поддержка

множества X и У: supp(X ^ У) = supp(X и У).

Достоверностью еоп!( X ^ У) правила X ^ У называют

отношение его поддержки supp(X ^ У) к поддержке supp(X)

множества X.

Процесс синтеза ассоциативных правил может быть разбит на два этапа [2, 9]:

- генерирование всех наборов X с уровнем поддержки, не ниже заданного экспертом порогового значения minsupport(X), в результате чего формируются часто встречаемые наборы X с I;

- генерирование всех правил X ^ Y с уровнем достоверности, не ниже заданного экспертом порогового значения minconfidence( X ^ Y).

Анализ видов ассоциативных правил. При поиске взаимосвязей между различными элементами в транзакционных базах данных D = {Т1,Т2,...ТЩ} часто необходимо выявлять не только, так

называемые, позитивные ассоциативные правила (positive association rules) X ^ Y, но и другие виды правил. К таким правилам относятся [8 -15]: негативные, численные, обобщенные, временные и нечеткие АП.

Негативные АП (negative association rules) характеризуют отрицательную взаимосвязь между различными событиями типа: "Если

произошло событие X, то событие Y не наступит" (X ^ Y) или "Если не

произошло событие X, то наступит событие Y' (X ^ Y) [11].

Необходимость извлечения негативных ассоциативных правил X ^ Y или X ^ Y наряду с позитивными правилами X ^ Y обуславливается следующей причиной. Построение полного набора ассоциативных правил (X ^ Y, X ^ Y, X ^ Y) между различными объектами тає I, a = 1,2,..., Щ базы данных D = {Т1, Т2, ..., Тщ }

позволит более детально описать исследуемые зависимости, что в свою очередь приведет к более точным результатам прогнозирования по синтезированной базе правил [8, 11].

Для поиска интересных негативных правил (таких, которые представляют интерес в конкретной прикладной области в соответствии с заданным набором данных D) необходимо учитывать уровень их интереса, определяемый в соответствии с критерием Пятецкого-Шапиро [2, 9] следующим образом

supp(X ^ Y) - supp(X)supp(Y) > єІ. (4)

При выполнении неравенства (4) правила X ^ Y считаются интересными. Аналогичным образом можно определить и неравенства для поиска интересных негативных правил типа X ^ Y [11].

Таким образом, при извлечении негативных правил X ^ Y из набора данных D поиск происходит таких транзакций Tj, в результате

чего извлекается набор негативных правил X ^ Y, удовлетворяющих списку условий (5):

(supp(X) > minsupport) n (supp(Y) > minsupport)n n (supp(X ^ Y) > minsupport);

conf X ^ Y) > minconfidence ; (5)

Isupp(X ^ Y) - supp(X)supp(Y)| > eJ.

Приведенные условия позволяют выявлять достоверные негативные правила X ^ Y с приемлемым уровнем поддержки и являющиеся интересными в исследуемой предметной области.

Важно отметить, что при идентификации негативных ассоциативных правил необходимо обрабатывать нечастые последовательности в заданной базе данных D. Однако большинство методов синтеза АП основаны на извлечении и анализе часто встречаемых наборов, что затрудняет их применение на практике для поиска негативных АП [2, 8-11], и обуславливает необходимость разработки новых методов синтеза АП, позволяющих извлекать как позитивные, так и негативные АП.

Часто признаки ха е J , a = 1, 2, ..., N могут принимать не только бинарные, но и численные значения из некоторого диапазона значений

Xa e[xa min; Xa max] ИЛИ множества значений ) = ^ Ta2, ..., XaUa ) .

Поэтому актуальной является задача выделения правил вида Если X е [Xmn; Xmax ] то Y е [Ymin; Ymax ]. Численным ассоциативным правилом (quantitative association rule) называется импликация вида (6) [2, 12]:

(X, v(X))^ Y, v(Y), (6)

где v(X)eT(X) и v(Y )eT(Y) - значения переменных X и Y , соответственно, принадлежащие множествам возможных значений T(X) и T(Y).

Поддержка supp(X ^ Y) численного АП X ^ Y вида (6) определяется по формуле (7) [12]:

1 \d\Nx+Nj

supp(X ^ Y )^|^ X П vj (xa \ Xa e(X U Y) , (7)

\D\ j=1 ¿=1

где Nx и N7 - количество элементов ха е J в множествах

X = ^ ..., хN* } и Y = {х^+l, +2, ..., X^+ny }, соответственно;

v j (Xa) - значение a-го признака xa в j-й транзакции T базы данных D .

Достоверность еопГ (X ^ У) численного АП X ^ У вида (6) определяется аналогично позитивным АП. При этом поддержка 8ирр(х) множества X вычисляется в соответствии с формулой (8) [12]:

1 М ^ X

) = ЩХП(таI Та є X .

\и\ ]=1 і=1

Iм N

(8)

]=1 і=1

Процесс поиска численных АП вида (6) по заданным наборам данных М связан с необходимостью разбиения на интервалы (дискретизации) диапазонов возможных значений элементов та є I, входящих в транзакции Т}-, ] = 1, 2, ..., N . В результате такого разбиения каждая ¡-я транзакция Т] = (tidJ, иоП]) представляется списком элементов іїаП] = (^], t2], ..., tN^ ]}сI, в котором каждый /-й элемент tij представляется в виде (9):

при этом множество I = {т15т2,...,т^} возможных значений, которые могут входить в список элементов itemj каждой транзакции Т}-, содержит элементы ха (10):

где татп и %атах - минимальное и максимальное значение, которые может принимать а-й элемент %а множества I; татпя и татахя -минимальное и максимальное значение с-го интервала разбиения значений а-го элемента та множества I; ^разб^ - количество интервалов

разбиения а-го элемента та.

После дискретизации значений численных переменных выполняется поиск ассоциативных правил X ^ У. При этом используются методы извлечения ассоциативных правил, удовлетворяющих приведенным выше условиям к позитивным правилам вида X ^ У, но при таком поиске каждый диапазон дискретизации каждой переменной считается отдельным элементом, который может быть использован при построении ассоциативного правила [2].

tij = (элемент та є I; диапазон значений элемента га), (9)

с=1

Однако необходимость дискретизации диапазонов значений переменных для извлечения численных АП существенно увеличивает пространство поиска и требования к вычислительным ресурсам ЭВМ. Кроме того, в некоторых случаях дискретизация приводит к неудачным разбиениям диапазона значений переменных, в результате чего не обеспечивается приемлемая точность прогнозирования или классификации по синтезированной базе АП. Поэтому актуальной задачей является разработка новых методов поиска численных АП, свободных от указанных недостатков.

Иногда элементы %а е I, образующие транзакции Tj базы данных

D, могут быть объединены в группы, а группы элементов могут формировать группы более высокого уровня и т.д., образуя, таким образом, некоторую иерархическую древоподобную структуру. В таких случая целесообразно извлекать правила, связывающие не только наборы конкретных элементов xa е I из базы данных D, но и элементы с группами, а также группы с группами. Это особенно полезно, например, в задачах анализа взаимосвязей потребительского спроса на различные группы товаров, взаимосвязей различных групп болезней в медицинском диагностировании и т.п. [8 - 10, 13].

Пусть задана транзакционная база данных D (1), содержащая элементы xa е I, которые могут быть отнесены к определенным группам Gr = {grb gr2, grNa }. То есть может быть построено дерево,

описывающее связи типа "часть - целое" исследуемой предметной области. Для узла-потомка Tchild будем считать узел тparent, который

располагается на более высоком уровне дерева, и от которого имеется

путь к узлу Tchld .

Обобщенным АП (generalized association rule) называется импликация X ^ Y, в которой ни один из элементов множества Y = {ty1, ty2, ..., тN } не является предком какого-либо элемента

множества X = {tx1, tX2, ..., tn } [2, 8 - 10, 13]. При этом остальные

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

условия для АП сохраняются.

Задача поиска обобщенных АП заключается в том, чтобы на основе заданной базы данных D и построенной иерархии элементов идентифицировать все правила с уровнями поддержки, достоверности и интереса, не ниже заданных пороговых значений minsupport, minconfidence и ег. При этом поддержка supp(X ^ Y) и достоверность

conf (X ^ Y) обобщенных АП X ^ Y вычисляются аналогично позитивным АП.

Использование дополнительной информации об иерархических связях и о возможности группировки элементов та е I, а также введение дополнительного множества Gr = {gr1, gr2, ..., grNo } при поиске АП

позволяет извлекать правила между различными иерархическими уровнями, что, в свою очередь, обеспечивает возможность выявления скрытых связей между различными наборами элементов из D (1). Это достигается в том числе за счет того, что поддержка группы supp(gr} может быть больше поддержки элементов Ta е I, ее образующих, и, соответственно, быть более минимальной поддержки minsupport(X), что позволит синтезировать правила типа gr ^ Y , X ^ gr, gr1 ^ gr2, в то время как некоторые правила типа X ^ Y не будут извлечены в силу невыполнения условий соответствия, условий удовлетворения пороговым значениям поддержки и достоверности.

С целью извлечения обобщенных АП применяют методы поиска позитивных АП. При этом каждая транзакция T}- базы данных D (1)

расширяется путем дополнения ее всеми предками каждого из элементов, в нее входящих. Однако применение такого подхода связано с такими проблемами [8, 13]:

- элементы gr, расположенные на верхних иерархических уровнях дерева, характеризуются существенно более высокими значениями поддержки, что, как правило, приводит к их появлению в большинстве синтезированных правил и, следовательно, к построению избыточных правил и к усложнению построенной базы правил;

- существенное увеличение пространства поиска, связанное с добавлением групповых элементов gr в транзакции Tj, что усложняет

задачу извлечения АП и увеличивает количество извлеченных правил.

Необходимость устранения приведенных недостатков обуславливает потребность разработки новых и модификации существующих методов извлечения АП.

При работе с базами данных, содержащих информацию о событиях, связанных во времени, целесообразно синтезировать временные АП (temporal association rules) [14]. Существенным отличием баз данных типа D (1) от тех, с которыми приходится иметь дело при извлечении временных АП, является наличие информации о времени транзакций T j .

Поэтому большинство понятий и определений, приведенных для

позитивных АП являются верными и для временных АП. Исключение составляет поддержка правил.

К временным АП относятся [14]:

а) АП, описывающие зависимости, связанные с некоторыми интервалами времени. Такие правила могут быть представлены в виде: "В интервал времени time(X) истинным является выражение: Если X, то Y ". Временным интервалом time(X) набора элементов X считается интервал времени, на протяжении которого выполняется этот набор (11):

time(X) = [time(Tf }; time(Te )], (11)

где time(Tf) и time(Te) - времена первой Tf и последней Te транзакций, содержащих набор элементов X, time(Tjr) <time(Te).

При таком подходе поддержкой supp(X) набора элементов X является отношение количества N транзакций Tj базы данных

D , содержащих набор X, к количеству NTj X) транзакций,

происходящих во временном интервале time(X) . Поддержка supp(X) в таком случае вычисляется по формуле (12):

supp(X) = ^cT ; (12)

N Tj ^D\time(t)ctime(X)

б) циклические АП - описывают регулярные циклические действия во времени. Например, к таким АП могут быть отнесены правила, которые являются истинными в определенный промежуток времени каждого дня. Такие правила могут быть представлены в виде: " В интервал времени time(X) с периодичностью Period истинным является выражение: Если X, то Y ".

Пусть At - некоторый интервал времени. Тогда транзакция Tj

выполняется в j-й интервал времени time(Tj): [j •At; (j + l)-At ].

Обозначим ST(time(Tj)) - множество транзакций, выполняемых в j-й интервал времени time(Tj ) : ST(time(Tj )) = {T е D | time(T) c time(Tj )} . Циклическая поддержка supp(X ^ Y, time(Tj)) АП X ^ Y в j-й интервал времени time(Tj) отношение количества транзакций в

множестве ST(time(Tj )) к общему количеству транзакций в базе данных

D. Аналогичным образом определяется и достоверность conf X ^ Y, time(Tj)) правила X ^ Y в j-й интервал времени (13):

supp(X ^ Y, time(Tj)) conf X ^ Y, time(T,)) = . (13)

J supp(X, time(Tj ))

Определим цикл как пару c = (Period, О), в которой Period -период или длина цикла (например, L = 24 часа, At = час), О - смещение, т.е. конкретное время срабатывания правила, 0 < O < Period . Таким образом, АП X ^ Y является циклическим с циклом c = (Period, O), если оно срабатывает в каждый О-й интервал времени с периодичностью Period .

Для извлечения временных АП, аналогично поиску других видов правил, задаются пороговые значения минимальной поддержки, достоверности и интересности правила: minsupport, minconfidence и е7, соответственно.

Однако непосредственное применение методов поиска позитивных АП для извлечения временных АП связано с проблемой вычисления интересности правил с учетом времени их выполнения [2, 8 - 10, 14]. Кроме того, существуют проблемы извлечения временных АП с разными периодами срабатывания правил, поиска оптимальных интервалов дискретизации времени At и др. Поэтому целесообразной является разработка новых методов извлечения временных АП, устраняющих недостатки существующих методов.

Пусть транзакционная база данных D характеризуется набором транзакций T}-, состоящих из элементов Ta е I = {т1, т2,..., тN }, а также

неотрицательных весовых коэффициентов (весов) W = {w, w, . ., wNj},

где wa - вес элемента Ta, a = 1, 2, ..., Nj.

Понятие нечетких АП (fuzzy association rules) связано с численными правилами [15]. При этом основные понятия и определения относительно бинарных (позитивных) АП расширяются на нечеткие АП для численных транзакций. Как отмечено выше, числовые значения элементов та при поиске численных АП должны быть дискретизированы - разбиты на непересекающиеся интервалы, каждый из которых рассматривается в дальнейшем как отдельный атрибут или терм. С целью устранения проблемы неэффективного разбиения на интервалы при извлечении АП в

случае наличия в транзакционной базе данных Б числовых переменных используется теория нечетких множеств, в сочетании с теорией АП позволяющая извлекать нечеткие АП и строить на их основе нечеткие базы правил.

Нечеткая поддержка 8ирр(Х, Т1) набора X в транзакции Т определяется по формуле (14) [15]

XI

®ирр(X, Т) = X Т), (14)

1=1

где Цх Т) - функция принадлежности переменной Х{ множеству Tj .

Нечеткая поддержка 8ирр(Х) набора X по всей транзакционной базе данных Б может быть вычислена аналогично по формуле (15)

XI

™рр(X) = ^§ирр(X,Tj) = ^ X (Tj). (15)

Т| .X сТ, ТI .X оТ1 г=1

При извлечении нечетких АП используются понятия взвешенной нечеткой поддержки набора элементов X и правила X ^ У [15].

Взвешенная нечеткая поддержка '««ирр^) набора элементов X определяется как произведение поддержка 8ирр^) на сумму весовых коэффициентов Vа элементов ха, присутствующих в наборе X (16)

( I

wsupp(X)= £ wa supp(X). (16)

У

Взвешенная нечеткая поддержка правила X ^ У вычисляется по формуле (17)

( \

wsupp(x ^ У ) = £ ™а ^ирр^ и У). (17)

^ГаеХЦГ У

Взвешенная нечеткая достоверность правила X ^ У вычисляется по формуле (18)

Г I

X Ч’а ЭИрр^Г и У)

»■сой (X -+ У)= WSUPP<X,^У) = к1аНи^' --------------------. (18)

wsupp(X)

У

Для извлечения нечетких АП задаются уровни минимальной взвешенной поддержки ^т^иррой, минимальной взвешенной достоверности «ттсопМелсе и минимальной интересности правила е 1. Если взвешенная нечетка поддержка wsupp(X) набора элементов X не меньше минимально допустимого значения

(wsupp(X)> wminsupport), то набор X считается часто встречаемым. Аналогично, если значение взвешенной нечеткой достоверности wconf (X ^ У) правила X ^ У не меньше минимально допустимого значения ^соП" (X ^ У)> wminconiidence), то правило X ^ У

считается достоверным. Кроме того, уровень интересности правила должен быть не менее заданного порогового значения е1.

Методы извлечения нечетких АП на начальном этапе выполняют преобразование каждой числовой переменной к нечеткому множеству с соответствующими лингвистическими термами, используя для этого функции принадлежности. Далее выполняется расчет скалярной мощности каждого лингвистического терма по всей базе данных Б, а также вычисление поддержки наборов элементов, используя итеративный подход для поиска больших наборов данных. Затем выполняется поиск нечетких АП из этих больших наборов данных.

Каждый элемент используется только в лингвистическом терме с максимальной мощностью на более поздних итерациях, в результате чего количество обрабатываемых нечетких областей такое же, как количество элементов та в множестве 1 = (х15 х2,...,хN}. Таким образом, основной

акцент осуществляется на наиболее важные лингвистические термы, что снижает временную сложность таких методов [15].

Однако необходимость выделения нечётких термов при извлечении АП требует решения задачи кластерного анализа (в результате чего термы могут быть определены как проекции границ кластеров на оси признаков), что усложняет процесс поиска нечетких АП, либо участия пользователя - эксперта в прикладной области, что уменьшает уровень автоматизации программных средств извлечения нечетких АП на основе соответствующих методов. Необходимость устранения указанных

кТа Е-Х

недостатков обуславливает потребность разработки новых методов поиска нечетких АП.

Таким образом, с целью устранения выявленных недостатков существующих методов извлечения АП целесообразно разработать новые и модифицировать существующие методы для поиска негативных, численных, обобщенных, временных и нечетких ассоциативных правил.

Выводы. В работе решена актуальная задача исследования видов ассоциативных правил. Показано, что для обработки больших массивов неструктурированных данных целесообразно использовать ассоциативные правила, которые позволяют синтезировать базы правил, удобные для дальнейшего восприятия и анализа экспертами в прикладных областях.

Проанализирован процесс извлечения ассоциативных правил. Отмечено, что проанализированные методы не позволяют решать задачи отбора информативных признаков, кластерного анализа, построения моделей на основе больших массивов неструктурированных данных и др., возникающие при решении реальных практических задач прогнозирования, классификации и кластеризации данных.

Проанализированы основные виды АП (негативные, численные, обобщенные, временные и нечеткие АП), необходимость построения которых возникает при решении реальных задач. Показано, что существующие методы извлечения бинарных АП неэффективно функционируют при извлечении особых видов АП, что обуславливает необходимость разработки новых и модификации существующих методов для поиска негативных, численных, обобщенных, временных и нечетких АП.

С целью устранения выявленных недостатков предлагается:

- разработать эффективные методы извлечения негативных, численных, обобщенных, временных и нечетких АП;

- создать метод отбора информативных признаков с использованием АП;

- разработать метод кластерного анализа на основе АП;

- создать метод построения нейро-нечетких сетей с использованием АП;

- выполнить программную реализацию предложенных методов. На основе разработанного программного обеспечения исследовать предложенные методы, выполнить их сравнение с существующими аналогами, решить практические задачи распознавания образов.

Работа выполнена в рамках госбюджетной НИР кафедры радиотехники и телекоммуникаций Запорожского национального

технического университета "Методы, модели и устройства принятия решений в системах распознавания образов" (№ гос. регистрации 0111U000059), а также в рамках НИР ДБ 04922 "Интеллектуальные информационные технологии автоматизации проектирования, моделирования, управления и диагностирования производственных процессов и систем".

Список літератури: 1. Shin Y.C. Intelligent systems: modeling, optimization, and control / C.Y. Shin, C. Xu. - Boca Raton: CRC Press, 2009. - 456 p. 2. Zhang C. Association rule mining: models and algorithms / C. Zhang, S. Zhang. - Berlin: Springer-Verlag. - 2002. - 238 p. 3. DingS.X. Model-based fault diagnosis techniques: design schemes, algorithms, and tools / S.X. Ding. - Berlin: Springer, 2008. - 473 p. 4. Encyclopedia of artificial intelligence / Eds.: J.R. Dopico, J. D. de la Calle, A.P. Sierra. - New York: Information Science Reference, 2009. -Vol. 1-3. - 1677 p. 5. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов: монография / [С.А. Субботин, Ан.А. Олейник, Е.А. Гофман, С.А. Зайцев, Ал.А. Олейник, под ред. С.А. Субботина]. - Харьков: ООО "Компания Смит", 2012. - 317 с. 6. Гибридные нейро-фаззи модели и мультиагентные технологии в сложных системах: монография

/ [В.А. Филатов, Е.В. Бодянский, В.Е. Кучеренко и др.; под общ. ред. Е.В. Бодянского). -Дніпропетровськ: Системні технології, 2008. - 403 с. 7. Айвазян С.А. Прикладная статистика: Исследование зависимостей / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. - М.: Финансы и статистика, 1985. - 487 с. 8. Zhao Y. Post-mining of association rules: techniques for effective knowledge extraction / Y. Zhao, C. Zhang, L. Cao. - New York: Information Science Reference. - 2009. - 372 p. 9. Adamo J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms / J.-M. Adamo. - New York: Springer-Verlag. - 2001. - 259 p. 10. Koh Y.S. Rare Association Rule Mining and Knowledge Discovery / Y.S. Koh, N. Rountree. - New York: Information Science Reference. - 2009. - 320 p. 11. Piao X. Research on Mining Positive and Negative Association Rules Based on Dual Confidence / X. Piao, Z. Wang, G. Liu // Internet Computing in Science and Engineering: The Fifth International Conference ICICSE, Harbin, China, 1-2 November 2010: Proceedings of the Conference. - Washington: IEEE Press, 2010. - P. 102-105. 12. Ke Y. An information-theoretic approach to quantitative association rule mining / Y. Ke, J. Cheng, N. Wilfred // Knowledge and Information Systems. - 2008. -Vol. 16. - N° 2. - P. 213-244. 13. Wu С. Generalized association rule mining using an efficient data structure / C. Wu, Y. Huang // Expert Systems With Applications. - 2011. - Vol. 38. - N° 6. -P. 7277-7290. 14. NamH. Identification of temporal association rules from time-series microarray data sets / H. Nam, K. Y. Lee, D. Lee // BMC Bioinformatics. - 2009. - Vol. 10. - № 3. - P. 6-9. 15. Pach F.P. Compact fuzzy association rule-based classifier / F.P. Pach, A. Gyenesei, J. Abonyi // Expert Systems With Applications. - 2008. - Vol. 34. - № 4. - P. 2406-2416.

Поступила в редакцию 03.09.2012

Работу представил декан математического факультета Запорожского національного университета, д-р техн. наук, проф. Гоменюк С.И..

УДК 004.93

Асоціативні правила в інтелектуальному аналізі даних / Зайко Т.А., Олійник А.О., Субботін С.О. // Вісник НТУ "ХПІ". Серія: Інформатика та моделювання. -Харків: НТУ "ХПІ". - 2013. - № 39 (1012). - С. 82- 96.

Розглянуто завдання побудови моделей на основі асоціативних правил. Проаналізовано процес пошуку асоціативних правил. Досліджено різні види асоціативних правил (негативні, чисельні, узагальнені, часові та нечіткі асоціативні правила) при використанні їх для розв'язання завдань інтелектуального аналізу даних. Бібліогр.: 15 назв.

Ключові слова: асоціативне правило, різні види асоціативних правил,

інтелектуальний аналіз даних, нечіткі асоціативні правила.

UDC 004.93

Association rules in data mining / Zayko T.A., Oliinyk A.A., Subbotin S.A. // Herald of the National University "KhPI". Subject issue: Information science and Modeling. - Kharkov: NTU "KhPI". - 2013. - № 39 (1012). - С. 82- 96.

The problem of synthesis of models based on association rules is concidered. The process of mining association rules is analyzed. Various types of association rules (negative, quantitative, generalized, temporal and fuzzy association rules) for solving data mining problems are investigated. Refs.: 15 titles.

Keywords: association rule, various types of association rules, data mining, fuzzy association rules.

i Надоели баннеры? Вы всегда можете отключить рекламу.