Научная статья на тему 'О неизбыточном представлении минимаксного базиса строгих ассоциативных правил'

О неизбыточном представлении минимаксного базиса строгих ассоциативных правил Текст научной статьи по специальности «Математика»

CC BY
183
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
СООТВЕТСТВИЯ ГАЛУА / ЗАМКНУТЫЕ МНОЖЕСТВА / СТРОГИЕ АССОЦИАТИВНЫЕ ПРАВИЛА / НЕИЗБЫТОЧНОСТЬ / МИНИМАКСНЫЙ БАЗИС / GALOIS CONNECTION / CLOSED SETS / STRONG ASSOCIATION RULES / NON-REDUNDANT / MINIMAX BASIS

Аннотация научной статьи по математике, автор научной работы — Быкова Валентина Владимировна, Катаева Алина Владимировна

Ассоциативные правила тип зависимостей между данными, которые отражают, какие признаки или события встречаются совместно и насколько часто это происходит. Строгие ассоциативные правила представляют интерес для тех приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например, в информационной безопасности, анализе компьютерных сетей и медицине. Чрезмерно большое число выявленных правил существенно усложняет их экспертизу и применение. Для решения этой проблемы предложен алгоритм MClose, расширяющий возможности известного алгоритма Close. Алгоритм Close формирует минимаксный базис, в котором каждое строгое ассоциативное правило имеет минимальную посылку и максимальное следствие. Однако в минимаксном базисе остаются избыточные строгие ассоциативные правила. Алгоритм MClose в процессе построения минимаксного базиса распознаёт избыточные строгие ассоциативные правила и устраняет их. Предложенный алгоритм основан на свойствах замкнутых множеств. Доказаны выводимости, аргументирующие корректность алгоритма MClose.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the non-redundant representation of the minimax basis of strong associations

Associative rules are the type of dependencies between data that reflect which features or events occur together and how often this happens. Strong associative rules are of interest for those applications where a high degree of confidence of dependencies is required. For example, they are used in information security, computer network analysis and medicine. Excessively large number of identified rules significantly complicates their expert analysis and application. To reduce the severity of this problem, we propose the MClose algorithm, which extends the capabilities of the well-known algorithm Close. The Close algorithm forms a minimax basis in which each strong associative rule has a minimum premise and a maximal consequence. However, in the minimax basis, some redundant strong associative rules remain. The MClose algorithm recognizes and eliminates them in the process of constructing a minimax basis. The proposed algorithm is based on the properties of closed sets. Its correctness is proved by proving the reflexivity, additivity, projectivity, and transitivity properties of strong associative rules.

Текст научной работы на тему «О неизбыточном представлении минимаксного базиса строгих ассоциативных правил»

2017 Математические основы интеллектуальных систем №36

МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ

УДК 519.7

О НЕИЗБЫТОЧНОМ ПРЕДСТАВЛЕНИИ МИНИМАКСНОГО БАЗИСА СТРОГИХ АССОЦИАТИВНЫХ ПРАВИЛ

В. В. Быкова, А. В. Катаева Сибирский федеральный университет, г. Красноярск, Россия

Ассоциативные правила — тип зависимостей между данными, которые отражают, какие признаки или события встречаются совместно и насколько часто это происходит. Строгие ассоциативные правила представляют интерес для тех приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например, в информационной безопасности, анализе компьютерных сетей и медицине. Чрезмерно большое число выявленных правил существенно усложняет их экспертизу и применение. Для решения этой проблемы предложен алгоритм MClose, расширяющий возможности известного алгоритма Close. Алгоритм Close формирует минимаксный базис, в котором каждое строгое ассоциативное правило имеет минимальную посылку и максимальное следствие. Однако в минимаксном базисе остаются избыточные строгие ассоциативные правила. Алгоритм MClose в процессе построения минимаксного базиса распознаёт избыточные строгие ассоциативные правила и устраняет их. Предложенный алгоритм основан на свойствах замкнутых множеств. Доказаны выводимости, аргументирующие корректность алгоритма MClose.

Ключевые слова: соответствия Галуа, замкнутые множества, строгие ассоциативные правила, неизбыточность, минимаксный базис.

DOI 10.17223/20710410/36/9

ON THE NON-REDUNDANT REPRESENTATION OF THE MINIMAX BASIS OF STRONG ASSOCIATIONS

V. V. Bykova, A. V. Kataeva Siberian Federal University, Krasnoyarsk, Russia E-mail: [email protected], [email protected]

Associative rules are the type of dependencies between data that reflect which features or events occur together and how often this happens. Strong associative rules are of interest for those applications where a high degree of confidence of dependencies is required. For example, they are used in information security, computer network analysis and medicine. Excessively large number of identified rules significantly complicates their expert analysis and application. To reduce the severity of this problem, we propose the MClose algorithm, which extends the capabilities of the well-known algorithm Close. The Close algorithm forms a minimax basis in which each strong associative rule has a minimum premise and a maximal consequence. However, in the

minimax basis, some redundant strong associative rules remain. The MClose algorithm recognizes and eliminates them in the process of constructing a minimax basis. The proposed algorithm is based on the properties of closed sets. Its correctness is proved by proving the reflexivity, additivity, projectivity, and transitivity properties of strong associative rules.

Keywords: Galois connection, closed sets, strong association rules, non-redundant, minimax basis.

Введение

При поиске ассоциативных правил анализируемое множество данных обычно описывается бинарным контекстом — матрицей, строки которой отвечают объектам предметной области, а столбцы — признакам этих объектов. Единичное значение элемента матрицы трактуется как наличие у объекта соответствующего признака, а нулевое — как его отсутствие. Бинарное представление данных существенно расширяет математический аппарат для их исследования. Современные методы поиска ассоциативных правил базируются преимущественно на анализе формальных понятий и теории вероятностей [1-3]. Анализ формальных понятий, как прикладная ветвь алгебраической теории решёток, является удобным математическим аппаратом описания методов поиска ассоциативных правил [4 - 6].

Главная проблема при поиске ассоциативных правил — это огромное число правил, возникающих при анализе больших контекстов. Для решения этой проблемы используются различные меры значимости правил. С их помощью правила фильтруются и для анализа предъявляются только те, для которых значения мер превышают заданные пороговые значения. Подобная фильтрация, конечно, уменьшает число правил, но не решает проблему размерности полностью. Часто после фильтрации всё равно остаётся значительное число правил, при этом многие из них избыточные. Ассоциативное правило считается избыточным, если его удаление из множества правил не приводит к потере информации о связях между данными в рассматриваемой предметной области.

Множество ассоциативных правил, не содержащее избыточных (в некотором смысле) правил, принято называть базисом. Существуют различные формальные определения избыточных ассоциативных правил и методы их устранения [7]. Наиболее развиты методы устранения избыточности для строгих ассоциативных правил. Для таких ассоциативных правил имеется плотная параллель с функциональными зависимостями из теории реляционных баз данных [8]. Строгие ассоциативные правила имеют достоверность, равную единице, и представляют интерес для приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например, в информационной безопасности, анализе компьютерных сетей и медицине [9-11].

В настоящее время известен ряд алгоритмов, позволяющих строить различные базисы для строгих ассоциативных правил. Наиболее значимыми базисами являются канонический и минимаксный. Канонический базис (или базис Дюкена — Гига) состоит из минимального числа строгих ассоциативных правил, рекуррентно описываемых в терминах псевдосодержаний [12]. Канонический базис математически глубоко исследован, однако все предложенные на сегодняшний день алгоритмы его построения в большей степени представляют теоретический, чем практический интерес [13]. Минимаксный базис состоит из строгих ассоциативных правил, имеющих минимальную посылку и максимальное следствие [14]. Для минимаксного базиса имеются хо-

рошо апробированные алгоритмы, к которым относится алгоритм Close [7, 15]. Исследования показали, что в построенных канонических и минимаксных базисах остаётся некоторая избыточность, которая может быть устранена на основе выводимостей, подобных аксиомам Амстронга, известным в теории реляционных баз данных для функциональных зависимостей.

В данной работе для строгих ассоциативных правил предложен алгоритм MClose, расширяющий возможности алгоритма Close. Алгоритм MClose позволяет в процессе построения минимаксного базиса устранять избыточность с сохранением поддержки и достоверности без дополнительного обращения к исходному бинарному контексту. Доказаны выводимости, обосновывающие корректность алгоритма MClose. Доказательство этих выводимостей — основной результат работы.

1. Основные термины и обозначения анализа формальных понятий

Приведём термины и обозначения, традиционно применяемые в анализе формальных понятий [4 - 6].

Пусть для предметной области определены два непустых конечных множества G и M объектов и признаков соответственно (от немецких слов Gegenstände — объект, Merkmale — признак). Предполагаем, что все объекты в G и признаки в M различны. Пусть задано отношение I С G х M инцидентности между G и M. Тройку K = (G, M, I) принято называть формальным контекстом (или просто контекстом) предметной области. Считаем, что существование в I пары (g,m) означает, что объект g имеет признак m, и наоборот — признак m присущ объекту g.

Выберем в K = (G, M, I) два произвольных элемента g G G и m G M. Определим для них два отображения ф и —:

ф(д) = {m G M : (g, m) G I} , —(m) = {g G G : (g, m) G I} ,

где ф^) —множество признаков, присущих объекту g, а —(m) —множество объектов, обладающих признаком m.

Отображения ф и — обобщаются на A С G и B С M следующим образом:

ф(А) = П ФЫ = {m G M : Vg G A ((g,m) G I)} ,

gdA

—(B) = П —(m) = {g G G : Vm G B ((g, m) G I)} .

mdB

Отсюда ф(А) —множество признаков, общих для всех объектов из A, а — (B) —множество объектов, которые обладают всеми признаками из B. Отображения ф и — определены так, что если Ai, A2 С G и Bi, B2 С M, то

ф(А1 и A2) = ф^1) П ф^), —(Bi и B2) = —(Bi) п —(B2).

Целесообразно положить, что ф(0) = M и —(0) = G: пустому множеству объектов присущи все признаки из M и каждый объект рассматриваемого контекста K обладает пустым множеством признаков. Если для отображений ф и — применить единое обозначение (•)', то формулы для ф^), — (B), ф^1 U A2) и — (B1 U B2) записываются так:

A' = П g' = {m G M : Vg G A ((g,m) G I)} ; (1)

gdA

B' = П m' = {g G G : Vm G B ((g, m) G I)} ; (2)

mdB

(Ai U A2)' = Ai' П A2'; (3)

(Bi U B2)' = Bi' П B2'. (4)

Если g G G и m G M, то обозначения g' и m' традиционно служат сокращённой формой записи множеств 0(g) = {g} и — (m) = {m} соответственно.

Из определения отображений «'» вытекают свойства, которые формально можно выразить в виде следующих утверждений.

Утверждение 1. Для всякого контекста K = (G, M, I) и любых B1,B2 С M верны следующие свойства:

— антимонотонность: если B1 С B2, то B2' С B1';

— экстенсивность: B1 С B1'', где B1'' = ((B1)') С M.

Утверждение 2. Для всякого контекста K = (G, M, I) и любых A1,A2 С G верны следующие свойства:

— антимонотонность: если A1 С A2, то A2' С A1';

— экстенсивность: A1 С A1'', где A1'' = ((A1)') С G.

В силу утверждений 1 и 2, отображения ф и — составляют пару соответствий Га-луа между 2G и 2м — системами всех подмножеств множеств G и M соответственно, частично упорядоченными по теоретико-множественному включению [4, 5]. Известно, что для соответствий Галуа ф и — справедливы равенства [5]

ф(-(ф(А))) = ф(А), —(ф(—(B ))) = —(B)

или, то же самое, в единых обозначениях

((A')')' = (A'')' = A', ((B')')' = (B'')' = B'. (5)

Двойное применение отображения «'» определяет оператор замыкания на 2м в алгебраическом смысле [4]. Ему свойственны:

— рефлексивность: для любого B С M всегда B С B'';

— монотонность: если B1 С B2 С M, то B1'' С B2'' С M;

— идемпотентность: для любого B С M всегда (B'')'' = B''. Справедливость этих свойств вытекает из утверждений 1 и 2.

Если B = B'', то множество признаков B С M называется замкнутым относительно оператора «''» в контексте K. Множество B'' = ф(—(B)) можно трактовать как набор признаков, которые всегда появляются в объектах контекста K вместе с признаками из B, причём это множество является наибольшим по включению в пределах K. Очевидно, что (0)'' = ф(—(0)) = G', где G' — множество признаков, свойственных всем объектам контекста K. Если B' = 0, то всегда B'' = ф(—(B)) = ф(0) = M. Если B' = 0, то, исходя из (1)-(4), замыкание для B С M можно вычислить за один просмотр контекста K по формуле

B'' = П {g' : B С g'} . (6)

gee

В анализе формальных понятий пара множеств (A, B), A С G, B С M, таких, что A' = B и B' = A, называется формальным понятием контекста K = (G, M, I) с объёмом A и содержанием B [6]. В формальном понятии (A,B) множества A и B всегда замкнуты относительно «''» в этом контексте: A = A'' и B = B''. С помощью формальных понятий возможно концептуальное (или понятийное) моделирование различных предметных областей [3, 6]. Замкнутые множества также нашли широкое применение в поиске ассоциативных правил [7, 14, 15].

2. Ассоциативные правила и основные меры их значимости

Ассоциативным правилом на множестве признаков контекста К = (С, М, I) называется упорядоченная пара множеств г = (X, У), X, У С М. Принято ассоциативное правило г = (X, У) записывать в виде X ^ У, здесь множества X и У называют посылкой (или причиной) и заключением (или следствием) соответственно [16]. В анализе ассоциативных правил часто полагают, что посылка и заключение — непустые непересекающиеся множества. С формальных позиций эти ограничения несущественны. Применительно к заданному контексту К всякое ассоциативное правило X У количественно характеризуется с помощью поддержки ¿(X ^ У) и достоверности 7 (X ^ У) [17]. Эти числовые функции определяются через понятие поддержки множества признаков.

Поддержка ¿(X) множества признаков X С М в контексте К = (С,М, I) —отношение числа объектов, которым присущи признаки X, к общему числу объектов, представленных в этом контексте:

¿(X) = IX '|/|С|. (7)

Таким образом, ¿(X) —частота встречаемости в контексте К объектов, имеющих признаки X. Из формулы (7) следует, что для любого X С М значение ¿(X) неизменно находится в естественных границах

0 ^ ¿(X) ^ 1. (8)

Чем ближе значение ¿(X) к 1, тем большее число объектов рассматриваемого контекста обладает всеми признаками из X. В силу антимонотонности отображения «'» поддержка множества признаков также удовлетворяет свойству антимонотонности: для всякого контекста К = (С, М, I) и любых X, У С М при X С У верно неравенство

¿(У) ^ ¿(X). (9)

Согласно (9), поддержка множества признаков не может превышать поддержки любого из его подмножеств. Так, для произвольного X С М всегда

0 ^ ¿(М) ^ ¿(X) ^ ¿(0) = 1.

Множество признаков X С М называется частым в контексте К = (С, М, I), если его поддержка больше или равна заданному пороговому значению ¿о € [0,1]. Если ¿(X) ^ ¿о и X = X", то X называется частым замкнутым множеством признаков в К. Частые множества и частые замкнутые множества признаков традиционно служат основой для поиска ассоциативных правил в заданном контексте. Следует отметить, что в худшем случае число частых замкнутых множеств признаков контекста К совпадает с числом частых множеств признаков и экспоненциально зависит от |М |. Однако на практике обычно число частых замкнутых множеств значительно меньше числа частых множеств. Примеры контекстов с полиномиальным относительно |М| числом частых замкнутых множеств можно найти в [15]. Использование следующего утверждения позволяет при поиске ассоциативных правил вместо частых множеств признаков применять частые замкнутые множества и тем самым сокращать пространство поиска ассоциативных правил.

Утверждение 3. Для всякого контекста К = (С, М, I) и любого множества X С М поддержка X" совпадает с поддержкой множества X:

¿(X") = ¿(X).

Доказательство. Пусть X С М — произвольное множество признаков контекста К = (С, М, I). Тогда, исходя из (5) и (7), имеем равенство

¿(X ") = |(Х ")'|/|С| = |Х '|/|С| = ¿(X).

Утверждение доказано. ■

Таким образом, если ¿(X) ^ ¿0, то ¿(X") ^ ¿о, т.е. замыкание частого множества признаков также является частым.

Поддержкой ¿(X ^ У) ассоциативного правила X ^ У относительно контекста К = (С, М, I) называется величина

¿(X ^ У) = ¿(X и У) = и У)'|/|С|, (10)

указывающая, какая доля объектов этого контекста имеет признаки X и У. Достоверность 7 (X ^ У) ассоциативного правила X ^ У относительно контекста К определяется как отношение числа объектов, обладающих всеми признаками из X и У, к числу объектов, которым свойственны только признаки X:

^ У) = и У'|.

Достоверность ассоциативного правила через функцию поддержки выражается формулой

7(X ^ У) = ¿(X ^ У) = ¿(X и У). (11)

Заметим, что достоверность определяется формулой (11) только для тех ассоциативных правил X ^ У, для которых ¿(X) = 0. Если ¿(X) = 0 (в контексте нет ни одного объекта, обладающего признаками X), то, согласно (8) и (9), ¿(X и У) = 0. В этом особом случае полагают 7^ ^ У) = 1. Исходя из (7)—(11), достоверность ассоциативного правила X ^ У при произвольных X, У С М всегда находится в границах

0 ^ 7^ ^ У) ^ 1.

Чем ближе значение 7(X ^ У) к 1, тем с большей уверенностью можно сказать, что признаки У появляются в объектах рассматриваемого контекста вместе с признаками X.

Ассоциативное правило X ^ У называется минимаксным в контексте К = = (С, М, I), если для К не существует другого ассоциативного правила X* ^ У*, такого, что X * С X и У С У * и

¿(X* ^ У*) = ¿(X ^ У), 7(X* ^ У*) = 7(X ^ У).

Пусть заданы контекст К = (С, М, I) и ¿0,70 —вещественные числа из [0, 1]. Будем говорить, что X ^ У является (¿0, ^0)-ассоциативным правилом в К, если выполняются два условия:

¿0 ^ ¿(X ^ У) ^ 1; (12)

70 ^ 7(X ^ У) ^ 1. (13)

Величины ¿0 и 70 играют роль пороговых значений для поддержки и достоверности соответственно. При ¿0 = 0 условие (12) отражает естественные границы поддержки. Данная ситуация свидетельствует о том, что нет ограничений на частоту появления

признаков X и У в К. При 70 = 1 условие (13) приводит к равенству 7(X ^ У) = 1. В этом случае имеем (¿0,1)-ассоциативное правило, которое будем называть строгим ассоциативным правилом. Таким образом, строгое ассоциативное правило — правило с достоверностью 1 и любой ненулевой поддержкой. Заметим, что ассоциативные правила с нулевой поддержкой и нулевой достоверностью не имеют практической ценности и поэтому не рассматриваются.

3. Свойства строгих ассоциативных правил

Известен критерий наличия в контексте строгого ассоциативного правила [6]. Приведём его с доказательством.

Утверждение 4. Достоверность ассоциативного правила X ^ У относительно контекста К = (С, М, I) равна 1 тогда и только тогда, когда X' С У' (или У С X").

Доказательство. Согласно формуле (11), равенство 7(X ^ У) = 1 верно тогда и только тогда, когда ¿(XиУ) = ¿(X), или, то же самое, когда (X и У)' = X'. В силу (4) имеем (X и У) = X' ПУ'. Равенство X' ПУ' = X' возможно тогда и только тогда, когда X' С У'.

Предположим, что X' С У'. По утверждениям 1 и 2 всегда У С У'', а при X' С У' верно включение У'' С X''. Отсюда У С X''. Тогда в силу антимонотонности отображения «'» имеем (X'')' С У'. С учётом (5) верно X' С У'. ■

Заметим, что утверждение 4 тривиальным образом выполняется для X ^ X'' во всяком контексте К и при любом X С М. Рассмотрим некоторые частные случаи утверждения 4, важные с точки зрения устранения избыточности в множестве строгих ассоциативных правил.

Случай 1: ассоциативные правила вида X ^ У при любых У С X С М.

В силу антимонотонности отображения «'» при У С X справедливо включение X' С У'. Условие утверждения 4 выполняется, поэтому 7(X ^ У) = 1. Таким образом, если в ассоциативном правиле заключение является подмножеством посылки, то такое правило имеет достоверность 1 в любом контексте К с поддержкой ¿(X). Подобные строгие ассоциативные правила не несут в себе информации о существенных отношениях между множествами признаков X и У, кроме естественного отношения «целое и часть целого», поэтому их следует считать тривиальными и не принимать во внимание. В частности, ассоциативные правила вида 0 ^ 0, М ^ У и X ^ 0 при любых X, У С М относятся к тривиальным строгим правилам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Случай 2: ассоциативные правила вида 0 ^ У при 0 = У С М.

Для всякого контекста К = (С, М, I) и У С М всегда У' С С. Кроме того, ^(0) = = 0' = С и ¿(0) = 1. Поэтому для правила 0 ^ У имеем

7(0 ^ У) = ¿(0 и У^¿(0) = ¿(У).

Исходя из утверждения 4, равенство 7(0 ^ У) = 1 имеет место тогда и только тогда, когда 0' С У'. Поскольку ^(0) = 0' = С, то 0' С У' верно лишь при С = У'. Таким образом, строгое ассоциативное правило 0 ^ У при У = 0 имеет поддержку ¿(0) = 1 и отражает наличие жёсткого ограничения на контекст К: все объекты, представленные в этом контексте, обязательно обладают множеством признаков У.

Рассмотрим строгое ассоциативное правило X ^ У .В силу (11) его поддержка всегда совпадает с поддержкой его посылки: ¿(X ^ У) = ¿(X). Если ¿(X) ^ ¿0, то также ¿(X ^ У) ^ ¿0. Если после какого-либо изменения правила X ^ У результирующее правило имеет поддержку не менее ¿(X), то говорят, что такое изменение

сохраняет поддержку исходного правила. Докажем свойства строгих ассоциативных правил, которые позволяют из одних строгих ассоциативных правил вывести другие строгие ассоциативные правила (с сохранением или без сохранения поддержки).

Лемма 1. Пусть в контексте К = (С, М, I) множество X С М имеет поддержку ¿(X) ^ ¿0. Тогда для контекста К при любом У С X всегда справедливо строгое ассоциативное правило X ^ У с поддержкой ¿(X ^ У) ^ ¿0.

Доказательство. При У С X в силу антимонотонности отображения «'» всегда X' С У'. Тогда по утверждению 4 ассоциативное правило X ^ У является строгим. В силу (11) для него ¿(X ^ У) = ¿(X) ^ ¿0. ■

Лемма 2. Если для контекста К = (С, М, I) справедливо строгое ассоциативное правило X ^ У с поддержкой ¿ (X), то при любом Z С М для этого контекста также верно строгое ассоциативное правило X и Z ^ У с поддержкой ¿(X и Z) ^ ¿(X).

Доказательство. Воспользуемся утверждением 4 и свойством монотонности оператора замыкания. Так как X ^ У является строгим ассоциативным правилом в К, то У С X" и ¿(X и У) = ¿(X). При X С X и Z верно включение X" С (X и Z)". Следовательно, У С (X и Z)". Это означает, что для К справедливо строгое ассоциативное правило X и Z ^ У и для него ¿(X и Z и У) = ¿(X и Z). Отсюда с учётом антимонотонности поддержки имеем

¿(X и Z) = ¿(X и Z и У) ^ ¿(X и У) = ¿(X).

Лемма доказана. ■

Лемма 2 отражает возможность пополнения посылки для строгого ассоциативного правила, но без гарантии сохранения поддержки. Особо следует отметить случай, когда расширение посылки строгого ассоциативного правила сохраняет поддержку этого правила.

Следствие 1. Если для контекста К = (С, М, I) справедливо строгое ассоциативное правило X ^ У с поддержкой ¿(X), то при любом Z С У для этого контекста также справедливо строгое ассоциативное правило X и Z ^ У с поддержкой ¿(X).

Доказательство. Если 7^ ^ У) = 1, то по лемме 2 также 7(X и Z ^ У) = 1. Значит, верны равенства

¿(X ^ У) = ¿(X и У) = ¿(X), ¿(X и Z ^ У) = ¿(X и Z и У) = ¿(X и Z).

Отсюда при Z С У имеем ¿(X и Z ^ У) = ¿(X и Z и У) = ¿(X и У) = ¿(X). ■

Лемма 3. Пусть в контексте К = (С, М, I) множество X С М имеет поддержку ¿(X) ^ ¿0. Если для К справедливы строгие ассоциативные правила X ^ У и X ^ Z, то для этого контекста также справедливо строгое ассоциативное правило X ^ У и Z с поддержкой ¿(X) ^ ¿0.

Доказательство. По утверждению 4, поскольку X ^ У и X ^ Z являются строгими ассоциативными правилами в К, выполняются включения У С X" и Z С С X". Значит, У и Z С X", что достаточно для выполнимости строгого ассоциативного правила X ^ У и Z в заданном контексте. В данном случае ¿(X ^ У и Z) = ¿(X) ^ ¿0, т. е. свойство аддитивности сохраняет поддержку исходных правил. ■

Легко убедиться, что свойства рефлексивности и пополнения невыполнимы для произвольных (¿0,70)-ассоциативных правил. Однако следующее свойство, называемое проективностью, выполняется для любых (¿0,70)-ассоциативных правил.

Лемма 4. Если для К = (С, М, I) справедливо (¿0,70)-ассоциативное правило X ^ У, то при любых Z С У и У = 0 для этого контекста также верно (¿0,70)-ассоциативное правило X ^ Z.

Доказательство. Поскольку Z С У и У = 0, то У можно представить в виде У = Zи (У^). Тогда, согласно условию (12) и антимонотонности функции поддержки, имеем

¿0 ^ ¿(X и У) = ¿(X и ^ и (У^))) = ¿((X и Z) и (У^)) ^ ¿(X и Z).

Значит, ¿(X ^ Z) удовлетворяет условию (12). Аналогично, полагая, что ¿(X) = 0, получаем

70 ^ 7^ ^ У) = ¿(X и У)/¿(X) ^ ¿(X и Z)/¿(X) = 7(X ^ Z).

Следовательно, 7(X ^ Z) удовлетворяет условию (13). При ¿(X) = 0 всегда 7^ ^ ^ У) = 1 при любом У, в том числе и Z С У.

Применительно к строгим ассоциативным правилам лемма доказывается тривиальным образом. Если для контекста К справедливо строгое ассоциативное правило X ^ У, то У С X". Значит, при любых Z С У и У = 0 справедливо включение Z С X". Следовательно, X ^ Z является строгим ассоциативным правилом в К. Кроме того, ¿(X ^ У) = ¿(X), ¿(X ^ Z) = ¿(X). Если ¿(X) ^ ¿0, то ¿(X ^ Z) ^ ¿0. Лемма доказана. ■

Лемма 4 отражает тот факт, что правую часть всякого (¿0,70)-ассоциативного правила можно «расщепить» до отдельного признака, сохраняя при этом поддержку и достоверность в заданных границах. Для строгих ассоциативных правил леммы 3 и 4 констатируют равноценность различных эквивалентных форм записи этих правил.

Следствие 2. Представление строгого ассоциативного правила X ^ У и Z эквивалентно его представлению в виде двух строгих ассоциативных правил X ^ У и X ^ Z, при этом ¿(X ^ У и Z) = ¿(X ^ У) = ¿(X ^ Z) = ¿(X).

Лемма 5. Если для контекста К = (С, М, I) справедливы строгие ассоциативные правила X ^ У и У ^ Ш и ¿(X) ^ ¿0, то какими бы ни были X, У, Ш С М, для этого контекста также справедливо строгое ассоциативное правило X ^ Ш с поддержкой ¿(X) ^ ¿0.

Доказательство. Воспользуемся утверждением 4. Если для контекста К верны строгие ассоциативные правила X ^ У и У ^ Ш, то верны включения X' С У' и У' С Ш'. Следовательно, X' С Ш'. По утверждению 4 это условие является достаточным для выполнимости строгого ассоциативного правила X ^ Ш. Для него ¿(X ^ Ш) = ¿(X) ^ ¿0. Таким образом, поддержка результирующего правила X ^ Ш совпадает с поддержкой правила X ^ У, играющего роль начала транзитивной цепочки строгих ассоциативных правил. ■

Следующая лемма обобщает лемму 5 и определяет свойство, называемое псевдотранзитивностью строгих ассоциативных правил.

Лемма 6. Если для контекста К = (С, М, I) справедливы строгие ассоциативные правила X ^ У и У и Z ^ Ш, то какими бы ни были X, У, Z, Ш С М, для контекста К также справедливо строгое ассоциативное правило X и Z ^ Ш с поддержкой ¿(X и

и Z) ^ ¿(X).

Доказательство. Если для контекста K верны строгие ассоциативные правила X ^ Y и Y U Z ^ W, то X' С Y' и (Y U Z)' С W'. Требуется доказать, что (X U Z)' С С W'.

По лемме 2 из строгого ассоциативного правила X ^ Y вытекает справедливость строгого ассоциативного правила (X U Z) ^ Y. Тогда (X U Z)' С Y'. В силу антимонотонности отображения «<'» всегда (X U Z)' С Z'. Отсюда если (X U Z)' С Y' и (X U Z) С Z', то верно включение (X U Z) С Y' П Z'. По формуле (4) имеем (Y U Z)' = Y' П Z'. Учитывая, что (Y U Z)' С W', окончательно получаем

(X U Z)' С Y' П Z' = (Y U Z)' С W'.

К сожалению, свойство псевдотранзитивности не гарантирует для результирующего правила сохранение поддержки. Для него 8(X U Z ^ W) = 8(X U Z), но ввиду антимонотонности поддержки 8(X U Z) ^ 8(X). ■

Леммы 1-6 позволяют сформулировать следующую теорему.

Теорема 1. Для всякого контекста K = (G, M, I) и любых X, Y, Z, W С M справедливы следующие свойства строгих ассоциативных правил:

Di. Рефлексивность: X ^ X.

D2. Пополнение: если X ^ Y, то X U Z ^ Y.

D3. Аддитивность: если X ^ Y и X ^ Z, то X ^ Y U Z.

D4. Проективность: если X ^ Y и Z С Y, то X ^ Z.

D5. Транзитивность: если X ^ Y и Y ^ W, то X ^ W.

D6. Псевдотранзитивность: если X ^ Y и Y U Z ^ W, то X U Z ^ W.

Указанные в теореме 1 свойства (или выводимости) D1-D6 позволяют из некоторого множества строгих ассоциативных правил вывести многие другие строгие ассоциативные правила без дополнительного сканирования контекста. Выводимости, подобные D1-D6, справедливы и для функциональных зависимостей, имеющих место в теории реляционных баз данных, где их принято называть аксиомами Амстронга. Из доказанных лемм следует, что выводимости D1, D3, D4, D5 гарантируют сохранение поддержки: результатом применения их к строгим ассоциативным правилам с поддержкой не менее чем 8о всегда являются строгие ассоциативные правила с таким же порогом поддержки.

4. Алгоритмы Close и MClose

Известно большое число алгоритмов поиска ассоциативных правил. Основополагающими являются алгоритмы Apriori и Close. Алгоритм Apriori основан на свойстве антимонотонности функции поддержки. Он извлекает из заданного контекста все (80,7о)-ассоциативные правила при любых заданных допустимых значениях 80 и y0 [11]. Алгоритм Close использует свойства частых замкнутых множеств и извлекает только строгие ассоциативные правила с заданным порогом поддержки 80 [7, 15].

Суть классического алгоритма Close заключается в пошаговом извлечении генераторов и частых замкнутых множеств признаков [14]. Множество р С M называется генератором замкнутого множества признаков X С M, X = X'', если р'' = X и не существует другого множества т С M, такого, что т С р и т'' = X. Другими словами, генератор замкнутого множества признаков X — наименьшее по мощности множество признаков, имеющее замыкание X. Число признаков, входящих в генератор р, называется мощностью этого генератора. Если |р| = k, то р является k-генератором.

На вход алгоритма Close подается исходный контекст K = (G, M, I) и пороговое значение ¿0. На выходе алгоритм Close формирует минимаксный базис и записывает его в множество AR. Изначально AR считается пустым и к = 1. На первом шаге в качестве к-генераторов рассматриваются все одноэлементные подмножества множества M. Замыкание pk'' для генератора pk вычисляется по формуле (6). Поддержка для pk'' находится по формуле (7). Если ¿(pk'') ^ ¿0, то по частому замкнутому множеству pk'' строится минимаксное строгое ассоциативное правило

Тот факт, что ассоциативное правило (14) является минимаксным, следует из определения генератора.

После генерации ассоциативного правила по pk'' создаются кандидаты в (к + 1)-генераторы для следующей итерации. Каждый такой кандидат формируется путём объединения двух к-генераторов, обладающих одинаковыми первыми к — 1 признаками; предполагается, что все признаки в к-генераторах линейно упорядочены, например лексикографически. Далее выполняется проверка, вложен ли найденный кандидат в pk''. Если вложен, то он исключается из рассмотрения. После нахождения всех (к + 1)-генераторов осуществляется переход к следующей итерации. Алгоритм Close завершает работу, когда исчерпаны все генераторы.

Множество ассоциативных правил, полученных в результате работы алгоритма Close, образует минимаксный базис строгих ассоциативных правил контекста K. Корректность алгоритма Close доказана в [14]. К сожалению, минимаксный базис может содержать избыточные строгие ассоциативные правила. Алгоритм MClose c помощью выводимостей D^D3,D4,D5 расширяет возможности алгоритма Close, он в процессе построения минимаксного базиса распознаёт избыточные строгие ассоциативные правила и устраняет их.

Дадим формальное определение избыточного строгого ассоциативного правила. Пусть AR — множество строгих ассоциативных правил, каждое из которых справедливо для контекста K. Будем говорить, что строгое ассоциативное правило X ^ Y логически следует из множества AR, если оно может быть выведено из AR с помощью выводимостей D1, D3, D4, D5. Будем обозначать этот факт так: AR = X ^ Y.

Строгое ассоциативное правило X ^ Y назовём избыточным в AR, если

Множество строгих ассоциативных правил неизбыточное, если оно не содержит избыточных строгих ассоциативных правил. Обозначим через CSB (Concise Strong Basis) неизбыточное множество минимаксных строгих ассоциативных правил. Множество CSB можно построить путём генерации минимаксных строгих ассоциативных правил (например, с помощью алгоритма Close) и устранения среди них избыточных.

Распознавание избыточного строгого ассоциативного правила в AR основано на проверке логического следования (15). Алгоритм такой проверки использует понятие замыкания множества признаков относительно множества AR и является полиномиальным относительно |M| и |AR|. .Замыканием множества X С M относительно AR

pk ^ pk 'Vk

и сохраняется в AR. Согласно (10) и утверждению 3, для него

¿(pk ^ pk 'Vk) = ¿(pk'') ^ ¿о, Y (pk ^ pk 'Vk) = 1.

(14)

AR\ {X ^ Y} = X ^ Y.

(15)

(обозначается X+) называется множество всех признаков m Е M, таких, что верно логическое следование AR = X ^ m. Заметим, что неизменно X + С M. Из выводи-мостей D1,D3,D4 вытекает справедливость следующего критерия: логическое следование AR = X ^ Y имеет место тогда и только тогда, когда Y С X +. Отсюда

AR = X ^ X+, AR = X ^ X+\X.

Чтобы убедится в справедливости (15), достаточно вычислить X + относительно AR\ {X ^ Y} и проверить включение Y С X + . Если Y С X + , то строгое ассоциативное правило X ^ Y избыточно в AR, иначе оно не является избыточным.

Алгоритм вычисления X + целиком базируется на выводимостях D1,D3, D4,D5 и сводится к выполнению следующих действий. Сначала полагается X + = X. Далее осуществляется просмотр правил из AR и пополнение X + по следующему принципу: если для правила Y ^ Z Е AR верно включение Y С X +, то множество Z добавляется к X +. Этот процесс повторяется до тех пор, пока изменяется X +. Поскольку множества M и AR конечные, то процесс вычисления X + конечен.

Заметим, что процесс исключения избыточных строгих ассоциативных правил не требует доступа к контексту K, и поэтому время его выполнения незначительно по сравнению со временем получения частых замкнутых множеств признаков. Для того чтобы исключить добавление заведомо избыточного строгого ассоциативного правила в AR, необходимо всякий раз после построения р^'' выполнять следующие действия. Если посылка найденного правила (14) не равна '', то найти замыкание р+ относительно вычисленного множества AR. Если р+ = р^'', то это минимаксное ассоциативное правило является избыточным, иначе оно включается в AR.

После завершения генерации минимаксных строгих ассоциативных правил необходим дополнительный просмотр результирующего множества AR с целью обнаружения оставшихся избыточных правил. Такие правила вполне возможны: они неизбыточные по отношению к ранее выявленным правилам, однако после пополнения AR новыми правилами могут оказаться избыточными. Таким образом, по построению результирующее множество AR состоит из минимаксных строгих ассоциативных правил и является неизбыточным. Заметим, что оперативное удаление избыточных правил сдерживает рост мощности AR и снижает время выполнения алгоритма.

Алгоритмы Apriori, Close и MClose сравнивались по числу сгенерированных строгих ассоциативных правил и времени работы. Эксперименты осуществлялись на компьютере с процессором Intel® Core™ i5 CPU & 2.30 ГГц и ОЗУ размером 4 Гбайт. Эксперименты выполнялись на контекстах, сгенерированных случайным образом.

Результаты экспериментов представлены в таблице. Для всякого анализируемого контекста K = (G, M, I) указаны | G | —число объектов, | M | —число признаков, а = n/(|G| • |M|) —плотность контекста, где n задаёт число единичных элементов матрицы инцидентности I. Контекст из 10000 объектов сформирован многократным копированием контекста, состоящего из 500 объектов.

Из таблицы видно, что алгоритмы Close и MClose эффективнее алгоритма Apriori как по числу извлечённых строгих ассоциативных правил, так и по времени работы. Алгоритм MClose по времени работы сопоставим с алгоритмом Close. Однако алгоритм MClose более чем в 2 раза уменьшает мощность минимаксного базиса, формируемого алгоритмом Close. Перспективны исследования, направленные на устранение избыточности для ассоциативных правил с любыми поддержками и достоверностями.

Результаты экспериментов

Характеристика контекста Число извлечённых строгих

K = (G, M, I) ассоциативных правил / время, мс

|G| |M | a Apriori Close MClose

20 10 0,38 1797 / 17562 45 / 250 22 / 297

30 10 0,39 2029 / 18347 46 / 374 19 / 412

30 10 0,55 15438 / 187202 69 / 390 20 / 484

50 10 0,53 27769 / 375178 46 / 78 13 / 124

500 10 0,53 27769 /376154 42 / 124 13 / 168

10000 10 0,53 27769 / 378400 42 / 671 13 / 872

ЛИТЕРАТУРА

1. Витяев Е. Е., Демин А. В., Пономарев Д. К. Вероятностное обобщение формальных понятий // Программирование. 2012. №5. С. 18-34.

2. Городецкий В. И., Самойлов В. В. Ассоциативный и причинный анализ и ассоциативные байесовские сети // Тр. СПИИРАН. 2009. Вып. 9. С. 13-65.

3. Кузнецов С. О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. №10. С. 3-27.

4. Биркгоф Г., Барти Т. Современная прикладная алгебра. СПб.: Лань, 2005. 400 с.

5. Гуров С. И. Булевы алгебры, упорядоченные множества, решетки: определения, свойства, примеры. М.: Книжный дом «ЛИБРОКОМ», 2013. 352 с.

6. Ganter B. and Wille R. Formal Concept Analyses: Mathematical Foundations. Springer Science and Business Media, 2012. 314 p.

7. Pasquier N., Bastide Y., TaouiR., and Lakhal L. Generating a condensed representation for association rules //J. Intelligent Inform. Systems. 2005. V. 24. No. 1. P. 29-60.

8. Майер Д. Теория реляционных баз данных. М.: Мир, 1987. 608 с.

9. Батура Т. В. Модели и методы анализа компьютерных социальных сетей // Программные продукты и системы. 2013. №3. С. 130-137.

10. Платонов В. В., Семенов П. О. Методы сокращения размерности в системах обнаружения сетевых атак // Проблемы информационной безопасности. Компьютерные системы. 2012. №3. С. 40-45.

11. Ilayaraja M. and Meyyappan T. Mining medical data to identify frequent diseases using Apriori algorithm // Pattern Recognition, Informatics and Mobile Engineering (PRIME), IEEE, 2013. P. 194-199.

12. Duquenne V. and Obiedkov S. A. Attribute-incremental construction of the canonical implication basis // Ann. Math. Artif. Intelligence. 2007. V.49. No. 1. P. 77-99.

13. Rudolph S. Some notes on pseudo-closed sets // LNCS. 2007. V.4390. P. 151-165.

14. ZakiM. J. and Hsiao C.-J. Efficient algorithms for mining closed itemsets and their lattice structure // IEEE Trans. Knowledge Data Eng. 2005. V. 17. No. 4. P. 462-478.

15. Uno T., Asai T., Uchida Y., and Arimura H. An efficient algorithm for enumerating closed patterns in transaction databases // LNCS. 2004. V. 3245. P. 16-31.

16. Zhang C. and Zhang S. Association Rules Mining. Springer, 2002. 240 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17. Geng L. and Hamilton H. J. Interestingness measures for data mining: a survey // ACM Computing Surveys. 2006. V. 38. No. 3. Article 9.

REFERENCES

1. Vityaev E., DeminA.V., and Ponomaryov D. K. Probabilistic generalization of formal concepts. Programming and Computer Software, 2012, no. 5, pp. 219-230.

2. Gorodetskiy V. I., Samoylov V. V. Assotsiativnyy i prichinnyy analiz i assotsiativnye bayesovskie seti [Association and Casual rule mining using associative Bayesian networks]. Tr. SPIIRAN, 2009, iss.9, pp. 13-65. (in Russian)

3. Kuznetsov S. O. Machine learning on the basis of formal concept analysis. Automation and Remote Control, 2001, vol.6, iss. 10, pp. 1543-1564.

4. BirkhoffG. and Bartee T. C. Modern Applied Algebra. N.Y., McGraw-Hill, 1970. 431 p.

5. Gurov S. I. Bulevy algebry, uporyadochennye mnozhestva, reshetki: opredeleniya, svoystva, primery [Boolean Algebras, Ordered Sets, Lattices: Definitions, Properties, Examples]. Moscow, LIBROKOM Publ., 2013. 352 p. (in Russian)

6. Ganter B. and Wille R. Formal Concept Analyses: Mathematical Foundations. Springer Science and Business Media, 2012. 314 p.

7. Pasquier N., Bastide Y., TaouiR., and Lakhal L. Generating a condensed representation for association rules. J. Intelligent Inform. Systems, 2005, vol.24, no. 1, pp. 29-60.

8. Maier D. Theory of Relational Databases. Computer Science Pr., 1983. 640 p.

9. Batura T. V. Modeli i metody analiza komp'yuternykh sotsial'nykh setey [Social networks analysis models and methods]. Programmnye Produkty i Sistemy, 2013, no. 3, pp. 130-137. (in Russian)

10. Platonov V. V. and Semenov P. O. Metody sokrashcheniya razmernosti v sistemakh obnaruzheniya setevykh atak [Dimension reduction in network attacks detection systems]. Information Security Problems. Computer Systems, 2012, no. 3, pp. 40-45. (in Russian)

11. Ilayaraja M. and Meyyappan T. Mining medical data to identify frequent diseases using Apriori algorithm. Pattern Recognition, Informatics and Mobile Engineering (PRIME), IEEE, 2013, pp. 194-199.

12. Duquenne V. and Obiedkov S. A. Attribute-incremental construction of the canonical implication basis. Ann. Math. Artif. Intelligence, 2007, vol.49, no. 1, pp. 77-99.

13. Rudolph S. Some notes on pseudo-closed sets. LNCS, 2007, vol.4390, pp. 151-165.

14. ZakiM. J. and Hsiao C.-J. Efficient algorithms for mining closed itemsets and their lattice structure. IEEE Trans. Knowledge Data Eng., 2005, vol. 17, no. 4, pp. 462-478.

15. Uno T., Asai T., Uchida Y., and Arimura H. An efficient algorithm for enumerating closed patterns in transaction databases. LNCS, 2004, vol.3245, pp. 16-31.

16. Zhang C. and Zhang S. Association Rules Mining. Springer, 2002. 240 p.

17. Geng L. and Hamilton H. J. Interestingness measures for data mining: a survey. ACM Computing Surveys, 2006, vol. 38, no. 3, article 9.

i Надоели баннеры? Вы всегда можете отключить рекламу.