УДК 519.7 Дата подачи статьи: 17.03.17
DOI: 10.15827/0236-235X.030.2.187-195 2017. Т. 30. № 2. С. 187-195
СЖАТОЕ ПРЕДСТАВЛЕНИЕ СТРОГИХ АССОЦИАТИВНЫХ ПРАВИЛ
В АНАЛИЗЕ ДАННЫХ
В.В. Быкова, д.ф.-м.н., профессор, [email protected]; А.В. Катаева, аспирант, [email protected] (Сибирский федеральный университет, Свободный просп., 79, г. Красноярск, 660041, Россия)
Современные методы и средства поиска ассоциативных правил в больших массивах данных приводят к значительному множеству правил, многие из которых являются избыточными. Избыточные ассоциативные правила не представляют ценности, но могут вводить в заблуждение. Для решения этой проблемы предложен алгоритм MClose, являющийся модификацией алгоритма Close.
Известно, что с помощью алгоритма Close можно построить минимаксный базис для строгих ассоциативных правил (правил с достоверностью 1). Минимаксный базис интересен для экспертов тем, что каждое входящее в него правило имеет минимальную посылку и максимальное следствие. Однако минимаксный базис может содержать избыточные ассоциативные правила. Алгоритм MClose позволяет в процессе построения минимаксного базиса устранять избыточные правила. Результирующий базис назван сжатым строгим базисом. Удаленные ассоциативные правила всегда можно получить из сжатого строгого базиса с сохранением их поддержки и достоверности без обращений к анализируемому массиву данных. Алгоритм MClose основан на соответствиях Галуа и выводимостях, подобных аксиомам Амстронга, которые используются в теории реляционных БД для функциональных зависимостей.
Как показали вычислительные эксперименты, алгоритм MClose по времени работы сопоставим с алгоритмом Close. Однако он примерно в два раза уменьшает число ассоциативных правил минимаксного базиса. В работе дано описание программы, в которой представлены алгоритмы MClose и Close.
Ключевые слова: анализ данных, соответствия Галуа, замкнутые множества, ассоциативные правила, неизбыточность, сжатый строгий базис.
Интеллектуальный анализ данных направлен на исследование больших объемов информации с целью выявления зависимостей между данными. Ассоциативные правила (association rule) - один из хорошо изученных классов зависимостей, которые отражают, какие признаки или события встречаются совместно и насколько часто это происходит. В настоящее время ассоциативные правила нашли широкое применение в медицине, информационной безопасности, анализе компьютерных сетей и маркетинге при решении задач диагностики и прогнозирования [1-3].
При поиске ассоциативных правил анализируемое множество данных обычно описывается бинарным контекстом - матрицей, строки которой соответствуют объектам рассматриваемой предметной области, а столбцы - признакам этих объектов. Единичное значение элемента матрицы трактуется как наличие у объекта соответствующего признака, а нулевое - как его отсутствие. Бинарное представление данных значительно расширяет математический аппарат для их исследования. Современные методы поиска ассоциативных правил базируются преимущественно на анализе формальных понятий и теории вероятностей [4, 5]. Анализ формальных понятий, как прикладная ветвь алгебраической теории решеток, является удобным математическим аппаратом описания методов поиска ассоциативных правил [6-8].
Главная проблема при поиске ассоциативных правил - огромное число правил, возникающих при исследовании больших бинарных контекстов.
Это существенно усложняет экспертный анализ выявленных ассоциативных правил. Для решения этой проблемы используются различные меры значимости, такие как поддержка (support) и достоверность (confidence) [9]. С их помощью найденные ассоциативные правила фильтруются, и для анализа предъявляются только те, для которых значения мер значимости превышают заданные пороговые значения. Подобная фильтрация, конечно, уменьшает число правил, но не решает проблему размерности полностью. Не помогает и расширение мер значимости [10]. Часто после фильтрации все равно остается значительное число ассоциативных правил, при этом многие из них избыточные. Ассоциативное правило считается избыточным, если его удаление из множества правил не приводит к потере информации о связях между данными в рассматриваемой предметной области.
Существуют различные формальные определения избыточных ассоциативных правил и методы их устранения [11]. Наиболее развиты методы устранения избыточности для строгих ассоциативных правил (strong association rules). Такие правила имеют достоверность 1 и считаются самыми важными. Для этих правил имеются плотная параллель с функциональными зависимостями из теории реляционных БД, а также четкое понятие избыточности [12]. Строгие ассоциативные правила представляют интерес для тех приложений, где требуется высокая степень уверенности в обнаруженных зависимостях между данными, например, в медицине и информационной безопасности [1-3].
Множество ассоциативных правил, не содержащее избыточных (в некотором смысле) правил, принято называть базисом. В настоящее время известен ряд алгоритмов, позволяющих строить различные базисы для строгих ассоциативных правил. Наиболее значимыми являются канонический и минимаксный базисы. Канонический базис (или базис Дюкена-Гига) состоит из минимального числа ассоциативных правил, рекуррентно описываемых в терминах псевдосодержаний [13]. Канонический базис глубоко исследован в анализе формальных понятий, однако все предложенные на сегодняшний день алгоритмы его построения в большей степени представляют теоретический, чем практический интерес [14]. Минимаксный базис состоит из строгих ассоциативных правил, имеющих минимальную посылку и максимальное следствие [15]. Для построения минимаксного базиса существует ряд хорошо апробированных практикой алгоритмов. К ним относится, например, алгоритм Close [11, 16]. Исследования показали, что в построенных канонических и минимаксных базисах остается некоторая избыточность, которая может быть устранена на основе выводи-мостей, подобных аксиомам Амстронга, известным в теории реляционных БД для функциональных зависимостей.
В данной статье для строгих ассоциативных правил предложен алгоритм MClose - модификация известного алгоритма Close. Алгоритм MClose позволяет в процессе построения минимаксного базиса устранять избыточность с сохранением поддержки и достоверности без дополнительного обращения к исходному бинарному контексту. Результирующий базис назван сжатым строгим базисом. Введено понятие избыточного ассоциативного правила. Приведены выводимости, доказывающие корректность предлагаемого алгоритма, а также результаты вычислительных экспериментов. Поскольку алгоритм Close основан на анализе формальных понятий, необходимые определения и обозначения этой теории возьмем из работ [6-8].
Основные определения и обозначения анализа формальных понятий
Пусть для некоторой предметной области определены два непустых конечных множества G и M, объектов и признаков соответственно. Предполагаем, что все объекты в G и признаки в M различны. Пусть задано отношение I с G х M инцидентности между множествами G и M. Существование в I пары (g, m), g е G и m е M, означает, что объект g имеет признак m и, наоборот, признак m характерен для объекта g. Тройку K = (G, M, I) принято называть контекстом предметной области.
Выберем в K = (G, M, I) два любых элемента g е G и m е M. Определим для них два отображения ф и у:
ф(?) = {т е M | (д, m) е I} - множество признаков, присущих объекту д;
у(т) = ^ е G | (д, m) е I} - множество объектов, обладающих признаком m.
Отображения ф и у обобщаются на произвольные множества A с G и B с M следующим образом:
ф(А) = п g е A ф(д) = {m е M | Vg е A (д, m) е I},
у(В) = п т е В у(т) = {д е G | Vm е В (д, т) е1}.
Следовательно, ф(А) - множество признаков, общих для всех объектов из А, а у (В) - множество объектов, которые обладают всеми признаками из В. Полагаем, что ф(0) = Ми у(0) = G: пустому множеству объектов присущи все признаки из М и каждый объект рассматриваемого контекста К = М, I) обладает пустым множеством признаков.
Обычно в анализе формальных понятий для отображений ф и у применяется единое обозначение (•)', а приведенные выше формулы для ф(А), у(В) записываются так:
А' = п д е А д = {т е М | Vg е А т) е I}, (1) В' = п т е В т' = {д е G | Vm е В (д, т) е I}. (2)
Если д е G и т е М, то обозначения д и т' служат сокращенной формой записи множеств ф(д) = = {д}' и у(т) = {т}' соответственно.
Отображения «'» удовлетворяют свойствам, вытекающим из их определения и вполне реалистичного и постулируемого в анализе данных положения: расширение (сокращение) множества признаков уменьшает (увеличивает) число объектов, обладающих этими признаками. Формально эти свойства можно выразить в виде следующих утверждений.
Утверждение 1. Для всякого контекста К = М, I) и любых В1, В2 с М верны свойства:
- антимонотонность: если В1 с В2, то (В2)' с (В1)' ;
-экстенсивность: В1 с (В1) '' , где (В1) ' ' = ((В1) ' ) ' с М.
Множество (В1) ' ' = ф(у(В1)) можно трактовать как набор признаков, которые всегда появляются в объектах контекста К = М, I) вместе с признаками из В1, причем это множество является наибольшим по включению в пределах К = М, I). Очевидно, что (0) ' ' = ф(у(0)) = G', где G' - множество признаков, свойственных всем объектам из G. Для подмножеств множества G справедливо утверждение 2, аналогичное утверждению 1.
Утверждение 2. Для всякого контекста К = М, I) и любых А1, А2 с G верны свойства:
- антимонотонность: если А1 с А2, то (А 2) с (А1) ;
-экстенсивность: А1 с (А1) ' ' , где (А1) ' ' = ((А1) ' ) ' с G.
Множество (А 1) = у(ф(А1)) можно интерпретировать как наибольшее по включению множество
объектов, обладающих всеми признаками, которые имеют объекты из A\.
Заметим, что, согласно утверждениям 1 и 2, отображения ф и у составляют пару соответствий Галуа между множествами 2° и 2м, частично упорядоченными по включению [6, 7]. Здесь традиционно 2° и 2м - совокупность всех подмножеств рассматриваемых множеств О и М соответственно. Известно, что для соответствий Галуа [7] ф и у справедливо равенство
ф(у(ф(А))) = ф(А), у(ф(у(Б))) = у(Б), или в единых обозначениях
((А') ' ) ' = (А'' ) ' = А', ((Б') ' ) ' = (Б '' ) ' = Б '. Двойное применение отображения «' » определяет оператор замыкания на 2м в алгебраическом смысле [8]. Ему присущи
-рефлексивность: для любого Б с М всегда Б с Б'';
-монотонность: если Б1 с В2 с М, то (Б1) ' ' с (Б2) ' ' с М;
- идемпотентность: для любого Б с М всегда (Б '' ) ' ' = Б''.
Справедливость этих свойств вытекает из утверждений 1 и 2. Множество признаков Б с М, для которого Б = Б , называется замкнутым относительно оператора «'' » в контексте К = (О, М, I). Принято говорить, что множество Б' ' является замыканием для Б с М в контексте К = (О, М, I). Заметим, что, исходя из (1) и (2), при Б' Ф 0 замыкание для Б с М можно вычислить по формуле Б'' = П 8 е О (я' | Б с я'}. (3)
Если Б' = 0, то всегда Б ' ' = ф(у(Б)) = ф(0) = М. Важно отметить, что применение формулы (3) позволяет найти для заданного множества признаков замыкание за один просмотр контекста К = (О, М, I).
Ассоциативные правила и основные меры их значимости
Определим ассоциативное правило, используя приведенные выше понятия и обозначения. Ассоциативным правилом на множестве признаков контекста К = (О, М, I) называется упорядоченная пара г = (X, У), X, У с М.
Принято ассоциативное правило г = (X, У) записывать в виде Х ^ У. В ассоциативном правиле Х ^ У множества Х и У называют посылкой (или причиной) и заключением (или следствием) соответственно [9]. В анализе ассоциативных правил часто полагают, что посылка и заключение - непустые непересекающиеся множества. С формальных позиций эти ограничения несущественны.
Применительно к заданному контексту К = (О, М, I) всякое ассоциативное правило Х ^ У количественно характеризуется с помощью двух числовых функций: 5(Х ^ У) - поддержка, у(Х ^ У) - достоверность [10]. Поддержка и достоверность ассо-
циативного правила определяются через понятие поддержки множества признаков.
Поддержка 5(Х) множества признаков X с М в контексте К = (О, М, I) - отношение числа объектов, которым присущи признаки X, к общему числу объектов, представленных в этом контексте: 5(Х) = Х I / |О|. (4)
Величину 5(Х) можно интерпретировать как частоту встречаемости в контексте К = (О, М, I) объектов, имеющих признаки Х. Из формулы (4) следует, что для любого X с М значение 5(Х) неизменно находится в естественных границах 0 < 5(Х) < 1. Чем ближе значение 5(Х) к 1, тем большее число объектов рассматриваемого контекста обладает всеми признаками из X. В силу антимонотонности отображения « » поддержка множества признаков также удовлетворяет свойству антимонотонности: для всякого контекста К = (О, М, I) и любых X, У с М при X с У верно неравенство 5(У) < 5(*). (5)
Согласно (5), поддержка множества признаков не может превышать поддержку любого из его подмножеств. Так, для произвольного X с М всегда 5(М) < 5(Х) < 5(0) = 1.
Множество признаков X с М называется частым в контексте К = (О, М, I), если его поддержка больше или равна заданному пороговому значению 5о е [0, 1]. Если 5(Х) > 5о иX = X' , тоX называется частым замкнутым множеством признаков в К = (О, М, I). Частые множества и частые замкнутые множества признаков традиционно служат основой для поиска ассоциативных правил в заданном контексте.
Поддержкой 5(Х ^ У) ассоциативного правила Х ^ У относительно контекста К = (О, М, I) называется величина
5(Х ^ У) = 5(Хи У) = |(Хи У)'I / |О|, (6) указывающая, какая доля объектов этого контекста имеет признаки Х и У. Достоверность у(Х ^ У) ассоциативного правила Х ^ У относительно контекста К = (О, М, I) определяется как отношение числа объектов, обладающих всеми признаками из Х и У, к числу объектов, которым свойственны только признаки Х: у(Х ^У) = |(Х и У) ' | / X |.
Достоверность ассоциативного правила через функцию поддержки выражается формулой у(Х ^ У) = 5(Х ^ У) / 5(Х) = 5(Хи У) / 5(Х). (7) Заметим, что достоверность определяется формулой (7) только для тех ассоциативных правил Х ^ У, для которых 5(Х) Ф 0. Если 5(Х) = 0 (в контексте нет ни одного объекта, который обладал бы признаками X), то также 5(Х и У) = 0. В этом особом случае полагают у(Х ^ У) = 1. Исходя из (4)-(7), достоверность ассоциативного правила Х ^ У при произвольных X, У с М всегда находится в границах 0 < у(Х ^ У) < 1. Чем ближе значение у(Х ^ У) к 1, тем с большей уверенностью
можно сказать, что признаки У появляются в объектах рассматриваемого контекста вместе с признаками X.
Ассоциативное правило X ^ У называется минимаксным, если не существует другого ассоциативного правила X* ^ У*, такого, что Х*с X,
У с У* и 5(Х* ^ У*) = 8(Х ^ У), у(Х* ^ У*) = = у(Х ^ У).
В анализе ассоциативных правил часто достоверность ассоциативного правила называют величиной его значимости. Самыми значимыми считаются строгие ассоциативные правила - правила с достоверностью 1. Известен критерий наличия в контексте строгого ассоциативного правила: достоверность ассоциативного правила Х ^ У относительно контекста К = М, I) равна 1 тогда и только тогда, когда У с Х'. Заметим, что данный критерий тривиальным образом выполняется для Х ^ Х'.
Из определения замыкания и формулы (3) следует, что для всякого контекста К = (Э, М, I) и любого множества Х с М поддержка Х ' относительно К = М, I) совпадает с поддержкой Х:
8(Х' ) = 5(Х). (8)
Таким образом, если Х с М является частым множеством в К = М, I), то Х ' также является частым в этом контексте. Следует отметить, что в худшем случае число частых замкнутых множеств признаков контекста К = М, I) совпадает с числом частых множеств признаков и экспоненциально зависит от |М|. Однако на практике обычно число частых замкнутых множеств значительно меньше числа частых множеств. Примеры контекстов с полиномиальным относительно |М| числом частых замкнутых множеств можно найти в [16]. Использование формулы (8) позволяет при поиске ассоциативных правил вместо частых множеств признаков применять частые замкнутые множества и тем самым сокращать пространство поиска ассоциативных правил. В силу (3) и (8) расширение исходного контекста путем добавления в него новых объектов не изменяет замыкания Х с М, но может расширить состав объектов, которым присущи все признаки из Х'. Это означает, что при такой трансформации исходного контекста возможно лишь увеличение поддержек для ранее найденных замкнутых множеств признаков. Поэтому, если эти множества были частыми, они по-прежнему останутся частыми.
Задача поиска ассоциативных правил и известные алгоритмы ее решения
Пусть заданы контекст К = (Э, М, I) и 5о, у0 - вещественные числа из [0, 1]. Будем говорить, что Х ^ У является (50, у0)-ассоциативным правилом в К = М, I), если выполняются два условия:
ус < у(Х ^ Y) < 1, (9)
5о < 8(Х ^ Y) < 1. (10)
Требуется найти для заданного контекста K = (G, M, I) множество AR всех (5о, уо)-ассоциа-тивных правил. Заметим, что искомый набор правил AR параметризирован относительно пороговых значений 50 и у0. Например, при 50 = 0 условие (10) отражает естественные границы поддержки. Данная ситуация свидетельствует о том, что нет ограничений на частоту появления признаков Х u Y в K = (G, M, I). При у0 = 1 условие (9) приводит к равенству у(Х ^ Y) = 1. В этом случае будем иметь строгие ассоциативные правила.
Решение поставленной задачи предполагает выполнение следующих двух этапов: вначале построение различных подмножеств множества M, вычисление для каждого из них поддержки и проверка условия (10); далее генерация ассоциативных правил с учетом найденных частых наборов и проверка условия (9). Наличие на обоих этапах комбинаторных переборов приводит к значительным вычислительным затратам для нахождения решения данной задачи. Очевидно, что, чем больше пороговые значения, тем быстрее находится соответствующий набор ассоциативных правил и тем меньшее число правил будет содержать этот набор. К сожалению, в худшем случае время поиска всех (50, у0)-ассоциативных правил в заданном контексте K = (G, M, I) экспоненциально зависит от |M|.
К настоящему времени разработано большое число алгоритмов поиска ассоциативных правил. Их обзор представлен в работах [15, 16]. Основополагающими среди них являются алгоритмы Apriori и Close. Алгоритм Apriori использует свойство антимонотонности функции поддержки [3, 9]. Он генерирует (50, у0)-ассоциативные правила для любых 50 и у0 исходя из найденных частых множеств признаков. Алгоритм Close представляет класс алгоритмов, генерирующих только (50, 1)-ассоциа-тивные правила, то есть строгие ассоциативные правила. Этот алгоритм порождает строгие ассоциативные правила из частых замкнутых наборов признаков [15]. Переход от частых множеств к частым замкнутым множествам позволяет сузить пространство поиска. Другим достоинством алгоритма Close и его многочисленных версий является способность формировать минимаксные ассоциативные правила.
Пример 1. Рассмотрим контекст K = (G, M, I), представленный в таблицах 1 и 2, где G = {g1, g2, g3, g4, g5} - множество объектов, M = {a, b, c, d, e} -множество признаков, I - матрица инцидентности. Заметим, что именно этот контекст традиционно используется в публикациях по алгоритмам поиска ассоциативных правил для демонстрации и тестирования этих алгоритмов [9]. В таблицах 1, 2 и далее при написании множеств для краткости опущены фигурные скобки, запятые между элемен-
тами этих множеств и элементы расположены в лексикографическом порядке. Например, вместо {a, b, c} записано abc, а вместо {a, b} ^ {c} -ab ^ c.
Таблица 1
Исходный контекст
Table 1
Input context
Объект Признаки, присущие объектам
gl acd
g2 bce
g3 abce
g4 be
g5 abce
Таблица 2
Матрица инцидентности исходного контекста
Table 2
The incidence matrix of the input context
gi g2 g3 g4 g5
Для рассматриваемого контекста при So = 1/5 и yo = 1 алгоритм Apriori приводит к семнадцати строгим ассоциативным правилам:
AR = {a ^ c, d ^ a, e ^ b, b ^ e, d ^ c, ab ^ c, ae ^ b, ab ^ e, cd ^ a, ad ^ c, d ^ ac, ae ^ c, ce ^ b, bc ^ e, ace ^ b, abe ^ c, abc ^ e}. (11) Полученное множество AR содержит много избыточных правил в том смысле, что, если их исключить, то они выводимы из оставшихся правил. Это следующие ассоциативные правила: {d ^ c, ab ^ c, ae ^ b, ab ^ e, cd ^ a, ad ^ c, d ^ ac, ae ^ c, ce ^ b, bc ^ e, ace ^ b, abe ^ c, abc ^ e}.
Некоторые из них удаляются алгоритмом Close в процессе построения множества AR. В результате алгоритм Close извлекает лишь восемь минимаксных строгих ассоциативных правил:
AR = {a ^ c, b ^ e, e ^ b, d ^ ac, bc ^ e, ce ^ b, ab ^ ce, ae ^ bc}, (12)
что в два раза меньше чем в (11). Алгоритм Close находит минимаксные строгие ассоциативные правила по следующим частым замкнутым наборам признаков: c, ac, be, bce, acd, abce. Все эти правила имеют допустимые поддержки: S(a ^ c) = 3/5, S(b ^ e) = 4/5, S(e ^ b) = 4/5, S(d ^ ac) = 1/5, S(bc ^ e) = 3/5, S(ce ^ b) = 3/5, S(ab ^ ce) = 2/5, S(ae ^ bc) = 2/5.
Классический алгоритм Close
Суть классического алгоритма Close заключается в пошаговом извлечении генераторов и частых
замкнутых наборов признаков [11, 15]. Множество р с M называется генератором замкнутого набора признаков X с M, X = X' , тогда и только тогда, когда р' ' = X и не существует другого множества х с M, такого, что х с р и т" = X. Другими словами, генератор замкнутого набора признаков X - наименьшее по мощности множество признаков, имеющее замыкание X. Число признаков, входящих в генератор р, называется мощностью этого генератора. Если |р| = к, то р является к-генератором.
На вход алгоритма Close подаются исходный контекст K = (G, M, I) и пороговое значение 5о. Изначально множество AR считается пустым и к = 1. На первом шаге в качестве к-генераторов рассматриваются все одноэлементные подмножества множества M. Замыкание рк' для генератора рк вычисляется по формуле (3). Поддержка для рк' находится по формуле (4). Если 8(рк' ) > So, то по частому замкнутому множеству рк строится минимаксное строгое ассоциативное правило
рк ^ рк' \ рк (13)
и сохраняется в AR. Согласно (6) и (8), для него S^ ^ рк ' \ рк) = 5(рк'') > So, у(рк ^ рк ' \ рк) = 1. То, что ассоциативное правило (13) является минимаксным, следует из определения генератора. Очевидно, что различные генераторы могут порождать одинаковые замыкания. Так, для контекста из примера 1 имеем: b'' = be, e'' = be. Поэтому (12) содержит минимаксные строгие ассоциативные правила b ^ e и e ^ b.
После генерации ассоциативного правила по рк ' создаются кандидаты в (к + 1)-генераторы для следующей итерации. Каждый такой кандидат формируется путем объединения двух к-генерато-ров, обладающих одинаковыми первыми к - 1 признаками. Далее проверяется, вложен ли найденный кандидат в рк' . Если вложен, то он исключается из рассмотрения. После нахождения всех (к + ^-генераторов осуществляется переход к следующей итерации. Алгоритм Close завершает работу, когда исчерпаны все генераторы.
Множество ассоциативных правил, полученных в результате работы алгоритма Close, образует минимаксный базис строгих ассоциативных правил контекста K = (G, M, I). Корректность алгоритма Close доказана в работе [15]. Алгоритм Close может быть модифицирован так, чтобы в результирующее множество AR не попадали заведомо избыточные строгие ассоциативные правила.
Алгоритм MClose для построения сжатого строгого базиса
Верна следующая теорема.
Для любого контекста K = (G, M, I) и произвольных X, Y, Z, W с M справедливы следующие свойства строгих ассоциативных правил:
a b c d e
l 0 l l 0
0 l l 0 l
l l l 0 l
0 l 0 0 l
l l l 0 l
D1. Рефлексивность: Х ^ X
D2. Пополнение посылки: если Х ^ Y, то Х u Z ^ Y.
D3. Аддитивность: если Х ^ Y и Х ^ Z , то Х ^ Y u Z.
D4. Проективность: если Х ^ Y и Z с Y, то Х ^ Z.
D5. Транзитивность: если Х ^ Y и Y ^ W, то Х ^ W.
D6. Псевдотранзитивность: если Х ^ Y и Y u Z ^ W, то Х u Z ^ W.
Свойства (или выводимости) D1-D6 позволяют из некоторого множества строгих ассоциативных правил вывести многие другие правила без дополнительного сканирования контекста. С одной стороны, именно выводимости D1 -D6 обусловливают экспоненциальное число возможных строгих ассоциативных правил для рассматриваемого контекста и неоднозначность их представления. С другой стороны, они предоставляют возможность построить для множества строгих ассоциативных правил сжатый строгий базис (concise strong basis), компактно описывающий связи между данными изучаемой предметной области.
Примечательно, что выводимости, подобные D1 -D6, справедливы для функциональных зависимостей, имеющих место в теории реляционных БД, где их принято называть аксиомами Амстронга. Такое совпадение не случайно, поскольку строгие ассоциативные правила можно рассматривать как особый случай функциональных зависимостей [5]. В работе [12] выводимости Di-D6 доказаны применительно к функциональным зависимостям. Однако они могут быть доказаны непосредственно для ассоциативных правил на основе соответствий Галуа. Важно, что выводимости D1, D3, D4, D5 гарантируют сохранение поддержки. Это означает, что результатом применения их (50, 1)-ассоциатив-ным правилом всегда является (50, 1)-ассоциатив-ное правило. Поэтому эти выводимости применяются в алгоритме MClose для построения сжатого строгого базиса. Введем определения избыточного ассоциативного правила и сжатого строгого базиса для множества (50, 1)-ассоциативных правил.
Пусть AR - множество строгих ассоциативных правил, каждое из которых справедливо для контекста K = (G, M, I). Будем говорить, что строгое ассоциативное правило Х ^ Y логически следует из множестваAR, если оно может быть выведено из AR с помощью выводимостей D1, D3, D4, D5. Тот факт, что строгое ассоциативное правило Х ^ Y логически следует из AR, будем обозначать так: AR \ Х ^ Y.
Строгое ассоциативное правило Х ^ Y называется избыточным в AR, если AR \ {Х ^ Y} \ Х ^ Y. Множество строгих ассоциативных правил неизбыточное, если оно не содержит избыточных стро-
гих ассоциативных правил. Множество CSB называется сжатым строгим базисом множества AR, если оно неизбыточное и состоит только из минимаксных строгих ассоциативных правил. Данное определение сжатого строгого базиса указывает способ его нахождения - генерация минимаксных строгих ассоциативных правил (например, с помощью алгоритма Close) и устранение среди них избыточных.
Распознавание избыточного строгого ассоциативного правила в AR основано на проверке логического следования
AR \ {Х ^ Y} \ Х ^ Y. (14)
Алгоритм такой проверки использует понятие замыкания множества признаков относительно множества AR и является полиномиальным относительно |M| и |AR|. Замыканием множества Х с M относительно AR (обозначается X+) называется множество всех признаков m е M, таких, что верно логическое следование AR \ Х ^ m. Заметим, что неизменно X+ с M. Из выводимостей D1, D3, D4 вытекает справедливость следующего утверждения.
Утверждение 3. Логическое следование AR \ Х ^ Y имеет место тогда и только тогда, когда Y с X+.
Отсюда всегда AR \ Х ^ X+, AR \ Х ^ X+ \ X В силу утверждения 3, чтобы убедиться в справедливости (14), достаточно вычислить X+ относительно AR \ {Х ^ Y} и проверить включение Y с X+. Если Y с X+, то строгое ассоциативное правило Х ^ Y избыточно в AR, иначе - не избыточно.
Алгоритм вычисления X+ целиком базируется на выводимостях D1, D3, D4, D5 и сводится к выполнению следующих действий. Сначала полагается X+ = Х. Далее осуществляются просмотр правил из AR и пополнение замыкания по следующему принципу: если для правила Y ^ Z е AR верно включение Y с X+, то множество Z добавляется к X+. Этот процесс повторяется до тех пор, пока изменяется X+. Поскольку множестваM иAR конечные, то процесс вычисления X+ конечен.
Заметим, что процесс исключения избыточных строгих ассоциативных правил не требует доступа к контексту K = (G, M, I) и поэтому время его выполнения незначительно по сравнению со временем получения частых замкнутых множеств признаков. Чтобы исключить добавление заведомо избыточного строгого ассоциативного правила в AR, необходимо всякий раз после построения р^' ' выполнять следующие действия. Если посылка р^ найденного правила не равна р^'' , то необходимо найти замыкание рк+ относительно вычисленного множества AR. Если рк+ = рк' , то минимаксное ассоциативное правило р^ ^ рк ' / р^ является избыточным (по утверждению 3), иначе оно включается в AR. После завершения генерации минимаксных строгих ассоциативных правил обязательно требу-
ется дополнительный просмотр результирующего множества AR с целью обнаружения оставшихся избыточных правил. Такие правила вполне возможны: они неизбыточные по отношению к ранее выявленным правилам, однако после пополнения AR новыми правилами могут оказаться избыточными. Таким образом, по построению результирующее множество AR состоит из минимаксных строгих ассоциативных правил и является неизбыточным. Заметим, что оперативное удаление избыточных правил сдерживает рост мощности AR и снижает время выполнения алгоритма. Опишем алгоритм MClose.
Алгоритм 1. MClose 1: begin
2: AR ^ 0 3: k ^ 1 4: while pk * 0 5: Gen-Closure (pk) 6: if 8(pk) > So 7: if pk * pk'
8: pk+ ^ SX (pk)
9: end if
10: if pk+ * pk ' 11: AR ^ (pk ^ pk" \ pk)
12: end if
13: end if
14: Gen-Generator (k + 1) 15: k ^ k + 1 16: end while 17: Non-Redundancy (AR) 18: end
В описании алгоритма MClose процедуры Gen-Closure и Gen-Generator аналогичны одноименным процедурам классического алгоритма Close (см. [11, 15]). Процедура SX осуществляет построение замыкания pk+. Процедура Non-Redundancy, выполняемая на шаге 17 алгоритма MClose, устраняет в AR избыточные строгие ассоциативные правила после завершения его генерации.
Пример 2. Для контекста, представленного в таблицах 1 и 2, при S0 = 1/5 и у0 = 1 минимаксный базис состоит из восьми правил (12), в котором избыточными являются
bc ^ e, ce ^ b, ab ^ ce, ae ^ bc. (15)
Сжатый строгий базис, построенный алгоритмом MClose, содержит только четыре минимаксных строгих ассоциативных правила: CSB = {a ^ c, b ^ e, e ^ b, d ^ ac}. Заметим, что на основе CSB можно получить всякое правило из (15) с помощью алгоритма вычисления X+. Так, чтобы найти максимальное следствие для посылки bc, достаточно вычислить bc+ относительно CSB. В результате имеем bc+ = bce. Отсюда CSB |= bc ^ e. Поскольку bc+ = bc'' = bce и e е bc'', то ассоциативное правило bc ^ e является строгим.
Программная реализация алгоритма MClose и результаты экспериментов
Алгоритм MClose программно реализован на языке программирования С++ в среде разработки Embarcadero RAD Studio XE8. Исходными данными для него служат контекст K = (G, M, I) и пороговое значение поддержки. Для ввода исходных данных имеется интерфейс (см. http://www.swsys. ru/uploaded/image/2017_2/2017-2-dop/7.jpg). Для удобства пользователя пороговое значение вводится в виде целого положительного числа 50 • |G|. Результатом работы алгоритма MClose являются все выявленные частые замкнутые множества признаков и сжатый строгий базис (см. http://www. swsys.ru/uploaded/image/2017_2/2017-2-dop/8.jpg). Значения поддержек масштабируются и выводятся в виде целых положительных чисел.
В программе существует возможность изменения результирующего множества ассоциативных правил путем добавления и удаления отдельных правил. Это сделано для того, чтобы эксперт мог исключить из рассмотрения ассоциативные правила, которые, на его взгляд, не отвечают реальной действительности, и добавить существенные правила. Допускается сокращение признакового пространства (вкладка «Анализ признаков») с помощью методов, описанных в работе [17]. Преду смотрена функция вычисления следствия для всякой заданной посылки относительно сжатого строгого базиса. Для оценки эффективности алгоритма MClose были также программно реализованы алгоритмы Apriori и Close.
Алгоритмы Apriori, Close и MClose сравнивались по числу сгенерированных строгих ассоциативных правил и времени работы. Эксперименты осуществлялись на компьютере с процессором Intel® Core™ i5 CPU & 2.30 GHz и ОЗУ размером 4 ГБ. Эксперименты выполнялись на контекстах различной размерности и плотности, сгенерированных случайным образом. Результаты экспериментов представлены в таблице 3.
Таблица 3
Результаты экспериментов
Table 3
Results of experiments
Характеристика контекста K = (G, M, I) Алгоритм
Apriori Close MClose
|G| Ml CT 1 2 1 2 1 2
20 10 0,3S 1797 175б2 45 250 22 297
30 10 0,39 2029 1S347 4б 374 19 412
30 10 0,55 1543S/ 1S7202 б9 390 20 4S4
50 10 0,53 277б9 37517S 4б 7S 13 124
500 10 0,53 277б9 37б154 42 124 13 í6S
10000 10 0,53 277б9 37S400 42 б71 13 S72
Примечание: в колонках под цифрой 1 - число извлеченных строгих ассоциативных правил, под цифрой 2 -время, мс.
В таблице 3 для всякого анализируемого контекста K = (G, M, I) указаны |G| - число объектов, M| - число признаков, ст = n /(|G| • M|) - плотность контекста, где n задает число единичных элементов матрицы инцидентности I. Контекст из 10 000 объектов был сформирован многократным копированием контекста, состоящего из 500 объектов.
Из таблицы 3 видно, что алгоритмы Close и MClose эффективнее алгоритма Apriori как по числу извлеченных строгих ассоциативных правил, так и по времени работы. Алгоритм MClose по времени работы сопоставим с алгоритмом Close. Однако алгоритм MClose позволяет более чем в два раза уменьшить мощность минимаксного базиса, формируемого алгоритмом Close.
Заключение
Современные методы и средства поиска ассоциативных правил в больших массивах данных приводят к значительному числу правил, большинство из которых являются избыточными. Усилия многих исследователей направлены на разработку методов устранения избыточности в представлении ассоциативных правил. Для решения этой проблемы применительно к строгим ассоциативным правилам предложен алгоритм MClose, являющийся модификацией известного алгоритма Close и основанный на свойствах частых замкнутых множеств. Предложенный алгоритм формирует для заданного контекста сжатый строгий базис - неизбыточное множество минимаксных строгих ассоциативных правил с сохранением поддержки. Вычислительные эксперименты показали, что алгоритм MClose существенно сокращает число извлеченных строгих ассоциативных правил без потери информации о связях между данными анализируемой предметной области. Перспективны исследования, направленные на устранение избыточности для ассоциативных правил с любыми поддержками и достоверностями.
Литература
1. Батура Т.В. Модели и методы анализа компьютерных социальных сетей // Программные продукты и системы. 2013. № 3. С. 130-137.
2. Платонов В.В., Семенов П.О. Методы сокращения размерности в системах обнаружения сетевых атак // Проблемы информационной безопасности. Компьютерные системы. 2012. № 3. С. 40-45.
3. Ilayaraja M., Meyyappan T. Mining medical data to identify frequent diseases using Apriori algorithm. Pattern Recognition, Informatics and Mobile Engineering (PRIME), IEEE, 2013, pp. 194-199.
4. Городецкий В.И., Самойлов В.В. Ассоциативный и причинный анализ и ассоциативные байесовские сети // Тр. СПИИРАН. 2009. Вып. 9. С. 13-65.
5. Кузнецов С.О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика.
2001. № 10. С. 3-27.
6. Биркгоф Г., Барти Т. Современная прикладная алгебра. СПб: Лань, 2005. 400 с.
7. Гуров С.И. Булевы алгебры, упорядоченные множества, решетки: определения, свойства, примеры. М.: ЛИБРОКОМ, 2013. 352 с.
8. Ganter B., Wille R. Formal Concept Analyses: mathematical foundations, Springer Science and Business Media, 2012, 314 p.
9. Zhang C., Zhang S. Association rules mining. Springer,
2002, 240 p.
10. Geng L., Hamilton H.J. Interestingness measures for data mining: a survey. ACM Computing Surveys, 2006, vol. 38, no. 3, article 9.
11. Pasquier N., Bastide Y., Taouil R. & Lakhal L. Generating a condensed representation for association rules. Jour. of Intelligent Information Systems, 2005, vol. 24, no. 1, pp. 29-60.
12. Мейер Д. Теория реляционных баз данных. М.: Мир, 1987. 608 с.
13. Duquenne V., Obiedkov S.A. Attribute-incremental construction of the canonical implication basis. Annals of Mathematics and Artificial Intelligence, 2007, vol. 49, no. 1-4, pp. 77-99.
14. Rudolph S. Some notes on pseudo-closed sets. Proc. ICFCA 2007, LNCS, Springer, 2007, vol. 4390, pp. 151-165.
15. Zaki M.J., Hsiao Ch.-J. Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure. IEEE Transaction on Knowledge and Data Engineering, 2005, vol. 17, no. 4, pp. 462-478.
16. Uno T., Asai T., Uchida Y., Arimura H. An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases. Proc. DS'04, LNAI 3245, 2004, pp. 16-31.
17. Быкова В.В., Катаева А.В. Методы и средства анализа информативности признаков при обработке медицинских данных // Программные продукты и системы. 2016. № 2. С. 172-178.
Software & Systems Received 17.03.17
DOI: 10.15827/0236-235X.030.2.187-195 2017, vol. 30, no. 2, pp. 187-195
A CONTRACTED REPRESENTATION OF STRONG ASSOCIATIVE RULES IN DATA ANALYSIS
V. V. Bykova 1, Dr. Sc. (Physics and Mathematics), Professor, [email protected] A. V. Kataeva 1, Postgraduate Student, [email protected]
1 Siberian Federal University, Svobodny Ave. 79, Krasnoyarsk, 660041, Russian Federation
Abstract. Modern methods and means of searching for association rules in big data lead to a significant number of rules, many of which are redundant. Redundant association rules are generally of no value, but they can misinform. To solve this problem, the paper proposes an algorithm MClose, which is a modification of the algorithm Close.
It is known that Close algorithm might help to construct mini-max basis for strict association rules (association rules with the confidence of 1). Mini-max basis consists of only min-max association rules. Association rules with minimal antecedent and maximal consequent are called min-max association rules. Such rules are interesting for experts. However, mini-max basis may contain redundant association rules. The algorithm MClose immediately eliminates redundant association rules when creating mini-max basis. The resulting basis is called concise strong basis (CSB). Redundant association rules might always be obtained from the CSB without sacrificing their support and confidence, without references to the data set. Algorithm MClose is based on Galois connection. MClose algorithm is also based on derivability, which are similar on Armstrong axioms for functional dependencies.
Experiments have shown that running time of algorithm MClose is comparable with the algorithm Close. However, it reduces the number of association rules mini-max basis about twice. We provide a description of the program which presents MClose and Close algorithms.
Keywords: data mining, Galois connection, closed sets, association rules, non-redundancy, concise strong basis.
References
1. Batura T.V. Social networks analysis models and methods. Programmnyeprodukty i sistemy [Software & Systems]. 2013, no. 3, pp. 130-137 (in Russ.).
2. Platonov V.V., Semenov P.O. Dimension reduction in network attacks detection systems. Problemy informatsionnoy bezopasnosti. Kompyuternye sistemy [Information Security Problems. Computer Systems]. 2012, no. 3, pp. 40-45 (in Russ.).
3. Ilayaraja M., Meyyappan T. Mining medical data to identify frequent diseases using Apriori algorithm. Pattern Recognition, Informatics and Mobile Engineering (PRIME), IEEE, 2013, pp. 194-199.
4. Gorodetsky V.I., Samoylov V.V. Association and casual rule mining using associative bayesian networks. Tr. SPIIRAN [SPIIRAS Proc.]. 2009, no. 9, pp. 13-65 (in Russ.).
5. Kuznetsov S.O. Automatic learning using analysis of formal concepts. Avtomatika i telemekhanika [Automation and Telemechanics]. 2001, no. 10, pp. 3-27 (in Russ.).
6. Birkgof G., Barti T. Sovremennayaprikladnaya algebra [Modern Applied Algebra]. St. Petersburg, Lan Publ., 2005, 400 p.
7. Gurov S.I. Bulevy algebry, uporyadochennye mnozhestva, reshetki: opredeleniya, svoystva, primery [Boolean algebra, ordered sets, grids: definitions, features, examples]. Moscow, Librokom Publ., 2013, 352 p.
8. Ganter B., Wille R. Formal Concept Analyses: mathematical foundations. Springer Science and Business Media Publ., 2012, 314 p.
9. Zhang C., Zhang S. Association Rules Mining. Springer Publ., 2002, 240 p.
10. Geng L., Hamilton H.J. Interestingness measures for data mining: a survey. ACM Computing Surveys. 2006, vol. 38, no. 3, article 9.
11. Pasquier N., Bastide Y., Taouil R., Lakhal L. Generating a condensed representation for association rules. Jour. of Intelligent Information Systems. 2005, vol. 24, no. 1, pp. 29-60.
12. Meyer D. Teoriya relyatsionnykh bazdannykh [The Relational Database Theory]. Moscow, Mir Publ., 1987, 608 p.
13. Duquenne V., Obiedkov S.A. Attribute-incremental construction of the canonical implication basis. Annals of Mathematics and Artificial Intelligence. 2007, no. 49 (1-4), pp. 77-99.
14. Rudolph S. Some notes on pseudo-closed sets. Proc. ICFCA 2007. LNCS, Springer Publ., 2007, vol. 4390, pp. 151-165.
15. Zaki M.J., Hsiao Ch.-J. Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure. IEEE Trans. on Knowledge and Data Engineering. 2005, vol. 17, no. 4, pp. 462-478.
16. Uno T., Asai T., Uchida Y., Arimura H. An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases. Proc. DS'04. LNAI Publ., 2004, no. 3245, pp. 16-31.
17. Bykova V.V., Katayeva A.V. Methods and tools for analysing informative features when processing medical data. Programmnye produkty i sistemy [Software & Systems]. 2016, no. 2 (114), pp. 172-178 (in Russ.).
Примеры библиографического описания статьи
1. Быкова В.В., Катаева А.В. Сжатое представление строгих ассоциативных правил в анализе данных // Программные продукты и системы. 2017. Т. 30. № 2. С. 187-195; DOI: 10.15827/0236-235X.030.2.187-195.
2. Bykova V.V., Kataeva A.V. A contracted representation of strong associative rules in data analysis. Programmnye produkty i sistemy [Software & Systems]. 2017, vol. 30, no. 2, pp. 187-195 (in Russ.); DOI: 10.15827/0236-235X.030.2.187-195.