Научная статья на тему 'Алгоритм построения неизбыточного минимаксного базиса строгих ассоциациативных правил'

Алгоритм построения неизбыточного минимаксного базиса строгих ассоциациативных правил Текст научной статьи по специальности «Математика»

CC BY
156
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СООТВЕТСТВИЯ ГАЛУА / ЗАМКНУТЫЕ МНОЖЕСТВА / СТРОГИЕ АССОЦИАТИВНЫЕ ПРАВИЛА / НЕИЗБЫТОЧНОСТЬ / МИНИМАКСНЫЙ БАЗИС / GALOIS CONNECTION / CLOSED SETS / STRONG ASSOCIATION RULES / NON-REDUNDANT / MINI-MAX BASIS

Аннотация научной статьи по математике, автор научной работы — Быкова Валентина Владимировна, Катаева Алина Владимировна

Ассоциативные правила тип зависимостей между данными, которые отражают, какие признаки или события встречаются совместно и насколько часто это происходит. Строгие ассоциативные правила представляют интерес для тех приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например в информационной безопасности, анализе компьютерных сетей и медицине. Чрезмерно большое число выявленных правил существенно усложняет их экспертный анализ и применение. Для решения этой проблемы предложен алгоритм MClose, формирующий для заданного бинарного контекста неизбыточное множество минимаксных строгих ассоциативных правил. Алгоритм основан на свойствах замкнутых множеств.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Algorithm for constructing a non-redundant minimax basis of strong associative rules

Associative rules are the type of relations between data that reflect which features or events occur together and how often this happens. Strong associative rules are of interest for those applications where a high degree of confidence of dependencies is required. For example, they are used in information security, computer network analysis and medicine. Excessively large number of identified rules significantly complicates their expert analysis and application. To reduce the severity of this problem, the MClose algorithm is proposed, which extends the capabilities of the well-known algorithm Close. For a given binary context, the proposed algorithm generates non-redundant set of minimax strong associative rules. The algorithm is based on the Galois correspondence and the properties of closed sets.

Текст научной работы на тему «Алгоритм построения неизбыточного минимаксного базиса строгих ассоциациативных правил»

ПРИКЛАДНАЯ ДИСКРЕТНАЯ МАТЕМАТИКА

№10 ПРИЛОЖЕНИЕ Сентябрь 2017

Секция 8

ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ В ДИСКРЕТНОЙ МАТЕМАТИКЕ

УДК 519.7 Б01 10.17223/2226308Х/10/60

АЛГОРИТМ ПОСТРОЕНИЯ НЕИЗБЫТОЧНОГО МИНИМАКСНОГО БАЗИСА СТРОГИХ АССОЦИАЦИАТИВНЫХ ПРАВИЛ

В. В. Быкова, А. В. Катаева

Ассоциативные правила — тип зависимостей между данными, которые отражают, какие признаки или события встречаются совместно и насколько часто это происходит. Строгие ассоциативные правила представляют интерес для тех приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например в информационной безопасности, анализе компьютерных сетей и медицине. Чрезмерно большое число выявленных правил существенно усложняет их экспертный анализ и применение. Для решения этой проблемы предложен алгоритм МС1о8в, формирующий для заданного бинарного контекста неизбыточное множество минимаксных строгих ассоциативных правил. Алгоритм основан на свойствах замкнутых множеств.

Ключевые слова: соответствия Галуа, замкнутые множества, строгие ассоциативные правила, неизбыточность, минимаксный базис.

При поиске ассоциативных правил анализируемое множество данных обычно описывается бинарным контекстом — матрицей, строки которой отвечают объектам предметной области, а столбцы — признакам этих объектов. Единичное значение элемента матрицы трактуется как наличие у объекта соответствующего признака, а нулевое — как его отсутствие. Бинарное представление данных существенно расширяет математический аппарат для их исследования. Многие современные методы поиска строгих ассоциативных правил базируются на свойствах замкнутых множеств [1, 2]. Строгие ассоциативные правила имеют достоверность 1 и представляют интерес для тех приложений, где требуется высокая степень уверенности в установленных зависимостях между данными, например в информационной безопасности и анализе компьютерных сетей [3, 4].

Главная проблема при поиске ассоциативных правил — это огромное число правил, возникающих при анализе больших контекстов. Для решения этой проблемы используются различные меры значимости. С их помощью правила фильтруются и для анализа предъявляются только те, для которых значения мер значимости превышают заданные пороговые значения. Подобная фильтрация, конечно, уменьшает число правил, но не решает проблему размерности полностью. Часто после фильтрации всё равно остается значительное число правил, при этом многие из них избыточные. Ассоциативное правило считается избыточным, если его удаление из множества правил не приводит к потере информации о связях между данными в рассматриваемой предметной области. Множество ассоциативных правил, не содержащее избыточных (в некотором смысле) правил, принято называть базисом.

В настоящее время известен ряд алгоритмов, позволяющих строить различные базисы для строгих ассоциативных правил. Наиболее значимыми базисами являются канонический и минимаксный. Канонический базис (или базис Дюкена — Гига) состоит из минимального числа строгих ассоциативных правил, рекуррентно описываемых в терминах псевдосодержаний [5]. Канонический базис математически глубоко исследован, однако все предложенные на сегодняшний день алгоритмы его построения в большей степени представляют теоретический, чем практический интерес. Минимаксный базис состоит из строгих ассоциативных правил, имеющих минимальную посылку и максимальное следствие. Для построения минимаксного базиса имеются хорошо апробированные практикой алгоритмы, к которым относится алгоритм Close [6]. В данной работе предлагается алгоритм MClose, расширяющий возможности алгоритма Close. Алгоритм MClose формирует для бинарного контекста неизбыточное множество минимаксных строгих ассоциативных правил.

Для описания сути предлагаемого алгоритма введём необходимые понятия и обозначения. Пусть для предметной области определены два непустых конечных множества G и M объектов и признаков соответственно. Предполагаем, что все объекты в G и признаки в M различны. Пусть задано отношение I С G х M инцидентности между G и M. Тройку K = (G, M, I) принято называть контекстом предметной области. Считаем, что существование в I пары (g,m) означает, что объект g имеет признак m, и наоборот, признак m присущ объекту g.

Выберем два произвольных элемента g Е G и m Е M. Определим для них два отображения ф и —: ф(д) = {m Е M : (g,m) Е I} — множество признаков, присущих объекту g; —(m) = {g Е G : (g,m) Е I} — множество объектов, которые обладают признаком m. Отображения ф и — обобщаются на A С G и B С M следующим образом:

ф(А) = П ФЫ = {m Е M : Vg Е A ((g,m) Е I)},

дПА

—(B) = П —(m) = {g Е G : Vm Е B ((g,m) Е I)}.

mEB

Таким образом, ф(А) —множество признаков, общих для всех объектов из A; —(B) — множество объектов, которые обладают всеми признаками из B. Если для отображений ф и — применить единое обозначение (•)', то формулы для ф(А), — (B) записываются так:

А' = П g' = {m Е M : Vg Е A ((g, m) Е I)},

дПА

B' = П m' = {g Е G : Vm Е B ((g, m) Е I)}.

mEB

Из определения этих отображений вытекают свойства, которые формально можно выразить в виде следующих утверждений.

Утверждение 1. Для всякого контекста K = (G, M, I) и любых BbB2 С M верны следующие свойства:

— антимонотонность: если Bi С B2, то B2' С B/;

— экстенсивность: Bi С Bi'', где Bi'' = ((Bi)') С M.

Утверждение 2. Для всякого контекста K = (G,M, I) и любых Ai,A2 С G верны следующие свойства:

— антимонотонность: если Ai С A2, то A2' С Ai';

— экстенсивность: Ai С Ai'', где Ai'' = ((Ai)') С G.

156

Прикладная дискретная математика. Приложение

В силу утверждений 1 и 2, отображения ф и — составляют пару соответствий Галуа между множествами 2G и 2м, частично упорядоченными по включению [1]. Двойное применение отображения «'» определяет оператор замыкания на 2м в алгебраическом смысле [2]. Множество признаков B С M, для которого B = B", называется замкнутым относительно оператора «<"» в контексте K = (G, M, I).

Ассоциативным правилом контекста K = (G, M, I) называется упорядоченная пара r = (X, Y), где X, Y С M. Ассоциативное правило r = (X, Y) записывается в виде X ^ Y, а множества X и Y называются посылкой (или причиной) и заключением (или следствием) соответственно. Ассоциативное правило X ^ Y количественно характеризуется с помощью поддержки и достоверности. Поддержка $(X) множества X С M в контексте K = (G, M, I) определяется как отношение числа объектов, которым присущи признаки X, к общему число объектов, представленных в этом контексте: $(X) = |X'|/|G|. В силу антимонотонности отображения «<'», функция поддержки также удовлетворяет свойству антимонотонности: для любых X, Y С M при X С Y верно неравенство $(Y) ^ $(X). Множество признаков X С M считается частым в K = (G, M, I), если его поддержка больше или равна пороговому значению 50 Е [0,1]. Если $(X) ^ 80 и X = X", то множество X называется частым замкнутым множеством признаков в K = (G, M, I).

Поддержка ассоциативного правила X ^ Y относительно K = (G, M, I) —величина $(X ^ Y) = |(X U Y)'|/|G|, указывающая, какая доля объектов этого контекста имеет признаки X U Y. Достоверность ассоциативного правила X ^ Y — отношение числа объектов, обладающих всеми признаками из X U Y, к числу объектов, которым свойственны только признаки X: y(X ^ Y) = |(X U Y)'|/|X'|. Всегда 0 ^ y(X ^ Y) ^ 1. Чем ближе y(X ^ Y) к 1, тем с большей уверенностью можно сказать, что признаки Y появляются в K = (G, M, I) вместе с признаками X. Строгие ассоциативные правила имеют достоверность 1.

Известно большое число алгоритмов поиска ассоциативных правил. Основополагающими являются алгоритмы Apriori и Close [6]. Алгоритм Apriori работает с частыми множествами признаков и базируется на свойстве антимонотонности функции поддержки. Алгоритм Close использует свойства частых замкнутых множеств. Множество минимаксных строгих ассоциативных правил, полученных в результате работы алгоритма Close, образует минимаксный базис. Этот базис допускает дальнейшее упрощение на основе следующий теоремы.

Теорема 1. Для всякого контекста K = (G, M, I) и любых X, Y, Z, W С M справедливы следующие свойства строгих ассоциативных правил:

D 1. Рефлексивность: X ^ X.

D2. Пополнение: если X ^ Y, то X U Z ^ Y.

D3. Аддитивность: если X ^ Y и X ^ Z, то X ^ Y U Z.

D4. Проективность: если X ^ Y и Z С Y, то X ^ Z.

D5. Транзитивность: если X ^ Y и Y ^ W, то X ^ W.

D6. Псевдотранзитивность: если X ^ Y и Y U Z ^ W, то X U Z ^ W.

Выводимости D1-D6 позволяют из некоторого множества строгих ассоциативных правил вывести многие другие строгие ассоциативные правила без дополнительного сканирования контекста. Выводимости, подобные D1-D6, справедливы и для функциональных зависимостей, имеющих место в теории реляционных баз данных, где их принято называть аксиомами Амстронга. В [7] выводимости D1-D6 доказаны применительно к функциональным зависимостям. В данной работе они доказаны на основе

соответствий Галуа и свойств замкнутых множеств. Доказано также, что выводимости Di,Ds,D4,D5 гарантируют сохранение поддержки: результатом применения их к строгим ассоциативным правилам с поддержкой не менее чем всегда являются строгие ассоциативные правила с таким же порогом поддержки. Именно выводимости Di,D3,D4,D5 применяются в алгоритме MClose для распознавания избыточных строгих ассоциациативных правил и построения неизбыточного минимаксного базиса. Показано, что алгоритм MClose по времени работы сопоставим с алгоритмом Close. Между тем на практике он более чем в 2 раза уменьшает мощность минимаксного базиса, формируемого алгоритмом Close.

Подробное изложение представленных результатов можно найти в [8].

ЛИТЕРАТУРА

1. Биркгоф Г., Барти Т. Современная прикладная алгебра. СПб.: Лань, 2005. 400 с.

2. Гуров С. И. Булевы алгебры, упорядоченные множества, решетки: определения, свойства, примеры. М.: Книжный дом «ЛИБРОКОМ», 2013. 352 с.

3. Батура Т. В. Модели и методы анализа компьютерных социальных сетей // Программные продукты и системы. 2013. №3. С. 130-137.

4. Платонов В. В., Семенов П. О. Методы сокращения размерности в системах обнаружения сетевых атак // Проблемы информационной безопасности. Компьютерные системы. 2012. №3. С. 40-45.

5. Кузнецов С. О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. №10. С. 3-27.

6. Zaki M. J and Hsiao C.-J. Efficient algorithms for mining closed itemsets and their lattice structure // IEEE Trans. Knowledge Data Eng. 2005. V. 17. No. 4. P. 462-478.

7. Майер Д. Теория реляционных баз данных. М.: Мир, 1987. 608 с.

8. Быкова В. В., Катаева А. В. О неизбыточном представлении минимаксного базиса строгих ассоциативных правил // Прикладная дискретная математика. 2017. №36. С. 113-126.

УДК 519.7 DOI 10.17223/2226308X/10/61

ОБРАЩЕНИЕ КРИПТОГРАФИЧЕСКИХ ХЕШ-ФУНКЦИЙ С ИСПОЛЬЗОВАНИЕМ НЕСБАЛАНСИРОВАННЫХ ПРИБЛИЖЕНИЙ РАУНДОВЫХ ФУНКЦИЙ1

И. А. Грибанова

Представлены результаты решения задач обращения неполнораундового варианта криптографической хеш-функции MD4 с использованием новой техники, которая включает в себя следующие этапы: замену некоторых раундовых подфункций MD4 несбалансированными булевыми функциями; решение полученной изменённой задачи; использование части информации из решения изменённой задачи для перехода к решению исходной задачи. Предлагаемая техника комбинируется с дополнительными условиями на переменные сцепления, введёнными ранее Г. Доббертином. Проведённые вычислительные эксперименты демонстрируют работоспособность предлагаемого подхода в применении к задаче обращения 39-шаговой версии MD4 (MD4-39).

Ключевые слова: криптоанализ, обращение хеш-функций, MD4, SAT.

1 Работа поддержана грантом РНФ №16-11-10046.

i Надоели баннеры? Вы всегда можете отключить рекламу.