Научная статья на тему 'TYPES OF ASSOCIATION RULES'

TYPES OF ASSOCIATION RULES Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
58
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АССОЦИАТИВНЫЕ ПРАВИЛА / НЕГАТИВНЫЕ АССОЦИАТИВНЫЕ ПРАВИЛА / ОБОБЩЕННЫЕ АССОЦИАТИВНЫЕ ПРАВИЛА / ВРЕМЕННЫЕ АССОЦИАТИВНЫЕ ПРАВИЛА / ЧИСЛЕННЫЕ АССОЦИАТИВНЫЕ ПРАВИЛА / АНАЛИЗ ДАННЫХ / ASSOCIATION RULES / NEGATIVE ASSOCIATION RULES / GENERALIZED ASSOCIATION RULES / TEMPORARY ASSOCIATION RULES / NUMERICAL ASSOCIATION RULES / DATA ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тихонов Г.А., Пальмов С.В.

Развитие компьютерных технологий вызвало значительное увеличение объёма хранимых данных. Это в свою очередь привело к тому, что человеку стало все труднее анализировать их. Появляется все больше различных способов и методов, которые помогают облегчить этот процесс. Один из таких методов - ассоциативные правила. Авторы приводят понятие ассоциативного правила. Кратко рассмотрены основные виды ассоциативных правил (обобщенные, числительные, негативные и временные). По результатам обзора сделан вывод о положительных особенностях ассоциативных правил.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «TYPES OF ASSOCIATION RULES»

УДК 004.8

Тихонов Г.А. студент 4 курса

факультет «Информационные системы и технологии»

Пальмов С.В., к.т.н.

доцент

кафедра «Информационные системы и технологии»

ФГБОУ ВО ПГУТИ Россия, г. Самара ВИДЫ АССОЦИАТИВНЫХ ПРАВИЛ

Аннотация: Развитие компьютерных технологий вызвало значительное увеличение объёма хранимых данных. Это в свою очередь привело к тому, что человеку стало все труднее анализировать их. Появляется все больше различных способов и методов, которые помогают облегчить этот процесс. Один из таких методов - ассоциативные правила. Авторы приводят понятие ассоциативного правила. Кратко рассмотрены основные виды ассоциативных правил (обобщенные, числительные, негативные и временные). По результатам обзора сделан вывод о положительных особенностях ассоциативных правил.

Ключевые слова: ассоциативные правила, негативные ассоциативные правила, обобщенные ассоциативные правила, временные ассоциативные правила, численные ассоциативные правила, анализ данных.

Tikhonov G.A. 4th year student

Faculty of "Information systems and technologies" Povolzhskiy State University of Telecommunications and Informatics

Russia, Samara Palmov S. V., Ph.D. of Engineering Sciences associate professor of the department "Information systems and

technologies"

Povolzhskiy State University of Telecommunications and Informatics

Russia, Samara

TYPES OF ASSOCIATION RULES

Abstract: The development of computer technology has caused a significant increase in the amount of stored data. This in turn led to the fact that it became increasingly difficult for a person to analyze them. There are many different ways and methods that help facilitate this process. One of these methods is association rules. The authors cite the concept of an association rule. The main types of association rules (generalized, numeral, negative and temporary) are briefly reviewed. Based on the results of the review, a conclusion was made about the positive features of the association rules.

Keywords: association rules, negative association rules, generalized association rules, temporary association rules, numerical association rules, data

analysis.

Ассоциативные правила - это процесс нахождения логических закономерностей между связанными элементами (событиями или объектами).

Ассоциативные правила состоят из двух частей: условие и результат. Условие - набор объектов из множества I, с которыми связаны объекты, включенные в результат данного правила. Следовательно: если X (условие) то Y (результат), где Х g Y, Y g I,х y = ф

Ассоциативные правила можно представить как импликацию над множеством: Х ^ Y, где Х g y, Y g I,х ^ y = ф.

Основным достоинством правил является их легкое восприятие человеком и простая интерпретация языками программирования. [1]

Каждое ассоциативное правило содержит некую информацию, которую можно разделить на:

• Полезную. Информация, которая ранее неизвестна, но имеет логическое объяснение.

• Тривиальную. Информация, которая известна и имеет легкое объяснение.

• Непонятную. Информация, которую невозможно объяснить. [3]

Ассоциативные правила создаются в два этапа:

1. Формирование набора частых элементов или шаблонов.

2. Генерация ассоциативных правил на основе шаблонов.

Таким образом, количество ассоциативных правил может быть может большим. К тому же не все созданные правила несут в себе полезную информацию. Поэтому для оценки полезности информации вводятся следующие величины.

Поддержка (support) - (Х ^Y) показывает, какой процент записей (строк) в наборе данных, который содержит как X, так и Y (Х ^ Y).

Достоверность (confidence) - (Х ^Y) показывает вероятность того, что из наличия транзакций набора X, следует наличие в ней набора Y.[4] Основные виды ассоциативных правил:

Негативные ассоциативные правила (Negative Association Rules).

Характеризуются отрицательной взаимосвязью между различными событиями: «Если произошло событие Х, то событие Y не наступит»

(Х ^Y) или «Если не произошло событие Х, то наступит событие Y»

(Х ^ Y). Из этой характеристики извлекают негативные АП: (Х ^ Y) или

(Х ^Y). Благодаря полному набору построенных ассоциативных правил

( Х ^ Y Х ^ Y Х ^ Y )

( ' ' ', которые находятся между различными объектами

та g I,а = 1,2...,Nr f. D = {TX,T2,...,TN }

a ' ' ' 1 и базами данных 1 2 nt , позволяет

достаточно точно описать исследуемые зависимости, что в свою очередь

приведет к достоверным результатам прогнозирования. [4]

Обобщенные ассоциативные правила (Generalized Association Rules).

Обобщенным ассоциативным правилом является импликация формы (Х ^ Y), где Х œ Z, Y œ Z,Х œ Y = ф, и ни один элемент Y не является предком любого элемента X.

Так как элементы не являются «предками» вводится дополнительная информация, которая группирует элементы в виде иерархии, что дает преимущества:

1. Это помогает установить ассоциативные правила не только между отдельными элементами, но и между различными уровнями иерархии (группами).

2. Отдельные элементы могут иметь недостаточную информацию, но в целом группа может удовлетворять порогу т^ирроЛ.

Чтобы найти обобщенные ассоциативные правила, можно использовать один из вышеназванных алгоритмов, но для этого каждую транзакцию нужно дополнить всеми «предками» каждого элемента, входящего в транзакцию.

Недостатки:

1. Элементы на верхних уровнях иерархии имеют большие значениям поддержки в отличии с элементами на нижних уровнях.

2. При добавлении в транзакции групп увеличивается количество атрибутов, что приводит к размерности входного пространства. А это значительно увеличивает количество правил и усложняет процесс.

3. Появляются избыточные правила, которые не удовлетворяют условиям обобщенного ассоциативного правила. Из-за этого практическая ценность такого условия равна нулю при 100% достоверности.

Следовательно, нужны специальные операторы, удаляющие подобные избыточные правила.

Чтобы найти обобщённые ассоциативные правила рекомендуют использовать специализированные алгоритмы, которые устраняют вышеописанные проблемы и к тому же работают в 3 -7 раз быстрее, чем стандартный Apriori.

Численные ассоциативные правила (Quantitative Association Rules).

Численные ассоциативные правила относятся к специальному типу правил вида Х ^Y, причём Х и Y состоят из набора числовых и / или

категориальных атрибутов. В отличие от общих правил, где и левая, и правая части должны быть номинальными или дискретными атрибутами, по крайней мере, один из атрибутов правила численных ассоциаций (слева или справа) должен включать числовой атрибут. [5]

Пример численного ассоциативного правила : [Возраст: 40-45] и [Семейное положение: холост] [Месячный доход: 1000-1500 евро]. Формальное определение:

Пусть А ={а1''а2,...,ат} - набор атрибутов, V- набор неотрицательных

значений для атрибута, Va - набор значений для атрибута a, элемент i

определяем как пару (аа 'qа ), где a - атрибут, qа eVa - его количественное значение. Itеmrаngе - это непрерывный допустимый диапазон для атрибута в

(а : L - h„ ) l gV„ h gV„ L < hn виде кортежа v а а', где а, а и а а - его низкие и высокие

пределы. Поэтому для каждого атрибута допускается только один диапазон.

[6]

Временные ассоциативные правила (Tеmporary Association Ru^s).

1) Ассоциативные правила, описываемые зависимостью, которая связана с интервалом времени, называются временными. Такие правила имеют вид: «Истинным выражением в интервале времени time(Х)является: Если X (условие), то Y (результат)». Временным интервалом time(Х) набора элементов X считается интервал времени, на протяжении которого выполняется:

time(X ) = [time(Tf ); time(Te )]

time(Tf ) time(Te ) „ Tf ' Г

где f и v e' - время первой f и последней e транзакции,

содержащей в себе набор элементов X,

time(Tj ) < time(Te )

При таком подходе SuppХ) (поддержка) является набором элементов

^ NTj еЩХ^Т „ Т j

Х отношения количества 71 транзакций 7 базы данных D,

Л/Г NT,- eD\time(t)çtime(Х) „

содержащих набор Х, к количеству j транзакций,

происходящих во временном интервале time(Х). SuppХ) (поддержка) в таком случае находится по формуле:

SupH Х ) = Nt' gDX=T

2) Циклические ассоциативные правила - это описание регулярных циклических действий во времени. Например, к ним можно отнести правила, которые будут являться истинными в определенный промежуток времени. Такие правила имеют в вид: «Истинным выражением в интервале со

временем ^те(Х) и с периодичностью Pеriоd является: Если Х(условие), то Y(резулътат) ».

Т ■

Пример: Пусть А - некий интервал времени. Тогда транзакция 7

Ите(Т,-)

выполняется в 7-и интервал времени 7 :

у 0 + ].

Обозначим БТ(,те(17)) и интервале времени

как множество транзакций, выполняемых в j-time(T : )

ST(time(Tj )) - {T g D\time(T) œ time(Tj )

Х ^ 7, ИтеСГ:)

Циклическая поддержка 7 ассоциативных правил

Ите(Т7)

Х ^7 в 7-и интервал времени 7 есть отношение количества

БТ Ште(Т 7)) _

транзакции в множестве 47/7 к общему количеству транзакции в

базе данных В. Аналогичным образом определяется и достоверность сои/ (Х ^ 7

по формуле:

conf(Х ^ Y, time(T)) v . v

j ассоциативных правил Х ^1 в j-й интервал времени

conf ( Х ^ Y, time(Tj ) =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

SuppX ^ Y, time(Tj ))

Supp(X, time(Tj ))

TT c = (Period, O) ~ D . ,

Цикл определяется как пара v ' у, в которой Period - период

или длина цикла (например, L = 24 часа, ^ = час), О - смещение. Оно

означает конкретное время выполнения правила, лежащее в диапазоне

О < O <Period . Из этого следует, что ассоциативное правило Х ^Y

c = ( Period, O)

являются циклическими с циклом при условии, если оно

срабатывает в каждый О-й интервал времени с периодичностью Period. Для того чтобы найти временные ассоциативные правила, аналогично, как и для других правил, задаются пороговые значения минимальной поддержки,

достоверности и интереса правила: minsupport, minconfidence и Si, соответственно [2].

В данной работе были рассмотрены основные виды ассоциативных правил, которые являются одним из эффективных методов обработки, больших объемов хранимых данных. Преимуществом ассоциативных правил является то, что для анализа каждого вида хранимых данных будет применяться определённое правило.

Использованные источники:

1. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP - 2-е изд., - СПб.: БХВ-Петербург, 2007. С.133-134.

2. Ассоциативные правила в интеллектуальном анализе данных. Т.А. Зайко,

А.А. Олейник, С.А. Субботин., журнал «Вестник НТУ ХПИ», ISSN 2079 -0031. [Электронный ресурс] - Режим доступа:

https://eHbrary.ru/item.asp?id=20313448 (дата обращения: 30.09.2018).

3. Методы и средства анализа данных [Электронный ресурс] - Режим доступа http://bourabai.ru/tpoi/analysis4.htm (дата обращения: 30.09.2018).

4. An Application of Association Rule Mining to Extract Risk Pattern for Type 2 Diabetes Using Tehran Lipid and Glucose Study Database [ Электронный ресурс] - Режим доступа: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4393501/ (дата обращения: 30.09.2018).

5. Quantitative Association Rules [Электронный ресурс] - Режим доступа: https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-39940-9_291 (дата обращения: 30.09.2018).

6. Using Quantitative Information for Efficient Association Rule Generationhttp [Электронный ресурс] - Режим доступа: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0104-65002000000200005 (дата обращения: 30.09.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.