Научная статья на тему 'ПОИСК АССОЦИАТИВНЫХ ПРАВИЛ СРЕДСТВАМИ АНАЛИТИЧЕСКОГО ПАКЕТА ORANGE'

ПОИСК АССОЦИАТИВНЫХ ПРАВИЛ СРЕДСТВАМИ АНАЛИТИЧЕСКОГО ПАКЕТА ORANGE Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
60
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ORANGE / DATA MINING / ЧАСТО ВСТРЕЧАЮЩИЕСЯ НАБОРЫ / АССОЦИАТИВНЫЕ ПРАВИЛА / ВИДЖЕТ / FREQUENT ITEMSETS / ASSOCIATION RULES / WIDGET

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пальмов С.В., Жуйкова А.А.

В статье рассмотрен функционал аналитического пакета Orange, предназначенный для поиска часто встречающихся наборов элементов и ассоциативных правил. Построена модель для их поиска. Проведены два эксперимента, результатами которых стали перечень часто встречающихся наборов и список ассоциативных правил.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПОИСК АССОЦИАТИВНЫХ ПРАВИЛ СРЕДСТВАМИ АНАЛИТИЧЕСКОГО ПАКЕТА ORANGE»

УДК 004.8

Пальмов С.В., к.тн.

доцент

кафедра «Информационные системы и технологии»

Жуйкова А.А. студент 2 курса факультет «ОА и М» ФГБОУ ВО ПГУТИ Россия, г. Самара ПОИСК АССОЦИАТИВНЫХ ПРАВИЛ СРЕДСТВАМИ АНАЛИТИЧЕСКОГО ПАКЕТА ORANGE

Аннотация: В статье рассмотрен функционал аналитического пакета Orange, предназначенный для поиска часто встречающихся наборов элементов и ассоциативных правил. Построена модель для их поиска. Проведены два эксперимента, результатами которых стали перечень часто встречающихся наборов и список ассоциативных правил.

Ключевые слова: Orange, Data Mining, часто встречающиеся наборы, ассоциативные правила, виджет.

Palmov S. V.

Ph.D. of Engineering Sciences, associate professor of the department

"Information systems and technologies" Povolzhskiy State University of Telecommunications and Informatics

Russia, Samara Zhuykova A.A. 2nd year student, Faculty of "OA & M" Povolzhskiy State University of Telecommunications and Informatics

Russia, Samara ASSOCIATION RULES MINING IN ORANGE

Annotation: The paper deals with the functional of the software suite Orange, designed to find frequent itemsets and to mine association rules in datasets. We built a model in Orange for their detection. Two experiments were carried out. The results are lists of frequent itemsets and association rules.

Keywords: Orange, Data Mining, frequent itemsets, association rules, widget.

Введение

В настоящее время разработано большое количество бесплатных программных систем, которые используют для анализа данных методы технологии Data Mining [1]. Однако часть из них до сих остаётся малоизвестной в нашей стране. К их числу относится и аналитический пакет Orange, хотя он является эффективным средством обработки данных и занимает высокие позиции в рейтингах [2], [3]. Причиной малой распространённости является почти полное отсутствие справочных

материалов на русском языке, а также англоязычный интерфейс.

Исходя из вышеприведённого, авторы решили продемонстрировать возможности Orange на примере двух простых экспериментов - выявление часто встречающихся наборов в данных и поиск ассоциативных правил [4, С.111-112].

Для работы с указанным фукционалом требуется установить бесплатный модуль (add-on) «Associate» (необходимо зайти в меню «Options» и выбрать пункт «Add-ons...»).

Orange предлагает интуитивно понятный способ построения моделей экспериментов. Они собираются из готовых частей-«виджетов» как конструктор. Каждый виджет (widget) играет определённую роль (загружает извне или предобрабатывает данные, реализует тот или иной вид анализа, визуализирует данные и т.д.). Таким образом, из достаточно простых элементов могут быть созданы модели сложных экспериментов. В данной же статье модель получилась простой. Она включает виджеты обоих экспериментов (см. рис. 1).

Рисунок 1 - Модель экспериментов

Описание модели экспериментов

Виджет «File»

Позволяет загружать данные (файлы) извне. Обладает очень простым функционалом, вследствие чего авторы решили его описание здесь не приводить.

Виджет «Frequent Itemsets»

Выявляет часто встречающиеся наборы элементов в данных, основываясь на величине их поддержки (support). У виджета имеется один вход (Data) и один выход (Matching Data). На вход подаётся анализируемый набор данных, а на выходе формируется множество записей, удовлетворяющих заданному критерию.

Рассмотрим доступные настройки (см. рис. 2).

В секции «Info» содержится информация о наборе данных, а именно:

1. Number of itemsets - число наборов элементов.

2. Selected itemsets - число выбранных наборов элементов.

3. Selected examples - число выбранных записей.

Info

Number of itemsets: 35 Selected iíemsets: О Selected examples: 0

Expand all

Find itemsets Minimal support:

Collapse al!

Max. number of itemsets:

5%

J 100000

Find Itemsets

Filter itemsets Contains:

Min. items: 1 , Max. items: 999 , | V] Apply these filters in search

0 ?

Send Selecbon Automatical! v

Itemsets J Bread=l * Milfc=l

* Diapers=l Beer=l Cola=l

Support 4 3 2 1 1

t¡eer=i Cola=l * Diaper:=l J Веег=1 0Fead=l Milk=l Diapers=l Cola=l

tggs=l 1

Eg g 5=1 1

Cola=l 1

J Beer=l

Eggs=l 1

1

Cola = l 1

Nlilk=l A

* Diapers=l 3

J Beer=l 1

Cola =1 1

1 _ггг I

%

80 60 40 20 20 20 20 SO 40 20 20 2D 40 20 20 20 80 60 40 20 -

Рисунок 2 - Настройки виджета «Frequent Itemsets»

Кроме этого, при помощи кнопок «Expand all» и «Collapse all» можно, соответственно, развернуть или свернуть дерево часто встречающихся наборов элементов.

В секции «Find itemsets» производится настройка критериев поиска наборов элементов. Доступны два параметра: minimal support (минимальная поддержка, %) и max. number of itemsets (максимальное число обнаруживаемых наборов элементов, шт.). Диапазон изменения значений первого параметра: 0,0001 - 100, второго: 10000 - 100000.

Минимальная поддержка определяет минимальное число записей, которые должны содержать некий набор элементов, чтобы он мог считаться часто встречающимся. Разработчики Orange рекомендуют для больших наборов данных задавать значение указанного параметра в пределах 0,01 -2%.

Максимальное число обнаруживаемых наборов элементов определяет верхнюю границу числа обнаруживаемых наборов элементов. Сортировка обнаруживаемых наборов не производится.

Также существует возможность автоматизировать процесс поиска, поставив «галку» рядом с кнопкой «Auto find itemsets is on».

В секции «Filter itemsets» реализована фильтрация результатов поиска часто встречающихся наборов. Данный функционал полезен в случае, когда существует необходимость найти конкретный элемент или набор элементов. Доступны следующие инструменты:

1. Contains - выполняет фильтрацию наборов элементов на основании

регулярных выражений (regular expressions). Отделяются друг от друга точкой.

2. Min. items - позволяет задать минимальное число элементов в наборе. Если равен «1», то будут выведены все наборы элементов.

3. Max. items - позволяет задать максимальное число элементов в наборе.

Также существует возможность автоматизировать процесс фильтрации, поставив «галку» рядом с кнопкой «Apply these filters in search».

Предусмотрена автоматическая передача результатов работы в виджеты, соединённые с «Frequent Itemsets». Для этого достаточно поставить отметку рядом с кнопкой «Auto send selection is on».

Виджет «Association Rules»

Выявляет ассоциативные правила посредством применения алгоритма FP-growth [5, С.77] с функцией бакетинга (bucketing) [6]. Также способен выявлять классификационные правила. В этом случае производится генерация всех правил для каждого набора элементов, после чего правила с неподходящим значением части «следствие» отбрасывают.

У виджета имеется один вход (Data) и один выход (Matching Data). На вход подаётся анализируемый набор данных, а на выходе формируется множество правил, удовлетворяющих заданному критерию.

Рассмотрим доступные настройки (см. рис. З).

В секции «Info» содержится информация о наборе данных, а именно:

1. Number of rules - число обнаруженных правил.

2. Filtered rules - число отфильтрованных правил.

3. Selected itemsets - число выбранных правил.

4. Selected examples - число выбранных записей.

В секции «Find association rules» производится настройка критериев поиска правил. Доступны три параметра: minimal support (минимальная поддержка, %), minimal confidence (минимальная достоверность, %) и max. number of itemsets (максимальное число обнаруживаемых правил, шт.). Диапазон изменения значений первого параметра: 0,0001 - 100, второго: 1 -100, третьего: 10000 - 100000.

Минимальная поддержка определяет минимальное число записей, которые должны содержать условие и следствие, чтобы правило могло считаться значимым.

Минимальная достоверность определяет предельное число записей, содержащих определённое следствие, среди записей, содержащих определённое условие, чтобы правило могло считаться значимым.

Максимальное число обнаруживаемых правил определяет верхнюю границу числа обнаруживаемых правил. Слишком большое число правил способно замедлить работу виджета.

Также существует возможность автоматизировать процесс поиска, поставив «галку» рядом с кнопкой «Find Rules».

Секция «Filter Rules» имеет функционал, аналогичный «Filter itemsets».

Единственное отличие следствия.

раздельная настройка фильтрации для условия и

I Ч 151

■ Association Rules

Info

Number of rules: 38 Filtered rules: 38 Selected rules: 0 Selected examples: 0

Find association rules Minimal support: |_ Minimal confidence:

1% IJ 90%

Max. number of rules: |J 10000

I I Induce classification {jtemset —► dass) rules

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Find Rules

Filter rules Antecedent Contains:

Min. items: 1

E3 Max. items: 999 §

Consequent Contains:

Min. items: 1 t Max. items: 999 § jj] Apply these filters in search

о f i

Send Selection Automatically

Supp Conf Covr Strg Lift Levr Antecedent Consequent *

0,600 1,000 0,600 1333 1.250 0,120 Beer=l - Diapers=l

0.400 1.000 0.400 2.000 1.250 0.080 Biead=l Beer=l - Diapers—1

0.400 1.000 0.400 2.000 1.250 0.080 Mlillc=l, Beer=l - Diapers=l

0,400 1,000 0,400 2,000 1.250 0,080 Cola=l - Milk=l

0,400 1,000 0,400 2,000 1.250 0,080 Cola=l - Diapers=l

0,400 1,000 0,400 2,000 1.250 0,080 Diapers=l, Colai=l - Milk=l

0.400 1.000 0.400 2.000 1.250 0.080 Millc=l, Cola=l - Diapers=l j-

0.400 1.000 0.400 1.500 1.667 0.160 Cola=l - Milk=l, Diapers=l

0,200 1,000 0,200 4,000 1.250 0,040 Bieadzl, Milk=l, Beer=l - Diapers=l

0,200 1,000 0,200 4,000 1.250 0,040 Eggs=l - Bread=l

0,200 1,000 0,200 4,000 1.250 0,040 Eggs=l - Diapers=l

0.200 1.000 0.200 4.000 1.250 0.040 Diapeis=l, Eggs=l - Bread=l

0,200 1,000 0,200 4,000 1.250 0,040 Bread=lr Eggs=l - Diapers=l

0,200 1,000 0,200 5,000 1.667 0,080 Eggs=l - Bread=l, Diapers=l

0,200 1,000 0,200 3,000 1.667 0,080 Eggs=l - Beer=l

0.200 1.000 0.200 4.000 1.250 0.040 Beei=lr Eggs=l - Bread=l

0.200 1.000 0.200 3.000 1.667 0.080 Bread=lf Eggs=l - Beer=l

0,200 1,000 0,200 2,000 2.500 0120 Eggs=l - Bread=l, Beer=l

0,200 1,000 0,200 4,000 1.250 0,040 Beer=l, Eggs=l - Diapers=l

0,200 1,000 0,200 3,000 1.667 0,080 D¡apers=l, Egg5=l - Beer=l

0.200 1.000 0.200 3.000 1.667 0.080 Egg;=l - Diapers=l, Beer=l

0,200 1,000 0,200 4,000 1.250 0,040 Diapers=l, Beer=l, Eggs,,, - Bread=l

0,200 1,000 0,200 4,000 1.250 0,040 Bread=l, Beeizl, Eggs=l - Diapers=l

П }ПП 1 nnn П }ЛЛ 5 nnn 1 F&.1 n ПЯП Ro=,-1 1 Rr«rl-1 П^ггагт-1

V ГГГ

Y

Рисунок 3 - Настройки виджета «Association Rules»

Описание экспериментов

Целью экспериментов являлось 1) выявление часто встречающихся наборов элементов в выборке данных и 2) поиск ассоциативных правил в выборке данных.

В качестве выборки данных использовался файл market-basket.tab (включён в инсталляционный пакет Orange), содержащий набор из пяти транзакций (записей). Каждая запись содержит информацию о покупке определённого товара: bread, milk, diapers, beer, eggs, cola.

Результаты и настройки экспериментов представлены на рис. 2 и 3. Было найдено 35 часто встречающихся наборов и 38 правил.

Для каждого набора указана (в процентах) его поддержка (относительная частота встречаемости), а для каждого правила приведены следующие характеристики:

1. Supp - поддержка.

2. Conf - вероятность (достоверность) срабатывания правила.

3. Covr - охват (coverage) - отношение поддержки условной части правила к числу транзакций.

4. Strg - мощность (strength) - отношение поддержки следствия правила к поддержке условия правила.

5. Lift - лифт [7].

6. Levr - балансировка (leverage) - позволяет судить о важности отдельных транзакций [8].

В итоге можно сделать следующие выводы:

• построена модель экспериментов;

• выявлены часто встречающиеся наборы;

• выполнен поиск ассоциативных правил.

Использованные источники:

1. Software Suites/Platforms for Analytics, Data Mining, Data Science, and Machine Learning [Электронный ресурс]. URL: https://www.kdnuggets.eom/software/suites.html#free (дата обращения 09.08.2018).

2. Top 15 Best Free Data Mining Tools: The Most Comprehensive List [Электронный ресурс]. URL: https://www.softwaretestinghelp.com/data-mining-tools/(дата обращения 09.08.2018).

3. Six of the Best Open Source Data Mining Tools [Электронный ресурс]. URL: https://thenewstaek.io/six-of-the-best-open-souree-data-mining-tools/(дата обращения 09.08.2018).

4. Пальмов, С. В., Мифтахова А.А. Обзор основных методов искусственного интеллекта // Перспективы науки. 2013. N 11(50). С. 110-113.

5. Пальмов, С. В. Обзор алгоритмов поиска ассоциативных правил // Перспективы науки. 2016. N 10(64). С. 77-80.

6. Depth First Generation of Long Patterns [Электронный ресурс]. URL: http://www.es.tau.ae.il/~fiat/dmsem03/Depth%20First%20Generation%20of%20L ong%20Patterns%20-%202000.pdf (дата обращения 09.08.2018).

7. Ассоциативные правила в бизнес-анализе и контроле [Электронный ресурс]. URL: https:/^reativecommy.ru/Hb/8052(дата обращения 09.08.2018).

8. Leverage (statistics) [Электронный ресурс]. URL: https://en.wikipedia.org/wiki/Leverage_(statisties) (дата обращения 09.08.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.