АНАЛИЗ СТАТИСТИКИ ПРОДАЖ
М.К. Литовка, студент
М.С. Рожков, старший преподаватель
Пермский государственный национальный исследовательский университет (Россия, г. Пермь)
DOI:10.24412/2411-0450-2021-8-111-122
Аннотация. В статье рассматриваются алгоритмы Data Mining для анализа продуктовой корзины магазина «Х». Авторами было проведено теоретическое исследование алгоритмов поиска ассоциативных правил и метода главных компонент; исследование возможностей применения алгоритмов Data mining для анализа продуктовой корзины; нахождение и исследование статистических данных в рыночной корзине потребителя, анализ рыночной корзины потребителя и выявление в ней ассоциативных правил с помощью алгоритма apriori, выявление стандартной годовой корзины покупателя с помощью метода главных компонент.
Ключевые слова: продуктовая корзина, кластеризация, ассоциация, методы Data Mining.
В современном мире миллионы гигабайт информации находятся вокруг нас, ведь мы живем в такую эпоху цифрового развития, когда использовать эту информацию и оборачивать её в свою пользу просто необходимо. Экономические, медицинские, социальные сферы, в этих и не только областях используется технология Data mining, отвечающая на вопрос «Как обработать данную информацию с выгодой для себя и компании?». На данный вопрос дает ответ технология Data mining.
«Термин Data mining получил своё название из двух понятий: поиска ценной информации в больших базах данных Data и добыча горной руды Mining. Оба этих процесса или требуют огромного количества обработки или просеивания большого количества материала для разумного исследования и поиска искомых ценностей» [1].
Суть метода Data mining состоит в том, что с их помощью можно отыскивать ранее неизвестные знания, то есть знания должны быть новыми, а не подтверждение каких-либо ранее полученных сведений. Нетривиальных знаний - таких, которых нельзя просто так увидеть при построении визуального анализа или при вычислении простых статистических характеристик. Практически полезных - таких, которые представляют ценность для исследователя.
Доступы для интерпретации - те знания, которые можно представить в легко доступной для пользователя форме и легко объяснить в терминах предметной области. Эти требования во многом и определяют суть методов Data mining.
Преимущества Data mining:
- Малое количество ограничений на применение методов Data mining
- Поиск неочевидных закономерностей.
- Возможность работы с многомерными и данными огромного объема и сложной структуры.
- Применение методов Data mining -возможность извлечь пользу из накопленной информации.
Основные задачи, решаемые методом Data mining:
Классификация - определение класса объекта по его характеристикам.
Кластеризация - поиск независимых групп и характеристик во всем множестве данных.
Прогнозирование (регрессия) - подобно классификации, позволяет определить по известным характеристикам объекта значение некоторого его параметра, значением параметра является множество действительных чисел.
Ассоциация - нахождение частых взаимосвязей между объектами или события-
ми, также могут быть использованы для предсказания появлений событий.
«Ассоциация - это функция интеллектуального анализа данных, которая обнаруживает вероятность одновременного появления элементов в коллекции. Отношения между сопутствующими элементами выражаются в виде ассоциативных правил» [2].
«Правила ассоциации часто используются для анализа сделок купли-продажи. Например, можно отметить, что клиенты, которые покупают хлопья в продуктовом магазине, часто покупают молоко одновременно. Фактически, ассоциативный анализ может обнаружить, что 85% кассовых сессий, включающих хлопья, также включают молоко» [3].
Это приложение ассоциативного моделирования называется анализ корзины. Это ценно для прямого маркетинга, продвижения продаж и выявления тенденций в бизнесе. Анализ корзины также можно эффективно использовать для макета магазина, дизайна каталога и перекрестных продаж.
Алгоритмы нахождения ассоциативных правил. Ассоциативные правила каждый день встречаются нам на различных сервисах, в магазинах, при онлайн покупках и других рекомендательных системах.
В общем виде ARL (правило ассоциации) звучит так - «Кто купил x, также купил y» [4].
«На данный момент существует несколько алгоритмов нахождения ассоциативных правил, в том числе: AIS и его продолжение SETM, Apriori, ECLAT и FP-growth» [5].
В данном исследовании был выбран Apriori алгоритм - самый популярный алгоритм ассоциативных правил майнинга. Он находит часто встречающиеся комбинации в базе данных и определяет правила ассоциации между элементами на основе 3 важных факторов:
Поддержка: вероятность того, что X и Y объединятся.
Уверенность: как часто Y происходит, когда X происходит первым.
Достоверность: соотношение поддержки и уверенности.
Для применения алгоритма необходимо изначально произвести обработку наших данных.
1.Привести все данные к бинарному виду.
2. Также необходимо изменить саму структуры данных.
Есть два этапа работы этого алгоритма, на первом подчитываются часто встречающиеся наборы, предварительно необходимо задать нужные значения поддержки и достоверности, а на втором извлечь из полученных данных уже сами правила.
Алгоритм apriori. Данный алгоритм напрямую связан с анализом корзины покупателя. Постановка задачи: имеется база данных одной из точек магазина Х, она состоит из чеков клиентов, где содержатся различные наборы покупок. Иными словами, каждая покупка - это транзакция, определяющая купленный набор товаров одним покупателем. Необходимо при помощи алгоритма apriori выявить ассоциативные правила.
«Определение: Пусть / = {¿1,12/3, — ¿п,} - множество товаров (элементы). Пусть D -множество транзакций, где каждая транзакция Т - это набор элементов из /, Т £ /» [6]. Каждая транзакция представляет собой бинарный вектор, где t[fc] = 1, если tfc элемент присутствует в транзакции, иначе t[fc] = 0. Транзакция Т содержит, некоторый набор элементов из /, если X с Т [6]»
«Ассоциативное правило определяется как импликация X ^ Y, где X с I, Y с I и X с Y =0 [6]. Поддержкой правила X Y называется величина support s, если s% транзакций из D, содержат X U Y, »
supp(X^ Y) = supp(X UY).
«Достоверность правила определяет то, какова вероятность того, что из X следует Y. Достоверностью правила X ^ Y называется величина confidence c, если c% транзакций из D, содержащих X, также содержат Y, [6]»
conf(X ^ y) = suppXUY)
v J supp(X)
«Алгоритмы нахождения ассоциативных правил разработаны в первую очередь для определения всех возможных комбинаций (правил) X ^ Y с поддержкой и до-
стоверностью больше, чем заранее определенных пользователем порогов (thresholds), которые обозначают как минимальная поддержка и достоверность -minsupp и minconf» [7].
Далее рассмотрим еще один показатель:
lift
= conf^.
J у J supp(Y)
Также показатель lift обладает свойством:
lift(X ^ Y) = lift(Y ^ X).
Иными словами, он показывает во сколько раз увеличивается вероятность покупки одного набора, при покупке другого.
Кроме анализа рыночной корзины покупателя этот алгоритм применим ко множеству других сфер. Например: медицина и различные исследования в ней, анализ различных данных в бизнесе для увеличения показателей.
Метод главных компонент (Principal component analysis). «Метод главных ком-
понент - это технология многомерного статистического анализа, используемая для сокращения размерности пространства признаков с минимальной потерей полезной информации. Предложен К. Пирсоном в 1901 г., а затем детально разработан американским экономистом и статистиком Г. Хоттелингом» [8].
«С точки зрения математики этот метод представляет из себя ортогональное линейное преобразование, отображающее данные из исходного пространства в новое пространство меньшей размерности с сохранением основных(значимых) данных» [9, с. 78-81].
При это построение новой базы строится таким образом, чтобы дисперсия в новой компоненте была максимальна. Вторая компонента строится перпендикулярно первой, чтобы дисперсия данных была максимальной их оставшихся возможных и так далее.
Рис. 1. Снижение размерности исходного 2-мерного пространства с помощью метода
главных компонент до 1 -мерного
«РС1 (главная компонента) ориентированная вдоль направления наибольшей вы-тянутости эллипсоида рассеяния точек объектов исходного набора данных в про-
странстве признаков, иными словами с ней связана наибольшая дисперсия» (рис. 1)» [9, с. 85].
«На рисунке можно увидеть, что проекция дисперсии данных на ось первой главной компоненты, больше, чем её проекции на исходные оси DX1 и DX2, но меньше их суммы. Иными словами, первой главной компонентой отразить всю дисперсию данных не получилось. В таком случае строят вторую, третью и т.д. главные компоненты, пока они суммарно не отразят большую часть дисперсии» [8].
Таким образом, смысл метода главных компонент в том, что каждая главная компонента связана с определенной долей общей дисперсии исходной базы данных.
В данном случае, при нахождении среднегодовой корзины потребителя дисперсия, может отражать уровень информативности данных.
«Основной целью является отбор максимально изменчивых компонентов, поэтому первая главная компонента имеет максимальную выборочную дисперсию» [10]. Алгоритм таким образом подбирает веса чтобы разброс первой главной компоненты был максимально возможным при условии, что сумма будет 1. После
формирования первой главной компоненты можно сформировать вторую ее веса алгоритм подбирает так, чтобы она была некоррелированная с первой главной компонентой, и чтобы сама компонента была с максимальной дисперсией для себя. Таким же образом побираются веса последующих главных компонент.
Анализ и обработка данных. Проанализируем данные о составе покупок в среднем за год покупателей одной из торговых точек магазина «Х». База данных представляет собой транзакции покупателей магазина за один год, состоящие из 43 товаров и 60467 операций (транзакций), где каждая строчка представляет собой один чек покупателя. База данных состоит из 43 товаров, кодов к ним, также имеется вторая база с расшифровкой этих товаров, общего количества потраченных денег на товары. Для начала работы с данными проведем первичный анализ данных и подсчитаем статистики по каждому из товаров. Результаты расчетов приведены в таблице 1.
Таблица 1. Статистические показатели классов товаров
Класс товаров Максимум Среднее значение Дисперсия Стандартное отклонение
2G1 Бакалея 22565.1 139.5305 2В9539.2 538.0885
2G2 Детское питание 1G733.6 23.9079 45544.91 213.4125
2G3 Здоровое питание 7257 15.47595 16В45.6В 129.7909
2G4 Не мучные кондитерские изделия 1G9679.9 467.7868 295341В 1718.551
2G5 Консервация 44135.6 121.9103 292792.1 541.1026
2G6 Масло растительное В236.6 23.7314 17173.4 131.0473
2G7 Снеки, орехи, сухофрукты 44GG7.6 71.76888 164В39 406.0037
2G9 Чай, кофе 26595.1 130.0431 252234.4 502.2294
21G Алкогольные напитки 152993.3 210.8441 23243G3 1524.567
211 Безалкогольные напитки 33966.2 106.1894 2В5393.6 534.2224
213 Пиво 55716 48.9884 267265 516.9768
214 Овощи, фрукты, грибы свежие 1G7474.B 922.1909 1GBG4447 3287.012
215 Хлеб и хлебобулочные изделия 2366G.B 192.0647 455G97 674.6088
216 Молочные продукты 5G934.3 486.6373 3231544 1797.65
217 Сыры 132476.3 543.4093 5G94193 2257.032
21В Масложировая продукция 2G197.4 123.431 26G19B.7 510.0968
221 Замороженные продукты 3164В.7 256.751 ВВ9491.9 943.1288
222 Рыбный гастроном 35414.7 119.3019 4G17BB.5 633.8679
223 Колбасы 1695В9.5 816.5619 11GB6149 3329.587
224 Готовая Продукция 19G2G1.2 434.9755 7G63231 2657.674
225 Мучные кондитерские изделия 13В795.2 294.0508 1455ВВ9 1206.602
226 П/ф высокой степени готовности 33169 64.61243 213533.9 462.0972
227 Мясная продукция охлажденная 41724 208.7144 1G4351G 1021.524
22В Рыбные товары охлажденные 1119.В 0.1675377 В2.234В5 9.068343
23G Яйцо 16491.1 50.24908 61446.45 247.8839
4G1 Табачные изделия 26166 39.20327 14G9B9.2 375.4852
Класс товаров Максимум Среднее значение Дисперсия Стандартное отклонение
404 Цветоводство, садоводство 2885.5 9.61341 3882.89 62.31284
405 Одежда 4670.3 19.07044 14091.94 118.7095
408 Текстиль д/домашнего обихода 2180 1.632872 1495.782 38.67534
409 Сумки, пакеты Семья 2965.4 9.845587 2342.95 48.40403
411 Товары для праздника 2132.9 3.748371 1021.547 31.96165
413 Электробытовые товары 1820.1 2.737349 909.9458 30.16531
414 Авто товары 813.7 0.4437941 132.6267 11.51637
415 Школьно-письм. и канцелярские товары 1022.4 1.171547 271.7985 16.48631
416 Хозяйственные товары 5322.1 9.294033 4950.309 70.35843
417 Посуда для приготовления и сервировки 8042.9 10.213 10928.66 104.5402
419 Печатная продукция 17548 22.06552 35207.36 187.6362
425 Бытовая химия 13300.8 27.77398 32672.35 180.755
427 Парфюмерно-косметическая продукция 11000.5 39.14421 48248.26 219.6549
428 Товары для животных 34781.4 49.72224 198258.3 445.262
430 Гигиена 12573 39.80149 50983.4 225.795
431 Дети 2490.4 2.692711 1820.441 42.66662
432 Хобби, отдых 3964 2.658237 1521.192 39.00246
Исходя из таблицы 1 и Рис. 2. Максимальные затраты на классы товароввидно, что максимальное количество денег (выделено цветом) было потрачено на:
1. Готовая продукция - 190201.2 рубля.
2. Колбасы - 169589.5 рубля.
3. Алкогольные напитки - 152993.3 рубля.
4. Мучные кондитерские изделия -138795.2 рубля.
5. Сыры - 132476.3 рубля.
Максимум
* I I
§ i 5
M ! i ! я I I I | ï I p 6
201 202 20312041205 206 207 209 210 211 213 214 215 216 217 2181221 222 223 224 225 226 227 228 230 401 404 405 408 409 411 413 414 415 416 417 419 425 427 428 430 431 432
Рис. 2. Максимальные затраты на классы товаров
Также исходя из таблицы 1 и Рис. 2. Максимальные затраты на классы това-ровможно сделать вывод и выявить топ товаров, на которые люди тратят в среднем большее количество денег:
1. Овощи, фрукты, грибы свежие -922.1909 рубля.
2. Колбасы - 816.5619 рубля.
3. Сыры - 543.4093 рубля.
4. Молочные продукты - 486.6373 рубля.
5. Не мучные кондитерские изделия -467.7868 рубля.
Рис. 3. Средние затраты на товары различных классов Далее построим диаграмму для товаров, пользующихся наибольшим спросом (рис. 4).
Рис. 4. Товары, пользующиеся наибольшим спросом
Из рисунка 4 видно первые 10 товаров, пользующихся наибольшим спросом:
1. Овощи, фрукты, грибы свежие.
2. Хлеб и хлебобулочные изделия.
3. Молочные продукты.
4. Колбасы.
5. Бакалея.
6. Не мучные кондитерские изделия.
7. Алкогольные напитки.
8. Мясная продукция охлажденная.
9. Чай, кофе.
10. Мучные кондитерские изделия.
Выведем данные 200 случайным образом выбранных чеков в разряженную матрицу, чтобы показать частоту товаров в чеках (рис. 5).
es 100
Items (Colunns)
Рис. 5. Разряженная матрица 200 случайно выбранных чеков
Поиск ассоциативных правил с помощью Априорного алгоритма.
Для поиска ассоциативных правил необходимо найти все множество правил из всей базы данных, используя априор-
ный алгоритм. Всего было найдено 6723 правила. Результаты поиска показали, что с высокой вероятностью (90%) покупка алкоголя, снеков, орехов и сухофруктов влечёт приобретение пива (рис. 6).
: i ns (туги! es [1: 5]} 1-5
support
confidence coverage lift
[1] {Алкогольные напитки1 с чеки, орехи, сухофрукты] 0.DD1S31876 0. 9047619 0. оо21з;:з!
[2] ;.мучнь е кондитерские изделия, эакалея} {Чай, кофе} 0. 001016Г" 0. 9090909 0. ooins¿;¿
[3] {хлеб и хлебобулочные изделия, сыри} {молочные продукты} O.DD1118¿s¿ 0. 9166667 0. 001220132
[4] {хлео и хлебобулочные оделил, мучнье кондитерские изделия/ => {молочные продукты} 0.OD122C132 0. 9230769 0. .001321810
[5] {готовая продукция. пиво} => -[моло'-нье продукты} 0. DDlOier" 0. 9090909 0. .00111S¿5¿
Рис. 6. Первые 5 найденных ассоциативных правил
С вероятностью в 91% покупка мучных кондитерских изделий и бакалеи несет за собой покупку молочных продуктов. С вероятностью в 92% покупка хлеба, хлебобулочных изделий несет за собой покупку
молока и так далее.
Оценка качества ассоциативных правил, полученных с помощью Априорного алгоритма представлена на рисунке 7.
> slmmaryCmyrul es) set of 129 -ules
rule length distribution (Ihs + rhs):s"izes
3 4 5 6 10 5Г 55 6
Mil", 1st QU,
з . oo 4.oo
fed"' an
4. 00
Mean 3rd Qu. 4.45 5.00
мах, 6. 00
s Li m шагу of quality measures:
s J J JO"~
Mi n. 1st QU. Medi a ~ Mea -3rd qj, Max.
0.001017 0. 001017 0. 001017 0. 001139 0. 001220 0. 001932
conf cence
Min. 1st Qu. мег-' an Mean 3rd Qu. Max.
0. 9000 0.9091 0.9167 0.9337 0.9333 1.0000
сотегаде
Hi п.
1st Qu. Medi an Mean 3rd Qu. Max.
0. 001017 0. 001113 0. 001118
0. 001222 0. 001322 0. 00213 S
lift
Min. 1st QU. Medi ari Mean 3rd olí. Max.
count
3. 522 3. 588
3. 5(33
4. 215 4. 533
11.235
Min. 1st QU, Medi an Mean 3-d QU, Max.
: 10, 0 : 10, 0 : 10, 0 : 11. 2 : 12.0 : 19.0
ni ni "g i nf о :
da~a ntransactions support confidence kn 60467 0.001 0.3
Рис. 7. Сводная информация о наборе полученных ассоциативных правил
Итак, исходя из условий, заданных алгоритму, поддержка равна 0.001, а достоверность - 0.9, было получено лишь 129 ассоциативных правил. Размер правил 3-6, помимо этих параметров, видно, что есть такой показатель как лифт. Он показывает, во сколько раз приобретение набора X увеличивает вероятность приобретения
набора У).
Так, согласно данным, приведённым на рисунке 7, при покупке алкоголя, снеков орехов и сухофруктов в 11 раз увеличивается вероятность того, что будет приобретено пиво. Для наглядности эти правила представлены в таблица. 2, 3, 4.
Таблица 2. Первые 5 найденных ассоциативных правил
ьш ЯШ Support Confidence Coverage Lift
Алкогольные напитки, сне-ки, орехи, сухофрукты Пиво G.GG11931В76 G.9G47619 G.GG2135231 11.235269
Мучные кондитерские изделия, бакалея Чай, кофе G.GG1G16777 G.9G9G9G9 G.GG111В454 3.215669
Хлеб и хлебобулочные изделия, сыры Молочные продукты G.GG111В454 G.9166667 G.GG122G132 3.5В7512
Хлеб и хлебобулочные изделия, мучные кондитерские Молочные продукты G.GG122G132 G.923G769 о.оотшо 3.612599
Готовая продукция, пиво Молочные продукты G.GG1G16777 G.9G9G9G9 0.001118454 3.557В63
Таблица 3. Найденные ассоциативные правила в порядке убывания показателя Ы: ?t
ьш ЯШ Support Confid Covera Lift
Алкогольные напитки, снеки, орехи, сухофрукты Пиво 0.00119 31В76 0.9)047 619 g.00213 5231 11.23 5269
Бакалея, Безалкогольные напитки, масло растительное Овощи, фрукты, грибы свежие G.GG1G1 6777 0.9090 909 0.00111 В454 В.340 400
Парфюмерные-косметическая продукция, хозяйственные товары Бытовая химия G.GG1G1 6777 0.9090 909 0.00111 В454 7.562 356
Масложировая продукция, сыры, колбасы Хлеб и хлебобулочные изделия G.GG1G1 6777 0.9090 909 0.00111 В454 6.516 69В
Замороженные продукты, рыбный гастроном, снеки, орехи, сухофрукты Безалкогольные напитки G.GG1G1 6777 0.9090 909 0.00111 В454 6.216 724
Таблица 4. Найденные ассоциативные правила, содержащие ^ молочные продукты
LHS RHS Support Confidence Coverage Lift
Масло растительное, молочные продукты, бакалея Овощи, фрукты, грибы све- 0.001016777 0.9047619 0.002135231 8.340400
Бакалея, Безалкогольные напитки, масло раститель- Снеки, орехи, сухофрукты 0.001016777 0.9090909 0.001118454 2.785641
Замороженные продукты, молочные продукты, яйцо Овощи, фрукты, грибы све- 0.001016777 0.9090909 0.001118454 5.168156
Молочные продукты, рыбный гастроном, готовая Овощи, фрукты, грибы све- 0.001118454 0.9090909 0.001118454 1.782141
Молочные продукты, мас-ложировая продукция, консервация, мясная продукция охлажденная Овощи, фрукты, грибы свежие 0.001016777 0.9090909 0.001118454 3.215122
Далее для наглядности представим полученные правила в виде графов (рис. 7-8). Фиолетовым цветом показаны товары левого плеча, синим - правого. Число рядом
со стрелкой показывает значение показателя лифт - во сколько раз покупка товарного набора влечен за собой покупку другого.
Замороженные продукты
Рис. 7. Граф первых 5 найденных ассоциативных правил
Безалкогольные
Масло растительное
Алкогольные нагитки
СнекД орехи, сухофрукты
Овощи, фрукты, грибы свежие
Хлеб и
хл е бобулоч н ые изделия
Бытовая химия
Безалкогольные напитки
Парфюмерные-косметическая продукция
О
Ма сложи ровая продукция
Сыры
Рыбный гастроном
Хозяйственные товары
Рис. 8. Граф правил, в порядке убывания показателя лифт
Нахождение стандартной годовой корзины.
Для нахождения стандартной годовой
корзины потребителя воспользуемся методом главных компонент. Результаты показаны на рисункке 9.
Рис. 9. Диаграмма значений каждой компоненты
На рисунке 9 можно видеть, что первая главная компонента достаточно хорошо описывает вариацию исходных данных. На рисунке 10 представлены сами главные компоненты.
: j'"nary(|,<
Importance of components
St and a" d deviation 2 Proportion of variance 0 cumulative Proportion 0
St and a"d deviation : Proportion of variance 0 cumulative Proportion 0
St and a"d deviation : Propo-"" io- of variance 0 cumulative Proportion 0
St and a"d deviation : Propo~~io^ of variance 0 cumulative Proportion 0
FC1 PC 2 3C3 PC4 FC 5
9042 1.12533 1.11235 1.06501 1.02390 1961 0.02961 0.02678 0.02638 0.02438 1961 0.22576 0.25454 '3.28091 0.30529 FC13 PC14 PCI 5 PC16 FC 17 99573 0.99252 0.3873 С.386 5 5 0.98385 02 306 0.022 31 0.0227 С. '3226 3 0.022 51 49315 0.51606 0.5387 '3.56139 0. 58390
FC25 РС26 =С27 РС28 FC29 93977 0.9296 0.91123 0.887'3 0.86821 О 02054 0.0201 0.01931 0.0183 0.01^53 О 75672 0.7768 О. 73512 0.8144 0.83195 О FC 3 7 РСЗЗ = СЗЗ РС4 0 FC41 70745 0.66210 0.66585 '3.63832 0.62094 01154 0.01062 О.01031 С.00945 0.00897 94536 0. 95668 О. 3(5(533 '3.37646 0.98543
РС6 =С7 PCS PC9
1.014 25 1.01206 1.00817 1.00565 О.02 3 32 0.02382 С.02364 0.02352 0.32922 0.35304 0.37668 0.40019
PC 18 РС19 PC2Q PC 21 0.95157 О. 37-33 0.97389 0.9682 О.02241 0.02211 С.02206 0.0218 0.60630 0.62841 0.65047 0.6723 РСЗО РС31 РС32 РСЗЗ .54533 0.82785 í.8'3832 0.79526 .01674 0.01594 0.01519 0.01471 .54563 О. 8(5-63 '3.87382 0.89453
PC¿2 РС43 О.56902 0.55023 0.00753 0.00704 0.99296 1.00000
РС10 РС11 РС12 1.00380 1.00045 0.39846 0. 02 3-3 0.02328 '3.'32 318 0.42 3 S3 О.-4690 0.47009 PC2 2 DC23 РС24 0.96252 0. 35828 '3. 3502 0.02156 0.02136 0.0210 0.69352 0. 71518 '3. 7362
PC3¿ =С35 РС36 0.75361 0. 75815 '3. 71356 0.01428 0.01337 0.01204 0.90551 0. 32218 '3. 33^22
Рис. 10. Главные компоненты На рисунке 11. Рис. 10. представлены стандартные отклонения каждой из компонент.
> pcal<-jcrSxI,
> |.с .1 -п itt
> Vi
1]
ion; i]
SC201 SC202 SC203 ÏC204 SC205 SC206 5 с 2 С Г SC209 SC210 SC211
0. 07304293 0. 0238-303 0. 03235115 0.16312005 ■3. 2462467Б 0. 20783150 0. 08063912 0. 04954387 0. 156065B1 ■3. 06522273
SC213 5C214 SC215 SC216 SC217 SC218 5C221 SC222 ÏC223 SC224
0. 12071462 ■3. 28566142 0. 12299651 0.2357-53- ■3. 24110398 0. 19629244 0. 262-7618 0. 19778025 0. 25315-83 ■3. 16234972
ÎC225 5C226 SC227 ÏC228 SC2 30 SC401 5C¿04 SC405 SC408 SC409
0. 213-72(53 0. 15323370 0. 25751152 0.03027576 ■3. 255664 56 0. 0794 3831 0. ■31162263 0. 15341559 0. 03533713 -0. ■3232 5 346
SC411 5C41 3 SC414 SC415 SC416 sc¿17 5C¿13 SC425 SC427 SC428
0. 02842436 '3. '32833863 0. 03795333 0.03803172 ■3. 17432673 0. 01149274 0. 1-3-3787 0. 21561531 0. 07003428 ■3. ■35395655
SC430 5C431 SC432
0. 0213(5235 0. ■3 5 7 21992 0. 05663751
Рис. 11. Веса первой главной компоненты
Веса компоненты на рисунке 11 указывают на степень корреляции между исходными переменными и новыми основными компонентами. Таким образом они показывают, насколько каждая из исходных переменных вносит вклад в новые пере-
менные. В данном примере ясно, что основной компонент 1 состоит из довольно однородных вкладов всех исходных переменных.
Заключение.
В результате проделанной работы было
проведено исследование продуктовой корзины с помощью алгоритмов Data Mining. Были решены все поставленные задачи в соответствии с целью исследования. Были исследованы возможности применения алгоритмов Data mining для анализа продуктовой корзины. Также была рассмотрена история Data mining рассмотрены задачи, решаемые с помощью Data mining и рассмотрены алгоритмы нахождения ассоциативных правил. Проведено теоретическое исследование алгоритмов поиска ассоциативных правил и метода главных компонент. Были найдены ассоциативные правила в базе данных чеков магазина за год и определены товары, пользующиеся наибольшим спросом. Также с помощью метода главных компонент была найдена главная компонента, отражающая среднегодовую корзину покупателя.
Проанализированы данные о составе покупок в среднем за год покупателей одной из торговых точек и найдены 129 надежных ассоциативных правил. Ассоциативные правила получились такие:
1. Алкогольные напитки, снеки, орехи, сухофрукты -> Пиво.
2. Бакалея, безалкогольные напитки, масло растительное -> Овощи, фрукты, грибы свежие.
3. Парфюмерно-косметическая продукция, хозяйственные товары, гигиена -> Бытовая химия.
4. Масложировая продукция, сыры,
колбасы -> Хлеб и хлебобулочные изделия.
5. Замороженные продукты, рыбный гастроном, снеки, орехи, сухофрукты-> Безалкогольные напитки.
Также были найдены 10 товаров, пользующихся наибольшим спросом в магазине:
1. Овощи, фрукты, грибы свежие.
2. Хлеб и хлебобулочные изделия.
3. Молочные продукты.
4. Колбасы.
5. Бакалея.
6. Не мучные кондитерские изделия.
7. Алкогольные напитки.
8. Алкогольные напитки.
9. Чай, кофе.
10. Мучные кондитерские изделия.
Максимальное количество денег было
потрачено на:
1. Готовая продукция - 190201.2 рубля.
2. Колбасы - 169589.5 рубля.
3. Алкогольные напитки - 152993.3 рубля.
4. Мучные кондитерские изделия -138795.2 рубля.
5. Сыры - 132476.3 рубля.
Топ товаров, на которые люди тратят в среднем большее количество денег.
1. Овощи, фрукты, грибы свежие -922.1909 рубля.
2. Колбасы - 816.5619 рубля.
3. Сыры - 543.4093 рубля.
4. Молочные продукты - 486.6373 рубля.
Библиографический список
1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining - 2004. - С. 5-69.
2. Раменская А. В., «Ассоциативыне правила в социально -экономических и экологических исследованиях. - 2015. - 86 с.
3. Сегаран Т. Программируем коллективный разум. - Пер. с англ. - СПб: Символ-Плюс, 2008. - 20 с.
4. Чубукова И. А. DataMining: учебное пособие. - М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний - 2006. - С. 21-35.
5. Шистаков М. С., Мастицкий В.К. «Классификация, регрессия и другие алгоритмы Data Mining с использованием R». - 2007. - 71 с.
6. О'Нил К., Шатт Р. Data Science. Инсайдерская информация для новичков. Включая язык R. - 2013. - С. 25-32.
7. Agrawal, Rakesh and Srikant, Ramakrishnan: Fast algorithms for mining association rules in large databases. - Чили, 1994. - С. 5-11.
8. Рофалович В. Р. Data Mining, или Интеллектуальный анализ данных для занятых. Практический курс. - 2014. - С. 121-128.
9. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. - СПб.: Изд-во Питер, 2009. - 85 с.
10. dygraphs. - [Электронный ресурс]. - URL: https://rstudio.github.io/dygraphs/
SALES STATISTICS ANALYSIS
M.K. Litovka, Student
M.S. Rozhkov, Senior Lecturer
Perm State National Research University
(Russia, Perm)
Abstract. The article deals with Data Mining algorithms for analyzing the shopping cart of store "X". The authors conducted a theoretical study of the algorithms for finding associative rules and the method ofprincipal components; a study of the possibilities of applying Data mining algorithms to analyze the shopping cart; finding and researching statistical data in the market basket of consumers, analyzing the market basket of consumers and identifying associative rules in it using the apriori algorithm, identifying the standard annual shopping cart of a buyer using the method of principal components.
Keywords: food basket, clustering, association, Data Mining methods.