СПОСОБ ПРОВЕРКИ ГИПОТЕЗЫ В ПРИКЛАДНЫХ ЗАДАЧАХ МАРКЕТИНГА ПРИ ПОМОЩИ МАТРИЦЫ ОШИБОК

Тимофеев Михаил Владимирович

Столыпинский вестник №9/2022

Научная статья Original article УДК 339.138

СПОСОБ ПРОВЕРКИ ГИПОТЕЗЫ В ПРИКЛАДНЫХ ЗАДАЧАХ МАРКЕТИНГА ПРИ ПОМОЩИ МАТРИЦЫ ОШИБОК

A WAY TO TEST A HYPOTHESIS IN MARKETING APPLICATIONS USING

AN ERROR MATRIX

Тимофеев Михаил Владимирович, выпускник кафедры морские информационные системы, специальность морской-инженер. Санкт-Петербургский Государственный Морской технический университет, г. Санкт- Петербург, krokodil2 @mail. ru

Mikhail V. Timofeev, graduate of the Department of Marine Information Systems, specialty Marine Engineer. St. Petersburg State Marine Technical University, St. Petersburg, krokodil2@mail.ru

Аннотация. В статье при помощи матрицы ошибок, используя элементарные вычисления, можно доказать или опровергнуть различные прикладные гипотезы. Будет предложены две модели, проверяющие гипотезы из разных областей, но со схожим свойством. В каждой из них, будет главный фактор, который выдвигается, как главный решающий фактор. Показан примеры с положительными и отрицательными исходами. Данная статья будет полезна

Столыпинский вестник

4830

специалистам, которые постоянно сталкиваются с проверкой моделей в прикладных задачах маркетинга.

Annotation. In the article, using the error matrix, using elementary calculations, you can prove or disprove various applied hypotheses. Two models will be proposed that test hypotheses from different areas, but with a similar property. In each of them, there will be a main factor that is put forward as the main deciding factor. Examples with positive and negative outcomes are shown. This article will be useful to specialists who are constantly faced with checking models in applied marketing tasks.

Ключевые слова: матрица ошибок, матрица путанности, бинарная классификация, маркетинг, продуктовая корзина, TPFN — метод, оценка качества классификации, F-метрика.

Keywords: error matrix, confusion matrix, binary classification, marketing, grocery basket, TPFN-method, classification quality assessment, F-metric.

В научной и повседневной деятельности мы постоянно сталкиваемся с тем, что строим предположение, гипотезы и строим модели для их проверок. Но насколько наши предположения верны? Как математически показать их верность или ошибочность? Есть весьма эффективный метод, часто именуемый матрицей ошибок или матрицей путанности (англ. язык «confusion matrix») [9], в основу которого легла байесовская бинарная классификация [3]. Название произошло от фамилии английского математика и священника Томаса Байеса (1702-1761). Предложенная им теорема стала одной из основополагающих в элементарной теории вероятностей, которая позволяет определить вероятность события при условии, что произошло другое статистически взаимозависимое с ним событие. Метод часто используется в задача искусственного интеллекта и анализе данных [6; 7; 11]. В статье покажу, как данный метод можно использовать для решения прикладных задач маркетинга.

4831

Для примера возьмем две модели. Первая классическая продуктовая корзина. — продукт В, будет присутствовать в чеке в случае, если взят продукт А. (Модель «Продуктовая корзина») [4]. Вторая модель заключатся в предположении, что если клиент сделал заявку по переходу по баннеру Б, то товар Т будет куплен (модель «Эффективный баннер»).

Далее определим терминологию. Положительный исход обозначим как Positive, негативный исход обозначим как Negative. Верно классифицированный положительный исход — True Positive (TP), отрицательный — True Negative (TN). Ошибочное благоприятное решение — False Positive, ошибочный отрицательный исход - False Negative (FN). Отсюда следует, что TP+FP - это все ответы "да", полученные от модели и NT+FN -все ответы "нет". Термины False Positive и False Negative в отечественной литературе называют иногда ошибками первого и второго рода [2], но сейчас будем использовать англоязычную терминологию [9]. Теперь соотнесем понятия относительно двух наших моделей и занесем в таблицу 1.

Таблица 1

Описание моделей

Модель 1 (Продуктовая Корзина) Модель 2 (Эффективный баннер)

True Positive (TP) Товар А взят, товар В тоже. Клиент создал заявку, перейдя по баннеру Б — товар Т куплен.

False Positive (FP) Товар А взят, товар В - нет Клиент создал заявку, перейдя по баннеру Б— товар Т не куплен.

True Negative (TN) Товар А не взят, товар В тоже нет. Клиент создал заявку, не переходя по баннеру Б — товар Т не куплен

4832

False Negative (FN) Товар А не взят, товар В - Клиент создал заявку, не

взят. переходя по баннеру Б — товар

Т куплен

Positive (P) = TP + Все случаи покупки Все случаи покупки товар Т

FN товара В

Negative (N) = TN + Все случаи отсутствия Все случаи, когда товар Т не

FP товара В в чеке. куплен

Для полноты картины описываемого метода внесем еще несколько метрик:

Accuracy (точность), показывает долю правильных классификаций. В зависмости от задачи оценки классификаторов, можеть быть полезен в некоторых случаях. Accuracy = (TP+TN)/(TP+TN+FP+FN).

Precision (другой вариант оценки точности), показывает долю объектов класса найденных верно, относительно всех классифицируемых как положительных. Precision = TP/(TP+FP)

Recall (полнота), насколько хорошо наш классификатор находит объекты из класса.

Recall = TP/(TP+FN)

Fall-out показывает насколько часто классификатор ошибается при отнесении того или иного объекта к классу. Fall-out = FP/(FP+ TN)

Specificity (Специфика) - показывает насколько часто классификатор правильно не относит объекты к классу. Другими словами, измеряет умение классификатора выявлять отрицательные примеры. Specificity = TN/(FP+TN)

4833

Sensitive (Чувствительность) — показывает долю всех совпадающих положительных случаев, которая измеряет способность классификатора распознавать положительные примеры. Sensitive = TP/(TP+FN)

F-метрика - данная метрика позволяет оценить эффективность метода. Чем величина больше, тем метод эффективнее. Единица скажет нам о том, что все отрицательные и положительные исходы классифицированы верно. F-метрика = (2 * Sensitive * Accuracy)/(Sensitive + Accuracy)

Более подробно о выборе метрик для бинарной классификации можно ознакомится в статье посвященной их детальному анализу [1]. В случае, когда данные несбалансированные, лучше использовать специальные метрики [5]. Для расчета создан шаблон в табличном процессоре Calc из пакета LibreO!!^, аналоге Excel из пакета MS Office. Шаблон представлен в таблице 2.

Таблица 2

Шаблон для расчёта метрик

Таблица оценки классификатора

Исхо д Pasitive Negative

ДА True Pasitive (TP) False Positive (FP)

НЕТ False Negative (FN) True Negative (TN)

P= (TP+FN) N=(FP+TN)

Accuracy = (TP+TN)/(TP+TN+FP+FN)

Precision = TP/(TP+FP)

Recall = TP/(TP+FN)

Fall-out = FP/(FP+TN)

Specificity = TN/(FP+TN)

Sensitive = TP/(TP+FN)

4834

F-метрика = (2 * Sensitive * Accuracy)/(Sensitive + Accuracy)

После анализа 200 чеков покупателей было выявлено, сколько случаев выпадает на каждый из вариантов. Используя классификацию из таблицы 1, суммируем все случаи True Positive, False Positive, True Negative, False Negative. В модели «Продуктовая корзина» из 200 товар А куплен в 125 случаях. Из них, в 70 случаях товар В присутствовал, в 55 случаях товар В отсутствовал. В тоже время из оставшихся 75 чеках было 35 с товаром В и 40 - без товара В. Вносим данные в таблицу и делаем расчёты в соответствии с вышеуказанными формулами. Распределяем результаты по 4 классам. Товар А куплен и товар В так же присутствовал в чеке True Positive = 70. Товар А был в чеке, но без товара В, параметр False Positive = 55. В чеках отсутствовал как товар А, так и товар В, параметр True Negative = 40. Товар А отсутствовал, но товар В все равно был куплен, параметр False Negative = 35. Итоги расчетов по модели «Продуктовая корзина» представлены в таблице 3.

Таблица 3

Результаты проверки модели "Продуктовая корзина"

Таблица оценки классификатора

Исх од Pasitive Negative

ДА True Pasitive (TP) 70 False Positive (FP) 55

НЕТ False Negative (FN) 35 True Negative (TN) 40

P= (TP+FN) 10 5 N=(FP+TN) 90

Accuracy = (TP+TN)/(TP+TN+FP+FN) 0,5 5

4835

Precision = TP/(TP+FP) 0,5 6

Recall = TP/(TP+FN) 0,6 7

Fall-out = FP/(FP+TN) 0,5 8

Specificity = TN/(FP+TN) 0,4 2

Sensitive = TP/(TP+FN) 0,6 7

F-MeipnKa = (2 * Sensitive * Accuracy)/(Sensitive + Accuracy) 0,6 0

Показатель F-метрики = 0,60. Это говорит нам о том, что в такой постановке задачи сложно спрогнозировать погоду по направлению ветра. Чуть больше, чем в половине случаев есть присутствие в чеке товар А и товара Б.

Теперь произведем аналогичные расчеты для модели «Эффективный баннер». За исследуемый период, заявки на товар Т, было сделано 50 заявок. Из них в 42 случаях, клиент среагировал на баннер Б, при этом товар Т, был куплен в 32 случаях, а 10 случаев, когда покупке не произошло. Из 8 заявок без перехода по баннеру Б, было 3 случая покупки товара Т и в 5 случаях покупка не состоялась. Распределяем результаты по 4 классам. Клиент сделал заявку, перейдя по баннеру Б, и товар Т куплен, параметр True Positive = 32. Клиент сделал заявка, перейдя по баннеру Б, но товар Т не был куплен, параметр False Positive = 10. Заявка была сделана перехода по баннеру Б, и товар Т не был куплен, параметр True Negative = 5. Заявка была сделана без перехода по баннеру Б, и товар Т был куплен, параметр False Negative = 3. Итоги расчетов по модели «Эффективный баннер» представлены в таблице 4.

4836

Таблица 4

Результаты проверки модели «Эффективный баннер»

Таблица оценки классификатора

Исх од Pasitive Negative

ДА True Pasitive (TP) 32 False Positive (FP) 10

НЕТ False Negative (FN) 3 True Negative (TN) 5

P= (TP+FN) 35 N=(FP+TN) 15

Accuracy = (TP+TN)/(TP+TN+FP+FN) 0,74

Precision = TP/(TP+FP) 0,76

Recall = TP/(TP+FN) 0,91

Fall-out = FP/(FP+TN) 0,67

Specificity = TN/(FP+TN) 0,33

Sensitive = TP/(TP+FN) 0,91

F-метрнка = (2 * Sensitive * Accuracy)/(Sensitive + Accuracy) 0,82

F-метрика показала значение 0,82. Это значение существенно выше, чем в прошлом примере. Следовательно, Баннер Б действительно важный фактор при покупке товара Т и увеличивает вероятность его покупки. По итогам исследования можно делать заключения:

1. Гипотеза о влиянии факта покупки товара А, на покупку товара В скорее на уровне тенденции.

2. Есть существенное влияние перехода по баннеру при составлении заявки, повышающее вероятность покупки товара Т .

Выводы: методиками матрицы ошибок имеет высокий уровень вхождения и может использоваться не только в задачах искусственного интеллекта, но и в решении прикладных задачах маркетинга. Простота

4837

вычислений позволяет реализовывать и автоматизировать метод в прикладных

приложения, например табличном процессоре Calc из пакета LibreO!!^,

аналоге Excel из пакета MS Office.

Литература

1. Горячкин Б. С., Чечнев А. А., Анализ чувствительности метрик бинарной классификации к дисбалансу данных.// E-Scio//

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. // Москва, 2021 //номер 4 (55), с. 12

3. ГОСТ Р 50779.10-2000. «Статистические методы. Вероятность и основы статистики. Термины и определения». — С. 26

4. Корн Г., Корн Т. Справочник по математической статистике (для научных работников и инженеров).//Издательство «Наука», Москва,1978. - с. 832

5. Чубукова И.А. Data Mining // - M.: Национальный Открытый Университет "ИНТУИТ", 2016 470 c. - ISBN 978-5-94774-819-2.

6. Старовойтов В.В., Голуб Ю.И., Об оценке результатов классификации несбалансированных данных по матрице ошибок// Обработка сигналов, изображений и данных и распознавания образов//Объединенный институт информатики Национальной академии Наук Беларуси// 2021 г. с 61-71

7. Метрики в машинном обучении: precision, recall и не только [Электронный ресурс]// URL: http://www.michurin.net/computer-science/ml-precision-recall.html?ysclid=l21q4xyh46 (дата обращения: 15.10.2022)

8. Метрики в задачах машинного обучения [Электронный ресурс] // URL: https://habr.com/ru/company/ods/blog/328372/?ysclid=l22zdhechs (дата обращения: 15.10.2022)

9. Виккиконспекты ИТМО. [Электронный ресурс] // URL: http://neerc.ifmo.ra/wiki/mdex.php?tttie=Формула_Байеса (дата обращения 29.10.2022)

4838

10. David M. W. Powers. // Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation// School of Informatics and Engineering, Flinders University • Adelaide • Australia Technical Report SIE-07-001, 2007. 24 c.

11. Yunqian Ma and 1 more //Imbalanced Learning: Foundations, Algorithms, and Applications // Wiley-IEEE Press; 1st edition, 2013 c.216 ISBN-13: 9781118074626, ISBN-10: 1118074629

References

1. Goryachkin B. S., Chechnev A. A., Sensitivity analysis of binary classification metrics to data imbalance.// E-Scio//

2. // Moscow, 2021 // no. 4 (55), p. 12

3. GOST R 50779.10-2000. "Statistical Methods. Probability and bases of statistics. Terms and Definitions". - p. 26

4. Korn G., Korn T. Handbook of mathematical statistics (for scientists and engineers).//Publishing house "Nauka", Moscow, 1978. - With. 832

5. Chubukova I.A. Data Mining // - M.: National Open University "INTUIT", 2016 470 p. - ISBN 978-5-94774-819-2.

6. Starovoitov V.V., Golub Yu.I., On the evaluation of the results of the classification of unbalanced data by the error matrix// Processing of signals, images and data and pattern recognition//Joint Institute of Informatics of the National Academy of Sciences of Belarus// 2021 p. 61 -71

7. Metrics in machine learning: precision, recall and more [Electronic resource]// URL: http://www.michurin.net/computer-science/ml-precision-recall.html?ysclid=l21q4xyh46 (accessed: 10/15/2022)

8. Metrics in machine learning problems [Electronic resource] // URL: https://habr.com/ru/company/ods/blog/328372/?ysclid=l22zdhechs (date of access: 10/15/2022)

4839

9. ITMO wiki notes. [Electronic resource] // URL: http://neerc.ifmo.ra/wiki/index.php?title=Bayes_Formula (accessed 10/29/2022)

10. David M. W. Powers. // Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation// School of Informatics and Engineering, Flinders University • Adelaide • Australia Technical Report SIE-07-001, 2007. 24 p.

11. Yunqian Ma and 1 more //Imbalanced Learning: Foundations, Algorithms, and Applications // Wiley-IEEE Press; 1st edition, 2013 p.216 ISBN-13: 9781118074626, ISBN-10: 1118074629

Для цитирования: Тимофеев М. В. СПОСОБ ПРОВЕРКИ ГИПОТЕЗЫ В ПРИКЛАДНЫХ ЗАДАЧАХ МАРКЕТИНГА ПРИ ПОМОЩИ МАТРИЦЫ ОШИБОК// Научный сетевой журнал «Столыпинский вестник» №9/2022.

4840

СПОСОБ ПРОВЕРКИ ГИПОТЕЗЫ В ПРИКЛАДНЫХ ЗАДАЧАХ МАРКЕТИНГА ПРИ ПОМОЩИ МАТРИЦЫ ОШИБОК Текст научной статьи по специальности «Экономика и бизнес»

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Тимофеев Михаил Владимирович

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Тимофеев Михаил Владимирович

A WAY TO TEST A HYPOTHESIS IN MARKETING APPLICATIONS USING AN ERROR MATRIX

Текст научной работы на тему «СПОСОБ ПРОВЕРКИ ГИПОТЕЗЫ В ПРИКЛАДНЫХ ЗАДАЧАХ МАРКЕТИНГА ПРИ ПОМОЩИ МАТРИЦЫ ОШИБОК»