Научная статья на тему 'УЛУЧШЕНИЕ КАЧЕСТВА АЛГОРИТМА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ С ПОМОЩЬЮ МЕТОДОВ АССОЦИАТИВНОГО АНАЛИЗА'

УЛУЧШЕНИЕ КАЧЕСТВА АЛГОРИТМА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ С ПОМОЩЬЮ МЕТОДОВ АССОЦИАТИВНОГО АНАЛИЗА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
191
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
рекомендательная система (сервис) / коллаборативная фильтрация / кластерный анализ / ассоциативный анализ / алгоритм Apriori / Data mining / recommender system / collaborative filtering / cluster analysis / affinity analysis / Apriori algorithm / Data mining

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стубарев Игорь Михайлович, Альсова Ольга Константиновна

В сфере развития CRM систем растет сирое на вспомогательные системы, реализующие методы и технологии интеллектуального анализа данных и машинного обучения (Data mining) и способные генерировать полезные знания из огромных массивов собранных в CRM данных. В статье приведены результаты разработки и исследования алгоритма рекомендательного сервиса CRM системы е применением методов ассоциативного анализа данных. Ранее авторами был разработан и реализован базовый вариант алгоритма рекомендательного сервиса, основанный на использовании методов кластерного анализа данных и коллаборативной фильтрации [1 2|. В новой версии алгоритма дополнительно используются методы ассоциативного анализа для формирования рекомендаций но выбору продуктов (услуг), что позволило увеличить точность рекомендательной системы (сервиса) по метрике F2 в среднем с 67,98 % до 81,24 % при несущественном увеличении времени выдачи рекомендаций (в среднем на 2,47 ме). Исследование и сравнение базовой и модифицированной версий алгоритма проводилось на данных страховых компаний, предоставленных компанией „ФБ Консалт“.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Стубарев Игорь Михайлович, Альсова Ольга Константиновна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPROVING THE QUALITY OF RECOMMENDER SYSTEM ALGORITHM USING ASSOCIATIVE ANALYSIS METHODS

FB Consult specializes in the development, implementation, and support of full-featured CRM solutions for banks, insurance, commercial and industrial, pharmaceutical companies. A customer relationship management system (CRM-system) is an information system designed to collect and process customer data. The data obtained from this system can be used in a recommendation system, helping managers to determine the needs of customers more accurately. Understanding the diverse insurance needs of the population and comparing them with related products offered by insurance companies makes insurance more effective and makes insurance companies more successful. Earlier, FB Consult developed an analytical platform that includes services for recommendations and time scries analysis. The objective of the study is to test the impact of the affinity analysis algorithm for the F2-scorc metric-evaluation of the recommendation algorithm based on collaborative filtering and duster analysis of data. The article describes the developed algorithm, which consists of 2 stages. At the training stage, which takes a long time, but is carried out only when there is a significant change in customer data, a recommendation model is created. First of all, customers arc divided into dusters based on metadata using the EM algorithm, and a list of the most popular products is generated for each duster. This is necessary to solve the cold start problem. In addition, customers arc divided into dusters according to shopping lists in order to further speed up the collaborative filtering algorithm, since customers from another duster will not be dose to the customer for whom the recommendation is calculated, and the association rules arc calculated using the Apriori algorithm. As a result, the model consists of a list of the most popular products for each duster, a customer classifier by metadata, a customer classifier by shopping lists, customer lists divided into dusters by shopping and a list of found association rules. The recommendation phase is for each customer and therefore must be fast. If the customer docs not have purchased products yet, then he is classified by his metadata and receives a recommendation from the list of popular products for his duster. Otherwise, the customer is classified according to the shopping list, then, using collaborative filtering, the closest customers arc found among the customers of his duster and recommendations arc formed on the basis of their purchases. In addition, if a customer has a cause for a previously found association rule in the purchased products, he is recommended its effect along with recommendations based on purchases of similar customers. Testing and analysis of the effectiveness of the developed algorithm was carried out on the data of insurance company. The data includes 30 thousand customers and 21 types of products from 2010 to 2020. As a result of testing, it was revealed that the proportion of correctly found products for recommendation among the products that needed to be recommended increased, but also the proportion of recommended products that were clearly not necessary for recommendations (were not removed from the customer during testing) increased. Should take into account that these could be products that should be recommended to customers, but that they have not purchased yet. In this article, a study was carried out of the impact of affinity analysis on the recommendation algorithm. The main result of this work is to improve the F2-score metric in comparison with the basic implementation of the recommendation algorithm. With the help of affinity analysis, you can generate not only positive, but also negative association rules. In future work, it is planned to investigate the use of such rules in order to reduce the likelihood of recommending products that are contained in the effect of these rules, thereby increasing the accuracy of the system.

Текст научной работы на тему «УЛУЧШЕНИЕ КАЧЕСТВА АЛГОРИТМА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ С ПОМОЩЬЮ МЕТОДОВ АССОЦИАТИВНОГО АНАЛИЗА»

IMPROVING THE QUALITY OF RECOMMENDER SYSTEM ALGORITHM USING ASSOCIATIVE ANALYSIS METHODS

I.M. Stubarev*'**, O.K. Alsowa*

* Novosibirsk State Technical University, 630087, Novosibirsk, Russia

**LLC „FBConsuit", 630083, Novosibirsk, Russia

DOI: 10.24412/2073-0667-2022-2-17-26 EDN: ERYREM

FB Consult specializes in the development, implementation, and support of full-featured CRM solutions for banks, insurance, commercial and industrial, pharmaceutical companies. A customer relationship management system (CRM-system) is an information system designed to collect and process customer data. The data obtained from this system can be used in a recommendation system, helping managers to determine the needs of customers more accurately. Understanding the diverse insurance needs of the population and comparing them with related products offered by insurance companies makes insurance more effective and makes insurance companies more successful. Earlier, FB Consult developed an analytical platform that includes services for recommendations and time series analysis.

The objective of the study is to test the impact of the affinity analysis algorithm for the F2-score metric-evaluation of the recommendation algorithm based on collaborative filtering and cluster analysis of data.

The article describes the developed algorithm, which consists of 2 stages. At the training stage, which takes a long time, but is carried out only when there is a significant change in customer data, a recommendation model is created. First of all, customers are divided into clusters based on metadata using the EM algorithm, and a list of the most popular products is generated for each cluster. This is necessary to solve the cold start problem. In addition, customers are divided into clusters according to shopping lists in order to further speed up the collaborative filtering algorithm, since customers from another cluster will not be close to the customer for whom the recommendation is calculated, and the association rules are calculated using the Apriori algorithm. As a result, the model consists of a list of the most popular products for each cluster, a customer classifier by metadata, a customer classifier by shopping lists, customer lists divided into clusters by shopping and a list of found association rules. The recommendation phase is for each customer and therefore must be fast. If the customer does not have purchased products yet, then he is classified by his metadata and receives a recommendation from the list of popular products for his cluster. Otherwise, the customer is classified according to the shopping list, then, using collaborative filtering, the closest customers are found among the customers of his cluster and recommendations are formed on the basis of their purchases. In addition, if a customer has a cause for a previously found association rule in the purchased products, he is recommended its effect along with recommendations based on purchases of similar customers.

Testing and analysis of the effectiveness of the developed algorithm was carried out on the data of insurance company. The data includes 30 thousand customers and 21 types of products from 2010 to 2020. As a result of testing, it was revealed that the proportion of correctly found products

© I. M. Stubarev, O. K. Alsowa, 2022

for recommendation among the products that needed to be recommended increased, but also the proportion of recommended products that were clearly not necessary for recommendations (were not removed from the customer during testing) increased. Should take into account that these could be products that should be recommended to customers, but that they have not purchased yet.

In this article, a study was carried out of the impact of affinity analysis on the recommendation algorithm. The main result of this work is to improve the F2-score metric in comparison with the basic implementation of the recommendation algorithm. With the help of affinity analysis, you can generate not only positive, but also negative association rules. In future work, it is planned to investigate the use of such rules in order to reduce the likelihood of recommending products that are contained in the effect of these rules, thereby increasing the accuracy of the system.

Key words: recommender system, collaborative filtering, cluster analysis, affinity analysis, Apriori algorithm, Data mining.

References

1. Stubarev I. M., Belov A. I., Alsova O. K. Development of the analytical platform for CRM-system // Actual problems of electronic instrument engineering (APEIE-2018). Novosibirsk: NSTU, 2018. P. 546-551.

2. Stubarev I.M., Alsova O.K. Rekomendatel'nyy servis na baze CRM sistemv: Svidetel'stvo o gosudarstvennov registratsii programmv diva EVM N 2019617387. 2019.

3. Soh H., Sanner S., White M., Jamieson G. Deep sequential recommendation for personalized adaptive user interfaces // IUI ACM. 2017. P. 589-593.

4. Yu W., He X., Qin Z., Chen X., Zhang H., Xiong L. Aesthetic-based clothing recommendation // Proceedings of the 2018 world wide web conference. 2018. P. 649-658.

5. Liang D., Krishnan R. G., Hofman M.D., Jebara T. Variational autoencoders for collaborative filtering // Proceedings of the 2018 world wide web conference. 2018. P. 689-698.

6. Lin W., Alvarez S. A., Ruiz C. Efficient adaptive-support association rule mining for recommender systems // Data Min. Knowl. Discov. 2002. P. 83-105.

7. Lin WT., Alvarez S.A., Ruiz C. Collaborative recommendation via adaptive association rule mining // Data Min. Knowl. Discov. 2000. P. 83-105.

8. Agrawal R., Srikant R. Fast Discovery of Association Rules // Proc. of the 20th International Conference on VLDB. 1994.

9. Agrawal R., Imielinski T., Swami A. Mining Associations between Sets of Items in Massive Databases // Proc. of the 1993 ACM-SIGMOD Int'l Conf. on Management of Data,. 1993. P. 207-216.

10. Han J., Kamber M. Data mining: concepts and techniques // Burlington: Morgan Kaufmann Publishers. 2012.

11. Bagui S., Dhar P. C. Positive and negative association rule mining in Hadoop's MapReduce environment // Journal of Big Data. 2019. T. 6. N 1. P. 146.

12. Sasaki Y. The truth of the F-measure // Teach Tutor Mater. 2007. P. 1-5.

УЛУЧШЕНИЕ КАЧЕСТВА АЛГОРИТМА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ С ПОМОЩЬЮ МЕТОДОВ АССОЦИАТИВНОГО АНАЛИЗА

И.М. Стубарев*'**, О. К. Альсова*

* Новосибирский государственный технический университет, 630073, Новосибирск, Россия

**000 ,,ФБ Консалт", 630083, Новосибирск, Россия

УДК 004.89

DOI: 10.24412/2073-0667-2022-2-17-26 EDX: ERYREM

В сфере развития CRM систем растет спрос на вспомогательные системы, реализующие методы и технологии интеллектуальншх) анализа данных и машинншх) обучения (Data mining) и способные генерировать полезные знания из огромных массивов собранных в CRM данных. В статье приведены результаты разработки и исследования а.;п'оритма рекомендательно!^ сервиса CRM системы с применением методов ассоциативншх) анализа данных. Ранее авторами был разработан и реализован базовый вариант а.;п'оритма рекомендательно!^ сервиса, основанный на использовании методов кластерншх) анализа данных и коллаборативной фильтрации [1 2|. В новой версии а.;п'оритма дополнительно используются методы ассоциативншх) анализа для формирования рекомендаций по выбору продуктов (услуг), что позволило увеличить точность рекомендательной системы (сервиса) по метрике F2 в среднем с 67,98 % до 81,24 % при несущественном увеличении времени выдачи рекомендаций (в среднем на 2,47 мс). Исследование и сравнение базовой и модифицированной версий а;п'оритма проводилось на данных страховых компаний, предоставленных компанией „ФБ Консалт".

Ключевые слова: рекомендательная система (сервис), коллаборативная фильтрация, кластерный анализ, ассоциативный анализ, а.л!'оритм Apriori, Data mining.

Введение. Компания „ФБ Консалт" специализируется на разработке, внедрении и поддержке ио.лпофупкциопальпых CRM-решений для банков, страховых, торгово-промышленных, фармацевтических компаний. Система управления взаимоотношениями с клиентами (CRM-система) представляет из себя информационную систему, предназначенную дня сбора и обработки данных о клиентах. В результате работы этой системы накапливаются большие объемы данных, применяя к которым методы интеллектуального анализа данных и машинного обучения, можно извлекать полезные знания о потребностях клиентов. Знания о потребностях клиентов помогают повысить качество обслуживания, лучше удовлетворить спрос или даже способствуют его формированию, что в конченом итоге увеличивает прибыль компании. Результаты работы рекомендательного сервиса могут, в том число, использоваться менеджерами компаний дня более точного определения потребностей клиентов. Лучшее понимание потребностей клиентов в области страхования и их сопоставление с услугами и продуктами, предлагаемыми страховыми компаниями,

(с) И. М. Стубарев, О. К. Альсова, 2022

делает страхование более эффективным, а страховые компании, в свою очередь, более успешными,

В работах [1-2] приведены результаты разработки аналитической платформы СЕМ системы для компании ,,ФБ Конеалт", включающей в себя сервисы рекомендаций и анализа временных рядов. Предложен и реализован базовый алгоритм рекомендательного сервиса, основанный на использовании методов кластерного анализа данных и коллаборативной фильтрации. Хотя метрики точности рекомендательной модели, построенной с использованием базового алгоритма, достаточно высоки (~60-70 %), по-прежнему актуальными остаются вопросы повышения точности рекомендаций,

В настоящее время активно проводятся исследования в области улучшения качества алгоритмов рекомендательного сервиса с целью разработки более точных моделей рекомендаций, Первое направление связано с использованием дополнительной информации при построении моделей рекомендательных систем, например метаданных пользователя, информации о профиле пользователя, о его социальных связях и т, п, [3-5],

Второе направление связано с использованием комплекса методов для формирования списка рекомендаций, в том числе методов ассоциативного анализа данных [6], В работе [7], например, предлагается применять правила ассоциации с адаптивной поддержкой (ASARM) для построения модели рекомендаций. Исследования проведены на данных о предпочтениях фильмов, выполнено сравнение точности рекомендаций, построенных с применением разных алгоритмов (ASARM, нейронная сеть и SVD, нейронная сеть с использованием дополнительной информации). Точность рекомендательных моделей, основанных на комплексном применении методов и использовании правил ассоциации, получилась сравнительно выше по оценке авторов исследования.

Поэтому актуальным направлением в области решения задач рекомендательного сервиса представляется использование методов ассоциативного анализа данных для выдачи наиболее точных рекомендаций, чему и посвящено настоящее исследование,

1. Постановка задачи, В рамках данного исследования были поставлены следующие задачи,

1) Разработать и исследовать алгоритм выдачи рекомендаций, основанный на комплексном применении методов кластерного анализа данных, коллаборативной фильтрации, ассоциативного анализа данных,

2) Выполнить сравнение метрик точности и скорости рекомендательных моделей, построенных с использованием двух вариантов реализации алгоритма рекомендаций (без использования методов ассоциативного анализа данных — базовый вариант, и с использованием методов ассоциативного анализа данных — модифицированный вариант),

Для оценки точности рекомендательных моделей использовали следующие метрики качества [8]: precision, recall, и F2, также оценивалось время выдачи рекомендаций.

Метрика precision рассчитывается как отношение количества истинно положительных предсказаний (продукт приобретен) к сумме истинно положительных и ложноположитель-ных предсказаний (ошибка I рода), Метрика демонстрирует способность модели правильно предсказывать, что продукт будет приобретен по всем полученным утвердительным результатам, включая ложноположительные (положительная прогностическая ценность модели),

TP

Precision

TP + FP

Метрика recall рассчитывается как отношение количества истинно положительных предсказаний к сумме истинно положительных и ложноотрицательных предсказаний (ошибка II рода). Метрика показывает, как часто модель действительно предсказывает покупку продукта, когда у клиента есть продукт в списке покупок (чувствительность модели),

TP

Recall

TP + FN

Для объединения метрик в агрегированный критерий качества используется Fs-мера, которая представляет собой гармоническое среднее между precision и recall с коэффициентом в описывающим соотношение метрик в мере (recall в в раз важнее, чем precision). Максимально возможное значение F^-меры составляет 1, что указывает на идеальные значения precision и recall, равные единице, а минимально возможное значение Fp = 0 при равенстве нулю precision и/или recall. При в = 1 мер a Fi соответствует среднему гармоническому с множителем 2,

2 * Precision * Recall 2 * TP

Fi =-=-

1 Precision + Recall 2 * TP + FP + FN

При в = 2 метрика recall считается в 2 раза важнее метрики precision в мере F2. Именно эта мера выбрана в исследовании в качестве основной меры точности, так как при разработке рекомендательной модели особенно важно минимизировать ошибку второго рода (количество ложноотрицательных предсказаний),

5 * Precision * Recall 5 * TP

F2 =

4 * Precision + Recall 5 * TP + FP + 4 * FN

2. Описание алгоритмов выдачи рекомендаций. Одним из самых известных методов для решения задач рекомендательного сервиса является коллаборативная фильтрация, На больших объемах данных возникает необходимость в применении вспомогательных методов, таких как, например, кластерный анализ. Кластерный анализ применяется для разбиения клиентов на группы по предпочтениям или метаданным. Далее, формирование правил рекомендаций продуктов (услуг) выполняется внутри каждой группы, что позволяет значительно сократить необходимый объем и скорость вычислений по сравнению с анализом всей исходной БД, Именно такой подход использовался в базовом алгоритме выдачи рекомендаций, разработанном ранее.

Базовый алгоритм рекомендательного сервиса состоит из двух основных этапов: обучение и выдача рекомендаций.

На этапе обучения, который занимает продолжительное время, но и проводится только при существенном изменении данных о клиентах, создается модель рекомендаций, В первую очередь клиенты разбиваются на кластеры по метаданным (таким как пол, подразделение, категория работы и т.д.) с помощью ЕМ-алгоритма, и для каждого кластера

формируется список наиболее популярных продуктов (услуг). Эта информация в даль"

ленных продуктов). Кроме этого, клиенты разбиваются на кластеры по спискам покупок для того, чтобы в дальнейшем ускорить работу алгоритма коллаборативной фильтрации,

так как клиенты из другого кластера не будут близкими к клиенту, для которого рассчи-

"

результате в модель рекомендаций попадают: список наиболее популярных продуктов для

Рис. 1. Базовый алгоритм выдачи рекомендаций

Рис. 2. Алгоритм выдачи рекомендаций с помощью ассоциативного анализа

каждого кластера, классификатор клиентов но метаданным, классификатор клиентов но спискам покупок, списки клиентов, разбитые на кнастеры но покупкам.

Этан выдачи рекомендаций проходит дня каждого клиента и поэтому должен происходить максимально быстро, учитывая потенциально большое количество клиентов. Если у

"

руется но своим метаданным и получает рекомендацию из списка популярных продуктов дня его кластера. В противном случае клиент классифицируется но списку покупок, затем с помощью коллаборатишюй фильтрации среди клиентов его кластера находятся наиболее близкие клиенты, и на основе их покупок формируются рекомендации. Базовый алгоритм выдачи рекомендаций можно увидеть на рис. 1.

Дня увеличения эффективности работы рекомендательной системы было предложено дополнительно использовать ассоциативный анализ данных в рамках базового алгоритма. Дня этого на этане обучения проводится вычисление ассоциативных правил. В дальнейшем, во время этана выдачи рекомендаций, если у клиента в купленных продуктах есть

причина ассоциативного правила — ему рекомендуется его следствие (рис. 2) вместе с

"

Модифицированная версия алгоритма представлена на рис. 3.

Рис. 3. Алгоритм выдачи рекомендаций с использованием методов ассоциативного анализа данных

(модифицированный алгоритм)

Рис. 4. Диаграмма размаха меры Р2 (а) и времени выдачи рекомендаций (б) для базового и модифицированного алгоритмов выдачи рекомендаций

К преимуществам ассоциативного анализа данных можно отнести то, что, после длительного поиска ассоциативных правил, их применение происходит довольно быстро. В исследовании дня построения ассоциативных правил использовался алгоритм Аргюп |9|, который является одним из наиболее эффективных алгоритмов ассоциативного анализа данных. Алгоритм Аргюп основан на нахождении частых закономерностей в приобретении набора продуктов (услуг) и реализует итеративный подход, при котором к-й набор элементов используется для исследования (к + 1) набора элементов. Чтобы найти часто встречающиеся наборы элементов, сначала выполняется поиск одноэлементных наборов путем просмотра исходной базы данных и расчета количества случаев приобретения продукта (услуги). Наборы элементов, удовлетворяющие минимальному порогу поддержки (отношение количества записей в БД, в которых набор был приобретен, к общему количеству записей), сохраняются. Затем одноэлементные наборы используются дня нахождения часто встречающихся наборов из двух элементов. Этот процесс продолжается до тех нор, пока вновь сгенерированный набор элементов не станет пустым, то есть пока не останется

наборов элементов, соответствующих минимальному порогу поддержки. Затем на основе частых наборов генерируются ассоциативные правила, удовлетворяющие условиям минимальной поддержки и достоверности (вероятность того, что из наличия в записи БД набора, входящего в причину правила следует наличие в ней набора из следствия правила) [10-11].

В ходе ассоциативного анализа генерируются не только положительные ассоциативные правила, но и отрицательные. Это правила, отображающие взаимосвязи между отсутствием одного набора элементов и наличием другого [12]. Эти правила также можно использовать в дальнейшем для увеличения точности рекомендательной системы.

Алгоритмы были реализованы в рамках аналитической платформы, написанной на Сф

с использованием фреймворка для машинного обучения Accord,Net, так как Сф является

"

3. Исследование алгоритмов выдачи рекомендаций. Тестирование и анализ эффективности разработанного алгоритма рекомендательного сервиса, сравнение точности и скорости работы двух вариантов реализации алгоритма проводили на данных страховых компании. Данные представляют собой сведения о 30 тысячах клиентов, которые приобретали 21 вид продуктов (услуг) в период с 2010 по 2020 годы.

Для каждого клиента были зафиксированы метаданные, которые также использовались при анализе для кластеризации клиентов: год присоединения к программе страхования; пол; семейное положение; дата рождения; филиал, в котором зарегистрировался клиент; код, описывающий род занятий клиента; категория, к которой относится работа клиента,

В табл. 1 приведены характеристики точности рекомендательных моделей, построенных с помощью базового и модифицированного алгоритмов, также оценивалось время выдачи рекомендаций. Характеристики точности оценивались с использованием 10-кратной 10 блочной кросс-проверки. Кросс-проверка заключалась в разбиении исходной БД на десять чаетей-подвыборок (подвыборки формировались с помощью генератора случайных чисел), где девять частей использовались в качестве обучающей выборки при построении модели, а одна часть — в качестве тестовой выборки, по тестовой выборке рассчитывались показатели точности модели. Затем выбиралась другая тестовая часть, и процесс повторялся 10 раз, таким образом каждая подвыборка 9 раз использовалась в качестве обучающей и один раз в качестве тестовой. Вся процедура повторялась 10 раз (всего 100 испытаний). В итоге по результатам всех испытаний усреднялись показатели точности модели. В табл. 1 приведены результаты по каждой серии из 10 испытаний и усредненные результаты по всем испытаниям.

На рис. 4 приведены диаграммы размаха, иллюстрирующие статистические характеристики меры F2 и показателя „время выдачи рекомендаций" для двух вариантов реализации алгоритма (БА — базовый алгоритм, МЛ — модифицированный алгоритм), рассчитанные по 10 сериям испытаний. На диаграмме размаха положение центральной линии определяет значение медианы, границы прямоугольника соответствуют нижнему и

"

диаграммы расположены от верхней (нижней) границы прямоугольника до наибольшего

(наименьшего) значения, находящегося в пределах 1,5хИКР, Наблюдения за пределами

"

4. Обсуждение результатов. Как видно из табл. 1, включение в алгоритм выдачи рекомендаций методов ассоциативного анализа данных привело к уменьшению метрики

Таблица 1

Результаты тестирования алгоритмов выдачи рекомендаций

Номер серии Базовый алгоритм Модифицированный алгоритм

испытаний precision recall Fi F2 precision recall Fi F2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 0,9989 0,6049 0,7535 0,6567 0,9783 0,7540 0,8516 0,7902

2 0,9972 0,6176 0,7628 0,6685 0,9762 0,7577 0,8532 0,7932

3 0,9983 0,6009 0,7502 0,6529 0,9804 0,7708 0,8631 0,8052

4 0,9994 0,6033 0,7524 0,6552 0,9767 0,7596 0,8546 0,7949

5 0,9984 0,6253 0,7690 0,6758 0,7024 0,8632 0,7745 0,8254

6 0,9989 0,5953 0,7460 0,6477 0,9823 0,7586 0,8561 0,7948

7 0,9989 0,6107 0,7580 0,6621 0,8910 0,8478 0,8689 0,8561

8 0,9989 0,6001 0,7497 0,6521 0,6908 0,8521 0,7630 0,8141

9 0,9639 0,7121 0,8191 0,7514 0,9820 0,7650 0,8600 0,8004

10 0,9984 0,6252 0,7689 0,6757 0,8568 0,8477 0,8523 0,8495

Среднее 0,9951 0,6195 0,7630 0,6698 0,9017 0,7977 0,8397 0,8124

Стандартное

отклонение 0,0110 0,0342 0,0213 0,0303 0,1167 0,0478 0,0379 0,0239

Минимальное

значение 0,9639 0,5953 0,7460 0,6477 0,7024 0,7540 0,7630 0,7902

Максимальное

значение 0,9994 0,7121 0,8191 0,7514 0,9823 0,8632 0,8689 0,8561

precision на 9,34 % и росту метрики recall на 17,81 %, из чего следует рост целевой метрики F2 с 66,98 % до 81,24 % (на 14,26 %) при незначительном увеличении времени выдачи рекомендации (в среднем на 2,47 мс). То есть увеличилась доля верно найденных для рекомендации продуктов среди продуктов, которые было необходимо порекомендовать, но также увеличилась доля ложноположительных рекомендаций. Следует учитывать при оценке результатов исследования, что к ложноположительным рекомендациям также относятся продукты, которые следует рекомендовать клиентам, но которые еще не были ими куплены,

В данном исследовании модель рекомендательного сервиса была построена по данным страховых компаний, но разработанные алгоритмы могут быть использованы для формирования рекомендаций в других прикладных областях. Для этого требуются данные о клиентах, а именно списки покупок клиентов, метаданные о клиентах, позволяющие разбить их на кластеры.

Заключение, В рамках данной статьи было проведено исследование двух вариантов реализации алгоритма рекомендательного сервиса (без построения ассоциативных правил и с построением). Основной результат исследования заключается в улучшении метрики F2

ных правил в базовый алгоритм выдачи рекомендаций,

С помощью методов ассоциативного анализа можно генерировать не только положительные, но и отрицательные ассоциативные правила, В ходе дальнейшей работы планируется исследовать возможность использования таких правил для уменьшения ошибок I и II рода при выдаче рекомендаций.

Список литературы

1. Stubarcv I. М., Bclov А. I. , Alsova О. К Development of the analytical platform for CRMsystem /7 Actual problems of electronic instrument engineering (APEIE 2018). Новосибирск: НГТУ, 2018. С. 546 551.

2. Стубарев И. М., А.льсова О. К. Рекомендательный сервис на базе CRM системы: Свидетельство о государственной регистрации программы для ЭВМ № 2019617387. 2019.

3. Soh Н., Sanner S., White М., Jamieson G. Deep sequential recommendation for personalized adaptive user interfaces /7 IUI ACM. 2017. C. 589 593.

4. Yu W., He X., Qin Z., Chen X., Zhang H., Xiong L. Aesthetic-based clothing recommendation /7 Proceedings of the 2018 world wide web conference. 2018. C. 649 658.

5. Liang D., Krishnan R. G., Hofman M.D., Jebara T. Variational autoencoders for collaborative filtering /7 Proceedings of the 2018 world wide web conference. 2018. C. 689 698.

6. Lin W., Alvarez S. A., Ruiz C. Efficient adaptive-support association rule mining for recommender systems /7 Data Min. Knowl. Discov. 2002. C. 83 105.

7. Lin W., Alvarez S.A., Ruiz C. Collaborative recommendation via adaptive association rule mining /7 Data Min. Knowl. Discov. 2000. C. 83 105.

8. Sasaki Y. The truth of the F-measure /7 Teach Tutor Mater. 2007. С. 1 5.

9. Agrawal R., Srikant R. Fast Discovery of Association Rules /7 Proc. of the 20th International Conference on VLDB. 1994.

10. Agrawal R., Imielinski Т., Swami A. Mining Associations between Sets of Items in Massive Databases /7 Proc. of the 1993 ACM-SIGMOD Intl Conf. on Management of Data. 1993. C. 207 216.

11. Han J, Kamber M. Data mining: concepts and techniques /7 Burlington: Morgan Kaufmann Publishers. 2012.

12. Bagui S., Dhar P. C. Positive and negative association rule mining in Hadoop's MapReduee environment /7 Journal of Big Data. 2019. N T. 6. N 1. С. 1 16.

систем.

Stubarev Igor Mikhailovich postgraduate student of the Department of Computer Engineering, NSTU. Tech lead „FB Consult". Research interests: data mining, development and implementation of CRM systems.

Альсова Ольга Константиновна доцент кафедры вычислительной техники НГТУ, кандидат технических наук, доцент. Область

научных интересов разработка и исследование методов, а;п'оритмов, программных средств ин-теллектуальншх) анализа данных и машинншх) обучения для решения прикладных задач. По итогам научной и педах'огической деятельности опубликовано более 70 работ.

Alsowa Olga Konstanti-novna associate professor of the Department of Computer Engineering, NSTU, Ph.D. in Engineering Science, Associate Professor. Research interests: development and research of methods, algorithms, software for data mining and machine learning for solving applied problems. As a result of scientific and pedagogical activity, more than 70 works have been published.

Дата поступления, 21.12.2021

Стубарев Игорь Михаилович аспирант кафедры вычислительной техники НГТУ. Главный программист 2 ка-тм'ории компании „ФБ Кон-салт". Область научных инте_ __ресов: интеллектуальный анализ данных, разработка и внедрение CRM-

i Надоели баннеры? Вы всегда можете отключить рекламу.