Научная статья на тему 'О НЕКОТОРЫХ СПОСОБАХ ПОСТРОЕНИЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ОНЛАЙН-МАРКЕТИНГА НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ'

О НЕКОТОРЫХ СПОСОБАХ ПОСТРОЕНИЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ОНЛАЙН-МАРКЕТИНГА НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
278
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ / ОНЛАЙН-МАРКЕТИНГ / МАШИННОЕ ОБУЧЕНИЕ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ / ФИЛЬТРАЦИЯ НА ОСНОВЕ СОДЕРЖИМОГО

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черняков А.Н., Дибиров М.Ш.

В данной статье рассматриваются основные методы машинного обучения для построения рекомендательных систем. Рекомендательные системы для онлайн-маркетинга сегодня являются одним из ключевых моментов успешного бизнеса электронной торговли (e-commerce). Крупнейшие компании, организаторы e-commerce во всем мире предают исключительное значение как методам искусственного интеллекта, вообще, так и машинному обучению, в частности. Использование способов построения рекомендательных систем - прикладная математическая задача. Приводится выбор и анализ наборов данных (DataSet) для названных задач машинного обучения. Авторами сформулированы и апробированы 5 способов построения рекомендательных систем на основе алгоритмов машинного обучения. При этом представлены как общеизвестные способы (Content-based filtering, Сollaborative-filtering), так и новые (Анализ настроений и матричная факторизация, Рекомендации по ключевым словам) с логичным подходом и примечательными результатами. Делается анализ изученных способов и вывод об их применимости.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Черняков А.Н., Дибиров М.Ш.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT SOME METHODS OF CONSTRUCTING ONLINE MARKETING RECOMMENDATION SYSTEMS BASED ON MACHINE LEARNING ALGORITHMS

This article discusses the main methods of machine learning for building recommender systems. Recommendation systems for online marketing are one of the keys to a successful e-commerce business today. The largest companies, organizers of e-commerce all over the world give exceptional importance to both artificial intelligence methods in general and machine learning in particular. The use of methods for building recommender systems is an applied mathematical problem. The selection and analysis of data sets (DataSet) for the named tasks of machine learning is given. The authors formulated and tested 5 ways to build recommender systems based on machine learning algorithms. At the same time, both well-known methods (Content-based filtering, Collaborative-filtering) and new ones (Sentiment analysis and matrix factorization, Keyword recommendations) are presented with a logical approach and remarkable results. An analysis of the studied methods and a conclusion about their applicability is made.

Текст научной работы на тему «О НЕКОТОРЫХ СПОСОБАХ ПОСТРОЕНИЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ОНЛАЙН-МАРКЕТИНГА НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ»

О некоторых способах построения рекомендательных систем онлайн-маркетинга на основе алгоритмов машинного обучения

Черняков Алексей Николаевич,

кандидат философских наук, доцент Департамента анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации, anchernyakov@fa.ru

Дибиров Мурат Шамилевич,

студент, Финансовый университет при Правительстве Российской Федерации, 191048@edu.fa.ru

В данной статье рассматриваются основные методы машинного обучения для построения рекомендательных систем. Рекомендательные системы для онлайн-маркетинга сегодня являются одним из ключевых моментов успешного бизнеса электронной торговли (e-commerce). Крупнейшие компании, организаторы e-commerce во всем мире предают исключительное значение как методам искусственного интеллекта, вообще, так и машинному обучению, в частности. Использование способов построения рекомендательных систем - прикладная математическая задача. Приводится выбор и анализ наборов данных (DataSet) для названных задач машинного обучения. Авторами сформулированы и апробированы 5 способов построения рекомендательных систем на основе алгоритмов машинного обучения. При этом представлены как общеизвестные способы (Content-based filtering, Collaborative-filtering), так и новые (Анализ настроений и матричная факторизация, Рекомендации по ключевым словам) с логичным подходом и примечательными результатами. Делается анализ изученных способов и вывод об их применимости.

Ключевые слова: рекомендательные системы, онлайн-маркетинг, машинное обучение, искусственный интеллект, коллаборативная фильтрация, фильтрация на основе содержимого

Персонализированная реклама, основанная на искусственном интеллекте, методах машинного обучения, сегодня доминирует в онлайн-маркетинге. Крупнейшие компании, организаторы электронной коммерции, такие как: американские Google, Amazon, российские Яндекс, Озон, и многие другие (ecommerce) - не только используют подобную технику продаж, но фактически строят на этих методах свою бизнес-стратегию.

Рекомендательные системы — это комплекс сервисов и программ, который анализирует предпочтения пользователей (покупателей) и пытается предсказать, что может их заинтересовать. Это инструмент онлайн-маркетинга.

Рекомендательные системы, основанные на машинном обучении, получили широкое распространение для бизнеса электронной торговли в последние годы. Задача рекомендательной системы - проинформировать потенциального покупателя о товаре, который ему может быть наиболее интересен в данный момент времени. Клиент получает информацию, а ecommerce зарабатывает на предоставлении качественных услуг.

Есть несколько видов рекомендательных систем, на основе которых сайты и сервисы предлагают нам приобрести какой-либо товар. Реализация и идея во всех этих видах везде разная [7]:

- Разделение товаров на основе знаний (на сайт для каждого типа товаров добавляют некоторые фильтры, которые облегчают поиски и помогают лучше выбрать что-то определенное, такой тип очень сложен в реализации из-за большого количества параметров).

- Комбинированные рекомендательные системы (тут совмещаются несколько методов и идей и предлагают все вперемешку).

- Разделение товаров на основе контента (зашли на сайт впервые и просмотрели товары для дома, в следующий раз эти товары на сайте будут показываться гораздо чаще обычного).

- Совместная фильтрация (можно посмотреть схожие товары в корзинах у других людей, которые покупали тот же товар что и вы и спустя время рекомендовать товары на основе корзин других людей).

Как можно заметить, рекомендовать товары можно различными способами, и каждая компания сама решает, как это реализовать. В основном сейчас все рекомендации включают в себя несколько подходов, что дает хороший результат.

В исследовании приводятся рекомендательные системы товаров для дома и офиса. Так же в работе проверяется идея взаимосвязи между некоторыми товарами для дома, офиса и фильмами, которые смотрят пользователи. То есть можно ли рекомендовать фильмы на основе каких-либо товаров и как это вообще взаимосвязано.

В статье представлены некоторые способы построения рекомендательных систем, построенных на методах машинного обучения, дается сравнительная оценка применимости способов.

X X

о го А с.

X

го m

о

Выбор набора данных (DataSet) для построения задачи машинного обучения

В сфере рекомендации существуют огромное множество любых DataSet (датасет), которые подходят для решения задачи [3]. При поиске были проблемы при выборе подходящего,

2 О M

со

СО CS

0

CS

оэ

01

о ш m

X

<

m

о

X X

так как компании не желают данные о транзакциях [6] и товарах выставлять в публичный доступ по личным причинам. Вот несколько популярных:

- Amazon Product Data: большой датасет, включает в себя названия товаров, описание, цены, рейтинги и многое другое.

- Yelp Dataset Challenge: этот датасет содержит данные о бизнесах и отзывах на Yelp.

- Goodreads: этот датасет содержит данные о книгах.

- Instacart Market Basket Analysis: этот датасет содержит данные о покупках пользователей в Instacart.

- Clothing Fit Data: этот датасет содержит данные о размерах одежды, стилях и предпочтениях покупателей на Amazon.

В интернете расширенный список датасетов посвященных книгам или фильмам, для них интересно было бы написать рекомендательную систему, но это не очень подходит под данную тему, да и такой работой занимались уже многие. В обзорной статье [15] описывается несколько источников датасет и примеров их использования. Мы решили выбрать датасет Amazon Product Data, так как он содержит большое количество объектов с подходящими признаки (рис. 1).

Amazon Fashion revie ws (883,636 reviews) metadata 186,637 products)

All Beauty revie ws (371,345 reviews) metadata 32,992 products)

Appliances revie ws (602,777 reviews) metadata 30,459 products)

Ails. Crafts and Sewing revie ivs (2,875.917 reviews) metadata 303,426 products)

Automotive revie ws (7.990.166 reviews] metadata 932,019 products)

Books revie ivs (51,311.621 reviews) metadata 2,935.525 products)

CDs and Vinyl revie ivs (4,543.369 reviews) metadata 544,442 products)

Cell Phones and Accessories revie ivs (10,063,255 reviews) metadata 590,269 products)

Clothing Shoes and Jewelry revie ivs (32,292,099 reviews) metadata 2,685 059 producls)

Digital Music revie ivs (1.584.082 reviews) metadata 465,392 products)

Electronics revie ivs (20,994.353 reviews) metadata 786,868 products)

Gift Cards revie ivs (147,194 reviews) metadata 1.548 products)

Grocery and Gourmet Food revie ivs (5,074.160 reviews) metadata 287,209 products)

Home and Kitchen revie ivs (21,928.568 reviews) metadata 1,301.225 producls)

Industrial and Scientific revie ivs (1.758.333 reviews) metadata 167,524 products)

Kindle Store revie ivs (5,722.988 reviews) metadata 493,859 products)

Luxury Beauty revie ivs (574,628 reviews) metadata 12,308 products)

Magazine Subscriptions revie ivs (89,689 reviews) metadata 3,493 products)

Movies and TV revie ivs (8,765.568 reviews) metadata 203,970 products)

Musical Instruments revie ivs (1,512.530 reviews) metadata 120.400 products)

Office Products revie ivs (5,581.313 reviews) metadata 315,644 products)

Patio, Lawn and Garden revie ws (5,236.058 reviews) metadata 279,697 products)

Pet Supplies revie ivs (6,542.483 reviews) metadata 206,141 products)

Prime Panlry revie ivs (471.614 reviews) metadata 10.815 products)

Software revie ivs (459.436 reviews) metadata 26,815 products)

Sports and Outdoors revie ivs (12,980,837 reviews) metadata 962,676 products)

Tools and Home Improvement revie ivs (9,015.203 reviews) metadata 571,982 products)

Toys and Games revie ivs (8,201.231 reviews) metad ata 634.414 products)

VWeo Games revie ivs (2.565.349 reviews) metadata 84,893 products)

данные более чем правдивы так как за 31 число их меньше, что непременно является истиной.

На рисунке 2 показано распределение оценок и отчетливо наблюдается большое количество оценок положительных, а именно 5 и 4. Также есть надпись verified - это оценки истины. Удалим его так как в нем нету ложных оценок(рис. 2).

Рисунок 1 - Датасеты по различным топикам

Датасет Amazon Product Data достаточно большой и вмещает в себя огромное число различных категорий товаров. Нами было принято решения взять данные из нескольких категорий и объединить их в один датасет [4], на котором будем строить модели рекомендательных систем. В результате анализа датасета мы отобрали три категории: фильмы(movies), товары для дома(^о^) и товары для офиса (office).

Данные были подобраны примерно по одной тематике, то есть какие-то товары для офиса или дома. В первую очередь даже перед объединением были проверены Nan в датасетах. Удалены столбцы vote и image так как в этих столбцах больше 85% пустые значения. Также были Nan в отзывах и в именах людей, которые оставляли свои отзывы и оценки на товары. Решено было избавиться от всех Nan в строках в 3 датасетах.

В результате в датасете фильмы(movies) осталось 3 233 396 строк из почти 5 миллионов это 67% от начальных данных. В датасета товары для офиса (office) осталось 501104 строк и в датасета товары для дома(кю^) 1073363. В итоге мы собрали датасет на 400 тысяч строк в котором 272 000 строк из movies, 40 000 из office и 88 000 из tools [5].

Следующем шагом является разведывательный анализ данных. В первую очередь стоит отметить, что данных довольно много и за большой промежуток времени (примерно 20 лет). Если смотреть на распределение по дням, то видно, что

Рисунок 2 - Распределение оценок

Далее нами был исследованы столбецы reviewerlD и reviewerName. Колонку reviewerName удалили так она содержит повторяющие имена, а нам достаточно уникальный идентификатор пользователя - reviewerlD.

Рассмотрим столбец Reviews, в котором находятся отзывы покупателей. Информация из этого столбца понадобится при построении алгоритмов машинного или глубокого обучения, поэтому анализ этого столбца достаточно важен.

Удалим пунктуацию в отзывах и знаки препинания во всех строчках, с помощью специальной библиотеки. Оценки разделим на 3 категории: 5 или 4 хорошие оценки - кодируем цифрой 2, 1 или 2 - кодируем цифрой 0 и оценку 3 - цифрой 1.

Выделим три датасета опираясь на это разделение. Составим из них мешки слов, которые содержат положительны отзыв, отрицательный и нейтральный.

Методы машинного обучения для построения рекомендательных систем

В нашем исследовании рассмотрены различные подходы к решению задачи. Начиная от самых базовых и общепринятых и, заканчивая совершенно новыми подходами, которые были придуманы и реализованы нами [2].

Реализовано было 5 способов:

1) Content-based filtering (фильтрация на основе содержимого) на основе оценок;

2) Content-based filtering (фильтрация на основе содержимого) на основе категории и описания товаров;

3) Collaborative-filtering (коллаборативная фильтрация) -иногда называют совместная фильтрация;

4) Анализ настроений и матричная факторизация для нового датасета;

5) Рекомендации по ключевым словам.

Рассмотрим эти способы более подробно и раскроим детали реализации.

1. Content-based filtering на основе оценок

Рассмотрим первый способ на основе оценок. Хотелось сделать для каждого товара реальную и предсказанную оценку. Предсказанная оценка - это та оценка, которая была

средней для данного товара. То есть поделена сумма всех оценок на их количество и выяснена оценка predicted [14]. Реальная оценка у каждого товара уже была известна. В данном способе использовались различные алгоритмы машинного обучения. Метод KNNWithMeans с различными характеристиками внутри. Использует среднее значение оценок пользователей для нахождения ближайших соседей. Были рассмотрены варианты для k равного 10, 15 и 20 и получены соответствующие результаты. Для каждого пользователя он находит k ближайших соседей и предлагает ему товары, которые понравились этим соседям, но не были просмотрены самим пользователем. На рисунке 3 представлены результаты.

Products Recommended for Reviewer: A18C4ZRZTNIV7Y:

[ 6383082750 ]

t---------------------------------

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Products Recommended for Reviewer: A3C7PEKZT4KFB:

['6380214044', '0790737744"j 1630197284*1, '63018024891, 1638308203X1]

t---------------------------------

Products Recommended fon Reviewer: A2PBV1899CX3TE:

['0792834976', '6303011959', '6300214710']

t---------------------------------

Products Recommended fon Reviewer: A2CPN6AE1HVNKL:

['6381863208']

Рисунок 3 - Рекомендации на основе оценок

2. Content-based filtering на основе категорий и описаний товаров

Второй способ content-based на основе описания товара и его отзыва. Из датасета отобрали колонки с категориями товаров, описанием, отзывами о товарах и краткие отзывы [12]. На рисунке 4 показан результат применение метода CountVectorizer. CountVectorizer — это инструмент из библиотеки scikit-learn для преобразования текстовых данных в числовые. Он используется в content-based методах рекомендаций для создания векторного представления контента [11].

SentimentlntensityAnalyzer. Это инструмент для анализа тональности текста, который позволяет определить, насколько положительным, отрицательным или нейтральным является определенный текст [13]. Он является частью библиотеки Natural Language Toolkit (NLTK) для обработки естественного языка в Python и использует методы машинного обучения для классификации тональности.

Сложив эти две оценки и поделив на 2, получилась оценка, которая учитывает несколько факторов и является достоверной в данном методе. Позже была составлена матрица корреляции [8] для определения сходства между элементами, которые могут быть рекомендованы пользователю благодаря алгоритму item-based [9].

4. Анализ настроений и матричная факторизация для нового датасета

Следующий метод связан с анализом отзывов и применение методов машинного и глубокого обучения в этом анализе [1]. Мы создаем рекомендации только с помощью положительных отзывов, для этого удаляем все отрицательные отзывы из датасета. Этот способ объединяет в себе различные техники и приемы.

В датасете на основе оценок было сделано разделение на 0 и 1 [3]. Единица стояла там, где оценка была выше двойки и нуль во всех остальных случаях. Среди алгоритмов машинного обучения лучше всех результат показал подход логистической регрессии. На тренировочной выборке модель показала 90% точности, а на тестовой выборке 89% (рис. 5).

Based on product reviews., -For B888BPG1ZC average rating is 4.8 The first similar product is B81FX6DRWM average rating is 4.8 The second similar product is B88698G1LQ average rating is 5.8

Based on product reviews, -For 6382484383 average rating is 5.8 The first similar product is 6382447712 average rating is 5.8 The second similar product is 9798732181 average rating is 5.8

Based on product reviews, for 8798733226 average rating is 3.8 The first similar product is 8767824571 average rating is 5.8 The second similar product is 6381777387 average rating is 5.8

Based on product reviews, for B8882STR1I average rating is 5.8 The first similar product is B88178CS4K average rating is 4.8 The second similar product is B81E5UKNXG average rating is 5.8

Based on product reviews, for 8784811378 average rating is 5.8 The first similar product is B8886HXE1E average rating is 5.8 The second similar product is 6382538334 average rating is 5.8

Рисунок 4 - Результат Content-based на основе категорий и описаний

3. Collaborative filtering

Следующий метод Collaborative filtering — это техника рекомендательных систем, которая использует информацию о предпочтениях (оценках, покупках, просмотрах) пользователей для рекомендации товаров или услуг [10]. Она основывается на идее, что пользователи, которые схожи в своих предпочтениях, склонны оценивать или выбирать схожие товары. В данном алгоритме была взята информация как об оценках, так и об тексте отзыва. Делалась рекомендательная система исходя из total_score [10]. Такая оценка рассчитывалась из двух составляющих: оценки sentiment_value и оценки overall. Первая оценка была составлена благодаря

5293 651

1X04 8950

predicted label

Рисунок 5 - Результат логистической регрессии

Модель обучена на достаточно большом наборе данных и ошибается не так часто. Ошибается в 1700 случаях примерно из более 15 тысяч, что является хорошим показателем.

Также был протестирован алгоритм Random Forest. Но из-за большого количества деревьев этот алгоритм переобучился и показал на обучающей выборке 98%, а на тестовой 84%. Из библиотеки scikit-learn применен метод GridSearchCV для подбора гиперпараметров. В результате получилось добиться 88% для метрики достоверности (Accuracy). Далее мы исследовали алгоритм ExtraTreesClassifier. Метрика достоверности (Accuracy) для данного алгоритм уступает сильно предыдущим и равна на тренировочной выборке - 80%, а на тестовой выборке - 79%.

Далее были протестированы алгоритмы XGBOOST Classifier и LGBM Classifier. XGBoost работает на основе деревьев решений и градиентного бустинга. Данный алгоритм имеет следующие преимущества: быстрая скорость обучения и более эффективное использование памяти. LGBM (Light Gradient Boosting Machine) Classifier — это алгоритм машинного обучения, основанный на градиентном бустинге, который используется для классификации. Метрики достоверности

X X

о

го А

с.

X

го m

о

ю

2 О M

со

(Accuracy) для первой модель - 83% на тестовых выборке, и 80% для второй модели на тестовой выборке (рис. 6).

Logreg Decision Tree Extra-Tree Random Forest XGBM LGBM

Рисунок 6 - Результаты на тест выборках

Кроме обычных алгоритмов машинного обучения также были использованы и алгоритмы глубокого обучения и проверены результаты. Были написаны несколько вариантов и применены некоторые готовые архитектуры. Собственная нейронная сеть с применение сверточного слоя обучалась на 20 эпохах и результаты представлены на рисунке 7.

precision recall fl-score support

negative 3.74 0.82 0.78 11815

positive 0.88 0.81 0.84 18547

После оценки отзывов, переходить к построению рекомендаций, воспользовавшийся коллаборативной фильтрацией на основе похожести между пользователями. Матричная факторизация может использоваться для рекомендаций. Классический подход к рекомендательным системам на основе матричной факторизации заключается в том, чтобы разложить матрицу оценок пользователей и элементов на две более низкоранговые матрицы: матрицу пользователей и матрицу элементов (рис. 9).

recommender(rA16CZRQL23NOIW',pred_df,data_recommendation,df_meta)

asin recStrengrth title

0 0792158202 2.986515e-15 Indiana Jones: Raiders of the Lost Ark VHS

1 630179849X 2.985316e-15 Rio Lobo VHS

2 6301008944 2.982939e-15 Adventures in Babysitting VHS

3 0790743213 2.981233e-15 North by Northwest VHS

4 0792151712 2.981169e-15 Titanic VHS

5 0800141709 2.980997e-15 Dr. Strangelove: Or, How I Learned to Stop Wor...

6 0790729628 2.979989e-15 Blade Runner

7 0792102320 2.979647e-15 In Harm's Way VHS

a 0767015523 2.979610e-15 The Avengers

9 0767802799 2.979610e-15 Age of Innocence VHS

10 076780192X 2.979610e-15 Close Encounters of the Third Kind VHS

Рисунок 9 - Рекомендации для пользователя

Матричная факторизация помогает улучшить рекомендации, позволяя рекомендательной системе предлагать товары, которые пользователям могут понравиться на основе их истории взаимодействия с системой.

асси racy macro avg weighted avg

0.81 0.82

0.82 0 .82

0.82 0.81 0.82

30362 30362 30362

Рисунок 7 - Результаты собственной нейронной сети

Свёрточная нейронная сеть (CNN) с 3 слоями на тестовой выборке показала 93% метрики достоверности (Accuracy), а модель с 2 слоями показала примерно 92% достоверности (Accuracy). Так же мы использовали рекуррентные нейронные сети. Архитектура LSTM показала 92,53% метрики достоверности (Accuracy). Архитектура GRU рекуррентные нейронные сети показало достоверности (Accuracy) равной 90,71 % и validation_loss 0.3738.

Для улучшения метрики достоверности (Accuracy) нами было принято решение использовать модель BERT. Эта готовая модель показала себя довольно хорошо и метрика достоверности (Accuracy) равна 95% и loss - 0.28.

Сравнительный результат метрики достоверности (Accuracy) в зависимости от моделей показан на рисунке 8.

Ш

CNN-3-Conv CNN-2-Conv RNN-2-GRU RPJN-2-LSTM

Model

Рисунок 8 - Значения метрики достоверности (Accuracy)

5. Рекомендации по ключевым словам

Следующий метод основан на ключевых словах. Тут играют роль слова пользователей, которые они написали в отзыве. В этом методе не учитывается фактор категории товара или его описания, а делается рекомендация исключительно на отзывах. Одним из главных преимуществ такого подхода является его простота и понятность. Ключевые слова могут быть выделены как автоматически (например, с помощью алгоритмов машинного обучения), так и вручную (специалистами по маркетингу или продажам). Такой подход имеет свои недостатки так как отзыв может не содержать в себе информацию о категории продукта и выдавать продукты, которые не относятся к данной тематике.

Но, с другой стороны, это может быть и плюсом, чтобы разнообразнее просмотреть каталог товаров на сайте. В данном методе используется косинусное расстояние. Косинусное расстояние вычисляет косинус угла между двумя векторами и используется для измерения сходства между ними. В данном случае каждый отзыв представляется вектором слов, а рекомендации товаров - векторами ключевых слов. Затем, можно использовать косинусное расстояние для нахождения наиболее близких к отзыву векторов ключевых слов и рекомендовать товары, соответствующие этим векторам. На рисунке 10 представлен результат работы этого метода.

reviewerlD

A30FJES10PZGEH

A2JW7VFF9H01V5

A36KRQ900IK36M

A31GGOIGRKLVTA

A3S7WU6DIH71CC

A3I2NQYN7R9Z8W

A27IURIXX9JW7C

AL32HGC4TBIIB

A3LC2I8120WCKB

A14U40MX3CP08Q

asin word_without_stop score

0792151712 movie romance leo kate adventure titanic sinki... 0.B68153

0792151712 love movie skn finally something titanic deser... 0.552345

0792151712 used school lesson titanic 0.500000

0792151712 titanic one greatest movies 0.500000

0792151712 cant get enough whole titanic thing 4 dvds soo... 0.470592

156501345X back mid 1990s documentary came box set vhs for... 0.467888

0792151712 yes recivce titanic last week 0.447214

0792151712 wonderful watching titanic 3dif havent seen ti... 0.436436

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0792151712 although doomed rms titanic sunk compelling ro... 0.419591

0792151712 parts film may little overdramatic titanic emo... 0.393919

Рисунок 10 - Рекомендация по ключевым словам

Полученные результаты

Результаты получились самые разнообразные. Не все методы получилось связать с фильмами. Например, в методе с content-based с оценками эта связь прослеживается так как учитываются только оценки и не важна категория и сам товар. Здесь была посчитана метрика RMSE, которая дала различные результаты и лучшим оказалось значение в 0.95. RMSE — это метрика, которая измеряет среднеквадратическое отклонение (стандартное отклонение) между прогнозируемыми и фактическими значениями. Эта метрика часто используется для оценки качества моделей машинного обучения, которые должны прогнозировать числовые значения. На рисунке 11 представлен результат этой метрики для разных параметров.

Для остальных моделей была посчитана достоверность (Accuracy). Content-based на основе категорий и описаний показал точность в 70%. Что является неплохим результатом и скорее всего это связано, потому что тут учитывается текст не только по категориям и описаниям товаров, но и сам отзыв по каждому товару, что может немного путать. Этот метод не выявил связь с фильмами и выводит только товары опираясь на категории и описание, поэтому тут нет взаимосвязи между товарами и фильмами, которые можно предложить.

Рисунок 11 - Метрика RMSE для Content-based

В collaborative-filtering результат удивил и показал хорошие 85%. И довольно хорошие они потому как учитывается несколько оценок: оценка отзывов (sentiment) и оценка за товар (overall). Благодаря этому выводятся довольно хорошие результаты и их можно вывести до 25 штук за один товар. Данный метод учитывает связь между товарами и фильмами и связывает их между собой. То есть если человек купил товар и посмотрел какой-то товар, и другой человек посмотрел этот же фильм то ему предложат этот же товар.

В методе с анализом настроений была сделана матричная факторизация после учета всех отрицательных отзывов. Все строки содержавшие отрицательные отзывы были отброшены и оставлены только положительные, на которых была сделана матричная факторизация. Такой способ учитывал только хорошие предпочтения и выдал точность модели около 85%. Точность была получена путем сравнения результата модели с результатом реальных просмотров покупателей в колонке also_view. Эта колонка показывала на что еще эти пользователи обращали свое внимание и что им рекомендовалось. В данном способе фильмы хорошо можно пристроить к нашим данным и рекомендовать их благодаря матричной факторизации, которая ищет взаимосвязь между похожими людьми. То есть этот метод расширяет прошлый метод и продвигает только товары и фильмы с положительными отзывами, людям с похожими предпочтениями.

В рекомендациях по ключевым словам результат был получен из оценки score, которая вычислялась из косинусного сходства между введенным словом и тем, что выдал алгоритм. В дальнейшем score был изменен немного и показывал значение учитывая хорошие оценки и их количество. Все это было

сделано для улучшения оценки и вывода достоверных результатов исследования. В данном методе можно регулировать любые рекомендации в зависимости от запросов пользователя и выводить вместе товарами и фильмы. Примером может служить запрос товара для дома и покупки какого-то фильма и предложение еще таких же рекомендации с похожим товаром или фильмом учитывая второй продукт из поискового запроса.

Выводы

Проанализировав 5 представленных выше способов построения рекомендательных систем, можно сделать соответствующие выводы о том какие методы и когда имеет смысл применять.

Content-based filtering (1 и 2) подходит, когда есть явные характеристики элементов: категории, описания или оценки. Если есть явные предпочтения пользователя и нужно предложить похожий товар, то стоит применять эти два первых метода.

Collaborative-filtering (3) эффективен, когда у нас есть много данных об оценках или поведении пользователей, и мы хотим рекомендовать элементы, которые подобны предпочтениям других пользователей с похожими вкусами. Последний метод можно применить если нужна рекомендация по словам, которые пользователь уже ввел. Например, в контексте нового пользователя, у которого еще нет истории взаимодействия с системой, можно использовать ключевые слова, связанные с его интересами или предпочтениями, чтобы предложить соответствующие элементы.

А вот способ матричной факторизации (4) являет собой очень специфичный подход и содержит много тонкостей. Этот способ больше экспериментальный и стоит использовать его в последнюю очередь, зная отзывы предлагать человеку необходимый товар используя анализ настроений. Это больше гибридный подход, поэтому тут надо быть аккуратным и внедрять его после хорошо настроенной системы рекомендации.

То же можно сказать об анализе по ключевым словам (5) -как способе локального, ограниченного применения.

В целом, необходимо отметить, что способы построения рекомендательных систем онлайн-маркетинга - это обширный простор для применения методов машинного обучения. Наше исследование показало хорошую универсальность таких алгоритмов, как фильтрация на основе содержимого (content-based filtering) и коллаборативной фильтрации (collaborative-filtering). Иные же алгоритмы машинного обучения, по нашим наблюдениям, имеют скорее локальное, ограниченное применение при построении рекомендательных систем онлайн-маркетинга.

Литература

1. Pang, В., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and trends® in information retrieval, 2(1-2), 1-135. (дата обращения 17.05.2023) — Текст: электронный.

2. Alpaydin, E. (2010). Introduction to machine learning (2nd ed.). Cambridge, MA: MIT Press. (дата обращения 17.05.2023) — Текст: электронный.

3. Альпайдин, Э. (2010). Введение в машинное обучение (2-е изд.). Кембридж, МА: Издательство Массачусетского технологического института. (дата обращения 17.05.2023) — Текст: электронный.

4. Мерфи, К. П. (2012). Машинное обучение: вероятностная перспектива. Издательство Массачусетского технологического института. (дата обращения 17.05.2023) — Текст: электронный.

5. Хасти, Т., Тибшерани, Р., и Фридман, Дж. (2009). Элементы статистического обучения: добыча данных, выводы и прогнозирование. Издательство Springer Science & Business Media. (дата обращения 17.05.2023) — Текст: электронный.

X X

о

го А с.

X

го m

о

ю О

м со

fO CS

о

CS

to

6. Сергеев Н. Е. Системы искусственного интеллекта. Часть 1: учебное пособие / Сергеев Н. Е.; Южный федеральный университет. — Таганрог: Издательство Южного федерального университета, 2016. — 118с. — ЭБС Znanium.com — URL: https://znanium.com/catalog/document?id=327726 (дата обращения 17.05.2023) — Текст: электронный.

7. Групп, П. Рекомендательные системы. - СПб.: БХВ-Пе-тербург, 2015. - 336 с. (дата обращения 17.05.2023) — Текст: электронный.

8. Sarwar, B., Karypis, G., Konstan, J., Riedl, J. Item-based collaborative filtering recommendation algorithms. // Proceedings of the 10th International Conference on World Wide Web. - 2001. - С. 285-295. (дата обращения 17.05.2023) — Текст: электронный.

9. Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. Item-based collaborative filtering recommendation algorithms // Proceedings of the 10th International Conference on World Wide Web. - ACM, 2001. - С. 285-295. (дата обращения 17.05.2023) — Текст: электронный.

10. Методы коллаборативной фильтрации в системах рекомендаций / С.С. Кривенко, Е.С. Лисицина // Информационные технологии и вычислительные системы. - 2015. - № 2. - С. 88-94. (дата обращения 17.05.2023) — Текст: электронный.

11. Гребеньщикова Т.В. Методы контентной фильтрации в информационных системах // Материалы X научно-технической конференции студентов и аспирантов ЮФУ. - 2017. - С. 155-158. (дата обращения 17.05.2023) — Текст: электронный.

12. Кузнецова И.А., Радул О.А. Основы контентной фильтрации в системах рекомендаций // Вестник компьютерных и информационных технологий. - 2018. - Т. 10. - №. 4. - С. 4550. (дата обращения 17.05.2023) — Текст: электронный.

13. Алгоритмы коллаборативной фильтрации в системах рекомендаций / М.В. Петров, А.Ю. Наумов, М.В. Цветков // Информационные технологии. - 2019. - Т. 25, № 1. - С. 30-35. (дата обращения 17.05.2023) — Текст: электронный.

14. Смирнов И.Ю., Серебренников Д.В. Методы контент-ной фильтрации для построения персонализированных рекомендательных систем // Информационные технологии и системы. - 2017. - №4. (дата обращения 17.05.2023) — Текст: электронный.

15. Черняков, А. Н. Обзор информационных платформ -источников наборов данных для построения моделей машинного обучения в ритейле / А. Н. Черняков // Инновации и инвестиции. - 2023. - № 3. - С. 218-223.

About some methods of constructing online marketing recommendation systems based on machine learning algorithms

Chernyakov A.N., Dibirov M.S.

Financial University under the Government of the Russian Federation

JEL classification: C01, C02, C1, C4, C5, C6, C8_

This article discusses the main methods of machine learning for building recommender systems. Recommendation systems for online marketing are one of the keys to a successful e-commerce business today. The largest companies, organizers of e-commerce all over the world give exceptional importance to both artificial intelligence methods in general and machine learning in particular. The use of methods for building recommender systems is an applied mathematical problem. The selection and analysis of data sets (DataSet) for the named tasks of machine learning is given. The authors formulated and tested 5 ways to build recommender systems based on machine learning algorithms. At the same time, both well-known methods (Content-based filtering, Collaborative-filtering) and new ones (Sentiment analysis and matrix factorization, Keyword recommendations) are presented with a logical approach and remarkable results. An analysis of the studied methods and a conclusion about their applicability is made.

Keywords: recommender systems, online marketing, machine learning, artificial intelligence, collaborative filtering, content-based filtering

References

1. Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and trends® in information retrieval, 2(1-2), 1-135. (date of access 17.05.2023)

— Text: electronic.

2. Alpaydin, E. (2010). Introduction to machine learning (2nd ed.). Cambridge, MA: MIT Press. (date of access 17.05.2023) — Text: electronic.

3. Alpaydin, E. (2010). An Introduction to Machine Learning (2nd ed.). Cambridge, MA: Massachusetts Institute of Technology Press. (date of access 17.05.2023)

— Text: electronic.

4. Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. Massachusetts Institute of Technology Press. (date of access 17.05.2023) — Text: electronic.

5. Hastie, T., Tibsherani, R., & Friedman, J. (2009). Elements of statistical learning: data mining, inference and prediction. Springer Science & Business Media Publishing. (date of access 17.05.2023) — Text: electronic.

6. Sergeev N. E. Systems of artificial intelligence. Part 1: study guide / Sergeev N. E.; South Federal University. - Taganrog: Publishing House of the Southern Federal University, 2016. - 118p. — EBS Znanium.com — URL:

7. https://znanium.com/catalog/document?id=327726 (accessed 05/17/2023) -Text: electronic.

8. Grupp, P. Recommender systems. - St. Petersburg: BHV-Petersburg, 2015. -336 p. (date of access 17.05.2023) — Text: electronic.

9. Sarwar, B., Karypis, G., Konstan, J., Riedl, J. Item-based collaborative filtering recommendation algorithms. // Proceedings of the 10th International Conference on the World Wide Web. - 2001. - S. 285-295. (date of access 17.05.2023) — Text: electronic.

10. Application of collaborative filtering in recommendation systems / D.V. Dyakonov // Information technologies and computing systems. - 2016. - No. 3. - S. 50-58. (date of access 17.05.2023) — Text: electronic.

11. Methods of collaborative filtering in recommendation systems / S.S. Krivenko, E.S. Lisitsina // Information technologies and computing systems. - 2015. - No. 2. - S. 88-94. (date of access 17.05.2023) — Text: electronic.

12. Grebenshchikova T.V. Methods of content filtering in information systems // Proceedings of the X Scientific and Technical Conference of Students and Postgraduates of SFU. - 2017. - S. 155-158. (date of access 17.05.2023) — Text: electronic.

13. Kuznetsova I.A., Radul O.A. Fundamentals of content filtering in recommendation systems // Bulletin of computer and information technologies. -2018. - T. 10. - No. 4. - S. 45-50. (date of access 17.05.2023) — Text: electronic.

14. Collaborative filtering algorithms in recommendation systems / M.V. Petrov, A.Yu. Naumov, M.V. Tsvetkov // Information technologies. - 2019. - V. 25, No. 1.

— S. 30-35. (date of access 17.05.2023) — Text: electronic.

15. Smirnov I.Yu., Serebrennikov D.V. Content filtering methods for building personalized recommender systems // Information technologies and systems. -2017. - No. 4. (date of access 17.05.2023) — Text: electronic.

16. Chernyakov, A. N. Review of information platforms - sources of data sets for building machine learning models in retail / A. N. Chernyakov // Innovations and investments. - 2023. - No. 3. - p. 218-223.

О Ш

m x

<

m о x

X

i Надоели баннеры? Вы всегда можете отключить рекламу.