Научная статья на тему 'Автоматизация выявления заказных отзывов на маркетплейсах при помощи экспертных признаков и реакций покупателей'

Автоматизация выявления заказных отзывов на маркетплейсах при помощи экспертных признаков и реакций покупателей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Заказной отзыв / маркетплейс / доверие потребителей / анализ данных / моделирование признаков / компьютерная лингвистика / машинное обучение / метод опорных векторов / бинарная классификация / Fake review / marketplace / consumer trust / data analysis / feature modelling / computational linguistics / machine learning / SVM / binary classification

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородулина Анастасия Николаевна, Михалькова Елена Владимировна

Авторы представляют практическое исследование особенностей заказных отзывов, которые упоминаются маркетологами и другими экспертами. Из-за обилия заказных отзывов на маркетплейсах доверие потребителей падает не просто к продавцу или площадке, но к самому жанру. В работе представлены результаты автоматической классификации отзывов с российских маркетплейсов на потенциально заказные и честные при помощи моделирования признаков, которые эксперты называют признаками заказного отзыва (наличие шаблонных слов, восклицательных знаков, эмодзи, положительная тональность), и алгоритмов машинного обучения. Для решения поставленной задачи был собран корпус с российских маркетплейсов Wildberries и «Мегамаркет » объемом 6 288 текстов. В качестве целевой переменной (предсказываемого класса) выступает соотношение лайков и дизлайков, поставленных отзыву другими покупателями. Лучший результат демонстрирует метод опорных векторов SVM (англ. support vector machine) в бинарной классификации на отзывы с низким и высоким рейтингом (без нейтральных). Модель классификации подтверждает, что формальные признаки, выделяемые экспертами как указывающие на заказные отзывы, действительно имеют предсказательный потенциал. Качество модели снижают дисбаланс в классах и недостаточное количество отзывов с реакциями покупателей в нашем корпусе, что оставляет задел для дальнейшей работы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic detection of fake reviews at marketplaces using expert-based features and consumers’ reactions

The article presents the results of a practical study of the features of fake reviews that are described by marketers and other experts. Due to the abundance of fake reviews on marketplaces, consumer trust falls not only in the seller or platform, but in the genre itself. The paper presents the results of automatic classification of reviews from Russian marketplaces into potentially fake and honest ones using modelling of features that experts call labels of a fake review (presence of template words, exclamation marks, emoji, positive sentiment), and machine learning algorithms. To solve the problem, a corpus of 6 288 texts from the Russian marketplaces Wildberries and Megamarket has been collected. The target variable (predicted class) is the ratio of likes and dislikes given to the review by other buyers. The best result is demonstrated by the support vector machine algorithm in binary classification into reviews with a low and high ratings (without neutral ones). The classification model confirms that the formal features identified by experts as indicating fake reviews indeed have predictive potential. The quality of the model is reduced by the imbalance in classes and insufficient number of reviews with buyer reactions in our corpus, which leaves room for further work.

Текст научной работы на тему «Автоматизация выявления заказных отзывов на маркетплейсах при помощи экспертных признаков и реакций покупателей»

ЦИФРОВАЯ СРЕДА

Автоматизация выявления заказных отзывов на маркетплейсах при помощи экспертных признаков и реакций покупателей

УДК 316.658 DOI 10.26425/2658-347X-2024-7-3-42-52

Получено 31.05.2024 Доработано после рецензирования 18.07.2024 Принято 25.07.2024

Бородулина Анастасия Николаевна1 Михалькова Елена Владимировна2

Магистр Доц. каф. информационных технологий в научной проектной

ORCID: 0009-0009-1336-1415 деятельн°сти

E-mail: borannik@mail.ru ORCID: 0000-0003-0781-8633

E-mail: e.mikhalkova@eu.spb.ru

'Тюменский государственный университет, г. Тюмень, Россия 2Европейский университет в Санкт-Петербурге, г. Санкт-Петербург, Россия

АННОТАЦИЯ

Авторы представляют практическое исследование особенностей заказных отзывов, которые упоминаются маркетологами и другими экспертами. Из-за обилия заказных отзывов на маркетплейсах доверие потребителей падает не просто к продавцу или площадке, но к самому жанру. В работе представлены результаты автоматической классификации отзывов с российских маркетплейсов на потенциально заказные и честные при помощи моделирования признаков, которые эксперты называют признаками заказного отзыва (наличие шаблонных слов, восклицательных знаков, эмодзи, положительная тональность), и алгоритмов машинного обучения. Для решения поставленной задачи был собран корпус с российских маркетплейсов Wildberries и «Мегамаркет»

Ключевые слова

объемом 6 288 текстов. В качестве целевой переменной (предсказываемого класса) выступает соотношение лай-ков и дизлайков, поставленных отзыву другими покупателями. Лучший результат демонстрирует метод опорных векторов SVM (англ. support vector machine) в бинарной классификации на отзывы с низким и высоким рейтингом (без нейтральных). Модель классификации подтверждает, что формальные признаки, выделяемые экспертами как указывающие на заказные отзывы, действительно имеют предсказательный потенциал. Качество модели снижают дисбаланс в классах и недостаточное количество отзывов с реакциями покупателей в нашем корпусе, что оставляет задел для дальнейшей работы.

Заказной отзыв, маркетплейс, доверие потребителей, анализ данных, моделирование признаков, компьютерная лингвистика, машинное обучение, метод опорных векторов, бинарная классификация

Для цитирования

Бородулина А.Н., Михалькова Е.В. Автоматизация выявления заказных отзывов на маркетплейсах при помощи экспертных признаков и реакций покупателей//Цифровая социология. 2024. Т. 7. № 3. С. 42-52.

© Бородулина А.Н., Михалькова Е.В., 2024.

Статья доступна по лицензии Creative Commons «Attribution» («Атрибуция») 4.0. всемирная (http://creativecommons.Org/licenses/by/4.0/).

DIGITAL ENVIRONMENT

Automatic detection of fake reviews at marketplaces using expert-based features and consumers' reactions

Received 31.05.2024 Revised 18.07.2024 Accepted 25.07.2024

Anastasiya N. Borodulina1

Postgraduate Student ORCID: 0009-0009-1336-1415 E-mail: borannik@mail.ru

'Tyumen State University, Tyumen, Russia

2European University at St. Petersburg, St. Petersburg, Russia

Elena V. Mikhalkova2

Associate Professor at the Information Technology in Scientific Project Activities Department

ORCID: 0000-0003-0781-8633

E-mail: e.mikhalkova@eu.spb.ru

ABSTRACT

The article presents the results of a practical study of the features of fake reviews that are described by marketers and other experts. Due to the abundance of fake reviews on marketplaces, consumer trust falls not only in the seller or platform, but in the genre itself. The paper presents the results of automatic classification of reviews from Russian marketplaces into potentially fake and honest ones using modelling of features that experts call labels of a fake review (presence of template words, exclamation marks, emoji, positive sentiment), and machine learning algorithms. To solve the problem, a corpus of 6 288 texts from the Russian marketplaces Wildberries and Megamarket has

Keywords

been collected. The target variable (predicted class) is the ratio of likes and dislikes given to the review by other buyers. The best result is demonstrated by the support vector machine algorithm in binary classification into reviews with a low and high ratings (without neutral ones). The classification model confirms that the formal features identified by experts as indicating fake reviews indeed have predictive potential. The quality of the model is reduced by the imbalance in classes and insufficient number of reviews with buyer reactions in our corpus, which leaves room for further work.

Fake review, marketplace, consumer trust, data analysis, feature modelling, computational linguistics, machine learning, SVM, binary classification

For citation

Borodulina A.N., Mikhalkova E.V. (2024) Automatic detection of fake reviews at marketplaces using expert-based features and consumers' reactions. Digital sociology. Vol. 7, no 3, pp. 42-52. DOI: 10.26425/2658-347X-2024-7-3-42-52

© Borodulina A.N., Mikhalkova E.V., 2024.

This is an open access article under the CC BY 4.0 license (http://creativecommons.org/licenses/by/4.0/).

ВВЕДЕНИЕ / INTRODUCTION

Рынок онлайн-торговли, резко возросший в период пандемии 2020-х гг., продолжает бурно развиваться. Не стала исключением и Россия: по данным аналитической компании Datalnsight1, за 2023 г. объем рынка Интернет-торговли, так называемый b2c (англ. business-to-consumer) -бизнес - клиенту), вырос на 48 % и составил 7,9 трлн руб., или 4,6 % валового внутреннего продукта (далее - ВВП), по оценке ВвП, данной Федеральной службой государственной статистики2. При этом 78 % заказов, или 4,4 трлн руб., пришлось на крупные универсальные мар-кетплейсы: Wildberries, Ozon, «Яндекс Маркет» и «Мегамаркет».

Одним из преимуществ приобретения товаров на маркетплейсах является возможность изучения опыта других покупателей. Как следствие, критическая важность публичной обратной связи для конкурентоспособности компаний приводит к широкому распространению заказных (фальшивых, фейковых, поддельных, накрученных) отзывов, которые ориентированы на манипуляцию мнением потенциального потребителя по поводу товара, а не на описание реального опыта его применения. Популярность накрутки отзывов среди продавцов обусловлена широко распространенным мнением, что она является непременным условием для выживания на маркетплейсах на старте. От этой ситуации страдают все участники рынка: вводимые в заблуждение покупатели, не имеющие возможности честно конкурировать продавцы и несущие репутационные издержки торговые площадки.

Цель нашей работы - смоделировать экспертные признаки заказного отзыва и протестировать алгоритмы машинного обучения в классификации отзывов на те, которые другие покупатели оценили высоко (поставили им лайки), и те, у которых много дизлайков. Мы предполагаем, что покупатели, ставя отзыву реакцию, выражают свое мнение, в том числе и о том, является ли он заказным. Далее мы рассмотрим теоретические и практические подходы к выявлению заказных отзывов, опишем популярные экспертные рекомендации и трансформируем их в признаки, пригодные для систем машинного обучения. Далее мы протестируем методы машинного

1 Datalnsight. Интернет-торговля в России 2024. Режим доступа: https://datainsight.ru/ ecommerce_2023 (дата обращения: 27.05.2024).

2 Федеральная служба государственной статистики. О производстве и использовании валового внутреннего продукта в 2023 году. Режим доступа: https://rosstat.gov.ru/storage/mediabank/18_07-02-2024. html (дата обращения: 27.05.2024).

обучения в выявлении заказных отзывов на основании этих признаков и сделаем заключение об эффективности данных методов.

ОБЗОР ЛИТЕРАТУРЫ / LITERATURE REVIEW

Важность отзывов на маркетплейсах, безусловно, высока: «они помогают оценить качество продукта ... получить информацию о качестве обслуживания и доставки ... сформировать свое мнение о товаре на основе опыта ... улучшить качество своих товаров и услуг, а также повысить уровень доверия покупателей» [Юдалевич, 2023, с. 67]. Через отзывы реализует себя горизонтальная форма доверия: «доверие потребителей больше не строится вертикально по схеме бренд - потребитель, когда маркетинговые кампании могут легко повлиять на потребителя. Доверие потребителей приняло горизонтальную форму: большинство ориентируется на фактор близости (родственники, друзья, знакомые)» [Ахмаева, 2020, с. 26]. В случае маркетплейсов доверие основано на предположении, что автор отзыва купил товар и успел воспользоваться им, а также лично не заинтересован в продвижении этого товара.

И.Ф. Величко и Л.И. Леонова описывают отзыв как отдельный тип текста с учетом 6 прагматических аспектов, влияющих на его содержание: определение цели и целевой аудитории, трансляция эмоций, приведение фактов, естественность в подаче материала и правдивость в оценке качеств товара [Величко, Леонова, 2022]. Честный отзыв будет отличать проявленность данных аспектов в тексте, включая правдивость. Заказной отзыв нельзя считать правдивым в оценке качества товара, а его цель отличается от цели честного отзыва и направлена на манипуляцию мнением покупателей. Однако на практике эту разницу трудно описать универсальным набором признаков.

Многие экспертные рекомендации посвящены отличиям настоящих отзывов от фальшивых3,4,5,6. Рекомендации пересекаются лишь частично

3 Баранова В. Похвали себя сам: как распознать фальшивые отзывы. Режим доступа: https://1ps.ru/blog/serm/2020/falshivyie-otzyivyi-na-sajte-kak-razoblachit-kompanii-kotoryie-naxvalivayut-sami-sebya/ (дата обращения: 27.05.2024).

4 Skillbox Media. Как отличить заказной фейковый отзыв от настоящего: 10 признаков. Режим доступа: https://skillbox.ru/media/ marketing/kak_otlichit_zakaznoy_feykovyy_otzyv/ (дата обращения: 27.05.2024).

5 Лиханова Е. 8 признаков поддельного или бесполезного он-лайн-отзыва. Режим доступа: https://rb.ru/story/fake-reviews/ (дата обращения: 27.05.2024).

6 Цымбалюк А. Как отличить реальные отзывы от фейковых в Интернете [Инструкция от маркетолога]. Режим доступа: https://habr.com/ ru/ articles/770876/ (дата обращения: 28.05.2024).

и могут противоречить друг другу. Например, эксперты по-разному относятся к такой подробности, как наличие имен собственных в отзыве. Однако это можно объяснить различной спецификой объекта отзыва. Если приобретается неотделимая от исполнителя услуга, как непосредственно, так и сопутствующая товару, наличие имен исполнителей скорее будет расцениваться как черта правдивого отзыва. С другой стороны, если потребность в услугах со стороны продавца отсутствует, люди вряд ли запомнят имя исполнителя и тем более не укажут его в отзыве. Дж.М. Ким, К.К. Парк, M. Мариани и С.Ф. Вам-ба нашли в заказных отзывах в среднем большее количество деталей и более позитивные эмоции [Kim, Park, Mariani, Wamba, 2024]. Это сближает задачу выявления заказного отзыва с определением лжи - областью, в которой прославился психолог П. Экман. Для решения данной задачи многие упоминаемые экспертами признаки формализуются плохо.

Задача автоматического выявления заказных отзывов также похожа на выявление спама. В обоих случаях у нежелательных текстов есть типичные черты, которые можно описать как формальные признаки, и при этом используется алгоритм машинного обучения, чтобы извлекать такие тексты. А. Фиаллос и Э. Антон исследуют статистическое распределение формальных признаков заказных отзывов из англоязычных мобильных приложений [Fiallos, Anton, 2024]. К.Р. Кришнайя тестирует алгоритмы кластеризации и классификации заказных отзывов, используя известный опыт автоматического выявления спама [Krishnaiah, 2023]. Л.К. Тао, Д.Т. Кин, Д.Т.Т. Туи, Л.Т.М. Туи, Н.Ч. Бах, Т.Т. Дук и др. тестируют большую языковую модель DenyBERT для классификации заказных отзывов; модель демонстрирует очень высокий результат (F1-score = 0,96) [Thao, Kien, Thuy, Thuy, Bach, Duc et al., 2024]. Однако в реальности маркетплейсы, которые, безусловно, располагают техническими возможностями для создания таких алгоритмов, из-за размытости поставленной задачи и отсутствия универсальных признаков, упомянутых выше, вероятно, не решаются слишком резко отсекать отзывы, кажущиеся заказными.

В фазе борьбы с заказными отзывами конкуренция возникает уже между маркетплейсом и нечестным продавцом, поэтому в научной литературе описано много инструментов, которые используют обе стороны. Помимо описанных выше методов машинного обучения для классификации отзывов на заказные и честные, существуют и другие методы. А.Д. Шукла и Дж.М. Гох изучают способы

цифровой верификации пользователя, оставляющего отзыв [Shukla, Goh, 2024]. Ж. Бульчанд-Ги-думаль, С. Мелиан-Гонсалес описывают алгоритм блокчейна, который гарантирует, что отзыв создан реальным недавним приобретателем товара или услуги [Bulchand-Gidumal, Melian-Gonzalez, 2024]. А.З. Малик, К.Р. Садеги, А. Пасван, Ф. Канвал отмечают, что можно также воздействовать на людей, которые соглашаются писать заказные отзывы, разъясняя им последствия их действий [Malik, Sadeghi, Paswan, Kanwal, 2024]. Мы бы хотели добавить к последнему исследованию, что можно воздействовать и на продавцов, объясняя им негативные эффекты накрутки.

КРИТЕРИИ ЗАКАЗНОГО ОТЗЫВА / CRITERIA OF A FAKE REVIEW

Далее мы рассмотрим формальные признаки, на основе которых строим свой метод выявления заказного отзыва. Обзор литературы позволяет выделить множество таких признаков. Мы условно разделили их на три группы:

1) признаки, связанные с профилем автора (история покупок, персональные данные, количество отзывов, круг оцененных товаров);

2) мета-признаки отзыва, базирующиеся на его атрибутах (копирайтинг, фото, дата и время написания, оценка);

3) текстовые признаки, связанные непосредственно с отзывом (шаблонность, стиль и тональность, содержание).

К первой группе мы относим следующие признаки.

1. Отсутствие подтверждения, что автор отзыва покупал продукт. На некоторых Интернет-ресурсах приобретение товара не является непременным условием для возможности дать публичную обратную связь. При этом факт покупки фиксируется специальной меткой отзыва (например, пометкой «реальный покупатель»). Однако на маркетплей-сах (в частности, на Ozon, Wildberries и «Мегамар-кете») можно делиться мнением только о купленных товарах. Данная мера делает вышеуказанный признак неактуальным для нашего исследования и от накруток защищает слабо в силу широкого распространения противоправной практики так называемых самовыкупов, заключающейся в заказе продавцами собственного товара через площадку.

2. Совпадение персональных данных. К оплошностям авторов заказных отзывов можно отнести упоминаемую экспертами возможность идентификации автора с продавцом (например, совпадение их фамилий). Однако это встречается крайне редко.

3. Количество отзывов у одного автора. Слишком маленькое количество записей может свидетельствовать об аккаунте-однодневке для продвижения конкретного товара. Вместе с тем другая крайность, заключающаяся в том, что один человек является автором множества отзывов, -это признак профессионального копирайтера.

4. Круг оцененных товаров. Наличие обратной связи с высокими оценками и лестными отзывами по разноплановым товарам, например запасным частям для автомобилей и аксессуарам для маникюра, выглядит неправдоподобно. Однако не менее подозрительным является многократное приобретение аналогичных товаров длительного пользования (например, автомобильных шин) либо товаров, принадлежащих к одному бренду или фирме.

Информация о пользователе не всегда доступна в силу ограничений, применяемых как площадкой, так и самими пользователями. Поэтому эти признаки, скорее, могут быть использованы маркетплейсом в собственной системе модера-ции, чем сторонним оценщиком.

Мета-признаки - это ряд атрибутов, окружающих текст. К ним мы относим следующие.

1. Копирайтинг. Похожесть отзывов друг на друга или на описание с карточки товара с большой долей вероятности свидетельствует о том, что существует техническое задание копирайтеру, на основании которого написан отзыв.

2. Чужие фото, прикрепленные к отзыву, которые можно найти в Интернете, являются безусловным признаком подделки. Маркетплей-сы успешно справляются с задачей по их отсеиванию. Вместе с тем сделанные пользователями фотографии повышают вероятность восприятия отзыва как подлинного7.

3. По дате и времени написания можно установить, имели ли место всплески активности, характерные для заказа. Вряд ли большое число обычных покупателей напишет свои отзывы в ограниченный временной промежуток.

4. Оценка отзыва другими пользователями (это может быть лайк или ответ на вопрос, полезен ли отзыв). В этом случае маркетплейс опирается не на собственное представление о заказном отзыве, а на представление других покупателей. Преимуществом данного подхода является то, что покупатели быстрее реагируют на новые схемы накрутки отзывов и могут сравнить впечатление от товара из отзыва с собственным впечатлением. Однако такая оценка будет работать,

7 Анкетолог. 87 % потребителей читают более пяти отзывов перед покупкой товара. Режим доступа: https://iom.anketolog. ru/2023/12/29/ctatistika-otzyvov (дата обращения: 28.05.2024).

если оценок, данных отзыву другими покупателями, достаточно много.

Что касается текста отзыва, то признаки заказного отзыва можно разделить еще на три группы.

1. Определенные слова либо конструкции, характерные для шаблонов. В частности, к ним относятся ссылки, ключевые слова для SEO-за-просов (англ. search engine optimisation - поисковая оптимизация), а также собственные имена сотрудников или компаний, в том числе и конкурентов (с оговоренными выше уточнениями). Кроме того, в данную группу можно отнести всевозможные клише и чрезмерную точность, формализованную в числах. Еще один признак: ка-вычки-«елочки», которые появляются при копировании отзыва из Microsoft Word.

2. Стиль написания и тональность. Согласно рекомендациям, подозрительными являются как идеальные с точки зрения грамотности отзывы, так и те, в которых допущено слишком много ошибок. Также не вызывают доверия отзывы с крайними оценками, где используются слова в превосходной степени, или те, где встречаются сложные речевые конструкции либо формальная структура. Тональность высказывания является очень важным фактором. Д.М. Назаров отмечает, что «валентность (положительная или отрицательная) онлайн-отзывов потребителей оказывает существенное влияние на решения потребителей о покупке» [Назаров, 2022, с. 3733]. Однако не совсем ясно, как именно тональность влияет на это решение.

3. Содержание отзыва. Процесс накрутки не подразумевает реального знакомства с товаром, что находит выражение в отсутствии конкретики, общих формулировках, фактологических ошибках. Кроме того, здесь могут встречаться попытки мягко уравновесить обилие достоинств. Например, упоминаются бонусы за отзыв, оправдание какого-либо недостатка товара, апелляция к целевой аудитории, не слишком уместный юмор или подробности об авторе.

Рассмотрим несколько формулировок и попробуем определить, характерны ли они для заказного отзыва. В отзыве на iPhone автор пишет (везде в отзывах сохранены авторские орфография и пунктуация): «Высокая цена - устройство относится к премиум-классу, что делает его недоступным для некоторых потребителей»8. Здесь прослеживается попытка уравновесить достоинства «мягкими» недостатками. В другом отзыве

8 Мегамаркет. Отзыв на смартфон Apple iPhone 15 Pro Max 256Gb Natural Titanium. Режим доступа: https://megamarket.ru/ catalog/ details / smartfon-apple-iphone-15-pro-max-256gb-natural-titanium-100060024518_3027/#?related_search=iphone%2015%20pro%20 max&details_block=reviews (дата обращения: 28.05.2024).

покупатель пишет, что приобрел товар два года назад: «Прекрасная елка. Уже два новых года встречаю с ней»9. Это пример неправдоподобной ситуации, когда покупатель ждал два года, чтобы оставить отзыв. Фраза из другого отзыва -«экран ноутбука имеет приятное качество изображения»10 - звучит шаблонно и похожа на цитату из рекламы. Однако будем честны: ни в одном из этих случаев мы не можем достоверно установить, был ли отзыв действительно заказным. Тем не менее, при помощи интуиции и лингвистического чутья мы, как и потенциальные потребители, можем понять, стоит ли доверять написанному. Маркером этой оценки допустимо назвать реализованную на «Мегамаркете» функцию рейтингования отзывов пользователями в форме реакции «лайк/ дизлайк».

Небольшое количество реакций по сравнению с числом отзывов позволяет предположить, что данная опция пока не подвергается накруткам и отражает истинное отношение людей к написанным отзывам. Также за данность можно принять, что отзывы не нравятся пользователям, если они заказные либо если они выбиваются из общего ряда и не выполняют свои прагматические функции. Наша гипотеза заключается в том, что признаки, упоминаемые экспертами как те, которые помогают отличить заказной отзыв от честного, можно использовать для определения реакции пользователей на отзыв.

МОДЕЛИРОВАНИЕ ПРИЗНАКОВ И АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ОТЗЫВОВ С «МЕГАМАРКЕТА» / FEATURE MODELLING AND AUTOMATIC CLASSIFICATION OF REVIEWS FROM MEGAMARKET Для алгоритма машинного обучения, выявляющего некий класс объектов, требуются корпус текстов с обнаруженными признаками и оценка принадлежности каждого текста к определенному классу. Для проверки нашей гипотезы мы возьмем некоторые формальные признаки заказного отзыва, которые рассматривали в предыдущем параграфе. В качестве маркеров принадлежности к классу используем реакцию пользователей на отзыв.

В данной статье мы будем опираться на корпус отзывов, который собрали на Wildberries

9 Отзыв на елку искусственную новогоднюю литую «ASSEL» 220 см. Режим доступа: https://www.wildberries.ru/ catalog/44518122/fe edbacks?imtId=33129074&size=87917525 (дата обращения: 28.05.2024).

10 Отзыв на ноутбук Honor MagicBook X16, 16/i5/8Gb/512Gb/DOS

(5301AHHP). Режим доступа: https://megamarket.ru/ catalog/ details/

noutbuk-honor-magicbook-x-16-2024-dos-12th-8512-5301ahhp-600015382801/

otzyvy/ (дата обращения: 28.05.2024).

и «Мегамаркете». Они были скачаны и обработаны при помощи программных инструментов на языке программирования Python. Всего в корпусе 6 288 отзывов. Подкорпус Wildberries (2 567 отзывов) и подкорпус «Мегамаркет» (2 562) содержат отзывы на четыре вида товара: матрас, миксер, компьютер, видеорегистратор. Для каждого вида мы взяли по одному товару на каждом из двух маркетплейсов. Цена и марка отличаются. Товары подобраны так, чтобы отражать разные категории интересов, а также чтобы не быть товарами повседневного спроса. То есть мы рассчитываем, что в заказных отзывах в нашей выборке проявят себя признаки неправдоподобности, как в примере с новогодней елкой. В отзывах с Wildberries нет оценок «лайк/дизлайк», поэтому их мы используем для ручной оценки работы алгоритма. Третий подкорпус «Выборка отзывов с большим количеством реакций» (на диаграммах он обозначен как «Мегамаркет (Р)») содержит 1 159 отзывов с большим количеством пользовательских реакций на 58 товаров «Мега-маркета». Это подкорпус меньше двух других. Мы создали его, чтобы проверить, насколько сильно влияет на производительность алгоритма относительно большое количество реакций покупателей на отзыв.

Для нашего алгоритма мы выбрали следующие признаки, которые присутствуют в корпусе отзывов:

1) указание автора отзыва - бинарный признак (отзыв написан анонимно или нет);

2) оценка товара автором отзыва - целое число от 1 до 5;

3) количество фото - целое число от 1 до 5;

4) наличие эмодзи - бинарный признак (есть/ нет);

5) количество восклицательных знаков - категориальный признак, целое число от 0 до 3 и 4 и более;

6) час публикации - целое число от 0 до 24;

7) день публикации - целое число от 1 до 31;

8) год публикации - целое число от 2021 до 2024;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9) длина текста - целое число от 7 (самый короткий отзыв) до 2 966 (самый длинный отзыв);

10) тональность, согласно библиотеке Anie-more11, - 6 бинарных признаков, которые показывают, проявлена ли каждая из 7 эмоций (да/ нет). Библиотека Aniemore содержит дообучен-ные языковые модели ruBERT, которые определяют тональность текста как проявленность одной из 7 эмоций: гнев, энтузиазм, страх, грусть, радость, отвращение;

11 Lubenets I., Davidchuk N., Amentes A. Aniemore. Режим доступа: https://github.com/aniemore/aniemore (дата обращения: 28.05.2024).

11) тональность, согласно библиотеке Dostoev-sky, - четыре бинарных признака, которые показывают вероятность отнесения текста к одному из видов тональности12; вероятность представлена дробным числом от 0 до 1. Библиотека создана на основе корпуса русскоязычных текстов с тональностью, размеченной по шкале: негативная, нейтральная, позитивная [Rogers, Romanov, Rumshisky, Volkova, Gronas, Gribov, 2018]. Также определяется вероятность того, что текст не относится ни к одному из этих трех видов.

Признаки нормализуются при помощи метода StandardScaler13 библиотеки Scikit-learn [Pedregosa, Varoquaux, Gramfort, Michel, Thirion, Grisel et al., 2011].

Рассмотрим теперь, как распределены признаки в корпусе отзывов.

Рис. 1-5 демонстрируют следующие особенности. Для нашего корпуса характерно, что большинство отзывов оставлено неанонимными авторами. Помимо этого, покупатели не стремятся оставлять много фото, эмодзи и восклицательных знаков. Распределение по годам показывает, что для отзывов, где мы не отбирали число реакций, характерен рост, несмотря на то что 2024 г. еще не закончился. Диаграмма не фиксирует всплеск заказных отзывов в момент, когда товар только появился на мар-кетплейсе, так как для этого нужен более точный анализ данных во времени. Тем не менее, в нашем алгоритме мы используем как признак все указатели даты и времени публикации. Также отметим, что отзывы из подкорпу-са «Мегамаркет (Р)» показывают, что в 2024 г. их меньше, чем в 2023 г., но эта ситуация может измениться к концу года.

500-

0

Wildberries

«Мегамаркет»

«Мегамаркет (Р)»

Корпус отзывов ■ Неанонимный отзыв □ Анонимный отзыв

Источник1415 / Source'4-'5

Рис. 1. Распределение отзывов по статусу автора

Fig. '. Distribution of reviews by authors' status

1 2 3 4

Количество фото, шт.

I Wildberries D «Мегамаркет» D «Мегамаркет (Р)»

Источник1617 / Source'6-'7

Рис. 2. Распределение отзывов по количеству фото

Fig. 2. Distribution of reviews by number of photos

0

о

5

12 Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. Dostoevsky. Режим доступа: https://github.com/bureaucratic-labs/ dostoevsky (дата обращения: 28.05.2024).

13 Scikit-learn. StandardScaler. Режим доступа: https:/ / scikit-learn. org/stable/modules/generated/sklearn.preprocessing.StandardScaler. html (дата обращения: 29.05.2024).

14 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

15 Мегамаркет. Официальный сайт. Режим доступа: https:// megamarket.ru/ (дата обращения: 29.05.2024).

16 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

17 Мегамаркет. Официальный сайт. Режим доступа: https:// megamarket.ru/ (дата обращения: 29.05.2024).

2 500 -,

2 000'

1 000 -

500

Т-1

Wildberries «Мегамаркет» «Мегамаркет (Р)»

Корпус текста И Есть эмодзи □ Нет эмодзи

Источник1819 / Source1819 Рис. 3. Распределение отзывов по наличию эмодзи

Fig. 3. Distribution of reviews by the presence of emoji

2 000

-

Э

to

S 1 500

HÛ -

c с Ï

£ 1 000

Inn i i ■

4 и более

0 1 2 3

Количество восклицательных знаков, шт.

■ Wildberries □ «Мегамаркет» □ «Мегамаркет (Р)»

Источник20,21 / Source2021

Рис. 4. Распределение отзывов по количеству восклицательных знаков

Fig. 4. Distribution of reviews by number of exclamation marks

18 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

19 Мегамаркет. Официальный сайт. Режим доступа: https:// megamarket.ru/ (дата обращения: 29.05.2024).

20 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

21 Мегамаркет. Официальный сайт. Режим доступа: https://

megamarket.ru/ (дата обращения: 29.05.2024).

пП

т

2021

Год ] Мегамаркет

□ Мегамаркет (Р)

■ Wildberries

Источник2223 / Source22,23

Рис. 5. Распределение отзывов по годам

Fig. 5. Distribution of reviews by year

Рис. 6 показывает, что для маркетплейсов характерны короткие отзывы. Однако эта особенность пропадает в отзывах с большим числом реакций. Очевидно, чтобы оценить отзыв, покупателям нужны аргументы, которые они находят в тексте. Если судить по нашему подкорпусу, то большая часть таких отзывов имеет 300-400 символов. Для классификации мы удалили самые короткие (<10 символов) и самые длинные (>700 символов в «Мегамаркете» и Wildberries и >1 600 в «Мегамаркете (Р)») тексты, чтобы они не создавали шум при обучении.

.П. Л

_Q,_CL

Интервал длины отзывов, количество символов

H Корпус Wildberries ЦЦ Корпус «Мегамаркет»

Источник2425 / Source2425

G Корпус «Мегамаркет (Р)»

Рис. 6. Распределение отзывов в корпусах текста по длине

Fig. 6. Distribution of reviews in text corpora by length

22 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

23 Мегамаркет. Официальный сайт. Режим доступа: https:// megamarket.ru/ (дата обращения: 29.05.2024).

24 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

25 Мегамаркет. Официальный сайт. Режим доступа: https:// megamarket.ru/ (дата обращения: 29.05.2024).

2 000

1 500

1 000

1 500

500

0

2024

2023

2022

2020

2019

2018

2 500

500

0

0

Рассмотрим теперь целевую переменную: насколько понравился отзыв другим пользователям? Выбранные нами платформы позволяют собрать информацию о его рейтинге: лайки и диз-лайки, которые поставили другие пользователи. Только 8 % отзывов из подкорпуса «Мегамаркет» имеют хоть какую-то реакцию (169 отзыв имеет хотя бы один лайк и 108 отзывов - хотя бы один дизлайк). В подкорпусе «Мегамаркет (Р)» все отзывы содержат минимум одну реакцию. Целевой переменной y присваивается значение 1, если разность лайков и дизлайков положительна, -1, если отрицательна, и 0, если количество лайков равно количеству дизлайков.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В итоге мы получили 216 отзывов с ненейтральной реакцией в подкорпусе «Мегамаркет» и 809 -в подкорпусе «Мегамаркет (Р)». Данный подход не учитывает разницу между отзывами, которые не получили никаких реакций, и теми, которые получили одинаковое число лайков и дизлай-ков. Второй случай мы считаем проявлением сомнения в оценке, и, с нашей точки зрения, этого недостаточно, чтобы отнести отзыв к заказным.

Мы протестировали несколько алгоритмов классификации библиотеки Scikit-learn [Pedregosa, Varoquaux, Gramfort, Michel, Thirion, Grisel et al., 2011] на двух подкорпусах: «Мегамаркет», «Мегамаркет (Р)». Подкорпусы были разбиты на тренировочную и тестовую выборки в соотношении 70/30 %. В одном случае мы исключали нейтральные отзывы как объект классификации. Таблица содержит результаты классификаторов26, представленные через меру F1-score. Взято макросреднее значение меры, так как классы в нашей выборке не сбалансированы и предпочтение алгоритма относить все экземпляры к самому большому классу приводит к высокому значению среднего.

Таблица. Результаты автоматической классифи-

кации отзывов: macro average F1-score

Table. Results of the automatic classification of reviews: macro-average Fl-score

Алгоритм Корпус текста

классифика- «Мега- «Мега- «Мега- «Мега-

ции маркет» маркет (Р)» маркет» маркет (Р)»

С нейтральными отзывами Без нейтральных отзывов

Logistic regression 0,43 0,50 0,65 0,72

KNN 0,40 0,43 0,55 0,65

SVM 0,44 0,70 0,96 0,79

Decision tree 0,44 0,47 0,54 0,66

26 Evrog E.M. FakeRews. Режим доступа: https://github.com/ evrog/FakeRews (дата обращения: 29.05.2024).

Окончание таблицы

Алгоритм Корпус текста

классифика- «Мега- «Мега- «Мега- «Мега-

ции маркет» маркет (Р)» маркет» маркет (Р)»

С нейтральными отзывами Без нейтральных отзывов

Random forest 0,35 0,55 0,65 0,81

AdaBoost 0,44 0,53 0,64 0,75

GradBoost 0,42 0,57 0,64 0,77

Примечание: logistic regression - англ. логистическая регрессия; KNN -англ. k-nearest neighbors, метод k ближайших соседей; SVM - англ. support vector machine, метод опорных векторов; decision tree - англ. дерево решений; random forest - англ. метод случайного леса; AdaBoost - англ. алгоритм машинного обучения; GradBoost - англ. градиентный бустинг Источник27 / Source26

РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ / CLASSIFICATION RESULTS

Лучший результат классификации - у метода опорных векторов (SVM) на датасете «Мегамаркет» без нейтральных отзывов: F1-score = 0,96. В реальности мы, конечно, не можем исключить их, но такой результат показывает, что отзывы с негативной реакцией можно очень точно отделить от отзывов с положительной реакцией при помощи такого классического алгоритма, как SVM. В целом удаление класса нейтральных отзывов очень сильно поднимает производительность всех алгоритмов. То есть, когда мы намеренно поляризуем датасет, признаки, отличающие отзывы с отрицательным рейтингом, становятся более очевидными. Напомним, что эти же признаки названы экспертами в качестве маркеров заказного отзыва. Следовательно, можно говорить, что они действительно помогают выявлять потенциально заказные отзывы.

Тот же алгоритм SVM неплохо справляется и с классификацией на датасете «Мегамаркет (Р)», где есть нейтральные отзывы: F1-score = 0,7. В этом датасете более сбалансированы классы. В связи с этим мы можем надеяться, что увеличение корпуса примеров и сбалансированность классов позволят достичь большего эффекта в классификации. При этом важно сохранить нейтральный класс, не сливая его ни с положительным, ни с отрицательным. Тесты со слиянием показали, что классификаторы совсем перестают видеть разницу между классами и записывают все примеры в один.

Тесты в условиях, наиболее приближенных к реальным (первая колонка), показали, что классификаторы совсем не могут выявлять класс отзывов с отрицательной реакцией пользователей.

27 Мегамаркет. Официальный сайт. Режим доступа: https://megamarket. ru/ (дата обращения: 29.05.2024).

Все экземпляры записываются в нейтральный. Также иногда несколько экземпляров нейтрального класса записываются в отрицательный. Следовательно, нашего датасета недостаточно, чтобы создать продуктовую модель, которую можно использовать в коммерческих целях.

Мы применяли модель SVM, предобученную определять два класса (положительный и отрицательный рейтинг; лучший результат в таблице), для предсказания рейтинга отзывов на Wildberries (см. выше описание подкорпуса). Модель отнесла 2 217 отзывов к положительному рейтингу и 286 -к отрицательному. Так как на Wildberries нет инструмента оценивания отзывов, мы решили проверить, как соотносится рейтинг с оценкой товара, которую покупатель поставил в своем отзыве. Рис. 7 демонстрирует, что большинство отзывов, классифицированных как отрицательные, оценивают товар высоко: на 3 балла из 5 и выше. То есть они, скорее, хвалебные. Подобное распределение в реальных оценках в подкорпусах «Мегамаркет» и «Мегамаркет (Р)» не наблюдается. Следовательно, модель более склонна относить хвалебные отзывы к отзывам с отрицательным рейтингом. Это соответствует и мнению экспертов, которые считают позитивность признаком заказного отзыва.

5 4 3 2 1

Оценка товара автором отзыва, количество звезд И Положительный рейтинг П Отрицательный рейтинг

Источник28 / Source28 Рис. 7. Распределение отзывов по оценке товара пользователем в двух предсказанных классах

Fig. 7. Percentage of reviews based on user ratings of the product in two predicted classes

28 Wildberries. Официальный сайт. Режим доступа: https://www. wildberries.ru/ (дата обращения: 29.05.2024).

СПИСОК ЛИТЕРАТУРЫ

ЗАКЛЮЧЕНИЕ / CONCLUSION

В нашем исследовании мы представили результаты автоматической классификации отзывов с российских маркетплейсов на потенциально заказные и честные при помощи моделирования признаков, которые эксперты называют признаками заказного отзыва. В качестве целевой переменной (предсказываемого класса) выступило соотношение лайков и дизлайков, поставленных отзыву другими покупателями. Наша модель классификации во многом зависит от баланса классов в наборе данных для обучения и достигает более высоких результатов при бинарной классификации на отзывы с положительным и отрицательным рейтингом. То есть мы можем заключить, что признаки, выделяемые экспертами, действительно имеют предсказательный потенциал.

Тем не менее, нам также представляется, что диз-лайки, поставленные хвалебным отзывам, и лайки, поставленные отрицательным, являются признаком, который может не зависеть от содержания отзыва и указывать на мета-текстовую ситуацию, когда то, что реально наблюдают покупатели, приобретая товар, вступает в диссонанс с его оценкой в отзыве. То есть, если отказаться от анализа текстовых признаков и фиксировать этот диссонанс, то такая оценка может быть даже более полезной для выявления заказных отзывов, чем экспертные признаки и автоматическая классификация. Однако, если накрутки перейдут от отзывов к реакциям, то этот метод потеряет силу. Реакции покупателей на отзыв можно сделать видимыми только для маркетплейса, но покупатели могут потерять стимул использовать эту опцию.

Ахмаева Л.Г. Влияние возрастной и гендерной специфики пользователей социальных сетей в России на методы маркетинга и рекламы. Цифровая социология. 2020;3(3):21-28. http://doi.org/10.26425/2658-347X-2020-3-3-21-28

Величко И.Ф., Леонова Л.И. Отзыв на товар как тип текста (на примере популярного интернет-магазина). В кн.: Исследования молодых ученых: материалы студенческой международной научно-практической конференции, Курск, 12 апреля 2022 г. Курск: Курский институт кооперации (филиал) Белгородского университета кооперации, экономики и права; 2022. С. 123-127.

НазаровД.М. О влиянии отзывов потребителей в интернете на решения о покупке. Столыпинский вестник. 2022;7(4):3728-3735.

Юдалевич Н.В. К вопросу о важности предоставления отзывов при покупках на маркетплейсах. Бизнес-образование в экономике знаний. 2023;2(25):67-72.

Bulchand-Gidumal J., Melián-González S. Fighting fake reviews with blockchain-enabled consumer-generated reviews. Current Issues in Tourism. 2024;5(27):739-753.

Fiallos A., Anton E. Towards reliable app marketplaces: machine learning-based detection of fraudulent reviews: Proceedings of the 7th International Conference on Applied Informatics, October 24-26, Viña del Mar, 2024. Cham: Springer; 2024. Pp. 229-242.

Kim J.M., Park K.K., Mariani M., Wamba S.F. Investigating reviewers' intentions to post fake vs. authentic reviews based on behavioral linguistic features. Technological forecasting and social change. 2024;198:122971. http://dx.doi.org/10.1016/j.techfore.2023.122971

Krishnaiah K.R. Predicting fake online reviews: a comprehensive study of supervised and semi-supervised learning models. Turkish journal of computer and mathematics education (TURCOMAT). 2023;3(14):392-399.

Malik A.Z., Sadeghi K.R., Paswan A., Kanwal F. Incentivized fake reviews: when cognitive reappraisal paves the way for an immoral journey. Journal of Consumer Behaviour. 2024;4(23):1962-1978. https://doi.org/10.1002/cb.2315

Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O. et al. Scikit-learn: machine learning in Python. Journal of Machine Learning Research.2011;12:2825-2830.

Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. Rusentiment: an enriched sentiment analysis dataset for social media in Russian: Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe: Association for Computational Linguistics; 2018. Pp. 755-763.

Shukla A.D., Goh J.M. Fighting fake reviews: authenticated anonymous reviews using identity verification. Business Horizons. 2024;1(67):71-81.

Thao L.Q., Kien D.T., Thuy D.T.T., Thuy L.T.M., Bach N.Ch., Duc T.T. et al. Designing a deep learning-based application for detecting fake online reviews. Engineering Applications of Artificial Intelligence. 2024;134:108708. https://doi.org/10.1016/j.engappai.2024.108708

REFERENCES

Akhmaeva L.G. Influence of age and gender specifics of social network users in Russia on marketing and advertising methods. Digital Sociology. 2020;3(3):21-28. (In Russian). http://doi.org/10.26425/2658-347X-2020-3-3-21-28

Bulchand-Gidumal J., Melián-González S. Fighting fake reviews with blockchain-enabled consumer-generated reviews. Current Issues in Tourism. 2024;5(27):739-753.

Fiallos A., Anton E. Towards reliable app marketplaces: machine learning-based detection of fraudulent reviews: Proceedings of the 7th International Conference on Applied Informatics, October 24-26, Viña del Mar, 2024. Cham: Springer; 2024. Pp. 229-242.

Iudalevich N. V. To the question of the importance of providing reviews when purchasing on marketplaces. Business education in the knowledge economy. 2023;2(25):67-72. (In Russian).

Kim J.M., Park K.K., Mariani M., Wamba S.F. Investigating reviewers' intentions to post fake vs. authentic reviews based on behavioral linguistic features. Technological forecasting and social change. 2024;198:122971. http://dx.doi.org/10.1016/j.techfore.2023.122971

Krishnaiah K.R. Predicting fake online reviews: a comprehensive study of supervised and semi-supervised learning models. Turkish journal of computer and mathematics education (TURCOMAT). 2023;3(14):392-399.

Malik A.Z., Sadeghi K.R., Paswan A., Kanwal F. Incentivized fake reviews: when cognitive reappraisal paves the way for an immoral journey. Journal of Consumer Behaviour. 2024;4(23):1962-1978. https://doi.org/10.1002/cb.2315

Nazarov D.M. On the impact of online consumer reviews on purchasing decisions. Stolypin vestnik. 2022;7(4):3728-3735. (In Russian).

Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O. et al. Scikit-learn: machine learning in Python. Journal of Machine Learning Research.2011;12:2825-2830.

Rogers A., Romanov A., Rumshisky A., Volkova S., Gronas M., Gribov A. Rusentiment: an enriched sentiment analysis dataset for social media in Russian: Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe: Association for Computational Linguistics; 2018. Pp. 755-763.

Shukla A.D., Goh J.M. Fighting fake reviews: authenticated anonymous reviews using identity verification. Business Horizons. 2024;1(67):71-81.

Thao L.Q., Kien D.T., Thuy D.T.T., Thuy L.T.M., Bach N.Ch., Duc T.T. et al. Designing a deep learning-based application for detecting fake online reviews. Engineering Applications of Artificial Intelligence. 2024;134:108708. https://doi.org/10.1016/j.engappai.2024.108708

VelichkoI.F., Leonova L.I. Product review as a type of text (on the example of a popular online store). In: Research of young scientists: Proceedings of the Student International Scientific and Practical Conference, Kursk, April 12, 2022. Kursk: Kursk Cooperative Institute (Branch) of the Belgorod University of Cooperation, Economics, and Law; 2022. Pp. 123-127. (In Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.