Научная статья на тему 'ОБЗОР ИНФОРМАЦИОННЫХ ПЛАТФОРМ - ИСТОЧНИКОВ НАБОРОВ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ В РИТЕЙЛЕ'

ОБЗОР ИНФОРМАЦИОННЫХ ПЛАТФОРМ - ИСТОЧНИКОВ НАБОРОВ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ В РИТЕЙЛЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
246
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДЫ АНАЛИЗА БОЛЬШИХ ДАННЫХ / МАТЕМАТИЧЕСКИЕ МОДЕЛИ / МАШИННОЕ ОБУЧЕНИЕ / НАБОРЫ ДАННЫХ / НЕЙРОННЫЕ СЕТИ / РИТЕЙЛ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черняков А.Н.

В данной статье рассматриваются информационные платформы (ресурсы), на которых исследователь может найти наборы данных с открытым доступом. Для успешного построения модели машинного обучения необходимы качественные данные. Однако, не всегда возможно получить доступ к нужным наборам данных, особенно в случае с коммерческими организациями, которые зачастую не раскрывают информацию. В таких случаях, исследователь вынужден обращаться к информационным ресурсам, предоставляющим доступ к различным наборам данных. В статье рассмотрены такие ресурсы, как Kaggle, Github, Machine Learning Repository, Data.world и другие. Также представлен обзор некоторых популярных и полезных наборов данных, доступных в открытом доступе, их особенности и применение. Кроме того, обсуждается примеры задач машинного обучения, которые могут быть решены с помощью наборов данных, размещенных на информационных ресурсах - в целях организации эффективной работы в области ритейла. Представленный обзор может помочь исследователю в быстром поиске наборов данных для построения моделей машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REVIEW OF INFORMATION PLATFORMS - SOURCES OF DATA SETS FOR BUILDING MACHINE LEARNING MODELS IN RETAIL

This article discusses information platforms (resources) on which a researcher can find open access datasets. To successfully build a machine learning model, you need high-quality data. However, it is not always possible to access the required data sets, especially in the case of commercial organizations, which often do not disclose information. In such cases, the researcher is forced to turn to information resources that provide access to various data sets. The article discusses such resources as Kaggle, Github, Machine Learning Repository, Data.world and others. It also provides an overview of some of the popular and useful datasets available in the public domain, their features and applications. In addition, examples of machine learning tasks that can be solved using data sets hosted on information resources are discussed in order to organize effective work in the field of retail. The presented overview can help the researcher in a quick search for data sets for building machine learning models.

Текст научной работы на тему «ОБЗОР ИНФОРМАЦИОННЫХ ПЛАТФОРМ - ИСТОЧНИКОВ НАБОРОВ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ В РИТЕЙЛЕ»

Обзор информационных платформ - источников наборов данных для построения моделей машинного обучения в ритейле

Черняков Алексей Николаевич

кандидат философских наук, доцент Департамента анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации, anchernyakov@fa.ru

В данной статье рассматриваются информационные платформы (ресурсы), на которых исследователь может найти наборы данных с открытым доступом. Для успешного построения модели машинного обучения необходимы качественные данные. Однако, не всегда возможно получить доступ к нужным наборам данных, особенно в случае с коммерческими организациями, которые зачастую не раскрывают информацию. В таких случаях, исследователь вынужден обращаться к информационным ресурсам, предоставляющим доступ к различным наборам данных. В статье рассмотрены такие ресурсы, как Kaggle, Github, Machine Learning Repository, Data.world и другие. Также представлен обзор некоторых популярных и полезных наборов данных, доступных в открытом доступе, их особенности и применение. Кроме того, обсуждается примеры задач машинного обучения, которые могут быть решены с помощью наборов данных, размещенных на информационных ресурсах - в целях организации эффективной работы в области ритейла. Представленный обзор может помочь исследователю в быстром поиске наборов данных для построения моделей машинного обучения.

Ключевые слова: методы анализа больших данных, математические модели, машинное обучение, наборы данных, нейронные сети, ритейл.

со

CS

о

CS

ci

Согласно исследованиям Jacky Liang, в розничную торговлю к 2025 году будут внедрены более 150 тысяч мобильных роботов [5]. Данные роботы будут выполнять задачи и таким образом заменят часть персонала.

Современную розничную торговлю (ритейл) можно разделить на два формата: офлайн и онлайн. Если классифицировать задачи розничной торговли, согласно формату ведения деятельности, то мы увидим разницу по набору задач требующее автоматизации. Исследование McKinsey выявило высокий потенциал автоматизации в целом и машинного обучения в розничной торговле [6].

Для построения хороших моделей машинного обучения необходимы наборы данных. Для стороннего исследователя это является проблемой. Редкие компании выкладывают свои данные в открытый доступ.

Целью данной работы было собрать и оценить информационные ресурсы, на которых размещены в открытом доступе наборы данных, необходимые для решения задач с применением машинного обучения.

1. Kaggle (https://www.kaggle.com).

Kaggle является одним из популярных ресурсов для анализа данных и машинного обучения. Здесь размещаются различные наборы данных для машинного обучения. Можно сказать, что данный ресурс стал социальной сетью для профессионального сообщества.

На Kaggle проводятся соревнования по машинному обучению, ведется рейтинг пользователей. Организатором конкурсов является как правило компания, которая публикует данные, ставит сроки проведения конкурса. Формулирует постановку задачи, которую необходимо решить, критерии оценивания, как правило метрики точности модели, и приз которые получат участники. Участники соревнований помимо приза еще получают баллы, которые участвуют в рейтинге платформы Kaggle.

Работодатели при найме обращают внимание на профиль соискателя на данном ресурсе.

На рисунке 1 показан пример набора данных для решения задач розничной торговли. Этот набор данных содержит 600 тысяч товаров нижнего белья, извлеченных из популярных торговых онлайн площадок [11]. Включает в себя описание товара, цену, категорию, рейтинг и многое другое. Такой набор данных можно использовать в прогнозировании спроса на представленные товары. Подобную задачу в своей работе [8] реализовал Ren Shuyun.

О ш m х

- kaggle

4" Croate

9 Competitions

H Datasets

A> Models

Innerwear Data from Victoria's Secret and Others

600,000« inner*»* product Ott« ei

Data Card Code (2)

<

m о x

X

About Dataset

Рисунок 1 - Набор данных «(Innerwear Data from Victoria's Secret and Others»

2. Github (https://github.com).

Ресурс, который является веб-хостингом для IT-про-ектов. В основном на нем размещаются коды проектов, написанных на каком-либо языке программирования. Данный ресурс используют для командной разработки проектов, для этого используется система контроля версий Git.

Github нельзя ни включить в обзор, потому что огромное количество наборов данных размещаются на нем. Все эти наборы данных можно использовать для решения задач розничной торговли. К примеру, дата-сет на рисунке 2 можно использовать в задачах компьютерного зрения, а именно задачи, связанной с продуктовой категоризацией [12]. В нем содержится 60 тысяч изображений, а также имеется разбивка на 10 классов. Примером использования такого набора может служить рекомендательная система по подбору стиля одежды, показанная в работе [1].

Per-category data - the review and product metadata for each category.

To download the complete review data and the per-category files, the following links will direct you to enter a form. Please contact me if you can't get access to the form.

Q Search cr jump to.. Pull requests Is sues Codespaces Marketplace Explore + • *>'• 1

Q zalandoresearch / fashion-mnist w* ©W»Wi 32$ • У fork 2Л . Q Sur 10.6k •

<> Code 0 Issues И П Pulrequests Pj Discussora ( © Actions 0 Secuity tnsigTits

F master • J»1tranch I^Otags Go to fie Add Ые- Щ | About

A MNIST-fce fashion product database. Benchmark 4

¿1 kashif Merge pUI request »175 from miluyeltynaster - UtUtt on Mar 21,2022 Q224 ccrrmi«

Ш benchmark first commit 6 years ago

Ш data fixes #44 I removed ftjpleate samples from the data set 6 у«ars ago

Л coc/mg addepymde

Ш static add highBght to column header 6 years ago

fe mils simplfied reader 6>«arsago

Ш visuabation first commit

D .catwaicft.yani addzapprandcatnacch 6 years ago

Q dockerigncre first commit 6 years ago

D gtignore update readme 6 years ago

m.nwsM3-MbiitB.Mi-MntiiM.„

Amazon Fashion reviews (883,636 reviews) metadata (186,637 products)

All Beauty reviews (371,345 reviews) metadata (32,992 products)

Appliances reviews (602,777 reviews) metadata (30,459 products)

Arts, Crafts and Sewing reviews (2,875,917 reviews) metadata (303,426 products)

Automotive reviews (7,990,166 reviews) metadata (932,019 products)

Books reviews (51,311,621 reviews) metadata (2,935,525 products)

CDs and Vinyl reviews (4,543,369 reviews) metadata (544,442 products)

Cell Phones and Accessories reviews (10,063,255 reviews) metadata (590,269 products)

Clothing Shoes and Jewelry reviews (32,292,099 reviews) metadata (2,685,059 products)

Digital Music reviews (1,584,082 reviews) metadata (465,392 products)

Electronics reviews (20,994,353 reviews) metadata (786,868 products)

Gift Cards reviews (147,194 reviews) metadata (1,548 products)

Grocery and Gourmet Food reviews (5,074,160 reviews) metadata (287,209 products)

Home and Kitchen reviews (21,928,568 reviews) metadata (1,301,225 products)

Industrial and Scientific reviews (1,758,333 reviews) metadata (167,524 products)

Kindle Store reviews (5,722,988 reviews) metadata (493,859 products)

Luxury Beauty reviews (574,628 reviews) metadata (12,308 products)

Magazine Subscriptions reviews (89,689 reviews) metadata (3,493 products)

Movies and TV reviews (8,765,568 reviews) metadata (203,970 products)

Musical Instalments reviews (1,512,530 reviews) metadata (120,400 products)

Office Products reviews (5,581,313 reviews) metadata (315,644 products)

Patio, Lawn and Garden reviews (5,236,058 reviews) metadata (279,697 products)

Pet Supplies reviews (6,542,483 reviews) metadata (206,141 products)

Prime Pantry reviews (471,614 reviews) metadata (10,815 products)

Software reviews (459,436 reviews) metadata (26,815 products)

Sports and Outdoors reviews (12,980,837 reviews) metadata (962,876 products)

Tools and Home Improvement reviews (9,015,203 reviews) metadata (571,982 products)

Toys and Games reviews (8,201,231 reviews) metadata (634,414 products)

Video Games reviews (2,565,349 reviews) metadata (84,893 products)

\i'ftf i'l'irj. -«"•(•>.. iMnM tehrtn-imn

Ш Rfrfme 9 мгпмпи 6 1ШЯ« О Э26и*1№а Y 2.7k fctte

Рисунок 2 - Репозиторий с набором данных Fashion-MNIST

2. Amazon Review Data (https://nijianmo.github.io).

На этом ресурсе расположены данные с интернет-магазина Amazon, других данных там нет. Но он заслуживает включение в обзор, по количеству данных это, наверное, один из самых больших наборов данных имеющий открытый доступ для исследователя. Дата-сет включает 233,1 млн отзывов на товары. В нем содержатся изображения товаров, описание и характеристики товаров. Не менее ценным для исследователя будет иметь доступ к графику продаж. Все товары разбиты на категории, которые можно увидеть на рисунке 3.

Рисунок 3 - Amazon Review Data

3. Data.world (https://data.world).

Информационный ресурс data.world содержит дата-сеты для анализа данных и машинного обучения. Много наборов данных требуют выполнения очистки. Таким образом можно потренировать навык по очистке данных. На рисунке 4 показан интерфейс поиска дата-сетов.

Прежде чем работать с наборами данных необходимо зарегистрироваться на данном ресурсе. Здесь есть встроенный редактор кода, через который можно выполнять действия с дата-сетами, используя SQL - запросы, либо использовать язык Python.

Для решения задач машинного обучение в розничной торговле подойдут наборы данных «Electronic Products and Pricing Data» [13]. Данный дата-сет содержит более 7 тысяч товаров с 10 признаками. На его основе можно решить задачу динамического ценообразования на товары [7].

У data.world 1

0 Q, Search for keywords, resources, or people ©

я A Resources Organizations and people Comments Columns

Filters Advanced - Collapse all

RESOURCE TYPE * Drtaset I128.7K; Project (19.527) C _) Search for keywords, resources, or people You can find everything you have access to in search.

OWNER a Cchhs<400) chuyendoisong с*ую(-лу (3.0431 [771 DOHMH Call Center Summary 1 1 dati.wofld's Admin for City erf New York • Updated last year Total number of calls received by the agency's all center Dataietwith □ S3 projects Q lNe B 1 table

Show 45 more P 288 0 Comment

STATUS A needs review r.) С pendmgi (771 Fortune 1000 List (2018) 1 1 Rajesfi Ctierukuri ■ Updated 5 years ago Dataietwith □ 53projects Q lto B Itable Q 242 Q Comment

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рисунок 4 - Ресурс data.world

X X

о

го А с.

X

го m

о

ю О

м

CJ

fO CS

о

CS

ci

4. Machine Learning Repository (https://archive.ics.uci.edu).

Репозиторий UCI (UCI Machine Learning Repository) — это информационный ресурс для всех, кто хочет больше узнать о области машинного обучения. Репозиторий UCI — это реальная коллекция наборов данных и задач, связанных с машинным обучением, таких как классификация изображений, обработка естественного языка или анализ временных рядов. Их можно использовать для исследований, разработок в прикладных задачах из области розничной торговли, техники, медицины и др.

Основная цель репозитория UCI — предоставить исследователям и разработчикам данные для использования в своих проектах. Наборы данных часто хорошо организованы и размечены, поэтому легко найти данные, необходимые для проекта. Наборы данных также часто бывают большими и разнообразными, что делает их отличным ресурсом для изучения и изучения машинного обучения.

Данные из этого репозитория подойдут для решения задач розничной торговли. Набор данных [14] можно использовать для идентификации авторства отзывов. На рисунке 5 представлен репозиторий UCI и набор данных «Amazon Commerce reviews set Data Set». Используя этот набор данных была решена задача эмоциональной окраски отзывов [2].

№¿£54

Machine Learning Repository

Check ort the bQLimsg d the к»TO Mulme Lamq Rcpotitory «

Amazon Commerce reviews set Data Set

et T>» Mmt s 14*1 la »iffovc Mrtfato- г cnW »»pint »4ch k а пи

teuSetCluncMnMc« VJhan». tomo-tiMy

Data S«t Information:

i») « po«M пят I » t

Mendeley Data был запущен в 2015 году и работает на платформе Mendeley. На платформе доступно более 11 миллионов наборов данных, которые разделены на несколько категорий (рис. 6). Наборы данных получены из различных источников, включая академические журналы, государственные учреждения и научные организации. Наборы данных различаются по размеру и сложности, от небольших наборов данных до крупномасштабных наборов данных.

6. Zenodo (https://zenodo.org).

Zenodo — это бесплатная и открытая платформа для хранения, управления и распространения научных данных, которая была создана в рамках Европейской лаборатории по физике частиц (CERN). Она позволяет ученым, исследователям и организациям из разных стран загружать, хранить, архивировать и публиковать данные, связанные с исследованиями.

Zenodo позволяет загружать и хранить различные типы данных, включая научные статьи, презентации, дата-сеты, программное обеспечение, изображения, аудио- и видеоматериалы, а также другие научные материалы. Пользователи могут загружать свои данные в любом формате и прикреплять к ним метаданные для лучшей организации и поиска.

Набор данных «Client data for churn prediction for an internet shipment reselling company» [15] может быть использован для решения задач розничной торговли (рис. 7). Подобные наборы данных использовались для построения модели, предсказывающей отток клиентов в телекоммуникационной отрасли[4]. Этот дата-сет может быть использован для построения модели машинного обучения, которая предсказывает вероятность оттока клиента в розничной торговле. Это может помочь компании улучшить свою стратегию удержания клиентов и сохранить свою клиентскую базу.

Client data for churn prediction for an internet shipment reselling company

Рисунок 5 - Репозиторий UCI

5. Mendeley Data (https://data.mendeley.com).

Mendeley Data — это открытый репозиторий исследовательских данных, который позволяет исследователям хранить наборы данных, управлять ими и делиться со всеми желающими исследователями. Mendeley Data также позволяет исследователям цитировать и отслеживать наборы данных, которые они использовали.

Serra PljnHIfs Jorge Thesis supervisors)

Eduarde Aceiturct Serge Tries Olwer, Afcen SoK Rt

a571»717S03:i731460c3f8b012897ae6 4-28403e5dad4l40eb5c79e92B5719c9 6o6S1dMa^e?S3aS'»'6«

OpenAIRE

с6в1Ьс7сМвЭ7вЭеа7яМ6Э1еЭаа«Ы

Ь£с79в92в5719с9 M«6711a77tfe=£iiI8K3792c

9d8=bM«N)eailb?B61MdbeledS<3d4 п№77яЕо*сОМе1е1ерУпМШ87св 9авеБве1Ш)1ЖЗг»Э17Ы&

ЭвЭв975б0Ж5ев71577(г8М7в7»'бг» 117SW3«5dad<UCtt£c79ü»aS77»:9 c097Wil538J27aal74?97d23

flfl Mendeley Data

Find RïKirth Dili My Dl»

Рисунок 7 - Информационный ресурс Zenodo

О Ш

m х

<

m о х

X

Find research data Advanced «arch help

Filter Results

PUBLISHED DATE

1970 2023

□ Dataset(U316S47)

□ Image (3398274)

□ Tabular Data (2662S47)

□ Other (249039>)

□ Physical Object (1463634)

□ CoBecbon($S28S2)

□ Text (31SS73)

22535404 results Sort by Mostrdevar

Raw data«! with accelerometer, magnetometer and gyroscope data related to Ten Meter Wall Test in Center of Portugal

Gabriel. Cristiana, Pires, tan. Garcia, "Juno. Carreto, Carlos ' Published 10 March 20231 Mendeley Data

This datai« consists m 20» captures related to aaekromete». magnetometer and gyroscope data during the performance of Ten Meter Walt Test in

Рисунок 6 - Mendeley Data

Published 10 March 20231 Mendeley Data

Raw data of moral irpjry, anxiety, depression. PTSO symptoms, and demographic charactensbcs (age folowng let of research questions were formulated: (RQ1) Are there significant differences in moral between active-duty tolders ard ciWian groups? (RQ2) Are there gender effects m the two groups in

rder, experience of geroodal tra ry, PTSD, depresnon tion to moral injury and associated

7. Google Research

(https://research.google/resources/datasets/).

Google Research Datasets — это онлайн-хранилище наборов данных для исследовательских целей. В нем содержатся наборы данных от Google, а также от третьих лиц, охватывающих широкий спектр тем. Наборы данных варьируются от небольших наборов данных до больших наборов данных, от простых наборов данных до сложных наборов данных.

Google Research Datasets упрощает поиск и доступ к наборам данных для исследовательских проектов. Он имеет доступный для поиска репозиторий наборов данных,

которые можно фильтровать по типу, размеру и формату. У него также есть коллекция рекомендуемых наборов данных, которые были отобраны Google. Эти наборы данных часто представляют особый интерес для исследователей в области розничной торговли. Организованы данные по типам решаемых задач, таким как обработка естественного языка, компьютерное зрение и робототехника.

Наборы данных Google Research Datasets доступны для бесплатной загрузки или могут быть использованы непосредственно из репозитория. Наборы данных представлены в различных форматах, таких как CSV, JSON и XML. Некоторые наборы данных снабжены документацией, чтобы помочь исследователям лучше понять данные.

С помощью Google Research Datasets можно найти данные о продажах крупнейшей китайской онлайн-пло-щадки Alibaba. Результат поиска представлен на рис. 8.

AJibaba Group 2014 2026

Alibaba Group leading banners 2021-2026. by e-<

Hrtop Atani СОМ»м H i

Рисунок S - Google Research Datasets

Data

on AWS

8. Registry of Open (https://registry.opendata.aws).

Registry of Open Data on AWS (ROD AWS) — это он-лайн-ресурс, который позволяет организациям регистрировать, находить и получать доступ к общедоступным наборам данных, хранящимся в Amazon Web Services (AWS) (рис. 9).

ROD AWS предоставляет централизованную платформу для хранения открытых наборов данных и доступа к ним с целью сделать данные более доступными и простыми в использовании. ROD AWS упрощает процесс поиска, регистрации и доступа к наборам данных, предоставляя пользователям единую платформу для доступа к данным из разных источников.

Платформа предоставляет пользователям доступ к наборам данных по различным областям таких как здравоохранение, образование, финансы и правительство, в том числе и розничную торговлю. Пользователи могут искать наборы данных по ключевому слову, а также по категориям.

Registry of Open Data on AWS

Amazon Bin Image Dataset

m ал operating Amazon Fulfillment Center. The bin mages In this dauset a« I as robot units carry pods as part of normal Amazon Fulfillment Center

Resources on AWS

Description

Over SOO.OOO bin JPEG images and corresponding JSON r describing items in bins in Amazon Fulfillment Centers.

Update Frequency

Documentation

httpv//gittiubcom/amUbs/open-<teu.(lo<s/tree/ma<n/docs/aft-vbi-pds

Managed By

Рисунок 9 - Registry of Open Data on AW

Набор данных «Amazon Bin Image Dataset» [16], представляет собой более 500 тысяч изображений товаров из центра выполнения заказов Amazon. Этот дата-сет подойдёт для решения задач связанного с компьютерным зрением в области ритейла. К примеру, Knoll Dino в своей работе [3] разработал модель, которая к товарам подбирает размер упаковки.

9. OpenML (https://www.openml.org).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

OpenML — это платформа с открытым исходным кодом, которая упрощает совместное использование и повторное использование данных и задач машинного обучения (рис. 10). Платформа была создана в Амстердамском университете. Цель создания платформы, объединить исследователей, разработчиков и практиков со всего мира для обмена и совместной работы над задачами машинного обучения.

OpenML предоставляет онлайн-репозиторий наборов данных, задач и алгоритмов машинного обучения, которые могут свободно использовать все желающие. Платформа также предоставляет возможность совместной работы, обмен своими проектами и результатами машинного обучения. OpenML упрощает пользователям поиск, просмотр и анализ наборов данных. Кроме того, он предоставляет ряд инструментов и ресурсов, помогающих пользователям исследовать и понимать данные, с которыми они работают.

Набор данных «Womens-E-Commerce-Clothing-Reviews» [17] состоит из отзывов на женскую одежду. Он включает 23486 строк и 10 переменных признаков. Используя такой набор данных можно сделать сегментацию клиентов, как это сделал в своей работе Tabianan Kayalvily [9].

, OpenML 0. Паи Вситу Зарегистрироваться

Паю

5 каберыааимы* pi 3wm» »Urx OpenML 0 s

0 "ИИ» Всемирная лаборатория Y \

й и— машинного обучения 1

$ Kcrrwwu

Р Тима» • а м«ры ш Исследования в области va шииюго обучения должны быть пегкоооступюми и пригадмыми для повторного испалыомшя OpenMl - это открытая платформа для обгака набосаии дан«о. агго(мтмани и эклеримеитами. чтобы вместе учпься лучше. □

II Дхучентацм '

^ Ькх' Зарггкстрирматься чтобы НТвТЬОТСЛвЮваТЬИДвЛ ич>ся своей рабою 1 OpenML является окрытым и

Рисунок 10 - OpenML

Open

Data

10. Microsoft Research (https://msropendata.com).

Microsoft Research Open Data (MROD) — это платформа для обмена открытыми данными, созданная Microsoft Research. Эта платформа была создана для поддержки научных исследований в различных областях, включая машинное обучение, искусственный интеллект, обработку естественного языка и другие области.

MROD содержит более 100 наборов данных, доступных для бесплатного скачивания. Эти наборы данных могут быть использованы в различных областях научных исследований и имеют различные размеры и форматы. Некоторые из дата-сетов содержат миллионы записей, в то время как другие содержат только несколько тысяч записей.

Все наборы данных на MROD имеют соответствующие метаданные, описывающие содержание и струк-

X X

о

го А

с.

X

го m

о

ю .

2 О M

со

fO

es о es

о ш m

X

<

m О X X

туру данных. Эти метаданные включают в себя описание данных, авторов, лицензию и другую информацию, необходимую для использования данных в научных исследованиях.

На момент выхода статьи на данном ресурсе отсутствуют наборы данных для решения задач розничной торговли. Данный ресурс был включен по причине того, что его развивает крупнейшая фирма в области информационных технологий Microsoft. По нашему мнению, с развитием этого ресурса, появятся качественные наборы данных для решения задач в области ритейла (рис. 11).

Категории

БИОЛОГИЯ

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ

НАУКА О ПЛАНЕТЕ ЗЕМЛЯ

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ

ЗДРАВООХРАНЕНИЕ

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ

МАТЕМАТИКА

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ

ФИЗИКА

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ

ИНФОРМАТИКА

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ )

ОБРАЗОВАНИЕ

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ )

ИНФОРМАЦИОННАЯ НАУКА

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ >

ДРУГОЙ

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ )

СОЦИАЛЬНАЯ НАУКА

ПОСМОТРЕТЬ НАБОРЫ ДАННЫХ )

Рисунок 11 - Microsoft Research Open Data

11. Papers with Code (https://paperswithcode.com).

Papers with Code (PWC) — это веб-ресурс, который стремится сделать передовые исследования в области машинного обучения и искусственного интеллекта более доступными для исследователей, инженеров и энтузиастов. Сайт был запущен в 2018 году и быстро стал одной из самых популярных платформ для обмена и поиска исследовательских статей, кода и наборов данных.

FETA IKEA

•d by Alfassy el ai. in FETA: Towards Specializing Foundation Models tor Expert Task Applications

FETA benchmark focuses on text-to-image and image to texi brochures. The FETA IKEA dataset contains 26 documents wi 23927 texts automatically extracted from those pages.

I 7366 pages total, approximately 9574 irr

3Bi

Papers

Рисунок 12 - Датасет «FETA IKEA» Papers with Code

mfmiMMifu

PWC основан на идее, что открытость в науке является ключом к развитию исследований в области ИИ и машинного обучения. Сделав исследования более доступными, PWC помогает ускорить прогресс в этих областях и демократизировать доступ к последним достижениям. Платформа содержит большую коллекцию исследовательских статей, а также ссылки на код реализации и наборы данных, что позволяет исследователям воспроизводить и строить на основе существующей работы свои исследования.

На момент написание данной статьи на ресурсе размещалось более 7,8 тысяч дата-сетов с различными типами данных. Набор данных «FETA IKEA» [18] содержат

содержит 9574 изображений и 23927 текстовых данных и эти данные можно использовать для задач машинного обучение в ритейле (рис. 12). К примеру Ting-Ting, Sui, в своей работе [10] классифицировал мебель по стилю.

Заключение

В исследовании использовались различные материалы, которые позволили провести анализ и получить результаты. В первую очередь, был произведен анализ он-лайн-платформы для работы с данными, такие как Kaggle, Github, Amazon Review Data, Data.world, Machine Learning Repository, Mendeley Data, Zenodo, Google Research Datasets, Registry of Open Data on AWS, OpenML, Microsoft Research Open и Papers with Code.

Каждая из этих платформ предоставляет доступ к большому количеству открытых данных и инструментов для их анализа, что позволяет исследователям эффективно работать с информацией и получать точные результаты. Кроме того, использование открытых данных позволяет сократить затраты на их сбор и упрощает процесс репликации исследования другими учеными.

В целом, использование данных платформ для работы с данными в сочетании с современными методами исследования, позволяет получать высококачественные результаты, увеличивает прозрачность и воспроизводимость исследований и делает научные исследования более доступными и эффективными.

Литература

1. Guan C., Qin S., Long Y. Apparel-based deep learning system design for apparel style recommendation. / International Journal of Clothing Science and Technology. 2019 // - URL: https://www.semanticscholar.org/paper/Apparel-based-deep-learning-system-design-for-style-Guan-Qin/faee9a9362181025d2abb34010bb4a4f9f667404 (дата обращения 13.03.2023)

2. Gupta V. Sentiments Analysis of Amazon Reviews Dataset By using Machine Learning / International Journal for Research in Applied Science and Engineering Technology. 2023 // - URL: https://www.researchgate.net/publication/367614690_Senti ments_Analysis_of_Amazon_Reviews_Dataset_By_using_ Machine_Learning (дата обращения 13.03.2023)

3. Knoll D. [и др.]. An automated packaging planning approach using machine learning. / Published by Elsevier 2019. // - URL: https://www.researchgate.net/publication/333986159_An_a utomated_packaging_planning_approach_using_machine_ learning (дата обращения 13.03.2023)

4. Krishnan R, CV Krishnaveni, AV Krishna Prasad Telecom Churn Prediction using Machine Learning // World Journal of Advanced Engineering Technology and Sciences. 2022. № 2 (7). C. 087-096.

5. Liang J., Ramanauskas B., Kurenkov A. Job Loss Due To AI — How Bad Is It Going To Be? / Skynet Today. 2019. // - URL: https://www.skynettoday.com/editorials/ai-automation-job-loss (дата обращения 13.03.2023)

6. Manyika J. [и др.]. A future that works: automation, employment, and productivity 2017. / McKinsey&Company // - URL: https://www.semanticscholar.org/paper/A-future-that-works%3A-automation%2C-employment%2C-and-Manyika-

Chui/e3ac9558f18234cdf92b730a7386ff16d446a1af (дата обращения 13.03.2023)

7. Namburu A., Selvaraj P., Varsha M. Product pricing solutions using hybrid machine learning algorithm / Innovations in Systems and Software Engineering. 2022. // - URL: https://link.springer.com/article/10.1007/s11334-022-00465-3 (дата обращения 13.03.2023)

8. Ren S., Chan H. L., Siqin T. Demand forecasting in retail operations for fashionable products: methods, practices, and real case study // Annals of Operations Research. 2020. № 1-2 (291). C. 761-777.

9. Tabianan K., Velu S., Ravi V. K-Means Clustering Approach for Intelligent Customer Segmentation Using Customer Purchase Behavior Data // Sustainability (Switzerland). 2022. № 12 (14).

10. Ting-Ting S. [и др.]. Interest Points guided Convolution Neural Network for Furniture Styles Classification / 2019 6th International Conference on Systems and Informatics (ICSAI) // - URL: https://www.researchgate.net/publication/339559045_Inter est_Points_guided_Convolution_Neural_Network_for_Furn iture_Styles_Classification (дата обращения 13.03.2023)

11. Innerwear Data from Victoria's Secret and Others (набор данных) // - URL: https://www.kaggle.com/datasets/PromptCloudHQ/innerwe ar-data-from-victorias-secret-and-others (дата обращения: 13.03.2023)

12. Fashion-mnist (набор данных) // - URL: https://github.com/zalandoresearch/fashion-mnist (дата обращения: 13.03.2023).

13. Electronic Products and Pricing Data (набор данных) // - URL: https://data.world/datafiniti/electronic-products-and-pricing-data (дата обращения: 13.03.2023).

14. Amazon Commerce reviews set Data Set (набор данных) // - URL: https://archive.ics.uci.edu/ml/datasets/Amazon+Commerce +reviews+set (дата обращения: 13.03.2023).

15. Client data for churn prediction for an internet shipment reselling company (набор данных) // - URL: https://zenodo.org/record/6608990#.ZA78-C96CNp (дата обращения: 13.03.2023).

16. Amazon Bin Image Dataset (набор данных) // - URL: https://registry.opendata.aws/amazon-bin-imagery/ (дата обращения: 13.03.2023).

17. Womens e-commerce clothing reviews (набор данных) // - URL: https://www.openml.org/search?type=data&status=active&i d=43663&sort=runs (дата обращения: 13.03.2023).

18. FETA IKEA (набор данных) // - URL: https://paperswithcode.com/dataset/feta-ikea (дата обращения: 13.03.2023).

Review of information platforms - sources of data sets for building

machine learning models in retail Chernyakov A.N.

Financial University under the Government of the Russian Federation JEL classification: C01, C02, C1, C4, C5, C6, C8_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

This article discusses information platforms (resources) on which a researcher can find open access datasets. To successfully build a machine learning model, you need high-quality data. However, it is not always possible to access the required data sets, especially in the case of commercial organizations, which often do not disclose information. In such cases, the researcher is forced to turn to information resources that provide access to various data sets. The article discusses such resources as Kaggle, Github, Machine Learning Repository, Data.world and others. It also provides an overview of some of the popular and useful datasets available in the public domain, their features and applications. In addition, examples of machine learning tasks that can be solved using data sets hosted on information resources are discussed in order to organize effective work in the field of retail. The presented overview can

help the researcher in a quick search for data sets for building machine learning models.

Keywords: big data analysis methods, mathematical models, machine learning, datasets, neural networks, retail.

References

1. Guan C., Qin S., Long Y. Apparel-based deep learning system design for apparel style recommendation. / International Journal of Clothing Science and Technology. 2019 // - URL: https://www.semanticscholar.org/paper/Apparel-based-deep-learning-system-design-for-style-Guan-

Qin/faee9a9362181025d2abb34010bb4a4f9f667404 (accessed

03/13/2023)

2. Gupta V. Sentiments Analysis of Amazon Reviews Dataset By using Machine Learning / International Journal for Research in Applied Science and Engineering Technology. 2023 // - URL: https://www.researchgate.net/publication/367614690_Sentiments_Anal ysis_of_Amazon_Reviews_Dataset_By_using_Machine_Learning (accessed 03/13/2023)

3. Knoll D. [et al.]. An automated packaging planning approach using machine learning. / Published by Elsevier 2019. // - URL: https://www.researchgate.net/publication/333986159_An_automated_p ackaging_planning_approach_using_machine_learning (accessed 03/13/2023)

4. Krishnan R, CV Krishnaveni, AV Krishna Prasad Telecom Churn Prediction using Machine Learning // World Journal of Advanced Engineering Technology and Sciences. 2022. No. 2 (7). C. 087-096.

5. Liang J., Ramanauskas B., Kurenkov A. Job Loss Due To AI — How Bad Is It Going To Be? / Skynet Today. 2019. // - URL: https://www.skynettoday.com/editorials/ai-automation-job-loss (accessed 03/13/2023)

6. Manyika J. [et al.]. A future that works: automation, employment, and productivity 2017. / McKinsey&Company // - URL: https://www.semanticscholar.org/paper/A-future-that-works%3A-automation%2C-employment%2C- and-Manyika-Chui/e3ac9558f18234cdf92b730a7386ff16d446a1af (Accessed 03/13/2023)

7. Namburu A., Selvaraj P., Varsha M. Product pricing solutions using hybrid machine learning algorithm / Innovations in Systems and Software Engineering. 2022. // - URL: https://link.springer.com/article/10.1007/s11334-022-00465-3 (accessed 13.03.2023)

8. Ren S., Chan H. L., Siqin T. Demand forecasting in retail operations for fashionable products: methods, practices, and real case study // Annals of Operations Research. 2020. No. 1-2 (291). pp. 761-777.

9. Tabianan K., Velu S., Ravi V. K-Means Clustering Approach for Intelligent Customer Segmentation Using Customer Purchase Behavior Data // Sustainability (Switzerland). 2022. No. 12 (14).

10. Ting-Ting S. [and others]. Interest Points guided Convolution Neural Network for Furniture Styles Classification / 2019 6th International Conference on Systems and Informatics (ICSAI) // - URL: https://www.researchgate.net/publication/339559045_Interest_Points_g uided_Convolution_Neural_Network_for_Furniture_Styles_Classificatio n (Accessed 03/13/2023)

11. Innerwear Data from Victoria's Secret and Others (data set) // - URL: https://www.kaggle.com/datasets/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others (accessed: 13.03 .2023)

12. Fashion-mnist (data set) // - URL: https://github.com/zalandoresearch/fashion-mnist (accessed: 03/13/2023).

13. Electronic Products and Pricing Data (data set) // - URL: https://data.world/datafiniti/electronic-products-and-pricing-data (accessed: 13.03.2023).

14. Amazon Commerce reviews set Data Set (data set) // - URL: https://archive.ics.uci.edu/ml/datasets/Amazon+Commerce+reviews+se t (accessed: 03/13/2023).

15. Client data for churn prediction for an internet shipment reselling company (data set) // - URL: https://zenodo.org/record/6608990#.ZA78-C96CNp (accessed 03/13/2023).

16. Amazon Bin Image Dataset (data set) // - URL: https://registry.opendata.aws/amazon-bin-imagery/ (accessed: 03/13/2023).

17. Womens e-commerce clothing reviews (data set) // - URL: https://www.openml.org/search?type=data&status=active&id=43663&so rt=runs (accessed: 03/13/2023).

18. FETA IKEA (data set) // - URL: https://paperswithcode.com/dataset/feta-ikea (accessed: 03/13/2023).

X X

о

го А с.

X

го m

о

О

м

CJ

i Надоели баннеры? Вы всегда можете отключить рекламу.