Научная статья на тему 'Применение больших данных в электронной коммерции: Перспективы и проблемы'

Применение больших данных в электронной коммерции: Перспективы и проблемы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
325
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
«большие» данные / поиск структуры / кластеризация / машинное обучение / Интернет вещей / обнаружение аномалии. / Big Data / structure search / clustering / machine learning / Internet of things / anomaly detection

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ускенбаева Р. К., Бектемысова Г. У., Ахмер Ермек, Ахмер Ерасыл

Большие Данные на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Компании собирают огромное количество транзакционных и пространственно-временных данных, информацию о статусах своих транзакций. Существует большое количество патер-нов, которые можно обнаружить, анализируя эти данные с помощью инструментов анализа данных и прогнозирования наиболее вероятного поведения, например, вероятность покупки или обнаружение аномального поведения или присутствие мошеннических/ошибочных транзакций. Быстрыми темпами развиваются и технологии анализа данных. Однако все еще существуют недостатки технологий и инструментов при работе с углубленным анализом данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF BIG DATA IN E-COMMERCE: PERSPECTIVES AND PROBLEMS

Big Data today is one of the key drivers of information technology development. Companies collect a huge amount of transactional and space-time data, information about the status of their transactions. There are a large number of patterns that can be detected by analyzing this data using data analysis tools and predicting the most likely behaviour, such as the likelihood of buying or detecting abnormal behaviour or the presence of fraudulent / erroneous transactions. Data analysis technologies are also developing rapidly. However, there are still defi-ciencies in technology and tools when working with in-depth data analysis.

Текст научной работы на тему «Применение больших данных в электронной коммерции: Перспективы и проблемы»

<<Щ[1ШЗДиМ"^©иГМ&1>>#2(263,2<0]9 / TECHNICAL SCIENCE_7

TECHNICAL SCIENCE

УДК: 005

Ускенбаева Р. К.

Бектемысова Г. У.

Ахмер Ермек Ахмер Ерасыл

Международный университет информационных технологий

ПРИМЕНЕНИЕ БОЛЬШИХ ДАННЫХ В ЭЛЕКТРОННОЙ КОММЕРЦИИ: ПЕРСПЕКТИВЫ И

ПРОБЛЕМЫ

Uskenbayeva R.K.

Bektemysova G. U.

Akhmer Yermek

Akhmer Yerassyl

International Information Technology University

APPLICATION OF BIG DATA IN E-COMMERCE: PERSPECTIVES AND PROBLEMS

Аннотация

Большие Данные на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Компании собирают огромное количество транзакционных и пространственно-временных данных, информацию о статусах своих транзакций. Существует большое количество патер-нов, которые можно обнаружить, анализируя эти данные с помощью инструментов анализа данных и прогнозирования наиболее вероятного поведения, например, вероятность покупки или обнаружение аномального поведения или присутствие мошеннических/ошибочных транзакций. Быстрыми темпами развиваются и технологии анализа данных. Однако все еще существуют недостатки технологий и инструментов при работе с углубленным анализом данных.

Abstract

Big Data today is one of the key drivers of information technology development. Companies collect a huge amount of transactional and space-time data, information about the status of their transactions. There are a large number of patterns that can be detected by analyzing this data using data analysis tools and predicting the most likely behaviour, such as the likelihood of buying or detecting abnormal behaviour or the presence offraudulent / erroneous transactions. Data analysis technologies are also developing rapidly. However, there are still deficiencies in technology and tools when working with in-depth data analysis.

Ключевые слова: «большие» данные, поиск структуры, кластеризация, машинное обучение, Интернет вещей, обнаружение аномалии.

Keywords: Big Data, structure search, clustering, machine learning, Internet of things, anomaly detection.

1. Введение

С ростом продвижения интернет-технологий все большее количество данных поступает в современные организации. Данные становятся все более и более сложными из-за непрерывной генерации данных с многих устройств и источников, таких как мобильные телефоны, персональные компьютеры, государственные записи, медицинские записи и социальные сети. Согласно международному отчету о сотрудничестве в области данных, к 2011 году сгенерирована 1,8 гбайт данных (1,8 х 1021 байт) [1]. К 2020 году этот показатель вырастет до более 35 гц. Большие Данные позволяет привлекать потенциальные приложения. Приложения Big Data Analytics (BDA) могут помочь организациям прогнозировать уровень безработицы, стимулировать экономический рост и обеспечивать будущую тенденцию для профессиональных инвесторов и других секторов. В здравоохранении большие данные могут помочь предсказать тенденции воздействия определенных заболеваний. Одним из наиболее за-

метных примеров Больших Данных для здравоохранения является Google Flu Trend (GFT). В 2009 году Google использовала Большие Данные для анализа и прогнозирования влияния тенденций, распространения вируса гриппа H1N1. Было доказано, что тренд, который Google нарисовал из ключевых слов поиска, связанных с H1N1, очень близок к результатам от независимой от гриппа системы предупреждения Sentinel GP и Health Statistics. Программа GFT была разработана для обеспечения мониторинга в реальном времени случаев гриппа во всем мире на основе поисковых запросов Google, соответствующих срокам деятельности, связанной с гриппом. Большие данные создают замечательное внимание во всем мире с различными определениями больших данных. «Большие данные» - это набор данных с размером, который может быть захвачен, передан, скопирован, сохранен и проанализирован [2]. Другое определение состоит в том, что большие данные генерируются из растущего множества источников, включая интернет-клики, мобильные транзакции,

«C@yL@qyiym-J©yrMaL»#2î2â),2@19 / TECHNICAL SCENC

пользовательский контент и социальные сети, а также целенаправленно созданный контент через сенсорные сети или бизнес-транзакции, такие как информация о клиентах и транзакции покупки [3]. У Больших Данных есть отличительные характеристики (объем, разнообразие, скорость, достоверность и ценность), которые можно легко отличить от традиционной формы данных, используемых в аналитике. Каждая отрасль движется на шаг ближе к пониманию мира Больших Данных о том, как он применяется при решении проблем. Большинство отраслей промышленности по-прежнему оценивают, есть ли ценность при реализации больших данных, в то время как некоторые другие отрасли уже применяют аналитику больших данных. Приложения «Большие данные» были показаны в десятке таких отраслей, как банковское дело и ценные бумаги, средства связи, СМИ и развлечения, поставщики медицинских услуг, поставщики медицинских услуг, образование, производство и природные ресурсы, правительство, страхование, розничная и оптовая торговля, транспорт, энергетика и коммунальные услуги. Несмотря на то, что «Большие данные» сталкиваются с определенными проблемами, ее внедрение практикуется отраслями в этих секторах. Деятельность розничной торговли и оптовой торговли является частью нашей экономики, а также повседневной жизни. Потребительские и бизнес-рынки ежедневно покупают товары и услуги в соответствии с их потребностями и предпочтениями. Розничные и оптовые сектора вносят значительный вклад в экономику стран.

В сегодняшнем конкурентном и сложном деловом мире компании необходимо опираться на структурированный по данным или полу-структу-рированные данные с целью структурирования или полуструктурирования данных для поддержки своих решений. Анализ больших данных может принести пользу для электронных продавцов, повышая эффективность затрат на транзакцию на рынке (например, транзакцию покупателя-продавца онлайн), эффективность затрат на управление транзакциями (например, эффективность процесса) и экономию времени. В частности, в контексте электронной коммерции Большие Данные позволяет продавцам отслеживать поведение отдельных пользователей и определять наиболее эффективные способы конвертации одноразовых клиентов в постоянных клиентов. Ввод большой аналитики данных в цепочку создания стоимости компании на 5-6% выше по сравнению с конкурентами [4]. Недавние исследования фокусируются на позитивных механизмах применения аналитики Больших Данных с небольшим вниманием к негативным последствиям применения аналитики больших данных, таких как конфиденциальность и безопасность [5], зависимость от покупок [6] и влияние групп [7]. Однако положительные и отрицательные стороны применения большой аналитики данных в ответах клиентов не сообщаются. До 2008 года были обнаружены три модели поведения потребителей; клиенты намеревались потреблять больше продуктов. В 2008 году глобальный

8

экономический и финансовый кризис, который произошел во всем мире, заставил клиентов дважды подумать, прежде чем покупать. Следовательно, клиенты покупали меньше, и их поведение стало защитным. Сегодня клиенты сталкиваются с массовой и разнообразной информацией. Поэтому альтернативные издержки для процесса принятия решений более сложны, и их поведение становится непредсказуемым. Это требует нового метода для понимания поведения клиентов, и BDA может быть потенциальным методом. Во многих предыдущих исследованиях сообщалось, что влияние аналитики больших данных на бизнес-ценности и бизнес-проблемы [8,9]. Тем не менее, ему не хватает исследований по мнениям клиентов, чтобы узнать, как клиенты думают о применении BDA для онлайн-поку-пок. Таким образом, исследование ответов клиентов на влияние плюсов и минусов при применении BDA становится передовой тенденцией в маркетинговой стратегии. С точки зрения маркетинга, модель AIDA исследуется и используется для измерения ответов клиентов на четыре этапа: внимание, интерес, желание и действие [10,11]. Модель AIDA была разработана для представления четырех этапов, на которых e-vendor берет своих клиентов в процессе продажи. Эта модель иллюстрирует, что покупатели проходят через внимание, интерес, желание и действие. Поставщики электронных услуг должны сначала привлечь внимание клиента, а затем повысить интерес к продукту или услуге. Сильный интерес должен создать желание использовать продукт или услугу. Действие в модели AIDA показывает, что клиент получает возможность совершить покупку и закрыть продажу. Основываясь на модели AIDA, это исследование исследует ответы потребителей в два этапа: Намерение и поведение. В этом исследовании основное внимание уделяется изучению и определению положительных и отрицательных факторов влияния BDA на отзывы клиентов в средах электронной коммерции B2C с использованием приложения BDA. Благодаря анализу влияющие факторы применения BDA могут помочь предприятиям скорректировать стратегию и удовлетворить потребительский спрос при применении BDA. Клиенты также могут понять себя в эпоху Больших Данных.

2. Проблемы интеллектуального анализа данных в E-коммерции

Помимо преимуществ интеллектуального анализа данных возникают проблемы для компаний электронной коммерции, которые выглядят следующим образом:

1) Преобразование данных; В этом случае преобразование данных представляет собой проблему для инструментов интеллектуального анализа данных. Сегодня данные, необходимые для трансформации, могут быть получены только из двух разных источников, одна из которых должна быть построена активная и операционная система для хранилища данных, а во-вторых, она должна включать некоторые виды деятельности, которые включают

«c@yl@qyiym-j©yrmal»#2î2â),2@i9 / technical scenic

в себя назначение новых столбцов, объединение данных, а также агрегирование данных. В первом процессе его необходимо модифицировать нечасто, только когда происходит изменение сайта, и, наконец, набор преобразованных данных дает значительную проблему в процессе интеллектуального анализа данных.

2) Масштабируемость алгоритмов интеллектуального анализа данных; С yahoo, которая имеет более 1,2 миллиарда просмотров страниц за день с наличием большого объема данных, масштабируемость возникает со значительными проблемами; • Из-за большого объема данных, собранных с вебсайта в разумные сроки, алгоритм интеллектуального анализа данных может обрабатывать или обрабатывать его настолько, насколько это необходимо, особенно из-за масштабности нелинейно. • Создаваемые модели имеют тенденцию быть слишком сложными, чтобы люди могли понять, как это интерпретируется.

3) Преобразование данных и создание моделей для бизнес-пользователей. Имея возможность давать определенные ответы на вопросы отдельных бизнес-пользователей, для этого требуются аспекты преобразования данных, но с техническим пониманием инструментов, используемых в анализе. Многие коммерческие разработчики отчетов, а также инструменты онлайн-аналитической обработки (OLAP) в основном трудно понять бизнес -пользователям. В этом случае двумя предпочтительными решениями являются (I) предоставление шаблонов (например, онлайн-аналитических кубов обработки и рекомендуемых преобразований для разработки) для ожидаемых вопросов и (ii) предоставление экспертов через консультацию или даже сервисную организацию. Эта проблема в основном заключается в том, чтобы найти способ обогатить бизнес-пользователей так, чтобы они могли самостоятельно анализировать информацию.

3. Перспективы в области электронной коммерции

Перспективы в области электронной коммерции быстро ускорились с применением методов машинного обучения, таких как правил ассоциации и классификация. Важные результаты работы показывают, что область удержания клиентов получила наибольшее внимание в области исследований. Среди них программы маркетинга и лояльности «один к одному» являются наиболее популярными исследовательскими областями. Модели, основанные классификацией и правилом ассоциации являются наиболее часто используемыми моделями для интеллектуального анализа данных в управлении взаимоотношениями с клиентами. Машинное обучение, естественно, требует много времени, поэтому парадигма облачных вычислений оказалась важными альтернативами ускоренным машинным платформам обучения. Обзор представляет собой дорожную карту для будущих исследований в области применения методов интеллектуального ана-

9

лиза данных в CRM. Зорница Козарева [12] из лабораторий Yahoo изучила, что различные таксономии организации продуктов используются на различных известных торговых площадках. Различные таксономии организуют продукты, затрудняющие и трудоемкие для продавцов, чтобы классифицировать продукты. Для решения этой проблемы предлагается автоматический механизм категоризации продуктов, который присваивает правильную категорию продукта из таксономии для данного названия продукта. В работе [12] 319 категорий, организованных на 6 уровней, и оценка эффективности выполняется для 445 наименований продуктов с использованием нескольких алгоритмов. Был получен лучший f-балл 0,88.

В данной работе рассматриваются проблемы, связанные с классификацией больших данных и прогнозированием вторжения в данные сетевого трафика, «на лету». Он требует подходов машинного обучения, которые должны захватывать глобальные знания о шаблонах трафика. Кроме того, свойства Big Data ставят серьезные проблемы для внедрения систем машинного обучения. А также обсуждаются проблемы при обработке классификации крупных данных. Были представлены объяснение того, как системы рекомендаторов связаны с некоторыми традиционными методами анализа базы данных. Они также анализируют системы рекомендаций на шести ведущих веб-сайтах и изучают, как системы рекомендаций помогают сайтам электронной коммерции увеличить продажи. На основе исследования создается таксономия систем рекомендаций, которая включает требуемые потребительские ресурсы, знания, необходимые из базы данных, способы предоставления рекомендаций потребителям, технологии создания рекомендаций и уровень персонализации рекомендаций. Кроме того, рассматриваются несколько открытых исследовательских проблем в области систем рекомендаций и конфиденциальности таких систем (примеры Amazon и Alibaba Большие Данные).

Классификация продуктов для сайтов электронной коммерции является необходимостью для успешной продажи бизнеса и продуктов. Очень важно, чтобы продукты были перечислены в точных категориях, чтобы пользователи находили свои продукты в соответствующих категориях. В работе [13] исследуются экспериментальные результаты, которые были проведены с использованием различных методов классификации признаков в сочетании с тремя основными классификаторами: Naïve Bayes, SVM, K-Nearest Neighbors, а также LDA - неконтролируемый классификатор тематических разделов. Тогда как авторы [14] представили метод классификации продуктов в набор известных категорий, используя научное наблюдение Naïve Bayes и его улучшенную версию. Для создания функций для классификатора используется информация о каталогах продуктов от разных дистрибьюторов на Amazon.com. Цель состоит в том, чтобы показать усовершенствование автоматизации категоризации продукта.

«c@yl©qyaym-j©yrmal»#2î2â),2@i9 / technical пашне

10

Классификация и регрессионный анализ на очень больших объемах данных обучения могут потребовать большого количества компьютерной памяти и вычислительной мощности. Особенно с данными, представляющими сложные нелинейные поведения, как с текстом, речью, почерком,

распознаванием лиц, прогнозированием цен на акции и финансовым прогнозированием, расчетный счет может быть довольно большим.

Таблица 2, показывающая сравнение различных работ с использованием различных видов машинного обучения для классификации и прогнозирования категории продуктов электронной коммерции.

Таблица 2

Сравнение: Машинное обучение в сфере E-коммерции

Ссылка Дата-сет Сравнение алгоритмов машинного обучения

[12] Ручные аннотированные названия продуктов с торговой платформы Yahoo One-Against-All (OAA)and Error Correcting Tournament (ECT)

[14] Несколько датасетов от Ingram Micro, ведущего ИТ-дистрибьютора Naïve Bayes, KNN and Tree Classifiers

[13] Информация о 35 000 продуктах и атрибуты для 45 категорий с сайта Amazon. Naïve Bayes, SVM, K- Nearest Neighbors, and Latent Dirichlet Allocation (LDA is an unsupervised document topic classifier).

[15] Промышленные данные от eBay Fat-Naïve Bayes, Flat K- Nearest Neighbour (KNN) and KNN-SVM

Однако появление в последние годы облачных вычислений все меняет. Поставщики IaaS, такие как платформы Amazon Web Services (AWS) и «Google Cloud», теперь предлагают доступ к практически неограниченной вычислительной мощности по запросу в виде кластерных параллельных серверов, которые могут использоваться для почасовой оплаты. Торговые платформы, такие как Amazon, e-Bay, Walmart и Yahoo и т. Д., Организуют продукты в разных таксономиях продуктов, что затрудняет категоризацию продавцов. Категоризация товаров является основной проблемой, выявленной в электронной коммерции.

Машинное обучение по своей сути является трудоемкой задачей, поэтому было предпринято множество усилий для ускорения времени выполнения. Парадигмы облачных вычислений и облачные провайдеры оказались ценными альтернативами ускоренным машинным платформам обучения. Авторами были исследованы, как облачная вычислительная модель воздействует на поле машинного обучения.

Облачные вычислительные платформы для машинного обучения позволяют разработчикам всех уровней навыков использовать технологию машинного обучения. Это позволяет пользователям:

• С инструментами визуализации и мастерами, которые ведут их через процесс создания моделей машинного обучения без необходимости изучения сложных алгоритмов и технологий машинного обучения

• Создать сложные, крупномасштабные модели машинного обучения, включая сложные модели регрессии для классификации.

• Автоматическое масштабирование приложений на основе машинного обучения. Чтобы генерировать прогнозы путем поиска шаблонов в наших существующих данных.

Популярные инструменты и библиотеки статистики уже развернуты в облаке. Существующие

платформы также позволяют пользователям создавать Hadoop кластер в облаке и запустить задания на нем.

Таким образом, данное исследование заключается в выявлении и использовании знаний о причинно-следственных взаимосвязях, абстрактных знаний и идей структурированных данных, на основе применения базовых элементов статистики и вероятностных моделей. В частности нас интересует сфера медимаркетов и онлайн магазинов с большим набором клиентской базой и продуктов с различными параметрами. Для этого необходимо было сформулировать следующие требование : был произведен обзор крупнейших онлайн магазинов таких как (ikea, Alibaba, amazon, mediamarket). Анализ показал, что каталог продуктов заключает в себе скрытую информацию о взаимосвязях между сущностями, типов и значений свойств сущностей, абстрактные модели и свойства характерные каждому формату, которые в совокупности могут быть использованы для создания предсказательной модели обнаружения структуры по заведомо неизвестному каталогу. Таким образом, становится возможным автоматизировать процесс трансофрмации данных из одного формата в другой, что позволит магазину значительно увеличить свою базу поставщиков и каталог продукций.

Список литературы

1. Gantz, J .; Reinsel, D. Извлечение ценности из хаоса. Доступно в Интернете: https://www.emc.com/collateral/ analytics-reports / idc-extracting-value-from-chaos-ar.pdf (доступно 10 мая 2017 г.).

2. Manyika, J .; Чуй, М .; Brown, B .; Bughin, J .; Dobbs, R .; Roxburgh, C .; Байерс, A.H. Big Data: следующий рубеж для инноваций, конкуренции и производительности; McKinsey Global Institute: Вашингтон, США, 2011. URL: http://parallel.ru/mvs/levin.html (дата обращения: 27.05.2012).

а technical scenc

3. George, G .; Haas, M.R .; Pentland, A. Big Data и управление. Акад. Manag. J. 2G14, 57, 321326.

4. McAfee, A.; Brynjolfsson, E .; Davenport, T.H .; Patil, D .; Бартон, Д. Большие данные: революция управления. Харв. Bus. Rev. 2G12, 9G, 61-67.

5. Бозе, Р. Продвинутая аналитика: возможности и проблемы. Ind. Manag. Сист данных. 2GG9, 1G9, 155-172.

6. Lo, H.Y .; Harvey, N. Влияние шокирующей зависимости на принятие решений потребителями: веб-исследования в режиме реального времени. J. Behav. Addict. 2G12, 1, 162-17G

7. Chu, T.H .; Chen, Y.Y. С хорошим мы становимся хорошими: понимание внедрения электронного обучения по теории планируемого поведения и влияния групп. Вычи. Образа. 2016, 92, 3752.

S. Actor, S .; Wamba, S.F. Большая аналитика данных в электронной коммерции: систематический обзор и повестка дня будущих исследований. Электрон. Отметка. 2016, 26, 173-194.

9. Barton, D .; Judge, D. Продвигающая аналитика работает для вас. Харв. Bus. Rev. 2012, 90, 78-S3

11

1G. Эренберг А.С. Повторяющаяся реклама и потребитель. J. Реклама. Местожительство 2000, 4G, 39-4S

11. Lee, T.R .; Lin, J.H .; Liao, L.W.C .; Yeh, T.H. Управление положительными и отрицательными характеристиками корпоративного микроблога, чтобы привлечь пользователя к действию с точки зрения поведенческой реакции. Int. J. Manag. Enterp.

12. Зорница Козарева: «Все любят покупки! Мультиклассовая категоризация продуктов для электронной коммерции », Технологии человеческого языка: Ежегодная конференция Североамериканской главы 2015 года, страница 1329-1333, Денвер, Колорадо, 31 мая - 5 июня 2015 года, Ассоциация вычислительной лингвистики

13. Srinivasu Gottipati и Mumtaz Vauhkonen, «Классификация продуктов электронной коммерции»

14. Сушант Шанкар и Ирвинг Лин, «Применение машинного обучения к категоризации продукта»

15. Дэн Шен, Жан-Дэвид Рувини, Бадрул Сарвар, «Крупномасштабная категоризация предметов для электронной коммерции», CIKM «12, 2012, Мауи, США, США. ACM 978-1-45G3-1156-4

Лысенко Евгений Алексеевич

доцент, кандидат технических наук Омский государственный технический университет Нестеренко Григорий Анатольевич доцент, кандидат технических наук Омский государственный технический университет Холодков Виталий Сергеевич Студент группы ЗЭТМм -161 (магистр 2-й курс) Омский государственный технический университет Буграков Виктор Сергеевич Студент группы ЭТМ-162 (бакалавр 3-й курс) Омский государственный технический университет

МЕТОД ЗАЩИТЫ КЛАПАННОЙ ГРУППЫ ОТ ИЗНОСА

Lysenko Evgeny Alekseevich

Associate Professor, Candidate of Technical Sciences Omsk State Technical University Nesterenko Grigory Anatolevich Associate Professor, Candidate of Technical Sciences Omsk State Technical University Kholodkov Vitaly Sergeevich Student group ZETMm -161 (Master 2 nd course) Omsk State Technical University

Bugrakov Viktor Sergeevich Student group ETM-162 (bachelor 3rd year) Omsk State Technical University

METHOD OF PROTECTION OF THE VALVE GROUP FROM WEAR

Abstract:

This article discusses one of the methods to protect the valve group from wear, which in modern cars has become a significant problem. The purpose of the article is to analyze various methods ofprotection against wear and choose the most reliable process. It is revealed that the most universal and technological process of gasthermal spraying is plasma spraying.

i Надоели баннеры? Вы всегда можете отключить рекламу.