Научная статья на тему 'KAGGLE - ПЛАТФОРМА ДЛЯ АНАЛИЗА ДАННЫХ'

KAGGLE - ПЛАТФОРМА ДЛЯ АНАЛИЗА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
85
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / KAGGLE / МАШИННОЕ ОБУЧЕНИЕ / ПЛАТФОРМА / СОРЕВНОВАНИЕ / КЛАССИФИКАЦИЯ / ПРОГНОЗИРОВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карпова А.Е.

Статья содержит информацию о платформе для анализа данных Kaggle. Представлен обзор о наиболее популярных соревнованиях, проводимых Kaggle.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпова А.Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «KAGGLE - ПЛАТФОРМА ДЛЯ АНАЛИЗА ДАННЫХ»

Вестник магистратуры. 2018. № 12-4(87)

ISSN 2223-4047

УДК 004

А.Е. Карпова

KAGGLE - ПЛАТФОРМА ДЛЯ АНАЛИЗА ДАННЫХ

Статья содержит информацию о платформе для анализа данных Kaggle. Представлен обзор о наиболее популярных соревнованиях, проводимых Kaggle.

Ключевые слова: анализ данных, Kaggle, машинное обучение, платформа, соревнование, классификация, прогнозирование.

В современном мире особое внимание уделяется решению задач по структурированию данных с большим набором различных параметров.

Анализ данных - это область знаний, находящаяся на стыке таких наук, как математика, информационные технологии и теории алгоритмов. В общем, анализ данных можно представить как процесс поиска скрытых закономерностей и генерации новых знаний. Основными задачами являются классификация, прогнозирование, выявление отклонений, выдача рекомендаций, поиск схожих черт. [0]

Особый интерес в сфере анализа данных в последнее время вызывают такие направления, как «глубокое обучение» (Deep Learning) и «большие данные» (Big Data).

Одной из наиболее популярных платформ для анализа данных является Kaggle, принадлежащая Google, Inc. Kaggle является крупнейшим в мире сообществом специалистов по анализу данных и машинному обучению. Также Kaggle предлагает общедоступную платформу данных, облачную рабочую станцию и короткую форму обучения искусственному интеллекту.

Особый интерес представляют соревнования, устраиваемые Kaggle. Каждый раз они привлекают тысячи команд и отдельных лиц. По результатам работы в конкурсах многие из исследователей публикуют статьи в рецензируемых журналах.

Сам процесс соревнования происходит следующим образом: организатор конкурса готовит данные и описание проблемы; участники экспериментируют с различными технологиями, конкурируя за создание наилучшей модели. По истечении конкурса организатор выплачивает призовой фонд в обмен на "Всемирную, бессрочную, безотзывную и безвозмездную лицензию [...] для использования выигрышного алгоритма". [2]

Одновременно с публичными соревнованиями Kaggle также проводит частные соревнования, которые ограничиваются лучшими участниками Kaggle.

С момента основания Kaggle провела сотни конкурсов машинного обучения. Соревнования привели к множеству успешных проектов, в том числе к продвижению современного уровня исследований в области ВИЧ, рейтингам шахмат и прогнозированию трафика. [2]

На сегодняшний день, среди активных соревнований проводимых Kaggle, наиболее популярными являются [3]:

Google Analytics Customer Revenue Prediction. В данном соревновании необходимо проанализировать набор данных клиентов Google Merchandise Store (также известный как GStore), чтобы прогнозировать доход на одного клиента. Ожидаемым результатом соревнований является более действенные операционные изменения и лучшее использование маркетинговых бюджетов для тех компаний, которые предпочитают использовать анализ данных поверх данных Google Analytics. Конкурс насчитывает более 3400 участвующих команд.

Two Sigma: Using News to Predict Stock Movements. Будучи научным инвестиционным менеджером, Two Sigma уже более 17 лет применяет технологии и науку о данных в финансовых прогнозах. Анализируя новостные данные для прогнозирования цен на акции участники конкурса могут продвигать состояние исследований в понимании прогностической способности новостей. Эта сила, если она используется, может помочь предсказать финансовые результаты и добиться значительного экономического воздействия во всем мире. Данный конкурс насчитывает более 1400 участвующих команд.

Human Protein Atlas Image Classification. В конкурсе будут разработаны модели, способные классифицировать смешанные образцы белков на микроскопических изображениях. Атлас человеческого белка

© Карпова А.Е., 2018.

Научный руководитель: Богданов Марат Робертович - кандидат биологических наук, доцент, Башкирский государственный педагогический университет им. М. Акмуллы, Россия.

ISSN 2223-4047

Вестник магистратуры. 2018. № 12-4(87)

будет использовать эти модели для создания инструмента, интегрированного с их системой смарт-микро-скопии для идентификации местоположения белка от высокопроизводительного изображения. Данный конкурс насчитывает 750 команд участниц.

Анализируя завершенные конкурсы, можно сказать, что наиболее распространенными являются задачи по анализу кредитного риска, удовлетворенности клиентов в банковской сфере, прогнозирование цены на недвижимость, маркетинг, выявление токсичных комментариев, мошеннический клик для рекламы мобильных приложений, задачи по обнаружению различных болезней, работа с графическими изображениями.

Представленные выше темы и области знаний показывают, что анализ данных необходим в различных научных сферах. А наиболее популярными являются маркетинг и банковская сфера.

Библиографический список

1.Поручиков, Михаил Алексеевич П 602 Анализ данных: учеб. пособие / М.А. Поручиков. - Самара: Изд-во Самарского университета, 2016. - 88 с. [Электронный ресурс]. - Режим доступа:URL: http://repo.ssau.ru/bitstream/Uchebnye-posobiya/Analiz-dannyh-Elektronnyi-resurs-ucheb-posobie-po-programme-vyssh-obrazovaniya-

59138/1 /%D0%9F%D0%BE%D1 %80%D1 %83%D1 %87%D0%B8%D0%BA%D0%BE%D0%B2%20%D0%9C. %D0%90. %20%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B% D1 %85.pdf (дата обращения 05.11.2018г.)

2.Kaggle [Электронный ресурс]. - Режим доступа:URL: https://en.wikipedia.org/wiki/Kaggle (дата обращения 06.11.2018г.)

3.Kaggle Competitions [Электронный ресурс]. - Режим доступа:URL: https://www.kaggle.com/competitions?sortBy=grouped&group=general&page=1&pageSize=20 (дата обращения 06.11.2018г.)

КАРПОВА АННА ЕВГЕНЬЕВНА - магистрант, Башкирский государственный педагогический университет им. М. Акмуллы, Россия.

i Надоели баннеры? Вы всегда можете отключить рекламу.