БОЛЬШИЕ ДАННЫЕ И HADOOP: ОБЗОРНЫЙ ДОКЛАД

Дзидзава Э.Т.; Ахмедов К.М.

УДК 62

Э.Т. Дзидзава, К.М. Ахмедов БОЛЬШИЕ ДАННЫЕ И HADOOP: ОБЗОРНЫЙ ДОКЛАД

В этом мире информации термин BIG DATA появился с новыми возможностями и проблемами, необходимыми для работы с огромным объемом данных. BIG DATA занял очень важное место и становится выбором для новых исследований. Чтобы найти полезную информацию от огромного количества данных до организаций, нам необходимо проанализировать данные. Чтобы получить информацию из неструктурированных данных в Интернете в виде текстов, изображений, видео или сообщений в социальных сетях, требуется множество анализов. В этом документе представлен обзор больших данных, их преимуществ и возможностей для будущих исследований. Большие данные представляют, как возможности, так и проблемы для исследователей.

Ключевые слова: большие данные; Hadoop; MapReduce; HDFS; сбор данных

Большие данные - это расплывчатая тема, и не существует точного определения, которому следовали бы все. Данные, которые имеют сверхбольшой объем, поступают из множества источников, разнообразных форматов и поступают к нам с большой скоростью, обычно называются большими данными. Большие данные могут быть структурированными, неструктурированными или полуструктурированными, которые не обрабатываются традиционными методами управления данными. Данные могут генерироваться в Интернете в различных формах, таких как тексты, изображения или видео или сообщения в социальных сетях. Есть четыре характеристики для больших данных. Это объем, скорость, разнообразие и достоверность.

Объем означает масштаб данных или большой объем данных, генерируемых каждую секунду. Данные, сгенерированные машиной, являются примерами этих характеристик. Вторая характеристика больших данных - скорость, что означает анализ потоковых данных.

Скорость - это скорость, с которой данные генерируются и обрабатываются. Разнообразие - еще одна важная характеристика больших данных. Это относится к типу данных.

Задачи и возможности. Проблемы с большими данными:

1. Неоднородность и неполнота: Если мы хотим проанализировать данные, они должны быть структурированы, но когда мы имеем дело с большими данными. Неоднородность - это большая проблема в аналитических данных, и аналитикам необходимо с ней справиться. Рассмотрим пример пациента в больнице. Мы будем делать каждую запись для каждого медицинского теста. А еще мы сделаем запись о пребывании в больнице, она будет разной для всех пациентов. Этот дизайн плохо структурирован. Поэтому требуется управление неоднородным и неполным. К этому следует применить хороший анализ данных.

2. Масштаб: Как следует из названия, большие данные имеют большой размер наборов данных. Управление большим наборами данных - большая проблема на протяжении десятилетий. Мир движется к облачной технологии, благодаря чему данные с ущерба генерируются с очень высокой скоростью. Высокая скорость увеличения объема данных становится серьезной проблемой для аналитиков данных. Для хранения данных используются жесткие диски. У них более низкая производительность ввода-вывода.

3. Своевременность: Еще одна проблема с размером - скорость. Если наборы данных большие по размеру, больше времени потребуется на их анализ. Любая система, которая эффективно работает с размером, скорее всего, будет хорошо работать с точки зрения скорости.

4. Конфиденциальность: Конфиденциальность данных - еще одна большая проблема с большими данными.

5. Сотрудничество между людьми: Несмотря на продвинутые вычислительные модели, существует множество закономерностей, которые компьютер не может обнаружить. Новый метод использования человеческой изобретательности для решения проблемы - это краудсорсинг. Википедия - лучший пример. Мы доверяем информации, предоставленной незнакомцами, однако в большинстве случаев они верны. Нам нужна технологическая модель, чтобы справиться с этим.

Возможности для больших данных: большие данные предоставляют так много возможностей бизнес-организациям, чтобы вывести свой бизнес на более высокий уровень прибыли. Не только технологии,

ISSN 2223-4047

Вестник магистратуры. 2021. № 1-1(112)

но и большие данные играют важную роль во всех сферах, таких как здравоохранение, экономика, банковское дело и корпорации, а также в правительстве.

Рамка фреймворк. Hadoop - это программное обеспечение с открытым исходным кодом, используемое для обработки больших данных. Он очень популярно используется организациями / исследователями для анализа больших данных. Hadoop находится под влиянием архитектуры Google, файловой системы Google и MapReduce. Hadoop обрабатывает большие наборы данных в распределенной вычислительной среде. Система Apache Hadoopecystem состоит из ядра Hadoop, MapReduce, HDFS и других компонентов, таких как Apache Hive, Base и Zookeeper.

Hadoop состоит из двух основных компонентов:

1. Хранилище: Распределенная файловая система Hadoop (HDFS): это распределенная файловая система, которая обеспечивает отказоустойчивость и предназначена для работы на стандартном оборудовании. HDFS обеспечивает высокопроизводительный доступ к данным приложений и подходит для приложений с большими наборами данных. HDFS может хранить данные на тысячах серверов. HDFS имеет архитектуру ведущий / ведомый. Файлы, добавленные в HDFS, разбиваются на блоки фиксированного размера. Размер блока можно настроить, но по умолчанию - 64 мегабайта.

2. Обработка: MapReduce: Это программная модель, представленная Google в 2004 году для простого написания приложений, которые обрабатывают большие объемы данных параллельно на больших кластерах оборудования отказоустойчивым способом. Это работает с огромным набором данных, разбивает задачу и наборы данных и запускает их параллельно.

Две функции в MapReduce следующие:

• Map - функция Map всегда запускается первой, обычно используется для фильтрации, преобразования или анализа данных. Выходные данные Map становится входом toReduce.

• Reduce - функция Reduce не является обязательной, обычно используется для суммирования данных из Mapfunction.

Приложения в разработке данных. Извлечение полезной информации из большого количества больших данных называется интеллектуальным анализом данных. Существует множество методов анализа данных, которые можно использовать с большими данными, некоторые из них:

A. Классификационный анализ: Это систематический процесс получения важной информации о данных и метаданных. Классификация также может использоваться для кластеризации данных. Кластерный анализ: это процесс выявления наборов данных, которые похожи друг на друга. Это делается для того, чтобы получить сходства и различия в данных. Например, группы клиентов, имеющих схожие предпочтения, могут быть нацелены на социальную среду.

Б. Анализ эволюции: Его также называют генетическим анализом данных, в основном использующим данные из последовательностей ДНК. Но может использоваться в банковском деле для прогнозирования фондовой биржи по временным рядам данных за предыдущие годы.

B. Анализ выбросов: Некоторые наблюдения, идентификации элементов не являются образцом в наборе данных. Это используется в медицинских и банковских задачах.

Обзоры литературы. Видьясагар С.Д. провел исследование по Big Data и Hadoopsystem и обнаружил, что организациям необходимо обрабатывать и обрабатывать петабайты наборов данных эффективным и недорогим способом. По его словам, в случае отказа какого-либо узла мы можем потерять некоторую информацию. Hadoop - это эффективная, надежная лицензия Apache с открытым исходным кодом. Hadoop используется для работы с большими наборами данных. Видьясагар С.Д. пришел к выводу, что «Hadoop разработан для работы на дешевом стандартном оборудовании, он автоматически обрабатывает репликацию данных и отказы узлов, он выполняет тяжелую работу - вы можете сосредоточиться на обработке данных, экономии средств и эффективной и надежной обработке данных». Распределенная файловая система Hadoop (HDFS) - это распределенная файловая система, предназначенная для работы на стандартном оборудовании. Hadoop играет важную роль в больших данных. В этом документе также рассматриваются текущие исследования в области интеллектуального анализа данных, а также были изучены некоторые обзоры литературы.

Библиографический список

1. Harshawardhan S. Bhosale, Prof. Devendra P. Gadekar "A ReviewPaper on Big Data and Hadoop" in International Journal ofScientific and Research Publications, Volume 4, Issue 10, October2ü14.

2. SMITHA T, V. Suresh Kumar "Application of Big Data in DataMining" in International Journal of Emerging Technology andAdvanced Engineering Volume 3, Issue 7, July 2013).

3. IBM Big Data analytics HUB,www.ibmbigdatahub.com/infographic/four-vs-big-data.

4. Mrigank Mridul, Akashdeep Khajuria, Snehasish Dutta, Kumar N "Analysis of Bidgata using Apache Hadoop and Map Reduce" international Journal of Advance Research in Computer Science andSoftware Engineering, Volume 4, Issue 5, May 2014.

5. Apache Hadoop Project, http://hadoop.apache.org/, 2013.

6. Smitha.T, Dr.V.Sundaram, "Classification Rules by Decision Treefor disease prediction" International journal for computerApplication, (IJCA) vol 43, 8, No-8, April 2012 edition. ISSN0975-8887; pp- 35-37.

7. Vidyasagar S. D, A Study on "Role of Hadoop in InformationTechnology era", GRA - GLOBAL RESEARCH ANALYSIS,Volume : 2 | Issue : 2 | Feb 2013 • ISSN No 2277 -8160.

8. BIG DATA: Challenges and opportunities, Infosys Lab Briefings,Vol 11 No 1, 2013.

9. Puneet Singh Duggal, Sanchita Paul, Big Data Analysis: Challengesand Solutions in International Conference on Cloud, Big Data andTrust 2013, Nov 13-15, RGPV.

10. Big Data, Wikipedia, http://en.wikipedia.org/wiki/Big_dataWebster, Phil. "Supercomputing the Climate: NASA's Big Data Mission".CSC World. Computer Sciences Corporation. Retrieved 2013-01-18.

ДЗИДЗАВА ЭВЕЛИНА ТИМУРОВАНА - бакалавр, Мытищинский филиал Московский государственный технический университет им Н.Э. Баумана. Россия.

АХМЕДОВ КАЗБЕКМЕЖВЕДИНОВИЧ- магистрант, Мытищинский филиал Московский государственный технический университет им Н.Э. Баумана. Россия.

БОЛЬШИЕ ДАННЫЕ И HADOOP: ОБЗОРНЫЙ ДОКЛАД Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дзидзава Э.Т., Ахмедов К.М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дзидзава Э.Т., Ахмедов К.М.

Текст научной работы на тему «БОЛЬШИЕ ДАННЫЕ И HADOOP: ОБЗОРНЫЙ ДОКЛАД»