АНАЛИЗ И УСТАНОВКА ПЛАТФОРМЫ ДЛЯ РАСПРЕДЕЛЁННОЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ «APACHE HADOOP»

Мельников Д.С.

УДК 004.6

Мельников Д.С.

студент, высшая школа информационных технологий и автоматизированных систем Северный (Арктический) Федеральный Университет имени М.В. Ломоносова

(г. Архангельск, России)

АНАЛИЗ И УСТАНОВКА ПЛАТФОРМЫ ДЛЯ РАСПРЕДЕЛЁННОЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ «APACHE HADOOP»

Аннотация: в статье проанализированы возможности платформы для распределённой обработки больших данных «Apache Hadoop», а также проведана её установка и настройка.

Ключевые слова: большие данные, обработка и хранение данных.

Работа в сфере аналитики данных часто связана с обработкой большого объёма информации. Такими сферами, например является следующий список:

1) Банковская - для обработки данных о клиентах и автоматического подборка лучших для клиентов предложениях

2) Здравоохранение - для обработки данных о пациентах, вывода статистки, составления прогнозов эпидемий и пандемий.

3) Розничная торговля - для отслеживания роста и падения цен.

4) Обучение нейронных сетей.

5) И так далее

На обработку огромного количества ежеминутно поступающей информации одному устройству понадобится большой промежуток времени. Именно для этих целей в 2005 году был разработан «Apache Hadoop» (далее Hadoop). Hadoop является экосистемой с открытым кодом и состоит из несколько

приложений позволяющим быстро обрабатывать и удобно работать с большими данными. Стоит ответить, что установка и настройка Hadoop это сложный и времязатратный процесс. Это вкупе с необходимостью искать или дописывать необходимые для отдельных задач скрипты отталкивают пользователей от использования данного продукта.

Для того чтобы начать установку необходимо создать виртуальную машину на базе операционной системы (далее ОС) «Linux». Для данного исследования был выбран дистрибутив ОС «Linux» «Linux Mint». Для создания виртуальной машины был использован «Oracle VM VirtualBox». Было выделено 32 гигабайта на жёстком диске, 4 гигабайта ОЗУ и 2 ядра процессора.

После создания виртуальной машины необходимо открыть консоль и прописать команды, представленные на рисунке 1.

wget -no-check-certrficate https://dlcdn.apache,org/hadoop/comnnon/stable/hadoop-33.5Jtar.gz tar xzf hadoop-3.3.B.tar.gz

Рис. 1. Процесс скачивания и разархивирования «Hadoop»

Далее откроем файл «set_vars.sh» и отредактируем его с помощью редактора «nano». Список внесённых изменений представлен на рисунке 2.

exp ort РАТН=$ PATH : IН AD О О Р J N STALL/b in exp ort РАТН=$ PATH : i H AD О О P J N 5TALL/S b i П export HADOOP_MAPRED_HOME=i HADOOPJ N STALL export HADOOP_COMMON_HOME=$HADOOPJNSTALL export HADOOP_HDFS_HOME=$HADOOPJNSTALL export YARN_HOME=i HAD OOP_ IN STALL

Рис. 2. Внесённые изменения в файл «set_vars.sh»

Далее создадим исполняющие файлы для запуска и остановки «Hadoop». С ними можно ознакомиться на рисунках 3 и 4.

#!/bin/bash

source ~/hadoop/bin/set_vars.sh

export HADOOP_MASTE=;=$(hostnanne | cut -d. fl) exp oit H AD O O P_CO N F_DI R= Ytm p/h a d oo p/etc11

export HADOOP_SSH_OPTS='-o NoHostAuthenticationFQrLocalhost=yes' export HAD O O P_C LASS PATH=|( hadoop classpath)

rnkdir /trnp/hadoop rnkdir /trnp/hadoop/etc

cp -/hadoop/etc/hadoop/* /tmp/hadoop/etc/

[ echo "cat «EOF: cat -/hadGop/etc/hadoop/core-site.xnnl; echo EOF) | sh > /tmp/hadoop/etc/core-site.xml ( echo "cat «EOF"; cat ~/hadoop/etc/hadoop/yarn-site,xml; echo EOF } | sh > /tmp/hadoop/etc/yarn-slte,xnnl

rnkdir /tmp/hdfs mkdlr /trnp/hdfs/logs

export HADOOP_LOG_D IR=/tmp/hdfs/logs

hdfs nam en ode -format

start-all.sh

ssh -N -R localhost: 58030:5 HADOOP_MASTER:803Q -R local host:58031 :5HADOOP_MASTER:8031 -R I o ca I ho st:58032: i H A DOO P_M A5TE R: 8 0 3 2 -R local host:58033:$HADOOP_MASTER:SQ33 -R I o ca I ho st: 58088: $ H A DOO P_M ASTE R: 8 0 8 8 -R local host:59000:$HADOOP_MASTER:9000 pudu-head1 &

Рис. 3. Запуск «Hadoop»

#!/bin/bash

source ~/hadoop/bin/set_vars.sh kill a II ssh stop-all.sh

Рис. 4. Остановка «Hadoop»

Последним действием будет запуск «Наёоор». Если всё успешно запустилось, то в консоли будет отражена информация, представленная на рисунке 5.

2023-05-19 18:45:59,504 INFO namenode.FSImageFormatProtobuf: Image file /tmp/hdfs/namenode/current/fsimage.ckpt 000000 0000000000000 of size 402 bytes saved in 0 seconds .

2023-05-19 18:45:59,539 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 2023-05-19 18:45:59,576 INFO namenode.FSNamesystem: Stopping services started for active state 2023-05-19 18:45:59,576 INFO namenode.FSNamesystem: Stopping services started for standby state 2023-05-19 18:45:59,583 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid=0 when meet shutdown. 2023-05-19 18:45:59,585 INFO namenode.NameNode: SHUTDOWNHSG:

SHUTDOWNMSG: Shutting down NameNode at freezen-VirtualBox/127.0.1.1

WARNING: Attempting to start all Apache Hadoop daemons as freezen in 10 seconds.

WARNING: This is not a recommended production deployment configuration.

WARNING: Use CTRL-С to abort.

Starting namenodes on [freezen-VirtualBox]

Starting datanodes

Starting secondary namenodes [freezen-VirtualBox] Starting resourcemanager Starting nodemanagers

freezen@freezen-VirtualBox:~/had?op$ ./end start

--2023-05-19 18:46:52-- http://www.gutenberg.org/files/20417/20417.txt

Распознаётся www.gutenberg.org (www.gutenberg.org)» 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47 Подключение Kwww.gutenberg.org (www.gutenberg.org)|152.19.134.47|:80... соединение установлено. HTTP-запрос отправлен. Ожидание ответа.. 302 Found Адрес: https://www.gutenberg.org/files/20417/20417.txt [переход] --2023-05-19 18:46:52-- https://www.gutenberg.org/files/20417/20417.txt

Подключение Kwww.gutenberg.org (www.gutenberg.org) |152.19.134.471:443... соединение установлено. HTTP-запрос отправлен. Ожидание ответа». 200 OK Длина: 674762 (659К) [text/plain] Сохранение в: «20417.txt.2»

20417.txt.2 100%[

====== ->] 658,95К 1,02МВ/S за 0,6s

2023-05-19 18:46:55 (1,02 MB/s) - «20417.txt.2» сохранён [674762/674762] --2023-05-19 18:46:55-- http://www.gutenberg.org/files/5000/5000-8.txt

Рис. 5. Успешный запуск «Hadoop»

В заключении можно сказать, что «Hadoop» достаточно сложно устанавливать и настраивать. В процессе установки несколько раз появлялась критические ошибки, информацию о исправлении которых было крайне сложно найти. Но после устранения всех ошибок и предварительной настройки, получилось запустить экосистему, с которой можно дальше работать.

СПИСОК ЛИТЕРАТУРЫ:

1. Из чего состоит Hadoop: концептуальная архитектура [Электронный ресурс]. URL: https://bigdataschool.ru/wiki/hadoop (дата обращения: 22.08.2023)

2. Hadoop [Электронный ресурс]. URL: https://hadoop.apache.org/docs/stable/ (дата обращения: 22.08.2023)

Melnikov D.S.

Northern (Arctic) Federal University named after M.V. Lomonosov

(Arkhangelsk, Russia)

ANALYSIS AND INSTALLATION OF THE APACHE HADOOP PLATFORM FOR DISTRIBUTED BIG DATA PROCESSING

Abstract: the article analyzes the capabilities of the Apache Hadoop platform for distributed big data processing, as well as its installation and configuration.

Keywords: big data, data processing storage.

АНАЛИЗ И УСТАНОВКА ПЛАТФОРМЫ ДЛЯ РАСПРЕДЕЛЁННОЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ «APACHE HADOOP» Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мельников Д.С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мельников Д.С.

ANALYSIS AND INSTALLATION OF THE APACHE HADOOP PLATFORM FOR DISTRIBUTED BIG DATA PROCESSING

Текст научной работы на тему «АНАЛИЗ И УСТАНОВКА ПЛАТФОРМЫ ДЛЯ РАСПРЕДЕЛЁННОЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ «APACHE HADOOP»»