СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP

Царев Ю.В.; Качайло В.С.; Кокорина А.Ю.

УДК 004.75

Царев Ю.В.

к.т.н., доцент кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

Качайло В.С.

студент 3 курса бакалавриата кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

Кокорина А.Ю.

студент 3 курса бакалавриата кафедры информационные системы и технологии Ярославский государственный технический университет (Россия, г. Ярославль)

СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP

Аннотация: в данной статье рассматриваются вопросы создания распределенного кластера Hadoop. Сформированный распределенный кластер Hadoop исследовался на предмет обработки тестового набора данных при различных конфигурациях распределенного кластера.

Ключевые слова: Большие данные, Hadoop, распределенный кластер, настройка, конфигурация.

Большие данные — это сбор и анализ большого набора данных, который содержит множество интеллектуальных и необработанных данных, основанных

272

на пользовательских данных, показаниях датчиков, медицинских и корпоративных данных. Платформа Hadoop используется для хранения, управления и распределения больших данных между несколькими серверными узлами. В этой статье рассматриваются вопросы создания распределенного кластера и управления кластером при различных характеристиках распределенной файловой системы Hadoop (HDFS) [1].

В качестве аппаратной части использовались компьютеры с процессорам i7 и оперативной памятью 16 Гб, объединенные в локальную сеть организации. Создание распределенного кластера осуществлялось на виртуальной машине Oracle VirtualBox версии 6.1 [2] на которую была установлена операционная система CentOs 7 [3]. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA [4].

В первую очередь, изменяли названия хостов (hostname) на каждом узле. Для master - hadoop-master, для n-го slave - hadoop-slave-n. Далее, в каждом узле добавим соответствующие записи в файл, располагающийся /etc/hosts:

027.0.0.1 localhost localhost. localdo ::1 localhost localhost.localdo

192.168.254.131 hadoop-master 192.16B.254.133 hadoop-slave-1

На следующем шаге конфигурируем беспарольный доступ по ssh: $ ssh-keygen 4 та

$ ssh-copy-id 4 ~Z.ssMd_rsa.pub hadoop-master $ ssh-copy-id 4 ~Z.ssMd_rsa.pub hadoop-slave-1 и т. д.

$ chmod 0600 ~/.ssh/authorized_keys Проверяем соединение между узлами.

Настраиваем файлы конфигурации hadoop (располагаются по пути:

/opt/hadoop-2.10.1/etc/hadoop

Нужно внести изменения в файлы: core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml.

Добавляем следующие записи:

1. В файл core-site.xml (адрес стартовой страницы hdfs) <configuration>

<name>fs.default.name</name> <value>hdfs://hadoop-master:9000/</value> </property> </configuration>

2. В файл hdfs-site.xml (пути хранения данных data-узлов и name-узла) (!) Предварительно, эти директории нужно создать и предоставить права

доступа (команда в терминале chmod 755 *путь*) <configuration> <property>

<value>/opt/hadoop/hadoop/dfs/name</value>

</property>

<value>/opt/hadoop/hadoop/dfs/data</value>

</property>

</configuration>

3. В файл mapred-site.xml (говорит о том, что mapreduce будет запускаться как yarn приложение)

<name>mapreduce.framework.name</name>

</property>

</configuration>

4. В файл yarn-site.xml (настройки и адреса yarn)

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name>

</property>

</configuration>

Проверяем, чтобы в файле конфигурации hadoop-env.sh (по пути /opt/hadoop-2.10.1/etc/hadoop) были следующие записи: export JAVA_HOME= (путь к jdk) export HADOOP_OPTS=-Dj ava.net.preferIPv4Stack=true export HADOOP_CONF_DIR=/opt/hadoop-2.10.1/etc/hadoop Копируем исходники hadoop на slave-узлы. cd /opt

scp -r hadoop-2.10.1 hadoop-slave-2:/opt/hadoop-2.10.1 и т. д.

Снова по пути /opt/hadoop-2.10.1/etc/hadoop редактируем файл slaves,

добавляя имена data-узлов.

hadoop-slave-1

hadoop-slave-2

и т. д.

На data-узлах так же создаём директории для данных, как указано в файле hdfs-site.xml и даём права доступа.

Запускаем форматирование на master-узле. hdfs namenode -format

Запускаем hdfs (файл start-dfs.sh по пути /opt/hadoop-2.10.1/sbin). После создания и настройки распределенного кластера Hadoop запускаем программу для обработки.

yarn jar target/lab1-1.0-SNAPSHOT-jar-with-dependencies.jar input output Выполнение процесса на data-узле можно контролировать загрузкой процессора (Рис. 1).

Рис. 1. Загрузка процессора при выполнении процесса на data-узле

Таким образом, в ходе выполнения работы был создан и сконфигурирован распределенный кластер Hadoop. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA на 1, 2 и 3 узлах DataNode.

СПИСОК ЛИТЕРАТУРЫ:

Apache Hadoop 2.10.1 [Электронный ресурс]. Режим доступа:

https://hadoop.apache.org/docs/r2.10.1/ (дата обращения 18.03.2022)

VirtualBox [Электронный ресурс]. Режим доступа:

https://www.centos.org/download/ (дата обращения 18.03.2022)

CentOS Linux [Электронный ресурс]. Режим доступа:

https://www.centos.org/download/ (дата обращения 18.03.2022)

IntelliJ IDEA [Электронный ресурс]. Режим доступа: https://www.jetbrains.com/ru-

ru/idea/ (дата обращения 18.03.2022)

Tsarev Yu.V.

Candidate of Technical Sciences, Associate Professor of the Department of Information Systems and Technologies Yaroslavl State Technical University (Russia, Yaroslavl)

Kachaylo V.S.

Bachelor of the 3rd year Department of Information Systems and Technologies Yaroslavl State Technical University (Russia, Yaroslavl)

Kokorina A.Yu.

Bachelor of the 3rd year Department of Information Systems and Technologies Yaroslavl State Technical University (Russia, Yaroslavl)

CREATION AND RESEARCH OF CHARACTERISTICS OF OPERATION OF HADOOP DISTRIBUTED CLUSTER

Abstract: this article discusses the issues of creating a distributed Hadoop cluster. The formed distributed Hadoop cluster was investigated for processing the test data set under various distributed cluster configurations.

Keywords: Big data, Hadoop, distributed cluster, setup, configuration.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Царев Ю.В., Качайло В.С., Кокорина А.Ю.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Царев Ю.В., Качайло В.С., Кокорина А.Ю.

CREATION AND RESEARCH OF CHARACTERISTICS OF OPERATION OF HADOOP DISTRIBUTED CLUSTER

Текст научной работы на тему «СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP»