Hadoop HA集群与开发环境部署

番茄西红柿发布于2021-11-17 17:00 / 3149人阅读

摘要：伪分布模式在单节点上同时启动等个进程，模拟分布式运行的各个节点。完全分布式模式正常的集群，由多个各司其职的节点构成。在之前在集群中存在单点故障。正确的下载链接会有，这个就是公司需要用户在下载时提供的注册信息。

每一次 Hadoop 生态的更新都是如此令人激动
像是 hadoop3x 精简了内核，spark3 在调用 R 语言的 UDF 方面，速度提升了 40 倍
所以该文章肯定得配备上最新的生态

hadoop 生态简介

期待目标

环境

OS ：

CentOS 7.4

组件：

Hadoop 3x 及生态
- Yarn
- Mapreduce
- HDFS
Zookeeper 3.6.3

可选项
Hive
Flume 1.9
Sqoop 2
kafka 2x
Spark 3x

RDMS：

MySQL 5.7 or 8

开发语言：

JDK 8
Python 3.6 64bit
Scala 2.0 及以上

集群规划
在这里插入图片描述

建议：Zookeeper、JournalNode 节点为奇数
防止由脑裂造成的集群不可用
leader 选举，要求可用节点数量 > 总节点数量/2 ,节省资源

注意

Hadoop 安装有如下三种方式：

单机模式：安装简单，几乎不用做任何配置，但仅限于调试用途。
伪分布模式：在单节点上同时启动 NameNode、DataNode、JobTracker、TaskTracker、Secondary Namenode 等 5 个进程，模拟分布式运行的各个节点。
完全分布式模式：正常的 Hadoop 集群，由多个各司其职的节点构成。
HA ：在 Hadoop 2.0 之前,在 HDFS 集群中 NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动

此文采用 HA方案进行部署

可选方案：

多台物理机
虚拟机多开

Centos 安装

环境

此文采用多台物理机方案

内存 2G
硬盘 20G

共 4 台物理设备

镜像下载：

此文采用版本：Centos7.4 x64

中科大源

官方源

建议：百度网盘 centos7.4 密码: 8jwf

安装：

镜像刻录不进行介绍
请参考：
linux
windows
mac

选择语言：
采用最小安装方案
> >
设置 root 密码
点击 ROOT PASSWORD 设置 root 密码，不用添加用户
> >
等待完成

完成之后点击Reboot > >

虚拟机帮助

该节点为虚拟机的朋友提供帮助

网络配置

虚拟机配置修改

1）共享网络
在这里插入图片描述

2）选择桥接模式
在这里插入图片描述

centos 网络配置文件修改

1）查找配置文件

find / -name ifcfg-*

在这里插入图片描述
2）修改你 etc 目录下，并以你网卡名结尾的文件

# 这里举例我的vi /etc/sysconfig/network-scripts/ifcfg-ens33

动态 IP 修改操作：
启用 dhcp
注释 ipaddr 和 gateway
onboot 设置为 yes

建议做如下修改
修改为静态 IP

# 修改BOOTPROTO="static" #dhcp改为staticONBOOT="yes" #开机启用本配置# 添加IPADDR=192.168.x.x #静态IPGATEWAY=192.168.x.x  #默认网关NETMASK=255.255.255.0 #子网掩码DNS1=你本机的dns配置 #DNS 配置

3）重启服务

service network restart

4）ping 一下我的博客试试

ping uiuing.com

在这里插入图片描述

客户端连接

安装 net-tools

yum -y install net-tools

查看 ip

ifconfig

打开客户端终端进行 ssh 连接

ssh root@yourip

安装开发环境

Mysql

此文采用版本：mysql5.7

安装依赖

登陆 centos
在这里插入图片描述

安装主要依赖

yum -y install gcc gcc-c++ ncurses ncurses-devel cmake

安装 boost 库（可选）

Mysql5.7 版本更新后有很多变化，安装必须要 BOOST 库（版本需为 1.59.0）

boost 库下载地址：boost

1）下载

wget https://jaist.dl.sourceforge.net/project/boost/boost/1.59.0/boost_1_59_0.tar.gz

2）检查 MD5 值，若不匹配则需要重新下载

md5sum boost_1_59_0.tar.gz

3）解压

tar -vxzf boost_1_59_0.tar.gz

4）存储

mv boost_1_59_0 /usr/local/boost_1_59_0

下载

安装 wget

yum -y install wget

官方下载地址：mysql

1）下载

wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.21.tar.gz

2）检查 MD5 值，若不匹配则需要重新下载

md5sum mysql-5.7.21.tar.gz

编译安装

1）解压

tar -vxzf mysql-5.7.21.tar.gz

2）编译

cmake ./

make

3）安装

make install

配置 mysql

启动

systemctl start mysqld

或者

systemctl start | stop

查看 mysql 状态

systemctl status mysqld

或者

systemctl status

开机自启（可选）

systemctl enable mysqld

重载配置（可选）

systemctl daemon-reload

配置 root 密码
1）生成默认密码

grep temporary password /var/log/mysqld.log

在这里插入图片描述
localhost 后面的就是你的 root 密码

2）修改密码
登陆 mysql

mysql -uroot -p你的密码

在这里插入图片描述
修改密码

ALTER USER root@localhost IDENTIFIED BY 你的密码;

注意：mysql 5.7 默认安装了密码安全检查插件（validate_password），默认密码检查策略要求密码必须包含：大小写字母、数字和特殊符号，并且长度不能少于8位

以后可以用 update 更新密码

use mysql;update user set password=PASSWORD(你的密码) where user=root;flush privileges;

添加远程用户（可选）

GRANT ALL PRIVILEGES ON *.* TO 用户名@% IDENTIFIED BY 密码 WITH GRANT OPTION;

use mysql;UPDATE user SET Host=% WHERE User=用户名;flush privileges;

配置文件：/etc/my.cnf

日志文件：/var/log/mysqld.log

服务启动脚本：/usr/lib/systemd/system/mysqld.service

socket 文件：/var/run/mysqld/mysqld.pid

JDK

此文采用版本：JDK8

下载

安装文本编辑器 vim

yum -y install vim

JDK 官方下载地址：oracle jdk

使用命令下载：

wget https://download.oracle.com/otn/java/jdk/8u291-b10/d7fc238d0cbf4b0dac67be84580cfb4b/jdk-8u291-linux-x64.tar.gz?AuthParam=1619936099_3a37c8b389365d286242f4b1aa4967b0

因为 oracle 公司不允许直接通过 wget 下载官网上的 jdk 包
正确做法：

通过搜索引擎搜索 jdk 官网下载，进入 oracle 官网
勾选 accept licence agreement ，并选择你系统对应的版本
点击对应的版本下载，弹出如下下载框，然后复制下载链接
这个复制的链接结算我们 wget 命令的地址。
正确的下载链接会有”AuthParam“，这个就是 oracle 公司需要用户在下载时提供的注册信息。而且这个信息是用时间限制的，过了一段时间后就会失效，如果你想再次下载 jdk 包，只能再次重复上面的操作。

检查大小

ls -lht

在这里插入图片描述

设置环境变量

查看文件名（用于解压）

ls

创建文件夹

mkdir /usr/local/java

解压

tar -zxvf 你的jdk包名 -C /usr/local/java/

查看文件名（用于配置环境变量）

ls  /usr/local/java

在这里插入图片描述
打开配置文件

vi /etc/profile

在末尾添加

# jdk8	# 添加jdk地址变量	JAVA_HOME=/usr/local/java	# 添加jre地址变量	JRE_HOME=${JAVA_HOME}/jre	# 添加java官方库地址变量	CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib	# 添加PATH地址变量	PATH=${JAVA_HOME}/bin:$PATH	# 使变量生效	export JAVA_HOME JRE_HOME CLASSPATH PATH

刷新配置文件

source /etc/profile

添加软链接（可选）

ln -s /usr/local/java/jdk1.8.0_291/bin/java  /usr/bin/java

检查

java -version

在这里插入图片描述

Python

此文采用版本：Python3.6

我们已经掌握了二进制包安装的方法，所以我们直接通过 yum 来安装 Python

yum -y install python36

依赖：python36-libs

安装 pip3（默认已安装）

yum install python36-pip -y

检查

python3 --version

在这里插入图片描述

Scala

此文采用版本：Scala2.11.7

请确保已安装JDK8或者JDK11

下载

Scala 官方下载地址：Scala

使用命令下载：

wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

检查大小

ls -lht

设置环境变量

查看文件名（用于解压）

ls

创建文件夹

mkdir /usr/local/scala

解压

tar -zxvf 你的jdk包名 -C /usr/local/scala/

查看文件名（用于配置环境变量）

ls  /usr/local/scala

在这里插入图片描述

打开配置文件

vi /etc/profile

在末尾添加

# scala 2.11.7	# 添加scala执行文件地址变量	SCALA_HOME=/usr/local/scala/scala-2.11.7	# 添加PATH地址变量	PATH=$PATH:$SCALA_HOME/bin	# 使变量生效	export SCALA_HOME PATH

刷新配置文件

source /etc/profile

检查

scala -version

在这里插入图片描述

配置 Hadoop Cluster

集群复刻

使用虚拟机的朋友请直接克隆
切记要返回第四步骤更改各节点ip，不然会发生ip冲突

1）备份

前往根目录

cd /

备份

tar cvpzf backup.tgz / --exclude=/proc --exclude=/lost+found --exclude=/mnt --exclude=/sys --exclude=backup.tgz

备份完成后，在文件系统的根目录将生成一个名为“backup.tgz”的文件，它的尺寸有可能非常大。你可以把它烧录到 DVD 上或者放到你认为安全的地方去
在备份命令结束时你可能会看到这样一个提示：’tar: Error exit delayed from previous
errors’，多数情况下你可以忽略

2）准备

别忘了到其他设备下重新创建那些在备份时被排除在外的目录（如果不存在）：

mkdir procmkdir lost+foundmkdir mntmkdir sys

3）复刻

可选前提：

将备份文件拷贝至外存储
到其他设备下挂在外存储

到其他物理机上恢复文件

tar xvpfz backup.tgz -C /

恢复 SELinux 文件属性

restorecon -Rv /

集群互联

HOST 配置

1）修改 hostname

到各设备下执行

# 设备 1 （立即生效）hostnamectl set-hostname master

# 设备 2 （立即生效）hostnamectl set-hostname slave1

# 设备 3 （立即生效）hostnamectl set-hostname slave2

# 设备 4 （立即生效）hostnamectl set-hostname slave3

2）配置 host 文件

查看各设备 ip（到各设备下执行）

ifconfig

到 master 下打开 host 文件

vim /etc/hosts

末尾追加

master设备的ip  masterslave1设备的ip  masterslave2设备的ip  masterslave3设备的ip  master

3）通过 scp 传输 host 文件

scp 语法：
scp 文件名远程主机用户名@远程主机名或ip:存放路径

到 master 下执行

scp /etc/hosts root@SlaveIP:/etc/

注意：请按照 slave 个数，对其 ip 枚举传输

ping 一下

ping -c 4 slave1

能 ping 通就没问题

配置无密码 SSH

以下操作均在master下执行

1）到各设备下生成密钥

ssh-keygen -t rsa

一路回车
在这里插入图片描述
到 master 生成公钥

cd ~/.ssh/ && cat id_rsa.pub > authorized_keys

之后将各设备的密钥全复制到authorized_keys文件里

2）通过 scp 传输公钥

到 master 下执行

scp authorized_keys root@SlaveNumbe:~/.ssh/

注意：请按照之前设置的 hostname ，对其 ip 枚举传输
例如： scp authorized_keys root@slave1:~/.ssh/

注意，如果各节点下没有 ~/.ssh/ 目录则会配置失败

检查

ssh slave1

在这里插入图片描述
中断该 ssh 连接（可选）

exit

客户端配置（建议）

该配置主要方便客户端远程操作

无论是用虚拟机进行学习的朋友，还是工作的朋友都强烈推荐

以下操作均在客户端（MAC OS）上执行

修改 hots 文件

sudo vim /etc/hosts

将 master 设备下/etc/hosts 之前追加的内容，copy 追加到客户端 hosts 末尾

ping 一下，能 ping 通就没问题

windows 修改 host 教程

免密钥 ssh 登陆

客户端生产密钥：

sudo ssh-keygen -t rsa

打开密钥

vim ~/.ssh/id_rsa

将密钥的内容追加到 master 设备的 ~/.ssh/authorized_keys 文件内

到 master 内向各节点申请同步

scp authorized_keys root@SlaveNumbe:~/.ssh/

windows ssh 目录：C:/Users/your_userName.ssh

检查

ssh master

在这里插入图片描述

部署 ZooKeeper

此文采用版本 ZooKeepr3.6.3

官方下载地址：Zookeeper
记得下载带bin字样的

准备

从客户端上下载压缩包

到 master 节点上创建 zookeeper 文件夹

mkdir /usr/local/zookeeper

从客户端上传到 master

scp 你下载的Zookeeper路径 root@master:/usr/local/zookeeper

以下操作切换至master节点上

解压

 cd /usr/local/zookeeper tar xf apache-zookeeper-3.6.3-bin.tar.gz

添加环境变量

打开配置文件

vim /etc/profile

在末尾添加

# ZooKeeper3.6.3	# 添加zookeeper地址变量	ZOOKEEPER_HOME=/usr/local/zookeeper/apache-zookeeper-bin.3.6.3	# 添加PATH地址变量	PATH=$ZOOKEEPER_HOME/bin:$PATH	# 使变量生效	export ZOOKEEPER_HOME PATH

刷新配置文件

source /etc/profile

修改配置

创建数据目录

mkdir /zookeepermkdir /zookeeper/datamkdir /zookeeper/logs# 同步# 自行枚举

添加配置文件

cp $ZOOKEEPER_HOME/conf/zoo_sample.cfg $ZOOKEEPER_HOME/conf/zoo.cfg

vim $ZOOKEEPER_HOME/conf/zoo.cfg

修改和添加

tickTime=2000initLimit=10syncLimit=5dataDir=/zookeeper/datadataLogDir=/zookeeper/logsclientPort=2181server.1=master:2888:3888server.2=slea1:2888:3888server.3=slea2:2888:3888server.4=slea3:2888:3888:observer

集群部署：

到 master 下执行
请根据节点个数枚举执行
同步文件

scp /etc/profile root@slave1:/etc/

scp -r /zookeeper root@slave1:/

scp -r /usr/local/zookeeper root@slave1:/usr/local/

配置节点标识
参考资资料：leader 选举

ssh master "echo "9" > /zookeeper/data/myid"ssh slave1 "echo "1" > /zookeeper/data/myid"ssh slave2 "echo "2" > /zookeeper/data/myid"ssh slave3 "echo "3" > /zookeeper/data/myid"

防火墙配置

#开放端口firewall-cmd --add-port=2181/tcp --permanentfirewall-cmd --add-port=2888/tcp --permanentfirewall-cmd --add-port=3888/tcp --permanent#重新加载防火墙配置firewall-cmd --reload

节点批量执行

# master节点ssh master "firewall-cmd --add-port=2181/tcp --permanent && firewall-cmd --add-port=2888/tcp --permanent && firewall-cmd --add-port=3888/tcp --permanent && firewall-cmd --reload "# slave1节点 其他请自行枚举执行ssh slave1 "firewall-cmd --add-port=2181/tcp --permanent && firewall-cmd --add-port=2888/tcp --permanent && firewall-cmd --add-port=3888/tcp --permanent && firewall-cmd --reload "

启动 ZooKeeper

sh  $ZOOKEEPER_HOME/bin/zkServer.sh start

编写批量启动 shell

vim /bin/zk && chmod 777 /bin/zk

#! /bin/shcase $1 in"start"){        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"        echo -e "/e[32m...master-start.../033[0m"        ssh master "sh $ZOOKEEPER_HOME/bin/zkServer.sh start"        echo -e "/e[32m...slave1-start.../033[0m"        ssh slave1 "sh $ZOOKEEPER_HOME/bin/zkServer.sh start"        echo -e "/e[32m...slave2-start.../033[0m"        ssh slave2 "sh $ZOOKEEPER_HOME/bin/zkServer.sh start"        echo -e "/e[32m...slave3-start.../033[0m"        ssh slave3 "sh $ZOOKEEPER_HOME/bin/zkServer.sh start"        echo -e "/e[32m...all-start-end.../033[0m"        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"};;"stop"){        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"        echo -e "/e[32m...master-stop.../033[0m"        ssh master "sh $ZOOKEEPER_HOME/bin/zkServer.sh stop"        echo -e "/e[32m...slave1-start.../033[0m"        ssh slave1 "sh $ZOOKEEPER_HOME/bin/zkServer.sh stop"        echo -e "/e[32m...slave2-start.../033[0m"        ssh slave2 "sh $ZOOKEEPER_HOME/bin/zkServer.sh stop"        echo -e "/e[32m...slave3-start.../033[0m"        ssh slave3 "sh $ZOOKEEPER_HOME/bin/zkServer.sh stop"        echo -e "/e[32m...all-stop-end.../033[0m"        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"};;"status"){        echo -e "/e[32m---------------------------------------------------------------------------"        echo -e "/e[32m...master-status.../033[0m"        ssh master "sh $ZOOKEEPER_HOME/bin/zkServer.sh status"        echo -e "/e[32m...slave1-start.../033[0m"        ssh slave1 "sh $ZOOKEEPER_HOME/bin/zkServer.sh status"        echo -e "/e[32m...slave2-start.../033[0m"        ssh slave2 "sh $ZOOKEEPER_HOME/bin/zkServer.sh status"        echo -e "/e[32m...slave3-start.../033[0m"        ssh slave3 "sh $ZOOKEEPER_HOME/bin/zkServer.sh status"        echo -e "/e[32m...all-status-end.../033[0m"        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"};;esac

命令

# 启动zk start# 查看状态zk status# 关闭zk stop

启动之后 MODE 和我的显示一样就算成功了
在这里插入图片描述

部署 Hadoop

此文采用版本 Hadoop3.2.2

官方下载地址：Hadoop

准备

从客户端上下载压缩包

到 master 节点上创建 Hadoop 文件夹

mkdir /usr/local/hadoop

从客户端上传到 master

scp 你下载的hadoop路径 root@master:/usr/local/hadoop

以下操作切换至master节点上

解压

 cd /usr/local/hadoop tar xf hadoop包名

添加环境变量

打开配置文件

vim /etc/profile

在末尾添加

# Hadoop 3.2.2        # 添加hadoop地址变量        HADOOP_HOME=/usr/local/hadoop/hadoop-3.3.0        # 添加PATH地址变量        PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin        # 使变量生效        export HADOOP_HOME PATH# IF HADOOP >= 3x / for root        # HDFS        HDFS_DATANODE_USER=root        HADOOP_SECURE_DN_USER=hdfs        HDFS_NAMENODE_USER=root        HDFS_SECONDARYNAMENODE_USER=root        HDFS_ZKFC_USER=root        # YARN        YARN_RESOURCEMANAGER_USER=root        HADOOP_SECURE_DN_USER=yarn        YARN_NODEMANAGER_USER=root        # run        export HDFS_DATANODE_USER HADOOP_SECURE_DN_USER HDFS_NAMENODE_USER HDFS_SECONDARYNAMENODE_USER HDFS_ZKFC_USER YARN_RESOURCEMANAGER_USER HADOOP_SECURE_DN_USER YARN_NODEMANAGER_USER

请自行使用scp将文件同步至各节点

刷新配置文件

source /etc/profile

配置

创建数据目录

mkdir /hadoopmkdir /hadoop/journaldatamkdir /hadoop/hadoopdata# 同步# 自行枚举

添加 Jdk 环境
打开文件

vim /usr/local/hadoop/hadoop-3.3.0/etc/hadoop/hadoop-env.sh

添加或修改

export JAVA_HOME=/usr/local/java

接下来我们要修改的文件：

core-site.xml
hadoop-env.sh
mapred-env.sh
yarn-env.sh
workers

前往配置文件目录

cd /usr/local/hadoop/hadoop-3.3.0/etc/hadoop/

core-site.xml

                                fs.defaultFS                hdfs://jed                                        hadoop.tmp.dir                /hadoop/hadoopdata                                        ha.zookeeper.quorum                master:2181,slave1:2181,slave2:2181,slave3:2181

hdfs-site.xml

				dfs.replication		2			        	dfs.nameservices        	jed    	    	    	        	dfs.ha.namenodes.jed        	nn1,nn2    	    	    	        	dfs.namenode.rpc-address.jed.nn1        	master:9000    		    	        	dfs.namenode.http-address.jed.nn1        	master:50070    		    	        	dfs.namenode.rpc-address.jed.nn2        	slave1:9000    	    	    	        	dfs.namenode.http-address.jed.nn2        	slave1:50070    	    	    	        	dfs.namenode.shared.edits.dir        	qjournal://master:8485;slave1:8485;slave2:8485/jed    	    	    	        	dfs.journalnode.edits.dir        	/hadoop/journaldata    	    	    	        	dfs.ha.automatic-failover.enabled        	true    	    	    	    	        	dfs.client.failover.proxy.provider.jed        	org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider    	    	    	        	dfs.ha.fencing.methods        	            		sshfence           		shell(/bin/true)        	    	    	    	        	dfs.ha.fencing.ssh.private-key-files        	/var/root/.ssh/id_rsa    	    	    	        	dfs.ha.fencing.ssh.connect-timeout        	20000

mapred-site.xml

	    	        	mapreduce.framework.name        	yarn    	    	    	        	mapreduce.jobhistory.address        	master:10020    	    	    	        	mapreduce.jobhistory.webapp.address        	master:19888    	    	    	  			yarn.app.mapreduce.am.env  			HADOOP_MAPRED_HOME=${HADOOP_HOME}				  			mapreduce.map.env  			HADOOP_MAPRED_HOME=${HADOOP_HOME}				  			mapreduce.reduce.env  			HADOOP_MAPRED_HOME=${HADOOP_HOME}

yarn-site.xml

	    	        	yarn.resourcemanager.ha.enabled        	true    	    	    	        	yarn.resourcemanager.cluster-id        	Cyarn    	    	    	        	yarn.resourcemanager.ha.rm-ids        	rm1,rm2    	    	    	        	yarn.resourcemanager.hostname.rm1        	slave2    	                	yarn.resourcemanager.webapp.address.rm1        	slave2    	    	        	yarn.resourcemanager.hostname.rm2        	slave3    		    	        yarn.resourcemanager.webapp.address.rm2	        slave3	        	    	        	yarn.resourcemanager.zk-address        	master:2181,slave1:2181,slave2:2181,slave3:2181    	    	    	        	yarn.nodemanager.aux-services        	mapreduce_shuffle    	    	    	        	yarn.log-aggregation-enable        	true    	    	    	        	yarn.log-aggregation.retain-seconds        	        	86400    	    	    	        	yarn.resourcemanager.recovery.enabled    		true    	    	    	        	yarn.resourcemanager.store.class        	org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

workers
注意！在Hadoop3x以前的版本是 slaves 文件

masterslave1slave2slave3

使用 scp 分发给其他节点

scp -r /usr/local/hadoop slave1:/usr/local/

请自行枚举执行

检查

使用之前的 zk 脚本启动 zeekeeper 集群

zk start

分别在每个 journalnode 节点上启动 journalnode 进程

# master slave1 slave2hadoop-daemon.sh start journalnode

在第一个 namenode 节点上格式化文件系统

 hadoop namenode -format

同步两个 namenode 的元数据

查看你配置的 hadoop.tmp.dir 这个配置信息，得到 hadoop 工作的目录，我的是/hadoop/hadoopdata/
把 master 上的 hadoopdata 目录发送给 slave1 的相同路径下，这一步是为了同步两个 namenode 的元数据

scp -r /hadoop/hadoopdata slave1:/hadoop/

也可以在 slave1 执行以下命令：

hadoop namenode -bootstrapStandby

格式化 ZKFC(任选一个 namenode 节点格式化)

hdfs zkfc -formatZK

启动 hadoop 集群

start-all.sh

相关命令请前往 $HADOOP_HOME/sbin/ 查看

启动 mapreduce 任务历史服务器

mr-jobhistory-daemon.sh start historyserver

编写 jps 集群脚本

vim /bin/jpall && chmod 777 /bin/jpall

#! /bin/sh        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"        echo -e "/e[32m...master-jps.../033[0m"        ssh master "jps"        echo -e "/e[32m...slave1-jps.../033[0m"        ssh slave1 "jps"        echo -e "/e[32m...slave2-jps.../033[0m"        ssh slave2 "jps"        echo -e "/e[32m...slave3-jps.../033[0m"        ssh slave3 "jps"        echo -e "/e[32m...all-jps-end.../033[0m"        echo -e "/e[32m---------------------------------------------------------------------------/033[0m"

运行

jpall

在这里插入图片描述

查看各节点的主备状态

hdfs haadmin -getServiceState nn1

查看 HDFS 状态

hdfs dfsadmin -report

WEB 访问可以直接浏览器： IP:50070

测试

HDFS

上传一个文件

hdfs dfs -put test.out

check

hdfs dfs -ls /user/root

在这里插入图片描述

hadoop fs -rm -r -skipTrash /user/root/test.out

删除
在这里插入图片描述

Mapreduce

我们使用 hadoop 自带的圆周率测试

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar pi 5 5

运行结果
在这里插入图片描述

高可用

查看进程

jps

在这里插入图片描述
杀死进程

kill -9 5114

现在 master 已不是 namenode 了
在这里插入图片描述
现在 slave1 变成了主节点

恢复 master 节点

hadoop-daemon.sh start namenode

在这里插入图片描述
master 变成了 standby，什么 HA 具备

Hadoop HA 集群的重装

删除所有节点中 hadoop 的工作目录(core-site.xml 中配置的 hadoop.tmp.dir 那个目录）
如果你在 core-site.xml 中还配置了 dfs.datanode.data.dir 和 dfs.datanode.name.dir 这两个配置，那么把这两个配置对应的目录也删除
删除所有节点中 hadoop 的 log 日志文件，默认在 HADOOP_HOME/logs 目录下
删除 zookeeper 集群中所关于 hadoop 的 znode 节点

图中的红色框中 rmstore 这个节点不能删除，删除另外两个就可以

重新格式化 ZKFC 的时候会询问是否覆盖 rmstore 这个节点，输入 yes 即可
删除所有节点中的 journaldata，路径是在 hdfs-site.xml 中的 dfs.journalnode.edits.dir 中配置的
按照上面安装集群的步骤重新安装即可

USDP大数据平台 hadoop集群环境搭建 hadoop2集群环境搭建部署hadoop集群 hadoop集群部署

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/123650.html

发表评论

登陆后可评论

0条评论

番茄西红柿

男|高级讲师

我要关注我要私信

TA的文章

tensor

阅读 813·2023-04-25 19:43
Windows 下安装 XGBoost

阅读 4060·2021-11-30 14:52
Hadoop 2.6.0 启动问题 lib/native/libhadoop.so which mi

阅读 3894·2021-11-30 14:52
VmShell：黑五美国VPS,免费先开通测试,满意后付款!支持tiktok美区

阅读 3975·2021-11-29 11:00
百度智能云：云产品特惠福利,1核2G轻量应用服务器仅48元/年

阅读 3878·2021-11-29 11:00
Linux系统和宝塔面板如何启用禁ping功能?

阅读 3999·2021-11-29 11:00
301重定向怎么做?301重定向设置方法有几种

阅读 3639·2021-11-29 11:00
wordpress网站重定向次数过多的解决方法

阅读 6405·2021-11-29 11:00

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Hadoop HA集群 与 开发环境部署

hadoop 生态简介

期待目标

环境

注意

Centos 安装

环境

镜像下载：

安装：

选择语言：

采用最小安装方案

设置 root 密码

等待完成

虚拟机帮助

网络配置

虚拟机配置修改

centos 网络配置文件修改

客户端连接

安装开发环境

Mysql

安装依赖

安装主要依赖

安装 boost 库（可选）

下载

编译安装

配置 mysql

JDK

下载

设置环境变量

Python

Scala

下载

设置环境变量

配置 Hadoop Cluster

集群复刻

集群互联

HOST 配置

配置无密码 SSH

客户端配置（建议）

部署 ZooKeeper

准备

添加环境变量

修改配置

集群部署：

部署 Hadoop

准备

添加环境变量

配置

检查

测试

HDFS

Mapreduce

高可用

Hadoop HA 集群的重装

相关文章

发表评论

0条评论

男|高级讲师

TA的文章

最新活动

Hadoop HA集群与开发环境部署