基于Docker搭建Hadoop集群之升级版

Zoom 发布于2019-06-28 15:13 / 3607人阅读

摘要：总之，项目还算很受欢迎吧，这篇博客将介绍项目的升级版。一项目介绍将打包到镜像中，就可以快速地在单个机器上搭建集群，这样可以方便新手测试和学习。之前的版本使用为集群提供服务，由于网络功能更新，现在并不需要了。运行参考第二部分启动，并运行。

摘要: kiwenlau/hadoop-cluster-docker是去年参加Docker巨好玩比赛开发的，得了二等奖并赢了一块苹果手表，目前这个项目已经在GitHub上获得了236个Star，DockerHub的镜像下载次数2000+。总之，项目还算很受欢迎吧，这篇博客将介绍项目的升级版。

一. 项目介绍

将Hadoop打包到Docker镜像中，就可以快速地在单个机器上搭建Hadoop集群，这样可以方便新手测试和学习。

如下图所示，Hadoop的master和slave分别运行在不同的Docker容器中，其中hadoop-master容器中运行NameNode和ResourceManager，hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件，负责储存输入以及输出数据，而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件，负责CPU和内存资源的调度。

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务，由于Docker网络功能更新，现在并不需要了。更新的版本中，使用以下命令为Hadoop集群创建多带带的网络:

sudo docker network create --driver=bridge hadoop

然后在运行Hadoop容器时，使用"--net=hadoop"选项，这时所有容器将运行在hadoop网络中，它们可以通过容器名称进行通信。

项目更新要点：

去除serf/dnsmasq

合并Master和Slave镜像

使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装

优化Hadoop配置

二. 3节点Hadoop集群搭建步骤 1. 下载Docker镜像

sudo docker pull kiwenlau/hadoop:1.0

2. 下载GitHub仓库

git clone https://github.com/kiwenlau/hadoop-cluster-docker

3. 创建Hadoop网络

sudo docker network create --driver=bridge hadoop

4. 运行Docker容器

cd hadoop-cluster-docker
./start-container.sh

运行结果

start hadoop-master container...
start hadoop-slave1 container...
start hadoop-slave2 container...
root@hadoop-master:~#

启动了3个容器，1个master, 2个slave

运行后就进入了hadoop-master容器的/root目录

5. 启动hadoop

./start-hadoop.sh

6. 运行wordcount

./run-wordcount.sh

运行结果

input file1.txt:
Hello Hadoop
input file2.txt:
Hello Docker
wordcount output:
Docker    1
Hadoop    1
Hello    2

Hadoop网页管理地址:

NameNode: http://192.168.59.1:50070/

ResourceManager: http://192.168.59.1:8088/

192.168.59.1为运行容器的主机的IP。

三. N节点Hadoop集群搭建步骤 1. 准备

参考第二部分1~3：下载Docker镜像，下载GitHub仓库，以及创建Hadoop网络

2. 重新构建Docker镜像

./resize-cluster.sh 5

可以指定任意N(N>1)

3. 启动Docker容器

./start-container.sh 5

与第2步中的N保持一致。

4. 运行Hadoop

参考第二部分5~6：启动Hadoop，并运行wordcount。

参考

基于Docker搭建多节点Hadoop集群

How to Install Hadoop on Ubuntu 13.10

版权声明
转载时请注明作者KiwenLau以及本文地址：
http://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/

USDP大数据平台 hadoop 集群搭建搭建hadoop集群 hadoop集群搭建 hadoop集群环境搭建

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/26606.html

基于Docker搭建多节点Mesos/Marathon

摘要：摘要在之前的一篇博客中，我介绍了基于搭建单机版，但是仅仅使用了单个节点。具有容错功能当容器由于节点崩溃等原因意外停止运行时，会自动将容器调度到其他节点。因此，目前仅适合运行无状态的服务，而数据库等有状态服务应该单独部署。摘要: 在之前的一篇博客中，我介绍了基于Docker搭建单机版Mesos/Marathon，但是仅仅使用了单个节点。而在这篇博客中，我将介绍基于Docker搭建多节点...

ConardLi 2019-06-28 15:16 评论0 收藏0
Docker搭建Hadoop集群

摘要：搭建集群首先搭建环境版本大于安装主机监控程序和加速器这里使用了的版本，因为安装方便放开更改放开配置配置配置配置配置配置文件追加配置和在文件第一行中添加测试链接文件 Docker搭建Hadoop集群首先搭建Docker环境,Docker版本大于1.3.2 安装主机监控程序和加速器(curl -sSL https://get.daocloud.io/daomonit/install.s...

Yu_Huang 2019-06-28 15:02 评论0 收藏0
hadoop-yarn、内核资源隔离、虚拟化

本篇本意是介绍hadoop的部署资源隔离和调度方案yarn。顺便介绍了容器和容器集群管理。说回yarn隔离分为cpu和内存，cpu基于cgroups,内存自行实现计算ru_maxrss。还对比了k8n的隔离，它内存和cpu都基于cgroups。在调度方面介绍了yarn的两种调度机制Capacity Scheduler和Fair Scheduler。整体：https://segmentfault.c...

fsmStudy 2019-07-01 17:39 评论0 收藏0