资讯专栏INFORMATION COLUMN

Ubuntu16.04下安装Hadoop2.7.4伪分布式环境

lei___ / 3338人阅读

摘要:按打开终端窗口,执行如下命令安装并设置免密登陆注意每次配置时,需要注意当前目录为。的配置文件位于中,伪分布式需要修改个配置文件和。的配置文件是格式,每个配置以声明的和的方式来实现。

1.创建Hadoop用户
三部曲:添加用户,设置密码,给该用户设置管理员权限
为 hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题

sudo useradd -m hadoop -s /bin/bash
sudo passwd hadoop
sudo adduser hadoop sudo

2.登陆hadoop用户后,更新apt
当前用户为hadoop,我们先更新一下 apt,后续我们使用 apt 安装软件,如果没更新可能有一些软件安装不了。按 ctrl+alt+t 打开终端窗口,执行如下命令:

sudo apt-get update

3.安装ssh并设置ssh免密登陆
注意:每次配置时,需要注意当前目录为hadoop。
集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

hadoop@master:~$sudo apt-get install openssh-server
//设置免密登陆,下面命令将创建一个新的密钥
ssh-keygen -t rsa -P ""

如下图:

并将生成的密钥加入到授权中:

hadoop@master:~$cat /home/hadoop/.ssd/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys

#测试SSH设置通过“hadoop”用户连接到locahost,就是先su hadoop,然后使用ssh
hadoop@master:~$ssh localhost

4.安装java

先检查 Ubuntu 操作系统的架构是32位还是64位

xugui@master:~$file /sbin/init

然后安装相应的jdk,例如,jdk-8-linux-x64.tar.gz
在本教程中,我们将提取的下载文件到 /usr/local ,如下命令:

xugui@master:~$ sudo tar -xvf jdk-8u60-linux-64.tar.gz -C /usr/local
#添加环境变量
vim /etc/porfile

添加下面内空到系统变量,即 /etc/profile 文件的结束

JAVA_HOME=/usr/local/jdk1.8.0_60
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
export JAVA_HOME
export PATH

现在让 Ubuntu 知道 JDK/JRE 的位置

xugui@master:~$ sudo update-alternatives --install "/usr/bin/java" "java" "/usr/local/jdk1.8.0_60/bin/java" 1
xugui@master:~$ sudo update-alternatives --install "/usr/bin/javac" "javac" "/usr/local/jdk1.8.0_60/bin/javac" 1
xugui@master:~$ sudo update-alternatives --install "/usr/bin/javaws" "javaws" "/usr/local/jdk1.8.0_60/bin/javaws" 1

告诉 Ubuntu 我们安装的即 jdk1.8.0_60 必须是默认的Java

xugui@master:~$ sudo update-alternatives --set java /usr/local/jdk1.8.0_60/bin/java
xugui@master:~$ sudo update-alternatives --set javac /usr/local/jdk1.8.0_60/bin/javac
xugui@master:~$ sudo update-alternatives --set javaws /usr/local/jdk1.8.0_60/bin/javaws

最后查看Java的版本:java -version

5.下载并安装hadoop
去hadoop官网下载hadoop-2.6.0.tar.gz
我们选择将 Hadoop 安装至 /usr/local/ 中:

sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop伪分布式配置
添加环境变量:vim ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/local/jdk1.8.0_60
export PATH=$PATH:$HADOOP_HOME/bin

然后 source ~/.bashrc

配置关联HDFS,设置 JAVA_HOME 在文件 /usr/local/hadoop/etc/hadoop/hadoop-env.sh 中

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

#添加jdk
export JAVA_HOME=/usr/local/jdk1.8.0_60

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 :core-site.xml
vim  /usr/local/hadoop/etc/hadoop/core-site.xml 


    
        hadoop.tmp.dir
        file:/usr/local/hadoop/tmp
        Abase for other temporary directories.
    
    
        fs.defaultFS
        hdfs://localhost:9000
    


#修改配置文件 hdfs-site.xml:

vim  /usr/local/hadoop/etc/hadoop/hdfs-site.xml


    
        dfs.replication
        1
    
    
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/dfs/name
    
    
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/dfs/data
    

Map Reduce 配置

#修改配置文件: mapred-site.xml
vim /usr/local/hadoop/etc/hadoop/mapred-site.xml


    
        mapreduce.jobtracker.address
        localhost:9001
    

在hadoop用户下,先用ssh localhost,然后格式化hdfs:

#./bin/hdfs是相对路径,就是先cd到/usr/local/hadoop目录下
hadoop@master:~$./bin/hdfs namenode -format

显示格式化成功

#./sbin同上是相对路径,启动hdfs和
./sbin/start-dfs.sh
./sbin/start-yarn.sh

#然后输入jps,查看是否启动成功
jps

如下图:

终止这两个守护进程hdfs和yarn

./sbin/stop-dfs.sh
./sbin/stop-yarn.sh

到目前为止,伪分布式环境已经搭建成功了。
我也是新手,写个教程总结一下,然后也是踩了不少坑过来的,可以参考一下以下两个教程:
http://dblab.xmu.edu.cn/blog/...
https://wizardforcel.gitbooks...

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/70770.html

相关文章

  • Hadoop2.7.4布式集群安装配置文件

    摘要:中默认配置和的存放位置的地址就是基于此。需配置成,才可运行程序的主机名对客户端暴露的地址。客户端通过该地址向提交应用程序,杀死应用程序等对暴露的访问地址。注意,该参数是不可修改的,一旦设置,整个运行过程中不可动态修改。 集群环境 Hadoop版本为2.7.4 JDK版本1.8.0_144 安装了三台虚拟机分别设定名称和IP如下 主机名称 IP地址 master 192.1...

    beita 评论0 收藏0
  • Ubuntu 16.04环境安装RabbitMQ消息队列工具

    摘要:,一个开源的消息队列工具,且由语言开发的的开源实现的。第一系统环境安装升级这里我们使用的是系统。第二安装依赖环境我们在执行安装之前,需要安装依赖环境。第三安装然后我们需要启动服务。RabbitMQ,一个开源的消息队列工具,且由 Erlang 语言开发的 AMQP的开源实现的。RabbitMQ最早源于金融系统,使用在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现都比较优秀。在这...

    马永翠 评论0 收藏0
  • Ceph v12.2 Luminous基于ubuntu16.04集群部署

    摘要:第一次接触集群,感谢官方的指导文档和许多网友提供的教程,糊糊涂涂算是把集群部署起来了。应该为每个运行的机器添加一个,否则集群处于状态。至此的集群搭建算是完成了,下一步会进行块设备的搭建。参考分布式存储部署手册如何在中安装存储集群部署版 第一次接触ceph集群,感谢官方的指导文档和许多网友提供的教程,糊糊涂涂算是把集群部署起来了。由于Luminous12.2刚发布不久,部署起来跟旧版本还...

    MiracleWong 评论0 收藏0
  • Docker - 入门(一),基础使用

    摘要:查看版本,确认已正确安装查看镜像拉取一个默认拉去最新版本的镜像,当然也可以指定之后的数字为镜像版本拉取成功后该数字即为镜像的标签进入镜像首先查看我们的拉取的镜像输出即为我们刚拉取的镜像,继续执行若不是,需要带上以交互模式运行容 查看docker版本,确认docker已正确安装 $ docker --version Docker version 18.09.2, build 624796...

    Darkgel 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<