摘要:由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。
由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了Hadoop,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。
搭建过程并不困难,由于手上没有服务器,在虚拟机中搭建,本次搭建系统环境是ubuntu 14.04LTS,hadoop的版本是2.7.3
首先在ubuntu上安装java环境,我选择的是jdk1.8,jdk可以直接在官网下载,下载完成后上传到ubuntu上
由于个人喜好,,我将它解压到usr文件夹下
`cp java* /usr/` `sudo tar -xzf java*` `move java* java`
然后添加环境变量,sudo vim /etc/profile,在文件末尾追加一下几行:
`#java` `export JAVA_HOME=/usr/java` `export JRE_HOME=/usr/java/jre` `export CLASSPATH=$JAVA_HOME/lib` `export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin`
然后下载hadoop2.7.3的压缩包,并将其解压到usr文件夹下,
然后添加环境变量,同上追加一下几行:
`#hadoop` `export HADOOP_HOME=/usr/hadoop` `export PATH=$PATH:$HADOOP_HOME/sbin` `export PATH=$PATH:$HADOOP_HOME/bin`
到这里准备工作几乎完成了,下面需要配置ssh免密码登录,
先生成密钥ssh-keygen -t rsa,一路回车,然后
`cd ~/.ssh`
cat id_rsa.pub >> ~/.ssh/authorized_keys
`chmod 600 authorized_keys`
添加一个用户组和用户来管理hadoop,首先添加一个用户组,groupadd hadoop useradd hadoop -g hadoop passeord hadoop 输入两次密码,到这里就完成了用户和组的添加
此时需要配置hadoop环境,先创建dfs的文件夹,切换到hadoop用户,然后在hadoop文件夹下添加dfs/name,dfs/data,/tmp
修改hadoop文件的属性
切换到/usr/hadoop/etc/hadoop
1) 配置文件:hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)
修改JAVA_HOME值(export JAVA_HOME=/usr/java)
2) 配置文件:yarn-env.sh
修改JAVA_HOME值(export JAVA_HOME=/usr/java)
3) 配置文件:core-site.xml
fs.defaultFS hdfs://master:9000 io.file.buffer.size 131072 hadoop.tmp.dir file:/usr/hadoop/tmp Abase for other temporary directories.
4)配置文件:hdfs-site.xml
dfs.namenode.secondary.http-address master:9001 dfs.namenode.name.dir file:/usr/hadoop/dfs/name dfs.datanode.data.dir file:/usr/hadoop/dfs/data dfs.replication 2 dfs.webhdfs.enabled true
5) 配置文件:mapred-site.xml
先创建然后编辑
cp mapred-site.xml.template mapred-site.xml
mapreduce.framework.name yarn mapreduce.jobhistory.address master:10020 mapreduce.jobhistory.webapp.address master:19888
6) 配置文件:yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn.resourcemanager.address master:8032 yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.resource-tracker.address master:8031 yarn.resourcemanager.admin.address master:8033 yarn.resourcemanager.webapp.address master:8088
到了这里基本完成了单机的配置,现在可以克隆虚拟机,,完成后修改hosts文件和主机名
ip分别是 192.168.137.150 151 152,hostname分别是master1 node1 node2,打开hosts文件配置ip和主机对应,然后修改/usr/hadoop/etc/hadoop/slaves 添加内容
node1 node2
完成配置,进行测试
启动hadoophdfs namenode -format
sbin/start-all.sh sbin/mr-jobhistory-daemon.sh start
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/66842.html
摘要:集群管理系统搭建规划说明分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为大数据操作系统。 hadoop集群管理系统搭建规划说明Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么...
阅读 1886·2021-11-22 14:44
阅读 1649·2021-11-02 14:46
阅读 3602·2021-10-13 09:40
阅读 2584·2021-09-07 09:58
阅读 1509·2021-09-03 10:28
阅读 1640·2019-08-29 15:30
阅读 956·2019-08-29 15:28
阅读 1447·2019-08-26 12:20