资讯专栏INFORMATION COLUMN

Hadoop大数据处理平台的搭建

jone5679 / 1706人阅读

摘要:由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。

 由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了Hadoop,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。
搭建过程并不困难,由于手上没有服务器,在虚拟机中搭建,本次搭建系统环境是ubuntu 14.04LTS,hadoop的版本是2.7.3

首先在ubuntu上安装java环境,我选择的是jdk1.8,jdk可以直接在官网下载,下载完成后上传到ubuntu上

由于个人喜好,,我将它解压到usr文件夹下

`cp java* /usr/`
`sudo tar -xzf java*`
`move java* java`

然后添加环境变量,sudo vim /etc/profile,在文件末尾追加一下几行:

`#java`
`export JAVA_HOME=/usr/java`
`export JRE_HOME=/usr/java/jre`
`export CLASSPATH=$JAVA_HOME/lib`
`export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin`

然后下载hadoop2.7.3的压缩包,并将其解压到usr文件夹下,

然后添加环境变量,同上追加一下几行:

`#hadoop`
`export HADOOP_HOME=/usr/hadoop`
`export PATH=$PATH:$HADOOP_HOME/sbin`
`export PATH=$PATH:$HADOOP_HOME/bin`

到这里准备工作几乎完成了,下面需要配置ssh免密码登录,

先生成密钥ssh-keygen -t rsa,一路回车,然后

`cd ~/.ssh`

cat id_rsa.pub >> ~/.ssh/authorized_keys

`chmod 600 authorized_keys`

添加一个用户组和用户来管理hadoop,首先添加一个用户组,groupadd hadoop useradd hadoop -g hadoop passeord hadoop 输入两次密码,到这里就完成了用户和组的添加

此时需要配置hadoop环境,先创建dfs的文件夹,切换到hadoop用户,然后在hadoop文件夹下添加dfs/name,dfs/data,/tmp

修改hadoop文件的属性
切换到/usr/hadoop/etc/hadoop
1) 配置文件:hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)
修改JAVA_HOME值(export JAVA_HOME=/usr/java) 

2) 配置文件:yarn-env.sh
修改JAVA_HOME值(export JAVA_HOME=/usr/java)

3) 配置文件:core-site.xml

   
   
       fs.defaultFS
       hdfs://master:9000
   
   
       io.file.buffer.size
       131072
   
   
       hadoop.tmp.dir
       file:/usr/hadoop/tmp
       Abase for other temporary   directories.
   
   

4)配置文件:hdfs-site.xml

   
      
               dfs.namenode.secondary.http-address
              master:9001
      
    
            dfs.namenode.name.dir
            file:/usr/hadoop/dfs/name
      
     
             dfs.datanode.data.dir
             file:/usr/hadoop/dfs/data
      
      
              dfs.replication
              2
       
       
                dfs.webhdfs.enabled
                 true
        
   

5) 配置文件:mapred-site.xml
先创建然后编辑
 cp mapred-site.xml.template mapred-site.xml

   
           
         mapreduce.framework.name
               yarn
          
         
                 mapreduce.jobhistory.address
                 master:10020
         
         
               mapreduce.jobhistory.webapp.address
               master:19888
      
   

6) 配置文件:yarn-site.xml

   
       
              yarn.nodemanager.aux-services
              mapreduce_shuffle
       
       
       yarn.nodemanager.aux-services.mapreduce.shuffle.class
              org.apache.hadoop.mapred.ShuffleHandler
       
       
              yarn.resourcemanager.address
              master:8032
      
      
              yarn.resourcemanager.scheduler.address
              master:8030
      
      
           yarn.resourcemanager.resource-tracker.address
            master:8031
     
     
             yarn.resourcemanager.admin.address
              master:8033
      
      
              yarn.resourcemanager.webapp.address
              master:8088
      
   

到了这里基本完成了单机的配置,现在可以克隆虚拟机,,完成后修改hosts文件和主机名

ip分别是 192.168.137.150 151 152,hostname分别是master1 node1 node2,打开hosts文件配置ip和主机对应,然后修改/usr/hadoop/etc/hadoop/slaves 添加内容

node1
node2

完成配置,进行测试
启动hadoophdfs namenode -format

sbin/start-all.sh sbin/mr-jobhistory-daemon.sh start

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/66842.html

相关文章

  • hadoop集群管理系统搭建规划说明

    摘要:集群管理系统搭建规划说明分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为大数据操作系统。 hadoop集群管理系统搭建规划说明Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么...

    ThreeWords 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<