摘要:大快搜索数据爬虫技术实例安装教学篇爬虫安装前准备工作大快大数据平台安装完成等组件安装启动成功。
大快搜索数据爬虫技术实例安装教学篇
爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。
1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)
2、修改crawlerdkcrwjdbc.properties配置文件(只修改图片里的内容其他内容默认即可)
Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:
Redis相关配置看如下界面:
3、把已修改的crawlerdkcrw下的jdbc.properties配置文件替换到crawlerdkcrw-tomcat-7.0.56webappsROOTWEB-INFclasses下(这下面有一个没有改好的直接替换)
修改好后把修改好的爬虫文件打压成压缩文件
4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)
unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹
使用cd crawler 命令进入 crawler 文件夹下
使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库
5、分发爬虫文件
每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)
命令:
scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/
6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限
命令:
chmod -R 755 {需要给权限的文件等}
例如:
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/
7、启动爬虫界面
命令:
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh
启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)
8、启动每个节点的dkcrw.jar
命令:
主节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &
从节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &
注意:可以先使用前台启动爬虫,确定爬虫没错误。
前台启动命令java -jar dkcrw.jar master/slave
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/72015.html
摘要:作为搭建大数据处理平台的重要基石,关于它的分析和讲解的文章已经有很多了。并且由于是开源软件,其安装过程相对比较复杂。针对每个组建都要配置的这种情况,提供了自动化安装应用来部署。这就大大缩短了的安装时间,同时也简化了安装的过程。 Hadoop作为搭建大数据处理平台的重要基石,关于它的分析和讲解的文章已经有很多了。Hadoop本身是一分布式的系统,因此在安装的时候,需要多每一个节点进行组建...
摘要:是在端的,是提前的,需要自己设置。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下数据源与引擎数据采集数据处理模块机器学习和模块上传服务器端包,直接支持搜索引擎模块不独立发布 hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distr...
摘要:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。自然语言处理无可避免地成为信息科学技术中长期发展的一个新的战略制高点。 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的...
摘要:在不懂和等协议的情况下,我直接打个比方来解释一下什么是请求,以浏览器为例,人在浏览器输入,然后敲击键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次请求。更专业,更详细的解释,自己去百度学习吧。 前言 刚学完python基础,想学习爬虫的新手,这里有你想要的东西。 本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。最近我一兄弟想学,我就想写个...
摘要:新手篇入门基础教程关于的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。上两周写的五篇内容,汇总到一起就算是新手入门的一个基础性教程吧持续更新中。应该在改版完成后就可以正常申请下载了。 Hadoop新手篇:hadoop入门基础教程关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop...
阅读 3878·2021-09-27 13:36
阅读 4554·2021-09-22 15:12
阅读 3063·2021-09-13 10:29
阅读 1826·2021-09-10 10:50
阅读 2360·2021-09-03 10:43
阅读 518·2019-08-29 17:10
阅读 442·2019-08-26 13:52
阅读 3249·2019-08-23 14:37