摘要:使用添加到系统常量查看是否安装成功使用案例先添加了文件比如代码如下开始渲染睡眠函数使用命令使用将渲染网页,并且将结果写入到中,可以供后续程序抓取所需数据文件目标网页
ubuntu下面可以直接使用命令安装
sudo apt-get install phantomjs
wget https://bitbucket.org/ariya/p...
下载源码wget https://bitbucket.org/ariya/p...
解压源码,没有unzip命令的请使用yum install unzip 安装unzip phantomjs-2.0.0-source.zip
安装编译环境yum -y install gcc gcc-c++ make flex bison gperf ruby
openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel
libpng-devel libjpeg-devel
cd phantomjs-2.0.0
./build.sh
编译操作耗时会比较长(可以大于半个小时),耐心等待完成。编译完成后会多出一个 bin 目录,里面有编译完成的 phantomjs 文件。
添加到系统常量:
cp phantomjs /usr/local/bin
查看是否安装成功:
phantomjs --version
使用案例(先添加了js文件比如:profile.js,代码如下):
var page = require("webpage").create(), system = require("system"), url; if(system.args.length === 1){ phantomjs.exit(1); }else{ url = system.args[1]; //开始渲染url page.open(url,function (status){ if(status !== "success"){ phantom.exit(); }else{ var sc =page.evaluate(function (){ return document.body.innerHTML; }); window.setTimeout(function (){ console.log(sc); phantom.exit(); },1000) } }); } //睡眠函数 function sleep(ms){ console.log("start s:"+new Date()/1000); ms += new Date().getTime(); while(new Date()使用命令:
# 使用phantomjs将渲染网页,并且将结果写入到/tmp/test8.txt中,可以供后续程序抓取所需数据 # phantomjs js文件 目标网页 phantomjs profile.js https://nike.tmall.com/view_shop.htm 1> /tmp/test8.txt
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/82921.html
摘要:最近因为一个活儿所以要完成抓取网页截图这个需求,我研究了几个工具,就向大家分享一下我们的方案了。第二个方案方案分析理由是支持各个平台的,而且用起来很方便。 最近因为一个活儿所以要完成抓取网页截图这个需求,我研究了几个工具,就向大家分享一下我们的方案了。假如有什么错误和更好的提议,欢迎拍砖。 因为支付宝已经做过类似的功能,所以我就咨询了@天材他们的方案,感谢他提供了宝贵的资料作参考...
摘要:所以,灵活的抓取控制是必须的。可见,这个项目对于爬虫的监控和调度要求是非常高的。它全面支持而不需浏览器支持,其快速原生支持各种标准处理选择器和。 PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器,项目管理器以及结果查看器。PySpider...
摘要:所以,灵活的抓取控制是必须的。可见,这个项目对于爬虫的监控和调度要求是非常高的。它全面支持而不需浏览器支持,其快速原生支持各种标准处理选择器和。 PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器,项目管理器以及结果查看器。PySpider...
阅读 851·2021-11-22 09:34
阅读 934·2021-10-08 10:16
阅读 1765·2021-07-25 21:42
阅读 1779·2019-08-30 15:53
阅读 3495·2019-08-30 13:08
阅读 2131·2019-08-29 17:30
阅读 3291·2019-08-29 17:22
阅读 2158·2019-08-29 15:35