资讯专栏INFORMATION COLUMN

Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedi

harryhappy / 1275人阅读

摘要:上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库的安装的安装是一个中支持渲染的工具,本节来介绍一下它的安装方式。另外一个是的库的安装,安装之后即可在中使用服务。

上一篇文章:Python3网络爬虫实战---10、爬虫框架的安装:PySpider、Scrapy
下一篇文章:Python3网络爬虫实战---12、部署相关库的安装:Docker、Scrapyd
ScrapySplash的安装

ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具,本节来介绍一下它的安装方式。
ScrapySplash 的安装分为两部分,一个是是 Splash 服务的安装,安装方式是通过 Docker,安装之后会启动一个 Splash 服务,我们可以通过它的接口来实现 JavaScript 页面的加载。另外一个是 ScrapySplash 的 Python 库的安装,安装之后即可在 Scrapy 中使用 Splash 服务。

1. 相关链接

GitHub:https://github.com/scrapy-plu...

PyPi:https://pypi.python.org/pypi/...

使用说明:https://github.com/scrapy-plu...

Splash 官方文档:http://splash.readthedocs.io

2. 安装Splash

ScrapySplash 会使用 Splash 的 HTTP API 进行页面渲染,所以我们需要安装 Splash 来提供渲染服务,安装是通过 Docker 安装,在这之前请确保已经正确安装好了 Docker。
安装命令如下:

docker run -p 8050:8050 scrapinghub/splash

安装完成之后会有类似的输出结果:

2017-07-03 08:53:28+0000 [-] Log opened.
2017-07-03 08:53:28.447291 [-] Splash version: 3.0
2017-07-03 08:53:28.452698 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2
2017-07-03 08:53:28.453120 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 20160609]
2017-07-03 08:53:28.453676 [-] Open files limit: 1048576
2017-07-03 08:53:28.454258 [-] Can"t bump open files limit
2017-07-03 08:53:28.571306 [-] Xvfb is started: ["Xvfb", ":1599197258", "-screen", "0", "1024x768x24", "-nolisten", "tcp"]
QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to "/tmp/runtime-root"
2017-07-03 08:53:29.041973 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles
2017-07-03 08:53:29.315445 [-] verbosity=1
2017-07-03 08:53:29.315629 [-] slots=50
2017-07-03 08:53:29.315712 [-] argument_cache_max_entries=500
2017-07-03 08:53:29.316564 [-] Web UI: enabled, Lua: enabled (sandbox: enabled)
2017-07-03 08:53:29.317614 [-] Site starting on 8050
2017-07-03 08:53:29.317801 [-] Starting factory 

这样就证明 Splash 已经在 8050 端口上运行了。
这时我们打开:http://localhost:8050 即可看到 Splash 的主页,如图 1-81 所示:

图 1-81 运行页面
当然 Splash 也可以直接安装在远程服务器上,我们在服务器上运行以守护态运行 Splash 即可,命令如下:

docker run -d -p 8050:8050 scrapinghub/splash

在这里多了一个 -d 参数,它代表将 Docker 容器以守护态运行,这样在中断远程服务器连接后不会终止 Splash 服务的运行。

3. ScrapySplash的安装

成功安装了 Splash 之后,我们接下来再来安装一下其 Python 库,安装命令如下:

pip3 install scrapy-splash

命令运行完毕后就会成功安装好此库,后文我们会介绍它的详细用法。

ScrapyRedis的安装

ScrapyRedis 是 Scrapy 分布式的扩展模块,有了它我们可以方便地实现 Scrapy 分布式爬虫的搭建,本节来介绍一下 ScrapyRedis 的安装方式。

1. 相关链接

GitHub:https://github.com/rmax/scrap...

PyPi:https://pypi.python.org/pypi/...

官方文档:http://scrapy-redis.readthedo...

2. Pip安装

推荐使用 Pip 安装,命令如下:

pip3 install scrapy-redis
3. 测试安装

安装完成之后,可以在 Python 命令行下测试。

$ python3
>>> import scrapy_redis

如果没有错误报出,则证明库已经安装好了。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44033.html

相关文章

  • Python3网络爬虫实战---10、爬虫框架安装:PySpider、Scrapy

    摘要:所以如果对爬虫有一定基础,上手框架是一种好的选择。缺少包,使用安装即可缺少包,使用安装即可上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装 上一篇文章:Python3网络爬虫实战---9、APP爬取相关库的安装:Appium的安装下一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis 我们直接...

    张宪坤 评论0 收藏0
  • Python3网络爬虫实战---12、部署相关库安装:Docker、Scrapyd

    摘要:阿里云安装脚本安装脚本两个脚本可以任选其一,速度都非常不错。推荐的加速器有和阿里云。阿里云不同平台的镜像加速方法配置可以参考的官方文档。以上便是的安装方式说明。上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库 上一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis下一篇文章:Python3网络爬虫实战---...

    ityouknow 评论0 收藏0
  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • Python3网络爬虫实战---9、APP爬取相关库安装:Appium安装

    摘要:支持全平台的安装,我们直接从的里面安装即可,链接为。平台可以下载安装包如,平台可以下载安装包如,平台可以选择下载源码,但是更推荐用下文的安装方式。上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装 上一篇文章:Python3网络爬虫实战---8、APP爬取相关库的安装:MitmProxy的安装下一篇文章:Python3网络爬虫实战---10、爬虫框架的安装...

    caige 评论0 收藏0
  • Python3网络爬虫实战---5、存储库安装:PyMySQL、PyMongo、RedisPy、R

    摘要:相关链接官方文档安装推荐使用安装,命令如下运行完毕之后即可完成的安装。上一篇文章网络爬虫实战数据库的安装下一篇文章网络爬虫实战库的安装 上一篇文章:Python3网络爬虫实战---4、数据库的安装:MySQL、MongoDB、Redis下一篇文章:Python3网络爬虫实战---6、Web库的安装:Flask、Tornado 在前面一节我们介绍了几个数据库的安装方式,但这仅仅是用来存...

    AlanKeene 评论0 收藏0

发表评论

0条评论

harryhappy

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<