摘要:上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库的安装的安装是一个中支持渲染的工具,本节来介绍一下它的安装方式。另外一个是的库的安装,安装之后即可在中使用服务。
上一篇文章:Python3网络爬虫实战---10、爬虫框架的安装:PySpider、ScrapyScrapySplash的安装
下一篇文章:Python3网络爬虫实战---12、部署相关库的安装:Docker、Scrapyd
ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具,本节来介绍一下它的安装方式。
ScrapySplash 的安装分为两部分,一个是是 Splash 服务的安装,安装方式是通过 Docker,安装之后会启动一个 Splash 服务,我们可以通过它的接口来实现 JavaScript 页面的加载。另外一个是 ScrapySplash 的 Python 库的安装,安装之后即可在 Scrapy 中使用 Splash 服务。
GitHub:https://github.com/scrapy-plu...
PyPi:https://pypi.python.org/pypi/...
使用说明:https://github.com/scrapy-plu...
Splash 官方文档:http://splash.readthedocs.io
2. 安装SplashScrapySplash 会使用 Splash 的 HTTP API 进行页面渲染,所以我们需要安装 Splash 来提供渲染服务,安装是通过 Docker 安装,在这之前请确保已经正确安装好了 Docker。
安装命令如下:
docker run -p 8050:8050 scrapinghub/splash
安装完成之后会有类似的输出结果:
2017-07-03 08:53:28+0000 [-] Log opened. 2017-07-03 08:53:28.447291 [-] Splash version: 3.0 2017-07-03 08:53:28.452698 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 2017-07-03 08:53:28.453120 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 20160609] 2017-07-03 08:53:28.453676 [-] Open files limit: 1048576 2017-07-03 08:53:28.454258 [-] Can"t bump open files limit 2017-07-03 08:53:28.571306 [-] Xvfb is started: ["Xvfb", ":1599197258", "-screen", "0", "1024x768x24", "-nolisten", "tcp"] QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to "/tmp/runtime-root" 2017-07-03 08:53:29.041973 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles 2017-07-03 08:53:29.315445 [-] verbosity=1 2017-07-03 08:53:29.315629 [-] slots=50 2017-07-03 08:53:29.315712 [-] argument_cache_max_entries=500 2017-07-03 08:53:29.316564 [-] Web UI: enabled, Lua: enabled (sandbox: enabled) 2017-07-03 08:53:29.317614 [-] Site starting on 8050 2017-07-03 08:53:29.317801 [-] Starting factory
这样就证明 Splash 已经在 8050 端口上运行了。
这时我们打开:http://localhost:8050 即可看到 Splash 的主页,如图 1-81 所示:
图 1-81 运行页面
当然 Splash 也可以直接安装在远程服务器上,我们在服务器上运行以守护态运行 Splash 即可,命令如下:
docker run -d -p 8050:8050 scrapinghub/splash
在这里多了一个 -d 参数,它代表将 Docker 容器以守护态运行,这样在中断远程服务器连接后不会终止 Splash 服务的运行。
3. ScrapySplash的安装成功安装了 Splash 之后,我们接下来再来安装一下其 Python 库,安装命令如下:
pip3 install scrapy-splash
命令运行完毕后就会成功安装好此库,后文我们会介绍它的详细用法。
ScrapyRedis的安装ScrapyRedis 是 Scrapy 分布式的扩展模块,有了它我们可以方便地实现 Scrapy 分布式爬虫的搭建,本节来介绍一下 ScrapyRedis 的安装方式。
1. 相关链接GitHub:https://github.com/rmax/scrap...
PyPi:https://pypi.python.org/pypi/...
官方文档:http://scrapy-redis.readthedo...
2. Pip安装推荐使用 Pip 安装,命令如下:
pip3 install scrapy-redis3. 测试安装
安装完成之后,可以在 Python 命令行下测试。
$ python3 >>> import scrapy_redis
如果没有错误报出,则证明库已经安装好了。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44033.html
摘要:所以如果对爬虫有一定基础,上手框架是一种好的选择。缺少包,使用安装即可缺少包,使用安装即可上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装 上一篇文章:Python3网络爬虫实战---9、APP爬取相关库的安装:Appium的安装下一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis 我们直接...
摘要:阿里云安装脚本安装脚本两个脚本可以任选其一,速度都非常不错。推荐的加速器有和阿里云。阿里云不同平台的镜像加速方法配置可以参考的官方文档。以上便是的安装方式说明。上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库 上一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis下一篇文章:Python3网络爬虫实战---...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:支持全平台的安装,我们直接从的里面安装即可,链接为。平台可以下载安装包如,平台可以下载安装包如,平台可以选择下载源码,但是更推荐用下文的安装方式。上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装 上一篇文章:Python3网络爬虫实战---8、APP爬取相关库的安装:MitmProxy的安装下一篇文章:Python3网络爬虫实战---10、爬虫框架的安装...
摘要:相关链接官方文档安装推荐使用安装,命令如下运行完毕之后即可完成的安装。上一篇文章网络爬虫实战数据库的安装下一篇文章网络爬虫实战库的安装 上一篇文章:Python3网络爬虫实战---4、数据库的安装:MySQL、MongoDB、Redis下一篇文章:Python3网络爬虫实战---6、Web库的安装:Flask、Tornado 在前面一节我们介绍了几个数据库的安装方式,但这仅仅是用来存...
阅读 1551·2023-04-26 01:36
阅读 2717·2021-10-08 10:05
阅读 2774·2021-08-05 09:57
阅读 1536·2019-08-30 15:52
阅读 1192·2019-08-30 14:12
阅读 1310·2019-08-30 11:17
阅读 3096·2019-08-29 13:07
阅读 2414·2019-08-29 12:35