摘要:而在不久前宣布支持模式而后跟随的新闻再次勾起我无尽的回忆。那么我们就来谈谈在和浏览器不原生支持模式下如何使用来实现模式进行动态数据的抓取。比较常见的例子在中进行转发。下面我们进行测试发现其可以正常的运行。
原文地址:
http://52sox.com/python-use-h...
在Python中进行浏览器测试时,一般我们会选择selenium这样的库来简化我们工作量。而有些时候,为了对一些动态数据进行抓取,我们会选择PhantomJs这样的工具。而在selenium中我们也可以集成Phantomjs对应的驱动,可以很方便的进行对应的操作。
在Phantomjs的官方网站上,我们可以看到类似如下的字样:
在这里就引申出1个headless mode的概念。而phantomjs与我们常用浏览器的区别就是,它不需要GUI界面也可以运行,因此更为节省资源。
实际上,对于动态数据的抓取问题对我来说已经是很多年之前的事情,无论是基于Phantomjs的casperjs,还是使用Qt、GTK这样的GUI包编写浏览器来进行操作,或者是这里要介绍的selenium的方式,都已经成为过去式了。
而自从在新公司从事新的工作后,对于这样的问题实际上基本上都懒得动手了,不如让同事去做吧。
大概在1个月前,之前公司坐我隔壁的那个哥们写了1个分布式的爬虫框架(实际上关于这方面,个人觉得完全没有必要,流行的scrapy和pyspider那个好用)时遇到了这样1个问题,当时他在selenium中使用Phantomjs对某个页面进行抓取,然后发现有些东西使用Phantomjs抓取不下来,然后只要使用firefox的方式来进行。其博客可以点击。
而在不久前,chrome宣布支持headless模式,而后firefox跟随的新闻,再次勾起我无尽的回忆。
实际上,phantomjs这个工具对于Python的人来说很不习惯,而且还有一些莫名其妙的问题。那么,我们就来谈谈在Firefox和Chrome浏览器不原生支持headless模式下,如何使用selenium来实现headless模式进行动态数据的抓取。
在这里为了方便说明,我们在Linux环境下进行操作,使用的版本如下:
Centos==6.8 Python==2.7.10 selenium==2.53.0 Firefox==45.0
在Linux中有1个很好用的工具xvfb,它是1个X服务可以用于在没有显示器的硬件和物理输入设备上运行,详细的操作可以参考。而关于X服务的内容,请自行百度。比较常见的例子在ssh中进行X11转发。
可以看到,在这里我们需要借助xvfb的方式来实现所谓的headless模式,实际上这个操作就10分钟就完成了。
在这里,我们通过如下的方式安装需要的软件包:
[cat@localhost ~]$ sudo yum install xdg-utils xorg-x11-server-Xvfb xorg-x11-xkb-utils
如果你使用的是基于Debian的系统,比如Ubuntu,那么对应的安装方式可能为:
sudo aptitude install xdg-utils xvfb x11-xkb-utils安装xvfb的绑定
安装完成xvfb绑定后,一般情况下我们会使用命令的方式来开启虚拟显示。而由于本人比较懒是1个特点,因此我们直接将其与我们的脚本一起集成在一起。
在这里,我们安装1个xvfbwrapper的库,这个库用于在你的Python中开启和关闭xfvb会话。
在这里,我们直接通过pip进行安装:
pip install xvfbwrapper编写对应的代码
安装完绑定依赖后,我们终于可以愉快的开启编写代码了,在这里我们先引入对应的模块:
from xvfbwrapper import Xvfb
接着我们实例化1个实例:
xvfb = Xvfb()
接着我们就可以开启及关闭其其会话了:
#!/usr/bin/env python from selenium import webdriver from xvfbwrapper import Xvfb xvfb = Xvfb(width=1280,height=720) xvfb.start() print("Start...") browser = webdriver.Firefox() browser.get("http://52sox.com") title = browser.title print(title) print("Clean...") browser.close() xvfb.stop()
在这里,我们将其与selenium进行集成,在这里由于时间的关系,就简单的用于获取个人博客上的标题。
下面我们进行测试:
[cat@localhost ~]$ python headless.py Start... The Kite in the wind Clean...
发现其可以正常的运行。可以说,简单到没有朋友。
参考文章:
http://tobyho.com/2015/01/09/...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38591.html
摘要:了解模式指的是不需要用户界面的浏览器,这种浏览器在自动化测试和爬虫领域有着广泛的应用。实践使用浏览器的模式进行自动化测试,你需要先满足以下前提运行环境或者或者最新版已加入万事俱备,废话不多说我们直接上演示代码。 了解HEADLESS模式 HEADLESS BROWSER 指的是不需要用户界面的浏览器,这种浏览器在自动化测试和爬虫领域有着广泛的应用。 例如你想在网页上运行一些测试,从网页...
注:文章聚合了现在 headless chrome 介绍和使用方式 包含了三个部分 chrome 在 mac 上的安装和简单使用(来自官方) 利用 selenium 的 webdrive 驱动 headless chrome(自己添加) 利用Xvfb方式实现伪 headless chrome 概念 Headless模式解决了什么问题: 自动化工具例如 selenium 利用有头浏览器进行测试...
摘要:通常的解决办法是通过抓包,然后查看信息,接着捕获返回的消息。为了减少因为安装环境所带来的烦恼。代理因为我们已经用替换了。我们需要直接用来处理代理问题。根据上面这段代码,我们也不难猜出解决代理的方法了。 上周说到scrapy的基本入门。这周来写写其中遇到的代理和js渲染的坑。 js渲染 js是爬虫中毕竟麻烦处理的一块。通常的解决办法是通过抓包,然后查看request信息,接着捕获ajax...
摘要:使用图设置浏览器语言为英文方法图设置浏览器语言为英文方法结果功能该功能最常见的用法就是使用该功能配置屏蔽网站对爬虫等自动化程序的检测。 rf(即robotframework)是自动化测试常用的框架之一,在前端自动化测试中常与webdriver驱动器,以及rf的selenium2library...
阅读 3559·2021-09-22 10:52
阅读 1587·2021-09-09 09:34
阅读 1989·2021-09-09 09:33
阅读 757·2019-08-30 15:54
阅读 2595·2019-08-29 11:15
阅读 712·2019-08-26 13:37
阅读 1666·2019-08-26 12:11
阅读 2974·2019-08-26 12:00