资讯专栏INFORMATION COLUMN

Python3网络爬虫实战---1、请求库安装:Requests、Selenium、ChromeDr

wawor4827 / 1463人阅读

摘要:下一篇文章网络爬虫实战请求库安装爬虫可以简单分为几步抓取页面分析页面存储数据。相关链接官方网站官方文档中文文档安装验证安装进入命令行交互模式,导入一下包,如果没有报错,则证明安装成功。

下一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp

爬虫可以简单分为几步:抓取页面、分析页面、存储数据。

在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP 请求操作,在本书中我们用到的第三方库有 Requests、Selenium、Aiotttp 等。

在本节我们介绍一下这些请求库的安装方法。

1.1.1 Requests的安装

由于 Requests 属于第三方库,也就是 Python 默认不会自带这个库,需要我们手动去安装,下面我们首先看一下它的安装过程。

1. 相关链接

GitHub:https://github.com/requests/r...

PyPy:https://pypi.python.org/pypi/...

官方文档:http://www.python-requests.org

中文文档:http://docs.python-requests.o...

2. 安装
pip3 install requests
3. 验证安装

为了验证库是否已经安装成功,可以在命令行下测试一下:

$ python3
>>> import requests

在命令行首先输入 python3,进入命令行模式,然后输入如上内容,如果什么错误提示也没有,那么就证明我们已经成功安装了 Requests。

1.1.2 Selenium的安装

Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效,下面我们来看下 Selenium 的安装过程。

1. 相关链接

官方网站:http://www.seleniumhq.org

GitHub:https://github.com/SeleniumHQ...

PyPi:https://pypi.python.org/pypi/...

官方文档:http://selenium-python.readth...

中文文档:http://selenium-python-zh.rea...

2. 安装
pip3 install selenium
3. 验证安装

进入 Python 命令行交互模式,导入一下 Selenium 包,如果没有报错,则证明安装成功。

$ python3
>>> import selenium

但这样还不够,我们还需要浏览器如 Chrome、Firefox 等浏览器来配合 Selenium 工作。

下面我们会介绍 Chrome、Firefox、PhantomJS 三种浏览器的配置方式,有了浏览器我们才可以配合 Selenium 进行页面的抓取。

1.1.3 ChromeDriver的安装

在上节我们成功安装好了 Selenium 库,但是它是一个自动化测试工具,需要浏览器来配合它使用,那么本节我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。
首先需要下载一个 Chrome 浏览器,方法多样,在此不再赘述。
随后我们需要安装一个 ChromeDriver 才能驱动 Chrome 浏览器完成相应的操作,下面我们来介绍下怎样安装 ChromeDriver。

1. 相关链接

官方网站:https://sites.google.com/a/ch...

下载地址:https://chromedriver.storage....

2. MAC安装
brew install chromedriver

如果安装失败,使用下面方法

brew cask install chromedriver
3. 验证安装

配置完成之后,就可以在命令行下直接执行 chromedriver 命令了。
命令行下输入:
chromedriver
输入控制台有类似输出,如图 1-17 所示:

图 1-17 控制台输出
如果有类似输出则证明 ChromeDriver 的环境变量配置好了。
随后再在程序中测试,执行如下 Python 代码:

from selenium import webdriver
browser = webdriver.Chrome()

运行之后会弹出一个空白的 Chrome 浏览器,证明所有的配置都没有问题,如果没有弹出,请检查之前的每一步的配置。
如果弹出之后闪退,则可能是 ChromeDriver 版本和 Chrome 版本不简容,请更换 ChromeDriver 版本。
如果没有问题,接下来我们就可以利用 Chrome 来做网页抓取了。

4. 结语

既然 Chrome 可以通过 Selenium 驱动,Firefox 也可以,如果想要实现 Selenium 驱动 Firefox 浏览器可以参考下面的 GeckoDriver 的安装。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44022.html

相关文章

  • Python3网络爬虫实战---2、请求安装:GeckoDriver、PhantomJS、Aioh

    摘要:上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装的安装在上一节我们了解了的配置方法,配置完成之后我们便可以用来驱动浏览器来做相应网页的抓取。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装 上一篇文章:Python3网络爬虫实战---1、请求库安装:Requests、Selenium、ChromeDriver下一篇文章:Python3网络爬虫实战--...

    Cristalven 评论0 收藏0
  • Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图

    摘要:上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来。 上一篇文章:Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章:Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...

    Leck1e 评论0 收藏0
  • 【小白+python+selenium+图片爬取+反爬+资料】超详细新手实现(01)webdriv

    摘要:且本小白也亲身经历了整个从小白到爬虫初入门的过程,因此就斗胆在上开一个栏目,以我的图片爬虫全实现过程为例,以期用更简单清晰详尽的方式来帮助更多小白应对更大多数的爬虫实际问题。 前言: 一个月前,博主在学过python(一年前)、会一点网络(能按F12)的情况下,凭着热血和兴趣,开始了pyth...

    Half 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • Python3网络爬虫实战---17、爬虫基本原理

    摘要:在前面我们讲到了和的概念,我们向网站的服务器发送一个,返回的的便是网页源代码。渲染页面有时候我们在用或抓取网页时,得到的源代码实际和浏览器中看到的是不一样的。所以使用基本请求库得到的结果源代码可能跟浏览器中的页面源代码不太一样。 上一篇文章:Python3网络爬虫实战---16、Web网页基础下一篇文章:Python3网络爬虫实战---18、Session和Cookies 爬虫,即网...

    hellowoody 评论0 收藏0

发表评论

0条评论

wawor4827

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<