摘要:下一篇文章网络爬虫实战请求库安装爬虫可以简单分为几步抓取页面分析页面存储数据。相关链接官方网站官方文档中文文档安装验证安装进入命令行交互模式,导入一下包,如果没有报错,则证明安装成功。
下一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp
爬虫可以简单分为几步:抓取页面、分析页面、存储数据。
在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP 请求操作,在本书中我们用到的第三方库有 Requests、Selenium、Aiotttp 等。
在本节我们介绍一下这些请求库的安装方法。
1.1.1 Requests的安装由于 Requests 属于第三方库,也就是 Python 默认不会自带这个库,需要我们手动去安装,下面我们首先看一下它的安装过程。
1. 相关链接GitHub:https://github.com/requests/r...
PyPy:https://pypi.python.org/pypi/...
官方文档:http://www.python-requests.org
中文文档:http://docs.python-requests.o...
2. 安装pip3 install requests3. 验证安装
为了验证库是否已经安装成功,可以在命令行下测试一下:
$ python3 >>> import requests
在命令行首先输入 python3,进入命令行模式,然后输入如上内容,如果什么错误提示也没有,那么就证明我们已经成功安装了 Requests。
1.1.2 Selenium的安装Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效,下面我们来看下 Selenium 的安装过程。
1. 相关链接官方网站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ...
PyPi:https://pypi.python.org/pypi/...
官方文档:http://selenium-python.readth...
中文文档:http://selenium-python-zh.rea...
2. 安装pip3 install selenium3. 验证安装
进入 Python 命令行交互模式,导入一下 Selenium 包,如果没有报错,则证明安装成功。
$ python3 >>> import selenium
但这样还不够,我们还需要浏览器如 Chrome、Firefox 等浏览器来配合 Selenium 工作。
下面我们会介绍 Chrome、Firefox、PhantomJS 三种浏览器的配置方式,有了浏览器我们才可以配合 Selenium 进行页面的抓取。
1.1.3 ChromeDriver的安装在上节我们成功安装好了 Selenium 库,但是它是一个自动化测试工具,需要浏览器来配合它使用,那么本节我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。
首先需要下载一个 Chrome 浏览器,方法多样,在此不再赘述。
随后我们需要安装一个 ChromeDriver 才能驱动 Chrome 浏览器完成相应的操作,下面我们来介绍下怎样安装 ChromeDriver。
官方网站:https://sites.google.com/a/ch...
下载地址:https://chromedriver.storage....
2. MAC安装brew install chromedriver
如果安装失败,使用下面方法
brew cask install chromedriver3. 验证安装
配置完成之后,就可以在命令行下直接执行 chromedriver 命令了。
命令行下输入:
chromedriver
输入控制台有类似输出,如图 1-17 所示:
图 1-17 控制台输出
如果有类似输出则证明 ChromeDriver 的环境变量配置好了。
随后再在程序中测试,执行如下 Python 代码:
from selenium import webdriver browser = webdriver.Chrome()
运行之后会弹出一个空白的 Chrome 浏览器,证明所有的配置都没有问题,如果没有弹出,请检查之前的每一步的配置。
如果弹出之后闪退,则可能是 ChromeDriver 版本和 Chrome 版本不简容,请更换 ChromeDriver 版本。
如果没有问题,接下来我们就可以利用 Chrome 来做网页抓取了。
既然 Chrome 可以通过 Selenium 驱动,Firefox 也可以,如果想要实现 Selenium 驱动 Firefox 浏览器可以参考下面的 GeckoDriver 的安装。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44022.html
摘要:上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装的安装在上一节我们了解了的配置方法,配置完成之后我们便可以用来驱动浏览器来做相应网页的抓取。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装 上一篇文章:Python3网络爬虫实战---1、请求库安装:Requests、Selenium、ChromeDriver下一篇文章:Python3网络爬虫实战--...
摘要:上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来。 上一篇文章:Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章:Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...
摘要:且本小白也亲身经历了整个从小白到爬虫初入门的过程,因此就斗胆在上开一个栏目,以我的图片爬虫全实现过程为例,以期用更简单清晰详尽的方式来帮助更多小白应对更大多数的爬虫实际问题。 前言: 一个月前,博主在学过python(一年前)、会一点网络(能按F12)的情况下,凭着热血和兴趣,开始了pyth...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:在前面我们讲到了和的概念,我们向网站的服务器发送一个,返回的的便是网页源代码。渲染页面有时候我们在用或抓取网页时,得到的源代码实际和浏览器中看到的是不一样的。所以使用基本请求库得到的结果源代码可能跟浏览器中的页面源代码不太一样。 上一篇文章:Python3网络爬虫实战---16、Web网页基础下一篇文章:Python3网络爬虫实战---18、Session和Cookies 爬虫,即网...
阅读 523·2023-04-26 00:33
阅读 3548·2021-11-24 09:39
阅读 2952·2021-09-22 15:34
阅读 2324·2019-08-23 18:07
阅读 2919·2019-08-23 18:04
阅读 3709·2019-08-23 16:06
阅读 2902·2019-08-23 15:27
阅读 1620·2019-08-23 14:32