爬虫养成记 - urllib2的调试和错误处理

CoffeX 发布于2019-07-25 11:24 / 2034人阅读

摘要：设置和处理事实上，并不是所有发起的请求都能得到服务器的回应。例如网络无链接连接不到服务器链接不存在请求的方法不对等情况都会造成抛出错误。上面说到的出错就会抛出。用于处理相关的错误。

urllib2的timeout

timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候，需要设置一个比较长的超时时间。

response = urllib2.urlopen(request, timeout=10)

上述代码设置timeout为10秒。

设置Debug

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

urllib2.urlopen("http://www.zhihu.com")

URLError和HTTPError处理

事实上，并不是所有urllib2发起的请求都能得到服务器的回应。
例如

网络无链接

连接不到服务器

链接不存在

请求的方法不对

等情况都会造成urllib2抛出错误。
urllib2提供了两个Exception用于处理响应的错误。

URLError
URLError是HttpError的父类。上面说到的handlers出错就会抛出URLError。

HTTPError
HTTPError是URLError的子类。用于处理Http相关的错误。

HTTPError除了reson属性外还有code属性。
code属性即http状态码。更多状态码可以阅读：http://www.cnblogs.com/shanyo...

下面我们来展示一下示例代码：

import urllib2

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"
}
request = urllib2.Request("http://blog.csdn.net/cqcre", headers = headers)

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

try:
    response = urllib2.urlopen(request)
    print response.getcode()
except urllib2.HTTPError, e:
    print e.code, e.reason
except urllib2.URLError, e:
    print e.reason

值得注意的是 HTTPError是URLError的子类，因此在捕获Exception的时候需要将子类放在前面避免Exception先被父类捕获。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/38379.html

爬虫养成记 - 网络下载器urllib2初认识

摘要：申明本系列文章借鉴了慕课网的课程，。慕课网是一个非常赞的学习网站。是下的一个模块，在中，被拆分成和实现一个最简单的下载器使用函数可以给服务器发送一个请求。该函数返回一个该返回的对象有三个额外的函数取得服务器返回的。默认没有的，请求方式为。申明：本系列文章借鉴了慕课网的课程，http://www.imooc.com/learn/563。慕课网是一个非常赞的学习网站。 urllib2是p...

AlphaWallet 2019-07-25 11:25 评论0 收藏0
爬虫养成记 - urllib2的HTTPCookieProcessor

摘要：相当于该用户的档案。上述的文字对机制描述的比较简单也并不一定完全正确。但是默认的并不支持。中供我们使用的是。创建需要闯入一个存放的容器。即过期的也保存。目前博主只知道链接后带的参数需要与相匹配。但是并不知道两者具体的关系。很多网站的资源需要用户登录之后才能获取。我们一旦登录后再访问其他被保护的资源的时候，就不再需要再次输入账号、密码。那么网站是怎么办到的呢？一般来说，用户在登录之后，...

gnehc 2019-07-25 11:27 评论0 收藏0
爬虫养成记 - 网络下载器urllib2伪装术

摘要：发送请求方不希望被跟踪。主要用来将伪装成一个正常的浏览器。该字典就是说是网络协议名称，是代理的。另外一般会明确指定资源存放的位置。意思是将现在提交的数据存放于下第篇。请求删除某一个资源。向服务器提交数据。前一个教程我们涉及到了urllib2的一些高级应用。这一片文章我们来比较系统的介绍一下。该篇教程参考了静觅的博文：http://cuiqingcai.com/954.html。写这...

Darkgel 2019-07-25 11:24 评论0 收藏0
爬虫养成记 - 什么是网络爬虫

摘要：趁着春节，希望能写一个小小的网络爬虫框架。网页下载器接收，将页面内容下来。可以定义一个表，定义两个字段和缓存数据库网页下载器网页下载器就是更具下载网页内容等。常见的网页下载器有是官方的基础模块。趁着春节，希望能写一个小小的网络爬虫框架。先定一个小目标，希望能比较优雅地将某个网站上的所有图片爬下来。暂时先将这个爬虫的名字叫做Squirrel，小松鼠吧。什么是爬虫爬虫其实是一种从互联...

lucas 2019-07-25 11:25 评论0 收藏0
爬虫 - 收藏集 - 掘金

摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道上篇爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...

1fe1se 2019-07-31 10:58 评论0 收藏0