摘要:笔者编写的搜索引擎爬虫在爬取页面时遇到了网页被重定向的情况,所谓重定向就是通过各种方法本文提到的为种将各种网络请求重新转到其它位置。即网页中的标签声明了网页重定向的链接,这种重定向由浏览器完成,需要编写代码进行处理。
笔者编写的搜索引擎爬虫在爬取页面时遇到了网页被重定向的情况,所谓重定向(Redirect)就是通过各种方法
(本文提到的为3种)将各种网络请求重新转到其它位置(URL)。
每个网站主页是网站资源的入口,当重定向发生在网站主页时,如果不能正确处理就很有可能会错失这整个网站的内容。
以下列出遇到的3种重定向情况(使用python2.7+requests编写爬虫):
在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体来说,可以通过requests请求得到的response对象中的url、status_code两个属性来判断。当status_code为301、302或其他代表重定向的代码时,表示原请求被重定向;当response对象的url属性与发送请求时的链接不一致时,也说明了原请求被重定向且已经自动处理。
2.meta refresh即网页中的标签声明了网页重定向的链接,这种重定向由浏览器完成,需要编写代码进行处理。例如,某一重定向如下面的html代码第三行中的注释所示,浏览器能够自动跳转,但爬虫只能得到跳转前的页面,不能自动跳转。
解决办法是通过得到跳转前的页面源码,从中提取出重定向url信息(上述代码第三行中的url属性值)。
具体的操作:使用xpath("//meta[@http-equiv="refresh" and @content]/@content")提取出content的值 或者使用正则表达式提取出重定向的url值。
通过JavaScript代码形式进行重定向。如下面JavaScript代码
对于这种方式的跳转,由于可以实现该功能的JavaScript语句有多种形式,不能再使用正则表达式提取url,只能考虑加载JavaScript代码来进行解决,例如使用selenium 无头浏览器phantomJS 模拟浏览器操作
关于phantomJS的一些简单操作语法可以在我这篇phantomJS中看下
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42111.html
摘要:我们知道,在抖音中下载到的视频是有水印的,这就催生出了很多抖音短视频去水印的解析网站,小程序等。禁止重定向,设置运行结果,是一个标签,便是重定向后的地址。 我们知道...
摘要:当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息。三模拟登录下面将介绍使用获取新浪微博,然后使用提交从而实现模拟登录。 当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息。模拟登录是定向爬虫制作中一个必须克服的问题,只有这样才能爬取到更多的内容。 showImg(https://segmentfault.com/img/...
摘要:上一篇文章网络爬虫实战部署相关库的安装下一篇文章网络爬虫实战网页基础在写爬虫之前,还是需要了解一些爬虫的基础知识,如原理网页的基础知识爬虫的基本原理基本原理等。由万维网协会和工作小组共同合作制定的规范,目前广泛使用的是版本。 上一篇文章:Python3网络爬虫实战---14、部署相关库的安装:Scrapyrt、Gerapy下一篇文章:Python3网络爬虫实战---16、Web网页基础...
摘要:最近在研究区块链,闲来无事抓取了拉勾网上条区块链相关的招聘信息。拉勾网的反爬虫做的还是比较好的,毕竟自己也知道这种做招聘信息聚合的网站很容易被爬,而且比起妹子图这种网站,开发的技术水平应该高不少。 最近在研究区块链,闲来无事抓取了拉勾网上450条区块链相关的招聘信息。过程及结果如下。 拉勾网爬取 首先是从拉勾网爬取数据,用的requests库。拉勾网的反爬虫做的还是比较好的,毕竟自己也...
摘要:包括爬虫编写爬虫避禁动态网页数据抓取部署分布式爬虫系统监测共六个内容,结合实际定向抓取腾讯新闻数据,通过测试检验系统性能。 1 项目介绍 本项目的主要内容是分布式网络新闻抓取系统设计与实现。主要有以下几个部分来介绍: (1)深入分析网络新闻爬虫的特点,设计了分布式网络新闻抓取系统爬取策略、抓取字段、动态网页抓取方法、分布式结构、系统监测和数据存储六个关键功能。 (2)结合程序代码分解说...
阅读 1747·2021-10-11 10:57
阅读 2304·2021-10-08 10:14
阅读 3378·2019-08-29 17:26
阅读 3315·2019-08-28 17:54
阅读 2999·2019-08-26 13:38
阅读 2853·2019-08-26 12:19
阅读 3588·2019-08-23 18:05
阅读 1257·2019-08-23 17:04