摘要:最近在学习的爬虫。以前坚持用做爬虫。所以就开始动手用爬取一些东西。分页抓取的时候,首页是正常的,爬取第二页的时候,大概率是抛错提示,要么就是给我返回了一些脏数据。这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。
最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊,在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。
然后我的目标网站是个drupal做的。分页抓取的时候,首页是正常的,爬取第二页的时候,大概率是抛错提示:404,要么就是给我返回了一些脏数据。
这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条,请求就正常了:
request.headers["accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8" request.headers["cache-control"] = "no-cache"
看来还是得注意请求头的细节。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43333.html
摘要:注意爬豆爬一定要加入选项,因为只要解析到网站的有,就会自动进行过滤处理,把处理结果分配到相应的类别,但偏偏豆瓣里面的为空不需要分配,所以一定要关掉这个选项。 本课只针对python3环境下的Scrapy版本(即scrapy1.3+) 选取什么网站来爬取呢? 对于歪果人,上手练scrapy爬虫的网站一般是官方练手网站 http://quotes.toscrape.com 我们中国人,当然...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:解析的方法,每个初始完成下载后将被调用,调用的时候传入从每一个传回的对象来作为唯一参数,主要作用如下负责解析返回的网页数据,提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常...
阅读 1293·2021-10-08 10:05
阅读 4105·2021-09-22 15:54
阅读 3105·2021-08-27 16:18
阅读 3106·2019-08-30 15:55
阅读 1435·2019-08-29 12:54
阅读 2747·2019-08-26 11:42
阅读 542·2019-08-26 11:39
阅读 2128·2019-08-26 10:11