scrapy爬取Drupal网站，提示404错误

Xufc 发布于2019-07-31 10:09 / 1500人阅读

摘要：最近在学习的爬虫。以前坚持用做爬虫。所以就开始动手用爬取一些东西。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示，要么就是给我返回了一些脏数据。这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。
然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示：404，要么就是给我返回了一些脏数据。

这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条，请求就正常了：

request.headers["accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
request.headers["cache-control"] = "no-cache"

看来还是得注意请求头的细节。

GPU云服务器云服务器网站404错误 scrapy爬取实例点击网页提示?404? asp提示404

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43333.html

scrapy入门教程——爬取豆瓣电影Top250！

摘要：注意爬豆爬一定要加入选项，因为只要解析到网站的有，就会自动进行过滤处理，把处理结果分配到相应的类别，但偏偏豆瓣里面的为空不需要分配，所以一定要关掉这个选项。本课只针对python3环境下的Scrapy版本（即scrapy1.3+）选取什么网站来爬取呢？对于歪果人，上手练scrapy爬虫的网站一般是官方练手网站 http://quotes.toscrape.com 我们中国人，当然...

senntyou 2019-07-30 15:05 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
Scrapy 框架入门简介

摘要：解析的方法，每个初始完成下载后将被调用，调用的时候传入从每一个传回的对象来作为唯一参数，主要作用如下负责解析返回的网页数据，提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常...

Coding01 2019-07-30 15:39 评论0 收藏0
爬虫入门

摘要：通用网络爬虫通用网络爬虫又称全网爬虫，爬取对象从一些种子扩充到整个。为提高工作效率，通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。爬虫简单的说网络爬虫（Web crawler）也叫做网络铲（Web scraper）、网络蜘蛛（Web spider），其行为一般是先爬到对应的网页上，再把需要的信息铲下来。分类网络爬虫按照系统结构和实现技术，...

defcon 2019-07-30 17:07 评论0 收藏0