摘要:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于文件存在限制指令无法提供内容描述,于是便去学习了一波原来一般来说搜索引擎爬取网站时都会,先读取下文件,并依照里面所设定的规则去爬取
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波
1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面)
2.下面我们就来说一说如何设置robots.txt文件
1).robots.txt文件必须是放在文件根目录上:
例如:
├─admin
│ └─templates
│ header.tpl.php
│ task_add.tpl.php
│ └─robots.txt
2 ) .首先常用的命令为
User-agent : 可以具体制定User-agent适用,即搜索引擎的名字,如果为 * 的话则为通配
Disallow : 可以设定档案或文件夹,不允许被爬虫爬取,且为 / 时禁止爬取整站 ,也可以指定文件路径,不可爬取
Crawl-delay: 延时爬取,防止爬虫短时间内爬取网站过快导致网站崩溃,则可以设置该延时
Allow : 允许爬取指定页面, 为 / 时爬取整站
3) 搜索引擎别称
Googlebot 谷歌
Baiduspider 百度
等等
类似我们测试环境就设置了
User-agent : / 所有搜索引擎
Disallow : / 禁止整站
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/1875.html
摘要:比如我们可以设置这就代表我们设置的规则对百度爬虫是有效的。上一篇文章网络爬虫实战使用解析链接下一篇文章网络爬虫实战基本使用 上一篇文章:Python3网络爬虫实战---22、使用Urllib:解析链接下一篇文章:Python3网络爬虫实战---24、requests:基本使用 利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简...
摘要:百度云搜索,搜各种资料搜网盘,搜各种资料表达式表示向下查找层指定标签,如表示查找所有标签表示向下查找一层指定的标签表示查找指定属性的值可以连缀如属性名称属性值表示查找指定属性等于指定值的标签可以连缀,如查找名称等于指定名称的标签获取标签文本 【百度云搜索,搜各种资料:http://www.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 xpath...
摘要:学习爬虫的背景了解。但是搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容,如标注为的链接,或者是协议。不同领域不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。 学习python爬虫的背景了解。 大数据时代数据获取方式 如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,而数据的获取的方式...
摘要:提升篇之配置增加并发并发是指同时处理的的数量。其有全局限制和局部每个网站的限制。使用级别来报告这些信息。在进行通用爬取时并不需要,搜索引擎则忽略。禁止能减少使用率及爬虫在内存中记录的踪迹,提高性能。 scrapy提升篇之配置 增加并发 并发是指同时处理的request的数量。其有全局限制和局部(每个网站)的限制。Scrapy默认的全局并发限制对同时爬取大量网站的情况并不适用,因此您需要...
阅读 2052·2021-11-23 10:13
阅读 2767·2021-11-09 09:47
阅读 2690·2021-09-22 15:08
阅读 3290·2021-09-03 10:46
阅读 2216·2019-08-30 15:54
阅读 889·2019-08-28 18:09
阅读 2391·2019-08-26 18:26
阅读 2318·2019-08-26 13:48