摘要:大概有三种方法可以限制蜘蛛的抓取文件文件用于限制搜索引擎蜘蛛的行为,在源站屏蔽蜘蛛主要是为了限制蜘蛛对同程序下不同域名的抓取。识别蜘蛛的,在网站程序上做限制获取访客的,如果是搜索引擎蜘蛛的,则跳转至主站。
原文转自本人博客 - Ku_Andrew"s Blog
CDN源站屏蔽搜索引擎爬虫
自从去年全站使用阿里云CDN之后,网站访问速度得到了很明显的提升,同时阿里云CDN的稳定性也很棒。但最近这段时间发现,百度和谷歌的爬虫开始爬我的源站了。这就有点麻烦了,要是不赶紧解决,给主站降权就不好了。
0x01 思路因为蜘蛛爬了不该爬的东西,解决思路自然是限制蜘蛛的爬取。
大概有三种方法可以限制蜘蛛的抓取:
robots文件用于限制搜索引擎蜘蛛的行为,在源站屏蔽蜘蛛主要是为了限制蜘蛛对同程序下不同域名的抓取。但是robots.txt文件没有可以限制域名相关的参数,只能限制蜘蛛对当前域名下文件的抓取,此路不通。
2.设置META标签当访客访问的域名不是主站域名时,在网页的标签中植入限制蜘蛛活动的内容,实现起来比较简单,只用修改一下模板中的header文件即可。
3.识别蜘蛛的UA,在网站程序上做限制获取访客的User-Agent,如果是搜索引擎蜘蛛的UA,则跳转至主站。也有一个问题,就是要去网上收集各家搜索引擎蜘蛛的UA,想着就累。
人懒,就选择设置META标签的方法。
第一步,在程序中获取访客访问的域名。这一歩就不做多介绍了,不同语言和环境有不同的方法获取,PHP可以通过如下语句获取访问者当前访问的域名:
$_SERVER["SERVER_NAME"];
第二步,如果不为主站域名,则输出HEAD中的META标签限制蜘蛛的活动:
if ($_SERVER["SERVER_NAME"] != "www.kungg.com" { echo ""; }0x03 大功告成
额,插不了图片。。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/10951.html
摘要:讲述网站的访问量从到,从到,从到,从到的过程。这时候的网站依然局限于单机发布,或者使用虚拟主机网站空间发布。这时候往往很难由一个人完成一个网站的开发工作。网站,很多it行业的人都了解。 网站的成长过程,却是很多it行业人士并不理解的过程,往往还有人调侃:做个淘宝网多少钱?本文将逐步讲述网站的成长过程。讲述网站的访问量从0到1,从1到100,从100到1000,从1000到1000000+的过...
摘要:讲述网站的访问量从到,从到,从到,从到的过程。缓存设计,负载均衡发布,数据库高性能优化,数据库读写分离,高性能中间件,分布式设计,加速,安全防御,云架构发布等等五花八门的技术综合使用。 网站,很多it行业的人都了解。 网站的成长过程,却是很多it行业人士并不理解的过程,往往还有人调侃:做个淘宝网多少钱?本文将逐步讲述网站的成长过程。讲述网站的访问量从0到1,从1到100,从100到10...
摘要:页面加速下载加速点播加速有什么区别,该如何选择区别面向的加速内容不同,页面加速主要针对网页文件图片文件等小文件下载加速主要针对安装包,压缩包等大文件点播加速主要针对等视频文件。下载加速和点播加速默认情况下,所有文件缓存天。FAQQ:接入CDN加速的域名有什么要求?A:在接入 CDN 加速时,加速国内区域,需要在工信部完成备案,且源站的业务内容必须合法,否则将无法接入您的域名。加速海外区域源站...
摘要:长期维护该内核通用源码包,目前已经支持和等绝大多数的发行版。选择的加速区域在中国大陆地区之外,无论客户端在哪访问都不需要备案。网站或场景是否可以使用可以使用,全球动态加速支持透传回源。FAQ加速配置和加速线路的关系1、带宽共享功能:一个加速线路可以被多个加速配置绑定,这些加速配置共享加速线路的带宽; 2、一个加速配置可以绑定多个加速线路。 3、删除加速配置不会影响加速线路,加速线路仍存在...
阅读 1983·2021-11-08 13:14
阅读 2912·2021-10-18 13:34
阅读 1980·2021-09-23 11:21
阅读 3561·2019-08-30 15:54
阅读 1693·2019-08-30 15:54
阅读 2876·2019-08-29 15:33
阅读 2544·2019-08-29 14:01
阅读 1923·2019-08-29 13:52