摘要:现在有许多初学者学习网络爬虫,但他们不懂得控制速度,导致服务器资源浪费。通过的简单配置,能过滤一小部分这类爬虫。参考限制某个同一时间段的访问次数首发地址使用过滤网络爬虫蜻蜓代理
现在有许多初学者学习网络爬虫,但他们不懂得控制速度,导致服务器资源浪费。通过 Nginx 的简单配置,能过滤一小部分这类爬虫。
方法一:通过 User-Agent 过滤Nginx 参考配置如下:
location / { if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") { return 503; } # 正常请求 }
这里只列出了部分爬虫的 User-Agent,需要更多请参考:GitHub - JayBizzle/Crawler-Detect
注意:User-Agent 很容易修改方法二:block IP
通过禁止某个 IP 或者某个 IP 段访问,也能起到一定效果。
Nginx 示例配置如下:
deny 178.238.234.1; deny 1.32.128.0/18;方法三:rate limit
通过限制某个 IP 的访问频率,避免一部分 CC (Challenge Collapsar)攻击。
Nginx 示例配置如下:
http{ #定义一个名为allips的limit_req_zone用来存储session,大小是10M内存, #以$binary_remote_addr 为key,限制平均每秒的请求为20个, #1M能存储16000个状态,rete的值必须为整数, #如果限制两秒钟一个请求,可以设置成30r/m limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s; ... server{ ... location { ... #限制每ip每秒不超过20个请求,漏桶数burst为5 #brust的意思就是,如果第1秒、2,3,4秒请求为19个, #第5秒的请求为25个是被允许的。 #但是如果你第1秒就25个请求,第2秒超过20的请求返回503错误。 #nodelay,如果不设置该选项,严格使用平均速率限制请求数, #第1秒25个请求时,5个请求放到第2秒执行, #设置nodelay,25个请求将在第1秒执行。 limit_req zone=allips burst=5 nodelay; ... } ... } ... }
当然,攻击者也可以使用代理IP来破除频率限制。建议在网站前面加一层 CDN。
参考:nginx限制某个IP同一时间段的访问次数
首发地址:使用 Nginx 过滤网络爬虫 | 蜻蜓代理
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/39761.html
摘要:三服务端渲染方式方式一传统方式服务端渲染,解决用户体验和更好的,有诸多工具使用这种方式如的的等。未列入白名单即请求不是请求或未通过任何过滤器,将只是充当反向代理,只是按原样传送请求和响应。 一、服务器端渲染是什么?使用 React 构建客户端应用程序,默认情况下,可以在浏览器中输出 React 组件,进行生成 DOM 和操作 DOM。React 也可以在服务端通过 Node.js 转换...
摘要:爬虫和反爬虫日益成为每家公司的标配系统。本文将描述一种尽量简单的反爬虫方案,可以在十几分钟内解决部分简单的爬虫问题,缓解恶意攻击或者是系统超负荷运行的状况至于复杂的爬虫以及更精准的防御,需要另外讨论。 showImg(https://segmentfault.com/img/bVDYV4?w=800&h=568); 爬虫和反爬虫日益成为每家公司的标配系统。爬虫在情报获取、虚假流量、动态...
摘要:服务端渲染两种方式根据上文介绍对服务端渲染利弊有所了解,我们可以根据利弊权衡取舍,最近在做服务端渲染的项目,找到多种服务端渲染解决方案,大致分为两类。第一种方式传统方式服务端渲染,解决用户体验和更好的,有诸多工具使用这种方式如的的等。 最近在开发一个服务端渲染工具,通过一篇小文大致介绍下服务端渲染,和服务端渲染的方式方法。在此文后面有两中服务端渲染方式的构思,根据你对服务端渲染的利弊权...
阅读 3033·2021-10-13 09:39
阅读 1879·2021-09-02 15:15
阅读 2438·2019-08-30 15:54
阅读 1803·2019-08-30 14:01
阅读 2601·2019-08-29 14:13
阅读 1410·2019-08-29 13:10
阅读 2730·2019-08-28 18:15
阅读 3869·2019-08-26 10:20