恶意爬虫这样窥探、爬取、威胁你的网站

wangbjun 发布于2019-07-25 13:49 / 2618人阅读

摘要：利用这一业务逻辑，恶意爬虫通过各类社工库拿到一批手机号后可以在短时内验证这批号码是否为某一网站的注册用户。事前的甄别预防才是关键恶意爬虫在给网站带来可观访问量的同时，也带来了难以估量的威胁和损失。

整个互联网的流量中，真人占比有多少？

80% ？ 60% ？ 50% ？

根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示，2015 年网站流量中的真人访问仅为总流量的 54.4% ，剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。

爬与反爬的斗争从未间断

恶意爬虫占比数据与 2013 年和 2014 年相比有所下降，同时真人访问的占比也有所提升，但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升，另一方面，恶意爬虫制造者更专注于爬虫的质量而不是数量，如今的恶意爬虫具有高持续性和可变性。

爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别，但爬虫制造者从一次次爬与反爬中总结出可能被封的原因，通过不断的测试和改善爬虫程序，更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个：

模仿真人行为

加载 Javascript 和外部资源

模拟 cookie 和 useragent

浏览器自动化操作

变化的 IP 地址池

可能很多人认为，恶意爬虫只会威胁到少数以文本为核心价值的网站，其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落，文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。

纵容爬虫的危害你必须知道

从网站业务安全的角度，纵容这些伪装者的危害有以下几点：

一、核心文本被爬

网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名，低排名会导致访问量降低和销量、广告收益降低的恶性循环。

在内容为王、用户粘性不高的今天，核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点，那恶意爬虫更是影响 KPI 的罪魁祸首。

关注网站：
文学博客、招聘网站、论坛网站、电商内的评论

二、商品价格被爬 1. 价格爬虫的成因有两种，一是网站竞争对手刻意爬取商品详情和价格后进行同类产品线和价格的研究。

比如某 APP 上线新的租车服务前，会爬取所有竞品 APP 中的车型详情及定价策略，为新服务上线打下价格优势。

另一个案例来自某酒店网站，我们在数据分析平台 Warden 实践中发现，网站的客房详情被爬虫攻击，机器访问的特点非常明显：

页面被某几个 IP 超高频访问，单个 IP每小时访问量达 5000 以上

部分 IP 的访问路径极为单一，仅请求房价详情页面，无真人访问的“首页→搜索→详情页→搜索”轨迹

访问间隔极短，且每次均请求不同时间段不同地域不同编号的酒店客房信息

以上特点能完全排除真人访问的可能，在数据分析平台中也触发多个实时策略，让我们可以协助用户及时处理。

* IP 点击详情

*某一条点击详情的 request 和 response 信息*

*点击数及报警数统计，红点部分为触发报警*

这类爬虫就是典型的价格爬虫，如不进行实时判断和拦截，网站的定价信息可能在几小时内就被竞争对手完全掌握。

2. 第二个成因是羊毛党们试图搜寻低价商品信息或在营销大促前提前获取情报寻找套利的可能。

比如某 P2P 行业客户发现近几个月理财转让专区的产品几乎在放出 2 秒内就被转让成功，而网站的活跃用户并没有大幅的增长，转让专区疑似被爬。

通过数据分析平台能在流量中能看到该转让页面正在遭受爬虫的攻击，攻击者能在极短时间内获取转让产品的收益率并自动筛选高收益率的产品，甚至能实现脚本自动下单购买。

3. 另一个案例来自某电商平台

某次声势浩大的营销活动规定新注册用户绑卡后能获得一次抽奖机会，由于抽奖接口遗漏了其他渠道分享入口，给羊毛党有了不绑卡也能抽奖的可趁之机，造成活动几乎全部的奖品被羊毛党薅去。

*网站营销页面点击量突增*

*风险情报系统提示该 IP 具有高风险分值*

在事后复盘时，我们在数据分析平台中发现羊毛党活动前疑似派出爬虫探路，活动汇总页面被超高频访问，虽然访问量并不集中于某几个 IP ，但有访问地域集中于某两个城市、访问路径单一且访问间隔有规律等特点。另外，通过风险情报系统 Red.Q 的数据，同样提示这些访问 IP 的高风险分值，活动开始后羊毛党的访问也有类似的访问规律。

羊毛党的活动特性是个大话题，在此先不展开，但从案例中能看到，价格爬虫是羊毛党们的先锋探路工具，攻击者们可以通过爬虫获得营销活动的具体信息，同时能测试网站对高频访问或最大访问量的限制，为之后的薅羊毛做铺垫。

3. 注册用户被扫描

如果在网站的注册页面输入一个已注册过的号码，通常会看到“该用户已注册”的提示，这一信息也会在请求的 response 中显示，一些网站的短信接口也有类似逻辑，注册用户和非注册用户返回的字段和枚举值会有不同。利用这一业务逻辑，恶意爬虫通过各类社工库拿到一批手机号后可以在短时内验证这批号码是否为某一网站的注册用户。

这个数据有什么利用价值？除了很明显的违法欺诈外，攻击者可以将数据打包出售给竞争对手或感兴趣的数据营销公司，完善他们的精准营销数据。

4. 其他危害

点击欺诈：点击欺诈会给网站造成实实在在的利益损失。投放广告通常是为了触达符合网站定位的潜在消费者，爬虫造成的点击欺诈使得广告的点击率虚高，使得网站承担了本不应承担的点击费用。从运营角度出发，访问量无原因的忽高忽高也不利于分析广告投放效果。

网站带宽负担：对于带宽有限的中小型网站，爬虫可能会降低网页加载速度，影响真实用户的访问体验。

事前的甄别预防才是关键

恶意爬虫在给网站带来可观访问量的同时，也带来了难以估量的威胁和损失。

从实际案例中我们可以看到，恶意爬虫已经承担了整个攻击环节先锋者的重任，所以在分析网站的业务安全风险时，我们可以更多的关注流量和用户行为的异常点，尽可能的在恶意行为刚发生时就及时甄别并做出合理的判断和拦截，必要时，宜采用专业的风险情报系统和数据分析平台进行系统的部署。对于企业来说，事前预防远比事后补救重要。

反爬虫
文章来源：http://bigsec.com/

作者简介

大星岂安科技数据分析师
3年互联网数据分析及运营经验，丰富的多行业业务风险反欺诈经验，负责岂安科技产品运营及不同行业不同客户的业务风险分析。

云服务器 GPU云服务器恶意爬虫爬虫爬取数据 java爬虫爬取数据类似xyz这样的网站域名

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/39399.html

python

Python装饰器为什么难理解？无论项目中还是面试都离不开装饰器话题，装饰器的强大在于它能够在不修改原有业务逻辑的情况下对代码进行扩展，权限校验、用户认证、日志记录、性能测试、事务处理、缓存等都是装饰器的绝佳应用场景，它能够最大程度地对代码进行复用。但为什么初学者对装饰器的理解如此困难，我认为本质上是对Py… Python 实现车牌定位及分割作者用 Python 实现车牌定位及分割的实践。 ...

chenatu 2019-07-30 15:35 评论0 收藏0
AI重新定义Web安全

摘要：在不便中，一直蕴藏着技术革新的机会这时，机器学习来了机器学习是解决安全问题的金钥匙机器学习其实早已到来。正因为安全问题本质是特定领域内的识别问题，所以从理论上讲，机器学习非常适合应用在安全领域，是解决安全问题的金钥匙。作者简介： showImg(https://segmentfault.com/img/bVXnOA?w=279&h=306); 丛磊白山合伙人兼工程副总裁。丛磊先生2...

617035918 2019-06-26 18:18 评论0 收藏0
爬虫 - 收藏集 - 掘金

摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道上篇爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...

1fe1se 2019-07-31 10:58 评论0 收藏0
nodeJS实现基于Promise爬虫定时发送信息到指定邮件

摘要：也就是说，我的篇文章的请求对应个实例，这些实例都请求完毕后，执行以下逻辑他的目的在于对每一个返回值这个返回值为单篇文章的内容，进行方法处理。英国人Robert Pitt曾在Github上公布了他的爬虫脚本，导致任何人都可以容易地取得Google Plus的大量公开用户的ID信息。至今大概有2亿2千5百万用户ID遭曝光。亮点在于，这是个nodejs脚本，非常短，包括注释只有71行。 ...

xuweijian 2019-08-20 15:27 评论0 收藏0