摘要:从最大的同性社交平台获取数据好了,言归正传,回到题目。乌云密布的爬虫百度网盘这件事,是我不想看到的,这类安全问题的一个共同特点用户自身确实存在问题。
本文作者:夏之冰雪,i春秋签约作家
《我在百度网盘上看到上万条车主个人信息,企业、政府高官信息、各种数据库和无穷无尽的盗版》,一时间,这篇文章就火了,火爆程度另百度猝不及防。
其实呢,这事真不能全怪百度,毕竟用户分享出去了。之所以引起这么大轰动,主要是因为用户的文件本身,什么数据都有,导致这次危害或者说恐慌,进行了放大。
每一次危机过去之后———— 普通人,只会对其津津乐道; 有能力的人,会思考如何避免再次发生; 而开拓者,则会洞察整个形势。
百度网盘泄露事件留给了我们什么
百度事件发生,得到消息的人会赶紧确认自己的隐私文件是否被分享,然后尽快取消分享保证安全。一周过后,风波也就散了,基本就没有什么话题或者新闻了。
这里我抛出一系列问题:
除了百度网盘,还有没有其它类似的问题?
遭受泄露的用户群体,有哪些通性?
从事技术行业的人,更具备敏感意识么?他们是否更大程度避免发生这类问题?
本篇文章不会给出答案,因为这是开放性问题,没有绝对的答案。上面这几个问题,目的是为了让大家带着思考去看下文,之后,你可能会对百度事件,有一个更全面的认识。
从最大的同性社交平台获取数据
好了,言归正传,回到题目。题目不是噱头,毋庸置疑github是全球最大的同性社交平台,这篇文章,我会通过github向大家展示一种攻击思路,以及我的一个成果:
我有几千个github账号和密码(确实没有上万,不吹牛逼,该多少就多少)。
几千个账号,说多不多,说少不少,所运用到的技术原理————基于爬虫的数据攻击,这方面的研究(不知道算不算学术)差不多有一年多了,我会把可公开的内容展示给大家,研究的结果还不是很成熟,欢迎大家在下面回帖讨论,很乐意与大家交流。
在github平台,用户需要输入账号和密码登陆,而账号可以输入邮箱也可以输入github的用户名。
github用户名就是所谓的git账号,这个是对外公开的,查看个人主页,或者查看代码时候,都会在比较明显的地方显示用户名,通过用户名可以直接登录github。比如这个哥们,他叫Sushil Thasale,而他的github账号是sushil-thasale。
账号很容易得到,那么密码怎么才能知道呢?直接上图!
这是某个用户的密码:
这是这个用户的登陆后的页面:
这个用户名字是四位,很好的账号——jv98,他的密码很复杂:
这是登陆后的个人主页:
其实我们还能知道用户的邮箱,这个用户的邮箱是Oliver.andersson.te14c @ gmail.com,如此复杂,他的密码却很简单:
个人账户设置页面,我可以悄悄地加一个邮箱进行监控:
再给一个2013年就注册的账号和密码:
登陆后的个人主页:
好了,不晒图了,这种账号确实有几千个,而且有好多都是github的重度用户。
细心的读者应该已经发现,我是怎么找到他们的密码的了。所有密码截图,都是来自他们自己上传到github项目的代码里,所有截图都是代码截图。我利用了github的搜索技术,搜索到一堆想要的账号和密码,然后进行登录尝试,登陆成功的我就记下来。
那么,怎么搜索才能找到呢?
充分利用开源项目,开源项目有固定的存储密码的位置,比如php语言的wordpress,密码存放位置在根目录下的wp-config.php文件中,代码内容define(‘DB_PASSWORD’, ‘password’)。
开源项目有很多,就拿php语言来说,就有wordpress、joomla、phpcms、discuz等。
利用搜索技术,比如同时搜索多个关键词define,DB_PASSWORD,筛选语言为php,基本就能列出所有wordpress的密码了。
善于利用搜索技术,对于密码为空的要过滤掉,对于密码为####、*这种的也要过滤掉。
以上操作,千万不要手工,开头我都说了————基于爬虫的数据攻击,所以我们要写爬虫,自动爬取github数据,然后通过正则匹配筛选掉不想要的数据。
这里的核心就是爬虫,以及过滤。过滤技术用得越好,数据越有价值,爆破的时间成本越低!
除了过滤掉常见的password、####、、空密码等,还有一个细节一定要注意:
没错,github密码有要求的,所以我们可以写个正则,只保留符合 github 密码要求的,这样我就拿到了一堆价值数据。
然后再用python写个程序,模拟登陆github就可以了。
最后再展示一个github项目比较多的账号:
为了避免引起额外信息泄露,暂时无法提供更多深入的数据和完整的爬虫框架脚本。
坐拥这些账号,目前我能想到的赚钱方法就是,收费帮别人的项目点赞。
网络安全从业者与爬虫技术
爬虫技术本身,并不能实施黑客攻击,也不能直接与安全连在一起。
但是纵观很多安全方面的东西,却又都离不开爬虫技术:
百度网盘数据泄露,爬虫惹的祸。
某企业存在通过id泄露数据,我们可以编写爬虫批量扫描id获取数据。
某网站权限配置不当,导致在特定情况访问登陆后的页面,这时候也可能需要写爬虫。
wvs等安全工具,严重依赖爬虫,通过爬虫爬取网站组织架构。
探探app,两年前我就玩过,含有大量美女,我的第一反应不是感不感兴趣,而是悄悄地写了个爬虫,获取了大量图片,而且我还发现他们防色情做的不严谨。(开个玩笑)
写到这里,大家应该明白了,为什么我强调爬虫的重要性了。
另外,爬虫可以使很多事情变得有趣,只要肯琢磨,脑洞足够开,我们完全可以实施很多攻击。
从过来人角度说一下,自己的成长蛮有意思的,从爬虫起家学技术,中途又在公司从事过接近一年的数据挖掘,这两个技术的结合,给我的学习和研究,带来了很多兴趣。
当你具备爬虫和数据分析时,你真的可以去改变一些事情。
乌云密布的爬虫
百度网盘这件事,是我不想看到的,这类安全问题的一个共同特点:
用户自身确实存在问题。
从严格意义上讲,这个不是漏洞。
企业在修复时,处于下风,甚至无能为力、无法修复。
就拿github这个例子来说,除非我把github几千个账号发出来,github把每个人账号都冻结。
我只是尝试了一些开源项目,还有很多项目我没有实施爬虫攻击,比如facebook的redmine项目等,很有可能这些项目代码里,也有密码泄露。
真的没办法根治!未来,我担心会有越来越多的安全问题,属于没有办法根治的,却存在极大安全隐患的。就好比,我生大病了,我却不知道怎么治,你说问题严重么?
只说结论:
脚本执行了一个下午,我便拥有了几百个阿里云服务,其中不乏性能很高的服务,不乏百万数据级别的redis服务,也不乏企业服务。这些服务里面的数据,我不知道有多少价值,泄露会引起多少恐慌,因为我一条都没看过。
这是提交给阿里云之后,阿里云的修复建议(很早之前的短信了):
我的同事、朋友们之中,都有收到阿里云的这条短信。嗯,没错,因为漏洞本身源自用户自己的数据泄露,只能通过短信提醒用户。
是不是和百度网盘泄露,有相似之处?
就写到这里吧。。。
安全渐远渐行,却总有一些无能为力的事情发生,丝丝的痛
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/11272.html
摘要:日前,网易云信与桔子联合发布社交领域投融资报告。据了解,脉脉平台上的白领注册用户规模已达万,此次融资也是全球职商务社交领域迄今获得的最大一笔融资。泛娱乐社交,将成为整个社交领域的发展方向。附上社交领域投融资报告完整版文章来源网易云社区 showImg(#); 自改革开放以后,我国的经济政策较为宽松,投资成为企业盈利的主要手段之一,投融资不仅是投资活动的具体体现,也代表了一个行业的发展现...
摘要:已经超出本地存储限定大小可进行超出限定大小之后的操作,如下面可以先清除记录,再次保存面试官一波素质三连对于只是会使用的同学来说,肯定是不得其解的。 最近面试的时候关于html5API总会被问到localStorage的问题, 对于一般的问题很简单,无非就是 localStorage、sessionStorage和cookie这三个客户端缓存的区别 localStorage的API,g...
摘要:从现在开始,养成写技术博客的习惯,或许可以在你的职业生涯发挥着不可忽略的作用。如果想了解更多优秀的前端资料,建议收藏下前端英文网站汇总这个网站,收录了国外一些优质的博客及其视频资料。 前言 写文章是一个短期收益少,长期收益很大的一件事情,人们总是高估短期收益,低估长期收益。往往是很多人坚持不下来,特别是写文章的初期,刚写完文章没有人阅读会有一种挫败感,影响了后期创作。 从某种意义上说,...
摘要:科普一下什么是时区众所周知地球绕着太阳转的同时也会自转因此同一时刻不同地区所接收到太阳照射的情况不同所以有的地区是日出有的地区是日落还有的地区可能是黑夜既然地球上的不同地区时间不同那总要有统一的时间刻度才能方便文化科技交流吧不然大家说的都是 科普一下什么是时区 众所周知,地球绕着太阳转的同时也会自转,因此同一时刻不同地区所接收到太阳照射的情况不同,所以有的地区是日出,有的地区是日落,还...
阅读 2418·2021-11-16 11:44
阅读 1876·2021-10-12 10:12
阅读 2159·2021-09-22 15:22
阅读 3007·2021-08-11 11:17
阅读 1505·2019-08-29 16:53
阅读 2653·2019-08-29 14:09
阅读 3474·2019-08-29 14:03
阅读 3300·2019-08-29 11:09