摘要:这里就可以看到我们需要找的参数了,但是这里已经生成了,我们可以直接查看右边的调用栈经过多次查看,可以很容易就发现这个地方有点东西,立即下断点这时我们可以先去掉断点,然后刷看查看,获取不断点下一个断点直到运行结束再滑动到下一页即可。
今天继续带来破解拼多多的 anti_content 参数破解,代码已经放在github上:https://github.com/SergioJune...(点击原文阅读直达)
如果对你有用的麻烦给个 star 支持下哈。
这个项目我也会持续更新,这两周暂不更新,只发文章,可能我前两周整天做这个,有点腻了,歇会。另外可以借这个文章复习下思路,你们也可以学习下思路,学了之后最好自己实践一遍,这样才会真正学到东西。
废话不多说,开始正文。
1.寻找所需参数拼多多网址为:http://yangkeduo.com/
点击搜索,然后开始滑动下一页,你可以看到这个:
这里有三个参数需要找的,其他参数都可以看得出是什么,有些也是固定不变的。
先从第一个参数 list_id 开始,一般都会打开搜索,进行搜索这个参数
随便一找,即可找到这里
这个是我们在第一次请求搜索页返回的,也就是发送这个请求:
通过多次实验,这个请求只需要带上关键字参数即可请求成功,比如这样:http://yangkeduo.com/search_r...
只是关键字需要解析一下即可,问题不大。
在这个页面还给我们返回了 flip 这个参数,所以我们可以使用正则来获取这两个参数,剩下的就是 anti_content 了
我们可以试试再和上面那样,试试通过搜索 anti_content,可以看到,也可以通过搜索看到,经过查找并多次断点,可以找到这个为位置:
打上断点,可以看到就是我们需要的数据,但是如何找到加密的位置呢?请继续往下看。
2.寻找加密位置如果你单纯是想通过上面这种方式查找的话,估计会一整天都在那里按执行下一行代码,最后还有可能得不到自己想要的结果,今天告诉一个很简单的方法,因为每次都是发一个请求,所以我们可以在开发者工具下打个 xhr 断点,这样在我们滑动请求的时候就可以抓到这个请求,并查看调用栈即可快速找到,通过这个方法,最多就只需要半个小时吧(夸大了不太好)。
打 xhr 断点在这里打:
这里还可以根据请求的请求路径进行断点,我就不写上了,我直接捕获任何 xhr 断点了,你可以自己尝试下,当然,除了这个 xhr 断点,还有很多断点,比如事件监听等,这些在对反爬更加厉害的需要用到的时候就越多,所以,闲着没事的话可以研究这些断点,会了可以大大提高自己的工作效率,都是爬虫必会的。
打上断点之后,我们可以进行滑动,可以看到这里:
这里第一次捕获到的是我们浏览器的配置和我们活动的距离好像,这个可以直接忽略,进行下一个断点即可。
这里就可以看到我们需要找的参数了,但是这里已经生成了,我们可以直接查看右边的调用栈
经过多次查看,可以很容易就发现这个地方有点东西,立即下断点
这时我们可以先去掉 xhr 断点,然后刷看查看,获取不断点下一个断点直到运行结束再滑动到下一页即可。经过调试可以看到这个:
所以我们的 anti_content 参数就是从这里生成的,所以接下来就是继续查看这个语句执行的语句,再次经过多次调试,可以发现是从这里生成的:
ep("0xd2", "jLF%") 即是 anti_content 的生成语句,可以继续在函数内部打上断点即可查看内部生成过程。
3.代码太多,只能利用execjs,或者使用接口因为这里的代码太多,而且我又不太懂里面的加密过程,所以我才说这类加密通常都是只需要找到加密位置即可,接下来就是把所需要的加密 JS 代码扣下来使用 python 的 pyexecjs 来运行即可,但是如果你懂它里面的加密方法,就可以直接使用 python 提供的对应的加密方法进行使用即可,这样子就更容易得出结果,所以接下来需要学习的地方就是各种加密方法。
这里的加密方法我猜测是通过 deflate 加密方法,有兴趣的可以自己查看。
这里扣代码没什么好说的,说下这里的坑吧。坑有两个,
一个是需要使用到一个 cookie,不过固定即可,无需要获取,这个 cookie 是下面这个:
使用到的地方为这里:
通过 split 切割就是获取上面箭头所指的 cookie,下面的函数就是进行赋值然后返回给一个对象,这里通过自己慢慢调试都是可以知道的。
另一个坑就是需要使用到我们的第一次的搜索请求,有两个地方
到时调用函数传参即可。其他的就没有什么了,如果有请在留言区提问。
4.验证我们可以使用 execjs 来执行 JS,或者使用node来执行然后提供给python 接口也是可行,看你个人,这里我直接使用 execjs 来执行了。
如果你 运行之后出现编码问题的话,可以看看这篇文章:https://sergiojune.com/2019/0...
可以获取了,完毕。源码放在了我的gihub,想要的可以点击原文阅读获取,对你有用的话记得给个 star 哈。
最后一开始写这个每周一爆的系列是因为,我看到现在网上的爬虫文章质量普遍都很低,能应用到实际工作的并不多,所以想写一些真正实用的文章,并且可以显著提高大家爬虫水平的。不知道大家想不想看这类文章,还是想看点基础类的文章,因为每次都非常用心写出来,原以为阅读量可能会很好,但最后都是很惨淡,在想自己是不是陷入了自嗨式写作,所以想大家给点建议,大家都想看哪类的文章。可以在下面投票下,谢谢。
本文仅用于交流学习,请勿用于非法用途,后果自负!首发链接:https://sergiojune.com/2019/0...
点个赞支持下?
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/103018.html
摘要:这里就可以看到我们需要找的参数了,但是这里已经生成了,我们可以直接查看右边的调用栈经过多次查看,可以很容易就发现这个地方有点东西,立即下断点这时我们可以先去掉断点,然后刷看查看,获取不断点下一个断点直到运行结束再滑动到下一页即可。 今天继续带来破解拼多多的 anti_content 参数破解,代码已经放在github上:https://github.com/SergioJune...(...
摘要:当断点被执行到时,你就可以查看右边的调用栈了,很容易就找到这个地方这个也是一个定时执行,不过他只执行一次,相当于定时炸弹。本文仅用于交流学习,请勿用于非法用途,后果自负首发地址请求网页时,怎么给我返回了一段代码 今天给大家带来的是一个论坛网站,牛仔俱乐部-努比亚社区, 网址为:https://bbs.nubia.cn/ showImg(https://segmentfault.com/...
摘要:昨天看到一个大新闻拼多多在日凌晨出现漏洞,用户可以领元无门槛优惠券。拼多多本来就是家争议颇大的公司,这次事件更是引发舆论热议。有人估计全球为此花费的相关费用有数亿美元。软件发布测试版让用户使用,就属于一种黑盒测试。 昨天看到一个大新闻: 拼多多在20日凌晨出现漏洞,用户可以领100元无门槛优惠券 。一夜之间,被黑产、羊毛党和闻讯而来的吃瓜群众薅了个底朝天,直到第二天上午9点才将优惠券下...
摘要:一面技术面持续时间分钟左右面试官看起来比较好,开场自我介绍,面试官了解一些基本情况。没问技术,差不多分钟。给出优化方案只查找给定用户的好友的好友即可。之后就是让回去等通知了凉了貌似每个人都是三面。 直接上干货了 时间:2018-08-12地点:浙大玉泉校区投递岗位:平台研发工程师应该是每个人都有三面(两轮技术面,一轮HR),三面是平行的,顺序不一。 一面:技术面持续时间:80分钟左右面...
阅读 802·2021-09-07 09:58
阅读 2661·2021-08-31 09:42
阅读 2842·2019-08-30 14:18
阅读 3069·2019-08-30 14:08
阅读 1820·2019-08-30 12:57
阅读 2743·2019-08-26 13:31
阅读 1254·2019-08-26 11:58
阅读 1038·2019-08-23 18:06