摘要:今天想做一个微博爬个人页面的工具,满足一些不可告人的秘密。那么首先就要做那件必做之事模拟登陆代码是参考了我对代码进行了优化,重构成了版本,并且加入了大量注释方便大家学习。接下来再请求这个,这样就成功登录到微博了。
今天想做一个微博爬个人页面的工具,满足一些不可告人的秘密。那么首先就要做那件必做之事!模拟登陆……
代码是参考了:https://www.douban.com/note/2...
我对代码进行了优化,重构成了Python 3.6 版本,并且加入了大量注释方便大家学习。
PC 登录新浪微博时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。 这样, 就不能用通常的那种简单方法来模拟POST 登录( 比如 人人网 )。
1.在提交POST请求之前, 需要GET 获取两个参数。
地址是:
http://login.sina.com.cn/sso/...
得到的数据中有 servertime 和 nonce 的值, 是随机的,其他值貌似没什么用。
def get_servertime(): url = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939" # 返回出来的是一个Response对象,无法直接获取,text后,可以通过正则匹配到 # 大概长这样子的:sinaSSOController.preloginCallBack({"retcode":0,"servertime":1545606770, ...}) data = requests.request("GET", url).text p = re.compile("((.*))") try: json_data = p.search(data).group(1) data = json.loads(json_data) servertime = str(data["servertime"]) nonce = data["nonce"] return servertime, nonce except: print("获取 severtime 失败!") return None2.
通过httpfox 观察POST 的数据, 参数较复杂,其中 “su" 是加密后的username, sp 是加密后的password。servertime 和 nonce 是上一步得到的。其他参数是不变的。
username 经过了BASE64 计算:
username = base64.encodestring( urllib.quote(username) )[:-1]
password 经过了三次SHA1 加密, 且其中加入了 servertime 和 nonce 的值来干扰。
即: 两次SHA1加密后, 将结果加上 servertime 和 nonce 的值, 再SHA1 算一次。
def get_pwd(pwd, servertime, nonce): # 第一次计算,注意Python3 的加密需要encode,使用bytes pwd1 = hashlib.sha1(pwd.encode()).hexdigest() # 使用pwd1的结果在计算第二次 pwd2 = hashlib.sha1(pwd1.encode()).hexdigest() # 使用第二次的结果再加上之前计算好的servertime和nonce值,hash一次 pwd3_ = pwd2 + servertime + nonce pwd3 = hashlib.sha1(pwd3_.encode()).hexdigest() return pwd3 def get_user(username): # 将@符号转换成url中能够识别的字符 _username = urllib.request.quote(username) # Python3中的base64计算也是要字节 # base64出来后,最后有一个换行符,所以用了切片去了最后一个字符 username = base64.encodebytes(_username.encode())[:-1] return username3.
将参数组织好, POST请求。 这之后还没有登录成功。
POST后得到的内容中包含一句:
location.replace("http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&retcode=101&reason=%B5%C7%C2%BC%C3%FB%BB%F2%C3%DC%C2%EB%B4%ED%CE%F3")
这是登录失败时的结果, 登录成功后结果与之类似, 不过retcode 的值是0 。
接下来再请求这个URL,这样就成功登录到微博了。
记得要提前build 缓存。
关注公众号「Python专栏」,后台回复「模拟微博登陆」,获取全套微博自动登陆代码。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43400.html
摘要:方法不仅适用于百度云,别的一些比较难以模拟登陆的网站都可以按照这种方式分析。本文要求读者具有模拟登陆主要是抓包和阅读代码和密码学的基本知识。和模拟登陆微博的分析流程一样,我们首先要做的是以正常人的流程完整的登录一遍百度网盘。 这是第二篇从简书搬运过来的文章(大家别误会,是我原创的)。因为前一篇文章,我看反响还挺好的,所以把这篇也搬运过来了,其实目的还是为宣传自己的分布式微博爬虫(该项目...
摘要:近几日由于公司业务需要,要做一个网站的第三方登陆,并且登陆之后并进行验证,只有登陆过我们手机的第三方账号才可以登陆网站。只能百度,发现腾讯对于网站登陆和手机登陆拿到的是不一样的,如果要想一样得写申请信给,简直就是蛋疼。 近几日由于公司业务需要,要做一个网站的第三方登陆,并且登陆之后并进行验证,只有登陆过我们手机app的第三方账号才可以登陆网站。 这边先说下oauth2.0大概的流程吧...
摘要:以下这些项目,你拿来学习学习练练手。当你每个步骤都能做到很优秀的时候,你应该考虑如何组合这四个步骤,使你的爬虫达到效率最高,也就是所谓的爬虫策略问题,爬虫策略学习不是一朝一夕的事情,建议多看看一些比较优秀的爬虫的设计方案,比如说。 (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法...
摘要:但今年各种抢票软件的横行,还有官方出的加速包,导致连黄牛都不敢保证能买到票。今天我就给大家介绍一个开源的抢票程序,亲测有效我身边已经有很多好友,通过这个程序抢到车票了。这个库是用来在上同步校准当地时间的。 showImg(https://segmentfault.com/img/remote/1460000017814865); 阅读文本大概需要 6.6 分钟。 又到了一年一度的抢票大...
摘要:当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息。三模拟登录下面将介绍使用获取新浪微博,然后使用提交从而实现模拟登录。 当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息。模拟登录是定向爬虫制作中一个必须克服的问题,只有这样才能爬取到更多的内容。 showImg(https://segmentfault.com/img/...
阅读 1578·2021-10-18 13:35
阅读 2358·2021-10-09 09:44
阅读 812·2021-10-08 10:05
阅读 2706·2021-09-26 09:47
阅读 3560·2021-09-22 15:22
阅读 427·2019-08-29 12:24
阅读 1991·2019-08-29 11:06
阅读 2851·2019-08-26 12:23