摘要:二准备工作环境开发工具模块三分析网站进入网址,需要登录因此我们需要手动登录后,然后看到已经有了因此我们直接在请求的时候携带自己的,如果我们登陆后,可以看到自己的用户名四代码编写请求,跳过验证不愿透露姓名网友有效无效成功
提前声明:该专栏涉及的所有案例均为学习使用,如有侵权,请联系本人删帖!
对于一些网站,我们在抓取时候需要补充请求头requests headers
Host: www.renren.comProxy-Connection: keep-alivePragma: no-cacheCache-Control: no-cacheUpgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400Accept: text/htmlAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.9Cookie: ***
但是对于一些网站,我们如果不登录,那么我们就无法进入网站内部,因此就需要登录,那么登录后,我们就可以获取到cookie值,而有了cookie值,我们就可以进入网站,抓取想要的信息。
网站:https://codechina.csdn.net/explore/welcome
进入网址,需要登录
因此我们需要手动登录后,然后看到已经有了cookie
因此我们直接在请求的时候携带自己的cookie,如果我们登陆后,可以看到自己的用户名
# -*- coding: utf-8 -*-import requestsurl = "https://codechina.csdn.net/explore/welcome"headers = { "Cookie": "...", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36"}# 请求,verify=False 跳过ssl验证response = requests.get(url, headers=headers, verify=False)response.encoding = "utf-8"if "不愿透露姓名の网友" in response.text: print("cookie有效")else: print("cookie无效")
成功!
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/122373.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:方法不仅适用于百度云,别的一些比较难以模拟登陆的网站都可以按照这种方式分析。本文要求读者具有模拟登陆主要是抓包和阅读代码和密码学的基本知识。和模拟登陆微博的分析流程一样,我们首先要做的是以正常人的流程完整的登录一遍百度网盘。 这是第二篇从简书搬运过来的文章(大家别误会,是我原创的)。因为前一篇文章,我看反响还挺好的,所以把这篇也搬运过来了,其实目的还是为宣传自己的分布式微博爬虫(该项目...
摘要:提前声明该专栏涉及的所有案例均为学习使用,如有侵权,请联系本人删帖文章目录一前言二网站分析三编写面向对象代码四多线程代码一前言在这里插入图片描述在传送门自己爬取过的个基础爬虫案例这个案例中,我们讲解过对腾讯招聘信息的 ...
摘要:耗时代码运行到这句之后触发隐式等待,在轮询检查后仍然没有定位到元素,抛出异常。耗时值得一提的是,对于定位不到元素的时候,从耗时方面隐式等待和强制等待没什么区别。 ...
摘要:爬虫架构架构组成管理器管理待爬取的集合和已爬取的集合,传送待爬取的给网页下载器。网页下载器爬取对应的网页,存储成字符串,传送给网页解析器。从文档中获取所有文字内容正则匹配后记爬虫基础知识,至此足够,接下来,在实战中学习更高级的知识。 前言 Python非常适合用来开发网页爬虫,理由如下:1、抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接...
阅读 3240·2021-10-13 09:39
阅读 2006·2021-09-27 13:36
阅读 3068·2021-09-22 16:02
阅读 2592·2021-09-10 10:51
阅读 1573·2019-08-29 17:15
阅读 1528·2019-08-29 16:14
阅读 3494·2019-08-26 11:55
阅读 2543·2019-08-26 11:50