资讯专栏INFORMATION COLUMN

Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!

fuyi501 / 3657人阅读

摘要:在发明之初,为了帮助服务器同步网页上的用户信息,同时保存用户操作,以此减轻服务器压力。由正在浏览的网站创建的被称为第一方。这些第三方怎么来的呢他们又有什么作用了。写在最后了解历史,有助于,我们更好的定位问题。

cookie在发明之初,为了帮助服务器同步网页上的用户信息,同时保存用户操作,以此减轻服务器压力。

没有cookie之前,人们还停留在像电视一样只能对网页进行点播,网站分辨不出是谁在通信。

题外话:第一代密码,属于通用性的密钥

有了cookie后,你就那个网页做交互了,这时才有了网站账号。

由正在浏览的网站创建的cookie被称为第一方cookie。

这个东西很重要,你要是不信邪,把这种第一方cookie给禁止了,

那么,恭喜你,回到了广播时代。

Python requests库默认是打开了cookie的。

– 检查cookie

import requestsfrom requests.cookies import RequestsCookieJarheaders = {    "Host": "accounts.douban.com",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36",    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",    "Accept-Encoding": "gzip, deflate, br",    "Connection": "keep-alive"           }request_url = "https://accounts.douban.com/passport/login"res = requests.get(request_url, headers=headers)status_code = res.status_coderes_header = res.headersres_cookies = res.cookiescookie1111 = res.cookies.get_dict()                             # 格式化 字典形式输出cookie2222 = requests.utils.dict_from_cookiejar(res_cookies)    # 格式化 字典形式输出for cookie in res_cookies:    print(cookie.name+"/t"+cookie.value)print("响应状态码:", status_code)print("响应请求请求头:", res_header)print("响应cookies:", res_cookies)print("格式化cookie1111 :", cookie1111)print("格式化cookie2222 :", cookie2222)

– 到这里自带cookie说明白了!

接下来,我们引入一个概念 第三方cookie

使用空浏览器来看下效果。

清除浏览器cookie记录,也可以进行模拟。

进入一个网站csdn.net,

然后点击网页地址栏左侧的那个小锁就能看到这些信息。

正在访问的csdn.net以外

还有来自其它40个cookie,这些在你访问的网址之外的域名,创建的cookie就被称作,作为第三方cookie。

这些第三方cookie怎么来的呢?他们又有什么作用了。

你通过进入csdn.com,这个网站就访问了baidu.com的服务器了。

咱们按下F12进入浏览器的开发者模式中,观察一下网络结构。

仔细查看一下这个网站的加载,我们可以在它的目录中发现baidu.com来源,他使用了baidu.com提供的功能,编写进了自己的网站代码中。

– 我们在访问这个网站的过程中,也同时使用了百度为你提供的服务,那么这个服务是什么呢?


# 不得不提cookie的另外一个作用! ## 除了可以绑定网页和用户的身份,还可以记录网页的浏览历史。 ### 这样就给 ==广告提供商== 机会,使用不同的代码模块,嵌入到不同的网站中,以此实行产品推荐。 ### 第三方cookie,它默默的,把你的喜好记录下来,在你进入其他网站时,再通过读取之前已经记录好的信息,这样就能对你进行个性化广告推荐。

禁用第三方cookie是不是就没有广告了?

这也是爬虫遇到最多的情况。

手动模拟一下,禁用第三方cookie,会发现 验证码 输入次数开始变得频繁了。

鉴于此,爬虫产生了另外一个工具selenium。

写在最后

1.了解历史,有助于,我们更好的定位问题。

2.很多博主只告诉你们,第二次爬去的时候需要携带cookie,对第三方cookie只字不提

import requestscookies="从网上复制的cookie值"cookies_dict={}for i in cookies.split("; "):   cookies_dict[i.splict("=")[0]] = i.splict("=")[1]html=requests.get(url="",cookies=cookies_dict}

3.更高级的工具,学习,使用。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/119407.html

相关文章

  • 知乎最新版模拟登陆详解,小白也能懂

    摘要:模拟登陆知乎这个知乎的登陆也是坑满满,我也给踩了几个,这个就直接说坑吧,其他的就不多说了。 以下内容仅交流学习,请勿用于非法用途 如果你现在想模拟登陆知乎,会发现 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 来...

    buildupchao 评论0 收藏0
  • 知乎最新版模拟登陆详解,小白也能懂

    摘要:模拟登陆知乎这个知乎的登陆也是坑满满,我也给踩了几个,这个就直接说坑吧,其他的就不多说了。 以下内容仅交流学习,请勿用于非法用途 如果你现在想模拟登陆知乎,会发现 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 来...

    xuxueli 评论0 收藏0
  • 大话爬虫的实践技巧

    摘要:图意淫爬虫与反爬虫间的对决数据的重要性如今已然是大数据时代,数据正在驱动着业务开发,驱动着运营手段,有了数据的支撑可以对用户进行用户画像,个性化定制,数据可以指明方案设计和决策优化方向,所以互联网产品的开发都是离不开对数据的收集和分析,数 showImg(https://segmentfault.com/img/remote/1460000013428119?w=539&h=337)...

    沈俭 评论0 收藏0
  • 大话爬虫的基本套路

    摘要:有什么作用通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营销售的数据支撑,加快产品发展。因为信息是完全公开的,所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);   什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在...

    Towers 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<