资讯专栏INFORMATION COLUMN

Python爬虫案例50篇-第1篇-csdn开源广场的cookie登录

liangdas / 3239人阅读

摘要:二准备工作环境开发工具模块三分析网站进入网址,需要登录因此我们需要手动登录后,然后看到已经有了因此我们直接在请求的时候携带自己的,如果我们登陆后,可以看到自己的用户名四代码编写请求,跳过验证不愿透露姓名网友有效无效成功

提前声明:该专栏涉及的所有案例均为学习使用,如有侵权,请联系本人删帖!

一、请求头中的cookie

对于一些网站,我们在抓取时候需要补充请求头requests headers

Host: www.renren.comProxy-Connection: keep-alivePragma: no-cacheCache-Control: no-cacheUpgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400Accept: text/htmlAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.9Cookie: ***

但是对于一些网站,我们如果不登录,那么我们就无法进入网站内部,因此就需要登录,那么登录后,我们就可以获取到cookie值,而有了cookie值,我们就可以进入网站,抓取想要的信息。

二、准备工作

  • 环境:python3.6
  • 开发工具:pycharm
  • 模块:requests

三、分析

网站:https://codechina.csdn.net/explore/welcome

进入网址,需要登录

因此我们需要手动登录后,然后看到已经有了cookie

因此我们直接在请求的时候携带自己的cookie,如果我们登陆后,可以看到自己的用户名

四、代码编写

# -*- coding: utf-8 -*-import requestsurl = "https://codechina.csdn.net/explore/welcome"headers = {    "Cookie": "...",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36"}# 请求,verify=False 跳过ssl验证response = requests.get(url, headers=headers, verify=False)response.encoding = "utf-8"if "不愿透露姓名の网友" in response.text:    print("cookie有效")else:    print("cookie无效")

成功!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/122373.html

相关文章

  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 超详细Python实现百度云盘模拟登陆(模拟登陆进阶)

    摘要:方法不仅适用于百度云,别的一些比较难以模拟登陆的网站都可以按照这种方式分析。本文要求读者具有模拟登陆主要是抓包和阅读代码和密码学的基本知识。和模拟登陆微博的分析流程一样,我们首先要做的是以正常人的流程完整的登录一遍百度网盘。 这是第二篇从简书搬运过来的文章(大家别误会,是我原创的)。因为前一篇文章,我看反响还挺好的,所以把这篇也搬运过来了,其实目的还是为宣传自己的分布式微博爬虫(该项目...

    CarterLi 评论0 收藏0
  • Python爬虫案例50-8- 抓取某讯招聘北京工作岗位

    摘要:提前声明该专栏涉及的所有案例均为学习使用,如有侵权,请联系本人删帖文章目录一前言二网站分析三编写面向对象代码四多线程代码一前言在这里插入图片描述在传送门自己爬取过的个基础爬虫案例这个案例中,我们讲解过对腾讯招聘信息的 ...

    wanghui 评论0 收藏0
  • 爬虫 + 自动化利器 selenium 之自学成才(二)

    摘要:耗时代码运行到这句之后触发隐式等待,在轮询检查后仍然没有定位到元素,抛出异常。耗时值得一提的是,对于定位不到元素的时候,从耗时方面隐式等待和强制等待没什么区别。 ...

    AWang 评论0 收藏0
  • Python爬虫基础

    摘要:爬虫架构架构组成管理器管理待爬取的集合和已爬取的集合,传送待爬取的给网页下载器。网页下载器爬取对应的网页,存储成字符串,传送给网页解析器。从文档中获取所有文字内容正则匹配后记爬虫基础知识,至此足够,接下来,在实战中学习更高级的知识。 前言 Python非常适合用来开发网页爬虫,理由如下:1、抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接...

    bang590 评论0 收藏0

发表评论

0条评论

liangdas

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<