摘要:为什么做这个和同学聊天,他想爬取一个网站的请求观察该网站的请求参数有两种类型参数体放在了中,即拼接参数中要加入一个空的对象,关于为什么要加入空的对象,猜测原因为反爬虫。
为什么做这个
和同学聊天,他想爬取一个网站的post请求
观察该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反爬虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。
一开始先在apizza网站上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情。
源码import requests import json headers = { "Accept":"application/json, text/javascript, */*; q=0.01", "X-Requested-With":"XMLHttpRequest", "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36", "Content-Type":"application/json", "Accept-Encoding":"gzip, deflate", "Accept-Language":"zh-CN,zh;q=0.8", "Cache-Control":"no-cache", } #空的对象,body参数 data = {} data = json.dumps(data) page = 0 url = "网站地址,后面为参数?param1=1¶m1="+str(page) response = requests.post(url = url,data=data ,headers =headers ) print(response.url) print(response.text)总结
现在相关工具中发现现象
请求方式确定:post还是get或者其它
参数类型:form-data还是raw或者其它
参数位置:若是post请求,在query中还是body中,还是二者皆有
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44003.html
摘要:内存池机制提供了对内存的垃圾收集机制,但是它将不用的内存放到内存池而不是返回给操作系统。为了加速的执行效率,引入了一个内存池机制,用于管理对小块内存的申请和释放。 注:答案一般在网上都能够找到。1.对if __name__ == main的理解陈述2.python是如何进行内存管理的?3.请写出一段Python代码实现删除一个list里面的重复元素4.Python里面如何拷贝一个对象?...
摘要:学习网络爬虫主要分个大的版块抓取,分析,存储另外,比较常用的爬虫框架,这里最后也详细介绍一下。网络爬虫要做的,简单来说,就是实现浏览器的功能。 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫,当我们在浏览器中输入...
摘要:流程作为上述过程的一个演示,我们使用的网址为页面如下在表单中输入德国,跳转后的页面如下我们可以发现,在搜索的结果中,会出现德国这个搜索结果。点击该搜索结果,跳转后的页面如下在这个页面中有我们需要的德国的国旗。 介绍 本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容。 为了知道...
摘要:是用语言编写客户端库,跟类似,基于,但比更加方便,可以节约我们大量的工作,完全满足测试需求,编写爬虫和测试服务器响应数据时经常会用到。 Requests 是用Python语言编写HTTP客户端库,跟urllib、urllib2类似,基于 urllib,但比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求,编写爬虫和测试服务器响应数据时经常会用到。Reque...
阅读 1795·2019-08-30 15:55
阅读 979·2019-08-26 11:57
阅读 439·2019-08-26 11:29
阅读 3317·2019-08-26 10:49
阅读 1876·2019-08-23 18:40
阅读 1722·2019-08-23 16:04
阅读 3071·2019-08-23 11:01
阅读 2245·2019-08-23 10:56