摘要:导入有以下两种方式,喜欢那种方式看个人爱好发送请求反反爬虫的基本策略之一设置浏览器标识自己要伪装的头部设置证书反反爬虫的基本策略之一设置浏览器标识自己要伪装的头部构建请求对象发送请求发送请求将字符串类型转化为
导入urllib,有以下两种方式,喜欢那种方式看个人爱好:
import urllib.request import urllib.parse #from urllib import reuqest
urllib发送get请求:
# 反反爬虫的基本策略之一:设置user-agent浏览器标识自己要伪装的头部 import urllib.request import urllib.parse #设置ssl证书 import ssl ssl._create_default_https_context = ssl._create_unverified_context url = "http://www.baidu.com/" # response = urllib.request.urlopen(url) # print(response.read().decode()) # 反反爬虫的基本策略之一:设置user-agent浏览器标识自己要伪装的头部 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36", } # 构建请求对象 request = urllib.request.Request(url=url, headers=headers) # 发送请求 response = urllib.request.urlopen(request) print(response.read().decode())
urllib发送post请求:
import urllib.request import urllib.parse post_url = "http://fanyi.baidu.com/v2transapi" word = "wolf" formdata = { "from": "en", "to": "zh", "query": word, "transtype": "realtime", "simple_means_flag": "3", "sign": "275695.55262", "token": "7d9697542b6337bfd8f1b54c7887dcf5", } headers = { "Host": "fanyi.baidu.com", # "Connection": "keep-alive", # "Content-Length": "120", # "Accept": "*/*", "Origin": "http://fanyi.baidu.com", "X-Requested-With": "XMLHttpRequest", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36", # "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8", "Referer": "http://fanyi.baidu.com/?aldtype=16047", # "Accept-Encoding": "gzip, deflate", "Accept-Language": "zh-CN,zh;q=0.9", "Cookie": "BAIDUID=D1620A70988D2694BE528E5CEFE5B5F3:FG=1; BIDUPSID=D1620A70988D2694BE528E5CEFE5B5F3; PSTM=1526524899; to_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; from_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; H_PS_PSSID=; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1527210729,1527556520; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1527556520", } request = urllib.request.Request(url=post_url, headers=headers) formdata = urllib.parse.urlencode(formdata).encode() response = urllib.request.urlopen(request, formdata) print(response.read().decode())
urllib.parse
parse.quote#将字符串类型转化为unicode类型 parse.urlcode#传入的数据是字典格式的,
urllib.response
impport urllib.response #状态码 urllib.response.status #请求头信息: urllib.response.headers
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42164.html
摘要:文章目录一前言框架二网址请求打开网址超时设置错误抓取三更深请求打开网址请求头添加链接解析四协议五万能视频下载一前言框架之前我一直没想教大家,思考万分,还是要补一下这个教程。对中文进行编码。 ...
摘要:想办法区分爬虫程序和正常的用户。爬虫是工具性程序,对速度和效率要求较高。生态圈完善,是最大对手。最要命的是爬虫需要经常修改部分代码。爬虫分类通用爬虫也就是百度搜狐等搜索引擎。原本是为测试来测试网站的,后来成了爬虫工程师最喜爱的工具。 一、爬虫的基本知识: 1. 什么是爬虫 爬虫的英文翻译为spider或者crawder,意为蜘蛛或者爬行者,从字面意思我们可以体会到:爬虫就是把自己当做蜘...
摘要:发送请求方不希望被跟踪。主要用来将伪装成一个正常的浏览器。该字典就是说是网络协议名称,是代理的。另外一般会明确指定资源存放的位置。意思是将现在提交的数据存放于下第篇。请求删除某一个资源。向服务器提交数据。 前一个教程我们涉及到了urllib2的一些高级应用。这一片文章我们来比较系统的介绍一下。 该篇教程参考了静觅的博文:http://cuiqingcai.com/954.html。写这...
摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...
摘要:爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。由于协议的无状态性,登录验证都是通过传递来实现的。通过浏览器登录一次,登录信息的是就会被浏览器保存下来。模块就是这样一个从浏览器提取保存的的工具。 showImg(https://segmentfault.com/img/bVbsjnC?w=741&h=488); 很多用Python的人可能都写过网络爬虫,自动化获取网...
阅读 3251·2021-10-11 11:08
阅读 4400·2021-09-22 15:54
阅读 880·2019-08-30 15:56
阅读 840·2019-08-30 15:55
阅读 3515·2019-08-30 15:52
阅读 1338·2019-08-30 15:43
阅读 1918·2019-08-30 11:14
阅读 2481·2019-08-29 16:11