摘要:爬虫实战一使用和,我们使用了做网络请求,拿到网页数据再用解析,就在前不久,作者出了一个新库,,它可以用于解析文档的。是基于现有的框架等库进行了二次封装,更加方便开发者调用。参考今天用了一下库爬虫公众号我的公众号吴小龙同学,欢迎交流
Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requests 作者 kennethreitz 出了一个新库 requests-html,Pythonic HTML Parsing for Humans™,它可以用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装,更加方便开发者调用。
安装Mac:
pip3 install requests-html
Windows:
pip install requests-html实例
代码撸多了,让我们看会妹纸,爬的网站我选的是 http://www.win4000.com/zt/xin... ,打开网站,观察到这是个列表,图片是缩略图,要想保存图片到本地,当然需要高清大图,因此得进入列表详情,进一步解析,完整代码如下:
from requests_html import HTMLSession import requests import time session = HTMLSession() # 解析图片列表 def get_girl_list(): # 返回一个 response 对象 response = session.get("http://www.win4000.com/zt/xinggan.html") # 单位秒数 content = response.html.find("div.Left_bar", first=True) li_list = content.find("li") for li in li_list: url = li.find("a", first=True).attrs["href"] get_girl_detail(url) # 解析图片详细 def get_girl_detail(url): # 返回一个 response 对象 response = session.get(url) # 单位秒数 content = response.html.find("div.scroll-img-cont", first=True) li_list = content.find("li") for li in li_list: img_url = li.find("img", first=True).attrs["data-original"] img_url = img_url[0:img_url.find("_")] + ".jpg" print(img_url + ".jpg") save_image(img_url) # 保持大图 def save_image(img_url): img_response = requests.get(img_url) t = int(round(time.time() * 1000)) # 毫秒级时间戳 f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab") # 存储图片,多媒体文件需要参数b(二进制文件) f.write(img_response.content) # 多媒体存储content f.close() if __name__ == "__main__": get_girl_list()
代码就这么多,是不是感觉很简单啊。
说明:
1、requests-html 与 BeautifulSoup 不同,可以直接通过标签来 find,一般如下:
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True,表示只返回 Element 找到的第一个,更多使用:http://html.python-requests.org/ ;
2、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了,需要读者改成自己的,如果直接是文件名,保存路径将是项目目录下。
遗留问题示例所爬网站是分页的,没有做,可以定时循环来爬妹纸哦,有兴趣的读者自己玩下。
参考requests-html
今天用了一下Requests-HTML库(Python爬虫)
公众号我的公众号:吴小龙同学,欢迎交流~
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44624.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:目标站点分析本次要采集的目标网站为,目标站点描述为全球名站。由于上述代码太少了,完全不够今日代码量,我们顺手将其修改为多线程形式。 本篇博客是《爬虫 120 例》的...
摘要:提升倍虽是我胡诌的数据,开发效率的提升却是杠杠滴。而却不同,它提供了官方中文文档,其中包括了很清晰的快速上手和详尽的高级用法和接口指南。其他更多详细内容不多说了,中文官网地址,顺着看一遍,写一遍,你就掌握这个爬虫神器了。 他叫 Kenneth Reitz。现就职于知名云服务提供商 DigitalOcean,曾是云计算平台 Heroku 的 Python 架构师,目前 Github 上 ...
摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...
摘要:以下这些项目,你拿来学习学习练练手。当你每个步骤都能做到很优秀的时候,你应该考虑如何组合这四个步骤,使你的爬虫达到效率最高,也就是所谓的爬虫策略问题,爬虫策略学习不是一朝一夕的事情,建议多看看一些比较优秀的爬虫的设计方案,比如说。 (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法...
阅读 3191·2021-11-24 10:30
阅读 1314·2021-09-30 09:56
阅读 2388·2021-09-07 10:20
阅读 2599·2021-08-27 13:10
阅读 701·2019-08-30 11:11
阅读 2053·2019-08-29 12:13
阅读 760·2019-08-26 12:24
阅读 2898·2019-08-26 12:20