资讯专栏INFORMATION COLUMN

Python 爬虫实战(二):使用 requests-html

honmaple / 3030人阅读

摘要:爬虫实战一使用和,我们使用了做网络请求,拿到网页数据再用解析,就在前不久,作者出了一个新库,,它可以用于解析文档的。是基于现有的框架等库进行了二次封装,更加方便开发者调用。参考今天用了一下库爬虫公众号我的公众号吴小龙同学,欢迎交流

Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requests 作者 kennethreitz 出了一个新库 requests-html,Pythonic HTML Parsing for Humans™,它可以用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装,更加方便开发者调用。

安装

Mac:

pip3 install requests-html

Windows:

pip install requests-html
实例

代码撸多了,让我们看会妹纸,爬的网站我选的是 http://www.win4000.com/zt/xin... ,打开网站,观察到这是个列表,图片是缩略图,要想保存图片到本地,当然需要高清大图,因此得进入列表详情,进一步解析,完整代码如下:

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析图片列表
def get_girl_list():
    # 返回一个 response 对象
    response = session.get("http://www.win4000.com/zt/xinggan.html")  # 单位秒数

    content = response.html.find("div.Left_bar", first=True)

    li_list = content.find("li")

    for li in li_list:
        url = li.find("a", first=True).attrs["href"]
        get_girl_detail(url)


# 解析图片详细
def get_girl_detail(url):
    # 返回一个 response 对象
    response = session.get(url)  # 单位秒数
    content = response.html.find("div.scroll-img-cont", first=True)
    li_list = content.find("li")
    for li in li_list:
        img_url = li.find("img", first=True).attrs["data-original"]
        img_url = img_url[0:img_url.find("_")] + ".jpg"
        print(img_url + ".jpg")
        save_image(img_url)


# 保持大图
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒级时间戳
    f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab")  # 存储图片,多媒体文件需要参数b(二进制文件)
    f.write(img_response.content)  # 多媒体存储content
    f.close()


if __name__ == "__main__":
    get_girl_list()

代码就这么多,是不是感觉很简单啊。

说明:

1、requests-html 与 BeautifulSoup 不同,可以直接通过标签来 find,一般如下:
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True,表示只返回 Element 找到的第一个,更多使用:http://html.python-requests.org/ ;

2、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了,需要读者改成自己的,如果直接是文件名,保存路径将是项目目录下。

遗留问题

示例所爬网站是分页的,没有做,可以定时循环来爬妹纸哦,有兴趣的读者自己玩下。

参考

requests-html

今天用了一下Requests-HTML库(Python爬虫)

公众号

我的公众号:吴小龙同学,欢迎交流~

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44624.html

相关文章

  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • requests-html库初识 + 无资料解BUG之 I/O error : encoder er

    摘要:目标站点分析本次要采集的目标网站为,目标站点描述为全球名站。由于上述代码太少了,完全不够今日代码量,我们顺手将其修改为多线程形式。 本篇博客是《爬虫 120 例》的...

    mozillazg 评论0 收藏0
  • 这个男人让你的爬虫开发效率提升8倍

    摘要:提升倍虽是我胡诌的数据,开发效率的提升却是杠杠滴。而却不同,它提供了官方中文文档,其中包括了很清晰的快速上手和详尽的高级用法和接口指南。其他更多详细内容不多说了,中文官网地址,顺着看一遍,写一遍,你就掌握这个爬虫神器了。 他叫 Kenneth Reitz。现就职于知名云服务提供商 DigitalOcean,曾是云计算平台 Heroku 的 Python 架构师,目前 Github 上 ...

    Jackwoo 评论0 收藏0
  • 零基础如何学爬虫技术

    摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...

    KunMinX 评论0 收藏0
  • Python爬虫学习路线

    摘要:以下这些项目,你拿来学习学习练练手。当你每个步骤都能做到很优秀的时候,你应该考虑如何组合这四个步骤,使你的爬虫达到效率最高,也就是所谓的爬虫策略问题,爬虫策略学习不是一朝一夕的事情,建议多看看一些比较优秀的爬虫的设计方案,比如说。 (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法...

    liaoyg8023 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<