资讯专栏INFORMATION COLUMN

BeautifulSoup 使用指北 - 0x02_操作解析树

高胜山 / 2993人阅读

摘要:,所有笔记均托管于仓库。中包含的字符串或等节点被视作该的或节点。为了便于在或节点中进行导航,提供了许多与此相关的方法。节点名可使用节点名来选取目标节点,此时会返回子孙节点中的第一个同名节点。

GitHub@orca-j35,所有笔记均托管于 python_notes 仓库。
欢迎任何形式的转载,但请务必注明出处。
在解析树中导航
参考: Navigating the tree

在学习与解析树相关的"导航字段"之前,我们需要先了解 BeautifulSoup 解析树的结构,下面这段 HTML 和其解析树如下:

markup = """

To find out more see the standard.

""" soup = BeautifulSoup(markup, "lxml")

⚠"导航字段"的返回值总是节点对象(如,Tag 对象、NavigableString 对象),或由节点对象组成的列表(或迭代器)。

Going down

Tag 中包含的字符串或 Tag 等节点被视作该 Tag 的 children (或 descendants )节点。为了便于在 children (或 descendants )节点中进行导航,BeautifulSoup 提供了许多与此相关的方法。

⚠BeautifulSoup 中的字符串节点(如,NavigableString和注释)不支持与导航相关的属性,因为字符串节点永远不会包含任何 children 节点。

节点名

可使用节点名来选取目标节点,此时会返回子孙节点中的第一个同名节点。

html_doc = """


    The Dormouse"s story


    

The Dormouse"s story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, "html.parser") print(repr(f"{type(soup.head)}:{soup.head}")) print(repr(f"{type(soup.title)}:{soup.title}")) print(repr(f"{type(soup.a)}:{soup.a}"))

输出:

":
The Dormouse"s story
"
":The Dormouse"s story"
":Elsie"
.contents

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45190.html

相关文章

  • BeautifulSoup 使用指北 - 0x01_概览

    摘要:,所有笔记均托管于仓库。是一个用来从或文件中提取数据的库。如果对速度有严格要求,应直接使用库来解析。对而言,解析器的速度比或更快。可以通过安装库来显著提升检测编码方案的速度。 GitHub@orca-j35,所有笔记均托管于 python_notes 仓库。欢迎任何形式的转载,但请务必注明出处。 概述 ⚠官方文档中混杂了 Py2 和 Py3 的术语和代码,本笔记针对 Py3 梳理了文档...

    jay_tian 评论0 收藏0
  • BeautifulSoup 使用指北 - 0x03_搜索解析

    摘要:参考概述中定义了许多搜索解析树的方法,但这些方法都非常类似,它们大多采用与相同的参数和,但是仅有和支持参数。本节会以作为示例过滤器过滤器用于在解析树中筛选目标节点,被用作搜索方法的实参。如果函数返回,则保留该节点,否则抛弃该节点。 GitHub@orca-j35,所有笔记均托管于 python_notes 仓库。欢迎任何形式的转载,但请务必注明出处。参考: https://www.cr...

    xfee 评论0 收藏0
  • Python爬虫之自制英汉字典

    摘要:笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网站帮助我们做这件事情。   最近在微信公众号中看到有人用Python做了一个爬虫,可以将输入的英语单词翻译成中文,或者把中文词语翻译成英语单词。笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩~~  首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网...

    graf 评论0 收藏0
  • python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇

    摘要:先打开花千骨小说的目录页,是这样的。网页结构分析首先,目录页左上角有几个可以提高你此次爬虫成功后成就感的字眼暂不提供花千骨全集下载。打开盘查看花千骨文件。 知识就像碎布,记得缝一缝,你才能华丽丽地亮相。 1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful Soup。Beautiful Soup为python的...

    newsning 评论0 收藏0
  • python爬虫之BeautifulSoup

    摘要:爬虫之简介提供一些简单的式的函数用来处理导航搜索修改分析树等功能。自动将输入文档转换为编码,输出文档转换为编码。已成为和一样出色的解释器,为用户灵活地提供不同的解析策略或强劲的速度。 python爬虫之BeautifulSoup 简介 **Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取...

    Rocko 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<