资讯专栏INFORMATION COLUMN

python爬虫网页提取器——xpath

andycall / 2556人阅读

xpath简单来说就是根据网页的源码路径去找你想要的的信息。
例子:

html="""



    
    测试-常规用法


  • 这是第一条信息
  • 这是第二条信息
  • 这是第三条信息
  • 不需要的信息1
  • 不需要的信息2
  • 不需要的信息3
"""

设网页文本如上:
xpath简单提取方法(chrome的审查元素有xpath的提取方式)

# -*- coding:utf-8 -*-
from lxml import etree#导入xpath
selector=etree.HTML(html, parser=None, base_url=None)

#提取文本
context=selector.xpath("//*[@id="useful"]/li/text()")
for each in context:
    print each
#结果显示:这是第一条信息
#这是第二条信息
#这是第三条信息




#提取属性
link=selector.xpath("//*[@id="url"]/a/@href")
for each in link:
    print each
#结果显示:http://jikexueyuan.com
#http://jikexueyuan.com/course/



#提取标题
title=selector.xpath("//*[@id="url"]/a/@title")
print title[0]
#结果显示:极客学院课程库

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37654.html

相关文章

  • Scrapy 框架入门简介

    摘要:解析的方法,每个初始完成下载后将被调用,调用的时候传入从每一个传回的对象来作为唯一参数,主要作用如下负责解析返回的网页数据,提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常...

    Coding01 评论0 收藏0
  • Python即时网络爬虫:API说明

    摘要:用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从获得的,您的网络爬虫程序就能写成通用的框架。,相关文档,即时网络爬虫项目内容提取器的定义,集搜客开源代码下载源,开源网络爬虫源,文档修改历史, showImg(https://segmentfault.com/img/bVynLk); API说明——下载gsExtractor内容提取器 1,接口...

    genefy 评论0 收藏0
  • Python Scrapy爬虫框架学习

    摘要:组件引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。 Scrapy 是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。 一、Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 ...

    harriszh 评论0 收藏0
  • Python使用xslt提取网页数据

    摘要:,用库实现网页内容提取是的一个库,可以迅速灵活地处理。,集搜客开源代码下载源开源网络爬虫源,文档修改历史,增补文字说明把跟帖的代码补充了进来,增加最后一章源代码下载源 showImg(https://segmentfault.com/img/bVvBTt); 1,引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor。本文记录了确定...

    mdluo 评论0 收藏0
  • [爬虫手记] 我是如何在3分钟内开发完一个爬虫

    摘要:前言开发爬虫是一件有趣的事情。的可配置爬虫是基于的,因此天生是支持并发的。遵守协议这个默认是开启的。的可配置爬虫降低了爬虫的开发时间,增加了爬虫开发效率,完善了工程化水平,将爬虫工程师从日常的繁琐配置工作中解放出来。 前言 开发爬虫是一件有趣的事情。写一个程序,对感兴趣的目标网站发起HTTP请求,获取HTML,解析HTML,提取数据,将数据保存到数据库或者存为CSV、JSON等格式,再...

    sushi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<