python爬虫网页提取器——xpath

andycall 发布于2019-07-24 18:16 / 2606人阅读

xpath简单来说就是根据网页的源码路径去找你想要的的信息。
例子：

html="""



    
    测试-常规用法



    
        这是第一条信息
        这是第二条信息
        这是第三条信息
    
    
        不需要的信息1
        不需要的信息2
        不需要的信息3
    

    
        极客学院
        点我打开课程库
    




"""

设网页文本如上：
xpath简单提取方法（chrome的审查元素有xpath的提取方式）

# -*- coding:utf-8 -*-
from lxml import etree#导入xpath
selector=etree.HTML(html, parser=None, base_url=None)

#提取文本
context=selector.xpath("//*[@id="useful"]/li/text()")
for each in context:
    print each
#结果显示：这是第一条信息
#这是第二条信息
#这是第三条信息




#提取属性
link=selector.xpath("//*[@id="url"]/a/@href")
for each in link:
    print each
#结果显示：http://jikexueyuan.com
#http://jikexueyuan.com/course/



#提取标题
title=selector.xpath("//*[@id="url"]/a/@title")
print title[0]
#结果显示：极客学院课程库

云服务器 GPU云服务器网页爬虫python python网页爬虫网页提取网页内容提取

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/37654.html

Scrapy 框架入门简介

摘要：解析的方法，每个初始完成下载后将被调用，调用的时候传入从每一个传回的对象来作为唯一参数，主要作用如下负责解析返回的网页数据，提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常...

Coding01 2019-07-30 15:39 评论0 收藏0
Python即时网络爬虫：API说明

摘要：用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，如果这个提取器是从获得的，您的网络爬虫程序就能写成通用的框架。，相关文档，即时网络爬虫项目内容提取器的定义，集搜客开源代码下载源，开源网络爬虫源，文档修改历史， showImg(https://segmentfault.com/img/bVynLk); API说明——下载gsExtractor内容提取器 1，接口...

genefy 2019-07-25 10:32 评论0 收藏0
Python Scrapy爬虫框架学习

摘要：组件引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。下载器下载器负责获取页面数据并提供给引擎，而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子，处理传递给引擎的。 Scrapy 是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。一、Scrapy框架简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。 ...

harriszh 2019-07-31 11:00 评论0 收藏0
Python使用xslt提取网页数据

摘要：，用库实现网页内容提取是的一个库，可以迅速灵活地处理。，集搜客开源代码下载源开源网络爬虫源，文档修改历史，增补文字说明把跟帖的代码补充了进来，增加最后一章源代码下载源 showImg(https://segmentfault.com/img/bVvBTt); 1，引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定...

mdluo 2019-07-25 10:22 评论0 收藏0
[爬虫手记] 我是如何在3分钟内开发完一个爬虫的

摘要：前言开发爬虫是一件有趣的事情。的可配置爬虫是基于的，因此天生是支持并发的。遵守协议这个默认是开启的。的可配置爬虫降低了爬虫的开发时间，增加了爬虫开发效率，完善了工程化水平，将爬虫工程师从日常的繁琐配置工作中解放出来。前言开发爬虫是一件有趣的事情。写一个程序，对感兴趣的目标网站发起HTTP请求，获取HTML，解析HTML，提取数据，将数据保存到数据库或者存为CSV、JSON等格式，再...

sushi 2019-07-31 10:28 评论0 收藏0