摘要:最近在研究爬虫这方面的库也不少但大多都用不顺手今天在上搜索时发现了这个框架其用法很简单和操作几乎一样刚使用了下感觉很好用框架也不大不算文档多安装也很方便所以就分享给大家地址下载后运行使用列子网页标题我的主页测试段落一测试段落二测试段落
最近在研究python爬虫,这方面的库也不少,但大多都用不顺手.
今天在github上搜索时发现了这个框架,其用法很简单,和javascript操作DOM几乎一样,刚使用了下,感觉很好用,框架也不大,不算文档70多k,安装也很方便.所以就分享给大家.
地址:https://github.com/kata198/AdvancedHTMLParser
下载后,运行 python setup.py install
使用列子
#coding=utf-8 import AdvancedHTMLParser ht = """网页标题 div#testid测试段落一
测试段落二
测试段落三
测试段落四
""" parser = AdvancedHTMLParser.AdvancedHTMLParser() parser.parseStr(ht.decode("gbk").encode("utf-8")) #我在windows下写的,所以这里转换了编码 #网页编码 print parser.encoding #根据标签名获取元素 items = parser.getElementsByTagName("p") for item in items: print item.innerHTML #根据类名获取 items = parser.getElementsByClassName("link") #获取a连接的文本和链接 print items[0].getElementsByClassName("sf")[0].innerHTML print items[0].getElementsByClassName("sf")[0].getAttribute("href") #根据id获取 print parser.getElementById("testid").innerHTML
输出如下:
utf-8
测试段落一
测试段落二
测试段落三
测试段落四
Segmentfault
http://segmentfault.com/
div#testid
是不是很方便呢.
本文同步发表在CSDN,转载请注明作者!
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37628.html
摘要:最近在研究爬虫这方面的库也不少但大多都用不顺手今天在上搜索时发现了这个框架其用法很简单和操作几乎一样刚使用了下感觉很好用框架也不大不算文档多安装也很方便所以就分享给大家地址下载后运行使用列子网页标题我的主页测试段落一测试段落二测试段落 最近在研究python爬虫,这方面的库也不少,但大多都用不顺手.今天在github上搜索时发现了这个框架,其用法很简单,和javascript操作DOM...
摘要:资源获取方式根据下面的索引,大家可以选择自己需要的资源,然后在松哥公众号牧码小子后台回复对应的口令,就可以获取到资源的百度云盘下载地址。公众号二维码如下另外本文会定期更新,松哥有新资源的时候会及时分享给大家,欢迎各位小伙伴保持关注。 没有一条路是容易的,特别是转行计算机这条路。 松哥接触过很多转行做开发的小伙伴,我了解到很多转行人的不容易,记得松哥大二时刚刚决定转行计算机,完全不知道这...
摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...
摘要:以下这些项目,你拿来学习学习练练手。当你每个步骤都能做到很优秀的时候,你应该考虑如何组合这四个步骤,使你的爬虫达到效率最高,也就是所谓的爬虫策略问题,爬虫策略学习不是一朝一夕的事情,建议多看看一些比较优秀的爬虫的设计方案,比如说。 (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法...
阅读 3582·2021-11-24 09:39
阅读 2407·2021-11-15 11:37
阅读 2129·2021-11-11 16:55
阅读 4981·2021-10-14 09:43
阅读 3619·2021-10-08 10:05
阅读 2976·2021-09-13 10:26
阅读 2250·2021-09-08 09:35
阅读 3514·2019-08-30 15:55