资讯专栏INFORMATION COLUMN

智能web网页爬虫原理,不用写一行代码

chavesgu / 3235人阅读

摘要:用户确认后存储。详情文本类子元素最多的元素,且页面面积占用最大。后处理详情希望保留详情的一些排版,比如代码块,高亮区域等。在使用时转回显示。

列表页解析

列表定位

同性质子元素排序

元素面积排序

用户确认区域后元素xpath并存储

分页按钮定位

不包含子元素且文字包含“下一页,点击查看更多”等文字的标签。

调用dom.click()方法自动进入下一页,或者提取链接,存储xpath

列表项解析

标题解析:列表项中字体权重最大的标签为标题。用户确认后存储xpath。

详情链接提取:标题往上找到a标签。解析后存储xpath

封面解析:列表项中面积最大的图片。存储xpath

详情页解析

内容识别

标题:标题使用列表项的标题即可。

详情:文本类子元素最多的元素,且页面面积占用最大。存储xpath。

时间解析:正则匹配时间即可,匹配到之后尝试缓存xpath。

来源解析:正则匹配即可,同上。

后处理

详情:希望保留详情的一些排版,比如代码块,高亮区域等。将HTML转为Markdown即可。在使用时转回HTML显示。

时间:使用dateparser将时间转为ISO8601标准时间或者时间戳即可。

存储:建议存储至MongoDB,无需提前定义表结构。

上述方案兼容90%的标准网站,比如拉钩,京东,segmentfault,v2ex,58同城等等。

DEMO已经开发完毕,交流讨论或者商业合作请发站内信。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45078.html

相关文章

  • 智能web网页爬虫原理不用一行代码

    摘要:用户确认后存储。详情文本类子元素最多的元素,且页面面积占用最大。后处理详情希望保留详情的一些排版,比如代码块,高亮区域等。在使用时转回显示。 列表页解析 showImg(https://segmentfault.com/img/bVbuH5K?w=1774&h=1532); 列表定位 同性质子元素排序 元素面积排序 用户确认区域后元素xpath并存储 分页按钮定位 不包含子元素且...

    宋华 评论0 收藏0
  • 2017文章总结

    摘要:欢迎来我的个人站点性能优化其他优化浏览器关键渲染路径开启性能优化之旅高性能滚动及页面渲染优化理论写法对压缩率的影响唯快不破应用的个优化步骤进阶鹅厂大神用直出实现网页瞬开缓存网页性能管理详解写给后端程序员的缓存原理介绍年底补课缓存机制优化动 欢迎来我的个人站点 性能优化 其他 优化浏览器关键渲染路径 - 开启性能优化之旅 高性能滚动 scroll 及页面渲染优化 理论 | HTML写法...

    dailybird 评论0 收藏0
  • 2017文章总结

    摘要:欢迎来我的个人站点性能优化其他优化浏览器关键渲染路径开启性能优化之旅高性能滚动及页面渲染优化理论写法对压缩率的影响唯快不破应用的个优化步骤进阶鹅厂大神用直出实现网页瞬开缓存网页性能管理详解写给后端程序员的缓存原理介绍年底补课缓存机制优化动 欢迎来我的个人站点 性能优化 其他 优化浏览器关键渲染路径 - 开启性能优化之旅 高性能滚动 scroll 及页面渲染优化 理论 | HTML写法...

    hellowoody 评论0 收藏0
  • 2017文章总结

    摘要:欢迎来我的个人站点性能优化其他优化浏览器关键渲染路径开启性能优化之旅高性能滚动及页面渲染优化理论写法对压缩率的影响唯快不破应用的个优化步骤进阶鹅厂大神用直出实现网页瞬开缓存网页性能管理详解写给后端程序员的缓存原理介绍年底补课缓存机制优化动 欢迎来我的个人站点 性能优化 其他 优化浏览器关键渲染路径 - 开启性能优化之旅 高性能滚动 scroll 及页面渲染优化 理论 | HTML写法...

    wwolf 评论0 收藏0
  • 我的 Python 高效学习法

    摘要:我最开始学习编程的时候也是如此,摸索了非常久的时间,才慢慢找到自己高效学习方法。被动的学习方式听讲阅读视听演示,只能让你做到内容留存率的和的知识。而主动的学习方式,如通过讨论实践教授给他人,会将原来被动学习的内容留存率从提升到和。 showImg(https://segmentfault.com/img/remote/1460000016856679); 阅读文本大概需要 7 分钟。 ...

    MyFaith 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<