资讯专栏INFORMATION COLUMN

网络爬虫之html2md

Aldous / 2705人阅读

摘要:前言上周利用爬取的网络文章,一直未能利用实现转化,整整一周时间才得以解决。实现为何突然会选择来实现,刚好最近在看书籍,里面有提到爬虫,解析爬取的内容,书中提到利用模块,遂果断浏览其文档,其实就是的翻版,这下可方便了,心中大喜。

前言

上周利用java爬取的网络文章,一直未能利用java实现html转化md,整整一周时间才得以解决。

虽然本人的博客文章数量不多,但是绝不齿于手动转换,毕竟手动转换浪费时间,把那些时间用来做些别的也是好的。

设计思路 Java实现

一开始的思路是想着用java来解析html,想着各种标签解析、符号解析、正则替换等等,决定在github上搜索一波,果然是有前辈实现过,顿时欣喜若狂;

代码地址

下载后如下图

可利用htmlToHexoMd方法测试运行

可能作者是在linux服务器上定义的路径,我测试的时候一直提示路径问题,结果被迫更改转化的路径代码,

调试运行后生成的md文件,本地启动hexo服务,上传刚刚生成md文件,网页浏览,不满,弃之。

NodeJS实现

为何突然会选择NodeJS来实现,刚好最近在看node书籍,里面有提到node爬虫,解析爬取的内容,书中提到利用cheerio模块,遂果断浏览其api文档,cheerio其实就是jquery的翻版,这下可方便了,心中大喜。

实现思路

实现单个转化

自定义解析

实现批量转化

难点分析

自定义解析是比较头疼的事情,必须要分析需要转化的html的格式,需要读取的内容,本人对h1,h2,h3,div,img,a标签做了处理,可自行扩展

html解析代码如下

            if("p" === name){
                if(e_children.type === "text"){
                    if(e.children.length > 1){
                        for(var j=0,c_len=e.children.length;j
结语

完整代码请移步至本人的html2md,如果此文章对您有用请不吝star

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/97571.html

相关文章

  • 爬虫工具】下载博客转成Markdown的形式

    摘要:简单的爬虫工具下载博客,并转成的形式为什么要写这个工具主要是为了收集好的网上资源,每次看到一篇好的文章就像保存下来,但是保存网页的可读性太差了,如果转换成的形式就很舒服。 简单的爬虫工具 下载博客,并转成Markdown的形式 为什么要写这个工具 主要是为了收集好的网上资源,每次看到一篇好的文章就像保存下来,但是保存网页的可读性太差了,如果转换成Markdown的形式就很舒服。但是网页...

    JasinYip 评论0 收藏0
  • HTML -> Markdown

    摘要:只支持协议,选项表示文档中的选择器,如选择器。对于单个,判断其进行映射。同时还需要注意对于代码块其换行是被样式控制的,如下图而且中的属性不属于标准,是浏览器各自实现的。 情景重现 有时候,我们看到网上比较好的文章,我们油然会想去转载,但是呈现在浏览器上文章的格式为 HTML,我们书写文章的格式又为 Markdown,所以我便想实现 HTML 到 Markdown 的转换。 注:对于一些...

    alanoddsoff 评论0 收藏0
  • 零基础如何学爬虫技术

    摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...

    KunMinX 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 爬虫 - 收藏集 - 掘金

    摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...

    1fe1se 评论0 收藏0

发表评论

0条评论

Aldous

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<