【爬虫工具】下载博客转成Markdown的形式

JasinYip 发布于2019-07-30 15:31 / 3054人阅读

摘要：简单的爬虫工具下载博客，并转成的形式为什么要写这个工具主要是为了收集好的网上资源，每次看到一篇好的文章就像保存下来，但是保存网页的可读性太差了，如果转换成的形式就很舒服。

简单的爬虫工具

下载博客，并转成Markdown的形式

为什么要写这个工具

主要是为了收集好的网上资源，每次看到一篇好的文章就像保存下来，但是保存网页的可读性太差了，如果转换成Markdown的形式就很舒服。但是网页中会有许多无聊的标签干扰，于是写个简单的工具

使用的python库

beautifulsoup4

requests

html2text

csdn.py csdn博客爬虫

jianshu.py 简书博客爬虫

juejin.py 掘金文章爬虫

segmentfault.py segmentfault文章爬虫

使用方法举例

import html2md

url_list = [
        "http://blog.csdn.net/qq_37482544/article/details/63720726", # csdn
        "https://www.jianshu.com/p/b6220e99df2d", # jianshu
        "https://juejin.im/post/5a68437b6fb9a01ca47aabc6", # juejin
        "https://segmentfault.com/a/1190000011929414", # segmentfault
        "http://www.voidcn.com/article/p-giqfrkhb-bbr.html", # 其他
        "https://www.cnblogs.com/zxqstrong/p/4789105.html"
    ]
for url in url_list:
    checkSite(url)

项目地址

https://github.com/No-96/Feng...

云服务器 GPU云服务器支持markdown的博客 markdown博客爬虫工具下载网页爬虫工具下载

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41303.html

我是如何将博客转成PDF的

摘要：但发现导出来的没有高亮语法没有语法高亮咋看啊，所以到这里我就放弃了，将就用一下博客园生成的吧爬虫学习上面提供的接口是一个生成一个文件，我是不可能一个一个将链接和标题放上去生成的因为博客园上发的也将近篇了。前言只有光头才能变强之前有读者问过我：3y你的博客有没有电子版的呀？我想要份电子版的。我说：没有啊，我没有弄过电子版的，我这边有个文章导航页面，你可以去文章导航去找来看呀..然后...

mindwind 2019-08-16 13:58 评论0 收藏0
scrapy 实战练习

摘要：爬取百思不得姐首先一步一步来，我们先从爬最简单的文本开始。将百思不得姐段子保存到中别忘了将管道加到配置文件中。虽然我只是简单的爬了百思不得姐，不过这些方法可以应用到其他方面，爬取更多更有用的数据。前一篇文章介绍了很多关于scrapy的进阶知识，不过说归说，只有在实际应用中才能真正用到这些知识。所以这篇文章就来尝试利用scrapy爬取各种网站的数据。爬取百思不得姐首先一步一步来，我...

betacat 2019-07-30 15:05 评论0 收藏0
博客图片失效？使用npm包20行代码一次下载/替换所有失效的外链图片

摘要：前言大约一个月前，微博的图片外链失效了，以及掘金因为盗链问题也于决定开启防盗链，造成的影响是个人博客网站的引用了这些图片外链都不能显示。比如前段时间我的博客上引用的微博图片都不能显示了。用新的图片链接替换文件中某个域名的图片链接。 showImg(https://segmentfault.com/img/remote/1460000019393704); 前言大约一个月前，微博的图片...

snowell 2019-08-23 17:57 评论0 收藏0
读 VuePress（四）插件机制的设计

前言从 9 月份开始，vuepress 源码进行了重新设计和拆分。先是开了个 next 分支，后来又合并到 master 分支，为即将发布的 1.x 版本做准备。最主要的变化是：大部分的全局功能都被拆分成了插件的形式，以可插拔的方式来支撑 vuepress 的运作，这一点很像 webpack。具体架构如下： showImg(https://user-gold-cdn.xitu.io/2019...

April 2019-05-22 16:41 评论0 收藏0