资讯专栏INFORMATION COLUMN

使用Python将HTML文档转换为Markdown文档

syoya / 1117人阅读

摘要:前言我的个人博客是搭建的,风格我很喜欢,也不打算更换。今天发现个有趣的库,可以将转换回试验了一下效果还不错。的作用在这里使用号来分割文章的核心内容,舍弃博客的和。

前言

我的个人博客是Hexo+Next搭建的,风格我很喜欢,也不打算更换。最近可能电脑不好使了,两次重装系统,每次都要重新搭建博客,搭建速度也很快,但是依然有个困扰我的问题,那就是电脑卡死的时候有些博客没有备份,只有上传到Github生成的html文档。今天发现个有趣的python库,可以将html转换回markdown,试验了一下效果还不错。

代码

下面先上代码:

#Author:Sun Yan
#Function: convert html to md

import html2text as ht  # pip install html2text
import os 
text_maker = ht.HTML2Text()
#text_maker.ignore_links = True
text_maker.bypass_tables = False
path ="C:Users14050Desktopcode1.html"
htmlfile = open(path,"r",encoding="UTF-8")
htmlpage = htmlfile.read()
text = text_maker.handle(htmlpage)
md = text.split("#")  # split post content
open("1.md","w").write(md[1])  # write file as a md file
说明 安装库

在我的电脑上直接pip安装没有成功,我是在pypi上下载之后安装的 html2text

使用

使用也比较简单,注意两个地方即可:

忽略链接和表格

我这里是按照官方文档中写的,实际测试链接可以不忽略,表格没有测试。

2.#的作用

在这里使用#号来分割文章的核心内容,舍弃博客的header和footer。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/41388.html

相关文章

  • 使用Python Markdown 生成 html

    摘要:越来越喜欢使用编写文档,相对更简单方便,而且可以渲染输出自己喜欢的样式。开发过程中编写的文档方便等版本控制工具管理。完整代码将上的代码保存为然后执行 越来越喜欢使用markdown编写文档,相对doc更简单方便,而且可以渲染输出自己喜欢的样式。开发过程中编写的文档markdown方便svn、git等版本控制工具管理。 安装 Python-Markdown ,做markdown to h...

    levy9527 评论0 收藏0
  • Django 博客开发教程 9 - 支持 Markdown 语法和代码高亮

    摘要:注意如果你按照教程中的方法做完后发现代码依然没有高亮,请依次检查以下步骤确保在渲染文本时添加了拓展,详情见上文。有些样式文件可能对代码高亮没有作用,首先尝试用样式文件做测试。在支持语法和代码高亮追梦人物的博客的评论区留言。 为了让博客文章具有良好的排版,显示更加丰富的格式,我们使用 Markdown 语法来书写我们的博文。Markdown 是一种 HTML 文本标记语言,只要遵循它约定...

    zr_hebo 评论0 收藏0
  • Python-Django

    摘要:使用的形式捕获值给中得参数,比如,当访问时,将会将捕获给这个值会传到。表示删除某个分类后该分类下所有的的外键设为空,所以我们同时设置了。多对多就不同,两边都要进行配置。增加基本的用户认证功能。 准备工作 新建一个Django项目 # 新建一个django项目 $ django-admin startproject mysite # 新建一个app $ django-admin star...

    geekidentity 评论0 收藏0
  • Django搭建个人博客:使用Markdown语法书写文章

    摘要:重新打开一个命令行窗口,进入虚拟环境,安装是一种通用语法高亮显示器,可以帮助我们自动生成美化代码块的样式文件。 上一章我们实现了文章详情页面。为了让文章正文能够进行标题、加粗、引用、代码块等不同的排版(像在Office中那样!),我们将使用Markdown语法。 安装Markdown Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的或...

    沈建明 评论0 收藏0
  • [原]文档定义应用:数据科学的文档革命

    摘要:对于数据科学的研究可以说已经是本文我将介绍如何以文档定义应用的方式成为数据科学中的标准交付。参考前文解密的数据科学部门如果构建知识仓库,作为一个谢大大的死忠,我很自然选择了作为我文档输出的首选工具。 showImg(https://segmentfault.com/img/remote/1460000006760433?w=423&h=426); 概述 随着近年来,Rstudio 通过...

    wh469012917 评论0 收藏0

发表评论

0条评论

syoya

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<