摘要:处理文件最终得到的字符串得到所有的文本之后,使用结巴分词,处理成单个的词语。
文章链接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q
回看18年,最有成就的就是有了自己的 博客网站,坚持记录,写文章,累计写了36篇了,从一开始的难以下手,到现在成为一种习惯,虽然每次写都会一字一句斟酌,但是每次看到产出,内心还是开心的,享受这样的过程。
这篇文章就是用python 生成自己写的博客词云,平常写的博客都是markdown 格式的,直接把文件传到后台,前端用js去解析文件显示的,所以我这里处理数据就不需要去爬虫网站,直接读文件处理的。
关于生成词云图的,在另外两篇文章中也有介绍过:
[python itchat 爬取微信好友信息,生成词云
](https://mp.weixin.qq.com/s/4E...
python爬虫学习:爬虫QQ说说并生成词云图
markdown文件处理,遍历文件夹,匹配md 后缀的文件,读文件,这里的root 是文件夹的绝对路径。
import os total = "" file_list = os.listdir(root) for file in file_list: //处理md文件 if os.path.splitext(file)[1] == ".md": path = os.path.join(root,file) text = open(path, encoding="utf-8").read() //最终得到的字符串 total = total + " " + text
得到所有的文本之后,使用结巴分词 pip3 install jieba,处理成单个的词语。
import jieba wordlist = jieba.cut(total, cut_all=True) wl = " ".join(wordlist)
因为平常写的文章里有很多的代码,这里可以正则只留下中文,然后再处理中文字符。
import re rec = re.compile("[^u4E00-u9FA5]") total = rec.sub("", total) wordlist = jieba.cut(total, cut_all=True) wl = " ".join(wordlist)
最后就是生成词云,采用WordCloud的库
wc = WordCloud( # 设置背景颜色 background_color="white", # 设置最大显示的词云数 max_words=1000, # 这种字体都在电脑字体中,window在C:WindowsFonts下,mac下的是/System/Library/Fonts/PingFang.ttc 字体 font_path="C:WindowsFontsSTFANGSO.ttf", height=2000, width=2000, # 设置字体最大值 max_font_size=250, # 设置有多少种随机生成状态,即有多少种配色方案 random_state=30, ) myword = wc.generate(wl) # 生成词云 # 展示词云图 plt.imshow(myword) plt.axis("off") wc.to_file("blog.png") # 保存图片 plt.ion() plt.pause(5) plt.close() # 图片显示5s,之后关闭
最终的结果显示图,除去代码之后,看这些词,不少还是跟android相关的,也是平常经常会提到的词汇。
欢迎关注我的个人博客:https://www.manjiexiang.cn/
更多精彩欢迎关注微信号:春风十里不如认识你
一起学习,一起进步,欢迎上车,有问题随时联系,一起解决!!!
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43010.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:上面是生成词云的方法封装,还有一些其他方法根据词频生成词云根据文本生成词云根据词频生成词云根据文本生成词云将长文本分词并去除屏蔽词此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的对现有输出重新着色。 对于数据展示这一块有时候会用到词云,python中提供的wordcloud模块可以很灵活的完成生成词云除了使用python提供的wordcloud模块以为还有在线的生成方式ht...
摘要:准备工作抓取数据存到文档中,了解问题分词分的不太准确,比如机器学习会被切成机器和学习两个词,使用自定义词典,原本的想法是只切出自定义词典里的词,但实际上不行,所以首先根据分词结果提取出高频词并自行添加部分词作为词典,切词完毕只统计自定义词典 准备工作 抓取数据存到txt文档中,了解jieba 问题 jieba分词分的不太准确,比如机器学习会被切成机器和学习两个词,使用自定义词典,原本...
Python pyecharts作为常用的数据可视化软件,能够清晰的将海量的数据,去做一个拆分,要是更直观的去查看数据图表的话,就需要去制作云图了?那么,怎么制作云图呢?下面就给大家详细的做个解答。 词云图 什么是词云图,相信大家肯定不会感到陌生,一本书统计里面出现的词频,然后可视化展示,让读者快速的了解这个主题纲要,这就是词云的直接效果。 词云图系列模板 固定模式词云图 修改一些参...
摘要:用实现微信好友性别及位置信息统计这里使用的库开发。使用图灵机器人自动与指定好友聊天让室友帮忙测试发现发送表情发送文字还能回应,但是发送图片可能不会回复,猜应该是我们申请的图灵机器人是最初级的没有加图片识别功能。 1.用 Python 实现微信好友性别及位置信息统计 这里使用的python3+wxpy库+Anaconda(Spyder)开发。如果你想对wxpy有更深的了解请查看:wxpy...
阅读 564·2023-04-25 16:00
阅读 1597·2019-08-26 13:54
阅读 2495·2019-08-26 13:47
阅读 3401·2019-08-26 13:39
阅读 1037·2019-08-26 13:37
阅读 2734·2019-08-26 10:21
阅读 3534·2019-08-23 18:19
阅读 1601·2019-08-23 18:02