摘要:常听说,现在的代码,就和唐朝的诗一样重要。推荐使用作为编译器。代码具体步骤使用爬虫爬取全唐诗,总共抓取了首。接下来考虑优化模版,提取五言和七言常用句式作为模版。另外考虑使用机器学习的方法,写来让计算机自动生成充满韵味的诗
常听说,现在的代码,就和唐朝的诗一样重要。
可对我们来说,写几行代码没什么,但是,要让我们真正地去写一首唐诗,那可就头大了。。既然如此,为何不干脆用代码写一首唐诗?
python3.6环境
推荐使用anaconda管理python包,可以对于每个项目,创建环境,并在该环境下下载项目需要的包。
推荐使用pycharm作为编译器。
GitHub代码:GitHub - theodore3131/TangshiGenerator
具体步骤:使用爬虫爬取全唐诗,总共抓取了71000首。
#使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制 http = urllib3.PoolManager( cert_reqs="CERT_REQUIRED", ca_certs=certifi.where()) #爬虫的目标网站 r = http.request("GET", url) #爬虫获取的html数据 soup = BeautifulSoup(r.data, "html.parser") content = soup.find("div", class_="contson")
使用正则表达式对爬取的数据进行处理
p1 = r"[u4e00-u9fa5]{5,7}[u3002|uff0c]" #[汉字]{重复5-7次}[中文句号|中文逗号] pattern1 = re.compile(p1) #编译正则表达式 result = pattern1.findall(poemfile) #搜索匹配的字符串,得到匹配列表
对诗词正文进行分词操作
#使用jieba中文分词库的textRank算法来找出各个词性的高频词 for x in jieba.analyse.textrank(content, topK=600, allowPOS=("n", "nr", "ns", "nt", "nz", "m")):
唐诗生成
处理韵脚
使用pinyin库
pip install pinyin
verse = pinyin.get("天", format="strip") #输出:tian
对于韵脚,本来是想找出所有的韵脚并做成字典形式存储起来,但韵脚总共有20多个,
后来发现其实20多个韵脚都是以元音字母开始的,我们可以基于这个规则来判断:
rhythm = "" rhythmList = ["a", "e", "i", "o", "u"] verse = pinyin.get(nounlist[i1][1], format="strip") #韵脚在每个pinyin倒叙最后一个元音字母处截止 for p in range(len(verse)-1, -1, -1): if verse[p] in rhythmList: ind = p rhythm = verse[ind:len(verse)]
目前是最初级的五言律诗,且为名动名句式
rhythm = "" rhythmList = ["a", "e", "i", "o", "u"] while num < 4: #生成随机数 i = random.randint(1, len(nounlist)-1) i1 = random.randint(1, len(nounlist)-1) j = random.randint(1, len(verblist)-1) #记录韵脚 ind = 0 ind1 = 0 if (num == 1): rhythm = "" verse = pinyin.get(nounlist[i1][1], format="strip") #韵脚在每个pinyin倒叙最后一个元音字母处截止 for p in range(len(verse)-1, -1, -1): if verse[p] in rhythmList: ind = p rhythm = verse[ind:len(verse)] #确保2,4句的韵脚相同,保证押韵 if (num == 3): ind1 = 0 verse1 = pinyin.get(nounlist[i1][1], format="strip") for p in range(len(verse1)-1, -1, -1): if verse1[p] in rhythmList: ind1 = p while verse1[ind1: len(verse1)] != rhythm: i1 = random.randint(1, len(nounlist)-1) verse1 = pinyin.get(nounlist[i1][1], format="strip") for p in range(len(verse1)-1, -1, -1): if verse1[p] in rhythmList: ind1 = p #随机排列组合 print(nounlist[i]+verblist[j][1]+nounlist[i1]) num += 1藏头诗
其实思路很简单,既然我们有了语料库,那么,我们每次在排列组合词的时候,只需保证生成每句时,第一个名词的第一个字,是按序给定四字成语中的即可
for x in range(len(nounlist)): if nounlist[x][0] == str[num]: i = x
来看一下结果:
四言诗:
所思浮云
关山车马
高楼流水
闲人肠断
五言律诗:
西风时细雨
山川钓建章
龙门看萧索
几年乡斜阳
藏头诗:
落花流水
落晖首南宫
花枝成公子
流水名朝廷
水声胜白石
参考:
https://segmentfault.com/a/11...
当然,现在生成的唐诗还是比较低级的,属于基础的古诗文词语排列组合。
接下来考虑优化模版,提取五言和七言常用句式作为模版。
另外考虑使用机器学习的方法,写RNN来让计算机自动生成充满韵味的诗
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/41365.html
摘要:如果使用区块链技术则可以降低使用版权的门槛。价值化,艺人利益得到保证高晓松在谈到区块链时,也赞成艺人发行来跳过娱乐公司。通过区块链技术艺人可以更加贴合粉丝,创造出更高效的内容推荐和特色化的消费产品与服务体验。 2019年1月3日,高晓松的《晓说》在朋友圈刷屏了。 这次高晓松没有谈风花雪月、诗与远方,而是在其母校清华大学的教室里,跟学弟学妹们深入浅出地聊起了区块链在文娱产业的革命。 在传...
摘要:如果使用区块链技术则可以降低使用版权的门槛。价值化,艺人利益得到保证高晓松在谈到区块链时,也赞成艺人发行来跳过娱乐公司。通过区块链技术艺人可以更加贴合粉丝,创造出更高效的内容推荐和特色化的消费产品与服务体验。 2019年1月3日,高晓松的《晓说》在朋友圈刷屏了。 这次高晓松没有谈风花雪月、诗与远方,而是在其母校清华大学的教室里,跟学弟学妹们深入浅出地聊起了区块链在文娱产业的革命。 在传...
摘要:然而这次的文章,就像贺师俊所说的这篇文章是从程序员这个老年度总结前端掘金年对我来说,是重要的一年。博客导读总结个人感悟掘金此文着笔之时,已经在眼前了。今天,我就来整理一篇,我个人认为的年对开发有年终总结掘金又到 2016 Top 10 Android Library - 掘金 过去的 2016 年,开源社区异常活跃,很多个人与公司争相开源自己的项目,让人眼花缭乱,然而有些项目只是昙花一...
摘要:万云专注于将区块链技术应用于各个行业,促进区块链在业务中的真正落地。共识算法是区块链比较核心的技术之一,保证区块一致性是其主要作用。 作者:万云首席架构师兼产品总监李晨原文链接:http://mp.weixin.qq.com/s/snl...如需转载请联系万云官方微信:万云Wancloud 2018年开始,好像所有的人都在谈论区块链,资本、精英、草根不断进场投身到区块链的浪潮之中。在外...
摘要:半路出家的前端程序员应该不在少数,我也是其中之一。年,冯冯同事兼师兄看我写太费劲,跟我说对面楼在找,问我要不要学,说出来可能有点丢人,但是在那之前,我真得不知道什么是,什么是。 半路出家的前端程序员应该不在少数,我也是其中之一。 为何会走向前端 非计算机专业的我,毕业之后,就职于一家电力行业公司,做过设备调试、部门助理、测试,也写过一段时间的QT,那三年的时间,最难过的不是工作忙不忙,...
阅读 2554·2021-09-26 10:13
阅读 5912·2021-09-08 10:46
阅读 662·2019-08-30 15:53
阅读 2934·2019-08-29 16:13
阅读 2727·2019-08-26 12:23
阅读 3457·2019-08-26 11:24
阅读 1064·2019-08-23 18:09
阅读 1008·2019-08-23 17:08