资讯专栏INFORMATION COLUMN

[Python] 知乎多线程爬虫

Paul_King / 3136人阅读

摘要:知乎多线程爬取问题有哪些可以单曲循环一星期的歌曲值得推荐那些单曲循环过的歌,有哪些句子打动了你自打放了寒假,我就一直想把系统的学习一遍爬虫的知识。

知乎多线程爬取问题:

有哪些可以单曲循环一星期的歌曲值得推荐?

那些单曲循环过的歌,有哪些句子打动了你?)

自打放了寒假,我就一直想把系统的学习一遍Python爬虫的知识。因为以前只是零碎的学习,造成许多东西都只是一知半解。

项目灵感来源是觉得单曲循环的歌至少让一个人曾经在聆听中感动过,歌曲的歌词中或许有触动他的旋律,也可能只是歌词恰巧与他的人生经历相似。不论怎样,我觉得能让一个人单曲循环的歌必定不差,所以就希望能获得这些歌曲名称并在网易云生成歌单。

然而,当我看到各位答主的答案后,我就发现有点麻烦了。
比如:

南山南

----------------我是不安分的分割线---------好多评论里的小伙伴说不得不推荐 傲寒 也是马頔歌曲里我爱的一首 如果说 南山南是一见钟情 被开头的“你在南方的艳阳天 大雪纷飞 我在北方的寒夜里四季如春”惊艳到 一点也不为过 而傲寒 更多是日久生情“如果全世界对你恶语相加 我就对你说上一世情话” 这么美的歌词 还是在我某天一大凌晨苦逼化妆中猛然注意到的
并且由于这两首歌 我下定了要学吉他的年头 并且我已经单曲循环了两周了 还没厌 良心推荐

作者:JoyHsu

链接:https://www.zhihu.com/questio...

我发现有不少答案中歌名是和其它话混在一起的,那这样的情况怎么处理呢?

很自然的,我想起来了自然语言处理,奈何寒假还没时间看NLTK库,不过我倒是知道jieba这个中文分词库,然后就直接试了一下,分出来的结果是这样的:

南山|n 南|n -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w 我|r 是|v 不安|a 分|v 的|u 分割线|n -|w -|w -|w -|w -|w -|w -|w -|w -|w 好多|m 评论|v 里|n 的|u 小|a 伙伴|n 说|v 不得|v 不|d 推荐|v 傲|a 寒|a 也|d 是|v 马|n 頔|n 歌曲|n 里|n 我|r 爱|v 的|u 一|m 首|q 如果|c 说|v 南山|n 南|n 是|v 一|m 见|v 钟情|n 被|p 开头|v 的|u 你|r 在|p 南方|n 的|u 艳阳天|n 大雪|n 纷飞|v 我|r 在|p 北方|n 的|u 寒|a 夜里|n 四|m 季|n 如春|v 惊艳|v 到|v 一点|m 也|d 不|d 为|p 过|v 而|c 傲|a 寒|a 更多|d 是|v 日|n 久|a 生情|v 如果|c 全世界|n 对|p 你|r 恶语|n 相|d 加|v 我|r 就|d 对|p 你|r 说|v 上|n 一世|n 情话|n 这么|r 美的|n 歌词|n 还是|d 在|p 我|r 某|r 天|n 一|m 大|a 凌晨|n 苦|a 逼|v 化妆|v 中|n 猛然|d 注意|v 到|v 的|u 并且|c 由于|c 这|r 两首|n 歌|n 我|r 下定|v 了|u 要|v 学|v 吉他|n 的|u 年头|n 并且|c 我|r 已经|d 单曲|n 循环|v 了|u 两|m 周|n 了|u 还|d 没|d 厌|v 良心|n 推荐|v

看到了吧,南山被分了出来,然而南山南却没有分出来,傲寒也没有分出来,因为用的语料库都是很久以前的词语,不可能有歌名这种词语,然后我一度停了好几天都在思考怎么解决。
还是无法解决,因为以我目前匮乏的专业知识只凭借瞎想是没有作用的。

然后我继续分析,发现有好多人都会使用书名号《》来引用歌名。
比如:

五月天《步步》

类似这样的答案还是挺多的,我就直接拿正则匹配书名号里面的内容。

关于程序,知乎登录部分是参考知乎上的一个回答(@xchaoinfo)。

我自己尝试把爬虫分成了解析器(parser),数据流存储器(store),以及规则器(rules),实际上写的很low。不过也算有了那么点意思。

然后就是加了多线程,关于多线程的使用,我实测对于爬虫的效率绝对是有用的,因为爬虫大部分时间都是等待服务器响应然后下载,所以多线程完全可以把等待的这部分时间来并行处理,节省时间。

关于存储这一部分,有很多选择,你完全可以简单选择存储到文本文件,也可以存储到excel文件,最好是存储到数据库,使用起来会极大的方便。所以我一开始是学了Python的sqlite3模块,为了省事,因为sqlite3是自带的。我在会给出一些我学习看到的好的教程。

最后我想提的是,对于BeautifulSoup vs. lxml的效率。以前也没用过lxml,也没觉得bs慢,直到我用了它以后,我估计以后再也不想用bs了

首先是bs不支持xpath语法选择

重点是bs的效率是真的跟lxml差了好多倍

我感觉xpath可以实现简化,因为你通过它抽取一个特定的元素只需要一个字符创(此处也许有人说bs的select也可以实现啊),但是事实上bs对css selector支持的并不是特别好,而且抛开效率不谈,xpath功能很丰富啊,还有很多函数以及操作符可以使用,如果你认真学习它的话,文末我也会附上教程链接。

我写的代码实在是渣,写代码量太少了。
可以优化的点,爬虫结构的抽象,异常机制的使用,!!日志的使用。

参考链接:

XPATH教程

Python HTML Parser Performance

High-performance XML parsing in Python with lxml

sqlite3 tutorials

sqlite3 tutorials

代码链接:

Spider Base Class

Zhihu Spider

爬取结果:
链接:excel文件 密码:c7wt

原定计划是后续处理每一个歌名在网易云里面通过API插曲评论数目,以评论数目作为关键字排序,然后创建一个歌单。
哇哇~~想想还是蛮有意思的@_@

最后,祝大家新的一年,学到更多的知识。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38402.html

相关文章

  • 爬虫 - 收藏集 - 掘金

    摘要:使用的爬虫知乎用户数据爬取和分析阅读掘金背景说明小拽利用的写的爬虫,实验性的爬取了知乎用户的基本信息同时,针对爬取的数据,进行了简单的分析呈现。 Python 知乎爬虫(最新) - 后端 - 掘金 环境:python3.x外部依赖包:requestsgithub项目地址 主要的问题:模拟登陆: 知乎现在改用https请求了,数据加密,但是问题不大,重要的是网页数据改动了,而且在请求时后...

    zzbo 评论0 收藏0
  • Python

    摘要:最近看前端都展开了几场而我大知乎最热语言还没有相关。有关书籍的介绍,大部分截取自是官方介绍。但从开始,标准库为我们提供了模块,它提供了和两个类,实现了对和的进一步抽象,对编写线程池进程池提供了直接的支持。 《流畅的python》阅读笔记 《流畅的python》是一本适合python进阶的书, 里面介绍的基本都是高级的python用法. 对于初学python的人来说, 基础大概也就够用了...

    dailybird 评论0 收藏0
  • 23个Python爬虫开源项目代码,包含微信、淘宝、豆瓣、知乎、微博等

    摘要:今天为大家整理了个爬虫项目。地址新浪微博爬虫主要爬取新浪微博用户的个人信息微博信息粉丝和关注。代码获取新浪微博进行登录,可通过多账号登录来防止新浪的反扒。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天为大家整...

    jlanglang 评论0 收藏0
  • Evil Python

    摘要:用将倒放这次让我们一个用做一个小工具将动态图片倒序播放发现引力波的机构使用的包美国科学家日宣布,他们去年月首次探测到引力波。宣布这一发现的,是激光干涉引力波天文台的负责人。这个机构诞生于上世纪年代,进行引力波观测已经有近年。 那些年我们写过的爬虫 从写 nodejs 的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫...

    Turbo 评论0 收藏0
  • 知乎书籍排行网站——建站始末

    摘要:一时心血来潮,于是当时想,如果拿来分析知乎这个网站,会有什么效果呢。知乎并没有公开,只能采取爬虫手段。如此,大概率会触发知乎反爬虫系统,所以采取以下方法来回避这个问题代理池。但是,很多情况下知乎还是能通过你的请求得到你的真实。。 网站地址books.bigfacewo.com最近工作去了,感觉人也变懒了,一直想写一些关于这个网站东西分享出来。慢慢写吧。前情提要:对于大神来说,这个网站使...

    Tony 评论0 收藏0

发表评论

0条评论

Paul_King

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<