摘要:主要特性前一阵重新组织了一下代码加了命令行信息用起来更方便了一些初步实现了豆瓣小组及用户相关的爬虫和请求基于和没有用高阶的诸如之类的爬虫工具所有的命令行输出都是标准的格式可以使用操作安装仅支持使用两种命令模式客户端接口调用和豆瓣模块接口
主要特性
前一阵重新组织了一下代码, 加了命令行help信息, 用起来更方便了一些
初步实现了豆瓣小组及用户相关的API爬虫和请求
基于requests和lxml, 没有用高阶的诸如scrapy之类的爬虫工具
所有的命令行输出都是标准的json格式, 可以使用jq操作
安装仅支持python3
pip3 install --upgrade dbapi使用
两种命令模式: 客户端接口调用和豆瓣模块接口调用
# 调用客户端自身API, 比如 dbapi usedbapi [options...] # 调用豆瓣模块API, 比如 dbapi group list_user_topics dbapi [options...]
查看帮助信息: 可以列出所有的命令及参数
dbapi --help
用户登录: 有两种形式, 一种是直接用用户名和密码登录, 另一种是直接使用cookie, 因为没有做验证码破解, 所以在频繁登录遇到验证码之后可以通过Chrome控制台拿到cookie之后直接丢给客户端登录
# 用户名和密码登录, 注意密码是在命令行里的, 有可能会在你的历史记录里面留下密码 # 虽然这是用户模块的命令, 但是因为是全局依赖, 所以就放到客户端里面了 dbapi login# 使用cookie登录, 注意cookie里面关键的session id被设置了http only, 需要到network tab下面获取 dbapi use
刷新会话信息: 检查本地保存的会话信息是否已经过期, 会话信息会默认保存到$HOME/.__cache__dbapi.json中
dbapi flush
命令列表: 目前有用户(people)模块和小组(group)模块的命令, 具体如下:
# -------- 小组部分 --------# # 创建评论 dbapi group add_comment源代码# 创建小组 dbapi group add_group # 创建讨论 dbapi group add_topic # 获取讨论信息 dbapi group get_topic # 申请加入小组 dbapi group join_group # 退出小组 dbapi group leave_group # 话题点赞 dbapi group like_topic # 获取评论过的话题列表 dbapi group list_commented_topics # 获取评论列表 dbapi group list_comments # 获取加入的小组列表 dbapi group list_joined_groups # 已加入的所有小组的话题列表 dbapi group list_joined_topics # 获取点赞的话题列表 dbapi group list_liked_topics # 获取推荐的话题列表 dbapi group list_reced_topics # 获取小组话题列表 dbapi group list_topics <_type> # 列出用户在话题下的所有回复 dbapi group list_user_comments # 发表的话题 dbapi group list_user_topics # 推荐话题 dbapi group rec_topic # 删除评论 dbapi group remove_comment # 删除话题下所有自己的评论 dbapi group remove_commented_topic # 删除小组 dbapi group remove_group # 删除话题 dbapi group remove_topic # 搜索小组 dbapi group search_groups # 搜索话题 dbapi group search_topics # 喜欢话题 dbapi group undo_like_topic # 取消推荐话题 dbapi group undo_rec_topic # 更新话题 dbapi group update_topic # -------- 用户部分 --------# # 添加相册 dbapi people add_album # 添加相册评论 dbapi people add_album_comment # 添加照片 dbapi people add_photo # 添加照片评论 dbapi people add_photo_comment # 添加说说 dbapi people add_status # 获取相册 dbapi people get_album # 获取用户信息 dbapi people get_people # 获取照片 dbapi people get_photo # 喜欢照片 dbapi people like_photo # 喜欢说说 dbapi people like_status # 获取相册列表 dbapi people list_albums # 获取关注用户列表 dbapi people list_contacts # 获取照片评论列表 dbapi people list_photo_comments # 获取照片喜欢列表 dbapi people list_photo_likes # 获取照片推荐列表 dbapi people list_photo_recs # 获取照片列表 dbapi people list_photos # 获取粉丝列表 dbapi people list_rev_contacts # 获取说说评论列表 dbapi people list_status_comments # 获取说说列表 dbapi people list_statuses # 推荐照片 dbapi people rec_photo # 删除相册 dbapi people remove_album # 删除相册评论 dbapi people remove_album_comment # 删除照片 dbapi people remove_photo # 删除照片评论 dbapi people remove_photo_comment # 删除说说 dbapi people remove_status # 取消喜欢照片 dbapi people undo_like_photo # 取消喜欢说说 dbapi people undo_like_status # 取消推荐照片 dbapi people undo_rec_photo # 更新相册 dbapi people update_album
GitHub: https://github.com/acrazing/d...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42176.html
摘要:,引言注释上一篇爬虫实战安居客房产经纪人信息采集,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功...
摘要:今天为大家整理了个爬虫项目。地址新浪微博爬虫主要爬取新浪微博用户的个人信息微博信息粉丝和关注。代码获取新浪微博进行登录,可通过多账号登录来防止新浪的反扒。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天为大家整...
摘要:这里推荐一本书源码剖析源码剖析豆瓣这本书把源码中最核心的部分,给出了详细的阐释,不过阅读此书需要对语言内存模型和指针有着很好的理解。 是否非常想学好 Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓? 幸运的是,Python 是一门初学者友好的编程语言,想要完全掌握它,你不必花上太多的时间和精力。 Python 的设计哲学之一就是...
摘要:数目限制应该省略的条数数目限制排序方式函数的参数个数,必须是个,或者个。 基本思路 1.通过node中的 superagent 模拟http请求,去读取豆瓣小组的信息,对读取到的信息通过cheerio插件进行解析格式化以便于获取body中的信息存储到mongodb中 2.因为豆瓣会ban掉一写爬虫ip,所以爬取过程中会使用ip池挑选没有使用过的ip进行代理去爬取,并且会避免并发 使用m...
摘要:然而,和是有区别的,即时网络爬虫项目内容提取器的定义一文的源码无法在下使用,本文将发布一个的内容提取器。 1. 项目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投...
阅读 1775·2023-04-25 14:28
阅读 1865·2021-11-19 09:40
阅读 2763·2021-11-17 09:33
阅读 1350·2021-11-02 14:48
阅读 1629·2019-08-29 16:36
阅读 3239·2019-08-29 16:09
阅读 2885·2019-08-29 14:17
阅读 2346·2019-08-29 14:07