摘要:爬取豆瓣阅读提供方代码中会有详细的注释关于也是在看教程和书以及视频学习,纯种小白哈士奇的那种用到的库爬虫库正则模块写模块时间模块库伪装浏览器的固定写法也可以再加加个代理,也可以不加直接使用自己的地址代理西刺代理通过正则获取内容菜鸟
爬取豆瓣阅读提供方 代码中会有详细的注释
关于python也是在看教程和书以及视频学习,纯种小白(哈士奇的那种)
用到的库urllib -> 爬虫库
re -> 正则模块
xlwt -> excel写模块
time -> 时间模块
urllib库伪装浏览器的固定写法(也可以再加)</>复制代码
加个代理ip,也可以不加直接使用自己的ip地址
代理ip -> "123.116.129.176"
西刺代理
通过正则获取内容菜鸟教程的re模块
写入excel的操作</>复制代码
更加详细的用法百度可以找到很多,我就不一一的列出来了
这里有个坑,第一个匹配出来的url地址不对,原因是网页中有个非列表标签内的居然和正则开始的匹配(列表标签)是一致的
部分代码
</>复制代码
# 创建workbook和sheet对象
workbook = xlwt.Workbook()
# excel 底部 sheet1
# 覆盖单元格
sheet1 = workbook.add_sheet("统计", cell_overwrite_ok=True)
...
for i in content:
# 在第 row + 1 行第 1 列写入序号
sheet1.write(row + 1, 0, row + 1, style)
# 在第 row + 1 行第 2 列写入出版社_url
sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style)
# 在第 row + 1 行第 3 列写入LOGO_url
sheet1.write(row + 1, 2, i[1], style)
# 在第 row + 1 行第 4 列写入出版社名称
sheet1.write(row + 1, 3, i[2], style)
# 在第 row + 1 行第 5 列写入在售数量
sheet1.write(row + 1, 4, int(i[3]), style)
# 对在售数量求和
sum += int(i[3])
row += 1
</>复制代码
时间模块的用法
获取当前时间并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
将对一列数据(在售数量)求和以及数据保存
需要注意,这里写个判断语句要等到基础数据都写入完毕之后在进行求和运算并写入
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/41244.html
摘要:今天为大家整理了个爬虫项目。地址新浪微博爬虫主要爬取新浪微博用户的个人信息微博信息粉丝和关注。代码获取新浪微博进行登录,可通过多账号登录来防止新浪的反扒。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天为大家整...
摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...
摘要:前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。 0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。所以找了很多实例和文...
摘要:对之前我的那个豆瓣的短评的爬虫,进行了一下架构性的改动。同时也添加了多线程的实现。我的代码中多线程的核心代码不多,见下。注意使用多线程时,期间的延时时间应该设置的大些,不然会被网站拒绝访问,这时你还得去豆瓣认证下我真的不是机器人尴尬。 对之前我的那个豆瓣的短评的爬虫,进行了一下架构性的改动。尽可能实现了模块的分离。但是总是感觉不完美。暂时也没心情折腾了。 同时也添加了多线程的实现。具体...
阅读 2067·2021-09-30 09:47
阅读 751·2021-09-22 15:43
阅读 2022·2019-08-30 15:52
阅读 2470·2019-08-30 15:52
阅读 2602·2019-08-30 15:44
阅读 954·2019-08-30 11:10
阅读 3406·2019-08-29 16:21
阅读 3336·2019-08-29 12:19
极致性价比!云服务器续费无忧!
Tesla A100/A800、Tesla V100S等多种GPU云主机特惠2折起,不限台数,续费同价。
NVIDIA RTX 40系,高性价比推理显卡,满足AI应用场景需要。
乌兰察布+上海青浦,满足东推西训AI场景需要