摘要:上有一个关于下载百度贴吧里的美女图片的练习题,最近正好在学爬虫相关的知识,拿来练练手。这是我的目标网页。
Github上有一个关于下载百度贴吧里的美女图片的练习题,最近正好在学爬虫相关的知识,拿来练练手。
这是我的目标网页。
最开始的时候我在网上找到一个类似的案例,代码如下图:
稍作修改,运行之后得到七十多张图片,结果一看接近一半是用户头像~
方法太过简单粗暴,决定使用美丽的汤——BeautifulSoup重写一下(这汤真香)
观察了一下页面的源代码,发现所有用户发的图片都是class=“BDE_Image”的,这样就可以区分头像和帖子里的图片了,随便写写的代码:
from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import BeautifulSoup def get_image(url): html = urlopen(url).read().decode("utf-8") bsObj = BeautifulSoup(html, "lxml") myimg = bsObj.find_all("img", class_="BDE_Image") num = 1 for img in myimg: link = img.get("src") pic_name = str(num) + ".jpg" urlretrieve(link, pic_name) print("Success!" + pic_name) num += 1 return None url = "http://tieba.baidu.com/p/2166231880" get_image(url)
这次得到了49张图片
代码上传到了我的Github
交流群:435414286
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44783.html
摘要:上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来。 上一篇文章:Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章:Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...
摘要:所以说,我们所看到的微博页面的真实数据并不是最原始的页面返回的,而是后来执行后再次向后台发送了请求,拿到数据后再进一步渲染出来的。结果提取仍然是拿微博为例,我们接下来用来模拟这些请求,把马云发过的微博爬取下来。 上一篇文章:Python3网络爬虫实战---34、数据存储:非关系型数据库存储:Redis下一篇文章:Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图 ...
摘要:所以使用代理隐藏真实的,让服务器误以为是代理服务器的在请求自己。参考来源由于涉及到一些专业名词知识,本节的部分内容参考来源如下代理服务器维基百科代理百度百科上一篇文章网络爬虫实战和下一篇文章网络爬虫实战使用发送请求 上一篇文章:Python3网络爬虫实战---18、Session和Cookies下一篇文章:Python3网络爬虫实战---20、使用Urllib:发送请求 我们在做爬虫...
阅读 3574·2021-10-11 10:59
阅读 1592·2021-09-29 09:35
阅读 2262·2021-09-26 09:46
阅读 3772·2021-09-10 10:50
阅读 955·2019-08-29 12:17
阅读 823·2019-08-26 13:40
阅读 2436·2019-08-26 11:44
阅读 2105·2019-08-26 11:22