摘要:三个重点,我隐藏了的地址,本爬虫只适用于的抓取。每个帖子以帖子名为文件名新建一个文件并把帖子内图片保存下来。
三个重点,我隐藏了1024的地址,本爬虫只适用于1024的抓取。每个帖子以帖子名为文件名新建一个文件并把帖子内图片保存下来。
url_start设置起始页 url_end设置结束页
有问题的留言,我看到就会回复
import requests import re import time from bs4 import BeautifulSoup import os url_start = "url1" url_end = "url2" # 获取图片链接并保存到文件夹的函数 def getIMG(article_url): # time.sleep(1) urls = [] try: html = requests.get(article_url) html.encoding = "gbk" soup = BeautifulSoup(html.text, "html.parser") part_picURL = re.findall("src="http://img(.+?.jpg)"",html.text,re.S) for each in part_picURL: picURL = "http://img" + each urls.append(picURL) i=0 for each in urls: try: pic = requests.get(each, timeout = 10) folder_name = soup.select("h4")[0].text if os.path.isdir(folder_name): pass else: os.mkdir(folder_name) print("文件夹"+ "$ " + folder_name + "$" + "创建完成") file_name = folder_name+"/" + folder_name + str(i) + ".jpg" fp = open(file_name,"wb") fp.write(pic.content) fp.close() i += 1 except: pass print("图片下载完成") except: pass return urls url_list = [] #获取当前页面文章列表链接并翻页 def getlist(url_Start): headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"} req = requests.get(url_Start) req.encoding = "gbk" url_index = re.findall(""打開新窗口" href="htm_(.+?.html)" target="_blank">",req.text,re.S) for p in url_index: full_url = "http://cl.gtta.pw/htm_" + p url_list.append(full_url) #判断是否要翻页 urls_next = re.findall("false;}">下一頁",req.text,re.S)[0] url_next = "http://cl.gtta.pw/" + urls_next if url_next != url_end: getlist(url_next) else: print("已到达末页") return url_list lists = getlist(url_start) print(len(lists)) for list in lists: img = getIMG(list) print(img)
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38440.html
摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...
摘要:下载指定网站上的妹子图片,这里只抓了前页的图片,可根据需要自己设置页数值为图片类型,大家可以自行更改值体验一下,有问题留言给我,看到就会解答大胸妹美腿控有颜值大杂烩小翘臀链接已处理完毕图片下载完成 下载指定网站上的妹子图片,这里只抓了前100页的图片,可根据需要自己设置页数cat值为图片类型,大家可以自行更改cat值体验一下,有问题留言给我,看到就会解答2 = 大胸妹3 = 美腿控4 ...
摘要:列入全国计算机二级取代,部分城市试点,引入高中。建议通过视频学习,这样不但节省时间,而且效果很好。能否回忆起那个陡峭的学习曲线问题越多,学的越快。出报告每完成一个项目,总结报告,必不可少。结构化学习,才是你我需要真正培养的能力。 编程就如同你学习开车,即使,你可以一口气,说出一辆车的全部零部件,以及内燃机进气、压缩、做功和排气过程,但你就是不去练如何开车,怎么上路。你确定,你敢开吗?你...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...
阅读 897·2021-11-25 09:43
阅读 2257·2019-08-30 15:55
阅读 3130·2019-08-30 15:44
阅读 2022·2019-08-29 16:20
阅读 1428·2019-08-29 12:12
阅读 1593·2019-08-26 12:19
阅读 2258·2019-08-26 11:49
阅读 1688·2019-08-26 11:42