摘要:主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。
主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。由于本人是tfboys的粉丝,所以平常没事爱逛贴吧欣赏我家三小只的美图,所以这次就以贴吧[小王的讨论楼]为例,批量爬取该楼的图片[1]
itme.py编写import scrapy class WangyuantuItem(scrapy.Item): image_urls=scrapy.Field()#就编写个图片路径就好spider的编写
import scrapy import requests import os from wangyuantu.items import WangyuantuItem class XiaowangSpider(scrapy.Spider): name = "xiaowang" allowed_domains = ["tieba.baidu.com/p/3888309273"] start_urls = [ "http://tieba.baidu.com/p/3888309273?pn=%d" % i for i in range(21,45) ] def parse(self, response): item = WangyuantuItem() item["image_urls"]=response.xpath("//img[@class="BDE_Image"]/@src").extract() yield itempipelines编写:这个部分都是可以套用的
import requests from wangyuantu import settings import os #图片下载类 class ImageDownloadPipeline(object): def process_item(self, item, spider): if "image_urls" in item:#如何‘图片地址’在项目中 images = []#定义图片空集 dir_path = "%s/%s" % (settings.IMAGES_STORE, spider.name) if not os.path.exists(dir_path): os.makedirs(dir_path) for image_url in item["image_urls"]: us = image_url.split("/")[3:] image_file_name = "_".join(us) file_path = "%s/%s" % (dir_path, image_file_name) images.append(file_path) if os.path.exists(file_path): continue with open(file_path, "wb") as handle: response = requests.get(image_url, stream=True) for block in response.iter_content(1024): if not block: breaksettings编写
BOT_NAME = "wangyuantu" SPIDER_MODULES = ["wangyuantu.spiders"] NEWSPIDER_MODULE = "wangyuantu.spiders" ITEM_PIPELINES = {"wangyuantu.pipelines.ImageDownloadPipeline": 1} #图片储存 IMAGES_STORE = "C:UsersLenovoPictures"结果 寄语:wili源源小可爱,希望你快快乐乐的长大
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37632.html
摘要:仿写原创单页面爬取爬取网站联合早报网左侧的标题,连接,内容定义爬取内容文件编写保存文件命令备注打开出现乱码,用记事本转换成编码,打开中文可正常。 仿写原创——单页面爬取爬取网站:联合早报网左侧的标题,连接,内容1.item.py定义爬取内容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...
摘要:安装可能的问题问题解决实例教程中文教程文档第一步创建项目目录第二步进入创建爬虫第三步创建存储容器,复制项目下的重命名为第四步修改提取数据引入数据容器第五步解决百度首页网站抓取空白问题设置设置用户代理解决相关解决数据保存乱 pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is requi...
阅读 999·2021-11-22 13:52
阅读 1440·2021-11-19 09:40
阅读 3119·2021-11-16 11:44
阅读 1262·2021-11-15 11:39
阅读 3892·2021-10-08 10:04
阅读 5331·2021-09-22 14:57
阅读 3095·2021-09-10 10:50
阅读 3176·2021-08-17 10:13