摘要:爬虫大战京东商城引言上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看爬取京东商城普通篇代码详解首先应该构造请求,这里使用这个方法默认调用的是构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般
SCrapy爬虫大战京东商城 引言
代码详解上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇
首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回,代码如下:
def start_requests(self): for i in range(1,101): page=i*2-1 #这里是构造请求url的page,表示奇数 url=self.start_url+str(page) yield scrapy.Request(url,meta={"search_page":page+1},callback=self.parse_url) #这里使用meta想回调函数传入数据,回调函数使用response.meta["search-page"]接受数据
下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧,代码如下:
def parse_url(self,response): if response.status==200: #判断是否请求成功 # print response.url pids = set() #这个集合用于过滤和保存得到的id,用于作为后面的ajax请求的url构成 try: all_goods = response.xpath("//div[@id="J_goodsList"]/ul/li") #首先得到所有衣服的整个框架,然后从中抽取每一个框架 for goods in all_goods: #从中解析每一个 # scrapy.shell.inspect_response(response,self) #这是一个调试的方法,这里会直接打开调试模式 items = JdSpiderItem() #定义要抓取的数据 img_url_src = goods.xpath("div/div[1]/a/img/@src").extract() # 如果不存在就是一个空数组[],因此不能在这里取[0] img_url_delay = goods.xpath( "div/div[1]/a/img/@data-lazy-img").extract() # 这个是没有加载出来的图片,这里不能写上数组取第一个[0] price = goods.xpath("div/div[3]/strong/i/text()").extract() #价格 cloths_name = goods.xpath("div/div[4]/a/em/text()").extract() shop_id = goods.xpath("div/div[7]/@ data-shopid").extract() cloths_url = goods.xpath("div/div[1]/a/@href").extract() person_number = goods.xpath("div/div[5]/strong/a/text()").extract() pid = goods.xpath("@data-pid").extract() # product_id=goods.xpath("@data-sku").extract() if pid: pids.add(pid[0]) if img_url_src: # 如果img_url_src存在 print img_url_src[0] items["img_url"] = img_url_src[0] if img_url_delay: # 如果到了没有加载完成的图片,就取这个url print img_url_delay[0] items["img_url"] = img_url_delay[0] # 这里如果数组不是空的,就能写了 if price: items["price"] = price[0] if cloths_name: items["cloths_name"] = cloths_name[0] if shop_id: items["shop_id"] = shop_id[0] shop_url = "https://mall.jd.com/index-" + str(shop_id[0]) + ".html" items["shop_url"] = shop_url if cloths_url: items["cloths_url"] = cloths_url[0] if person_number: items["person_number"] = person_number[0] # if product_id: # print "************************************csdjkvjfskvnk***********************" # print self.comments_url.format(str(product_id[0]),str(self.count)) # yield scrapy.Request(url=self.comments_url.format(str(product_id[0]),str(self.count)),callback=self.comments) #yield scrapy.Request写在这里就是每解析一个键裤子就会调用回调函数一次 yield items except Exception: print "********************************************ERROR**********************************************************************" yield scrapy.Request(url=self.search_url.format(str(response.meta["search_page"]),",".join(pids)),callback=self.next_half_parse) #再次请求,这里是请求ajax加载的数据,必须放在这里,因为只有等到得到所有的pid才能构成这个请求,回调函数用于下面的解析
从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了,代码如下:
#分析异步加载的网页 def next_half_parse(self,response): if response.status==200: print response.url items=JdSpiderItem() #scrapy.shell.inspect_response(response,self) #y用来调试的 try: lis=response.xpath("//li[@class="gl-item"]") for li in lis: cloths_url=li.xpath("div/div[1]/a/@href").extract() img_url_1=li.xpath("div/div[1]/a/img/@src").extract() img_url_2=li.xpath("div/div[1]/a/img/@data-lazy-img").extract() cloths_name=li.xpath("div/div[4]/a/em/text()").extract() price=li.xpath("div/div[3]/strong/i/text()").extract() shop_id=li.xpath("div/div[7]/@data-shopid").extract() person_number=li.xpath("div/div[5]/strong/a/text()").extract() if cloths_url: print cloths_url[0] items["cloths_url"]=cloths_url[0] if img_url_1: print img_url_1[0] items["img_url"]=img_url_1 if img_url_2: print img_url_2[0] items["img_url"]=img_url_2[0] if cloths_name: items["cloths_name"]=cloths_name[0] if price: items["price"]=price[0] if shop_id: items["shop_id"]=shop_id[0] items["shop_url"]="https://mall.jd.com/index-" + str(shop_id[0]) + ".html" if person_number: items["person_number"]=person_number[0] yield items #又一次的生成,这里是完整的数据,因此可以yield items except Exception: print "**************************************************"
小技巧当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了,想看源代码的朋友请点击这里
更多文章请看本人博客人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字
设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的
ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False
CONCURRENT_REQUESTS :设置最大请求数,这里默认的时16,我们可以根据自己电脑的配置改的大一点来加快请求的速度
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38602.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:坦克大战上简介上的坦克大战相信大家都玩过有逃学玩坦克的可以自己默默的扣一个了我们现在长大了,学习游戏开发了。 写在前面 上一篇(https://www.tech1024.cn/origi... )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据 开始爬取 创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。scrapyD...
摘要:今天为大家整理了个爬虫项目。地址新浪微博爬虫主要爬取新浪微博用户的个人信息微博信息粉丝和关注。代码获取新浪微博进行登录,可通过多账号登录来防止新浪的反扒。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天为大家整...
摘要:开发环境目前最新开发框架目前最新目标爬取线报网站并把内容保存到里页面分析根据上图我们可以发现内容都在类为这个里下面放出的代码月日月日淘金币淘里程领取京东签到月日淘金币淘里程领取京东签到已结束发布日期分类虚拟币浏览淘金币一 开发环境:Pycharm 2017.1(目前最新)开发框架: Scrapy 1.3.3(目前最新) 目标 爬取线报网站,并把内容保存到items.json里 页面分析...
摘要:,实验用的文件我们使用爬虫实战爬取京东商品列表一文的结果文件,爬虫爬取的结果保存在京东手机列表文件中。,相关文档,即时网络爬虫项目内容提取器的定义,爬虫实战爬取京东商品列表,集搜客开源代码下载源,开源网络爬虫源,文档修改历史,首次发布 showImg(https://segmentfault.com/img/bVyf6R); 1,引言 GooSeeker早在9年前就开始了Semanti...
阅读 3560·2019-08-30 15:55
阅读 1359·2019-08-29 16:20
阅读 3640·2019-08-29 12:42
阅读 2647·2019-08-26 10:35
阅读 993·2019-08-26 10:23
阅读 3379·2019-08-23 18:32
阅读 873·2019-08-23 18:32
阅读 2877·2019-08-23 14:55