摘要:上次用写的爬虫速度很感人,今天打算用框架来实现,看看速度如何。
上次用requests写的爬虫速度很感人,今天打算用scrapy框架来实现,看看速度如何。
爬虫步骤第一步,安装scrapy,执行一下命令
pip install Scrapy
第二步,创建项目,执行一下命令
scrapy startproject novel
第三步,编写spider文件,文件存放位置novel/spiders/toscrape-xpath.py,内容如下
# -*- coding: utf-8 -*- import scrapy class ToScrapeSpiderXPath(scrapy.Spider): # 爬虫的名字 name = "novel" # 爬虫启始url start_urls = [ "https://www.xbiquge6.com/0_638/1124120.html", ] def parse(self, response): # 定义存储的数据格式 yield { "text": response.xpath("//div[@class="bookname"]/h1[1]/text()").extract_first(), "content": response.xpath("//div[@id="content"]/text()").extract(), # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(), # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract() } # 下一章的链接 next_page_url = response.xpath("//div[@class="bottem1"]/a[3]/@href").extract_first() # 如果下一章的链接不等于首页 则爬取url内容 ps:最后一章的下一章链接为首页 if next_page_url != "https://www.xbiquge6.com/0_638/": yield scrapy.Request(response.urljoin(next_page_url))总结
框架用时:23分,比requests快三倍!awesmome!xpath也蛮好用的,继续学习,欢迎交流。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42722.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:今天为大家整理了个爬虫项目。地址新浪微博爬虫主要爬取新浪微博用户的个人信息微博信息粉丝和关注。代码获取新浪微博进行登录,可通过多账号登录来防止新浪的反扒。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天为大家整...
摘要:所以如果对爬虫有一定基础,上手框架是一种好的选择。缺少包,使用安装即可缺少包,使用安装即可上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装 上一篇文章:Python3网络爬虫实战---9、APP爬取相关库的安装:Appium的安装下一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis 我们直接...
摘要:快速入门首先,初步要做的就是快速构建一个爬虫。然后把结果加入到一个队列中。既然是入门,我们肯定是先关心我们需要的。 因为公司项目需求,需要做一个爬虫。所以我一个python小白就被拉去做了爬虫。花了两周时间,拼拼凑凑总算赶出来了。所以写个blog做个记录。 快速入门 首先,初步要做的就是快速构建一个爬虫。 配置环境 Mac下安装 1) 直接从官网下载 python下载官网 2) 是通过...
摘要:解析的方法,每个初始完成下载后将被调用,调用的时候传入从每一个传回的对象来作为唯一参数,主要作用如下负责解析返回的网页数据,提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常...
阅读 592·2021-10-27 14:15
阅读 1142·2021-10-15 09:42
阅读 2722·2019-08-30 15:53
阅读 1260·2019-08-23 17:02
阅读 2942·2019-08-23 16:23
阅读 3144·2019-08-23 15:57
阅读 3438·2019-08-23 14:39
阅读 492·2019-08-23 14:35