手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染

Tecode 发布于2019-08-19 18:19 / 731人阅读

摘要：老规矩，爬之前首先感谢淘宝公布出这么多有价值的数据，才让我们这些爬虫们有东西可以搜集啊，不过淘宝就不用我来安利了广大剁手党相信睡觉的时候都能把网址打出来吧。

系列教程：

手把手教你写电商爬虫-第一课找个软柿子捏捏

手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

都已经三节课了，大家活动活动手脚，咱们开始一场真正的硬仗，我们要来爬电商老大，淘宝的数据了。

老规矩，爬之前首先感谢淘宝公布出这么多有价值的数据，才让我们这些爬虫们有东西可以搜集啊，不过淘宝就不用我来安利了

广大剁手党相信睡觉的时候都能把网址打出来吧。

工欲善其事，必先利其器，先上工具：

1、神箭手云爬虫，2、Chrome浏览器 3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课
好了，咱们还是先打开淘宝网：

清新的画面，琳琅满目的商品，隐约感到的是前方是一场恶战：

淘宝这么多的商品，这么多的主题，到底从哪里开始呢？要不就女装了，别问我为什么，咱们先打开一个女装的列表页面：

https://s.taobao.com/list?q=%E5%A5%97%E8%A3%85%E5%A5%B3%E5%A4%8F

我们点击一下下一页看看连接：

https://s.taobao.com/list?q=%E5%A5%97%E8%A3%85%E5%A5%B3%E5%A4%8F&bcoffset=-4&s=60

看着好像不难，很简单，不过值得注意的是，我们把鼠标移到下一页可以看到连接本身并不是这个，这个是js处理的，这种情况类似前面我们遇到的尚妆网下一页，我们一会再说。

我们再看下详情页

https://item.taobao.com/item.htm?spm=a217f.7283053.1997524073.204.hEmtfc&id=527101625954&scm=1029.minilist-17.1.16&ppath=&sku=&ug=#detail

https://item.taobao.com/item.htm?spm=a217f.7283053.1997524073.209.hEmtfc&id=528697742170&scm=1029.minilist-17.1.16&ppath=&sku=&ug=#detail

看着比较简单，就直接提取成：

https://item.taobao.com/item.htm?.*

我比较懒，这个就先这样吧，然后我们来看看详情页我们需要抽取哪些信息，商品名称，价格自然不能少，这次再来一个新鲜的，就是缩略图列表，因为淘宝的商品不只有一个缩略图，因此需要爬取一个缩略图数组。

同样，用chrome开发者工具和xpathhelper对抽取项进行分析，看了一下结果，尝试过滤xhr，结果：

高手就是高手，在大量的请求中，找到响应的请求，相当的困难。不要紧，还记得我们上节课提到的核武器吗-JS渲染引擎，只要我们把JS渲染引擎打开，那么我们完全不用操心大量ajax请求的判断，当然他的问题是效率低一些，不过没关系，反正在云上跑嘛，睡一觉就好了。

在神箭手里调用JS渲染引擎的方式很简单，只需要一行代码设置既可：

configs.enableJS=true

好了，那我们现在可以无视ajax请求了，直接用chrome工具打开，直接提取：

//em[@id="J_PromoPriceNum"]

简单暴啦，然后高兴没有1秒钟，瞬间蒙逼，淘宝上的价格不仅有这种促销价格，还有价格区间，还有的是普通的价格，我的天的，这不是要人命吗~
没办法，再难也要硬着头皮上，目前来看，一共有两种价格的抽取方式，当然不排除有其他多种的情况，我们先对这两种分别写一下抽取规则：

//em[@id="J_PromoPriceNum"]  
//em[contains(@class,"tb-rmb-num")]

我们可以通过 | 这个来连接，表达不同页面的选取可以共存

//em[@id="J_PromoPriceNum"] | //em[contains(@class,"tb-rmb-num")]

不容易。我们再看看商品名称，这个相对简单：

//h3[contains(@class,"tb-main-title")]/@data-title

最后，我们需要抽取图片的地址：

//ul[@id="J_UlThumb"]/li//img/@src

由于这一项存在多项，因此需要将该抽取规则的repeated字段设置成true

var configs = {  
    domains: ["www.taobao.com","item.taobao.com"],  
    scanUrls: ["https://www.taobao.com/go/market/nvzhuang/citiao/taozhuangqun.php"],  
    contentUrlRegexes: ["https://item.taobao.com/item.htm?.*"],  
    helperUrlRegexes: ["https://www.taobao.com/go/market/nvzhuang/citiao/taozhuangqun.php"],//可留空  
    enableJS:true,  
    fields: [  
        {  
            // 第一个抽取项  
            name: "title",  
            selector: "//h3[contains(@class,"tb-main-title")]/@data-title",//默认使用XPath  
            required: true //是否不能为空  
        },  
        {  
            // 第二个抽取项  
            name: "price",  
            selector: "//em[@id="J_PromoPriceNum"] | //em[contains(@class,"tb-rmb-num")]",//默认使用XPath  
        },  
        {  
            // 第三个抽取项  
            name: "thumbs",  
            selector: "//ul[@id="J_UlThumb"]/li//img/@src",//默认使用XPath  
        },  
    ]  
};  
var crawler = new Crawler(configs);  
crawler.start();

好了，虽然淘宝比尚妆网难的多，但是在我们拿出核武器之后，一切迎刃而解，回头我们在来处理下一页的问题，这里虽然和尚妆网不一样，但是整体的原理大同小异，就不一一解释，我们直接上代码：

var configs = {  
    domains: ["s.taobao.com","item.taobao.com"],  
    scanUrls: ["https://s.taobao.com/list?q=%E5%A5%97%E8%A3%85%E5%A5%B3%E5%A4%8F"],  
    contentUrlRegexes: ["https?://item.taobao.com/item.htm?.*"],  
    helperUrlRegexes: ["https?://s.taobao.com/list?q=%E5%A5%97%E8%A3%85%E5%A5%B3%E5%A4%8F.*"],//可留空  
    enableJS:true,  
    fields: [  
        {  
            // 第一个抽取项  
            name: "title",  
            selector: "//h3[contains(@class,"tb-main-title")]/@data-title",//默认使用XPath  
            required: true //是否不能为空  
        },  
        {  
            // 第二个抽取项  
            name: "price",  
            selector: "//em[@id="J_PromoPriceNum"] | //em[contains(@class,"tb-rmb-num")]",//默认使用XPath  
            required: true //是否不能为空  
        },  
        {  
            // 第三个抽取项  
            name: "thumbs",  
            selector: "//ul[@id="J_UlThumb"]/li//img/@src",//默认使用XPath  
            repeated:true  
        },  
    ]  
};  
configs.onProcessHelperUrl = function(url, content, site){  
    if(!content.indexOf("未找到与")){  
        var currentStart = parseInt(url.substring(url.indexOf("&s=") + 3));  
        var start = currentStart + 60;  
        var nextUrl = url.replace("&s=" + currentStart, "&s=" + start);  
        site.addUrl(nextUrl);  
    }  
    return true;  
};  
var crawler = new Crawler(configs);  
crawler.start();

OK 大功告成，测试结果如下，由于开启的js渲染，所以爬取的速度比较慢，只能耐心等待了。

对爬虫感兴趣的童鞋可以加qq群讨论：342953471。

云服务器 GPU云服务器深度学习第四课手把手教你做图像识别爬虫抓取电商爬虫淘宝

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/79452.html

手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染

摘要：老规矩，爬之前首先感谢淘宝公布出这么多有价值的数据，才让我们这些爬虫们有东西可以搜集啊，不过淘宝就不用我来安利了广大剁手党相信睡觉的时候都能把网址打出来吧。系列教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取都已经三节课了，大家活动活动手脚，咱们开始一场...

lx1036 2019-07-25 10:24 评论0 收藏0
手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫

摘要：和前面几节课类似的分析这节课就不做了，对于分页，请求什么的，大家可以直接参考前面的四节课，这一刻主要特别的是，我们在采集商品的同时，会将京东的商品评价采集下来。系列教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬...

jsummer 2019-08-19 18:20 评论0 收藏0
手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫

摘要：和前面几节课类似的分析这节课就不做了，对于分页，请求什么的，大家可以直接参考前面的四节课，这一刻主要特别的是，我们在采集商品的同时，会将京东的商品评价采集下来。系列教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬...

forsigner 2019-07-25 10:24 评论0 收藏0

发表评论

登陆后可评论

0条评论

Tecode

男|高级讲师

我要关注我要私信

TA的文章

tensorflow指定cpu

阅读 3646·2023-04-25 20:09
香港云服务器这几天网络有没有丢包严重

阅读 3812·2022-06-28 19:00
EPC单机挂载UHOST-RSSD高速磁盘

阅读 3175·2022-06-28 19:00
GPU活动使用TIPS

阅读 3210·2022-06-28 19:00
为科研量身定制，UCloud推出“云极”高性能计算EPC

阅读 3301·2022-06-28 19:00
UCloud 2021年终特惠已开启，快杰O型ARM服务器上海节点重磅上线！

阅读 2968·2022-06-28 19:00
“懂运维、精运营、重服务” UCloud发布混合云多云管理平台UCMP

阅读 3194·2022-06-28 19:00
软件定义存储，UCloudStor存储⼀体机强势登场

阅读 2751·2022-06-28 19:00

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染

相关文章