前言
最近无意间在知乎专栏看到有人使用python爬取了mm131的图片。想着自己也有过爬虫的开发经验(抱着学习的态度),故使用java也来写个小爬虫,爬虫框架用的是webmagic,传送门:https://github.com/code4craft/webmagic
实现整个爬虫项目如下图,极其精简,其中主要实现类是Mm131Spider
启动Mm131Spider后,图片会下载到指定的文件夹,如下图:
其中每个主类别(如:/chemo)文件夹有一个urlCheck.txt的文件,主要用于保存已经爬取的url,下一次启动的时候则不会再去爬取该url,所以任何时候都可以停止/启动爬取,不会导致爬取重复的问题
该项目已push到github,感兴趣的朋友可以自行查看源码,传送门:https://github.com/5-Ason/spider-mm131
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/71645.html
摘要:爬取百思不得姐首先一步一步来,我们先从爬最简单的文本开始。将百思不得姐段子保存到中别忘了将管道加到配置文件中。虽然我只是简单的爬了百思不得姐,不过这些方法可以应用到其他方面,爬取更多更有用的数据。 前一篇文章介绍了很多关于scrapy的进阶知识,不过说归说,只有在实际应用中才能真正用到这些知识。所以这篇文章就来尝试利用scrapy爬取各种网站的数据。 爬取百思不得姐 首先一步一步来,我...
摘要:零写在前面是快速开发爬虫的工具,简单便捷,经过大量版本迭代和生产验证,可以适用大多数网站,欢迎使用。服务最终处理内容,无论成功失败都会执行的步骤。 零:写在前面 uncs是java快速开发爬虫的工具,简单便捷,经过大量版本迭代和生产验证,可以适用大多数网站,欢迎使用。 一:基本用法 开发包获取目前只能在公司内网maven服务器获取到 com.cdc ...
摘要:决定送大家一套美图。美腿可以分为白璧无瑕的大腿美晶莹剔透的小腿美细微的美足健康明朗的腿形美。所谓腿健美,是指腿部的线条美。腿的长短与肥瘦是决定腿部美丑的两大因素。 决定送大家一套美图。但是授之以鱼不如授之以渔,我们就来使用node实现个小爬虫去爬取各种美女 来吧,我们先来看看今天的目标: mmjpg.com的美腿频道下的图片 showImg(https://segmentfault.c...
摘要:为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是自带的,加上,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到。 妹子图网站----前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情。希望可以做好。 为了写好爬虫,我们需要准备一个火狐浏览器,还需...
阅读 2660·2021-11-16 11:53
阅读 2725·2021-07-26 23:38
阅读 2062·2019-08-30 15:55
阅读 1736·2019-08-30 13:21
阅读 3610·2019-08-29 17:26
阅读 3286·2019-08-29 13:20
阅读 861·2019-08-29 12:20
阅读 3180·2019-08-26 10:21