资讯专栏INFORMATION COLUMN

Web Spider -- 做一个简单的爬虫 (愿给您启示)

bingo / 2365人阅读

摘要:一个简单的爬虫代码已托管这里有一个简单的例子根据提供的种子爬取数据指定对应的抓取规则自己定义抓取的链接简单的控制台打印结果建筑工地上的青年如何自我成长知乎国内专做进口行业的公司多不不包括货代公司知乎如何有效地进行后天

Web Spider
一个简单的爬虫

代码已托管

这里有一个简单的例子

public class SpiderZhiHuDemo {


    private Logger logger = LoggerFactory.getLogger(SpiderZhiHuDemo.class);


    /**
     * 根据提供的种子爬取数据
     */
    public void initSeedDemo() {
        String seed = "https://www.zhihu.com/question/28629300";
        new Spider() {
            {
                downloader = new ProxyDownloader(new JSoupDownloader());
                extractPattern = "https://www.zhihu.com/question/.*"; // 指定对应的抓取规则
            }
        }.init(seed).start();
    }

    /**
     * 自己定义 抓取的url链接 (简单的)
     */
    public void easyStreamDemo(){
        String url = "https://www.zhihu.com/question/";
        new Spider() {
            {
                downloader = new ProxyDownloader(new JSoupDownloader());
                pipeline = (title, page) -> {
                    logger.info("url: {} , title : {} ", page.getRequest(), title);
                };
            }
        }.init(Stream.iterate(28629300, i -> i + 1).limit(60).map(i -> url + i).parallel()).start();
    }
} 

控制台打印结果

18:35:54.278 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629326 , title : 建筑工地上的青年如何自我成长? - 知乎 
18:35:54.525 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629319 , title : 国内专做进口行业的公司多不?(不包括货代公司) - 知乎 
18:35:54.553 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629338 , title : 如何有效地进行后天性丰胸? - 知乎 
18:35:54.881 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629328 , title : Android开发中list和适配器是怎样关联的?适配器具体作用是什么?list可以做什么? - 知乎 
18:35:55.168 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629321 , title : 互联网公司,粉丝运营如何做? - 知乎 
18:35:55.317 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629311 , title : 为什么一些大公司的特喜欢装X? - 知乎 
18:35:55.506 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629315 , title : 大二中 刚开学 一闲下来却总想给家里打电话 无法控制 这是为什么? - 知乎 
18:35:55.664 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629342 , title : 中国雷达哪家强? - 知乎 
18:35:56.113 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629325 , title : 美丽加芬蜗牛系列怎么样? - 知乎 
18:35:56.472 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629300 , title : "截石位"的说法是从哪里来的或者怎么翻译来的? - 知乎 
18:35:56.713 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629304 , title : 我想考南京大学的历史系中国史的其中一组 就是01~09方向 请问 是按组命题的么? - 知乎 
18:35:56.803 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629353 , title : K线的精髓在哪里? - 知乎 
18:35:57.022 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629301 , title : 华为加班到底有多恐怖? - 知乎 
18:35:57.143 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629335 , title : 人体的哪些疾病(症状)可以自行诊断? - 知乎 
18:35:57.167 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629354 , title : 既然ISIS这么罪大恶极,那么联合国为什么还不派兵剿灭? - 知乎 
18:35:57.333 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629302 , title : 谁能帮我起个专门针对声乐培训,演出,小明星,小歌手教学工作室名字?能让人很快记住大气的名字?谢谢!? - 知乎 
18:35:58.014 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629357 , title : 大学毕业后留有一大堆书不舍得丢掉,每到搬家时就会发愁了,请问如何处理不会觉得可惜而且便捷? - 知乎 
18:35:58.022 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629349 , title : 华为研发员工的发展,待遇,福利?和互联网公司比呢? - 知乎 
18:35:58.209 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629332 , title : 朋友圈疯传: 求扩散!一个小孩的生命结束了就是因为她把手机充电接口放到嘴里,而另一头还在插线板上。 求解? - 知乎 

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/71216.html

相关文章

  • 爬虫入门

    摘要:通用网络爬虫通用网络爬虫又称全网爬虫,爬取对象从一些种子扩充到整个。为提高工作效率,通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。 爬虫 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。 分类 网络爬虫按照系统结构和实现技术,...

    defcon 评论0 收藏0
  • 爬虫入门

    摘要:通用网络爬虫通用网络爬虫又称全网爬虫,爬取对象从一些种子扩充到整个。为提高工作效率,通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。 爬虫 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。 分类 网络爬虫按照系统结构和实现技术,...

    Invoker 评论0 收藏0
  • Python爬虫 - scrapy - 爬取豆瓣电影TOP250

    摘要:前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。 0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。所以找了很多实例和文...

    WalkerXu 评论0 收藏0
  • Python爬虫建站入门手记——从零开始建立采集站点(三:采集入库)

    摘要:进入正题第三部分,采集入库。内容如下加上这个可以记住问题在的位置,方便以后更新或者其他操作都很直白,关于各个可以看看的文档。代码如下添加方法采集当前分页正在抓取分页这个地方写得很笨,之前该在加上这个属性。 上回,我已经大概把爬虫写出来了。 我写了一个内容爬虫,一个爬取tag里面内容链接的爬虫 其实还差一个,就是收集一共有哪些tag的爬虫。但是这里先不说这个问题,因为我上次忘了 这次又不...

    amuqiao 评论0 收藏0
  • scrapy 进阶使用

    摘要:下载器负责获取页面,然后将它们交给引擎来处理。内置了一些下载器中间件,这些中间件将在后面介绍。下载器中间件下载器中间件可以在引擎和爬虫之间操纵请求和响应对象。爬虫中间件与下载器中间件类似,启用爬虫中间件需要一个字典来配置。 前段时间我写了一篇《scrapy快速入门》,简单介绍了一点scrapy的知识。最近我的搬瓦工让墙了,而且我又学了一点mongodb的知识,所以这次就来介绍一些scr...

    The question 评论0 收藏0

发表评论

0条评论

bingo

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<