摘要:是一个专注于爬虫的集成了爬虫管理任务调度任务监控数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理爬虫工程化有要求的开发者及企业。从目前开源的框架来看,大部分爬虫平台是以为核心,因此只能支持框架的爬虫,而不仅支持,还支持其他框架的爬虫。
Crawlab是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。对Crawlab还不了解的童鞋,请移步之前的文章:
分布式通用爬虫管理平台Crawlab
手把手教你如何用Crawlab构建技术文章聚合平台(一)
手把手教你如何用Crawlab构建技术文章聚合平台(二)
Crawlab的任务调度核心模块是基于Celery的,因此天然支持分布式爬虫、多节点抓取。Crawlab虽然是用python写的,但爬虫不局限于python爬虫,理论上可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以scrapyd为核心,因此只能支持scrapy框架的爬虫,而Crawlab不仅支持scrapy,还支持其他框架的爬虫。
更新一览 v0.2 已完成[x] 基础统计
[x] 数据分析(爬虫)
[x] 网站信息
[x] 定时任务
[x] 修复bug
待开发[ ] 用户管理
[ ] 上传爬虫
[ ] 导出数据
[ ] 高级数据分析(网站、任务)
[ ] 更多爬虫例子
[ ] 文件管理
截屏__Github__: tikazyq/crawlab
如果感觉Crawlab还不错的话,请加作者微信拉入开发交流群,大家一起交流关于Crawlab的使用和开发。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43759.html
摘要:前言开发爬虫是一件有趣的事情。的可配置爬虫是基于的,因此天生是支持并发的。遵守协议这个默认是开启的。的可配置爬虫降低了爬虫的开发时间,增加了爬虫开发效率,完善了工程化水平,将爬虫工程师从日常的繁琐配置工作中解放出来。 前言 开发爬虫是一件有趣的事情。写一个程序,对感兴趣的目标网站发起HTTP请求,获取HTML,解析HTML,提取数据,将数据保存到数据库或者存为CSV、JSON等格式,再...
摘要:前言开发爬虫是一件有趣的事情。的可配置爬虫是基于的,因此天生是支持并发的。的可配置爬虫降低了爬虫的开发时间,增加了爬虫开发效率,完善了工程化水平,将爬虫工程师从日常的繁琐配置工作中解放出来。前言 开发爬虫是一件有趣的事情。写一个程序,对感兴趣的目标网站发起HTTP请求,获取HTML,解析HTML,提取数据,将数据保存到数据库或者存为CSV、JSON等格式,再用自己熟悉的语言例如Python对...
摘要:基于的爬虫分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架。后台程序会自动发现这些爬虫项目并储存到数据库中。每一个节点需要启动应用来支持爬虫部署。任务将以环境变量的形式存在于爬虫任务运行的进程中,并以此来关联抓取数据。 Crawlab 基于Celery的爬虫分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架。 Github: https://github.com/tikazyq/...
摘要:本文将介绍如何使用和抓取主流的技术博客文章,然后用搭建一个小型的技术文章聚合平台。是谷歌开源的基于和的自动化测试工具,可以很方便的让程序模拟用户的操作,对浏览器进行程序化控制。相对于,是新的开源项目,而且是谷歌开发,可以使用很多新的特性。 背景 说到爬虫,大多数程序员想到的是scrapy这样受人欢迎的框架。scrapy的确不错,而且有很强大的生态圈,有gerapy等优秀的可视化界面。但...
摘要:本文将介绍如何使用和抓取主流的技术博客文章,然后用搭建一个小型的技术文章聚合平台。是谷歌开源的基于和的自动化测试工具,可以很方便的让程序模拟用户的操作,对浏览器进行程序化控制。相对于,是新的开源项目,而且是谷歌开发,可以使用很多新的特性。 背景 说到爬虫,大多数程序员想到的是scrapy这样受人欢迎的框架。scrapy的确不错,而且有很强大的生态圈,有gerapy等优秀的可视化界面。但...
阅读 2579·2021-11-17 17:00
阅读 1776·2021-10-11 10:57
阅读 3657·2021-09-09 11:33
阅读 891·2021-09-09 09:33
阅读 3519·2019-08-30 14:20
阅读 3296·2019-08-29 11:25
阅读 2780·2019-08-26 13:48
阅读 715·2019-08-26 11:52