资讯专栏INFORMATION COLUMN

中型企业的运维平台

jaysun / 1275人阅读

摘要:大部分小企业的运维就是加一些脚本就可以搞定了。极端大型的企业,比如,比如腾讯,百度等,都有一套非常完善和复杂的运维平台。做一个这样的运维平台是不容易的。

这是一个未经验证的假设,just a dump of my current thought。

大部分小企业的运维就是 ssh 加一些 fabric 脚本就可以搞定了。极端大型的企业,比如 google twitter,比如腾讯 SNG,百度等,都有一套非常完善和复杂的运维平台。我认为,这里存在一个潜在的市场机会,那就是对于那些中型企业(比如机器数量大于100,小于1000),他们的集群规模已经使得手工加脚本管理变得有些痛苦,但是还不足够痛苦到老板愿意花钱雇一个全职的运维开发的团队的地步。如果我们可以把 google 规模的运维平台,让这些中型企业“低成本”的方式接入,收取小于一个全职运维开发团队工资的费用,那么就可以有利可图。

假设一:google式的集群管理平台比中型公司自己拿开源方案攒出来的要好用

一键式发布。全景式仪表盘。各种自动故障替换。
提供强大功能的同时,不带来特别高的管理复杂性(出问题了调试定位困难),也不带来特别高的学习使用成本。
做一个这样的运维平台是不容易的。

假设二:可以低成本的接入

如果接入意味着每一个功能都需要运维写一堆脚本,设置开发要按照集群管理方式进行源代码的改造,那么就不能叫低成本接入。如果监控告警需要按照规矩在代码里埋特定的上报代码,需要配置一堆复杂的参数,那么也不能叫低成本接入。

关键技术一:统一的版本交付方式
运维平台无非就是干这么几件事情,配置文件修改,进程起停,以及监控告警。进程起停最困难的一个步骤是让把进程需要的版本包安装好。在没有 docker 之前,这是一件非常困难的事情。一个进程有无数的依赖包,python/ruby/java 这个级别的,也有操作系统级别的 deb/rpm。docker 使得版本交付变成了集装箱的模式,一个容器把所有的依赖包都包含进去了。进程拉起变成了一个很容易标准化的操作。

关键技术二:动态服务路由托管技术
运维里最困难的就是不同ip之间的服务依赖管理。当一个ip要被下掉的时候,一堆相关联的依赖服务需要更新配置文件。smartstack 是 airbnb 开源的动态路由托管方案,可以让两个ip之间不再紧耦合的绑定在一起。一个ip要下掉,只需要在动态路由里做一下替换就可以了。详情可以看他们的博客:http://nerds.airbnb.com/smartstack-service-discovery-cloud/
如果你认为这种做法是剑走偏锋,只适合小公司那你就错了。google开源的容器管理方案用的是同样的技术:https://github.com/GoogleCloudPlatform/kubernetes/blob/master/docs/ser...
当进程和端口全部托管给运维平台之后,运维平台可以拿这个把整个发布变更的自动化体系都建立起来。

关键技术三:通用监控平台
以 datadog 为代表的新一代监控公司,提供了灵活schema的时间序列采集存储和告警方案。一套监控平台,可以给你的cpu使用率告警,也可以给你的网站的访问量异常下跌告警。无论业务领域如何,通用监控平台提供的多维度,多值列的采集存储方案,可以让你只要把数据报上来就可以把一切监控好。
底层的核心技术是一个 data pipeline,加上一个基于 lucene/elasticsearch 的时间序列数据库。监控是最容易被中型公司外包出去的业务,所以这方面的创业公司也最多。但是中国的国情是网络传输成本大于计算成本,所以如何在客户计算中心内完成采集,计算存储,而不是把源数据都发过来是一个关键问题。

关键技术四:通用异常检测
传统的监控平台需要运维配置各种阈值。理想中的智能数据中心,用户只需要把数据源指定好。剩下的采集,上报存储,异常检测都是自动的。根据各种算法,利用数据的相关性和周期性自动给出异常告警,无需运维再去配置阈值。

总结:
当市场不再被几个巨型巨头占据,一批中型公司崛起的时候,当这些中型公司的架构开始向 micro-service,scale out 的方向发展的时候,当 docker 等技术让“低成本”标准化接入变成可能的时候,这三个条件将迸发出一个运维平台服务(ops platform as a service)的市场。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7933.html

相关文章

  • TIC2018:缩短需求与供应差距,应需而为的云服务才是硬道理

    摘要:贺祥龙按照用户规模体量上云需求技术能力,将云服务用户归结为小型中型大型和超大型四类。贺祥龙表示,这是缺人的第一类用户,这类用户多为典型的初创公司,技术能力弱,用云量小,最缺的就是人和工具。借云转型已成为当下多数企业实现IT部署升级的选择。但当前云计算产业始终面临着一种矛盾:大量产业机会与云服务商对于产业的理解及实际交付能力之间的差距。这种gap(鸿沟)的存在,让用户在面对云市场中大而美的概念...

    junfeng777 评论0 收藏0
  • 企业服务的“多租户多层级”模式

    摘要:相信在分级分权的时代诉求下,聆客企业服务的多租户多层级模式将大有可为。 聆客企业协作平台(BingoLink,下简称聆客)是品高云旗下面向生态型组织的云端协作与开放平台产品。聆客作为SaaS化的企业协作移动平台,在当前在云计算时代的公私混合架构下,各企业客户以独立租户模式存在于平台之上,使用个性化的系统,业务数据相互独立隔离、独立管理。 但对于大型集团企业而言,集团总部与旗下子公司存在...

    lijinke666 评论0 收藏0
  • CIO们开始转向云计算

    摘要:一些领先的云服务商开始意识到,用户之所以需要云计算是因为其的形态与传统架构在本质上不同,便宜资源虽然很好,然而并不能带来更多的价值,企业用户更需要云服务提供商真正的服务能力。现如今,采用云计算已经不是孤注一掷的选择。 CIO们开始意识到混合云将是一种两全其美的选择。通过混合云,他们不仅可以在私有云上存储和共享数据及应用从而削减成本,还可以在公有云上灵活开发新应用,并将大量用于大数据分析的非结...

    NervosNetwork 评论0 收藏0
  • 2021双十一宝塔面板专业版优惠活动(宝塔面板专业版和企业版区别)

    摘要:但是,随着目前云服务器成本降低,动不动就是内存起步,而且更有是运维管理的方便,我们会选择类似宝塔面板这样的客户端管理。目前,双十一活动大促期间,我们也可以看到宝塔面板专业版和企业版在促销优惠。以前我们在选择云服务器、VPS主机的时候由于配置比较低,而且成本高,所以我们一般采用编译配置服务器WEB环境,或者用LNMP一键包的方式搭配的。但是,随着目前云服务器成本降低,动不动就是2GB、4GB内...

    fai1017 评论0 收藏0
  • 深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

    摘要:阿里云成为唯一入选的中国产品。在阿里云的众多产品中,和共同构成了服务能力的核心。作为大数据能力赋能的重要手段,出现在了等阿里云专有云解决方案中。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。 1.前言 本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13,...

    ashe 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<