摘要:数据中心操作系统以和等新一代创业公司为代表,开始提出数据中心操作系统的概念。数据中心操作系统与开发方有一个非常清晰和低成本的接入接口,完全省去了运维这个角色写胶水脚本的必要性,从而彻底颠覆这个岗位。
岗位价值有:
权限缩小
提供操作安全的保险服务
提供操作的可扩展性
提供业务和资源能见度
屏蔽资源的部署细节
静态资源调平
动态资源调平
故障处理和善后
权限缩小通过配置文件修改一个后台参数需要登录权限,文件修改权限,甚至进程起停权限。这些运营环境的权限需要尽可能的收归到很少的人的手里以控制风险。业务运维初期以人工接口的方式提供服务,后期以web应用的方式提供自助服务。如果后台开发人员做得比较完善可以直接提供web应用提供自助服务。但是很多时候业务开发部门的主要 KPI 不是提供运维的方便性,所以使得业务运维部门需要自己去开发这些管理性质的 web 应用。
常规的新服务器上架版本发布都需要登录权限,文件修改权限等几乎不受限制的权限。运维提供人工接口或者web应用的方式把权限缩小之后对外提供服务。
操作安全可以量化为操作次数与操作引起的故障的比例关系。运维部门初期以认真仔细的工作态度提供高标准的操作服务。后期以高可重复性高一致性的自动化系统提供安全保险,把每一次都不大一样的人工操作变成每次执行相同的脚本由计算机执行。业务运维售卖的是一种保险服务,其实质和保险公司一样是以风险来核算成本的。
传统的操作安全也存在两点问题:
即便是自动化的脚本并不能带来一致性的保障。因为每次执行自动化脚本都可能对现网状态产生影响,人工的手工操作会使之雪上加霜。实际上每次自动化执行之前的现网状态都可能不同,结果是一台服务器使用的时间越久运维风险越高。
版本交付方式的多样化,操作现网环境的多样化极大地提高了风险系数。通过标准化版本交付方式,标准化进程和服务起停与依赖管理方式可以用一套自动化系统对接各种差异化的应用,减少中间的胶水脚本带来的操作安全隐患。携程出的运维事故说明了其操作安全是没有保障的。当我们把一个数据中心上的硬盘整体格式化之后,其上的应用多久可以恢复很好的度量了操作方面的水平。
低风险的操作是频繁变更的前提,也是提高业务敏捷性的前提。
提供操作的可扩展性可以迅速地完成跨数据中心海量 IP 的操作变更
操作的完成速度是频繁变更的前提,也是提高业务敏捷性的前提。
与权限收归性质的后台 web 应用类似。理论上来说后台开发会提供一些管理类的界面去查看业务的运营指标,以及程序和资源效率方面的监控指标。但是因为业务部门的 KPI 是以收入为导向的。很多运营决策用的指标,性能调优性质的指标,故障判别类的指标都需要由业务运维部门来采集展示和告警。
屏蔽资源的部署细节从 IDC 选址,专线规划到给进程配置文件配置 IP 地址。让开发人员关心逻辑与逻辑拓扑,屏蔽了部署细节,减少了开发的工作量。让昂贵的专业开发人员专注于更有价值的事情上。
静态资源调平利用虚拟机,container,同机部署多个进程等各种手段提高主机的利用率。合理规划机架和出口分布,提高网络的利用率。
静态资源调平主要靠优化部署来完成。两次调平之间一般需要调用比较慢的重部署流程(比如ssh执行脚本起停进程等),甚至可能包含人工操作环节。
静态资源调平的颗粒度是 IP。
动态资源调平一般说法是动态扩所容。和静态资源调平的主要的区别是一般不以部署流程去调平资源,而是以更快的调整负载均衡,起停进程的方式完成,完全不能包含人工操作环节。
动态资源调平要求运维必须从 IP 级别的管理水平提高的到进程和服务级别。
大部分时候业务都会提供高可用的系统。运维仅需要在故障之后,对故障机做重启或者下架替换等善后操作。有的时候,运维需要以冷备和自动切换的方式提供等级弱一个级别的可用性保障。
故障处理时,运维需要进程初步的故障定位。进程和服务的依赖管理可以帮助运维定位到问题。
以 mesosphere 和 hashicorp 等新一代创业公司为代表,开始提出数据中心操作系统(DCOS)的概念。实质上是复制了 google/twitter 等大公司的标准化运维系统。
数据中心操作系统(DCOS) 提供方的愿景是提供一个通用的标准化运维系统高效率可靠安全地管理数据中心。直接与开发方对接,以 docker 容器等标准化的方式交付版本,以进程和服务描述的方式标准化搭建进程和服务。数据中心操作系统与开发方有一个非常清晰和低成本的接入接口,完全省去了运维这个角色写胶水脚本的必要性,从而彻底颠覆这个岗位。
运维目前需要开发的操作和监控类的 web 应用不再需要定制开发,数据中心操作系统(DCOS)提供可定制的操作和监控模块,只需要配置就可以接入,形成 web 应用,不需要代码开发。
当一家DCOS的产品公司可以低成本的与各种中小开发商对接之后,中小开发商可以大幅裁剪运维部门。而DCOS公司可以获得可观的经济收益,从而进一步地开发更完善的产品。DCOS实现的技术关键在于,docker的标准化版本交付技术,smartstack为代表的路由托管技术使得不标准业务改造为标准业务的成本急剧降低。
puppet/chef 是让运维写脚本编程写cookbook。而DCOS则可能直接让写脚本地这个胶水岗位消亡。DCOS显然比 puppet/chef 等公司更具有颠覆性。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/7935.html
摘要:之前写了一个版本,不够简练业务运维部门有四个方面的岗位价值,按照实现的难易程度排序效率质量成本安全效率这是最容易实现,也是能够输出最大的价值地方。总结越关键的业务停机的单位损失越大越可以体现运维的价值。 http://segmentfault.com/a/1190000002890102 之前写了一个版本,不够简练 业务运维部门有四个方面的岗位价值,按照实现的难易程度排序 效率 ...
摘要:分享实录云计算技术源于互联网公司,现在云计算已经是下一代企业级的发展趋势。如何做云计算一直是云计算技术的领导者。互联网公司的快速发展,已经印证了云计算技术和云原生应用相比传统构架的巨大优势。 今天小数又给大家带来一篇干货满满的分享——来自KVM社区线上群分享的实录,分享嘉宾是数人云CEO王璞,题目是《云计算与 Cloud Native》。这是数人云在KVM社区群分享的第一弹,之后还有数...
摘要:此文已由作者刘超授权网易云社区发布。所以当我们评估大数据平台牛不牛的时候,往往以单位时间内跑的任务数目以及能够处理的数据量来衡量。的问题调度在大数据领域是核心中的核心,在容器平台中是重要的,但不是全部。 此文已由作者刘超授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验 最近总在思考,为什么在支撑容器平台和微服务的竞争中,Kubernetes 会取得最终的胜出,事实...
摘要:降低对外包服务团队的依赖,提高业务的敏捷性研发部门实现测试环境自动创建配置和邮件通知,满足持续集成和持续交付的要求,可自动并快速获得基础架构应用配置和代码等各个关键环节的反馈。 2016年对Rancher Labs而言是太重要也太精彩的一年 Rancher 1.0,Rancher 1.1,Rancher 1.2三次重大的版本发布与更新Rancher的累积下载量已达1600万 在中国海航...
摘要:过去软件时代是怎么回事一单品时代过去做标准软件产品,而且是单部门单部门单岗位或单部门多岗位应用,所以过去做软件时分工特别简单总部研发软件,然后构建分销网络,总部有专门的部门对分销网络进行培训营销推广管理与考核分销网络进行简单的培训简单的安装(1)过去软件时代是怎么回事 一、单品 IT时代 过去做标准软件产品,而且是单部门(单部门单岗位或单部门多岗位)应用,所以过去做软件时分工特别...
阅读 2500·2023-04-26 02:57
阅读 1389·2023-04-25 21:40
阅读 2122·2021-11-24 09:39
阅读 3504·2021-08-30 09:49
阅读 714·2019-08-30 15:54
阅读 1147·2019-08-30 15:52
阅读 2030·2019-08-30 15:44
阅读 1258·2019-08-28 18:27