资讯专栏INFORMATION COLUMN

有故障的才是「云平台」

Michael_Ding / 1955人阅读

摘要:第二云平台的可靠性云平台就是在模拟数据中心传统硬件和系统网络架构,这三大块可靠性都不太高。云平台出故障了不主动通报,而是让客户自己猜。云平台误导了客户的冗余策略,比如两个可用区依赖同一个网络出口或供电局。

前言 躲热点真不容易

我不凑热议性新闻的热闹,习惯按照自己的节奏发文章,但朋友圈里热点尬聊看多了,我就有给泼一盆科普冷水的冲动。

最近云平台故障挺多的,阿里云故障完了,我想等两周再发本文,结果AWS美国挂了;AWS的热议刚刚消停,企鹅家也遭灾了;现在又等了五天了,我觉得不算凑热点了吧。

第一.  这是新闻不是丑闻

当某朵云故障时,我看到了太多从业者弹冠相庆,幻想着友商遭灾了就能白捡到个大单。但友商出故障这类事是新闻不是丑闻,客户不会为一次故障而放弃现有供应商。只有屌丝云备胎才幻想着情侣吵一架自己就能接盘。

这些年来,那么多数据中心都出过大量故障,有断电的、挖断光缆的、空调故障的、被封网的、DDOS打瘫痪的,有哪个IDC因为故障被迫退出市场的?高标准IDC的SLA标准是电力99.99%,网络99.9%,断网1分钟IDC就会出故障报告,但断网八个小时也不会赔客户一分钱。客户很着急也谩骂,但故障只要不频繁发生谁敢触发服务器迁移,大部分只能自认倒霉。

第二.  云平台的可靠性

IaaS云平台就是在模拟数据中心、传统硬件和系统网络架构,这三大块可靠性都不太高。云上虚拟资源因为可以灵活调度,可靠性稍微提升了一点点。云厂商的云主机和公网IP的SLA承诺是99.95%,但其可用性定义和赔偿标准都比传统IDC精明。

对于大型企业客户来说,过去不信赖单一IDC,不依赖单台服务器,不跪拜单个网络,现在也不相信单一云平台可以做出100%的SLA承诺。

既然云平台还会出故障,客户就要做好多云采购和多云冗余,在技术实现上只会比多机房容灾更简单——因为云厂商比IDC更能深度服务客户。

第三.  要尊重企业客户

我在多篇文章中反复强调,云平台做不到100%高可用。我不介意说的刻薄露骨一点:

技术投机分子对个人站长和移动端开发者的欺骗该结束了,现在友商是系统架构师,买主也是技术部负责人。

OpenStack等云技术的早期步道者,很多都是既不了解Dev也不深入OPS的“冒险家”,因为无知,所以无畏啊。

前几年云用户都是APP创业者,云厂商一口一个“开发者”叫的很甜蜜,但又不停的忽悠人家。现在的采购决策人是老牌技术总监和架构师,知道从硬件到应用的一系列高可用该怎么定义怎么实现。

厂商最典型的就是各种吹9大赛,好多厂商都说产品的SLA是无数个“99.99999999...%”。

列这么多9到标书上很浪费油墨的,不如解释清楚服务可用性和数据持久性的区别。

这故障几率比第三次世界大战、恐龙复活、爱上外星人、宇宙湮灭的几率都小了;我没见过外星人,但云厂商故障见到一堆了。

对于企业客户来说,单台云主机的可用性到99.95%就超出期望值了,客户自己会把到群集可用性提高到99.999%。

第四.  无法忍受的服务态度

对于企业客户来说,客观技术故障是意料之中的,但涉及到服务部分就无法忍受了。

云平台出故障了不主动通报,而是让客户自己猜。云服务有虚拟化层,如果只是缓慢不是中断的故障该怎么猜?

对于故障时间、持续范围、故障原因都说不清楚或刻意隐瞒,该认错的时候不清晰,是想让客户技术团队背锅吗?

客户永远看不到真实故障原因,但明显的人为故障,明显的资源不足,明显的管理混乱,明显的胡编乱造都在削弱客户的信心。

云平台误导了客户的冗余策略,比如两个可用区依赖同一个网络出口或供电局。

有些文盲写出的报告在教育和指导客户,商务语气不对等,该担责任时却在甩锅。

第五.  危险背后总有新机遇

我一直很看好云计算这个行业,纵然它杂草丛生野蛮生长,但也生机盎然活力无限。从云平台的故障乱象,我们一样能看到新机遇。

现在选购云平台的决策人不会被苛责,五年前业务系统上云出故障了,决策人是要承担很重责任的,现在上不上云只是一种常规选型,不是技术冒险了。

多云冗余备份不仅仅是弱势云厂商的机遇,也是客户技术团队的机遇。过去客户要自己做应用冗余备份,工作复杂责任也重大,现在只要预算不太低,客户只做个心明眼亮的架构师,脏活累活都是云厂商来做,遇到敬业的云厂商还能担下大部分故障责任。

作者介绍:

曹亚孟,云计算老兵,拥有10+年运维工作经验,对主流运维技术都有所涉猎,先后就职于七牛云和百度。业内罕见的全职业全履历从业人员,会“做云”“用云”“卖云”“讲解云”

声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

Hadoop源代码研究群

兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop

QQ群:288410967 

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3492.html

相关文章

  • 故障才是平台

    摘要:第二云平台的可靠性云平台就是在模拟数据中心传统硬件和系统网络架构,这三大块可靠性都不太高。云平台出故障了不主动通报,而是让客户自己猜。云平台误导了客户的冗余策略,比如两个可用区依赖同一个网络出口或供电局。前言 躲热点真不容易 我不凑热议性新闻的热闹,习惯按照自己的节奏发文章,但朋友圈里热点尬聊看多了,我就有给泼一盆科普冷水的冲动。 最近云平台故障挺多的,阿里云故障完了,我想等两周...

    DobbyKim 评论0 收藏0
  • 【译】Hybrid or Native: 合适才是最好的

    摘要:本文转载自众成翻译译者文蔺链接原文译者注本文讲到的可能和我们通常理解的略有差异。文中部分主要讲到的是,这一点可能在一些开发者看来是有争议的。谈到,最好也是最简单的办法是使用免费开源的框架。需要快速开发打样那可能最好的选择。 本文转载自:众成翻译译者:文蔺链接:http://www.zcfy.cc/article/861原文:http://www.telerik.com/blogs/h...

    张春雷 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<