摘要:打错一个字母瘫痪半个互联网是怎样的感受在今天亚马逊披露了这起事故背后的原因后,很多人心里都会有一个疑问这个倒霉的程序员会被开除吗关于这一点,虽然主页君肯定没法做出准确的判断,但还是愿意给出我们的猜测不会。
2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现“超高错误率”的宕机事件。
接着,半个互联网都跟着瘫痪了。
一个字母造成的血案
AWS 最近给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删。为了修复这个错误,亚马逊不得不重启整个系统(在此之前已经几年都没有重启过了),最终导致了震惊全球的Amazon S3宕机4个小时事件。
我想这名程序猿当时的表情应该是这样的
曾经有人计算过,AWS每宕机一分钟,对亚马逊造成的损失是$66,240美元...而这还不包括那些依靠AWS来运行自家服务的公司们的损失。所以这次接近4小时的宕机造成多大的损失,只能请大家自行脑补了。
程序员的世界就是这样的不近人情,一丁点儿错误就足以酿成大错。在这次“一个字母造成的血案”之前,刚刚发生了Gitlab程序猿用错一条命令误删了整个数据库的悲剧。再久一点以前,欧洲宇航局的的火星探测器因为传感器失灵了仅仅一秒钟,就造成探测器在火星表面坠毁,历时数年的探测计划功亏一篑。
所以,当你身边的程序员为了一点点小事较真的时候,你一定要理解:魔鬼都藏在细节里啊!
当S3宕机时,你才明白AWS多么强大
几年前,Google.com曾有一次宕机了一个小时。在那一个小时的时间里,整个互联网的流量减少了40%。当时有人感慨:Google一家就是半个互联网。如今,“半壁江山”的江湖地位似乎要归属于亚马逊了。
AWS是云计算领域全球的领导者,而S3又是AWS历史最久的服务,可以说是AWS的基石。很多AWS提供的其他服务都依赖于S3云存储,比如EC2,Lambda 和 EBS 等,所以这次宕机影响巨大。据最近的统计显示,全球共有148213个网站和121761个独立域名在使用AWS S3服务。
就拿这次事故来说,很多人一觉起来发现手机里的歌听不了,电影看不了,股票不能交易,App也没法下载,就连家里的智能电器都纷纷罢工(主页君家里的电子门锁都失灵了!)云计算听上去离生活很远,其实离我们很近。
这次S3宕机影响到无数家公司和服务
在这里罗列了几个著名的:
Apple App Store & icloud
Airbnb
Expedia
Netflix
Quora
Amazon Echo
Amazon.com
Nasdaq
就连AWS自己用来公布服务状态的 AWS Dashboard 都受到了影响,在一段时间内只能通过Twitter账户来发布更新状态。这次S3宕机事件的影响范围之广,可见一斑。
“打错一个字母瘫痪半个互联网”是怎样的感受?
在今天亚马逊披露了这起事故背后的原因后,很多人心里都会有一个疑问:
这个倒霉的程序员会被开除吗?
关于这一点,虽然主页君肯定没法做出准确的判断,但还是愿意给出我们的猜测:不会。
首先,这名程序猿打错命令有没有责任?肯定有。但是,在处理高度可靠的云服务时,每一次操作都应该按照严格的程序,每一个命令都要经过足够的审核。除非这名程序员在操作过程中因为偷懒省略了一些必要的步骤,否则,这次事故更多是系统的责任,因为系统没有足够的机制来防止错误的发生。人,都是会犯错的,只有机器不会。
其次,oncall(值班)的程序员一边操作着影响巨大的的系统,一边还需要争分夺秒的解决问题,肩上的压力之大难以想象。虽然这次事故确实是由于一个打错的字母造成的,但如果事故发生后,作为云服务领航者的亚马逊不是勇敢的承担这笔学费,而是把锅甩给某一个程序员身上,那就太让人寒心了。
我甚至敢断言:如果亚马逊真的做出这样的决定,那么他们在日后的招聘过程中会遇到很大的困难——每个程序员都会三思:我会不会成为下一个背锅的人?
当然,如果这哥们(也可能是姐们)
真的因此被解雇了,想想看——我打错了一个字母,就瘫痪了半个互联网
这牛逼也够吹一辈子了!
最后,主页君想说:程序员这行真的不容易,做云服务的尤其如此,大家且行且珍惜。对受到这次事故影响而心惊胆战了好几几天的程序员们说一句:加油,你们挺住!
欢迎加入本站公开兴趣群软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/4197.html
前言 学习中有一种方式就是错题汇总,在学习代码,日常书写代码中对于遇到报错,也要汇总,这样可以在以后编码过程中避免或解决这些问题。 一、报错结构 首先对于报错分为:错误类型、错误位置、错误描述、错误规则和问题数量。 如上图: 报错类型为编译错误; 错误位置在D:\myel\src\views\admin\AdminView.vue中的第四行第2个字符;(报错位置不一定每次都是准确的...
我们所说的大带宽服务器是一个泛指,通常针对国外服务器来说,10000M、10000M的带宽就是大带宽服务器,RAksmart可提供T级全球带宽,功能选择。大带宽服务器拥有以下优势:1、传输速度快:大带宽服务器最主要就是可以有效实现双向数据同步传输,提升了数据的传输速度同时,也保证了稳定性。而且降低了丢包率,同样服务器也是安全性能很强的,可以满足不同商家的业务需要,适用范围也是更广泛一些。2、稳定性...
摘要:例如同样的两份内容,一个使用加速,一个没有,那么加速过后的网站就会获得更高的曝光度。当今社会,经济发展迅速,许多网站在互联网中涌现,其中包括文字、图片、视频、音频等等类型,丰富着我们的的生活,事实上,我们访问的网站能够大量出现的原因,就是因为cdn加速。在还没cnd加速之前,我们看一些视频的时候,会出现延迟、卡顿甚至会出现网络崩溃等现象,严重影响我们上网体验,有了cdn加速,它能优化网站网速...
近年来,越来越多的用户选择高防服务器,就是为了防止网站受到攻击,没有高防服务器可能会被攻击,导致网瘫痪。从而失去一些客户,这些损失都是不可估量的。所以,高防服务器是很重要的。那么我们一般受到的网络攻击有哪些呢?1、CC攻击:CC攻击的原理就是攻击者控制某些主机不停地发大量数据包给对方服务器造成服务器资源耗尽,一直到宕机崩溃。CC就是模拟多个用户不停地进行访问那些需要大量数据操作的页面,造成服务器资...
阅读 2853·2021-11-11 10:58
阅读 1878·2021-10-11 10:59
阅读 3470·2019-08-29 16:23
阅读 2305·2019-08-29 11:11
阅读 2769·2019-08-28 17:59
阅读 3794·2019-08-27 10:56
阅读 2026·2019-08-23 18:37
阅读 3089·2019-08-23 16:53