资讯专栏INFORMATION COLUMN

2012年6月14日Amazon云服务故障分析

Luosunce / 711人阅读

摘要:日,公布了事故分析。此外,亚马逊还完成了对所有备用配电的审计。至此,亚马逊表示,已经确定所有断路器都是正确的配置了,并会进行定期的测试和审计。最后,亚马逊对在这次事件中受到损失的企业表示了歉意。

上周四即6月14日,Amazon位于美国东部的数据中心出现故障,并影响了AWS多项云服务以及基于之上的Heroku、Quora等知名网站。16日,Amaozn公布了事故分析。事故是由公共电网故障引起,并引发了一系列连锁故障。:

事情的起因是电缆故障影响了高压配电系统。

6月14日20:44左右,一电缆发生故障,进而影响了高压配电系统。2个为可用区域提供电力的公用变电站出现故障,进而使得整个供应区供电不足。但这个情况是可以处理的,亚马逊启动了备用发电机,保证了所有的EC2实例和EBS存储成功转移。

然而,20:53,1个备用发电机因其风扇过热造成了超负荷运转而断电。所以采用备用发电机(由一个完全独立的配电电路完成额外发电能力)的方案也宣告失败。更不幸的是,在这套特定的后备电源分配电路中,一个断路器被错误配置为在低功率阈值时打开,这样,当负载转移到该电路时,错误发生了,该断路器断路了。

20:57,当该电路断路器断开时,实例和存储失去了主要备份电力或二次后备电源。受此影响客户的实例和卷是运行在多个可用区域的,只能在此环境中等到电力恢复才能正常运行。

15日10:19,发电机风扇被替换并安装好,发电机开始提供动力。电力逐步恢复后,受影响的实例和存储也开始恢复。

10:50,绝大多数实例已经恢复正常。但对于EBS存储(含启动块)而言,电力不足之时写入会有数据损失,也就是这些存储可能存在不一致的状况。这并非是潜在的不一致,因为即使是存储上I/O停顿,EBS也会在线直接反馈出受损状态。用户只能通过验证存储上的一致性来恢复它。

最后,16日1:05,超过99%受影响的存储才得以解决。

总的来看,EBS-related EC2 API的损失集中在20:57-22:40。具体来看,这段时间内,可变系统调用(如创建,删除)失败,进而直接影响到客户发布新的EBS-backed EC2实例。EC2和EBS APIs实施在多个可用复制数据存储区。EBS数据存储被用来存储元数据等资源的卷快照。一个主要的EBS数据存储因为这个时间失去了动力,使得系统无法将数据存储的副本放到另外一个可用区。一般来看,为了保护数据存储,系统会自动翻转为只读模式,直到电力恢复可以启动可用区,进而尽快恢复到一致状态,并返回到数据存储读写模式,使得启用可变EBS调用成功。但这个事件中,这一保护方案没有起到作用。

未来,为了保证数据存储实现快速切换,亚马逊将实施变革。高压配电系统以及所有运行实例和存储将采用全冗余电源。此外,亚马逊还完成了对所有备用配电的审计。在审计中,亚马逊还发现了另一个设置有问题的断路器。至此,亚马逊表示,已经确定所有断路器都是正确的配置了,并会进行定期的测试和审计。

最后,亚马逊对在这次事件中受到损失的企业表示了歉意。

CSDN观点:从亚马逊的解释来看,颇有“屋漏偏逢连夜雨”之慨,但也从另一层面看出对于数据中心的任何一次事故而言,所需要提供的应对方案应是复杂的,连续的,方案之外,定期测试也是必须的。在该事件之后,有很多有价值的分析与评论,特选择一些和大家共享。

原文链接:ycombinator.com

ericabiz:(自2001-2007年一直经营一个专用服务器托管公司)

在托管实施设计中,电池要有足够的力量来支持发电机。但这也会带来一个巨大单点故障的可能性。一个更好的设计是通过飞轮产生足够的电力。不过,对于一般数据中心而言,一年左右的时间内总会遇到这些发电机故障。

亚马逊有着好的设置,但是没有进行有效的测试。

顺便说一下,这也是问你的数据中心供应商的一个好问题:是否拥有两个完全冗余电源并包含PDU和发电机器的系统?多长时间进行一次测试?如果一个电路单元/发电机失败,我如何设置服务器来保证应用不失去动力?

有一个正确的方法:多电源保证每一个服务器连接到2PDUs或连接到2个不同的发电机——但这是昂贵的,许多较低端的托管服务提供商是无法接受这个成本的。

rdl:

大型余热发电设备(比如利用蒸汽、建筑、供热设备产生的废热等)往往采用grid-backup模式。举个例子,麻省理工学院的热电厂(几大天然气涡轮机),也有很多大学利用蒸汽加热,很多工业遗址也证明了这些。它归结为成本和分区允许。显然比起运行一个24*7的发电机,其更容易获得许可证。而从实际价格上看,利用余热更能体现循环价值。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3638.html

相关文章

  • 盘点:2014十大故障

    摘要:以下这个名单恐怕是这些公司不想看到的的年前大云故障。微软称这次中断是由外部网络故障所导致,部分用户受影响长达个小时。微软表示这次中断与故障无关。微软最终确定人为错误是罪魁祸首。 本杰明•富兰克林曾经说过,这个世界上有两件事情不可避免,死亡和纳税。但如果这位伟大的政治家和发明家活在我们的现代世界,也许服务器停机也会进入这个名单。不管底层技术再怎么好,也不管托管提供商再多么能干,云总是会发生故障...

    DesGemini 评论0 收藏0
  • 腾讯后阿里再出事故,企业上如何避免计算事故造成损失

    摘要:阿里云再次发生故障,这已是年的第二起。这场事故,持续了三个小时左右。针对故障,阿里云表示会根据协议服务合同,尽快处理赔偿事宜。十天前,阿里云今年的第一起事故被曝光。后来,阿里云就此事作出回应,并在网站醒目标识并给出告警。阿里云再次发生故障,这已是2019年的第二起。3月2日23时55分左右,阿里云开始出现大规模宕机故障,位于华北地区的多家互联网公司的IT运维人员发现多个APP和网站开始陷入卡...

    William_Sang 评论0 收藏0
  • 2012计算的春天

    回顾2012,更多开放,更多协作,更多机会产生。从来没有一项服务会将几乎所有IT、互联网、通信技术整合在一起,没有合作、开放的心态就没有云计算。接下来,将从IaaS、NoSQL与NewSQL、数据中心、大数据、安全这几个方面对过去一年作出总结。IaaS——群雄追赶AWS谈到IaaS,Google和AWS是公认的业界最强。AWS是全球将IaaS这个business运营的较好的公司,除了技术领先,还要...

    Vicky 评论0 收藏0
  • 持续拥抱原生,现代化应用将把计算带进怎样的“新世界”?_资讯

    摘要:全球云计算厂商躬身入局,开启现代化应用之旅事实上,包括亚马逊云科技华为云在内的全球云计算厂商已在这一领域进行了多年实践。过去年,亚马逊云科技一直在持续不断地突破很多现代化应用技术。年,亚马逊云科技发布第一个消息队列的服务,至今已有年历史。 2006年,是云计算滚滚浪潮的开端,这场IT技术变革始于亚马逊AWS的成立,它让公有云成为整个云行业的标杆,也形成了...

    RyanQ 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<