资讯专栏INFORMATION COLUMN

如何降低数据中心的风险

levinit / 2633人阅读

摘要:冗余系统可以被视为一种实现无单点故障安装的最低要求。如果这个冗余系统示例中的系统在物理上是分开的,则对一个系统的任何操作都应该对另一个系统没有影响。冗余系统的基本原则已被破坏,系统的复杂性呈指数级增长。

如今,人们在降低数据中心风险方面所遇到的最大障碍是:

缺乏知识(一般地点和特定地点);

缺乏分享这些知识的流程;

缺乏针对特定地点的经验;

不了解风险;

对待人员和学习的态度不佳。

如果一个数据中心设施的设计和运营很复杂,并且工作人员没有得到很好的培训,那么将会面临很高的风险。

设计的复杂性

在考虑数据中心设计的复杂性之前,有必要考虑采用无单点故障(SPOF)的弹性系统,而根据定义,单点故障(SPOF)是指系统中一旦失效,就会让整个系统无法运作的部件,换句话说,单点故障就会产生整体故障。这些可能是组件故障或不正确的人为干预,例如在不了解系统如何反应的情况下进行切换。

2N冗余系统可以被视为一种实现无单点故障(SPOF)安装的最低要求。为简单起见,假设数据中心的2N系统包括A和B两个相同的电气和机械系统。故障树分析(FTA)将突出显示导致故障的事件组合。然而,在故障树分析(FTA)中模拟人为错误是非常困难的。用于模拟人为错误的数据将始终是主观的,并且存在许多变量。

如果这个2N冗余系统示例中的系统在物理上是分开的,则对一个系统的任何操作都应该对另一个系统没有影响。但是,引入增强功能并不少见,它采用简单的2N冗余系统,并添加其他组件,例如灾难恢复链路和连接两个系统的公共存储容器。

在大型设计中,这成为一种自动控制系统(例如SCADA、BMS),而不是简单的机械联锁。 2N冗余系统的基本原则已被破坏,系统的复杂性呈指数级增长。运营团队所需的技能也是如此。

对设计进行审查仍然表明已经实现了2N冗余设计,然而,由此产生的复杂性和可操作性的挑战破坏了高可用性设计的基本要求。

研究表明,导致失败的特定事件序列通常是无法预料的,并且直到它发生之后才会知道会产生什么后果。换句话说,这些事件序列在人们知道之前是未知的。因此,它不会成为故障树分析(FTA)的一部分。

奥地利物理学家Ludwig Von Boltzmann开发了一种熵方程,该方程已应用于统计学,特别是缺失信息方面。在这个理论中,设置了一个盒子网格,例如4×2或5×4的网格 ,以及一个放在盒子里的硬币。该理论允许用户确定问题的数量,以确定在该定义的网格上放置硬币的哪个框中。如果采用系统组件替换盒子,以及硬币的未知故障事件,人们可以考虑系统可用性如何受到复杂性的影响。可以看出,较少发生的未知故障事件,系统可以失败的方式的数量减少。因此,增加人们对系统的详细知识和发现未知事件减少系统失败的组合,从而降低风险。

人为因素

研究表明,任何具有人机界面的系统最终都会因漏洞而失败。漏洞是数据中心设施中可能导致故障的任何可能的弱点。数据中心的漏洞可能与基础设施或设施运营有关。基础设施涉及设备和系统,特别是:

机械和电气可靠性。

设施的设计、冗余和拓扑。

这些行动涉及人为因素,其中包括个人和管理层面的人为错误。它涉及:

运营团队的应变能力。

团队对漏洞的反应情况。

系统越复杂,人为因素就越脆弱,运营设施所需的培训和学习就越多。学习不仅适用于个人,也适用于组织。组织学习的特点是成熟度和流程(在下图中显示为累积经验),例如围绕数据中心结构和资源、维护、变更管理、文档管理、调试和可操作性,以及可维护性。

个人学习是知识、经验和态度的函数(在图表上显示为经验的深度)。开发组织和个人学习的环境有助于降低故障率,并为操作人员提供有效减少能源浪费的专业知识。

通用学习曲线应用于数据中心

重要的是要理解,由于失败和经验之间的关系遵循指数曲线,因此永远不能实现零失败。拥有良好知识和经验丰富的数据中心设施操作人员仍然容易自满,并且会遇到一系列先前未知事件的失败。

结论

通过提供可以改善组织和个人知识的学习环境,降低数据中心风险。虽然成熟的操作人员具有可以降低故障率的经验,但如果在没有经过充分培训的情况下实施,则过于复杂的设计仍然会发生故障。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/5197.html

相关文章

  • Serverless五大优势,成本和规模不是最重要,这点才是

    摘要:导读近期灵雀云技术专家邵明岐翻译了所著的一书的部分内容,可以说是对科普与观察的上佳素材。移动应用程序可以无缝访问同一个数据库,以检索过去的结果和排行榜数据。这些是统计信息,例如执行持续时间和面向客户的指标,而不是可用磁盘空间或使用率。 导读:近期灵雀云技术专家邵明岐翻译了Mike Roberts & John Chapin所著的《What is Serverless》一书的部分内容,可...

    haitiancoder 评论0 收藏0
  • 浅谈如何建立互联网风控系统

    摘要:现在的风控系统是啥样的对风控的描述比较空泛,只是给出逻辑概念。至于如何去做一套完善的风控系统,这个领域已经有大量的投入和专家,可以去参考借鉴。应该是互联网内风控玩的最早最成熟的公司,笔者也有幸成为其国内的第一批开发,学习到很多。 弹指间,一起创业已有大半年。这大半年间,累与成果并存,痛并快乐着,这自不用多提,应该是这一行从业者的普遍感受了。现在每每反思以往,总结不足,其中一条就是技术团...

    Youngs 评论0 收藏0
  • 阿里巴巴直播内容风险防控中AI力量

    摘要:阿里巴巴集团安全部今年在直播管控中的特色在于大量采用人工智能和深度学习等技术,配合优化后的高性能多媒体计算集群,大幅度降低人工审核成本的同时,提升了对内容风险的防控能力。 阿里巴巴直播内容风险防控中的AI力量 直播作为近来新兴的互动形态和今年阿里巴巴双十一的一大亮点,其内容风险监控是一个全新的课题,技术的挑战非常大,管控难点主要包括业界缺乏成熟方案和标准、主播行为、直播内容不可控、峰值...

    lvzishen 评论0 收藏0
  • 云存储安全最佳实践

    摘要:与云计算提供商密切合作以确保数据存储安全方法满足其要求也很重要,而最佳实践方法可以帮助企业实现最安全的云存储。 建立云存储框架和云存储安全标准至关重要。以下是五种云存储最佳实践,希望能给从业者一点参考。 showImg(https://segmentfault.com/img/bVblBQH?w=600&h=333); 评估企业的云计算架构 安全云存储要求组织识别连接到云平台的所有设备...

    Nekron 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<