资讯专栏INFORMATION COLUMN

让运维更高效:关于ECS系统事件

Paul_King / 1840人阅读

摘要:但作为阿里云的用户,您仍有可能会收到这样的消息通知,提醒您的实例由于所在物理服务器存在故障风险需要维护,阿里云设定了一个实例重启的系统计划事件,将在天后重启该实例并迁移至安全的物理机运行。

摘要: 阿里云会针对ECS实例发布系统事件,当您收到阿里云计划维护的通知时,可以利用ECS系统计划事件了解与实例相关的计划维护操作,并根据您的业务特性选择合适的时间安排运维操作进行故障转移,减少对系统可靠性和业务连续性的影响。

阿里云作为领先和值得信赖的云计算服务提供商,提供和保障计算、存储、网络资源以及底层基础设施的可用性、稳定性、安全性。根据自身战略发展和业务需求,您可以设计高可用的云上IT架构,在阿里云上选择合适的产品、服务来搭建部署业务系统,并管理其中的数据。在此基础上,通过阿里云提供的API、监控、编排等多样化手段实现快速配置资源,搭建多套环境,自动化部署等IT运维能力。

相较于普通的IDC机房以及服务器厂商,阿里云会使用更严格的IDC标准、服务器准入标准以及运维标准,以保证云计算整个基础框架的高可用性、数据的可靠性以及云服务器的高可用性。在此基础之上,阿里云在各地域提供多可用区服务,当您需要更高的可用性时,可以利用阿里云的多可用区搭建自己的主备服务或者双活服务。对于金融等对业务连续性有更高要求的行业领域,还可以通过多地域和多可用区搭建出更高的可用性服务,并实现更高的RTO、RPO数据保障能力。对于单台ECS实例, 阿里云承诺一个服务周期内单台ECS实例的服务可用性不低于99.95%;对于单地域多可用区,阿里云承诺一个服务周期内该单地域多可用区的服务可用性不低于99.99%。为了保障高水平的服务可用性,阿里云会主动对承载ECS实例运行的物理服务器做日常维护并修复潜在的软硬件等系统故障,以持续提升系统可靠性、性能和安全防护能力,并在探测到物理服务器存在故障隐患时在线热迁移实例至健康的服务器之上,保持ECS实例的健康运行状态。

但作为阿里云的用户,您仍有可能会收到这样的消息通知,提醒您的ECS实例由于所在物理服务器存在故障风险需要维护,阿里云设定了一个实例重启的系统计划事件,将在2天后重启该实例并迁移至安全的物理机运行。

您可能会疑惑,为什么还会受到这样的信息呢?其实,这是由阿里云平台主动运维自动触发的维护通知。在主动运维过程上,某些软硬件故障会导致实例无法在线迁移,这样的情况下,阿里云会向用户发送上述通知,提醒您系统即将通过重启实例执行迁移操作。为了提升您运维ECS实例的效率和体验,阿里云会发布ECS实例系统事件功能,当您接收到通知时,可以在ECS控制台或使用OpenAPI查看系统计划事件,并根据业务的需要选择合适的时间点执行系统事件(某些情况下只能等待系统事件按计划时间执行)。这样便免去了通过工单联系客服人工介入的过程,减少风险的同时,也为基于系统事件实现自动化故障转移提供了基础,让运维更高效。

那么ECS实例会存在哪些类型的系统事件呢?阿里云会优先发布系统主动运维触发的实例重启(Reboot)类型事件,随后会给大家提供更丰富的事件类型来满足多种运维场景。如果存在系统计划事件,ECS 控制台待处理事件按钮上会出现显著标示提醒您查看。点击该按键后进入 待处理事件 > 系统计划事件 页面,在这里您可以看到实例 ID、地域、运行状态等实例相关信息,计划执行的系统事件相关信息,推荐的用户操作和可执行操作按键。您也可以通过调用OpenAPI DescribeInstanceFullStatus手动查询或自动轮询实例的系统计划事件。

可以想象,当ECS实例承载关键业务时,任何非预期的实例重启都有可能对系统可用性和业务连续性造成威胁或严重影响,因此我们建议您在搭建应用系统时能充分利用可用区、负载均衡等功能和服务来提升架构和服务的整体可用性。在此基础上,对于阿里云主动修复系统故障触发的系统事件,通常系统会提前48小时给您发送通知,因此您可以利用事件计划时间之前的这段用户操作窗口期,做有准备的负载和故障转移操作并重启实例,比如,在集群环境中及时将负载从有计划事件的实例上转移到其他实例,或提前备份、转移本地磁盘的数据,或主动调整负载均衡和弹性伸缩的配置,以及基于业务逻辑做有顺序的启停实例等主动运维操作,最大限度地降低实例重启对业务连续性的冲击。

ECS系统事件的类型和场景会不断完善和扩展,我们希望通过这样的方式,逐步提升您在阿里云上的运维效率和体验,提供更完备的接口和服务来支持用户在阿里云上实现无忧运维和业务永续。

原文链接

阅读更多干货好文,请关注扫描以下二维码:

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8040.html

相关文章

  • 让运维更高效关于ECS系统事件

    摘要:但作为阿里云的用户,您仍有可能会收到这样的消息通知,提醒您的实例由于所在物理服务器存在故障风险需要维护,阿里云设定了一个实例重启的系统计划事件,将在天后重启该实例并迁移至安全的物理机运行。 摘要: 阿里云会针对ECS实例发布系统事件,当您收到阿里云计划维护的通知时,可以利用ECS系统计划事件了解与实例相关的计划维护操作,并根据您的业务特性选择合适的时间安排运维操作进行故障转移,减少对系...

    qujian 评论0 收藏0
  • 宝塔Linux面板支持哪些Linux操作系统?Centos、Ubuntu、Deepin、Debian

    宝塔Linux面板支持哪些linux操作系统?宝塔Linux面板支持的Linux系统有centos、ubuntu、deepin、Alibaba Cloud Linux、debian和fedora等,今天小编来详细说下宝塔面板支持的Linux操作系统版本及系统兼容性说明:宝塔Linux面板操作系统说明宝塔Linux面板操作系统支持:centos、ubuntu、deepin、Alibaba Cloud...

    番茄西红柿 评论0 收藏2637
  • 如烹小虾: 运维自动化闭环,腾讯是这样做的

    摘要:我加入了腾讯,腾讯企业文化很好,经常会有很多小组活动部门活动什么的,但是做运维很苦。所以,年的时候我们几个腾讯的同事一同创业,希望把我们的想法和经验能够传递出来。这里我列出了腾讯互联网运维团队所经历的三个阶段。 本文是数人云深圳技术分享课上优维科技联合创始人彭鲤航的演讲实录,演讲主题是《运维自动化实践》。 精彩观点抢鲜看 实现运维自动化闭环,最主要就是配置管理、状态管理和变更管理能力。...

    RyanQ 评论0 收藏0
  • 运维 2.0 时代:数据聚合和分组

    摘要:灵活查询,聚合分组并存除开单纯的聚合和分组,还支持聚合和分组的复合查询。所以,与会聚合为一条曲线,而和的关系则是分组的关系。当然,的功能在未来,还远远不止这些,高效运维的时代才刚刚开启。 运维 2.0 时代 运维 2.0 是指,从技术运维升级为服务运维,向公司提供可依赖的专业服务。运维 2.0 强调服务交付能力,而不是技术能力,需求可依赖、懂业务、服务化的专业运维。 为了了解运维 2....

    skinner 评论0 收藏0

发表评论

0条评论

Paul_King

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<