资讯专栏INFORMATION COLUMN

云计算节点故障自动化运维服务设计

seanHai / 3332人阅读

此文已由作者王盼授权网易云社区发布。

欢迎访问网易云社区,了解更多网易技术产品运营经验~

现状
计算节点发生磁盘损坏等数据无法恢复的异常时,节点上的云主机系统盘无法恢复,导致云主机只能被清理重建

计算节点宕机但磁盘数据可用时,重启即可恢复所有云主机的运行

计算节点多次宕机(或一段时间内频繁宕机),则需要迁移所有云主机或者直接清理重建,云硬盘需要迁移到其他cinder-volume存储服务节点

一般来说重建过程比较耗时,并且云主机数据盘数据会全部丢失;另外采用本地file镜像启动的云主机离线或者在线迁移比较耗时并大类占用物理机硬盘和网络IO,会进一步加重计算节点负载,增大宕机可能性,实际情况下迁移操作的可执行性大打折扣。

另外有一些对我们自动化恢复流程有利的功能或者设备已经逐步上线到新建机房,因此可以考虑在这些机房实施相关的自动化恢复方案。比如义桥机房服务器已经全部配备远程管理卡,并且基于ceph存储作为系统盘+云硬盘的云主机也已经上线到该机房,这是我们实施该方案的基础。基于ceph存储后端的云主机在异常恢复过程中,没有数据的拷贝,不会占用硬盘和网络IO,因此恢复速度较快,可以做到几秒内在正常节点恢复运行(不包含云主机操作系统启动时间),相比现在的直接下线无法恢复或者数小时的更换硬件耗时,是对云主机SLA相当大的提升。

需求
保证异常节点上所有被标记为需要恢复的云主机、云硬盘资源被正确恢复(处理过程中本进程退出其他进程可以继续)

把所有被处理的资源记录在案(资源id、所在节点、处理时间、调用nova/cinder服务的request-id、处理状态等)

保证异常处理服务本身的高可用

场景
用户创建云主机
用户创建云主机时指定宕机恢复策略,目前有三种:

null:不做处理,节点下线之后残留在数据库

恢复:在其他正常节点恢复重建

删除:直接删除

节点首次异常
首次异常之后要尝试重启节点(上面的云主机、云硬盘不做特殊处理),但节点已自动重启的除外,并要分析异常原因,找到原因并可以修复的软硬件异常,则不需要记录到节点异常次数中,否则需要记录在案,用做下次异常时的处理依据,记录前未找到原因,但事后找到的,需要从异常记录中删除该次记录。

节点多次异常
多次异常节点需要做下线处理(多次异常包含首次异常后重启失败的情况),节点上的云主机需要根据创建时指定的宕机处理策略来执行相应的操作,云硬盘则一律迁移到其他正常服务的cinder-volume节点(并不会实际的迁移数据,对用户使用没有任何影响),处理过的云主机、云硬盘要记录在案,便于事后查验。

方案
本方案只是初步想法,还需要在开发过程中继续完善,尤其是服务高可用部分,以及与哨兵系统的交互部分,会对本服务的设计造成较大影响。

Alt pic

依赖
被恢复的云主机需使用ceph启动盘+ceph云硬盘

nova、cinder支持把服务强制设置为down状态(cinder可选,nova必须支持,否则需要等待超时变成down才可以执行云主机的宕机恢复操作)

哨兵系统异常主动通知机制(建议),或者哨兵系统提供api供我们轮询节点状态

哨兵系统提供接口可强制重启和下电节点

后续
L3节点宕机自动化处理流程

动态资源调度功能:可根据节点负载动态均衡云主机分布

节电省成本:可将空闲节点云主机迁移之后下电节点

云硬盘是网易云提供多种硬件介质的块存储设备,用户可以根据实际生产环境,灵活选择云硬盘类型和规格大小,弹性地创建、删除、挂载、卸载、扩容云硬盘。

更多网易技术、产品、运营经验分享请点击。

文章来源: 网易云社区

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/25258.html

相关文章

  • 当S8遇上边缘计算:谈阿里ENS对直播业务场景的支撑

    摘要:阿里云推出的边缘节点服务这个云产品,就是针对前面提到的目标场景,来应对客户自建边缘设施遇到的痛点和挑战的。针对赛事直播业务场景的优化阿里云团队针对常规活动赛事电竞直播这一业务场景,也做了很多技术优化。 近日,英雄联盟S8全球总决赛落下帷幕,中国战队IG零封FNC夺得冠军。这场比赛引起了国内网友的超高关注度,也给直播平台带来了不小的技术挑战。虎牙直播平台结合阿里云边缘节点技术方案,保障了...

    lily_wang 评论0 收藏0
  • 应用平台的可用性——从新浪SAE看平台设计

    摘要:网络可用性更多的会依赖电信运营商的服务能力。目前网络接入支持电信联通教育移动等,真正实现了国内大的运营商网络的覆盖,这在国内是很罕见的。 一、可用性如何定义 可用性(availability)是关于系统可供使用时间的表述,以不可用的时间为衡量指标。不可用时间越短,可用性越高。通常用n个9来描述。比如4个9的可用性,则是指一年中不可用时间在52分钟内,平均每周不可用时间在1分钟。 可靠性...

    yanbingyun1990 评论0 收藏0
  • 余额宝11.11:基于日志数据分析的高效运维

    摘要:接下来我们以余额宝为例,重点剖析天弘基金在日志数据分析领域是如何突破的此前,天弘基金一直使用开源的日志方案,研发和运维人员通过对日志数据进行处理,使用日志文件进行查询检索。 双十一刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机……双十一作为电商 IT 部门的头等大事,大促前,运维人员就需要...

    wenshi11019 评论0 收藏0
  • 如烹小虾: 运维动化闭环,腾讯是这样做的

    摘要:我加入了腾讯,腾讯企业文化很好,经常会有很多小组活动部门活动什么的,但是做运维很苦。所以,年的时候我们几个腾讯的同事一同创业,希望把我们的想法和经验能够传递出来。这里我列出了腾讯互联网运维团队所经历的三个阶段。 本文是数人云深圳技术分享课上优维科技联合创始人彭鲤航的演讲实录,演讲主题是《运维自动化实践》。 精彩观点抢鲜看 实现运维自动化闭环,最主要就是配置管理、状态管理和变更管理能力。...

    RyanQ 评论0 收藏0
  • OpenStack虚拟桌面在携程呼叫中心的应用

    摘要:一为什么要使用虚拟云桌面背景携程呼叫中心,即服务联络中心,是携程的核心部门之一,现有几万员工。他们全年小时为全球携程用户提供服务。为此,携程正式引入了虚拟云桌面。携程云桌面现状携程云桌面现已部署上海南通如皋合肥信阳穆棱六个呼叫中心。 编者:本文为刘科在第六期【携程技术微分享】中的分享内容。在携程技术中心(微信号ctriptech)微信后台回复【云桌面】,可加入微信交流群,和关注云桌面的...

    EsgynChina 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<