当数据库出现故障时,营业系统需要配合进行切换及重启恢复操作。而手动停止、启动、重启业务应用容器、进程等操作比较繁琐效率低,原来需要多人同时花费大量时间完成的事情使用该场景功能现在只用一个人就能解决,把大量重复性工作并发执行减少工作量、人为误操作等并提升整体工作效率。
场景流程
操作步骤
场景一:单节点故障/恢复,分为四个步骤。
select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status
selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;
解决方案:直接修改pod的yaml的部署文件,apply滚动更新。
后续优化
目前整个场景流程中重启容器、进程操作没有检查项是否重启完成,检查操作已在开发中。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129346.html
此文已由作者王盼授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验~ 现状计算节点发生磁盘损坏等数据无法恢复的异常时,节点上的云主机系统盘无法恢复,导致云主机只能被清理重建 计算节点宕机但磁盘数据可用时,重启即可恢复所有云主机的运行 计算节点多次宕机(或一段时间内频繁宕机),则需要迁移所有云主机或者直接清理重建,云硬盘需要迁移到其他cinder-volume存储服务节点 一般来...
摘要:以下这个名单恐怕是这些公司不想看到的的年前大云故障。微软称这次中断是由外部网络故障所导致,部分用户受影响长达个小时。微软表示这次中断与故障无关。微软最终确定人为错误是罪魁祸首。 本杰明•富兰克林曾经说过,这个世界上有两件事情不可避免,死亡和纳税。但如果这位伟大的政治家和发明家活在我们的现代世界,也许服务器停机也会进入这个名单。不管底层技术再怎么好,也不管托管提供商再多么能干,云总是会发生故障...
摘要:周四声称,输错命令导致了亚马逊网络服务出现持续数小时的故障事件。太平洋标准时上午,一名获得授权的团队成员使用事先编写的,执行一条命令,该命令旨在为计费流程使用的其中一个子系统删除少量服务器。 AWS解释了其广大US-EAST-1地理区域的S3存储服务是如何受到中断的,以及它在采取什么措施防止这种情况再次发生。 AWS周四声称,输错命令导致了亚马逊网络服务(AWS)出现持续数小时的故障事件。这...
阅读 1247·2023-01-11 13:20
阅读 1555·2023-01-11 13:20
阅读 1008·2023-01-11 13:20
阅读 1675·2023-01-11 13:20
阅读 3968·2023-01-11 13:20
阅读 2510·2023-01-11 13:20
阅读 1305·2023-01-11 13:20
阅读 3474·2023-01-11 13:20