记一次基于智慧运维平台故障自愈场景的“探索”

IT那活儿发布于2023-01-11 13:20 / 1370人阅读

随着智慧运维平台的不断落地，我们基于平台能力，落地了很多场景，监控、告警、运维操作等等，但我们的监控场景与运维操作场景依然还是分段式的，平台监测到故障告警，依旧需要运维人员根据告警内容去判断执行相对应的运维操作。

如何将监控、告警能力与运维操作能力结合，使之成为一套完整的自动化流程?这就是本篇我们分享的主题——基于智慧运维平台故障自愈场景的小“探索”。

场景介绍

基于智慧运维平台监控weblogicserverFullGC情况，模拟触发FullGC告警,再基于平台ATM模块编排自愈运维操作，在告警产生后自动触发故障自愈操作，完成自愈操作。

监控自愈流程如下：

场景要素提炼：

基于AMP监控采集FullGC信息，同时针对监控项配置告警触发器
基于ATM配置自愈操作，完成故障时刻信息搜集、server重启
绑定告警与自愈操作，使告警产生后自动触发完成自愈动作
模拟FullGC场景，触发故障自愈流程

场景配置

GC信息监控、告警配置

监控配置模块，相信各地已经玩的很溜了，也不是本文探究的主题，在此就不占用太多的篇幅去介绍如何去基于AMP接入监控了。我们在测试环境部署了一套weblogicserver，将GC信息接入平台监控：

同时针对JVM堆old区使用率配置了告警触发器（PS：GC监控场景有很多，如：FullGC次数、持久代使用率、O区使用率等等，本次仅以O区使用率作为验证场景）。

自愈操作配置

同样针对操作编排的配置，相信大家也都有用过，本文也不做详细赘述。针对本次测试，我们在ATM模块简单配置了一个weblogic自愈操作：

操作内容也很简单，搜集了故障时刻server的堆栈信息treaddump、heapdump(PS:由于是测试，未做过多的信息搜集)，之后便进行了服务重启动作，脚本配置了采用local模式执行。

绑定告警与自愈操作

配置故障自愈方案，当配置了故障处理方案且符合触发条件的告警产生时，故障自愈方案可自动执行，对Server进行应急处理，达到快速解决故障的目的。

可在监控模板告触发器配置时，“故障自愈”页面配置操作绑定

或者在配置管理的“告警自愈配置”模块新增自愈配置，绑定监控模板和触发场景。两个页面配置类似，见下图，在故障自愈方案选择田间之前在ATM配置好多自愈操作：

配置完成后，如下图，则新增了一条故障自愈策略，“启用状态”开启，“自动执行”状态开启。其中自动执行状态若是未开启，则告警产生后需要手动触发自动动作，可以根据具体需要设定。

至此，一个简单的故障自愈场景算是配置完成了。

测试验证

在模拟FullGC场景之前，我们先来观察一下正常情况下，weblogicserver的GC情况，如下图，JVMold区使用率较低，稳定在12.4%左右，FGC次数也仅有3次。

当模拟触发了FullGC场景后，weblogicserver进程的FULLGC频繁执行，old区使用率也接近100%。

观察平台，告警如期触发：

自愈动作在告警触发后同样触发，如下图，自愈触发记录

触发自愈操作，搜集信息及weblogicserver信息，如下图，服务重启，证实自愈动作作发生：

通过平台GC信息采集看，JVM堆Old区使用率在触发FULLGC前后的变化趋势图，从10%->100%->10%，恢复到正常水平。

Weblogicserver在模拟FullGC并自愈前后GC次数的变化趋势图如下图所示，FullGC次数迅速增加，触发自愈动作重启实例后，FULLGC再次恢复实例启动状态。

自愈后告警状态自动变更为“已恢复”，至此，自愈流程验证完成。

以上便是通过智慧运维平台AMP监控场景、ATM运维操作场景结合，以完成从监控，到告警产生，再到故障自愈的一次“探索”。过程略简陋了些，在实际运维中，自愈场景需要考虑的点有很多，如自动or手动触发自愈，自愈搜集哪些信息，如何确保自愈动作100%完成，风险等等，都是需要我们根据不同的故障场景，去探究分析一套安全有效的解决方案。

END

云服务器 GPU云服务器记一次在阿里云搭建服务器记一次阿里云服务器集体中毒服务器集群故障自愈基于云服务的故障监测系统

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/129945.html

解密百度智能运维工程的架构建设

摘要：作者介绍王艺，百度云智能运维架构研发负责人。年转向运维方向，作为智能运维架构方向的技术负责人，致力于为百度智能运维平台和产品提供高性能高可用可扩展的系统架构和基础设施。持续的数据建设，是智能运维建设的关键。作者介绍王艺，百度云智能运维架构研发负责人。2010年加入百度，先后负责百度链接库、百度志愿计算、百度统一资源管理的研发，经历过千亿级网页链接的洗礼，也调度过数十万量级的服务器，热衷于直...

HtmlCssJs 2019-04-25 17:22 评论0 收藏0
阿里如何做到百万量级硬件故障自愈？

摘要：只有当超时故障扇区等明确故障项出现后，两者关联才确诊硬盘故障，否则只是隔离观察，不报修。如果存在进程住时间超过分钟，我们认为这个硬盘故障的影响面已扩大到了整机，需要进行重启消除影响。随着阿里大数据产品业务的增长，服务器数量不断增多，IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断，成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以...

Sanchi 2019-06-24 18:13 评论0 收藏0
智能化的数据中心如何建设

摘要：智能化数据中心发展的三部曲在中国电信北京研究院副总工程师杨明川看来，智能化的数据中心的发展可以被归纳为三个阶段。而在最终阶段，则是希望能够实现完全自动化的数据中心。对此，中国电信正在积极思考在未来智能化的数据中心里可以做一些什么样的探索。这其中，智能化的数据中心包含两方面含义，一方面是数据中心如何基于海量数据，利用人工智能的技术，进一步去优化数据中心的运营；另个方面是数据中心会越来越多地去承...

hsluoyz 2019-04-29 14:37 评论0 收藏0
这场金融网络盛宴华为又要秀出哪些前瞻性布局？

摘要：最新发布的全球半年度行业云跟踪报告也显示，年全球四大行业金融制造医疗和公共部门的行业云支出总额将高达亿美元。这样一来，华为的金融网络能够获得市场的青睐也就顺理成章了。金融业数字化转型的加速，使得金融云越来越成为行业标配；但金融云的普及，又让传统网络技术架构受到了前所未有的冲击。这样看来，逻辑就简单了：金融业必须先推动传统网络技术架构的升级，促进金融云的普及应用，才能进一步实现自身的数字化转型...

crossoverJie 2019-04-29 19:29 评论0 收藏0
Cube如何助力科盾业务容器化“一步到位”？

前言以Docker为代表的容器技术缩短了企业应用从开发、构建到发布、运行的整个生命周期。Gartner推测到2022年将会有75%的全球化企业将在生产中使用容器化的应用（当前约为30%）。由于Docker往往难以独立支撑起大规模容器化部署，因此诞生了Kubernetes等容器编排工具，解决了大规模容器的组织和管理难题。但事实上，Kubernetes的使用体系还是非常复杂的，对于企业的开...

happyhuangjinjin 2020-12-03 17:00 评论0 收藏0