摘要:健全的告警分析体系真正认识你的团队好的告警分析机制能够帮助管理者分析团队整体的工作情况,根据作为评判标准。根据告警内容分析也是很有必要的,能够帮助团队管理者对资源进行适当的调整,工作重心的调整。
「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。
如果你运维一线人员,是否会遇到以下情况:
公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会导致工作效率的下降。改善的方法有很多,比如团队内部多一些沟通,然而沟通的成本也是非常高的。解决问题应该从源头出发,治标不治本的方法还是应该适当采取。也许你在创业团队工作,团队中只有一个人,但是也希望你能读完本篇文章,等团队壮大之后也会有帮助!
单一的告警通知方式会麻木运维同学的工作思维,一天 24 小时接收的都是邮件或者短信的告警通知。我们更希望白天工作时间使用邮件、微信、APP 等轻量级的通知方式,晚上休息时间使用短信、电话等偏重的通知方式。这样不仅白天能够提高工作效率,而且能够晚上好好休息,不用担心告警疏漏。如果能有排班通知,那么就真正能「睡个好觉」了。
如果你是运维 Team Leader,是否会遇到以下情况:
如果你是团队的管理人员,是否会遇到以下情况:
团队一直在解决故障,但对系统性能没有整体的把握;你对团队、成员的工作量,工作效率没有全面的了解。你肯定不希望这样管理你的团队,不希望团队重复解决某些事情,更不希望因为这些问题让团队士气低落,觉得工作没有干劲。
团队一直在重复解决某一故障,但是却因为缺少一个好的分析工具,导致无用功重复执行。比如经常收到「127.0.0.1」服务器内存使用率超过90%,严重级别高’的告警消息,通过对告警消息分析,此告警消息在本月出现频率最高,此时是否能够根据此告警对服务器做出一些硬件上的调整来减少告警的噪声?
解决以上可能出现的问题,你需要:
合适通知体系
合理的通知方式
健全的告警分析机制
合适的通知体系 ------- 你的锅你来背
根据不同的主机组把告警发给不同的一线成员,可有效解决告警分派的问题,并且能够使团队责任划分清晰。每个人负责一部分服务器,出现问题之后,告警消息只会通知自己,避免对其他同事的工作造成干扰。那如果这位同事遗漏了告警怎么办?告警消息不被团队的其他人知晓,解决时间会存在严重的问题。这时需要一个有效的升级机制,告警在设置时间内不确认、不解决的时候,会升级到二线值班人员,二线一般都是领导级别的了,如果告警真的升级了,那你就…………。所以在第一时间接收到告警消息,第一时间解决掉是非常关键的,这时我们就需要有多种通知方式,合理的通知方式。
合理的通知方式 ------- 对的时间遇上对的人
不要在错的时间遇上对的人。 当告警消息来了,选择一个好的通知方式是至关重要的。比如白天工作时间,告警消息的推送只需要通过微信、邮件的方式。而晚上下班时间休息时间,告警消息推送可以选择短信和电话两种方式进行通知,灵活的通知方式能够达到事半功倍的效果。告警通知很及时,那怎么衡量团队的工作效率、个人的工作效率呢?根据什么标准来衡量呢?这时有一个健全告警分析机制是很关键的。
健全的告警分析体系 ------- 真正认识你的团队
好的告警分析机制能够帮助管理者分析团队整体的工作情况,根据 MTTR 作为评判标准。通过告警分析能够分析出某一告警应用某段时间内处理情况。
根据告警内容分析也是很有必要的,能够帮助团队管理者对资源进行适当的调整,工作重心的调整。
当然对团队成员的工作进行分析也是非常有必要的,OneAlert 对成员处理告警的分析即将上线。
健全的告警分析是一个运维管理团队必须的,我们能够在其中发现很多的团队问题,然后进行适当的调整,把团队的整体 KPI 提高,士气提高!希望本篇文章能够对你有用。
OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。
本文转自 OneAPM 官方博客
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/7961.html
摘要:随着人工智能时代的到来,携程生产环境运维进入了新的运维时代。本文选取了几种典型的运维场景对在携程的践行展开了介绍,首先让我们从概念认识下。针对应用异常指标检测这种场景,抽取一定的样本统计,在基于专家经验标注下的准确率可达到以上,召回率接近。 作者简介徐新龙,携程技术保障中心应用管理团队高级工程师,负责多个AIOps项目的设计与研发。信号处理专业硕士毕业,对人工智能、机器学习、神经网络及数学有...
摘要:平均解决事件解决时间是衡量业务准备的最佳标准。平均每小时折合损失。说明整个团队的响应及时率是不错的。小结致力减少告警数量及时响应如果不能及时响应,能够升级处理,最终提升解决时间,个核心关键指标是运维支撑工作非常关键的指标。 很难说,生活在这个数据大爆炸的时代对运维同学是福还是祸。灵活的监控系统、开放 API 和易用的数据可视化资源可以将任何想要的数据图表化地显示出来,但是,过多的数据容...
摘要:例如,把提示无效信用卡账号的告警替换为一个可执行的告警,比如指示用户支付成功率急剧下降的告警可能系统会做出较大的变化,需要回滚操作。因此,不断完善告警也是同样非常重要的,所以要养成定期浏览和删除不可执行告警的习惯。 对于运维团队而言,很多告警其实并不能帮助他们解决掉实际的问题,相反有时会加重多余的负担,这主要是因为大多数的告警并不具备足够的可执行性: 它们指出的问题压根儿不需要响应 ...
摘要:导读为数人云系列活动专题,本文是月日北京站线下活动当西方的遇上东方的互联网中京东金融王超老师的分享。王超京东金融企业高级目前在京东金融平台负责一个人左右的应用运维团队团队,也曾负责人人网团队。 导读:[GO SRE!] 为数人云SRE系列活动专题,本文是3月4日北京站线下活动当西方的SRE遇上东方的互联网中京东金融王超老师的分享。 他将从SRE,Devops, PE间的关系开始,介绍企...
摘要:导读为数人云系列活动专题,本文是月日北京站线下活动当西方的遇上东方的互联网中京东金融王超老师的分享。王超京东金融企业高级目前在京东金融平台负责一个人左右的应用运维团队团队,也曾负责人人网团队。 导读:[GO SRE!] 为数人云SRE系列活动专题,本文是3月4日北京站线下活动当西方的SRE遇上东方的互联网中京东金融王超老师的分享。 他将从SRE,Devops, PE间的关系开始,介绍企...
阅读 2697·2023-04-25 21:26
阅读 1516·2021-11-25 09:43
阅读 1950·2019-08-30 15:52
阅读 934·2019-08-30 14:05
阅读 2615·2019-08-29 16:10
阅读 414·2019-08-29 13:48
阅读 1862·2019-08-29 12:47
阅读 1301·2019-08-23 18:04