资讯专栏INFORMATION COLUMN

ABRTD进程引发ES血案的故事

IT那活儿 / 1633人阅读
ABRTD进程引发ES血案的故事
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

故障背景

某集团割接,数据同步验证日志一致性时,连接ES失败,无法写入和读取,es数据写入不了,影响最新日志入es,应用割接大部分厂商需要查询最新的日志,间接影响到了割接进度,为了保障业务恢复,秉承先抢通后抢修原则,在上级领导及业务厂商沟通下,立即启用应急处理措施,进行切换至灾备ES,切换后索引读写正常,通知厂商恢复业务。


故事发生过程

晚上吃完饭,和同事一起赶现场做好支撑准备,我们说,今天割接非常顺利,没什么异常,早点回去休息,正要回去的时候, 突然有个业务系统说,查询日志异常,我们马上查询一下手机短信,未发现什么异常短信,是否是业务误报,不管了,以‘飞奔‘的速度跑回现场,所有领导已在现场,下面我们就展开了一系列分析。
我们这套ES是6主机24节点的集群,专门提供业务日志写入,打开kibana看所有集群节点也都正常,看状态也是Green 。
但是集群写入失败,肯定存在问题,于是看看节点情况,结果节点的索引信息获取失败,ES集群命令已经查不到ES集群节点信息及索引信息,此时需通过日志来分析为什么会如此
分析ES集群日志,发现日志中最早的报错信息发生在5点33分39秒左右,报错信息为连接超时导致无法获取集群和索引信息,并且其它节点也有超时现象。
存在ES节点超时,就会触发ES集群索引分片重新路由分配,分片移动到其它节点导致磁盘占比上升,引发es集群自动触发提高磁盘水位,过高的IO和负载使整个集群Hang住,
此时ES级别分析完成,是185节点与集群通信失败超时,处于假死状态,而为什么185节点会这样,我们进一步对操作系统进行分析,通过自动化运维平台,发现6台主机,有其中一个主机的负载故障前非常高,于是对操作日志进行分析, 检查操作系统messages信息,发现185存在系统守护进程abrtd异常导致连接数过多及主机hang现象:
abrtd: Too many clients, refusing connections to 
/var/run/abrt/abrt.socketAug 21 05:33:37 hnes09 kernel: 
INFO: task java:21133 blocked for more than 120 seconds.Aug
21 05:33:37 hnes09 kernel: "echo 0 >
/proc/sys/kernel/hung_task_timeout_secs" disables this message.
我们通过日志发现引发这台主机的‘罪魁祸首’是abrtd进程引起,而该进程是在操作系统BUG或异常情况会触发,由于是开源的centos未有相应dump生成,只能先重启主机解决。

重启主机并重启ES集群 ,查看 es日志显示集群状态正常,集群包含的6台主机共24个节点正常加入集群,集群恢复正常,kibana访问正常。

为了防止后续重蹈覆辙,在其它的未发生故障的主机进行梳理,并停止abrtd进程服务,至此整个事件告一段落。

故事发生引发的思考:

在我们未来的运维场景越来越复杂的情况下,开源组件会越来越多,业务使用开源的场景也会增多,单纯的技术深度已无法满足未来的需求,我们应该从架构设计出发,在出现问题的时候架构上做冗余,秉承‘业务优先,先抢通后抢修’的原则,在日常运维中使用平台工具代替手工劳作。真正意义实现’故障来了我不背锅’。

文章首发于2021年9月15日




本文作者:唐田寿(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129232.html

相关文章

  • 增量部署class文件引发血案

    摘要:背景项目中通过远程调用服务框架调用了许多其它的服务其中有一个服务需要升级其升级不是版本上的升级而是整个服务重新取了一个名字使用的也是全新的包但是调用的方法没有改变因此在升级时只是在调用服务类中修改了调用地址和调用返回实体由改为该中返回该调用 背景 项目中通过远程调用服务框架调用了许多其它的服务,其中有一个服务wx/subscribe/contract/CircleService 需要升...

    lolomaco 评论0 收藏0
  • 记一次Content-Length引发血案

    摘要:除非使用了分块编码,否则首部就是带有实体主体的报文必须使用的。 背景 新项目上线, 发现一个奇怪的BUG, 请求接口有很小的概率返回400 Bad Request,拿到日志记录的请求的参数于POSTMAN中测试请求接口, 发现能够正常响应. 排查过程 首先服务器能够正常响应400 Bad Request, 排除接口故障问题. 对比日志过程中发现 { hello:world ...

    thekingisalwaysluc 评论0 收藏0
  • 一道JS面试题引发血案

    摘要:项目组长给我看了一道面试别人的面试题。打铁趁热,再来一道题来加深下理解。作者以乐之名本文原创,有不当的地方欢迎指出。 showImg(https://segmentfault.com/img/bVbur0z?w=600&h=400); 刚入职新公司,属于公司萌新一枚,一天下午对着屏幕看代码架构时。BI项目组长给我看了一道面试别人的JS面试题。 虽然答对了,但把理由说错了,照样不及格。 ...

    fantix 评论0 收藏0
  • 一个由“大头儿子带小头儿子吃饭”引发血案

    摘要:在群里讨论,然后得出了这几种写法,感觉是层层递进,想了想,最后选择发布成文章大头儿子小头爸爸叫去吃饭大头儿子小头爸爸叫去吃饭大头儿子小头爸爸叫去吃饭吃完了背小头儿子回去正在牵着的手正在吃给所有对象扩展一个继承的方法继承爸爸要继承人的功能正在 在群里讨论JavaScript,然后得出了这几种写法,感觉是层层递进,想了想,最后选择发布成文章 ({ baby : 大头儿子, ...

    forrest23 评论0 收藏0
  • 空数组返回true引发血案

    摘要:但是在这个判断的情况下,则会很神奇的发现打印出来了,说明此时为,为什么呢因为这里执行了一个对象到布尔值的转换故返回。     之前做项目的时候,总会处理各式各样的数据,来进行绘图。但是当后台返回一个空数组的时候,页面中并不会显示没有数据的图。代码如下: var arr = [] if(arr){console.log(124)}else{console.log(无数据)} 我明明判断了...

    piglei 评论0 收藏0
  • 在PHP应用程序开发中不正当使用mail()函数引发血案

    摘要:在我们向厂商提交漏洞,发布了相关的漏洞分析文章后,由于内联函数导致的类似安全问题在其他的应用程序中陆续曝出。浅析的函数自带了一个内联函数用于在应用程序中发送电子邮件。 前言 在我们 挖掘PHP应用程序漏洞 的过程中,我们向著名的Webmail服务提供商 Roundcube 提交了一个远程命令执行漏洞( CVE-2016-9920 )。该漏洞允许攻击者通过利用Roundcube接口发送一...

    Galence 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<