资讯专栏INFORMATION COLUMN

记一起tuxedo中间件服务阻塞故障案例

IT那活儿 / 1775人阅读
记一起tuxedo中间件服务阻塞故障案例


问 题 背 景



某日某系统前端统计分析发现,当天前端调用tuxedo中间件多个服务出现调用时间增长较多,并间歇性出现“服务调用出错.”情况,问题出现时间点短暂无规律,问题持续下去会逐步拉低业务成功率,触及考核。

问题排查难点:1)问题未触发服务排队告警;2)问题出现时间点短暂无规律,不好捕获问题现场。

故障分析过程



一、问题首次出现

情况说明:如问题背景所述,维护人员着手排查。

1、由于tuxedo中间件服务按照地市进行分区,不同地市根据路由信息,通过ESB访问对应区域tuxedo中间件,因此第一时间协调ESB协查服务调用超时记录,确认问题所在区域。

2、经ESB核查发现超时服务情况主要在集中在A区域获取有效tuxedo域信息后,我侧有针对的核查tuxedo系统ULOG日志,发现中间件确实存在对应的应用服务请求阻塞的日志报错信息。


3、排查告警发现未触发告警原因如下:

核查服务排队监控脚本发现,服务队列监控阀值为100,每4四分钟执行一次。服务排队时服务队列未达到阀值,或监控脚本执行时间未出现排队现象。

4、优化监控采集粒度以及告警阈值,待下一次异常时刻捕获现场:

    调整阀值为30,每分钟采集一次;

    同时针对异常服务部署了truss捕获脚本,当触发告警后第一时间执行truss捕获有效信息。

二、问题再次出现

情况说明:第二次凌晨0点10分问题再次出现,同时促发短信告警。

1、 这次我侧提前部署了脚本truss服务进程,抓取到了本次服务异常调用全过程。分析truss输出文件发现服务在 write 1 写操作中,耗时达42秒。


2、Pfiles pid可以看出write 1系服务向中间件主机本地写业务日志

3、比对正常时间段,此本地写日志操作骤耗时均在0.0001~0.0002s左右:


对比怀疑异常时间段中间件主机I/O异常,导致服务调用超时。为确保此次抓取异常非偶然现象,之后进行了第二次抓取,现象与分析结果与上述一致。

4、通知主机端核查接口tuxedo A对应主机I/O是否存在异常。

经主机核查发现主机存在一条存储链路不稳定,并对不稳定链路临时做disabled处理,避免再次影响业务。

5、最终主机侧问题处理后,续持续跟踪观察,故障得到解决。


小    结



    故障相对简单,重在排查思路。针对此类间歇性、偶发性、异常时间很短的故障,首先我们需要确保监控告警能够第一时间捕获异常,如果未触发告警,需第一时间分析、调整告警策略;针对故障时间非常短的情况,需要考虑预置捕获任务,确保能够捕获现场,否则从收到告警到登上服务器,可能故障已经结束了,导致还是没有排查方向;针对tuxedo服务调用故障,要熟练使用truss、trace等相关命令,捕获服务进程对系统调用、接收的信号和进程造成的机器故障的跟踪。


发现“在看”和“赞”了吗,戳我试试吧

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/130045.html

相关文章

  • 基于DevOps、微服务以及k8s的高可用架构探索与实现

    摘要:前言本文给大家分享的题目是基于微服务以及的高可用架构探索与实现。比如说年大地震的时候我正好在东京,当时在做一个金融系统的相关工作。那次大地震导致很多很多的问题,虽然大地震不是在东京发生,但是还是给我们的系统造成了影响。 前言 本文给大家分享的题目是《基于DevOps、微服务以及K8S的高可用架构探索与实现》。整个企业的高可用架构面临很多的挑战,面向微服务、容器化以及敏态交付,是我们现在...

    cnio 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    lauren_liuling 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    ckllj 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    jcc 评论0 收藏0
  • 颠覆微服务认知:深入思考微服务的七个主流观点

    摘要:笔者对微服务系统的观点是,我们从单体系统向微服务系统改造的过程中,需要认真思考什么阶段使用微服务。此外,为了解决服务部署,我们可以考虑通过滚动发布来实现服务的无中断。事实上,微服务保证其服务的整体可用性。 原文地址:梁桂钊的博客博客地址:http://blog.720ui.com 欢迎关注公众号:「服务端思维」。一群同频者,一起成长,一起精进,打破认知的局限性。 一、逃离单体系统,...

    XanaHopper 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<