资讯专栏INFORMATION COLUMN

zookeeper节点注册信息故障处理

IT那活儿 / 963人阅读
zookeeper节点注册信息故障处理

点击上方“IT那活儿”,关注后了解更多精彩内容!!!

背景


随着技术与业务的发展,系统容器化及分布式等开源组件的运用越来越广泛,运维工程师面临着相当大的挑战。现在我就为大家带来一份zookeeper开源组件故障的处理案例,把故障处理的过程分享给大家。


故障处理
某月某日某分某省B中心地市出现订购活动产品失败,报错信息如下图:

通过报错信息推测出该应用系统dsf框架调用192.168.***.***失败(dsf框架是华为研发的一种分布式架构)。
登录k8s确实没有192.168.***.***容器,pod确实消亡了,此时怀疑zookeeper中没有该pod节点的注册信息。
登录任意一台zookeeper服务器,进入zookeeper,查看注册信息:
cd /home/zookeeper/zookeeper/app/zookeeper/bin;
./zkCli.sh -server 10.25.***.**:****


ls /dsf2/pc_expCrmGateService/providers进入后输入以下命令:


注册信息如下:

会显示zookeeper中的各个pod的虚IP,每个虚IP以“,”分隔。
这时需要查看报错中192.168.***.***虚拟IP是否在这些信息中;当时经查询后发现注册信息中是含有这个已经消亡的虚拟IP。
此时初步定位故障原因是容器pod消亡后zookeeper中虚IP未进入黑名单,系统仍调用消亡的pod。
针对这个问题,登录zookeeper后,删除zookeeper注册信息中消亡的容器pod虚IP后,重启云化系统相关容器后,业务恢复正常。
delete 
/dsf2/pc_expCrmGateService/providers/POJO%3A%2F%2F192.168.***.***
%3A29024%2Fpc_expCrmGateService%3Fcategory%3Dproviders%
26application%3Dpc-
gate%26version%3D0.0.0%26dsf%3D2.0%26group%3Ddefault%26weigh
t%3D10%26executes%3D0%26pid%3D763%26methods%3DcommonInvoke%2
Cnotrans_opcodeCall%2CopcodeCall%26interface%3Dcom.huawei.cr
m3ms.frame.service.dict.intf.ICrmGateService%26type%3DPOJO%2
6serviceType%3DDSF%26lang%3Djava%26appInstanceId%3D192.168.***.***
%26clusterId%3D192.168.***.***




后续改进


针对这起故障,增加zookeeper注册信息与容器运行状态一致性监控,用来监控微服务pod消亡后zookeeper中虚IP未进入黑名单问题。





END



更多精彩干货分享

点击下方名片关注

IT那活儿

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129741.html

相关文章

  • 大牛整理的ZooKeeper笔记

    摘要:除此之外,它严格的序列访问控制意味着复杂的控制原语可以应用在客户端上。版本号对节点的每一个操作都将致使这个节点的版本号增加。事件是一次性的触发器,当的对象状态发生改变时,将会触发此对象上所对应的事件。节点事件节点的建立,删除,数据的修改。 目录 一、ZooKeeper概述 二、ZooKeeper数据模型 三、ZooKeeper服务中操作 四、Watch触发器 五、ZooKeeper应用...

    Noodles 评论0 收藏0
  • 微服务之eureka

    摘要:服务器用作服务注册服务器。此时,这个节点对于新的服务还能提供注册服务,对于死亡的仍然保留,以防还有客户端向其发起请求。的构架保证了它能够成为发现服务。 本帖最后由 yqw_gz_java 于 2019-8-15 14:26 编辑 与ZooKeeper 一样eureka 都可以注册服务发现服务CAP定理在分布式系统领域有个著名的CAP定理(C-数据一致性;A-服务可用性;P-服务对网络分...

    Dean 评论0 收藏0
  • 2018年第16周-ZooKeeper基本概念(配搭建过程和Master-Workers例子)

    摘要:有可能是宕机或负荷严重的情况导致的。为分布式系统提供了协调功能和控制冲突。 背景 随着计算机的硬件和操作系统两者相辅相成地发展,从早期的ENIAC计算机到现在的x86的计算机,从以前的单一控制终端(Single Operator, Single Console, SOSC)的操作系统到现在百花争鸣的操作系统(如MacOS、Windows、Linux等),现代的操作系统发展还有一个最重要...

    wemall 评论0 收藏0
  • 2021 年最新基于 Spring Cloud 的微服务架构分析

    摘要:是一个相对比较新的微服务框架,年才推出的版本虽然时间最短但是相比等框架提供的全套的分布式系统解决方案。提供线程池不同的服务走不同的线程池,实现了不同服务调用的隔离,避免了服务器雪崩的问题。通过互相注册的方式来进行消息同步和保证高可用。 Spring Cloud 是一个相对比较新的微服务框架,...

    cikenerd 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<