资讯专栏INFORMATION COLUMN

记一次线上频繁FGC的事件和解决方式

Alliot / 2340人阅读

摘要:直接显示了一个疑似内存泄漏的问题。然后分析文件给出的信息,发现一个叫的类。文件里面说的内存泄漏的大概的意思就是说,这个类里面的存放的东西太多了,爆掉了。修改了代码将调用的地方改成了单例。修改完线上跑了一段日子,后来也没有出现过这样的问题。

问题描述:

    早上去公司上班,突然就邮件一直报警,接口报异常,然后去查服务器的运行情况,发现java的cpu爆了.接着就开始排查问题

问题解决过程:

1.先服务器(centos7)上,使用了top和uptime命令,发现时java的cpu爆了,超过100%了,导致后续的服务无法正常提供;
2.调整了负载均衡,下掉了有问题的那几台机器;
3.使用jps找到了运行着的tomcat的pid,这里假设为10086;
4.使用jstat -gcutil 10086 500 10 (意思是对pid为10086的线程,每500ms显示各分代的内存使用情况), 这里给一下部分jvm的参数设置,如下:
可以看到对新生代使用的是ParNew收集器,对老年代使用的是CMS收集器,CMSInitiatingOccupancyFraction=80说明当使用率超过80%的时候触发垃圾回收。然后发现,线上老年代一直超过80%的使用率,几乎一秒不到就进行了一次FGC,这么频繁的FGC导致了服务无法正常运行;
5.使用jmap -histo 查看了是哪些对象的数量最多,如果参数是-histo:live的话,会在进行一次FGC后,显示当前的使用数量最多的实例。查看后发现有大量的ConcurrentHashMap的Node节点实例,于是去代码中搜索使用到ConcurrentHashMap的地方,有好几处使用比较频繁的地方,看了代码后分析,可能是图片上传,下载的问题,但也不能断定。
6.使用jmap -dump:format=b,file=/usr/local/tomcat/dump1将内存的情况给拉下来.如下:
文件生成后,将dump1放入到eclipse的mat中进行分析。直接显示了一个疑似内存泄漏的问题。然后分析dump文件给出的信息,发现一个叫IdleConnectionReaper的类。dump文件里面说的内存泄漏的大概的意思就是说,IdleConnectionReaper这个类里面的ArrayList存放的东西太多了,爆掉了。如下:

从oss的jar包里面找到这个类以后,简单的看一下这个类的构成,如下:

通过查找一些官方的资料和源代码的阅读,发现这个是一个oss的守护线程,用来检测上传或者下载的工作线程,每60秒就会去检查一下空闲的工作线程,并且将它们回收。然后它内部有一个静态的ArrayList,里面保存的是ossClient的链接,默认是1024个。
7.所以大概原因找到了,就是ossClient的链接太多了,扛不住了,所以一直在进行FGC,导致服务不可用了,最后找到相关的代码,发现有个小方法里面在每次上传或者下载的时候,都会去创建一个ossClient。修改了代码将ossClient调用的地方改成了单例。修改完线上跑了一段日子,后来也没有出现过这样的问题。

总结:

1.大量的请求,调用的地方要注意是否会导致内存的大量消耗,尽可能使用池化技术,单例等,减少创建,销毁的系统开销;
2.CMS 的几个缺点,可以参考《深入java虚拟机》,对CPU占用会比较高,无法处理浮动垃圾,还有就是CMS使用的是标记-清除算法,会导致大量的空间碎片,碎片过多的话,导致分配大对象很困难,所以不得不进行FGC,也可能是这个原因导致了本文说的一直FGC的问题。解决方式:
-XX:+UseCMSCompactAtFullCollection:使用并发收集器时,开启对年老代的压缩(会整理内存碎片,默认是开启的);
-XX:CMSFullGCsBeforeCompaction=0:上面配置开启的情况下,这里设置多少次Full GC后,对年老代进行压缩,会使得FGC的时间变长,但是可以提升内存空间的使用率,让大对象可以更容易分配,而不需要多次FGC。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/73635.html

相关文章

  • 一次JVM调优

    摘要:现象登入生产环境,使用命令因为这时候并没有打的,所以只能观察现象。其他的可以根据这个类推,是内纯的占用量。 前言 我们的游戏上线之初,经常有玩家反馈卡,或者有网络延迟等现象,造成用户流失等现象,这时候我就想到是不是可能是之前的jvm配置有问题,或者存在内存泄露等问题。 现象 登入生产环境,使用命令,因为这时候并没有打gc的log,所以只能观察现象。 jstat -gcutil 270...

    sugarmo 评论0 收藏0
  • 记一线上bug处理-mybatis一级缓存引起

    摘要:问题线上定时任务计算出的金额不对定位问题查看日志好像也执行了但是金额为什么和数据库的表里的不一致再查整个的定时任务日志日切日期 问题: 线上riskProvision定时任务,计算出的金额不对 定位问题: 查看日志 4.13 riskProvision 2017-04-13 01:10:00.009 [org.springframework.scheduling.quartz....

    sean 评论0 收藏0
  • Excel大批量数据导入导出,如何做优化?

    摘要:并且在对的抽象中,每一行,每一个单元格都是一个对象。对支持使用官方例子需要继承,覆盖方法,每读取到一个单元格的数据则会回调次方法。概要Java对Excel的操作一般都是用POI,但是数据量大的话可能会导致频繁的FGC或OOM,这篇文章跟大家说下如果避免踩POI的坑,以及分别对于xls和xlsx文件怎么优化大批量数据的导入和导出。一次线上问题这是一次线上的问题,因为一个大数据量的Excel导出...

    Tecode 评论0 收藏0
  • 线上问题排查所引发思考

    摘要:直到有一天你会碰到线上奇奇怪怪的问题,如线程执行一个任务迟迟没有返回,应用假死。正好这次借助之前的一次生产问题来聊聊如何排查和解决问题。本地模拟上文介绍的是线程相关问题,现在来分析下内存的问题。尽可能的减少多线程竞争锁。 showImg(https://segmentfault.com/img/remote/1460000015568421?w=2048&h=1150); 前言 之前或...

    levy9527 评论0 收藏0

发表评论

0条评论

Alliot

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<