一次Full GC导致CPU飙升的排查过程

2024-05-08 14:32

本文主要是介绍一次Full GC导致CPU飙升的排查过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 现象
    • 异常分析思考
    • 问题排查
      • 接口调用量异常排查
      • 内存使用率异常排查
      • JVM 对象分配,GC流程
    • 问题处理
    • 问题分析

现象

生产环境突然间大量接口超时告警,监控发现,问题发生的时间,cpu使率飙升,网络磁盘抖动大,内存使用率飙升,大约3-5分钟后系统自动恢复。
cpu,网络监控异常
内存磁盘监控异常

异常分析思考

从监控看到,cpu,内存,磁盘,网络在异常发生时都有明显的抖动。
内存使用率突然飙升,应用IO也突然陡增。猜测可能是该时刻有定时任务,或者大量请求导致。问题发生时刻,细致对比变化时间,发现是首先网络IO飙升,磁盘突然增加,猜测可能是该时刻有大量请求导致。
综合分析下,我们猜测,最大可能是请求量突然暴增,导致系统负载过高,内存,cpu使用率飙升。

问题排查

接口调用量异常排查

根据监控异常,我们猜测最有可能的是该时刻有大量的请求,或者定时任务,导致系统负载突然增加。我们从监控上找到对应的几个问题发生时间段,调用量明显增多的接口。排查代码后,发现没有变更,调用量突然增大是因为cpu异常导致积累了一些请求,所以会看起来调用量突然增加。

内存使用率异常排查

应用异常时,根据监控发现内存使用率飙升,我们找到当时该实例的jvm相关指标监控,发现发生问题时,触发了FullGc,Full Gc次数明显增多,gc耗时增加,堆内存飙升,老年代空间飙升。这里使用的是默认的垃圾收集器 Parallel Scavenge(新生代)+ Serial Old(老年代),后续我们调整为G1垃圾收集器。
下图可见,full gc次数增加多,gc耗时增加,老年代突然增加
绿色的表示Full Gc 黄色的表示young GC
发现老年代突然飙升
错误日志中也有gc oom的日志。超出了GC开销限制,GC占用大量时间为释放很小空间的时候发生的,是一种保护机制。一般是因为堆太小,导致异常的原因:没有足够的内存。
GC错误日志
到这里我们猜测,应该是某个使用率低的接口请求,或者某种特定的条件查询,导致突然加载了大量数据,对象实例过大,内存不够用,大对象进入老年代,触发FullGc,Full Gc导致cpu飙升,造成系统卡顿。下一步是需要找到这个对象,确定是哪一块代码引起的。

JVM 对象分配,GC流程

JVM对象分配,GC过程
因为问题发生时系统卡顿,进入容器已经无法执行堆栈打印,内存快照打印,jvm已经触发了垃圾回收无法查看哪个对象过大导致系统卡顿。这里我们想到的是如何减少gc,尤其是full gc,尽可能的保留大对象,又不影响系统,有利益排查问题。

JVM内存大小设置
在这里插入图片描述

问题处理

因为gc后,系统自动恢复了,无法确定是哪个对象过大,无法定位到具体的问题,只能确定是内存不够,触发full gc,导致cpu飙升系统卡顿。
我们决定调整jvm参数,扩大内存,修改jvm垃圾收集器,扩大内存后,后面还是出现了该问题,不过这次只是cpu飙升,系统没有出现卡顿,出现问题后,我们使用如下命令,查看jvm堆内存快照,线程堆栈,等信息。发现系统cpu飙升的时候,占用cpu高的线程是full gc的线程。
调整参数配置后,容器部署的实例再次出现问题,不过这次出现问题cpu占用比率没有之前高,没有导致整个应用不可用,我们利用下面的命令获取堆内存,线程堆栈,堆内对象大小,进一步分析问题。

//打印内存快照 然后利用MAT工具分析是否存在内存泄漏等等
jmap -J-d64  -dump:live,format=b,file=dumpfile.hprof [pid]
//打印线程堆栈
jstack pid
//查看内存对象大小
jmap -histo  pid | sort -n -r -k 3 | head -20
查看进程里面占用cpu高的线程
ps -mp pid -o THREAD,tid,time | sort -k2r

打印的线程堆栈,发现有线程正在进行垃圾回收,对应的线程id转成16进制是 14 15 16
线程堆栈
查看线程发现占用cpu高的线程正是正在进行垃圾回收的那几个线程,对应的线程id是 14 15 16 跟进行垃圾回收的线程id一致
占用cpu高的线程
因为这次调整了堆内存大小,触发问题后,没有进行full gc,对象还在,查看内存对象占用比,发现相关代码问题,一次性加载了150万的实例到对象中,调整内存之前加载该对象后,导致内存飙升,触发gc,进而引起cpu使用率飙升。

问题分析

最终发现是一条sql在特殊情况下,会没有带上任何条件,把整张表的数据加载出来了。后续对于这种情况,需要增加sql监控,返回条数过对的需要有对应的告警。提前暴露风险。

这篇关于一次Full GC导致CPU飙升的排查过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/970584

相关文章

最新版IDEA配置 Tomcat的详细过程

《最新版IDEA配置Tomcat的详细过程》本文介绍如何在IDEA中配置Tomcat服务器,并创建Web项目,首先检查Tomcat是否安装完成,然后在IDEA中创建Web项目并添加Web结构,接着,... 目录配置tomcat第一步,先给项目添加Web结构查看端口号配置tomcat    先检查自己的to

SpringBoot集成SOL链的详细过程

《SpringBoot集成SOL链的详细过程》Solanaj是一个用于与Solana区块链交互的Java库,它为Java开发者提供了一套功能丰富的API,使得在Java环境中可以轻松构建与Solana... 目录一、什么是solanaj?二、Pom依赖三、主要类3.1 RpcClient3.2 Public

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SpringBoot整合kaptcha验证码过程(复制粘贴即可用)

《SpringBoot整合kaptcha验证码过程(复制粘贴即可用)》本文介绍了如何在SpringBoot项目中整合Kaptcha验证码实现,通过配置和编写相应的Controller、工具类以及前端页... 目录SpringBoot整合kaptcha验证码程序目录参考有两种方式在springboot中使用k

电脑多久清理一次灰尘合? 合理清理电脑上灰尘的科普文

《电脑多久清理一次灰尘合?合理清理电脑上灰尘的科普文》聊起电脑清理灰尘这个话题,我可有不少话要说,你知道吗,电脑就像个勤劳的工人,每天不停地为我们服务,但时间一长,它也会“出汗”——也就是积累灰尘,... 灰尘的堆积几乎是所有电脑用户面临的问题。无论你的房间有多干净,或者你的电脑是否安装了灰尘过滤器,灰尘都

SpringBoot整合InfluxDB的详细过程

《SpringBoot整合InfluxDB的详细过程》InfluxDB是一个开源的时间序列数据库,由Go语言编写,适用于存储和查询按时间顺序产生的数据,它具有高效的数据存储和查询机制,支持高并发写入和... 目录一、简单介绍InfluxDB是什么?1、主要特点2、应用场景二、使用步骤1、集成原生的Influ

SpringBoot实现websocket服务端及客户端的详细过程

《SpringBoot实现websocket服务端及客户端的详细过程》文章介绍了WebSocket通信过程、服务端和客户端的实现,以及可能遇到的问题及解决方案,感兴趣的朋友一起看看吧... 目录一、WebSocket通信过程二、服务端实现1.pom文件添加依赖2.启用Springboot对WebSocket

使用Python检查CPU型号并弹出警告信息

《使用Python检查CPU型号并弹出警告信息》本教程将指导你如何编写一个Python程序,该程序能够在启动时检查计算机的CPU型号,如果检测到CPU型号包含“I3”,则会弹出一个警告窗口,感兴趣的小... 目录教程目标方法一所需库步骤一:安装所需库步骤二:编写python程序步骤三:运行程序注意事项方法二

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp