取经阿里十年技术大佬,得到Java线上问题排查攻略!

本文主要是介绍取经阿里十年技术大佬,得到Java线上问题排查攻略!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文收录于JavaStarter ,里面有我完整的Java系列文章,学习或面试都可以看看

(一)前言

再牛逼的程序员都写不出完美无缺的代码,作为后端开发工程师,一不小心就会遇到线上故障。如果线上故障处理不及时,就可能导致各种严重的后果。恰好最近部门出现了一次挺严重但幸运的是影响面不大的线上故障,最后在阿里工作十年的leader分享了线上问题的排查思路。结合这次分享,写下了这篇Java线上问题排查攻略。

(二)问题发生后的首要工作

一般来说,线上的问题在发生之前会有一系列的预警,比如CPU被打满,网络达到顶峰等等问题。然后就是客户或者用户的反馈,比如某某页面打不开,系统加载很慢,一直提示报错等等。

这个时候的应急操作是首先记录问题发生时的情况:包括服务器的情况,Java虚拟机的一些情况,数据库的连接情况等等,然后尽快让用户能正常使用系统。常用的方法就是系统降级:即让出问题的服务先停掉。或者代码回滚:往往问题都是在代码更新后出现的。或是重启大法,要尽快的保证用户能正常使用。

(三)线上问题异常及可能的原因

出现问题时最先需要记录的是线上的各项异常指标。

3.1 应用层面

应用层面的排查主要是CPU、load、内存以及网络

3.1.1 CPU

top命令查看CPU占用情况,基本参数如下:

如果发现CPU占用率很高,这个时候就要考虑CPU跑满的原因:

1、FULL GC 频繁

2、有非常耗CPU的操作

同时,可以通过一些命令将CPU占用最高的几个线程查看出来

ps -ef | grep java 或者 jps 找到pid
top -Hp pid 找到使用CPU最高的线程
printf '0x%x' tid 线程id转化为16进制
jstack pid |grep tid 找到线程堆栈

除此之外,也可以使用一些外部的检测工具比如arthas

3.1.2 Load

load指的是一段时间内CPU正在处理及等待的任务数,也是通过top命令:

load average: 0.14,0.21,0.35,分别表示1分钟、5分钟、15分钟内系统的平均负荷。

Load会有两种场景:

CPU高,Load高:先查CPU利用率的问题

CPU不高,Load高:大部分情况都是因为磁盘读写请求过多导致大量IO等待,可通过:

jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈

3.1.3 内存

内存的异常往往可以通过报错得知,常见的异常有如下几种:

OutOfMemoryError:java heap space
OutOfMemoryError: GC overhead limit exceeded  默认情况下, 如果GC花费的时间超过 98%, 并且GC回收的内存少于 2%, JVM就会抛出这个错误
OutOfMemoryError:permgem space 元数据大小超过jvm参数配置
OutOfMemoryErrorMetaspace 元数据大小超过jvm参数配置
java.lang.StackOverflowError 一般线程栈溢出是由于递归太深或方法调用层级过多导致的

排查流程如下:

1、查看当前jvm内存的参数配置:jmap -heap pid

2、查看gc情况:jstat -gcutil pid

3、内存dump:jmap -dump:format=b,file=/tmp/dump.dat pid 这个命令在线上慎用,会导致系统变慢

4、内存分析工具分析

3.1.4 网络

出现网络问题的现象主要有两点:

1、http链接无法建立,有大量close_wait的tcp连接

2、tcp重传率高

关于网络问题,我在上家公司刚好遇到过,大量的等待tcp连接导致系统濒临宕机,后来发现是网络带宽500M变成了200M的问题。

3.2 数据库层面

除了应用之外,第二点可能会出现问题的就是数据库了

3.2.1 CPU打满

数据库服务器的cpu被打满,原因可能是:

1、大数据量查询没有走索引,导致慢sql的出现

2、sql中存在各种导致索引失效的操作

问题解决方式:

通过运维工具(比如rds)找到sql执行时间最长的top10,通过explain查看sql执行是否走了索引,然后加索引优化。

3.2.2 网络流量飙升

原因可能是:

1、sql没有设置limit导致全部数据返回

2、sql的请求数量快速增加

解决方式:

1、在搜索代码中务必加上limit

2、运维工具查看异常时间段的sql执行情况

3.2.3 系统资源正常,sql一直阻塞

原因可能是:

1、一些sql操作导致锁表

解决方式:

1、通过数据库监控工具查找执行时间长的sql

2、将执行时间长的sql直接kill掉

(四)总体的问题排查流程

第三节主要介绍了详细的问题产生可能原因以及解决办法,这一节主要讲问题的排查流程:

4.1 及时收集信息

问题的故障点是很重要的,如果不清楚问题发生的原因,那就说明下次依旧可能发生,因此要将故障信息尽快收集起来,同时做好应用的监控。

4.2 定位原因

问题发生百分之95的原因是近期做了变更,思考近期变更的地方:

1、代码是否有更新

2、数据库是否有变更

3、网络是否做了切换

4、其他应用是否会影响你的应用

5、是否有流量突然变大的情况

同时收集日志、通过工具辅助定位原因,常用的工具有arthas

4.3 快速响应

在尽可能快的时间里将系统还原:

1、如果是代码更新导致,回滚代码

2、如果是数据库变更导致,切换回来

3、如果是网络做了调整,联系网管

4、如果是其他应用的影响,联系其他应用降级

5、如果是流量突然增大,限流

6、实在不知道怎么办,重启

(五)总结

当问题出现时,主要负责人很可能会慌到大脑一片空白,这个时候一定要有人一起解决问题。按照排查的思路,一步步排查。另外很多事故可能是因为一些简单的问题导致,比如网络带宽、索引失效,因此从一些小的问题点出发。另外整个流程有一张脑图,如果需要的话可以联系我。我是Java鱼仔,我们下期再见!

这篇关于取经阿里十年技术大佬,得到Java线上问题排查攻略!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817146

相关文章

Java利用docx4j+Freemarker生成word文档

《Java利用docx4j+Freemarker生成word文档》这篇文章主要为大家详细介绍了Java如何利用docx4j+Freemarker生成word文档,文中的示例代码讲解详细,感兴趣的小伙伴... 目录技术方案maven依赖创建模板文件实现代码技术方案Java 1.8 + docx4j + Fr

SpringBoot首笔交易慢问题排查与优化方案

《SpringBoot首笔交易慢问题排查与优化方案》在我们的微服务项目中,遇到这样的问题:应用启动后,第一笔交易响应耗时高达4、5秒,而后续请求均能在毫秒级完成,这不仅触发监控告警,也极大影响了用户体... 目录问题背景排查步骤1. 日志分析2. 性能工具定位优化方案:提前预热各种资源1. Flowable

基于SpringBoot+Mybatis实现Mysql分表

《基于SpringBoot+Mybatis实现Mysql分表》这篇文章主要为大家详细介绍了基于SpringBoot+Mybatis实现Mysql分表的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录基本思路定义注解创建ThreadLocal创建拦截器业务处理基本思路1.根据创建时间字段按年进

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J