一图梳理性能问题分析排查思路

2024-03-25 16:20

本文主要是介绍一图梳理性能问题分析排查思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

性能问题分析地毯式排查方法

对于平台提供方来说性能问题协助排查的起点是日志,终点是业务。而研发人员理应是性能问题的第一负责人,多数性能问题与业务的使用方式相关。

性能相关问题及疑难杂症的摸排定位,技术人员不怕bug,怕的是有问题现象却找不到原因。性能问题往往就是没有变更、没有警告、没有报错的三无问题,本文即是一个性能问题的检查单式的分析思路和常用工具方法,用于发现性能问题背后潜伏的罪魁祸首,大纲如图所示。

(获取高清图和xmind源文件方式见文末~)

排查思路讲解

现代复杂的信息技术及大数据分布式环境中,性能问题的分析排查是一个系统性的工程,涉及到多个层面和技术领域的深度协同。因此下面的分类并不是独立的,而是相关交织的线索。

日志

首先,日志作为系统运行过程中的“黑匣子”,记录了系统运行时的各项状态和事件信息,是定位性能瓶颈的关键线索源。通过细致地阅读和分析应用、数据库、操作系统等多维度的日志数据,我们可以发现潜在的问题,如慢查询、阻塞操作、资源争抢等,从而对症下药。

在大数据环境的任务日志要关注的是:

  • 应用侧:主程序日志、节点日志、打印信息。
  • 服务侧:Master服务、Slave服务、监控系统
  • 慢查询日志、慢写入日志(类数据库服务)
  • 上下游服务日志(大数据生态关联)
  • GC日志(在环境章节)
  • 系统日志(在环境章节)
  • 特殊现象考虑组件Bug(查社区issue)

机器

其次,硬件(机器)层面的性能状况也不容忽视。CPU使用率、内存占用、磁盘I/O、网络吞吐量等硬件指标直接影响着系统的整体性能表现。例如,若服务器的CPU长期处于高位,或者磁盘I/O出现瓶颈,都可能导致应用程序响应速度下降,引发性能问题。因此,定期对硬件资源进行监控与调优,对于排查性能瓶颈至关重要。

看四大金刚(软件运行于硬件之上,硬件的小问题都可能给软件带来巨大的影响):

  1. 硬盘:了解构成、确认空间、查看速率使用率、检测坏盘、排查常见的异常
  2. 网络:看端口占用、看延迟、抖动、丢包信息、看流量、趋势和收发拒绝情况、看链路、TCP连接数
  3. 内存:看构成、缓存分布、Top应用、Top用户、内存泄露?
  4. CPU:看型号、NUMA分区、看Top、使用率、负载、排查是否中病毒?

环境

再者,软件环境也是影响性能的重要因素,包括操作系统配置、JVM设置、特定硬件版本等。例如,不当的线程池大小配置可能导致并发处理能力受限;而低效的SQL语句或存在内存泄漏的代码则会持续消耗系统资源,降低系统性能。故深入研究并优化软件环境,能够有效提升系统的稳定性和响应速度。

环境主要看的是:

  • JDK:版本类型、使用jdk自带的分析工具进行系统排查、gc日志交给GCeasy、Dump文件交给heapio、怀疑bug
  • OS:确认版本、环境变量、查看大部分系统日志、系统配置、进程情况
  • 注意系统架构的特殊性、差异

业务

最后,业务侧的需求变化和负载特性同样是引发性能问题的常见原因。例如,在高峰期用户请求量陡增导致系统超负荷运转,或是新功能上线后对系统资源需求激增,都可能诱发性能瓶颈。因此,从业务角度出发,合理预估和规划系统容量,结合实际业务场景进行压力测试与性能调优,才能确保系统在各种复杂业务场景下都能保持高效稳定的运行。

  • 观察任务运行的所有参数、特有参数是否异常、用户自定义参数的来龙去脉
  • 询问业务流程、知晓数据链路、了解历史任务运行情况、其他业务线是否正常?
  • 探查变迁情况,有没遗漏的变动、有无被动修改(被关联组件修改、被关联业务修改)、分析相关代码

上述每一模块的内容较多,另文展开叙述!


与君共赏

《江城子·密州出猎》
(宋·苏轼) 
老夫聊发少年狂,左牵黄,右擎苍。 
锦帽貂裘,千骑卷平冈。 
为报倾城随太守,亲射虎,看孙郎。 
酒酣胸胆尚开张,鬓微霜,又何妨! 
持节云中,何日遣冯唐? 
会挽雕弓如满月,西北望,射天狼。

欢迎关注我的公众号[1024点线面]!

关注后回复"性能分析"获取高清原图和可编辑的xmind源文件。

这篇关于一图梳理性能问题分析排查思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/845558

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

element-ui下拉输入框+resetFields无法回显的问题解决

《element-ui下拉输入框+resetFields无法回显的问题解决》本文主要介绍了在使用ElementUI的下拉输入框时,点击重置按钮后输入框无法回显数据的问题,具有一定的参考价值,感兴趣的... 目录描述原因问题重现解决方案方法一方法二总结描述第一次进入页面,不做任何操作,点击重置按钮,再进行下

解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题

《解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题》本文主要讲述了在使用MyBatis和MyBatis-Plus时遇到的绑定异常... 目录myBATis-plus-boot-starpythonter与mybatis-spring-b

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

如何安装HWE内核? Ubuntu安装hwe内核解决硬件太新的问题

《如何安装HWE内核?Ubuntu安装hwe内核解决硬件太新的问题》今天的主角就是hwe内核(hardwareenablementkernel),一般安装的Ubuntu都是初始内核,不能很好地支... 对于追求系统稳定性,又想充分利用最新硬件特性的 Ubuntu 用户来说,HWEXBQgUbdlna(Har