本文主要是介绍一图梳理性能问题分析排查思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
性能问题分析地毯式排查方法
对于平台提供方来说性能问题协助排查的起点是日志,终点是业务。而研发人员理应是性能问题的第一负责人,多数性能问题与业务的使用方式相关。
性能相关问题及疑难杂症的摸排定位,技术人员不怕bug,怕的是有问题现象却找不到原因。性能问题往往就是没有变更、没有警告、没有报错的三无问题,本文即是一个性能问题的检查单式的分析思路和常用工具方法,用于发现性能问题背后潜伏的罪魁祸首,大纲如图所示。
(获取高清图和xmind源文件方式见文末~)
排查思路讲解
现代复杂的信息技术及大数据分布式环境中,性能问题的分析排查是一个系统性的工程,涉及到多个层面和技术领域的深度协同。因此下面的分类并不是独立的,而是相关交织的线索。
日志
首先,日志作为系统运行过程中的“黑匣子”,记录了系统运行时的各项状态和事件信息,是定位性能瓶颈的关键线索源。通过细致地阅读和分析应用、数据库、操作系统等多维度的日志数据,我们可以发现潜在的问题,如慢查询、阻塞操作、资源争抢等,从而对症下药。
在大数据环境的任务日志要关注的是:
- 应用侧:主程序日志、节点日志、打印信息。
- 服务侧:Master服务、Slave服务、监控系统
- 慢查询日志、慢写入日志(类数据库服务)
- 上下游服务日志(大数据生态关联)
- GC日志(在环境章节)
- 系统日志(在环境章节)
- 特殊现象考虑组件Bug(查社区issue)
机器
其次,硬件(机器)层面的性能状况也不容忽视。CPU使用率、内存占用、磁盘I/O、网络吞吐量等硬件指标直接影响着系统的整体性能表现。例如,若服务器的CPU长期处于高位,或者磁盘I/O出现瓶颈,都可能导致应用程序响应速度下降,引发性能问题。因此,定期对硬件资源进行监控与调优,对于排查性能瓶颈至关重要。
看四大金刚(软件运行于硬件之上,硬件的小问题都可能给软件带来巨大的影响):
- 硬盘:了解构成、确认空间、查看速率使用率、检测坏盘、排查常见的异常
- 网络:看端口占用、看延迟、抖动、丢包信息、看流量、趋势和收发拒绝情况、看链路、TCP连接数
- 内存:看构成、缓存分布、Top应用、Top用户、内存泄露?
- CPU:看型号、NUMA分区、看Top、使用率、负载、排查是否中病毒?
环境
再者,软件环境也是影响性能的重要因素,包括操作系统配置、JVM设置、特定硬件版本等。例如,不当的线程池大小配置可能导致并发处理能力受限;而低效的SQL语句或存在内存泄漏的代码则会持续消耗系统资源,降低系统性能。故深入研究并优化软件环境,能够有效提升系统的稳定性和响应速度。
环境主要看的是:
- JDK:版本类型、使用jdk自带的分析工具进行系统排查、gc日志交给GCeasy、Dump文件交给heapio、怀疑bug
- OS:确认版本、环境变量、查看大部分系统日志、系统配置、进程情况
- 注意系统架构的特殊性、差异
业务
最后,业务侧的需求变化和负载特性同样是引发性能问题的常见原因。例如,在高峰期用户请求量陡增导致系统超负荷运转,或是新功能上线后对系统资源需求激增,都可能诱发性能瓶颈。因此,从业务角度出发,合理预估和规划系统容量,结合实际业务场景进行压力测试与性能调优,才能确保系统在各种复杂业务场景下都能保持高效稳定的运行。
- 观察任务运行的所有参数、特有参数是否异常、用户自定义参数的来龙去脉
- 询问业务流程、知晓数据链路、了解历史任务运行情况、其他业务线是否正常?
- 探查变迁情况,有没遗漏的变动、有无被动修改(被关联组件修改、被关联业务修改)、分析相关代码
上述每一模块的内容较多,另文展开叙述!
与君共赏
《江城子·密州出猎》
(宋·苏轼)
老夫聊发少年狂,左牵黄,右擎苍。
锦帽貂裘,千骑卷平冈。
为报倾城随太守,亲射虎,看孙郎。
酒酣胸胆尚开张,鬓微霜,又何妨!
持节云中,何日遣冯唐?
会挽雕弓如满月,西北望,射天狼。
欢迎关注我的公众号[1024点线面]!
关注后回复"性能分析"获取高清原图和可编辑的xmind
源文件。
这篇关于一图梳理性能问题分析排查思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!