定位分析RCU stall问题

2023-12-09 23:29
文章标签 分析 问题 定位 rcu stall

本文主要是介绍定位分析RCU stall问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用RCU_CPU_STALL_CPUTIME

=====================

在编译内核时打开CONFIG_RCU_CPU_STALL_CPUTIME=y或者在启动参数中增加
rcupdate.rcu_cpu_stall_cputime=1, 这样在发生RCU STALL告警时就会有下面附加信息:

  rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624         45            0rcu: cputime:       69          1         2425   ==> 2500(ms)

这样统计信息是在采样周期中收集的。其中number行分别是发生stalled的cpu上的硬中断,软中断,和上下文的切换次数
cputime行的前三列分别是硬中断,软中断和任务消耗的cpu时间,单位为ms.最后一个数字是统计的周期时间(ms).
因为用户态的任务通常不会引起RCU CPU stalls,所以任务通常是内核任务,这也是为什么只统计system cpu的原因.

采样周期如下图所示::

  |<------------first timeout---------->|<-----second timeout----->||<--half timeout-->|<--half timeout-->|                          ||                  |<--first period-->|                          ||                  |<-----------second sampling period---------->||                  |                  |                          |snapshot time point    1st-stall                  2nd-stall

下面展示4种典型的场景:

  • 有关闭中断后的CPU循环
 rcu:          hardirqs   softirqs   csw/systemrcu:  number:        0          0            0rcu: cputime:        0          0            0   ==> 2500(ms)

因为中断被关闭,因此没有中断和上下文切换。同时cpu time是在中断处理中统计的,所以也是0.
这处场景通常还会有 "(0 ticks this GP)" 打印出来.

  • 有关闭下半部后的CPU循环.

    这种情况和第1种情况类似,但是硬中断和上下文切换是有统计的:

 rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624          0            0rcu: cputime:       49          0         2446   ==> 2500(ms)

softirqs是0说明软中断被禁用,通常通过local_bh_disable().

  • 有关闭抢占情况下的CPU循环.

    这种情况下,只有上下文切换次数为0:

 rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624         45            0rcu: cputime:       69          1         2425   ==> 2500(ms)
  • 没有循环操作,但是有大量的硬件和软中断.
 rcu:          hardirqs   softirqs   csw/systemrcu:  number:       xx         xx            0rcu: cputime:       xx         xx            0   ==> 2500(ms)

这种情况下,硬中断和软中断不为0,但是上下文切换次数和sys cpu时间为0
软中断也有可能为0,比如在硬中断处理里有cpu spinning.
如果遇到此种情况的CPU stall. 可以进一步查看/proc/interrupts或者通过代码trace每种中断,可以参考show_interrupts().

这篇关于定位分析RCU stall问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/475418

相关文章

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?

maven异常Invalid bound statement(not found)的问题解决

《maven异常Invalidboundstatement(notfound)的问题解决》本文详细介绍了Maven项目中常见的Invalidboundstatement异常及其解决方案,文中通过... 目录Maven异常:Invalid bound statement (not found) 详解问题描述可

idea粘贴空格时显示NBSP的问题及解决方案

《idea粘贴空格时显示NBSP的问题及解决方案》在IDEA中粘贴代码时出现大量空格占位符NBSP,可以通过取消勾选AdvancedSettings中的相应选项来解决... 目录1、背景介绍2、解决办法3、处理完成总结1、背景介绍python在idehttp://www.chinasem.cna粘贴代码,出

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

SpringSecurity中的跨域问题处理方案

《SpringSecurity中的跨域问题处理方案》本文介绍了跨域资源共享(CORS)技术在JavaEE开发中的应用,详细讲解了CORS的工作原理,包括简单请求和非简单请求的处理方式,本文结合实例代码... 目录1.什么是CORS2.简单请求3.非简单请求4.Spring跨域解决方案4.1.@CrossOr

C++ scoped_ptr 和 unique_ptr对比分析

《C++scoped_ptr和unique_ptr对比分析》本文介绍了C++中的`scoped_ptr`和`unique_ptr`,详细比较了它们的特性、使用场景以及现代C++推荐的使用`uni... 目录1. scoped_ptr基本特性主要特点2. unique_ptr基本用法3. 主要区别对比4. u

nacos服务无法注册到nacos服务中心问题及解决

《nacos服务无法注册到nacos服务中心问题及解决》本文详细描述了在Linux服务器上使用Tomcat启动Java程序时,服务无法注册到Nacos的排查过程,通过一系列排查步骤,发现问题出在Tom... 目录简介依赖异常情况排查断点调试原因解决NacosRegisterOnWar结果总结简介1、程序在

Nginx内置变量应用场景分析

《Nginx内置变量应用场景分析》Nginx内置变量速查表,涵盖请求URI、客户端信息、服务器信息、文件路径、响应与性能等类别,这篇文章给大家介绍Nginx内置变量应用场景分析,感兴趣的朋友跟随小编一... 目录1. Nginx 内置变量速查表2. 核心变量详解与应用场景3. 实际应用举例4. 注意事项Ng

Java多种文件复制方式以及效率对比分析

《Java多种文件复制方式以及效率对比分析》本文总结了Java复制文件的多种方式,包括传统的字节流、字符流、NIO系列、第三方包中的FileUtils等,并提供了不同方式的效率比较,同时,还介绍了遍历... 目录1 背景2 概述3 遍历3.1listFiles()3.2list()3.3org.codeha