一个100%CPU占用率,但是线程名混乱和top不准问题定位过程

2024-02-20 14:38

本文主要是介绍一个100%CPU占用率,但是线程名混乱和top不准问题定位过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关键词:task_newtasktask_renameprocess treetop等。
有一个场景CPU占用率100%,同时进程下创建了一大堆线程,很多线程同样的名称。
而且存在一个情况,top查看所有进程占用率要远小于100%
这里有两个问题,
一是线程同名问题,由于程序设计之初没有考虑线程名问题,导致无法根据把线程名和业务联系起来;而且通过top/pstree能看到的这是进程和线程的父子关系。
二是,这些丢失的CPU占用率究竟哪里去了?

1. 获取进程下所有线程的树形结构

这一步很关键,因为很多系统中线程的创建非常频繁,而且处理完任务,快速退出。
常用的工具toppstree等,对线程之间的父子关系是没有显示的,只明确了进程和线程的父子关系。
这里借助/sys/kernel/debug/tracing/events/task/下的task_newtasktask_rename,这两者分别创建线程,然后对线程改名。
有了这两个trace events,就可以记录新创建的线程,新创建的线程和父线程同名,然后通过task_rename进行名称修改,常用的是prctl()

1.1 抓取task_newtasktask_rename数据

通过trace event抓取到的数据如下,task_newtask详细记录了线程由谁创建(父线程)、创建了谁(子线程)、名称是什么(子线程名),然后task_rename详细记录了哪个线程由什么旧名称改成了什么新名称

 sh-153   [000] ....    53.734695: task_newtask: pid=165 comm=sh clone_flags=1200011 oom_score_adj=0cat-165   [000] ...1    53.738804: task_rename: pid=165 oldcomm=sh newcomm=cat oom_score_adj=0sh-153   [000] ....    84.638270: task_newtask: pid=166 comm=sh clone_flags=1200011 oom_score_adj=0xchip_runtime-166   [000] ...1    84.645910: task_rename: pid=166 oldcomm=sh newcomm=xchip_runtime oom_score_adj=0xchip_runtime-166   [000] ....    85.098260: task_newtask: pid=167 comm=xchip_runtime clone_flags=3d0f00 oom_score_adj=0Log2Hostflush-167   [000] ...1    85.099145: task_rename: pid=167 oldcomm=xchip_runtime newcomm=Log2Hostflush oom_score_adj=0xchip_runtime-166   [000] ....    85.133881: task_newtask: pid=168 comm=xchip_runtime clone_flags=3d0f00 oom_score_adj=0usb_server_list-168   [000] ...1    85.134077: task_rename: pid=168 oldcomm=xchip_runtime newcomm=usb_server_list oom_score_adj=0usb_server_list-168   [000] ....   116.497292: task_newtask: pid=169 comm=usb_server_list clone_flags=3d0f00 oom_score_adj=0coreComm-169   [000] ...1   116.501998: task_rename: pid=169 oldcomm=usb_server_list newcomm=coreComm oom_score_adj=0usb_server_list-168   [000] ....   116.514232: task_newtask: pid=170 comm=usb_server_list clone_flags=3d0f00 oom_score_adj=0

请问下怎么通过trace event抓取到/sys/kernel/debug/tracing/events/task/task_newtask的数据

echo 1 > /sys/kernel/debug/tracing/events/enable
/sys/kernel/debug/tracing/events/task/task_newtask enble
echo 1 > /sys/kernel/debug/tracing/tracing_on
cat /sys/kernel/debug/tracing/trace > /sdcard/trace.txt

cat /sys/kernel/debug/tracing/trace|grep -E 'task_rename|task_newtask'

1.2 脚本分析生成线程树形结构

jupyter-notebook中读取trace.txt文件,然后从中提取关键信息,pidcomm、父pid、子pid列表。
pid为字典键值,分析过程如下。

import reprocess_tree = {}
ap_trace_file = open('/home/al/trace.txt', 'rb')
for line in ap_trace_file:ftrace_line_fmt = \' *(?P<proc>.*)-(?P<pid>[0-9]*) *\[(?P<cpu>[0-9]*)\] *'+\'(?P<flags>.{4}) *(?P<ktime>[0-9\.]*): *'+\'(?P<msg>.*)'m = re.match(ftrace_line_fmt, line)if(not m):continueproc = m.group('proc')pid = m.group('pid')msg = m.group('msg')if (not process_tree.has_key(pid)):process_tree[pid] = {'comm':proc, 'child':[], 'father':0}#Analyze task_newtask.#task_newtask: pid=165 comm=sh clone_flags=1200011 oom_score_adj=0task_newtask_fmt = 'task_newtask: pid=(?P<cpid>[0-9]*) comm=(?P<comm>.*) clone_flags.*'m = re.match(task_newtask_fmt, msg)if(m):cpid = m.group('cpid')comm = m.group('comm')#print pid, cpid, comm#process_tree.update({cpid:{'child':[], 'comm':comm}})process_tree[pid]['child'].append(cpid)if(not process_tree.has_key(cpid)):process_tree[cpid] = {'comm':comm, 'child':[], 'father':pid}#Analyze task_rename.#task_rename: pid=170 oldcomm=usb_server_list newcomm=adapter oom_score_adj=0task_rename_fmt = 'task_rename: pid=(?P<cpid>[0-9]*) oldcomm=(?P<oldcomm>.*) newcomm=(?P<newcomm>.*) oom_score_adj.*'m = re.match(task_rename_fmt, msg)if(m):cpid = m.group('cpid')oldcomm = m.group('oldcomm')newcomm = m.group('newcomm')process_tree[cpid]['comm'] = newcomm#print cpid, oldcomm, newcomm
ap_trace_file.close()

然后根据process_tree解析结果,显示成树形结构:

for key, item in process_tree.items():if ( item['father'] == 0 ):print item['comm']+':'+keyfor child1 in item['child']:print "    |-2-"+process_tree[child1]['comm']+':'+child1for child2 in process_tree[child1]['child']:print "        |-3-"+process_tree[child2]['comm']+':'+child2for child3 in process_tree[child2]['child']:print "            |-4-"+process_tree[child3]['comm']+':'+child3for child4 in process_tree[child3]['child']:print "                |-5-"+process_tree[child4]['comm']+':'+child4for child5 in process_tree[child4]['child']:print "                    |-6-"+process_tree[child5]['comm']+':'+child5for child6 in process_tree[child5]['child']:print "                        |-7-"+process_tree[child6]['comm']+':'+child6for child7 in process_tree[child6]['child']:print "                            |-8-"+process_tree[child7]['comm']+':'+child7

最终输出结果如下。

这里可以看出xchip_runtime下所有线程的创建轨迹,以及其父子关系。

sh:153|-2-cat:165|-2-xchip_runtime:166|-3-Log2Hostflush:167|-3-usb_server_list:168|-4-coreComm:169|-4-adapter:170|-4-usb_server_list:171|-4-sh:172|-5-fp_download_tes:173|-6-sh:174|-7-find:175|-7-awk:176|-6-sh:177|-7-rm:178|-4-usb_server_list:179|-5-usb_server_list:202|-5-usb_server_list:203
...|-5-usb_server_list:2851|-5-usb_server_list:2852|-4-usb_server_list:180|-4-p2p_rx_task:181|-4-IFMS_Init:182|-4-omx_main:183|-5-omx_g1_output:218|-4-src:src:184|-5-omxdec:src:219|-4-iccsrc_rx:185|-4-usb_server_list:186|-4-p2p_rx_task:187|-4-omx_main:188|-5-omx_g1_output:192|-4-src:src:189|-5-omxdec:src:193|-4-iccsrc_rx:190|-4-usb_server_list:191|-4-p2p_rx_task:194|-4-omx_main:195|-5-omx_g1_output:199|-4-src:src:196|-5-omxdec:src:200|-4-iccsrc_rx:197|-4-usb_server_list:198|-4-p2p_rx_task:201|-4-omx_main:228|-5-omx_g1_output:240|-4-src:src:229|-5-omxdec:src:241|-4-iccsrc_rx:230|-4-usb_server_list:235|-2-top:646|-2-pidof:1873|-2-top:1907|-2-cat:2830

2. 单线程or多线程执行

根据usb_server_list:179线程的创建线程数量和频率,结合功能就可以判定其对应关系。
线程占用率低于100%的原因,可能是由于usb_server_list创建的子线程频繁创建并快速退出。
top采样周期内并不能完成的存在,这些线程所占用的CPU资源,在总和中得到了统计,但是在top显示具体进程/线程的时候无法统计到。
为了验证构造两个不同的应用,启动一个周期性timer,频率可调整。
然后一个应用顺序执行四个任务,另一个应用分别启动四个线程执行四个任务。
通过top查看其CPU占用率。

2.1 测试程序

创建四个线程分别执行任务:

#include <pthread.h>
#include <unistd.h>
#include <thread>
#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <signal.h>
#include <string.h>unsigned int count = 0;
#define LOOP_COUNT 40000void thread_fn(void)
{unsigned int i, a;for(i = 0; i < LOOP_COUNT; i++) {a++;}
}void timer_thread(union sigval v)
{std::thread thread1, thread2, thread3, thread4;//printf("pthread count=%d.\n", count++);thread1 = std::thread(thread_fn);thread2 = std::thread(thread_fn);thread3 = std::thread(thread_fn);thread4 = std::thread(thread_fn);thread1.join();thread2.join();thread3.join();thread4.join();
}int main(int argc, char** argv)
{timer_t timerid = 0;struct itimerspec it;struct sigevent evp;memset(&evp, 0, sizeof(struct sigevent));evp.sigev_value.sival_int = 111;evp.sigev_notify = SIGEV_THREAD;evp.sigev_notify_function = timer_thread;if (timer_create(CLOCK_REALTIME, &evp, &timerid) == -1)  {  perror("fail to timer_create");  return -1;;  }  printf("timer_create timerid = %d\n", timerid);it.it_interval.tv_sec = 0;it.it_interval.tv_nsec = atoi(argv[1]);  it.it_value.tv_sec = 1;it.it_value.tv_nsec = 0;  if (timer_settime(&timerid, 0, &it, NULL) == -1)  {  perror("fail to timer_settime");  return -1;}  while(1) {sleep(1);}return 0;
}

编译如下:

csky-abiv2-linux-g++ pthread_4simu.cc -o pthread_4simu -lpthread --std=c++11 -lrt

创建顺序执行四个任务:

#include <pthread.h>
#include <unistd.h>
#include <thread>
#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <signal.h>
#include <string.h>unsigned int count = 0;
#define LOOP_COUNT 40000void thread_fn(void)
{unsigned int i, a;for(i = 0; i < LOOP_COUNT; i++) {a++;}
}void timer_thread(union sigval v)
{//printf("loop count=%d.\n", count++);thread_fn();thread_fn();thread_fn();thread_fn();
}int main(int argc, char** argv)
{timer_t timerid = 0;struct itimerspec it;struct sigevent evp;memset(&evp, 0, sizeof(struct sigevent));evp.sigev_value.sival_int = 111;evp.sigev_notify = SIGEV_THREAD;evp.sigev_notify_function = timer_thread;if (timer_create(CLOCK_REALTIME, &evp, &timerid) == -1)  {  perror("fail to timer_create");  return -1;;  }  printf("timer_create timerid = %d\n", timerid);it.it_interval.tv_sec = 0;it.it_interval.tv_nsec = atoi(argv[1]);  it.it_value.tv_sec = 1;it.it_value.tv_nsec = 0;  if (timer_settime(&timerid, 0, &it, NULL) == -1)  {  perror("fail to timer_settime");  return -1;}  while(1) {sleep(1);}return 0;
}

编译如下:

csky-abiv2-linux-g++ loop.cc -o loop -lrt

2.2 测试结果

分别采用不同周期(5ms10ms25ms40ms100ms),对两种方式进行测试结果如下
https://www.cnblogs.com/arnoldlu/p/12112225.html
说明起线程执行任务,开销还是存在的;在新建线程数量较小情况下,对CPU占用率影响较低。但是随着新建线程数量增加,对CPU占用率的影响会越来越明显,严重时系统调度能力会下降。

3. 解决方法

针对线程名混乱的情况,在有了线程树形结构之后,结合代码比较容易找到入口点,修改线程名称prctl()/pthread_setname_np()。

修改usb_server_list:179的处理方式,改成单线程处理任务。一是降低系统线程创建销毁的开销,二是让top统计CPU占用率更加准确。

有了这两者,就可以明确线程占用率和功能对应关系,进入具体线程进行分析。

这篇关于一个100%CPU占用率,但是线程名混乱和top不准问题定位过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728549

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo