Linux多线程调用ubus导致死锁问题

2024-04-24 19:08

本文主要是介绍Linux多线程调用ubus导致死锁问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

测试组发现用户进程在某种特定情况下,会出现死锁,现象是进程还在S状态,但没有任何反应,所以怀疑死锁。

问题复现

通过几次测试发现,进程中设置的参数恢复出厂后重启进程很大概率会出现死锁,这时候已经把复现的方法明确,但是从复现的场景来看暂时无法定位出原因。接下来就编译问题版本进行问题跟踪。

调试方法

追查进程死锁方法我知道的有这么几种:另开线程心跳监控、另开进程心跳监控,打印调试,gdb调试,git回溯版本范围缩小;

由于进程中开了2个业务线程,所以使用另开线程心跳监控方法有弊端,死锁后调度也会卡住心跳线程导致不能准确定位;综合来看使用gdb进行调试;

GDB调式

下载gdb源码并进行交叉编译,然后拷贝到盒子进行调试;编译进程时加上-g调试信息:

./arm-linux-gnueabihf-gdb ifotond 开始复现死锁,死锁后打印如下

root@www:/mnt/emmc/lock# ./arm-linux-gnueabihf-gdb ifotond-25-g 
GNU gdb (GDB) 8.2
Copyright (C) 2018 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
Type "show copying" and "show warranty" for details.
This GDB was configured as "arm-linux-gnueabihf".
Type "show configuration" for configuration details.
For bug reporting instructions, please see:
<http://www.gnu.org/software/gdb/bugs/>.
Find the GDB manual and other documentation resources online at:<http://www.gnu.org/software/gdb/documentation/>.For help, type "help".
Type "apropos word" to search for commands related to "word"...
Reading symbols from ifotond-25-g...done.
(gdb) r
Starting program: /mnt/emmc/lock/ifotond-25-g 
warning: Unable to find libthread_db matching inferior's thread library, thread debugging will not be available.
[Detaching after fork from child process 28336]
not set the app nameSet sleep time is 28800 
[New LWP 28341]
[New LWP 28342]
[New LWP 28343]
[WARNING]:not set the ubus name
regis id = 8
regis id = 3
regis id = 1
regis id = 2
[LWP 28343 exited]
227 ota_event_set      etype:5, e_status:1, LR:00040600
[Detaching after fork from child process 28346]
227 ota_event_set      etype:6, e_status:1, LR:000283fc
[Detaching after fork from child process 28348]
send data!type is 1!data is 07 01 ac 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 01 be 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 10 30 d4 59 56 71 e8 9a 6a b2 fc db 7e f3 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 04 07 60 2a 22 00 00 00 00 00 00 00 00 00 00 00 00 08 07 60 2a 22 d9 db 2b 89 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
recv data!type is 0!data is 01 00 
[Detaching after fork from child process 28357]
[ERROR]:register timeout = 30 name = ifoton
Successfully captured all of multi-frame. Freeing memory.卡住了^C 断下来
Thread 1 "ifotond-25-g" received signal SIGINT, Interrupt.
0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) 
(gdb) 
(gdb) info threadId   Target Id                Frame 
* 1    LWP 28322 "ifotond-25-g" 0xb6cc41b0 in poll ()	主进程==线程1from /lib/arm-linux-gnueabihf/libc.so.62    LWP 28341 "ifotond-25-g" 0xb6caa0c0 in nanosleep ()		线程2from /lib/arm-linux-gnueabihf/libc.so.63    LWP 28342 "ifotond-25-g" 0xb6cc41b0 in poll ()	线程3from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) thread 1
[Switching to thread 1 (LWP 28322)]
#0  0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) bt
#0  0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
#1  0x00000000 in ?? ()
Backtrace stopped: previous frame identical to this frame (corrupt stack?)

从上面打印看,死锁后主线程和线程3卡在同一个poll函数,由于进程中使用的socket通信使用的是select,所以没有直接调用poll函数;poll函数也是用于网络通信的,进程中频繁使用的ubus内部的机制就是使用的网络通信;

查询进程代码没有直接调用poll函数,poll函数在libc库实现,又由于bt没有打印出回溯信息,所以怀疑poll函数是在动态库里面调用的;

搜索动态库,可知在/lib/libubus.so:1742:poll调用,查看ubus源码,确实有调用poll函数;

ubus-1d2b3bb/libubus-io.c
static void wait_data(int fd, bool write)
{struct pollfd pfd = { .fd = fd };pfd.events = write ? POLLOUT : POLLIN;poll(&pfd, 1, -1);
}void __hidden ubus_poll_data(struct ubus_context *ctx, int timeout)
{struct pollfd pfd = {.fd = ctx->sock.fd,.events = POLLIN | POLLERR,};poll(&pfd, 1, timeout ? timeout : -1);ubus_handle_data(&ctx->sock, ULOOP_READ);
}

分析原因

到这里就知道是ubus导致的死锁,我们知道,ubus不支持多线程调用,否则容易出现死锁;进程代码中调用ubus是主线程负责,出现死锁的原因可能就是其他线程调用了ubus,这点从gdb打印也可看出;

在ubus提供的接口ubus_call、ubus_reply、ubus_send中添加参数和in/out打印,待死锁后查看参数就可知道在代码中调用的位置;

最后查出是ubus_send在复位情况后会被线程3调用,导致了主线程调用ubus_call卡住死锁,ubus_call可以明确是正常调用,通过在ubus_send中造一个空指针把pg调用顺序打出就知道了调用者,最后查出了问题原因:没有注意到复位流程会走线程3调用;

问题解决:把这个ubus_send调用加入到主线程队列等待被调用就可以了,可能会有不实时的风险;

扩展

打印调试,在怀疑死锁的模块里面加上这段代码,db_msg换成printf。

	#if 1#define pthread_mutex_lock(lock)  do { \db_msg("lock: in %d, %s", __LINE__, __FUNCTION__); \pthread_mutex_lock(lock); \db_msg("locked: in %d, %s", __LINE__, __FUNCTION__); \} while(0)#define pthread_mutex_unlock(lock)  do { \db_msg("unlock: in %d, %s", __LINE__, __FUNCTION__); \pthread_mutex_unlock(lock); \db_msg("unlocked: in %d, %s", __LINE__, __FUNCTION__); \} while(0)#endif

提示warning: Unable to find libthread_db,应该是libthread.so strap过了或者需要调用libthread_db库来支持,需要验证一下,又有说法是需要额外的libc库和libthread库(size很大)在支持调试,否则info thread信息不准确。

 

这篇关于Linux多线程调用ubus导致死锁问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/932593

相关文章

如何解决mmcv无法安装或安装之后报错问题

《如何解决mmcv无法安装或安装之后报错问题》:本文主要介绍如何解决mmcv无法安装或安装之后报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mmcv无法安装或安装之后报错问题1.当我们运行YOwww.chinasem.cnLO时遇到2.找到下图所示这里3.

浅谈配置MMCV环境,解决报错,版本不匹配问题

《浅谈配置MMCV环境,解决报错,版本不匹配问题》:本文主要介绍浅谈配置MMCV环境,解决报错,版本不匹配问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录配置MMCV环境,解决报错,版本不匹配错误示例正确示例总结配置MMCV环境,解决报错,版本不匹配在col

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

SpringBoot首笔交易慢问题排查与优化方案

《SpringBoot首笔交易慢问题排查与优化方案》在我们的微服务项目中,遇到这样的问题:应用启动后,第一笔交易响应耗时高达4、5秒,而后续请求均能在毫秒级完成,这不仅触发监控告警,也极大影响了用户体... 目录问题背景排查步骤1. 日志分析2. 性能工具定位优化方案:提前预热各种资源1. Flowable

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1