本文主要是介绍MPIRUN 31280 segmentation fault (core dumped),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
用mpirun运行多节点nccl时有时候出现hang死,而且是指定了mpi_host的情况
nccl正常,各节点通信正常,但是一跑mpirun就卡死,core dump。
提前退出:
[worker0:38156] *** Process received signal ***
[worker0:38156] Signal: Segmentation fault (11)
[worker0:38156] Signal code: Address not mapped (1)
[worker0:38156] Failing at address: 0x7f720d342c60
检查dmesg:
[160136.273559] mpirun[35241]: segfault at 7f92554d8c60 ip 00007f9253046c50 sp 00007ffc9427c8e0 error 4 in libgcc_s.so.1[7f925303a000+12000]
mpich和openmpi的文件可能不太一样,stackoverflow上面给出的内容有时候和nccl无关。
最后在这里找到了:Segmentation fault, mpi and gfortran
it is a possibility that somebody else is sharing some activity in a node with me.
解决办法:
不再指定mpi_host.
或者检查当前mpi占用:
mpiexec -n 1 --host your_specific_node hostname
另外还有一种可能,就是你配置的免密登录失效了。首先尝试ssh到其他节点看看能否联通。如果需要输入密码,则是ssh失效了。
如果远程的公钥失效就再拷贝一次。
如果是本地的话,可以用ssh-add -l
查看
如果出现
Could not open a connection to your authentication agent.
则:
eval "$(ssh-agent -s)"
ssh-add ~/.ssh/your_ssh_key
若是远程失效了,采用ssh-copy-id
添加
这篇关于MPIRUN 31280 segmentation fault (core dumped)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!