本文主要是介绍RuntimeError: NCCL error in: /opt/ conda/ conda-bld/pytorch 1607370117127/work/ torch/lib/c10d/Proce,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1问题
运行pytorch_lightning训练模型时报错如下
RuntimeError: NCCL error in: /opt/ conda/ conda-bld/pytorch 1607370117127/work/torch/lib/c10d/ ProcessGroupNCcL.cpp 784, unhandLed system error, NCCL version 2.7.8
2解决方法
报错时我的设置是gpus=[1,3](我的服务器上这俩gpu都是空闲的),改成gpus=1即可
(但是我设置成[1,3]就是因为前一天运行的时候使用一个gpu还是out of memory,不知道为什么今天就成这样了)
3原理
至今未完全明白(期待评论区大神),目前找到的几种解释
1 没启动并行计算
根据我上面改成一个gpu就可以运行的情况来看,这个解释的可能性大一点,但是因为解决措施的那些个需要按照自己环境、程序修改的参数太复杂,这里还是放弃了
参考链接:(3条消息) RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8_++加油呀的博客-CSDN博客
2 CPU资源不够
(但是我是拿gpu跑的呀)
3 主机名不匹配(没太搞懂在说啥
参考链接,最下面的评论
RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled system error, NCCL version 2.7.8 - distributed - PyTorch Forums
4 pytorch等版本不匹配
这篇关于RuntimeError: NCCL error in: /opt/ conda/ conda-bld/pytorch 1607370117127/work/ torch/lib/c10d/Proce的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!