c10d专题

[W socket.cpp:601] [c10d] The IPv6 network addresses of (ubuntu-01, 58465) cannot be retrieved

在微调chatglm2-6b模型的时候,发现服务器报错,大概意思是没能连接上本地的网络,查了很多资料都没有结果,下面这个解决方法对我有用 解决方案:手动添加本地网络 vim /etc/hosts 添上本地网络 127.0.0.1 ubuntu-01     问题解决

RuntimeError: NCCL error in: /opt/ conda/ conda-bld/pytorch 1607370117127/work/ torch/lib/c10d/Proce

1问题 运行pytorch_lightning训练模型时报错如下 RuntimeError: NCCL error in: /opt/ conda/ conda-bld/pytorch 1607370117127/work/torch/lib/c10d/ ProcessGroupNCcL.cpp 784, unhandLed system error, NCCL version 2.7.8