本文主要是介绍deepseed 单机多卡程序报错:exits with return code -7,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- 现象:exits with return code -7
- 原因:Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report
,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
这篇关于deepseed 单机多卡程序报错:exits with return code -7的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!