本文主要是介绍Pytorch显存充足出现CUDA error:out of memory错误,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Pytorch显存充足出现CUDA error:out of memory错误
Ref:
https://www.cnblogs.com/jisongxie/p/10276742.html
报错内容
Bug描述
显存充足,并且已经通过 torch.nn.DataParallel
指定GPU编号
CUDA与CUDNN均无错误,NVIDIA驱动无错误
解决方案
以上情况很可能是是Tensorflow和pytorch冲突导致的,因为我发现当我同学在0号GPU上运行程序我就会出问题。
详见pytorch官方论坛:
https://discuss.pytorch.org/t/gpu-is-not-utilized-while-occur-runtimeerror-cuda-runtime-error-out-of-memory-at/34780
使用 CUDA_VISIBLE_DEVICES
限制一下使用的GPU。
比如有0,1,2,3号GPU,CUDA_VISIBLE_DEVICES=2,3,则当前进程的可见GPU只有物理上的2、3号GPU,此时它们的编号也对应变成了0、1,即cuda:0对应2号GPU,cuda:1对应3号GPU。
# 使用python的os模块import os
os.environ['CUDA_VISIBLE_DEVICES']='2, 3'
# 直接设置环境变量(linux系统)export CUDA_VISIBLE_DEVICES=2,3
这篇关于Pytorch显存充足出现CUDA error:out of memory错误的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!