本文主要是介绍CUDA error: uncorrectable ECC error encountered,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
线上AI服务执行任务突然一直报错:
CUDA error: uncorrectable ECC error encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
经过摸索,需要关闭英伟达显卡的ECC参数。
ECC(error correcting code, 错误检查和纠正)能够提高数据的正确性,随之而来的是可用内存的减少和性能上的损失。对于Tesla系列伺服器该功能默认开启。
通过命令 nvidia-smi -i n
可查看第n个个显卡的简要信息(详细信息可通过 nvidia-smi -q -i 0获取),其中有一项是volatile Uncorr. ECC, 可通过该选项查看当前配置。
通过 nvidia-smi -i n -e 0/1 可关闭(0)/开启(1)第n号GPU的ECC模式。
通过实践,关闭ECC程序的性能能得到13%~15%的提升。
关ecc
这篇关于CUDA error: uncorrectable ECC error encountered的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!