本文主要是介绍nccl cudaLaunch kernel,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这次希望看一下,ncclAllReduce( )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。
其中,cudaLaunchKernel的参数的数据流如下图所示:
我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;
是如何关联到fn上的。
这篇关于nccl cudaLaunch kernel的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!