cudalaunch专题

nccl cudaLaunch kernel

这次希望看一下,ncclAllReduce(  )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。 其中,cudaLaunchKernel的参数的数据流如下图所示: 我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr; 是如何关联到fn上的。