首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
cudalaunch专题
nccl cudaLaunch kernel
这次希望看一下,ncclAllReduce( )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。 其中,cudaLaunchKernel的参数的数据流如下图所示: 我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr; 是如何关联到fn上的。
阅读更多...